Algorithmen Vorlesung im Rahmen des dualen Studiums „Scientific Programming“ (FH Aachen) / MATSE-Ausbildung Prof. Dr. Hans Joachim Pflug IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 1 Inhalt der Vorlesung (Ende März – Anfang April) Grundbegiffe; auf Feldern basierende Datenstrukturen Termin Inhalt 1 Grundbegriffe, sequentielle und binäre Suche 2 ADTs, dynamische Felder, zirkuläre dynamische Felder 3 Mengen, assoziative Felder, Hashtabellen 4 Hashtabellen, offene Adressierung … Java-Klausur IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 2 Inhalt der Vorlesung (Anfang April bis Ende April) Verkettete Listen und Bäume Termin Inhalt 5 Verkettete Listen 6 Binärbäume, binäre Suchbäume 7 Balancierte Bäume, AVL-Bäume 8 B-Bäume 9 Varianten von B-Bäumen, Baumdurchlauf (1) 10 Heaps, Heap-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 3 Inhalt der Vorlesung (Ende April bis Mitte Mai) Bäume und Graphen Termin Inhalt 11 Graphen, Breitensuche 12 Tiefensuche, Baumdurchlauf 13 Backtracking 1 14 Backtracking 2 15 Kürzeste Wege in Graphen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 4 Inhalt der Vorlesung (Mitte Mai bis Anfang Juni) Textsuche Termin 16 17 18 19 Inhalt Textsuche Reguläre Ausdrücke Simulation nach Kleene Auswertung von PCRE IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 5 Inhalt der Vorlesung (Anfang Juni bis Ende Juni) Sortieralgorithmen Termin Inhalt 20 Einfache Sortierverfahren 21 Quick-Sort 22 Merge-Sort und Radix-Sort 23 24 25 Entwurfsprinzipen Klausurvorbereitung Klausurvorbereitung IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 6 Literatur • Güting, H., Dieker, S.: „Datenstrukturen und Algorithmen“ 377 Seiten Teubner, 3. Auflage 2004 • Lang, H. W.: „Algorithmen in Java “ 270 Seiten Oldenbourg, 2002 • Owsnicki-Klewe, B.: „Algorithmen und Datenstrukturen“ 224 Seiten Wißner, 5. Auflage 2009 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 7 Vorlesung 1 Vorlesung 1 Grundbegriffe, sequentielle und binäre Suche IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 8 Algorithmusbegriff Abu Ja‘far Mohammed ibn Musa al-Khowarizmi: – Persischer Mathematiker, lebte um 820 in Bagdad – Sein Name wurde in den lateinischen Übersetzungen des Mittelalters zu Algorismi. – Der Name stammt eigentlich von seiner Geburtsstadt Khowarizm, dem heutigen Chiwa in Usbekistan. Die Stadt enthält zahlreiche Kulturdenkmäler und wurde 1990 komplett zum Weltkulturerbe erklärt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 9 Algorithmen im Alltag • Bedienungsanleitung für Münztelefone • Kochrezept • Lösungsanleitung für den Zauberwürfel • ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 10 Der Algorithmusbegriff Ein Algorithmus (in der EDV) ist - eine Lösungsvorschrift für eine Problemklasse -eine Problemklasse ist z.B.: „löse quadratische Gleichung“. -das konkrete Problem wird durch Eingabeparameter spezifiziert. - geeignet für Implementierung als Computerprogramm - endliche Folge von elementaren, ausführbaren Instruktionen (Verarbeitungsschritten) Beispiele für Instruktionen: x = x + z; if (a > 0) b = 1; IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 11 Problem – Algorithmus – Programm Problemklasse z.B.: löse quadratische Gleichung löst Algorithmus 1 ... Algorithmus 2 repräsentiert ... IT Center, Prof. Dr. H. Pflug Programm 2.1 Programm 2.2 „Algorithmen‟– Scientific Programming / MATSE, 2016 ... 12 Eigenschaften eines Algorithmus Terminierung: Ein Algorithmus heißt terminierend, wenn er (bei jeder erlaubten Eingabe) nach endlichen vielen Schritten abbricht. Determiniertheit: Festgelegtes Ergebnis: Bei vorgegebener Eingabe wird ein eindeutiges Ergebnis geliefert. Determinismus: Festgelegter Ablauf: Eindeutige Vorgabe der Abfolge der auszuführenden Schritte. ( Determiniertheit) Die meisten hier betrachteten Algorithmen sind deterministisch und terminierend. Sie definieren eine Ein-/Ausgabefunktion: f : Eingabewerte Ausgabewerte IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 13 Darstellung von Algorithmen • • • • • Verbale Umschreibung (Handlungsanweisung) graphisch: Struktogramme, Flussdiagramme, ... Pseudo-Code Höhere Programmiersprache ... • Churchsche These Alle Darstellungsformen von Algorithmen sind äquivalent. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 14 Komplexitätsanalyse • Unterschiedlichste Darstellungen für denselben Algorithmus; auch Programme sind Darstellungen ... • Außerdem: Unterschiedliche Algorithmen für das gleiche Problem Ziel: Algorithmen miteinander vergleichen (Komplexitätsanalyse) - Kriterien: Laufzeit und Speicherplatzbedarf - Komplexität wird ausgedrückt in Abhängigkeit von Menge und Größe der bearbeiteten Daten • Komplexität von Algorithmus (bedingt) auf konkrete Implementierung übertragbar IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 15 Zusammenhang Algorithmus/Funktion • Komplexität: Zur Berechnung erforderliche Aufwand an Betriebsmitteln (Speicherplatz, Rechenzeit, benötigte Geräte, usw.) • Komplexität eines Algorithmus: erforderlicher Aufwand bei Realisierung des Algorithmus (innerhalb des Berechnungsmodells) • Komplexität einer Funktion: Komplexität des bestmöglichen Algorithmus von allen Algorithmen, die die Funktion berechnen • Sei A ein Algorithmus, der die Funktion f berechnet – Komplexität von A Komplexität von f – Komplexität von f Komplexität von A • Fallen untere und obere Schranke zusammen, so hat man einen optimalen Algorithmus für das gestellte Problem. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 16 Laufzeit bestimmen Möglichkeiten für das „Messen“ der Effizienz eines Algorithmus: 1. Algorithmus auf realem Rechner implementieren; Zeitverbrauch messen Nachteil: Zu viele Einflussgrößen abgesehen von Algorithmus selbst 2. Zählen der Rechenschritte, die bei Durchführung für eine Eingabe gemacht werden Frage: was ist ein Rechenschritt? formales Berechnungsmodell, z.B. Turingmaschine oder RAM Algorithmus in künstlicher Programmiersprache „programmieren“; Operationen zählen und gewichten Nachteil: Aufwand; Frage der Übertragbarkeit 3. Operationen auf sehr hohem Niveau zählen (z.B. Anzahl der Vergleiche beim Suchen in Liste oder Anzahl der zu vertauschenden Elementpaare beim Sortieren) Nachteil: Grobe Abschätzung IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 17 Zeitkomplexität: Einführung • Wir benutzen als einfach zu handhabende Messgröße den Zeitverbrauch. • Gegeben ist ein Problem der Problemgröße n Beispiel: Sortieren von n Werten. • Es gibt mehrere mögliche Algorithmen für das Problem. • Welcher Algorithmus der schnellste ist, hängt von der Problemgröße n ab. • Für sehr große n wird aber immer derjenige Algorithmus der schnellste sein, dessen Laufzeit am wenigsten mit n ansteigt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 18 Zeitkomplexität (bis n=18) n=9 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 19 Zeitkomplexität (bis n=250) Faktor in Problemgröße bei 10 mal schnellerem Rechner 10 8 3.162 2.163 1.191 n=148 n=89 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 20 Beispiel: Fehlprognose durch zu kleines n Laufzeit: t = n2 + 100 n (ms) n = 5: Laufzeit 0.525 sec n = 10: Laufzeit 1.100 sec n = 33: Laufzeit 4.389 sec IRRIGE Annahme: lineares Wachstum: t = 110 n (ms) n = 200: Laufzeit: 22 sec In Wirklichkeit sind es 420 sec = 7 min IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 21 Landau-Symbole • Uns interessiert, wie ein Algorithmus für große n von n abhängt. Um das mathematisch genau fassen zu können, benutzt man die LandauSymbole. Edmund Georg Hermann Landau: * 14. Februar 1877, † 19. Februar 1938 Deutscher Mathematiker, der sich um die analytische Zahlentheorie verdient gemacht hat IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 22 Definition: Landau-Symbole In der Regel ist man nicht an exakter Anzahl v. Operationen interessiert, sondern an Komplexitätsklassen: „Wie verändert sich der Rechenaufwand, wenn man die Eingabedaten um einen bestimmten Faktor vergrößert? Wie ist der qualitative Verlauf der Laufzeitfunktion?“ Für eine Funktion g:IN IR>0 sind folgende Funktionenmengen definiert: O(g) = {f:IN IR>0 | n0IN>0, cIR>0 mit f(n)cg(n) nn0 } (g) = {f:IN IR>0 | n0IN>0, cIR>0 mit f(n)cg(n) nn0 } Bezeichnungen für O (sprich: „groß O“; eigentlich „groß Omikron“): • „Asymptotische obere Schranke“; • „Ordnung der Funktion“; • „Komplexitätsklasse“ IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 23 Erläuterung zur O-Notation • O(g) ist die Menge aller Funktionen, die asymptotisch höchstens so schnell wachsen wie cg. • z.B. ist 2n 2 5n 13 O(n 2 ) 2n 2 5n 13 O(n) 5n 13 O(n ) 2 5n 13 O(n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 24 Erläuterungen zur O-Notation (2) c·g(n) f O(g) n0 IT Center, Prof. Dr. H. Pflug n „Algorithmen‟– Scientific Programming / MATSE, 2016 25 Erläuterungen zur O-Notation (3) • Bei Summen setzt sich der am schnellsten ansteigendeTerm durch. Beispiel: f(n) = 2n² + 7n +10 steigt am schnellsten an. => f(n) є O(n²) Beweis: 2n²+7n+10 3 n² für n0 = 9 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 26 Erläuterungen zur O-Notation (4) Man könnte auch schreiben f(n) = 2n² + 7n + 10 є O(2n² + 7n + 10) Es interessiert aber nur der Vergleich mit einfachen Funktionen, wie O(n), O(n²),... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 27 Bezeichnungen typischer Klassen Klasse Bezeichnung Beispiel konstant elementarer Befehl logarithmisch Binäre Suche (2er-Logarithmus) linear Minimum einer Folge überlinear effiziente Sortierverfahren n2 quadratisch einfache Sortierverfahren n3 kubisch Matrizeninversion nk polynomiell Lineare Programmierung 2cn exponentiell Erschöpfende Suche, Backtracking n! Fakultät Permutationen, Handlungsreisender 1 log n n n log n Es gilt: O(1) O(n) ... O(n!) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 28 Faustregel für O-Notation • Faustregel: Kleinstmögliche Komplexitätsklasse (in ONotation) ergibt sich aus TA(n) durch: – Extraktion des „dominanten“ (größten) Terms und – Weglassen des Koeffizienten z.B. T(n)=60n2 + 4n TO(n2); T(n)=ld(n) + 1 TO(ld(n))=O(log(n)), wegen log IT Center, Prof. Dr. H. Pflug a ( n) log log b b ( n) (a) „Algorithmen‟– Scientific Programming / MATSE, 2016 29 Ω-Notation • Ω(f) ist die Menge aller Funktionen, die asymptotisch mindestens höchstens so schnell wachsen wie cg. Beispiel: f(n) = 2n² + 7n +10 => f(n) є Ω(n²) Beweis: 2n²+7n+10 2 n² für n0 = 1 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 30 Θ-Notation Ist f(n) є (g) und f(n) є O(g), dann ist f(n) є Θ(g) . Es existiert eine obere Schranke c1 und eine untere Schranke c2, so dass asymptotisch (bzw. für alle n>n0) gilt: c1g(n) f(n)c2g(n) Beispiel: f(n) = 2n² + 7n +10 f(n) є Θ(n²) Beweis: 3 n² 2n²+7n+10 2 n² für n0 = 9 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 31 Θ-Notation (Grafik) c1·g(n) f (g) c2·g(n) n0 IT Center, Prof. Dr. H. Pflug n „Algorithmen‟– Scientific Programming / MATSE, 2016 32 Genauer hingesehen • Ein Algorithmus habe den maximalen Zeitbedarf TA(n) = 3 n². Also ist – TA(n) O(n²) – TA(n) O(n³) – usw. • Interessant ist natürlich nur das minimale O(g), hier also O(n²). • Das Wörtchen minimal wird aber oft weggelassen. • Frage: Warum dieser Umstand mit der minimalen oberen Schranke? Könnte man nicht auch einfach die -Notation benutzen? • Antwort: Normalerweise schon, aber .... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 33 Genauer hingesehen (2) • Wir betrachten folgende Funktion: public void sehrSeltsam(int[] array) { n = array.length; if (n % 2 == 0) { //Feldlaenge gerade //Tausche nur die ersten beiden Elemente -> O(1) } else { //Feldlaenge ungerade //Sortiere das Feld mit Bubble-Sort -> O(n^2) } } • Das minimale O ist O(n²) • Das maximale Ω ist Ω(1) • Der Zeitbedarf ist in keiner Menge Θ(g) vorhanden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 34 Beispiel TA(n) = n(n-1)/2 TA O(n2), denn: n(n-1)/2 = 1/2 (n2-n) n2-n (für n) n2 mit n0=1, c=1 erfüllt TA(n) die Definition der O-Notation TA(n) = n2+2n TA O(n2), denn: n2+2n n2+ 2n2 = 3n2 mit n0=1, c=3 ist die Definition erfüllt Also: – Algorithmus mit TA(n) = n(n-1)/2 ist zwar besser als einer mit n2+2n(!); – aber sie sind beide in der gleichen Komplexitätsklasse (etwa gleich gut). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 35 Beispiel TA(n) = n(n-1)/2 TA O(n2), denn: n(n-1)/2 = 1/2 (n2-n) n2-n n2 (n>0) mit n0=1, c=1 erfüllt TA(n) die Definition der O-Notation TA(n) = n2+2n TA O(n2), denn: n2+2n n2+ 2n2 = 3n2 mit n0=1, c=3 ist die Definition erfüllt Also: – Algorithmus mit TA(n) = n(n-1)/2 ist zwar besser als einer mit n2+2n(!); – aber sie sind beide in der gleichen Komplexitätsklasse (etwa gleich gut). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 36 Analyse von Algorithmen: Beispiele (1) • Schleife • for (int i=1; i<=n; i++) { a[i] = 0; } for (int i=1; i<=n; i++) for (int j=1; j<=n; j++) k++; O( O( ) • Nacheinanderausführen for (int i=1; i<=n; i++) a[i] = 0; for (int i=1; i<=n; i++) for (int j=1; j<=n; j++) a[i] = a[j] + i + j; O( ) IT Center, Prof. Dr. H. Pflug • Geschachtelte Schleife ) Bedingte Anweisung if (x > 100) { y = x; } else { for (int i=1; i<=n; i++) if (a[i] > y) y = a[i]; } O( ) „Algorithmen‟– Scientific Programming / MATSE, 2016 37 Analyse von Algorithmen: Beispiele (2) • Innere Schleifenbedingung hängt von Lauf ab for (int i=1; i<=n; i++) for (int j=1; j<= i ; j++) k++; int i=n; while (i>=1) { x ++; i /= 2; // i wird immer halbiert } T(n)= O( • Schleifenvariable in jedem Lauf halbiert ) T(n)= • Aussprung for (int i=1; i<=n; i++) if (i > 2) return; T(n)= O( IT Center, Prof. Dr. H. Pflug ) O( ) „Algorithmen‟– Scientific Programming / MATSE, 2016 38 Rekursive Berechnung O(n) Funktionsaufrufe static long fakultaet(int n) { if (n>0) { return (n * fakultaet(n-1)); } else { return 1; } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 39 Worst, Best, Average Case • Man unterscheidet den Zeitbedarf im – im schlechtesten Fall (worst case), – in einem „durchschnittlichen“ Fall (average case) und – im besten Fall (best case). • Der durchschnittliche Fall ist dann wichtig, wenn der beste oder der schlechteste Fall selten auftretende Sonderfälle sind. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 40 Beispiel: Suchen in Listen – Prüfen: contains(element) • Element muss in der Liste gesucht werden. – Auslesen: O(n) get(indexOf(element)) • Element muss in der Liste gesucht werden. O(n) – Diese Art der Suche nennt man auch lineare oder sequentielle Suche. Durchschnittlich werden n/2 Elemente durchsucht (O(n)). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 41 Sortierte Listen Definition: Eine Liste mit n Elementen heißt (nach Schlüsseln) sortierte Liste, falls gilt: 1 i n-1 : Schlüssel(i) Schlüssel(i+1). Der wichtigste Unterschied zur unsortierten Liste ist, dass man ein effektiveres Suchverfahren einsetzen kann: die binäre Suche. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 42 Binäre Suche (Binary Search) Voraussetzung: – Liste ist sortiert Prinzip: – Greife zuerst auf das mittlere Element zu – Prüfe, ob der Schlüssel des gesuchten Elements • kleiner als der Schlüssel des betrachteten Elements ist suche genauso in linker Teilliste weiter • gleich dem Schlüssel des betrachteten Elements ist fertig • größer als der Schlüssel des betrachteten Elements ist suche genauso in rechter Teilliste weiter IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 43 Beispiel zur binären Suche • Suchen der 27 Iteration 1 0 1 2 3 4 5 6 7 8 11 22 27 33 38 40 41 160 200 L 2 11 L 3 11 22 27 C 22 33 38 40 41 160 200 38 40 41 160 200 R 27 L C IT Center, Prof. Dr. H. Pflug R C 33 R „Algorithmen‟– Scientific Programming / MATSE, 2016 44 Beispiel zur binären Suche • Suchen der 26 Iteration 1 0 1 2 3 4 5 6 7 8 11 22 27 33 38 40 41 160 200 L 2 11 L 3 11 22 27 C 22 11 22 R IT Center, Prof. Dr. H. Pflug 33 38 40 41 160 200 38 40 41 160 200 38 40 41 160 200 R 27 L C 4 R C 27 33 R 33 L „Algorithmen‟– Scientific Programming / MATSE, 2016 45 Komplexität der Binären Suche • Bei jedem Suchschritt halbiert sich die Größe des noch zu durchsuchenden Restfelds im Worst Case ld (n+1) Suchschritte • Mit k Suchschritten sind 2k -1 Elemente erreichbar. • Nach ld (n+1) -1 Schritten ist etwa die Hälfte aller Elemente erreichbar Worst Case nicht wesentlich aufwändiger als Average Case IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 46 Java - API java.util.Arrays.binarySearch(type[] a, type key); type: (Es gibt Varianten für int, long, float, double, …, Object) Searches the specified array for the specified value using the binary search algorithm. The array must be sorted (as by the sort method, above) prior to making this call. If it is not sorted, the results are undefined. If the array contains multiple elements with the specified value, there is no guarantee which one will be found. Parameters: a - the array to be searched. key - the value to be searched for. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 47 Java - API (2) Gibt es auch für Collections: bis Java 1.4: java.util.Collections.binarySearch(List list, Object key); ab Java 1.5 (Verwendung von Generic Types) java.util.Collections.binarySearch(List <? extends Comparable<? super T>> list, T key); In Java 1.5 stellt die Methode von vornherein sicher, dass key mit den Elementen aus list vergleichbar ist. Fortgeschrittene Verwendung von Generic Types, an dieser Stelle keine Erläuterung. Verwendung wie bei Java 1.4 möglich. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 48 Suchen in sortierten Listen O(log n) Unsort. Liste O(n) O(log n) O(n) – Prüfen: • Element muss in der Liste gesucht werden. – Auslesen: • Element muss in der Liste gesucht werden. • Günstig, falls oft gesucht wird (aber selten eingefügt oder gelöscht) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 49 Vorlesung 2 Vorlesung 2 Abstrakte Datentypen Dynamische Felder Zirkuläre dynamische Felder IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 50 Atomare Datentypen und Datenstrukturen Datentypen Atomare Datentypen Datenstrukturen (elementare, skalare Datentypen; Java: primitive Datentypen) (strukturierte, zusammengesetzte Datentypen; Java: Objekte) boolean char byte short int long float double IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 51 Beispiel für Datenstruktur Vektor = Strukturierter Datentyp (Datenstruktur) mit • Datenelementen, • Strukturregeln • speziellen Operationen 2.1 5.3 a 0.1, b 2.2 6.3 3.2 2.1 5.3 2.1 5.3 7.4 c a b 0.1 2.2 0.1 2.2 2.3 6.3 3.2 6.3 3.2 9.5 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 52 Homogene / heterogene Datenstruktur In einer homogenen Datenstruktur haben alle Komponenten den gleichen Datentyp. In einer heterogenen Datenstruktur haben die Komponenten unterschiedliche Datentypen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 53 Abstrakte Datentypen (ADTs) • 2 Prinzipien: – Kapselung: Zu einem ADT gehört eine Schnittstelle. Zugriffe auf die Datenstruktur erfolgen ausschließlich über die Schnittstelle (z.B.: addElement(...), deleteElement(...)) – Geheimnisprinzip: Die interne Realisierung eines ADTModuls bei der Umsetzung bleibt verborgen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 54 Spezielle ADT in Java • Viele wichtige abstrakte Datentypen werden in Java durch Interfaces beschrieben. • Es gibt ein oder mehrere Implementierungen dieser Interfaces mit unterschiedlichen dahinter stehenden Konzepten. – Package java.util • Ähnliches gilt für andere Bibliotheken, z.B. .NET: – Namespace System.Collections.Generic IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 55 Implementation abstrakter Datentypen • Abstrakte Datentypen können unterschiedlich realisiert werden. • Z.B. der ADT „Liste“ mit der Datenstruktur „dynamisches Feld“ oder „verkettete Liste“. • Daher gibt es in Java zum Interface „List“ die Implementationen „ArrayList“ und „LinkedList“. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 56 Spezielle ADTs in dieser Vorlesung ADT JavaInterface Java-Klassen (Bsp.) Feld (nur kurz) - (Felder) Liste, Stack, Queue, Deque List, Queue, Deque ArrayList, LinkedList, ArrayDeque Menge, Assoziatives Feld Set, Map HashSet, HashMap Prioritätswarteschlange - PriorityQueue IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 57 ADT Feld • Der ADT Array(Feld) hat folgende spezielle Eigenschaften: – Feste Anzahl von Datenobjekten – Auf jedes Objekt kann direkt (lesend oder schreibend) zugegriffen werden – In Java: Normales Feld IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 58 ADT Liste • Für die ADT Liste(List) kommt gegenüber einem Feld hinzu: – Eine Liste kann wachsen und schrumpfen. • In Java – ADT in Java: Interface List – 1. Wahl für Implementierung: ArrayList • Dynamisches Feld • Schwächen: Einfügen/Löschen vorne, Mitte, worst case auch hinten – Alternativen: LinkedList (doppelt verkettete Liste), evtl. HashMap (Hashtabelle) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 59 ADT Stack, Queue und Deque • Spezieller sind Stack, Queue und Deque – Stack (Stapel, Keller): Daten können an einem Ende hinzugefügt oder entnommen werden. – Queue (Warteschlange): Daten können an einem Ende hinzugefügt und am anderen Ende entnommen werden. – Deque (Double ended queue): Daten können an beiden Enden hinzugefügt und entnommen werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 60 Stack, Queue und Deque in Java • In Java • Stack: – 1. Wahl für Implementierung: ArrayList oder LinkedList • Queue und Deque – Gleiche Anforderungen an Algorithmus – ADT in Java: Interface Deque – 1. Wahl für Implementierung: Klasse ArrayDeque • Zirkuläres dynamisches Feld – oder LinkedList IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 61 ADT Assoziatives Feld • Englische Namen: Associative Array, Dictionary, Map • Wichtigste Operationen – Schlüssel-Wert-Paar einfügen. – Wert zum Schlüssel finden. • In Java – ADT: Java-Interface Map. – 1. Wahl bei Implementierung: Klasse HashMap. • Datenstruktur Hashtabelle • Einfügen/Löschen O(1) ! – Alternativen: Klasse TreeMap • Datenstruktur Rot-Schwarz-Baum • Einfügen/Löschen O(log n) • Daten liegen (im Gegensatz zur Hashtabelle) sortiert vor. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 62 ADT Menge (Set) • Eine Menge (Set) ist eine Sammlung von Elementen des gleichen Datentyps. – Innerhalb der Menge sind die Elemente ungeordnet. – Jedes Element kann nur einmal in der Menge vorkommen. • Wichtigste Operationen: Einfügen, Löschen, Testen (ob vorhanden). • In Java: – ADT: Java-Interface Set – 1. Wahl bei der Implementierung: Klasse HashSet • Datenstruktur Hashtabelle – Alternative: Klasse TreeSet • Datenstruktur Rot-Schwarz-Baum, Daten sind sortiert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 63 ADT Prioritätswarteschlange • Auch Vorrangwarteschlange oder Priority Queue genannt. • Eine Warteschlange, deren Elemente einen Schlüssel (Priorität) besitzen. • Wichtige Operationen bei Prioritätswarteschlangen: – Element in Schlange einfügen – Element mit der höchsten Priorität entnehmen. • In Java: – 1. Wahl bei Implementierung: Klasse PriorityQueue. • Datenstruktur: Dynamisches zirkuläres Feld – Alternative: Klasse TreeSet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 64 C# und Java Java C# Interface List Interface IList ArrayList List LinkedList LinkedList ArrayDeque Queue, Stack Interface Map Interface IDictionary HashMap Dictionary TreeMap SortedDictionary Interface Set Interface ISet HashSet HashSet TreeSet - IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 65 ADT Liste Datenstrukturen zum ADT Liste IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 66 Datenstrukturen zum ADT Liste • Gut geeignet: Lineare homogene Datenstrukturen – mehrere gleichartigen Datenobjekte – 1:1 – Relation • Die wichtigsten linearen homogenen Datenstrukturen sind: – Das Feld, eventuell dynamisch und/oder zirkulär) (heute) – Die verkettete Liste (Vorlesung 5) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 67 Einsatz linearer homogener Datenstrukturen • Lineare homogene Datenstrukturen eignen außer für den ADT Liste noch für • den ADT Feld, • sowie die Spezialfälle der Liste Stack, Queue und Deque. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 68 Dynamisches Feld • Ein dynamisches Feld besteht aus: – Einem (normalen) Feld, das nicht vollständig gefüllt ist. – Einem Zeiger, der anzeigt, welches das erste unbesetzte Element ist. 0 5 10 15 14 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 69 Einfügen hinten (1) Dynamisches Feld: Solange das neue Element noch in das Feld passt: list[n] = newEntry; n++; Einfügen eines Elements: O(1) • Wenn das neue Element nicht mehr in das Feld passt: – Ein Feld mit einer größeren Anzahl von Elementen wird angelegt. – Alle bisherigen Elemente werden umkopiert. – Das neue Element wird angehängt. O(???) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 70 Einfügen hinten (2) • Nehmen wir als Beispiel: 1000 Elemente sollen in die Liste eingefügt werden. • Java nimmt als Anfangsgröße für das Feld 10 – Dies kann (und sollte auch) verändert werden, falls die maximale Größe der Liste vorher bekannt ist. • Immer wenn das Feld zu klein wird, wird ein neues Feld mit doppelt so vielen Elementen erzeugt und alle Elemente umkopiert: – Dies ist eine Vereinfachung zur besseren Rechnung. In Wirklichkeit beträgt der Faktor: • • • • Sun-Java: 1,5 Gnu-Java: 2 C# (Mono): 2 Python: 1,125 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 71 Einfügen hinten (3) Element Nr. Neue Feldgröße Umzukopierende Elemente 11 20 10 21 40 20 41 80 40 81 160 80 161 320 160 321 640 320 641 1280 640 Summe: s =1270 • Wird eine Liste aus n Elemente aufgebaut, ist die Anzahl der kopierten Elemente immer 2n • Aufbau von n Elementen: O(n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 72 Einfügen vorne Aufbau einer Liste von n Elementen durch Einfügen neuer Elemente von vorne: Bei jedem Einfügen müssen alle Elemente einen Platz nach hinten kopiert werden Das ergibt: • 1+2+3+......+(n-1)=(n*(n-1))/2 Kopiervorgänge • O(n²) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 73 Auslesen • Dynamisches Feld: Elemente können generell direkt ausgelesen werden. O(1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 74 Komplexität Dyn. Feld Java-Klasse Array List Auslesen Anfang O(1) Auslesen Mitte O(1) Auslesen Ende O(1) Einfügen/Löschen Anfang O(n) Einfügen/Löschen Mitte O(n) Einfügen/Löschen Ende avg.O(1) wst.O(n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 75 Eignung für Stack und Queue • Ein dynamisches Feld ist für einen Stack gut geeignet. – Einfügen Ende + Auslesen Ende O(1) • Ein dynamisches Feld ist für eine Queue schlecht geeignet. – Entweder Einfügen oder Auslesen O(n) • Daher werden für Queues zirkuläre dynamische Felder benutzt: – Manchmal auch doppelt verkettete Listen (später) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 76 Zirkulär organisiertes Feld 14 15 0 1 2 13 3 12 4 11 5 10 9 8 7 Umlauf im Uhrzeigersinn: i = (i+1) % data.length; Umlauf gegen den Uhrzeigersinn: 6 i = (i-1+data.length) % data.length; IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 77 Queue mit Hilfe eines Feldes (1) public class ArrayQueue { private int head; private int tail; private Object [] data; ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 78 Queue: Methode isEmpty() TH private void clear() { head = 0; tail = 0; } public boolean isEmpty(){ return head == tail; } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 79 Queue: Methode put(..) H T H T public void put(Object o) { data[tail] = o; tail = (tail+1) % data.length; //Fortsetzung naechste Folie IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 80 Queue: Methode put() (2) Noch 1 Element frei T H TH IT Center, Prof. Dr. H. Pflug //Fortsetzung von voriger Folie if (head==tail) { resize(); } } //Ende der Methode voll „Algorithmen‟– Scientific Programming / MATSE, 2016 81 Queue: Methode get() H T public Object get() throws QueueException { if (isEmpty()) { throw new QueueException ("Queue ist leer!"); } Object ret = data[head]; head =(head+1) % data.length; return ret; } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 82 Datenstrukturen für Deque • Wiederholung: Eine Deque ist eine lineare Datenstruktur, bei der die Daten an beiden Enden eingefügt oder entfernt werden können. • Die geeigneten Datenstrukturen entsprechen denen der Queue. – Es wird dazu übergegangen, statt einer Queue gleich eine Deque zu implementieren. – So auch in Java: • Klasse ArrayDeque (zirkuläres dynamisches Feld) für Queues • Zugehöriges Interface: Deque IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 83 Vorlesung 3 Vorlesung 3 Mengen Assoziative Felder Hashtabellen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 84 Abstrakter Datentyp Menge („Set“) Eine Menge (Set) ist eine Sammlung von Elementen des gleichen Datentyps. Innerhalb der Menge sind die Elemente ungeordnet. Jedes Element kann nur einmal in der Menge vorkommen. Operationen: – Elementare Operationen: Einfügen, Löschen, Testen (ob vorhanden). – Darauf aufbauende Operationen: Typische Operationen aus der Mengenlehre: Schnittmenge, Restmenge, … IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 85 Datenstruktur Menge („Set“) • Die Datenstruktur Set ist nur in wenigen Programmiersprachen direkt in der Sprache verfügbar (z.B. PASCAL). • In Java ist Set ein Interface, das (unter anderem) folgende Klassen implementieren: – TreeSet (keine .NET-Entsprechung): Basiert auf der Datenstruktur Rot-Schwarz-Baum, implementiert Erweiterung SortedMap. – HashSet (.NET: HashSet): Basiert auf der Datenstruktur HashTabelle. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 86 ADT Assoziatives Feld • Englische Namen: Associative Array, Dictionary, Map • Sonderform des Feldes – Verwendet keinen numerischen Index zur Adressierung eines Elements (wie a[1]). – Verwendet zur Adressierung einen Schlüssel (z.B. in der Form a[″Meier″]) • Operationen – Feldeintrag einfügen – Feldeintrag auslesen – Feldeintrag löschen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 87 Einsatz von Assoziativen Feldern • Assoziative Felder eignen sich dazu, Datenelemente in einer großen Datenmenge aufzufinden. • Jedes Datenelement wird durch einen eindeutigen Schlüssel identifiziert. daten[suchschluessel]=datenelement • Beispiel: Telefonbuch – Datenelement: (Name, Adresse, Telefonnummer) – Suchschlüssel: Name IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 88 Assoziative Felder in Java • ADT entspricht dem Interface java.util.Map • 2 Implementationen – TreeMap (.NET: SortedDictionary): Basiert auf der Datenstruktur Rot-Schwarz-Baum, implementiert Erweiterung SortedMap. – HashMap (.NET: Dictionary): Basiert auf der Datenstruktur HashTabelle. • Assoziative Felder gibt es auch in vielen anderen Sprachen (gewöhnlich als Hash-Tabelle): – C++ (Map), Python (Dictionary), Ruby (Hash), Perl, PHP, Visual Basic, ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 89 Beispiel in Groovy und Java • Am Beispiel: Telefonbuch als ass. Feld • Groovy (in C# fast identisch): Map tel = new HashMap(); tel["Mustermann"]=123456; System.out.println(tel["Mustermann"]); • Java Map tel = new HashMap(); tel.put("Mustermann", 123456); System.out.println(tel.get("Mustermann")); IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 90 Anwendungsbeispiel in Java • Beispiel in Java (Klasse HashMap) . ... HashMap<String, Integer> map = new HashMap<String, Integer>(); map.put("Januar",1); map.put("Februar",2); map.put("Maerz",3); System.out.println(map.get("Februar")); 2 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 91 Beispiel in Java (2) • Man kann auch prüfen, ob ein String ein Monat ist boolean s = map.containsKey("Januar"); true IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 92 Mengen und assoziative Felder • Ein assoziatives Feld kann immer auch als Menge verwendet werden: – Das Datenelement ist dann ein Dummy-Element. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 93 Mengen und assoziative Felder (2) • Eine Menge kann leicht zu einem assoziatives Feld umgewandelt werden. • public class Element { Object key; Object data; //Zwei Elemente sind gleich, falls //die Schluessel gleich sind public boolean equals(Element b) { return (this.key.equals(b.key)); } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 94 Mengen und assoziative Felder (3) • Diskussion der Datenstrukturen ist für beide ADT gleich. • Im folgenden werden die Datenstrukturen immer am Beispiel der Menge vorgestellt. – Die Erklärungen sind dann etwas einfacher. • Die Hauptanwendungen sind aber assoziative Felder. • In Java: – HashSet – TreeSet IT Center, Prof. Dr. H. Pflug HashMap TreeMap „Algorithmen‟– Scientific Programming / MATSE, 2016 95 Geeignete Datenstrukturen • Assoziative Felder können sehr unterschiedlich verwirklicht werden: • Einfache Lösung: Verwendung einer ArrayList: – – – – Einfügen: Löschen: Prüfen: Auslesen: add(element) remove(element) contains(element) get(indexOf(element) • Aufwendige Lösung: Verwendung einer Datenbank – MySQL, Oracle, Access, … IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 96 Geeignete Datenstrukturen (2) Wichtige Fragen: • Welche Datenstrukturen werden an welcher Stelle verwendet? • Welche Datenstrukturen sind wann geeignet? • Folgende Datenstrukturen werden untersucht: – Die schnellste Datenstruktur (Hashtabelle) wird nachfolgend betrachtet. – Weitere Datenstrukturen (balancierte Bäume) betrachten wir später. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 97 Hashtabellen (Hashtables / Streuwerttabellen) • Einführung: Hashfunktion und Kollision • Hashing in Teillisten • Offene Adressierung (Sondieren) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 98 Grundprinzip einer Hash-Tabelle • Elemente werden in einem großen Feld gespeichert. • In welchem Feldelement ein bestimmter Eintrag gespeichert wird, berechnet eine Hashfunktion h(X) aus dem Schlüssel X („address Feld Index calculator“) 1 2 X address calculator X 3 R 4 . . . T N-1 N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 99 Definitionen zu Hash-Funktion S sei eine Schlüsselmenge und I eine Adressmenge im weitesten Sinn. Dann heißt h : S I Hash - Funktion. Die Bildmenge h(S) I bezeichnet die Menge der Hash-Indizes. |I| = Größe N der Hash-Tabelle Bemerkung: Die Schlüsselmenge ist im allgemeinen sehr viel größer als die Adressmenge. Alle Adressen Deshalb wird eine Hash-Funktion surjektiv ( h(S) = I ), werden erreicht. aber nicht injektiv sein (h(s)=h(t)⇏s=t) ! IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 100 Hash-Funktionen für verschiedene Datentypen • Hash-Funktionen hängen ab von – Datentypen der Schlüssel – Anwendung • Integer: Divisionsrest-Methode („Divisions-Hash“): h(x) = x mod N – Bevorzugtes Verfahren, wenn die Schlüsselverteilung nicht bekannt ist. – Etwaige Regelmäßigkeiten in der Schlüsselverteilung sollten sich nicht in der Adressverteilung auswirken. – Daher sollte N eine Primzahl sein. – Andere Methoden: Faltung, Mid-Square, ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 101 Hash-Funktionen für verschiedene Datentypen • Andere Datentypen: Rückführung auf Integer. – Alle Datentypen: Verwenden der Speicheradresse. – Strings: ASCII/Unicode-Werte addieren (evtl. von einigen Buchstaben, evtl. gewichtet) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 102 Beispiel für Hash-Funktion: h(s) = s mod 10 Index Eintrag 0 1 2 42 3 4 5 Einfügen von 69 führt zu Kollision 6 7 8 9 IT Center, Prof. Dr. H. Pflug 119 „Algorithmen‟– Scientific Programming / MATSE, 2016 103 Beispiele für Hashfunktionen (2) h3(s): int index = ord(s.charAt(0)); index += ord(s.charAt(1)); index += ord(s.charAt(2)); index = index % 17; 0: 1: 2: 3: Mai, September 4: 5: Januar 6: Juli 7: März IT Center, Prof. Dr. H. Pflug 8: Juni 9: August, Oktober 10: Februar 11: 12: 13: 14: November 15: April, Dezember 16: „Algorithmen‟– Scientific Programming / MATSE, 2016 104 Hashing in Java (1) • Collections Framework unterstützt Hashtabellen, z.B. mit Klasse HashMap • java.lang.Object definiert Methode int hashCode() – berechnet Hash-Wert für Objekt (u.U. aus Speicheradresse) – java.lang.Integer und java.lang.String liefern eigene Implementierungen – kann in selbstgeschriebenen Klassen überschrieben werden • hashCode() dient als Basis für Hashfunktionen ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 105 Kollision Definition: Sei S Schlüsselmenge, h Hash-Funktion. Ist für s1 s2 (mit si S) h(s1) = h(s2), so spricht man von einer Kollision. • Wahrscheinlichkeit von Kollisionen ist abhängig von Hashfunktion Hash-Funktionen sollten möglichst gut streuen! • Außerdem: Hash-Funktion muss effizient berechenbar sein. • Wahl einer guten Hash-Funktion schwierig (Wikipedia) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 106 Wahrscheinlichkeit von Kollisionen Annahme: ideale Hash-Funktion, d.h. gleichmäßige Verteilung über die HashTabelle „Geburtstagproblem“: Wie groß ist die Wahrscheinlichkeit, dass mindestens 2 von n Leuten auf einer Party am gleichen Tag Geburtstag haben? Analogie zum Geburtstagsproblem: – m = 365 Tage = Größe Hash-Tabelle (bisher N genannt) – n Personen = Zahl Elemente IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 107 Wahrscheinlichkeit von Kollisionen p(i;m) := Wahrscheinlichkeit, dass i-ter Schlüssel auf freien Platz abgebildet wird (i=1,...,n), wie alle Schlüssel vorher: m0 0 p(1; m) (1 ) (alle Plätze frei) m m m 1 1 p(2; m) (1 ) (ein Platz belegt, m-1 Plätze frei) m m m i 1 i 1 (1 ) (i-1 Plätze belegt, m-i 1 Plätze frei) m m Wahrscheinlichkeit für „keine Kollision“: n n 1 p(i; m) P( NoKol | n, m) p(i; m) (1 i 1 Wahrscheinlichkeit für „mindestens eine Kollision“: P( Kol | n, m) 1 P( NoKol | n, m) IT Center, Prof. Dr. H. Pflug i 0 i ) m „Algorithmen‟– Scientific Programming / MATSE, 2016 108 Tabelle zum Geburtstagsproblem (m=365) IT Center, Prof. Dr. H. Pflug n Pr(Kol|n,m) 10 0,117 20 0,411 ... ... 22 0,476 23 0,507 24 0,538 ... ... 30 0,706 40 0,891 50 0,970 Schon bei 23 Gästen ist die Wahrscheinlichkeit für „Geburtstagspärchen“ > 0,5! („Geburtstagsparadoxon“) Bei 50 Gästen ist „Kollision“ fast sicher „Algorithmen‟– Scientific Programming / MATSE, 2016 109 Kollisionsbehandlung Situation: zwei Einträge werden auf die gleiche Feldadresse abgebildet, d.h. h(x1) = h(x2) Strategien bei Kollisionsbehandlung (u.a.): a) „Verkettung der Überläufer“, „Hash in Teillisten“: Liste für alle Elemente, die die gleiche Position belegen. b) „Sondieren“, „Hashing mit offener Adressierung“: Suchen einer alternativen Position innerhalb des Feldes. Wir betrachten: 1. Lineares Sondieren 2. Doppeltes Hashing 3. Quadratisches Sondieren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 110 Hash in Teillisten h(s) = 0 h(s) = 1 0 1 ... Prinzip: • Hash-Tabelle besteht aus N linearen • N-1 • IT Center, Prof. Dr. H. Pflug Listen. Mit Hashfunktion h aus Schlüssel s den Hashindex h(s) berechnen (gibt an, in welche Teilliste der Datensatz gehört). Dann innerhalb der Teillisten sequentiell speichern. „Algorithmen‟– Scientific Programming / MATSE, 2016 111 Beispiel zu Verkettung mit linearen Listen h(i) = i mod 10 0 100 1 2 42 3 333 202 2 4 5 5 6 666 36 7 8 9 IT Center, Prof. Dr. H. Pflug 19 „Algorithmen‟– Scientific Programming / MATSE, 2016 112 Definitionen: Schrittzahl und Füllgrad Die Schrittzahl S(s), die nötig ist, um den Datensatz mit Schlüssel s zu speichern bzw. wiederzufinden, setzt sich bei Hashing in Teillisten zusammen aus • der Berechnung der Hash-Funktion und • dem Aufwand für die Suche/Speicherung innerhalb der Teilliste. Der Füllgrad einer Hash-Tabelle ist der Quotient = n/N, mit • N := Größe der Hash-Tabelle (# Adressen) und • n := # gespeicherte Datensätze (normalerweise ist N n). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 113 Schrittzahl beim Suchen in Teillisten N = # Teillisten; n = # gespeicherte Datensätze Füllgrad der Hashtabelle: =n/N • Bei idealer Speicherung entfallen Elemente auf jede Teilliste. • Schrittzahl im Mittel: Hash-Index berechnen. – erfolgreiche Suche: c1 + c2 /2 – erfolglose Suche: c1 + c2 Lineare Suche in Teilliste. Suchaufwand: O() = O(n/N) wird der Füllgrad zu groß, sollte die Hashtabelle vergrößert werden (dynamisches Hashing). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 114 Dynamisches Hashing • Um zu viele Kollisionen zu vermeiden, muss die HashTabelle ab einem gewissen Füllgrad vergrößert werden dynamisches Hashing • Folge einer Vergrößerung: Die gesamte Hashtabelle muss neu aufgebaut werden. – Sowohl beim Hash in Teillisten als auch beim Hash mit offener Adressierung. – Es sollte stets gelten: <1/2 (nach Sedgewick). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 115 Vorlesung 4 Vorlesung 4 Hashtabellen: Offene Adressierung IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 116 Offene Adressierung (Sondieren) • Speichern: – Hashindex mit Hashfunktion aus Schlüssel des Datensatzes berechnen. Falls Speicherplatz frei: dort speichern – Bei Kollision: Ersatzadresse berechnen und Speicherversuch wiederholen Falls berechneter Speicherplatz erneut belegt: Neue Ersatzadresse berechnen; solange bis • freier Platz gefunden oder • verfügbarer Speicher ganz durchlaufen (↯) • Suchen: analog zum Ablauf beim Speichern • Löschen ist aufwändig! IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 117 Lineares Sondieren Definition: Wird die Ersatzadresse bei jeder Kollision durch Erhöhen der alten Adresse um 1 berechnet, so spricht man von linearem Sondieren („linear probing“). Die i-te Ersatzadresse für einen Schlüssel s mit Hash-Index h(s) wird also wie folgt berechnet: hi(s) = ( h(s) + i ) mod N (h0(s) = h(s): Hashindex der Hashfunktion selbst) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 118 Beispiel zum Sondieren (1) • Aufgabenstellung: – Eine Firma mit zur Zeit 60 Mitarbeitern vergibt Personalnummern. Da Nummern von ehemaligen Mitarbeitern nicht neu vergeben werden, hat man maximal vierstellige Nummern vorgesehen. (Schlüsselmenge: S = {1...9999}). – 100 Speicherplätze für Datensätze (von 0 an nummeriert) zur Speicherung der Personaldaten (Hash-Indizes: I = {0,...,99}). • Hash-Funktion: h : S I mit h(s) = s mod 100 • Bei Kollision: – berechneten Hashindex solange um 1 (modulo 100) erhöhen, bis freier Platz (Speichern) bzw. gesuchter Eintrag (Suchen) gefunden wird. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 119 Beispiel zum Sondieren (2) Einfügen: Wiederfinden: Schlüssel 1233 2034 9539 3433 Name Müller Meier Schulze Schmitz h(s) 33 34 39 33 Schlüssel Name h(s) 2034 3433 Meier Schmitz 34 33 7334 Huber 34 IT Center, Prof. Dr. H. Pflug 1.Kollision, Ersatzadr. 34 2.Kollision, Ersatzadr. 35 Datensatz gefunden nicht gefunden; Ersatzadr. 34 nicht gefunden; Ersatzadr. 35 Datensatz gefunden nicht gefunden; Ersatzadr. 35 nicht gefunden; Ersatzadr. 36 leer: nicht gefunden „Algorithmen‟– Scientific Programming / MATSE, 2016 120 Primäre und Sekundäre Häufung Nachteil des Divisions-Hash mit linearem Sondieren: • es bilden sich Ketten belegter Plätze. Formal: h (s) h (t ) h (s) h (t ) h 0 0 i k i 1 (s) hk 1 (t ) erhöht Wahrscheinlichkeit für weitere Kollisionen in diesem Bereich. – Diesen Effekt nennt man primäre Häufung („primary clustering“). Alle Hashindizes, die auf die Häufung treffen, landen auf dem ersten Element nach der Häufung und tragen zu ihrer Vergrößerung bei. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 121 Primäre und Sekundäre Häufung • Ähnlich: Sekundäre Häufung („secondary clustering“) (hängt von Hashfunktion ab): h (s) h (t ) h (s) h (t ) 0 0 i i • Wenn primäre Häufungen durch bessere Verfahren vermieden werden, können immer noch sekundäre Häufungen entstehen, wenn viele (ursprüngliche) HashAdressen gleich sind. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 122 Doppeltes Hashing • Ähnlich wie lineares Sondieren. • Der Schlüssel wird nicht um 1 erhöht, sondern der Inkrement wird mit einer zweiten Hashfunktion berechnet. • Beseitigt praktisch die Probleme der primären und sekundären Häufung. • Nicht alle Felder werden durchprobiert. Im ungünstigen Fall kann ein neues Element nicht eingefügt werden, auch wenn noch Felder frei sind. • Bei der Verwendung von Speicheradressen als HashIndex können die unteren Bits als Hash-Index und die mittleren Bits als Inkrement benutzt werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 123 Quadratisches Sondieren Definition: Die Strategie, bei der die Funktion hi(s) = ( h(s) + i2 ) mod N zur Berechnung der i-ten Ersatzadresse gewählt wird, heißt quadratisches Sondieren. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 124 Ersatzadressen bei Quadratischem Sondieren (Beispiel für N = 11, d.h. 11 Speicheradressen ) i 0 1 2 3 4 5 6 7 8 9 10 i² 0 1 4 9 16 25 36 49 64 81 100 i² mod N 0 1 4 9 5 3 3 5 9 4 1 Bemerkungen: – Keine primäre Häufung mehr (aber noch sekundäre Häufung) – Nachteil: hi(s) = hN-i(s), d.h. nicht alle zur Verfügung stehenden Adressen werden erreicht. Im Beispiel werden nicht erreicht: (h(s) + k) mod N mit k ∈ {2, 6, 7, 8} IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 125 Bedingungen für Abdeckung der Tabelle (1) Satz: (ohne Beweis) Ist N eine Primzahl, so sind die Zahlen i2 mod N für 0 i N/2 paarweise verschieden. Hiermit lässt sich also bei geeigneter Wahl der Tabellengröße immerhin die halbe Tabelle überdecken. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 126 Vergleich der Hash-Verfahren • Für Mengen bzw. assoziative Felder sind Hash-Tabellen anderen Datenstrukturen überlegen (außer in Spezialfällen). • Die Unterschiede zwischen den Hash-Verfahren sind vergleichsweise gering. • Gewöhnlich wird gewählt: – Hashing in Teillisten oder doppeltes Hashing – generell in Kombination mit dynamischem Hashing. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 127 Implementierungen von Hashtabellen Sprache Klasse Variante Max. Füllgrad Sun-Java HashMap, Hash mit Hashtable Teillisten 3/4 Gnu-Java (gcj) HashMap, Hash mit Hashtable Teillisten 3/4 C# / Mono Dictionary Doppeltes Hashing 3/4 Python Dictionary Mehrfaches Hashing 2/3 Ruby Hash 5 IT Center, Prof. Dr. H. Pflug Hash mit Teillisten „Algorithmen‟– Scientific Programming / MATSE, 2016 128 Hashtabellen als Mengen • • Beispielhaft für dynamische Hashtabellen mit Teillisten: Suchen: – • O(1) Einfügen: – – – • Durchschnittlich werden Elemente durchsucht. Bei dynamischen Tabellen gilt: <c (c fest). Suchen (O(1)) Einfügen (O(1)) Eventuell Neuaufbau der Tabelle. Dies ist durchschnittlich O(1) aus den gleichen Gründen wie bei der dynamischen Liste O(1) Löschen – – Suchen (O(1)) Löschen (O(1)) IT Center, Prof. Dr. H. Pflug O(1) „Algorithmen‟– Scientific Programming / MATSE, 2016 129 Hashtabellen als Mengen (2) • Bei ungünstiger Verteilung der Hashwerte (alle Elemente haben denselben Hashwert) ist der Suchaufwand O(n). • Muss die Hashtabelle vergrößert werden, müssen alle Hashwerte neu berechnet werden. – Für einzelne Elemente sehr lange Funktionszeiten möglich (worst case O(n)). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 130 Komplexität von Mengen Unsortierte Sortierte Liste Liste Baum (später) (Dyn.) Hashtabelle Suchen O(n) O(log n) O(log n) O(1) Einfügen O(n) O(n) O(log n) O(1) wst: O(n) Löschen O(n) O(n) O(log n) O(1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 131 Vorlesung 5 Vorlesung 5 Verkettete Listen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 132 Definition der abstrakten Datenstrukturen • Linearen homogenen Datenstrukturen ist gemeinsam: – mehrere gleichartigen Datenobjekte – 1:1 - Relation • Sie sind besonders geeignet für die ADT Liste, Stack, Queue und Deque. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 133 Implementation • Die wichtigsten linearen homogenen Datenstrukturen sind: • Die verkettete Liste (heute) und das • Feld (eventuell dynamisch und/oder zirkulär) – Felder wurden in Vorlesung 2 behandelt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 134 Einfach verkettete Liste Eine Einfach verkettete Liste besteht aus Knoten. class Node { Object element; // Datenkomponente Node next; // Verweis auf Restliste } element next IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 135 Zusammenfügen von Knoten • Durch Hintereinanderhängen von Knoten entsteht eine Liste head ... • Die Listenklasse muss sich nur den Kopf merken • Jeder Knoten zeigt auf seinen Nachfolger IT Center, Prof. Dr. H. Pflug class MyList { Node head; } „Algorithmen‟– Scientific Programming / MATSE, 2016 136 Listenende • Leerer Verweis am Listenende – Für letztes Element gilt: node.next = null; • Alternative : Rückverweis auf Listenanfang ( Zirkuläre Liste) head ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 137 Verkettete Liste: Durchlauf head ... ... letzter Knoten Erster Knoten pred node succ Entsprechung für Durchlauf von Arrays: for (int i=0; i < a.length; i++) ... bei Listen: for (Node node=head; node != null; node = node.next) ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 138 Einfügen und Löschen • void insert (int pos, Datenelement e) – Füge Element an Position pos ein • void delete (int pos) – Lösche den Knoten an Position pos Übung am Computer IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 139 Varianten für Listenanfang Listenanfang erfordert Sonderbehandlung Alternative: ‚Pseudo-Knoten‘ am Listenanfang head head ... ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 140 Komplexität • Komplexitätsanalyse der einfach verketteten Liste: Auslesen Anfang O(1) Auslesen Mitte O(n) Auslesen Ende O(n) Einfügen/Löschen Anfang O(1) Einfügen/Löschen Mitte O(n) Einfügen/Löschen Ende O(n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 141 Doppelt verkettete Liste • Verweis auf Nachfolger und Vorgänger dat dat class DNode { Object obj; DNode pred; //Vorgänger DNode succ; //Nachfolger } dat class DList { DNode first; //Anfang DNode last; //Ende } • Listenklasse merkt sich head und tail IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 142 Komplexität • Komplexitätsanalyse der einfach und doppelt verketteten Liste: 1fach 2fach Java-Klasse - Linked List Auslesen Anfang O(1) O(1) Auslesen Mitte O(n) O(n) Auslesen Ende O(n) O(1) Einfügen/Löschen Anfang O(1) O(1) Einfügen/Löschen Mitte O(n) O(n) Einfügen/Löschen Ende O(n) O(1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 143 ArrayList - LinkedList • ArrayList ist in den meisten Fällen schneller. • ArrayList ist insbesondere schneller, wenn oft auf Elemente in der Mitte der Liste zugegriffen werden muss. • LinkedList ist schneller, wenn oft Elemente am Anfang und am Ende der Liste eingefügt oder gelöscht werden. – Wichtig für Queues oder Deques. – Hier kann auch ein zirkuläres dynamisches Feld verwendet werden. • Das Einfügen eines einzelnen Elements ist bei einer ArrayList im schlechtesten Fall O(n). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 144 Vorlesung 6 Vorlesung 6 Binärbäume Binäre Suchbäume IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 145 Gliederung Zunächst betrachten wir die Definition von Bäumen Anschließend untersuchen wir Bäume als Implementation von Mengen bzw. assoziativen Feldern. • Alternative zu Hashtabellen (Vorlesungen 3/4) • Vorteil: Daten sind in Bäumen sortiert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 146 Grundbegriffe zu Bäumen Gibt es in einem Knoten nicht einen, sondern mehrere Verweise, entstehen statt verketteten Listen Bäume. class Node { Object element; Node nextLeft; Node nextRight; // Datenkomponente // Verweis 1 // Verweis 2 element } next element next IT Center, Prof. Dr. H. Pflug next next element next next „Algorithmen‟– Scientific Programming / MATSE, 2016 147 Grundbegriffe zu Bäumen (2) • Bedingung für Bäume: – Zwei beliebige Knoten sind durch genau einen (einfachen) Pfad verbunden. Graph, aber kein Baum: IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 148 Grundbegriffe zu Bäumen (3) • Baum = Hierarchische (rekursive) Datenstruktur – alle Wege gehen von einer Wurzel aus – A heißt Vorgänger von B, wenn A auf einem Weg von der Wurzel zu B liegt. B heißt dann Nachfolger von A. – A heißt Vater von B, wenn (A, B) E, B heißt Sohn („Kind“) von A. – Haben B und C denselben Vater, so heißen sie Brüder. – Knoten ohne Söhne heißen Blätter („Terminalknoten“). – Knoten mit Söhnen heißen innere Knoten. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 149 Grundbegriffe zu Bäumen (4) • Ein Knoten S mit allen Nachfolgern wird Teilbaum eines Baumes T genannt, falls S nicht die Wurzel von T ist. • Der Verzweigungsgrad eines Knotens ist die Anzahl seiner Kinder IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 150 Knotenbezeichnungen an einem Beispiel Wurzel (root) Blatt (leaf) innerer Knoten (internal node) Blatt IT Center, Prof. Dr. H. Pflug Blatt „Algorithmen‟– Scientific Programming / MATSE, 2016 151 Level und Höhe Jeder Knoten in einem Baum liegt auf einem bestimmten Level (Länge des Pfades von der Wurzel zu diesem Knoten). Level eines Knotens ist (Level vom Vater plus 1) 1 2 3 IT Center, Prof. Dr. H. Pflug Level der Wurzel ist 0. Die Höhe eines Baums ist gleich dem maximalen Level eines beliebigen Knotens des Baums. „Algorithmen‟– Scientific Programming / MATSE, 2016 152 Begriffe zu Binärbäumen (1) Definition: Die Knoten eines Binärbaums („binary tree“) haben höchstens den Verzweigungsgrad 2 (haben höchstens 2 Söhne). Bei einem geordneten Binärbaum ist die Reihenfolge der Söhne durch die Indizes eindeutig festgelegt (T1 = linker Sohn, linker Teilbaum; T2 = rechter Sohn, rechter Teilbaum). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 153 Begriffe zu Binärbäumen (2) Definition: Ein Binärbaum heißt minimal (bezogen auf die Höhe), wenn kein Binärbaum mit gleicher Knotenzahl aber kleinerer Höhe existiert. Ein links-vollständiger Binärbaum ist ein minimaler Binärbaum, in dem die Knoten auf dem untersten Level so weit wie möglich links stehen. Alle Blätter eines vollständigen Binärbaums haben den gleichen Level. Beispiel für linksvollständigen Binärbaum IT Center, Prof. Dr. H. Pflug Beispiel für vollständigen Binärbaum „Algorithmen‟– Scientific Programming / MATSE, 2016 154 Einführendes Applet Einführung: http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel Suchbaum (1) binärer Suchbaum: Ein binärer Suchbaum ist ein Binärbaum, bei dem für jeden Knoten des Baumes gilt: • Alle Schlüssel im linken Teilbaum sind kleiner, alle im rechten Teilbaum sind größer oder gleich dem Schlüssel in diesem Knoten. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 155 Array-Einbettung Eignet sich am besten zur Darstellung links-vollständiger Binärbäume, z.B.: 1 2 4 3 5 6 Man nummeriert die Knoten ebenenweise durch. Das Feldelement 0 bleibt frei. Dann berechnen sich die Positionen von Vorgängern und Nachfolgern so: Vorgänger : Pred(n) n 2 linker Sohn 2n Nachfolger : Succ (n) 2n 1 rechter Sohn IT Center, Prof. Dr. H. Pflug (falls diese existieren ) „Algorithmen‟– Scientific Programming / MATSE, 2016 156 Binärer Suchbaum Suchbaum 1 Suchbaum 2 65 6 alle Schlüssel im linken Teilbaum sind < der Wurzel. 14 87 95 70 10 alle Schlüssel im rechten Teilbaum sind der Wurzel. IT Center, Prof. Dr. H. Pflug 90 „Algorithmen‟– Scientific Programming / MATSE, 2016 101 157 Einführendes Applet Einführung: http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel Suchbaum (2) binärer Suchbaum: Ein binärer Suchbaum ist ein Binärbaum, bei dem für jeden Knoten des Baumes gilt: • Alle Schlüssel im linken Teilbaum sind kleiner, alle im rechten Teilbaum sind größer oder gleich dem Schlüssel in diesem Knoten. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 158 Suchen im Suchbaum Suchen der 50. 60 20 10 70 30 110 Das heißt: „leerer Verweis“ 50 90 80 100 Vater des neuen Knotens IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 159 Einfügen im Suchbaum (1) Vor Einfügen der 40. 60 20 10 70 30 110 Das heißt: „leerer Verweis“ 50 90 80 100 Vater des neuen Knotens IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 160 Einfügen im Suchbaum (2) Nach Einfügen der 40. 60 20 10 70 30 110 50 90 40 80 IT Center, Prof. Dr. H. Pflug 100 „Algorithmen‟– Scientific Programming / MATSE, 2016 161 Löschen im Suchbaum (1) • Fall 1: zu löschender Knoten ist Blatt (hat keine Kinder) • Knoten kann problemlos gelöscht werden • Beispiel: Löschen der 50 20 20 10 30 10 30 50 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 162 Löschen im Suchbaum (2) • Fall 2: zu löschender Knoten hat ein Kind • Kind-Knoten rückt an die Stelle des Knotens vor • Beispiel: Löschen der 30 20 20 10 30 10 50 50 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 163 Löschen im Suchbaum (3) • • • • • Fall 3: zu löschender Knoten hat zwei Kinder Suchen des nächstgrößeren Knoten im rechten Baum Erst einen Schritt nach rechts Dann solange nach links, bis es links nicht weitergeht. Beispiel: Löschen der 20 nächstgrößerer Knoten: 30 20 10 30 50 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 164 Löschen im Suchbaum (4) • Fortsetzung Fall 3 • Ersetze den zu löschenden Knoten durch den nächstgrößeren. 20 10 30 30 10 50 IT Center, Prof. Dr. H. Pflug 50 „Algorithmen‟– Scientific Programming / MATSE, 2016 165 Löschen im Suchbaum (5) • Fortsetzung Fall 3 • Lasse rechte Seite des freien Platzes vorrücken. 30 30 10 10 50 50 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 166 Löschen der „70“ (1) Knoten hat zwei Söhne 40 20 10 70 60 30 90 50 35 100 80 85 Nächstgrößeres Element IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 167 Löschen der „70“ (2) 40 20 10 80 60 30 50 90 100 35 85 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 168 Löschen der „70“ (3) 40 20 10 80 60 30 50 35 IT Center, Prof. Dr. H. Pflug 90 85 100 „Algorithmen‟– Scientific Programming / MATSE, 2016 169 Applet zum Löschen im Suchbaum http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel Suchbaum (3) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 170 Struktogramm zum Löschen Datenstruktur: remove(Comparable data) class Node { Node parent; Node right; Node left; Comparable data; } Knoten mit Datenelement data Suchen Knoten gefunden? j Wieviele Kinder hat der Knoten? 0 Fall 1 IT Center, Prof. Dr. H. Pflug n 1 Fall 2 2 Fall 3 Entfernen nicht möglich. Abbruch „Algorithmen‟– Scientific Programming / MATSE, 2016 171 Unterroutinen zum Löschen (1) Datenstruktur: CopyNode: Kopiert Daten und Referenzen zu den Nachfolgern von Node n1 in Node n2 class Node { Node parent; Node right; Node left; Comparable data; } public void copyNode (Node n1, Node n2) { n2.data = n1.data; n2.left = n1.left; n2.right = n1.right; } copyData: Kopiert data von Node n1 in Node n2 public void copyData(Node n1, Node n2) { n2.data = n1.data; } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 172 Unterroutinen zum Löschen (2) clearNode(Node n): Löscht n aus dem Baum. Darf nur aufgerufen werden, wenn n ein Blatt ist. public void clearNode(Node n) { if (n==root) { root = null; return; } if (n.parent.left == n) { n.parent.left = null; } else { n.parent.right = null; } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 173 Löschen: Fall 1 und 2 • Zu löschender Node: Node n • Fall 1: keine Kinder clearNode(n) • Fall 2: ein Kind if (n.left==null) { copyNode(n.right, n); } else { copyNode(n.left, n); } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 174 Löschen (Fall 3) • Fall 3: zwei Kinder //minimales Element auf der rechten Seite suchen Node minR = n.right; while (minR.left != null) { minR = minR.left; } //n durch minR ersetzen copyData(minR, n); //rechte Seite von minR nach minR schieben if (minR.right!=null) { copyNode(minR.right, minR); } else { clearNode(minR); } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 175 Vorlesung 7 Vorlesung 7 Balancierte Bäume AVL-Bäume IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 176 Komplexität • Die Komplexität der Funktionen Suchen, Löschen und Einfügen werden durch die Komplexität des Suchens eines Elements bestimmt • Im schlechtesten Fall ist die Anzahl der zu durchsuchenden Elemente gleich der Höhe des Baums+1. • Die Höhe hängt stark von der Reihenfolge der EinfügeOperationen ab. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 177 Applet zur Höhe von Suchbäumen • Einführendes Applet: http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel AVL (1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 178 Einfügen in einen binären Suchbaum Beispiel 1: • 10 20 30 40 • • • • • • create() insert(10) insert(20) insert(30) insert(40) insert(50) insert(60) Beispiel 2: 40 20 50 60 • • 10 • • • • • • • create() insert(40) insert(20) insert(50) insert(10) insert(30) insert(60) 50 30 60 Balanciertheit (Ausgeglichenheit) der Knoten-Verteilung nicht garantiert bei ungünstiger Reihenfolge der Einfügeoperationen können zu linearen Listen entartete Bäume entstehen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 179 Minimale und maximale Höhe • Ein vollständig gefüllter Binärbaum (voller Baum, in dem die letzte Ebene voll besetzt ist) der Höhe H hat – n = 1+2+4+…+ 2H = (2H+1-1)/(2-1) Knoten, (geometrische Reihe) • Ein Binärbaum mit n Knoten hat im besten Fall (optimal balanciert) die Höhe log 2 (n 1) 1 log 2 (n) Suchen ist O(log n) • Ein Binärbaum mit n Knoten hat im schlechtesten Fall („entarteter“/„degenerierter“ Baum) die Höhe n-1. Suchen ist O(n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 180 Ausgeglichene Suchbäume Wie kann Entartung verhindert werden? • Eine Möglichkeit: Baum nach jedem insert/remove durch Umstrukturierung ausgleichen. kann aufwändig sein, z.B.: 5 3 2 2 7 4 4 Ausgleichen 6 1 6 3 5 7 1 Einfügen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 181 Balance-Kriterien (1) (mindestens) 3 Lösungsideen (Balance-Kriterien): 1. abgeschwächtes Kriterium für ausgeglichene Höhe lokale Umordnungsoperationen reichen aus. • Verschiedene Varianten, die jeweils unterschiedliche Kriterien haben: – AVL-Bäume: Werden ausführlich behandelt. – Rot-Schwarz-Bäume: Werden in der JavaKlassenbibliothek benutzt. Ähnlichkeiten mit B-Bäumen (siehe 3. Lösungsidee). Kurze Vorstellung im Anschluss an B-Bäume. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 182 Balance-Kriterien (2) 2. Jeder neue Knoten wandert an die Wurzel des Baums. – Vorteil: Zuletzt eingefügte Elemente lassen sich schneller finden. – Durch ein spezielles Einfügeverfahren wird der Baum zusätzlich (teilweise) ausgeglichen. • Splay-Bäume: Werden in der Vorlesung nicht weiter behandelt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 183 Balance-Kriterien (3) 3. Unausgeglichener Verzweigungsgrad ermöglicht ausgeglichene Höhe. • B-Bäume: – B-Bäume besitzen ausgeglichene Höhe, lassen aber unausgeglichenen Verzweigungsgrad zu. – Varianten von B-Bäumen werden speziell in Datenbanksystemen als Indexstrukturen eingesetzt. – Werden ausführlich behandelt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 184 AVL-Baum (Adelson-Velskij & Landis, 1962) • Bei einem AVL-Baum unterscheiden sich die Höhen zweier Teilbäume des gleichen Knotens maximal um 1. – Der sogennante Balance-Index ist die Differenz Höhe(linker Teilbaum) – Höhe(rechter Teilbaum) – Jeder Knoten hat einen Balance-Index. 0 – Er darf nur die Werte -1, 0 oder 1 annehmen. 3 1 1 7 0 0 8 5 0 IT Center, Prof. Dr. H. Pflug -2 4 6 0 „Algorithmen‟– Scientific Programming / MATSE, 2016 185 Applet zum Balance-Index • http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel AVL (2) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 186 Ausgleichen im AVL-Baum Wenn durch eine Einfüge- oder Lösche-Operation die AVLBedingung verletzt wird, muss (mit lokalen Operationen) rebalanciert (ausgeglichen) werden. Je nach Situation wendet man dazu entweder eine Rotation oder eine Doppelrotation an. – Wie die Rotationen aussehen, wird auf den folgenden Folien erklärt, ist aber nicht klausurrelevant. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 187 Ausgleichen im AVL-Baum (eine Rotation) Ausgleichen links Mitte IT Center, Prof. Dr. H. Pflug rechts links Mitte rechts „Algorithmen‟– Scientific Programming / MATSE, 2016 188 Ausgleichen im AVL-Baum (eine Rotation) Ausgleichen funktioniert so nicht. links Mitte IT Center, Prof. Dr. H. Pflug rechts links Mitte rechts „Algorithmen‟– Scientific Programming / MATSE, 2016 189 Ausgleichen im AVL-Baum (Doppelrotation) 1. Rotation links Mitte rechts IT Center, Prof. Dr. H. Pflug links Mitte rechts „Algorithmen‟– Scientific Programming / MATSE, 2016 190 Ausgleichen im AVL-Baum (Doppelrotation) 2. Rotation links Mitte IT Center, Prof. Dr. H. Pflug rechts links Mitte rechts „Algorithmen‟– Scientific Programming / MATSE, 2016 191 Ausgleichen im AVL-Baum (Doppelrotation) 2. Rotation L links L R R Mitte IT Center, Prof. Dr. H. Pflug rechts links Mitte rechts „Algorithmen‟– Scientific Programming / MATSE, 2016 192 Übungsaufgaben Gleiche die folgenden Bäume durch Rotationen aus b) a) 3 3 1 1 7 7 8 8 5 9 9 c) d) 3 1 7 5 4 IT Center, Prof. Dr. H. Pflug 3 1 7 8 8 5 9 4 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 193 Applets zum Rotieren von AVL-Bäumen • http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel AVL (3) und AVL (4) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 194 Komplexität • Die Höhe eines AVL-Baums ist um maximal 45% höher als die eines optimal balancierten Baums. – Suchoperation hat O(log n). • Nach dem Einfügen wird maximal um alle Knoten zwischen der Wurzel und dem -1 -2 eingefügten Knoten rotiert. – Ähnlich beim Löschen. – Ausgleichen nach dem Einfügen oder Löschen hat O(log n). 3 0 -1 0 1 7 0 -1 0 5 8 9 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 195 AVL-Bäume als Mengen – Einfügen: • Element muss gesucht werden (O(log n)). Element muss angehängt werden (O(1)). Baum muss ausgeglichen werden (O(log n)). O(log n) – Löschen: • Element muss gesucht werden (O(log n)). Das nächstgrößere Element muss gesucht werden (im worst case O(log n)). Elemente müssen umkopiert werden (O(1)). Baum muss ausgeglichen werden (O(log n)). O(log n) – Prüfen/Auslesen: • Element muss im Baum gesucht werden. IT Center, Prof. Dr. H. Pflug O(log n) „Algorithmen‟– Scientific Programming / MATSE, 2016 196 Komplexität von Mengen Unsortierte Sortierte Liste Liste Baum (Dyn.) Hashtabelle Suchen O(n) O(log n) O(log n) O(1) Einfügen O(n) O(n) O(log n) O(1) wst: O(n) Löschen O(n) O(n) O(log n) O(1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 197 Vorlesung 8 Vorlesung 8 B-Bäume IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 198 B-Baum • B-Bäume wurden 1972 (1969?) von Rudolf Bayer und Edward M. McCreight eingeführt • Ziel: effiziente Indexstrukturen für riesige Datenbestände (z.B. bei Datenbanken), die überwiegend auf externen Datenträgern (z.B. auf Festplatten) gespeichert sind. • Viele Datenbanken (z.B. MySQL, Oracle, Access) benutzen (als Default) B-Bäume (bzw. eine Abart davon). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 199 B-Baum (2) Jeder Knoten in einem B-Baum der Ordnung d enthält d bis 2d Elemente. Die Wurzel bildet die einzige Ausnahme, sie kann 1 bis 2d Elemente enthalten. Die Elemente in einem Knoten sind aufsteigend sortiert. Die Anzahl der Söhne in einem B-Baum ist entweder 0 (Blatt) oder um eins größer als die Anzahl der Elemente, die der Knoten enthält. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 „Algorithmen‟– Scientific Programming / MATSE, 2016 200 B-Baum (3) Alle Blätter liegen auf demselben Level. • Garantierte Zugriffszeiten. • Bei realistischen Parametern (z.B. Ordnung 1000) sind nur sehr wenige (<5) Zugriffe auf das externe Medium nötig. B-Bäume besitzen ausgeglichene Höhe, lassen aber unausgeglichenen Verzweigungsgrad und Knotenfüllgrad zu. Der längste Weg in einem B-Baum der Ordnung d ist in O(logd+1 n) (ohne Rechnung). 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 „Algorithmen‟– Scientific Programming / MATSE, 2016 201 Andere Variante • Bisherige Definition: Jeder Knoten in einem B-Baum der Ordnung d enthält d bis 2d Elemente. • Es gibt eine weitere Variante des B-Baums. Jeder Knoten in einem B-Baum der Ordnung d enthält hier d-1 bis 2d-1 Elemente. • Wir behandeln nur die erste Variante. Bei der zweiten Variante ist das Einfügen geringfügig anders. Das bekannteste Beispiel der 2. Variante sind die (2,3,4)Bäume (mit 1,2 oder 3 Element-Knoten). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 202 B-Baum der Ordnung 2 30 38 42 10 20 25 ∊(-∞,30) IT Center, Prof. Dr. H. Pflug 32 34 ∊(30,38) 40 41 ∊(38,42) 44 50 56 ∊(42,∞) „Algorithmen‟– Scientific Programming / MATSE, 2016 203 Suchen in einem B-Baum Ausgehend von der Wurzel: 1. Prüfe ob der gerade betrachtete Knoten den gesuchten Schlüssel m enthält Suche innerhalb eines Knotens: linear oder binär. (Nicht wichtig, weil Laufzeit hauptsächlich von Anzahl der Zugriffe auf Hintergrundspeicher (Festplatte) abhängt.) k1 k2 k3 30 38 42 Beispiel: 32 p0 10 20 25 IT Center, Prof. Dr. H. Pflug p1 32 34 p2 p3 40 41 44 50 56 „Algorithmen‟– Scientific Programming / MATSE, 2016 204 Suchen in einem B-Baum (2) 2. Falls nicht, bestimme den kleinsten Schlüssel ki, der größer als m ist. – ki gefunden: Weiter bei Schritt 1. mit Sohn links von ki: pi-1. – ki nicht gefunden: Weiter bei Schritt 1. mit letztem Sohn: pn. k1 k2 k3 30 38 42 Beispiel: 32 p0 10 20 25 IT Center, Prof. Dr. H. Pflug p1 32 34 p2 p3 40 41 44 50 56 „Algorithmen‟– Scientific Programming / MATSE, 2016 205 Suchen in einem B-Baum (3) Erfolglose Suche endet in einem Blatt. k1 k2 k3 30 38 42 Beispiel: 33 p0 10 20 25 IT Center, Prof. Dr. H. Pflug p1 32 34 p2 p3 40 41 44 50 56 „Algorithmen‟– Scientific Programming / MATSE, 2016 206 Einfügen in einen B-Baum der Ordnung d 1. Suche nach Schlüssel endet (scheitert) in einem Blattknoten „node“. 2. Schlüssel in node in Sortierreihenfolge einfügen (und neuen leeren Verweis einfügen). 3. Falls node nun überfüllt ist (2d+1 Elemente): node aufteilen k sei mittlerer Eintrag von node. 1. Neuen Knoten „current“ anlegen und mit den d größeren Schlüsseln (rechts von k) belegen. Die d kleineren Schlüssel (links von k) bleiben in node. 2. Falls node Wurzelknoten war: • • neue Wurzel „parent“ anlegen. Verweis ganz links in parent mit node verbinden. 3. k in Vaterknoten „parent“ von node verschieben. 4. Verweis rechts von k in parent mit current verbinden. 4. Falls parent nun überfüllt ist: Schritt 3. mit parent wiederholen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 207 Beispiel Einfügen (1) Beispiel: Einfügen von 56. 1. Suche nach Schlüssel endet (scheitert) in einem Blattknoten „node“. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 208 Beispiel Einfügen (2) Beispiel: Einfügen von 56. 2. Schlüssel in node in Sortierreihenfolge einfügen (und neuen leeren Verweis einfügen). 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 209 Beispiel Einfügen (3) Beispiel: Einfügen von 56. 3. Falls node nun überfüllt ist (2d+1 Elemente): ist nicht der Fall Ende 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 210 Beispiel Einfügen (4) Beispiel: Einfügen von 60. 1. Suche nach Schlüssel endet (scheitert) in einem Blattknoten „node“. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 211 Beispiel Einfügen (5) Beispiel: Einfügen von 60. 2. Schlüssel in node in Sortierreihenfolge einfügen (und neuen leeren Verweis einfügen). 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 56 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 212 Beispiel Einfügen (6) Beispiel: Einfügen von 60. 3. Falls node nun überfüllt ist (2d+1 Elemente): node aufteilen k sei mittlerer Eintrag von node. 1. Neuen Knoten „current“ anlegen und mit den d größeren Schlüsseln (rechts von k) belegen. Die d kleineren Schlüssel (links von k) bleiben in node. 2. Falls node Wurzelknoten war: • • 3. 4. neue Wurzel „parent“ anlegen. Verweis ganz links in parent mit node verbinden. k in Vaterknoten „parent“ von node verschieben. Verweis rechts von k in parent mit current verbinden. 30 38 42 56 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 213 Beispiel Einfügen (7) Beispiel: Einfügen von 60. 3. Falls node nun überfüllt ist (2d+1 Elemente): node aufteilen k sei mittlerer Eintrag von node. 1. Neuen Knoten „current“ anlegen und mit den d größeren Schlüsseln (rechts von k) belegen. Die d kleineren Schlüssel (links von k) bleiben in node. 2. Falls node Wurzelknoten war: • • 3. 4. neue Wurzel „parent“ anlegen. Verweis ganz links in parent mit node verbinden. k in Vaterknoten „parent“ von node verschieben. Verweis rechts von k in parent mit current verbinden. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 214 Beispiel Einfügen (8) 3. Falls parent nun überfüllt ist: Schritt 3. mit parent wiederholen. in diesem Beispiel nicht nötig. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 215 Element in Knoten einfügen static void insert_into _node( Knoten, Element ) füge neues Element der Ordnung nach ein Knoten enthält 2d+1 Elemente T F entferne mittleres Element aus dem Knoten bilde neuen Knoten aus den d größten Elementen Knoten == Wurzel TRUE FALSE bilde neue Wurzel mit dem mittleren Element IT Center, Prof. Dr. H. Pflug insert_into _node(Vater, mittleres Element ) „Algorithmen‟– Scientific Programming / MATSE, 2016 216 Löschen aus einem Blatt • Unterscheidung: der zu löschende Schlüssel x=ki liegt a) in einem Blatt mit Struktur (null, k1,..., null, ki, null,..., kn, null): Entfernen von x=ki und der darauf folgenden null-Referenz. Ein → Underflow tritt auf, falls n=d war. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 217 Löschen aus einem inneren Knoten b) in einem inneren Knoten (p0, k1, ..., ki, pi,..., kn, pn): • • • alle Referenzen haben einen Wert ungleich null. analog zu Löschen aus binären Suchbäumen: Finde kleinsten Schlüssel s im durch pi referenzierten Teilbaum (in einem Blatt). Ersetze ki durch s und lösche s aus dem Blatt (Fall a). 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 218 Underflow-Problem • Underflow-Problem: zu wenig (d-1) Schlüssel im Knoten 30 40 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 219 Behandlung des Underflows • Bei der Behandlung des Underflows sind wieder verschiedene Fälle möglich. • Wir benötigen zwei Operationen: 1. Ausgleichen (zwischen zwei Bruder-Knoten) 2. Verschmelzen (von zwei Bruder-Knoten) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 220 Ausgleich zwischen Bruder-Knoten • Voraussetzung für Ausgleichsoperation bei Underflow in Knoten q: q hat benachbarten Bruder-Knoten p mit mehr als d Schlüsseln Falls vorhanden und ausreichend besetzt. Sonst analog mit rechtem Bruder. • Annahme: – p ist linker Bruder von q. – im Vater parent (von p und q) trennt der Schlüssel t die Verweise auf p und q. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 221 Ausgleich zwischen Bruder-Knoten (2) • Idee: p schenkt q ein Element („Umweg“ über Vater) 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 222 Ausgleich zwischen Bruder-Knoten (3) • Ergebnis: 25 38 42 10 20 IT Center, Prof. Dr. H. Pflug 30 32 56 40 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 223 Beispiel: Löschen aus innerem Knoten Löschen der 30 30 38 42 10 20 25 32 34 Ausgleichen 10 20 25 10 20 IT Center, Prof. Dr. H. Pflug 40 41 32 38 42 34 Ergebnis 44 50 58 60 44 50 58 60 44 50 58 60 56 40 41 25 38 42 32 34 56 56 40 41 „Algorithmen‟– Scientific Programming / MATSE, 2016 224 Verschmelzen von Bruder-Knoten (1) • Verschmelzung mit Bruder-Knoten p bei Underflow in Knoten q: Alle benachbarten Brüder von q haben nur d Schlüssel. Nachbarknoten haben nur 2 Schlüssel 30 40 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 225 Verschmelzen von Bruder-Knoten (2) Falls vorhanden. Sonst analog mit rechtem Bruder. • Annahme: – p ist linker Bruder von q. – im Vater parent (von p und q) trennt der Schlüssel t die Verweise auf p und q. • Idee: p und q mit dem trennenden Element aus parent verschmelzen. 30 40 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 56 41 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 226 Verschmelzen von Bruder-Knoten (3) • Ergebnis: 30 10 20 25 IT Center, Prof. Dr. H. Pflug 42 32 34 40 41 56 44 50 58 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 227 Verschmelzen von Bruder-Knoten (4) • Jetzt eventuellen Underflow in parent behandeln... • Underflow-Behandlung rekursiv nach oben fortsetzten. • Die Wurzel darf auch einen einzigen Schlüssel enthalten. • Falls zuletzt der letzte Schlüssel aus der Wurzel gelöscht wird (bei Verschmelzung der beiden letzten Söhne der Wurzel zu einem einzigen Knoten): Einziger Nachfolger der Wurzel wird neue Wurzel. Höhe des B-Baums um 1 verringert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 228 Beispiel: Löschen aus innerem Knoten Löschen der 30 30 38 42 10 20 32 34 Veschmelzen 40 41 32 38 42 10 20 34 Ergebnis 10 20 32 34 44 50 58 60 44 50 58 60 44 50 58 60 56 40 41 38 42 IT Center, Prof. Dr. H. Pflug 56 56 40 41 „Algorithmen‟– Scientific Programming / MATSE, 2016 229 Spezialfall Wurzel (1) Die Wurzel darf weniger als 2 Elemente enthalten. Verschmelzen 27 5 x1 40 13 x2 x3 35 x4 40 45 x5 IT Center, Prof. Dr. H. Pflug x6 50 x7 x8 5 x1 13 x2 27 x3 35 x4 45 x5 x6 50 x7 „Algorithmen‟– Scientific Programming / MATSE, 2016 x8 230 Spezialfall Wurzel (2) Letztes Element der alten Wurzel verschwindet. Einziges Kind ist neue Wurzel. Verschmelzen 27 5 x1 13 x2 x3 5 x1 35 x4 x5 IT Center, Prof. Dr. H. Pflug x6 13 x2 27 x3 35 x4 x5 x8 „Algorithmen‟– Scientific Programming / MATSE, 2016 231 Vorlesung 9 Vorlesung 9 Varianten von B-Bäumen Baumdurchlauf (1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 232 B-Bäume als Mengen • Einfügen, Löschen, Prüfen und Auslesen sind auch hier O(log n). • Vorteile haben B-Bäume bei sehr großen Datenmengen, die auf der Festplatte liegen. – Es sei die Ordnung d=1024 – Bei einer Höhe von h=4 können bereits 10244-11012 Schlüssel gespeichert werden. – Dabei müssen für jede Suchanfrage maximal 5 Baumknoten inspiziert werden. • Bei kleinen Datenmengen werden eher Hashtabellen verwendet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 233 B+-Bäume • • Die wichtigsten Unterschiede zwischen B-Bäumen und B+-Bäumen sind: B-Bäume – trennen Datensätze nicht von Schlüsseln. • B+ -Bäume – speichern in den inneren Knoten nur Schlüssel. – Die eigentlichen Datensätze befinden sich ausschließlich in den Blättern. – Dies ist bei der Anwendung für Datenbanken naheliegend und sinnvoll. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 234 Beispiel-Applet zu B+-Bäumen • http://www.seanster.com/BplusTree/BplusTree.html IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 235 Rot-Schwarz-Bäume (red black trees) • Rot-Schwarz-Bäume kombinieren (2,3,4)-Bäume (eine Variante der B-Bäume) mit Binärbäumen. • Gehen wir zunächst vom untenstehenden (2,3,4)-Baum aus. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 236 Rot-Schwarz-Bäume (2) • Die einzelnen B-Baum-Knoten werden als kleine Binärbäume betrachtet, so dass jeder Knoten wieder nur 1 Element besitzt. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 237 Rot-Schwarz-Bäume (3) • Die einzelnen B-Baum-Knoten werden als kleine Binärbäume betrachtet, so dass jeder Knoten wieder nur 1 Element besitzt. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 238 Rot-Schwarz-Bäume (4) • Jeder Knoten erhält einen zusätzliches boolean-Attribut, das sagt, ob der Knoten „rot“ oder „schwarz“ ist. • Die Wurzeln der kleinen Binärbäume sind schwarz; die anderen Knoten rot. 30 38 42 10 20 25 IT Center, Prof. Dr. H. Pflug 32 34 40 41 44 50 58 „Algorithmen‟– Scientific Programming / MATSE, 2016 239 Rot-Schwarz-Bäume (5) • Einfügen und Löschen erfolgt wie bei B-Bäumen. • Zusätzliche Regel: Enthält eine „kleiner“ Binärbaum 3 Elemente, dann wird das mittlere Element automatisch zur Wurzel. • Die binären Suchbäume in der Java-Bibliothek sind RotSchwarz-Bäume – Z.B. java.util.TreeMap, java.util.TreeSet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 240 Rot-Schwarz-Bäume als Mengen • Das Laufzeitverhalten ist ähnlich wie bei AVL-Bäumen. • Die Höhe von Rot-Schwarz-Bäumen ist etwa 15-30% größer als bei AVL-Bäumen. – AVL-Bäume sind also etwas kompakter. – Dadurch verringert sich bei Rot-Schwarz-Bäumen die Zeit zum Einfügen/Löschen leicht. – Die Zeit zum Suchen erhöht sich leicht. • Trotz des sehr ähnlichen Verhaltens findet man RotSchwarz-Bäume weit häufiger als AVL-Bäume. – AVL-Bäume sind meist Lehrbeispiel. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 241 Vorteil von Suchbäumen • Ein Vorteil von Suchbäumen ist, dass durch einen InOrder-Durchlauf (siehe späteres Kapitel) die Daten leicht in einer sortierten Reihenfolge durchlaufen werden können. – Mit einigen Modifikationen könnte man einen binären Suchbaum auch als Liste verwenden: – Lesen, Schreiben, Löschen und Einfügen mit O(log n). – Dies ist aber unüblich. • Dies ist mit Hash-Tabellen nicht möglich. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 242 Vorlesung 10 Vorlesung 10 Heaps Heap-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 243 ADT Prioritätswarteschlange • Auch Vorrangwarteschlange oder Priority Queue genannt. • Eine Warteschlange, deren Elemente einen Schlüssel (Priorität) besitzen. • Wichtige Operationen bei Prioritätswarteschlangen: – Element in Schlange einfügen – Element mit der höchsten Priorität entnehmen. • Dies ist gewöhnlich das Element mit dem kleinsten Schlüssel, • Manchmal ist es auch das Element mit dem größten Schlüssel. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 244 Anwendungen • Ereignissimulation – Die Schlüssel sind die Zeitpunkte von Ereignissen, die in chronologischer Reihenfolge zu verarbeiten sind. • Verteilung der Rechenzeit auf mehrere Prozesse • Graphalgorithmen – Dijkstra, Vorlesung 15 • Sortierverfahren – Alle Elemente in Prioritätswarteschlange einfügen – Nach der Reihe die größten Elemente entnehmen – Heap-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 245 Anwendung außerhalb des EDV-Bereichs • Wartezimmer eines Arztes • Reihenfolge des Aufrufs wird durch Prioritätswarteschlange bestimmt. • Die Priorität wird ermittelt aufgrund: – – – – Ankunftszeit Termin / kein Termin Privatpatient / Kassenpatient Notfall / kein Notfall IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 246 Datenstrukturen für Pr.-Warteschlange • Einfache Implementierung mit Array (Feld). • Effiziente Implementierung mit AVL-Baum. • Andere effiziente Implementierung: Partiell geordneter Baum (Heap). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 247 Prioritätswarteschlangen in Java • Kein Interface • Nur eine einzige Implementation einer Prioritätswarteschlange: java.util.PriorityQueue – (wird auch in java.util.concurrent.PriorityBlockingQueue benutzt). • Die zugrundeliegende Datenstruktur ist ein Heap. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 248 Heap • Das Wort Heap (Halde) hat zwei Bedeutungen: 1. Heap: Besonderer Speicherbereich, in dem Objekte und Klassen gespeichert werden. 2. Heap: Datenstruktur zur effizienten Implementierung einer Prioritätswarteschlange. • • Beide Bedeutungen haben nichts miteinander zu tun. In folgenden Kapitel widmen wir uns ausschließlich der zweiten Bedeutung. Dabei betrachten wir ausschließlich den binären Heap. Es gibt z.B. noch den Binominial-Heap und den Fibonacci-Heap. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 249 Einführendes Applet Einführung: http://www.matheprisma.uni-wuppertal.de/Module/BinSuch/index.html Kapitel Heap (1+2) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 250 Definition: Heap Definition: Ein Heap ist ein Binärbaum mit folgenden Eigenschaften: • Er ist links-vollständig • Die Kinder eines Knotens sind höchstens so groß wie der Knoten selbst. das größte Element befindet sich an der Wurzel des Heaps 21 18 Achtung: In der Literatur gibt es auch die umgekehrte Definition 17 14 IT Center, Prof. Dr. H. Pflug 11 3 7 10 12 „Algorithmen‟– Scientific Programming / MATSE, 2016 251 Heap-Eigenschaften Ein Heap ist also ein Binärbaum mit den beiden Eigenschaften: Form : (linksvollständig) und Ordnung: IT Center, Prof. Dr. H. Pflug Entlang jedes Pfades von einem Knoten zur Wurzel sind die Knoteninhalte aufsteigend sortiert. „Algorithmen‟– Scientific Programming / MATSE, 2016 252 Feld-Einbettung Vorteil der Linksvollständigkeit: Feld-Einbettung leicht möglich. Vater und Söhne zu a[i]: a[i/2] a[i] a[2i] a[2i+1] Anmerkung: In Java werden Felder beginnend mit 0 indiziert. entweder: - der k-te Knoten wird in dem Feld-Element a[k-1] gespeichert... - oder Feld-Index 0 bleibt unbenutzt! IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 253 Element einfügen: upHeap(„swim“) • neues Element in Heap einfügen geht (wegen Linksvollständigkeit) nur an genau einer Position. • Ordnungseigenschaft kann dadurch verletzt werden. • Algorithmus zum Wiederherstellen der Ordnung: upHeap. • Idee: – Knoten mit Vaterknoten vergleichen und ggf. vertauschen. – Dies setzt sich nach oben fort (notfalls bis zur Wurzel). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 254 upHeap: Beispiel W S F D B W P 2. G C 1. T IT Center, Prof. Dr. H. Pflug A T M F D B P S C A M G „Algorithmen‟– Scientific Programming / MATSE, 2016 255 Wurzel entfernen: downHeap („sink“) • Nach Entfernen der Wurzel eines Heaps wird am weitesten rechts stehender Blattknoten in der untersten Ebene die neue Wurzel. Form wiederhergestellt. • Ordnungseigenschaft kann dadurch verletzt werden. • Algorithmus zum Wiederherstellen der Ordnung: downHeap. • Idee: – Neues Wurzel-Element wandert nach unten („versickert“). – Dabei wird es jeweils falls nötig mit dem größeren Sohn vertauscht. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 256 downHeap: Beispiel (1) E 1. S F D B S P 2. G C IT Center, Prof. Dr. H. Pflug A G M F D B P E A M C „Algorithmen‟– Scientific Programming / MATSE, 2016 257 Aufbau eines Heaps • Einfache Methode: – Alle Elemente der Reihe nach einfügen und aufsteigen lassen. • Falls ein bestehendes (unsortiertes) Array in einen Heap umgewandelt werden soll, ist das Bottom-up-Verfahren effizienter: – Die erste Hälfte der Elemente wird nach unten versickert (downHeap). – Auf dieses Verfahren wird in der Vorlesung nicht weiter eingegangen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 258 Zeitkomplexität für Heap-Aufbau • sink folgt dem Weg von der Wurzel eines linksvollständigen Binärbaums bis maximal zu seinen Blättern, d.h. es werden höchstens log 2 (n 1) Knoten besucht. (minimale Höhe +1) O(log n) • Aufbau eines Heaps (mit Bottom-up) ruft sink für n/2 Elemente auf, also: Tavheapcreate(n) = Tw heapcreate(n) = n 2 log 2 (n 1) O(n log n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 259 Heap-Sort Der Heap ist die Grundlage für ein bekanntes Sortierverfahren • Zu Beginn: Unsortiertes Feld • Phase 1: Aufbau des Heaps – Einfaches Verfahren: Alle Elemente werden nacheinander eingefügt – Schneller: Bottom-up-Verfahren (nicht in Vorlesung) – Resultat ist ein Heap, der in ein Feld eingebettet ist. • Phase 2: Der Heap wird geleert, indem immer wieder die Wurzel (d.h. das größte Element) entfernt wird. – Die Elemente werden in absteigender Reihenfolge entfernt. – Der Heap schrumpft immer weiter. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 260 Trick beim Heap-Sort • Zunächst wird das Feld komplett in einen Heap umgewandelt: Heap • Wenn die Wurzel entfernt wird, schrumpft der Heap um 1 Element und das letzte Feldelement gehört nicht mehr zum Heap. • Hier kann das 1. sortierte Element untergebracht werden Heap IT Center, Prof. Dr. H. Pflug Größtes Element „Algorithmen‟– Scientific Programming / MATSE, 2016 261 Trick beim Heap-Sort (2) • Wenn weitere Male die Wurzel entfernt wird, schrumpft der Heap immer weiter. Die freiwerdenden Stellen werden mit den entnommenen Werten besetzt, die jetzt aufsteigend sortiert sind. Heap Aufsteigend sortierte Elemente • Zuletzt ist der Heap auf 0 geschrumpft und das Feld ist sortiert. Aufsteigend sortierte Elemente IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 262 Beispiel für Phase 1 von HeapSort 18 14 07 17 3 11 10 Heap 21 Heap aufbauen 18 14 07 17 3 11 10 21 18 14 07 17 3 11 10 21 18 14 7 17 3 11 10 21 18 17 07 14 3 11 10 21 18 17 07 14 3 11 10 21 18 17 11 14 3 7 10 21 18 17 11 14 3 07 10 21 21 18 11 17 3 07 10 14 IT Center, Prof. Dr. H. Pflug 21 18 17 11 3 7 10 14 „Algorithmen‟– Scientific Programming / MATSE, 2016 263 Beispiel für Phase 2 von HeapSort Sortierte Teilfolge 21 18 11 17 3 07 10 14 Verschobene Elemente 14 18 11 17 3 07 10 21 18 17 11 14 3 07 10 21 versickerndes Element 18 17 14 IT Center, Prof. Dr. H. Pflug 11 3 7 „Algorithmen‟– Scientific Programming / MATSE, 2016 10 264 Beispiel für Phase 2 von HeapSort Sortierte Teilfolge 18 17 11 14 3 07 10 21 Verschobene Elemente 10 17 11 14 3 07 18 21 17 14 11 10 3 07 18 21 versickerndes Element 17 14 10 IT Center, Prof. Dr. H. Pflug 11 3 7 „Algorithmen‟– Scientific Programming / MATSE, 2016 265 Beispiel für Phase 2 von HeapSort Sortierte Teilfolge 17 14 11 10 3 07 18 21 Verschobene Elemente 7 14 11 10 3 17 18 21 14 10 11 7 3 17 18 21 versickerndes Element 14 10 7 IT Center, Prof. Dr. H. Pflug 11 3 „Algorithmen‟– Scientific Programming / MATSE, 2016 266 Beispiel für Phase 2 von HeapSort 11 11 10 3 7 14 17 18 21 10 3 7 10 10 7 3 11 14 17 18 21 7 3 7 7 3 10 11 14 17 18 21 3 3 7 10 11 14 17 18 21 3 7 10 11 14 17 18 21 IT Center, Prof. Dr. H. Pflug 3 „Algorithmen‟– Scientific Programming / MATSE, 2016 267 Vorlesung 11 Vorlesung 11 Graphen Breitensuche IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 268 Graphen • sehr allgemeine Datenstruktur • bestehen aus Knoten und Kanten, die die Knoten verbinden Kante Knoten • Modellierung vieler praktischer Probleme mit Graphen – Z.B. Telefonnetze, Flugpläne, … • viele Algorithmen für Graphen bekannt IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 269 Formale Definition für gerichtete Graphen • Ein gerichteter Graph G = (V,E) besteht – aus einer endlichen, nicht leeren Menge V = {v1, ... , vn} von Knoten (Engl.: „vertices“) und – einer Menge E VV von geordneten Paaren e = (u,v), den Kanten (Engl.: „edges“). Jede Kante (u,v) E hat einen Anfangsknoten u und einen Endknoten v und damit eine Richtung von u nach v (u = v ist möglich). • Graphische Darstellung: u IT Center, Prof. Dr. H. Pflug v „Algorithmen‟– Scientific Programming / MATSE, 2016 270 Definition für ungerichtete Graphen • Ein ungerichteter Graph G = (V,E) ist ein gerichteter Graph, bei dem die Relation E symmetrisch ist: (u,v) E (v,u) E • Graphische Darstellung: IT Center, Prof. Dr. H. Pflug u v „Algorithmen‟– Scientific Programming / MATSE, 2016 271 Gerichteter / Ungerichteter Graph Gerichteter Graph A B E D IT Center, Prof. Dr. H. Pflug C Ungerichteter Graph 1 4 2 3 5 „Algorithmen‟– Scientific Programming / MATSE, 2016 272 Weitere Begriffe aus der Graphentheorie • G‘ = (V‘, E‘) heißt Teilgraph von G = (V, E), wenn gilt: V‘ V und E‘ E. A B E D IT Center, Prof. Dr. H. Pflug C „Algorithmen‟– Scientific Programming / MATSE, 2016 273 Weitere Begriffe aus der Graphentheorie • Zwei Knoten heißen adjazent (benachbart), wenn eine Kante sie verbindet. • Bei einem gerichteten Graphen mit der Kante uv ist u Vorgänger von v; v ist Nachfolger von u. U IT Center, Prof. Dr. H. Pflug V „Algorithmen‟– Scientific Programming / MATSE, 2016 274 Wege in Graphen Sei G = (V, E) ein (gerichteter oder ungerichteter) Graph. • Eine Folge von Knoten W := (v1, v2, v3, ... , vn) heißt Weg (oder Pfad) in G, falls gilt: i=1, ..., n-1 : (vi , vi+1) E (also eine Folge von „zusammenhängenden“ Kanten) A B E D IT Center, Prof. Dr. H. Pflug C Beispielwege: (A, B) (B, E, D, C) (D, C, D, C, D, C) (A, B, E, D, A) „Algorithmen‟– Scientific Programming / MATSE, 2016 275 Weitere Definitionen • v1 =: (W) heißt Anfangsknoten des Weges W • vn =: (W) heißt Endknoten des Weges W • viV: (vi) heißt trivialer Weg und ist stets ein Weg in G. • Die Länge eines Weges ist l(W) := n-1, falls n Knoten auf diesem Weg besucht werden. • Ein Weg heißt einfacher Weg, wenn kein Knoten (außer eventuell dem ersten/letzten – siehe Zykel) mehr als einmal vorkommt. • Ein Zykel (Kreis) ist ein (nicht-trivialer) einfacher Weg mit der Bedingung (W) = (W). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 276 Gewichteter Graph 2 1 2 7 2 0 1 3 6 3 5 2 1 IT Center, Prof. Dr. H. Pflug 4 • Ein Graph heißt gewichtet (bewertet), wenn jeder Kante ein Wert als Gewicht zugeordnet ist (z.B. Transportkosten, Entfernung, etc.). 3 5 6 Um von 3 nach 1 zu kommen, ist der Weg über 4 billiger als der direkte Weg. „Algorithmen‟– Scientific Programming / MATSE, 2016 277 Speicherung von Graphen Je nach Zielsetzung: • Kantenorientiert – Prinzip: • Index für Kanten • Für jede Kante speichern: Vorgängerknoten, Nachfolgerknoten, ggfs.: Markierung, Gewicht – Meist statische Darstellung, z.B. Kantenliste • Knotenorientiert – gebräuchlicher als kantenorientiert – in vielen Ausprägungen, z.B.: • Knotenliste • Adjazenzmatrix • Adjazenzliste IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 278 Kantenliste für gerichteten Graphen 1 2 3 4 5 6 Platzbedarf: 2+2·|E| Anzahl der Knoten Anzahl der Kanten Für jede Kante: Vorgänger und Nachfolger 6, 11, 1,2, 1,3, 3,1, 4,1, 3,4, 3,6, 5,3, 5,5, 6,5, 6,2, 6,4 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 279 Knotenliste für gerichteten Graphen 1 Anzahl der Knoten 2 3 4 5 6 Platzbedarf: 2+|V|+|E| (normalerweise weniger als Kantenliste) Für jeden Knoten: Ausgangsgrad und und Liste der Nachfolger Anzahl der Kanten 6, 11, 2,2,3, 0, 3,1,4,6, 1,1, 2,3,5, 3,2,4,5 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 280 Adjazenzmatrix für gerichteten Graphen 1 3 2 4 Platzbedarf: |V|2 Adjazenzmatrix für ungerichtete Graphen ist symmetrisch Gewichte können anstelle boolescher Werte gespeichert werden 5 6 nach true, Aij false, falls i, j E andernfall s IT Center, Prof. Dr. H. Pflug V o n 011000 000000 100101 100000 001010 010110 „Algorithmen‟– Scientific Programming / MATSE, 2016 281 Vor- und Nachteile der Adjazenzmatrizen Vorteile: + Entscheidung, ob (i,j) E, in Zeit O(1) + erweiterbar für Kantenmarkierung und Gewichte Nachteile: – Platzbedarf stets O(|V|2) ineffizient falls |E| « |V|2 – Initialisierung benötigt Zeit O(|V|2) „viel kleiner als“ IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 282 Adjazenzliste für gerichteten Graphen 1 2 3 4 5 6 Platzbedarf: • |V| Listen • |E| Listenelemente IT Center, Prof. Dr. H. Pflug 1 2 3 3 1 4 4 1 2 5 3 5 6 2 4 6 5 „Algorithmen‟– Scientific Programming / MATSE, 2016 283 Vor- und Nachteile der Adjazenzlisten Vorteil: + Geringer Platzbedarf von O( |V| + |E| ) Nachteil: – Entscheidung, ob (i,j) E in Zeit O(|E|) im schlimmsten Fall IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 284 Breitensuche/Breadth-First-Search (BFS) 1. zunächst alle Knoten als „noch nicht besucht“ markieren 2. Startpunkt v wählen (und als „besucht“ markieren) 3. Jetzt: i. alle von v aus direkt erreichbaren (noch nicht besuchten) Knoten „besuchen“ ii. alle von v aus über zwei Kanten erreichbaren Knoten „besuchen“ iii. ... über n Kanten ... Implementierung mit einer Queue. 4. wenn dann noch nicht alle Knoten besucht worden sind: einen unbesuchten Knoten als neuen Startpunkt wählen und von 3. beginnen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 285 Beispiel zu BFS (1) 3 0 1 5 Rot: Position des Elements in Queue 2 4 6 1 3 2 2 1 4 5 6 3 4 3 2 2 IT Center, Prof. Dr. H. Pflug 1 4 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 3 286 Beispiel zu BFS (2) 3 1 2 4 4 2 3 5 6 2 4 3 1 4 5 6 4 3 3 2 1 4 5 6 5 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 287 Beispiel zu BFS (3) 3 1 2 4 4 3 5 5 2 6 1 4 5 6 5 IT Center, Prof. Dr. H. Pflug 3 2 1 4 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 288 Breitensuche (BFS) bfs(v) Initialisiere leere queue queue.put(v) Markiere Knoten ’v’ als besucht Solange queue nicht leer u = queue.get() Für jeden direkten Nachfolger w von u (es gibt Kante von u nach w) 'w' schon besucht? Wahr Falsch queue.put(w) Markiere Knoten ’w’ als besucht IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 289 Baumdurchläufe: Level-Order • Führt man die Breitensuche bei Bäumen aus, stellt man fest: – Es ist nicht nötig, die Knoten zu markieren – Der Baum wird Ebene für Ebene durchlaufen: • Angefangen bei der Wurzel • Wenn man die Kindknoten jeweils von links nach rechts besucht, wird jede Ebene von links nach rechts durchlaufen • Diesen Durchlauf nennt man Level-Order-Durchlauf IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 290 Initialisierung für BFS Zu Beginn muss dafür gesorgt sein, dass alle Knoten als „noch nicht besucht“ markiert sind: Für alle Knoten 'v' markiere Knoten 'v' als 'unbesucht' IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 291 Struktogramm Levelorder Durchlaufe Levelorder(v) Initialisiere leere queue queue.put(v) Solange queue nicht leer u = queue.get() Besuche Knoten „u“ Für jeden Kindknoten „w“ queue.put(w) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 292 Vorlesung 12 Vorlesung 12 Tiefensuche Baumdurchlauf (2) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 293 Baumdurchläufe: Preorder 1. Betrachte die Wurzel (und führe eine Operation auf ihr aus) 2. Durchlaufe linken Teilbaum 3. Durchlaufe rechten Teilbaum Preorder (wurzel) 1 Besuche Wurzel Preorder (linker Sohn) 2 4 Preorder (rechter Sohn) 3 IT Center, Prof. Dr. H. Pflug 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 294 Baumdurchläufe: Inorder 1. Durchlaufe linken Teilbaum 2. Betrachte die Wurzel (und führe eine Operation auf ihr aus) 3. Durchlaufe rechten Teilbaum 3 1 5 2 IT Center, Prof. Dr. H. Pflug 4 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 295 Baumdurchläufe: Postorder 1. Durchlaufe linken Teilbaum 2. Durchlaufe rechten Teilbaum 3. Betrachte die Wurzel (und führe eine Operation auf ihr aus) 6 2 5 1 IT Center, Prof. Dr. H. Pflug 3 4 „Algorithmen‟– Scientific Programming / MATSE, 2016 296 Beispiel 1 3 2 4 8 5 9 IT Center, Prof. Dr. H. Pflug 6 Preorder: Inorder: Postorder: Levelorder: 7 1,2,4,8,9,5,3,6,7 8,4,9,2,5,1,6,3,7 8,9,4,5,2,6,7,3,1 1,2,3,4,5,6,7,8,9 „Algorithmen‟– Scientific Programming / MATSE, 2016 297 Arithmet. Ausdrücke in Pre-/PostfixNotation • (a + b) * c + 7 + Prefix-Notation: + * + a b c 7 Postfix-Notation: a b + c * 7 + 7 * + a • (a + b) * (c + 7) c b Prefix-Notation: * + a b + c 7 Postfix-Notation: a b + c 7 + * * + a + b c 7 Bemerkung: Bei der Infix-Notation sind i.allg. Klammern notwendig, um die Baumstruktur eindeutig wiedergeben zu können. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 298 Graphdurchläufe • Graphdurchläufe sind prinzipiell ähnlich wie Baumdurchläufe. • Allerdings müssen die durchlaufenen Knoten markiert werden, damit man auf zyklischen Wegen nicht in Endlosschleifen gerät. 1 2 3 4 5 6 IT Center, Prof. Dr. H. Pflug Pre-Order Tiefensuche „Algorithmen‟– Scientific Programming / MATSE, 2016 299 Tiefensuche/Depth-First-Search (DFS) Entspricht Preorder-Durchlauf bei Baum: 1. zunächst alle Knoten als „noch nicht besucht“ markieren 2. Startpunkt wählen (und als „besucht“ markieren) 3. von dort aus möglichst langen Pfad entlang gehen; dabei nur bisher „unbesuchte“ Knoten „besuchen“ (Implementierung rekursiv oder mit explizitem Stack). 4. wenn dann noch nicht alle Knoten besucht worden sind: einen unbesuchten Knoten als neuen Startpunkt wählen und von 3. beginnen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 300 Beispiel zu DFS (1) 3 1 3 2 1 4 4 Start: dfs(1) 5 6 IT Center, Prof. Dr. H. Pflug 3 2 2 1 4 5 6 dfs(3) 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 301 Beispiel zu DFS (2) 3 1 5 3 2 4 6 1 dfs(2) 4 2 1 4 5 6 dfs(4) 5 3 1 3 2 6 3 2 4 2 1 4 5 6 dfs(5) 5 IT Center, Prof. Dr. H. Pflug 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 302 Initialisierung für DFS Zu Beginn muss dafür gesorgt sein, dass alle Knoten als „noch nicht besucht“ markiert sind: Für alle Knoten 'v' markiere Knoten 'v' als 'unbesucht' IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 303 Tiefensuche (DFS) dfs(v) markiere Knoten 'v' als 'besucht' Für jeden direkten Nachfolger w von v (es gibt Kante von u nach w) 'w' schon besucht? Falsch Wahr dfs(w) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 304 Bemerkungen zu DFS und BFS • Zeitkomplexität von DFS und BFS: – Bei Speicherung des Graphen mit Adjazenzlisten: • DFS: O( |V| + |E| ) • BFS: O( |V| + |E| ) – Bei Speicherung des Graphen mit Adjazenzmatrix: • DFS: O( |V|2 ) • BFS: O( |V|2 ) • Warum Bezeichnungen Tiefen/Breiten-Suche? – Eine Anwendung ist die Suche im Graphen nach einem bestimmten Knoten: • Vergleich des Knoteninhalts mit gesuchtem Inhalt und Abbruch bei Gleichheit. • Worst-Case-Komplexität bleibt gleich. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 305 Vorlesung 13 Vorlesung 13 Backtracking 1 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 306 Einführende Aufgabe • Schreiben Sie eine Funktion public void printKombinationen(int n) die alle Zeichenketten auf dem Bildschirm ausgibt, die – n Zeichen lang sind – Ausschließlich aus den Buchstaben ‚a‘ bis ‚d‘ bestehen. • n ineinandergeschachtelte for-Schleifen? Geht nicht! • Abbildung auf Baumstruktur – n Ebenen (da n Zeichen) – Für jeden Knoten Verzweigungsgrad=4 (nächstes Zeichen a,b,c,d) • Pre-Order-Durchlauf des (gedachten) Baums: Backtracking IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 307 Ergebnisse zusammentragen • Die Aufgabe wird erweitert: – Die Ergebnisse sollen in einer ArrayList zusammengefasst und zurückgegeben werden. • 5 mögliche Verfahren – – – – – Klassisches Backtracking Backtracking mit Korb Level-Order mit Queue Codierung evtl. dynamische Programmierung • Ziel: – Sie können mindestens „Backtracking mit Korb“ und „LevelOrder mit Queue“ anwenden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 308 Ergebnisse zusammentragen Klassisches Backtracking Die Ergebnisse werden über die return-Werte der Rekursionsaufrufe zurückgegeben. Jeder Rekursionschritt sammelt die return-Werte der Unterschritte und fasst sie zusammen (in Java z.B. mit addAll). return ArrayList abc cba return IT Center, Prof. Dr. H. Pflug return ArrayList ArrayList abc cba „Algorithmen‟– Scientific Programming / MATSE, 2016 309 Ergebnisse zusammentragen Backtracking mit Korb Eine Korb (z.B. ArrayList) wird per Übergabeparameter (als Referenz) mitgegeben. Die Ergebnisse werden in dieser Liste gesammelt. Der Korb wandert als Referenz durch den gesamten Baum mit. Alle neuen Ergebnisse werden in den Korb gelegt (meistens in den Blättern) IT Center, Prof. Dr. H. Pflug Am Ende enthält der Korb alle Ergebnisse. „Algorithmen‟– Scientific Programming / MATSE, 2016 310 Ergebnisse zusammentragen Level-Order mit Queue Kein Backtracking, keine Rekursion, nur Schleifen. – Der Backtracking-Baum wird in Level-Order durchlaufen Benutzung einer Queue. – Beispiel für printKombinationen: – 1. Initialisierung: Leerstring wird in die Queue gesteckt. – 2. Durchlauf (Beispiel): „ac“ wird aus der Queue geholt • Ergänzte Strings „aca“ bis „acd“ in Queue stecken. – 3. Sammeln der Ergebnisse • String mit Länge n wird aus Queue geholt String ist Ergebnis. Ergebnis in Ergebnis-Liste aufnehmen (kann lokale Variable sein, da keine Rekursion vorhanden). – 4. Abbruch • Wenn die Queue leer ist, wird die Ergebnisliste zurückgegeben. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 311 Ergebnisse zusammentragen Codierung Kein Backtracking, keine Rekursion, nur Schleifen. – Jedem Blatt eines Baums mit Verzweigungsgrad n kann man eine Codenummer im Zahlensystem zur Basis n zuordnen. 0 0 00 1 1 0 01 10 1 11 – Beispiel: Alle Blätter sind mit einem Code zwischen 00 (dez. 0) und 11 (dez. 3) versehen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 312 Ergebnisse zusammentragen Codierung Beispiel für printKombinationen (n=3): Alle Blätter sollen eine Codezahl erhalten. – Die Codezahl ist dreistellig, denn die Blätter liegen in der dritten Ebene – Die Codezahl steht im 4er-System, denn der Verzweigungsgrad ist 4. Schleife von 0dez (Code 000) bis 43 − 1 = 63dez (Code 333) Dezimalzahl ins 4er-System umrechnen und in String wandeln: (0a, 1b, 2c, 3d) String in Ergebnis-Liste aufnehmen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 313 Ergebnisse zusammentragen Dynamische Programmierung Definition aus Wikipedia: In der dynamischen Programmierung werden zuerst die optimalen Lösungen der kleinsten Teilprobleme direkt berechnet und dann geeignet zu einer Lösung eines nächstgrößeren Teilproblems zusammengesetzt. Dieses Verfahren setzt man fort… (Die Definition ist nicht klausurrelevant. Schauen Sie den Rest bei Interesse in Wikipedia nach.) Dynamische Programmierung führt oft zu sehr schnellen Algorithmen Es ist sehr schwierig, selbst Algorithmen zu entwickeln, die dynamische Programmierung benutzen. Dies ist auch nicht Bestandteil der Vorlesung. Wir werden jedoch zwei Algorithmen betrachten, die dynamische Programmierung verwenden. • den Bellman-Ford-Algorithmus (Vorlesung 15) • den Floyd-Warshall-Algorithmus (Vorlesung 16) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 314 Vorlesung Vorlesung 14 Backtracking 2 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 315 Backtracking • Situation: Mehrere Alternativen sind in bestimmten Schritten des Algorithmus möglich – z.B. 4 Richtungen bei Suche in einem Labyrinth: , , , • Lösung mit Backtracking: – Wähle eine Alternative und verfolge diesen Weg weiter. – Falls man so eine Lösung des Problems findet, ist man fertig. – Ansonsten gehe einen Schritt zurück und verfolge rekursiv eine andere (bisher noch nicht probierte) Alternative in diesem Schritt. – Falls alle Alternativen erfolglos probiert wurden: Einen Schritt zurückgehen ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 316 Beispiel: Labyrinthsuche • „Wie kommt die (virtuelle) Maus zum Käse?“ • • Bei Abzweigungen durchsucht sie erst die eine Richtung. Führt sie in eine Sackgasse, kehrt sie an die Abzweigung zurück (Backtracking)und wählt eine andere Richtung. Rekursiver Algorithmus. • Bild aus: http://www.swisseduc.ch/informatik/ vortraege/backtracking/index.html IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 317 Baumdurchlauf / Backtracking Baumdurchlauf (mit Pre-Order) und Suchen eines bestimmten Knotens im Baum. Das „Hochlaufen“ des Baumes (nach Beendigung eines Rekursionsaufrufs) entspricht dem Zurückgehen eines Schritts im Labyrinth. Daher hat diese Suche den Namen Backtracking. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 318 Struktogramm loese(Teillösung) nein Teillösung == Lösung? Für alle möglichen nächsten Schritte Testlösung = um Schritt erweiterte Teillösung ja Lösung ausgeben oder speichern Sucht anschließend weiter. Abbruch?? loese(Testlösung) (Rekursion) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 319 Labyrinthsuche: Spezifikation • • • Wände bestehen aus einem Block Ränder sind Wände (außer Start und Ziel) Erster Schritt immer eindeutig Abbruch der Suche nach Erreichen des Ziels • • Klarheit des Codes geht vor Performance Objektorientiertheit IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 320 Labyrinthsuche: Objektorientierung Maze Location - x, y: int +Location(x: int, y: int) +add(loc: Location): Location +equals(loc: Location): boolean Backtracking +Backtracking(m: Maze) +solve(loc: Location, lastLoc: Location): boolean +static main(String[] args): int +Maze(int width, int height) +isFree(loc: Location): boolean +isEnd(loc: Location): boolean +getStart(): Location +getFirstStep(): Location +markTrack(loc: Location, vis: boolean): void +print(): void (Code ist auf Kursseite verfügbar.) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 321 Labyrinthsuche: Grafische Ausgabe IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 322 Mehr Intelligenz (Heuristik) Location[] directions = new Location[] {up, right, down, left}; for (int i=0; i<4; i++) { test = loc.add(directions[i]); IT Center, Prof. Dr. H. Pflug Es ist bekannt, dass das Ziel oben liegt Bei manchen Wegen ist es sinnlos, sie weiterzuvefolgen. „Algorithmen‟– Scientific Programming / MATSE, 2016 323 Bsp. zu Backtracking: 8-Damen-Problem Aufgabenstellung: 8 Damen auf Schachbrett so aufstellen, dass sie sich gegenseitig nicht schlagen können (In keiner Diagonalen, Waagerechten oder Senkrechten darf mehr als eine Dame stehen) Eng verwandt: "Springerproblem" Sackgasse ? IT Center, Prof. Dr. H. Pflug eine Lösung „Algorithmen‟– Scientific Programming / MATSE, 2016 324 Lösungsansatz: 8-Damen-Problem Teile Problem in 8 Schritte auf: • In Schritt i: eine Dame in i-ter Spalte platzieren unter Berücksichtigung der bereits platzierten i-1 Damen. Dazu: Platzierung in Zeilen j=1-8 ausprobieren: Erste Zeile wählen, in der die i-te Dame nicht „bedroht“ ist. • Falls eine sichere Position gefunden: (i+1)-te Dame genauso behandeln. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 325 Lösungsansatz: 8-Damen-Problem (2) • Falls sichere Platzierung in keiner Zeile möglich: einen Schritt zurück gehen und alternative Position für (i-1)-te Dame wählen. • Verfahren funktioniert rekursiv IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 326 Realisierung: 8-Damen-Problem Array queenpos[8]: Positionen der Damen, d.h. queenpos[i] = Nummer der Zeile, in der i-te Dame in Spalte i platziert wird. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 327 Realisierung: 8-Damen-Problem Aufruf: queens(queenpos,0) queens(int queenpos[], int column): column < 8 ? Wahr Falsch for(row=0; row<8; row++) good(queenpos, row, column) ? Wahr Falsch queenpos[column] = row Lösung gefunden: Ausgabe von queenpos[] queens(queenpos, column+1) Bemerkung: Verfahren findet alle Lösungen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 328 Test, ob Position geschlagen wird boolean good(int queenpos[], int row, int column): isGood = true for(i=0; (i<column) && isGood; i++) Dame in Spalte i kann Dame an Position row/ column schlagen Wahr Falsch isGood = false return isGood IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 329 Bemerkungen zu Backtracking • Backtracking-Algorithmen können exponentiellen Aufwand haben! • Durch Einführung von Zusatzbedingungen möglichst viele Sackgassen ausschließen. • Symmetriebedingungen ausnutzen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 330 Rucksack-Problem Gegeben: Es gibt n Gegenstände. Jeder Gegenstand i hat ein Gewicht gi und einen Wert wi. In einen Rucksack passen Gegenstände bis zum Gesamtgewicht G. Aufgabenstellung: Packe Gegenstände so in den Rucksack, dass der Gesamtwert maximal wird. c g G i i c w maximal i i ci {0,1} Komplexität: mit Binärbedingung: 2n IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 331 Beispiel Gegenst. Wert Gewicht A 5 7 B 2 4 C 4 6 0/0 ja A 5/7 ja nein Kapazität: 12 7/11 ja nein X 7/11 X nein ja ja 5/7 nein 2/4 ja nein 5/7 0/0 6/10 nein 2/4 0/0 ja 4/6 nein 0/0 Suche des Blattes mit dem größten Wert IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 332 Ähnliches Beispiel: Waage • Zur Verfügung steht eine Balkenwaage und 4 Gewichte. 1 3 8 20 • Welche Gewichte kann man ausmessen? 0 re weg 0 -1 li 1 4 1 -2 IT Center, Prof. Dr. H. Pflug 3 0 Fällt weg aus Symmetriegründen -3 usw... „Algorithmen‟– Scientific Programming / MATSE, 2016 333 Vorlesung 15 Vorlesung 15 Kürzeste Wege in Graphen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 334 Kürzeste-Wege-Algorithmen – Günstigste Wege von einer Quelle: Dijkstra-Algorithmus – Günstigste Wege zwischen allen Knotenpaaren: FloydAlgorithmus – Existiert ein Weg zwischen zwei Knoten? Warshall–Algorithmus IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 335 Kürzeste-Wege-Probleme • • Eigentlich: Suche nach günstigsten Wegen in gewichteten Graphen: Gewichte Kosten; Bei Anwendung auf ungewichtete Graphen (Gewichte=1) ergibt sich: „kürzeste“ Wege. • Praktische Bedeutung für Transport- und Kommunikationsnetzwerke • (einige) Problemarten: 1. Bestimme günstigsten Weg von festem Knoten („Quelle“) zu allen anderen Knoten („Single-source shortest-path problem“). 2. Bestimme günstigste Wege zwischen allen Knotenpaaren („All-pairs shortest-path problem“). 3. Bestimme günstigsten Weg zwischen zwei gegebenen Knoten. 4. Existiert ein Weg zwischen zwei Knoten? IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 336 Anwendungsbeispiel Spedition fährt täglich im Dreieck Aachen-Düsseldorf-Köln und möchte die Kosten minimieren. Kantenkosten im Graphen sind z.B. Kilometer oder benötigte Zeit. Düsseldorf 70 50 60 30 Jülich Aachen 75 50 Köln 1) Kostenminimaler Weg von Aachen zu allen anderen Orten? 2) Kostenminimaler Weg zwischen allen Orten? 3) Kostenminimaler Weg zwischen Aachen und Köln? IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 337 Günstigste Wege von einer Quelle Algorithmus von Dijkstra (1959): Gegeben: Graph G = (V,E) dessen Bewertungsfunktion folgende Eigenschaften hat: – Jede Kante von vi nach vj hat nicht negative Kosten: C(i,j) 0 – Falls keine Kante zwischen vi und vj : C(i,j) = – Diagonalelemente: C(i,i) = 0 (spezielle Konvention, falls nötig) – Bei ungewichtetem Graph (Gewichte=1): Ergebnis = Länge der kürzesten Wege Idee: Iterative Erweiterung einer Menge von günstig erreichbaren Knoten IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 338 Algorithmus von Dijkstra (1959) (2) Menge S: die Knoten, deren günstigste Wegekosten von der vorgegebenen Quelle (Startknoten) bereits bekannt sind. 1. Initialisierung: S = { Startknoten } 2. Beginnend mit Quelle alle ausgehenden Kanten betrachten (analog BFS). Nachfolgerknoten v mit günstigster Kante zu S hinzunehmen. 3. Jetzt: berechnen, ob die Knoten in V \S günstiger über v als „Zwischenstation“ erreichbar ist, als ohne Umweg über v. 4. Danach: denjenigen Knoten v' zu S hinzunehmen, der nun am günstigsten zu erreichen ist. Bei zwei gleich günstigen Knoten wird ein beliebiger davon ausgewählt. Neuberechnen der Wegekosten (3.) und Erweitern von S (4.) wiederholen, bis alle Knoten in S sind. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 339 Beispiel (1) Initialisierung: S = { Startknoten } Beginnend mit Quelle alle ausgehenden Kanten betrachten (analog BFS). 50 2 5 4 20 6 1 20 5 10 20 3 20 IT Center, Prof. Dr. H. Pflug 20 5 30 Knoten Abstand 1 0 2 5 3 20 4 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 340 Beispiel (2) Nachfolgerknoten v mit günstigster Kante zu S hinzunehmen. 50 2 5 4 20 6 1 20 5 10 20 3 20 IT Center, Prof. Dr. H. Pflug 20 5 30 Knoten Abstand 1 0 2 5 3 20 4 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 341 Beispiel (3) 3. Jetzt: berechnen, ob die Knoten in V \S günstiger über v als „Zwischenstation“ erreichbar ist, als ohne Umweg über v. 50 2 5 4 20 6 1 20 5 10 20 3 20 IT Center, Prof. Dr. H. Pflug 20 5 30 Knoten Abstand 1 0 2 5 3 20 15 4 55 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 342 Beispiel (4) 4. Danach: denjenigen Knoten v' zu S hinzunehmen, der nun am günstigsten zu erreichen ist. 50 2 5 4 20 6 1 20 5 10 20 20 3 20 IT Center, Prof. Dr. H. Pflug 5 30 Knoten Abstand 1 0 2 5 3 15 4 55 5 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 343 Beispiel (5) Neuberechnen der Wegekosten. 50 2 5 4 20 6 1 20 5 10 20 20 3 20 IT Center, Prof. Dr. H. Pflug 5 30 Knoten Abstand 1 0 2 5 3 15 4 55 5 35 6 „Algorithmen‟– Scientific Programming / MATSE, 2016 344 Beispiel (6) • wiederholen, bis alle Knoten in S sind. 50 2 5 4 20 6 1 20 5 10 20 20 3 20 IT Center, Prof. Dr. H. Pflug 5 30 Knoten Abstand 1 0 2 5 3 15 4 55 40 5 35 6 65 „Algorithmen‟– Scientific Programming / MATSE, 2016 345 Beispiel (7) • wiederholen, bis alle Knoten in S sind. 50 2 5 4 20 6 1 20 5 10 20 20 3 20 IT Center, Prof. Dr. H. Pflug 5 30 Knoten Abstand 1 0 2 5 3 15 4 40 5 35 6 65 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 346 Beispiel (8) • wiederholen, bis alle Knoten in S sind. 50 2 5 4 20 6 1 20 5 10 20 20 3 20 IT Center, Prof. Dr. H. Pflug 5 30 Knoten Abstand 1 0 2 5 3 15 4 40 5 35 6 60 „Algorithmen‟– Scientific Programming / MATSE, 2016 347 Dijkstra-Algorithmus: Datenstrukturen Menge S: die Knoten, deren günstigste Wegekosten von der vorgegebenen Quelle bereits bekannt sind. d[i] : aktuell günstigste Kosten irgendeines Weges von Quelle zu vi p[i] : Wenn zusätzlich zu günstigsten Kosten auch nach günstigstem Weg zu jedem Knoten gefragt ist: – Speichere direkten Vorgänger von vi auf günstigstem Weg in p[i] – p[i] wird mit Index der Quelle initialisiert. – Nach Ablauf des Algorithmus kann günstigster Weg zu jedem Knoten mit Hilfe des Feldes p zurückverfolgt werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 348 Beispiel zum Ablauf bei Dijkstra Iteration S vi d[2] d[3] Init. {1} 1 5 20 1 {1,2} 2 5 15 55 2 {1,2,3} 3 5 15 55 35 3 {1,2,3,5} 5 5 15 40 35 4 {1,2,3,4,5} 4 5 15 40 5 {1,2,3,4,5,6} 6 5 15 40 d[4] d[5] d[6] p[2] p[3] p[4] p[5] p[6] 1 1 1 2 2 1 2 2 3 65 1 2 5 3 5 35 60 1 2 5 3 4 35 60 1 2 5 3 4 5 3 1 Rückverfolgen des günstigsten Weges z.B. von 1 nach 6: • Vorgänger von 6 = 4 • Vorgänger von 4 = 5 • Vorgänger von 5 = 3, .... d.h. günstigster Weg ist 1-2-3-5-4-6 (mit Kosten 60) IT Center, Prof. Dr. H. Pflug 2 „Algorithmen‟– Scientific Programming / MATSE, 2016 349 Algorithmus von Dijkstra (1): Initialisieren Quelle (Index '1') zur Menge 'S' hinzufügen für alle anderen Knoten 'vi' Kantenkosten zwischen Quelle und 'vi' in Feld 'd' speichern (d[i]=c[1][i]) Vorgänger von 'vi' ist Quelle '1': p[i]=1 IT Center, Prof. Dr. H. Pflug falls Kante zwischen vi und Quelle besteht „Algorithmen‟– Scientific Programming / MATSE, 2016 350 Algorithmus von Dijkstra (2) Solange nicht alle Knoten in S enthalten sind wähle noch nicht in S enthaltenen Knoten 'vi' mit geringsten Kosten d[i] füge vi zu S hinzu für jeden noch nicht in S enthaltenen Knoten 'vj' Wahr Kosten zu vj über vi (d[i]+c[i][j]) geringer als d[j]? Falsch neue Kosten speichern: d[j] = d[i] + c[i][j] Vorgänger von 'vj' ist 'vi': p[j]=i IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 351 Dijkstra-Algorithmus: Bemerkungen • Zeitkomplexität des Dijkstra-Algorithmus: Annahme: Speicherung des Graphen mit Adjazenzmatrix TDijkstra (|V|) O( |V|2 ) • Nachteil: Keine negativen Gewichte möglich – Ausweichen auf den Bellman-Ford-Algorithmus – Negative Zykel: Kein günstigster Weg möglich 2 1 2 1 3 3 IT Center, Prof. Dr. H. Pflug -7 Negativer Zykel 2-3-4-2 Die Kosten 15 können beliebig klein werden. 4 4 5 „Algorithmen‟– Scientific Programming / MATSE, 2016 352 Bellman-Ford-Algorithmus • Dynamische Programmierung • Nachteil O(v∙e) (statt O(v²) bei Dijkstra) • Vorteil: negative Kosten möglich (keine neg. Zykel). Liste der Kanten aufstellen 50 2 5 4 20 6 1 20 5 10 20 3 20 20 5 IT Center, Prof. Dr. H. Pflug 30 12 13 23 24 32 35 45 46 54 56 5 20 10 50 20 20 20 20 5 30 „Algorithmen‟– Scientific Programming / MATSE, 2016 353 Beispiel (1) Berechnung des Abstands 𝑑𝑥 zwischen Knoten 1 und Knoten x • Schritt 1: 𝑑1 = 0 • Schritt 2: Für jede Kante a e: • Falls 𝑑𝑎 bekannt • Falls 𝑑𝑎 + 𝑔 < 𝑑𝑒 (g: Gewicht der Kante) oder 𝑑𝑒 unbekannt: • Setze 𝑑𝑒 auf 𝑑𝑎 + 𝑔. 12 13 23 24 32 35 45 46 54 56 5 20 10 50 20 20 20 20 5 30 Knoten Abstand 1 0 2 5 3 20 15 4 55 40 5 35 6 75 65 • Optimaler Wert für alle Knoten, die optimal mit 1 Schritt erreicht werden können. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 354 Beispiel (2) Berechnung des Abstands 𝑑𝑥 zwischen Knoten 1 und Knoten x • Schritt 3: Wiederhole Schritt 2 12 13 23 24 32 35 45 46 54 56 5 20 10 50 20 20 20 20 5 30 Knoten Abstand 1 0 2 5 3 15 4 55 5 35 6 65 60 • Optimaler Wert für alle Knoten, die optimal mit 2 Schritten erreicht werden können. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 355 Beispiel (3) Berechnung des Abstands 𝑑𝑥 zwischen Knoten 1 und Knoten x • Schritt 4: Wiederhole Schritt 2 • Keine Änderung mehr fertig • Spätestens nach v-1 Wiederholungen sind alle Abstände bestimmt (mehr als v-1 Schritte benötigt keine optimale Wegstrecke). IT Center, Prof. Dr. H. Pflug Knoten Abstand 1 0 2 5 3 15 4 55 5 35 6 65 „Algorithmen‟– Scientific Programming / MATSE, 2016 356 Günstigste Wege zwischen allen Knotenpaaren Gegeben (ähnlich wie für Dijkstra-Algorithmus): Graph G = (V,E) mit folgender Bewertungsfunktion: – Jede Kante von vi nach vj hat nicht negative Kosten: C(i,j) 0 – Falls keine Kante zwischen vi und vj : C(i,j) = Aufgabenstellung: Bestimme für alle geordneten Paare (v,w) den kürzesten Weg von v nach w. Lösungsmöglichkeiten: 1. Wende Dijkstra -Algorithmus für alle Knoten v als Quelle an Zeitkomplexität O( |V|3 ). 2. Verwende den Floyd -Algorithmus. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 357 Grundidee zum Algorithmus von Floyd |V| Iterationen: • 1. Schritt: Vergleiche Kosten von – direkter Verbindung von Knoten i zu Knoten j – Umweg über Knoten 1 (also: von i nach 1; von 1 nach j). – Falls Umweg günstiger: alten Weg durch Umweg ersetzen. • 2. Schritt: zusätzlich Umwege über Knoten 2 betrachten. • k-ter Schritt: Umwege über Knoten k betrachten, usw. Floyd-Algorithmus nutzt eine |V|x|V| Matrix A[i][j] , um Kosten der günstigsten Wege zu speichern (Subscript nur zum Bezeichnen der Iteration): Ak[i][j] := minimale Kosten, um über irgendwelche der Knoten in {1,...,k} vom Knoten i zum Knoten j zu gelangen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 358 Algorithmus von Floyd A[i][j]= Kosten des aktuell günstigsten Wegs : • Initialisierung: A0[i][j] = C(i,j) ij; Diagonalelemente A0[i][i] = 0 • |V| Iterationen mit „dynamischer Programmierung“: Iterationsformel zur Aktualisierung von A[i][j] : Ak[i][j] = min { Ak-1[i][j], Ak-1[i][k]+Ak-1[k][j] } Ak-1 [i][k] i • k Ak-1 [i][j] Ak-1 [k][j] j Zum Schluss: A|V|[i][j] = Kosten des günstigsten Wegs von i nach j. Bemerkung: Ak[i][k] = Ak-1[i][k] und Ak[k][j] = Ak-1[k][j] IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 359 Beispiel zum Floyd-Algorithmus (1) 8 1 2 2 nach 1 2 3 A0 (direkter Weg) 3 3 von 1 2 3 0 8 5 3 0 2 0 5 8 1 2 2 3 Umweg über 1 3 nach 1 2 3 von 1 2 3 0 8 5 3 0 8 2 0 5 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 360 Beispiel zum Floyd-Algorithmus (1) 8 1 2 2 nach 1 2 3 Umweg über 2 3 3 von 1 2 3 0 8 5 3 0 8 5 2 0 5 8 1 2 2 3 Umweg über 3 3 nach 1 2 3 von 1 2 3 0 7 5 3 0 8 5 2 0 5 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 361 Beispiel zum Floyd-Algorithmus (2) P3 IT Center, Prof. Dr. H. Pflug 0 3 0 0 0 1 2 0 0 „Algorithmen‟– Scientific Programming / MATSE, 2016 362 2. Beispiel zum Floyd-Algorithmus (1) 2 1 2 3 von 1 2 3 4 1 3 7 nach 1 2 3 4 A0 (direkter Weg) 4 0 2 3 2 0 1 3 0 7 1 7 0 Umweg über 1 nach 1 2 3 4 2 1 3 2 5 3 1 7 4 IT Center, Prof. Dr. H. Pflug von 1 2 3 4 0 2 3 2 0 5 1 3 5 0 7 1 7 0 „Algorithmen‟– Scientific Programming / MATSE, 2016 363 2. Beispiel zum Floyd-Algorithmus (2) 2 1 2 5 3 3 nach 1 2 3 4 Umweg über 2 3 von 1 2 3 4 1 4 7 6 0 2 3 3 2 0 5 1 3 5 0 6 3 1 6 0 Umweg über 3 nach 1 2 3 4 2 1 2 5 3 3 3 6 1 4 IT Center, Prof. Dr. H. Pflug von 1 2 3 4 0 2 3 3 2 0 5 1 3 5 0 6 3 1 6 0 „Algorithmen‟– Scientific Programming / MATSE, 2016 364 2. Beispiel zum Floyd-Algorithmus (3) Umweg über 4 nach 1 2 3 4 2 1 2 5 3 3 3 6 1 4 IT Center, Prof. Dr. H. Pflug von 1 2 3 4 0 2 3 3 2 0 5 1 3 5 0 6 3 1 6 0 „Algorithmen‟– Scientific Programming / MATSE, 2016 365 Floyd-Algorithmus (1) Floyd-Algorithmus (Initialisierung): for (i=1; i<=|V|; i++) for (j=1; j<=|V|; j++) A[i][j] = C[i][j] A[i][j] == ? nein ja P[i][j] = 0 P[i][j] = i enthält zum Schluss einen Vorgänger auf günstigstem Weg von vi nachScientific vj. „Algorithmen‟– Programming / MATSE, 2016 IT Center, Prof. Dr. H. Pflug 366 Floyd-Algorithmus (2) Floyd-Algorithmus: for(k=1; k<=|V|; k++) for(i=1; i<=|V|; i++) for(j=1; j<=|V|; j++) Wahr A[i][k] + A[k][j] < A[i][j] ? Falsch A[i][j] = A[i][k] + A[k][j] P[i][j] = k IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 367 Zeitkomplexität des Floyd-Algorithmus TFloyd (|V|) O(|V|3) (asymptotisch nicht schneller als |V| mal Dijkstra) Bemerkung: Algorithmus hat sehr einfache Struktur. ⇒ Compiler erzeugt effizienten Code. Dadurch wird Floyd doch schneller als |V| mal Dijkstra sein. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 368 Existiert ein Weg zwischen zwei Knoten? Gegeben: Graph G = (V,E) (egal ob gerichtet oder nicht; gewichtet oder nicht) Aufgabenstellung: Prüfe für alle geordneten Paare (vi,vj), ob ein Weg (beliebiger Länge) von vi nach vj existiert. Ziel: Berechne „Adjazenzmatrix A zu transitivem Abschluss“ von G: A[i][j] = true es existiert ein nicht-trivialer Weg (Länge>0) von vi nach vj Lösung: Modifikation von Floyd–Algorithmus Warshall-Algorithmus Iterationsformel: Ak[i][j] = Ak-1[i][j] (Ak-1[i][k] Ak-1[k][j]) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 369 Beispiel zum Warshall-Algorithmus 1 2 3 Anfang Floyd: Ende 0 8 5 3 0 2 0 Warshall: AOriginal = Floyd: 0 7 5 3 0 8 5 2 0 Warshall: T T T T T F F T T IT Center, Prof. Dr. H. Pflug AAbschluss = T T T T T T T T T „Algorithmen‟– Scientific Programming / MATSE, 2016 370 Warshall-Algorithmus Warshall-Algorithmus: for(i=1; i<=|V|; i++) for(j=1; j<=|V|; j++) A[i][j] = true, falls (i,j) Element von E; sonst false for(k=1; k<=|V|; k++) for(i=1; i<=|V|; i++) for(j=1;j<=|V|;j++) A[i][j] = A[i][j] || (A[i][k] && A[k][j]) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 371 Zeitkomplexität des Warshall-Algorithmus Twarshall ( |V| ) O( |V|3 ) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 372 Beispielgraphen (1) 20 30 2 4 10 6 1 10 20 30 10 3 IT Center, Prof. Dr. H. Pflug 20 5 „Algorithmen‟– Scientific Programming / MATSE, 2016 373 Beispielgraphen (2) 40 25 1 6 100 2 10 5 35 60 20 50 3 IT Center, Prof. Dr. H. Pflug 20 4 „Algorithmen‟– Scientific Programming / MATSE, 2016 374 Beispielgraphen (3) 10 2 1 30 50 5 10 60 3 20 IT Center, Prof. Dr. H. Pflug 100 4 „Algorithmen‟– Scientific Programming / MATSE, 2016 375 Ausblick zu Graph-Algorithmen • Teile dieser Algorithmen finden sich als 'Skelett' in vielen interessanten Lösungen zu Problemen aus dem wirklichen Leben: – – – – Netzplantechnik Compiler (Vektorisierung) Problem des Handlungsreisenden Produktionssteuerung, etc. • Es gibt eine große Anzahl weiterer Probleme und Algorithmen – Zusammenhangskomponenten (Erreichbarkeit) – Flüsse auf Netzwerken (maximale, minimale) – Transportprobleme • Euler-Kreis: Kreis, in dem jede Kante einmal durchlaufen wird (einfaches Problem) • Hamilton-Kreis: Kreis, in dem jeder Knoten einmal durchlaufen wird (sehr schwieriges Problem) – Färbungsprobleme IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 376 Vorlesung 16 Vorlesung 16 Textsuche IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 377 Suchen in Texten • Einführung • Naives Verfahren • Knuth/Morris/Pratt • Boyer/Moore • Mustererkennung mit endlichen Automaten IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 378 Einführung in Textsuche Problem: Suche erstes Vorkommen von Muster-Zeichenfolge pattern[0m-1] in Text-Zeichenfolge text[0n-1] Anwendungen: – Finden von Mustern in Text-Dateien, z.B. Unix-Kommando grep; Suchfunktion im Editor; Web-Suchmaschine – Algorithmen funktionieren auch bei anderen „Alphabeten“, z.B. DNS-Sequenzen oder Bitfolgen Verwandtes Problem: Muster ist regulärer Ausdruck „Pattern Matching“ („Mustererkennung“) mit endlichen Automaten IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 379 Übersicht über die Textsuchverfahren Knuth-Morris-Pratt Rabin-Karp Boyer-Moore (Boyer-Moore)-Sunday (Boyer-Moore)-Horsepool IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 < O(n + m) vereinfachter Boyer-Moore Naives ~O(n+m) Suchverfahren O(n m) Naiver / grober / brute force-Algortihmus 380 Einteilung • Die Textsuchverfahren „Naiv“, „Knuth-Morris-Pratt“, „Boyer-MooreSunday“ sind verwandt. – Für kleine Texte ist „Naiv“ am schnellsten. – Für große Texte ist „Boyer-Moore-Sunday“ am schnellsten. – Knuth-Morris-Pratt hat vor allem historische Bedeutung. • „Rabin-Karp“ (hier nicht erklärt) benutzt ein anderes Prinzip. • Zunächst wird die grundsätzliche Problemstellung bei „Naiv“, „Knuth-Morris-Pratt“ und „Boyer-Moore-Sunday“ erläutert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 381 Algorithmusskizze Naiv, KMP, BMS Zu Beginn setzt man das Muster an den Beginn des Textes U N G L E I C H U N G S T E I L... text pattern U N G L E I C H U N G E N Dann wird der Text Zeichen für Zeichen durchgegangen, bis entweder •eine komplette Übereinstimmung festgestellt wird •oder ein Zeichen nicht übereinstimmt. U N G L E I C H U N G S T E I L... text pattern U N G L E I C H U N G E N Wenn ein Zeichen nicht übereinstimmt, muss das Muster neu angesetzt werden. Aber wohin? Das kommt auf das Verfahren an. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 382 Naives Verfahren text U N G L E I C H U N G S T E I L... pattern U N G L E I C H U N G E N Naives Verfahren: Das Muster wird einen Buchstaben weiter gesetzt. text pattern U N G L E I C H U N G S T E I L... U N G L E I C H U N G E N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 383 Naives Verfahren: Struktogramm Ab jeder Position i ∈ [0;n-m] prüfen, ob text[ii+(m-1)]=pattern FOR (Startposition i=0 ; i <= N-M ; i+1) j=0 WHILE (j<M und Text[ i+j ] = Muster[ j ] ) j++ Muster ganz gefunden (j=M) Wahr Falsch Return: Position i Return: Nicht gefunden (z.B. Position -1) • Worst Case: m(n-m) Vergleiche; für n>>m (Normalfall): O(n·m) • Best Case (realistisch): O(n) bei Nicht-Finden; O(m) bei Finden; • Zusätzlicher Platzbedarf: O(1) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 384 Mustersuche mit naivem Algorithmus (Bsp.) D A S I S T E S I N N S I N N S I N N S I N N S I N I N S I N N L O S E R T E X T mismatch! i=0; j=0 mismatch! i=1; j=0 mismatch! i=2; j=2 mismatch! i=3; j=0 N mismatch! i=4; j=1 .... .... S I N N i=9; j=4 match! Ein „mismatch“ liegt bei Nichtübereinstimmung vor. „match“ bedeutet „komplette Übereinstimmung“. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 385 Knuth-Morris-Pratt Jetzt muss das Muster neu angesetzt werden. Aber wo? Regel: Wenn die letzten überprüften Buchstaben gleich dem Anfang des Patterns sind, verschiebt man das Muster entsprechend. U N G L E I C H U N G S T E I L... text U N G L E I C H U N G E N pattern und macht beim anschließenden Zeichen weiter. text U N G L E I C H U N G S T E I L... pattern U N G L E I C H U N G E N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 386 Algorithmusskizze KMP (2) Wenn die letzten überprüften Buchstaben nicht gleich dem Anfang des Musters sind, verschiebt man das Muster so, dass das erste Zeichen auf dem Mismatch zu liegen kommt. text pattern U N G L E I C H U N G S T E I L... U N G L E I C H E R ergibt text U N G L E I C H U N G S T E I L... U N G L E I C H E R pattern Wichtig ist zu prüfen, welcher von beiden Fällen eintritt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 387 Komplexität von KMP-Textsuche • Der Algorithmus wird in der Vorlesung nicht genauer erklärt. • Es muss eine next-Tabelle initialisiert werden: Aufwand O(m) • Dann beginnt die Such-Phase: in jedem Schritt – entweder im Text um 1 Zeichen weitergehen (++i), – oder Muster um mindestens 1 Zeichen weiter rechts „anlegen“ (j=next[j]). Aufwand O(n) • KMP-Algorithmus insgesamt: O(n + m) • Zusätzlicher Platzbedarf: O(m) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 388 Boyer/Moore Vereinfachter (simple) Boyer/Moore Schlechtes-Zeichen-Strategie Boyer/Moore (Boyer/Moore-) Horspool Schlechtes Zeichen-Strategie und (Boyer/Moore-) Sunday Gutes-Ende-Strategie verbesserte Schlechtes-Zeichen-Strategie IT Center, Prof. Dr. H. Pflug Wir behandeln diese Variante „Algorithmen‟– Scientific Programming / MATSE, 2016 389 Boyer-Moore-Sunday text U N G L E I C H U N G S T E I L... pattern U N G L E I C H U N G E N Wenn ein Zeichen nicht übereinstimmt, muss das Pattern neu angesetzt werden. Aber wohin? Boyer-Moore-Sunday: Man betrachtet den Buchstaben, der hinter dem Muster liegt: text U N G L E I C H U N G S T E I L... pattern U N G L E I C H U N G E N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 390 Boyer-Moore-Sunday Boyer-Moore-Sunday: Man betrachtet den Buchstaben, der hinter dem Muster liegt: text pattern U N G L E I C H U N G S T E I L... U N G L E I C H U N G E N Das Muster kann so weit nach vorne geschoben werden, bis ein Buchstabe des Musters mit diesem Buchstaben übereinstimmt. text pattern U N G L E I C H U N G S T E I L... U N G L E I C H U N G E N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 391 Boyer-Moore-Sunday Anschließend wird Text und Muster wieder verglichen. U N G L E I C H U N G S T E I L... text pattern U N G L E I C H U N G E N Bei Ungleichheit wird wieder der erste Buchstabe hinter dem Muster betrachtet und das Muster entsprechend vorgeschoben. text U N G L E I C H U N G S T E I L... pattern IT Center, Prof. Dr. H. Pflug U N G L E I C H U N G E N „Algorithmen‟– Scientific Programming / MATSE, 2016 392 Fragen zu BMS Der auf das Muster folgende Buchstabe kommt im Muster mehrmals vor. Wo wird das Muster angelegt? text U N G L E I C H U N G S T E I L... pattern U N G L E I C H U N G E N Antwort: An den Buchstaben, der im Muster am weitesten hinten liegt. Das entspricht dem kleinsten der möglichen Sprünge. text pattern U N G L E I C H U N G S T E I L... U N G L E I C H U N G E N IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 393 Fragen zu BMS (2) Der auf das Muster folgende Buchstabe kommt im Muster nicht vor. Wo wird das Muster angelegt? text pattern U N G L E I C H U N G S - T E I L... U N G L E I C H U N G E N Antwort: Das Muster wird über den Buchstaben hinweggeschoben. Alle Positionen vorher sind zwecklos, da der Buchstabe ja im Muster nicht vorkommt. text U N G L E I C H U N G S - T E I L... pattern IT Center, Prof. Dr. H. Pflug U N G L E I C H U N G E N „Algorithmen‟– Scientific Programming / MATSE, 2016 394 Beispiel 1 A A B B A C C B A C D A C B A B C B A A C B A B C B A A C B A B C B A A C B A B C B A A C B A B C B A A C B A B C B A A C B A B C B A IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 395 Die “last-Tabelle’’ last-Tabelle ...enthält zu jedem Zeichen des Zeichensatzes die Position des letzten Vorkommens im Muster (oder ‘-1’, falls es nicht vorkommt). Implementierung z.B. als Array indiziert mit (Unicode)-Zeichensatz: ‘A’ auf Index 65, ‘B’ auf 66 usw., ‘a’ auf Index 97, ‘b’ auf 98 usw.. Auszug aus last-Tabelle am Beispielpattern: "ABBA" Index ... 65(A) 66(B) 67(C) 68(D) ... Eintrag ... 3 2 -1 -1 ... IT Center, Prof. Dr. H. Pflug Zeichen A B B A Position 0 1 2 3 „Algorithmen‟– Scientific Programming / MATSE, 2016 396 Beispiel 2: Last-Tabelle Last-Tabelle des Musters „bananas“: Pattern b a n a n a s Index im Muster 0 1 2 3 4 5 6 Unicode-Index 98 97 110 97 110 97 115 Last-Wert 0 5 4 5 4 5 6 ... a b ... n ... s ... 0-96 97 98 99-109 110 111-114 115 116-127 -1 5 0 -1 4 -1 6 -1 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 397 Boyer/Moore/Sunday (Beispiel 2) Suche nach Pattern ‚bananas‘ 0 1 o r 2 3 4 5 6 7 a n g e s , 8 9 10 11 12 13 14 a n a n a s 15 16 17 18 a n d 19 20 21 22 23 24 25 26 b a n a n a s b a n a n a s b a n a n a s b a n a n a s b a n a n a s Pattern b a n s sonst Last-Wert 0 5 4 6 -1 b a n a n a s Alte Position des Patterns: i ... i+m-1 Verschiebedistanz v = m-last[text[i+m]] Neue Position des Patterns: i+v ... i+v+m-1 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 398 Boyer/Moore/Sunday • Laufzeit dieser Variante (unter Annahme n>>m): – O(n·m) im schlimmsten Fall Bsp. f. ungünstige Text/Pattern-Kombination: Text: a* Muster: aaaaaba – Im Normalfall (Text und Muster sind sich sehr unähnlich) geht es aber viel schneller. Wenn Alphabet des Textes groß im Vergleich zu m: nur etwa O(n/m) Vergleiche • Nur sinnvoll, wenn das Alphabet groß ist (z.B. ASCII/Unicode). Für Bitstrings ist dieses Verfahren weniger gut geeignet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 399 Java - Klassenbibliothek • String.indexOf(String str) verwendet naive Textsuche. – Python ebenso – Ruby verwendet Rabin/Karp (hier nicht behandelt) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 400 Vorlesung 17 Vorlesung 17 Reguläre Ausdrücke IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 401 „Mustererkennung“ mit endlichen Automaten • Bisher gesucht: konkrete Zeichenfolge • Jetzt: Suche nach allgemeinerem Muster • Dazu benötigt: – Notation, um allgemeine Muster zu beschreiben reguläre Ausdrücke – Mechanismus, um solche Muster zu „erkennen“ endliche Automaten IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 402 Musterbeschreibung • Die Notation, in der die Muster beschrieben werden, heißt „reguläre Ausdrücke“. – Die Bezeichnung „regulärer Ausdruck“ kann man etwa so interpretieren: „Eine Menge von Ausdrücken, die durch (einfache) Regeln beschrieben wird“. • Jeder reguläre Ausdruck beschreibt eine Menge von Zeichenfolgen, nämlich alle, die dem Muster entsprechen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 403 Begriffe: Alphabet, Wörter, Sprache Zeichen - z.B. Buchstabe, Ziffer Alphabet - endliche Menge von Zeichen, z. B. = {a,b,c} Wort über Alphabet - endliche Folge von Zeichen aus , z.B. abcb - Spezialfall: "leeres Wort" * - Menge aller Wörter über , z. B. = {a,b} * = { , a,b,aa,ab,ba,bb,aaa,...} Sprache L über Alphabet - Teilmenge: L ⊆ * (auch {} ist Sprache über ). Sonderfall: →reguläre Sprachen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 404 Definition: Reguläre Ausdrücke Regulärer Ausdruck (in der theoretischen Informatik): • Ein regulärer Ausdruck ist eine „Formel“, die eine Sprache beschreibt, d.h. eine Teilmenge alle möglichen Worte definiert. • Der Begriff Regulärer Ausdruck hat (vor allem in der Unix-Welt) noch eine andere, verwandte Bedeutung. • wird am Ende des Kapitels erklärt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 405 Regeln für reguläre Ausdrücke • Die Regeln für reguläre Ausdrücke setzen sich aus 3 grundlegenden Operationen zusammen. – Verkettung – Oder – Hüllenbildung IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 406 Verkettung • Die erste Operation heißt „Verkettung“ (Concatenation) • Zwei oder mehr Buchstaben werden durch diese Operation aneinandergehängt, z.B. AB. Der Operator wird nicht mitgeschrieben. • Das heißt schlicht und einfach, dass die Buchstaben im Text direkt hintereinander stehen müssen. • Würde man nur diese eine Operation zulassen, wäre man bei der „einfachen“ Textsuche. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 407 Oder • • • • Die zweite Operation heißt „Oder“ (Or) Sie erlaubt die Angabe von Alternativen im Muster Schreibweise: (A|B) für „entweder A oder B“. Beispiele: – (A|B)(A|B) bedeutet: AA, AB, BA oder BB. – (A|C)((B|C)D) bedeutet: ABD, CBD, ACD oder CCD. – C(AC|B)D bedeutet: CACD oder CBD. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 408 Hüllenbildung • Die dritte Operation heißt „Hüllenbildung“ (Closure). • Sie erlaubt es, Teile des Musters beliebig oft zu wiederholen. • Erlaubt ist auch 0 mal Wiederholung • Schreibweise: Hinter den zu wiederholenden Buchstaben wird ein Stern (*) gesetzt. • Sind mehrere Buchstaben zu wiederholen, müssen sie in Klammern gesetzt werden. • Beispiele: – A* bedeutet: , A, AA, AAA, AAAA, AAAAA, ... • bedeutet „Leerstring“ – (ABC)* bedeutet: , ABC, ABCABC, ABCABCABC, ... – DA*B bedeutet: DB, DAB, DAAB, DAAAB, ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 409 Operatorhierarchie • • • • Klammern binden am stärksten. Es folgt die Hüllenbildung (*). Dann folgt die Verkettung. Am schwächsten ist der oder-Operator (|). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 410 Beispiel (1) • Beispiele: • a|a(a|b)*a bedeutet: – a | a(a|b)*a – a | a(a|b)*a – a | a(a|b)*a – a | a(a|b)*a entweder ein einfaches a oder ein führendes a, gefolgt von einer beliebigen Kombination von a und b (z.B. abbab) und einem abschließenden a • Zusammengefasst: Alle Zeichenketten aus a und b, die am Anfang und am Ende ein a enthalten. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 411 Beispiel (2) • (1+01)*(0+1) bedeutet: – (1+01)*(0+1) – (1+01)*(0+1) Eine beliebige Abfolge aus den Elementen „1“ und „01“ gefolgt von einer abschließenden 0 oder 1. • Zusammengefasst: Alle Kombinationen aus 1 und 0, in denen nicht mehrere 0 aufeinander folgen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 412 Reguläre Ausdrücke in Unix/Linux • In der theoretischen Informatik sind die Regeln für reguläre Ausdrücke: – XY: – X|Y: – X*: Verkettung Oder Hüllenbildung • In Unix wurden diese Regeln in einigen Werkzeugen (ed, grep) umgesetzt. – Es wurden aber der Bequemlichkeit halber viele weitere Operatoren hinzugefügt. • Daraus entstanden die Perl Compatible Regular Expressions (PCRE), die meistens einfach „reguläre Ausdrücke“ genannt werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 413 Perl Compatible Regular Expressions (PCRE) • Standardisierte Regeln zur Erzeugung regulärer Ausdrücke für die Textsuche. • Sind in vielen Editoren und Programmiersprachen vorhanden. – Z.B. Eclipse: Im Dialogfeld „Find/Replace“ das Auswahlfeld „Regular expressions“ anklicken. – Z.B. OpenOffice: Im Dialogfeld „Find & Replace“ „More Options“ auswählen und anschließend „Regular expressions“ anklicken. – Z.B. Java, C#, Python, Ruby, Perl, ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 414 Wichtige Regeln in PCRE • Verknüpfungen AB Zeichenfolge AB A|B A oder B [AB] Zeichenklasse „A oder B“ • Quantoren A{n} A kommt genau n mal vor. A{min,} A kommt mindestens min mal vor. A{min,max}A kommt mindestens min und höchstens max mal vor. • Abkürzungen für Quantoren A? entspricht A{0,1} A* entspricht A{0,} A+ entspricht A{1,} A entspricht A{1} IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 415 Wichtige Regeln in PCRE • Zeichenklassen \w Buchstaben (Word) \d Zahlen (Digit) . Alles außer Zeilenvorschub • Referenzen () Gruppierung \x x-te Rückwärtsreferenz (je nach Implementierung auch $x). • Greedy (default) ? Greedy (gierig) Reluctant, non-greedy (genügsam) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 416 Oder-Operator / Zeichenklassen • „A oder B“ lässt sich auf zwei Arten ausdrücken: – Mit Hilfe des oder-Operators A|B – Mit Hilfe von Zeichenklassen [AB] • Vorteile des oder-Operators: – Die Alternativen können komplexe Ausdrücke sein: A|(BC)* • Vorteile von Zeichenklassen: – Die Auswertung geht schneller (siehe nachfolgende Folien). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 417 Vorlesung 18 Vorlesung 18 Simulation nach Kleene IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 418 Ziele Zuerst werden wir mit regulären Ausdrücken ermitteln: • ob ein Textstring einem regulären Ausdruck entspricht. Später werden wir: • einen regulären Ausdruck in einem längeren Text suchen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 419 Endliche Automaten Endlicher Automat (finiter Automat): abstraktes Maschinenmodell • Aufgabe: Entscheiden, ob Wort zur Sprache gehört, die durch regulären Ausdruck beschrieben ist (Akzeptoren). • Anfangs: Maschine ist in „Anfangszustand“ • In jedem Schritt wird ein Eingabesymbol „gelesen“. Abhängig von geht die Maschine von einem Zustand in einen bestimmten anderen über. • Wenn nach Lesen des letzten Zeichens ein „Endzustand“ erreicht ist, ist das Muster ist „erkannt“ (Wort gehört zu Sprache). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 420 Graphische Simulation • Es ist möglich, einen endlichen Automaten graphisch zu simulieren. • Besonders einfach ist das Konstruktions-Verfahren nach Kleene, das zu einem nichtdeterministischen finiten Automaten (NFA) führt. • Es gibt immer auch einen entsprechenden deterministischen finiten Automaten (DFA). Dort gibt es keine -Übergänge. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 421 Graphische Simulation (2) • Grundlage ist das Zustands-Übergangs-Diagramm mit folgenden Elementen. Start Anfangszustand (Zwischen-)Zustand a Zustandsübergang bei einem geg. Symbol - Übergang Endzustand IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 422 Ablaufregeln der Simulation 1. Initialisierung 1. Markiere den Anfangszustand 2. Markiere alle Zustände, die durch -Übergänge erreichbar sind. 2. Für jedes gelesene Eingabesymbol 1. Markiere alle Zustände, die durch dieses Eingabesymbol erreichbar sind. 2. Lösche alle anderen Zustände. 3. Markiere alle Zustände, die jetzt durch -Übergänge erreichbar sind. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 423 Ablauf der Simulation (1) • Text „ABBA“ • Automat „A|A(A|B)*A“ (Konstruktion später) • Anfangszustand a Start a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 424 Ablauf der Simulation (2) • Text „ABBA“ • 1. Buchstabe: A a Start a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 425 Ablauf der Simulation (3) • Text „ABBA“ • 2. Buchstabe: B a Start a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 426 Ablauf der Simulation (4) • Text „ABBA“ • 3. Buchstabe: B a Start a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 427 Ablauf der Simulation (5) • Text „ABBA“ • 4. Buchstabe: A a Start a a b a ABBA wird durch den regulären Ausdruck A|A(A|B)*A beschrieben. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 428 Konstruktion des Automaten • Einzelnes Symbol: Regulärer Ausdruck „a“: a Start • Verkettung: Regulärer Ausdruck „ab“: Start IT Center, Prof. Dr. H. Pflug a b „Algorithmen‟– Scientific Programming / MATSE, 2016 429 Konstruktion des Automaten (2) • Oder-Veknüpfung a|b a Start Kurzform a Start b b • Hüllenbildung a* Start a a Kurzform Start b IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 430 Kombination der Elemente • Aufbau des Automaten für: a|a(a|b)*a • 1. Schritt: a|b IT Center, Prof. Dr. H. Pflug a b „Algorithmen‟– Scientific Programming / MATSE, 2016 431 Kombination der Elemente • Aufbau des Automaten für: a|a(a|b)*a • 2. Schritt: (a|b)* Start a a b IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 432 Kombination der Elemente • Aufbau des Automaten für: a|a(a|b)*a • 3. Schritt: a(a|b)*a a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 433 Kombination der Elemente • Aufbau des Automaten für: a|a(a|b)*a • 4. Schritt: a|a(a|b)*a Start a b a Start a a b a IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 434 Umsetzung auf den Computer • Zustands-ÜbergangsDiagramm ist ein Graph • Speicherung in Tabellenform (z.B. Adjazenzliste) • Neuer Zustand lässt sich aus Tabelle ermitteln. 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 5 6, 7 12 14 6 a8 13 14 7 b9 14 a Start 1 3 13 2 a 4 5 6 7 a b 8 10 11 a 14 12 9 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 435 Letzter Zustandsübergang (Wiederholung) 1 (a) 3 () 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 5 6, 7 12 6 a8 13 7 b9 14 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 5 6, 7 12 6 a8 13 7 b9 14 IT Center, Prof. Dr. H. Pflug 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 14 5 6, 7 12 14 14 6 a8 13 14 7 b9 14 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 14 5 6, 7 12 14 14 6 a8 13 14 7 b9 14 2 () 4 () „Algorithmen‟– Scientific Programming / MATSE, 2016 436 Letzter Zustandsübergang (2) 5 () 1 2, 3 8 10 2 a13 9 10 3 a4 10 11, 5 4 5, 11 11 a12 5 6, 7 12 14 6 a8 13 14 7 b9 14 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 437 Suchen nach regulären Ausdrücken • Beispiel • Text: • Gesucht wird das Pattern: AB(A|B)*A • Regel: • Ansetzen des Patterns mit nichtdeterministischem endlichen Automaten: – – – AABABBAABBCBA First, longest +: Endzustand ist markiert. o: Endzustand ist nicht markiert, aber Zwischenzustände sind markiert. ‒: Kein Zustand ist markiert. Hier kann abgebrochen werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 438 Beispiel: Suchen nach reg. Ausdrücken • Text: AABABBAABBCBA • Ansatz am ersten Buchstaben Pattern passt nicht AABABBAABBCBA o- • Ansatz am zweiten Buchstaben AABABBAABBCBA oo+oo++oo– – • Pattern: AB(A|B)*A Wenn das „‒“ erreicht ist, nimmt man die Position des letzten „+“: AABABBAA First, longest First, shortest (erstes „+“; ABA) kann man auch ermitteln, dies wird aber selten gebraucht. Weitersuchen: Gewöhnlich setzt man hinter dem gefundenen Pattern wieder an. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 439 Vorlesung 19 Vorlesung 19 Auswertung von PCRE IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 440 PCRE und NFA • Einige Erweiterungen der PCRE gehen über die Grenzen von regulären Ausdrücken hinaus. – Unterstützung von Rückwärtsreferenzen (sehr praktische Möglichkeit). • PCREs werden nicht mit endlichen Automaten untersucht. – Das Suchverfahren heißt zwar NFA, ist aber mathematisch kein NFA. – Es werden Suchbäume aufgebaut, die mit Backtracking durchsucht werden. – Wissen über die genaue Funktionsweise ist für Gebrauch wichtig. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 441 Auswertung von PCRE • Nur für Suche in Texten • Methode: Backtracking – Keine nichtdeterministischen endlichen Automaten • Buchstabe für Buchstabe des Textes wird durchlaufen. • Es wird geprüft, welcher Teil des Patterns den Textbuchstaben „schlucken“ kann. • Manchmal gibt es mehrere Alternativen. – Die Alternativen kann man sich als Verzweigungen in einem Baum vorstellen. – Es wird (nach bestimmten Regeln) erst ein Zweig durchlaufen. Kann auf diesem Weg das komplette Pattern nicht geschluckt werden, wird anschließend der andere Zweig genommen. • Ist das komplette Pattern „abgefüttert“, ist das Pattern im Text gefunden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 442 Verzweigungen bei der Auswertung • Beispiel: Text = ABBA • Pattern = A|AB – – – – Das erste A im Text will geschluckt werden. Beide As des Patterns könnten zuschlagen. Regel: Zuerst kommt der linke Teil zum Zug. Der gefundene Text ist also A • Pattern = AB|A – Gefundener Text: AB IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 443 Verzweigungen bei der Auswertung • Beispiel: Text = AABBA • Pattern = A*A – Das erste A im Text will geschluckt werden. – Beide As des Patterns könnten zuschlagen. – Regel: Der * ist „greedy“ (gierig) und schluckt erst einmal, soviel er kriegen kann. – Der gefundene Text ist AA (genauere Erläuterung später). • Pattern = A*?A – Regel: *? ist „reluctant“ (genügsam) und nimmt nur soviel, wie unbedingt nötig. – Das A*? Überlässt das Text-A dem zweiten A des Patterns. – Gefundener Text: A IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 444 Backtracking bei PCRE • Beispiel: Text = AABBA; Pattern = A*A • Darstellung des Patterns zur Verdeutlichung: * • Text wird geschluckt: Baum zum Backtracking – Baum wird in Preorder-Reihenfolge durchlaufen AABBA Gelb (gierig) frisst zuerst AABBA ABBA AABBA ABBA Gelb und Grün sind versorgt Lösung „AA“ Grün müsste jetzt ein B schlucken. Das geht nicht Backtracking IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 445 Greedy und Reluctant Greedy A* A+ A? Reluctant (non-greedy) A?* A?+ A?? • [AB] ergibt keine Verzweigung (kein Backtracking, schneller) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 446 PCRE in Java • Auch in Java kann man PCRE gebrauchen, z.B. in String.replaceFirst(..), String.split(..), String.matches(..) – Siehe auch das nachfolgende Beispiel IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 447 Beispiel • Finden eines regulären Ausdrucks in Java import java.util.*; import java.io.*; import java.util.regex.*; .. public void testRegex() { //Testdatei laden Scanner sc = new Scanner(new File("pangalak.txt")); String txt = ""; while (sc.hasNextLine()) { txt = txt + sc.nextLine()+"\n"; } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 448 Beispiel (2) //Vorbereiten des regulaeren Ausdrucks Pattern p = Pattern.compile("n[a-z]*e"); Matcher m = p.matcher(txt); //Suchen while (m.find()) { System.out.println("Start: "+m.start()+" String:" +m.group()); } } • Ausgabe Start: 17, String: ngalaktische Start: 33, String: nnergurgle Start: 51, String: nehme ... IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 449 Referenzen • Klammern fangen Referenzen, die intern durchnummeriert werden. • Die Referenzen können mit Hilfe der Nummern umgesetzt werden. • Beispiel in Java: – Ersetzen aller Doppelbuchstaben durch einfache Buchstaben: s.replaceAll("(\\w)\\1","$1"); • (\w) fängt einen Buchstaben und legt ihn unter der Referenz 1 ab. • Im Pattern selbst kann der Buchstabe mit \1 referenziert werden. • Im Replace-String benötigt man dazu $1 (Java-Eigenart). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 450 Andere Regeln • Andere Varianten von regulären Ausdrücken: – Basic Regular Expressions (BRE) (POSIX-Standard) – Extended Regular Expressions (ERE) (POSIX-Standard) • Vereinfachte (unvollständige) Varianten: – Windows (DOS-) Wildcards – MS Office-Platzhalterzeichen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 451 Vorlesung 20 Vorlesung 20 Einfache Sortierverfahren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 452 Übersicht über die Sortierverfahren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 453 Relevanz von Sortierverfahren • Sortierverfahren sind Bestandteil vieler Anwendungen • Laut Statistik: ca. 25% der kommerziell verbrauchten Rechenzeit entfällt auf Sortiervorgänge. (Seite 63 in T. Ottmann, P. Widmayer: Algorithmen und Datenstrukturen. 1996, Spektrum, Akademischer Verlag, Heidelberg, Berlin) • Sortierte Datensätze können – viel effizienter durchsucht werden (siehe Binäre Suche) – leichter auf Duplikate geprüft werden – von Menschen leichter gelesen werden • Auch andere praxisrelevante Aufgaben können auf Sortierproblem zurückgeführt werden, z.B. – Median bestimmen – Bestimmung der k kleinsten Elemente IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 454 Aufzählung der Sortierverfahren • Große Anzahl von Sortierverfahren: Binary-Tree-Sort, Bogo-Sort, Bubble-Sort, Bucket-Sort, Comb-Sort, Counting-Sort, Gnome-Sort, Heap-Sort, Insertion-Sort, Intro-Sort, Merge-Sort, OET-Sort, QuickSort, Radix-Sort, Selection-Sort, Shaker-Sort, Shear-Sort, Shell-Sort, Simple-Sort, Slow-Sort, Smooth-Sort, StoogeSort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 455 Klassifikationskriterien • Effizienz • Speicherverbrauch • Intern / Extern • Stabil / Instabil • allgemein / spezialisiert IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 456 Klassifikation: Effizienz • Das wichtigste Klassifikationskriterium ist die Effizienz. • Einteilung in: • Schlechter als O(n²): nicht ganz ernst gemeinte Verfahren • O(n2): Elementare Sortierverfahren • Zwischen O(n2) und O(nlog n) • O(n log n): Höhere Sortierverfahren • Besser als O(n log n): Spezialisierte Verfahren. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 457 Klassifikation: Effizienz (2) • Von diesen Verfahren sollten Sie die Effizienz kennen: • O(n2): Elementare (Einfache) Sortierverfahren – Bubble-Sort, Insertion-Sort, Selection-Sort • Zwischen O(n2) und O(nlog n) – Shell-Sort • O(n log n): Höhere Sortierverfahren – Heap-Sort, Merge-Sort, Quick-Sort • Besser als O(n log n): Spezialisierte Verfahren. – Radix-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 458 Klassifikation: Effizienz (Spezialfälle) • Spezialfälle sind: – Datenmenge sehr klein (<50) – Datenmenge sehr groß (passt nicht in Hauptspeicher) – Daten sind schon „vorsortiert“ (nur wenige Elemente sind nicht am richtigen Platz). – Daten stehen nicht in einem Feld sondern in einer verketteten Liste. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 459 Weitere Klassifikationskriterien • Speicherverbrauch • Rein vergleichsbasiertes Verfahren (sehr universell einsetzbar) oder spezialisiertes Verfahren (muss an jeweiliges Problem angepasst werden): • Stabil / Instabil (behalten Datensätze mit gleichen Schlüsseln relative Reihenfolge?) Relevant bei mehrmaligem Sortieren nach verschiedenen Schlüsseln IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 460 Beispiel für stabiles Sortieren • Namen nach Vor- und Nachname sortieren: „Meier, Martin“, „Meier, Ulla“, „Schmitz, Heinz“, „Ernst, Eva“ 1. Sortieren zuerst nach Vornamen: „Ernst, Eva“, „Schmitz, Heinz“, „Meier, Martin“, „Meier, Ulla“ 2. Dann Sortieren nach Nachnamen: – – • Stabil: „Ernst, Eva“, „Meier, Martin“, „Meier, Ulla“, „Schmitz, Heinz“ Instabil, z.B. „Ernst, Eva“, „Meier, Ulla“, „Meier, Martin“, „Schmitz, Heinz“ Das wichtigste stabile Verfahren ist Merge-Sort. Außerdem sind Radix-Sort, Insertion-Sort und Bubble-Sort stabil. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 461 Beste Sortierverfahren • Normalerweise Quicksort. • Merge-Sort, falls – die Datenmenge zu groß für den Hauptspeicher ist. – die Daten als verkettete Liste vorliegen. – ein stabiles Verfahren nötig ist. • Insertion-Sort, falls – wenige Elemente zu sortieren sind. – die Daten schon vorsortiert sind. • Radix-Sort, falls – sich ein hoher Programmieraufwand für ein sehr schnelles Verfahren lohnt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 462 Hilfsmethoden zum Sortieren (Java) static void swap(int array[], int index1, int index2) { int temp; temp = array[index1]; array[index1] = array[index2]; array[index2] = temp; } Für Klassen, die das Interface List implementieren (ArrayList, …) geht auch: Collections.swap(List<?> list, int i, int j) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 463 Nicht ganz ernstzunehmende Verfahren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 464 O(nn!): Bogo-Sort • „The archetypal perversly awful algorithm“ (Wikipedia). • Würfelt solange alle Elemente durcheinander, bis das Feld (zufällig) sortiert ist. • Zitat aus dem Internet: – Looking at a program and seeing a dumb algorithm, one might say „Oh, I see, this program uses bogo-sort.“ public void sort(List a) { while (isSorted(a)==false) { Collections.shuffle(a); } } IT Center, Prof. Dr. H. Pflug public boolean isSorted(List a) { for (int i=1; i<a.size(); i++) { if isLastSmaller(a.get(i-1), a.get(i)) { return false; } } return true; } „Algorithmen‟– Scientific Programming / MATSE, 2016 465 O(nlog(n)/2): Slow-Sort • Vorgehensweise wird hier nicht erklärt – -> Wikipedia • Versucht, die Arbeit soweit wie möglich zu vervielfachen (multiply and surrender). • Das Ergebnis wird erst dann berechnet, wenn die Lösung nicht weiter hinausgezögert werden kann. • Ziel: Auch im besten Fall ineffizienter als alle anderen Sortierverfahren. • Ist aber trotzdem ein echtes Sortierverfahren. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 466 O(n³): Stupid-Sort • Sehr kurzer Code. • Variante von Bubble-Sort. • Kann auch rekursiv implementiert werden („with recursion, stupid-sort can be made even more stupid“ (Wikipedia)). public void sort(int[] a) { for (int i=0; i<a.length-1; i++) { if (a[i]>a[i+1]) { swap(a, i, i+1); i=-1; } } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 467 O(n²): Einfache Sortierverfahren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 468 Übersicht • Die bekannten einfachen Sortierverfahren sind: Bubble-Sort Selection-Sort Insertion-Sort • Das beste Verfahren der 3 ist Insertion-Sort. Es wird ausführlich vorgestellt. • Selection-Sort wird kurz angesprochen. • Bubble-Sort wird nicht weiter erklärt. • Dafür wird ein besonders einfacher Algorithmus namens Simple-Sort behandelt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 469 Simple-Sort / Selection-Sort • Simple-Sort – O(n²), mit hohem Vorfaktor. – Leicht zu merken. • Wenden Sie es an: – wenn Sie keine Zeit oder Lust zum Nachdenken haben. – wenn die Felder so klein sind, dass der Algorithmus nicht effektiv sein muss. – wenn niemand sonst Ihren Code zu sehen bekommt. • Selection-Sort – Eines der wichtigeren elementaren Verfahren. – Wird ein elementares Verfahren benötigt, wird aber meistens das etwas schnellere InsertionSort verwendet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 470 Prinzip: Simple-Sort und Selection-Sort • Das Grundprinzip ist für beide Sortierverfahren gleich • SimpleSort ergibt einen besonders einfachen Code, ist aber langsamer. • Grundprinzip: for (int i=0; i<array.length-1; i++) Suche das kleinste Element zwischen i und dem rechten Feldende. Vertausche dieses Element mit dem Element i. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 471 Simple-Sort (Code) • Das Suchen und Vertauschen wird bei SimpleSort auf ganz spezielle Weise gemacht: – Gehe vom i. Element aus nach rechts. – Jedes Mal, wenn ein kleineres Element als das auf Position i auftaucht, dann vertausche es mit dem i. Element. public void simpleSort (int[] a) { for (int i=0; i<a.length; i++) { for (int j=i+1; j<a.length; j++) { if (a[i]>a[j]) { swap (a,i,j); } } } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 472 Selection-Sort (Code) • „Normale“ Vorgehensweise: Erst kleinstes Element suchen, dann mit Element i vertauschen. public void selectionSort (int[] a) { for (int i=0; i<a.length; i++) { int small = i; for (int j=i+1; j<a.length; j++) { if (a[small]>a[j]) { small = j; } } swap(a, i, small); } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 473 Beispiel zu Selection-Sort SelectionSort ist instabil: 3 8a 8b 6 4 2 2 8a 8b 6 4 3 Sortierte Teilfolge 2 3 8b 6 4 8a Kleinstes Element 2 3 4 6 8b 8a 2 3 4 6 8b 8a 2 3 4 6 8b 8a 2 3 4 6 8b 8a IT Center, Prof. Dr. H. Pflug Keine Vorteile, wenn Feld schon sortiert. „Algorithmen‟– Scientific Programming / MATSE, 2016 474 Sortieren durch Einfügen: InsertionSort • In den meisten Fällen der schnellste elementare Suchalgorithmus. Grundidee (am Beispiel der Sortierung eines Kartenstapels) 1. Starte mit der ersten Karte einen neuen Stapel. 2. Nimm jeweils die nächste Karte des Originalstapels und füge diesen an der richtigen Stelle in den neuen Stapel ein. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 475 Beispiel zu InsertionSort InsertionSort ist stabil: Vertauschung nur bei Ungleichheit 3 8a 8b 6 4 2 3 8a 8b 6 4 2 Sortierte Teilfolge 3 8a 8b 6 4 2 Einzusortierendes Element 3 8a 8b 6 4 2 3 6 8a 8b 4 2 3 4 6 8a 8b 2 2 3 4 6 8a 8b IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 476 InsertionSort in Java public static void insertionSort(int[] array){ for (int i=1; i < array.length; i++) { int m = array[i]; // fuer alle Elemente links von aktuellem Element int j; for (j=i; j>0; j--) { if (array[j-1]<m) { break; } // größere Elemente nach hinten schieben array[j] = array[j-1]; } // m an freiem Platz einfügen array[j] = m; } } IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 477 Komplexitätsanalyse von InsertionSort • Wir zählen die Anzahl der Vergleiche (Anzahl der „Bewegungen“ ist ungefähr gleich). • n-1 Durchläufe: Im Durchlauf mit Nummer k (k [2;n] ): – höchstens k-1 Vergleiche. – mindestens 1 Vergleich (und keine Bewegung). • Best Case - vollständig sortierte Folge: n-1 Vergleiche, keine Bewegungen O(n). • Average Case - jedes Element wandert etwa in Mitte des sortierten Teils: n k 2 k 2 2 1 n(n 1) n 1 2 2 4 IT Center, Prof. Dr. H. Pflug Vergleiche O(n2). „Algorithmen‟– Scientific Programming / MATSE, 2016 478 Bewertung SimpleSort: • Einfach zu implementieren. • Langsam. SelectionSort: • Aufwand ist unabhängig von der Eingangsverteilung (Vorsortierung). • Es werden nie mehr als O(n) Vertauschungen benötigt. BubbleSort: • Stabil • Vorsortierung wird ausgenutzt. • Langsam InsertionSort: • Stabil • Vorsortierung wird ausgenutzt • Für ein elementares Suchverfahren (O(n²)) schnell. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 479 Analyse einfacher Sortierverfahren Verfahren Laufzeitmessungen (nach Wirth, Sedgewick) Vosortierung ausnutzen Stabil SimpleSort 330* SelectionSort 120-200 InsertionSort 100 X X BubbleSort 250-400 X X * Eigene Messung InsertionSort: • • • IT Center, Prof. Dr. H. Pflug Stabil Vorsortierung wird ausgenutzt Für ein elementares Suchverfahren (O(n²)) schnell. „Algorithmen‟– Scientific Programming / MATSE, 2016 480 Vorlesung 21 Vorlesung 21 Quick-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 481 Übersicht • Die bekannten höheren Sortierverfahren sind: Quick-Sort Merge-Sort Heap-Sort • Das meist beste Verfahren der 3 ist Quick-Sort. Es wird ausführlich vorgestellt. • Ebenso Merge-Sort, der in einigen Fällen Vorteile hat. • Heap-Sort wird kurz angesprochen. • Gute Beschreibung aller 3 Verfahren in: – http://www.linux-related.de/coding/sort/sort_main.htm IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 482 Quick-Sort: Verbreitung • Die überwiegende Mehrheit der Programmbibliotheken benutzt Quick-Sort. – z.B. Sun-Java, Gnu-Java, C#/.NET (nach Wikipedia), C#/Mono, Ruby, NAG, ... • In fast allen Fällen sind zwei Optimierungen eingebaut: „Median of three“ und „Behandlung kleiner Teilfelder“. • Gnu-C++ benutzt Intro-Sort (Quick-Sort-Variante). • Bei Objekten kann Stabilität wichtig sein. Hier verwendet Java (wie Python) Merge-Sort. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 483 QuickSort: Prinzip Prinzip: divide-and-conquer (‚teile‘ und ‚herrsche‘)1 Rekursiver Algorithmus • Müssen 0 oder 1 Elemente sortiert werden Rekursionsabbruch • Wähle ein Element als „Pivot-Element“ aus. • Teile das Feld in 2 Teile: – Ein Teil mit den Elementen größer als das Pivot. – Ein Teil mit den Elementen kleiner als das Pivot. • Wende den Algorithmus rekursiv für beide Teilfelder an. 1: Gegenteiliges Prinzip: multiply-and-surrender (Problem vergrößern, bis man aufgibt). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 484 Zerlegung bei Quicksort • Beispiel des Vorgehensweise bei der Zerlegung: – Ein Feld besteht aus roten und grünen Elementen. – Die roten Elemente sollen auf die rechte Seite, die grünen auf die linke Seite. – Zwei Zeiger werden eingeführt. • Ein linker Zeiger. Links von ihm stehen nur grüne Elemente. • Ein rechter Zeiger. Rechts von ihm stehen nur rote Elemente. L IT Center, Prof. Dr. H. Pflug R „Algorithmen‟– Scientific Programming / MATSE, 2016 485 Zerlegung bei Quicksort (2) – Die Zeiger rücken so weit vor, wie es geht. Sie stehen jetzt über einem Element der gegenteiligen Farbe. L R – Diese Elemente werden getauscht L R – Die Zeiger können weiter vorrücken L IT Center, Prof. Dr. H. Pflug R „Algorithmen‟– Scientific Programming / MATSE, 2016 486 Zerlegung bei Quicksort (3) • Tauschen L R • Vorrücken L R L R • Tauschen • Vorrücken L IT Center, Prof. Dr. H. Pflug R „Algorithmen‟– Scientific Programming / MATSE, 2016 487 Zerlegung bei Quicksort (4) • Tauschen L R R L • Vorrücken • Der linke und der rechte Zeiger sind jetzt vertauscht. Das bedeutet, dass die Elemente getrennt sind. R IT Center, Prof. Dr. H. Pflug L „Algorithmen‟– Scientific Programming / MATSE, 2016 488 Pivot-Element • Wahl des Pivot-Werts pivot =a[k]: – z.B. mittleres (k=n/2), erstes (k=1), oder letztes (k=n) Element. – in den folgenden Beispielen immer mittleres Element • Ab jetzt ist nur der Wert des Pivots relevant, nicht die Stelle, wo es steht. • Übertragen auf das vorige Schema: – Rote Elemente: Größer als Pivot – Grüne Elemente: Kleiner als Pivot. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 489 Pivot-Element (2) • Durch das Pivot-Element gibt es beim Tauschen einige Sonderregeln: – Alle Elemente gleich dem Pivot werden auf jeden Fall getauscht. Sie sind also sowohl rot als auch grün. • Darum bewegen sich die Pivot-Elemente (sehr wahrscheinlich) an eine andere Stelle. – Nach einem Tausch bewegen sich die Zeiger grundsätzlich ein Element weiter. • So wird verhindert, dass ein Pivot-Element zweimal getauscht wird. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 490 Beispiel zu Quick-Sort (1) • Unsortiertes Feld 9 8 4 6 8 2 1 7 • Pivot wählen: 6 9 8 4 6 8 2 1 7 • Vorrücken 9 8 4 6 8 2 1 7 L • Tauschen 1 8 4 6 8 2 9 7 L IT Center, Prof. Dr. H. Pflug R R „Algorithmen‟– Scientific Programming / MATSE, 2016 491 Beispiel zu Quick-Sort (2) • Vorrücken 1 8 4 6 8 2 9 7 L • Tauschen R 1 2 4 6 8 8 9 7 L • Vorrücken R 1 2 4 6 8 8 9 7 LR IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 492 Beispiel zu Quick-Sort (3) • Tauschen (nur formal) 1 2 4 6 8 8 9 7 LR • Nach jeder Vertauschung rücken die Zeiger grundsätzlich weiter. • Vorrücken und trennen 1 2 4 6 8 8 9 7 R L • Das rechte und das linke Teilfeld müssen noch sortiert werden. • Das Pivot-Element in der Mitte ist bereits am richtigen Platz. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 493 Beispiel zu Quick-Sort (4) • Rechte Seite: Pivot wählen. 8 8 9 7 – Andere Elemente mit dem gleichen Wert, wie das Pivot-Element werden auch zum Pivot-Element • Sortieren 8 8 9 7 7 8 9 8 L L R R • Nach jeder Vertauschung rücken die Zeiger grundsätzlich weiter. 7 8 9 8 LR IT Center, Prof. Dr. H. Pflug 7 8 9 8 LR 7 8 9 8 R L „Algorithmen‟– Scientific Programming / MATSE, 2016 494 Beispiel zu Quick-Sort (5) • usw. usf. bis alle Teilfelder nur noch aus einem Element bestehen (Übung). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 495 Warum Quick-Sort funktioniert Fallunterscheidung: – Entweder vollständige Trennung in zwei Teillisten: 2, 1, 0,12, 6,11, 5,16,13, 9,15, 3,14, 8, 7,10, 4 r l – oder es gibt zusätzlich zu den beiden Teillisten noch einen mittleren Bereich mit einem Pivot-Element. Da alle Elemente links davon kleiner oder gleich, alle Elemente rechts davon größer oder gleich sind, steht dieses Element schon an der richtigen Stelle. – 4, 6, 7, 5, 8, 3, 9,15,13,14,16,11,10,12 r l IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 496 Zeitkomplexität von Quick-Sort: Best Case Pivot-Wert ist immer Median der Teilliste Teillisten werden stets halbiert. Stufe 1 1 n Elemente werden mit dem Pivotwert verglichen und maximal n/2 Paare vertauscht. n Stufe 2 1 n/2 n In jeder der beiden Teillisten werden n/2 Elemente (also insgesamt n) mit dem jeweiligen Pivotwert verglichen und maximal n/4 Paare vertauscht. Allgemein: In jeder Stufe werden n Elemente betrachtet. Abbruch bei Teillisten der Länge n1 ld n Stufen (mit Halbierung der Teillisten). Also: Tbquicksort(n) O(n log n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 497 Zeitkomplexität v. Quick-Sort: Worst Case Als Pivot-Wert wird stets das größte oder kleinste Element der Teilliste ausgewählt. Dann gilt: • Die Länge der längsten Teilliste ist (n-1) bei Stufe 1, (n-2) bei Stufe 2, etc. Allgemein : (n-i) bei Stufe i. • Es sind (n-1) Stufen nötig. In jeder Stufe i werden n-i Elemente betrachtet. • Also: Twquicksort(n) O(n2) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 498 Zeitkomplexität v. Quick-Sort: Average Case Aufwand im Mittel: Genaue Analyse ist aufwändig. Resultat: Tavquicksort(n) O(n log n) Genauer: #Vergleiche im mittleren Fall ist nur um etwa 39% größer als im Besten Fall. QuickSort ist also auch im Mittleren Fall eine sehr gute Wahl. Hauptziel ist Vermeidung des schlimmsten Falls. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 499 Probleme von Quick-Sort: Pivot-Elemente • Wenn die Pivot-Elemente unglücklich gewählt sind, erhält man das wesentlich schlechtere Zeitverhalten O(n²). • Dazu Anmerkung: Wenn man beim Zerlegen das erste oder letzte Feldelement als Pivot wählt, dann liegt der Worst Case bei sortierten Feldern vor. – Auch nahezu sortierte Felder haben schon O(n²). • Pivot geschickter wählen. – Einfachste Möglichkeit: Mittleres Element als Pivot wählen. Dann liegt der Best case bei sortierten Felder vor. – Man will den Quick-Sort aber noch sicherer machen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 500 Optimierung: Pivot-Elemente • Median-of-three-Methode zum Auswählen des Pivots: – Es werden drei Elemente als Referenz-Elemente, z.B. vom Listenanfang, vom Listenende und aus der Mitte gewählt. Das Element mit dem mittleren Schlüsselwert wird als ReferenzElement gewählt. – Kann auf mehr als drei Elemente ausgebaut werden. – Die Zahl der Referenz-Elemente kann von der Anzahl der SortierElemente abhängig gemacht werden. – Die Referenz-Elemente können auch zufällig ausgewählt werden (dann aber höherer Rechenaufwand). Pivot 9 8 4 6 8 2 1 7 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 501 Optimierung: Pivot-Elemente (2) Sprache Bibl.-Aufruf Referenz-Elemente (r) für Sortier-Elemente (s) Java (Sun) java.util.Arrays.sort s=7 r=1 7<s<40 r=3 s40 r=9 Java (Gnu) java.util.Arrays.sort 7<s<40 r=3 s 40 r=9 C# / Mono System.Collections.ArrayList.sort r=3 Ruby s<60 r=1 60s<200 r=3 s200 r=7 Array.sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 502 Optimierte Variante: Intro-Sort • Optimierte Quicksort-Variante – Z.B. in Gnu C++ • Ab einer gewissen Rekursionstiefe wird zu Heap-Sort gewechselt. – Heap-Sort hat O(n log n) auch im schlechtesten Fall. Damit kann O(n²) nicht auftreten. – Allgemein ist Heap-Sort aber langsamer als Quick-Sort. – Große Rekursionstiefe deutet bei Quick-Sort auf Worst-CaseProbleme. Daher wechselt man hier zu Heap-Sort. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 503 Probleme von Quick-Sort: Rekursionsabbruch • Einfache Lösung: Rekursionsabbruch, wenn die Teilliste 0 oder 1 Element enthält. • Aber: Letzte Rekursionsdurchgänge nicht mehr effektiv. 4, 9, 6 l╘═════╛r 4, 9, 6 l╘══╛r 4, 6, 9 r l 4, 6 l╘══╛r 4, 6 lr 4, 6 r l 4 9 6 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 504 Optimierung: Rekursionsabbruch • Kleine Teilliste mit InsertionSort sortieren: – Die Grenze für eine kleine Teilliste ist nicht klar festgelegt. • Die Standardwerke (Knuth, Sedgewick) empfehlen 9. • Im Internet findet man aber auch andere Werte zwischen 3 und 32. Sprache Bibl.-Aufruf Java (Sun) java.util.Arrays.sort 6 Java (Gnu) java.util.Arrays.sort 7 C# / Mono System.Collections.ArrayList.sort 3 Ruby Array.sort 2 IT Center, Prof. Dr. H. Pflug Rekursionsabbruch bei max. n Elementen „Algorithmen‟– Scientific Programming / MATSE, 2016 505 Optimierung: Doppelte Schlüssel • Oft kommen viele Sortierschlüssel mehrfach im Feld vor. – Beispiel: 4,6,8,2,4,6,2,8,4,6,1,9,5,4,8,2,6,4 • Für genau diesen Fall gibt es eine weitere Optimierung: Quick-Sort mit Dreiwegezerlegen • Keine Standardoptimierung, deshalb hier keine nähere Erklärung. – Nähere Erklärung z.B. in Sedgewick, Algorithmen in Java • Sun-Java hat diese Optimierung (als eine der wenigen Bibliotheken) eingebaut. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 506 Bewertung Quicksort: • • • • • • Schnellster der oft verwendeten allgemeinen Algorithmen. Programmbibliotheken implementieren ganz überwiegend QuickSort. Nutzt Vorsortierung nicht aus. Im Worst Case nur O(n²). Schlecht für kleine n (<20). Zwei Standard-Optimierungen Standard-Optimierung: Rekursionsabbruch für kleine n: • • Verwendung von InsertionSort Grenze liegt zwischen 3 und 32. Standard-Optimierung: Pivot ist Median mehrerer Elemente: • • • 3 oder mehr Pivot-Elemente. Dadurch Worst Case sehr unwahrscheinlich. Langsamer aufgrund zusätzlicher Rechnenschritte. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 507 Vorlesung 22 Vorlesung 22 Merge-Sort und Radix-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 508 Internes / Externes Sortieren • Voraussetzung für bisher behandelte Verfahren: Schneller Zugriff auf einen beliebigen Datensatz (wahlfreiem Zugriff). – Bezeichnung „Internes Sortieren“ • Dies ist in manchen Fällen nicht möglich: – bei sehr großen Datenbeständen z.B. auf Hintergundspeichern (externen Speichern) mit sequentiellem Zugriff. – bei verketteten Listen. • Hier werden Verfahren verwendet, die lediglich sequentiellen Zugriff benötigen. – Bezeichnung „Externes Sortieren“. – Wichtigstes Verfahren: Merge-Sort. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 509 Sortieren durch Mischen: Merge-Sort • Prinzip: C: 5 1 8A 7 3 8B 12 2 C: 1 5 7 8A 3 8B 2 12 – Sortiere die Daten paarweise – Füge jeweils zwei Paare zu sortierten Viererfolgen zusammen (Mischen) C: 1 5 7 8A 2 3 8B 12 – Füge zwei Vierfolgen zu einer sortierten Achterfolge zusammen (Mischen) C: – Usw. bei größeren Datensätzen. – Der eigentliche Aufwand liegt in den Mischvorgängen. IT Center, Prof. Dr. H. Pflug 1 2 3 5 7 8A 8B 12 8 aus A hat Vorrang vor 8 aus B ⇒ MergeSort ist stabil. „Algorithmen‟– Scientific Programming / MATSE, 2016 510 Krumme Anzahl von Datensätzen • Prinzip (iterative Variante): C: 5 1 7 3 12 2 C: 1 5 3 7 2 12 C: 1 3 5 7 2 12 C: IT Center, Prof. Dr. H. Pflug 1 2 3 5 7 12 Die letzten Daten „passen“ nicht mehr in Vierergruppe. „Algorithmen‟– Scientific Programming / MATSE, 2016 511 Iterativer / Rekursiver MergeSort • Außer der bisher behandelten iterativen Variante gibt es auch eine rekursive Variante. • Krumme Zahlen werden dabei gleichmäßiger aufgeteilt, wodurch die rekursive Variante etwas schneller ist. Merge-Sort (Daten) Teile Daten in 2 Hälften Merge-Sort (1. Hälfte) Merge-Sort (2. Hälfte) Verschmelze Hälften IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 512 MergeSort: Merge Merge Eingabe: nA sortierte Gruppen in Sequenz A, nB sortierte Gruppen in Sequenz B, Gruppenlänge len mit (nA+nB)*len = N Ausgabe: N Elemente in Sequenz C in sortierten Gruppen der Länge 2*len Über alle Paare gA, gB von Gruppen der Länge len aus Sequenz A bzw. aus Sequenz B Solange noch Elemente sowohl in gA als auch in gB a = kleinstes Element aus gA, b = kleinstes Element aus gB a <= b Wahr Entnehme a aus gA und hänge es an C an Falsch Entnehme b aus gB und hänge es an C an Verschiebe restliche Elemente von gA nach C Verschiebe restliche Elemente von gB nach C IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 513 Komplexitätsanalyse von MergeSort • Sequenz C wird k = (ld n)-mal zerlegt und dann wieder zusammengemischt. • Verteilen und Mischen erfordern jeweils O(n) Operationen. Tmergesort (n) O(n log n) (auch im worst case) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 514 Optimierung 1: Felduntergrenze • Viele sinnvolle Optimierungsmöglichkeiten. 1. Feld wird nicht in Einzelelemente geteilt, sondern in Gruppen zu n Elementen, die im 1. Schritt mit InsertionSort sortiert werden. – Ähnlich wie bei QuickSort. – gcj-Java nimmt 6 Elemente als Grenze. – Python nimmt 64 Elemente als Grenze (variiert aber manchmal). – Sun-Java hat diese Optimierung nicht. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 515 Optimierung 2: Trivialfall • Java überprüft beim Zusammenfügen: – ist das kleinste Element der einen Teilfolge größer ist als das größte Element der anderen Teilfolge? – wenn ja, beschränkt sich das Zusammenfügen auf das Hintereinandersetzen der beiden Teilfolgen. – Damit wird eine Vorsortierung ausgenutzt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 516 Optimierung 3: Natürlicher Mergesort • Weitergehende Ausnutzung der Vorsortierung. • Jede Zahlenfolge besteht aus Teilstücken, die abwechselnd monoton steigend und monoton fallend sind. 3 9 8 4 6 8 2 1 7 Die Idee ist, diese bereits sortierten Teilstücke als Ausgangsbasis des Merge-Sorts zu nehmen. • Bei nahezu sortierten Feldern werden die Teilstücke sehr groß und das Verfahren sehr schnell (O(n) im Best case). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 517 Zusammenfassung der Optimierungen Optimierung Java (Sun) Java (gcj) Python Felduntergrenze - 6 64 Trivialfall x x x Natürlicher Mergesort - - x IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 518 Merge-Sort auf der Festplatte • Merge-Sort auf externen Laufwerken: – Teile die Daten in zwei gleich große Dateien A und B. – Lese jeweils ein Datum von A und B. Schreibe das sortierte Paar abwechselnd in zwei neue Dateien C und D. – Lese jeweils ein Paar aus C und D. Verschmelze die Paare und schreibe die Vierergruppen abwechselnd in A und B. – usw. – Wiederhole, bis in einer Datei die komplette sortierte Folge sthet. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 519 Bewertung MergeSort: • • • • • • O(n log n), auch im Worst case MergeSort kann auch externe Daten sortieren. Stabil Benötigt zusätzlichen Speicherplatz. Durchschnittlich langsamer als Quicksort. Nutzt Vorsortierung nicht aus Optimierung: Natural MergeSort • Nutzt Vorsortierung aus. • Bei vorsortierten Daten häufig schneller als O(n log n). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 520 Wiederholung: Heap Definition: Ein Heap ist ein Binärbaum mit folgenden Eigenschaften: • Er ist links-vollständig • Die Kinder eines Knotens sind höchstens so groß wie der Knoten selbst. das größte Element befindet sich an der Wurzel des Heaps 21 18 Achtung: In der Literatur gibt es auch die umgekehrte Definition 17 14 IT Center, Prof. Dr. H. Pflug 11 3 7 10 12 „Algorithmen‟– Scientific Programming / MATSE, 2016 521 Trick beim Heap-Sort • Zunächst wird das Feld komplett in einen Heap umgewandelt: Heap • Wenn die Wurzel entfernt wird, schrumpft der Heap um 1 Element und das letzte Feldelement gehört nicht mehr zum Heap. • Hier kann das 1. sortierte Element untergebracht werden Heap IT Center, Prof. Dr. H. Pflug Größtes Element „Algorithmen‟– Scientific Programming / MATSE, 2016 522 Trick beim Heap-Sort (2) • Wenn weitere Male die Wurzel entfernt wird, schrumpft der Heap immer weiter. Die freiwerdenden Stellen werden mit den entnommenen Werten besetzt, die jetzt aufsteigend sortiert sind. Heap Aufsteigend sortierte Elemente • Zuletzt ist der Heap auf 0 geschrumpft und das Feld ist sortiert. Aufsteigend sortierte Elemente IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 523 Komplexität von HeapSort im Worst Case 1. Aufbau des Heap (heapCreate): Für n/2 Elemente wird sink ausgeführt. Maximal werden dabei log(n+1) Vergleiche durchgeführt. TwheapCreate (n) n/2 log(n+1) O(n log n) 2. Beim sortierten Entnehmen der Elemente mit Wiederherstellen des Heap wird sink für n-1 Elemente ausgeführt. TscndPhase(n) (n-1) log(n+1) Für HeapSort insgesamt gilt dann: TwheapSort (n) 3/2·n·log(n+1) O(n log n) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 524 Bewertung HeapSort: • O(n log n), auch im worst case – Hauptvorteil gegenüber Quick-Sort – Wird daher in Quick-Sort-Optimierung „Intro-Sort“ verwendet. • • • • Kein zusätzlicher Speicher nötig. Nicht stabil. Vorsortierung wird nicht ausgenutzt. Im Normalfall langsamer als QuickSort. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 525 Analyse schneller Sortierverfahren Verfahren Laufzeitmessungen QuickSort 100 HeapSort 150-200 MergeSort 150-200 (nach Wirth, Sedgewick) IT Center, Prof. Dr. H. Pflug Vorsortierung ausnutzen X Worst Case ok Zus. Speicher X (log n) (1) (n) X Stabil „Algorithmen‟– Scientific Programming / MATSE, 2016 X 526 Vergleich einfache - schnelle Verfahren • Faustformel: Die O(n log n)-Verfahren schlagen InsertionSort ab einer Länge von 50 deutlich. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 527 Vorsortierte Felder • Welches Verfahren ist für nahezu sortierte Felder am besten? Sortierverfahren Sortiertes Feld Unsortiertes Feld Bubble O(n) O(n²) • Experiment Insertion O(n) O(n²) Quick („Pur“) O(n²) O(n log n) Heap, Merge, Quick O(n log n) O(n log n) Nat. Merge O(n) O(n log n) Radix O(n) O(n) – 2.000.000 Elemente – Feldinhalt = Feldindex – n Elemente werden paarweise vertauscht – n variiert zwischen 0 (sortiert) und 3.000.000 (unsortiert). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 528 Vorsortierte Felder (2) t[ms] n IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 529 Besser als O(n log n): Spezialisierte Sortierverfahren IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 530 O(n): Radix-Sort • Radix-Sort heißt eine Gruppe von Sortierverfahren mit folgender Eigenschaft: – Der Sortiervorgang erfolgt mehrstufig. – Zunächst wird eine Grobsortierung vorgenommen, zu der nur ein Teil des Schlüssels (z.B. der erste Buchstabe) herangezogen wird. – Die grob sortierten Bereiche werden dann feinsortiert, wobei schrittweise der restliche Teil des Schlüssels verwendet wird. • Spezialisiert heißt hier, dass die Aufteilung in Grob- und Feinstufen auf das Problem angepasst sein muss. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 531 Radix-Sort-Varianten • Radix-Sort baut auf einer Sortierung in einzelnen Stufen auf. – Diese Stufen können unterschiedlich sein. • Beispiel: Zweistellige Integer-Werte sollen sortiert werden. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 532 Binärer Quick-Sort • Möglichkeit 1: In der 1. Stufe werden die Werte 50 von den Werten <50 getrennt. – Innerhalb jeder Stufe Aufteilung in nur 2 Gruppen. – Große Ähnlichkeit mit Quick-Sort. – Namen: Radix-Quick-Sort, Binärer Quick-Sort, Radix-Exchange-Sort – Leider auch nur so schnell wie Quicksort (O(n log n)). – Wird nicht weiter behandelt. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 533 MSD- und LSD-Radix-Sort Die anderen Varianten benutzen Bucket-Sort (nächste Folien). • Möglichkeit 2: In der 1. Stufe wird die erste Ziffer betrachtet. – Benutzt Bucket-Sort mit Teillisten. – Namen: MSD-Radix-Sort (MSD = most significant digits) • Möglichkeit 3: In der 1. Stufe wird die letzte Ziffer betrachtet. – Benutzt Bucket-Sort mit schlüsselindiziertem Zählen. – Namen: LSD-Radix-Sort, Straight Radix Sort (LSD = least significant digits) IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 534 O(n): BucketSort • Eignet sich für den Fall, dass der Wertebereich der Schlüssel eng begrenzt ist. • Beispiel: Sortieren von Fussballspielern nach Toren: 20 12 14 21 15 12 25 12 17 12 13 12 16 Altintop Amanatidis Ballack Berbatov Klasnic Klimowicz Klose Marcelinho Makaay Podolski Smolarek Thurk Vittek IT Center, Prof. Dr. H. Pflug 1 2 3 ...... 28 • Datensätze in Eimer werfen. • Inhalt der Eimer der Reihe nach in Hauptliste einfügen. • Datensätze sind nach Toren sortiert. „Algorithmen‟– Scientific Programming / MATSE, 2016 535 Bucket-Sort mit Teillisten • Die Eimer sind Array-Lists • 1. Schritt (Partitionierungsphase): Verteilung der Daten auf die Teillisten (Eimer). • 2. Schritt (Sammelphase): Die Daten werden nach der Reihe aus den Eimern wieder in die Liste kopiert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 536 MSD-Radix-Sort • Dieses Verfahren wird mehrstufig durchgeführt. Der Inhalt eines Eimers wird noch einmal mit Bucket-Sort sortiert. 1 0-10 10-20 20-30 30-40 2 0 1 IT Center, Prof. Dr. H. Pflug 2 ........ 9 „Algorithmen‟– Scientific Programming / MATSE, 2016 537 Optimierung: Kleine Teilfelder • Wie bei Quick-Sort bricht man auch bei MSB-Radix-Sort ab, wenn die Teilfelder (Eimer-Inhalte) zu klein werden. • Zum letzten Schritt benutzt man auch hier Insertion-Sort IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 538 Bucket-Sort mit schlüsselindiziertem Zählen Unsortiertes Feld: 2 Hilfsfelder sind nötig: • eines mit gleicher Größe wie das unsortierte Feld • eines, dessen Größe der Anzahl der Eimer entspricht. Tore 20 12 14 21 15 12 25 12 17 12 13 12 16 Spieler Altintop Amanatidis Ballack Berbatov Klasnic Klimowicz Klose Marcelinho Makaay Podolski Smolarek Thurk Vittek 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Tore Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Anzahl IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 539 Beispiel (2) • Im 2. Hilfsfeld wird gezählt, welcher Wert wie oft vorkommt. Tore 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Anzahl 1 1 1 1 1 1 1 1 5 - • Jetzt wird in jedes Feld i die Summe der Felder 0..i-1 eingetragen. Tore 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Position 13 13 13 12 12 12 12 11 10 10 10 9 8 7 6 5 0 0 0 0 0 0 0 0 0 0 0 0 0 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 540 Beispiel (3) • Jetzt werden die Datensätze nacheinander in das 1. Hilfsfeld einsortiert. • Der 1. Datensatz ist (20 – Altintop) • Im Hilfsfeld 2 wird die Position ermittelt: 10 • Der Datensatz wird an Position 10 eingetragen • Im Hilfsfeld 2 wird der Wert unter „20“ um 1 erhöht Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore Spieler 20 Altintop Tore 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Position 13 13 13 12 12 12 12 11 10 10 10 9 8 7 6 5 0 0 0 0 0 0 0 0 0 0 0 0 0 11 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 541 Beispiel (4) • • • • 2. Datensatz: (12 – Amanatidis) 3. Datensatz: (14 – Ballack) 4. Datensatz: (21 – Berbatov) 5. Datensatz: (15 – Klasnic) Position Tore 12 Spieler Amanatidis 14 15 Ballack Klasnic 20 21 Altintop Berbatov 28 13 27 13 26 13 25 12 24 12 23 12 22 12 21 11 20 11 19 10 18 10 17 9 16 8 15 7 8 14 6 7 13 5 12 0 1 11 0 10 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 0 Tore Index 0 1 2 3 4 5 6 7 8 9 10 11 12 12 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 542 Beispiel (5) • 6. Datensatz: (12 – Klimowicz) Position Tore 12 12 Spieler Amanatidis Klimowicz 14 15 Ballack Klasnic 20 21 Altintop Berbatov 28 13 27 13 26 13 25 12 24 12 23 12 22 12 21 12 20 11 19 10 18 10 17 9 16 8 15 8 14 7 13 5 12 1 2 11 0 10 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 0 Tore Index 0 1 2 3 4 5 6 7 8 9 10 11 12 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 543 Beispiel (6) • usw. usf. • Die Datensätze sind jetzt im Hilfsfeld 1 sortiert. • Dieses Sortierverfahren ist stabil. Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore 12 12 12 12 12 13 14 15 16 17 20 21 25 Spieler Amanatidis Klimowicz Marcelinho Podolski Thurk Smolarek Ballack Klasnic Vittek Makaay Altintop Berbatov Klose Tore 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Position 13 13 13 13 12 12 12 12 11 10 10 10 9 8 7 6 5 0 0 0 0 0 0 0 0 0 0 0 0 IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 544 LSD-Radix-Sort • Dieses Verfahren kann auch mehrmals hintereinander angewandt werden. • Man muss aber jetzt mit der letzten Ziffer beginnen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 545 Beispiel (2) • Beginn mit der letzten Ziffer • Unsortiertes Feld • Hilfstabelle Tore (2. Ziffer) 9 8 7 6 5 4 3 2 1 0 Anzahl 1 1 2 1 1 5 1 1 Tore (2. Ziffer) 9 8 7 6 5 4 3 2 1 0 Position 13 13 12 11 9 8 7 2 1 0 IT Center, Prof. Dr. H. Pflug Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore 20 12 14 21 15 12 25 12 17 12 13 12 16 Spieler Altintop Amanatidis Ballack Berbatov Klasnic Klimowicz Klose Marcelinho Makaay Podolski Smolarek Thurk Vittek „Algorithmen‟– Scientific Programming / MATSE, 2016 546 Beispiel (3) • Beginn mit der letzten Ziffer • Sortiertes Feld (Schritt 1): • Hilfstabelle Tore (2. Ziffer) 9 8 7 6 5 4 3 2 1 0 Position 13 13 12 11 9 8 7 2 1 0 IT Center, Prof. Dr. H. Pflug Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore 20 21 12 12 12 12 12 13 14 15 25 16 17 Spieler Altintop Berbatov Amanatidis Klimowicz Marcelinho Podolski Thurk Smolarek Ballack Klasnic Klose Vittek Makaay „Algorithmen‟– Scientific Programming / MATSE, 2016 547 Beispiel (4) • Erste Ziffer • Unsortiertes Feld (Schritt 2): • Hilfstabelle Tore (1.Ziffer) 0 1 2 Anzahl 0 10 3 Tore (1. Ziffer) 0 1 2 Position 0 0 10 IT Center, Prof. Dr. H. Pflug Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore 20 21 12 12 12 12 12 13 14 15 25 16 17 Spieler Altintop Berbatov Amanatidis Klimowicz Marcelinho Podolski Thurk Smolarek Ballack Klasnic Klose Vittek Makaay „Algorithmen‟– Scientific Programming / MATSE, 2016 548 Beispiel (5) • Erste Ziffer • Sortiertes Feld (Schritt 2): • Hilfstabelle Tore (1. Ziffer) 0 1 2 Position 0 10 13 Index 0 1 2 3 4 5 6 7 8 9 10 11 12 Tore 12 12 12 12 12 13 14 15 16 17 20 21 25 Spieler Amanatidis Klimowicz Marcelinho Podolski Thurk Smolarek Ballack Klasnic Vittek Makaay Altintop Berbatov Klose • Funktioniert, weil Bucket-Sort stabil ist. • Alle Datensätze mit gleicher 1. Ziffer sind nach voriger Sortierung (2. Ziffer) sortiert. • Geht auch mit mehr als 2 Stufen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 549 Wieviel Eimer pro Schritt? • In der Praxis nimmt man nicht 10 Eimer (Dezimalsystem) sondern richtet sich nach dem Binärsystem, d.h. 2n Eimer. • Wie groß sollte man n wählen? – Zu wenige Eimer sind schlecht, weil man dann zu viele Schritte braucht. – Zu viele Eimer sind auch schlecht, weil man dann zu viele leere Eimer durchsuchen muss. • Es wird vorgeschlagen: – Sedgewick: Für 64-bit-Schlüssel (long) 216 (65536) Eimer. – Linux-Related: Für 32-bit-Schlüssel (int) 211 (2048) Eimer. • Einsatz lohnt sich nur, wenn die Anzahl der zu sortierenden Werte deutlich größer ist, als die Anzahl der Eimer. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 550 Vergleich schneller und spezieller Sortierverfahren Verfahren Laufzeitmessungen QuickSort 100 HeapSort 150-200 MergeSort 150-200 MSBRadix-Sort 85 (bei 100.000 El.) (nach Wirth, Sedgewick) IT Center, Prof. Dr. H. Pflug Vorsortierung ausnutzen Worst Case ok X X X X Zus. Speicher Stabil (log n) (1) (n) (n) „Algorithmen‟– Scientific Programming / MATSE, 2016 X X 551 Vorlesung 23 Vorlesung 23 Entwurfsprinzipien IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 552 Entwurfsprinzipien für Algorithmen • allgemeine Prinzipien für den Entwurf von Algorithmen • viele komplexe Problemstellungen lassen sich mit diesen Prinzipien angehen • oft werden mehrere dieser Prinzipien kombiniert. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 553 Greedy • „greedy“ = Englisch für „gierig“ • Grundidee: Nächsten Schritt stets in erfolgversprechendste Richtung gehen (lokales Optimum). • Lokale Sichtweise, nicht vorausschauend. • Im Allgemeinen nur Näherungslösung. • Bei manchen Problemklassen führt diese Strategie immer zum globalen Optimum. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 554 Problemstellung • Versuche, mit 5 Schritten so weit wie möglich nach rechts zu kommen. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 555 Näherungslösung mit Greedy • Mache immer den größten Schritt. – Gute Laufzeitkomplexität. – Lösung nicht optimal, aber (je nach Problemstellung) möglicherweise schon ausreichend. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 556 Andere Problemstellungen • Bei anderen Problemstellungen wird eine optimale Lösung erreicht. • Beispiel: – Problemstellung: Auf Geldbeträge < 1 Euro soll Wechselgeld herausgegeben werden. – Lösung mit Greedy: Solange noch ein Restbetrag da ist, gib die größte Münze zurück, die kleiner als der Restbetrag ist. • Hier kommt der Algorithmus zum optimalen Ergebnis. • Bei einem Greedy-Algorithmus ist zu prüfen, ob: – immer das optimale Ergebnis erreicht wird. – ein suboptimales Ergebnis für die Aufgabenstellung ausreicht. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 557 Divide-and-Conquer • Andere Namen: divide-et-impera, teile-und-herrsche • allgemeiner Aufbau: – Problem in mehrere kleinere Teilprobleme derselben Art aufteilen (divide). – Dann: kleinere Teilprobleme (rekursiv) lösen. – Zuletzt aus Lösungen der Teilprobleme eine Lösung für Gesamtproblem konstruieren (conquer). IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 558 Lösung mit Divide and Conquer • Zerlege in Teilprobleme: – Versuche, von den blauen Punkten mit 4 Schritten so weit wie möglich nach rechts zu kommen ( Rekursion). – Nimm davon das Maximum. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 559 Anderes Beispiel: QuickSort • Zu sortierende Liste in zwei Teile (untere / obere Teilliste) aufteilen: Aufteilung geschieht so, dass – in unterer Teilliste nur Elemente einem Referenz-Element, – in oberer Teilliste nur Elemente Referenz-Element vorkommen • So entstandene Teillisten werden nach dem gleichen Prinzip "sortiert" (rekursive Vorgehensweise). Verfahren endet, wenn Teillisten weniger als zwei Elemente enthalten. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 560 Branch-and-Bound Hauptbausteine dieser Technik: • Branching (Verzweigung): Aufgabe in Teilaufgaben zerlegen. Diese wieder zerlegen Baum von Teilaufgaben • Bounding (Beschränkung): Wenn die optimale Lösung einer Teilaufgabe nicht besser als eine schon bekannte Lösung sein kann: Diese Teilaufgabe nicht weiter betrachten. Um dies festzustellen, schätzt man den höchstens erreichbaren Gewinn für die betrachtete Teilaufgabe ab. Ein solcher Schätzwert heißt obere Schranke. IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 561 Branch-and-Bound • Zerlege mögliche Fälle in disjunkte Klassen • Bestimme Schranken für Teilbereiche, welche ganze Fälle ausschließen: – obere Schranken bei Minimierungsproblemen – untere Schranken bei Maximierungsproblemen • Beispiel: minimaler Weg in einem Graphen Wenn Kosten eines Teilweges bereits größer sind als Kosten eines bereits bekannten kompletten Weges: alle Wege, die diesen Teilweg enthalten, nicht mehr betrachten IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 562 Beispiel zu Branch-and-Bound 1 Suche kürzesten Weg von A nach F • B 2 D 1 A 1 F 5 6 C 3 E 1 Disjunkte Klassen: mögliche Wege, die man nehmen kann: 1. Wege, die mit B beginnen (A-B-D-F, A-B-E-F) 2. Wege, die mit C beginnen (A-C-E-F, A-C-D-F) • • Schranken: Kosten für Teilweg von A bis zum jeweiligen Knoten. Falls Kosten auf betrachtetem Weg von A zu einem Knoten X höher als für bereits bekannten Weg: Suche auf aktuell untersuchtem Weg abbrechen z.B. Weg A-B-E-F bereits bekannt mit Kosten 3: Da bereits A-C mit 6 teurer ist, braucht hier nicht weiter gerechnet werden IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 563 Suchbaum zu Branch-and- Bound-Bsp. A 1 6 B C 3 D D E 4 F 11 2 F 3 E 12 F F 9 10 • Generiere alle möglichen Wege • Breche Suche auf einem Weg ab, wenn Kosten für Teilweg bereits höher sind als eine bekannte Lösung IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 564 Bemerkungen zu Branch-and-Bound • Anwendungsgebiete: – Spielbaumsuche – Optimierungsprobleme – im allgemeinen: sehr aufwendige Probleme (NP-vollständige Probleme) • Wichtig: möglichst schnell gute Schranke finden, um so große Teile des Suchraumes auszuschließen IT Center, Prof. Dr. H. Pflug „Algorithmen‟– Scientific Programming / MATSE, 2016 565