A(n)

advertisement
Kapitel 6: Suchbäume und weitere
Sortierverfahren
6.1 Binäre Bäume
Die Klasse BinTree mit Traversierungsmethoden
6.2 Suchbäume
6.2.1 AVL Bäume
6.3 HeapSort und BucketSort
6.3.1 HeapSort
6.3.2 BucketSort
1
6.1
Binäre Bäume (Fortsetzung)
Eigenschaften:
• Maximale Höhe eines Binärbaumes mit n
Knoten ist n-1.
(Wenn jeder innere Knoten genau ein Kind hat,
liegt eine lineare Kette vor.)
• Minimale Zahl der Knoten eines Binärbaumes
der Höhe h ist h+1.
(Dito)
2
• Maximale Zahl der Knoten eines Binärbaumes der Höhe h:
N(h) := 2h+1 - 1 Knoten.
Beweis: durch Induktion.
• Minimale Höhe eines Binärbaumes mit n Knoten:
O(log n) bzw. genauer: [log2 (n+1)]+ - 1.
Begründung: Sei h die minimale Höhe eines Binärbaumes
mit n Knoten. Dann ist:
2 h - 1 = N(h -1) < n  N(h) = 2 h+1 - 1
also
2 h < n + 1  2 h +1
also
h < log2 (n+1)  h+1
3
Satz: In einem nichtleeren Binärbaum T, dessen innere
Knoten jeweils genau zwei Söhne haben, gilt
#(Blätter(T)) = #(innere Knoten(T)) + 1.
Beweis: durch Induktion über die Größe des Baumes T.
Induktionsanfang: T Baum mit einem Knoten. Dann
#(Blätter(T)) = 1, #(innere Knoten(T)) = 0. Also Beh. OK.
Induktionsschluss: T Baum mit mehr als einem Knoten.
Dann ist die Wurzel ein innerer Knoten. Seien T1 und T2
der linke und der rechte Teilbaum. Beide sind nicht leer.
Nach Induktionsannahme #(Blätter(Ti)) = #(innere
Knoten(Ti)) + 1 für i=1,2. Wir erhalten:
#(Blätter(T)) = #(Blätter(T1)) + #(Blätter(T2))
= #(innere Knoten(T1)) + 1 + #(innere Knoten(T2)) + 1
= #(innere Knoten(T)) + 1.
4
ADT-Spezifikation (BinTree):
algebra BinTree
sorts BinTree, El, boolean
ops
emptyTree:  BinTree
isEmpty: BinTree  boolean
isLeaf: BinTree  boolean
makeTree:  BinTree x El x BinTree  BinTree
rootEl: BinTree  El
leftTree, rightTree: BinTree  BinTree
sets
BinTree = {<>} + {<L,x,R> | L,R BinTree, x El }
functions
emptyTree() := <>
makeTree(L,x,R) := <L,x,R>
rootEl(<_,x,_>) := x
...
end BinTree.
5
"Linearisierung" von Binärbäumen
(„Traversierungsmethoden“, Durchlaufen) :
ops
inOrder, preOrder, postOrder: BinTree  List
functions
inOrder(<>) = <>
preOrder(<>) = <>
postOrder(<>) = <>
(leere Liste)
inOrder(<L,x,R>) = inOrder(L) + <x> + inOrder(R)
preOrder(<L,x,R>) = <x> + preOrder(L) + preOrder(R)
postOrder(<L,x,R>) = postOrder(L) + postOrder(R) + <x>
wobei "+" die Listen-Konkatenation bezeichnet
6
Beispiel: Binärbaum zum Ausdruck ((12/4)*2)
• inOrder: 12, /, 4, *, 2
• preOrder: *, /, 12, 4, 2
• postOrder: 12, 4, /, 2, *
7
Implementierung in Java
public class BinTree {
private Object val;
private BinTree right;
private BinTree left;
// Konstruktoren:
BinTree(Object x)
{ val = x; left = right = null; }
BinTree(Object x)
{ val = x; left = right = null; }
BinTree(Object x, BinTree LTree, BinTree RTree)
{ val = x; left = LTree; right = RTree; }
8
// Basismethoden (entspr. Signatur):
public boolean isLeaf()
{ return ( this.left == null && this.right == null ) ; }
public Object nodeVal()
{ return this.val; }
// entspr. "rootEl"
public void setNodeVal(Object x)
{ this.val = x; }
// zusaetzlich
public BinTree leftTree()
{ return this.left; }
public BinTree rightTree()
{ return this.right; }
public static boolean isEmpty(BinTree T)
{ return ( T == null ); }
public static BinTree makeTree(BinTree L, Object x, BinTree R)
{ return new BinTree(x,L,R); } }
9
// Durchlaufen:
public static LiLiS preOrder(BinTree T)
{ if ( isEmpty(T) )
return LiLiS.emptyList();
else
return conc3(list1(T.nodeVal()),
preOrder(T.leftTree()),
preOrder(T.rightTree()) );
}
Etc.
// Hilfsmethoden fuer LiLiS-Objekte:
private static LiLiS conc3(LiLiS L1, LiLiS L2, LiLiS L3)
{ return LiLiS.concat(LiLiS.concat(L1,L2),L3); }
private static LiLiS list1(Object el)
{ PCell Cel = new PCell(el);
return new LiLiS(Cel); }
10
Array-Darstellung:
Neben einer Darstellung mit Zeigern auch direkt in
einem Array:
Für links-vollständige Binärbäume: Knoteninhalte
in der folgenden Reihenfolge in einen Array: von
oben nach unten und in jeder Ebene von links
nach rechts.
Knoten mit dem Index i:
• Linker Nachfolger: Index 2 i.
• Rechter Nachfolger: Index 2 i + 1.
• Vorgänger: Index i div 2.
11
Beispiel zur Array-Darstellung:
Anmerkung: Das geht auch für nicht vollständige
Binärbäume, aber dann gibt es Lücken im Array.
12
Verallgemeinerung auf nicht-binäre Bäume:
Eine mögliche Definition:
Definition: Ein Baum T ist ein Tupel
T = ( x, T1 , ... ,Tk ), wobei x ein zulässiger
Knoteninhalt und Ti Bäume sind.
Dabei ist auch k = 0 zugelassen. Der
entsprechende triviale Baum besteht nur aus
einem Knoten.
(Aber: Bei diesem Ansatz gehört null nicht zur
Menge der Bäume!)
13
Bezeichnungen und Eigenschaften:
• Grad eines Knotens: Anzahl seiner Kinder.
• Grad eines Baumes T:
grad(T) = max { grad(k) | k Knoten in T }
• Die maximale Zahl von Elementen eines
Baumes der Höhe h vom Grad d ist
N(h) = (d h+1 - 1) / (d - 1).
14
Implementierung:
• Über Arrays mit Zeigern auf die Kinder (nur wenn der
Grad beschränkt und nicht zu groß ist).
• Über Zeiger/Binärbäume: Zeiger auf den am weitesten
links stehenden Sohn und auf den Bruder rechts
daneben, z.B.
class TreeNode {
private Object val;
private TreeNode leftmostChild;
private TreeNode rightSibling;
...
}
15
6.2
Suchbäume
Dictionary-Operationen:
• member
• insert
• delete
Ziel: diese effizient implementieren
16
Zum Vergleich:
Geordnete
Ungeordnete
Liste (Zeiger) Liste (Zeiger)
Geordnete
Liste als Array
insert
O(n)
O(1)
O(n)
delete
O(n)
O(n)
O(n)
member
O(n)
O(n)
O(log n)
member bei geordneter Liste als Array: durch binäre Suche
17
Definition:
Sei T ein binärer Baum.
N(T) bezeichne die Menge der Knoten von T.
Eine Abbildung m: N(T)  D heißt
Knotenmarkierung, wobei D ein Wertebereich
mit einer vollständigen Ordnung ist.
Ein binärer Baum T mit Knotenmarkierung m heißt
genau dann Suchbaum, wenn für jeden
Teilbaum T ' = ( L, x, R ) in T gilt:
y aus L  m(y) < m(x)
y aus R  m(y) > m(x)
Beachte: alle Marken verschieden (Dictionary!).
18
Implementierung:
Wir leiten die Klasse BinSearchTree von der Klasse
BinTree ab.
Erweiterung (gegenüber BinTree): Markierungsfunktion
numVal: BinSearchTree  int
Dictionary-Operationen zu realisieren:
ops
member: El x BinSearchTree  boolean
insert: El x BinSearchTree  BinSearchTree
delete: El X BinSearchTree  BinSearchTree
19
Insert
Algorithmus insert(Objekt x, Baum T)
{ falls T = leer dann
{makeTree(leer,x,leer); return};
falls ( m(x) < m(Wurzel von T) ) dann
insert(x, linker Unterbaum von T)
sonst
insert(x, rechter Unterbaum von T) }
20
Member
algorithmus member(Objekt x, Baum T)
{falls T = leer return false;
int k = m(x);
int k´ = m(Wurzel von T);
falls k = k´ return true;
falls k < k´
return member(x, linker Unterbaum von T)
sonst
return member(x, rechter Unterbaum von T)}
21
Delete
Löschen (delete) eines Elementes:
(Evtl. Umstrukturierung des Baumes.)
1. Bestimme den Teilbaum T ', an dessen Wurzel sich das
zu löschende Element befindet.
2. Falls T ' ein Blatt ist, ersetze T ' in T durch null.
3. Falls T ' nur einen Unterbaum ( T '' ) besitzt, ersetze T '
durch T ''.
4. Sonst entferne das kleinste Element (min) aus dem
rechten Unterbaum von T ' (man beachte: min besitzt nur
einen Unterbaum) und setze T '.val = min. (alternativ das
größte Element aus dem linken Unterbaum)
22
Komplexitätsanalyse
Sei n die Zahl der Knoten des Suchbaumes.
Kosten eines Durchlaufens: O(n)
Kosten von member, insert, delete:
nichtkonstanter Anteil: Suchen der richtigen
Position im Binärbaum entlang eines Pfades von
der Wurzel
 O(Höhe des Baumes)
23
• Best case: vollständiger Baum
Höhe = O(log n).
Komplexität der Operationen also auch nur:
O(log n).
• Worst case: linearer Baum (entsteht z.B. durch
Einfügen von vorsortierten Elementen)
Höhe = n-1.
Komplexität der Operationen:
für jede einzelne Operation: O(n),
für den Aufbau des Baums durch Einfügen: O(n²).
24
Komplexitätsanalyse (2)
• Average case:
Komplexität der Operationen
ist von der Ordnung der
durchschnittlichen Pfadlänge (Mittel über alle
Pfade in allen Suchbäumen mit n Knoten)
= O(log n)
(siehe Skriptum: direkte Abschätzung oder
Berechnung über die Harmonische Reihe)
25
Gesucht: Mittlere Astlänge in einem durchschnittlichen
Suchbaum.
Dieser sei nur durch Einfügungen entstanden.
Einfügereihenfolge: Alle Permutationen der Menge der
Schlüssel a1, ... , an gleichwahrscheinlich.
Diese wollen wir zunächst als sortiert annehmen.
A(n) := 1 + mittlere Astlänge im Baum mit n Schlüsseln
A(n) := mittlere Zahl von Knoten auf Pfad in Baum mit n
Schlüsseln.
Sei ai+1 das erste gewählte Element. Dann steht dieses
Element in der Wurzel. Im linken Teilbaum finden sich i, im
rechten n-i-1 Elemente.
Linker Teilbaum ist zufälliger Baum mit den Schlüsseln a1
bis ai , rechter mit den Schlüsseln ai+2, ..., an.
Die mittlere Zahl von Knoten auf einem Pfad in diesem
Baum ist daher
26
i/n · ( A(i) + 1) + (n-i-1)/n (A(n-i-1) + 1) + 1·(1/n).
Dabei sind die Beiträge der Teilbäume um eins vergrößert
(für die Wurzel) und mit den entsprechenden Gewichten
belegt. Der letzte Term betrifft den Anteil der Wurzel.
Schließlich muss über alle möglichen Wahlen von i mit
0 ≤ i < n gemittelt werden. So erhalten wir
A(n) = n-2 [ ∑ 0 ≤ i < n [i (A(i)+1) + (n-i-1)(A(n-i-1)+1) + 1]
Aus Symmetriegründen ist der Anteil der beiden Terme A(i)
und A(n-i-1) gleich, die konstanten Teile summieren sich zu
n und 2(n-1)n/2 auf. Somit folgt
A(n) = n-2( 2 ∑0≤i<n i A(i) + (n-1)·n + n) = 1+ 2n-2∑0≤i<n i A(i)
Wir führen die Abkürzung S(n) = ∑0≤i<n i A(i) ein und erhalten
A(n) = 1 + 2n-2 S(n-1) und
S(n) - S(n-1) = n A(n) = n + 2 · S(n-1) / n ,
also die Rekursionsformel S(n) = n + S(n-1) · (n+2) / n.
27
Rekursionsformel: S(n) = n + S(n-1) · (n+2) / n
Außerdem ist S(0) = 0 und S(1) = A(1) = 1.
Nun wollen wir durch Induktion folgende Ungleichung
beweisen:
S(n) ≤ n (n+1) · ln (n+1)
Sicherlich ist dies für n = 0 und n = 1 richtig.
Einsetzen der Rekursionsformel für n-1 ergibt aber beim
Schluss von n-1 nach n:
S(n) = n + S(n-1) · (n+2) / n
≤ n+(n-1) ·(n+2) ln n
= n(n+1) ln (n+1) + (n+1)n (ln n - ln (n+1)) - 2 ln n + n
≤ n(n+1) ln (n+1) - (n+1) n / (n+1) - 2 ln n + n
< n (n+1) ln (n+1)
Dabei haben wir ln n - ln (n+1) = -1/(n+θ), 0<θ<1, verwendet.
Dann folgt aber
A(n) = 1 + 2n-2 S(n-1) ≤ 1+ 2 ln n = O( log n)
28
6.2.1 AVL-Bäume
(nach Adelson-Velskii & Landis, 1962)
Komplexität der Operationen member, insert,
delete bei Suchbäumen im worst case: (n).
Geht besser! Idee: Balancierte Bäume.
Definition: Ein AVL-Baum ist ein binärer Suchbaum
derart, dass
für jeden Teilbaum T ' = < L, x, R > gilt:
| h(L) - h(R) |  1
(Teilbaum balanciert, AVL-Eigenschaft).
Oft wir auch an den Knoten h(.)+1 annotiert.
29
Ziele
1. Wie erhält man die AVL-Eigenschaft beim
Einfügen und Löschen?
2. Wir werden für AVL-Bäume sehen:
Komplexität der Operationen im worst case
= O(Höhe des AVL-Baumes)
= O(log n)
30
Erhaltung der AVL-Eigenschaft
Nach Einfügen und Löschen muss dafür gesorgt
werden, dass der neue Baum wieder die AVLEigenschaft hat:
Rebalancieren.
Mittels: Rotationen und Doppelrotationen
31
Rotation (hier für den Fall, dass der rechte
Unterbaum nach einem insert rechts zu groß)
32
Doppelrotation (hier für den Fall, dass der rechte
Unterbaum nach einem insert links zu groß)
33
Rebalancieren nach Einfügen:
Entweder der Baum ist noch balanciert oder:
Satz: Nach einer Einfügung genügt eine Rotation
oder Doppelrotation des ersten* aus der
Balance geratenen Teilbaums zur
Wiederherstellung der Balance (AVLEigenschaft).
(* : auf dem Weg vom eingefügten Knoten zur
Wurzel).
Denn: nach Rotation/Doppelrotation ist die
ursprüngliche Höhe dieses Teilbaums
wiederhergestellt!
34
Rebalancieren nach Löschen:
Entweder der Baum ist noch balanciert oder:
Satz: Nach einer Löschoperation kann der erste* aus der
Balance geratenen Teilbaum durch eine Rotation oder
Doppelrotation wieder in Balance (AVL-Eigenschaft)
gebracht werden.
(* : auf dem Weg vom entnommenen Knoten zur Wurzel).
Aber: da die Höhe des Teilbaums sich dadurch um 1
vermindern kann, muss dies evtl. für den
nächstgrößeren Teilbaum wiederholt werden, usw. bis
zur Wurzel.
35
Zur Implementation



Bei der Suche nach einem aus der Balance geratenen
Unterbaum muss man nur weitersuchen (d.h. zum
nächsthöheren Knoten gehen), wenn der zuletzt
besuchte Unterbaum seine Höhe geändert hat.
Um ohne zusätzliches Durchlaufen von Knoten
herauszufinden, welche Teilbäume nicht balanciert
sind, merkt man sich bei den Knoten zusätzlich
entweder die Höhe des Teilbaums oder die Balance
(z.B. in der Form: Höhe(linker Unterbaum) –
Höhe(rechter Unterbaum) ). Diese Daten müssen
natürlich beim Einfügen und Löschen auch immer
entsprechend geändert werden.
Es sollte eine Vorgängerfunktion implementiert
werden.
36
Komplexitätsanalyse – worst case
Sei h die Höhe des AVL-Baumes.
Suchen: wie beim Suchbaum, also O(h).
Einfügen: insert wie beim Suchbaum (O(h)) und vom
eingefügten Knoten zur Wurzel zurück und höchstens
eine (Doppel-) Rotation: auch O(h).
Löschen: delete wie beim Suchbaum (O(h)) und vom
eingefügten Knoten zur Wurzel zurück und dabei evtl.
eine (Doppel-)Rotation pro Knoten: O(h).
Also alle Operationen: O(h).
37
Abschätzung der Höhe eines AVL-Baumes
Sei N(h) die minimale Zahl der
Knoten eines AVL-Baumes der Höhe h.
Konstruktionsprinzip
0
N(0)=1, N(1)=2,
1
N(h) = 1 + N(h-1) + N(h-2) für h  2.
N(3)=4, N(4)=7
Erinnerung: Fibonacci-Zahlen
fibo(0)=0, fibo(1)=1,
fibo(n) = fibo(n-1) + fibo(n-2)
fib(3)=1, fib(4)=2, fib(5)=3, fib(6)=5, fib(7)=8
Durch Nachrechnen zeigt man:
N(h) = fibo(h+3) - 1
2 3
38
Sei jetzt n die Knotenzahl eines beliebigen AVL-Baums der
Höhe h. Dann gilt:
n  N(h) ,
also mit p = (1 + sqrt(5))/2 und q = (1- sqrt(5))/2
n  fibo(h+3)-1
= ( ph+3 – qh+3 ) / sqrt(5) – 1
 ( p h+3/sqrt(5)) – 3/2,
also
h+3+logp(1/sqrt(5))  logp(n+3/2),
also gibt es eine Konstante c mit
h  logp(n) + c
= logp(2) • log2(n) + c
= 1.44… • log2(n) + c = O(log n).
39
Fazit
Die Höhe eines AVL-Baumes ist also nach oben
beschränkt durch:
logp(2) • log2(n) + c
= 1.44… • log2(n) + c.
Anmerkung: Für die maximale Höhe H eines AVL-Baumes
mit n Knoten gilt:
N(H)  n < N(H+1)
Daraus folgert man ähnlich wie oben:
H = logp(2) • log2(n) + c‘
= 1.44… • log2(n) + c‘.
Die oben berechnete obere Schranke ist also scharf.
40
6.3.1 Heapsort
Idee: Zwei Phasen:
1. Aufbau des Heaps
2. Ausgabe des Heaps
Für aufsteigende Sortierung: Heap mit
umgekehrter Ordnung, d.h. Maximum in der
Wurzel (nicht Minimum).
Heapsort ist ein in-situ-Verfahren.
41
Wiederholung:
Heap mit umgekehrter Ordnung:
• Für jeden Knoten x und jeden Nachfolger y von
x gilt: m(x)  m(y),
• links-vollständig, d.h. die Ebenen werden von
der Wurzel her gefüllt, und jede Ebene von links
nach rechts,
• Implementierung in einem Array, in dem die
Knoten in dieser Reihenfolge abgelegt werden.
42
Zweite Phase:
2. Ausgabe des Heaps:
n-mal das Maximum (in der Wurzel) herausnehmen
(deletemax)
und mit dem Element an der letzten Stelle des aktuellen
Heaps vertauschen.
 Heap wird um ein Element kürzer und
geordnete Teilfolge am Ende des Array wird um ein
Element länger.
Aufwand: O(n log n).
43
Erste Phase:
1. Aufbau des Heaps:
Einfache Methode: n-mal insert
Aufwand: O(n log n).
Verbesserung: betrachte Array a[1 … n ] bereits
als linksvollständigen Binärbaum und lass die
Elemente in der Reihenfolge
a[n div 2] … a[2] a[1] einsinken!
(Die Elemente a[n] … a[n div 2 +1] sind schon in
Blättern.)
44
Formal: Teilheap:
Ein Teilarray a[ i..k ] ( 1  i  k <=n ) heißt Teilheap,
wenn gilt:
für alle j aus {i,...,k} ist
m(a[ j ])  m(a[ 2j ]) falls 2j  k und
m(a[ j ])  m(a[ 2j+1]) falls 2j+1  k
Ist a[i+1..n] bereits ein Teilheap, so wird durch
Einsinkenlassen des Elements a[i] auch a[i…n]
zu einen Teilheap.
45
Aufwandsberechnung
Sei k = [log n+1]+ - 1.
Aufwand:
Für ein Element in der Ebene j von oben: k – j.
Insgesamt: {j=0,…,k} (k-j)•2j
= 2k • {i=0,…,k} i/2i =2 • 2k = O(n).
46
Vorteil:
Neue Aufbaustrategie effizienter!
Anwendung: Wenn nur die m größten Elemente
ausgegeben werden sollen:
1. Aufbau in O(n) Schritten.
2. Ausgabe der m größten Elemente in
O(m•log n) Schritten.
Gesamtaufwand: O( n + m•log n).
47
Nachtrag: Sortieren mit Suchbäumen
Algorithmus:
1. Aufbau eines Suchbaums (z.B. AVL-Baums) aus der
zu sortierenden Folge durch Einfügeoperationen.
2. Ausgabe in InOrder-Reihenfolge.
 sortierte Folge.
Aufwand: 1. O(n log n) mit AVL-Bäumen,
2. O(n).
Gesamt: O(n log n). Bis auf Konstanten optimal!
48
Herunterladen