8. Datenbanktuning

Werbung
8. Datenbanktuning
Motivation
§ Fokus bisher lag bisher auf sinnvoller Abbildung
eines Ausschnitts der realen Welt
in einer relationalen Datenbank
§ Beliebige SQL-Anfragen können auf den Daten
ausgewertet werden, sobald sie einmal in
relationaler Datenbank gespeichert sind
§ RDBMSs bieten verschiedene Möglichkeiten, um die
typischen Anfragen, die aus einer Anwendung
heraus gestellt werden, in kürzerer Zeit
beantworten zu können
Datenbanken / Kapitel 8: Datenbanktuning
2
Inhalt
§ 8.1 Indizes
§ 8.2 Statistiken
§ 8.3 Systemparameter
Datenbanken / Kapitel 8: Datenbanktuning
3
8.1 Indizes
§ RDBMS speichern die Datensätze (Tupel) einer
Tabelle (Relation) in den Seiten einer Datendatei
§ Indizes erlauben eine Beschleunigung des Zugriffs
auf die Datensätze anhand ihres Primärschlüssel
oder anhand von Attributwerten
§ RDBMS muss angelegte Indizes synchron mit den Daten
halten und Änderungen an den Daten in die
entsprechenden Indizes übernehmen
Datenbanken / Kapitel 8: Datenbanktuning
4
Anfragearten
§ Finde Tupel anhand von Primärschlüssel
(z.B. Student mit der Matrikelnummer 196678)
§ Finde Tupel anhand eines Attributwerts
(z.B. Studenten mit Name Müller)
§ Finde Tupel anhand mehrerer Attributwerte
(z.B. Studenten mit Name Müller und Vorname Thomas)
Datenbanken / Kapitel 8: Datenbanktuning
5
Anfragearten
§ Finde Tupel anhand eines Attributwertebereichs
(z.B. Studenten zwischen vierten und sechsten Semester)
§ Finde Tupel anhand mehrerer Attributwertebereiche
(z.B. Studenten mit Name M* und Vorname T*)
Datenbanken / Kapitel 8: Datenbanktuning
6
Indizes in SQL
§ Anlegen von Indizes mittels CREATE INDEX Kommando
1
2
CREATE INDEX < Name des Index>
ON < Name der Tabelle > ( < Attribute >)
§ Beispiele:
1
2
CREATE INDEX S t u d e n t e n S e m e s t e r N a m e
ON Studenten ( Semester ASC , Name ASC )
1
2
1
2
CREATE INDEX VorlesungenSWSTitel
ON Vorlesungen ( SWS DESC , Titel )
CREATE INDEX Vo rl es un gen Ti te lV orl Nr
ON Vorlesungen ( Titel , VorlNr )
Datenbanken / Kapitel 8: Datenbanktuning
7
Indexstrukturen
§ RDBMSs unterstützen meist verschiedene
Indexstrukturen zur Umsetzung von Indizes
§ Suchbäume
§ Hashbasierte Indexstrukturen
§ Bitmaps für Attribute mit wenigen möglichen Werten
§ Indexstrukturen für mehrdimensionale Daten (z.B. R-Bäume)
§ Indexstrukturen für Textdaten (z.B. invertierte Datei)
Datenbanken / Kapitel 8: Datenbanktuning
8
Rückblick: Binäre Suchbäume
§ Binäre Suchbäume zur effizienten Suche im Hauptspeicher
6
8
4
2
5
7
§ Balancierte binäre Suchbäume
(z.B. AVL-Bäume und Rot-Schwarz-Bäume)
§ Jeder Knoten hat bis zu zwei Kinder
§ Suchen, Einfügen, Löschen in O(log2 n)
§ Wieso nicht unverändert geeignet als Indexstrukturen?
Datenbanken / Kapitel 8: Datenbanktuning
9
B-Bäume
§ B-Baum ist ein balancierter Suchbaum, bei dem sich die
Gestalt der Knoten an der Seitengröße orientiert
§ Knoten muss in eine Seite passen
§ Knoten bestehen aus
§ mehreren Werten als Schlüssel
§ mehreren Verweisen auf Kindknoten
§ mehreren Tupelnummern (oder gar den Tupeln selbst)
12
(2,1)
Datenbanken / Kapitel 8: Datenbanktuning
20
(7,2)
34
(9,3)
42
(2,3)
10
B-Bäume
§ B-Bäume haben damit typischerweise einen höheren
Verzweigungsgrad (fan out) als binäre Suchbäume
§ Balancierung eines B-Baums wird mittels seiner
Ordnung m und den Füllgraden der Knoten erreicht
§ jeder Knoten außer der Wurzel
enthält mindestens m Einträge
§ jeder Knoten enthält höchstens 2*m Einträge
§ jeder Knoten ist entweder Blattknoten ohne Kinder
oder hat ein Kind mehr als Einträge
§ alle Blattknoten liegen auf der gleichen Stufe
Datenbanken / Kapitel 8: Datenbanktuning
11
B-Bäume
§ Beispiel: B-Baum der Ordnung m=1
12
2
4
13
Datenbanken / Kapitel 8: Datenbanktuning
20
15
50
25
35
27
31
65
37
55
77
79
12
Suche in B-Bäumen
§ Suche in B-Baum
§ Beginne beim Wurzelknoten
§ Falls der gesuchte Wert einem Schlüssel entspricht,
gibt die zugehörige Tupelnummer zurück
§ Verfolge ansonsten Verweis zu Kindknoten, der
§ links vom kleinsten Schlüssel größer als gesuchter Wert steht
§ rechts vom größten Schlüssel kleiner als gesuchter Wert steht
§ Fahre mit Kindknoten analog fort
§ Höhe des B-Baums ist in O(logm n)
§ Suche auf B-Baum benötigt O(logm n) Zugriffe
Datenbanken / Kapitel 8: Datenbanktuning
13
Suche in B-Bäumen
§ Beispiel: Suche nach dem Wert 22 im B-Baum
12
2
4
20
13
15
50
25
35
27
31
65
37
55
77
79
Wert 22 nicht enthalten
Datenbanken / Kapitel 8: Datenbanktuning
14
Einfügen in B-Bäumen
§ Einfügen in B-Baum
§ Suche Blattknoten, in dem der einzufügende Wert stünde
§ Enthält der Blattknoten wenigstens m und weniger als 2*m
Einträge, dann füge den Wert im Blattknoten ein
§ Enthält der Blattknoten bereits genau 2*m Einträge,
dann zerteile diesen in zwei Blattknoten mit je m Einträgen
und reiche mittleres Element an Elternknoten hoch;
dort wird analog fortgefahren
§ Einfügen in B-Baum benötigt O(logm n) Zugriffe
Datenbanken / Kapitel 8: Datenbanktuning
15
Einfügen in B-Bäumen
§ Beispiel: Einfügen des Werts 7
12
2
4
13
Datenbanken / Kapitel 8: Datenbanktuning
20
15
50
25
35
27
31
65
37
55
77
79
16
Einfügen in B-Bäumen
§ Beispiel: Einfügen des Werts 7
12
2
4
13
Datenbanken / Kapitel 8: Datenbanktuning
20
15
50
25
35
27
31
65
37
55
77
79
17
Einfügen in B-Bäumen
§ Beispiel: Einfügen des Werts 7
12
2
4
7
13
20
15
50
25
35
27
31
65
37
55
77
79
Knoten voll
Datenbanken / Kapitel 8: Datenbanktuning
18
Einfügen in B-Bäumen
§ Beispiel: Einfügen des Werts 7
4
12
2
13
20
15
50
25
35
27
31
65
37
55
77
79
7
Datenbanken / Kapitel 8: Datenbanktuning
19
Löschen in B-Bäumen
§ Löschen im B-Baum
§ Suche Knoten, in dem der gesuchte Wert steht
§ Handelt es sich dabei um einen Blattknoten, so entferne
den Eintrag und behandle evtl. Unterlauf des Knotens, falls
Knoten danach weniger als m Einträge enthält
§ Handelt es sich um einen inneren Knoten, so ersetze den
Eintrag durch den Eintrag von einem Blattknoten mit
nächstkleineren Schlüssel und behandle evtl. Unterlauf
Datenbanken / Kapitel 8: Datenbanktuning
20
Löschen in B-Bäumen
§ Behandlung eines Unterlaufs (weniger als m Einträge)
durch Ausgleichen oder Verschmelzen mit Nachbarknoten
§ Hat der Nachbarknoten mehr als m Einträge, werden diese
und die Einträge des untergelaufenen Knotens
auf beide Knoten verteilt
§ Hat der Nachbarknoten genau m Einträge, so werden
die beiden Knoten verschmolzen und der mittlere
Eintrag, wie beim Einfügen, zum Elternknoten weitergereicht
§ Löschen im B-Baum benötigt O(logm n) Zugriffe
Datenbanken / Kapitel 8: Datenbanktuning
21
Löschen in B-Bäumen
§ Beispiel: Löschen des Werts 25
12
2
4
13
Datenbanken / Kapitel 8: Datenbanktuning
20
15
50
25
35
27
31
65
37
55
77
79
22
Löschen in B-Bäumen
§ Beispiel: Löschen des Werts 25
12
2
4
20
13
15
50
25
35
27
31
65
37
55
77
79
25 in innerem Knoten,
ersetze durch 20 aus Blattknoten
Datenbanken / Kapitel 8: Datenbanktuning
23
Löschen in B-Bäumen
§ Beispiel: Löschen des Werts 25
12
2
4
15
50
20
35
27
13
31
65
37
55
77
79
Unterlauf des Blattknotens
Datenbanken / Kapitel 8: Datenbanktuning
24
Löschen in B-Bäumen
§ Beispiel: Löschen des Werts 25
12
2
4
13
20
15
50
27
35
31
65
37
55
77
79
Ausgleichen mit Nachbarknoten
Datenbanken / Kapitel 8: Datenbanktuning
25
B-Bäume
§ Im B-Baum enthalten sowohl innere Knoten als auch
Blattknoten Tupelnummer (oder gar ganze Tupel)
§ B-Bäume unterstützen Suche nach einem bestimmten
Wert effizient; die Suche nach allen Einträgen mit einem
Schlüssel in einem bestimmten Wertebereich wird
jedoch nicht effizient unterstützt, da eine Traversierung
des entsprechenden Unterbaums notwendig wäre
Datenbanken / Kapitel 8: Datenbanktuning
26
B+-Bäume
§ B+-Bäume sind eine verbesserte Variante der B-Bäume,
die in der Praxis sehr häufig eingesetzt werden
§ B+-Bäume sind hohle Bäume, d.h. Tupelnummern (oder
Tupel selbst) befinden sich nur in den Blattknoten; die
inneren Knoten enthalten nur Schlüssel und Verweise, sie
dienen somit nur der Navigation
§ B+-Bäume verketten die Blattknoten doppelt,
wodurch Bereichsanfragen effizient
ermöglicht werden
Datenbanken / Kapitel 8: Datenbanktuning
27
B+-Bäume
§ Beispiel: B+-Baum der Ordnung m=1
35
20
13
4
2
4
12
13
Datenbanken / Kapitel 8: Datenbanktuning
50
27
15
20
25
27
31
35
37
50
56
65
28
Bereichsanfragen in B+-Bäumen
§ Bereichsanfrage in B+-Bäumen
§ Suche nach linker Grenze des Wertebereichs
§ Durchlaufe Blattknoten bis ein Schlüssel mit
größerem Wert als rechte Grenze
des Wertebereichs erreicht
§ Bereichsanfrage benötigt O(logm n + r/m) Zugriffe,
mit r als Anzahl der zurückgelieferten Einträge
Datenbanken / Kapitel 8: Datenbanktuning
29
Bereichsanfragen in B+-Bäumen
§ Beispiel: Suche Einträge mit Schlüssen im Bereich [13,31]
35
20
13
4
2
4
12
13
Datenbanken / Kapitel 8: Datenbanktuning
50
27
15
20
25
27
31
35
37
50
56
65
30
Rückblick: Hashverfahren
§ Hashtabellen zur effizienten Suche im Hauptspeicher
§ Werte werden mittels Hashfunktion
0
31
auf Buckets eines Arrays abgebildet
1
§ Typische Hashfunktion:
h(k) = (k mod p) mod n
mit Primzahl p und Kapazität n
§ Kollisionen können z.B.
durch Verkettung behandelt werden
§ Suche, Einfügen, Löschen in O(1) (erwartet)
Datenbanken / Kapitel 8: Datenbanktuning
2
3
10
24
4
5
6
13
p = 31 n = 7
31
Hashbasierte Indizes
§ Hashbasierte Indizes in Datenbanksystemen
§ Werte des Primärschlüssels oder anderer Attribute
werden mittels einer Hashfunktion
auf Buckets abgebildet
§ Jedes Bucket entspricht initial einer Seite,
in der die Tupel oder Tupelnummern
gespeichert werden
§ Kollisionen können wie im Hauptspeicher
z.B. durch Verkettung von Seiten
behandelt werden
Datenbanken / Kapitel 8: Datenbanktuning
32
Hashbasierte Indizes
§ Hashbasierte Indizes unterstützen Suche, Einfügen und
Löschen effizient, sofern vorab bekannt ist, wie viele
Datensätze indiziert werden und die Zahl der Buckets
entsprechend gewählt werden kann
§ Verwendet man zu viele Buckets (Seiten) wird
übermäßig viel Speicher verwendet; bei zu wenigen
häufen sich die Kollisionen und die Effizienz nimmt ab
§ Hashbasierte Indizes unterstützen nur die Suche nach
einem bestimmten Wert, jedoch keine Bereichsanfragen
Datenbanken / Kapitel 8: Datenbanktuning
33
Indizes in RDBMSs
§ RDBMSs (z.B. PostgreSQL und Oracle) implementieren
verschiedene Arten von Indizes und erlauben dem
Benutzer, die Art des Index sowie zusätzliche
Parameter (z.B. den Füllgrad) anzugeben
Beispiel: Hashbasierter Index in PostgreSQL
1
2
CREATE INDEX Studenten_MatrNr
ON Studenten USING hash ( MatrNr )
§ Beispiel: Index (B+-Baum) über mehrere Attribute
1
2
CREATE INDEX S t u d e n t e n _ N a m e _ V o r n a m e
ON Studenten ( Name , Vorname )
Datenbanken / Kapitel 8: Datenbanktuning
34
Trick #1: Sortieren mit Indizes
§ Indizes können verwendet werden, um Daten vorsortiert
zu speichern und dem RDBMS ein Sortieren zu sparen
§ Beispiel:
1
2
3
SELECT *
FROM Studenten
ORDER BY Name , Vorname
lässt sich durch einen Index folgender Art unterstützen
1
2
CREATE INDEX S t u d e n t e n N a m e V o r n a m e
ON Studenten ( Name ASC , Vorname ASC )
Datenbanken / Kapitel 8: Datenbanktuning
35
Trick #2: Vorberechnen mit Indizes
§ Einige RDBMSs erlauben Funktionsausdrücke in Indizes,
so dass diese zum Vorberechnen genutzt werden können
§ Beispiel:
1
2
3
SELECT *
FROM Studenten
WHERE lower ( Name ) = ’m ü ller ’ AND lower ( Vorname ) LIKE ’ th % ’
lässt sich durch einen Index folgender Art unterstützen
1
2
CREATE INDEX S t u d e n t e n L o w e r N a m e L o w e r V o r n a m e
ON Studenten ( lower ( Name ) ASC , lower ( Vorname ) ASC )
Datenbanken / Kapitel 8: Datenbanktuning
36
Trick #3: Anfragen nur mit Indizes
§ Sofern alle benötigten Attribute gespeichert sind, können
einige RDBMSs Anfragen vollständig Index auswerten
§ Beispiel:
1
2
3
4
SELECT
FROM
WHERE
ORDER BY
MatrNr , Name , Vorname
Studenten
Semester = 3
Name , Vorname
lässt sich durch einen Index folgender Art unterstützen
1
2
CREATE INDEX S t u d e n t e n S e m e s t e r M a t r N r N a m e V o r n a m e
ON Studenten ( Semester , Name , Vorname , MatrNr )
Datenbanken / Kapitel 8: Datenbanktuning
37
8.2 Statistiken
§ SQL ist deklarativ, d.h. RDBMS muss selbst einen
geeigneten Auswertungsplan zu einer gegebenen
Anfrage bestimmen
§ RDBMS muss Kosten verschiedener Auswertungspläne
abschätzen und miteinander vergleichen können
§ Statistiken über die gespeicherten Daten sind essentiell,
um Kosten realistisch schätzen zu können und
günstigen Auswertungsplan auszuwählen
Datenbanken / Kapitel 8: Datenbanktuning
38
Histogramme
Table 1
§ Histogramme als vorherrschendes Verfahren in RDBMSs
[1,3]
2500
[4,6]
1550
unterteilen Wertebereich eines Attributs in β Buckets
Semester
Anzahl
1
2
3
4
5
6
1.000
800
700
600
500
450
7[7,9]
400
[10,12]
8
9
390
380
[13,15]
10
11
12
13
14
15
280
250
150
75
20
5
1170
680
100
§ Equiwidth-Histogramme
§ Buckets haben gleiche Breite
3,000
2,250
—=5
1,500
750
0
Datenbanken / Kapitel 8: Datenbanktuning
[1,3]
[4,6]
[7,9]
[10,12]
[13,15]
39
Statistiken in SQL
§ RDBMSs benötigen Statistiken, um effiziente
Auswertungspläne auswählen zu können
§ Syntax zum Berechnen von Statistiken systemabhängig
§ MS SQL Server
1
2
UPDATE STATISTICS < Tabelle >
WITH SAMPLE 10 PERCENT
berechnet Statistiken auf Tabelle mittels 10% Stichprobe
§ PostgreSQL
1
ANALYZE < Tabelle >
berechnet Statistiken auf Tabelle
Datenbanken / Kapitel 8: Datenbanktuning
40
8.3 Systemparameter
§ RDBMSs bieten systemspezifische Parameter, um
Einfluss auf Verhalten des Systems zu nehmen, z.B.
§ Maximale Größe des verwendeten Hauptspeichers
§ Maximale Anzahl paralleler Threads
§ Größe verschiedener Puffer
§ Verfügbare Operatoren
§ etc.
§ Tuning der Systemparameter (z.B. Hauptspeicher) ist
essentiell, aber leider hochgradig systemabhängig
und wird von daher hier nicht weiter vertieft
Datenbanken / Kapitel 8: Datenbanktuning
41
Zusammenfassung
§ Indizes erlauben die Beschleunigung von Anfragen,
die aus einer Anwendung heraus gestellt werden
§ B+-Bäume und Hashing als gängigste Indexstrukturen
§ Indizes können nicht nur das Finden von Tupeln, sondern
auch Sortieren, Funktionsberechnung oder
ganze Anfragen beschleunigen
§ Statistiken sind essentiell, damit RDBMS zu gegebener
Anfrage effizienten Auswertungsplan bestimmen kann
Datenbanken / Kapitel 8: Datenbanktuning
42
Literatur
[1]
A. Kemper und A. Eickler: Datenbanksysteme – Eine
Einführung, De Gruyter Oldenbourg, 2015 (Kapitel 7)
[2]
G. Saake, K.-U. Sattler und A. Heuer:
Datenbanken - Konzepte und Sprachen,
mitp Professional, 2013 (Kapitel 7)
Datenbanken / Kapitel 8: Datenbanktuning
43
Herunterladen