k - DBS

Werbung
Ludwig Maximilians Universität München
Institut für Informatik
Lehr- und Forschungseinheit für Datenbanksysteme
Skript zur Vorlesung
Datenbanksysteme I
Datenbanksysteme I
 2004 Christian Böhm
Wintersemester 2004/2005
Kapitel 9: Physische
Datenorganisation
Vorlesung: Christian Böhm
Übungen: Elke Achtert, Karin Kailing
Skript © 2004 Christian Böhm
http://www.dbs.informatik.uni-muenchen.de/Lehre/DBS
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Wiederholung
Permanente Datenspeicherung: Daten können auf dem sog.
Externspeicher (auch Festplatte genannt) permanent
gespeichert werden
• Arbeitsspeicher:
– rein elektronisch
(Transistoren und
Kondensatoren)
– flüchtig
– schnell: 10 ns/Zugriff *
– wahlfreier Zugriff
– teuer:
300-400 € für 1 GByte*
Externspeicher:
– Speicherung auf
magnetisierbaren Platten
(rotierend)
– nicht flüchtig
– langsam: 5 ms/Zugriff *
– blockweiser Zugriff
– wesentlich billiger:
200-400 € für 100 GByte*
*April
2
2002 .
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Wiederholung
3
Aufbau einer Festplatte
• Mehrere magnetisierbare Platten
rotieren um eine gemeinsame Achse
• Ein Kamm mit je zwei Schreib/Leseköpfen pro Platte (unten/oben)
bewegt sich in radialer Richtung.
Spuren
Sektoren
Wiederholung
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Intensionale Ebene vs. Extensionale Ebene
4
• Datenbankschema:
Name (10 Zeichen)
Vorname (8 Z.)
Jahr (4 Z.)
• Ausprägung der Datenbank:
F r a n k l i n
R i t c h i e
A r e t h a
L i o n e l
1 9 4 2
1 9 4 9
• Nicht nur DB-Zustand, sondern auch DB-Schema wird in
DB gespeichert.
• Vorteil: Sicherstellung der Korrektheit der DB
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Wiederholung
Drei-Ebenen-Architektur zur Realisierung von
– physischer
– und logischer
Datenunabhängigkeit (nach ANSI/SPARC)
A1
A2
Ext. Schema1
A3
A4
Ext. Schema2
A5
Anwendungsgruppen
Ext. Schema3
Externe Ebene
Logische
Datenunabhängigkeit
Logisches Schema
Konzeptionelle Ebene
Physische
Datenunabhängigkeit
5
Internes Schema
Interne Ebene
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Wiederholung
6
• Das interne Schema beschreibt die systemspezifische
Realisierung der DB-Objekte (physische Speicherung),
z.B.
– Aufbau der gespeicherten Datensätze
– Indexstrukturen wie z.B. Suchbäume
• Das interne Schema bestimmt maßgeblich das
Leistungsverhalten des gesamten DBS
• Die Anwendungen sind von Änderungen des internen
Schemas nicht betroffen
(physische Datenunabhängigkeit)
Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Um Anfragen und Operationen effizient durchführen zu können, setzt
die interne Ebene des Datenbanksystems geeignete Datenstrukturen
und Speicherungsverfahren (Indexstrukturen) ein.
Aufgaben:
• Zuordnung eines Suchschlüssels zu denjenigen physischen
Datensätzen, die diese Wertekombination besitzen,
d.h. Zuordnung zu der oder den Seiten der Datei, in denen diese
Datensätze gespeichert sind.
(VW, Golf, schwarz, M-ÜN 40) Æ (logische) Seite 37
• Organisation der Seiten unter dynamischen Bedingungen.
Überlauf einer Seite Æ Aufteilen der Seite auf zwei Seiten
7
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Index / Directory
Strukturinformation zur Zuordnung von Suchschlüsseln und
zur Organisation der Datei.
• Directoryseiten:
Seiten in denen das Directory gespeichert wird.
• Datenseiten
Seiten mit den eigentlichen physischen Datensätzen.
Index/Directory
Directoryseiten
…
Physische Datensätze
8
Datenseiten
Anforderungen an Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
• Effizientes Suchen
– Häufigste Operation in einem DBS: Suchanfragen.
• Insbesondere Suchoperationen müssen mit wenig
Seitenzugriffen auskommen.
– Beispiel: unsortierte sequentielle Datei
» Einfügen und Löschen von Datensätzen werden effizient
durchgeführt.
» Suchanfragen müssen ggf. die gesamte Datei durchsuchen.
• Eine Anfrage sollte daher mit Hilfe der Indexstruktur
möglichst schnell zu der Seite oder den Seiten hingeführt
werden, wo sich die gesuchten Datensätze befinden.
9
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Anforderungen an Indexstrukturen
• Dynamisches Einfügen, Löschen und Verändern von
Datensätzen
– Der Datenbestand einer Datenbank verändert sich im
Laufe der Zeit.
• Verfahren, die zum Einfügen oder Löschen von Datensätzen
eine Reorganisation der gesamten Datei erfordern, sind nicht
akzeptabel.
– Beispiel: sortierte sequentielle Datei
» Das Einfügen eines Datensatzes erfordert im schlechtesten Fall,
dass alle Datensätze um eine Position verschoben werden müssen.
» Folge: auf alle Seiten der Datei muss zugegriffen werden.
• Das Einfügen, Löschen und Verändern von Datensätzen darf
daher nur lokale Änderungen bewirken.
10
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Anforderungen an Indexstrukturen
• Ordnungserhaltung
– Datensätze, die in ihrer Sortierordnung direkt
aufeinander folgen, werden oft gemeinsam angefragt.
• In der Ordnung aufeinanderfolgende Datensätze sollten in der
gleichen Seite oder in benachbarten Seiten gespeichert
werden.
• Hohe Speicherplatzausnutzung
– Dateien können sehr groß werden.
• Eine möglichst hohe Speicherplatzausnutzung ist wichtig:
– Möglichst geringer Speicherplatzverbrauch.
– Im Durchschnitt befinden sich mehr Datensätze in einer Seite,
wodurch auch die Effizienz des Suchens steigt und die
Ordnungserhaltung an Bedeutung gewinnt.
11
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Anforderungen an Indexstrukturen
12
• Hohe Speicherplatzausnutzung
– Dateien können sehr groß werden.
• Eine möglichst hohe Speicherplatzausnutzung ist wichtig:
– Möglichst geringer Speicherplatzverbrauch.
– Im Durchschnitt befinden sich mehr Datensätze in einer Seite,
wodurch auch die Effizienz des Suchens steigt und die
Ordnungserhaltung an Bedeutung gewinnt.
Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Klassen von Indexstrukturen:
13
• Datenorganisierende Strukturen
Organisiere die Menge der tatsächlich auftretenden Daten
(Suchbaumverfahren)
• Raumorganisierende Strukturen
Organisiere den Raum, in den die Daten eingebettet sind
(dynamische Hash-Verfahren)
Æ Vorlesung Index- und Speicherungsstrukturen
• Hybride Strukturen
Kombination beider Vorgehensweisen (Hash-Bäume)
Æ Vorlesung Index- und Speicherungsstrukturen
Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Häufig tritt in Datenbankanwendungen neben der
Primärschlüsselsuche auch sequentielle Verarbeitung auf.
14
Beispiele für sequentielle Verarbeitung:
– Sortiertes Auslesen aller Datensätze, die von einer
Indexstruktur organisiert werden.
– Unterstützung von Bereichsanfragen der Form:
“Nenne mir alle Studenten, deren Nachname im
Bereich [Be ... Brz] liegt.”
ÆDie Indexstruktur sollte die sequentielle Verarbeitung
unterstützen, d.h. die Verarbeitung der Datensätze in
aufsteigender Reihenfolge ihrer Primärschlüssel.
Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Betrachten wir das Beispiel eines B-Baumes:
Definition: B-Baum der Ordnung m (Bayer und
McCreight (1972))
(1) Jeder Knoten enthält höchstens 2m Schlüssel.
(2) Jeder Knoten außer der Wurzel enthält mindestens m
Schlüssel.
(3) Die Wurzel enthält mindestens einen Schlüssel.
(4) Ein Knoten mit k Schlüsseln hat genau k+1 Söhne.
(5) Alle Blätter befinden sich auf demselben Level.
15
Indexstrukturen
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Beispiel: für einen B-Baum der Ordnung 2
16
Warum unterstützt dieser B-Baum die folgende Bereichsanfrage nicht
effizient?
“Lies die Informationen aller Datensätze im Bereich [B ... V] aus”
B+-Baum
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Grundidee:
• Trennung der Indexstruktur in Directory und Datei.
• Sequentielle Verkettung der Daten in der Datei.
B+-Datei:
• Die Blätter des B+-Baumes heißen Datenknoten oder Datenseiten.
• Die Datenknoten enthalten alle Datensätze.
• Alle Datenknoten sind entsprechend der Ordnung auf den Primärschlüsseln
verkettet.
B+-Directory:
• Die inneren Knoten des B+-Baumes heißen Directoryknoten oder
Directoryseiten.
• Directoryknoten enthalten nur noch Separatoren s.
• Für jeden Separator s(u) eines Knotens u gelten folgende
Separatoreneigenschaften:
–
–
–
17
–
s(u) > s(v)
s(u) < s(w)
s(u) > k(v’)
s(u).
s(u) ≤ k(w’)
von s(u).
für alle Directoryknoten v im linken Teilbaum von s(u).
für alle Directoryknoten w im rechtenTeilbaum von s(u).
für alle Primärschlüssel k(v’) und alle Datenknoten v’ im linken Teilbaum von
für alle Primärschlüssel k(w’) und alle Datenknoten w’ im rechten Teilbaum
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
B+-Baum
18
Beispiel:
B+-Baum für die Zeichenketten:
An, And, Certain, For, From, Which, With
Datenbanksysteme I
Kapitel 9: Physische Datenorganisation
Zusammenfassung
• Um Anfragen und Operationen effizient durchführen zu
können, setzt die interne Ebene des Datenbanksystems
geeignete Datenstrukturen und Speicherungsverfahren
(Indexstrukturen) ein.
• Ein Beispiel für eine solche Indexstruktur ist der so
genannte B+-Baum
Æeffizienter Zugriff auf Tupel einer Relation über
Primärschlüssel und effiziente sequentielle Verarbeitung
aller Tupel einer Relation
• Weiter Indexstrukturen sind zum Beispiel Hashverfahren
19
Herunterladen