Ein Einblick in das Gebiet der Verteilten Datenbanksysteme

Seminar Programmiersprachen und Programmiersysteme
Ein Einblick in das Gebiet der Verteilten
Datenbanksysteme
Bettual Richter
8. Februar 2010
Betreuer: Prof. Frank Huch
1
Inhaltsverzeichnis
1 Einleitung
3
2 Grundlagen
2.1 Datenbanksysteme . . . . . . .
2.1.1 Relationale Datenbanken
2.1.2 Operationen . . . . . . .
2.1.3 Transaktionen . . . . . .
2.2 Rechnernetze . . . . . . . . . .
.
.
.
.
.
3
3
4
5
6
8
3 Architektur verteilter Datenbanksysteme
3.1 Katalog des Systems . . . . . . . . . . . . . . . . . . . . .
3.2 Fragmentierung und Allokation . . . . . . . . . . . . . . .
3.3 Klassifikation nach Verteilungsgrad . . . . . . . . . . . . .
9
10
11
12
4 Umsetzung einiger Konzepte
4.1 Client/Server-Datenbanksysteme . . . . . . . . . . . . . .
4.1.1 Funktional gleichgestellte DBS . . . . . . . . . . . .
14
14
15
5 Anfragebearbeitung und Transaktionsverwaltung
5.1 Anfragebearbeitung . . . . . . . . . . . . . . . . . . . . . .
5.2 Transaktionsverwaltung . . . . . . . . . . . . . . . . . . .
5.3 Drei-Phasen-Commit(3PC) . . . . . . . . . . . . . . . . . .
16
16
17
19
6 Fazit und Ausblick
20
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Einleitung
Aufgrund der sinkenden Hardwarepreise in den letzten Jahren steigt das
Interesse an verteilten Systemen zunehmend. Die Anforderungen eines Unternehmens bezüglich Leistungsfähigkeit, Kosteneffektivität und Verfügbarkeit
führen bei zentralistisch organisierten Informationssystemen schnell zu unverhältnismäßig hohen Ausgaben. Es ist auch leicht nachvollziehbar, dass
ein einzelner Rechner schnell zu einem Systemengpaß werden kann und
die Antwortzeiten beim Systemzugriff darunter leiden.
Der Einsatz einer verteilten Systemstruktur stellt hingegen die Kapazität mehrerer Rechner zur Verfügung und die Kapazität des Gesamtsystems kann grundsätzlich durch Erhöhung der Rechnerzahl vergleichweise
kostengünstig gesteigert werden.
Besonders im Bereich der Datenverwaltung kann eine dezentrale Organisation der Informationssysteme im Vergleich zu zentralen Rechnenzentren
punkten. In dieser Arbeit wollen wir einen Überblick über die Konzepte
solcher verteilten Datenverwaltungssysteme schaffen.
2
Grundlagen
In diesem Abschnitt betrachten wir zunächst grundlegende Konzepte, die
für das Verständnis notwendig sind. Dabei geht 2.1 auf verbreitete Datenbanksysteme ein und 2.2 schafft einen Überlbick über Rechnernetze als
Vorraussetzung verteilter Systeme.
2.1
Datenbanksysteme
Aufgabe eines Datenbanksystems ist die Verwaltung von Daten eines Unternehmens oder einer Behörde. Dabei soll die interne Struktur und Organisation der Daten möglichst für den Benutzer bzw. die Anwendung
transparent gehalten werden. Im Zuge dieser Forderung muss das System
also weitgehend selbständig Kriterien der Integrität, Konsistenz sowie Persistenz der Daten gewährleisten und trotzdem den hohen Anforderungen
an Leistungsfähigkeit und Verfügbarkeit genügen. In gängigen Systemen
wird dies durch ein sogenanntes Datenbank-Managementsystem(DBMS),
eine vor die Datenbank geschaltete Software, bewerkstelligt. Die, aus Sicht
3
eines Benutzers bzw. einer Anwendung, transparente Verbindung zwischen
der eigentlichen Datenbank(DB) und dem DBMS, führt dazu, dass häufig
von einem Datenbanksystem(DBS) gesprochen wird und eine bezugnehmende
Trennung nur stattfindet, wenn diese vonnöten ist[2]. Im Allgemeinen werden die von einem Datenbanksystem bereitgestellten Daten von unterschiedlichen Benutzern verwendet, was eine bedarfsgerechte Aufbereitung
und eine Berechtigungsprüfung erfordert. Der Mehrbenutzerbetrieb führt
offensichtlich auch zu konkurrierenden Anfragen an das Datenbanksystem, die weder zu einem inkonsistenten Zustand noch zu einem Verlust
von Daten führen dürfen.
Bei unseren Erläuterungen betrachten wir vor allem das relationale Datenmodell, denn es hat sich klar gegen ältere Konkurrenzmodelle, wie das hierarchische oder das Netzwerk-Modell, durchgesetzt und bietet aufgrund
seiner mengenorietierten Anfragen einige Vorteile zur verteilten und parallelen Datenbankverarbeitung. Daneben gibt es aber auch neuere Konzepte.
Das objektorientierte Datenbankmodell verwaltet Daten in Form von Objekten. Dieses Konzept konnte sich jedoch nach der Euphorie in den 1980ern
nicht durchsetzen als man erkannte, dass die Vorteile ihrem Preis in Form
von längeren Antwortzeiten forderten. Die Forschungen aus diesem bereich ermöglichten aber die Erweiterung des relationalen Datenbankmodells zu einem Objektrelationalen-Modell, dessen Konzepte weitgehend in
den SQL2003 aufgenommen wurden. Die späte Standardisierung dieser
Konzepte führte dazu, dass ihre Umsetzung in kommerziellen Systemen
noch uneinheitlich ist.[2]
2.1.1
Relationale Datenbanken
Die Daten in einer relationalen Datenbank werden in Tabellen(Relationen)
gespeichert. Dabei besteht eine Relation aus ihrem Namen, einer Anzahl
von Spalten(Attributen), die den Grad der Relation bestimmt und einer
Anzahl von Zeilen oder Tupel, welche die Kardinalität der Relation angibt. Darüber hinaus ist jedem Attribute ein Definitionsbereich(Domain)
zugeordnet, welcher die zulässigen Werte festlegt. Die Mengeneigenschaft
von Relationen bedeutet in diesem Kontext, dass Tupel nicht mehrfach
vorkommen und keine vorgegebene Ordnung innerhalb der Relation besteht. Das relationale Datenbankmodell schreibt zwei Integritätsbedingungen,
die sogenannten Relationalen Invariaten, vor.
4
• Die Primärschlüsselbedingung erwartet zu jeder Relation eine
Menge(auch einelementig) von Attributen, mit der ein Tupel eindeutig identifiziert werden kann. Diese Menge ist als Primärschlüssel
der Relation auszuzeichnen.
• Die Fremdschlüsselbedingung hingegen fordert für Fremdschlüssel,
mit denen Beziehungen zwischen Relationen realisiert werden können,
dass ein durch einen Fremdschlüsselwert referenziertes Tupel in der
Datenbank existiert.
Die Menge der Relationen einer Datenbank bezeichnet man als Schema
und unterscheidet Grundsätzlich zwischen dem Konzeptionellen- und dem
Internen- Schema. Letzteres befasst sich weitgehend mit der physischen
Speicherung der Daten und ist für den Anwender transparent. Den Zugriff
auf die Daten erhält der Benutzer also über das Konzeptionelle-Schema,
wobei in den meisten Fällen ein an die jeweiligen Anforderung angepasstes
Externes-Schema für Benutzer bereitgestellt wird.
2.1.2
Operationen
Für Anfragen auf einer Datenbank findet die Sprache SQL(Structured
Query Language), eine praktische Umsetzung der relationalen Algebra,
verwendung. Diese bietet, neben den allgemeinen mengentheoretischen
Operatoren wie Durchschnitt(∩), Vereinigung(∪) oder kartesisches Produkt(×),
auch die relationalen Operatoren Selektion(σ - Selektion), Projektion(π)
oder Verbund(./ - Join) an.
• Die Selektion σP (R) bildet eine horizontale Teilmenge der Relation R, in der alle Tupel enthalten sind, die das Selektionsprädikat
P erfüllen. Teilweise wird auch von Tupelauswahl gesprochen[2]
• Mit der Projektion π(x:xs) (R) wird eine vertikale Teilmenge der
Relation R gebildet. Dabei enthält die Attributliste (x : xs) alle
Eigenschaften, die erhalten bleiben sollen.
• Der Verbund oder Join ermöglicht das Verknüpfen zweier Relationen, die Attribute mit übereinstimmenden Wertebereichen(Domains)
besitzen. Ein Verbund der Relationen A(A1 , . . . , An ) und B(B1 , . . . , Bn )
auf Grundlage eines passenden Vergleichsoperators
5
θ : Domain(Ai ) × Domain(Bj ) → bool
liefert, für fest gewählte i, j ∈ {1, . . . , n}, die Menge der Tupel
{a ∪ b | a ∈ Ai ∧ b ∈ Bj ∧ θ(a, b)}.
Sonderfälle des Verbunds sind der Gleichverbund(Equi Join), mit
einem Gleichheitsoperator, und der Natürliche-Verbund(Natural Join),
der sich aus einem Gleichverbund und einer Ausblendung gleicher
Attribute zusammensetzt. Das Verknüpfen der Tupel beim natürlichen
Verbund erfolgt über Attribute, die in den beteiligten Relationen die
selbe Bezeichnung haben. Falls kein solches Attribut vorhanden ist,
erhält man als Ergebnis das kartesische Produkt.
Der Vollständigkeit halber sollten wir noch erwähnen, dass die Sprache
SQL weniger als Schnittstelle für den Endanwender, sondern viel mehr
als Abstraktionsebene für Anwendungsentwickler gedacht ist. Ein einfacher Angestellter, der auf Firmendaten zugreifen möchte, muß sich für
gewöhnlich nicht dieser bedienen, sondern benutzt eine Anwendung, die,
optimalerweise über eine intuitive graphische Oberfläche, ähnliche Funktionalität bereitstellt und die SQL-Anfragen intern generiert.
2.1.3
Transaktionen
Um einen korrekten Ablauf von Operationen im Mehrbenutzerbetrieb zu
gewährleisten, zieht man das Konzept der Transaktion zu Hilfe. Mit Korrektheit ist die Integrität des Datenbestandes gemeint. Unterschieden wird
zwischen der semantischen Integrität und der Ablaufintegrität[2].
Ersteres bezieht sich auf die Bedeutung der Daten und fordert einen semantisch konsistenten Datenbankzustand nach Abschluss einer Tranksaktion.
Beispielsweise würde eine negative Altersangabe ein semantisches Problem
darstellen, auch wenn sich der Wert innerhalb des Definierten Wertebereichs befindet und syntaktisch zulässig ist.
Bei der Ablaufintegrität , die auch als operationale Integrität bezeichnet
wird, ist die Zusicherung, dass Fehler nicht durch konkurrierende Anfragen
bzw. Zugriffe entstehen. So würde das Resultat verschiedener ”gleichzeitiger” Buchungen auf einem Konto immer zum selben Ergebnis führen.
6
Eine Transaktion ist eine Folge von Datenbankoperationen, die von außen
betrachtet als atomare Einheit erscheint und eine Datenbank von einem
konsistenten Zustand in einen anderen konsistenten Zustand überführt.
Innerhalb des Datenbanksystems kann eine Transaktion aus vielen Operationen bestehen. Stellt man sich eine Banküberweisung von einem Konto
A zu einem Konto B vor, so sind die notwendigen internen Operationen
erkennbar, die, transparent für den Benutzer, vom DBMS durchgeführt
werden.
Transaktion Überweise
e 20.00 von Konto A → Konto B
• Prüfe ob es ein Konto A gibt
• Prüfe ob Konto A über ausreichend Deckung verfügt
• Prüfe ob es ein Konto B gibt
• Belaste Konto A mit e 20.00
• Schreibe e 20.00 auf Konto B gut
• Schließe die Transaktion ab
Sollte bei der Abarbeitung dieser Operationen ein Fehler auftreten, darf
dennoch kein Fehler in der Datenbank resultieren, denn es ist ja schon
genug Geld in letzter Zeit verschwunden.
Eine große Herausforderung an Datenbanksysteme ist das Gewährleisten
dieser Forderung, deren Komplexität natürlich mit dem Verteilungsgrad
eines Informationssystems zu nimmt.
In den 70er und 80er Jahren des vergangen Jahrhunderts, prägte Jim
Gray die Transaktionsverarbeitung im Bereich der Datenbanken bevor
Theo Härder und Andreas Reuter 1983 mit ihrer Arbeit Principles of
transaction-oriented database recovery[4] das Schlag-Akronym ACID in
den Informationswissenschaften etablierten. Das ACID-Prinzip wird heutzutage als Maßstab für korrekte Transaktionen angesehen und stellt die folgenden vier Bedingungen auf[1] [2] :
• Atomarität(Atomicity) : Eine Transaktion wird entweder ganz oder
gar nicht auf einer Datenbank ausgeführt und kann im Falle eines
Fehlers keine Zwischenzustände hinterlassen.
7
• Konsistenz(Consistency) : Transaktionen sind kleinste Einheiten
der Integritätsüberwachung und nach Abschluss einer transaktion
muss die Integrität sichergestellt sein.
• Entkoppelung(Isolation) : Für einzelne Transaktionen wird der
Einbenutzerbetrieb so simuliert, dass sich konkurrierende Transaktionen nicht gegenseitig beeinflussen können.
• Dauerhaftigkeit(Durability) : Ist eine Transaktion einmal erfolgreich abgeschlossen wurden, so bleiben die gemachten Änderungen
auch im Falle eines Fehlers erhalten.
2.2
Rechnernetze
Ein Rechnernetz verbindet mehrere Rechner miteinander und ermöglicht
so den Nachrichtenaustausch unter den verbundenen Netzteilnehmern. In
den Anfängen der verteilten Informationssysteme war es notwendig auf
die Beschaffenheit und die Kapazitäten dieser Netze einzugehen, weshalb
sich in den meisten älteren Büchern auch ein Kapitel mit der Problematik
auseinander setzte.
Dieser Aspekt kann mittlerweile jedoch weitgehend aufgrund der großflächigen
Einführungen von Breitband-Netzen vernachlässigt werden. Ebenfalls sind
relativ zuverlässige Protokolle wie TCP, IPv4 oder das in der Einführung
befindliche IPv6 schon ausreichend etabliert und innerhalb der gängigen
Entwicklungs-Technologien mit Hilfe von Schnittstellen so weit abstrahiert,
dass man diese als Entwickler nur noch einbinden muss, um eine Kommunikation zu ermöglichen. Einen tieferen Einblick in diese Materie ermöglichen
die Vorlesungen Communication Systems oder Internet Communications
von Prof. Luttenberger, deren Inhalte unseren Rahmen hier sprengen würde.
Unsere Bedürfnisse sind damit befriedigt, dass wir eine Schnittstelle haben,
die uns eine Kommunikation mit Ortsfremden Rechnern ermöglicht und
durch die Synchronisation des Nachrichtenaustauschs, wie bei TCP, ein
Maß an Zuverlässigkeit gegeben ist.
8
3
Architektur verteilter Datenbanksysteme
Unter einer verteilten Datenbank versteht man eine Sammlung logisch
zusammengehöriger Datenbanken, die über Rechnerknoten(Sites) verteilt
sind und über ein Rechnernetz mit einander Kommunizieren. In dem
Zusammenhang spricht man von einem verteilten DBMS(vDBMS, DDBMS)
und meint damit eine Software zur Verwaltung einer verteilten Datenbank.
Eine solche Software muss verschiedene Kriterien der Transparenz erfüllen;
also die interne Realisierung dieser Eigenschaften sollen für den Einsatz
nicht relevant sein.
• Orts-Transparenz : Ein Benutzer, der eine Datenbankanfrage in
Auftrag gibt, muß nicht wissen wo die angefragten Daten physisch
liegen.
• Fragmentierungs-Transparenz : Die Zerlegung einzelner Relationen zum Zwecke der Verteilung ist für den Benutzer unsichtbar.
• Replikations-Transparenz : Ob und wie Daten intern redundant
gehalten werden, soll für den Benutzer verborgen bleiben.
• Implementierungs-Transparenz : Der Einsatz des Datenbanksystems soll unabhängig von der internen Aufbereitung für verteilte
Anfragen sein.
Man unterscheidet verteilte Datenbanken unter anderen auch nach den
eingesetzten Modellen. Als herterogen verteilte Systeme bezeichnet man
solche, die unterschiedliche Datenmodelle, etwa Relationale- und ObjecktorientierteDatenbankmodelle, als Grundlage haben. Solche Systeme entstehen beispielsweise bei der Fusionierung zweier Unternehmen, die zuvor unterschiedliche
Produkte in der Datenverwaltung eingesetzt haben, weshalb man hier
auch von föderativen Datenbanksystemen spricht. Bei Systemen dieser
Art müssen natürlich Abstriche in Bezug auf die obigen Kriterien in Kauf
genommen werden. Von homogenen verteilten Systemen spricht man hingegen, wenn beteiltigte Datenbanken das gleiche Datenmodell als Grundlage
haben und damit eine Verteilungtransparenz für den Benutzer erreichbar
ist.
9
3.1
Katalog des Systems
Der Datenkatalog bezeichnet die Menge der für die Verwaltung nötigen
Meta-Daten wie (Schemainformationen, Zugriffsberechtigungen, Passwörter,
Statistiken).
Im verteilten Fall muss hier eine Trennung bezüglich der lokalen und
globalen Daten erfolgen. Der lokale Katalog enthält die Metainformationen zu den lokal gespeicherten während der Globale eine Gesamtübersicht
sämtlicher Daten des Systems verwaltet. Die Verteilungstransparenz wird
dabei vom globalen Katalog durch eine Abbildung zwischen logischen,
globalen Namen und physischen Adressen realisiert. Für die Katalogverwaltung gibt es verschiedene Konzepte :
• Zentralisierter Katalog : Ein vollständiger Katalog wird an einem
Knoten verwaltet. Diese Art der Verwaltung bringt einen hohen
Kommunikationsaufwand mit sich, kann schnell zu Engpässen führen
und schränkt die gewünschte Knotenautonomie stark ein.
• Replizierter Katalog : Ein vollständiger Katalog an jedem Knoten
vorhanden. Dadurch erreicht man eine hohe effizienz für lokale Leseoperationen. Nachteile bestehen jedoch bei Änderungsoperationen
und im Schutz der Daten.
• Mehrfachkotaloge : Die beteiligten Rechner werden zu Cluster
verknüpft und man legt in jedem Cluster einen vollständigen globalen Katalog an. Der Gewinn bei Änderungsoperationen und einer
erhöhten Knotenautonomie muss jedoch mit einer Partitionierung
des Gesamtnetzes bezahlt werden.
• Partitionierter Katalog : Der globale Katalog wird verteilt gespeichert. Damit hat man keinen expliziten globalen Katalog. Dieser
liegt nur noch implizit als Vereinigung der lokalen Kataloge vor.
Dazu sind dann auch noch erweiterte Bezeichner mit Verteilungsinformationen nötig, um nicht lokale Daten finden zu können. Der
Gewinn dieser Aufteilung ist ein hohes Maß an Autonomie.
10
3.2
Fragmentierung und Allokation
In einem verteilten Informationssystem geht es natürlich auch um die
Verteilung der Informationen. In unserem Fall also um die Verteilung der
vom Datenbanksystem verwalteten Daten. Diese beeinflußt zwangsläufig
auch Systemeigentschaften wie den Kommunikationsaufwand für einen
gewünschten Datenzugriff, die Systemlast und natürlich auch die Verfügbarkeit
der Daten. Bei der physischen Streuung der Daten spricht man von Allokation und beschreibt die Aufteilung einzelner Relationen als Fragmentierung.
Fragmentierung
Die Fragmentierung unterscheidet zwischen horizontaler - und vertikaler
Fragmentierung. Bei der horizontalen Fragmentierung wird eine Relation
anhand eines Attributes mit Hilfe einer Selektion in disjunkte Teilmengen
aufgeteilt. Zum Beispiel könnte man eine globale Relation von Kunden
einer Bank mit Hilfe der zugehörigen Filiale aufteilen und bekommt ein
Fragment mit den jeweiligen Kunden für jede Filiale σF iliale=”Kiel” (R)
.
Die vertikale Fragmentierung hingegen ist eine Projektion bestimmter Attribute einer globalen Relation. Dabei sollte der Primärschlüssel in jeder
Projektion für eine Rekonstruktion mit Hilfe eines Verbunds enthalten
sein.
ΠKN R,N ame,F iliale (R)
Allokation
Die Verteilung der einzelnen Fragmente auf bestimmte Knoten oder Sites
wird als Allokation bezeichnet. Die Verteilung aller Fragmente auf alle
Knoten nennt man eine replizierte Datenbank, wohingegen eine disjunkte Verteilung eine partitionierte Datenbank zur Folge hat. Im Allgemeinen
wird aber eine partielle Replikation eingesetzt, da diese geringere Änderungskosten
als eine volle Replikation hat und trotzdem die Verfügbarkeit des Gesamtsystems steigert, denn falls gewisse Knoten ausfallen, sind die dort gespeicherten Daten aufgrund der Replikation noch immer verfügbar. Natürlich
11
erreicht man damit keine Verfügbarkeitsgarantie, aber immerhin eine signifikante Steigerung bei akzeptablen Kosten[3]
Eine geeignete Kombination aus Fragmentierung und Allokation kann
zu einer hohen Lokalität der Verfügbarkeit führen. Wenn man beispielsweise in einer Bank eine horizontale Fragmentierung bezüglich der Filialen wie beschrieben vornimmt und die Allokation so gestaltet, dass die
Filial-Fragmente an der jeweiligen Filiale vorhanden sind, kann ein Großteil
der Operationen in der Filiale lokal und ohne Interaktion mit dem Rest
des Systems erfolgen.
3.3
Klassifikation nach Verteilungsgrad
Multiprozessor Datenbanksysteme(Shared-Everything)
Diese Art von Datenbanksystemen unterscheiden sich von zentralen System nur aufgrund der Anzahl an Recheneinheiten. Verteilungsaspekte wie
die Kommunikation, werden dabei weitgehend vom Betriebstsystem übernommen
und müssen nicht besonders bei der Datenverwaltung berücksichtigt werden. Aus Sicht der ”Datenbänker” sind diese weitgehend als gewöhnliche
zentrale Datenbankssysteme zu behandeln.
Datenbank-Sharing(Shared-Disks)
Bei diesen Datenbanksystemen hat man keine physische Datenaufteilung
zwischen den beteiligten Rechnern, jedoch ein Datenbanksystem auf jedem Rechner. Die Daten werden in einem externen Speicher gelagert, auf
den die CPUs bei Bedarf zugreifen. Die Kommunikation zwischen den
Rechnern muss dann vor allem die Speicher- bzw Datenbank-Zugriffe synchronisieren. Ein Vorteil dieser Struktur ist, dass alle Operationen einer
Transaktion auf einem Rechner abgearbeitet werden können und somit
verteilte Ausführungspläne unnötig sind. Hingegen kann es hier zu Problemen durch mehrfach Kopien in dem Hauptspeicher der beteiligten Rechner
kommen. Der gemeinsame Zugriff aller Beteiligten bringt natürlich auch
Probleme in der Anfragebearbeitung und der Transaktionsverwaltung mit
sich. Als kommerzielle Produkte in diesem Bereich kann man Oracle Parallel Server oder IBM DB2 aufführen.
12
Datenbank-Distribution(Shared-Nothing)
Hierbei hat man das Datenbanksystem im allgemeinen auf mehrere lose
gekoppelte Rechner und DBMS verteilt. Jeder einzelne Rechner hat zunächst
nur Zugriff auf lokale Daten was offensichtlich verteilte Ausführungspläne
für Datenbankoperationen nötig macht. Probleme sind hier durch globale
Deadlocks und die Wartung replizierter Daten gegeben. Bei diesen Strukturen sind sogenannte rechnerübergreifende Commit-Protokolle und Katalogverwaltung nötig. Einige kommerzielle Produkte hier sind Teradata,
Sybase SQL-Anywhere oder IBM DB2.
13
4
Umsetzung einiger Konzepte
Um die 1980er Jahre gab es spezielle Datenbank-Hardware, die mit der
Hoffnung besserer Effizienz aufgrund von spezialisierung im Markt platziert
wurde. Diese Rechner konnten sich jedoch nicht durchsetzen, denn die
softwarebasierten Systeme entwickelten sich ungleich schneller und waren
kosteneffizienter. Der enorme Leistungszuwachs der softwarebasierten Maschinen hat diesen Ansatz mittlerweile komplett verdrängt, so dass er nur noch
einen geschichtlichen Einfluss hat.
4.1
Client/Server-Datenbanksysteme
Die Client/Server-Datenbanksysteme sind Systeme der funktionalen Spezialisierung und sehr verbreitet in der heutigen Informationsverarbeitung.
Haupteigenschaft ist die Unterteilung in Client- und Server-Datenbanksysteme.
Die Daten werden auf einer Datenbank unter verwaltung des Server-Systems
gehalten. Clients können diese Abfragen bzw. auf diese Zugreifen, haben
aber auch einiges an typischer Datenbankfunktionalität in ihrem lokalen
Datenbank-Managementsystem gegeben. Einerseits entstehen hier geringere Kosten durch Clients, die ungleich Kosteneffizienter sind als große
Server-Systeme und eine Einbenutzer-Sicht ermöglichen,andererseits kann
der Server auch schnell zum Engpaß bei hoher Frequentierung werden.
• Client-Dienste : Clients übernehmen lokale Dienste wie Anfragebearbeitung, bei welcher die Anfrageoptimierung schon weitgehend
auf den Clientsystem stattfinden kann, oder die Pufferung von DatenbankObjekten, um die kommunikation zwischen Client und Server zu
minimieren und so den Server, der leicht zum Flaschenhals wird, zu
entlasten.
• Server-Dienste : Typischerweise übernimmt das Server-System globale Aufgaben wie die Externspeicherverwaltung, Synchronisation oder
Logging, die nicht unmittelbar relevant für den Bentuzer sind und
verschiedene Beteiligte miteinander koordinieren müssen.
Die Aufteilung in dieser Form ist nicht einheitlich in allen kommerziellen
Systemen zu finden, sondern beschreibt nur die Tendenzen, die hin und
wieder auch vermischt zum Einsatz kommen. Der zunehmende Einsatz
14
dieser Strukuren zeigt natürlich auch die damit verbundenen Probleme.
Beispielsweise stellt der Server einen empfindlichen Punkt für Angriffe dar.
Bei einem Ausfall resultiert natürlich ein globaler Ausfall des gesamten
Systems, weshalb die Verfügbarkeitsanforderungen in diesem Bereich besonders hoch sind. Dies treibt wiederum die Instandhaltungs- und Betriebskosten in die Höhe.
4.1.1
Funktional gleichgestellte DBS
Während die Client/Server-Systeme sich als funktional spezialisiert beschreiben
lassen, findet eine derartige Aufgabentrennung bei diesem Konzept nicht
statt. Funktional geleichgestelle Datenbanksysteme bestehen aus einzelnen
Rechnerknoten, die alle über ein eigenes DBMS zur Verwaltung lokaler
Daten verfügen, über ein Rechnernetz mit einander kommunizieren und
anhand eines globalen Schemas nicht lokale Daten referenzieren können.
Dabei sind grundsätzlich alle Rechnerknoten gleichberechtig und übernehmen
spezielle Aufgaben, wenn es um einen Transaktionsabschluss oder ähnliches
geht. Wenn man auf Redundanz verzichtet, ist die Verfügbarkeit von
lokalen Daten bei einem Ausfall natürlich nicht mehr gewährleistet. Im
Gegensatz zu anderen Lösungen bleibt jedoch das Gesamtsystem weiterhin
im Einsatz und macht das betroffene unternehmen nicht völlig handlungsunfähig. Für die Realisierung solcher Systeme ist es natürlich nötig eine
nicht hierarchische Lösung z.B. für Änderungsoperationen einzuführen,
denn es gibt hier keinen Server, der globale Aufgaben übernehmen kann.
15
5
Anfragebearbeitung und Transaktionsverwaltung
Die vom DBMS realisierte Verteilungstransparenz ermöglicht es dem Benutzer einer verteilten Datenbank seine Anfragen auf Grundlage des GlobalenKonzeptionellen-Schemas(GKS) zu formulieren, ohne dass dieser sich auf
die Allokation bestimmter Daten beziehen muß. Das erfordert eine interne Bearbeitung der Anfrage, um die gewünschten Operationen korrekt und möglichst effizient auf die einzelnen Rechnerknoten verteilen zu
können. Trotz der Verteilung, ist jedoch die Gewährleistung der in 2.1.3
eingeführten ACID-Eigenschaften eine unverzichtbare Anforderung. Hierbei gibt es einige Aufgaben, wie die Anfrageoptimierung, die weitgehend
lokal durchgeführt werden können und andere, die einer externen Bearbeitung bedürfen.
5.1
Anfragebearbeitung
Genau wie bei zentralen Datenbanksystem ist es die Aufgabe der Anfragebearbeitung möglichst effiziente Ausführungspläne für ankommende
DB-Operationen zu erstellen und auszuführen. Es muss also entschieden
werden in welcher Reihenfolge der Zugriff auf Relationen abzulaufen hat.
Zunächst wird die eingehende SQL-Anfrage in eine interne äquivalente
Form, z.B. in einen Ausdruck der relationen Algebra, Transformiert. Dieser
Schritt kann lokal erfolgen, da er, bis auf mögliche verteilte Katalogzugriffe, keine Verteilungsinformationen benötigt. Im Falle der Fragmentierung einzeler Relationen müssen diese mit Hilfe des globalen Verteilungsschemas durch einen Rekonstruktionsausdruck ersetzt werden, welche auch
zu optimieren sind. Zuletzt muss eine aus globaler Sicht möglichst kostengünstige
Ausführungsreihenfolge festgelegt werden, wobei vorallem der Kommunikationsaufwand neben der benötigten CPU-Zeit und dem Speicherbedarf eine große Rolle spielt. Diese Transformation liefert einen optimierten
Fragment-Ausdruck, mit den einzelnen Kommunikationsoperationen und
einzelne Fragment-Anfragen für physisch entfernte Rechnerknoten, aus
dem die Code-Generierung ein ausführbares Programm macht.
16
5.2
Transaktionsverwaltung
Eine Transaktion ist eine Menge von Datenbank-Operationen, die von einer BOT(Begin of Transaction)-Operation und einer EOT(End of Transaction)oder Commit-Operation umschlossen sind. Außerdem besteht die Möglichkeit
mit einer Rollback-Anweisung diese transaktion abzubrechen. Der Rechnerknoten, der die Transaktion veranlasst, wird als Koordinator-Knoten der
Transaktion bezeichnet. Beschränken sich die Operationen einer Transaktion auf den Koordinator spricht man von einer lokalen Transaktion wohingegen eine globale Transaktion noch weitere Knoten einbezieht, die wir
auch Agenten nennen. An diese werden Teil- oder Sub-Transaktionen
übermittelt, welche auf dem Knoten ausgeführt werden. Die am KoordinatorKnoten ausgeführte Teiltransaktion nennt man dann Primär-Transaktion.
Die Atomarität von Transaktionen ist ein zentrales Problem bei verteilten
Datenbanken und wird mit Hilfe von Commit-Protokollen gewährleistet.
Zwei-Phasen-Commit(2PC)
Um eine Transaktion abschließen zu können, ist es nötig zu wissen, ob alle
Subtranksaktionen erfolgreich waren und falls nicht müssen Änderungen
an sämtlichen beteiligten Knoten rückgängig gemacht werden. Für die
Lösung dieses Problems gibt es das 2PC-Protokoll zur Festschreibung von
Änderungen auf verteilten Datenbanken. Es besteht wie der Name schon
sagt aus zwei Phasen, der Prepare-Phase und der Commit/Abort-Phase.
• Prepare-Phase : Will der Koordinator eine Transaktion abschließen,
so schickt er eine Prepare-Nachricht an alle beteiligten Knoten. Diese
machen einen Vermerk in ihren lokalen Log-Dateien und antworten
mit einer Ready-Nachricht, falls ihre Subtransaktion erfolgreich war.
Andernfalls antworten sie mit einer Failed -Nachricht und beginnen die lokalen Änderungen der Transaktion rückgängig zu machen,
da ihre Failed -Nachricht ein Zurücksetzen der gesamten globalen
Transaktion zur Folge hat.
• Commit/Abort-Phase : Der Koordinator wartet, nach dem Versandt der Prepare-Nachrichten auf die Antworten aller Agenten.
Wenn alle mit einem Ready antworten, so waren alle Subtransaktionen erfolgreich und die globale Transaktion kann übernommen wer17
den. Dazu vermerkt der Koordinator ein Commit in seiner Log-Datei
und schickt diese Nachricht an alle Agenten, die ihrerseits das Commit in ihrer Log-Datei eintragen und die Transaktion abschliessen.
Hat jedoch mindestens ein Agent probleme bei der Ausführung der
Transaktion gehabt und mit einem Failed geantwortet, so muss die
gesamte Transaktion zurückgesetzt werden. Der Koordinator schickt
dazu eine Abort-Nachricht an alle Agenten, damit diese ihre Subtransaktionen wieder rückgängig machen. Sowohl im Commit als
auch im Abort Fall, senden die Agenten nach einem Log-Eintrag eine
Empfangsbestätigung an den Koordinator, der nach dem Empfang
aller Bestätigungen das Ende der Transaktion in seiner Log-Datei
vermerken kann.
Im Falle eines Rechnerausfalls, kann der letzte Zustand mit den LogEinträgen und einer eventuellen Koordinator-Anfrage wiederhergestellt
werden. Erhält ein Agent keine Prepare-Nachricht, so entscheidet er nach
Ablauf eines Timeouts ein lokales Abort. Nach dem Versandt der READY Nachricht besteht die Gefahr der Blockierung, falls keine neue entsprechende
Nachricht empfangen wird. In der Entscheidung eines Abbruchs einer
Transaktion ist jeder Agent weitgehend autonom. Sobald er jedoch die
Ready-Nachricht an den Koordinator schickt, verzichtet er auf das Recht
dieser Entscheidung und willigt ein eine globale Entscheidung zu übernhemen.
Wird dem Agenten wegen eines Koordinator-Ausfalls keine Entscheidung
mitgeteilt, so kann er grundsätzlich nicht mehr entscheiden was zu machen
ist, ohne die Gefahr der System-Inkonsistenz einzugehen. Eine Hilfe bei
der Entscheidungsfindung kann es sein andere an der selben Transaktion
beteiligten Agent zu befragen, ob diese möglicherweise eine globale Anweisung erhalten haben oder ihre Subtransaktion nicht ausführen konnten. Vorraussetzung hierfür ist natürlich, dass die beteiligten Agent auch
bekannt sind. Grundsätzlich muß aber gewartet werden, bis der Koordinator wieder funktionsfähig ist und das Ergebnis der Transaktion mitteilen
kann. Solange muss der Agent blockieren und darf gesperrte Resourcen
nicht wieder freigeben, um Inkonsistenzen zu vermeiden.
18
5.3
Drei-Phasen-Commit(3PC)
Eine Hauptschwäche des 2PC-Protokolls ist die starke Abhängigkeit der
Agenten vom Koordinator und die damit verbundene Blockierungen bei
einem Ausfall. Als Verbesserung entwickelten D. Skeen und M. Stonebreaker 1983 in ihrer Arbiet ”A Formal Model of Crash Recovery in a
Distributed System” das 3PC-Protokoll, welches das Blockadeproblem auf
Kosten eines gesteigerten Aufwands und zwei Annahmen abschwächt.
1. Keine Partitionierung des Netzwerks(völlig getrennte Bereiche/Cluster)
2. Höchstens K gleichzeitige Rechnerausfälle, bei N Sites mit K < N
Der Abortfall läuft genau wie beim 2PC-Protokoll ab. Erhält der Koordinator nach dem Prepare ein Ready von allen beteiligten Agenten, so
verschickt er eine Pre-Commit-Nachricht an alle Agenten, worauf diese
mit einer Pre-Ack -Nachricht antworten müssen. Erhält der Koordinator
mindestens K Pre-Ack -Nachricht, so trifft er die Entscheidung eines Commits und verschickt diese nach einer Protokollierung an alle Agenten. Bei
einem Koordinator-Ausfall(z.B. Timeout) während der Prozedur muss ein
neuer Koordinator ermittelt werden. Dieser fragt die Commitzustände der
verbliebenen Agenten ab und globalisiert eine gefundene Entscheidung
falls einer der Beteiligten bereits eine Commit oder eine Abort Meldung
vor dem Ausfall erhalten hat. Sollte noch keiner der Verbliebenen eine
Entscheidung erhalten haben, aber mindestens einer befindet sich im Status Pre-Commit, dann setzt der neue Koordinator den Vorgang mit einer
neuen Serie von Pre-Commit-Nachrichten fort. Falls keiner der Agenten
zuvor ein Pre-Commit erhalten hat, so entscheidet der neue Koordinator
einen Abort und verbreitet diese Entscheidung im Netzwerk. So ist unter
den obigen Vorraussetzung gewährleistet, dass gesperrte Resourcen nach
einer bestimmten Zeit wieder freigegeben wird und eine Verbesserung im
Vergleich zum 2PC erreicht.
19
6
Fazit und Ausblick
Das Gebiet der Datenbanken ist schon relativ weit entwickelt, jedoch findet
der Paradigmenwechsel von zentralisierten zu verteilten und gar Peer-toPeer ähnlichen Lösungen erst jetzt statt, was die spärliche Verbreitung
kommerzieller Systeme vorallem im extrem verteilten Segment der Datenverwaltung erklärt. Dieser Trend wird sich vorraussichtlich durch die deutlich höhere Kosteneffektivität, geringeren Wartungsaufwand und Robustheit verteilter Systeme sogar noch steigern. Im Bereich der Forschung sind
unter anderem auch erweiterte Transaktions und Verarbeitungskonzepte
speziell für neuere Datenbankmodelle, in denen Transaktionen Stunden
oder sogar Tage dauern können, noch zu entwerfen. Die Entwicklung zuverlässiger Recovery-Strategien in solchen Systemen ist eine der Aufgaben,
die bislang noch ungelöst sind und begrenzen dadurch den Einsatz in kommerziellen Systemen.
20
Literatur
[1] Peter Dadam. Verteilte Datenbanken und Client/Server-Systeme.
Springer-Verlag, 1996.
[2] Andreas Heuer Gunter Saake, Kai-Uwe Sattler.
Konzepte und Sprachen. mitp, 2008.
Datenbanken -
[3] Patrick Valduriez M. Tamer Ãszu. Principles of Distributed Database
Systems. Springer-Verlag, 1996.
[4] Andreas Reuter Theo Haerder.
database recovery, 1983.
21
Principles of transaction-oriented