2. Architektur verteilter Datenbanksysteme

Werbung
2. Architektur verteilter Datenbanksysteme
Verteilte Datenbank, kurz DDB (engl. distributed database):
eine Sammlung logisch zusammengehöriger Datenbanken, welche über
Rechnerknoten (“Sites”) verteilt sind, die durch ein Kommunikations-Netzwerk
verbunden sind;
Site
1
Site
2
Verteiltes DBMS, kurz DDBMS
(engl. distributed DBMS):
die Software, die das Management
einer verteilten Datenbank ermöglicht;
wichtig dabei:
Die Datenverteilung ist für Benutzer
transparent
Kommunikations‐
Netzwerk
Site
3
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
Site
4
2-1/15
Forderungen an verteilte DBMS
 
 
Jede Site sollte lokal autonom, d.h. nicht von einer
“Master-Site” abhängig sein
Benutzer brauchen nicht zu wissen
 
an welchen Orten im Netz Daten physisch gespeichert sind
Orts-Transparenz
 
wie Datenmengen zum Zwecke der Verteilung intern zerlegt sind
Fragmentierungs-Transparenz
 
ob und gegebenenfalls wie Datenobjekte an unterschiedlichen Orten
repliziert sind
Replikations-Transparenz
 
wie Anfragen oder Transaktionen, welche auf Daten an mehreren Orten
zugreifen, intern ausgeführt werden
Implementierungs-Transparenz
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-2/15
Klassifikation
(1) 
(2) 
Homogen verteilte Systeme mit bzw. ohne Replikation
Heterogen verteilte Systeme
Wir betrachten hier
homogen verteilte Systeme ohne Replikation
unter den Annahmen
  das zu Grunde liegende Netzwerk erlaubt eine Kommunikation zwischen
beliebigen Paaren von Sites;
  jede ihm anvertraute Nachricht wird in endlicher Zeit und fehlerfrei übertragen.
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-3/15
Schemaarchitektur
ES1
ES1
…
ESm
Externe Schemata
GKS
Globales Konzeptionelles
Schema
GVS
Globales VerteilungsSchema
LKS1
LKS2
…
LKSn
Lokale Konzeptionelle
Schemata
LIS1
LIS2
…
LISn
Lokale Interne Schemata
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-4/15
Katalog
Enthält Metadaten:
  Schemainformationen
  Zugriffsberechtigungen
  Passwörter
  Statistiken
Relationengrößen, Werteverteilungen,
Zugriffshäufigkeiten, ...
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-5/15
Lokale und globale Kataloge
 
Lokale Kataloge: LKS und LIS jedes Knotens
 
Globaler Katalog: GKS und GVS, unterstützt
Verteilungstransparenz
  Abbildung logischer globaler Namen auf physische Adressen
  systemweite Verwaltung von Benutzern und Zugriffsrechten
  DB-Operationen, vor allem Anfrage-Optimierung
  Speicherung? Alternativen s.u.
 
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-6/15
Katalogverwaltung
Alternativen zur Speicherung der globalen Katalogdaten
 Zentralisierter Katalog
vollständiger Katalog an einem der Knoten
 Replizierter Katalog
vollständiger Katalog an jedem Knoten
 Mehrfachkataloge
Netz → Cluster; je ein vollst. Katalog pro Cluster
 Partitionierter Katalog
verteilte Speicherung des globalen Katalogs
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-7/15
Zentralisierter Katalog
 
 
 
hoher Kommunikationsaufwand
Engpass bzgl. Leistung und Verfügbarkeit
inakzeptable Beeinträchtigung der Knotenautonomie
Site
1
Site
2
Kommunikations‐
Netzwerk
Site
3
Site
4
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-8/15
Replizierter Katalog
 
 
 
 
globaler Katalog an jedem Knoten
lokales Lesen!
→effizient
aufwändige Änderungen
Probleme mit Datenschutz
Site
1
Site
2
Kommunikations‐
Netzwerk
Site
3
Site
4
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-9/15
Mehrfachkataloge
 
 
 
 
 
 
Partitionierung des Netzes in Cluster
pro Cluster hat ein Knoten den vollständigen globalen
Katalog
reduzierter Änderungsaufwand
Site
1
kaum Engpässe
Site
2
ausreichende Knotenautonomie
Kommunikations‐
Änderungen immer noch
Netzwerk
aufwändig
Site
3
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
Site
4
2-10/15
Partitionierter Katalog
 
verteilte Speicherung des globalen Katalogs
 
GKS implizit: ∪LKSi
 
erweiterte Objektbezeichnungen
 
hohes Maß von Knotenautonomie
Kommunikationsaufwand bereits bei Zugriff auf Katalog!
 
keine explizite Speicherung
wo liegen Verteilungsinfo
vor, um nicht-lokale Objekte zu finden? s. nä. Seiten
 
Caching nicht-lokaler Katalogdaten
 
noch ein Replikationsproblem …
Kohärenzkontrolle
Site
1
Site
2
Kommunikations
‐
Netzwerk
Site
3
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
Site
4
2-11/15
Namen für DB-Objekte
 
 
 
 
systemweit eindeutig
möglichst stabil
ortstransparent
lokal generierbar
ohne Kommunikation
⇒ Objekte mit demselben(logischen) Namen
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-12/15
Namensverwaltung
Es sind drei Arten von Knoten bei der Verwaltung und
Speicherung von Objekten beteiligt:
 
 
 
Geburtsknoten: wo das Objekt erzeugt wurde
Katalogknoten: wo Katalogdaten zu dem Objekt verwaltet
werden (i.a. mehrere)
Speicherknoten: wo das Objekt gespeichert ist
(i.a. mehrere: repliziert oder partitioniert)
Es handelt sich um logische Sichten:
derselbe Knoten kann mehrere dieser Rollen spielen
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
.
2-13/15
Überblick Namensverwaltung
Globale
Objektnamen,
z.B.
[[<Knoten>.]<Benutzer>.]<Objekt>
Globaler Name
Geburtsknoten
Katalogknoten
Speicherknoten
Speicherknoten
Speicherknoten
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-14/15
Namensauflösung
logischer Objektname
lokale
Systemtabelle
globaler Objektname
globale Katalogdaten (GVS)
physische Objektadresse
VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig
2-15/15
Herunterladen