2. Architektur verteilter Datenbanksysteme Verteilte Datenbank, kurz DDB (engl. distributed database): eine Sammlung logisch zusammengehöriger Datenbanken, welche über Rechnerknoten (“Sites”) verteilt sind, die durch ein Kommunikations-Netzwerk verbunden sind; Site 1 Site 2 Verteiltes DBMS, kurz DDBMS (engl. distributed DBMS): die Software, die das Management einer verteilten Datenbank ermöglicht; wichtig dabei: Die Datenverteilung ist für Benutzer transparent Kommunikations‐ Netzwerk Site 3 VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig Site 4 2-1/15 Forderungen an verteilte DBMS Jede Site sollte lokal autonom, d.h. nicht von einer “Master-Site” abhängig sein Benutzer brauchen nicht zu wissen an welchen Orten im Netz Daten physisch gespeichert sind Orts-Transparenz wie Datenmengen zum Zwecke der Verteilung intern zerlegt sind Fragmentierungs-Transparenz ob und gegebenenfalls wie Datenobjekte an unterschiedlichen Orten repliziert sind Replikations-Transparenz wie Anfragen oder Transaktionen, welche auf Daten an mehreren Orten zugreifen, intern ausgeführt werden Implementierungs-Transparenz VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-2/15 Klassifikation (1) (2) Homogen verteilte Systeme mit bzw. ohne Replikation Heterogen verteilte Systeme Wir betrachten hier homogen verteilte Systeme ohne Replikation unter den Annahmen das zu Grunde liegende Netzwerk erlaubt eine Kommunikation zwischen beliebigen Paaren von Sites; jede ihm anvertraute Nachricht wird in endlicher Zeit und fehlerfrei übertragen. VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-3/15 Schemaarchitektur ES1 ES1 … ESm Externe Schemata GKS Globales Konzeptionelles Schema GVS Globales VerteilungsSchema LKS1 LKS2 … LKSn Lokale Konzeptionelle Schemata LIS1 LIS2 … LISn Lokale Interne Schemata VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-4/15 Katalog Enthält Metadaten: Schemainformationen Zugriffsberechtigungen Passwörter Statistiken Relationengrößen, Werteverteilungen, Zugriffshäufigkeiten, ... VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-5/15 Lokale und globale Kataloge Lokale Kataloge: LKS und LIS jedes Knotens Globaler Katalog: GKS und GVS, unterstützt Verteilungstransparenz Abbildung logischer globaler Namen auf physische Adressen systemweite Verwaltung von Benutzern und Zugriffsrechten DB-Operationen, vor allem Anfrage-Optimierung Speicherung? Alternativen s.u. VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-6/15 Katalogverwaltung Alternativen zur Speicherung der globalen Katalogdaten Zentralisierter Katalog vollständiger Katalog an einem der Knoten Replizierter Katalog vollständiger Katalog an jedem Knoten Mehrfachkataloge Netz → Cluster; je ein vollst. Katalog pro Cluster Partitionierter Katalog verteilte Speicherung des globalen Katalogs VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-7/15 Zentralisierter Katalog hoher Kommunikationsaufwand Engpass bzgl. Leistung und Verfügbarkeit inakzeptable Beeinträchtigung der Knotenautonomie Site 1 Site 2 Kommunikations‐ Netzwerk Site 3 Site 4 VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-8/15 Replizierter Katalog globaler Katalog an jedem Knoten lokales Lesen! →effizient aufwändige Änderungen Probleme mit Datenschutz Site 1 Site 2 Kommunikations‐ Netzwerk Site 3 Site 4 VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-9/15 Mehrfachkataloge Partitionierung des Netzes in Cluster pro Cluster hat ein Knoten den vollständigen globalen Katalog reduzierter Änderungsaufwand Site 1 kaum Engpässe Site 2 ausreichende Knotenautonomie Kommunikations‐ Änderungen immer noch Netzwerk aufwändig Site 3 VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig Site 4 2-10/15 Partitionierter Katalog verteilte Speicherung des globalen Katalogs GKS implizit: ∪LKSi erweiterte Objektbezeichnungen hohes Maß von Knotenautonomie Kommunikationsaufwand bereits bei Zugriff auf Katalog! keine explizite Speicherung wo liegen Verteilungsinfo vor, um nicht-lokale Objekte zu finden? s. nä. Seiten Caching nicht-lokaler Katalogdaten noch ein Replikationsproblem … Kohärenzkontrolle Site 1 Site 2 Kommunikations ‐ Netzwerk Site 3 VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig Site 4 2-11/15 Namen für DB-Objekte systemweit eindeutig möglichst stabil ortstransparent lokal generierbar ohne Kommunikation ⇒ Objekte mit demselben(logischen) Namen VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-12/15 Namensverwaltung Es sind drei Arten von Knoten bei der Verwaltung und Speicherung von Objekten beteiligt: Geburtsknoten: wo das Objekt erzeugt wurde Katalogknoten: wo Katalogdaten zu dem Objekt verwaltet werden (i.a. mehrere) Speicherknoten: wo das Objekt gespeichert ist (i.a. mehrere: repliziert oder partitioniert) Es handelt sich um logische Sichten: derselbe Knoten kann mehrere dieser Rollen spielen VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig . 2-13/15 Überblick Namensverwaltung Globale Objektnamen, z.B. [[<Knoten>.]<Benutzer>.]<Objekt> Globaler Name Geburtsknoten Katalogknoten Speicherknoten Speicherknoten Speicherknoten VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-14/15 Namensauflösung logischer Objektname lokale Systemtabelle globaler Objektname globale Katalogdaten (GVS) physische Objektadresse VDBMS und P2P - Hans-Dieter Ehrich - Institut für Informationssysteme - TU Braunschweig 2-15/15