10. Vorlesung: Datenorganisation SS 2007 Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik 8 Parallele Transaktionen 9 Architekturen von Datenbanken 9.1 Drei-Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das Data-Warehouse-Konzept Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 2 1 Architekturen von Datenbanken Prinzip von Föderierten Datenbanken DreiDrei-EbenenEbenen-Architektur für DatenbankDatenbanksysteme wird um Föderierungsschicht ergänzt ¾ VierVier-EbenenEbenen-Architektur Föderierungsschicht nimmt Integration vor, ohne das einzelne DBMS ihre Selbstständigkeit verlieren. Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 3 Architekturen von Datenbanken Schematischer Aufbau Föderierungsschicht Externes Schema Externes Schema Logisches Schema Internes Schema Logisches Schema Internes Schema Relationales DBMS Netzwerk DBMS Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 4 2 Architekturen von Datenbanken Aufgaben der Föderierungsschicht Schemaintegration auf fachlicher und technologischer Ebene Verwaltung von Informationen über verwaltete Datenobjekte Ort der Speicherung eingesetzte Technologie Aktive Komponente zur Aktualisierung des Datenbestandes Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 5 Architekturen von Datenbanken Föderierte Datenbank mit Middleware Datenbanken der Abteilungen oder Einzelunternehmen bleiben autonom Entkopplung der Nutzer, Einhaltung der KonsistenzKonsistenzbedingungen, bedingungen, Anpassung von heterogenen Daten Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 6 3 Architekturen von Datenbanken Arten datenbankorientierter Middleware Native Database Middleware: Middleware: schafft Zugang zu einer bestimmten Datenbanksoftware, z. B. C++ + hohe Performance und flexibler Zugriff auf eine bestimmte Datenbanksoftware - Bei Austausch der Datenbanksoftware muss die Middleware mit ausgetauscht werden CallCall-level interfaces (CLI): einheitliche Schnittstelle zu verschiedenen Typen von (relationalen) Datenbanken meist auf bestimmte Plattformen beschränkt eingeschränkte Bewältigung von Heterogenität z. B. ODBC (Open DataB ataBase Connectivity) onnectivity) von Microsoft) Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 7 Architekturen von Datenbanken Arten datenbankorientierter Middleware Database Gateways (oder SQL Gateways): Gateways): Zugang zu verschiedener DBDB-Software auf verschiedenen Plattformen Transformieren SQLSQL-Anfragen in ein geeignetes Format, um eine Zieldatenbank auf einer Zielplattform anzusprechen Produkte: Enterprise Data Access (EDA/SQL) von Information Builder Distributed Relational Data Access (DRDA) von IBM (insbesondere Oracle, Sybase, Sybase, IBM) Remote Data Access (RDA), Standard basierend auf OSI Standard der SAG (S (SQL Access Group) Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 8 4 8 Parallele Transaktionen 9 Architekturen von Datenbanken 9.1 Drei-Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das Data-Warehouse-Konzept Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 9 Architekturen von Datenbanken OLTP (online transaction processing) Z. B. Buchung eines Fluges, Verarbeitung einer Bestellung Realisierung des „operationalen Tagesgeschäfts“ OLTPOLTP-Anwendungen operieren auf dem jüngsten aktuell gültigen Zustand des Datenbestands Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 10 5 Architekturen von Datenbanken OLAP (online analytical processing) z. B. Auslastung der Transatlantikflüge der letzten zwei Jahre? Auswirkung der Marketingstrategien? Bestandteil umfassender EntscheidungsEntscheidungsUnterstützungsUnterstützungs-Systeme (strategische Unternehmensplanung) OLAPOLAP-Anwendungen verarbeiten große Datenmengen und greifen auf „historische“ Daten zurück Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 11 Architekturen von Datenbanken OLTP versus OLAP OLTPOLTP-Datenbanken sind auf Änderungstransaktionen mit Zugriff auf begrenzte Datenmengen optimiert. Operationale Datenbestände sind meist auf viele Datenbanken unterschiedlicher Hersteller verteilt. OLAPOLAP-Auswertungen benötigen Daten in konsolidierter, integrierter Form. OLAPOLAP-Anfragen sind komplex und können die Leistungsfähigkeit der OLTPOLTP-Anwendungen beeinflussen. Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 12 6 Architekturen von Datenbanken Nachteile von Analysen auf OLTP-Systemen Geringe Glaubwürdigkeit der Daten - Zeitliche Unterschiede - Unterschiedliche Algorithmen - Unterschiedliche Extraktionsebenen - Externe Daten - keine gemeinsame Datenquelle Probleme mit der Produktivität - Datenquellen suchen - Daten extrahieren - Daten aufbereiten Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 13 Architekturen von Datenbanken Konzept des Data-Warehouse Integrierte Datenbank als Basis mit entscheidungsrelevanten Informationen über die einzelnen Unternehmensbereiche Filterung aus operativen Datenbanken externen Datenquellen Unterstützung der Anwender durch eine aggregierte Metadatenbank Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 14 7 Architekturen von Datenbanken Eigenschaften eines Data-Warehouse Ein Data-Warehouse ist eine themenbezogene, integrierte, dauerhafte und zeitvariante Sammlung von Daten. Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 15 Architekturen von Datenbanken Elemente eines Data-Warehouse (I) Transformationsprogramme vereinheitlichen Daten aus unterschiedlichen Quellen Datenbasis zur Sammlung der Daten des Informationsbedarfs (Data (Data--Warehouse im engeren Sinne) Archivsysteme zur Erhöhung der Leistungsfähigkeit bei starkem Datenwachstum Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 16 8 Architekturen von Datenbanken Elemente eines Data-Warehouse (II) Metadatenbank verwaltet Informationen über alle Systemkomponenten technische und semantische Beschreibung der Daten in Datenbasis und Archiv Informationen über die Datenherkunft Informationen über Logik der Transformationsprogramme Informationen über Auswertungsmöglichkeiten Zugriff erfolgt grundsätzlich nur lesend! Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 17 Architekturen von Datenbanken Schematischer Aufbau eines Data-Warehouse Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 18 9 Architekturen von Datenbanken Transformations-Prozess im DataWarehouse (I) 1. Schematransformation Integration der Einzelschemata Einmalige Durchführung Ziele: Vollständigkeit Korrektheit Minimalität Verständlichkeit Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 19 Architekturen von Datenbanken Transformations-Prozess im DataWarehouse (II) 1. Schematransformation Konflikte Semantische Konflikte Beschreibungskonflikte Heterogenitätskonflikte Strukturkonflikte Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 20 10 Architekturen von Datenbanken Transformations-Prozess im DataWarehouse (III) 1. Schematransformation 2. Datentransformation Überführung der Daten in neue Schemata Durchführung bei jeder Transformation SynonymSynonym-, Homonymkonflikte Vereinheitlichung von Kodierungen Integritätsbedingungen Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 21 Architekturen von Datenbanken Transformations-Prozess im DataWarehouse (IV) 1. 2. 3. Schematransformation Datentransformation Datenbereinigung Durchführung bei jeder Transformation Korrektheit fehlerhafter bzw. Ergänzung unvollständiger Daten Referenzielle Integrität beachten Gewährleistung hoher Datenqualität Nachvollziehbarkeit Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 22 11 Literatur Kemper, A.; Eickler, Eickler, A.: Datenbanksysteme. Oldenbourg Verlag , 3. Auflage 1999, S. 176 - 180 und 403 - 442. Muksch, Muksch, H.; Behme, Behme, W.: Das DataData-WarehouseWarehouse-Konzept als Basis einer unternehmensweiten Informationslogik. In Muksch, Muksch, H.; Behme, , W.: Das DataWarehouseKonzept. . Gabler, , Behme Data Warehouse Konzept Gabler 2. Auflage 1997, S. 31 - 94. Conrad, S.: Föderierte Datenbanksysteme – Konzepte der Datenintegration. Springer 1997. Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 23 Vielen Dank für Ihre Aufmerksamkeit Datenorganisation SS2007 Leibniz Universität Hannover Institut für Wirtschaftsinformatik Dipl.-Math Frank Köller | 17.07.2007 | Folie 24 12