datenorga_17_07_07 - Institut für Wirtschaftsinformatik

Werbung
10. Vorlesung:
Datenorganisation
SS 2007
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
8 Parallele Transaktionen
9
Architekturen von Datenbanken
9.1 Drei-Ebenen-Architektur
9.2 Verteilte Datenbanken
9.3 Client-Server-Datenbanken
9.4 Föderierte Datenbanken
9.5 Das Data-Warehouse-Konzept
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 2
1
Architekturen von Datenbanken
Prinzip von Föderierten Datenbanken
„ DreiDrei-EbenenEbenen-Architektur für DatenbankDatenbanksysteme wird um Föderierungsschicht ergänzt
¾ VierVier-EbenenEbenen-Architektur
„ Föderierungsschicht nimmt Integration vor,
„ ohne das einzelne DBMS ihre Selbstständigkeit
verlieren.
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 3
Architekturen von Datenbanken
Schematischer Aufbau
Föderierungsschicht
Externes Schema
Externes Schema
Logisches Schema
Internes Schema
Logisches Schema
Internes Schema
Relationales DBMS
Netzwerk DBMS
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 4
2
Architekturen von Datenbanken
Aufgaben der Föderierungsschicht
„ Schemaintegration auf fachlicher und
technologischer Ebene
„ Verwaltung von Informationen über
verwaltete Datenobjekte
Ort der Speicherung
† eingesetzte Technologie
†
†
„ Aktive Komponente zur Aktualisierung des
Datenbestandes
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 5
Architekturen von Datenbanken
Föderierte Datenbank mit Middleware
„ Datenbanken der Abteilungen oder Einzelunternehmen
bleiben autonom
„ Entkopplung der Nutzer, Einhaltung der KonsistenzKonsistenzbedingungen,
bedingungen, Anpassung von heterogenen Daten
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 6
3
Architekturen von Datenbanken
Arten datenbankorientierter Middleware
„ Native Database Middleware:
Middleware:
schafft Zugang zu einer bestimmten
Datenbanksoftware, z. B. C++
+ hohe Performance und flexibler Zugriff auf eine bestimmte
Datenbanksoftware
- Bei Austausch der Datenbanksoftware muss die Middleware
mit ausgetauscht werden
„ CallCall-level interfaces (CLI):
einheitliche Schnittstelle zu verschiedenen Typen von
(relationalen) Datenbanken
† meist auf bestimmte Plattformen beschränkt
† eingeschränkte Bewältigung von Heterogenität
† z. B. ODBC (Open DataB
ataBase Connectivity)
onnectivity) von Microsoft)
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 7
Architekturen von Datenbanken
Arten datenbankorientierter Middleware
„ Database Gateways (oder SQL Gateways):
Gateways):
Zugang zu verschiedener DBDB-Software auf
verschiedenen Plattformen
† Transformieren SQLSQL-Anfragen in ein geeignetes Format, um
eine Zieldatenbank auf einer Zielplattform anzusprechen
„ Produkte:
† Enterprise Data Access (EDA/SQL) von Information Builder
† Distributed Relational Data Access (DRDA) von IBM
(insbesondere Oracle, Sybase,
Sybase, IBM)
† Remote Data Access (RDA), Standard basierend auf OSI
Standard der SAG (S
(SQL Access Group)
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 8
4
8 Parallele Transaktionen
9
Architekturen von Datenbanken
9.1 Drei-Ebenen-Architektur
9.2 Verteilte Datenbanken
9.3 Client-Server-Datenbanken
9.4 Föderierte Datenbanken
9.5 Das Data-Warehouse-Konzept
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 9
Architekturen von Datenbanken
OLTP (online transaction processing)
„ Z. B. Buchung eines Fluges, Verarbeitung einer
Bestellung
„ Realisierung des „operationalen Tagesgeschäfts“
„ OLTPOLTP-Anwendungen operieren auf dem jüngsten
aktuell gültigen Zustand des Datenbestands
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 10
5
Architekturen von Datenbanken
OLAP (online analytical processing)
„ z. B. Auslastung der Transatlantikflüge der letzten
zwei Jahre? Auswirkung der Marketingstrategien?
„ Bestandteil umfassender EntscheidungsEntscheidungsUnterstützungsUnterstützungs-Systeme (strategische
Unternehmensplanung)
„ OLAPOLAP-Anwendungen verarbeiten große Datenmengen
und greifen auf „historische“ Daten zurück
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 11
Architekturen von Datenbanken
OLTP versus OLAP
„ OLTPOLTP-Datenbanken sind auf Änderungstransaktionen
mit Zugriff auf begrenzte Datenmengen optimiert.
„ Operationale Datenbestände sind meist auf viele
Datenbanken unterschiedlicher Hersteller verteilt.
„ OLAPOLAP-Auswertungen benötigen Daten in
konsolidierter, integrierter Form.
„ OLAPOLAP-Anfragen sind komplex und können die
Leistungsfähigkeit der OLTPOLTP-Anwendungen
beeinflussen.
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 12
6
Architekturen von Datenbanken
Nachteile von Analysen auf OLTP-Systemen
„ Geringe Glaubwürdigkeit der Daten
- Zeitliche Unterschiede
- Unterschiedliche Algorithmen
- Unterschiedliche Extraktionsebenen
- Externe Daten
- keine gemeinsame Datenquelle
„ Probleme mit der Produktivität
- Datenquellen suchen
- Daten extrahieren
- Daten aufbereiten
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 13
Architekturen von Datenbanken
Konzept des Data-Warehouse
„ Integrierte Datenbank als Basis mit
† entscheidungsrelevanten Informationen
† über die einzelnen Unternehmensbereiche
„ Filterung aus
† operativen Datenbanken
† externen Datenquellen
„ Unterstützung der Anwender durch eine aggregierte
Metadatenbank
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 14
7
Architekturen von Datenbanken
Eigenschaften eines Data-Warehouse
Ein Data-Warehouse ist eine
„ themenbezogene,
„ integrierte,
„ dauerhafte und
„ zeitvariante
Sammlung von Daten.
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 15
Architekturen von Datenbanken
Elemente eines Data-Warehouse (I)
„ Transformationsprogramme vereinheitlichen
Daten aus unterschiedlichen Quellen
„ Datenbasis zur Sammlung der Daten des
Informationsbedarfs (Data
(Data--Warehouse im engeren
Sinne)
„ Archivsysteme zur Erhöhung der Leistungsfähigkeit
bei starkem Datenwachstum
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 16
8
Architekturen von Datenbanken
Elemente eines Data-Warehouse (II)
„ Metadatenbank verwaltet Informationen über alle
Systemkomponenten
† technische und semantische Beschreibung der Daten in
Datenbasis und Archiv
† Informationen über die Datenherkunft
† Informationen über Logik der Transformationsprogramme
† Informationen über Auswertungsmöglichkeiten
„ Zugriff erfolgt grundsätzlich nur lesend!
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 17
Architekturen von Datenbanken
Schematischer Aufbau eines Data-Warehouse
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 18
9
Architekturen von Datenbanken
Transformations-Prozess im DataWarehouse (I)
1. Schematransformation
† Integration der Einzelschemata
† Einmalige Durchführung
† Ziele:
ƒ Vollständigkeit
ƒ Korrektheit
ƒ Minimalität
ƒ Verständlichkeit
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 19
Architekturen von Datenbanken
Transformations-Prozess im DataWarehouse (II)
1. Schematransformation
† Konflikte
ƒ Semantische Konflikte
ƒ Beschreibungskonflikte
ƒ Heterogenitätskonflikte
ƒ Strukturkonflikte
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 20
10
Architekturen von Datenbanken
Transformations-Prozess im DataWarehouse (III)
1. Schematransformation
2. Datentransformation
† Überführung der Daten in neue Schemata
† Durchführung bei jeder Transformation
† SynonymSynonym-, Homonymkonflikte
† Vereinheitlichung von Kodierungen
† Integritätsbedingungen
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 21
Architekturen von Datenbanken
Transformations-Prozess im DataWarehouse (IV)
1.
2.
3.
Schematransformation
Datentransformation
Datenbereinigung
† Durchführung bei jeder Transformation
† Korrektheit fehlerhafter bzw. Ergänzung unvollständiger
Daten
† Referenzielle Integrität beachten
„ Gewährleistung hoher Datenqualität
† Nachvollziehbarkeit
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 22
11
Literatur
„
„
„
Kemper, A.; Eickler,
Eickler, A.: Datenbanksysteme. Oldenbourg Verlag
, 3. Auflage 1999,
S. 176 - 180 und 403 - 442.
Muksch,
Muksch, H.; Behme,
Behme, W.: Das DataData-WarehouseWarehouse-Konzept als
Basis einer unternehmensweiten Informationslogik. In Muksch,
Muksch,
H.; Behme,
,
W.:
Das
DataWarehouseKonzept.
.
Gabler,
,
Behme
Data Warehouse Konzept Gabler 2. Auflage
1997, S. 31 - 94.
Conrad, S.: Föderierte Datenbanksysteme – Konzepte der
Datenintegration. Springer 1997.
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 23
Vielen Dank
für Ihre Aufmerksamkeit
Datenorganisation SS2007
Leibniz Universität Hannover
Institut für Wirtschaftsinformatik
Dipl.-Math Frank Köller | 17.07.2007 | Folie 24
12
Herunterladen