Vorlesung Data-Warehouse-Technologien

Werbung
1. Einführung







Motivation
Überblick
Anwendungen
Abgrenzung
Begriff „Data Warehouse“
DW-Architektur
Benchmarks
Sattler / Saake
Data-Warehouse-Technologien
1
Szenario: Getränkemarkt
Umsatz,
Portfolio
Sattler / Saake
S Saufland
Werbung
Data-Warehouse-Technologien
2
DB-Schema
Produkt
kauft
liefert
Lieferant
Menge
Kunde
Sattler / Saake
Data-Warehouse-Technologien
3
DB-Nutzung
 Anfragen:
 Wie viele Flaschen Cola wurden letzten Monat
verkauft?
 Wie hat sich der Verkauf von Rotwein im letzten
Jahr entwickelt?
 Wer sind unsere Top-Kunden?
 Von welchem Lieferanten beziehen wir die
meisten Kisten?
 Probleme
 Nutzung externer Quellen (Kundendatenbank,
Lieferantendatenbank, …)
 Daten mit historischem Bezug
Sattler / Saake
Data-Warehouse-Technologien
4
Erweitertes Szenario
Saufland
Saufland
Saufland
Sattler / Saake
Data-Warehouse-Technologien
5
DB-Nutzung /2
 Anfragen
 Verkaufen wir in Ilmenau mehr Bier als
in Erfurt?
 Wie viel Cola wurde im Sommer in ganz
Thüringen verkauft?
 Mehr als Wasser?
 Problem
 Anfragen über mehrere Datenbanken
Sattler / Saake
Data-Warehouse-Technologien
6
Lösungen
 Variante 1: „Verteilte DB“
 Globale Anfrage über mehrere DBs 
Sicht mit Union
 Nachteil: aufwändige verteilte
Anfrageausführung
 Variante 2: „Zentrale DB“
 Änderungen über einer zentralen DB
 Nachteil: lange Antwortzeiten im
operativen Betrieb
Sattler / Saake
Data-Warehouse-Technologien
7
Data Warehouse-Lösung
S Saufland
S Saufland
Asynchrone Aktualisierung
DB Ilmenau
S Saufland
DB Erfurt
DB Jena
Redundante Datenhaltung,
Transformierte,
vorberechnete Daten
Data Warehouse
Sattler / Saake
Data-Warehouse-Technologien
8
Gegenstand der Vorlesung
 Data Warehouse: Sammlung von
Technologien zur Unterstützung von
Entscheidungsprozessen
 Herausforderung an Datenbanktechnologien
 Datenvolumen (effiziente Speicherung und
Verwaltung, Anfragebearbeitung)
 Datenmodellierung (Zeitbezug, mehrere
Dimensionen)
 Integration heterogener Datenbestände
 Schwerpunkt
 Datenbanktechniken von Data Warehouses
Sattler / Saake
Data-Warehouse-Technologien
9
Überblick
Monitoring & Administration
OLAP-Server
MetadatenRepository
Data Warehouse
Externe
Quellen
Operative
Datenbanken
Analyse
Query/Reporting
Extraktion
Transformation
Laden
Data Mining
Werkzeuge
Data Marts
Sattler / Saake
Data-Warehouse-Technologien
10
Betriebswirtschaftliche
Anwendungen
 Informationsbereitstellung
 Daten und Informationen als Grundlage
einer erfolgreichen Abwicklung von
Geschäftsprozessen (z.B. Kennzahlen)
 Anwender: Manager, Abteilungsleiter,
Fachkräfte
 Formen der Bereitstellung
 Query-Ansätze: frei definierbare Anfragen
und Berichte
 Reporting: Zugriff auf vordefinierte Berichte
 Redaktionell aufbereitete, personalisierte
Informationen
Sattler / Saake
Data-Warehouse-Technologien
11
Betriebswirtschaftliche
Anwendungen
 Analyse
 Detaillierte Analyse der Daten zur Untersuchung
von Abweichungen oder Auffälligkeiten
 Anwender: Spezialisten (z.B. Controlling,
Marketing)
 Planung
 Unterstützung durch explorative Datenanalyse
 Aggregrierung von Einzelplänen
 Kampagnenmanagement
 Unterstützung strategischer Kampagnen
 Kundenanalyse, Risikoanalyse
Sattler / Saake
Data-Warehouse-Technologien
12
Wissenschaftliche und
Technische Anwendungen
 Wissenschaftliche Anwendungen
 Statistical und Scientific Databases  technische
Wurzeln des DW
 Beispiel: Projekt Earth Observing System
(Klima- und Umweltforschung)
 täglich ca. 1,9 TB meteorologischer Daten
 Aufbereitung und Analyse (statistisch, Data
Mining)
 Technische Anwendungen
 Öffentlicher Bereich: DW mit Umwelt- oder
geographischen Daten (z.B. Wasseranalysen)
Sattler / Saake
Data-Warehouse-Technologien
13
Einsatzbeispiel
 Wal-Mart (www.wal-mart.com)
 Marktführer im amerikanischen
Einzelhandel
 Unternehmensweites Data Warehouse
 Größe: ca. 300 TB (2003)
 Täglich bis zu 20.000 DW-Anfragen
 Hoher Detaillierungsgrad (tägliche Auswertung
von Artikelumsätzen, Lagerbestand,
Kundenverhalten)
 Basis für Warenkorbanalyse,
Kundenklassifizierung, ...
Sattler / Saake
Data-Warehouse-Technologien
14
Fragestellungen und
Aufgaben (Bsp.)
 Überprüfung des Warensortiments zur
Erkennung von Ladenhütern oder
Verkaufsschlagern
 Standortanalyse zur Einschätzung der
Rentabilität von Niederlassungen
 Untersuchung der Wirksamkeit von
Marketing-Aktionen
 Auswertung von Kundenbefragungen,
Reklamationen bzgl. bestimmter Produkte
etc.
 Analyse des Lagerbestandes
 Warenkorbanalyse mit Hilfe der Kassenbons
Sattler / Saake
Data-Warehouse-Technologien
15
Beispiel einer Anfrage
Welche Umsätze sind in den Jahren 1998 und
1999 in den Abteilungen Kosmetik, Elektro und
Haushaltswaren in den Bundesländern
Sachsen-Anhalt und Thüringen angefallen ?
Sattler / Saake
Data-Warehouse-Technologien
16
Ergebnis (Würfel)
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
1999
Kennzahl
Umsatz
Summe
Zeitraum
n
e
s
h
Sac halt
An
Sattler / Saake
-
e
en
m
g
n
m
ri
u
ü
S
h
T
Region
Data-Warehouse-Technologien
17
Ergebnis (Bericht)
Umsatz
1998
1999
Kosmetik
Elektro
Haushalt SUMME
Sachsen-Anhalt
45
123
17
185
Thüringen
43
131
21
195
SUMME
88
254
38
380
Sachsen-Anhalt
47
131
19
197
Thüringen
40
136
20
196
SUMME
87
267
39
393
175
521
77
773
SUMME
Sattler / Saake
Data-Warehouse-Technologien
18
Marktentwicklung
 Marktgröße: Data Warehouse und OLAP (Quelle:
OLAP Report OnLine www.olapreport.com)
3,5
3
2,5
2
Mrd. Euro
1,5
1
0,5
0
Sattler / Saake
1994
1996
1998
2000
2002
Data-Warehouse-Technologien
19
Aspekte von Data Warehouses
 Integration
 Vereinigung von Daten aus verschiedenen, meist
heterogenen Quellen
 Überwindung der Heterogenität auf
verschiedenen Ebenen (System, Schema, Daten)
 Analyse
 Bereitstellung der Daten in einer vom Anwender
gewünschten Form (bezogen auf
Entscheidungsgebiet)
 erfordert Vorauswahl, Zeitbezug, Aggregation
Sattler / Saake
Data-Warehouse-Technologien
20
Abgrenzung zu OLTP
 Klassische operative Informationssysteme
 Online Transactional Processing (OLTP)
 Erfassung und Verwaltung von Daten
 Verabeitung unter Verantwortung der jeweiligen
Abteilung
 Transaktionale Verarbeitung: kurze Lese-/
Schreibzugriffe auf wenige Datensätze
 Data Warehouse
 Analyse im Mittelpunkt
 lange Lesetransaktionen auf vielen Datensätzen
 Integration, Konsolidierung und Aggregation der
Daten
Sattler / Saake
Data-Warehouse-Technologien
21
Abgrenzung zu OLTP: Anfragen
Anfrage
transaktional
Fokus
Lesen, Schreiben,
Lesen, periodisches
Modifizieren, Löschen Hinzufügen
Transaktionsdauer
und –typ
kurze Lese-/
Schreibtransaktionen
lange
Lesetransaktionen
Anfragestruktur
einfach strukturiert
komplex
Datenvolumen
einer Anfrage
wenige Datensätze
viele Datensätze
Datenmodell
anfrageflexibel
analysebezogen
Sattler / Saake
Data-Warehouse-Technologien
analytisch
22
Abgrenzung zu OLTP: Daten
Daten
transaktional
analytisch
Datenquellen
meist eine
mehrere
Eigenschaften
nicht abgeleitet,
zeitaktuell, autonom,
dynamisch
abgeleitet/konsolidier
t, nicht zeitaktuell,
integriert, stabil
Datenvolumen
MByte ... GByte
GByte ... TByte
Zugriffe
Einzeltupelzugriff
Tabellenzugriff
Sattler / Saake
Data-Warehouse-Technologien
23
Abgrenzung zu OLTP: Anwender
Anwender
transaktional
analytisch
Anwendertyp
Ein-/Ausgabe durch
Angestellte oder
Applikationssoftware
Manager, Controller
Analyst
Anwenderzahl
sehr viele
wenige (bis einige
hundert)
Antwortzeit
ms ... sec
sec ... min
Sattler / Saake
Data-Warehouse-Technologien
24
Abgrenzung: DBMS-Techniken
 Parallele Datenbanken
 Technik zur Realisierung eines DWH
 Verteilte Datenbanken
 I.d.R. keine redundante Datenhaltung
 Verteilung als Mittel zur Lastverteilung
 Keine inhaltliche Integration/Verdichtung
der Daten
 Föderierte Datenbanken
 Höhere Autonomie und Heterogenität
 Kein spezifischer Analysezweck
Sattler / Saake
Data-Warehouse-Technologien
25
Data Warehouse: Begriff
A Data Warehouse is a subjectoriented, integrated, non-volatile, and
time variant collection of data in
support of managements decisions.
(W.H. Inmon 1996)
Sattler / Saake
Data-Warehouse-Technologien
26
Data Warehouse: Charakteristika
 Fachorientierung (subject-oriented):

Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B.
Personaldatenverwaltung), sondern Modellierung eines
spezifischen Anwendungsziels
 Integrierte Datenbasis (integrated):

Verarbeitung von Daten aus mehreren verschiedenen
Datenquellen (intern und extern)
 Nicht-flüchtige Datenbasis (non-volatile):


stabile, persistente Datenbasis
Daten im DW werden nicht mehr entfernt oder geändert
 Historische Daten (time-variant):


Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Speicherung über längeren Zeitraum
Sattler / Saake
Data-Warehouse-Technologien
27
Weitere Begriffe
 Data Warehousing
 Data-Warehouse-Prozess, d.h. alle Schritte der
Datenbeschaffung (Extraktion, Transformation,
Laden), des Speicherns und der Analyse
 Data Mart
 externe (Teil-)Sicht auf das Data Warehouse
 durch Kopieren
 anwendungsbereichsspezifisch
 OLAP (Online Analytical Processing)
 explorative, interaktive Analyse auf Basis des
konzeptuellen Datenmodells
Sattler / Saake
Data-Warehouse-Technologien
28
Trennung operativer und
analytischer Systeme
 Gründe
 Antwortzeitverhalten: Analyse auf operativen
Quelldatensystemen  schlechte Performance,
 Langfristige Speicherung der Daten 
Zeitreihenanalyse
 Zugriff auf Daten unabhängig von operativen
Datenquellen (Verfügbarkeit,
Integrationsproblematik)
 Vereinheitlichung des Datenformats im DW
 Gewährleistung der Datenqualität im DW
Sattler / Saake
Data-Warehouse-Technologien
29
Historie
 Wurzeln
 60er Jahre: Executive Information Systems (EIS)
 qualitative Informationsversorgung von Entscheidern
 kleine, verdichtete Extrakte der operativen
Datenbestände
 Aufbereitung in Form statischer Berichte
 Mainframe
 80er Jahre: Management Information Systems (MIS)
 meist statische Berichtsgeneratoren
 Einführung von Hierarchieebenen für Auswertung von
Kennzahlen (Roll-Up, Drill-Down)
 Client-Server-Architekturen, GUI (Windows, Apple)
Sattler / Saake
Data-Warehouse-Technologien
30
Historie
 1992: Einführung des Data-Warehouse-Konzeptes
durch W.H. Inmon
 redundante Haltung von Daten, losgelöst von
Quellsystemen
 Beschränkung der Daten auf Analysezweck
 1993: Definition des Begriffs OLAP durch E.F. Codd
 Dynamische, multidimensionale Analyse
 Weitere Einflussgebiete
 Verbreitung geschäftsprozeßorientierter
Transaktionssysteme (SAP R/3)  Bereitstellung von
entscheidungsrelevanten Informationen
 Data Mining
 WWW (Web-enabled Data Warehouse etc.)
Sattler / Saake
Data-Warehouse-Technologien
31
Vorlesung: Zielstellungen
 Vermittlung von Kenntnissen zu
Datenbanktechniken für Aufbau und
Implementierung von Data Warehouses
 Anwendung bekannter DB-Techniken (siehe
Vorlesung „Datenbanken I“)
 Datenmodellierung, Anfragesprachen und
-verarbeitung
 DW-spezifische Techniken




multidimensionale Datenmodellierung
spezielle Anfragetechniken
Indexstrukturen
materialisierte Sichten
Sattler / Saake
Data-Warehouse-Technologien
32
DW-Architektur
 Komponenten von DW und deren
Aufgaben
 Datenbanken
 Datenquellen: Herkunftsort der Daten
 Arbeitsbereich: temporäre Datenbank für
Transformation
 Data Warehouse: physische Datenbank
für Analyse
 Repository: Datenbank mit Metadaten
Sattler / Saake
Data-Warehouse-Technologien
33
DW-Architektur
 Komponenten
 Data-Warehouse-Manager: zentrale Kontrolle
und Steuerung
 Monitore: Überwachung der Quellen auf
Veränderungen
 Extraktoren: Selektion und Transport der Daten
aus Quellen in Arbeitsbereich
 Transformatoren: Vereinheitlichung und
Bereinigung der Daten
 Ladekomponenten: Laden der transformierten
Daten in das DW
 Analysekomponenten: Analyse und Präsentation
der Daten
Sattler / Saake
Data-Warehouse-Technologien
34
Multidimensionales Datenmodell
 Datenmodell zur Unterstützung der Analyse




Fakten und Dimensionen
Klassifikationsschema
Würfel
Operationen: Pivotierung, Roll-Up, Drill-Down,
Drill-Across, Slice und Dice
 Notationen zur konzeptuellen Modellierung
 Relationale Umsetzung
 Star-Schema, Snowflake-Schema
 Multidimensionale Speicherung
Sattler / Saake
Data-Warehouse-Technologien
35
Anfrageverarbeitung und
-optimierung
 Gruppierung und Aggregation
 Supergroups, CUBE
 OLAP-Funktionen aus SQL:1999
 Star-Joins
 Optimierungsaspekte
 Histogramme, Sampling
 Mehrdimensionale Erweiterungen von
Anfragesprachen
 MDX
Sattler / Saake
Data-Warehouse-Technologien
36
Index- und Speicherungsstrukturen
 Klassifikation
 Wiederholung: B-Baum und B*-Baum
 Mehrdimensionale Indexstrukturen
 R-Baum
 UB-Baum
 Bitmap-Index
 Vergleich
 Multidimensionale Speicherung
Sattler / Saake
Data-Warehouse-Technologien
37
Materialisierte Sichten
 Materialisierte Sicht (engl. materialized
view): vorab berechneter Ausschnitt aus
einer Faktentabelle
 Verwendung: Anfrageersetzung
 generalized projection
 Auswahl: Bestimmung der redundant
gehaltenen Daten
 statische vs. dynamische Auswahlverfahren
 Semantisches Caching
 Wartung und Aktualisierung
Sattler / Saake
Data-Warehouse-Technologien
38
Metadaten und Datenqualität




Metadatenmanagement
Metadaten-Repository
Standards für Metadaten
Aspekte der Datenqualität
Sattler / Saake
Data-Warehouse-Technologien
39
OLAP und Data Mining
 OLAP
 Anforderungen
 OLAP-Operationen
 OLAP-Werkzeuge
 Data-Mining-Technikem
 Klassifikation, Assoziationsregeln,
Clustering
Sattler / Saake
Data-Warehouse-Technologien
40
TPC-Benchmarks
 Vergleich der Leistungsfähigkeit von
Datenbanken (www.tpc.org)
 TPC-C: OLTP Benchmark
 TPC-H: Ad-hoc Decision Support
(variable Anteile)
 TPC-R: Reporting Decision Support
(feste Anfragen)
 TPC-W: eCommerce Transaktionsprocessing
 Vorgegebene Schemata (Lieferwesen)
 Schema-, Query- und Datengeneratoren
 Unterschiedliche DB-Größen
 TPC-H: 100 GB - 300 GB - 1 TB - 3 TB
Sattler / Saake
Data-Warehouse-Technologien
41
TPC-H: Schema
REGION
REGION
1
N
1
N
NATION
NATION
1
N
1
CUSTOMER
N
1
N
SUPPLIER
ORDERS
1
1
N
N
PART
Sattler / Saake
1
N
PARTSUPP
1
N
LINEITEM
Data-Warehouse-Technologien
42
TPC-H: Anfragen
SELECT c_name, c_custkey,
o_orderkey, o_orderdate,
o_totalprice, SUM(l_quantity)
FROM customer, orders, lineitem
WHERE o_orderkey IN (SELECT l_orderkey
FROM lineitem
GROUP BY l_orderkey
HAVING SUM(l_quantity) > :1)
AND c_custkey = o_custkey
AND o_orderkey = l_orderkey
GROUP BY c_name, c_custkey, o_orderkey,
o_orderdate, o_totalprice
ORDER BY o_totalprice desc, o_orderdate;
Sattler / Saake
Data-Warehouse-Technologien
43
TPC-H: Zahlen (100 GB)
Sattler / Saake
Data-Warehouse-Technologien
44
TPC-H: Zahlen (3.000 GB)
Sattler / Saake
Data-Warehouse-Technologien
45
Produkte
 OLAP-Tools/Server
 MS Analysis Services, Hyperion, Cognos
 DW-Erweiterungen für RDBMS
 Oracle9i, IBM DB2, MS SQL Server: SQLErweiterungen, Indexstrukturen, mat.
Sichten, Bulk-Load/Insert, …
 ETL-Tools
 MS Data Transformation Services, …
Sattler / Saake
Data-Warehouse-Technologien
46
Literatur
 Lehner: „Datenbanktechnologie für DataWarehouse-Systeme“, dpunkt.verlag, 2003
 Inmon: „Building the Data Warehouse“,
John Wiley & Sons, 1996
 Bauer, Günzel (Hrg.): Data Warehouse –
Architektur, Entwicklung, Anwendung;
dpunkt.verlag, 2000
 Westerman: „Data Warehousing: Using the
Wal-Mart Model“, Morgan Kaufman, 2000
 Kurz: Data Warehousing: Enabling
Technology; MITP, 1999
Sattler / Saake
Data-Warehouse-Technologien
47
Herunterladen