Data Warehouse und OLAP - Fachbereich Informatik Hochschule

Werbung
Data Warehouse und OLAP
Stephan Karczewski
Hochschule Darmstadt - Fachbereich Informatik
Letzte Änderung: 27.09.2012
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–1
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
7
Indexstrukturen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
7
Indexstrukturen
8
Anfrageverarbeitung und -optimierung
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
7
Indexstrukturen
8
Anfrageverarbeitung und -optimierung
9
Materialisierte Sichten
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
7
Indexstrukturen
8
Anfrageverarbeitung und -optimierung
9
Materialisierte Sichten
10
Business Intelligence Anwendungen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Überblick
1
Einführung & Grundbegriffe
2
Data-Warehouse-Architektur
3
Multidimensionales Datenmodell
4
Extraktion, Transformation und Laden
5
Anfragen an Data Warehouses
6
Speicherstrukturen
7
Indexstrukturen
8
Anfrageverarbeitung und -optimierung
9
Materialisierte Sichten
10
Business Intelligence Anwendungen
11
Aktuelle Entwicklungen: Spaltenorientierte DBMS
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–2
Organisatorisches
Zeiten, Ablauf, etc.
Vorlesung
I
I
I
Dozent: Stephan Karczewski
Infos (Zeiten, Räume) & Folienkopien unter https://www.fbi.hda.de/organisation/personen/karczewski-stephan.html
Termin:
F
F
mittwochs, 17:45 - 19:15 Uhr, D14/1.04
1. Termin: 10.10.2012
Praktikum
I
I
I
Praktikum: Stephan Karczewski / Yener Orkunoglu
Scheinkriterien: Teilnahme und Bestehen aller Praktika!
Termin:
F
F
jeweils donnerstags, 16:00 - 19:15 Uhr, D15/2.02 (Gruppen s. OBS),
1. Termin: 25.10.2012
Prüfung
I
Klausur (90 Minuten), Termin: s. OBS
Feedback, Fragen, . . .
I
Sprechzeiten: mittwochs, 16:30 - 17:30 Uhr
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–3
Organisatorisches
Lehrbuch zur Veranstaltung
Köppen, V.; Saake, G.; Saatler, K.-U.:
Data Warehouse Technologien
1. Auflage, mitp-Verlag, 2012
336 Seiten, 29,95 e
Exemplare sind für die Bibliothek bestellt.
Vorlesungsmaterialien zu diesem Buch
wurden von den Autoren für diese Veranstaltung zur Verfügung gestellt.
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–4
Organisatorisches
Weitere Literatur
W. Lehner.
Datenbanktechnologie für Data-Warehouse-Systeme.
dpunkt.verlag, Heidelberg, 2003
W.H. Inmon.
Building the Data Warehouse.
4th Edition, Wiley & Sons, New York, 2005
A. Bauer, H. Günzel.
Data Warehouse Systeme – Architektur, Entwicklung, Anwendung.
3. Auflage, dpunkt.verlag, Heidelberg, 2008
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
0–5
Teil I
Einführung
Einführung
Einführung & Grundbegriffe
1
Motivation
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Einführung & Grundbegriffe
1
Motivation
2
Anwendungen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Einführung & Grundbegriffe
1
Motivation
2
Anwendungen
3
Abgrenzung
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Einführung & Grundbegriffe
1
Motivation
2
Anwendungen
3
Abgrenzung
4
Begriff Data Warehouse
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Einführung & Grundbegriffe
1
Motivation
2
Anwendungen
3
Abgrenzung
4
Begriff Data Warehouse
5
Themen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Einführung & Grundbegriffe
1
Motivation
2
Anwendungen
3
Abgrenzung
4
Begriff Data Warehouse
5
Themen
6
Benchmarks
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–1
Einführung
Motivation
Szenario: Keramische Werkstatt
Controlling
Marketing
Daten
Geschäftsführung
Produkte
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–2
Einführung
Motivation
DB-Schema
Produkt
geliefert
von
Lieferant
(0,*)
kauft
(0,*)
Menge
Kunde
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–3
Einführung
Motivation
DB-Nutzung
Anfragen:
I
I
I
I
Wie viele Tassen wurden letzten Monat verkauft?
Wie hat sich der Verkauf von Teekannen im letzten Jahr entwickelt?
Wer sind unsere Top-Kunden?
Von welchem Lieferanten beziehen wir größten Mengen Ton?
Probleme
I
I
Nutzung externer Quellen (Kundendatenbank,
Lieferantendatenbank, . . . )
Daten mit zeitlichem Bezug
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–4
Einführung
Motivation
Erweitertes Szenario
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–5
Einführung
Motivation
DB-Nutzung (2)
Anfragen
I
I
I
Verkaufen wir in Darmstadt mehr Teekannen als in Frankfurt?
Wie viele Schalen wurden im Sommer (Juli, August, September) in
ganz Hessen, verteilt auf die Regierungsbezirke, verkauft?
Welches ist das in Wiesbaden im Dezember am häufigsten
verkaufte Produkt?
Problem
I
I
I
Anfragen über mehrere Datenbanken
Angefragte Datenbanken sind von unterschiedlichen Herstellern
Daten in den Datenbanken wurden unterschiedlich modelliert
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–6
Einführung
Motivation
Lösungen für die Aufteilung und Abfrage der Daten
Variante 1: „Verteilte DB“
I
I
Globale Anfrage über mehrere DBs → Sicht mit Union
Nachteil: aufwendige verteilte Anfrageausführung
Variante 2: „Zentrale DB“
I
I
Änderungen über einer zentralen DB
Nachteil: lange Antwortzeiten im operativen Betrieb
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–7
Einführung
Motivation
Data Warehouse-Lösung
Frankfurt
Darmstadt
Wiesbaden
Data Warehouse
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–8
Einführung
Motivation
Data Warehouse-Lösung
Frankfurt
Wiesbaden
Darmstadt
Redundante
Datenhaltung
Asynchrone
Aktualisierung
Stephan Karczewski
Data Warehouse
Data Warehouse und OLAP
Transformierte,
vorberechnete Daten
Letzte Änderung: 27.09.2012
1–8
Einführung
Motivation
Gegenstand der Vorlesung
Data Warehouse: Sammlung von Daten und Technologien zur
Unterstützung von Entscheidungsprozessen
Herausforderung an Datenbanktechnologien
I
I
I
Datenvolumen (effiziente Speicherung und Verwaltung,
Anfragebearbeitung)
Datenmodellierung (Zeitbezug, mehrere Dimensionen)
Integration heterogener Datenbestände
Schwerpunkt
I
Datenbanktechniken von Data Warehouses
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–9
Einführung
Motivation
Überblick
Monitoring &
Administration
MetadatenRepository
OLAP-Server
Analyse
Externe Quellen
Data Warehouse
ETL
Query/
Reporting
Entity
Data
Mining
Operative
Datenbanken
OLAP-Server
Data Marts
Data Warehouse System
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–10
Einführung
Anwendungen
Betriebswirtschaftliche Anwendungen
Informationsbereitstellung
I
I
I
I
Daten und Informationen als Grundlage von Entscheidungen
(z.B. Kennzahlen)
Einfluss auf zukünftiges Betriebsergebnis und auf Abwicklung von
Geschäftsprozessen
Anwender: Manager, Abteilungsleiter, Fachkräfte
Formen der Bereitstellung:
F
F
F
F
F
Query-Ansätze: frei definierbare Anfragen und Berichte (individuelle
Lösungsstrategie)
Reporting: Zugriff auf vordefinierte Berichte (fixes Lösungsangebot)
Redaktionell aufbereitete, personalisierte Informationen
Domänenspezifische Datensichten
Vorberechnete Kenngrößen (z.B. durch Data Mining Algorithmen)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–11
Einführung
Anwendungen
Betriebswirtschaftliche Anwendungen (2)
Analyse
I
I
I
Detaillierte Analyse der Daten zur Untersuchung von
Abweichungen oder Auffälligkeiten
Szenariotechniken (What-If-Analysen)
Anwender: Spezialisten (z.B. Controlling, Marketing)
Planung
I
I
I
Unterstützung durch explorative Datenanalyse
Aggregierung von Einzelplänen
Prognoseverfahren (z.B. statistische saisonale Modelle)
Kampagnenmanagement
I
I
Unterstützung strategischer Kampagnen
Kundenanalyse, Portfolio- und Risikoanalyse
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–12
Einführung
Anwendungen
Wissenschaftliche und Technische Anwendungen
Wissenschaftliche Anwendungen
I
I
Statistical und Scientific Databases → technische Wurzeln des DW
Beispiel: Projekt Earth Observing System (Klima- und
Umweltforschung)
F
F
Täglich ca. 1,9 TB meteorologischer Daten
Aufbereitung und Analyse (statistisch, Data Mining)
Technische Anwendungen
I
öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten
(z.B. Wasseranalysen)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–13
Einführung
Anwendungen
Einsatzbeispiel
Wal-Mart (www.wal-mart.com)
Marktführer im amerikanischen Einzelhandel
Unternehmensweites Data Warehouse
I
I
I
I
Größe: ca. 300 TB (2003), 480 TB (2004), heute: geschätzt 8 PB
Täglich etwa 20.000 DW-Anfragen
Hoher Detaillierungsgrad (tägliche Auswertung von
Artikelumsätzen, Lagerbestand, Kundenverhalten)
Basis für Warenkorbanalyse, Kundenklassifizierung, . . .
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–14
Einführung
Anwendungen
Fragestellungen und Aufgaben (Bsp.)
Überprüfung des Warensortiments zur Erkennung von
Ladenhütern oder Verkaufsschlagern
Standortanalyse zur Einschätzung der Rentabilität von
Niederlassungen
Untersuchung und Prognose von Marketing-Aktionen
Auswertung von Kundenbefragungen, Reklamationen bzgl.
bestimmter Produkte etc.
Analyse des Lagerbestandes
Warenkorbanalyse mit Hilfe der Kassendaten (wirt. Transaktionen)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–15
Einführung
Anwendungen
Beispiel einer Anfrage
Welche Umsätze sind in den Jahren 2010 und 2011 in den
Warensegmenten Gebrauchsprodukte und Dekoprodukte in
den Bundesländern Hessen und Thüringen angefallen?
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–16
Einführung
Anwendungen
Ergebnis (Würfel)
34
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–17
Einführung
Anwendungen
Ergebnis (Würfel)
Gesamt
Deko
Gebrauch
2010
34
2011
Gesamt
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–17
Einführung
Anwendungen
Ergebnis (Würfel)
Umsatz in Thüringen in 2010
Produkt
Gesamt
Deko
Gebrauch
2010
34
2011
Gesamt
Zeitraum
Region
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–17
Einführung
Anwendungen
Ergebnis (Würfel)
Umsatz in Thüringen in 2010
Produkt
Gesamt
Deko
Gebrauch
2010
34
2011
Dimensionen (Produkt,
Zeitraum, Region) spannen
den Würfel auf.
Gesamt
Zeitraum
Region
Stephan Karczewski
Data Warehouse und OLAP
Fakten sind Inhalte der
Würfelelemente (z.B. Umsatz
in Thüringen 2010)
Letzte Änderung: 27.09.2012
1–17
Einführung
Anwendungen
Ergebnis (2-dim. Würfeldarstellung)
Umsatz
2009 Hessen
Thüringen
Summe
2010 Hessen
Thüringen
Summe
Gebrauch
45
34
97
60
58
118
Deko
32
21
53
37
20
57
Summe
77
55
132
97
78
175
In der 2-dimensionalen Darstellung sind 18 Zahlenwerte
vorhanden, in der dreidimensionalen 27. Welche Zahlenwerte
fehlen?
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–18
Einführung
Abgrenzung
Aspekte von Data Warehouses
Integration
I
I
Vereinigung von Daten aus verschiedenen, meist heterogenen
Quellen
überwindung der Heterogenität auf verschiedenen Ebenen
(System, Schema, Daten)
Analyse
I
I
Bereitstellung der Daten in einer vom Anwender gewünschten
Form (bezogen auf Entscheidungsgebiet)
erfordert Vorauswahl, Zeitbezug, Aggregation
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–19
Einführung
Abgrenzung
Kurze Transaktion (OLTP)
Kunde
ID
4711
42
0800
Name
Saake
Sattler
Köppen
Vorname
Gunter
K.
Veit
SELECT vorname, name
FROM Kunde
WHERE id = 0800
Stephan Karczewski
PLZ
01234
12345
60701
Ort
Irgendwo
Hier
Dort
Straße
Am Berg 3
Zufahrt 18
Weg 9A
Ergebnis
Vorname
Veit
Name
Köppen
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–20
Einführung
Abgrenzung
Langandauernde Transaktion (OLAP)
SELECT DISTINCT ROW
Zeit.Dimension AS Jahr,
Produkt.Dimension AS Artikel,
AVG(Fact.Umsatz) AS Umsatzdurchschnitt,
Ort.Dimension AS Verkaufsgebiet
FROM (Produktgruppe INNER JOIN Produkt ON Produktgruppe.
[Gruppen-Nr] = Produkt.[Gruppen-ID]) INNER JOIN
((((Produkt INNER JOIN [Fact.Umsatz] ON Produkt.[Artikel-Nr]
= [Fact.Umsatz].[Artikel-Nr]) INNER JOIN Order ON
[Fact.Umsatz].[Bestell-Nr]= Order.[Order-ID]) INNER JOIN
Zeit.Dimension ON Orders.[Order-ID] =
Zeit.Dimension.[Order-ID]) INNER JOIN Ort.Dimension ON
Order.[Order-ID] = Ort.Dimension.[Order-ID]) ON
Produktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]
GROUP BY Produkt.Dimension.Gruppenname, Ort.Dimension.Bundesland,
Zeit.Dimension.Jahr;
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–21
Einführung
Abgrenzung
Abgrenzung zu OLTP
Klassische operative Informationssysteme
→ Online Transactional Processing (OLTP)
I
I
I
Erfassung und Verwaltung von Daten
Verarbeitung unter Verantwortung der jeweiligen Abteilung
Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf
wenigen Datensätzen
Data Warehouse
→ Online Analytical Processing (OLAP)
I
I
I
Analyse im Mittelpunkt
Langandauernde Lesetransaktionen auf vielen Datensätzen
Integration, Konsolidierung und Aggregation der Daten
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–22
Einführung
Abgrenzung
Abgrenzung zu OLTP: Anfragen
Fokus
Transaktionsdauer
und -typ
Anfragestruktur
Datenvolumen einer
Anfrage
Datenmodell
Stephan Karczewski
OLTP
Lesen, Schreiben, Modifizieren, Löschen
kurze Lese- / Schreibtransaktionen
einfach strukturiert
wenige Datensätze
OLAP
Lesen, periodisches
Hinzufügen
langandauernde
Lesetransaktionen
komplex
viele Datensätze
anfrageflexibel
analysebezogen
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–23
Einführung
Abgrenzung
Abgrenzung zu OLTP: Daten
Datenquellen
Eigenschaften
Datenvolumen
Zugriffe
Stephan Karczewski
OLTP
meist eine
nicht
abgeleitet,
zeitaktuell, autonom,
dynamisch
MByte . . . GByte
Einzeltupelzugriff
Data Warehouse und OLAP
OLAP
mehrere
abgeleitet / konsolidiert,
historisiert, integriert, stabil
GByte . . . TByte . . . PByte
Tabellenzugriff (spaltenweise)
Letzte Änderung: 27.09.2012
1–24
Einführung
Abgrenzung
Abgrenzung zu OLTP: Anwender
Anwenderzahl
OLTP
Ein-/Ausgabe durch
Angestellte
oder
Applikationssoftware
sehr viele
Antwortzeit
msecs . . . secs
Anwendertyp
Stephan Karczewski
Data Warehouse und OLAP
OLAP
Manager,
Analyst
Controller,
wenige (bis
hundert)
secs . . . min
einige
Letzte Änderung: 27.09.2012
1–25
Einführung
Abgrenzung
Abgrenzung: DBMS-Techniken
Parallele Datenbanken
I
Technik zur Realisierung eines DWH
Verteilte Datenbanken
I
I
I
I.d.R. keine redundante Datenhaltung
Verteilung als Mittel zur Lastverteilung
Keine inhaltliche Integration/Verdichtung der Daten
Föderierte Datenbanken
I
I
I
Höhere Autonomie und Heterogenität
Kein spezifischer Analysezweck
Keine Lesezugriffoptimierung
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–26
Einführung
Begriff Data Warehouse
Data Warehouse: Begriff
A Data Warehouse is a subject-oriented, integrated, non-volatile,
and time variant collection of data in support of managements
decisions.
(W.H. Inmon 1996)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–27
Einführung
Begriff Data Warehouse
Data Warehouse: Charakteristika
Fachorientierung (subject-oriented):
I
I
Zweck ist Unterstützung bereichsübergreifender
Auswertungsmöglichkeiten für unterschiedliche Domänen
Zentralisierte Bereitstellung der Daten über Geschäftsobjekte
(Themen)
Integrierte Datenbasis (integrated):
I
Verarbeitung von Daten aus mehreren verschiedenen (internen und
externen) Datenquellen (z.B. operationalen DB oder Web)
Nicht-flüchtige Datenbasis (non-volatile):
I
I
stabile, persistente Datenbasis
Daten im DW werden i. A. nicht mehr entfernt oder geändert
Zeitbezogene Daten (time-variant):
I
I
Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Speicherung über längeren Zeitraum
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–28
Einführung
Begriff Data Warehouse
Weitere Begriffe
Data Warehousing
I
Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung
(Extraktion, Transformation, Laden), des Speicherns und der
Analyse
Data Mart
I
I
I
externe (Teil-)Sicht auf das Data Warehouse
durch Kopieren
anwendungsbereichsspezifisch
OLAP (Online Analytical Processing)
I
explorative, interaktive Analyse auf Basis des konzeptuellen
Datenmodells
Business Intelligence
I
Data Warehousing + Reporting + Analyse (OLAP, Data Mining);
auch automatisch erzeugte Reports in Unternehmen
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–29
Einführung
Begriff Data Warehouse
Trennung operativer und analytischer Systeme:
Gründe
Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen
→ schlechte Performance
Historisierung der Unternehmensdaten
Langfristige Speicherung der Daten → Zeitreihenanalyse
Zugriff auf Daten unabhängig von operativen Datenquellen
(Verfügbarkeit, Integrationsproblematik)
Vereinheitlichung des Datenformats im DW
Gewährleistung der Datenqualität im DW
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–30
Einführung
Begriff Data Warehouse
Historie: Wurzeln
60er Jahre: Executive Information Systems (EIS)
I
I
I
I
qualitative Informationsversorgung von Entscheidern
kleine, verdichtete Extrakte der operativen Datenbestände
Aufbereitung in Form statischer Berichte
Mainframe
80er Jahre: Management Information Systems (MIS)
I
I
I
meist statische Berichtsgeneratoren
Einführung von Hierarchieebenen für Auswertung von Kennzahlen
(Roll-Up, Drill-Down)
Client-Server-Architekturen, GUI (Windows, Apple)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–31
Einführung
Begriff Data Warehouse
Historie
1992: Einführung des Data-Warehouse-Konzeptes durch W.H.
Inmon
I
I
Redundante Haltung von Daten, losgelöst von Quellsystemen
Beschränkung der Daten auf Analysezweck
1993: Definition des Begriffs OLAP durch E.F. Codd
I
Dynamische, multidimensionale Analyse
Weitere Einflussgebiete
I
I
I
Verbreitung geschäftsprozessorientierter Transaktionssysteme
(SAP R/3) → Bereitstellung von entscheidungsrelevanten
Informationen
Data Mining
WWW (Web-enabled Data Warehouse etc.)
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–32
Einführung
Themen
Vorlesung: Zielstellungen
Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbau
und Implementierung von Data Warehouses
Anwendung bekannter DB-Techniken (siehe Vorlesung
„Datenbanksysteme“)
I
I
Datenmodellierung
Anfragesprachen und -verarbeitung
DW-spezifische Techniken
I
I
I
I
I
multidimensionale Datenmodellierung
spezielle Anfragetechniken
Indexstrukturen
materialisierte Sichten
Einsatzgebiete: Business Intelligence
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–33
Einführung
Themen
DW-Architektur
Komponenten von DW und deren Aufgaben
Datenbanken
I
I
I
I
Datenquellen: Herkunftsort der Daten
Datenbereinigungsbereich: temporäre Datenbank für
Transformation
Data Warehouse: physische Datenbank für Analyse
Repository: Datenbank mit Metadaten
Datenwürfel
Datenquellen
Extraktion
Datenbereinigungsbereich
Laden
Basisdatenbank
Befüllen
Analyse
Transformation
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–34
Einführung
Themen
DW-Architektur: Komponenten
Data-Warehouse-Manager: zentrale Kontrolle und Steuerung
Monitore: überwachung der Quellen auf Veränderungen
Extraktoren: Selektion und Transport der Daten aus Quellen in
Arbeitsbereich
Transformatoren: Vereinheitlichung und Bereinigung der Daten
Ladekomponenten: Laden der transformierten Daten in das DW
Analysekomponenten: Analyse und Präsentation der Daten
Datenfluss
Kontrollfluss
Ereignisse
Monitor
Stephan Karczewski
Transformation
DataWarehouseManager
MetadatenManager
Data Warehouse und OLAP
Repository
Letzte Änderung: 27.09.2012
1–35
Einführung
Themen
Multidimensionales Datenmodell
Datenmodell zur Unterstützung der Analyse
I
I
I
Fakten und Dimensionen
Klassifikationsschema
Würfel
Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Slice
und Dice
Notationen zur konzeptuellen Modellierung
Relationale Umsetzung
I
Star-Schema, Snowflake-Schema
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–36
Einführung
Themen
ETL-Prozess
Prozess von Extraktion, Transformation und Laden
Extraktion von Daten aus Quellen:
I
I
I
Operative Datenbanken,
Web,
Dateien, etc.
Laden von Daten in das DWH
Aspekte der Datenqualität
I
I
I
Begriff
Probleme
Data Cleaning
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–37
Einführung
Themen
Index- und Speicherstrukturen
Klassifikation
Wiederholung
I
B-Baum und B+-Baum
Mehrdimensionale Indexstrukturen
I
I
I
I
R-Baum
UB-Baum
Bitmap-Index
Vergleich
Weitere Formen
Multidimensionale Speicherung
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–38
Einführung
Themen
Anfragen an Data Warehouses
Gruppierung und Aggregation
Supergroups, CUBE
OLAP-Funktionen aus SQL:2003
Mehrdimensionale Erweiterungen von Anfragesprachen: MDX
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–39
Einführung
Themen
Anfrageverarbeitung und -optimierung
Berechnung von Gruppierung und Cubes
Star-Joins
Weitere Optimierungsaspekte
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–40
Einführung
Themen
Materialisierte Sichten
Materialisierte Sicht (engl. materialized view): vorab berechneter
Ausschnitt aus einer Faktentabelle
Verwendung: Anfrageersetzung
Auswahl: Bestimmung der redundant gehaltenen Daten
I
I
statische vs. dynamische Auswahlverfahren
semantisches Caching
Wartung und Aktualisierung
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–41
Einführung
Themen
Anwendungen für Data Warehouses
Reporting
Datenexploration
I
I
I
Klassifikation
Warenkorbanalyse
Prognose
Anwendungsszenarien
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–42
Einführung
Benchmarks
TPC-Benchmarks
Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org)
I
I
I
I
TPC-C: OLTP Benchmark
TPC-H: Ad-hoc Decision Support (variable Anteile)
TPC-R: Reporting Decision Support (feste Anfragen)
TPC-W: eCommerce Transaktionsprocessing
Vorgegebene Schemata (Lieferwesen)
Schema-, Query- und Datengeneratoren
Unterschiedliche DB-Größen
I
TPC-H: 100 GB - 300 GB - 1 TB - 3 TB -10 TB
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–43
Einführung
Benchmarks
TPC-H: Schema
REGION
NATION
CUSTOMER
SUPPLIER
ORDERS
PARTSUPP
LINEITEM
PART
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–44
Einführung
Benchmarks
TPC-H: Anfragen
SELECT c_name, c_custkey,
o_orderkey, o_orderdate,
o_totalprice, SUM (l_quantity)
FROM customer, orders, lineitem
WHERE o_orderkey IN (SELECT l_orderkey
FROM lineitem
GROUP BY l_orderkey
HAVING SUM (l_quantity) > :1)
AND c_custkey = o_custkey
AND o_orderkey = l_orderkey
GROUP BY c_name, c_custkey, o_orderkey,
o_orderdate, o_totalprice
ORDER BY o_totalprice desc, o_orderdate
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–45
Einführung
Benchmarks
TPC-H: Zahlen (10.000 GB) - 2011
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–46
Einführung
Benchmarks
Produkte
OLAP-Tools/Server
I
MS Analysis Services, Hyperion, Cognos
DW-Erweiterungen für RDBMS
I
Oracle11g, IBM DB2, MS SQL Server: SQL-Erweiterungen,
Indexstrukturen, mat. Sichten, Bulk-Load/Insert, . . .
BI Accelerator
I
I
lese-optimierte DBS-Lösungen: Hauptspeicher-Verarbeitung,
spaltenorientierte Datenorganisation, MapReduce-Techniken,
Cluster-Architekturen
z.B. SAP TREX, Greenplum, Vertica, EXASOL, . . .
ETL-Tools
I
MS Integration Services, Oracle Warehouse Builder, . . .
Stephan Karczewski
Data Warehouse und OLAP
Letzte Änderung: 27.09.2012
1–47
Herunterladen