„Chess Pieces“ nach Kimball im Lifecycle - fbi.h

Werbung
Applied Data Warehousing
Belegnummer 002.22110 (NFE211)
Michael Cordes
Holger Oehring
Matthias Rein
Prolog
 Vorstellung
 Ablauf der Veranstaltung (Mikro & Makro)
 Teilnehmerliste (CNAM)
 Begleitende Literatur
2
2
Prolog
Vorstellung
Michael Cordes
 Architektur & Modellierung
Matthias Rein
 ETL
Holger Oehring
 Metadaten & Tools
3
3
Prolog
Ablauf der Veranstaltung
15.10.2016 MIC
Architektur
9:00 - 12:00 Uhr
4
22.10.2016 MIC
Datenmodellierung
9:00 - 15:00 Uhr
4+2
29.10.2016 MIC
Datenmodellierung
9:00 - 15:00 Uhr
4+2
05.11.2016 MIC
Datenmodellierung
9:00 - 15:00 Uhr
4+2
12.11.2016 MSR
ETL
9:00 - 15:00 Uhr
4+2
19.11.2016 MSR
ETL
9:00 - 15:00 Uhr
4+2
26.11.2016 MSR
ETL
9:00 - 15:00 Uhr
4+2
03.12.2016 HOE
Reporting
9:00 - 15:00 Uhr
4+2
10.12.2016 HOE
Metadaten
9:00 - 15:00 Uhr
4+2
14.01.2017 HOE
QA / Wiederholung
9:00 - 15:00 Uhr
4+2
9:00 - 12:00 Uhr
4
21.01.2017 MIC/MSR/HOE Prüfung (Klausur)
https://www.fbi.h-da.de/organisation/personen/cordes-michael-oehring-holger-rein-matthias.html
MIC
MSR
HOE
Michael Cordes
Matthias Rein
Holger Oehring
Raum
Labor
D14 / 111
D14 / 112
4
4
Begleitende Literatur
Ralph Kimball
 The Data Warehouse Lifecycle Toolkit
 The Data Warehouse Toolkit:
The Complete Guide to Dimensional Modelling
 The Data Warehouse ETL Toolkit
 KDT
http://www.kimballgroup.com/html/forms/sendmail.html?TrkID=DT128_SUBS
Larry English
 Improving Data Warehouse and Business Information
Quality: Methods for Reducing Costs and Increasing
Profits
Bill Inmon
 Managing the Data Warehouse
5
5
Warm-Up
 Begriffe rund um DWH
 Wozu überhaupt ein DWH?
 Das kann DWH in der Praxis sein
6
6
Warm-Up
Begriffe rund um DWH
 Liste mit 20 Fragen rund um‘s Data Warehousing
 Stichwörter ( Brainstorming)
 20 Minuten
 Keine Namen
7
7
Warm-Up
Wozu überhaupt ein DWH?
 Es sind doch alle Daten da!
… aber diese Daten:
 … sind verteilt
 … liegen in unterschiedlichen Strukturen vor
 … haben unterschiedliche Bedeutung
 … dürfen nicht von allen gelesen werden
 … müssen schnell abrufbar sein
 … müssen zeitlich & inhaltlich konsistent sein
 …
8
8
Warm-Up
Das kann DWH in der Praxis sein
9
9
Warm-Up
Das kann DWH in der Praxis sein
10
10
Warm-Up
Das kann DWH in der Praxis sein
RTB QA-Prozess
Workflow-Tool
JIRA
n
Ei
RP
Referenzdatenpfleger
be
ar
b
- neue Anforderungen
- Unterstützung/Eingabe
bzgl. Daten-QA
Maßnahmen entscheiden:
- Teillieferungen
- Korrekturlauf
- etc.
plant
QM
p
QA Manager rüft t
e ch
nis
t fac
p rü f
ch
be
ga
ft F
re i
ein
se n
/w
w
und ertet
his aus
tor
i si e
rt
h
e rt
eilt
OP
Operator
lic
alt
se
es t
o z ch
Pr rwa
t
rte be
sta nd ü
u
inh
Pa
r
d i e a me t
Pro er f
duk ür
tion
Checkliste
flie
s
n
vo
ng
n
ei igu en
ßt cht ng
flie ksi irku
üc lw
e r se
r B ch
te We
Operatingund
Resource-Plan
im
Scheduler
Analyst
SAS, SQL
BA
h
hlic Business Approver
QA-Monitor:
- Process M.
- Business M.
stellt a
uf
un
AV
Arbeitsvorbereiter
fließt ein
BIP - WEB
Anwender
rru
tiert
Regelprozeß
im
Prozeß Repository
sts
:
ts
es
qu rten
e
R sta ng
n
ru
vo l a u f d e
n
n
r
lle ktu enä
e
t
e
n s rr o d
Ei - Ko eth
-M
ide
me n
n/
mi g
ter un
fer fer
L i e e rl i e
nd
So
imple
Sonderprozess:
- Korrektur
- Archivierung
- Reorganisation
Re
e
qu
en
eit
:
ts
es
qu
Re e
n uf
vo r l ä n
n de ture
le
el on ek
st - S o r r
-K
PV
Prozessveantwortlicher
vorgelagerte Systeme
SI
SonderprozessImplementierer
Prozessprotokolle
technisch
is
Bas
für
e
technische Freigab
ltliche Freigabe
automatisierte inha
DK
Dokumentierer
BIP
Freigabefunktion
Veröffentlichung /
Dokumentation /
Archivierung
11
11
Inhalte
 Datenmodellierung (Block I)
 Architekturansätze
 Lebenszyklus
 Projektorganisation
 Anforderungsaufnahme
 Modellierung
 ETL (Block II)
 Analyse der Vorsysteme
 Datenqualität & Testen
 Schlüsselmanagement
 Analyse (Block III)
 Reporting & Analyse
 Speicherstrukturen & Datenbankkonzepte
 Metadaten
 QS
12
12
Ziele eines DWHs
 Informationen müssen
 einfach zugänglich sein
 zusammen passen (Konsistenz)
 geschützt sein
 Unterstützung des Entscheidungsprozesses
 Akzeptanz durch die Anwender
13
13
DWH – Eine Analogie
Verlagswesen
 Kenne deine Leser
 Veröffentliche die richtigen Themen
 Enttäusche (und täusche) die Leser nicht
 Themen (Eingaben) kommen aus verschiedenen
Quellen
 Bearbeitung hinsichtlich Qualität und Konsistenz
 Regelmäßige Veröffentlichung
 Der Erfolg lässt sich an den Lesern ablesen!
14
14
DWH – Eine Analogie
DWH
 Kenne Deine Anwender – den Fachbereich
 Veröffentliche die richtigen Daten
 Wichtig
 Verständlich
 Angemessene Zugriffszeit
 Kosten (TCO)
 Daten kommen aus verschiedenen Quellen
 Sicherstellung der Qualität
 Bedarfsgerechte Datenbereitstellung
 Der Erfolg lässt sich an den Nutzern ablesen!
15
15
Architektur
 Datenbereitstellung
 Extraktion
 Staging
 Transformation
 Berichtswesen & Analyse
 Projektdurchführung
 Anforderungsanalyse
 Datenmodellierung
 Projektmanagement
 …
16
16
Ansatzarten zur Datenbereitstellung
 Corporate Information Factory (CIF) nach Inmon
 „Chess Pieces“ nach Kimball im Lifecycle
17
17
Ansatzarten
Corporate Information Factory (CIF)
Präsentationsschicht
Data Staging
Extrakt
Enterprise
DWH
Extrakt
Extrakt
Load
Normalisiert
(3NF)
E
T
Load
Aggregierte
Daten
für
Geschäftsber
eiche
Auswertung
Zugriff auf Detaildaten
18
18
Ansatzarten
Corporate Information Factory (CIF)
 3NF, Datamarts werden abgeleitet
 Atomare Daten in der Regel nicht in den Datamarts,
sondern nur im EDW: Enterprise DWH
 atomare Daten: Enterprise DWH
 aggregierte Daten: Dimensional Models
19
19
Ansatzarten
„Chess Pieces“ nach Kimball
Data Staging
Präsentationsschicht
Auswertung
Services:
AdHoc SQL
Extrakt
ReportingTools
Datamarts
Data-Mining
Data Stores:
Extrakt
Auswertung
Load
Designziele:
Extrakt
Zugriff auf Detaildaten
Busarchitektur
20
20
Ansatzarten
„Chess Pieces“ nach Kimball im Lifecycle
 Data Staging & Presentation klar getrennt
 Zugriff ausschließlich auf Data Presentation
 Daten werden in Themenbereiche geclustert
 Atomare Daten in der Präsentationsschicht
21
21
Ansatzarten
Hybrid
Data Staging
Präsentationsschicht
Auswertung
Extrakt
Datamarts
Enterprise
DWH
Extrakt
Extrakt
Load
Normalisiert
(3NF)
E
T
Auswertung
Load
Busarchitektur
22
22
Ansatzarten
Hybrid
 Zugeständnis (Inmon):
 Enterprise DWH (persistente Staging Area in 3. NF)
 Aber: klare Trennung Data Staging & Presentation
 Atomare UND aggregierte Daten: Dimensional
Models
 Beide Ansätze werden „verheiratet:
 Prinzipiell Okay, aber teuer!
23
23
Projekt
Evolution eines DWHs
Ermittlung
des
AnalyseBedarfs
und der
Aktuellen
Datenversorgung
Technische
Architektur
Produktauswahl/
Entwicklung
Frontend/Backend
Modellierung
Definition Rahmenwerk
Datenextraktion
Transformation
Laden
Betrieb
Neue
Priorisierung
Begleitende organisatorische
Umsetzungsmaßnahmen
Projekt-Management
24
24
Häufigsten Fehler
1. Es gibt keinen echten Business-Sponsor
2. Erwartungen sind nicht zu erfüllen
3. Unterschätzung der politischen Komponente
4. Daten werden geladen nur weil sie da sind
5. Das DWH wird wie ein OLTP System entworfen
6. Der DWH Manager ist vor allem technisch ausgerichtet
7. Daten sind nicht ausreichend sauber definiert
8. Vertrauen in Performance- und
Skalierungsversprechen (der Hersteller)
9. Ein laufendes DWH wird es schon richten
10. Konzentration auf AdHoc-Reporting
25
25
Projekt
Evolution eines DWHs
Ermittlung
des
AnalyseBedarfs
und der
Aktuellen
Datenversorgung
Technische
Architektur
Produktauswahl/
Entwicklung
Frontend/Backend
Modellierung
Definition Rahmenwerk
Datenextraktion
Transformation
Laden
Betrieb
Neue
Priorisierung
Begleitende organisatorische
Umsetzungsmaßnahmen
Projekt-Management
26
26
Projekt aufsetzen
Definieren
 Bereitschaft abklären
 Senior Management Sponsor
 Business Motivation
 Durchführbarkeit
 Risiken einschätzen
 Datenqualität
 Zusammenarbeit
 Scope & Fahrplan
 Was, wann, wie?
 Business Case & Rechtfertigung
 Kosten & Erträge
 ROI
27
27
Projekt aufsetzen
Planen
 Projekt Identität: Namen
 Besetzen (Rollen)
 Business Sponsor / IT BI Manager
 Projektleiter Business / IT
 Business Analyst
 Data Steward (QS)
 Data Architect/Datenmodellierer/DBA
 Metadaten Manager
 ETL Architekt / Entwickler
 BI Architekt / Entwickler
28
28
Projekt aufsetzen
Planen
 Projektplan entwickeln
 Resourcen
 Aufwandschätzung mit Meilensteinen
 Status
 Abhängigkeiten
 Kommunikationsplan
 Statusmeetings
 JF
29
29
Projekt aufsetzen
Planen
 Projektverwaltung
 KickOff!
 Status überwachen
 Projektplan warten
 Projektdokumentation konsolidieren
 Scope im Auge behalten ( moving targets)
 CRs verwalten
 Warnsignale wahrnehmen und darauf reagieren
30
30
Projekt aufsetzen
 Schlüsselrollen
 Projektleiter Business & IT
 Business Sponsor
 Schlüsselergebnisse
 Projekt Scope & Fahrplan
 Business Case (Rechtfertigung)
 Qualität sichern
31
31
Projekt
Evolution eines DWHs
Ermittlung
des
AnalyseBedarfs
und der
Aktuellen
Datenversorgung
Technische
Architektur
Produktauswahl/
Entwicklung
Frontend/Backend
Modellierung
Definition Rahmenwerk
Datenextraktion
Transformation
Laden
Betrieb
Neue
Priorisierung
Begleitende organisatorische
Umsetzungsmaßnahmen
Projekt-Management
32
32
Anforderungen aufnehmen
Arten
 Interviews
 Workshops
 Unbedingt zu vermeiden: Attributlisten
33
33
Anforderungen aufnehmen
Interview vorbereiten
 Interview Team
 Verständnis für das Thema
 Partner auswählen
 Fragebogen
 Terminplan
 Partner vorbereiten
 Interview:Grundsätzliches
34
34
Anforderungen aufnehmen
Interview
 Durchführen
 abholen
 bedanken
 Aufbereiten
 Durchführender & Schreiber
 Review
 alle wichtigen Punkte erfahren?
35
35
Anforderungen aufnehmen
Anforderungen
 Veröffentlichen
 Priorisieren
 Anpassungen durchführen
36
36
Anforderungen aufnehmen
Schwierige Interviewpartner
 Typen
 ausgenutzt, komatös, übereifrig, allwissend, nicht
vorhanden
 Strategien
 gute Vorbereitung zum Thema/Inhalt, abholen
 in der vereinbarten Zeit das Beste daraus
machen, ggf. abbrechen
 gute Vorbereitung zum Thema/Struktur, lenken
 Zuhören, aber nicht blind alles glauben
 neues Projekt suchen
37
37
Projekt
Evolution eines DWHs
Ermittlung
des
AnalyseBedarfs
und der
Aktuellen
Datenversorgung
Technische
Architektur
Produktauswahl/
Entwicklung
Frontend/Backend
Modellierung
Definition Rahmenwerk
Datenextraktion
Transformation
Laden
Betrieb
Neue
Priorisierung
Begleitende organisatorische
Umsetzungsmaßnahmen
Projekt-Management
38
38
Technische Architektur
 Motivation
 „Da steht doch ein Datenbankserver …“
 Überblick
 Die Anforderungen sind die Basis
 Von der (Daten-)Quelle zum Analysten
 Features
 Metadatengesteuert
 Service Layers
 Evolution DW/BI Architektur
39
39
Technische Architektur
Back Room
Front Room
Quellsysteme
ETL System
Presentation
Server
RDBMS,
Textdateien, …
Extract
Clean
Conform
Deliver
Anhand konformer
Dimensionen
miteinander
verbundene
Datamarts
ETL Mgmt Services
BI Anwendungen
Standard-Reporting
AdHoc Analysen: SQL
Data Mining
BI Mgmt Services
Metadaten: technisch, fachlich, prozess
Infrastruktur und Zugriffsschutz
40
40
Technische Architektur
Back Room ("Die Küche")
 Generelle ETL Anforderungen
 Produktiv einsetzbar
 Usability
 Metadatengesteuert
 Selber machen oder kaufen?
41
41
Technische Architektur
Back Room ("Die Küche")
ETL Ablauf
 Quellsysteme
 ODS / Reporting ODS
 XML
 Log Files, ...
 Proprietäre Formate
 Extrahieren
 Bereinigen und Anpassen
 Beliefern
42
42
Technische Architektur
Back Room ("Die Küche")
ETL Ablauf bzw. Kimball‘s 34 Subsysteme
 Extrahieren
 Data profiling (1)
 Change Data Capture System (2)
 Extract System (3)
 Bereinigen und Anpassen (Achtung!)
 Data cleansing (4)
 Fehlerbehandlung (5)
 Audit Dimension (6)
 Duplikate erkennen (7)
 Konformität erstellen (8)
43
43
Technische Architektur
Back Room ("Die Küche")
ETL Ablauf (Forsetzung)
 Beliefern
 SCD Manager (9)
 ID Erzeugung (10)
 …
 OLAP Cube Builder (20)
 Datenverteiler (21)
 ETL Management Services
 Job Scheduler (22)
 …
 Metadaten Repository Manager (34)
44
44
Technische Architektur
Back Room ("Die Küche")
 Zusätzliche BR Services
 Datendienste (Verkäufer  Hersteller)
 Funktionale Dienste (ETL, Reporting)
 Lieferdienste (ERP anzapfen)
 ETL Data Stores
 Extrakte
 Lookup-Tabellen
 Stage
 ETL Metadata
 Technisch (Datenquelle, Job-Logik)
 Prozess (Job Startzeitpunkt, Dauer)
 Fachlich (Dateninhalte, -verteilung, Data Dictionary)
45
45
Technische Architektur
Presentation Server
 Anforderungen
 Jeder möchte alles sehen
 Vom Großen zum Kleinen
 Single Source of Truth
 Skalierung
 Vertikale Partitionierung auf verschiedene
Plattformen
 Horizontale Partitionierung auf verschiedene
Tabellen
 Komponente im DWH, die die Abfragezugriffe
verwaltet
46
46
Technische Architektur
Front Room ("Der Gastraum")
 Zugriffsarten
 Direkt per SQL
 Standardberichte
 Data Mining
 Operatives BI ( Inventarverwaltung)
47
47
Technische Architektur
Front Room ("Der Gastraum")
 BI Management Services
 Metadaten
 Zugriffsschutz
 Aktivitätsmonitoring
 Query-Verwaltung
 Enterprise Reporting
 Web-Zugriff
48
48
Technische Architektur
Front Room ("Der Gastraum")
 BI Data Stores
 Berichte
 Application Server Cache
 Lokale Benutzer-Datenbanken
 Schnittstelle für Ergebnisse aus analytischen
Anwendungen (z.B. Data Mining)
 Achtung: Zugriffsschutzthematik
49
49
Technische Architektur
Infrastruktur
Randbedingungen
 Datenvolumen
 Volatilität / Dynamik
 Anzahl der Nutzer
 Anzahl der Geschäftsprozesse (Datenquellen)
 Art der Nutzung
 Service Level Agreements
 Technische Machbarkeit
 Verfügbarkeit der Software
 Finanzieller Rahmen
50
50
Technische Architektur
Infrastruktur
Parallelverarbeitung
 Symmetric Multiprocessing (SMP)
 shared memory
 Massively Parallel Processing (MPP)
 shared nothing
 Commodity Hardware
 Hadoop
 Non-Uniform Memory Architecture (NUMA)
 hybrid
51
51
Technische Architektur
Metadaten zu Auswertung
Nutzen eines Metadaten-Datamarts
 Impact Analysis
 Revision und Dokumentation
 Metadatenqualität – und Management
52
52
Architekturplan & Produktauswahl
Architekturplan erstellen
In 8 Schritten zum Architekturplan:
1. Aufstellen einer Architektur Task Force
2. Architektur-bezogene Anforderungen sammeln
3. Vorläufiges Architektur-Implikations-Dokument
4. Architekturmodell erstellen
5. Architekturimplementierungsphasen festlegen
6. Subsysteme entwerfen und spezifizieren
7. Anwendungs-Architektur-Plan-Dokument erstellen
8. Review
53
53
Architekturplan & Produktauswahl
Produkte auswählen
In 8 Schritten zur Produktauswahl:
1. Wie funktioniert der Einkaufsprozeß
2. Erstellen einer Produkt-Evaluierungs-Matrix
3. Markterhebung durchführen
4. Auswahlmöglichkeiten reduzieren
5. Kandidaten evaluieren
6. Ein Produkt empfehlen
7. Trial
8. Kaufverhandlung
54
54
Herunterladen