Überblick Trends (1) Advanced Analytics Operational BI

Werbung
Datenintegration und -analyse
9. DWH/BI Trends
© Prof. Dr.-Ing. Wolfgang Lehner |
> Motivation
“If you are looking for a career where your
services will be in high demand,
you should find something where you provide
a scarce, complementary service to something
that is getting ubiquitous and cheap.
So what's getting ubiquitous and cheap?
Data.
And what is complementary to data?
Analysis.”
Prof. Hal R. Varian,
UC Berkeley,
Chief Economist at
Google
[Jeffrey Cohen, Brian Dolan, Mark Dunlap, Joseph M. Hellerstein, Caleb
Welton: MAD Skills: New Analysis Practices for Big Data. PVLDB, 2009.]
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
2
> Gliederung
Motivation und Neue Anforderungen




Evolution des DWHs
Advanced Analytics
Operational BI und Real-Time ETL
Situational BI
MAD Skills
 Magnetic
 Agile
 Deep
Technische Trends und Herausforderungen




Hybrid Storage
Schemaflexible Datenverwaltung
Integrierte Advanced Analytics
Skalierbarkeit
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
3
>
Motivation und Neue Anforderungen
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
4
> Motivation
Evolution von DWH Anwendungen
 Trend 1: Advanced Analytics
 Trend 2: Operational BI
Reporting
Analysis
What did happen?
Why did it happen?
What will happen?
What happens
right now?
Increasing number of
ad-hoc queries.
Extension of the
analytical model
(advanced analytics).
Continuous streams of
ad-hoc queries and
propagated updates.
Create reports with
pre-defined queries.
Step 1
Step 2
Batch
© Prof. Dr.-Ing. Wolfgang Lehner |
Forecasting
Step 4
Step 3
Adhoc
Operational BI
Analytics
Updates
9 Exkurs: DWH/BI Trends
|
5
> Advanced Analytics
Advanced Data Analytics
Analysis Scenarios
How many female WWF fans
under the age of 30 visited the
Toyota community over the last
4 days and saw a Class A ad?
How are these people similar to
those that visited Nissan?
31
29
38
22
42
26
19
14
11
Traditional Data Analytics
© Prof. Dr.-Ing. Wolfgang Lehner |
Beispiele für Advanced Analytics
 Klassenbildung (Clustering)
 Klassifikation
 Zeitreihenvorhersage
(Forecasting)
 Assoziationsregeln
9 Exkurs: DWH/BI Trends
|
6
> Operational BI
operativ
taktisch
strategisch
Zeithorizont
Art der Entscheidung
Entscheidungsebene
Datenlatenz
Datenquellen
• viele unterschiedliche Quellen
• auch unstrukturiert
• aggregiert
• langfristig
• Unternehmenspolitik
• breit
• Unternehmen
• hoch, historische
Daten
• zeitraumbezogen
• mittelfristig
• Kontrolle und Umsetzung von Unternehmenszielen
• relativ breit
• Unternehmen,
Abteilungen
• eher hoch
• historisch und
zeitpunktbezogen
• viele Quellen
• strukturiert und
semistrukturiert
• schwach aggregiert
• kurzfristig
• Preisbildung
• Vertragskonditionen
• teilw. automatisierbar
• fokussiert
• einzelne Prozesse
• niedrig, operative
Daten
• zeitpunktbezogen
• wenige Quellen
• hoher Detailgrad
• strukturiert
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
7
> Der Begriff „Echtzeit“
Klassisches Verständnis
 Ergebnis innerhalb eines definierten Zeitraums garantiert (harte Echtzeit)
 Zeitraum darf verpasst werden (weiche Echtzeit)
Begriff im Kontext von Data Warehouses
 zeitnahe Abbildung der Diskurswelt in das Data Warehouse
 schnelle Anfrageverarbeitung
 Alternative Begriffe: Right-Time, Near-Real-Time oder Living Data Warehouse
© Prof. Dr.-Ing. Wolfgang Lehner |
Datenverzögerung
Anfrageverzögerung
Datenintegration
Anfrageverarbeitung
Erkenntnis,
Entscheid und
Umsetzung
Ereignis B
Ereignis A
Informationsverzögerung
|
8
> Verwandte Arbeiten und Techniken
Anfrageverzögerung
Datenverzögerung
Verwandte Arbeiten und Techniken
Change Data
Capture
Logische und physische
Optimierung von ETLProzessen
Schnelles Laden unter
Konsistenzerhalt
Inkrementelle Wartung
materialisierter Sichten
Dynamische
Ablaufplanung
Spaltenorientierte
Datenbanksysteme
© Prof. Dr.-Ing. Wolfgang Lehner |
Hauptspeicherdatenbanken (Kompression)
BitmapIndizes
Materialisierte
Sichten
Alternative HW
(GPU, FPGA)
Star-JoinOptimierungen
Parallelisierung
(MPP)
|
9
> State-of-the-Art
Ad-Hoc
Queries
Hohe Performance für ad-hoc OLAP-Anfragen
 Column-Stores
 In-Memory Datenbanken
 Parallelisierung
Hohe Performance für
kontinuierlichen Strom von
Updates
periodical
merge
write-optimized
tmp store
 Zusätzlicher Temp-Store
 Periodischer Merge in den
Column-Store
read-optimized
schema and storage
Was ist mit Punktanfragen?
Beispiele
 SAP BWA
 (Sybase IQ)
 MonetDB, C-Store
© Prof. Dr.-Ing. Wolfgang Lehner |
Updates (Trickle Feed)
 Ziel: System mit
balancierter read/write performance
9 Exkurs: DWH/BI Trends
|
10
> State-of-the-Art (2)
Ziele
 Hohe Lese-Performance für analytische und operationale ad-hoc Anfragen
 Hohe Schreib-Performance für kontinuierlichen Strom von Aktualisierungen bzw.
Einfügeoperationen
Problem des Mix aus OLTP und OLAP Anfragen
 DWH optimiert für OLAP Arbeitslast mit scan-intensiven Aggregationsanfragen
Problem der hohen Update-Raten
 Kontinuierlicher Strom von Aktualisierungen in lese-optimierten DWH
Infrastrukturen
 OLTP Anfragen werden durch OLAP-zentrische Lese-Optimierung
beeinträchtigt (State-of-the-Art ist noch nicht ausreichend)
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
11
> Überblick Trends (1)
Advanced
Analytics
Operational BI
Trends und
Anforderungen der
Anwendungsebene
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
12
> Situational BI Today
Query: „customers from country with GDP greater $1B“
local data warehouse schema
© Prof. Dr.-Ing. Wolfgang Lehner |
external data sources,
e.g. open data
|
13
> Situational BI – Spreadmarts
Spreadmarts
 QlikTech Qlikview , Tableau Desktop, Panoratio PANOSight, Comma Soft Infonea
Cube, HumanIT InfoZoom, PivotLink, ….
 Microsoft PowerPivot für Excel 2010 (Projektname „Gemini“)




Excel-Plugin zur Datenanalyse
Großer Datenmengen, 100 Mio. Tupel und mehr
Keine vordefinierte Datenmodelle und -strukturen
Frei von Dimensionen, Hierarchien, Kennzahlen,
Cubes, MDX,…
 500 Millionen Excel-Nutzer weltweit
 in wenigen Jahren 500 Millionen OLAP-Entwickler (“BI for the masses”)?
http://www.powerpivot.com
Fachbereich
Data Marts
Data Warehouse
Konsolidierte Basisdaten
oder
???
Arbeitsbereich
Quellsysteme
© Prof. Dr.-Ing. Wolfgang Lehner |
…
…
Fremdsysteme
9 Exkurs: DWH/BI Trends
|
14
> Situational BI – Mashups
Mashups





bestehende Inhalte miteinander verbinden, neue Inhalte oder Dienste generieren
Datenintegration und -analysen „on the fly“
Information Mashup Layer / Mashup Fabric
Open Mashup Alliance (Konsortium aus JackBe, HP, Intel, Adobe, …)
Open-source Enterprise Mashup Markup Language (EMML)
 Deklarative, XML-basierte Sprache
 Datenformate: XML, JSON, JDBC,
Java-Objekt und primitive Datentypen
 Komplementiert durch JavaScript, Java
 Vorteil IT




Wiederverwendbarkeit
Geringere Redundanz
Einfache (Re-)integration
Mashups als definierte Anforderungsanalyse
BI-Prosumenten
Privat
Dienstanbieter
Unternehmen
1
BI-Mashup-Plattform
2
MashupErstellung
Kollaboration
Visualisierung
Abrechnungsmodelle
Skalierbare Datenmanagementplattform/ Cloud
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
15
> Situation BI Diskussion
Ad-hoc Datenintegration
Kosten
Realisierung durch
+
-
IT
Fachbereich
• Abschaltung von
Spreadmarts
• Verpflichtung zu IT-Standards
• Werkzeugunterstützung,
Spreadmarts
• Mashups, Cloud, SOA
-
• Kompetenzcenter
• Cooperate Memory
• Agile Entwicklung (Scrum,
Extreme Programming)
• Mashups, SOA, Cloud
Dynamik der Änderung seitens des Fachbereichs
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
16
> Überblick Trends (2)
Advanced
Analytics
Operational BI
Trends und
Anforderungen der
Anwendungsebene
Situational BI
© Prof. Dr.-Ing. Wolfgang Lehner |
(Ad-hoc
Advanced Analytics und
Datenintegration)
9 Exkurs: DWH/BI Trends
|
17
>
MAD Skills
[Jeffrey Cohen, Brian Dolan, Mark Dunlap, Joseph M. Hellerstein, Caleb Welton:
MAD Skills: New Analysis Practices for Big Data. PVLDB 2009]
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
18
> Motivation
In the days of Kings
and Priests
 Computers and Data: Crown Jewels
 Executives depend on computers
 But cannot work with them directly
 The DBA “Priesthood”
 And their Acronymia: EDW, BI, OLAP
The architected Enterprise DWH
 Rational behavior…for a bygone era
 “There is no point in bringing data … into the
data warehouse environment without
integrating it.”
—Bill Inmon, Building the Data Warehouse,
2005
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
19
> Motivation (2)
New Realities
 TB disks < $100
 Everything is data
 Rise of data-driven culture
 Very publicly espoused by Google, Wired, etc.
 Sloan Digital Sky Survey, Terraserver, etc.
The quest for knowledge used
to begin with grand theories.
Now it begins with massive
amounts of data.
Welcome to the Petabyte
Age.
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
20
> MAD Skills
Magnetic
 „Attract data and
practitioners“
 Nutzung aller verfügbaren
Datenquellen unabhängig
von der Datenqualität
Agile
 „Rapid iteration: ingest, analyze, productionalize“
 Kontinuierliche und schnelle Evolution
der physischen und logischen Strukturen
 ELT (Extraction, Loading, Transformation)
Deep
 „Sophisticated analytics in Big Data“
 Erweiterte algorithmische Laufzeitumgebung
 Ad-hoc Advanced Analytics und Statistik
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
21
> DWH Nutzung
Zyklus der Datenanalyse




Analysts trump DBAs
They are data magnets
They tolerate and clean dirty data
They like all the data
(no samples/extracts)
 They produce data
“In sum, a healthy
business should
not assume an
architected
data warehouse,
but rather an
evolving structure
that iterates
through a
continuing cycle of
change”
MAD Modellierung und Nutzung
1. The business performs analytics
to identify areas of potential improvement.
2. The business either reacts to or ignores this analysis.
3. A reaction results in new or different business
practices that typically generate new data sets.
4. Analysts incorporate new data sets into their models.
5. The business again asks itself
”How can we improve?"
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
22
> Überblick Trends (3)
Advanced
Analytics
Operational BI
Trends und
Anforderungen der
Anwendungsebene
Anforderungen an die
Datenverarbeitung
© Prof. Dr.-Ing. Wolfgang Lehner |
Situational BI
(Ad-hoc
Advanced Analytics und
Datenintegration)
MAD Skills
(Magnetic
Agile
Deep
on big data)
9 Exkurs: DWH/BI Trends
|
23
>
Technische Trends und Herausforderungen
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
24
> Hybrid Storage - Strategien
Ziele
 Hohe Lese-Performance für analytische und operationale ad-hoc Anfragen
 Hohe Schreib-Performance für kontinuierlichen Strom von Aktualisierungen
Magnetic
Agile
Deep
Kombination von Storage Engines
 Manuelle Auswahl des Physischen Designs (Row, Column) auf Tabellengranularität
 Alternativ: Replikation und Auswahl durch Anfrageoptimierer
Read/Write Stores
[Alfons Kemper, Thomas Neumann: HyPer: A hybrid OLTP&OLAP main memory
database system based on virtual memory snapshots. ICDE 2011:195-206]
 Column-Store (leseoptimiert) in Kombination mit Write-Store (siehe State-of-the-Art)
 Behebt Problem der kontinuierlichen Updates, jedoch Problem von Punktanfragen
Chunks
 Zusätzlich zu Read/Write Stores
 Horizontale Fragmentierung der Columns
in Chunks (Punktanfragen müssen nur noch Chunk scannen)
Horizontale und Vertikale Fragmentierung / Partitionierung
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
25
> Hybrid Storage - Ausblick
Beobachtung
 Column-Stores und Row-Stores haben Vorteile und Nachteile
Magnetic
Agile
Deep
Logische Konsequenz?
Column-Store
a1
a2
a3
a4
b1
b2
b3
b4
c1
c2
c3
c4
d1
d2
d3
d4
Row-Store
e1
e2
e3
e4
[Martin Grund, Jens Krüger, Hasso
Plattner, Alexander Zeier, Philippe CudréMauroux, Samuel Madden: HYRISE - A
Main Memory Hybrid Storage Engine.
PVLDB 4(2):105-116 (2010)]
a1 b1 c1 d1 e1
Gibt es etwas
dazwischen?
a2 b2 c2 d2 e2
a3 b3 c3 d3 e3
a1
a2
a3
a4
b1
b2
b3
b4
c1
c2
c3
c4
d1
d2
d3
d4
e1
e2
e3
e4
a4 b4 c4 d4 e4
Finde die optimale vertikale (und horizontale) Fragmentierung in Bezug auf die aktuelle
Arbeitslast des Systems.  ein bekanntes aber ungelöstes Problem
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
26
> Schema Flexibility
Beobachtungen
Magnetic
Agile
 Vielzahl von agilen Anwendungen mit fast permanenten Überarbeitung, Erweiterung
 Hohe Dynamik der logische Struktur der Daten
 Beispiele: flexible BI-Anwendungen, ELT, e-Science
Ansätze





Key-Stores (Key/Value-Paare) – Anwendung übernimmt die Datenverwaltung
RDF-Datenbanken (semantische Ablage der Daten in allgemeinster Form)
Multi-Tenancy Datenbanken
Verwaltung dünnbesetzter Datenräume (effiziente Speicherung)
Beispiele
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
27
> Integrated Data Analytics
Deep
Big Data
Integration von Advanced Analytics
in skalierbare Datenmanagementsysteme
 Statistik Systeme i.d.R. nicht skalierbar
 Unterstützung von „Deep Analytics“ auf
Massendaten erforderlich
 Integration existierender Algorithmen
mit Fokus auf Systemarchitektur
Mehrsprachige Entwicklung
 SQL oder Map Reduce
 Sequentieller Code in unterschiedlichen Sprachen
 Beispiele: Perl, Python, Java, R
Beispiele
 Sampling, Clustering (VL 11), Forecasting (VL 12), Klassifikation (VL13),
Assoziationsregeln (VL 14)
 Ricardo: Integrating R and Hadoop (im Rahmen der „IBM eXtreme Analytics Platform (XAP)“)
 Zerlegung von Algorithmen und
Ausführung mit R bzw. Hadoop
© Prof. Dr.-Ing. Wolfgang Lehner |
[Sudipto Das, Yannis Sismanis, Kevin S. Beyer, Rainer Gemulla, Peter J. Haas,
John McPherson: Ricardo: integrating R and Hadoop. SIGMOD 2010]
9 Exkurs: DWH/BI Trends
|
28
> Scalability
Deep
Big Data
Virtualisierung
 Multi-Tenancy (N:1)
 Lastbalancierung (1:N, N:1)
 Ressourcen: Storage, CPU, Memory / Betriebssystem, DBMS
 Heterogene Hardwarearchitekturen (CPU vs. GPU vs. FPGA / Mem vs. Flash vs. Disk)
Parallelisierung
 Operational Web-Scale DM (z.B. DHT)
 Analytical Web-Scale DM (Map Reduce, Hadoop, Dryad, HadoopDB (Hybrid))
 Erweiterungen auf Basis des analytischen Verarbeitungsmodells aber Spezifikation
mit Skriptsprachen: Sawzall, PigLatin, Scope
 Siehe „Web-Scale Data Management“
Anfrageoptimierung




Parallelisierung von Anfragen (Multi-Core, Many-Core, SIMD, etc.)
Shared Scans: Kontinuierlicher DB-Scan und Vergleich mit mehreren Anfragen
Multi-Query Optimization (z.B: Transient Views, Recycling Intermediates, etc.)
Adaptive Query Processing / Constant Time Query Processing / Robust Plans
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
29
> Überblick Trends (4)
Advanced
Analytics
Operational BI
Trends und
Anforderungen der
Anwendungsebene
Anforderungen an die
Datenverarbeitung
Trends der
Datenverarbeitung
© Prof. Dr.-Ing. Wolfgang Lehner |
Situational BI
(Ad-hoc
Advanced Analytics und
Datenintegration)
MAD Skills
(Magnetic
Agile
Deep
on big data)
Hybrid Storage
Schema Flexibility
Scalability
Integrated
Advanced Analytics
9 Exkurs: DWH/BI Trends
|
30
> Zusammenfassung
Motivation und Neue Anforderungen




Evolution des DWHs
Advanced Analytics
Operational BI und Real-Time ETL
Situational BI
MAD Skills
 Magnetic
 Agile
 Deep
Technische Trends und Herausforderungen




Hybrid Storage
Schemaflexible Datenverwaltung
Integrierte Advanced Analytics
Skalierbarkeit
© Prof. Dr.-Ing. Wolfgang Lehner |
9 Exkurs: DWH/BI Trends
|
31
> LV Datenintegration- und Analyse
Teil 3:
Anwendung: Data Mining
Überblick der Vorlesung
10
11
12
13
14
15
 0 Prolog und Organisatorisches
 1 Einführung und Klassifikation
Einführung KDD-Prozess
Clustering
Forecasting
Klassifikation
Assoziationsregeln
Zusammenfassung
AP 1
Teil 1:
Datenbeschaffung
und -konsolidierung
2
3
4
5
Architektur Data Warehouse
Multidimensionale Modellierung
Relationale Abbildung
Daten- und Schemaintegration
© Prof. Dr.-Ing. Wolfgang Lehner |
AP 2
SQL/OLAP Erweiterungen
Fragmentierung/Partitionierung
Materialisierte Sichten
DWH Trends/Hybride Systeme
DWH
S1
S2
Teil 2:
Datenbereitstellung
und -analyse
6
7
8
9
S3
9 Exkurs: DWH/BI Trends
|
32
Herunterladen