Data Analytics

Werbung
Data Analytics
Wie sich Daten sinnvoll nutzen lassen
Prof. Dr. Stefan Selle
Netzwerk ikt.saarland bei saar.is
BVL, Regionalgruppe Saar/Rheinpfalz
22.02.2016
Agenda
≡ DIGITALISIERUNG
≡ BUSINESS INTELLIGENCE / BIG DATA
≡ DATA MINING & PREDICTIVE ANALYTICS
I
DIGITALISIERUNG
20.01.2016 Deutsche-Bank-Chef John Cryan:
4
Foto: Deutsche Bank
» Bargeld wird in 10 Jahren verschwinden. «
htw saar Forschungsprojekt 2015:
Mobile Payment
5
Foto: Mobile
Marketing Magazine
htw saar Forschungsprojekt 2015: Globus-Kundenumfrage (n = 6.536)
Was meint der Kunde?
6
Nutzung der Zahlungsmöglichkeiten im stationären Handel
0%
20%
40%
60%
80%
EC- und Maestro Karte
81%
Kreditkarte
44%
Handelskarte mit Bezahlfunktion…
0%
100%
86%
Barzahlung
Wichtige Kriterien bei einem Bezahlverfahren
16%
Kosten
94%
Bedienkomfort
89%
88%
7%
Schnelligkeit
+ 29%
Aktuell

79% 86%
In App-Payment
67%
Attraktive Mehrwertdienste
0%
SMS
84%
Mobilität
Vergleich mobiler Zahlungsarten
6% 26%
100%
98%
Kontaktloses oder mobiles bezahlen…
5% 26%
80%
Zuverlässigkeit
Nützlichkeit
In 3 Jahren
60%
99%
7%
5%
40%
Sicherheit
Sonstiges (Gutscheine, Rechnung,…
Geldkarte (aufgeladene EC-Karte)
20%
5%
20%
30%
40%
46%
M-Coupons
46%
45%
M-Tickets
mobile Webseiten
50%
M-Receipt
M-Treuekarte
34%
Smartphone
10%
M-Recommendations
38%
30%
Empfehlung für den stationären Handel
 Abwarten: GAFA oder PayPal werden „übernehmen“
 Auf anderen Gebieten zu punkten (z.B. Digitale Belege)
Quelle: Hälsig (2015)
GAFA
7
17 Jahre
39 Jahre
12 Jahre
21 Jahre
442 Mrd. USD + 542 Mrd. USD + 234 Mrd. USD + 239 Mrd. USD
= 1.439 Mrd. USD Marktkapitalisierung (*)
Umsatz 2015: 434 Mrd. USD
Zum Vergleich:
 DAX-30-Unternehmen: 924 Mrd. Euro = 1.040 Mrd. USD (*)
+38 %
 Bruttoinlandsprodukt von Österreich (8,7 Mio. Einwohner) im Jahr 2014: 437,12 Mrd. USD (Nr. 27 weltweit)
(*) Stand: 12.02.2016
Quellen: comdirect (2016), statista (2016)
Google weiß, wo man sich befindet
8
Knowledge Graph
Z
Apple weiß, wie man Kunden / Konsumenten begeistert
iTunes
App Store
iCloud
Musik
Software
Medien
Filme
eBooks
Docs
Serien
Spiele
Fotos
Geschlossenes Ökosystem
9
Facebook kennt uns besser als Freunde und Familie
10
 2015: Studie mit 86.220 Freiwilligen
 Kooperation der Universität Cambridge mit der Stanford-Universität
 Fragebogen mit 100 Elementen zum Fünf-Faktoren-Modell (FFM)
der Persönlichkeitspsychologie / „Big Five“
 Neurotizismus, Extraversion, Offenheit für Erfahrungen,
Gewissenhaftigkeit und Verträglichkeit
 Computer-Algorithmus (Lineare Regression) vs. Einschätzung von Personen




ab 10 Likes: Computer ist besser als Arbeitskollegen
ab 70 Likes: Computer ist besser als Freunde
ab 150 Likes: Computer ist besser als Familie
ab 300 Likes: Computer ist besser als Ehepartner
 Ein durchschnittlicher Facebook-Nutzer teilt 227 Likes
 Zum Selbst-Testen: http://applymagicsauce.com/you.html
Quelle: Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans,
Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040.
Amazon weiß schon vorher, was man gleich kaufen wird
Ihnen könnten diese Artikel gefallen
Wird oft zusammen gekauft
Sie haben angesehen
Inspiriert von Ihren Stöber-Trends
Foto: desktopwallpapers.co
Ähnliche Artikel wie die, die
Sie sich angesehen haben
Kunden, die diesen Artikel gekauft haben, kauften auch
11
Daten werden zur strategischen Ressource
12
Wertbeitrag
Daten als
Prozessergebnis
Daten als
Befähiger
von
Prozessen
Daten als
Befähiger
von
Produkten
Daten als
Produkt
Zeit
Quelle: Otto (2015)
II
BUSINESS INTELLIGENCE
/
BIG DATA
Wo kommen die Daten her?
PPS, WaWi, ERP,
CRM, SCM, …
Embedded Systems,
Sensoren, M2M
Internet, XaaS,
Cloud Computing
Web 2.0, Social Media
14
Mobile Apps &
Location Bases Services
Streaming Dienste
Wie werden die Daten gespeichert?
Traditionelle
DBMS
OLTP
15
DW
OLAP
NoSQL
Traditionelle Datenbank
 * seit den 1970er Jahren; Edgar F. Cobb (IBM)
 (Mathematisch fundiertes) relationales Modell als Grundlage
 Daten in zweidimensionalen Tabellen (Spalten, Zeilen)
 Normalisierung: Redundanzfreie Speicherung
16
Traditionelle
DBMS
OLTP
 ACID-Prinzip: Atomicity, Consistency, Isolation, Durability
 Standardisierte Schnittstelle SQL: Structured Query Language
 Physikalisch: Zeilenweises Speichern auf Festplatte (Datensatzorientiert)
 Optimiert für viele schreibende Operationen / Transaktionen
 OLTP: Online Transactional Processing
 Aber: Nicht konzipiert und optimiert für Analysezwecke
Data Warehouse
 Physische Datenbank zur Integration von Daten aus
beliebigen, heterogenen Quellen zu Analysezwecken
 Daten ändern sich nicht mehr, d.h. nur lesende Zugriffe
 Optimierung auf Performance, Redundanzen sind sinnvoll
 „Single point of truth“ (als Basis eines BI-Systems)
 Multidimensionale Schemata
 Fakten und Dimensionen
 Stern, Schneeflocke, Galaxie
 OLAP: Online Analytical Processing
 Multidimensionale, konzeptionelle
Sicht auf Daten (in Form eines Cubes)
 Aufwendiger ETL-Prozess
 Extrahieren, Transformieren, Laden
 Daten bereinigen, harmonisieren, …
17
DW
OLAP
In Memory Datenbank
18
 Daten liegen vollständig und permanent im Arbeitsspeicher
 Höhere Hardwareanforderungen als bei konventionellen Datenbanken
 Abgestimmtes Sicherungskonzept, da es sich beim RAM um einen
flüchtigen und nicht einen persistenten Arbeitsspeicher handelt
 Sehr schnelle Zugriffzeiten
 Ca. 100 ns statt 1.000.000 ns bei einer traditionellen DB
 Daten liegen in komprimierter Form vor
 Zeilen- und Spaltenorientiertes Arbeiten
 OLTP (Online Transaction Processing)
 OLAP (Online Analytical Processing)
 Beispiel: SAP HANA
Quelle: Oracle (2016)
NoSQL-Datenbank
19
 Not only SQL




„Strukturierte Datenspeicher“, aber kein relationales DBMS
Flexible Speichermöglichkeiten statt starre Schema-Definitionen
Performance ist wichtiger als Konsistenz (kein ACID-Prinzip)
Skalierbarkeit: Verteilung der Daten auf Cluster (z.B. Hadoop)
Kategorie
Anwendung
Beispiele
Dokumentenorientiert
Unstrukturierte Daten
MongoDB, CouchDB
Spaltenorientiert
Analysen
Cassandra, HBase
Key-Value Store
Listen, Sets
Redis, Memcache, Riak
Graph
Knoten & Beziehungen
Neo4j, Giraph
NoSQL
Big Data: Die 4 Vs
Volume
20
Velocity
Variety
Veracity
data at rest
data in motion
data in many forms
data in doubt
Terabytes
Petabytes
Exabytes
Echtzeit
Neartime
Streams
Strukturierte Daten
Semistrukturierte Daten
Unstrukturierte Daten
Fehlende Daten
Ungenaue Daten
Fehlerhafte Daten
Quelle: Walker (2012)
BI / Big Data in einer integrierten Anwendungslandschaft
21
Komplexität
Quelle: BITKOM (2012)
Komplexes BI-System vs. Tabellenkalkulation / Excel
22
 » 90 % der untersuchten Mappen mit mehr als 150 Zeilen enthalten mindestens einen Formel-Fehler. «
Quelle: Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181 (1996) 75 – 77.
 » In 20 von 22 analysierten Mappen waren signifikante Fehler (91 %). Das Erstaunliche daran ist jedoch,
dass 81 % der Anwender trotzdem davon ausgehen, sie würden auf dieser Grundlage einen wesentlichen
Vorteil gegenüber Wettbewerbern erlangen. «
Quelle: KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998.
 » In 7 unabhängigen Studien wurden insgesamt 113 Mappen untersucht und dabei in 88 % der Fälle größere
Fehler gefunden. «
Quelle: Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21.
 Ein prominentes Beispiel
 Kenneth Saul Rogoff, US-amerik. Ökonom und Professor an der Harvard University
 Mai 2010: Growth in a time of debt (zusammen mit Carmen Reinhart):
Das Wirtschaftswachstum einer Volkswirtschaft verringert sich dann stark,
wenn die Verschuldung auf mehr als 90 Prozent des Bruttoinlandsproduktes steigt.
Empfehlung: Radikale Sparpolitik!
 April 2013: Studienarbeit des VWL-Studenten Thomas Herndon:
Die Excel-Tabelle zur Berechnung enthielt Fehler. Einige Daten wurden nicht
berücksichtigt, andere falsch gewichtet.
Foto: Jason Grow
Datenvirtualisierung: Reduzierung von Komplexität
23
 Abstrahieren und Integrieren über Schnittstellen (statt Duplizieren per ETL-Prozess)
Quelle: Denodo (2016)
III
DATA MINING
&
PREDICTIVE ANALYTICS
25
Foto: Elsevier Inc.
Cross Industry Standard Process for Data Mining (CRISP-DM)
Geschäftsverständnis
Einsatz der
Ergebnisse
Modellbewertung
27
Datenverständnis
Datenaufbereitung
Modellbildung
Quelle: Chapman (2000)
Beispiel
Beschreibung Visualisierung
Kategorien im Data Mining
28
Prognosen
Assoziation
Segmentierung
Klassifikation
Identifikation von
Trends im
Datenzeitbezug
Suche nach
Abhängigkeiten
zwischen den
Objekten
Erschaffen
einheitlicher,
homogener
Objektteilmengen
Aufteilung der
Objekte in
vordefinierte
Klassen
Vorhersage in
Verkauf und Umsatz
(→ Absatz-/
Produktionsplanung)
Analyse von
ShoppingWarenkörben
(→ Produktempfehlungen)
Erstellen eines
Kunden-Portfolios
(→ Differenziertes
Marketing)
Churn-Analyse
(→ Kundenbindungsmaßnahmen)
Quelle: in Anlehnung an Strohmeier (2009)
Methoden und Algorithmen: Eine Auswahl
Kategorie
Klassifikation
Methode
Algorithmus
Parameter
Naive Bayes
Max a posteriori
Information Gain
Entscheidungsbaum
Segmentierung
Neuronale Netze
Clusteranalyse
Prognose
Regressionsanalyse
Stochastische Meth.
Assoziation
29
Assoziationsregeln
ID3 bzw. C4.5
CART
Gini-Index
Single Linkage
Complete Linkage
MLP / Backpropagation
Average Linkage
SOM / Kohonen
Zentroid
Hierarchisches Clustering
Ward
k-Means
Autoregressive Prozesse
Apriori-Algorithmus
AR(p)
ARMA(p,q)
ARIMA(p,d,q)
Confidence, Support
Data Analytics
30
und
 » Die Lehre oder Kunst des Analysierens, also der Durchführung von Datenanalysen «
Data Mining Methoden
werden angewendet
Quelle: Dorschel (2015)
Beispiel: Predictive Maintenance – Vorausschauende Wartung
31
 Wann wird eine Maschine ausfallen?
 Prognose / Ausreißeranalyse
 Überwachtes Lernen, d.h. Lernen aus Erfahrungen mit Störungen, Ausfällen, kritischem Verhalten usw.
 Daten: Wartungs-Logs, Konfigurationen, Sensor- und Telemetrie-Daten usw. [kontinuierliches Messen]
 Unterschiedliche Ansätze
 White Box [Strukturmodell]: Kausale Zusammenhänge des Systems werden über physikalische Gesetze
modelliert, z.B. Schwingungs-/Vibrationsgleichungen => Simulationen zu kritischem Systemverhalten
 Black Box [Verhaltensmodell]: Ein-Ausgangsverhalten (Input: Sensordaten, Output: Maschinenzustand)
wird gelernt, ohne die genaue innere Struktur zu kennen; z.B. durch Künstliche Neuronale Netze (KNN)
 Methoden
 Kombination etablierter Verfahren: Clusteranalyse, Klassifikation, Regression, …
 Herausforderungen
 Kein Patentrezept für unterschiedliche Maschinen (Produktionsanlagen, Windräder, Flugzeuge, LKWs, …)
Master-Kurs „Data Science“ an der htw saar
 Vorlesung mit integrierten praktischen Übungen
 SAP Business Warehouse
 Data Warehousing Workbench: Modellierung, ETL-Prozess, InfoCube-Analysen
 KNIME Analytics
 Data Mining Workflows
 zukünftig: Raspberry-Pi-Cluster
mit Hadoop bzw. Spark für BIG DATA
32
Vielen Dank für Ihre Aufmerksamkeit!
33
Prof. Dr. Stefan Selle
HTW des Saarlandes
Waldhausweg 14
66123 Saarbrücken
0681 / 58 67 - 515
[email protected]
Quellenverzeichnis (1/2)
 BITKOM (2012)
 Chapman (2000)
 comdirect (2016)
 Denodo (2016)
 Dorschel (2015)
 Freeman (1996)
 Hälsig (2015)
 KPMG (1998)
34
BITKOM: Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte, 18.09.2012, URL:
https://www.bitkom.org/Bitkom/Publikationen/Leitfaden-Big-Data-im-PraxiseinsatzSzenarien-Beispiele-Effekte.html
Chapman, P. et al.: CRISP-DM 1.0, Step-by-step data mining guide, August 2000,
URL: http://www.the-modeling-agency.com/crisp-dm.pdf
comdirect: Informer, aufgerufen: 12.02.2016, URL: https://www.comdirect.de
Denodo: Data Virtualization, aufgerufen: 12.02.2016, URL: http://www.denodo.com
/en/data-virtualization/overview
Dorschel, J.: Praxishandbuch Big Data, Springer Gabler, Wiesbaden, 2015.
Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181
(1996) 75 – 77.
Hälsig, F., Schwarz, N., Selle, S.: Untersuchung und Entwicklung von integrativen
Lösungen im Mobile Commerce in Deutschland: Eine Studie im Rahmen des Research
Pool 2014, Hochschule für Technik und Wirtschaft des Saarlandes, Saarbrücken, 2015.
KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value
of Business Modeling, 30.07.1998.
Quellenverzeichnis (2/2)
 Oracle (2016)
 Otto (2015)
 Panko (1998)
 statista (2016)
 Strohmeier (2009)
 Walker (2012)
 Youyou (2015)
Oracle: Database In-Memory, aufgerufen: 12.02.2016, URL: http://www.oracle.com/
technetwork/database/in-memory/overview/index.html
Otto, B.: Industrial Data Space im Überblick, Fraunhofer Institut für Materialfluss und
Logistik, Dortmund, 30.10.2015, URL: http://de.slideshare.net/borisotto/berblickzum-industrial-data-space
Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User
Computing's 10 (1998) 15 – 21.
statista: Bruttoinlandsprodukt (BIP) in Österreich bis 2015, aufgerufen: 12.02.2016,
URL: http://de.statista.com/statistik/daten/studie/14390/umfrage/
bruttoinlandsprodukt-in-oesterreich/
Strohmeier, S.: Informationssysteme im Management, Vorlesungsunterlagen
Sommersemester 2009, Universität des Saarlandes.
Walker, M.: Data Veracity, 28.12.2012, URL: http://www.datasciencecentral.com/
profiles/blogs/data-veracity
Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are
more accurate than those made by humans, Proceedings of the National Academy of
Sciences of the United States of America 112 (2015) 1036 – 1040.
35
Herunterladen