Data Analytics Wie sich Daten sinnvoll nutzen lassen Prof. Dr. Stefan Selle Netzwerk ikt.saarland bei saar.is BVL, Regionalgruppe Saar/Rheinpfalz 22.02.2016 Agenda ≡ DIGITALISIERUNG ≡ BUSINESS INTELLIGENCE / BIG DATA ≡ DATA MINING & PREDICTIVE ANALYTICS I DIGITALISIERUNG 20.01.2016 Deutsche-Bank-Chef John Cryan: 4 Foto: Deutsche Bank » Bargeld wird in 10 Jahren verschwinden. « htw saar Forschungsprojekt 2015: Mobile Payment 5 Foto: Mobile Marketing Magazine htw saar Forschungsprojekt 2015: Globus-Kundenumfrage (n = 6.536) Was meint der Kunde? 6 Nutzung der Zahlungsmöglichkeiten im stationären Handel 0% 20% 40% 60% 80% EC- und Maestro Karte 81% Kreditkarte 44% Handelskarte mit Bezahlfunktion… 0% 100% 86% Barzahlung Wichtige Kriterien bei einem Bezahlverfahren 16% Kosten 94% Bedienkomfort 89% 88% 7% Schnelligkeit + 29% Aktuell 79% 86% In App-Payment 67% Attraktive Mehrwertdienste 0% SMS 84% Mobilität Vergleich mobiler Zahlungsarten 6% 26% 100% 98% Kontaktloses oder mobiles bezahlen… 5% 26% 80% Zuverlässigkeit Nützlichkeit In 3 Jahren 60% 99% 7% 5% 40% Sicherheit Sonstiges (Gutscheine, Rechnung,… Geldkarte (aufgeladene EC-Karte) 20% 5% 20% 30% 40% 46% M-Coupons 46% 45% M-Tickets mobile Webseiten 50% M-Receipt M-Treuekarte 34% Smartphone 10% M-Recommendations 38% 30% Empfehlung für den stationären Handel Abwarten: GAFA oder PayPal werden „übernehmen“ Auf anderen Gebieten zu punkten (z.B. Digitale Belege) Quelle: Hälsig (2015) GAFA 7 17 Jahre 39 Jahre 12 Jahre 21 Jahre 442 Mrd. USD + 542 Mrd. USD + 234 Mrd. USD + 239 Mrd. USD = 1.439 Mrd. USD Marktkapitalisierung (*) Umsatz 2015: 434 Mrd. USD Zum Vergleich: DAX-30-Unternehmen: 924 Mrd. Euro = 1.040 Mrd. USD (*) +38 % Bruttoinlandsprodukt von Österreich (8,7 Mio. Einwohner) im Jahr 2014: 437,12 Mrd. USD (Nr. 27 weltweit) (*) Stand: 12.02.2016 Quellen: comdirect (2016), statista (2016) Google weiß, wo man sich befindet 8 Knowledge Graph Z Apple weiß, wie man Kunden / Konsumenten begeistert iTunes App Store iCloud Musik Software Medien Filme eBooks Docs Serien Spiele Fotos Geschlossenes Ökosystem 9 Facebook kennt uns besser als Freunde und Familie 10 2015: Studie mit 86.220 Freiwilligen Kooperation der Universität Cambridge mit der Stanford-Universität Fragebogen mit 100 Elementen zum Fünf-Faktoren-Modell (FFM) der Persönlichkeitspsychologie / „Big Five“ Neurotizismus, Extraversion, Offenheit für Erfahrungen, Gewissenhaftigkeit und Verträglichkeit Computer-Algorithmus (Lineare Regression) vs. Einschätzung von Personen ab 10 Likes: Computer ist besser als Arbeitskollegen ab 70 Likes: Computer ist besser als Freunde ab 150 Likes: Computer ist besser als Familie ab 300 Likes: Computer ist besser als Ehepartner Ein durchschnittlicher Facebook-Nutzer teilt 227 Likes Zum Selbst-Testen: http://applymagicsauce.com/you.html Quelle: Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040. Amazon weiß schon vorher, was man gleich kaufen wird Ihnen könnten diese Artikel gefallen Wird oft zusammen gekauft Sie haben angesehen Inspiriert von Ihren Stöber-Trends Foto: desktopwallpapers.co Ähnliche Artikel wie die, die Sie sich angesehen haben Kunden, die diesen Artikel gekauft haben, kauften auch 11 Daten werden zur strategischen Ressource 12 Wertbeitrag Daten als Prozessergebnis Daten als Befähiger von Prozessen Daten als Befähiger von Produkten Daten als Produkt Zeit Quelle: Otto (2015) II BUSINESS INTELLIGENCE / BIG DATA Wo kommen die Daten her? PPS, WaWi, ERP, CRM, SCM, … Embedded Systems, Sensoren, M2M Internet, XaaS, Cloud Computing Web 2.0, Social Media 14 Mobile Apps & Location Bases Services Streaming Dienste Wie werden die Daten gespeichert? Traditionelle DBMS OLTP 15 DW OLAP NoSQL Traditionelle Datenbank * seit den 1970er Jahren; Edgar F. Cobb (IBM) (Mathematisch fundiertes) relationales Modell als Grundlage Daten in zweidimensionalen Tabellen (Spalten, Zeilen) Normalisierung: Redundanzfreie Speicherung 16 Traditionelle DBMS OLTP ACID-Prinzip: Atomicity, Consistency, Isolation, Durability Standardisierte Schnittstelle SQL: Structured Query Language Physikalisch: Zeilenweises Speichern auf Festplatte (Datensatzorientiert) Optimiert für viele schreibende Operationen / Transaktionen OLTP: Online Transactional Processing Aber: Nicht konzipiert und optimiert für Analysezwecke Data Warehouse Physische Datenbank zur Integration von Daten aus beliebigen, heterogenen Quellen zu Analysezwecken Daten ändern sich nicht mehr, d.h. nur lesende Zugriffe Optimierung auf Performance, Redundanzen sind sinnvoll „Single point of truth“ (als Basis eines BI-Systems) Multidimensionale Schemata Fakten und Dimensionen Stern, Schneeflocke, Galaxie OLAP: Online Analytical Processing Multidimensionale, konzeptionelle Sicht auf Daten (in Form eines Cubes) Aufwendiger ETL-Prozess Extrahieren, Transformieren, Laden Daten bereinigen, harmonisieren, … 17 DW OLAP In Memory Datenbank 18 Daten liegen vollständig und permanent im Arbeitsspeicher Höhere Hardwareanforderungen als bei konventionellen Datenbanken Abgestimmtes Sicherungskonzept, da es sich beim RAM um einen flüchtigen und nicht einen persistenten Arbeitsspeicher handelt Sehr schnelle Zugriffzeiten Ca. 100 ns statt 1.000.000 ns bei einer traditionellen DB Daten liegen in komprimierter Form vor Zeilen- und Spaltenorientiertes Arbeiten OLTP (Online Transaction Processing) OLAP (Online Analytical Processing) Beispiel: SAP HANA Quelle: Oracle (2016) NoSQL-Datenbank 19 Not only SQL „Strukturierte Datenspeicher“, aber kein relationales DBMS Flexible Speichermöglichkeiten statt starre Schema-Definitionen Performance ist wichtiger als Konsistenz (kein ACID-Prinzip) Skalierbarkeit: Verteilung der Daten auf Cluster (z.B. Hadoop) Kategorie Anwendung Beispiele Dokumentenorientiert Unstrukturierte Daten MongoDB, CouchDB Spaltenorientiert Analysen Cassandra, HBase Key-Value Store Listen, Sets Redis, Memcache, Riak Graph Knoten & Beziehungen Neo4j, Giraph NoSQL Big Data: Die 4 Vs Volume 20 Velocity Variety Veracity data at rest data in motion data in many forms data in doubt Terabytes Petabytes Exabytes Echtzeit Neartime Streams Strukturierte Daten Semistrukturierte Daten Unstrukturierte Daten Fehlende Daten Ungenaue Daten Fehlerhafte Daten Quelle: Walker (2012) BI / Big Data in einer integrierten Anwendungslandschaft 21 Komplexität Quelle: BITKOM (2012) Komplexes BI-System vs. Tabellenkalkulation / Excel 22 » 90 % der untersuchten Mappen mit mehr als 150 Zeilen enthalten mindestens einen Formel-Fehler. « Quelle: Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181 (1996) 75 – 77. » In 20 von 22 analysierten Mappen waren signifikante Fehler (91 %). Das Erstaunliche daran ist jedoch, dass 81 % der Anwender trotzdem davon ausgehen, sie würden auf dieser Grundlage einen wesentlichen Vorteil gegenüber Wettbewerbern erlangen. « Quelle: KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998. » In 7 unabhängigen Studien wurden insgesamt 113 Mappen untersucht und dabei in 88 % der Fälle größere Fehler gefunden. « Quelle: Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21. Ein prominentes Beispiel Kenneth Saul Rogoff, US-amerik. Ökonom und Professor an der Harvard University Mai 2010: Growth in a time of debt (zusammen mit Carmen Reinhart): Das Wirtschaftswachstum einer Volkswirtschaft verringert sich dann stark, wenn die Verschuldung auf mehr als 90 Prozent des Bruttoinlandsproduktes steigt. Empfehlung: Radikale Sparpolitik! April 2013: Studienarbeit des VWL-Studenten Thomas Herndon: Die Excel-Tabelle zur Berechnung enthielt Fehler. Einige Daten wurden nicht berücksichtigt, andere falsch gewichtet. Foto: Jason Grow Datenvirtualisierung: Reduzierung von Komplexität 23 Abstrahieren und Integrieren über Schnittstellen (statt Duplizieren per ETL-Prozess) Quelle: Denodo (2016) III DATA MINING & PREDICTIVE ANALYTICS 25 Foto: Elsevier Inc. Cross Industry Standard Process for Data Mining (CRISP-DM) Geschäftsverständnis Einsatz der Ergebnisse Modellbewertung 27 Datenverständnis Datenaufbereitung Modellbildung Quelle: Chapman (2000) Beispiel Beschreibung Visualisierung Kategorien im Data Mining 28 Prognosen Assoziation Segmentierung Klassifikation Identifikation von Trends im Datenzeitbezug Suche nach Abhängigkeiten zwischen den Objekten Erschaffen einheitlicher, homogener Objektteilmengen Aufteilung der Objekte in vordefinierte Klassen Vorhersage in Verkauf und Umsatz (→ Absatz-/ Produktionsplanung) Analyse von ShoppingWarenkörben (→ Produktempfehlungen) Erstellen eines Kunden-Portfolios (→ Differenziertes Marketing) Churn-Analyse (→ Kundenbindungsmaßnahmen) Quelle: in Anlehnung an Strohmeier (2009) Methoden und Algorithmen: Eine Auswahl Kategorie Klassifikation Methode Algorithmus Parameter Naive Bayes Max a posteriori Information Gain Entscheidungsbaum Segmentierung Neuronale Netze Clusteranalyse Prognose Regressionsanalyse Stochastische Meth. Assoziation 29 Assoziationsregeln ID3 bzw. C4.5 CART Gini-Index Single Linkage Complete Linkage MLP / Backpropagation Average Linkage SOM / Kohonen Zentroid Hierarchisches Clustering Ward k-Means Autoregressive Prozesse Apriori-Algorithmus AR(p) ARMA(p,q) ARIMA(p,d,q) Confidence, Support Data Analytics 30 und » Die Lehre oder Kunst des Analysierens, also der Durchführung von Datenanalysen « Data Mining Methoden werden angewendet Quelle: Dorschel (2015) Beispiel: Predictive Maintenance – Vorausschauende Wartung 31 Wann wird eine Maschine ausfallen? Prognose / Ausreißeranalyse Überwachtes Lernen, d.h. Lernen aus Erfahrungen mit Störungen, Ausfällen, kritischem Verhalten usw. Daten: Wartungs-Logs, Konfigurationen, Sensor- und Telemetrie-Daten usw. [kontinuierliches Messen] Unterschiedliche Ansätze White Box [Strukturmodell]: Kausale Zusammenhänge des Systems werden über physikalische Gesetze modelliert, z.B. Schwingungs-/Vibrationsgleichungen => Simulationen zu kritischem Systemverhalten Black Box [Verhaltensmodell]: Ein-Ausgangsverhalten (Input: Sensordaten, Output: Maschinenzustand) wird gelernt, ohne die genaue innere Struktur zu kennen; z.B. durch Künstliche Neuronale Netze (KNN) Methoden Kombination etablierter Verfahren: Clusteranalyse, Klassifikation, Regression, … Herausforderungen Kein Patentrezept für unterschiedliche Maschinen (Produktionsanlagen, Windräder, Flugzeuge, LKWs, …) Master-Kurs „Data Science“ an der htw saar Vorlesung mit integrierten praktischen Übungen SAP Business Warehouse Data Warehousing Workbench: Modellierung, ETL-Prozess, InfoCube-Analysen KNIME Analytics Data Mining Workflows zukünftig: Raspberry-Pi-Cluster mit Hadoop bzw. Spark für BIG DATA 32 Vielen Dank für Ihre Aufmerksamkeit! 33 Prof. Dr. Stefan Selle HTW des Saarlandes Waldhausweg 14 66123 Saarbrücken 0681 / 58 67 - 515 [email protected] Quellenverzeichnis (1/2) BITKOM (2012) Chapman (2000) comdirect (2016) Denodo (2016) Dorschel (2015) Freeman (1996) Hälsig (2015) KPMG (1998) 34 BITKOM: Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte, 18.09.2012, URL: https://www.bitkom.org/Bitkom/Publikationen/Leitfaden-Big-Data-im-PraxiseinsatzSzenarien-Beispiele-Effekte.html Chapman, P. et al.: CRISP-DM 1.0, Step-by-step data mining guide, August 2000, URL: http://www.the-modeling-agency.com/crisp-dm.pdf comdirect: Informer, aufgerufen: 12.02.2016, URL: https://www.comdirect.de Denodo: Data Virtualization, aufgerufen: 12.02.2016, URL: http://www.denodo.com /en/data-virtualization/overview Dorschel, J.: Praxishandbuch Big Data, Springer Gabler, Wiesbaden, 2015. Freeman, D. : How to Make Spreadsheets Error-Proof, Journal of Accountancy 181 (1996) 75 – 77. Hälsig, F., Schwarz, N., Selle, S.: Untersuchung und Entwicklung von integrativen Lösungen im Mobile Commerce in Deutschland: Eine Studie im Rahmen des Research Pool 2014, Hochschule für Technik und Wirtschaft des Saarlandes, Saarbrücken, 2015. KPMG Management Consulting: Supporting the Decision Maker: A Guide to the Value of Business Modeling, 30.07.1998. Quellenverzeichnis (2/2) Oracle (2016) Otto (2015) Panko (1998) statista (2016) Strohmeier (2009) Walker (2012) Youyou (2015) Oracle: Database In-Memory, aufgerufen: 12.02.2016, URL: http://www.oracle.com/ technetwork/database/in-memory/overview/index.html Otto, B.: Industrial Data Space im Überblick, Fraunhofer Institut für Materialfluss und Logistik, Dortmund, 30.10.2015, URL: http://de.slideshare.net/borisotto/berblickzum-industrial-data-space Panko, R.R.: What We Know About Spreadsheet Errors, Journal of End User Computing's 10 (1998) 15 – 21. statista: Bruttoinlandsprodukt (BIP) in Österreich bis 2015, aufgerufen: 12.02.2016, URL: http://de.statista.com/statistik/daten/studie/14390/umfrage/ bruttoinlandsprodukt-in-oesterreich/ Strohmeier, S.: Informationssysteme im Management, Vorlesungsunterlagen Sommersemester 2009, Universität des Saarlandes. Walker, M.: Data Veracity, 28.12.2012, URL: http://www.datasciencecentral.com/ profiles/blogs/data-veracity Youyou, W., Kosinski, M., Stillwell, D.: Computer-based personality judgments are more accurate than those made by humans, Proceedings of the National Academy of Sciences of the United States of America 112 (2015) 1036 – 1040. 35