Die Möglichkeiten und Grenzen von Big Data Mining Ein Überblick für Entscheider Maik Kschischo Fachbereich Mathematik und Technik Hochschule Koblenz RheinAhrCampus Remagen Joseph-Rovan-Allee 2 53424 Remagen Email: [email protected] Maik Kschischo (RheinAhrCampus) Big Data Mining 1 / 44 Erfahrungen und Arbeitsgebiete Maik Kschischo Professor für Biomathematik www.hs-koblenz.de/rac/ fachbereiche/mut/biomathematik Maik Kschischo (RheinAhrCampus) Big Data Mining 2 / 44 Erfahrungen und Arbeitsgebiete Maik Kschischo Professor für Biomathematik Arbeitsgebiete www.hs-koblenz.de/rac/ Statistische Datenanalyse fachbereiche/mut/biomathematik Machine Learning Modellierung Anwendungsschwerpunkte Lebenswissenschaften Krebsforschung www.hs-koblenz.de/ profilepages/kschisch/ forschung Maik Kschischo (RheinAhrCampus) Big Data Mining 2 / 44 Big Data Perspektive oder Hype? Tim Höttges Vorstandsvorsitzender der Telekom in der F.A.Z. vom 07.06.2016: (Big Data) „ist das Ende der Theorie. Wir können die Welt in Echtzeit vermessen und auswerten.“ Maik Kschischo (RheinAhrCampus) Big Data Mining 3 / 44 Big Data Perspektive oder Hype? Tim Höttges Hans Reitmeier Geschäftsführer von Market and Research München in Marktforschung 10/2016, Seite 53: Vorstandsvorsitzender der Telekom in der F.A.Z. vom 07.06.2016: (Big Data) „ist das Ende der Theorie. Wir können die Welt in Echtzeit vermessen und auswerten.“ Maik Kschischo (RheinAhrCampus) „Der Hype um Big Data schwächt sich ab.“ Big Data Mining 3 / 44 Hype-Zyklus Wo sind wir mit Big Data? Maik Kschischo (RheinAhrCampus) Big Data Mining 4 / 44 Data Science Informatik, Statistik und Maschinelles Lernen Datenbanken Sammlung, Aufbereitung und Bereitstellung der Daten Datenanalyse- und Modellierung Statistik Maschinelles Lernen Künstliche Intelligenz Maik Kschischo (RheinAhrCampus) Big Data Mining 5 / 44 Data Science Informatik, Statistik und Maschinelles Lernen Datenbanken Sammlung, Aufbereitung und Bereitstellung der Daten Datenanalyse- und Modellierung Statistik Maschinelles Lernen Künstliche Intelligenz Maik Kschischo (RheinAhrCampus) Big Data Mining 5 / 44 Was wollen wir eigentlich? Maik Kschischo (RheinAhrCampus) Big Data Mining 6 / 44 Was wollen wir eigentlich? Gute Entscheidungen in einem unsicheren Umfeld treffen! Maik Kschischo (RheinAhrCampus) Big Data Mining 6 / 44 Datengetriebene Entscheidungsunterstützung Von der Vorhersage zur automatisierten Entscheidung Predictive Analytics/Modelling Vorhersagen machen Korrelationen Kausale Statistik Ursache-Wirkungs-Beziehungen Handlungsempfehlung, Steuerungsmöglichkeit Entscheidungsautomatisierung Entscheidungen werden automatisch getroffen Bestärkendes Lernen (Reinforcement Learning) Maik Kschischo (RheinAhrCampus) Big Data Mining 7 / 44 Datengetriebene Entscheidungsunterstützung Von der Vorhersage zur automatisierten Entscheidung Predictive Analytics/Modelling Vorhersagen machen Korrelationen Kausale Statistik Ursache-Wirkungs-Beziehungen Handlungsempfehlung, Steuerungsmöglichkeit Entscheidungsautomatisierung Entscheidungen werden automatisch getroffen Bestärkendes Lernen (Reinforcement Learning) Maik Kschischo (RheinAhrCampus) Big Data Mining 7 / 44 Predictive analytics and modelling Vorhersagen, um Entscheidungen zu treffen Beispiele Wie oft wird sich da neue Buch verkaufen? Was ist der angemessene Preis für mein Haus? Hat der Patient eine bestimmte Krankheit? Wird der Patient auf das Medikament reagieren oder eher auf ein anderes? Ist das Lager meiner Maschine kaputt? Wird der wichtige Mitarbeiter abgeworben? Maik Kschischo (RheinAhrCampus) Big Data Mining 8 / 44 Optimale Betonmischung Fallbeispiel für predictive analytics Problemstellung Wie hängt die Druckfestigkeit von der Zusammensetzung ab? Können wir eine optimale Zusammensetzung angeben? Maik Kschischo (RheinAhrCampus) Big Data Mining 9 / 44 Daten zur Betonfestigkeit von Yeh (2007) UC Irvine Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength Prädiktorvariablen (Inputs) 1 Zement 2 Schlacke 3 Flugasche 4 Wasser 5 Verflüssiger 6 Grobe Aggregate 7 Fine Aggregate (Sand) 8 Alter (in Tagen) Maik Kschischo (RheinAhrCampus) Big Data Mining 10 / 44 Daten zur Betonfestigkeit von Yeh (2007) UC Irvine Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength Prädiktorvariablen (Inputs) 1 Zement 2 Schlacke 3 Flugasche 4 Wasser 5 Verflüssiger 6 Grobe Aggregate 7 Fine Aggregate (Sand) 8 Alter (in Tagen) Maik Kschischo (RheinAhrCampus) Responsevariable (Output) Compressive Strength (Druckfestigkeit) Big Data Mining 10 / 44 Die Beziehung f zwischen Eingabe X (Mischung) und Ausgabe Y (Festigkeit) Maik Kschischo (RheinAhrCampus) Big Data Mining 11 / 44 Die Beziehung f zwischen Eingabe X (Mischung) und Ausgabe Y (Festigkeit) ist unbekannt. Maik Kschischo (RheinAhrCampus) Big Data Mining 12 / 44 Die Beziehung f zwischen Eingabe X (Mischung) und Ausgabe Y (Festigkeit) Haben aber Beispiele Maik Kschischo (RheinAhrCampus) Big Data Mining 13 / 44 Vorgehensweise Lernen eines prädiktiven Modells Datenvorbereitung und explorative Analyse Maik Kschischo (RheinAhrCampus) Big Data Mining 14 / 44 Vorgehensweise Lernen eines prädiktiven Modells Datenvorbereitung und explorative Analyse Trainieren eines Modells: Benutzen 75% der Daten (n=774 Mischungen mit gemessenen Festigkeiten) als Trainingsdaten Trainieren verschiedene Modelle (Regressionsmodelle, neuronales Netzwerk, Support Vektor Machine, Regression Trees,...) Jedes liefert eine Schätzung der Beziehung fˆ Wähle das beste Modell durch Schätzung der Vorhersagegenauigkeit (Kreuzvalidierung) Maik Kschischo (RheinAhrCampus) Big Data Mining 14 / 44 Vorgehensweise Lernen eines prädiktiven Modells Datenvorbereitung und explorative Analyse Trainieren eines Modells: Benutzen 75% der Daten (n=774 Mischungen mit gemessenen Festigkeiten) als Trainingsdaten Trainieren verschiedene Modelle (Regressionsmodelle, neuronales Netzwerk, Support Vektor Machine, Regression Trees,...) Jedes liefert eine Schätzung der Beziehung fˆ Wähle das beste Modell durch Schätzung der Vorhersagegenauigkeit (Kreuzvalidierung) Testen des Modells an ungesehenen Daten: Benutzen 25% der Daten (n=256 Mischungen mit gemessenen Festigkeiten) als Testdaten Vergleichen die Vorhersage des Modells mit der gemessenen Response (hier Festigkeit) Maik Kschischo (RheinAhrCampus) Big Data Mining 14 / 44 Vorhersagegenauigkeit am Testdatensatz Bestes Modell: Neuronales Netz, R2 ≈ 0.94 Maik Kschischo (RheinAhrCampus) Big Data Mining 15 / 44 Optimierung der Zusammensetzung basierend auf prädiktivem Modell Optimierung der Zusammensetzung auf höchste Festigkeit Dabei wurde das Alter des Betons auf 28 Tage festgelegt Zement 34.9 Schlacke 7.9 Flugasche 0.2 Verflüssiger 0.3 Grober Zusatz 31.1 Feiner Zusatz 21.1 Wasser 5.1 Festigkeit 88.7 Man kann auch unter Randbedingungen (z.B. Kostenbeschränkung) optimieren Maik Kschischo (RheinAhrCampus) Big Data Mining 16 / 44 Charakteristika von Versicherungskunden Weiteres Fallbeispiel für predictive analytics Problemstellung Wird eine Kunde seinen Caravan versichern? Maik Kschischo (RheinAhrCampus) Big Data Mining 17 / 44 Kundendaten der Versicherung Van der Putten und Van Someren (2004) Prädiktorvariablen (Inputs) Insgesamt 85 Prädiktoren, bestehend aus 1 Kundentyp (z.B. Traditionelle Familie, Junge aufstrebende Familie, etc. ) 2 Demografische Faktoren (z.B. Religion, Bildungsstand, Einkommen, etc.) 3 Versicherungsstatus (Hat der Kunde schon andere Versicherungen?) Maik Kschischo (RheinAhrCampus) Big Data Mining 18 / 44 Kundendaten der Versicherung Van der Putten und Van Someren (2004) Prädiktorvariablen (Inputs) Insgesamt 85 Prädiktoren, bestehend aus 1 Kundentyp (z.B. Traditionelle Familie, Junge aufstrebende Familie, etc. ) 2 Demografische Faktoren (z.B. Religion, Bildungsstand, Einkommen, etc.) 3 Versicherungsstatus (Hat der Kunde schon andere Versicherungen?) Maik Kschischo (RheinAhrCampus) Response variable (Output) Hat der Kunde eine Versicherung abgeschlossen (ja/nein)? Klassifikationsproblem Big Data Mining 18 / 44 Ergebnisse Versicherung für Caravan Naive Vorgehensweise: 1 Bestes Modell: Random forest 2 Sensitivität: 66.4 % (Anteil korrekt vorhergesagter Kunden) 3 Spezifizität: 75.9% (Anteil korrekt vorhergesagter Nicht-Kunden) Maik Kschischo (RheinAhrCampus) Big Data Mining 19 / 44 Ergebnisse Versicherung für Caravan Naive Vorgehensweise: 1 Bestes Modell: Random forest 2 Sensitivität: 66.4 % (Anteil korrekt vorhergesagter Kunden) 3 Spezifizität: 75.9% (Anteil korrekt vorhergesagter Nicht-Kunden) Problem: In den Daten hatten nur 6% der Kunden eine Caravan-Versicherung 1 Spezielle Techniken zur Berücksichtigung von Class Imbalance 2 Bestes Modell: Random forest mit Down-sampling 3 Sensitivität: 81.4 % (Anteil korrekt vorhergesagter Kunden) 4 Spezifizität: 70.3% (Anteil korrekt vorhergesagter Nicht-Kunden) Maik Kschischo (RheinAhrCampus) Big Data Mining 19 / 44 Zusammenfassung Predictive Analytics Vorhersagen einer Response Y (Output) aus Prädiktoren X (Input) Brauchen Daten mit Beispielen für X und Y Versuchen die Beziehung Y = f (X) aus den Daten zu lernen Benutzen diese trainierte Modell, um Vorhersagen von Y für andere Werte X zu machen. Maik Kschischo (RheinAhrCampus) Big Data Mining 20 / 44 Predictive Analytics Die Frage nach dem Warum? Es it oft nicht klar, warum ein bestimmter Input einen bestimmen Output erzeugt (black box). Oft rein korrelative Zusammenhänge Kausale Zusammenhänge sind nicht das primäre Ziel Interventionen oder Steuerung oft nicht oder nur begrenzt möglich Maik Kschischo (RheinAhrCampus) Big Data Mining 21 / 44 Datengetriebene Entscheidungsunterstützung Von der Vorhersage zur automatisierten Entscheidung Predictive Analytics/Modelling Vorhersagen machen Korrelationen Kausale Statistik Ursache-Wirkungs-Beziehungen Handlungsempfehlung, Steuerungsmöglichkeit Entscheidungsautomatisierung Entscheidungen werden automatisch getroffen Bestärkendes Lernen (Reinforcement Learning) Maik Kschischo (RheinAhrCampus) Big Data Mining 22 / 44 Macht Schokolade schlau? Vorhersagen versus Kausalitäten Quelle: Messerli, New Engl J Med 2012 Anzahl der Nobelpreise in einem Land in Abhängigkeit vom Schokoladenkonsum Maik Kschischo (RheinAhrCampus) Big Data Mining 23 / 44 Was ist die bessere Behandlung? Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen Charig et al. 1986 Methode Methode A (open surgery) Methode B (Percutaneous nephrolithotomy) Maik Kschischo (RheinAhrCampus) Heilungsrate insgesamt 78% (273/350) 83% (289/350) Big Data Mining 24 / 44 Was ist die bessere Behandlung? Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen Charig et al. 1986 Methode Methode A (open surgery) Methode B (Percutaneous nephrolithotomy) Heilungsrate insgesamt 78% (273/350) 83% (289/350) Ist Methode B wirklich besser? Maik Kschischo (RheinAhrCampus) Big Data Mining 24 / 44 Was ist die bessere Behandlung? Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen Charig et al. 1986 Simpson’s Paradox Methode Methode A (open surgery) Methode B (Percutaneous nephrolithotomy) Maik Kschischo (RheinAhrCampus) Heilungsrate insgesamt 78% (273/350) Patienten mit kleinen Steinen 93% (81/87) Patienten mit großen Steinen 73% (192/263) 83% (289/350) 87% (234/270) 69% (55/80) Big Data Mining 25 / 44 Was ist die bessere Behandlung? Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen Charig et al. 1986 Simpson’s Paradox Methode Methode A (open surgery) Methode B (Percutaneous nephrolithotomy) Heilungsrate insgesamt 78% (273/350) Patienten mit kleinen Steinen 93% (81/87) Patienten mit großen Steinen 73% (192/263) 83% (289/350) 87% (234/270) 69% (55/80) Methode A ist besser, sowohl bei großen als auch bei kleinen Steinen. Methode B sieht insgesamt nur besser aus, weil sie auf veile Patienten mit kleinen Steinen angewendet wurde. Maik Kschischo (RheinAhrCampus) Big Data Mining 25 / 44 Kausalmodelle Kann man kausale Effekte aus Daten schätzen? Beobachtungsdaten oder randomisierte Daten Kann man Effekte vorhersagen? Maik Kschischo (RheinAhrCampus) Big Data Mining 26 / 44 Kausalmodelle Kann man kausale Effekte aus Daten schätzen? Beobachtungsdaten oder randomisierte Daten Kann man Effekte vorhersagen? Kausale Statistische Modelle erfordern Statistikprofis Maik Kschischo (RheinAhrCampus) Big Data Mining 26 / 44 Wirksamkeit von Werbemaßnahmen Kausalitäten und Verzerrungen Kunden mit Katalog kaufen 80% mehr als Kunden ohne Katalog Werbeabteilung möchte höheres Budget erhalten Ist das gerechtfertigt? Maik Kschischo (RheinAhrCampus) Big Data Mining 27 / 44 Wirksamkeit von Werbemaßnahmen Kausalitäten und Verzerrungen Kunden mit Katalog kaufen 80% mehr als Kunden ohne Katalog Werbeabteilung möchte höheres Budget erhalten Ist das gerechtfertigt? Berücksichtigt man, daß vor allem gute Kunden einen einen Katalog erhalten haben, so bleibt kaufen Kunden mit Katalog nur 3% höherer Umsatz Maik Kschischo (RheinAhrCampus) Big Data Mining 27 / 44 Wirksamkeit von Werbemaßnahmen Kausalitäten und Verzerrungen Kunden mit Katalog kaufen 80% mehr als Kunden ohne Katalog Werbeabteilung möchte höheres Budget erhalten Ist das gerechtfertigt? Berücksichtigt man, daß vor allem gute Kunden einen einen Katalog erhalten haben, so bleibt kaufen Kunden mit Katalog nur 3% höherer Umsatz Maik Kschischo (RheinAhrCampus) Big Data Mining 27 / 44 Datengetriebene Entscheidungsunterstützung Von der Vorhersage zur automatisierten Entscheidung Predictive Analytics/Modelling Vorhersagen machen Korrelationen Kausale Statistik Ursache-Wirkungs-Beziehungen Handlungsempfehlung, Steuerungsmöglichkeit Entscheidungsautomatisierung Entscheidungen werden automatisch getroffen Bestärkendes Lernen (Reinforcement Learning) Maik Kschischo (RheinAhrCampus) Big Data Mining 28 / 44 Datengetriebene Entscheidungsunterstützung Von der Vorhersage zur automatisierten Entscheidung Predictive Analytics/Modelling Vorhersagen machen Korrelationen Kausale Statistik Ursache-Wirkungs-Beziehungen Handlungsempfehlung, Steuerungsmöglichkeit Entscheidungsautomatisierung Entscheidungen werden automatisch getroffen Bestärkendes Lernen (Reinforcement Learning) Maik Kschischo (RheinAhrCampus) Big Data Mining 28 / 44 Datengetriebene Entscheidungsunterstützung Beispiel: Optimale Platzierung von Online-Werbung Problem: Auf welchen Websites soll ich werben? Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks Günstigere Seiten werden selten besucht Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren Maik Kschischo (RheinAhrCampus) Big Data Mining 29 / 44 Datengetriebene Entscheidungsunterstützung Beispiel: Optimale Platzierung von Online-Werbung Problem: Auf welchen Websites soll ich werben? Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks Günstigere Seiten werden selten besucht Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren Methodik: Reinforcement Learning Algorithmen Dynamische Anpassung der Strategie Nahezu optimale Platzierung möglich Kostenersparungen bis zu 80% möglich Maik Kschischo (RheinAhrCampus) Big Data Mining 29 / 44 Datengetriebene Entscheidungsunterstützung Beispiel: Optimale Platzierung von Online-Werbung Problem: Auf welchen Websites soll ich werben? Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks Günstigere Seiten werden selten besucht Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren Methodik: Reinforcement Learning Algorithmen Dynamische Anpassung der Strategie Nahezu optimale Platzierung möglich Kostenersparungen bis zu 80% möglich Riesiges Potential für datengetriebende automatische oder halbautomatische Entscheidungsunterstützung in vielen Bereichen von Management, Fertigung bis zur Medizin. Maik Kschischo (RheinAhrCampus) Big Data Mining 29 / 44 Big Data Ist das nur ein Schlagwort? Begriffsverwirrung Big Data“ wird häufig als Sammelbegriff für digitale Technologien benutzt Datenmengen zu groß zu komplex zu schwach strukturiert dynamisch Maik Kschischo (RheinAhrCampus) Big Data Mining 30 / 44 Big Data Was kann „BIG “im eigentlichen Sinne bedeuten? Viele Beobachtungen n Viele Variable p Maik Kschischo (RheinAhrCampus) Big Data Mining 31 / 44 Big Data Small is beautiful or think big? Viele Beobachtungen n Viele Variable p Maik Kschischo (RheinAhrCampus) Big Data Mining 32 / 44 Komplexe Daten Machine Learning und Datenanalysealgorithmen benötigen die Daten in einer betimmten Form Meistens als Datenmatrix mit Variablen (Spalten) und Beobachtungen (Zeilen) Andere Datentypen werden oft in diese Form transformiert Beispiele: 1 2 3 4 Textdaten (Text Mining) Bilder Streaming-Daten Zeitreihen Maik Kschischo (RheinAhrCampus) Big Data Mining 33 / 44 Data Science Informatik, Statistik und Maschinelles Lernen Datenbanken Sammlung, Aufbereitung und Bereitstellung der Daten Datenanalyse- und Modellierung Statistik Maschinelles Lernen Künstliche Intelligenz Maik Kschischo (RheinAhrCampus) Big Data Mining 34 / 44 Big Data Plattformen Wie kann ich große Datenmengen prozessieren? Maik Kschischo (RheinAhrCampus) Big Data Mining 35 / 44 Big Data Plattformen Wie kann ich große Datenmengen prozessieren? Das kommt darauf an! Maik Kschischo (RheinAhrCampus) Big Data Mining 35 / 44 Hadoop Ein Framework für verteilte Berechnungen Framework für skalierbare, verteilt arbeitende Software Frei verfügbar (Apache) und open source In Java geschrieben Zugriff aber über Java, Python, Scala, R,... Maik Kschischo (RheinAhrCampus) Big Data Mining 36 / 44 Hadoop Wesentliche Bestandteile und Grundprinzip Daten liegen verteilt auf verschiedenen Computern (nodes), die sogar gographisch verteilt sein können. Daten können in einer strukturierten Datenbank oder unstrukturiert (z.B. als Textfiles) vorliegen. Maik Kschischo (RheinAhrCampus) Big Data Mining 37 / 44 Hadoop Wesentliche Bestandteile und Grundprinzip Daten liegen verteilt auf verschiedenen Computern (nodes), die sogar gographisch verteilt sein können. Hadoop Distributed File System (HDFS) Hadoop’s MapReduce Daten können in einer strukturierten Datenbank oder unstrukturiert (z.B. als Textfiles) vorliegen. Maik Kschischo (RheinAhrCampus) Big Data Mining 37 / 44 Hadoop Wesentliche Bestandteile und Grundprinzip Daten liegen verteilt auf verschiedenen Computern (nodes), die sogar gographisch verteilt sein können. Hadoop Distributed File System (HDFS) Hadoop’s MapReduce MapReduce Daten können in einer strukturierten Datenbank oder unstrukturiert (z.B. als Textfiles) vorliegen. Map: Eine map-Funktion wird auf den lokalen Daten ausgeführt Shuffle: Zwischenergebnisse werden verwaltet Reduce: Jeder Satz von Zwischenergebnissen wird weiterverarbeitet zu Ausgabedaten Maik Kschischo (RheinAhrCampus) Big Data Mining 37 / 44 Hadoop Einige Erweiterungen und Tools Hive Data Warehouse Architektur aufbauend auf Hadoop HiveQL, eine auf SQL basierende Abfragesprache HBase hochskalierbare verteilte Datenbank Verwaltung großer Mengen strukturierter Daten Pig Zum Erstellen von Hadoop MapReduce-Programmen High-Level-Sprache Pig Latin Spark in-memory Batch Processing Engine Insbesondere für Machine-Learning Anwendugen ··· Maik Kschischo (RheinAhrCampus) Big Data Mining 38 / 44 Hadoop Systemvoraussetzungen Kann auf Standardrechnern laufen Linux 64 bit HDFS ist auf Fehlertoleranz und Redundanz ausgelegt Anzahl der Knoten und Hardwareanforderungen skalieren mit Datenumfang und Rechenaufwand der Analysen Maik Kschischo (RheinAhrCampus) Big Data Mining 39 / 44 Produkte und Serviceanbieter aufbauend auf Hadoop Amazon.com Hadoop-Cluster zur Miete als Cloud-Service Cloudera eigene Hadoop-Distribution zahlreiche Zusatzprodukte Microsoft Azure Cloud Plattform Weitreichende Hadoop und andere Big Data Anwendungen SAP Anbindung and SAP HANA (In-Memory-Computing) Echtzeitanalyse IBM InfoSphere BigInsights Unstrukturierte Daten Oracle Big Data Appliance SQL and NoSQL ··· Maik Kschischo (RheinAhrCampus) Big Data Mining 40 / 44 Datenanalyse und Machine Learning Software Statistische Analysesoftware und Programmiersprache Maik Kschischo (RheinAhrCampus) Big Data Mining 41 / 44 Datenanalyse und Machine Learning Software Statistische Analysesoftware und Programmiersprache Maik Kschischo (RheinAhrCampus) Programmiersprache mit Datenanalysebibliotheken Big Data Mining 41 / 44 Datenanalyse und Machine Learning Software Statistische Analysesoftware und Programmiersprache Programmiersprache mit Datenanalysebibliotheken Machine Learning in Hadoop Maik Kschischo (RheinAhrCampus) Big Data Mining 41 / 44 Warum scheitern Projekte? Für den Predictive Analytics Strategische Fehler Methodische Fehler Unklare Fragestellung und falsche Erwartungen Mangelnde Vorverarbeitung der Daten Ungeeignete Daten Die falschen oder zu viele Prädiktorvariablen (Variablenselektion, Feature selection) Fixierung auf das Informatikproblem (Datenprozessierung statt -analyse) Zu wenige Beobachtungen Keine professionellen Data Scientists Ignoranz gegenüber Fachwissen in Anwendungsgebiet Maik Kschischo (RheinAhrCampus) Big Data Mining Festlegung auf eine eine einzige Methode (Modellvergleiche, Modellkombinationen) 42 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? 4 Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen. Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? 4 Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen. 5 Erst später das Informatikproblem allgemeingültig lösen. Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? 4 Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen. 5 Erst später das Informatikproblem allgemeingültig lösen. 6 Professionelle Beratung von Data Analysts und Informatikern. Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? 4 Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen. 5 Erst später das Informatikproblem allgemeingültig lösen. 6 Professionelle Beratung von Data Analysts und Informatikern. 7 Kooperation von Fachleuten mit Data Analysts. Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Was ist zu beachten? Planung eines Predictive Analytics Projekts 1 Was will ich wissen? 2 Welche Daten habe ich oder welche kann ich erheben? 3 Reicht mir ein Vorhersagemodell oder benötige ich kausale Zusammenhänge? 4 Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen. 5 Erst später das Informatikproblem allgemeingültig lösen. 6 Professionelle Beratung von Data Analysts und Informatikern. 7 Kooperation von Fachleuten mit Data Analysts. Maik Kschischo (RheinAhrCampus) Big Data Mining 43 / 44 Fragen und Diskussion Maik Kschischo (RheinAhrCampus) Big Data Mining 44 / 44