Die Möglichkeiten und Grenzen von Big Data Mining

Werbung
Die Möglichkeiten und Grenzen von Big Data Mining Ein Überblick für Entscheider
Maik Kschischo
Fachbereich Mathematik und Technik
Hochschule Koblenz
RheinAhrCampus Remagen
Joseph-Rovan-Allee 2
53424 Remagen
Email: [email protected]
Maik Kschischo (RheinAhrCampus)
Big Data Mining
1 / 44
Erfahrungen und Arbeitsgebiete
Maik Kschischo
Professor für Biomathematik
www.hs-koblenz.de/rac/
fachbereiche/mut/biomathematik
Maik Kschischo (RheinAhrCampus)
Big Data Mining
2 / 44
Erfahrungen und Arbeitsgebiete
Maik Kschischo
Professor für Biomathematik
Arbeitsgebiete
www.hs-koblenz.de/rac/
Statistische Datenanalyse
fachbereiche/mut/biomathematik
Machine Learning
Modellierung
Anwendungsschwerpunkte
Lebenswissenschaften
Krebsforschung
www.hs-koblenz.de/
profilepages/kschisch/
forschung
Maik Kschischo (RheinAhrCampus)
Big Data Mining
2 / 44
Big Data
Perspektive oder Hype?
Tim Höttges
Vorstandsvorsitzender der
Telekom in der F.A.Z. vom
07.06.2016:
(Big Data) „ist das Ende der
Theorie. Wir können die Welt
in Echtzeit vermessen und
auswerten.“
Maik Kschischo (RheinAhrCampus)
Big Data Mining
3 / 44
Big Data
Perspektive oder Hype?
Tim Höttges
Hans Reitmeier
Geschäftsführer von Market
and Research München in
Marktforschung 10/2016,
Seite 53:
Vorstandsvorsitzender der
Telekom in der F.A.Z. vom
07.06.2016:
(Big Data) „ist das Ende der
Theorie. Wir können die Welt
in Echtzeit vermessen und
auswerten.“
Maik Kschischo (RheinAhrCampus)
„Der Hype um Big Data
schwächt sich ab.“
Big Data Mining
3 / 44
Hype-Zyklus
Wo sind wir mit Big Data?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
4 / 44
Data Science
Informatik, Statistik und Maschinelles Lernen
Datenbanken
Sammlung, Aufbereitung
und Bereitstellung der Daten
Datenanalyse- und
Modellierung
Statistik
Maschinelles Lernen
Künstliche Intelligenz
Maik Kschischo (RheinAhrCampus)
Big Data Mining
5 / 44
Data Science
Informatik, Statistik und Maschinelles Lernen
Datenbanken
Sammlung, Aufbereitung
und Bereitstellung der Daten
Datenanalyse- und
Modellierung
Statistik
Maschinelles Lernen
Künstliche Intelligenz
Maik Kschischo (RheinAhrCampus)
Big Data Mining
5 / 44
Was wollen wir eigentlich?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
6 / 44
Was wollen wir eigentlich?
Gute Entscheidungen in einem
unsicheren Umfeld treffen!
Maik Kschischo (RheinAhrCampus)
Big Data Mining
6 / 44
Datengetriebene Entscheidungsunterstützung
Von der Vorhersage zur automatisierten Entscheidung
Predictive Analytics/Modelling
Vorhersagen machen
Korrelationen
Kausale Statistik
Ursache-Wirkungs-Beziehungen
Handlungsempfehlung, Steuerungsmöglichkeit
Entscheidungsautomatisierung
Entscheidungen werden automatisch getroffen
Bestärkendes Lernen (Reinforcement Learning)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
7 / 44
Datengetriebene Entscheidungsunterstützung
Von der Vorhersage zur automatisierten Entscheidung
Predictive Analytics/Modelling
Vorhersagen machen
Korrelationen
Kausale Statistik
Ursache-Wirkungs-Beziehungen
Handlungsempfehlung, Steuerungsmöglichkeit
Entscheidungsautomatisierung
Entscheidungen werden automatisch getroffen
Bestärkendes Lernen (Reinforcement Learning)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
7 / 44
Predictive analytics and modelling
Vorhersagen, um Entscheidungen
zu treffen
Beispiele
Wie oft wird sich da neue
Buch verkaufen?
Was ist der angemessene
Preis für mein Haus?
Hat der Patient eine
bestimmte Krankheit?
Wird der Patient auf das
Medikament reagieren oder
eher auf ein anderes?
Ist das Lager meiner
Maschine kaputt?
Wird der wichtige
Mitarbeiter abgeworben?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
8 / 44
Optimale Betonmischung
Fallbeispiel für predictive analytics
Problemstellung
Wie hängt die
Druckfestigkeit von der
Zusammensetzung ab?
Können wir eine optimale
Zusammensetzung angeben?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
9 / 44
Daten zur Betonfestigkeit von Yeh (2007)
UC Irvine Machine Learning Repository
http://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength
Prädiktorvariablen (Inputs)
1
Zement
2
Schlacke
3
Flugasche
4
Wasser
5
Verflüssiger
6
Grobe Aggregate
7
Fine Aggregate (Sand)
8
Alter (in Tagen)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
10 / 44
Daten zur Betonfestigkeit von Yeh (2007)
UC Irvine Machine Learning Repository
http://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength
Prädiktorvariablen (Inputs)
1
Zement
2
Schlacke
3
Flugasche
4
Wasser
5
Verflüssiger
6
Grobe Aggregate
7
Fine Aggregate (Sand)
8
Alter (in Tagen)
Maik Kschischo (RheinAhrCampus)
Responsevariable (Output)
Compressive Strength
(Druckfestigkeit)
Big Data Mining
10 / 44
Die Beziehung f zwischen Eingabe X (Mischung) und
Ausgabe Y (Festigkeit)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
11 / 44
Die Beziehung f zwischen Eingabe X (Mischung) und
Ausgabe Y (Festigkeit)
ist unbekannt.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
12 / 44
Die Beziehung f zwischen Eingabe X (Mischung) und
Ausgabe Y (Festigkeit)
Haben aber Beispiele
Maik Kschischo (RheinAhrCampus)
Big Data Mining
13 / 44
Vorgehensweise
Lernen eines prädiktiven Modells
Datenvorbereitung und explorative Analyse
Maik Kschischo (RheinAhrCampus)
Big Data Mining
14 / 44
Vorgehensweise
Lernen eines prädiktiven Modells
Datenvorbereitung und explorative Analyse
Trainieren eines Modells:
Benutzen 75% der Daten (n=774 Mischungen mit gemessenen
Festigkeiten) als Trainingsdaten
Trainieren verschiedene Modelle (Regressionsmodelle, neuronales
Netzwerk, Support Vektor Machine, Regression Trees,...)
Jedes liefert eine Schätzung der Beziehung fˆ
Wähle das beste Modell durch Schätzung der Vorhersagegenauigkeit
(Kreuzvalidierung)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
14 / 44
Vorgehensweise
Lernen eines prädiktiven Modells
Datenvorbereitung und explorative Analyse
Trainieren eines Modells:
Benutzen 75% der Daten (n=774 Mischungen mit gemessenen
Festigkeiten) als Trainingsdaten
Trainieren verschiedene Modelle (Regressionsmodelle, neuronales
Netzwerk, Support Vektor Machine, Regression Trees,...)
Jedes liefert eine Schätzung der Beziehung fˆ
Wähle das beste Modell durch Schätzung der Vorhersagegenauigkeit
(Kreuzvalidierung)
Testen des Modells an ungesehenen Daten:
Benutzen 25% der Daten (n=256 Mischungen mit gemessenen
Festigkeiten) als Testdaten
Vergleichen die Vorhersage des Modells mit der gemessenen Response
(hier Festigkeit)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
14 / 44
Vorhersagegenauigkeit
am Testdatensatz
Bestes Modell: Neuronales Netz, R2 ≈ 0.94
Maik Kschischo (RheinAhrCampus)
Big Data Mining
15 / 44
Optimierung der Zusammensetzung
basierend auf prädiktivem Modell
Optimierung der Zusammensetzung auf höchste Festigkeit
Dabei wurde das Alter des Betons auf 28 Tage festgelegt
Zement
34.9
Schlacke
7.9
Flugasche
0.2
Verflüssiger
0.3
Grober Zusatz
31.1
Feiner Zusatz
21.1
Wasser
5.1
Festigkeit
88.7
Man kann auch unter Randbedingungen (z.B. Kostenbeschränkung)
optimieren
Maik Kschischo (RheinAhrCampus)
Big Data Mining
16 / 44
Charakteristika von Versicherungskunden
Weiteres Fallbeispiel für predictive analytics
Problemstellung
Wird eine Kunde seinen Caravan
versichern?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
17 / 44
Kundendaten der Versicherung
Van der Putten und Van Someren (2004)
Prädiktorvariablen (Inputs)
Insgesamt 85 Prädiktoren,
bestehend aus
1
Kundentyp (z.B.
Traditionelle Familie, Junge
aufstrebende Familie, etc. )
2
Demografische Faktoren
(z.B. Religion,
Bildungsstand, Einkommen,
etc.)
3
Versicherungsstatus (Hat der
Kunde schon andere
Versicherungen?)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
18 / 44
Kundendaten der Versicherung
Van der Putten und Van Someren (2004)
Prädiktorvariablen (Inputs)
Insgesamt 85 Prädiktoren,
bestehend aus
1
Kundentyp (z.B.
Traditionelle Familie, Junge
aufstrebende Familie, etc. )
2
Demografische Faktoren
(z.B. Religion,
Bildungsstand, Einkommen,
etc.)
3
Versicherungsstatus (Hat der
Kunde schon andere
Versicherungen?)
Maik Kschischo (RheinAhrCampus)
Response variable
(Output)
Hat der Kunde eine
Versicherung abgeschlossen
(ja/nein)?
Klassifikationsproblem
Big Data Mining
18 / 44
Ergebnisse
Versicherung für Caravan
Naive Vorgehensweise:
1
Bestes Modell: Random forest
2
Sensitivität: 66.4 % (Anteil korrekt vorhergesagter Kunden)
3
Spezifizität: 75.9% (Anteil korrekt vorhergesagter Nicht-Kunden)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
19 / 44
Ergebnisse
Versicherung für Caravan
Naive Vorgehensweise:
1
Bestes Modell: Random forest
2
Sensitivität: 66.4 % (Anteil korrekt vorhergesagter Kunden)
3
Spezifizität: 75.9% (Anteil korrekt vorhergesagter Nicht-Kunden)
Problem: In den Daten hatten nur 6% der Kunden eine
Caravan-Versicherung
1
Spezielle Techniken zur Berücksichtigung von Class Imbalance
2
Bestes Modell: Random forest mit Down-sampling
3
Sensitivität: 81.4 % (Anteil korrekt vorhergesagter Kunden)
4
Spezifizität: 70.3% (Anteil korrekt vorhergesagter Nicht-Kunden)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
19 / 44
Zusammenfassung
Predictive Analytics
Vorhersagen einer Response Y (Output) aus Prädiktoren X (Input)
Brauchen Daten mit Beispielen für X und Y
Versuchen die Beziehung Y = f (X) aus den Daten zu lernen
Benutzen diese trainierte Modell, um Vorhersagen von Y für andere
Werte X zu machen.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
20 / 44
Predictive Analytics
Die Frage nach dem Warum?
Es it oft nicht klar, warum ein bestimmter Input einen bestimmen
Output erzeugt (black box).
Oft rein korrelative Zusammenhänge
Kausale Zusammenhänge sind nicht das primäre Ziel
Interventionen oder Steuerung oft nicht oder nur begrenzt möglich
Maik Kschischo (RheinAhrCampus)
Big Data Mining
21 / 44
Datengetriebene Entscheidungsunterstützung
Von der Vorhersage zur automatisierten Entscheidung
Predictive Analytics/Modelling
Vorhersagen machen
Korrelationen
Kausale Statistik
Ursache-Wirkungs-Beziehungen
Handlungsempfehlung, Steuerungsmöglichkeit
Entscheidungsautomatisierung
Entscheidungen werden automatisch getroffen
Bestärkendes Lernen (Reinforcement Learning)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
22 / 44
Macht Schokolade schlau?
Vorhersagen versus Kausalitäten
Quelle: Messerli,
New Engl J Med
2012
Anzahl der
Nobelpreise in
einem Land in
Abhängigkeit
vom Schokoladenkonsum
Maik Kschischo (RheinAhrCampus)
Big Data Mining
23 / 44
Was ist die bessere Behandlung?
Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen
Charig et al. 1986
Methode
Methode A
(open surgery)
Methode B
(Percutaneous
nephrolithotomy)
Maik Kschischo (RheinAhrCampus)
Heilungsrate
insgesamt
78%
(273/350)
83%
(289/350)
Big Data Mining
24 / 44
Was ist die bessere Behandlung?
Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen
Charig et al. 1986
Methode
Methode A
(open surgery)
Methode B
(Percutaneous
nephrolithotomy)
Heilungsrate
insgesamt
78%
(273/350)
83%
(289/350)
Ist Methode B wirklich besser?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
24 / 44
Was ist die bessere Behandlung?
Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen
Charig et al. 1986
Simpson’s Paradox
Methode
Methode A
(open surgery)
Methode B
(Percutaneous
nephrolithotomy)
Maik Kschischo (RheinAhrCampus)
Heilungsrate
insgesamt
78%
(273/350)
Patienten mit
kleinen Steinen
93%
(81/87)
Patienten mit
großen Steinen
73%
(192/263)
83%
(289/350)
87%
(234/270)
69%
(55/80)
Big Data Mining
25 / 44
Was ist die bessere Behandlung?
Vergleich zweier Operationsmethoden zur Entfernung von Nierensteinen
Charig et al. 1986
Simpson’s Paradox
Methode
Methode A
(open surgery)
Methode B
(Percutaneous
nephrolithotomy)
Heilungsrate
insgesamt
78%
(273/350)
Patienten mit
kleinen Steinen
93%
(81/87)
Patienten mit
großen Steinen
73%
(192/263)
83%
(289/350)
87%
(234/270)
69%
(55/80)
Methode A ist besser, sowohl bei großen als auch bei kleinen Steinen.
Methode B sieht insgesamt nur besser aus, weil sie auf veile Patienten
mit kleinen Steinen angewendet wurde.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
25 / 44
Kausalmodelle
Kann man kausale Effekte
aus Daten schätzen?
Beobachtungsdaten oder
randomisierte Daten
Kann man Effekte
vorhersagen?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
26 / 44
Kausalmodelle
Kann man kausale Effekte
aus Daten schätzen?
Beobachtungsdaten oder
randomisierte Daten
Kann man Effekte
vorhersagen?
Kausale Statistische Modelle
erfordern Statistikprofis
Maik Kschischo (RheinAhrCampus)
Big Data Mining
26 / 44
Wirksamkeit von Werbemaßnahmen
Kausalitäten und Verzerrungen
Kunden mit Katalog kaufen
80% mehr als Kunden ohne
Katalog
Werbeabteilung möchte
höheres Budget erhalten
Ist das gerechtfertigt?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
27 / 44
Wirksamkeit von Werbemaßnahmen
Kausalitäten und Verzerrungen
Kunden mit Katalog kaufen
80% mehr als Kunden ohne
Katalog
Werbeabteilung möchte
höheres Budget erhalten
Ist das gerechtfertigt?
Berücksichtigt man, daß vor
allem gute Kunden einen
einen Katalog erhalten
haben, so bleibt kaufen
Kunden mit Katalog nur 3%
höherer Umsatz
Maik Kschischo (RheinAhrCampus)
Big Data Mining
27 / 44
Wirksamkeit von Werbemaßnahmen
Kausalitäten und Verzerrungen
Kunden mit Katalog kaufen
80% mehr als Kunden ohne
Katalog
Werbeabteilung möchte
höheres Budget erhalten
Ist das gerechtfertigt?
Berücksichtigt man, daß vor
allem gute Kunden einen
einen Katalog erhalten
haben, so bleibt kaufen
Kunden mit Katalog nur 3%
höherer Umsatz
Maik Kschischo (RheinAhrCampus)
Big Data Mining
27 / 44
Datengetriebene Entscheidungsunterstützung
Von der Vorhersage zur automatisierten Entscheidung
Predictive Analytics/Modelling
Vorhersagen machen
Korrelationen
Kausale Statistik
Ursache-Wirkungs-Beziehungen
Handlungsempfehlung, Steuerungsmöglichkeit
Entscheidungsautomatisierung
Entscheidungen werden automatisch getroffen
Bestärkendes Lernen (Reinforcement Learning)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
28 / 44
Datengetriebene Entscheidungsunterstützung
Von der Vorhersage zur automatisierten Entscheidung
Predictive Analytics/Modelling
Vorhersagen machen
Korrelationen
Kausale Statistik
Ursache-Wirkungs-Beziehungen
Handlungsempfehlung, Steuerungsmöglichkeit
Entscheidungsautomatisierung
Entscheidungen werden automatisch getroffen
Bestärkendes Lernen (Reinforcement Learning)
Maik Kschischo (RheinAhrCampus)
Big Data Mining
28 / 44
Datengetriebene Entscheidungsunterstützung
Beispiel: Optimale Platzierung von Online-Werbung
Problem: Auf welchen Websites soll ich werben?
Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks
Günstigere Seiten werden selten besucht
Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren
Maik Kschischo (RheinAhrCampus)
Big Data Mining
29 / 44
Datengetriebene Entscheidungsunterstützung
Beispiel: Optimale Platzierung von Online-Werbung
Problem: Auf welchen Websites soll ich werben?
Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks
Günstigere Seiten werden selten besucht
Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren
Methodik: Reinforcement Learning Algorithmen
Dynamische Anpassung der Strategie
Nahezu optimale Platzierung möglich
Kostenersparungen bis zu 80% möglich
Maik Kschischo (RheinAhrCampus)
Big Data Mining
29 / 44
Datengetriebene Entscheidungsunterstützung
Beispiel: Optimale Platzierung von Online-Werbung
Problem: Auf welchen Websites soll ich werben?
Teure Seiten (z.B. Spiegel-Online) generieren viele Klicks
Günstigere Seiten werden selten besucht
Optimale Strategie gesucht, um Klicks pro Euro Kosten zu optimieren
Methodik: Reinforcement Learning Algorithmen
Dynamische Anpassung der Strategie
Nahezu optimale Platzierung möglich
Kostenersparungen bis zu 80% möglich
Riesiges Potential für datengetriebende automatische oder
halbautomatische Entscheidungsunterstützung in vielen Bereichen von
Management, Fertigung bis zur Medizin.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
29 / 44
Big Data
Ist das nur ein Schlagwort?
Begriffsverwirrung
Big Data“ wird häufig als
Sammelbegriff für digitale
Technologien benutzt
Datenmengen
zu groß
zu komplex
zu schwach strukturiert
dynamisch
Maik Kschischo (RheinAhrCampus)
Big Data Mining
30 / 44
Big Data
Was kann „BIG “im eigentlichen Sinne bedeuten?
Viele Beobachtungen n
Viele Variable p
Maik Kschischo (RheinAhrCampus)
Big Data Mining
31 / 44
Big Data
Small is beautiful or think big?
Viele Beobachtungen n
Viele Variable p
Maik Kschischo (RheinAhrCampus)
Big Data Mining
32 / 44
Komplexe Daten
Machine Learning und Datenanalysealgorithmen benötigen die Daten
in einer betimmten Form
Meistens als Datenmatrix mit Variablen (Spalten) und Beobachtungen
(Zeilen)
Andere Datentypen werden oft in diese Form transformiert
Beispiele:
1
2
3
4
Textdaten (Text Mining)
Bilder
Streaming-Daten
Zeitreihen
Maik Kschischo (RheinAhrCampus)
Big Data Mining
33 / 44
Data Science
Informatik, Statistik und Maschinelles Lernen
Datenbanken
Sammlung, Aufbereitung
und Bereitstellung der Daten
Datenanalyse- und
Modellierung
Statistik
Maschinelles Lernen
Künstliche Intelligenz
Maik Kschischo (RheinAhrCampus)
Big Data Mining
34 / 44
Big Data Plattformen
Wie kann ich große Datenmengen prozessieren?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
35 / 44
Big Data Plattformen
Wie kann ich große Datenmengen prozessieren?
Das kommt darauf an!
Maik Kschischo (RheinAhrCampus)
Big Data Mining
35 / 44
Hadoop
Ein Framework für verteilte Berechnungen
Framework für skalierbare,
verteilt arbeitende Software
Frei verfügbar (Apache) und
open source
In Java geschrieben
Zugriff aber über Java,
Python, Scala, R,...
Maik Kschischo (RheinAhrCampus)
Big Data Mining
36 / 44
Hadoop
Wesentliche Bestandteile und Grundprinzip
Daten liegen verteilt auf
verschiedenen Computern
(nodes), die sogar
gographisch verteilt sein
können.
Daten können in einer
strukturierten Datenbank
oder unstrukturiert (z.B. als
Textfiles) vorliegen.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
37 / 44
Hadoop
Wesentliche Bestandteile und Grundprinzip
Daten liegen verteilt auf
verschiedenen Computern
(nodes), die sogar
gographisch verteilt sein
können.
Hadoop Distributed File
System (HDFS)
Hadoop’s MapReduce
Daten können in einer
strukturierten Datenbank
oder unstrukturiert (z.B. als
Textfiles) vorliegen.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
37 / 44
Hadoop
Wesentliche Bestandteile und Grundprinzip
Daten liegen verteilt auf
verschiedenen Computern
(nodes), die sogar
gographisch verteilt sein
können.
Hadoop Distributed File
System (HDFS)
Hadoop’s MapReduce
MapReduce
Daten können in einer
strukturierten Datenbank
oder unstrukturiert (z.B. als
Textfiles) vorliegen.
Map: Eine map-Funktion
wird auf den lokalen Daten
ausgeführt
Shuffle: Zwischenergebnisse
werden verwaltet
Reduce: Jeder Satz von
Zwischenergebnissen wird
weiterverarbeitet zu
Ausgabedaten
Maik Kschischo (RheinAhrCampus)
Big Data Mining
37 / 44
Hadoop
Einige Erweiterungen und Tools
Hive
Data Warehouse Architektur aufbauend auf Hadoop
HiveQL, eine auf SQL basierende Abfragesprache
HBase
hochskalierbare verteilte Datenbank
Verwaltung großer Mengen strukturierter Daten
Pig
Zum Erstellen von Hadoop MapReduce-Programmen
High-Level-Sprache Pig Latin
Spark
in-memory Batch Processing Engine
Insbesondere für Machine-Learning Anwendugen
···
Maik Kschischo (RheinAhrCampus)
Big Data Mining
38 / 44
Hadoop
Systemvoraussetzungen
Kann auf Standardrechnern laufen
Linux 64 bit
HDFS ist auf Fehlertoleranz und Redundanz ausgelegt
Anzahl der Knoten und Hardwareanforderungen skalieren mit
Datenumfang und Rechenaufwand der Analysen
Maik Kschischo (RheinAhrCampus)
Big Data Mining
39 / 44
Produkte und Serviceanbieter
aufbauend auf Hadoop
Amazon.com
Hadoop-Cluster zur Miete als Cloud-Service
Cloudera
eigene Hadoop-Distribution
zahlreiche Zusatzprodukte
Microsoft
Azure Cloud Plattform
Weitreichende Hadoop und andere Big Data Anwendungen
SAP
Anbindung and SAP HANA (In-Memory-Computing)
Echtzeitanalyse
IBM
InfoSphere BigInsights
Unstrukturierte Daten
Oracle
Big Data Appliance
SQL and NoSQL
···
Maik Kschischo (RheinAhrCampus)
Big Data Mining
40 / 44
Datenanalyse und Machine Learning
Software
Statistische Analysesoftware und
Programmiersprache
Maik Kschischo (RheinAhrCampus)
Big Data Mining
41 / 44
Datenanalyse und Machine Learning
Software
Statistische Analysesoftware und
Programmiersprache
Maik Kschischo (RheinAhrCampus)
Programmiersprache mit
Datenanalysebibliotheken
Big Data Mining
41 / 44
Datenanalyse und Machine Learning
Software
Statistische Analysesoftware und
Programmiersprache
Programmiersprache mit
Datenanalysebibliotheken
Machine Learning in Hadoop
Maik Kschischo (RheinAhrCampus)
Big Data Mining
41 / 44
Warum scheitern Projekte?
Für den Predictive Analytics
Strategische Fehler
Methodische Fehler
Unklare Fragestellung und
falsche Erwartungen
Mangelnde Vorverarbeitung
der Daten
Ungeeignete Daten
Die falschen oder zu viele
Prädiktorvariablen
(Variablenselektion, Feature
selection)
Fixierung auf das
Informatikproblem
(Datenprozessierung statt
-analyse)
Zu wenige Beobachtungen
Keine professionellen Data
Scientists
Ignoranz gegenüber
Fachwissen in
Anwendungsgebiet
Maik Kschischo (RheinAhrCampus)
Big Data Mining
Festlegung auf eine eine
einzige Methode
(Modellvergleiche,
Modellkombinationen)
42 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
4
Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
4
Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen.
5
Erst später das Informatikproblem allgemeingültig lösen.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
4
Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen.
5
Erst später das Informatikproblem allgemeingültig lösen.
6
Professionelle Beratung von Data Analysts und Informatikern.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
4
Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen.
5
Erst später das Informatikproblem allgemeingültig lösen.
6
Professionelle Beratung von Data Analysts und Informatikern.
7
Kooperation von Fachleuten mit Data Analysts.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Was ist zu beachten?
Planung eines Predictive Analytics Projekts
1
Was will ich wissen?
2
Welche Daten habe ich oder welche kann ich erheben?
3
Reicht mir ein Vorhersagemodell oder benötige ich kausale
Zusammenhänge?
4
Möglichst erst ein kleineres Pilotprojeket als Vorstudie angehen.
5
Erst später das Informatikproblem allgemeingültig lösen.
6
Professionelle Beratung von Data Analysts und Informatikern.
7
Kooperation von Fachleuten mit Data Analysts.
Maik Kschischo (RheinAhrCampus)
Big Data Mining
43 / 44
Fragen und Diskussion
Maik Kschischo (RheinAhrCampus)
Big Data Mining
44 / 44
Herunterladen