Inhalt Einleitung .......................................................................................................................... 15 1 Einführung in Predictive Analytics 21 1.1 Grundlagen des Data Minings .................................................................. 21 1.1.1 1.1.2 Der Begriff »Data Mining« und seine Historie ...................... Typische Anwendungsfälle von Data Mining ........................ 21 23 Der Data-Mining-Prozess ............................................................................ 25 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 Problemdefinition ........................................................................... Datenanalyse .................................................................................... Datenvorbereitung ......................................................................... Modellierung .................................................................................... Ergebnisvisualisierung und -bewertung ................................. Deployment des Modells .............................................................. 27 28 28 29 30 32 Methoden der Datenvorbereitung ......................................................... 32 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 Variablen ............................................................................................ Deskriptive Statistik ....................................................................... Integration und Transformation ................................................ Sampling ............................................................................................ Ausreißerbehandlung .................................................................... Binning ................................................................................................ Missing Values ................................................................................. 32 33 36 37 38 39 41 Algorithmen und Methoden des Data Minings ................................ 42 1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 1.4.6 1.4.7 Regressionsanalyse ........................................................................ Zeitreihenanalyse ........................................................................... Klassifikations- und Clusterverfahren ..................................... Assoziationsanalyse ....................................................................... Entscheidungsstrukturen ............................................................. Künstliche neuronale Netze ........................................................ Weitere Algorithmen ..................................................................... 43 45 47 50 51 53 54 Einordnung von Predictive Analytics in den Bereich Data Mining ..................................................................................... 56 1.5.1 1.5.2 57 57 1.2 1.3 1.4 1.5 Was ist Predictive Analytics? ....................................................... Abgrenzung von Predictive Analytics ....................................... 7 Inhalt Inhalt 2 Mehrwert durch Predictive Analytics 2.1 Warum Predictive Analytics? ................................................................... 61 2.2 Warum Predictive Analytics mit SAP? .................................................. 68 2.3 Anwendungsbeispiele ................................................................................. 70 2.3.1 2.3.2 3 3.1 Anwendungsbeispiel 1: Preiselastizitäten im Einzelhandel ........................................... Anwendungsbeispiel 2: Absatzprognosen in der Musikindustrie ................................ SAP Predictive Analytics 4.2 4.3 71 73 4.4 77 Datencodierung .............................................................................................. 118 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 Codierung nominaler Variablen ................................................. Codierung ordinaler Variablen ................................................... Codierung stetiger Variablen ...................................................... Manuelle Variablencodierung .................................................... Behandlung fehlender Werte in Automated Analytics ...... 118 120 122 124 124 Datenzugriff und -vorbereitung mit dem Data Manager ............ 124 4.3.1 4.3.2 Datenvorbereitung mit dem Data Manager .......................... Datenmanipulation mit dem Data Manager ........................ 125 126 Klassifikations-/Regressionsanalyse ..................................................... 127 4.4.1 4.4.2 4.4.3 Datenquelle auswählen ............................................................... Datenbeschreibung ........................................................................ Filter ..................................................................................................... 128 133 138 4.4.4 4.4.5 4.4.6 4.4.7 4.4.8 4.4.9 4.4.10 Auswahl von Variablen ................................................................. Zusammenfassung der Modellierungsparameter ............... Erweiterte Modellparameter ...................................................... Trainieren des Modells und Modellübersicht ........................ Modellverwendung: Anzeigen ................................................... Modellverwendung: Ausführen ................................................. Modellverwendung: Sichern/exportieren .............................. 139 142 143 148 151 174 187 Einführung und Einordnung in das SAP-Produktportfolio ......... 77 3.1.1 3.1.2 3.1.3 Einführung in SAP Predictive Analytics ................................... Zielgruppen ...................................................................................... Produktportfolio ............................................................................. 77 79 81 Plattformintegration und Architektur ................................................. 84 3.2.1 3.2.2 Plattformintegration ..................................................................... Architektur ........................................................................................ 84 86 4.5 Zeitreihen .......................................................................................................... 191 Installation ....................................................................................................... 88 4.6 Clustering ........................................................................................................... 196 SAP Download Center ................................................................... Desktop-Installation ...................................................................... Serverinstallation ........................................................................... Predictive-Factory-Installation ................................................... Hardwarevoraussetzungen ........................................................ 88 90 94 98 101 4.7 Analyse sozialer Netzwerke ...................................................................... 200 Weitere Algorithmen und Toolkit .......................................................... 207 3.4 Benutzeroberfläche und Navigation ................................................... 102 3.5 Einstellungen ................................................................................................... 104 4.8.1 4.8.2 4.8.3 4.8.4 4.8.5 4.8.6 4.8.7 207 210 212 214 217 218 223 4 Mit dem Modus »Automated Analytics« arbeiten 113 Grundlagen ...................................................................................................... 113 4.1.1 4.1.2 4.1.3 113 115 117 3.2 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 4.1 8 61 Unterteilungsstrategie ................................................................. Modellerstellung und Evaluierung ........................................... SRM-Grundlagen ............................................................................ 4.8 5 Kollokationsanalyse ....................................................................... Analyse der häufigen Pfade ......................................................... Recommendation ............................................................................ Assoziationsanalyse ....................................................................... Sequenzanalyse ............................................................................... Textanalyse ....................................................................................... Toolkit ................................................................................................. Mit dem Modus »Expert Analytics« arbeiten 225 5.1 Funktionen von Expert Analytics ............................................................ 225 5.2 Navigation und Einstellungen in Expert Analytics ......................... 226 9 Inhalt Inhalt 5.2.1 5.2.2 5.3 5.4 5.5 5.6 10 Einstellungen und Navigation im Tool .................................... Ansichten in Expert Analytics ..................................................... 226 230 Datenvorbereitung ....................................................................................... 234 5.3.1 5.3.2 Vorbereitungssicht ........................................................................ Data Type Definition ..................................................................... 234 239 5.3.3 5.3.4 5.3.5 5.3.6 5.3.7 5.3.8 5.3.9 5.3.10 Filter .................................................................................................... Formula .............................................................................................. Normalization .................................................................................. Partition ............................................................................................. Sample ............................................................................................... Model Statistics .............................................................................. Model Compare .............................................................................. SAP-HANA-Datenvorbereitungskomponenten .................... 239 241 242 243 243 244 246 248 Assoziationsanalyse ..................................................................................... 251 5.4.1 5.4.2 5.4.3 Grundlegende Begriffe ................................................................. R-Apriori ............................................................................................. Anwendungsbeispiele .................................................................. 251 252 257 Clustering und Klassifikation ................................................................... 257 5.5.1 5.5.2 5.5.3 5.5.4 5.5.5 5.5.6 5.5.7 5.5.8 Auto Clustering ............................................................................... R-K-Means ......................................................................................... SAP-HANA-Clustering-Algorithmen ......................................... Auto Classification ......................................................................... R-Bagging Classification .............................................................. R-Boosting Classification ............................................................. R-Random Forest Classification ................................................. SAP-HANA-Klassifikationsalgorithmen .................................. 258 261 264 265 266 268 269 270 Regressionsalgorithmen ............................................................................ 273 5.6.1 5.6.2 5.6.3 5.6.4 5.6.5 5.6.6 5.6.7 5.6.8 5.6.9 5.6.10 5.6.11 5.6.12 273 275 276 277 278 279 281 281 282 282 284 285 Auto Regression .............................................................................. Exponentielle Regression ............................................................. Geometrische Regression ............................................................ Lineare Regression ......................................................................... Logarithmische Regression ......................................................... R-exponentielle Regression ......................................................... R-geometrische Regression ......................................................... R-lineare Regression ...................................................................... R-logarithmische Regression ...................................................... R-multilineare Regression ........................................................... R-Random Forest Regression ...................................................... SAP-HANA-Regressionsalgorithmen ....................................... 5.7 5.8 6 Zeitreihen .......................................................................................................... 287 5.7.1 5.7.2 5.7.3 5.7.4 5.7.5 287 289 291 292 292 R-Single Exponential Smoothing ............................................... R-Double Exponential Smoothing ............................................. R-Triple Exponential Smoothing ................................................ Triple Exponential Smoothing .................................................... SAP-HANA-Zeitreihenalgorithmen ........................................... Weitere Algorithmen ................................................................................... 292 5.8.1 5.8.2 5.8.3 5.8.4 5.8.5 293 297 298 303 304 Entscheidungsstrukturen: R-CNR Tree .................................... SAP-HANA-Entscheidungsstrukturen ...................................... Neuronale Netze ............................................................................. Ausreißeranalyse ............................................................................. SAP-HANA-Ausreißeralgorithmen ............................................ Integration von R im Modus »Expert Analytics« 307 6.1 Grundlagen von R .......................................................................................... 308 6.2 R-Integration .................................................................................................... 315 6.3 Beispiel: ABC-Analyse .................................................................................. 317 7 Visualisierungen 325 7.1 Visualisierungen in Automated Analytics ......................................... 325 7.2 Visualisierungen in Expert Analytics ..................................................... 326 7.2.1 Überblick der Darstellungsmöglichkeiten in Expert Analytics ............................................................................... Schlagwortwolke in Expert Analytics ....................................... Liniendiagramm in Expert Analytics ......................................... Säulendiagramm in Expert Analytics ....................................... Streudiagramm in Expert Analytics .......................................... Geoblasendiagramm .................................................................... 326 329 330 330 331 332 Visualisierungserweiterung durch VizPacker .................................... 333 7.3.1 7.3.2 333 334 7.2.2 7.2.3 7.2.4 7.2.5 7.2.6 7.3 Überblick zum VizPacker .............................................................. Externe Visualisierungen einsetzen ......................................... 11 Inhalt Inhalt 8 8.1 8.2 8.3 Model Management mit der Predictive Factory 341 8.1.1 8.1.2 8.1.3 8.1.4 8.1.5 8.1.6 Einstellungen ................................................................................... Benutzer ............................................................................................ Modellierungsserver ...................................................................... Externe Befehle ............................................................................... Projekte .............................................................................................. Variablenstatistik ........................................................................... 342 344 344 345 346 349 Deployment von Automated-Analytics-Modellen ......................... 350 8.2.1 Zeitreihen .......................................................................................... 351 8.2.2 8.2.3 Klassifikation ................................................................................... Clustering .......................................................................................... 354 355 Deployment von Expert-Analytics-Modellen ................................... 357 8.3.1 8.3.2 357 8.3.3 361 9.1 Einführung in SAP HANA Native ............................................................. 362 Application Function Library (AFL) ......................................................... 365 9.2.2 9.2.3 9.2.4 9.3 PAL-Algorithmen im Modus Expert Analytics einsetzen .......................................................... PAL-Komponenten im Modus Expert Analytics erstellen ........................................................... 407 10.1.1 10.1.2 Serverarchitektur ............................................................................ RLANG-Prozedur .............................................................................. 408 409 10.2 Beispiel: Netzwerkoptimierung .............................................................. 409 10.2.1 10.2.2 10.2.3 10.2.4 10.2.5 Mathematische Modellierung .................................................... Formulierung des Optimierungsproblems ............................. Optimierung des Modells ............................................................. Technische Implementierung ..................................................... Ergebnis .............................................................................................. 410 411 411 412 418 11 Zusammenfassung und Ausblick 419 11.1 Zusammenfassung ........................................................................................ 419 11.2 Ausblick .............................................................................................................. 420 Die Autoren ...................................................................................................................... 423 Index ................................................................................................................................... 427 366 370 Automated Predictive Library (APL) .......................................... OFL und die SAP-HANA-Optimierungsfunktion ................... 372 383 Weitere integrierte Szenarien ................................................................. 386 9.3.1 9.3.2 386 395 Modellexport im Modus Automated Analytics .................... Modellexport im Modus Expert Analytics ............................. 10.1 Eigene Algorithmen für SAP HANA entwickeln ................................ 359 SAP-HANA-integriertes Data Mining 9.2.1 12 357 9 9.2 407 341 Einführung in die Predictive Factory ..................................................... Schritt 1: Model Chain in Expert Analytics erstellen .......... Schritt 2: Model Chain aus Expert Analytics exportieren ...................................................... Schritt 3: Model Chain in die Predictive Factory importieren .................................................. 10 Integration von R in SAP HANA 13