SAP Predictive Analytics – Vorausschauende Analysen mit SAP

Werbung
Inhalt
Einleitung ..........................................................................................................................
15
1
Einführung in Predictive Analytics
21
1.1
Grundlagen des Data Minings ..................................................................
21
1.1.1
1.1.2
Der Begriff »Data Mining« und seine Historie ......................
Typische Anwendungsfälle von Data Mining ........................
21
23
Der Data-Mining-Prozess ............................................................................
25
1.2.1
1.2.2
1.2.3
1.2.4
1.2.5
1.2.6
Problemdefinition ...........................................................................
Datenanalyse ....................................................................................
Datenvorbereitung .........................................................................
Modellierung ....................................................................................
Ergebnisvisualisierung und -bewertung .................................
Deployment des Modells ..............................................................
27
28
28
29
30
32
Methoden der Datenvorbereitung .........................................................
32
1.3.1
1.3.2
1.3.3
1.3.4
1.3.5
1.3.6
1.3.7
Variablen ............................................................................................
Deskriptive Statistik .......................................................................
Integration und Transformation ................................................
Sampling ............................................................................................
Ausreißerbehandlung ....................................................................
Binning ................................................................................................
Missing Values .................................................................................
32
33
36
37
38
39
41
Algorithmen und Methoden des Data Minings ................................
42
1.4.1
1.4.2
1.4.3
1.4.4
1.4.5
1.4.6
1.4.7
Regressionsanalyse ........................................................................
Zeitreihenanalyse ...........................................................................
Klassifikations- und Clusterverfahren .....................................
Assoziationsanalyse .......................................................................
Entscheidungsstrukturen .............................................................
Künstliche neuronale Netze ........................................................
Weitere Algorithmen .....................................................................
43
45
47
50
51
53
54
Einordnung von Predictive Analytics in den
Bereich Data Mining .....................................................................................
56
1.5.1
1.5.2
57
57
1.2
1.3
1.4
1.5
Was ist Predictive Analytics? .......................................................
Abgrenzung von Predictive Analytics .......................................
7
Inhalt
Inhalt
2
Mehrwert durch Predictive Analytics
2.1
Warum Predictive Analytics? ...................................................................
61
2.2
Warum Predictive Analytics mit SAP? ..................................................
68
2.3
Anwendungsbeispiele .................................................................................
70
2.3.1
2.3.2
3
3.1
Anwendungsbeispiel 1:
Preiselastizitäten im Einzelhandel ...........................................
Anwendungsbeispiel 2:
Absatzprognosen in der Musikindustrie ................................
SAP Predictive Analytics
4.2
4.3
71
73
4.4
77
Datencodierung ..............................................................................................
118
4.2.1
4.2.2
4.2.3
4.2.4
4.2.5
Codierung nominaler Variablen .................................................
Codierung ordinaler Variablen ...................................................
Codierung stetiger Variablen ......................................................
Manuelle Variablencodierung ....................................................
Behandlung fehlender Werte in Automated Analytics ......
118
120
122
124
124
Datenzugriff und -vorbereitung mit dem Data Manager ............
124
4.3.1
4.3.2
Datenvorbereitung mit dem Data Manager ..........................
Datenmanipulation mit dem Data Manager ........................
125
126
Klassifikations-/Regressionsanalyse .....................................................
127
4.4.1
4.4.2
4.4.3
Datenquelle auswählen ...............................................................
Datenbeschreibung ........................................................................
Filter .....................................................................................................
128
133
138
4.4.4
4.4.5
4.4.6
4.4.7
4.4.8
4.4.9
4.4.10
Auswahl von Variablen .................................................................
Zusammenfassung der Modellierungsparameter ...............
Erweiterte Modellparameter ......................................................
Trainieren des Modells und Modellübersicht ........................
Modellverwendung: Anzeigen ...................................................
Modellverwendung: Ausführen .................................................
Modellverwendung: Sichern/exportieren ..............................
139
142
143
148
151
174
187
Einführung und Einordnung in das SAP-Produktportfolio .........
77
3.1.1
3.1.2
3.1.3
Einführung in SAP Predictive Analytics ...................................
Zielgruppen ......................................................................................
Produktportfolio .............................................................................
77
79
81
Plattformintegration und Architektur .................................................
84
3.2.1
3.2.2
Plattformintegration .....................................................................
Architektur ........................................................................................
84
86
4.5
Zeitreihen ..........................................................................................................
191
Installation .......................................................................................................
88
4.6
Clustering ...........................................................................................................
196
SAP Download Center ...................................................................
Desktop-Installation ......................................................................
Serverinstallation ...........................................................................
Predictive-Factory-Installation ...................................................
Hardwarevoraussetzungen ........................................................
88
90
94
98
101
4.7
Analyse sozialer Netzwerke ......................................................................
200
Weitere Algorithmen und Toolkit ..........................................................
207
3.4
Benutzeroberfläche und Navigation ...................................................
102
3.5
Einstellungen ...................................................................................................
104
4.8.1
4.8.2
4.8.3
4.8.4
4.8.5
4.8.6
4.8.7
207
210
212
214
217
218
223
4
Mit dem Modus »Automated Analytics«
arbeiten
113
Grundlagen ......................................................................................................
113
4.1.1
4.1.2
4.1.3
113
115
117
3.2
3.3
3.3.1
3.3.2
3.3.3
3.3.4
3.3.5
4.1
8
61
Unterteilungsstrategie .................................................................
Modellerstellung und Evaluierung ...........................................
SRM-Grundlagen ............................................................................
4.8
5
Kollokationsanalyse .......................................................................
Analyse der häufigen Pfade .........................................................
Recommendation ............................................................................
Assoziationsanalyse .......................................................................
Sequenzanalyse ...............................................................................
Textanalyse .......................................................................................
Toolkit .................................................................................................
Mit dem Modus »Expert Analytics«
arbeiten
225
5.1
Funktionen von Expert Analytics ............................................................
225
5.2
Navigation und Einstellungen in Expert Analytics .........................
226
9
Inhalt
Inhalt
5.2.1
5.2.2
5.3
5.4
5.5
5.6
10
Einstellungen und Navigation im Tool ....................................
Ansichten in Expert Analytics .....................................................
226
230
Datenvorbereitung .......................................................................................
234
5.3.1
5.3.2
Vorbereitungssicht ........................................................................
Data Type Definition .....................................................................
234
239
5.3.3
5.3.4
5.3.5
5.3.6
5.3.7
5.3.8
5.3.9
5.3.10
Filter ....................................................................................................
Formula ..............................................................................................
Normalization ..................................................................................
Partition .............................................................................................
Sample ...............................................................................................
Model Statistics ..............................................................................
Model Compare ..............................................................................
SAP-HANA-Datenvorbereitungskomponenten ....................
239
241
242
243
243
244
246
248
Assoziationsanalyse .....................................................................................
251
5.4.1
5.4.2
5.4.3
Grundlegende Begriffe .................................................................
R-Apriori .............................................................................................
Anwendungsbeispiele ..................................................................
251
252
257
Clustering und Klassifikation ...................................................................
257
5.5.1
5.5.2
5.5.3
5.5.4
5.5.5
5.5.6
5.5.7
5.5.8
Auto Clustering ...............................................................................
R-K-Means .........................................................................................
SAP-HANA-Clustering-Algorithmen .........................................
Auto Classification .........................................................................
R-Bagging Classification ..............................................................
R-Boosting Classification .............................................................
R-Random Forest Classification .................................................
SAP-HANA-Klassifikationsalgorithmen ..................................
258
261
264
265
266
268
269
270
Regressionsalgorithmen ............................................................................
273
5.6.1
5.6.2
5.6.3
5.6.4
5.6.5
5.6.6
5.6.7
5.6.8
5.6.9
5.6.10
5.6.11
5.6.12
273
275
276
277
278
279
281
281
282
282
284
285
Auto Regression ..............................................................................
Exponentielle Regression .............................................................
Geometrische Regression ............................................................
Lineare Regression .........................................................................
Logarithmische Regression .........................................................
R-exponentielle Regression .........................................................
R-geometrische Regression .........................................................
R-lineare Regression ......................................................................
R-logarithmische Regression ......................................................
R-multilineare Regression ...........................................................
R-Random Forest Regression ......................................................
SAP-HANA-Regressionsalgorithmen .......................................
5.7
5.8
6
Zeitreihen ..........................................................................................................
287
5.7.1
5.7.2
5.7.3
5.7.4
5.7.5
287
289
291
292
292
R-Single Exponential Smoothing ...............................................
R-Double Exponential Smoothing .............................................
R-Triple Exponential Smoothing ................................................
Triple Exponential Smoothing ....................................................
SAP-HANA-Zeitreihenalgorithmen ...........................................
Weitere Algorithmen ...................................................................................
292
5.8.1
5.8.2
5.8.3
5.8.4
5.8.5
293
297
298
303
304
Entscheidungsstrukturen: R-CNR Tree ....................................
SAP-HANA-Entscheidungsstrukturen ......................................
Neuronale Netze .............................................................................
Ausreißeranalyse .............................................................................
SAP-HANA-Ausreißeralgorithmen ............................................
Integration von R im
Modus »Expert Analytics«
307
6.1
Grundlagen von R ..........................................................................................
308
6.2
R-Integration ....................................................................................................
315
6.3
Beispiel: ABC-Analyse ..................................................................................
317
7
Visualisierungen
325
7.1
Visualisierungen in Automated Analytics .........................................
325
7.2
Visualisierungen in Expert Analytics .....................................................
326
7.2.1
Überblick der Darstellungsmöglichkeiten in
Expert Analytics ...............................................................................
Schlagwortwolke in Expert Analytics .......................................
Liniendiagramm in Expert Analytics .........................................
Säulendiagramm in Expert Analytics .......................................
Streudiagramm in Expert Analytics ..........................................
Geoblasendiagramm ....................................................................
326
329
330
330
331
332
Visualisierungserweiterung durch VizPacker ....................................
333
7.3.1
7.3.2
333
334
7.2.2
7.2.3
7.2.4
7.2.5
7.2.6
7.3
Überblick zum VizPacker ..............................................................
Externe Visualisierungen einsetzen .........................................
11
Inhalt
Inhalt
8
8.1
8.2
8.3
Model Management mit der
Predictive Factory
341
8.1.1
8.1.2
8.1.3
8.1.4
8.1.5
8.1.6
Einstellungen ...................................................................................
Benutzer ............................................................................................
Modellierungsserver ......................................................................
Externe Befehle ...............................................................................
Projekte ..............................................................................................
Variablenstatistik ...........................................................................
342
344
344
345
346
349
Deployment von Automated-Analytics-Modellen .........................
350
8.2.1
Zeitreihen ..........................................................................................
351
8.2.2
8.2.3
Klassifikation ...................................................................................
Clustering ..........................................................................................
354
355
Deployment von Expert-Analytics-Modellen ...................................
357
8.3.1
8.3.2
357
8.3.3
361
9.1
Einführung in SAP HANA Native .............................................................
362
Application Function Library (AFL) .........................................................
365
9.2.2
9.2.3
9.2.4
9.3
PAL-Algorithmen im Modus
Expert Analytics einsetzen ..........................................................
PAL-Komponenten im Modus
Expert Analytics erstellen ...........................................................
407
10.1.1
10.1.2
Serverarchitektur ............................................................................
RLANG-Prozedur ..............................................................................
408
409
10.2 Beispiel: Netzwerkoptimierung ..............................................................
409
10.2.1
10.2.2
10.2.3
10.2.4
10.2.5
Mathematische Modellierung ....................................................
Formulierung des Optimierungsproblems .............................
Optimierung des Modells .............................................................
Technische Implementierung .....................................................
Ergebnis ..............................................................................................
410
411
411
412
418
11 Zusammenfassung und Ausblick
419
11.1 Zusammenfassung ........................................................................................
419
11.2 Ausblick ..............................................................................................................
420
Die Autoren ......................................................................................................................
423
Index ...................................................................................................................................
427
366
370
Automated Predictive Library (APL) ..........................................
OFL und die SAP-HANA-Optimierungsfunktion ...................
372
383
Weitere integrierte Szenarien .................................................................
386
9.3.1
9.3.2
386
395
Modellexport im Modus Automated Analytics ....................
Modellexport im Modus Expert Analytics .............................
10.1 Eigene Algorithmen für SAP HANA entwickeln ................................
359
SAP-HANA-integriertes Data Mining
9.2.1
12
357
9
9.2
407
341
Einführung in die Predictive Factory .....................................................
Schritt 1: Model Chain in Expert Analytics erstellen ..........
Schritt 2: Model Chain aus
Expert Analytics exportieren ......................................................
Schritt 3: Model Chain in die
Predictive Factory importieren ..................................................
10 Integration von R in SAP HANA
13
Herunterladen