Wissen aus erster Hand. Leseprobe Immer einen Schritt voraus! Lernen Sie mit diesem Buch, wie Sie aus Ihren Daten mit SAP Predictive Analytics künftige Entwicklungen herauslesen. In dieser Leseprobe erfahren Sie, wie Sie den Modus »Automated Analytics« nutzen und Ihre Daten für eine Klassifikations- bzw. Regressionsanalyse vorbereiten. »Mit dem Modus ‚Automated Analytics‘ arbeiten« (Auszug) »Einleitung« Inhaltsverzeichnis Index Die Autoren Leseprobe weiterempfehlen Nargiz Bakhshaliyeva, Jian Liang Chen, Ulrich Dommer, Ekaterina Samlenski, Helge Schmedt, Nico Schulze, Robert Wilczek SAP Predictive Analytics Vorausschauende Analysen mit SAP 433 Seiten, gebunden, Juli 2017 79,90 Euro, ISBN 978-3-8362-4415-2 www.sap-press.de/4276 Kapitel 4 Mit dem Modus »Automated Analytics« arbeiten 4 In diesem Kapitel werden wir die Datenvorbereitung und -analyse der wichtigsten Algorithmen thematisieren, die im Modus Automated Analytics zur Verfügung stehen. 4.1 Grundlagen Bevor wir auf den eigentlichen Prozess der Modellerstellung im Detail eingehen, geben wir einen Überblick über die theoretischen Grundlagen des Modus Automated Analytics. Die Bezeichnung Automated wird damit begründet, dass viele Rechenschritte bei der Datenanalyse in diesem Modus automatisiert werden. Deshalb ist Automated Analytics für die Data-Mining-Spezialisten und Endanwender oftmals eine »Black Box«, da es für Nutzer nahezu unmöglich ist, die Analyse im Detail nachzuvollziehen und nachberechnen zu können. In diesem Abschnitt werden die Grundlagen des Lernprozesses, der Datencodierung und Unterteilungsstrategie erläutert. 4.1.1 Unterteilungsstrategie Vor der Analyse werden die Trainingsdaten im Modus Automated Analytics in zwei obligatorische und eine optionale Datenmenge aufgeteilt. Der Datenaufteilungsprozess nennt sich Unterteilungsstrategie (engl. Cutting Strategy) und spielt eine wichtige Rolle bei der Modellerstellung in Automated Analytics. Die Daten aus der ersten obligatorischen Datenmenge werden Schätzungsdaten (engl. Estimation Sub-set) genannt. Die Schätzungsdaten dienen dem Trainieren des Modells. Auf Basis dieser Daten werden in mehreren Iterationen verschiedene Modelle erstellt und deren KI-Koeffizient für jedes dieser Modelle bestimmt (KI und KR wurden in Abschnitt 1.2.5, »Ergebnisvisualisierung und -bewertung«, beschrieben). Schätzungsdaten und Validierungsdaten 113 4 Mit dem Modus »Automated Analytics« arbeiten Die Daten aus der zweiten obligatorischen Datenmenge werden Validierungsdaten (engl. Validation Sub-set) genannt. Mittels dieser Daten werden die Modelle auf Konsistenz und Robustheit geprüft. Hierbei wird der KRKoeffizient berechnet. Das Modell mit dem höchsten KI- und KR-Koeffizienten wird anschließend ausgewählt. Testdaten (optional) Die Aufteilung der Trainingsdaten in eine dritten Datenmenge (Testdaten) kann optional gewählt werden. Entscheidet sich der Anwender für diese Art der Aufteilung, so wird eine finale Prüfung der Performance-Indikatoren über diese Daten durchgeführt. Standardmäßig werden die Trainingsdaten im Modus Automated Analytics zufällig in Schätzungs- und Validierungsdaten unterteilt. Eine individuelle Anpassung der Unterteilungsstrategie kann unter Datenquelle auswählen angepasst werden (siehe Abbildung 4.1). 4.1 Grundlagen wert, sich für eine zufällige Unterteilungsstrategie zu entscheiden. So kann sichergestellt werden, dass in allen aufgeteilten Datensätzen ähnliche Datensätze vorhanden sind. 4 4.1.2 Modellerstellung und Evaluierung Abbildung 4.2 verdeutlicht, wie ein Modell im Modus Automated Analytics bezüglich der Datensätze erstellt und evaluiert wird. In Schritt 1 haben wir die Daten anhand der ausgewählten Unterteilungsstrategie in mindestens zwei und maximal drei Datenmengen aufgeteilt. Modell 1 Modell 2 … Schätzungsdaten Modell N Erstellung von n Modellen Trainingsdaten Unterteilungsstrategie Validierungsdaten Evaluierung der Modelle und Auswahl des besten Modells Unterteilung der Trainingsdaten Testdaten Performancetest im ausgewählten besten Modell Abbildung 4.2 Unterteilungsstrategie und Auswahl des besten Modells (Quelle: SAP) Abbildung 4.1 Einstellungen der Unterteilungsstrategie Benutzerdefinierte Unterteilungsstrategie Bei Bedarf kann eine benutzerdefinierte Unterteilungsstrategie verwendet werden, wobei für jede Unterteilung eine entsprechende Datenmenge geladen wird (siehe auch Abschnitt 4.4.1, »Datenquelle auswählen«). Automated Analytics unterstützt acht vordefinierte Unterteilungsstrategien: Sequenziell, Sequenziell ohne Test, Periodisch, Periodisch mit Test am Ende, Periodisch ohne Test, Zufällig, Zufällig mit Test am Ende und Zufällig ohne Test (Standardeinstellung). Die Auswahl einer Unterteilungsstrategie sollte anhand der vorhandenen Daten und der auszuführenden Analyse stattfinden. Wenn in den Daten die Variablen z. B. nach ihren Ausprägungen sortiert sind, ist es empfehlens- 114 Im Schritt 2 werden iterativ n Modelle erstellt. Bei der Erstellung eines Modells werden alle erklärenden Variablen analysiert. An dieser Stelle wird geprüft, welche der Variablen entweder keinen oder einen sehr geringen Einfluss auf die Zielvariable haben. Je nach Einstellung in der automatischen Auswahl (dazu mehr in Abschnitt 4.4.6, »Erweiterte Modellparameter«) werden die Variablen mit geringstem Einfluss auf die Zielvariable ausgeschlossen. Ist der Prozess abgeschlossen, wird in der nächsten Iteration ein neues Modell mit den übrig gebliebenen Variablen erstellt und geprüft. Mehrere Modelle erstellen Im Schritt 3 werden die erstellten Modelle evaluiert und das Modell mit den besten Performance-Indikatoren ausgewählt. Optional können in einem weiteren Schritt 4 die Performance-Indikatoren des ausgewählten Modells nochmals geprüft werden. Das beste Modell auswählen 115 4 Mit dem Modus »Automated Analytics« arbeiten 4.1 Abbildung 4.3 verdeutlicht den Lernprozess eines Modells schematisch. Validierung Schätzung h= minimale Komplexität Modelltest auf Basis der Validierungsdaten Ist Error größer geworden? h=h+1 Das Modell mit der Komplexität = h wird generiert. 4.1.3 SRM-Grundlagen Im Modus Automated Analytics wird das Prinzip der Structural Risk Minimization (SRM) verwendet, um ein optimales Modell zu finden. Die zugrunde liegende Theorie wurde von Vladimir Vapnik und Alexey Chervonekis erarbeitet und findet Anwendung im Bereich des maschinellen Lernens. Training Nein Ja Grundlagen Structural Risk Minimization 4 Einfach interpretiert, wird mithilfe der SRM-Theorie in Automated Analytics ein optimales Modell bestimmt, wenn es nicht zu komplex (übertrainiert) ist und trotzdem eine möglichst niedrige Anzahl von Fehlern aufweist. Wie oben beschrieben, werden während des Trainingsprozesses im Hintergrund mehrere Vorhersagemodelle automatisch erstellt. Abbildung 4.4 verdeutlicht, wie sich diese Modelle voneinander unterscheiden und welches davon ausgewählt werden sollte. Fehler (Validierungsdatenset) Fehler h wird erhöht finales Modell = bestes Modell mit h – 1 das beste Modell Modellkomplexität Fehler Abbildung 4.3 Lernprozess im Modus Automated Analytics (Quelle: SAP) Der Parameter h gibt die Komplexität eines Modells an (Grundlagen der Structural Risk Minimization oder SRM vermitteln wir in Abschnitt 4.1.3). Am Anfang der Trainingsphase ist die Komplexität h des erstellen Modells minimal. Ein Modell wird immer auf Basis eines Schätzungsdatensatzes erstellt. Nach dem Erstellen eines Modells 1 werden die Fehleranzahl (Vergleich der Vorhersage mit den tatsächlichen Werten der Zielvariablen) und Performance-Indikatoren dieses Modells auf dem Validierungsdatensatz geprüft. Nachdem die Prüfung abgeschlossen wurde, wird ein weiteres Modell 2 erstellt, dessen Komplexität h+1 beträgt. Die Fehler dieses Modells werden mit demselben Validierungsdatensatz berechnet. Weist das Modell 2 der Komplexität h+1 weniger Fehler auf als das vorige Modell 1 der Komplexität h, wird ein weiteres Modell 3 mit der Komplexität h+2 erstellt. Die Komplexität des nächsten Modells wird so lange inkrementiert, bis die Anzahl der Fehler, die auf Basis des Validierungsdatensatzes berechnet wurde, steigt (siehe Abbildung 4.4 im folgenden Abschnitt, Graph 2). Ist das Fall, wird das Modell mit der geringsten Fehleranzahl als das beste Modell ausgewählt. 116 (Schätzungsdatenset) Modellkomplexität underfitting overfitting Abbildung 4.4 Das beste Modell nach der SRM-Theorie Auf der x-Achse wird die Modellkomplexität h dargestellt, die y-Achse repräsentiert die Anzahl der Fehler. Graph 1 zeigt die Anzahl der Fehler an, die sich während des Trainingsprozesses (basierend auf dem Schätzungsdatensatz) ändert. In Allgemeinen weist das erste Modell im Erstellungsprozess relativ viele Fehler auf. Das heißt, dass sich die vorhergesagten Werte dieses Modells oft von den historischen Werten unterscheiden. Mit jedem Durchlauf im Trainingsprozess wird das Modell korrigiert, so dass die Anzahl der Fehler des Modells nach jeder Iteration reduziert wird. Graph 2 gibt die Komplexität des Modells an. Je mehr das Modell »antrainiert« wird, desto komplexer wird es. 117 4 Mit dem Modus »Automated Analytics« arbeiten Graph 3 zeigt die Anzahl von Fehlern an, die bei dem Modelltest (basierend auf dem Validierungsdatensatz) identifiziert wurden. Anhand genau dieser Linie wird das Modell als bestes ausgewählt, das nach SRM die minimalste Anzahl an Fehlern aufweist. 4.2 Datencodierung Zielvariablenmittelwerte Bitte beachten Sie, dass die Zielvariablenmittelwerte in Abbildung 4.5 als Beispiel zufällig generiert wurden. Die tatsächlichen Zielvariablenmittelwerte der Variablen Education in der Census-Beispieldatei können sich unterscheiden. 4 4.2 Datencodierung In Automated Analytics werden die Variablen der Daten anhand des Wertes codiert. Hier ist zu beachten, dass der Wert der Variablen den Typ dieser Variablen bezeichnet und nicht die Ausprägung, die eine Variable annehmen kann. Der Wert einer Variablen wird anhand der Ausprägungen definiert, die diese Variable annehmen kann (siehe Beispiel einer Klassifikationsanalyse in Abschnitt 4.4.2, »Datenbeschreibung«). Danach werden die errechneten Zielvariablenmittelwerte der beiden Datensätze miteinander verglichen. Wenn sich diese Werte voneinander unterscheiden, d. h., wenn sie nicht robust sind, werden diese der Kategorie KxOthers zugeordnet. Wenn die Werte gleich sind, werden sie zusammen gruppiert, wie z. B. {Assoc-acdm; Assoc-voc} oder {5th-6th;7th-8th;9th; 10th;11th;12th} in Abbildung 4.5. Education 4.2.1 Codierung nominaler Variablen Die Variablen, die diskrete und nicht geordnete Ausprägungen beinhalten, werden mit dem Wert nominal definiert. Das kann etwa der Familienstand (ledig, verheiratet, geschieden etc.), die Autofarbe (Silber, Schwarz, Rot, Blau etc.) oder die Postleitzahl sein. Die Encodierung nominaler Variablen besteht aus mehreren Schritten. Zuerst werden die Zielvariablenmittelwerte (Target Mean) auf Basis des Schätzungs- und Validierungsdatensatzes mittels Chi-Quadrat-Test miteinander verglichen. Chi-Quadrat-Test (χ2-Test) Der Chi-Quadrat-Text ist ein Signifikanztest, der zur Analyse von zwei Variablen anhand der beobachteten Häufigkeiten ihrer Merkmalsausprägungen benutzt wird. Der Test wird oft zur Überprüfung der Unabhängigkeit zweier Variablen verwendet. Angenommen, es sollen auf Basis historischer Kundendaten zukünftige potenzielle Kunden einer Bank identifiziert werden. Diese Daten beinhalten 15 verschiedene Attribute, unter anderem den akademischen Grad der Kunden, der als die Variable Education bezeichnet wird. Der Wert der Variablen Education wird als nominale Variable festgelegt. Zielvariablenmittelwerte berechnen und vergleichen 118 Während der Codierung werden zuerst die Zielvariablenmittelwerte für jede Ausprägung der Variablen Education für den Schätzungs- und den Validierungsdatensatz berechnet (siehe Abbildung 4.5). Zielvariablenmittelwert (Schätzungsdatenset) Zielvariablenmittelwert (Validierungsdatenset) 1st-4th 0,15 0,25 5th-6th 0,20 0,20 7th-8th 0,20 0,20 9th 0,20 0,20 10th 0,20 0,20 {5th-6th;7th- 11th 0,20 0,20 {1st-4th;Masters}= {KxOther} 0,20 12th 0,20 0,20 Assoc-acdm; Assoc-voc 0,45 Assoc-acdm 0,45 0,45 Bachelors 0,50 Assoc-voc 0,45 0,45 Bachelors 0,50 0,50 Doctorate 0,60 0,60 Prof-school 0,60 0,60 HS-grad 0,55 0,55 Masters 0,30 0,10 Preschool 0,25 0,25 Some-college 0,35 0,35 Education Zielvariablenmittelwert (Schätzungsdatenset) 0,20 Doctorate; Prof-school 0,60 HS-grad 0,55 Preschool 0,25 Some-college 0,35 Abbildung 4.5 Encoding nominaler Variablen Nicht robuste Variablen Wenn sich die Zielvariablenmittelwerte einer Variablen, die auf Basis der Schätzungs- und Validierungsdaten berechnet werden, unterscheiden, wird die Variable als nicht robust bezeichnet. 119 4 Mit dem Modus »Automated Analytics« arbeiten Anschließend können die gebildeten Gruppen/Kategorien in einer grafischen Darstellung nach der Wichtigkeit der Kategorie betrachtet werden (siehe Abbildung 4.6). In Abschnitt 4.4.8, »Modellverwendung: Anzeigen«, beschreiben wir im Detail, wie die Ergebnisse dargestellt werden. 4.2 Wenn die ordinale Variable in Bezug auf den Zielvariablenmittelwert codiert wird, werden die von 0 bis n davor erstellten Kategorien dann gruppiert, wenn die nacheinanderfolgenden Kategorien den gleichen Zielvariablenmittelwert haben. Bei der Gruppierung der Kategorien muss die Reihenfolge unbedingt beibehalten werden. So sind z. B. bei der Codierung der Variablen education-num, die 16 Ausprägungen enthält (von 1 bis 16), die Kategorien [2,5] und [3,4,8] nicht zulässig. Die Kategorien [1:9[, [9:10[, [10:11[ und [11:13[ hingegen sind plausibel (siehe Abbildung 4.7). Datencodierung Codierung in Bezug auf Zielvariablenmittelwert 4 Abbildung 4.7 Wichtigkeit der ordinalen Variablen »education-num« Abbildung 4.6 Wichtigkeit der nominalen Variablen »education« 4.2.2 Codierung ordinaler Variablen Variablen, die diskrete und geordnete Ausprägungen annehmen können, werden in Automated Analytics als Variablenwert ordinal definiert. Zum Beispiel bilden Schulnoten zur Beurteilung von Studenten eine ordinale Variable. Die ordinalen Variablen können entweder als Standard oder in Bezug auf den Zielvariablenmittelwert codiert werden. Standardcodierung 120 Im Fall einer Standardcodierung werden die Variablenwerte in den Kategorien von 0 bis n codiert. Die Anzahl n gibt die Menge der Ausprägungen der Variablen an, die in den Trainingsdaten erfasst wurden. Eine standardcodierte ordinale Variable wird in der anschließenden Oberfläche zur Auswertung des Modells als <Variablenname> angezeigt, z. B. education-num. Die ordinalen Variablen, die in Bezug auf den Zielvariablenmittelwert codiert wurden, werden als c_<Variablename> angezeigt (siehe die Bezeichnungen education-num und c_education-num in Abbildung 4.41). Fehlt in der Variablen eines Datensatzes die Ausprägung, so wird diese der Kategorie KxMissing zugeordnet, die nicht robusten Ausprägungen dagegen der Kategorie KxOther. Fehlende Werte Bewertung als ordinale Variable Eine Variablenordnung im Sinne einer ordinalen Variablen erfolgt über Buchstaben oder Zahlen. Daher kann beispielsweise eine Variable Bewertung, dessen Ausprägungen gut, durchschnittlich und schlecht sind, nicht direkt als ordinale Variable in Automated Analytics behandelt werden. Hier würden die Werte in alphabetischer Reihenfolge sortiert (durchschnittlich, schlecht, gut). Die Codierung dieser Ausprägungen nach Zahlen kann in diesem Fall Abhilfe schaffen. 121 4 Mit dem Modus »Automated Analytics« arbeiten 4.2 Datencodierung 4.2.3 Codierung stetiger Variablen Sind die Ausprägungen einer Variablen stetige Zahlen mit Nachkommastellen, werden solche Variablen mit dem Wertetyp continuous deklariert. Beispiele von stetigen Variablen sind z. B. Umsätze, Temperaturmessungen oder Körpergrößen. Die stetigen Variablen können sowohl standardmäßig als auch stückweise codiert werden. Standardcodierung Im Fall der standardmäßigen Codierung werden alle Ausprägungen der Variablen so normalisiert, dass der Median gleich 0 und die Standardabweichung gleich 1 sind. Bei einer solchen Codierung wird die Variable in der anschließenden Oberfläche zur Auswertung des Modells als <Variablename> angezeigt. Stückweise Codierung Bei der stückweisen Codierung einer stetigen Variablen werden initial alle Ausprägungen in n gleichmäßige Gruppen aufgeteilt (Standard in Automated Analytics ist n = 20). Bei 20 Gruppen entspricht die Größe der Aufteilung in etwa 5 % der vorkommenden Ausprägungen. Die Gruppierung kann anhand der Variablen age aus den Census-Beispieldaten verdeutlich werden. Nachdem das Modell im Modus Automated Analytics erstellt wurde, kann der Anwender unter Statistische Berichte weitere Berichte zum Modell einsehen. Dort kann unter anderem entnommen werden, dass die Ausprägungen der Variablen age im Schätzungs- und Validierungsdatensatz im Bereich von 17 bis 90 liegen (siehe Abbildung 4.8). 4 Abbildung 4.9 Statistische Berichte: Häufigkeiten der Kategorie Einige der initial vordefinierten Bins werden mit dem nächsten »benachbarten« Bin zusammengefasst, wenn diese auf Basis des gesamten Datensatzes nicht robust sind. Ist der Zielvariablenmittelwert eines Bins ähnlich dem des angrenzenden Bins, werden auch diese zusammengeführt. So werden im Beispiel die Bins [30;36[, [36;42[, [42;56[ und [56;90] erstellt (siehe Abbildung 4.10). Abbildung 4.8 Statistische Berichte: stetige Variablen Die generierten Bins der Variablen age werden im statistischen Bericht Häufigkeiten der Kategorie dargestellt (siehe Abbildung 4.9). 122 Abbildung 4.10 Statistische Berichte: Kreuzstatistik für gruppierte Kategorien 123 4 Mit dem Modus »Automated Analytics« arbeiten Die restlichen Ausprägungen werden der Kategorie KxMissing zugeordnet. Stückweise codierte stetige Variable werden in der Modellauswertung durch das Präfix c_<Variablenname> charakterisiert (vergleichen Sie auch die Beiträge der Variablen age und der Variablen c_age im Abschnitt »Beiträge nach Variablen« in Abschnitt 4.4.8, dort Abbildung 4.41). 4.2.4 Manuelle Variablencodierung Wenn Sie eine eigene Codierung für eine Variable erstellen möchten, muss unter Umständen die Struktur dieser Variablen festgelegt werden (siehe dazu Abschnitt 4.4.2, »Datenbeschreibung«). Fachliche Sicht der Datencodierung Das Verfahren der Datencodierung im Modus Automated Analytics wird ausschließlich über die vorhandene Datengrundlage determiniert. Die fachliche Anforderung an eine Variable wird hier nicht berücksichtigt. Das heißt, dass eine manuelle Korrektur des Wertetyps in solchen Fällen notwendig ist (siehe Beispiel zur Struktur in Abschnitt 4.4.2, »Datenbeschreibung«). 4.2.5 Behandlung fehlender Werte in Automated Analytics Wie in Abschnitt 4.2.2, »Codierung ordinaler Variablen«, bereits angeschnitten, werden fehlende Ausprägungen in Automated Analytics gesondert behandelt. Fehlende Ausprägungen im Schätzungsdatensatz werden bei nominalen Variablen der Kategorie KxMissing zugeordnet. Die Kategorie wird genauso wie alle anderen Kategorien behandelt. Bei stetigen Variablen können die fehlenden Ausprägungen hingegen mit einer anderen Gruppierung zusammengefasst werden. 4.3 4.3.1 Datenvorbereitung mit dem Data Manager Im Data Manager kann die Datengrundlage der bevorstehenden Analyse auf Basis unterschiedlicher Zeitpunkte, z. B. jeden ersten Tages des Monats, vorbereitet werden. Dabei können die angepasste Variable Definition und weitere Features, wie beispielsweise Filter oder Prompt, ohne Änderungen wieder genutzt werden. Die so erstellte Datengrundlage wird als analytischer Datensatz (engl. Analytical Data Set, ADS) bezeichnet. Ein analytischer Datensatz im Data Manager wird in folgenden drei Schritten vorbereitet: 1. Im ersten Schritt wird eine Entität (engl. Entity) definiert. Sie ist das kleinste Objekt in dem Datensatz und kann beispielsweise ein Kunde, eine Ware, eine Bankkontonummer etc. sein. Der Data Manager in Predictive Analytics beinhaltet Funktionen, die Sie bei der Datenvorbereitung unterstützen. Der immense Aufwand zur Vorbereitung der Daten ist den Anwendern oft nicht bewusst. Erfahrungsgemäß nimmt dieser Teil der Datenvorbereitung in der Praxis ca. 80 % des Gesamtaufwands für die Erstellung eines Modells in Anspruch. Mit Automated Analytics kann der dafür benötigte Aufwand deutlich verkürzt werden. Im Folgenden stellen wir Ihnen diese Funktionen vor. 124 4 Erstellung eines analytischen Datensatzes 2. Als Nächstes wird ein analytischer Datensatz angelegt, der die eben erstellte Entität näher beschreibt. Ferner kann eine Entität über mehrere analytische Datensätze charakterisiert werden (siehe 1:n-Beziehung zwischen der Entität und dem analytischen Datensatz in Abbildung 4.11). Die Attribute des analytischen Datensatzes können sowohl statisch als auch zeitabhängig sein. Define Entity 1. 2. 1 1 n n Define Analytical Record Set Time-Stamped Population 1 1 n 3. 4.3 Datenzugriff und -vorbereitung mit dem Data Manager Datenzugriff und -vorbereitung mit dem Data Manager Create Temporal Data Set Abbildung 4.11 Die Methodik des analytischen Datensatzes Definition der Zielvariablen Definieren Sie keine Zielvariable im analytischen Datensatz. Diese wird im Zeitstempel definiert. Ein Zeitstempel kann sowohl einen dynamischen Filter enthalten als auch einen aktuellen Zeitstempel (KxTimeStamp), der erstellt wird, wenn Sie einen Snapshot von der Population machen. 125 4 Mit dem Modus »Automated Analytics« arbeiten 3. Im letzten Schritt wird das Produkt aus dem analytischen Datensatz und der Population mit dem Zeitstempel erstellt. Dieses Produkt wird als temporaler analytischer Datensatz bezeichnet. Die erstellten Objekte können Sie so als Datenquelle für die weiterführende Analyse verwenden (siehe Abbildung 4.12). 4.4 Klassifikations-/Regressionsanalyse 쐍 Außerdem können mit Neue Bedingung dynamische Filterung und Vari- ablenbelegung angelegt werden. 쐍 Über Neue Lookup-Tabelle können für einzelne Variablen einer Tabelle Abfragen definiert und dahin gehend manipuliert werden. Beispielsweise kann so die Variable Bewertung mit den Ausprägungen gut, durchschnittlich, schlecht als numerisch geordnete Größe festlegt werden (gut: 1, durchschnittlich: 2, schlecht: 3), 4 쐍 Die Option Neue Normalisierung wird auf eine stetige Variable angewen- det, um die zugrunde liegende Ausprägung zu normalisieren (im Bereich 0 und 1 normieren). 쐍 Mittels Neuer SQL-Ausdruck kann der Datensatz anhand von SQL- Abfragen beliebig transformiert werden. Abbildung 4.12 Auswahl einer Datenquelle im Data Manager 4.3.2 Datenmanipulation mit dem Data Manager Der Data Manager bietet außerdem weitere Möglichkeiten zur Datenmanipulation. Hierbei muss eine neue Datenmanipulation angelegt und die zugrunde liegende Tabelle ausgewählt werden. Ist dies erfolgt, gelangen Sie in den Editor für Datenmanipulation (siehe Abbildung 4.13). Folgende Funktionen können durch Anlegen eines neuen Ausdrucks verwendet werden: 쐍 Der Ausdruckseditor bietet eine breite Palette an Funktionen, um Varia- blen zu manipulieren. Diese umfasst arithmetische, boolesche, Datums-, Konvertierungs-, Zeichen-, Zeichenfolgen- und sonstige Operatoren. 쐍 Über Neues Aggregat kann eine weitere Tabelle mit der bestehenden zusammengeführt werden. Die Schlüssel beider Tabellen für die Zusammenführung und die Art der Aggregation der jeweiligen Kennzahlen (Durchschnitte, Summen, Aufzählungen, Minimum und Maximum etc.) müssen hier angegeben werden. Im Register Periodeneinstellungen können Start- und Enddatum festlegt werden. Im Register Filter und Pivoteinstellungen können zusätzliche Filter festgelegt oder für jeden ausgewählten Wert eine Variable anlegt werden. 126 Abbildung 4.13 Datenmanipulation mit dem Data Manager 4.4 Klassifikations-/Regressionsanalyse Klassifikations- und Regressionsanalysen sind zwei der bekanntesten DataMining-Verfahren und gehören zu den Stärken von Automated Analytics. Beim Data Mining sind die Klassifikations- und Regressionsanalyse 127 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse getrennt zu betrachten. Für jede dieser Analysen gibt es eigene Algorithmen. Im Modus Automated Analytics stehen jedoch beide Analysetypen unter einem Menüpunkt, da der Modellansatz der Ridge Regression (siehe Abschnitt 1.4.1, »Regressionsanalyse«) und die zugrunde liegende Engine für diese Analysen die gleichen sind. Differenzierung der Analysen 4 Die Differenzierung erfolgt bei der Wahl einer Zielvariablen. Ist die Zielvariable stetig, wird eine Regression durchgeführt. Bestimmt der Nutzer eine binäre Zielvariable, erfolgt eine Klassifikation. Mehrere Zielvariablen Automated Analytics ist in der Lage, eine Regressions- und eine Klassifikationsanalyse gleichzeitig durchzuführen. Der Anwender muss hierbei zwei Zielvariablen mit unterschiedlichen Wertetypen festlegen. Beispielsweise können die Zielvariable Kredit aufnehmen (1 für ja und 0 für nein) und die Zielvariable Insolvent (mit einer Wahrscheinlichkeit von 0 bis 1) angenommen werden. In diesem Fall werden für beide Variablen im Modus Automated Analytics zwei Modelle generiert: eines für die Regression und ein weiteres für die Klassifikation. Es können darüber hinaus mehrere Zielvariablen vom gleichen Wertetyp ausgewählt werden. Analyse binärer Klassifikationen Die Klassifikationsanalyse im Modus Automated Analytics ist eine binäre Klassifikation. Das heißt, dass das erstellte Modell über Automated Analytics nur zwischen zwei Klassen unterscheiden kann. Die Klassifizierung in drei, vier oder mehr Klassen wird hierbei nicht unterstützt. Die Zielvariable kann sowohl binäre Zahlen (0 oder 1) als auch andere Werte wie Yes/No oder True/False enthalten. Mit der Regressionsanalyse in Automated Analytics kann eine abhängige Variable (z. B. Sales) mithilfe von unabhängigen (erklärenden) Variablen bestimmt werden. Abbildung 4.14 Klassifikations-/Regressionsanalyse: Auswahl der Datenquelle Sie haben die Möglichkeit, eine lokale Datei, eine Datenbanktabelle oder einen bereits angelegten, analytischen Datensatz aus dem Data Manager als Datenquelle für die Analyse zu verwenden 1. Bei der ersten Option können Sie folgende Datentypen auswählen 2: Unterstützte Dateiformate 쐍 Textdateien: .dat, .data, .csv und .txt 쐍 Datenbank: Verbindung zu HANA und anderen ODBC-Datenquellen, die auf Ihrem Rechner angelegt sind 4.4.1 Datenquelle auswählen Für die Erstellung eines Klassifikations- und/oder Regressionsmodells wählen Sie in der Startoberfläche von Predictive Analytics Modeler 폷 Klassifikations-/Regressionsmodell anlegen. Im darauffolgenden Fenster Datenquelle auswählen (siehe Abbildung 4.14) können Sie die Trainingsdaten für Ihre Analyse bestimmen. 쐍 Flat Memory: das Laden der Datei aus dem aktiven Speicher 쐍 SAS-Dateien: aus bestimmter Version und unterstützendem System (SAS-Dateien v6 oder v7/8/9, Win oder Unix) oder SAS-Transportdateien (.xpt) 쐍 SPSS-Dateien: .sav 쐍 Excel: Arbeitsmappen der Version 97-2003 (.xls) oder 2007 (.xlsx) Nachdem Sie einen Datentyp ausgewählt haben, setzen Sie den Vorgang mit der Wahl des Ordners und der Quelldatei fort (3 und 4). 128 129 4 Mit dem Modus »Automated Analytics« arbeiten Beispieldateien Mit der Installation von SAP Predictive Analytics werden Beispieldaten (Samples) bereitgestellt, die im Modus Automated Analytics direkt verwendet werden können und Ihnen den Einstieg erleichtern. Diese finden Sie unter Datei oder Datenbanktabelle verwenden 폷 Datentyp 폷 Textdateien 폷 Ordner 폷 Durchsuchen und dort im Ordner ../../../Samples (siehe 4 in Abbildung 4.14). Vielen Samples ist eine entsprechende Datei zur Beschreibung ihrer einzelnen Variablen beigelegt. Die Daten liegen bereits in der Struktur/Form vor, die insbesondere für Zeitreihenanalysen oder Analysen sozialer Netzwerke benötigt wird. Der erste Buchstabe K im Datennamen stammt ursprünglich von der Firma KXEN und wurde beibehalten. Um sich mit Automated Analytics vertraut zu machen, empfehlen wir, für den Anfang die folgenden Daten zu verwenden: 4.4 Klassifikations-/Regressionsanalyse Wenn die Datenquelle ausgewählt wurde, kann die Beispieldatenansicht in Automated Analytics mit dem Icon angesehen werden (siehe 6 in Abbildung 4.14). Es öffnet sich das Fenster Beispieldatenansicht. Innerhalb dieses Fensters können drei verschiedene Reiter ausgewählt werden: Daten, Statistik und Graph. Beispieldatenansicht öffnen 4 Im Register Daten werden die Variablen und die Daten in dem vom Benutzer definiertem Bereich (erster Zellindex und letzter Zellindex definieren und auf den Button klicken) angezeigt. Die Daten können auch in zwei vertikalen ( ) oder horizontalen ( ) Fenstern gleichzeitig abgebildet werden (siehe Abbildung 4.15). 쐍 Census: Klassifikations- und Regressionsanalyse 쐍 GeoLoc: Analyse der häufigen Pfade, Kollokationsanalyse 쐍 JapaneseData: Assoziationsanalyse (Association Rules = AR), Recommendation 쐍 KAR: Assoziationsanalyse (AR) 쐍 KelData: Klassifikations- und Regressionsanalyse 쐍 KSN: Analyse sozialer Netzwerke (Social Network = SN) 쐍 KTC: Textanalyse 쐍 KTS: Zeitreihenanalyse (Time Series = TS) Census-Datei In diesem Abschnitt werden die Beispieldaten in der Datei Census01.csv analysiert. Die Census-Datei enthält die Daten von 48.842 Kunden aus den Vereinigten Staaten von Amerika, die mindestens 17 Jahre alt sind. Jeder einzelne Kunde wird anhand von 15 Variablen beschrieben: age, workclass, fnlwgt (gewichtete Variable), education und education-num, marital-status, occupation, relationship, race, sex, capital-gain, capital-los, native country und class. Die Zielvariable class beinhaltet die Werte 0 oder 1, wobei 1 für Personen steht, die ein Jahresgehalt von mindestens 50.000 US$ beziehen, und 0 für Personen, deren Gehalt unter 50.000 US$ liegt. Unser Ziel ist es, anhand von 15 Attributen vorherzusagen, ob eine Person mehr als 50.000 US$ verdient und somit zur Klasse 1 gehört oder nicht. Abbildung 4.15 Klassifikations-/Regressionsanalyse: Beispieldatenansicht Im Register Statistik können Sie die deskriptive Statistik für die gesamten Daten oder einen Teil davon ansehen. Dazu gehören: Deskriptive Statistik 쐍 die Zeilenanzahl in der Quelldatei 쐍 von Automated Analytics geschätzter Wert jeder Variablen 130 Bedeutung der Zielvariablen »Class« 쐍 von Automated Analytics geschätzter Speichertyp jeder Variablen Für das Beispiel in diesem Kapitel wurde die ursprüngliche Bedeutung der Zielvariablen Class geändert. Hier meinen wir mit der Ausprägung 1, dass der Kunde das Produkt einer Bank gekauft hat. Die Ausprägung 0 gibt Personen an, die das Produktangebot einer Bank abgelehnt haben. 쐍 die Anzahl der fehlenden Werte (in diesem Fall nur leere Werte) 쐍 die Häufigkeit der Kategorie für jede Variable 131 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 쐍 nur für die stetigen Variablen die wichtigsten statistischen Parameter (sowie Min, Max, Mittelwert und Standardabweichung) Über die Schalfläche kann die webbasierte Form des Berichts nach Excel transportiert werden. Neben der tabellarischen Form gelangen Sie über den Reiter Graph zu der grafischen Darstellung. Die x- und y-Achsen müssen hier definiert werden. Anschließend wird der Graph über Graph anzeigen dargestellt. Diese Funktion ist besonders bei der Zeitreihenanalyse sehr hilfreich. Sollte bei der Datenvorschau die Kopfzeile(-n) oder die grundlegende Datenformatierung nicht wie gewünscht angezeigt werden, können Sie weitere Anpassungen mit der Funktion vornehmen (siehe 5 in Abbildung 4.14). Hier stehen die Einstellungen für Teilstichprobe, Datei oder Kopfzeile zur Auswahl. In dem Abschnitt Teilstichprobe können Sie die erste und die letzte Zeile für Ihre Stichprobe auswählen (um den gesamten Datensatz auf eine Teilmenge einzuschränken), die Zufallsauswahl aktivieren, den zufälligen Initialwert sowie den prozentualen Anteil definieren. Im Abschnitt Dateieinstellungen können Sie die Trennzeichen (Tabulator, Komma, Semikolon, Leerzeichen etc.) für Ihre Textdatei festlegen, das Datumsformat und -trennzeichen anpassen (Jahr/Monat/Tag oder Tag.Monat.Jahr), das Erzwingen der Codierung aktivieren (UTF-8, UTF-16, systemeigen oder Latin-1) und das Winkelformat für geografische Daten auswählen. Automated Analytics unterstützt die Winkelformate aus Tabelle 4.1 für die Breiten- und Längengrade. Winkelformat Winkelformat Format Grad dezimal [–+]ddd,ddddd Beispiel +32,30642 –122,61458 Grad Minuten dezimal Grad 100 Minuten dezimal (NMEA) [–+]ddd° mm,mmmm' [SNWE] [–+]dddmm,mmm +32° 18,385' –122° 36,875' +3218,3852 Klassifikations-/Regressionsanalyse Wählen Sie Unterteilungsstrategie (siehe 7 in Abbildung 4.14), um die entsprechende Unterteilungsstrategie festzulegen. In unserem Beispiel wird die Standardeinstellung zufällig ohne Test ausgewählt. Über die Auswahl Metadaten (siehe 8 in Abbildung 4.14) können Einstellungen zum Metadaten-Repository vorgenommen werden. Die gleichen Optionen finden Sie auch unter Datei 폷 Einstellungen… 폷 Metadaten-Repository. Damit wird der Pfad der Metadaten festgelegt. Mehr darüber lesen Sie in Abschnitt 4.4.10, »Modellverwendung: Sichern/exportieren«. 4 Schritt zurückgehen oder Modellaufbauprozess abbrechen? Bitte beachten Sie, dass Sie mit Klick auf den Button Abbrechen den gesamten Modellaufbauprozess beenden und zur Startseite des Tools weitergeleitet werden. Wollen Sie einen Schritt zurückgehen, nutzen Sie bitte den Button Zurück. Sie können auch die automatische Sicherung des Modells aktivieren (siehe dazu Abschnitt 4.4.5, »Zusammenfassung der Modellierungsparameter«). Dadurch wird das Modell in jedem Schritt automatisch gespeichert. Klicken Sie nach der Datenquellenauswahl auf den Button Weiter (siehe 9 in Abbildung 4.14) zur Fortsetzung der Modellerstellung. 4.4.2 Datenbeschreibung Im nächsten Schritt des Modellaufbaus Datenbeschreibung (siehe Abbildung 4.16) werden Sie die Variablen (Spalten) aus der Datenquelle beschreiben, insbesondere die Einstellungen zu Speicherformat, Typ, Struktur etc. Klicken Sie zur Datenbeschreibung entweder auf den Button Analysieren 1, oder öffnen Sie eine bereits vorhandene Beschreibung 2. Ist eine Datei zur Beschreibung der Daten vorhanden, so können Sie über den Button Analysieren die Daten analysieren und sich eine vorgeschlagene Beschreibung geben lassen. –12236,8748 Grad Minuten Sekunden [–+]ddd° mm' ss,ss" +32° 18' 23,1" –122° 36' 52,5" Tabelle 4.1 Einstellungen für die Winkelformate Vorgeschlagene Beschreibungen Beachten Sie, dass die von Automated Analytics vorgeschlagenen Beschreibungen unter Umständen den fachlichen Anforderungen der jeweiligen Variablen angepasst werden müssen (z. B. Prüfung auf fehlende Werte und Werttypen). Unter Kopfzeile wird festlegt, ob die Quelldatei eine Kopfzeile enthält und wie viele oberste Zeilen als Kopfzeilen dienen sollen. 132 133 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse 4 Abbildung 4.17 Klassifikations-/Regressionsanalyse: Struktur der Beschreibungsdatei Zu der Datenbeschreibung gehören: 쐍 Index: Nummerierung der Variablen. Die Nummer wird automatisch vergeben, eine Anpassung durch den Nutzer ist nicht möglich. Abbildung 4.16 Klassifikations-/Regressionsanalyse: Datenbeschreibung 쐍 Name: Name der Variablen. Der Name wird automatisch aus den Quell- daten gelesen, kann aber nur in der Datenquelle angepasst werden. Die Datei zur Beschreibung des Datensatzes beinhaltet die Information zu Rank, Name, Storage, Value, KeyLevel, OrderLevel, MissingString, Group und Description der einzelnen Variablen (siehe Abbildung 4.17). Datenbeschreibungen laden 134 In diesem Bespiel laden wir die Beschreibungen aus der Beispieldatei Desc_ Census01.csv. Wenn Sie den Button Beschreibung öffnen (siehe 2 in Abbildung 4.16) anklicken, können Sie den Pfad zu der Beschreibungsdatei bestimmen und mit OK bestätigen. Die vordefinierte Datenbeschreibung wird in der Toolansicht entsprechend Ihrer Beschreibungsdatei angezeigt. Neben der Beschreibung der gesamten Datenquelle können Sie auch einzelne Beschreibungen zu Variablen korrigieren und speichern. Dafür markieren Sie eine Variable und klicken den Button Im Variablenpool sichern an (siehe 3 in Abbildung 4.16). 쐍 Speicher: Art der in dieser Variablen gesicherten Werte (siehe 4 in Abbil- dung 4.16). Mögliche Ausprägungen: – number: stetige Zahlen (Kontonummer, Kunden-ID oder Telefonnummern sollten nicht als Zahl angelegt werden.) – integer: Ganzzahlen – string: Zeichenfolgen – DateTime: Datum und Zeitstempel – Datum: Datumsangaben 쐍 Wert: Art des Wertes (siehe 5 in Abbildung 4.16). Mögliche Ausprägungen: – continuous: reale Zahlen mit beliebigem Wert (auch mit Bruchteilen und Nachkommastellen, wie z. B. Bankkontostand, Geburtsdatum und anderen Werten) 135 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse – nominal: diskrete und nicht georderte Werte, wie z. B. Autofarbe (Blau, Silber, Schwarz) oder Postleitzahl – ordinal: diskrete numerische Variable, bei der die relative Reihenfolge wichtig ist 4 – textual: textuelle Variable, die Phrasen, Sätze oder vollständige Texte enthält 쐍 Schlüssel: Schlüsselvariable oder Identifikation für den Datensatz. Mögliche Ausprägungen: – 1: primärer Schlüssel (Bei der Klassifikations-/Regressionsanalyse ist der Schlüssel automatisch die erstellte Variable KxIndex.) – 2: sekundärer Schlüssel – 0: Variable ist kein Schlüssel. 쐍 Reihenfolge: Gibt an, ob eine Variable bereits vorsortiert ist (siehe 6 in Abbildung 4.16). Mögliche Ausprägungen: – 1: Variable stellt eine natürliche Reihenfolge dar (sehr wichtig bei Datumsvariablen der Zeitreihenanalyse). Das heißt, dass die Daten in dem Datensatz bereits vorsortiert sind, ausgehend vom Variablenwert. – 0: Variable stellt keine natürliche Reihenfolge dar. 쐍 Fehlt: Zeichenfolge, mit der in der Datenbeschreibungsdatei fehlende Werte dargestellt werden (siehe 7 in Abbildung 4.16). Die Ausprägungen legt der Nutzer selber an, wie z. B. 99999, ?, # oder leer. 쐍 Gruppe: Name der Gruppe, zu der die Variable gehört. Jede Variable kann maximal einer Gruppe zugeordnet werden. Alle Variablen derselben Gruppe enthalten dieselben Informationen. Daher erfolgt keine Kreuztabellierung der Gruppen, wenn das Modell eine Reihenfolge mit einer Komplexität über 1 aufweist. 쐍 Beschreibung: ein optionaler Kommentar zu der Variablen Mehrere Variablen markieren 136 Sollen die Beschreibungen mehrerer Variablen angepasst werden, so können Sie diese Variablen mithilfe der gedrückten Tasten (Strg) oder (ª) auswählen, das Kontextmenü per Rechtsklick aufrufen und die Beschreibung der Variablen anpassen. Die gleichen Optionen finden Sie ebenfalls im Register Bearbeitung (siehe 1 in Abbildung 4.18). Abbildung 4.18 Klassifikations-/Regressionsanalyse: Datenbeschreibung Sie können zu einer Variablen auch eine Struktur anlegen (siehe 8 in Abbildung 4.16). Diese Option ist nützlich, wenn Sie z. B. die Variable Land codieren möchte. Mit einer Struktur können Sie Länder den Kontinenten oder länderspezifischen Märkten zuordnen, so wird z. B. die Variable Land mit dieser Struktur entschlüsselt. Struktur anlegen Sollen die Kategorien der Variablen in verschiedene Sprachen übersetzt werden, so können Sie im Register Bearbeitung den Button Kategorien übersetzen (siehe 3 in Abbildung 4.18) anklicken und die Übersetzungen in den entsprechenden Sprachen anlegen und abspeichern. Sie müssen dann für jede neue Kategorie der Variablen einen dazugehörigen Text in der entsprechenden Sprache eintragen. Über den Button Zusammengesetzte Variablen (siehe 4 in Abbildung 4.18) können die zusammengehörigen Variablen wie z. B. bei Längen- und Breitengraden vereinigt werden. Im Kontextmenü können Sie die natürliche Codierung einer Variablen erlauben oder untersagen (siehe Abbildung 4.19). Mehr zur Codierung der Variablen finden Sie in Abschnitt 4.2, »Datencodierung«. 137 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse 4 Abbildung 4.20 Klassifikations-/Regressionsanalyse: Filter in Datensatz hinzufügen Umgang mit Filtern Abbildung 4.19 Klassifikations-/Regressionsanalyse: Datenbeschreibung – Codierung ändern 4.4.3 Filter In Automated Analytics können Sie beim Erstellen des Modells einen Filter für Ihre Datenquelle anlegen. Setzen Sie dafür ein Häkchen bei Filter in Datenset hinzufügen (siehe 9 in Abbildung 4.16) unter Datenbeschreibung, und klicken Sie auf den Button Weiter. Nach erfolgreicher Ausführung werden Sie automatisch zum Fenster Filter im Datenset hinzufügen weitergeleitet (siehe Abbildung 4.20). Wenn das Häkchen nicht gesetzt wird, gelangen Sie zum Schritt Auswahl von Variablen (siehe Abschnitt 4.4.4). Um einen Filter anzulegen, klicken Sie auf Bedingung hinzufügen, und wählen Sie dann im Dialogfenster Bedingung definieren eine Variable, einen Operator und einen Wert aus. Sie können mehrere Filter mit einer Und-/ Oder-Logik für mehrere Variablen verknüpfen. Wenn Sie eine bereits erstellte Bedingung auswählen, können Sie mit dem Klick auf die Reihenfolge in der Filterliste anpassen. 138 Wenn Sie in diesem Schritt einen Filter setzen, wird er nur für diese Analyse relevant sein. Wenn Sie initial gefilterte Daten als Grundlage für alle Analysen erstellen möchten, ist der Data Manager besser geeignet. Sie können einen Filter auch speichern (Funktionen Filter sichern und Vorhandenen Filter laden in Abbildung 4.20) und für eine andere Analyse laden. 4.4.4 Auswahl von Variablen In Automated Analytics können Sie bei der Erstellung einer Klassifikations-/ Regressionsanalyse die Variablen aus Ihren Daten in vier Typen unterteilen (siehe Abbildung 4.21): 1. Zielvariablen: Es muss mindestens eine Variable als Zielvariable deklariert werden. Bei der Auswahl der Zielvariablen entscheiden Sie, ob ein Klassifikations- oder Regressionsmodell erstellt wird. Ist Ihre Zielvariable stetig, wird Automated Analytics ein Regressionsmodell erstellen. Enthält Ihre Zielvariable binäre Werte (0/1, Yes/No, True/False, Won/Lost), wird eine Klassifikationsanalyse erstellt. 139 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse 4. Gewichtungsvariable: Automated Analytics bietet die Möglichkeit, eine Gewichtungsvariable zu deklarieren (z. B. Variable fnlwgt). In diesem Fall wird allen Zeilen eine relative Gewichtung zugeordnet. Die Angabe einer solchen Variablen ist optional. Unter Auswahl von Variablen können Sie diese als Variablenliste sichern. Dies kann besonders nützlich sein, wenn das Modell besonders viele Variablen berücksichtigt und Sie die Variablendeklarierung vereinfachen möchten. Wenn Sie beispielsweise Ihre ausgeschlossenen Variablen definiert haben, klicken Sie auf den Button unterhalb des Bereichs Ausgeschlossene Variablen und vergeben einen beliebigen Namen für Ihre Datei. 4 Variablenliste Fehlerhinweis Neue Dateien können nicht im Ordner ../../../Samples/Census erstellt werden. Die Variablenliste muss z. B. lokal in einem anderen Ordner hinterlegt werden. Abbildung 4.21 Klassifikations-/Regressionsanalyse: Auswahl von Variablen Mehrere Zielvariablen Im Modul Automated Analytics ist es möglich, mehrere Zielvariablen zu deklarieren. Diese können sowohl vom gleichen Typ sein (dann werden mehrere Klassifikations- oder Regressionsmodelle erstellt) als auch von unterschiedlichen Typen (in diesem Fall erfolgt die Regressions- und Klassifikationsanalyse gleichzeitig). Falls beim Ladevorgang in der Variablenliste der erklärenden Variablen und der Liste der auszuschließenden Variablen identische Variablen vorgefunden werden, so wird die Variable der zuletzt geladenen Liste übernommen und in der vorigen ausgeschlossen. Zum Beispiel sehen Sie in Abbildung 4.22 die Variable workclass, die doppelt vorkommt. Sie wird dann in dem Bereich deklariert, in dem die Variablenliste zuletzt geladen wurde. Haben Sie zuerst die Liste mit ausgeschlossenen Variablen geladen (siehe 2 in Abbildung 4.21) und anschließend die Liste mit erklärenden Variablen (siehe 1 in Abbildung 4.21), so wird die Variable workclass als erklärende deklariert. 2. Ausgeschlossene Variablen: Die vom Modul Automated Analytics erstellte KxIndex-Variable wird automatisch den ausgeschlossenen Variablen zugeordnet. Variablen, die sehr stark miteinander korrelieren, sollten ausgeschlossen werden (wie z. B. Kundennummer, Kunden-ID, Kundentelefonnummer etc.). Auf die gleiche Weise können entdeckte Leakers verworfen werden (mehr über Leakers erfahren Sie in Abschnitt 4.4.8, »Modellverwendung: Anzeigen«). 3. Erklärende Variablen: Zu den erklärenden Variablen gehören alle Variablen, die nicht ausgeschlossen und nicht als Zielvariablen definiert wurden. Sie werden zur Berechnung des Modells verwendet. Abbildung 4.22 Erklärende und ausgeschlossene Variablen 140 141 4 Mit dem Modus »Automated Analytics« arbeiten 4.4 Klassifikations-/Regressionsanalyse Die Kopfzeilen der Variablenlisten werden ignoriert, somit können Sie die Datei ExcludedVariables.txt in den Bereich Ausgewählte erklärende Variablen laden. 4 Variablenlisten nur für erklärende und ausgeschlossene Variablen Eine Variablenliste kann entweder für erklärende oder für ausgeschlossene Variablen erstellt werden. Zielvariablen und Gewichtungsvariable müssen dennoch immer geprüft und bei Bedarf manuell anpasst werden. Mit einem Häkchen vor Alphabetische Sortierung können die Variablen entsprechend sortiert werden (siehe 3 in Abbildung 4.21). Insbesondere bei vielen Variablen ist eine Sortierung für eine bessere Übersicht sinnvoll. Wenn Sie alle Variablen wie gewünscht deklariert haben, können Sie mit dem nächsten Schritt der Modellerstellung fortfahren, indem Sie auf Weiter klicken. Beispiel In unserem Beispiel sind die Variablen wie in Abbildung 4.21 zu definieren. Abbildung 4.23 Zusammenfassung der Modellierungsparameter 4.4.5 Zusammenfassung der Modellierungsparameter Einstellungen prüfen In der Oberfläche Zusammenfassung der Modellierungsparameter (siehe Abbildung 4.23) können die bisherigen Einstellungen zur Modellerstellung nochmals geprüft werden, wie etwa die Quelldatei, die Art der Unterteilungsstrategie und die Setzung der Ziel- und Gewichtungsvariablen 1. Wenn alles korrekt ist und keine Anpassungen mehr vorgenommen werden müssen, prüfen Sie bitte den Modellnamen. Der Name des Modells wird nach dem Muster <Analysename>_<Quelldateiname> automatisch vergeben 2. Bei der Erstellung von mehreren Modellen bietet sich die Vergabe einer sprechenden Beschreibung an. So können Sie später besser nachvollziehen, welches Modell für welches Ziel und mit welchen Parametern erstellt wurde. Hier kann auch festgelegt werden, ob Automated Analytics einen Entscheidungsbaum als Ergebnisdarstellung erstellen soll 3 oder ob eine automatische Auswahl aktiviert werden soll 4. Das Feld Automatische Auswahl aktivieren ist standardmäßig aktiviert. Diese Funktion reduziert automatisch die Anzahl der Variablen im Modell entsprechend bestimmter Qualitätskriterien (KI und KR). 142 Mit der Einstellung Automatisch sichern 5 können Sie sicherstellen, dass das Modell am Ende des Lernprozesses gespeichert wird, auch wenn Sie in den darauffolgenden Schritten versehentlich den gesamten Prozess abbrechen. Bei der Aktivierung der automatischen Sicherung wird auf dem Button Automatisch sichern ein grünes Häkchen angezeigt, und nach dem Trainieren des Modells erhalten Sie eine Informationsmeldung, dass Ihr Modell gespeichert wurde. Modell automatisch sichern Der Button 6 öffnet den Bereich, in dem Sie ein KxShell-Skript generieren können, das das aktuelle Modell reproduziert. Klicken Sie auf den Button 7, wenn Sie weitere Einstellungen vornehmen möchten. Die erweiterten Einstellungen werden in Abschnitt 4.4.6, »Erweiterte Modellparameter«, behandelt. Diese Anpassungen sind optional. Sie können die Generierung des Modells jetzt starten 8. 4.4.6 Erweiterte Modellparameter Per Klick auf den Button Erweitert (siehe 7 in Abbildung 4.23) können Sie die folgenden Einstellungen anpassen. 143 2 Einleitung Liebe Leserin, lieber Leser, die Möglichkeit, in die Zukunft zu schauen und Vorhersagen oder Prognosen zu treffen, ist für uns alle sehr faszinierend wie auch ein wichtiger Teil für die eigene Planung. So ist es uns wichtig, das morgige Wetter zu kennen, um die richtige Kleidung zu wählen. Ebenso sind wir daran interessiert, den am Wochenende zu erwartenden Autoverkehr gut einschätzen zu können und somit einer möglichen Staugefahr zu entgehen. Diese Beispiele zeigen, dass es sich lohnt, zukünftige Ereignisse gut einschätzen zu können, um somit die eigene Planung zu optimieren. Und dies gilt nicht nur für uns als Privatpersonen, sondern insbesondere für staatliche und betriebswirtschaftliche Organisationen. Gerade für Unternehmen ist es wirtschaftlich sehr entscheidend, Nachfrage- und Preisentwicklungen, Zahlungs- und Logistikströme oder auch Maschinenverschleiß und Materialverbrauch vorhersagen zu können und darauf optimal zu reagieren. Dem Informationsbedarf steht im Zeitalter der fortschreitenden Digitalisierung eine zunehmend hohe Datenverfügbarkeit gegenüber. Je mehr Daten über Kunden, Märkte und eigene Prozesse zur Verfügung stehen, desto besser lassen sich Prognosen über künftige Entwicklungen treffen. Und so entstehen in vielen Unternehmen riesige Datenmengen, wenn nicht sogar »Datenberge«, die mit aufwendigen Business-Intelligence(BI-)Systemen verwaltet werden. Die Weiterentwicklung von BI-Systemen sind Big-Data-Technologien, die es ermöglichen, Hochfrequenz- (engl. High Frequency Data) oder gar Echtzeitdaten (engl. Realtime Data) zu verwalten und für Analysen bereitzustellen. Mit diesen Technologien ist es unter anderem möglich, Sensordaten zu verarbeiten, das Klickverhalten von Kunden eines Onlineshops zu analysieren oder unstrukturierte Daten wie Texte, Bilder oder Webinhalte nach versteckten Informationen zu durchleuchten. Für Vorhersagen oder Optimierungen genügt es allerdings nicht, Daten lediglich zu sammeln und zu verwalten, sondern dazu bedarf es Algorithmen und Heuristiken, um aus dem Datenbestand wertvolle Informationen abzuleiten. Auch die angewandte Mathematik und Statistik entwickeln sich rasant weiter. So werden in der Forschung gängige statistische Methoden, wie z. B. die Regressions- und Zeitreihenanalyse, unablässig weiterentwickelt und optimiert. Darüber hinaus bieten verschiedene Technologien und Software eine einfache Handhabung der unterschiedlichen Algorithmen. Insbesondere die statistische Open-Source-Programmiersprache R 15 Einleitung Einleitung spielt eine zunehmend wichtige Rolle für Wissenschaft und Wirtschaft. Neue statistische Verfahren aus der Wissenschaft sind hier schnell für alle Nutzer verfügbar und einfach anzuwenden. Aus dieser Zusammenführung von Methodik und Technologien entwickelten sich optimierende Verfahren wie das maschinelle Lernen (engl. Machine Learning), bei dem ein statistisches Modell computergestützt fortlaufend mit neuen Daten trainiert wird, um das Modell somit permanent zu verbessern. Dies ermöglicht es, verlässliche Prognosen zu berechnen und somit den wachsenden Informationsbedarf der Unternehmen zu decken. In diesem Buch werden wir Ihnen zeigen, wie Sie dieses Zusammenspiel von Methodik, Daten und Technologie in einer SAP-Systemumgebung umsetzen. Wir werden Ihnen dabei einen Einstieg in die Anwendung SAP Predictive Analytics geben und dabei auf verschiedene Ansätze eingehen, wie Sie mithilfe von SAP Predictive Analytics auch in Ihrem Unternehmen die richtigen Vorhersagen treffen können. Für diejenigen Leser, die bereits einen soliden Kenntnisstand in der Anwendung von prädiktiven Analysen besitzen, bietet das Buch einen umfangreichen Überblick der verschiedenen Modi, die Sie gewinnbringend auf praktische Probleme anwenden können. Zusätzlich werden sie von dem Hintergrundwissen profitieren, wie z. B. den Unterschieden zwischen überwachtem und unüberwachtem Lernen, das in diesem Buch zur Verfügung gestellt wird. Zu beachten ist jedoch, dass sich dieses Buch auf die Anwendung von SAP Predictive Analytics konzentriert und deshalb kein Lehrbuch zu Data Mining ersetzt. Aufbau des Buches Im Wesentlichen besteht das Buch aus drei übergreifenden Teilen: 쐍 Einführung und theoretische Grundlagen (Kapitel 1–2) 쐍 Arbeiten mit dem Tool SAP Predictive Analytics (Kapitel 3–8) Erforderliches Vorwissen für das Verständnis des Buches 쐍 Erweiterungen (Kapitel 9–10) Wie im vorhergehenden Absatz erwähnt, wird das Buch insbesondere darauf eingehen, wie Methodik, Daten und Technologie in SAP Predictive Analytics verwendet werden. Aus diesem Grund ist es natürlich sehr hilfreich, sowohl über ein hinreichendes Grundwissen in Mathematik und Statistik als auch über technologisches Verständnis zu verfügen. Wir empfehlen Ihnen, die Kapitel in der angegebenen Reihenfolge zu lesen. Jedoch können Sie einzelne Bereiche je nach Interessenlage auch separat durcharbeiten. Da die Anwendung auf Basis einer SAP-HANA-Datenbank wie auch verschiedener MS-Excel-Dateien veranschaulicht wird, sind Vorkenntnisse zu Datenbanken (speziell SAP HANA) sowie zum Umgang mit MS Office (insbesondere Excel) durchaus von Vorteil. Zielgruppen des Buches In diesem Buch lernen Sie, wie Sie effizient mit SAP Predictive Analytics arbeiten. Zusätzlich bieten wir Ihnen einen Einstieg in die Themen Data Mining und Predictive Analytics im Allgemeinen. Es wird also jeder angesprochen, der sich für die Anwendung tief gehender und vorausschauender Analysen sowie für deren technische Umsetzung interessiert. Dies können IT-Spezialisten sein, die vorwiegend die technologische Komponente von Data-Mining-Anwendungen im Blick haben. Aber natürlich empfiehlt sich das Buch auch für Anwender aus Fachabteilungen, die sich auf substantielle Analysen spezialisieren. 16 Kapitel 1: Einführung in Predictive Analytics Das Buch beginnt mit einer allgemeinen Einführung in das Thema Predictive Analytics. Wir vermitteln Ihnen wesentliche theoretische Grundlagen des Data Minings und definieren die wichtigsten Termini. Hierbei gehen wir insbesondere auf die Datenvorbereitung und die Auswahl geeigneter Algorithmen ein. Schließlich wird Predictive Analytics in den Gesamtkontext des Data Minings eingeordnet. Kapitel 2: Mehrwert durch Predictive Analytics In Kapitel 2 wollen wir Ihnen den Nutzen des Einsatzes von Predictive Analytics für Ihr Unternehmen aufzeigen. Wir stellen Ihnen dabei konkrete Anwendungsfälle für den praktischen Einsatz von SAP Predictive Analytics vor. Kapitel 3: SAP Predictive Analytics Kapitel 3 gibt eine allgemeine Einführung in SAP Predictive Analytics. Dabei ordnen wir das Produkt in das SAP-Produktportfolio ein und geben Ihnen einen grundsätzlichen Überblick der Architektur sowie eine konkrete Anleitung zum Installationsvorgehen. Das Kapitel schließt mit einem 17 Einleitung Einleitung allgemeinen Überblick der Benutzeroberfläche und der verschiedenen Einstellungsmöglichkeiten. Kapitel 4: Mit dem Modus »Automated Analytics« arbeiten In Kapitel 4 erhalten Sie eine detaillierte Einführung in den Modus Automated Analytics. Nach einer allgemeinen Einführung werden die Navigationsund Einstellungsmöglichkeiten dieses Modus vorgestellt. Anschließend lernen Sie verschiedene Datenvorbereitungsmöglichkeiten kennen. Außerdem beschreiben wir, wie Sie die wesentlichen Algorithmen anwenden. Dabei gehen wir insbesondere auf die Bewertungs- und Interpretationswerkzeuge ein. Kapitel 5: Mit dem Modus »Expert Analytics« arbeiten Kapitel 5 beschreibt den zweiten Modus, Expert Analytics. Auch hier geben wir Ihnen eine kurze Einführung in die Navigations- und Einstellungsmöglichkeiten. Sie erhalten einen umfassenden Einblick in die Möglichkeiten zur Datenvorbereitung und die Anwendung der wichtigsten Algorithmen. Da der Umfang des Buches es nicht erlaubt, die Anwendung aller Algorithmen im Detail zu beschreiben, fassen wir weniger bedeutsame Algorithmen in einem weiterführenden Abschnitt »Weitere Algorithmen« zusammen. Kapitel 6: Integration von R im Modus »Expert Analytics« Kapitel 6 bietet einen Exkurs in die R-Programmierung, die Ihnen vielfältige Erweiterungen (Customizing) im Modus Expert Analytics ermöglicht. Hier zeigen wir Ihnen die Integration in SAP Predictive Analytics anhand eines Beispiels. Kapitel 7: Visualisierungen In Kapitel 7 finden Sie verschiedene Beispiele an Visualisierungsmöglichkeiten, insbesondere für den Modus Expert Analytics. Darüber hinaus stellen wir Ihnen anhand eines konkreten Beispiels die Erweiterungsmöglichkeiten in Expert Analytics vor. Kapitel 8: Model Management mit der Predictive Factory In Kapitel 8 erhalten Sie einen allgemeinen Einblick in die aktuellen Erweiterungsmöglichkeiten mit der Predictive Factory. Konkret zeigen wir Ihnen, wie Sie diese sowohl im Automated als auch im Expert-Modus einsetzen. Kapitel 9: SAP-HANA-integriertes Data Mining Wie Sie SAP Predictive Analytics in SAP HANA integrieren, erfahren Sie in Kapitel 9. Nach einer kurzen Einführung in SAP HANA Native stellen wir Ihnen die SAP HANA Predictive Analysis Library (PAL), die Automated Predictive Library (APL) und weitere Integrationsszenarien vor. 18 Kapitel 10: Integration von R in SAP HANA Weitere Erweiterungsmöglichkeiten von SAP Predictive Analytics lernen Sie in Kapitel 10 kennen. Wir führen Sie dort in die Erstellung und Integration eigener Algorithmen mit der R-Programmiersprache ein. Kapitel 11: Ausblick und Zusammenfassung Zum Abschluss wagen wir noch eine Prognose, wie es mit SAP Predictive Analytics weitergeht. In Kästen, die mit Hinweis-Symbol gekennzeichnet sind, finden Sie Informationen zu weiterführenden Themen oder wichtigen Inhalten, die Sie sich merken sollten. Die mit dem Tipps-Symbol gekennzeichneten Kästen geben Ihnen spezielle Empfehlungen, die Ihnen die Arbeit erleichtern können. Kästen mit dem Achtung-Symbol weisen Sie auf mögliche Fehlerquellen und Probleme hin. Danksagung Ohne die Unterstützung unsere Kollegen wie auch Partner hätten wir dieses Buch nicht fertigstellen können. An dieser Stelle möchten wir all jenen danken, die durch ihr fachliches und persönliches Engagement zum Gelingen dieses Buches beigetragen haben. Ein besonderer Dank geht hier zuallererst an die Geschäftsführung der CONOGY GmbH. Sie hat uns, dem Autorenteam, den entsprechenden Freiraum zum Schreiben dieses Buches eingeräumt und uns motivierend unterstützt. Besonderer Dank gilt hier auch unseren Kolleginnen und Kollegen Andreas Behrendt, Jeannine Fode, Alexander Kalinin, Philipp Metzger und Lars Valentiner, die mit ihrem tatkräftigen Einsatz maßgeblich zur Fertigstellung dieses Buches beigetragen haben. Ganz herzlich bedanken wir uns bei Frau Billen und Frau Karrasch vom Rheinwerk Verlag für die sehr gute und angenehme Zusammenarbeit. Wir wünschen Ihnen nun viel Spaß bei der Lektüre des Buches und viel Erfolg beim Anwenden des Gelernten im spannenden Bereich der Predictive Analytics! Ihr Autorenteam Nargiz Bakhshaliyeva, Jian Liang Chen, Ulrich Dommer, Ekaterina Samlenski, Helge Schmedt, Nico Schulze und Robert Wilczek 19 Auf einen Blick 1 Einführung in Predictive Analytics ................................................... 21 2 Mehrwert durch Predictive Analytics ............................................. 61 3 SAP Predictive Analytics ...................................................................... 77 4 Mit dem Modus »Automated Analytics« arbeiten .................... 113 5 Mit dem Modus »Expert Analytics« arbeiten .............................. 225 6 Integration von R im Modus »Expert Analytics« ........................ 307 7 Visualisierungen ..................................................................................... 325 8 Model Management mit der Predictive Factory ......................... 341 9 SAP-HANA-integriertes Data Mining .............................................. 361 10 Integration von R in SAP HANA ......................................................... 407 11 Zusammenfassung und Ausblick ..................................................... 419 Inhalt Einleitung .......................................................................................................................... 15 1 Einführung in Predictive Analytics 21 1.1 Grundlagen des Data Minings .................................................................. 21 1.1.1 1.1.2 Der Begriff »Data Mining« und seine Historie ...................... Typische Anwendungsfälle von Data Mining ........................ 21 23 Der Data-Mining-Prozess ............................................................................ 25 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 Problemdefinition ........................................................................... Datenanalyse .................................................................................... Datenvorbereitung ......................................................................... Modellierung .................................................................................... Ergebnisvisualisierung und -bewertung ................................. Deployment des Modells .............................................................. 27 28 28 29 30 32 Methoden der Datenvorbereitung ......................................................... 32 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 Variablen ............................................................................................ Deskriptive Statistik ....................................................................... Integration und Transformation ................................................ Sampling ............................................................................................ Ausreißerbehandlung .................................................................... Binning ................................................................................................ Missing Values ................................................................................. 32 33 36 37 38 39 41 Algorithmen und Methoden des Data Minings ................................ 42 1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 1.4.6 1.4.7 Regressionsanalyse ........................................................................ Zeitreihenanalyse ........................................................................... Klassifikations- und Clusterverfahren ..................................... Assoziationsanalyse ....................................................................... Entscheidungsstrukturen ............................................................. Künstliche neuronale Netze ........................................................ Weitere Algorithmen ..................................................................... 43 45 47 50 51 53 54 Einordnung von Predictive Analytics in den Bereich Data Mining ..................................................................................... 56 1.5.1 1.5.2 57 57 1.2 1.3 1.4 1.5 Was ist Predictive Analytics? ....................................................... Abgrenzung von Predictive Analytics ....................................... 7 Inhalt Inhalt 2 Mehrwert durch Predictive Analytics 2.1 Warum Predictive Analytics? ................................................................... 61 2.2 Warum Predictive Analytics mit SAP? .................................................. 68 2.3 Anwendungsbeispiele ................................................................................. 70 2.3.1 2.3.2 3 3.1 Anwendungsbeispiel 1: Preiselastizitäten im Einzelhandel ........................................... Anwendungsbeispiel 2: Absatzprognosen in der Musikindustrie ................................ SAP Predictive Analytics 4.2 4.3 71 73 4.4 77 Datencodierung .............................................................................................. 118 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 Codierung nominaler Variablen ................................................. Codierung ordinaler Variablen ................................................... Codierung stetiger Variablen ...................................................... Manuelle Variablencodierung .................................................... Behandlung fehlender Werte in Automated Analytics ...... 118 120 122 124 124 Datenzugriff und -vorbereitung mit dem Data Manager ............ 124 4.3.1 4.3.2 Datenvorbereitung mit dem Data Manager .......................... Datenmanipulation mit dem Data Manager ........................ 125 126 Klassifikations-/Regressionsanalyse ..................................................... 127 4.4.1 4.4.2 4.4.3 Datenquelle auswählen ............................................................... Datenbeschreibung ........................................................................ Filter ..................................................................................................... 128 133 138 4.4.4 4.4.5 4.4.6 4.4.7 4.4.8 4.4.9 4.4.10 Auswahl von Variablen ................................................................. Zusammenfassung der Modellierungsparameter ............... Erweiterte Modellparameter ...................................................... Trainieren des Modells und Modellübersicht ........................ Modellverwendung: Anzeigen ................................................... Modellverwendung: Ausführen ................................................. Modellverwendung: Sichern/exportieren .............................. 139 142 143 148 151 174 187 Einführung und Einordnung in das SAP-Produktportfolio ......... 77 3.1.1 3.1.2 3.1.3 Einführung in SAP Predictive Analytics ................................... Zielgruppen ...................................................................................... Produktportfolio ............................................................................. 77 79 81 Plattformintegration und Architektur ................................................. 84 3.2.1 3.2.2 Plattformintegration ..................................................................... Architektur ........................................................................................ 84 86 4.5 Zeitreihen .......................................................................................................... 191 Installation ....................................................................................................... 88 4.6 Clustering ........................................................................................................... 196 SAP Download Center ................................................................... Desktop-Installation ...................................................................... Serverinstallation ........................................................................... Predictive-Factory-Installation ................................................... Hardwarevoraussetzungen ........................................................ 88 90 94 98 101 4.7 Analyse sozialer Netzwerke ...................................................................... 200 Weitere Algorithmen und Toolkit .......................................................... 207 3.4 Benutzeroberfläche und Navigation ................................................... 102 3.5 Einstellungen ................................................................................................... 104 4.8.1 4.8.2 4.8.3 4.8.4 4.8.5 4.8.6 4.8.7 207 210 212 214 217 218 223 4 Mit dem Modus »Automated Analytics« arbeiten 113 Grundlagen ...................................................................................................... 113 4.1.1 4.1.2 4.1.3 113 115 117 3.2 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 4.1 8 61 Unterteilungsstrategie ................................................................. Modellerstellung und Evaluierung ........................................... SRM-Grundlagen ............................................................................ 4.8 5 Kollokationsanalyse ....................................................................... Analyse der häufigen Pfade ......................................................... Recommendation ............................................................................ Assoziationsanalyse ....................................................................... Sequenzanalyse ............................................................................... Textanalyse ....................................................................................... Toolkit ................................................................................................. Mit dem Modus »Expert Analytics« arbeiten 225 5.1 Funktionen von Expert Analytics ............................................................ 225 5.2 Navigation und Einstellungen in Expert Analytics ......................... 226 9 Inhalt Inhalt 5.2.1 5.2.2 5.3 5.4 5.5 5.6 10 Einstellungen und Navigation im Tool .................................... Ansichten in Expert Analytics ..................................................... 226 230 Datenvorbereitung ....................................................................................... 234 5.3.1 5.3.2 Vorbereitungssicht ........................................................................ Data Type Definition ..................................................................... 234 239 5.3.3 5.3.4 5.3.5 5.3.6 5.3.7 5.3.8 5.3.9 5.3.10 Filter .................................................................................................... Formula .............................................................................................. Normalization .................................................................................. Partition ............................................................................................. Sample ............................................................................................... Model Statistics .............................................................................. Model Compare .............................................................................. SAP-HANA-Datenvorbereitungskomponenten .................... 239 241 242 243 243 244 246 248 Assoziationsanalyse ..................................................................................... 251 5.4.1 5.4.2 5.4.3 Grundlegende Begriffe ................................................................. R-Apriori ............................................................................................. Anwendungsbeispiele .................................................................. 251 252 257 Clustering und Klassifikation ................................................................... 257 5.5.1 5.5.2 5.5.3 5.5.4 5.5.5 5.5.6 5.5.7 5.5.8 Auto Clustering ............................................................................... R-K-Means ......................................................................................... SAP-HANA-Clustering-Algorithmen ......................................... Auto Classification ......................................................................... R-Bagging Classification .............................................................. R-Boosting Classification ............................................................. R-Random Forest Classification ................................................. SAP-HANA-Klassifikationsalgorithmen .................................. 258 261 264 265 266 268 269 270 Regressionsalgorithmen ............................................................................ 273 5.6.1 5.6.2 5.6.3 5.6.4 5.6.5 5.6.6 5.6.7 5.6.8 5.6.9 5.6.10 5.6.11 5.6.12 273 275 276 277 278 279 281 281 282 282 284 285 Auto Regression .............................................................................. Exponentielle Regression ............................................................. Geometrische Regression ............................................................ Lineare Regression ......................................................................... Logarithmische Regression ......................................................... R-exponentielle Regression ......................................................... R-geometrische Regression ......................................................... R-lineare Regression ...................................................................... R-logarithmische Regression ...................................................... R-multilineare Regression ........................................................... R-Random Forest Regression ...................................................... SAP-HANA-Regressionsalgorithmen ....................................... 5.7 5.8 6 Zeitreihen .......................................................................................................... 287 5.7.1 5.7.2 5.7.3 5.7.4 5.7.5 287 289 291 292 292 R-Single Exponential Smoothing ............................................... R-Double Exponential Smoothing ............................................. R-Triple Exponential Smoothing ................................................ Triple Exponential Smoothing .................................................... SAP-HANA-Zeitreihenalgorithmen ........................................... Weitere Algorithmen ................................................................................... 292 5.8.1 5.8.2 5.8.3 5.8.4 5.8.5 293 297 298 303 304 Entscheidungsstrukturen: R-CNR Tree .................................... SAP-HANA-Entscheidungsstrukturen ...................................... Neuronale Netze ............................................................................. Ausreißeranalyse ............................................................................. SAP-HANA-Ausreißeralgorithmen ............................................ Integration von R im Modus »Expert Analytics« 307 6.1 Grundlagen von R .......................................................................................... 308 6.2 R-Integration .................................................................................................... 315 6.3 Beispiel: ABC-Analyse .................................................................................. 317 7 Visualisierungen 325 7.1 Visualisierungen in Automated Analytics ......................................... 325 7.2 Visualisierungen in Expert Analytics ..................................................... 326 7.2.1 Überblick der Darstellungsmöglichkeiten in Expert Analytics ............................................................................... Schlagwortwolke in Expert Analytics ....................................... Liniendiagramm in Expert Analytics ......................................... Säulendiagramm in Expert Analytics ....................................... Streudiagramm in Expert Analytics .......................................... Geoblasendiagramm .................................................................... 326 329 330 330 331 332 Visualisierungserweiterung durch VizPacker .................................... 333 7.3.1 7.3.2 333 334 7.2.2 7.2.3 7.2.4 7.2.5 7.2.6 7.3 Überblick zum VizPacker .............................................................. Externe Visualisierungen einsetzen ......................................... 11 Inhalt Inhalt 8 8.1 8.2 8.3 Model Management mit der Predictive Factory 341 8.1.1 8.1.2 8.1.3 8.1.4 8.1.5 8.1.6 Einstellungen ................................................................................... Benutzer ............................................................................................ Modellierungsserver ...................................................................... Externe Befehle ............................................................................... Projekte .............................................................................................. Variablenstatistik ........................................................................... 342 344 344 345 346 349 Deployment von Automated-Analytics-Modellen ......................... 350 8.2.1 Zeitreihen .......................................................................................... 351 8.2.2 8.2.3 Klassifikation ................................................................................... Clustering .......................................................................................... 354 355 Deployment von Expert-Analytics-Modellen ................................... 357 8.3.1 8.3.2 357 8.3.3 361 9.1 Einführung in SAP HANA Native ............................................................. 362 Application Function Library (AFL) ......................................................... 365 9.2.2 9.2.3 9.2.4 9.3 PAL-Algorithmen im Modus Expert Analytics einsetzen .......................................................... PAL-Komponenten im Modus Expert Analytics erstellen ........................................................... 407 10.1.1 10.1.2 Serverarchitektur ............................................................................ RLANG-Prozedur .............................................................................. 408 409 10.2 Beispiel: Netzwerkoptimierung .............................................................. 409 10.2.1 10.2.2 10.2.3 10.2.4 10.2.5 Mathematische Modellierung .................................................... Formulierung des Optimierungsproblems ............................. Optimierung des Modells ............................................................. Technische Implementierung ..................................................... Ergebnis .............................................................................................. 410 411 411 412 418 11 Zusammenfassung und Ausblick 419 11.1 Zusammenfassung ........................................................................................ 419 11.2 Ausblick .............................................................................................................. 420 Die Autoren ...................................................................................................................... 423 Index ................................................................................................................................... 427 366 370 Automated Predictive Library (APL) .......................................... OFL und die SAP-HANA-Optimierungsfunktion ................... 372 383 Weitere integrierte Szenarien ................................................................. 386 9.3.1 9.3.2 386 395 Modellexport im Modus Automated Analytics .................... Modellexport im Modus Expert Analytics ............................. 10.1 Eigene Algorithmen für SAP HANA entwickeln ................................ 359 SAP-HANA-integriertes Data Mining 9.2.1 12 357 9 9.2 407 341 Einführung in die Predictive Factory ..................................................... Schritt 1: Model Chain in Expert Analytics erstellen .......... Schritt 2: Model Chain aus Expert Analytics exportieren ...................................................... Schritt 3: Model Chain in die Predictive Factory importieren .................................................. 10 Integration von R in SAP HANA 13 Index Index A ABC-Analyse ................................................ 317 Abweichungen analysieren .................. 174 Adaptive Learning 씮 maschinelles Lernen Advanced Analytics .................................... 58 Aggregat ........................................................ 126 Ähnlichkeitsfunktion ................................. 49 Aktivierungsfunktion ................................ 54 Algorithmus ................................................... 29 Alias-Koeffizient ........................................ 280 Analyse multivariate .............................................. 33 univariate ................................................... 33 Analyse der häufigen Pfade .................. 210 Analyse sozialer Netzwerke .................. 200 Analyseverfahren ........................................ 29 Analytical Data Set 씮 analytischer Datensatz analytischer Datensatz .................. 103, 125 Ansicht 씮 Sicht Antenne ........................................................... 38 Anwendungsfall ................................. 70, 341 APL 씮 Automated Predictive Library Architektur .............................................. 84, 86 Architektur, Desktop-Version ................. 86 arithmetisches Mittel ................................. 34 Assoziationsanalyse ...... 50, 214, 251, 329 Assoziationsanalyse, Word Cloud ...... 255 Assoziationsregel ............................... 50, 251 Ausdruckseditor ........................................ 126 Ausreißer ......................................................... 38 Ausreißeranalyse ............................. 303, 312 Interquartilbereich .............................. 303 Nächste-Nachbarn-Ausreißer ......... 304 SAP-HANA-Ausreißeralgorithmen 304 Ausreißerindikator ................................... 183 Automated Analytics .......................... 79, 82 Automated Analytics, Visualisierung 325 Automated Predictive Library .... 285, 372 Forecast .................................................... 382 Key_Influencers .................................... 382 Predictive Business Services ............. 382 Predictive Model Services ................. 372 Profil_Data_and_get_ Associationrules .............................. 383 Profile_Data ........................................... 382 Automated Predictive Library (Forts.) Recommend ............................................ Scoring_Equation ................................. automatische Auswahl ........................... automatische Modellsicherung .......... 382 382 145 143 B Balkendiagramm .......................................... 30 Bedingung ........................................... 127, 138 Befehlsparameter ...................................... 346 Beispiel .......................................................... 409 Beitrag nach Variablen ................... 152, 161 Beobachtet ................................................... 154 Bestimmtheitsmaß ..................................... 44 Betrugserkennung 씮 Fraud Detection Big Data ............................................................ 59 Bin ...................................................................... 39 binäre Umkodierung .................................. 37 Binärvariable .................................................. 37 Binning ............................................................. 39 bipartiter Graph ......................................... 201 Black Box ...................................................... 113 Bogenelastizität ............................................ 71 Boxplot ............................................................. 38 Bucketing 씮 Binning Business Analyst ........................................... 80 Business Analytics ....................................... 58 Business Case ................................................. 66 Business Intelligence .................................. 58 Business Understanding 씮 Problemdefinition Business User ................................................. 80 C CART .................................................................. 53 CHAID ............................................................... 53 Chancenverhältnis .......................... 147, 188 Classification Auto Classification .............................. 265 HANA ABC-Analyse ............................. 271 HANA K-Nächste-Nachbarn ............. 271 HANA Naive Bayes ............................... 271 HANA Support Vector Machine ...... 272 HANA Weighted-Score-Analyse ...... 272 R-Bagging Classification ................... 266 427 Index Index Classification (Forts.) R-Boosting Classification .................. 268 R-Random Forest Classification ..... 269 Cloud ................................................................. 78 Cluster .............................................................. 49 Clustering ................. 49, 196, 257–258, 355 Auto Clustering ..................................... 258 dichtebasiertes ......................................... 50 HANA DBSCAN ...................................... 265 HANA Self-Organizing Maps ........... 265 hierarchisches ........................................... 50 partitionierendes ..................................... 50 R-K-Means ............................................... 261 SAP-HANA-ClusteringAlgorithmen ...................................... 264 Confusion Matrix ...................................... 169 CRISP-DM ........................................................ 26 Cutting Strategy ......................................... 113 D D3 .................................................................... 334 Data as a Service .................................... 63, 69 Data Manager .................................... 103, 124 Data Mining .................................................... 21 Algorithmen .............................................. 42 Anwendungsfälle ..................................... 23 Methoden ................................................... 42 Prozess ......................................................... 25 Data Preprocessing 씮 Datenvorbereitung Data Provisioning ..................................... 412 Data Science ................................................... 59 Data Scientist .......................................... 59, 80 Data Type Definition ............................... 239 Data Understanding 씮 Datenanalyse Daten Analyse ........................................................ 28 Aufbereitung .......................................... 413 Beschreibung .......................................... 133 heiße ............................................................. 65 kalte .............................................................. 65 Manipulation ................................ 103, 126 warme .......................................................... 65 Datenmodellierung 씮 Modellierung Datenvorbereitung ...................................... 28 Datenvorbereitung, Methode ................. 32 Delegierung des Modelltrainings ....... 107 Deployment ......................................... 32, 357 Descriptive Analytics .................................. 58 deskriptive Statistik ................... 28, 33, 310 Desktop-Installation ................................... 90 428 Desktop-Version .......................................... Diagnostic Analytics .................................. dichtebasiertes Clustering ....................... Diskretisierung 씮 Binning Divide-and-Conquer-Algorithmus ....... drei Vs .............................................................. Dummy-Variable 씮 Binärvariable dynamische Optimierung ....................... 86 58 50 52 59 56 E elastische Nachfrage .................................. 71 Entität ............................................................ 125 Entropie ......................................................... 294 Entscheidungsbaum .............. 51, 152, 172, 284, 296 Entscheidungsregel .................................... 51 Entscheidungsstruktur ............................. 51 HANA C4.5 ............................................... 297 HANA CHAID .......................................... 298 HANA R-CNR Tree ................................. 298 R-CNR-Struktur ...................................... 293 SAP-HANA-Entscheidungsstrukturen ........................................... 297 Erfolgsanalyse ............................................... 23 erklärende Variable .................................. 140 Esri AcrGis .................................................... 327 Esri-Landkarte ............................................. 229 Evaluation ...................................................... 30 Expert Analytics .................................... 79, 83 Deployment ............................................ 357 Diagramm ............................................... 327 Einstellungen .......................................... 228 JDBC Writer ............................................. 397 Modellkette ............................................. 402 Offlinemodus .......................................... 230 Onlinemodus .......................................... 230 PAL-Komponente erstellen ............... 370 R ................................................................... 307 R-Erweiterung ........................................ 400 SAP HANA Writer .................................. 396 Visualisierung ........................................ 326 exponentielle Glättungsverfahren ...... 46 externer Befehl ........................................... 345 Extremwert .................................................... 38 F F1-Punktwert .............................................. 170 Fehler ersten Grades ................................ 169 Fehler zweiten Grades ............................. 169 Fehlerbalken ............................................... 177 Filter ............................................................... 138 Flowgraph .................................................... 364 Fraud Detection ............................................ 24 Freigabe (Sicht) .......................................... 233 G Genauigkeit ................................................. 170 geografische Hierarchie ......................... 236 Geolokation ................................................. 109 geometrisches Mittel ................................. 34 Gewichtungsvariable .............................. 141 Glättung, exponentielle ............................ 46 Goodness of Fit .......................................... 276 Graphentheorie ............................................ 55 Grenzwert .................................................... 160 H Hadoop .................................................. 85, 361 HANA 씮 SAP HANA HDFS .............................................................. 362 heiße Daten .................................................... 65 hierarchisches Clustering ......................... 50 High Frequency Data .................................. 15 Histogramm ................................................... 41 Hive ................................................................ 362 I If-else-Statement ....................................... 314 Implikation ..................................................... 50 In-Memory-Technologie ........................... 69 Input-Variable ............................................... 32 Installation .............................................. 88, 90 Integration ...................................................... 36 intelligenter Variablenbeitrag ............. 162 intelligenter Variablenhöchstbeitrag 163 Interquartilsabstand ................................... 35 K Kachel ............................................................ 152 kalte Daten ..................................................... 65 Kanten .............................................................. 55 Kategorie übersetzen .............................. 137 KDD 씮 Knowledge Discovery in Databases KI .................................................................. 31, 74 Klassifikation .................... 47, 128, 257, 354 Analyse ..................................................... 257 Kreuzvalidierung ..................................... 49 Overfitting .................................................. 48 Rate ............................................................ 170 Regel ............................................................. 48 SAP-HANAKlassifikationsalgorithmen ......... 270 Klassifikator .................................................... 48 Knoten .............................................................. 55 Knowledge Discovery in Databases ...... 23 Kollokationsanalyse ................................. 207 Konfidenz .............................................. 51, 251 Konfidenzgrad ............................................ 282 Konzentrationsparameter ........................ 36 Korrelation ................................................... 327 Einstellung .............................................. 145 Koeffizient .................................................. 36 Kostenmatrix .............................................. 171 KPI ................................................................... 354 KR ................................................................ 31, 74 Kreditwürdigkeitsprüfung ....................... 24 Kreuzvalidierung ......................................... 49 künstliches neuronales Netz ................... 53 KxAdmin ...................................................... 191 KxCommunities ........................................ 207 KXEN .......................................................... 68, 78 KxInfos .......................................................... 191 KxLinks .......................................................... 206 KxMissing .................................................... 121 KxNode .......................................................... 207 KxOlapCube ................................................ 191 KxOther ......................................................... 121 KxShell-Skript ............................................. 190 KxTimeStamp ............................................. 125 L Lageparameter .............................................. 34 Leaker ............................................................. 166 Lernen maschinelles .............................................. 59 überwachtes .............................................. 29 unüberwachtes ......................................... 29 Lernregel .......................................................... 54 Lift .......................................................... 156, 251 lineare Optimierung ................................... 55 lineare Regression ....................................... 43 Lookup-Tabelle ........................................... 127 429 Index 430 Index M N Machine Learning .......................... 16, 22, 59 manuelle Variablencodierung ............. 124 MAPE .............................................................. 353 MapReduce .................................................. 362 maschinelles Lernen 씮 Machine Learning mathematische Modellierung ............. 410 Matrix ............................................................ 309 Maximum ....................................................... 34 Mean Absolute Percentage Error 씮 MAPE Median ............................................................. 34 Metadaten-Repository ............................ 107 Methode der kleinsten Quadrate 43, 275 Minimum ........................................................ 34 Missing Value ................................................ 41 Mittel arithmetisches .......................................... 34 geometrisches ........................................... 34 Model Chain ................................................ 357 exportieren ............................................. 357 importieren ............................................. 359 Modeler ......................................................... 104 Modell bewerten ..................................................... 30 definieren ................................................. 347 Deployment ..................................... 32, 350 importieren .................................... 350, 357 Komplexität ............................................ 116 Management .......................................... 344 verwalten ................................................. 346 Modellgenauigkeit ...................................... 31 Modellierung ................................................. 29 Modellierungsparameter ....................... 142 Modellierungsserver ............................... 344 Modellperformance Gain ........................................................... 245 Lift .............................................................. 246 Modellgenauigkeit ............................... 246 ROC ............................................................ 246 standardisiert (KS) ............................... 246 Modellrobustheit ......................................... 31 Modus ............................................................... 34 Monte-Carlo-Simulation ........................... 55 Multikollinearität ........................................ 44 multivariate Analyse .................................. 33 Nachfrage, elastische ................................. 71 Native Spark Modeling .............................. 85 Netzeingabe ................................................... 54 Netzwerkanalyse ......................................... 55 Netzwerkoptimierung ............................. 409 neuronales Netz .................................. 54, 298 künstliches ................................................. 53 R NNet neuronales Netz ..................... 300 R-MONMLP Neural Network ............ 298 nicht robuste Variable ............................. 119 nominal ......................................................... 136 nominale Variable .................................... 118 Normalgewinn ........................................... 165 Normalisierung ................................ 127, 242 O On premise .................................................... 78 Operations Research .................................. 22 Optimierung ................................................ 411 dynamische ............................................... 56 lineare ......................................................... 55 Optimierungsproblem formulieren 411 Optimization Function Library ........... 383 ordinal ............................................................ 136 ordinale Variable ....................................... 120 Ordinary Least Square ............................... 43 Outlier 씮 Ausreißer Output-Variable .................................. 32, 139 Overfitting ...................................................... 48 Predictive Factory .............................. 88, 341 Anmeldung ............................................. 342 Benutzer ................................................... 344 Clustering ................................................ 355 Deployment ............................................ 350 Einstellungen ......................................... 342 Installation ................................................ 98 Modell importieren ............................. 344 Modell verwalten ................................. 346 Rolle ........................................................... 341 Skript ......................................................... 345 Variablenstatistik ................................ 349 Predictive Maintenance ............................ 66 Predictive Model Services ..................... 372 Predictive Power 씮 Modellgenauigkeit Preiselastizität ............................................... 71 Prescriptive Analytics ................................ 58 Problemdefinition ....................................... 27 Product Recommendation Machine 257 Produktportfolio .......................................... 81 Prognose (Sicht) ......................................... 230 Prognosekonfidenz .................... 31, 74, 183 Prognosewahrscheinlichkeit ............... 183 prognostische Trennschärfe ............ 31, 74 Protokoll .............................................. 109, 148 Prozedur ....................................................... 364 prozentuale Verteilung .......................... 327 Punktwertschwelle ................................... 170 Punktwert-Selektionsgrad .................... 144 Q Quantil ................................................. 180, 183 P PAL (Predictive Analysis Library) 285, 292 partitionierendes Clustering .................. 50 Partitionierung von Daten .................... 243 Plattformintegration ................................. 84 PMML ............................................................. 321 Polynomgrad .............................................. 144 Prädiktor ......................................................... 57 Prediction Confidence 씮 Modellrobustheit Predictive Analytics ............................. 57–58 Anwendungsfälle .................................... 66 Historie ....................................................... 61 R R (Programmiersprache) ................. 81, 307 Funktionsaufruf .................................... 308 Installation ............................................. 315 Integration .............................................. 407 Konfiguration ........................................ 315 Objekt ........................................................ 308 R-Apriori ....................................................... 252 R-Bibliothek ................................................ 227 R-Client ......................................................... 408 Realtime Data ................................................ 15 Recommendation ............................ 104, 212 Regression ................................................... 127 Auto Regression .................................... 273 exponentielle ......................................... 275 Regression (Forts.) geometrische .......................................... 276 lineare ................................................ 43, 277 logarithmische ...................................... 278 R-exponentielle ..................................... 279 R-geometrische ...................................... 281 Ridge ............................................................. 45 R-lineare ................................................... 281 R-logarithmische .................................. 282 R-multilineare ........................................ 282 R-Random Forest .................................. 284 SAP-HANA-Regressionsalgorithmen ....................................... 285 Regressionsanalyse ..................................... 43 Residuum ........................................................ 46 Restkomponente .......................................... 46 Ridge Regression ................................ 45, 127 Risikoanpassungsdomäne .................... 146 Risikomodus ............................................... 146 RLANG-Prozedur .............................. 407, 409 RLANG-Prozedur erstellen .................... 413 R-Server ......................................................... 408 R-Serverprozess ......................................... 408 R-Studio ......................................................... 307 S Saisonkomponente ..................................... 46 Sample, Explore, Modify, Model und Assess 씮 SEMMA Sampling .......................................................... 37 Sampling-Strategie ...................................... 37 SAP Cloud Platform ..................................... 78 SAP Download Center ................................ 88 SAP Fiori ........................................................ 341 SAP HANA ...................................... 69, 83, 362 Application Function Library .......... 365 Automated Predictive Library ......... 372 CCL-Code .................................................. 386 Data Mining ........................................... 361 Datenvorbereitungskomponente 248 Optimization Function Library ....... 383 Predictive Analysis Library ............... 366 SQL-Code für SAP HANA .................... 394 UDF-SQLScript-Code für SAP HANA ........................................... 391 SAP HANA Studio ...................................... 363 SAP InfiniteInsight ............................... 68, 78 SAP Lumira ..................................................... 81 SAP Predictive Analysis ............................. 78 431 Index Index SAP Predictive Analytics ........................... 77 SAP Predictive Analytics, Anwendungsfall ....................................... 70 SAP Supplier Relationship Management .......................................... 117 SAP Vora .......................................................... 85 Scatter Plot ................................................... 312 Schätzungsdaten ....................................... 113 Schnittstelle ................................................... 84 Schrumpfungsverfahren 씮 Ridge Regression Scorecard ............................................. 152, 168 selbstdefinierte Hierarchie ................... 236 Self-Service ..................................................... 81 SEMMA ............................................................. 25 Sensitivität ................................................... 170 Sequenzanalyse ......................................... 217 Serverinstallation ........................................ 94 Serverlastbeschränkung ......................... 345 Shrinkage Method 씮 Ridge Regression Sicht ................................................................ 230 Freigabe .................................................... 233 Prognose .................................................. 230 Storyboard .............................................. 232 Visualisierung ........................................ 231 Vorbereitung .......................................... 230 Signaturtabelle ........................................... 375 Simplex-Verfahren ...................................... 55 Simulation ................................................... 185 Smart Data Streaming ............................. 387 Social .............................................................. 104 Social-Network-Analyse ......................... 200 Spannweite ..................................................... 35 Spark ............................................................... 362 Speicher ........................................................ 135 Spezifizität ................................................... 170 Split-Criterion 씮 Teilungskriterium Standardabweichung .................................. 35 standardmäßige Codierung .................. 122 Statistik, deskriptive ............................ 28, 33 statistische Berichte ........................ 152, 165 Steigerungsdiagramm ................... 148, 183 stetige Variable .......................................... 122 Stichprobe ................................................ 34, 37 Stored Procedure ....................................... 364 Storyboard (Sicht) ..................................... 232 Streuungsparameter ................................... 35 Structural Risk Minimization ............... 117 stückweise Codierung ............................. 122 Supervised Learning 씮 Lernen, überwachtes 432 Support ................................................... 51, 251 Support Vector Machine ........................ 367 T TargetMean .................................................. 178 technische Implementierung .............. 412 Teile und herrsche 씮 Divide-andConquer-Algorithmus Teilungskriterium ....................................... 53 temporaler analytischer Datensatz ... 126 Testdaten ...................................................... 114 Text Mining ................................................... 56 Textanalyse .................................................. 218 Threshold ...................................................... 170 Time Lag .......................................................... 37 Toolkit .................................................. 104, 223 Transformation ..................................... 28, 36 Trend ................................................................ 46 Trendanalyse ............................................... 327 Typ-1-Fehler ................................................ 169 Typ-2-Fehler ................................................ 169 U Umkodierung, binäre ................................ 37 Umsatzprognose ......................................... 24 univariate Analyse ............................... 33, 65 unstabile Variable ..................................... 166 Unsupervised Learning 씮 Lernen, unüberwachtes Unterteilungsstrategie ............................ 113 Use Case 씮 Anwendungsfall Visualisierung ............................ 30, 325, 418 geografische Analyse .......................... 332 Liniendiagramm ................................... 330 Population Pyramid ............................ 335 Säulendiagramm ................................. 330 Schlagwortwolke .................................. 329 Streudiagramm ..................................... 331 VizPacker ........................................ 333–334 Visualisierung (Sicht) .............................. 231 VizPacker ...................................................... 333 Vorbereitung (Sicht) ................................ 230 W Wahrheitsmatrix ...................................... 267 Warenkorbanalyse ..................... 24, 50, 257 warme Daten ................................................. 65 Web-Assistent ............................................ 343 Wenn-dann-Regel ........................................ 52 Wert ......................................................... 41, 135 Whisker 씮 Antenne Wichtigkeit der Kategorie ............. 152, 164 Winkelformat ............................................. 132 Z zeitliche Hierarchie .................................. 236 Zeitreihe ................................................. 45, 351 exponentielle Glättung der dritten Ordnung ............................... 292 R-exponentielle Glättung der dritten Ordnung ............................... 291 R-exponentielle Glättung der ersten Ordnung ................................ 287 R-exponentielle Glättung der zweiten Ordnung ............................. 289 Saisonparameter .................................. 291 SAP-HANA-Zeitreihen ......................... 292 Trend-Parameter .................................. 290 Zeitreihenanalyse .............................. 45, 192 Zeitreihenkomponente ............................. 45 Zeitreihenprognose .................................. 351 Zeitstempel .................................................. 125 Zielgruppe ....................................................... 79 Zielschlüsseleinstellung ......................... 145 Zielvariable 씮 Output-Variable Zufallszahl .................................................... 311 zusammengesetzte Variable ................ 137 Y YARN .............................................................. 362 V Validierungsdaten .................................... 114 Value-at-Risk-Betrachtung ...................... 55 Variable abhängige .................................................. 32 Beitrag ....................................................... 161 erklärende .................................................. 32 Gewichtung ............................................. 162 Korrelation .............................................. 167 Statistik ........................................... 348–349 unabhängige ............................................ 32 Varianz ............................................................. 35 Vektor ............................................................. 308 Verwechslungsmatrix .......... 152, 169, 295 Verzögerungseffekt 씮 Time Lag View 씮 Sicht 433 Wissen aus erster Hand. Nargiz Bakhshaliyeva arbeitet seit 2015 als Expertin im Bereich Data Science bei der CONOGY GmbH. Jian Liang Chen ist studierter Wirtschaftsmathematiker und seit 2014 für die CONOGY GmbH als SAP-Berater für Business Intelligence tätig. Ulrich Dommer beschäftigt sich seit 2001 mit Business-IntelligenceLösungen von SAP und verwandten Produkten. Ekaterina Samlenski arbeitet seit 2013 als Senior-Beraterin bei der CONOGY GmbH in dem Bereich Business Intelligence. Helge Schmedt arbeitet seit 2009 als Unternehmensberater bei der CONOGY GmbH in den Bereichen Business Intelligence, Planung und Data Mining. Nico Schulze arbeitete als Consultant bei der CONOGY GmbH und ist auf deskriptive Statistik und Finanzmathematik spezialisiert. Robert Wilczek ist mit über 8 Jahren Erfahrungen als Unternehmensberater für Business Intelligence und Data Science Experte auf dem Gebiet Predictive Analytics. Vorausschauende Analysen mit SAP Wir hoffen sehr, dass Ihnen diese Leseprobe gefallen hat. Gerne dürfen Sie diese Leseprobe empfehlen und weitergeben, allerdings nur vollständig mit allen Seiten. Die vorliegende Leseprobe ist in all ihren Teilen urheberrechtlich geschützt. Alle Nutzungs- und Verwertungsrechte liegen beim Autor und beim Verlag. 433 Seiten, gebunden, Juli 2017 79,90 Euro, ISBN 978-3-8362-4415-2 Teilen Sie Ihre Leseerfahrung mit uns! Nargiz Bakhshaliyeva, Jian Liang Chen, Ulrich Dommer, Ekaterina Samlenski, Helge Schmedt, Nico Schulze, Robert Wilczek SAP Predictive Analytics www.sap-press.de/4276