Inhaltsverzeichnis

Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Hochschule:
Standort:
Studiengang:
Veranstaltung:
Betreuer:
Typ:
Themengebiet:
Autor(en):
Studienzeitmodell:
Semesterbezeichnung:
Studiensemester:
Bearbeitungsstatus:
Prüfungstermin:
Abgabetermin:
Fallstudienarbeit
Hochschule für Oekonomie & Management
Dortmund
Bachelor Wirtschaftsinformatik
Fallstudie / Wissenschaftliches Arbeiten
Prof._Dr._Uwe_Kern
Fallstudienarbeit
Big Data
Michael Butterweck, Fabian Prinz
Abendstudium
SS15
2
Bearbeitung abgeschlossen
10.7.2015
21.6.2015
Inhaltsverzeichnis
• 1 Verzeichnisse
♦ 1.1 Abkürzungsverzeichnis
♦ 1.2 Abbildungsverzeichnis
♦ 1.3 Tabellenverzeichnis
• 2 Einleitung
♦ 2.1 Thema
♦ 2.2 Zielsetzung
♦ 2.3 Aufbau und methodische
Vorgehen
• 3 Big Data Grundlagen
♦ 3.1 Begriffsdefinition Big Data
♦ 3.2 Produktionsfaktor Daten
♦ 3.3 Relevante Technologien
◊ 3.3.1 Daten-Haltung
⋅ 3.3.1.1 Hadoop
⋅ 3.3.1.2 Relevante
Datenbanken
◊ 3.3.2 Daten-Zugriff
⋅ 3.3.2.1
Batch-Processing
⋅ 3.3.2.2 Streaming und
Complex Event
Processing
⋅ 3.3.2.3 Search und
Discovery
⋅ 3.3.2.4 Query
◊ 3.3.3 Analytische
Verarbeitung
⋅ 3.3.3.1 Text und
semantische Analyse
Inhaltsverzeichnis
1
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
⋅ 3.3.3.2 Predictive
Analytics
⋅ 3.3.3.3 Machine
Learning
◊ 3.3.4 Visualisierung
⋅ 3.3.4.1 Dashboards
⋅ 3.3.4.2 Real-time
intelligence
• 4 Einsatz von Big Daten in der
Konsumgüterbranche
♦ 4.1 Marketing & Vertrieb
◊ 4.1.1 Kostenreduzierung
◊ 4.1.2 Umsatzsteigerung
◊ 4.1.3 Markt- &
Wettbewerbsanalyse
♦ 4.2 Forschung & Entwicklung
◊ 4.2.1
Produktneuentwicklungenund verbesserungen
◊ 4.2.2 Social-Media
Trendanalysen
♦ 4.3 Produktion, Service & Support
◊ 4.3.1 Produktionsoptimierung
◊ 4.3.2 Early recognition von
Produktionsproblemen
♦ 4.4 Distribution & Logistik
◊ 4.4.1 Optimierung der Supply
Chain
◊ 4.4.2 Optimierung der
Logistik
♦ 4.5 Finanz- und Risikocontrolling
◊ 4.5.1 Echtzeit-Reaktionen auf
Geschäftsinformationen
◊ 4.5.2 Simulation, Vorhersagen
und Szenarienbildung
• 5 Big Data und Datenschutz
♦ 5.1 Privacy-Preserving Data Mining
♦ 5.2 Ganzheitliche Sicherheitskonzepte
• 6 Schlussbetrachtung
♦ 6.1 Fazit
♦ 6.2 Ausblick
• 7 Anhang
♦ 7.1 Fußnoten
♦ 7.2 Literatur- und Quellenverzeichnis
1 Verzeichnisse
1 Verzeichnisse
2
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
1.1 Abkürzungsverzeichnis
Abkürzung
BI
CEP
CRM
EDW
ERP
HDFS
IoT
NAS
NER
OLAP
SAN
SCM
SQL
TB
Bedeutung
Business Inteligence
Complex Event Prosessing
Customer Relationship Management
Enterprise Data Warehouse
Enterprise Resource Planning
Hadoop Distributed File System
Internet of Things
Network Attached Storage
Named Entity Recognition
Online Analytical Processing
Storage Area Network
Supply Chain Management
Structured Query Language
Terabyte
1.2 Abbildungsverzeichnis
Abb.-Nr.
1
2
3
4
5
6
7
8
9
Abbildung
5V
Vollkosten Datenhaltung
Hadoop Framework
Beispielcluster mit drei Knoten
Anscombe's Quartet
Anscombe's Quartet
Dashboard
Reife des Unternehmens
Targeting
1.3 Tabellenverzeichnis
Tabelle Nr.
Quelle
1
Volume - Variety - Velocity - Veracity
2
SQL Beispieldatenbank
3
SQL Beispielausgabe
2 Einleitung
1.1 Abkürzungsverzeichnis
3
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
2.1 Thema
Obwohl das Thema Big Data seit mehreren Jahren in Fachkreisen und in den Medien umfangreich präsent ist und
vielfältig diskutiert wird, konnte Big Data sich dennoch nicht in allen Industriezweigen, Ländern und
Unternehmensgrößen durchsetzen. Während viele bekannte Unternehmen wie Google, Facebook und Amazon
zeigen, wie Big Data in der Organisation gewinnbringend eingesetzt werden kann und sich daraus entscheidende
Wettbewerbsvorteile generieren lassen, scheitern viele Unternehmen bereits an den Barrieren der Einführung. [1]
Insbesondere der Konsumgüterbranche bietet der Einsatz von Big Data einen entscheidenden Mehrwert. Ist doch
gerade die Konsumgüterindustrie größtenteils geprägt von gesättigten Märkten. Ein Hoher Preis- und
Margendruck, der Kampf um Marktanteile, ein starker Verdrängungswettbewerb und kürzere
Produktlebenszyklen fordern eine hohe Innovationsfähigkeit der Unternehmen, um eine wettbewerbsfähige
Marktposition zu sichern. Daher wird der Produktionsfaktor Daten für die moderne Wirtschaft zu einem immer
erfolgsentscheidenden Faktor.
So äußern sich Verbraucher zu Produkten und Services in Online-Foren oder sozialen Netzwerken, die
Verbreitung mobiler Endgeräte steigt rasant an und Sensoren an Produktionsmaschinen erfassen den Zustand
hunderter Parameter in Echtzeit. Somit können Unternehmen viel schneller als früher neue Erkenntnisse über die
Marktentwicklung, Kundenbedürfnisse und der Lieferkette gewinnen.[2]
2.2 Zielsetzung
Die Zielsetzung dieser Fallstudie ist, die möglichen Einsatzszenarien von Big Data anhand einer typischen
Wertschöpfungskette in der Konsumgüterindustrie aufzuzeigen.
Betrachtet werden dabei die Bereiche:
• Marketing & Vertrieb
• Forschung & Entwicklung
• Produktion, Service & Support
• Distribution & Logistik
• Finanz- und Risikocontrolling
2.3 Aufbau und methodische Vorgehen
Im Rahmen dieser Fallstudie werden nach der Einleitung und der Zielsetzung zunächst im Kapitel 3 die
grundlegenden Begriffe von Big Data erläutert und definiert. Ebenso werden in diesem Kapitel die relevanten Big
Data-Technologien vorgestellt und erläutert.
Das Kapitel 4 zeigt mögliche Einsatzszenarien anhand einer typischen Wertschöpfungskette in der
Konsumgüterindustrie auf. Hier wird insbesondere auf die Wertschöpfungsbereiche Marketing & Vertrieb,
Forschung & Entwicklung, Produktion Service & Support, sowie auf das dem Finanz- und Risikocontrolling
näher eingegangen.
Im Kapitel 5 werden die relevanten Datenschutzmaßnahmen vorgestellt und erläutert, sowie ein kurzer Überblick
über weiteren Sicherungsmaßnahmen im Unternehmen dargestellt.
Diese Fallstudie wird im Kapitel 6 mit einem Fazit und einem Ausblick abgeschlossen.
2.1 Thema
4
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3 Big Data Grundlagen
3.1 Begriffsdefinition Big Data
Big Data wird genutzt, um große Datenmengen aus internen und externen Datenquellen schnell zu verarbeiten.
Aus den verarbeiteten Daten sollen relevante Informationen für wirtschaftliche Entscheidungen erzeugt werden.[3]
Big Data spaltet sich in die fünf Facetten Datenmenge (Volume), Datenvielfalt (Variety), Geschwindigkeit
(Velocity), Sinnhaftigkeit (Veracity) und Value (Mehrwert) auf.[4]
Eigene Darstellung
Abbildung 1: 5V
• Volume
Die Datenmengen, die zur Analyse von Big Data verwendet werden. Können gigantische
Datenvolumen in Größenordnungen von einigen hundert Terabyte bis Petabyte annehmen.[4]
• Variety
Steigende Vielfalt der Datenformate und Datenquellen. Daten lassen sich in unstrukturierte,
semistrukturierte und strukturierte Daten gruppieren. Interne Daten werden durch externe
Datenquellen ergänzt.[4]
• Velocity
Die riesigen Datenvolumen müssen schnell auswertbar sein. Ziel von Velocity bei Big Data sind
hohe Geschwindigkeiten der Datenübertragung, Datenverarbeitung in Realtime und Analyse der
3 Big Data Grundlagen
5
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Daten in Kurzzeit[4]
• Veracity
Autonomes erkennen und nutzen von Zusammenhängen und Bedeutungen von un- oder
semistrukturierten Daten, z.B. durch Data Mining oder Bild- und Textanalytik.[5]
• Value
Ist die Fähigkeit einen Nutzen und einen Mehrwert aus den gewonnen Daten zu ziehen.
Gefundene Modelle und Regeln auf zukünftige Szenarien anzuwenden.[6]
3.2 Produktionsfaktor Daten
Um aus der Datenflut des Big Data die richtigen Informationen zu erlangen, ist es entscheidend die Technologien
zu verstehen. Unternehmen, die das Value der Daten für sich nutzen können, werden auf lange Sicht
wettbewerbsfähig bleiben. Die gesammelten Daten des Big Data Volumes müssen in riesigen Systemen
vorgehalten werden, um sie mit verschiedenen Verfahren auswerten und zuordnen zu können. Es können sogar
Modelle erstellt werden, die einen Ausblick in die Zukunft ermöglichen. Um diese Entscheidungshilfen dem
menschlichen Nutzer verständlicher zu machen, werden sie visualisiert dargestellt. Dies kann in statischen
Grafiken, bis hin zu dynamischen Animationen in Real-Time erfolgen. Im folgenden Abschnitt 3.3 werden diese
Verfahren erläutert.
3.3 Relevante Technologien
3.3.1 Daten-Haltung
3.1 Begriffsdefinition Big Data
6
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
In Anlehnung an: Bitkom (2014) S.36[7]
Abbildung 2: Vollkosten Datenhaltung
Die Speicherung und Bearbeitung von Daten im Big Data ist eine Herausforderung an die Infrastruktur. Das zu
speichernde Datenvolumen nimmt exponentiell zu, um keine Verluste in der Bearbeitungsgeschwindigkeit zu
erhalten, müssen Unternehmen ihre Infrastruktur auf dem Stand der Zeit halten. Bisher wurden die Daten bei BI
Systemen auf relationalen Datenbanken gespeichert. Daten die zum Speichern bereit stehen, müssen erst
deklariert werden, ein Speichern der Rohdaten war nicht vorgesehen. Außerdem wurden die erlangten Daten nur
einige Jahre vorgehalten, da die Speicherung zu kostenintensiv ist.[8]
Dabei muss die Infrastruktur drei Ziele erfüllen: Daten so günstig wie Möglich speichern, flexible Analyse der
Daten und schnelle Bearbeitungszeit der Aufgaben.
Es gibt zwei Möglichkeiten, um die Infrastruktur auf die Datenmengen vorzubereiten:
• Vertikale Skalierung (Skale-Up)
Dabei wird die Leistungskraft des Servers im Hinblick auf Prozessorleistung, Speicherkapazität und
Konnektivität verbessert. Allerdings gibt es für jede Komponente eine Obergrenze ihrer
Leistungsfähigkeit. Ist diese Obergrenze erreicht, kann durch Skale-Up eines Servers keine Verbesserung
erzielt werden.[9]
• Horizontale Skalierung (Skale-Out)
Bei dem Skale-Out wird die zu bearbeitende Aufgabe auf mehrere Server verteilt. Hierbei ist die
Verbindung untereinander die Schwachstelle, da alle Server auf eine Datenquelle zugreifen.[9]
Die Unternehmen Google, Facebook und Yahoo stießen zuerst auf das Problem, der immer größer werdenden
Datenmengen, die von ihren Nutzern angesammelt wurden. Deshalb benutzen sie Hadoop, eine erweiterte Form
des Skale-Out.[8]
3.3.1 Daten-Haltung
7
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3.3.1.1 Hadoop
In Anlehnung an: Fischer (2014)[10]
Abbildung 3: Hadoop Framework
In Anlehnung an: Fischer (2014)[10]
Abbildung 4: Beispielcluster mit drei Knoten
Um den Problemen des Skale-Up und Skale-Out zu entgehen, wurde Hadoop von Apache Software Foundation
entwickelt. Apache Hadoop ist ein Open-Source-Framework und wurde in der Sprache Java programmiert.
Hadoop wird unter anderem von den Unternehmen Amazon, Ebay, Facebook, Google, IBM, Twitter und Yahoo
verwendet.[11]
Bei Apache Hadoop wird durch verteilte Parallelverarbeitung eine stetige Verarbeitungsgeschwindigkeit bei
zunehmenden Datenaufkommen gewährleistet. Dabei werden bei dem Hadoop Distributed File System (HDFS)
Daten auf mehreren Servern verteilt gespeichert, den DataNodes. Jeder DataNode ist drei Mal vorhanden, um
Datenverluste bei Ausfall eines Servers zu vermeiden. Die Bearbeitung der Aufgaben erfolgt auf den DataNodes,
welche die relevanten Daten gespeichert haben. Steigen die Datenvolumen, können durch Scale-Out weitere
DataNodes hinzugefügt werden. Die Verwaltung der Daten, die die DataNodes speichern, übernimmt der
NameNode, der die zentrale Komponente im HDFS bildet. Der NameNode kennt den Speicherort der
Datenblöcke auf den DataNodes und weiß wie viel Kapazität diese besitzen. In regelmäßigen Zyklen schickt der
NameNode Prüfsignale an alle DataNodes, um deren Funktionsfähigkeit zu überprüfen. Fällt ein DataNode aus,
verteilt der NameNode die Last auf die verbleibenden DataNodes im Hadoop-Cluster. Um wiederum einen
Ausfall eines NameNodes abzusichern, stehen immer zwei NameNodes im HDFS bereit. Sie laufen auf
verschiedenen Maschinen und jeweils aktiv bzw. passiv.[12] Das HDFS wendet das Master-Slave Prinzip an, bei
3.3.1.1 Hadoop
8
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
denen die NameNodes die Master und die DataNodes die Slaves sind.[10]
Mithilfe des Hadoop MapReduce Framework wird eine Hauptaufgabe in mehrere Teilaufgaben aufgeteilt, den
sogenannten Map-Tasks. Die Map-Tasks werden an die Server im Hadoop zur parallelen Bearbeitung verteilt. Die
bearbeitet Zwischenergebnisse werden unter den Servern durch "Shuffling" ausgetauscht. Zum Schluss werden
die einzelnen Zwischenergebnisse gesammelt und zu einem Endresultat zusammengefasst (Reduce-Tasks). Um
die Datenmengen der Zwischenergebnisse so gering wie möglich zu halten, können diese durch "Combine"
zusammengefasst werden. MapReduce arbeitet wie HDFS nach dem Master-Slave Prinzip. Der JobTracker
(Master) teilt die Hauptaufgaben in Teilaufgaben auf und weist sie den TaskTracker (Slave) zu. Die TaskTracker
sind meist die Server, auf denen sich die benötigten Daten befinden. Den Fortschritt der Bearbeitung überwacht
der JobTracker. Bei Ausfall eines TaskTrackers weist der JobTracker die Aufgabe einem neuen Server zu.[13]
3.3.1.2 Relevante Datenbanken
• Relationale Datenbanken
Die relationale Datenbank unterstützt das gleichzeitige Arbeiten vieler Nutzer, erfüllt Skalierbarkeit und
Performanz. Somit ist sie die Basis für transaktionale Anwendungen wie, Supply-Chain-Mamagement
(SCM), Customer-Relationship-Management CRM) und Enterprise-Resource-Planning (ERP) Systeme.
Die Anwendungen auf relationalen Datenbanken erlauben die Bearbeitung in Echtzeit.[14]
• Enterprise Data Warehouse
Business Intelligence greift auf Datensätze aus Data Warehouse-Systemen zu. In regelmäßigen Abständen
werden Daten aus den relationalen Datenbanken in das EDW übertragen, mit denen durch OLAP
Datenanalysen getrieben werden.[14]
3.3.1.2 Relevante Datenbanken
9
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
• NoSQL-Datenbanken
NoSQL-Datenbanken werden für Web-Applikationen und Social Media genutzt und sind nicht-relationale
Datenbanken. NoSQL-Datenbanken gliedern sich in Key-Value-Datenbanken (Key-Value Stores),
dokumentenorientierte Datenbanken (Document Stores), Graph-Datenbanken und
Objekt-Datenbanken.[14]
◊ Key-Value-Datenbanken
Key-Value-Stores besitzen nur Implementierungen die für große Web-Anwendungen mit
Millionen Nutzern benötigt werden. Sie können auf verteilte Datensätze mit hoher
Geschwindigkeit zugreifen. Es wird in zwei Kategorien von Key-Value-Stores unterschieden, der
In-Memory mit Daten im Hauptspeicher und On-Disk mit Daten auf der Festplatte.[15]
◊ Document Stores
Datensätze die unvorhersehbare Verknüpfungen nach flexiblen Schemata haben, werden in
Document Stores gespeichert. Der Document Store speichert einen Datensatz als Zeile ab, wobei
Spaltenanzahl und Feldeigenschaften flexibel sind.[14]
◊ Graph-Datenbanken
Sind Daten stark vernetzt werden Graph-Datenbanken verwendet. Die Daten werden als
Knotenpunkte mit Beziehungen zu anderen Knotenpunkten gespeichert. Facebook, Twitter, und
LinkedIn verwenden Graph-Datenbanken, aufgrund der starken Vernetzung der Userinhalte.[15]
◊ Objekt-Datenbanken
Objektdatenbanken verwenden objektorientierte Programmiersprachen wie z.B. Java, C# oder
Perl. Sie können gleichzeitig viele Nutzeraktivitäten steuern.[14]
• In-Memory-Datenbanken
In-Memory-Datenbanken können auf Daten sehr schnell zugreifen, da sie ihre Daten nicht auf Festplatten,
sondern im Hauptspeicher ablegen. Die Verarbeitung der Kundendaten durch In-Memory-Datenbanken
erlaubt die Auswertung von Kaufmustern früherer Bestellungen und Präferenzen, die durch Cross- und
Upselling den Umsatz steigern können.[14]
3.3.2 Daten-Zugriff
3.3.2.1 Batch-Processing
Bei Batch-Processing werden Jobs gesammelt um als Ganzes zu verarbeitet zu werden. Im Deutschen wird
Batch-Processing auch Stapelverarbeitung genannt und hat ihren Ursprung in den 60. Jahren, als Lochkaten als
Stapel bearbeitet wurden. Im Big-Data stößt Batch-Processing an vier Hürden:
1. Limitierte Sichtbarkeit: Daten vieler Applikationen können nicht durch Schnittstellen überspielt werden.
2. Limitierte Sichtbarkeit: Exporte von großen Datenmengen wird nicht unterstützt.
3. Limitierte Agilität: Nur Teile der Originaldaten werden beim Austausch übernommen.
4. Eingeschränkte Historisierung: Daten werden nur für gewisse Zeiträume zur Verfügung gestellt.
Des Weiteren müssen im Hadoop die Abfragen in Java programmiert werden. Dies kann sich weitaus
aufwändiger gestalten, als eine SQL-Abfrage einer relationalen Datenbank. Damit man im Hadoop nicht an diese
Grenze stößt, wurde "Pig" entwickelt. Pig wurde für Nutzer ohne Programmierkenntnisse entworfen.[16] Laut der
Apache Software Foundation hat Pig eine Philosophie mit vier Kernthesen:[17]
3.3.2 Daten-Zugriff
10
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
• "Pigs eat anything": Pig kann jegliche Daten verarbeiten.[17]
• "Pigs live anywhere": Pig kann auch außerhalb von Hadoop verwendet werden.[17]
• "Pigs are domestic animals": Pig ist einfach zu bedienen und zu erweitern.[17]
• "Pigs fly": Pig verarbeitet Daten sehr schnell.[17]
Den größten Vorzug bietet Pig bei der Flexibilität. Jedoch muss der Nutzer bereits Erfahrung mit Hadoop und der
Pig Programmiersprache "Pig Latin" besitzen.
3.3.2.2 Streaming und Complex Event Processing
Mithilfe von Streaming ist es möglich eingehende Daten in Echtzeit zu verarbeiten und an den Nutzer
auszugeben. Complex Event Processing (CEP) umfasst die Verfahren der Echtzeitverarbeitung. Zu den
Anwendungsgebieten zählen Businnes Activity Monitoring - Überwachung von Geschäftsprozessen,
Marktdatenstreaming von Rohstoff- und Aktienkursen und das Überwachung der Sensor Netzwerke von
technischen Anlagen. CEP erkennt in den Anwendungsgebieten komplexe Ereignisse und reagiert auf diese,
indem es Rohstoffe kauft, einen Geschäftsprozess startet oder die Kapazität einer Maschine erhöht. Um den
Nutzer über diese Ereignisse zu informieren wird CEP meist mit Visualisierung betrieben.[18] Im Gegensatz zu
relationalen Datenbanken, die eine einmalige Fragestellung durch einen statischen Datenbestand beantworten,
muss CEP Daten unbegrenzter Datenströme analysieren. Aus diesen Datenströmen filtert CEP Events, häuft
Informationen an und stellt sie mit Erkenntnissen anderer Datenströme in Beziehung. Komplexe Events sind das
Resultat, deshalb die Namensgebung ?Complex Event Processing?. Da CEP einen hohen Leistungsanspruch an
die Hardware hat, läuft die Analyse der Datenströme im Hauptspeicher ab. Um die Stabilität der Anwendung zu
gewährleisten, muss das CEP-System überwacht werden, um Auslastungsmaxima frühzeitig zu erkennen.[19]
3.3.2.3 Search und Discovery
Um Daten mit ähnlichen Informationen zu finden wird Search and Discovery angewendet. Dem Nutzer werden
neben der Hauptantwort auch Antworten gezeigt, die mit der Hauptantwort in Beziehung stehen. Wie in der
Vogelperspektive, ist es dem Nutzer erlaubt, über seine Hauptantwort auf Alternativen zuschauen. So kann der
Nutzer weitere Informationen und Relationen der Daten entdecken (Disvover). Open-Source Software für Search
and Discovery sind Lucene und ElasticSearch, sie sind unkompliziert und lassen sich kostengünstig betreiben. So
können große Datenmengen nach einem Stichwort durchsucht werden, z.B. "Kosten". Neben den genauen
Ergebnissen des Suchwortes, werden ebenfalls Ergebnisse die Facetten des Wortes enthalten oder mit dem
Suchwort in Beziehung stehen, also "Vollkosten" oder "Ausgaben". Des Weiteren kann Search and Discovery
Begriffe mit einem ähnlichen Klangbild erkennen und das eingegebene Suchwort
vervollständigen.[20][16]Suchmaschinen wie Google oder Bing und Onlinehändler wie Amazon und Ebay
unterstützen Search and Discovery, um dem Kunden durch die alternativen Vorschläge einen besseren Überblick
auf das Angebot zu bieten
3.3.2.4 Query
Standardabfragen von relationalen Datenbanken werden über SQL erledigt, da SQL relationale Alegebra
verwendet. SQL gibt es verschiedenen Versionen, die sich nur leicht durch wechselnde Sprachgebräuche
unterscheiden. Die Abkürzung SQL bedeutet Structured Query Language. Die Abfragen der relationalen
Datenbanken werden als Zeilen und Spalten in Tabellenform ausgegeben. Eine Datenbank auf die SQL zugreift
kann dabei wie folgt aussehen.[16][21]
KundenNr
Name
Umsatz
3.3.2.1 Batch-Processing
11
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
123
Schmidt 1500
160
Huber 800
173
Müller 2100
Als Abfragen können folgende Operationen verwendet werden: Selektion, Projetion, Vereinigung (von mehreren
Tabellen), Schnitt, Differenz, Verbund und Division. Nachfolgend wird die Operation "Selektion"
veranschaulicht. SQL Anfrage: SELECT * FROM Umsatz WHERE Name = 'Huber' - Zeigt den Umsatz für
Huber an. (Es werden alle Spalten angezeigt, da SELECT * alle Spalten ausgibt.)[21][22]
KundenNr Name Umsatz
160
Huber 800
SQL kann auch im Hadoop durch Hadoop Hive verwendet werden. So können Nutzer die SQL beherrschen
Hadoop verwenden.[16]
3.3.3 Analytische Verarbeitung
3.3.3.1 Text und semantische Analyse
Nicht in Tabellenform, sondern in Texten wie z.B. Artikeln, E-Mails, Publikationen oder Beiträgen in Blogs, ist
das meiste Wissen erhalten. Um Texte in Bereiche einordnen oder Beschlagworten zu können, müssen die Texte
nach Schlüsselwörtern durchsucht werden. Um Schlüsselwörter oder Personennamen zu erkennen und den
Themenbereich des Textes zu bestimmen werden semantische Textanalysen verwendet. Dazu kann mit
lexikonbasierten Named Entity Recognition (NER) der Text nach Schlagwörtern wie Personen, Firmen oder
Orten durchsucht werden. Da es eine Vielzahl von möglichen Schlagwörtern gibt, kann das Lexikon sehr groß
und umfangreich werden. Des Weiteren kann man die Mehrdeutigkeit von Schlagwörtern nicht vermeiden, wie
etwa "Apple" als Firmenname oder als Obst. Deshalb werden offenen NER Systeme verwendet, die das
Schlagwort an ihrem Kontext überprüfen und einordnen. Wurde z.B. "Hans Meier" als Person eingeordnet, ist
allerdings noch nicht bekannt um welche Person es sich genau handelt. Es könnte ein Politiker oder Fernsehstar
sein.[23]
3.3.3.2 Predictive Analytics
Um Entscheidungen für die Zukunft vorauszusagen, wird Predictive Analytics verwendet. Bisher konnten
BI-Systeme die Fragen des "Was und Warum ist etwas passiert?" beantworten. Predictive Analytics geht einen
Schritt weiter, mithilfe von Daten der Vergangenheit sollen Szenarien der Zukunft entwickelt werden. Predictive
Analytics greift dazu auf Data Mining Methoden zurück und erweitert diese um statische Berechnung und
Simulationen. Die zu analysierenden werden dem Data Warehouse entnommen, dabei läuft Predictive Analytics
in drei Teilzyklen ab.[24][25]
1. Descriptive (Beschreiben) - Descriptive erkennt Muster und Beziehungen der Datenstruktur.
2. Predictive (Vorhersagen) - Predictive gibt eine Vorhersage über das Verhalten der Daten ab.
3. Prescriptive (Empfehlen) - Prescriptive spricht bei bestimmten Verhaltensweisen Empfehlungen aus.[26]
Durch diese Vorhersagen und Empfehlungen können Händler genauer ihre Absatz und Retourenquote
prognostizieren und verbessern.[25]
3.3.2.4 Query
12
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3.3.3.3 Machine Learning
Machine Learning beschreibt die Fähigkeit von Software neues Wissen selbstständig zu erlernen. Diese Funktion
wird z.B. bei den persönlichen Empfehlungen von Amazon verwendet. Dazu muss das Programm neue
Erfahrungen Sammeln, um die gewünschte Aufgabe zu erfüllen.
"A computer program is said to learn from experience E with respect to some class of tasks T and performance
measure P, if its performance at tasks in T, as measured by P improves with experience E."[27]
Um die gesammelten Daten verwenden zu können, müssen folgende vier Schritte durchlaufen werden:
1. Daten: Verschieden Ausgangsdaten stehen zu einem Ereignis, wie in einer mathematischen Gleichung, X
steht zu Y wie: f(x) = y.
2. Reinigen: Danach werden die gewonnenen Daten von Ausreißern und falschen Aufnahmen bereinigt,
indem Standards definiert werden.
3. Modell: Aus dem standardisierten Datensystem wird ein Modell erstellt.
4. Vorhersage: Anhand des Modells kann das Ereignis bei bekannten Ausgangsdaten vorhergesagt
werden.[28]
3.3.4 Visualisierung
Um das gewonnenen Datengold aus dem Berg der Informationen für den Nutzer besser greifbar zu machen,
werden die Daten visuell dargestellt. Das visuell dargestellte Daten besser nachzuvollziehen sind, beweist das
Anscombe's Quartet. (Abbildung 4 und 5) Dabei werden Datenpunkte mit Abweichungen, sogenannten
Ausreißern, in Tabellenform und visuell in Graphen dargestellt.[29] Des Weiteren lassen sich Erkenntnisse die in
Echtzeit ausgewertet werden für den Nutzer besser visuell darstellen lassen, wie unter Punkt-3.3.2.2 Streaming
und Complex Event Processing behandelt wurde.
ung an: Parikh (2014)[29]
g 5: Anscombe's Quartet
In Anlehnung an: Parikh (2014)[29]
Abbildung 6: Anscombe's Quartet
3.3.3.3 Machine Learning
13
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3.3.4.1 Dashboards
Ein Anhäufen von visualisierten Daten allein genügt nicht, um eine Entscheidungsgrundlage zu schaffen. Sie
müssen auch so zusammengefasst werden, dass alle Informationen im Überblick sind. Diese Übersichten werden
?Dashboard? genannt, ihr Name wurde an Cockpits der Autos oder Flugzeugen angelehnt, bei denen der Nutzer
alle wichtigen Informationen strukturiert überblicken kann. Diese Management Dashboards sind Teil des
Management Cockpits, die zur Entscheidungsfindung unterschiedlicher Instanzen genutzt werden, dazu zählen
das Controlling und die Geschäftsführung. Im Gegensatz zu Reports können Dashboards die Informationen in
einer Darstellung wiedergeben, die mehrschichtig ist. Dieses Prinzip wird Shneidersmans Mantra genannt. So
kann interaktiv auf einen Themenbereich fokussiert werden, welche in der nächsten Schicht weiter aufgegliederte
Information wiedergibt. Nach Shneiderman: Overview first, Zoom and filter und Details on demand.[30]
Beispielsweise 1.Ebene ?Umsatz Bundesländer, 2. Ebene-Umsatz Städte, 3. Ebene-Umsatz Filialen. Die benötigte
Zeit für die Bereitstellung der Entscheidungsgrundlagen ist von großer Bedeutung, wie nachstehende Tabelle
zeigt, die Unternehmen in verschiedenen Marktpositionen auf den Erhalt der Informationen vergleicht.[31]
In Anlehnung an: Bitkom (2014) Seite 75[32]
Abbildung 8: Reife des Unternehmens
3.3.4.1 Dashboards
14
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3.3.4.2 Real-time intelligence
Analysen in Real-time werden in Animationen dargestellt, anstatt in starren Graphen, die eine zeitliche Dynamik
nicht zulassen. Die große Herausforderung dabei ist die Velocity der Daten im Big Data, denn die Daten müssen
für Real-Time schnell genug zur Verfügung stehen und Verarbeitet werden. Das heißt zwischen Gewinnung und
Ausgabe der Daten sollten nur Millisekunden vergehen. Um dabei keinen riesigen Datenberg anzuhäufen, der das
System verlangsamt, werden durch Streaming und CEP die relevanten Daten herausgefiltert, logisch verknüpft
und analysiert. Da dieser Prozess bei großen Datenströmen nicht genau in Real-Time realisiert werden kann, wird
auf von Near-Real-Time gesprochen, bei der im Minutentakt animierte Darstellung bereitgestellt werden.[33]
4 Einsatz von Big Daten in der Konsumgüterbranche
4.1 Marketing & Vertrieb
4.1.1 Kostenreduzierung
Der Einsatz von Big Data im Marketing und Vertriebsabteilungen erlaubt es die Produkt- und Serviceangebote
gezielt auf Kundengruppen, bzw. einzelne Kunden zuzuschneiden und dadurch Streuverluste zu reduzieren.[34]
Dabei zielen die meisten Anwendungsszenarien auf die Erhöhung der Transparenz und Effizienz von Produktund Service Angeboten ab.[35] Zur Erfolgsmessung der durchgeführten Werbemaßnahmen wird eine große Zahl
von Daten zum Nutzerverhalten erhoben.[36]
Im Internet-Marketing steht das Online Targeting (target = Ziel) für das zielgruppenspezifische schalten von
Werbemaßnahmen, um die oben skizierten Streuverluste gegenüber den klassischen Medien, wie Print, Radio und
TV zu verringern. Daher ist unter Online Targeting die gezielte Adresssierung von Online-Werbung zu verstehen.
Zu diesem Zweck werden verschiedene Techniken eingesetzt, um das Kaufverhalten von Nutzern im Internet
genau zu beobachten und zu analysieren. Dazu werden auf den jeweiligen Computern Cookies platziert und/oder
die IP-Adresse des Nutzers beim Besuch der Webseite gespeichert, wodurch die Möglichkeit besteht Webseiten
und Angebote an den individuellen Kundenbedürfnissen auszurichten. [37]
Dabei nutzen die unterschiedlichen Erscheinungsformen des Online Targeting vielfältige Kriterien, um
Zielgruppen im Internet noch genauer einzuordnen und gezielt anzusprechen. [38] Insbesondere besteht beim
Online Targeting der Vorteil in der Nutzung von Echtzeitinformationen, welche es erlauben laufende
3.3.4.2 Real-time intelligence
15
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Optimierung auf Basis der Nutzerreaktion durchzuführen.[39]
Eigene Abbildung
Abbildung 9: Targeting
Folgende Erscheinungsformen des Online Targeting lassen sich unterscheiden:
• Technisches Targeting
Das technische Targeting, welches die einfachste Form der Targeting-Technologie darstellt, basiert auf
Daten aus der Soft- und Hardwareumgebung des Nutzers. Hiermit wurde eine rudimentäre gezielte,
automatische Werbeadressierung anhand geografischer Merkmale und der Werbekontaktzahl (Frequenzy
Capping), möglich.[40]
• Sprachbasiertes Targeting
Das sprachbasierte Targeting wird unterschieden in Keyword Targeting (Suchwort-Targeting),
Contextual Targeting (wortbasiertes Targeting) und semantisches Targeting. Welche die Werbung auf
Basis aktiver Texteingabe von Nutzern oder auf Basis des Inhalts einer Webseite ausliefern. Beim
Keyword Targeting wird mit der Suchanfrage im Zusammenhang stehende Werbung auf der
Ergebnisseite angezeigt (zum Beispiel Google Adwords). Wohingegen beim semantischen Targeting
nicht nur einzelne Wörter, sondern auch Wortkombinationen berücksichtigt werden. Beim Contextual
Targeting werden beispielsweise in Blogs Werbebanner mit thematischer Übereinstimmung zum Inhalt
platziert, um entsprechend thematisch interessierte Nutzer zu erreichen (zum Beispiel Google
AdSense).[41]
• Behavioural Targeting
Durch das Behavioural Targeting lassen sich Nutzer auf Grund ihres Online Verhaltens klassifizieren und
Werbung unabhängig der aktuell besuchten Webseite schalten. Hierfür werden vorwiegend Cookies auf
dem Gerät des Nutzer platziert, um das Surfverhalten über verschiedene Webseiten (Page Visits) zu
4.1.1 Kostenreduzierung
16
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
tracken. Aus dem Surfverhalten des Nutzers wird versucht auf die Interessen und Präferenzen des Nutzers
zu schließen und darauf basierend Werbemittel zu platzieren.[42]
Durch den Einsatz der geschilderten Online Targeting-Technologien ergeben sich nachstehende Vorteile:[43]
• Steigerung von Verkaufszahlen
Personalisierte Werbung führt zu einem effizienteren Werbemitteleinsatz. Umsatz und Gewinn können
dadurch gesteigert werden.
• Experimente
Das Online Targeting ermöglicht eine einfachere und effizientere Möglichkeit, um Preise und Angebote
bei unterschiedlichen Zielgruppen zu testen.
• Neukundengewinnung und Bestandskundenbindung
Individuelle Angebote können Erstbesucher von Webseiten zum Erstkauf stimulieren, wohingegen
Bestandskunden besondere Angebote angedient werden können. Dazu bieten sich insbesondere die
Steuerung von Anreizen über Informationen über die Besuchshäufigkeit, Kauffrequenz oder dem letzten
Einkauf an.
• Vergleich mit Wettbewerbspreisen
Käufer, die über Preissuchmaschinen oder Webseiten der Mitbewerber die eigen Unternehmenswebseite
besuchen, können durch das Online Targeting identifiziert werden und dadurch spezielle Kaufanreize,
beispielsweise durch Sonderpreise, geboten werden.
4.1.2 Umsatzsteigerung
Durch Big Data-Analysen von Kundendaten eröffnen sich Cross-Selling Potenziale, folglich dem Verkauf von
komplementären Produkten und Up-Selling Potenziale, dem Verkauf höherwertiger Produkte. Dies kann erzielt
werden, durch die Analyse von Kundendaten wie Transaktionen, demografische Daten und Standortdaten, um den
Kunden die richtigen Angebote, zum richtigen Zeitpunkt anzubieten.[44]
4.1.3 Markt- & Wettbewerbsanalyse
Daten zur Markt- und Wettbewerbsanalyse können mit verschiedenen intelligenten Verfahren erhoben werden
und erweitern dadurch die Analysemöglichkeiten. Mit Screen Scraping lassen sich Webseiten der Wettbewerber
maschinengesteuert auslesen. Die Semantische Auszeichnung gibt Hinweis über den Stellenwert einer
Information und Ergebnisse aus Suchmaschinen ermöglichen Rückschlüsse auf regionale Märkte und
Sortimente.[45]
• Screen Scraping
Durch das Screen Scraping besteht die Möglichkeit erhebliche Datenmengen aus fremden
Internetpräsenzen auszulesen und durch Auswertungen neue Erkenntnisse zu gewinnen. Die Entnahme
großer Datenmenge aus öffentlich zugänglichen Informationen wird von zahlreichen Plattformen durch
4.1.2 Umsatzsteigerung
17
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
die Nutzungsbedingungen untersagt. Seit 2009 sind unterschiedliche Entscheidungen seitens der Gerichte
ergangen, in denen Klagen der Datenbankhersteller gegen unautorisierte Datenübernahme
zurückgewiesen worden sind.[46]
• Semantische Auszeichnung
Dadurch, dass Webseiten mit einem Metadatensatz versehen sind, können intelligente Softwareagenten
mit Hilfe der semantischen Auszeichnung erkennen, ob die gefundene Information relevant ist, respektive
für den jeweiligen Zweck verwendbar ist.[47]
So konstatiert die Bitkom in ihrer Studie "Big Data im Praxiseinsatz" >>Big Data-Analysen verbessern insgesamt
die Basis für die Entwicklung fundierter Unternehmens- und Produkt- und Marktstrategien.<<[48]
4.2 Forschung & Entwicklung
4.2.1 Produktneuentwicklungen- und verbesserungen
Durch Big Dat-Analysen von Patendatenbanken können neue Trends und neue Produktideen frühzeitig erkannt
werden. Die Analyse von Messdaten (zum Beispiel Sensordaten)aus verschiedenen Quellen führen zu genaueren
Erkenntnissen über die Marktreife und Qualität des Produktes. Zusätzlich können Nutzermeinungen aus
Social-Media-Kanälen oder Foren in die Analyse einfließen und verringern somit die die Forschungs- und
Entwicklungskosten und verkürzen die Time-to-Market.[49] So liefern etwa Social-Media-Plattformen Meinungen
zu Produkten und Dienstleistungen, die genutzt werden können, um neue Produktideen zu generieren oder
Verbesserungspotenziale aufzudecken. Ebenso können diese Daten für Sentimentanalysen oder für Auswertungen
zur Markenwahrnehmung verwendet werden.[50]
• Sentimentanalysen/Opinion Mining
Durch das Sentiment (engl. Gefühl) können wichtige Erkenntnisse bezüglich der Akzeptanz von
Produkten der Wahrnehmung von Marken, gerade aus nicht neutralen, subjektiven Social-Media
Beiträgen gewonnen werden. Damit stellt das Sentiment einen Einstiegspunkt in die
Social-Media-Analyse dar.[51]
Eine direkte Analyse über klassische Verfahren wie das Data Mining oder Business Intelligence ist hier
nicht praktikabel, da hier die Daten unstrukturiert vorliegen und in erheblichen Teilen auf natürlicher
Sprache basieren. Daher gilt bei der Analyse von Social-Media Beiträgen der Nutzer so zu strukturieren
und zu analysieren, um daraus eventuell ein Stimmungsbild abzuleiten.[52]
Gegenüber den traditionellen Marktforschungsinstrumenten, die gezielt eine Stichprobe einer Zielgruppe
befragt und aus den Ergebnissen auf die Allgemeinheit schließt, setz die Analyse von Stimmungsdaten
systematisch bei möglichst großen Datenmengen an. Die daraus extrahierten Inhalte können dabei
unterstützen, die öffentliche Meinung zu einer bestimmten Fragestellung oder die Einstellung der Kunden
zu einem Produkt zu verfolgen. Der Vorteil besteht vor allem in der Tatsache, dass die Daten nicht
aufwendig erhoben werden müssen und stets auf dem aktuellsten Stand sind. Um anschließend ein
messbares Ergebnis zu erhalten müssen die Daten zunächst extrahiert, strukturiert und angereichert
werden. Dazu werden die Inhalte daraufhin untersucht, ob sie positive, neutrale oder negative
Bewertungen enthalten.[53]
4.1.3 Markt- & Wettbewerbsanalyse
18
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Nach der Bewertung der Daten können diese mit anderen Datenquellen kombiniert und zum Beispiel
Meinungen einem bestimmten Kundensegment zugeordnet werden. Zur Veranschaulichung der eruierten
Ergebnisse bietet sich anschließend eine Business Intelligence Lösung an.[54]
4.2.2 Social-Media Trendanalysen
Analyse von Social-Media-Kanälen eröffnet die Chance frühe Signale für gesellschaftliche Trends zu erkennen
und damit Märkte mit genau darauf abgestimmten Produkten zu erschließen.[55]
Erfolgt die Trendanalyse in der klassischen BI indem der Verlauf der Vergangenheit in die Zukunft extrapoliert
wird und im Wesentlichen auf strukturierten vorliegenden Zahlenreihen erfolgt, erlaubt die semantische Analyse
auch Trendaussagen auf Basis von unstrukturierten, textbasierten Daten. Auf Grund der Tatsache, dass Daten im
Internet (fast) nie gelöscht werden, können die Veränderungen von Meinungen, Ideen und Wünschen im
Zeitverlauf erkannt und analysiert werden. Durch die semantische Analyse von Inhalten in sozialen Medien,
können zukünftige Entwicklungen (Modetrends, Konsumverhalten, Imageveränderungen) deutlich schneller
prognostiziert werden, als dies früher möglich war. Ein entscheidender Vorteil liegt darin begründet, dass die
Aussagen der Personen ohne externe Beeinflussung, wie beispielsweise einer Befragungssituation, innerhalb eines
scheinbar freien und anonymen Raums ohne Korrektiv getätigt werden und somit der Wahrheitsgehalt einer
Einzelaussage sehr hoch ist.[56]
Ein weiterer interessanter Einsatzzweck ist die Analyse von schwachen Signalen, welche Signale beschreibt, die
noch im Grundrauschen stecken. Auf Big Date-Analysen bezogen können dies beispielsweise Themen sein, die in
Suchmaschinen auf Grund ihrer geringen Verbreitung noch nicht gefunden werden. Für Unternehmen die dieses
"Datengold" heben, kann dies ein Wettbewerbsvorteil darstellen.[57]
4.3 Produktion, Service & Support
Big Data-Analysen ermöglichen einen ganzheitlichen Blick auf die Fertigungsprozesse, indem sie Daten
unterschiedlicher Quellen verknüpft. Dafür werden Daten zu den Produkten, Produktions- und Lieferketten
systematisch erfasst und analysiert.
4.3.1 Produktionsoptimierung
Durch den Beitrag des Internet der Dinge (IoT)oder der M2M-Kommunikation (Maschine-to-Maschine) erfassen
Sensoren an Produkten und entlang von Produktions- und Lieferketten Daten, mit deren Hilfe die
Fertigungsprozesse optimiert werden können. Die meisten dieser Daten fließen in Echtzeit in die Datenbanken ein
und dienen der Überwachung und Optimierung von Prozessen.[58] Durch den verstärkten Einsatz von RFID
(radio-frequency-identification) in der Produktion steigt die Menge der Daten weiter an.[59]
Immer mehr Produzenten gehen dazu über, Daten unterschiedlicher Quellsysteme zu verknüpfen und erhöhen
damit die Komplexität der Analysen. Andernorts nimmt die Fertigungstiefe ab. So werden zum Beispiel die
einzelnen Komponenten von Produkten von unterschiedlichen Herstellern geliefert und erhöhen damit die
Herausforderungen an eine übergreifende Qualitätssicherung. Zur Sicherstellung der Qualitätsanforderungen
können Daten aus CAD-Systemen, dem Maschinenbau, der Fertigung sowie aus dem
Product-Lifecycle-Management (PLM) aggregiert und zeitnah ausgewertet werden.[60]
• M2M-Kommunikation
4.2.1 Produktneuentwicklungen- und verbesserungen
19
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Die M2M-Kommunikation beschreibt die Kommunikation zwischen Geräten und Diensten, dabei meint
Machine-to-Machine (M2M) den Datenaustausch zwischen Endgeräten.[61] Der automatisierte
Informationsaustausch zwischen Sensoren in Maschinen, Automaten, Fahrzeugen oder Container erfolgt
hierbei untereinander oder mit einer Leitstelle. Die für Big Data-Analysen zur Verfügungen stehenden
hohen Datenvolumina die aus M2M-Umgebungen entstehen, sind immens, und werden durch die weitere
Verbreitung von Sensoren exponentiell ansteigen. Das Internet der Dinge (IoT) leistet dazu einen
entscheidenden Beitrag.[62]
Die Nutzung von Sensordaten wird derzeit noch durch ihren Umfang und ihre Struktur eingeschränkt.
Dadurch, dass Sensoren ständig in Betrieb sind, steigt mit der zunehmenden Anzahl an Sensoren auch
exponentiell die Datenmenge an. Dies zwingt die Unternehmen entweder die Datenmenge zu begrenzen
oder die Sammlung von Daten einzuschränken. Hinzukommt, dass Sensordaten zum Zeitpunkt ihrer
Erhebung vorwiegend unstrukturiert vorliegen.[63]
4.3.2 Early recognition von Produktionsproblemen
Durch die Verbindung von aktuellen Produkt- und Sensorinformationen mit Informationen aus dem Service oder
früheren Fehlern, lassen sich Produkte auch im laufenden Produktionsbetrieb zuverlässig überwachen. Daraus
lassen sich intelligente Diagnosen mit Trendanalysen erstellen, um im Falle eines Defektes die Fehlerquelle
unverzüglich festzustellen und Korrekturen im Fertigungsprozess einzuleiten. Big Data ermöglicht die
Auswertung von sämtlichen durch Sensoren erfassten Informationen über den Zustand von Anlagen und relevante
Umgebungsdaten. Dies wiederrum ermöglicht eine vorbeugende Wartung (Predictive Maintenance), um
frühzeitig Störungen zu erkennen und ungeplante Stillstände zu verhindern.[64]
• Predictive Maintenance (vorbeugende Wartung)
Der Einsatz von Big Data Technologien kann helfen, die Kosten für Wartung (Maintenance) zu
reduzieren und dennoch die Risiken für Ausfälle gering zu halten, indem Daten aus unterschiedlichen
Quellen in die Analysen eingebunden werden. So können beispielsweise Wetterdaten, Umweltdaten,
Nutzungsdaten und Sensordaten die Qualität der Vorhersagen signifikant verbessern. Die
Herausforderung besteht anschließend darin, aus den übertragenden Sensordaten subtile Muster zu
identifizieren und daraus Wartungsbedarf, respektive Wartungszyklen abzuleiten.[65]
4.4 Distribution & Logistik
4.4.1 Optimierung der Supply Chain
Big Data Technologie ermöglicht es die vielfältigen Daten der Produktions- und der Lieferkette zeitnah zu
verarbeiten. Zu den Daten der eigenen Produktionsstandorte, kommen Daten der Auftragsfertiger, der
Zwischenlager und der Logistikpartner, sowie Prognosen der künftigen Absatzmengen hinzu. Eine zeitnahe
Analyse der Daten ist hier erfolgsentscheidend, um auf Störungen der Lieferkette adäquat reagieren zu können.[66]
Dabei hat Big Data unter anderem den Effekt durch bessere Voraussicht und Beweglichkeit Wettbewerbsvorteile
gegenüber der Konkurrenz zu erreichen und die Profitabilität bei steigender Komplexität der Lieferkette zu
erhöhen. Ineffizienzen lassen sich durch gezielte Big-Data Analysen in der gesamten Lieferkette aufdecken. So
lassen sich beispielsweise durch den Einsatz von Big Data-Technologien Preisoptimierung und
Inventarmanagement mit Echtzeit-Warnungen innerhalb der Lieferkette und lokaler sowie globaler
4.3.1 Produktionsoptimierung
20
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Nachfragetrends verknüpfen, wodurch sich Bestände optimieren und Fehlmengen vermeiden lassen.[67]
4.4.2 Optimierung der Logistik
Immer mehr Fahrzeuge werden mit Sensoren und Steuerungsmodulen ausgestattet, die es ermöglichen die
Fahrzeugdaten, wie Benzinverbrauch, den Zustand von Verschleißteilen oder Positionsdaten zu erfassen und
daher für Big Data-Analysen nutzbar zu machen. Auf Basis dieser Daten können die Transporte weltweit getrackt
werden, Lieferungen können zeitnah geplant, sowie Stillstandzeiten und Leerfahrten vermieden werden.
Werkstattaufenthalte können an den tatsächlichen Bedarf angepasst werden. Transportzeiten können minimiert
werden, indem die analysierten Daten zurück in die Cockpitsystem fließen und auf Basis der aktuellen
Verkehrslage die Routen automatisch optimieren.[68]
Auf Grund der optimierten Logistik können beispielsweise die Lagerbestände der Produzenten reduziert werden,
da geringere Sicherheitsbestände vorgehalten werden müssen.
4.5 Finanz- und Risikocontrolling
4.5.1 Echtzeit-Reaktionen auf Geschäftsinformationen
Der Einsatz von Big Data-Technoligen bietet die Möglichkeit Daten aus unterschiedlichen Quellen schnell
zusammenzuführen und für die Entscheidungsfindung aufzubereiten. Gegenüber klassischen
Business-Intelligence-Lösungen, auf den hauptsächlich formatierte Berichte auf starren Datenmodellen zum
Einsatz kommen, ermöglichen Big Data-Technologien in einem viel stärkeren Maß die gezielte Beantwortung
von Ad-hoc Fragestellungen. So können Informationen, respektive Daten aus mehreren Quellsystemen für eine
Analyse verwendet werden ohne dass vorher ein klassisches Datenmodell aufgebaut werden muss. [69]
4.5.2 Simulation, Vorhersagen und Szenarienbildung
Durch den Einsatz von Big Data-Technologien werden >>Was wäre, wenn<<-Analysen möglich. Waren die
Berechnungen von Vorhersagemodellen mit klassischen Werkzeugen ein aufwändiger Prozess, der mit großen
Datenmengen und langen Rechenzeiten verbunden war, können durch Big Data Technologien viele verschiedene
Modelle berechnet werden und in ihren Auswirkungen verglichen werden. Dies ermöglicht die Simulation von
verschieden Szenarien, respektive Entwicklungen aus denen die beste Alternative ausgewählt werden kann.[70]
5 Big Data und Datenschutz
Während in den USA vor allem die Chancen von Big Data-Technologien gesehen werden, stehen in Deutschland
eher die Risiken und die Angst vor unkontrollierter Überwachung im Fokus.
Das deutsche Datenschutzrecht ist gegenüber dem US-amerikanischen Recht sehr restriktiv.[71]
>>Ein wichtiger Grundsatz des Bundesdatenschutzgesetztes (BDSG) ist das Verbotsprinzip: Personenbezogene
Daten dürfen nur erhoben, verarbeitet und oder genutzt werden, wenn der Betroffene eingewilligt hat oder wenn
eine Rechtsvorschrift dies ausdrücklich erlaubt. Daten dürfen nur für den Zweck genutzt werden, für den sie
erhoben worden sind (Zweckbindung). Es sollen möglichst wenige personenbezogene Daten verarbeitet werden
4.4.1 Optimierung der Supply Chain
21
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
(Datensparsamkeit).<< [72]
Unternehmen sollten bereits in der Konzeptionierungsphase einer Big Data-Anwendung eruieren, welche
Datenverarbeitung erforderlich ist, wie sie wirksame Einwilligungen erhalten und wie die Verfahren zum
Privacy-Preserving Data Mining anzuwenden sind. Die rechtliche Zuverlässigkeit sollte bereits bei der
Entwicklung geprüft werden, da sich in der Anfangsphase leichter Design Änderungen vornehmen lassen als nach
der Einführung der Anwendung.[73]
5.1 Privacy-Preserving Data Mining
Das Privacy-Preserving Data Mining liefert Antworten auf die Fragen, ?Welche Daten und Muster können ohne
Bedenken veröffentlicht werden??, ?Wie kann eine Bestimmte Fragestellung so analysiert werden, dass dabei
keine sensiblen Informationen offengelegt werden??.[74]
Auf die zwei Ausprägungen des Privacy-Preserving Data Mining, die Anonymisierung und das sichere verteilte
Daten Mining wird im Folgenden näher eingegangen:[75]
• Anonymisierung
Das deutsche Bundesdatenschutzgesetzt (BDSG) unterscheidet sehr stark zwischen personenbezogenden
Daten (z.B. Name, Geburtsdatum, Adresse, E-Mail-Adresse) und pseudonymen bzw. anonymen Daten.
Dabei gelten Daten bereits als personenbezogen, wenn der Betroffene potenziell identifizierbar ist. Für
die personenbezogenen Daten gelten für deren Verwendung starke gesetzliche Hürden, wohingegen bei
pseudonymen bzw. anonymen Daten wesentliche geringere Datenschutzanforderungen bestehen. Folglich
sind nicht nur identifizierende Daten wie Name oder Anschrift personenbezogen, sondern auch Daten die
durch Kombination mit anderen Attributen zu Identifizierung des Individuums verwendet werden können
(sogenannte Quasi-Identifizierung).
Um die Identifizierung des einzelnen zu verhindern setzen Verfahren auf Generalisierung und
Unterdrückung. Bei der Generalisierung werden die Attribute so modifiziert, dass die Attribute in
mehreren verschiedenen Datensätzen identisch sind und somit keinen Rückschluss mehr auf das
Individuum zulassen. Zum Beispiel wird hierbei eine fünfstellige Postleitzahl auf vierstellen gekürzt. Bei
der Unterdrückung werden einzelne Datensätze entfernt.
• Sicheres Verteiltes Data Mining
Durch das verteilte Data Mining werden zentrale Datenbestände auf mehre Datenbanken aufgeteilt, um so
im Falle eines Sicherheitsleck nicht die gesamten Information zu gefährden. Möglichkeiten hierzu bietet
das ?Secure Multiparty Computation?-Verfahren, welches Analysen auf verteilten Daten so durchführt,
dass die Teilnehmer außer dem Ergebnis keine weitergehende Informationen
5.2 Ganzheitliche Sicherheitskonzepte
Ferner sollten Unternehmen für ein ganzheitliches Sicherheitskonzept nachstehende Punkte berücksichtigen:[76]
• Zugriffsbeschränkungen der Umgebung über Authentifizierung
• Verschlüsselung der Daten
• Maskierung der Daten (z.B. teilweises ausixen der Kreditkartennummer)
5 Big Data und Datenschutz
22
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
• Autorisierung (Zugriffsbeschränkungen auf das Big Data-System)
• Auditing (Dokumentation der Nutzung, Lücken aufdecken im Sicherheitskonzept)
• Datenübermittlung (Verschlüsselung der Daten)
6 Schlussbetrachtung
6.1 Fazit
Diese Fallstudie hatte die Zielsetzung, einen Überblick über die möglichen Einsatzszenarien von Big Data anhand
einer typischen Wertschöpfungskette in der Konsumgüterbranche zu geben. Die Literaturrecherche zu diesen
Fallstudie zeigte, dass die Big Data-Technologie in allen Bereichen der Wertschöpfungskette einsetzbar ist und
dies zu mehr Transparenz und Effizienz führt. Richtig eingesetzt leisten Big Data-Technologien einen
entscheidenden Beitrag zur Produktivitätssteigerung der Unternehmen.[77]
So erlaubt der Einsatz von Big Data-Technologie es den Unternehmen ihre Kunden gezielter anzusprechen, ihre
Produktionsplanung an die aktuelle Nachfragesituation anzupassen, ihre Lieferkette in Echtzeit zu überwachen
und ihre Produkte schneller und näher am Kundennutzen zu produzieren. Trends können von dem Unternehmen
schneller erkannt und auf diese adäquat reagiert werden. Geschäftsinformationen lassen sich durch neue
Erkenntnisse und aktuelle Daten anreichern, Simulationen und Szenarien geben eine sinnvolle Unterstützung bei
der Entscheidungsfindung. Unternehmen können durch die Nutzung des Wissens, welches in großen
Datenmengen steckt, effizienter werden und sich dadurch Vorteile gegenüber dem Wettbewerb verschaffen.
6.2 Ausblick
Die zukünftigen Architekturanforderungen an eine Big Data-Lösung werden maßgeblich von der Datenvielfalt
und von der Geschwindigkeit der Daten beeinflusst. Der aktuelle Stand der Technik macht es inzwischen
möglich, alle für ein Unternehmen relevanten Informationen dauerhaft zu speichern. Dies ist im Hinblick auf den
Datenschutz und die Datensicherheit nicht ohne Risiko. Daher muss diesem Punkt bei der Konzeptionierung,
respektive bei der Einführung einer Big Data-Lösung ausreichende Beachtung geschenkt werden. Technologische
Entwicklungen unterstützen immer mehr die Real-Time-Anforderungen von Unternehmen, weshalb davon
auszugehen ist, dass die Technologien sich immer mehr vom klassischen Map-Reduce-Programmiermodell
wegentwickeln werden.[78]
Neue Trends, steigende mobile Endgeräte, das Internet der Dinge (IoT) und die weitere Verbreitung von
Sensoren, lassen die Datenmengen auch zukünftig exponentiell ansteigen. Der Bereich Big Data wird daher auch
in der weiteren Zukunft eine entscheidende Rolle in der IT haben und neue Wachstumschancen für Unternehmen
eröffnen.
7 Anhang
7.1 Fußnoten
1. ? Vgl. King (2014), Kurzfassung
2. ? Vgl. Bitkom (2014), Seite 11
5.2 Ganzheitliche Sicherheitskonzepte
23
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
3. ? Vgl. Bitkom (2014) Seite 23
4. ? 4,0 4,1 4,2 4,3 Vgl. Bitkom (2014) Seite 12
5. ? Vgl. Dorschel (2015) Seite 260ff
6. ? Vgl. Neil Biehn
7. ? Vgl. Bitkom (2014) Seite 36
8. ? 8,0 8,1 Vgl. Dorschel (2015) Seite 278ff
9. ? 9,0 9,1 Vgl. Dorschel (2015) Seite 278
10. ? 10,0 10,1 10,2 Vgl. Fischer (2014)
11. ? Vgl. Apache (a)
12. ? Vgl. Dorschel (2015) Seite 279-288
13. ? Vgl. Dorschel (2015) Seite 279-288
14. ? 14,0 14,1 14,2 14,3 14,4 14,5 Vgl. Bitkom (2014) Seite 42-48
15. ? 15,0 15,1 Vgl. Walker-Morgan (2010)
16. ? 16,0 16,1 16,2 16,3 Vgl. Bitkom (2014) Seite 48-55
17. ? 17,0 17,1 17,2 17,3 17,4 Vgl. Apache (b)
18. ? Vgl. Eckert / Bry
19. ? Vgl. Seeger
20. ? Vgl. Fischer (2013)
21. ? 21,0 21,1 Vgl. Rausch
22. ? Vgl. Kelz.
23. ? Vgl. Adolphs (2015)
24. ? Vgl. Koeffer (2014)
25. ? 25,0 25,1 Vgl. Feindt (2012)
26. ? Vgl. Bitkom (2014) Seite 61f
27. ? Vgl. Mitchell (1997) Seite 14
28. ? Vgl. Klose (2015)
29. ? 29,0 29,1 29,2 Vgl. Parik (2014)
30. ? Vgl. Brown
31. ? Vgl. Dickerhof (2009) Seite 43
32. ? Vgl. Bitkom (2014) Seite 75
33. ? Vgl. Manhart
34. ? Vgl. Bitkom (2012), Seite 9
35. ? Vgl. Dorschel (2015), Seite 105
36. ? Vgl. Bitkom (2012), Seite 35
37. ? Vgl. Bauer / Greve / Hopf (2011), Seite 8ff
38. ? Vgl. Schlöge / Walter / Mühling (2007,2008)
39. ? Vgl. Bauer / Greve / Hopf (2011), Seite 10
40. ? Vgl. Bauer / Greve / Hopf (2011), Seite 7
41. ? Vgl. Bauer / Greve / Hopf (2011), Seite 8
42. ? Vgl. Bauer / Greve / Hopf (2011), Seite 13
43. ? Vgl. Bauer / Greve / Hopf (2011), Seite 9
44. ? Vgl. Dorschel (2015), Seite 105
45. ? Vgl. Bitkom (2012), Seite 35
46. ? Vgl. Dorschel (2015), Seite 237
47. ? Vgl. Haas (2007)
48. ? Bitkom (2012), Seite 35
49. ? Vgl. Dorschel(2015), Seite 106
50. ? Vgl. Bitkom (2012), Seite 37
51. ? Vgl. Bitkom (2013), Seite 279
52. ? Vgl. Bitkom (2014), Seite 58
53. ? Vgl. Bitkom (2014), Seite 105
7.1 Fußnoten
24
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
54. ? Vgl. Bitkom (2014), Seite 105
55. ? Vgl. Bitkom (2012), Seite 37
56. ? Vgl.Dorschel (2015), Seite 325
57. ? Vgl. Dorschel (2015), Seite 326
58. ? Vgl. Bitkom (2012), Seite 38
59. ? Vgl. Bitkom (2012), Seite 38
60. ? Vgl. Bitkom (2012), Seite 39
61. ? Vgl. Sendler (2013), Seite 11
62. ? Vgl. Bitkom (2014), Seite 110f
63. ? Vgl. Bitkom (2014), Seite 111
64. ? Vgl. Bitkom (2012), Seite 39
65. ? Vgl. Härting (o.A.), Seite 57
66. ? Vgl. Bitkom (2012), Seite 39
67. ? Vgl. Buttkus / Eberenz (2014), Seite 82
68. ? Vgl. Bitkom (2012), Seite 40
69. ? Vgl. Bitkom (2012), Seite 41
70. ? Vgl. Bitkom (2012), Seite 41
71. ? Vgl. Bitkom (2012), Seite 43
72. ? Bitkom (2012), Seite 43
73. ? Vgl. Bitkom (2012), Seite 46
74. ? Vgl. GI (2010)
75. ? Vgl. GI (2010)
76. ? Vgl. Dorschel (2015), Seite 275
77. ? Vgl. King (2013), Seite 145f
78. ? Vgl. Dorschel (2015), Seite 277
7.2 Literatur- und Quellenverzeichnis
Adolphs (2015)
Apache (a)
Apache (b)
Adolphs, Peter: Semantische Textanalyse für deutsche Texte, 10.06.2015, URL:
http://blog.neofonie.de/2015/06/10/semantische-textanalyse-fuer-deutsche-texte/, Abruf am 15.06.2015 1
o.V., Apache Software Foundation: Hadoop, Who uses Hadoop, URL: http://wiki.apache.org/hadoop/Pow
03.06.2015 16:23
o.V., Apache Software Foundation: Hadoop, Apache Pig Philosophy, URL: https://pig.apache.org/philos
12.06.2015 17:14
Bauer / Greve /
Springer Fachmedien Wiesbaden GmbH, Wiesbaden 2011
Hopf (2011)
o.V., Bitkom (Hrsg.) (2014): Big-Data-Technologien - Wissen für Entscheider. URL:
Bitkom (2014) http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Ents
Abruf am 05.05.2015
Arns, T; Bentele, M.; Niemeier, J.; Schütt, P.; Weber, M. (Hrsg): 15. Kongress für Wissenmangement un
Bitkom (2013)
>>Wissensmanagement und Social-Media - Markterfolg im Innovationswettbewerb<<, GITO Verlag, Be
o.V., Bitkom (Hrsg.) (2012): Big Data im Praxiseinsatz - Szenarien, Beispiele, Effekte. URL:
Bitkom (2012)
http://www.bitkom.org/de/publikationen/38337_73446.aspx, Abruf am 03.05.2014
Brown, Simon: Shneiderman's mantra, 2015, URL:
Brown
http://www.codingthearchitecture.com/2015/01/08/shneidermans_mantra.html, Abruf am 14.06.2015 21:
Buttkus /
Buttkus, M. , Eberenz, R. (Hrsg.) (2014): Controlling in der Konsumgüterindustrie - Innovative Ansätze
Eberenz (2014) Springer Gabler, Wiesbaden 2014
7.2 Literatur- und Quellenverzeichnis
25
Einsatz_von_Big_Data_in_der_Konsumgüterbranche
Dickerhof
Dickerhof, Markus: Ein neues Konzept für das bedarfsgerechte Informations- und Wissensmanagement i
(2009)
Unternehmenskooperationen der Multimaterial-Mikrosystemtechnik, Karlsruhe, Univ., Abruf am 12.06.2
Dorschel (2015) Dorschel, Joachim (Hrsg.) (2015): Praxishandbuch Big Data: Wirtschaft - Recht - Technik, Springer Gab
Eckert , Michael und Bry, Francois: Complex Event Processing (CEP), Institut fur Informatik, Ludwig-M
Eckert / Bry
München, URL: http://www.en.pms.ifi.lmu.de/publications/PMS-FB/PMS-FB-2009-5/PMS-FB-2009-513.06.2015 20:13
Prof. Dr. Feindt, Michael: Big Data und Predictive Analytics - der Nutzen von Daten für präzise Prognos
Feindt (2012)
in der Zukunft, Karlsruhe Institute of Technology KIT, 20.11.2012, URL:
http://www-ekp.physik.uni-karlsruhe.de/~feindt/BigDataFrankfurtFeindt.pdf, Abruf am 07.06.2015 13:12
Fischer, Oliver B.: Volltextsuche mit ElasticSearch - Search and destroy, Heise 26.07.2013, URL:
Fischer (2013)
http://www.heise.de/developer/artikel/Volltextsuche-mit-ElasticSearch-1920454.html, Abruf am 07.06.2
Fischer, Oliver: Verarbeiten großer verteilter Datenmengen mit Hadoop, Heise 2014, URL:
Fischer (2014) http://www.heise.de/developer/artikel/Verarbeiten-grosser-verteilter-Datenmengen-mit-Hadoop-964755.
06.06.2015, 18:43
Grosskreutz, Henrik; Lemmen, Benedikt; Ržping, Stefan: Data-Mining, Privacy-Preserving, Springer-Ve
GI (2010)
2010, https://www.gi.de/service/informatiklexikon/detailansicht/article/data-mining-privacy-preserving.h
Uhr)
Haas, Matthias: Methoden kžnstlicher Intelligenz in betriebswirtschaftlichen Anwendungen, 1. Auflage,
Haas (2007)
Bremen Hamburg 2007
Härting
Härting, Ralf-Christian: Big Data - Daten strategisch nutzen!, BoD - Books on Demand, Norderstedt
Holland (2014) Holland, H. (Hrsg.) (2014): Digitales Dialogmarketing - Grundlagen, Strategien, Instrumente, Wiesbaden
Kelz, Andreas: SQL und relationale Algebra, URL: https://www.hdm-stuttgart.de/~riekert/lehre/db-kelz/c
Kelz
15.05.2015 18:57
King (2013)
King, Stefanie: Big Data Potential und Barrieren der Nutzung im Unternehmenskontext, Springer Fachm
Klose, Olivia: Machine Learning - Was, was nicht und wann?, 13.02.2015, URL:
Klose (2015)
http://oliviaklose.com/machine-learning-1-was-was-nicht-und-wann/, Abruf am 19:06.2015 15:20
Koeffer, Sebastian: Mit Predictive Analytics in die Zukunft blicken, 22.07.2014, URL:
Koeffer (2014)
http://www.computerwoche.de/a/mit-predictive-analytics-in-die-zukunft-blicken,2370894, Abruf am 12.0
Manhart, Klaus: Mythos ?Real-Time? Business Intelligence, IBM Experts, 10.09.2013, Mythos ?Real-Ti
Manhart
Intelligence, Abruf am 16.06.2015 15:03
Mitchell, Tom: McGraw Hill, 1997, URL:
Mitchell (1997)
http://personal.disco.unimib.it/Vanneschi/McGrawHill_-_Machine_Learning_-Tom_Mitchell.pdf, Abruf
Parik, Ravi Anscombe?s Quartet, and Why Summary Statistics Don?t Tell the Whole Story, 21.04.2014,
Parik
http://data.heapanalytics.com/anscombes-quartet-and-why-summary-statistics-dont-tell-the-whole-story/,
17:40
Rausch, Christian: Datenbanken und SQL, 1999, URL: http://ab.inf.uni-tuebingen.de/teaching/ss03/asa/d
Rausch
16.05.2015 19:32
Schlögel /
Schlögel, M.; Walter, V.: Behavioaral Targeting: Chancen und Risiken einer neuen Form des Online Mar
Walter /
Stanoevska-Slabeva, K. (Hrsg.): Web 2.0: Die nächste Generation Internet, Nomos, Baden Baden, Seite 1
Mühling (2008) Targeting. Zielgruppen exakt online erreichen, Fischer, München 2007
Seeger, Bernhard: Complex Event Processing: Auswertung von Datenströmen - Kontinuierliche Kontroll
Seeger
http://www.heise.de/ix/artikel/Kontinuierliche-Kontrolle-905334.html, Abruf am 14.06.2015 17:34
Sendler, Ulrich (Hrsg.): Industrie 4.0: Beherrschung der industriellen Komplexität mit SysLM, SpringerSendler (2013)
Heidelberg 2013
Walker-Morgan Walker-Morgan: NoSQL im Überblick, Heise 2010, URL:
(2010)
http://www.heise.de/open/artikel/NoSQL-im-Ueberblick-1012483.html, Abruf am 01.06.2015 22:12
7.2 Literatur- und Quellenverzeichnis
26