2 Grundlagen

Theoretische_Grundlagen_von_Big_Data
Fallstudienarbeit
Hochschule:
Hochschule für Oekonomie & Management
Standort:
Essen
Studiengang:
Bachelor Wirtschaftsinformatik
Veranstaltung:
Fallstudie / Wissenschaftliches Arbeiten
Betreuer:
Prof._Dr._Uwe_Kern
Typ:
Fallstudienarbeit
Themengebiet:
Big Data
Autor(en):
Kevin Kleiber, Jan Pfeifer, Christoph Mertens
Studienzeitmodell:
Abendstudium
Semesterbezeichnung: SS15
Studiensemester:
2
Bearbeitungsstatus:
Bearbeitung abgeschlossen
Prüfungstermin:
30.6.2015
Abgabetermin:
21.6.2015
Name des Autors / der Autoren: Kevin Kleiber, Christoph Mertens, Jan Pfeifer
Titel der Arbeit:
"Theoretische Grundlagen von Big Data"
Hochschule und Studienort:
FOM Essen
Inhaltsverzeichnis
• 1 Einleitung
♦ 1.1 Einführung in die Thematik
♦ 1.2 Zielsetzung der Arbeit
♦ 1.3 Methodischer Aufbau der Arbeit
• 2 Grundlagen
♦ 2.1 Definition
♦ 2.2 Dimensionen
◊ 2.2.1 Volume
◊ 2.2.2 Variety
◊ 2.2.3 Velocity
◊ 2.2.4 Veracity
◊ 2.2.5 Value
♦ 2.3 Chancen & Herausforderungen
◊ 2.3.1 Chancen
⋅ 2.3.1.1 Einsatz von Big
Data in der Wirtschaft
⋅ 2.3.1.2 Big Data in der
Wissenschaft
⋅ 2.3.1.3 Big Data in
Medizin
⋅ 2.3.1.4 Weitere
Einsatzgebiete von Big
Data
⋅ 2.3.1.5 Zusammenfassung
◊ 2.3.2 Herausforderungen
⋅ 2.3.2.1 Herausforderungen
für Wirtschaft und
Inhaltsverzeichnis
1
Theoretische_Grundlagen_von_Big_Data
Institutionen
◊ 2.3.3 Recht/Sicherheit
⋅ 2.3.3.1 Datenschutz
⋅ 2.3.3.2 Privatsphäre
⋅ 2.3.3.3 Datenrisiken
◊ 2.3.4 Meinungstrends
• 3 Theoretische Basis
♦ 3.1 Datenquellen
♦ 3.2 Modelle
◊ 3.2.1 Data Warehouse
◊ 3.2.2 Cube
◊ 3.2.3 MapReduce
♦ 3.3 Analyse
◊ 3.3.1 Data Mining
◊ 3.3.2 Predictive Analytics
◊ 3.3.3 OLAP
• 4 Technische Implementierungen
♦ 4.1 Theorie
◊ 4.1.1 NoSQL (Not Only Short
Query Language)
◊ 4.1.2 In-Memory
◊ 4.1.3 Datenbank-Komprimierung
◊ 4.1.4 Tiering
♦ 4.2 Praxis
◊ 4.2.1 Hadoop
◊ 4.2.2 Cassandra
♦ 4.3 Anwendungsbeispiele
◊ 4.3.1 Verhaltensprognose
◊ 4.3.2 Klimaforschung
◊ 4.3.3 Medizin
• 5 Schlussbetrachtung
♦ 5.1 Zusammenfassung
♦ 5.2 Ausblick
• 6 Fußnoten
• 7 Literaturverzeichnis
• 8 Gesetzestexte
• 9 Abkürzungsverzeichnis
• 10 Abbildungsverzeichnis
• 11 Tabellenverzeichnis
1 Einleitung
Die nachfolgende Arbeit behandelt die theoretischen Grundlagen von Big Data.
1.1 Einführung in die Thematik
Durch die zunehmende Digitalisierung von Inhalten und den zunehmenden Einsatz intelligenter Systeme und
ihrer Vernetzung in immer mehr Alltagsgegenständen werden laufend Daten erzeugt, erfasst und an Hersteller
oder andere Dienstanbieter übermittelt. Aufgrund der schieren Masse der anfallenden Daten stößt die Verwaltung
1 Einleitung
2
Theoretische_Grundlagen_von_Big_Data
und Verarbeitung dieser an ihre Grenzen. Der intelligente und wertschöpfende Umgang mit diesen Datenmengen
wird unter dem Synonym ?Big Data? zusammengefasst.
1.2 Zielsetzung der Arbeit
Ziel dieser Arbeit ist es, einen Überblick darüber zu schaffen, wofür der Begriff Big Data verwendet wird, welche
theoretischen Modelle der zu Big Data gehörenden Datenanalyse und Verwaltung zugrunde liegen, welche
technischen Voraussetzungen dafür erfüllt sein müssen und aufzuzeigen in welchen Bereichen der Wirtschaft und
Forschung Big Data effektiv genutzt wird und zukünftig genutzt werden kann.
1.3 Methodischer Aufbau der Arbeit
Innerhalb dieser Arbeit wird zunächst versucht den Begriff Big Data einzugrenzen sowie einen Überblick über die
Chancen und Herausforderungen zu geben die Big Data ermöglicht und welche datenschutzrechtlichen Aspekte
hierbei zu beachten sind. Darauffolgend wird ein Überblick über die theoretische Basis von Big Data gegeben und
anhand verschiedener Datenquellen und Modellbetrachtungen erläutert. Anschließend werden verschiedene
Möglichkeiten der technischen Implementierung der zuvor erläuterten theoretischen Modelle erörtert und einige
fachliche Anwendungsbeispiele aufgezeigt. Zum Abschluss wird ein kurzes Fazit gezogen sowie ein Ausblick
über die weitere Entwicklung von Big Data gegeben.
2 Grundlagen
Dieses Kapitel beschäftigt sich mit dem Begriff Big Data als solchen und grenzt diesen ein. Anschließend werden
einige Chancen aufgezeigt die Big Data bietet, aber auch die Herausforderungen herausgestellt die mit dem
Einsatz von Big Data Methoden einhergehen. Abschließend werden einige Trends zum Einsatz von Big Data
präsentiert, die zeigen, wie es mit dem Thema in naher Zukunft weitergeht.
2.1 Definition
Aufgrund des weiten Spektrums an Themen die mit dem Begriff Big Data in Verbindung gebracht werden, gibt es
aktuell keine einheitliche oder genaue Definition für den Begriff Big Data. Nach der Kurzerklärung des Gabler
Wirtschaftslexikons werden mit dem Begriff Big Data ??große Mengen an Daten bezeichnet, die u.a. aus
Bereichen wie Internet und Mobilfunk, Finanzindustrie, Energiewirtschaft, Gesundheitswesen und Verkehr und
aus Quellen wie intelligenten Agenten, sozialen Medien, Kredit- und Kundenkarten, Smart-Metering-Systemen,
Assistenzgeräten, Überwachungskameras sowie Flug- und Fahrzeugen stammen und die mit speziellen Lösungen
gespeichert, verarbeitet und ausgewertet werden.?[1].
Weiterführend bezeichnet Big Data laut dem Big Data Arbeitskreis der BITKOM ?? [die] wirtschaftlich sinnvolle
Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich
strukturierten Informationen, die einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang
anfallen. Big Data stellt Konzepte, Methoden, Technologien, IT-Architekturen sowie Tools zur Verfügung, um
die geradezu exponentiell steigenden Volumina vielfältiger Informationen in besser fundierte und zeitnahe
Management-Entscheidungen umzusetzen und so die Innovations- und Wettbewerbsfähigkeit von Unternehmen
zu verbessern.?[2].
1.1 Einführung in die Thematik
3
Theoretische_Grundlagen_von_Big_Data
2.2 Dimensionen
Den meisten Definitionen von Big Data ist gemein, dass der Begriff mit den drei Dimensionen Volume
(Datenmenge), Velocity (Geschwindigkeit der entstehenden Daten) und Variety (Datenvielfalt) charakterisiert
wird (s. Abb.1). Diese werden allen voran von Gartner, dem (nach eigenen Aussagen) weltweit führenden
Technologie Forschungsinstitut[3], und der IBM verwendet[4].
Abb.1 Die drei Dimensionen von Big Data[5]
2.2.1 Volume
Eine Herausforderung von Big Data ist die Verwaltung und Verarbeitung von riesigen Datenmengen. Insgesamt
existieren heute 4,4 Zetabyte an Daten.[6] Das Datenaufkommen verdoppelt sich ca. alle zwei Jahre. Laut
aktuellen Statistiken werden im Jahr 2020 40 Zettabyte an Daten erzeugt (vgl. Abb.2)[7]. Damit hätte sich die
generierte Datenmenge seit dem Jahr 2005 um etwa den Faktor 300 multipliziert.
Abb.2 Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis
2020 (in Exabyte)[7]
In Anbetracht dieser gewaltigen Datenmengen stoßen traditionelle Werkzeuge, wie z.B. relationale
Datenbanksysteme an ihre Grenzen. Aus diesem Grund kommen verschiedene Alternativsysteme wie das
Framework NoSQL und nicht-relationale Datenbanken, wie MongoDB, Apache Hadoop oder Apache Cassandra
zum Einsatz (s. Kapitel 4).
2.2.2 Variety
Die für Big Data interessanten Informationen können in unterschiedlichen Formen und Formaten vorliegen. Dabei
spielt es keine Rolle, ob es sich hierbei um Log-, Bild- oder (Frei-)Textformate handelt. Ziel ist es, diese
unstrukturierten und unsystematischen Datensätze so aufzubereiten, dass diese einheitlich verarbeitet und
anschließend daraus ein Mehrwert durch einen neuen Informationsgewinn erzeugt werden kann.[8]
Eine besondere Rolle spielen hierbei auch die verschiedenen sozialen Netzwerke wie Facebook, Twitter oder
2.2 Dimensionen
4
Theoretische_Grundlagen_von_Big_Data
YouTube, die die unterschiedlichsten Arten von usergenerierten Daten erzeugen.[4]
2.2.3 Velocity
Durch die steigende Benutzung von Smart Devices, die zunehmende Vernetzung aller Geräte untereinander und
der Einsatz von immer mehr Sensoren werden Daten werden fortlaufend erzeugt. Dadurch nimmt die Bedeutung
der Echtzeitdatenverarbeitung immer weiter zu, da die gesamte Masse an Daten nicht zwischengespeichert
werden kann.[4]
2.2.4 Veracity
Zusätzlich zu den drei zuvor genannten Dimensionen die Big Data beschreiben, wird ein weiterer Aspekt
insbesondere für wirtschaftliche Entscheidungen immer wichtiger: Die Glaubwürdigkeit der zur Verfügung
stehenden Daten und deren Analyseergebnisse. Nach IBM vertrauen ein Drittel aller führenden IT Entscheider
nicht den Analyseergebnissen von Big Data.[4]Ein Grund hierfür ist, dass es bei der zunehmenden Masse an Daten
immer schwieriger wird, die wirklich relevanten Informationen herauszufiltern. Die übrigen Daten sind nicht
zielführender ?Datenmüll?, welcher von menschlichen Mitarbeitern besser verarbeitet werden kann als von
spezialisierter Analysesoftware.[9]
Damit die zu analysierenden Daten brauchbar sind, müssen diese eindeutig identifizierbar, vollständig, umfassend
und vertrauenswürdig sein.[9] Werden also für eine zu analysierende Fragestellung eine falsche Datenbasis oder
ein unpassendes Analysemodell gewählt, kann das maßgeblich die Aussagekraft der Ergebnisse beeinflussen.
2.2.5 Value
Ein weiterer Begriff der immer öfter mit Big Data in Verbindung gebracht wird ist Value. Value beschreibt den
Mehrwert, der durch die Analyse aller anfallenden Daten erzeugt wird. Durch zielgerichtete Auswertungen
können aus vorhandenen Daten neue Informationen gewonnen werden, die die Grundlage für weitere
Geschäftsentscheidungen bilden können.[8] Informationen z.B. über genaue Abverkaufszahlen werden
transparenter, stehen schneller zur Verfügung und können dazu genutzt werden, Vorhersagen über die Zukunft zu
treffen und zielgerichtete Geschäftsentscheidungen zu treffen, Geschäftsprozesse zu verbessern und damit eine
höhere Monetarisierung zu erreichen.[10][11]
2.3 Chancen & Herausforderungen
Big Data ist ein unaufhaltbarer Trend dem sich niemand mehr verschließen kann. Unternehmen wie Konsumenten
sind gleichermaßen von den technischen Entwicklungen betroffen. Die Sammlung, Verarbeitung und Auswertung
aller möglichen Daten kann enorme wirtschaftliche Optimierungspotenziale mit sich bringen, gleichzeitig aber
auch die Privatsphäre jedes Einzelnen massiv einschränken, bis hin zu der Vorstellung, dass die Vision des
gläsernen Menschen in Zukunft Wirklichkeit werden kann.
2.3.1 Chancen
Die Chancen und Möglichkeiten, die sich aus der Kombination vom Big Data und der zunehmenden Vernetzung
aller Lebensbereich ergeben, sind gewaltig. Dies belegen unter anderem unterschiedliche Untersuchungen und des
Studien McKinsey Global Institute[12].
2.2.2 Variety
5
Theoretische_Grundlagen_von_Big_Data
2.3.1.1 Einsatz von Big Data in der Wirtschaft
Die BITKOM fasst die möglichen Chancen in fünf wesentlichen Punkten zusammen[13]:
• Schaffung von Transparenz über die eigenen Geschäftsprozesse.
♦ Auf dieser Basis können bessere Geschäftsentscheidungen getroffen werden, wodurch eine
größere Wertschöpfung erzielt werden kann.
• Aufgrund der großen Datenbasis können erweiterte Simulationen und Experimente durchgeführt werden
um die Unternehmensleistung zu steigern.
• Verbesserter Kundenzugang durch leichtere Kundensegmentierung und bedarfsgerechte Waren- und
Dienstleistungsangebote. Durch eine zielgerichtete Kundenansprache können unter anderem Ausgaben
für Marketingkampagnen gesenkt werden.
• Unterstützung von Entscheidungsprozessen für das Management durch Embedded Analytics und voll
automatisierten Prozessen zur Entscheidungsfindung. Die Auswertung großer Datenmengen können dabei
helfen Risiken bei wichtigen Geschäftsentscheidungen zu minimieren.
• Es können Chancen für neue Geschäftsmodelle, Produkte und Dienstleistungen entstehen wie z.B. voll
individualisierte Produktangebote die perfekt auf jeden einzelnen Kunden zugeschnitten sind.
Darüber hinaus werden von der BITKOM Beispiele gebracht, die den wirtschaftlichen Nutzen von Big Data näher
veranschaulichen. Unter anderem kann Big Data durch Machine-to-Machine-Kommunikation (Industrie 4.0)
produzierenden Unternehmen dabei helfen, ihre Fertigungsprozesse zu optimieren und Kosten zu senken. Es
können aber auch Social-Media Analysen dazu beitragen, die Entwicklungen einer neuen Produktgeneration für
die Forschungs- und Entwicklungsabteilungen in die richtige Richtung zu lenken.[13]
Eine von Statista bereitgestellte und von IDC durchgeführte Meinungsumfrage unter 254 Unternehmen in
Deutschland aus dem Jahr 2012 zum Thema ?Potenzial von Big-Data-Technologie auf Business-Ebene? ergab,
dass Unternehmen vor allen Dingen Potenziale in den Bereichen Kostenoptimierung (45%),
Informationsgewinnung (42%) und Informationsmanagement sehen (Vgl. Abb.3).[14] Neben wirtschaftlichen
Aspekten birgt der Einsatz von Big Data auch noch viele Chancen für weitere Bereiche.
Abb.3 Meinungsumfrage:Potenzial von Big-Data-Technologie auf Business-Ebene[14]
2.3.1.2 Big Data in der Wissenschaft
Aufgrund der schieren Masse an unterschiedlichen Daten und der immer weiter steigenden Leistung von
Computersystemen können diese dazu genutzt werden, immer umfassendere Simulationen und Analysen
durchzuführen, wie beispielsweise in der Klimaforschung um genauere Wettervorhersagen machen zu können.
Big Data kann aufgrund seiner Eigenschaften auch dazu verwendet werden, neue Erkenntnisse im Bereich der
Verhaltens- oder Epedemieforschung zu gewinnen (s. Kapitel 5). Im Bereich der Verhaltensforschung können
z.B. soziale Netzwerke, allen voran Facebook mit seinen knapp 1,4 Milliarden aktiven Nutzern[15], dazu genutzt
werden Auswertungen über Verhaltensmuster einzelner Personen und Personengruppen durchzuführen. Im
2.3.1.1 Einsatz von Big Data in der Wirtschaft
6
Theoretische_Grundlagen_von_Big_Data
Bereich der Epedemieforschung im Zusammenhang mit Big Data lässt sich als Beispiel das Projekt ?Google Flu
Trends? anführen. Hierbei versucht Google anhand der Häufigkeit von bestimmten Suchbegriffen die Anzahl an
Grippefällen in einer bestimmten Region abzuschätzen.[16]
2.3.1.3 Big Data in Medizin
Die zunehmende Digitalisierung aller Bereiche wirkt sich auch auf das Gesundheitswesen aus. In medizinischen
Praxen und Krankhäusern nimmt der Einsatz von elektronisch gestützten Untersuchungsverfahren wie die
Anfertigung von Ultraschallbildern oder der Einsatz von Computertomographie immer weiter zu. Allerdings
stehen diese Informationen nur eingeschränkt anderen Ärzten oder Kliniken zur Verfügung, da es aktuell keine
institutionsübergreifenden Standards gibt, die einen solchen Informationsaustausch ermöglichen.[17] Eine
übergreifende Datenverwaltung von Patienteninformationen die in einer elektronischen Gesundheitsakte (EGA)
sowohl von Ärzten und Kliniken, als auch von den Patienten selbst gepflegt werden kann, könnte zum einen den
bürokratischen Verwaltungsaufwand einzelner Patientenakten und den Austausch solcher zwischen einzelnen
Kliniken maßgeblich verringern.[18] Zum anderen eröffnen die steigende Benutzung von Fitness-Trackern
(Wearable devices) sowie Smartphoneapps wie z.B. Runtastic mit einer weltweiten Downloadzahl von über 70
Millionen[19] in der Bevölkerung neue Möglichkeiten Gesundheitsdaten zu erfassen und auszuwerten. Auf
Grundlage dieser zusätzlichen Daten können neue medizinische Erkenntnisse gewonnen werden, die dazu
beitragen Patienten eine bessere, individuellere medizinische Versorgung und Beratung anzubieten.
2.3.1.4 Weitere Einsatzgebiete von Big Data
Neben den wirtschaftlichen, wissenschaftlichen oder medizinischen Potenzialen, die Big Data bietet, kommen
auch noch viele weitere Sektoren in Frage, die vom Einsatz von Big Data profitieren können. Dazu gehören allen
voran die Finanzwirtschaft, der Handel allgemein, die Marketing-, Tourismus-, Logistik. und die
Automobilbranche. Diese Thematiken werden in separaten Fallstudien des Sommersemesters 2015 innerhalb des
winfwiki-Systems der Fachhochschule für Oekonomie und Management (FOM) behandelt und erörtert.[20]
2.3.1.5 Zusammenfassung
Die Möglichkeiten die sich durch den Einsatz von Big Data und Big Data Technologien erschließen sind
vielfältig. Im Kern lassen sich die Hauptvorteile beim Einsatz von Big Data in drei wesentlichen Punkten
zusammenfassen, der allen Bereichen gemein ist:
1. Schaffung neuer Erkenntnisse aus bestehenden Daten
2. Steigerung von Produktivität und Innovationsfähigkeit
3. Reduzierung von Kosten bzgl. Informationsverarbeitung und Informationsaustausch
2.3.2 Herausforderungen
Neben den Chancen, die der Einsatz von Big Data Unternehmen, Institutionen und der Gesellschaft bietet, müssen
diese auch mit der Vielzahl an Informationen umgehen können um aus den vorhandenen Daten einen Nutzen
ziehen zu können. Bei Betrachtung und Analyse der vorhandenen Datenmassen gilt es eine Vielzahl an
Hindernissen zu überwinden und Fragestellungen zu klären, sodass aus gesetzlichen, privaten oder ethischen
Gründen keine negativen Auswirkungen von Big Data befürchtet werden müssen.
2.3.1.2 Big Data in der Wissenschaft
7
Theoretische_Grundlagen_von_Big_Data
2.3.2.1 Herausforderungen für Wirtschaft und Institutionen
Aufgrund der Eigenschaften von Big Data (s. Kapitel 2.2) und der Schnelllebigkeit der Aktualität der Daten ist es
für Unternehmen und Institutionen erforderlich eine geeignete Big Data Strategie zu entwerfen und zu verfolgen.
Hierdurch ?[?] legen Unternehmen das Fundament, bevorstehende Veränderungen frühzeitig zu erkennen und
sich dafür optimal aufzustellen.?[21]
Dazu gehört auch, dass aus einer Vielzahl von Hard-und Softwareanbietern ausgewählt werden muss (s. Kapitel
4), um die notwendigen technischen Voraussetzungen zu schaffen. Darüber hinaus werden Spezialisten benötigt,
die in der Lage sind mit der Masse an unterschiedlichen Daten umzugehen und für das Business die geeigneten
Fragestellungen zu entwerfen um einen möglichst großen Nutzen aus den vorhandenen Daten zu ziehen um das
Unternehmen optimal zu beraten und zu unterstützen. IBM bezeichnet diese Spezialisten als ?Data Scientist?[22].
Als eine der größten Herausforderungen für den Einsatz von Big Data Lösungen wird aktuell das fehlende
Knowhow in diesem Geschäftsbereich angeführt.[23] Außerdem können bei Einführung von Big Data Lösungen
hohe, initiale Beratungs- und Systemintegrationskosten entstehen, die viele kleinere mittelständische
Unternehmen (KMU) vor einer Einführung von Big Data Lösungen zögern lassen. Die folgende Abbildung zeigt
nach BITKOM ?[?] die gesamten Anschaffungskosten einer Lösung, inklusive Hardware, Software, Installation
und Wartung für das erste Jahr, pro Terrabyte (TB) an Daten.?[24]
Abb.4 Gesamte Anschaffungskosten einer Big Data Lösung[25]
Wie in Abbildung 4 zu erkennen, können je nach gewähltem Verfahren Kosten in unterschiedlichen
Größenordnungen zwischen 100 und 180.000 US$ entstehen. Dabei zielen die hochpreisigen Lösungen vor allem
auf In-Memory Verfahren mit umfassenden Datenverarbeitungsmöglichkeiten ab, während günstigere Lösungen
auf die Datenspeicherung setzen.
2.3.3 Recht/Sicherheit
Beim Umgang mit großen Datenmengen gibt es gewisse Spielregeln an die sich die Anbieter und Verwender von
Big Data Lösungen halten müssen. Damit sind in erster Linie gesetzliche Anforderungen gemeint, die
insbesondere die Datenverarbeitung von und den Zugang zu personenbezogenen Daten umfassen.
2.3.2.1 Herausforderungen für Wirtschaft und Institutionen
8
Theoretische_Grundlagen_von_Big_Data
2.3.3.1 Datenschutz
Datenschutz und Big Data sind ein schwieriges Thema. Aufgrund der schieren Masse an unterschiedlichen
Informationen ist es insbesondere für amerikanische Internetunternehmen wie Google und Facebook ein leichtes,
die vorhandenen Nutzerdaten zu verknüpfen und zu analysieren. Die vermeintlich kostenlosen, angebotenen
Dienste bezahlt jeder einzelne Nutzer jedoch mit der Preisgabe seiner Daten, die es den Unternehmen
ermöglichen ein detailliertes Nutzerprofil zu erstellen und für eigene Geschäftspraktiken (wie z.B. personalisierte
Werbung durch z.B. Google Ads) zu verwenden.
Deutschland hat eines der restriktivsten Datenschutzgesetze der Welt. Entsprechend ergeben sich hierdurch einige
Fragestellungen, die es für Unternehmen hierzulande schwierig macht mit dem Thema Big Data umzugehen. In
anderen Ländern wie den USA ist die Gesetzgebung zum Thema Datenverarbeitung weit weniger streng, wodurch
dort weitreichende Analysen auf Grundlage personenbezogener Daten und die Entwicklung neuer
Verfahrensweisen zur Datenanalyse wesentlich vereinfacht wird. In Deutschland kann Big Data nur dann
gewinnbringend eingesetzt werden, wenn die Analyseverfahren mit dem deutschen Datenschutzrecht zu
vereinbaren sind.[21]
Nach dem Bundesdatenschutzgesetz (BDSG) wird zur Erhebung, Verarbeitung und Nutzung personenbezogener
Daten die ausdrückliche Zustimmung der Betroffenen benötigt. Darüber hinaus sind diese Daten zweckgebunden,
d.h. die erhobenen Daten dürfen nur in dem Kontext verwendet und verarbeitet werden, für den sie erhoben
worden sind.[26] Allerdings kommt es immer auch auf das zugrundeliegende Vertragsverhältnis zwischen
Konsumenten und Unternehmen an für das es Sonderregelungen innerhalb des BDSG gibt. Damit z.B.
Kreditunternehmen und Zahlungsdienstleister Missbrauch und Betrugsversuche erkennen und vorbeugen können,
müssen die Transaktionsdaten der Kunden überwacht und analysiert werden um ungewöhnliche
Zahlungstransaktionen zu entdecken (Fraud Detection). Dies ist mit dem BDSG vereinbar, da das Unternehmen
durch diese Verfahrensweise seinen vertraglichen Verpflichtungen nachkommt. Genauso können Big Data
Analysen dazu genutzt werden, die Bewertung der Kreditwürdigkeit eines potentiellen Kunden zu berechnen.
Hierbei können verschiedene Aspekte wie Alter, Beruf, Einkommen usw. betrachtet werden. Theoretisch könnte
das komplette Verhalten des potentiellen Kunden ausgewertet werden, um so das persönliche Kredit-Scoring zu
berechnen.[27] Laut dem BDSG dürfte hierbei nur nicht auf sensible Daten wie der bisherigen
Gesundheitsgeschichte, der Ethnie oder der Staatsangehörigkeit zurückgegriffen werden.[28] In der
Versicherungsbranche werden ebenfalls auf verschiedene Statistiken zurückgegriffen um individuelle
Risikoprofile zu erstellen, auf deren Grundlage sich die Versicherungssumme berechnet (z.B. bei Einteilung der
Schadensfreiheitsklasse oder bei ?pay as you drive?-Modellen in der Kfz-Versicherung).[27] Sollen
personenbezogene Daten an Dritte weitergegeben werden, spielt die Anonymisierung der Daten eine besondere
Rolle. Dabei müssen alle Informationen entfernt oder pseudonymisiert werden, sodass keine Rückschlüsse mehr
auf die eigentliche natürliche Person möglich sind.[29] Dabei muss die Pseudo- und Anonymisierung so weit wie
möglich durchgeführt werden, da es aufgrund der Vielzahl an unterschiedlichen Daten und Datenquellen durch
Kombination dieser Daten und effektiven Analyseverfahren möglich ist, Rückschlüsse auf persönliche Details
eines Einzelnen in Erfahrung zu bringen.
2.3.3.2 Privatsphäre
Durch die Möglichkeiten von Big Data Daten aus jeder beliebigen Quelle auszuwerten, kann in der Gesellschaft
der Eindruck entstehen, dass jeder Einzelne ständig von Firmen oder der Regierung beobachtet wird.
Insbesondere die Auswertung von Informationen, die in sozialen Medien gepflegt werden oder aber auch die reine
Beobachtung des Einkaufverhaltens, lassen sehr genaue Rückschlüsse auf den Charakter, Gewohnheiten,
Bedürfnisse und Interessen eines Nutzers schließen. Diese Einsichten können von Firmen dazu genutzt werden
hochgradig personalisierte Werbung für einen Kunden zu produzieren, um so vermeintliche neue Kaufanreize zu
schaffen. Ein in diesem Zusammenhang oft genanntes Beispiel ist der US Einzelhändler Target. Charles Duhigg,
ein Autor der New York Times, hat einen Einblick in die Data-Mining Prozesse des Unternehmens gewinnen
können. Über jeden Kunden werden so viele Informationen wie möglich gespeichert und herangezogen, dass es
2.3.3.1 Datenschutz
9
Theoretische_Grundlagen_von_Big_Data
dem Unternehmen schließlich ermöglicht, mit einer Wahrscheinlichkeit von 87 Prozent zu bestimmen, ob eine
Kundin schwanger ist und wann sie auf den Monat genau ihr Kind erwartet. Die personalisierte Werbung wurde
so perfekt, dass sich viele Leute begannen unwohl damit zu fühlen und begannen die Systematik der
Kundenansprache des Unternehmens zu hinterfragen. Dies führte so weit, dass Target nun absichtlich weniger
perfekte Werbung macht, damit die Kunden nicht weiter misstrauisch werden.[30][31] In diesem drastischen Fall
wird deutlich wie schnell die Kundenbindung aufgrund von personalisierter Werbung Schaden nehmen kann.
Solche Vorfälle sind oftmals der Anlass für öffentliche Diskussionen darüber, in wie weit Unternehmen
personenbezogene Daten zu für eigene Marketingzwecke verwenden sollten und dürfen. Dabei ist es notwendig
zwischen dem Nutzen für den Betroffenen und dem Nutzen für Unternehmen zu differenzieren und ein
Gleichgewicht zu finden, damit auf der einen Seite die persönlichen Informationen des Kunden nicht ausgebeutet
werden und auf der anderen Seite die Unternehmen gewinnbringend mit diesen Daten arbeiten können. Um also
Datenmissbrauch verhindern zu können, sollte sichergestellt werden, dass die Betroffenen zu jeder Zeit Zugriff
auf und Kontrolle über ihre eigenen Daten erhalten.
2.3.3.3 Datenrisiken
Natürlich können personenbezogene Daten nicht nur im Sinne von Auswertungen, mit dem Ziel Menschen zu
überwachen und zu manipulieren, missbraucht werden. Bei der Speicherung und Verarbeitung von Daten, muss
auch immer die Frage gestellt werden, wer Einblick in diese Daten erhalten darf und wer auf diese Daten
zugreifen kann. Nur ein eingeschränkter Kreis von autorisierten Systemadministratoren sollten direkten Zugriff
auf die gesammelten Rohdaten haben. Andernfalls könnten diese sensiblen Daten zielgerichtet manipuliert
werden, um so z.B. geschäftliche Analysen zu erschweren oder komplett zu verfälschen.[32] Eine andere
Möglichkeit wäre ein gezielter Datendiebstahl bei dem große Mengen an sensiblen Daten, wie Adress-, Passwort
oder Finanzdaten entwendet werden. Dabei kann ein solcher Diebstahl nicht nur von intern sondern auch von
extern durch gezielte Hackerangriffe erfolgen. Der massivste Hackerangriff der letzten Jahre traf die US Bank JP
Morgan, bei dem rund 83 Millionen Datensätze von Kunden der Bank entwendet wurden.[33] Dieses Beispiel
zeigt, welch große Herausforderung das Thema Datensicherheit für die Unternehmen ist. Datendiebstähle in
solchen Größenordnungen können das Vertrauensverhältnis der Kunden oder Geschäftspartner zum Unternehmen
massiv schädigen, sodass diese die Zusammenarbeit sogar ganz einstellen können. Die große Herausforderung
hier besteht also darin, sicherzustellen das insbesondere die personenbezogenen Daten sowohl von intern als auch
von extern bestmöglich durch Missbrauch geschützt werden müssen.
2.3.4 Meinungstrends
Das Thema Big Data ist ein unaufhaltbarer Trend in allen Bereichen der immer weiter an Bedeutung gewinnt. Um
in Zukunft bestens auf diese Thematik vorbereitet zu sein, müssen Unternehmen schon heute reagieren, um später
auch weiterhin wettbewerbsfähig zu bleiben. Laut einer Prognose von Wikibon aus dem Jahr 2014 zum
weltweiten Umsatz mit Big Data Lösungen basierend auf Erhebungen zwischen 2011 bis 2013 steigt der Umsatz
der Anbieter kontinuierlich an, (bis im Jahr 2017 bereits mehr als 50 Mrd. US$, s. Abb. 5)[34]. Dies zeigt, dass
viele Unternehmen bereits den potenziellen Wert hinter Big Data erkannt haben.
2.3.3.2 Privatsphäre
10
Theoretische_Grundlagen_von_Big_Data
Abb.5 Prognose zum Umsatz mit Big-Data-Lösungen weltweit von 2011 bis 2017 (in Milliarden US-Dollar)[34]
Der Umsatz, der mit Big Data Lösungen allein in Deutschland gemacht wird, steigt laut einer Prognose der
BITKOM ebenfalls jedes Jahr im Schnitt um ca. 53 Prozent an (s. Abb. 6)[35].
Abb.6 Umsatz mit Big-Data-Lösungen in Deutschland von 2013 bis 2016 (in Milliarden Euro)[35]
Setzt man die vorherigen beiden Prognosen zueinander in Beziehung, lässt sich eine interessante Entwicklung
feststellen: Zwar steigt der weltweite Umsatz an Big Data Lösungen jedes Jahr im Schnitt um 28,5 Mrd. US$ an,
über die Jahre hinweg sinkt das Umsatzwachstum hingegen auf knapp achtzehn Prozent (2016 vgl. Tabelle 1).
Dabei nimmt der Anteil des Umsatzes der in Deutschland gemacht wird, am weltweiten Wachstum über die Jahre
immer zu. Überhaupt liegt das Umsatzwachstum innerhalb Deutschlands weit über dem weltweiten Wachstum.
Dies kann als ein Indiz dafür gesehen werden, dass die deutschen Unternehmen die Potenziale von Big Data
erkannt haben und sich entsprechend für den zukünftigen Markt entsprechend aufstellen.
Anteil BRD
Jahr
am weltweiten
Wachstum
2011
7,3
n/a
n/a
n/a
n/a
2012
11,8
61,64%
2,5
n/a
21,19%
2013
18,6
57,63%
3.90
56,00%
20,97%
2014
28,5
53,23%
6,20
58,97%
21,75%
2015
38,4
34,74%
9,40
51,61%
24,48%
2016
45,3
17,97%
13,60
44,68%
30,02%
2017
50,10
10,60%
n/a
n/a
n/a
Durchschnitt 28,57
39,30%
7,12
52,82%
23,68%
Dabei sehen deutsche Unternehmen laut einer Umfrage von IDC den größten Business-Nutzen vor allem in den
Geschäftsbereichen Controlling (35%), Finanzplanung und Budgetierung (28%) und Preisoptimierung (23%) vgl.
Abb. 7.[36]
Umsatz Welt in
Mrd. US$
2.3.4 Meinungstrends
Wachstum zum
Vorjahr Welt
Umsatz BRD in Wachstum zum
Mrd. ?
Vorjahr in BRD
11
Theoretische_Grundlagen_von_Big_Data
Abb.7 Umfrage zum Nutzen von Big Data für verschiedene Geschäftsbereiche 2012[36]
3 Theoretische Basis
Dieses Kapitel wird auf die theoretische Basis von Big Data eingehen. Hierbei wird zuerst beschrieben, durch
welche Datenquellen die teils sehr großen Datenmengen zustande kommen. Daraufhin werden einige Modelle
beschrieben, welche im Bereich Big Data Anwendung finden, um große Datenmengen auszuwerten. Im letzten
Bereich wird auf beispielhafte Verfahren eingegangen, die von den Datenquellen bezogenen Daten zu
analysieren.
3.1 Datenquellen
Eine Studie des IBM Institute for Business Value in Zusammenarbeit mit der Sa?d Business School im Jahr 2012
über die Bedeutung und den Stand der Umsetzung von bzw. des Nutzengewinns durch Big Data, in der mehr als
1100 Fach und IT-Verantwortliche aus 95 verschiedenen Ländern befragt wurden, ergab, dass die meisten Firmen
Ihre Big Data Systeme bislang hauptsächlich auf betriebsinterne Daten stützen. Hierzu zählen neben E-Mails,
Protokoll- und Transaktionsdaten und Daten aus Enterprise Resource Planning-Lösungen auch Logdaten. Dies
sind Daten, die Maschinen und IT-Systeme erfassen, um verantwortlichen Personen einen detaillierten Einblick in
das automatisierte Geschehen zu gewähren. Weiterhin müssen auch Daten, welche durch andere betriebseigene
Programme, wie beispielsweise einer Einkaufsanwendung oder einer möglichen unternehmenseigenen
Kollaborationsplattform, sowie Bewerberdaten etc. genannt werden[37].
Jedoch wird auch beschrieben, dass in einigen Firmen sogar die Auswertung der internen Daten, bedingt durch
das extrem hohe Volumen an Daten, nur begrenzt möglich ist und dementsprechend noch viele Daten ungenutzt
bleiben, welche noch einen großen Mehrwert bieten können. Daher besteht das Bestreben in den Firmen, zuerst
das volle Potenzial dieser Daten auszunutzen, um daraufhin die ausgewerteten internen Daten um Informationen
aus externen Datenquellen zu erweitern[37].
In einer durch die Hochschule für angewandte Wissenschaften Hamburg im Jahre 2014 veröffentlichte
Master-Arbeit wird vor Allem auf externe Datenquellen eingegangen. Der Autor beschreibt hier, dass
Smartphones eine Quelle für eine Vielzahl verschiedener Daten, wie beispielsweise Mobilitätsdaten oder
Informationen zum allgemeinen Nutzerverhalten darstellen. Darüber hinaus wird dargestellt, dass Firmen durch
das Anbieten einer App für Smartphones weitere Daten generieren können, was sowohl komplett transparent für
den Nutzer geschehen kann, wie auch freiwillig durch diesen eingeleitet werden kann[38]. Weiterhin wird auf
soziale Medien als sehr umfangreiche Quelle für Big Data eingegangen, wobei der Gewinn nicht nur aus den
eigentlichen Informationen, die der Nutzer über sich preisgibt, sondern auch aus Zeitdaten und Geodaten, welche
Rückschlüsse auf die räumlichen und zeitlichen Gegebenheiten die mit den Informationen verbunden sind,
zulassen[38]. Zu den soziale Medien müssen allerdings nicht nur soziale Netzwerke, wie beispielsweise Facebook
oder Twitter gezählt werden, sondern auch Weblogs, Microblogs, Wikis, Chats, RSS-Feeds (Real Simple
3 Theoretische Basis
12
Theoretische_Grundlagen_von_Big_Data
Syndication) etc[39].
Zudem stellen auch Sensordaten eine reichhaltige Informationsquelle dar[38]. Dies sind Daten, welche zum
Beispiel durch in einem Fahrzeug verbaute elektrische Komponenten erzeugte Informationen sind, die
verschiedenste mit dem Fahrzeug verbundene Zustände, wie dem Reifendruck oder dem aktuellen
Benzinverbrauch beinhalten. Eine weitere firmenexterne Datenquelle stellen durch Fremdfirmen durchgeführte
Umfragen und Forschungen sowie wissenschaftliche Datenbanken (Springer etc.) dar.
Als wichtiger Punkt bei der Auswahl der Datenquellen für ein Unternehmen gilt die Verlässlichkeit der Daten.
Vor Allem Soziale Medien als Datenquelle sind vergleichsweise unzuverlässig, da nicht jede Bevölkerungsgruppe
oder Altersgruppe an sozialen Medien teilnimmt und somit kein repräsentativer Schnitt durch die Bevölkerung
erreicht werden kann[38].
3.2 Modelle
Die im folgenden Kapitel beschriebenen Modelle, sind exemplarische Darstellungen von theoretischen
Möglichkeiten der Datenauswertung, welche im Bereich Big Data Anwendung finden. Die ausgewählten dienen
ausschließlich der Veranschaulichung und sollen nicht den Charakter einer bewertenden Rangliste von Modellen
haben.
3.2.1 Data Warehouse
Ein Data Warehouse ist ein System, dessen Aufgabe es ist, Anwendungen, die vom Management verwendet
werden mit den benötigten Daten zu versorgen und somit strategische Entscheidungen zu unterstützen[40]. Es
sollte separat zu den bestehenden produktiv genutzten Systemen aufgebaut und betrieben werden[41] und wird zu
Analyse-Zwecken betrieben. Ein weiteres Ziel, neben der Unterstützung des Managements, stellt der Aufbau
eines Wissensmanagements dar[42]. Generell gesagt beinhaltet ein Data Warehouse also Daten, die der
Problemanalyse dienen. Daher stellt ein Data Warehouse die Datenquelle für verschiedenste analytische Modelle,
wie dem Data Mining (siehe Kapitel 3.3.1) dar.
Die zentrale Komponente eines Data Warehouse ist eine Datenbank[43]. Sie beherbergt Kopien von Daten, die in
regelmäßigen Abständen zeitgesteuert und automatisiert aus den Datenbanken der Produktivsysteme importiert
werden[42]. Hierbei besteht die Herausforderung, dass die produktiven Systeme durch diesen Vorgang nicht
beeinflusst werden sollen. Daher wird der Zeitplan üblicherweise so gestaltet, dass dieser Prozess in
belastungsarmen Zeiträumen (Beispielsweise nachts oder an Wochenenden) stattfindet[43].
Auf die Datenbank besteht für den Endanwender in den meisten Fällen ausschließlich lesender Zugriff[42], da die
Daten, die in ihr gespeichert sind, wie bereits erwähnt, Duplikate der Daten von Produktivsystemen sind und als
solche unveränderlich sein sollten. Weiterhin wird gewöhnlich auf Normalisierung der Daten in der Datenbank
des Data Warehouses verzichtet, um eine Beschleunigung des Analyseprozesses zu erreichen[43].
Die Datenbanken bestehen oft aus Fakten- und Dimensionstabellen. Die Faktentabellen beinhalten die
eigentlichen Messgrößen, während die Dimensionstabellen weitere, diesen zugeordnete Merkmale enthält. Die
Dimensionstabellen sind häufig im Snowflake-Schema weiter verschachtelt, was ebenfalls Performance-Vorteile
birgt[43].
Da das komplette Data Warehouse für die einzelnen Anwendungsfälle oftmals viel zu komplex ist, werden häufig
eigens hierfür erstellte kleine Teilbereiche des kompletten Data Warehouses, sogenannte Data Marts, definiert,
3.1 Datenquellen
13
Theoretische_Grundlagen_von_Big_Data
welche Ihre Daten beispielsweise per OLAP-Verfahren (Online Analytical Processing - genaueres siehe Kapitel
3.3.3) abrufen[43].
3.2.2 Cube
Im Microsoft TechNet, einem Online-Dienst, der Herstellerinformationen zu Microsoft-Produkten bereitstellt,
wird der Cube als die bekannteste und meistgenutzte Form von OLAP (siehe Kapitel 3.3.3) beschrieben, welche
ihre Daten zumeist aus dem firmeninternen Data Warehouse (siehe Kapitel 3.2.1) bezieht. Es handelt sich hierbei
um eine schnelle und einfache Art der Datenauswertung, die nichtdestotrotz ein sehr umfangreiches und
mächtiges Werkzeug für Controlling-Einheiten und das Management eines Unternehmens darstellen kann[44].
Ein Cube ist eine Zusammensetzung aus Dimensionen und Maßstäben. Die Dimensionen beinhalten Daten zu
dem Merkmal, welches ausgewertet werden soll, die Maßstäbe sind die den Dimensionen zugeordneten
Kennzahlen.[44]. Theoretisch ist eine unbegrenzte Anzahl an Dimensionen abbildbar[45], eventuelle
Einschränkungen sind abhängig vom jeweiligen Hersteller (Limitierung des Microsoft SQL Server: 128
Dimensionen)[44]. Die Applikation, die der Endanwender ausführt, setzt sich auf Grundlage der
Benutzerinteraktion eine Abfrage zusammen. Sobald der Datenbankserver hierauf ein Ergebnis geliefert hat, baut
die Applikation eine Ansicht des Cubes auf. Dies hat den Vorteil, dass der Endanwender keine
Datenbankabfragen selber schreiben muss und somit keine Kenntnisse über die Syntax der
Datenbank-Abfragesprache benötigt[44].
Die möglichen Datenquellen eines Cubes sind zum einen, wie bereits eingangs erwähnt, das firmeninterne Data
Warehouse (siehe Kapitel 3.2.1), sowie andererseits eine möglicherweise vorher zu diesen Reporting-Zwecken
erstellte Datenbank. Weiterhin kommen vom Server anhand vorabberechnete Daten (Aggregationen), der Cache
des Endgeräts, mit dem der Endanwender arbeitet oder eine Mischung aus all diesen Quellen dazu[44].
Ein Server kann mehrere Cubes bereitstellen, sodass beispielsweise die Abteilungen eines Unternehmens jeweils
einen eigenen Cube nutzen können. Dies bietet den Vorteil, dass die generierbaren Daten möglichst individuell
auf die Bedürfnisse des Anwenders zugeschnitten werden können, ohne die Bedürfnisse anderer Anwender zu
vernachlässigen[44]. Dies bedeutet, dass Beispielsweise ein Unternehmen, welches mehrere Tochtergesellschaften
hat, welche wiederum untergeordnete Verwaltungseinheiten betreut, denen eine Vielzahl an Verkaufsstandorten
zugeordnet sind, diese komplexe Struktur innerhalb einer Dimension des Cubes darstellen kann. Der
Endanwender kann hier diese Struktur beliebig weit aufbrechen, sodass er ? je nach Komplexität der zugrunde
liegenden Daten - sich beispielsweise sowohl die gesamten Umsätze einer Tochtergesellschaft des Jahres als auch
die Umsatzzahlen eines einzelnen Verkaufsstandortes für einen bestimmten Tag für einen Artikel anzeigen lassen
kann. Hierzu müssen nur durch den Endanwender in der Applikation die Dimensionen entsprechend weit
aufgebrochen werden. Das grundlegende Vorgehen hierbei ist, dass der Server, der den Cube bereitstellt, während
der Berechnung die Daten der untergeordneten Elemente in den übergeordneten Elementen aggregiert bzw.
summiert[44]. ?
3.2.1 Data Warehouse
14
Theoretische_Grundlagen_von_Big_Data
Abb.8 Beipielhafter Aufbau eines Cubes[46]
Jede Dimension eines Cubes kann hierarchisch unterteilt werden[45]. Dies bedeutet, dass beispielsweise ein
Unternehmen, welches mehrere Tochtergesellschaften hat, welche wiederum untergeordnete
Verwaltungseinheiten betreut, denen eine Vielzahl an Verkaufsstandorten zugeordnet sind, diese komplexe
Struktur innerhalb einer Dimension des Cubes darstellen kann. Der Endanwender kann hier diese Struktur
beliebig weit aufbrechen, sodass er ? je nach Komplexität der zugrunde liegenden Daten - sich beispielsweise
sowohl die gesamten Umsätze einer Tochtergesellschaft des Jahres als auch die Umsatzzahlen eines einzelnen
Verkaufsstandortes für einen bestimmten Tag für einen Artikel anzeigen lassen kann. Hierzu müssen nur durch
den Endanwender in der Applikation die Dimensionen entsprechend weit aufgebrochen werden. Das
grundlegende Vorgehen hierbei ist, dass der Server, der den Cube bereitstellt, während der Berechnung die Daten
der untergeordneten Elemente in den übergeordneten Elementen aggregiert bzw. summiert[44].
Abbildung 8 verdeutlicht das im letzten Abschnitt beschriebene Prinzip des ?Drilldown?, also dem hierarchischen
Darstellung der Dimensionen. Der abgebildete Cube besteht aus drei Dimensionen (Source, Route und Time), in
welchen er zwei Maßstäbe angibt (Die Anzahl an Paketen und wann das letzte Paket in diesem Knotenpunkt
bezogen wurde).
Dies macht den Cube zu einem sehr mächtigen Analysewerkzeug, da der Anwender sowohl einen generellen
Überblick über viele Datenelemente als auch einen präzisen Einblick in einzelne Datenelemente haben kann[44].
Der Cube ist sehr gut geeignet für die Analyse von Zahlendaten, Textdaten oder ähnliche weniger strukturierte
Daten ist der Cube weniger geeignet[45].
3.2.3 MapReduce
MapReduce ist ein Programmiermodell, welches zur Auswertung großer Datenmengen eingesetzt wird. Der
grundsätzliche Ansatz ist hierbei, ein Cluster aus vielen Rechnern aufzubauen, wodurch zur Abarbeitung von
Rechenprozessen statt auf serielle Abarbeitung aller anfallenden Berechnungen auf einen parallelisierten Ansatz
zurückgegriffen wird. Das häufigste Vorgehen beruht auf dem Ansatz, günstige Commodity-Hardware in großer
Stückzahl einzusetzen[47].?
3.2.2 Cube
15
Theoretische_Grundlagen_von_Big_Data
Abb.9 Datenflussschema von MapReduce[48]
Das grobe Vorgehen hierbei lässt sich in drei Teilschritte unterteilen. Zuerst werden für den sogenannten Map
Task die teilweise mehrere Terabyte großen, der Auswertung zugrunde liegenden Daten in kleine Teilbereiche
unterteilt (bspw. einzelne Dateien, sofern der Datenbestand aus vielen einzelnen Dateien besteht). Diese werden
dann an einen Knoten im Cluster verteilt, auf welchem die Datensätze, welche oftmals in keiner logischen
Struktur organisiert sind, zu Tupeln, also Schlüssel-Wert-Paaren, konvertiert. Es erfolgt hier allerdings noch keine
Aggregation der Daten[49].
Hieraufhin werden die Daten im sog. Shuffle Task an zentraler Stelle sortiert und somit für den Reduce-Task
vorbereitet[49].
Beim Reduce Task werden die hierbei entstandenen Tupel dann zusammengefasst, um sie für die Datenanalyse
vorzubereiten[49].
Abbildung 9 ist eine schematische Zeichnung, welche diesen Prozess verdeutlicht.
Ein MapReduce-Framework besteht normalerweise aus einem Master JobTracker und einem Slave TaskTracker
pro Clusterknoten. Die Aufgabe des Master JobTracker ist es, die Ausführung der Aufgaben zu planen und zu
überwachen sowie fehlgeschlagene Berechnungen erneut ausführen zu lassen. Der Slave TaskTracker ist dafür
verantwortlich, die Aufgaben sowie die dazu gehörenden Daten an die einzelnen Slaves, welche die
schlussendliche Berechnung übernehmen, weiterzuleiten[47].
Die Daten werden hierbei in einem sog. ?distributed file system? auf allen Clusterknoten verteilt gespeichert[47],
wobei die Dateien redundant vorgehalten werden, sodass der Ausfall eines einzelnen Clusterknotens unbedenklich
ist und die Daten weiterhin konsistent bleiben[50]. Ein Beispiel hierfür ist HDFS (Hadoop Distributed File
System).
Durch den Einsatz von MapReduce wird nicht nur eine signifikante Beschleunigung des Prozesses der
Datenanalyse verglichen zu den herkömmlichen Methoden erreicht, sondern auch eine Ausfallsicherheit
geschaffen, da ein solches Cluster normalerweise aus mehreren Tausend Knoten besteht, sodass der Ausfall eines
einzelnen Knotens nicht mit erheblichen Performance-Einbußen oder Datenverlust einhergehen muss[47].Hieraus
folgt, dass eine gewisse Form von Load-Balancing betrieben wird, welche allerdings relativ statisch ist. Weiterhin
ist ein MapReduce-Framework stark skalierbar (scale-out)[49] und durch den Einsatz von nicht spezialisierter
Commodity-Hardware ist eine Kosteneinsparung im Vergleich zum Einsatz weniger teurer High-End-Server zu
erwähnen.
3.2.3 MapReduce
16
Theoretische_Grundlagen_von_Big_Data
3.3 Analyse
In den nachfolgenden Kapiteln wird auf einige beispielhafte Analyseverfahren eingegangen, die in der Lage sind,
die extrem großen Datenmengen, die im Bereich Big Data anfallen können auszuwerten.
Die Kapitel erheben keinen Anspruch auf Vollständigkeit im thematischen Kontext, sodass die Punkte auf die
eingegangen wird ausschließlich als Beispiele gesehen werden dürfen, nicht jedoch als ausschließliche
Möglichkeiten bzw. Alleinstellungsmerkmale.
3.3.1 Data Mining
Nicolas Bissantz und Jürgen Hagedorn beschreiben in Ihrem Artikel ?Data Mining (Datenmustererkennung)?
Data Mining als ?die Extraktion implizit vorhandenen, nicht trivialen und nützlichen Wissens aus großen,
dynamischen, relativ komplex strukturierten Datenbeständen?[51].
Hieraus lässt sich ableiten, dass Data Mining eine Methode zum Wissensgewinn darstellt, deren Datenbasis durch
sehr schnelle Veränderungen und große Datenmengen gekennzeichnet ist. Darüber hinaus ist die Datenstruktur
hierbei meist derart komplex, dass eine Auswertung der Daten mit konventionellen Methoden nur mit extrem
großem Aufwand durch Personen mit sehr großem Fachwissen möglich ist. Weiterhin ist das Wissen, das aus den
Daten gewonnen wird, nicht offensichtlich, das heißt es kann nicht direkt aus den Daten abgeleitet werden.
Beim Data Mining wird nach Mustern in den Daten, also Beziehungen zwischen Datensätzen gesucht, um diese in
Regeln zu transformieren und hierfür repräsentative Datensätze, welche als Beispiele für die Regel angeführt
werden, zu finden[51]. Gemeinhin wird beim Data Mining der Ansatz verfolgt, dieses Verfahren möglichst
automatisiert zu gestalten[52].
Dies stellt den Datenanalysten vor einige Herausforderungen, welche einerseits technischer Natur, andererseits
auf die Daten und die Person, welche die Auswertungen durchführt, also den Datenanalysten bezogen sind[51].
Zu den technischen Herausforderungen zählt laut den Autoren des Artikels Data Mining (Datenmustererkennung),
dass die Bearbeitungszeiten durch zu komplexe Abfragen oder zu großes Datenvolumen sehr stark ansteigen
können und dass die Ergebnisse durch fehlerhaften oder unvollständigen Datenbestand verfälscht werden können,
was man einerseits durch Eingrenzung der auszuwertenden Daten und andererseits durch Präventionsmaßnahmen,
wie dem vorigen Bereinigen des Datenbestandes, oder Plausibilitätsprüfungen zu verhindern versucht. Jedoch ist
zu erwähnen, dass gerade die Bearbeitungszeiten durch die technische Weiterentwicklungen, wie schnelleren
Prozessoren und Ansätzen zur Parallelisierung der Rechenvorgänge (beispielsweise MapReduce ? siehe Kapitel
3.2.3) stark verkürzt werden und somit ein immer kleineres Problem darstellen[51].
Eine weitere Herausforderung in Bezug auf das Data Mining ist, dass für die Auswertung der generierten Daten
ein gewisses Maß an Fachwissen aus dem Bereich bei der auswertenden Person vorhanden sein muss. Denn
einerseits ist es unerlässlich, dass die Person die generierten Daten versteht, andererseits kann die Person durch
das Fachwissen voreingenommen sein. Weiterhin muss alleine, um das System zu implementieren, zu einem
gewissen Anteil Fachwissen in den Analyseprozess einfließen. Dies kann diesen so beeinflussen, dass eher schon
bekannte Muster in den Daten als Output generiert werden und neue bislang ungeahnte Muster ignoriert
werden[51].
Der letzte Problembereich bezieht sich auf die generierten Daten selbst. Einerseits ist die Sicherheit der Daten
unerlässlich, um die Daten für unternehmerische Entscheidungsprozesse verwenden zu können, andererseits sind
beim Data Mining vor Allem die Aussagen interessant bzw. von großem Mehrwert, welche stark von den
bisherigen Erkenntnissen abweichen[52]. Insbesondere fehlerhafte oder unvollständige Daten, aber auch eine zu
3.3 Analyse
17
Theoretische_Grundlagen_von_Big_Data
klein gewählte Datenbasis kann negative Auswirkungen auf die Repräsentativität der Daten haben und diese
somit unbrauchbar machen, sich jedoch so stark von den bisherigen Daten unterscheiden, dass gerade diese Daten
als wichtig gewertet werden. Um dieses Problem einzudämmen, ist es gängig, den verschiedenen Verfahren,
welche Muster in den Daten suchen und auswerten sogenannte Wahrscheinlichkeitsmaße, wie beispielsweise
Standardabweichungen oder Fehlermaße beigefügt, um zu verhindern, dass einzelne Daten, welche abweichen,
das Ergebnis beeinflussen können[51].
Weiterhin wird in dem Artikel ?Data Mining (Datenmustererkennung)?[51] angeführt, dass die errechneten Daten
trivial sein können. Dies kann einerseits daher kommen, dass die Aussagen logisch erschließbar (?Im Sommer
werden mehr Getränke verkauft als im Winter?), untereinander redundant (beispielsweise durch schlechte
Definition von geographischen Bezirken, in dem eine Stadt mehreren Bezirken zugeordnet ist) oder invalide sind,
da die Daten, welche die Aussage unterfüttern, nur sehr selten auftreten. Andererseits könnten die generierten
Aussagen beim Kunden bereits bekannt oder mit einfachen und herkömmlichen Mitteln generierbar sein.
Das Verfahren Data Mining stützt sich zumeist auf ein firmeninternes Data Warehouse, aus welchem es die Daten
oftmals per ODBC (Open Database Connectivity) bezieht und in eine eigene Datenbasis importiert[52]. ODBC ist
eine Schnittstelle von Windows-Systemen, welche es Anwendungen ermöglicht, auf Datenbanken zuzugreifen[53].
Der Anwendungsbereich des Data Mining setzt sich aus verschiedensten Bereichen zusammen. Einerseits werden
beispielsweise Käuferprofile identifiziert oder Daten zur Marktsegmentierung generiert, andererseits werden
häufig Warenkorbanalysen oder ähnliche Analysen durchgeführt. Außerdem wird Data Mining oft zur
Generierung von Prognoseaussagen verwendet[52], hierauf wird im folgenden Kapitel ?Predictive Analytics?
genauer eingegangen.
3.3.2 Predictive Analytics
In ihrer Publikation ?Predictive Analytics in der strategischen Anlagewirtschaft? bezeichnen Carsten Felden,
Claudia Koschtial und Johannes Buder Predictive Analytics als ?[?]eine Form der Aufbereitung und Auswertung
von Daten zur zukunftsorientierten Entscheidungsunterstützung auf allen Unternehmensebenen.?[54].
Demnach bezeichnet Predictive Analytics ein Datenanalyseverfahren, welches Entscheidungen sowohl im
Management als auch auf Mitarbeiterebene eines Unternehmens unterstützt. Weiter heißt es in dem Artikel
?Mithilfe von Prognosewerten wird das Data Mining erweitert, um Informationen über die Zukunft zur
Entscheidungsfindung zur Verfügung zu stellen.?[54]. Dementsprechend stellt Predictive Analytics eine
Erweiterung zum Data Mining (siehe Kapitel 3.3.1) dar, welche Rückschlüsse auf zukünftige Entwicklungen
zulässt.
Als zentrales Element gelten sogenannte Prädikatoren, welche Eigenschaften einer Person oder Personengruppe
bzw. von Elementen sind, welche ausgewertet werden, um Rückschlüsse auf ihr zukünftiges Verhalten bzw. ihre
weitere Entwicklung ziehen zu können. Diese Prädikatoren werden miteinander kombiniert, um ein in
angemessenem Rahmen zuverlässiges Bild der künftigen Entwicklungen zu gewinnen[55].
Ein Beispiel hierzu ist die Kombination von Alter, Geschlecht, sportlicher Aktivität, Tagesablauf und möglichem
Suchtverhalten, um die Gefahr der Entwicklung von gesundheitlichen Einschränkungen bei einer Person zu
messen.
Hierbei können sowohl strukturierte Daten wie auch unstrukturierte Daten, also Fließtexte und Ähnliches
verarbeitet und analysiert werden[56].
Somit stellt das Verfahren eine Möglichkeit für Unternehmen und ähnliche Organisationen dar, die in Big Data
Projekten gesammelten Daten effektiv einzusetzen, um aus ihnen Erkenntnisse abzuleiten, die es ermöglichen, das
Unternehmen bzw. die Organisation faktenbasiert auf die Zukunft auszurichten und proaktiv zu handeln, statt
3.3.1 Data Mining
18
Theoretische_Grundlagen_von_Big_Data
solche Entscheidungen auf Vermutungen basiert zu treffen oder auf aktuelle Entwicklungen reagieren zu
müssen[56].
Der Ansatz von Predictive Analytics findet in verschiedensten Bereichen Einsatz. Hierzu zählen neben der
Verbrechens- und Betrugsbekämpfung und ?vorhersage (Precobs ? siehe Kapitel 5.1), die Meteorologie, die Ölund Gasindustrie, das Versicherungswesen und die Reisebranche. Weiterhin wird das Verfahren auch häufig im
Finanzsektor, beispielsweise zur Vorhersage von Aktienkursen, dem Gesundheitswesen (siehe Kapitel 4.3.3) und
dem Verkauf, beispielsweise um in Anlehnung an Wetterdaten oder historischen Verkäufen die Bestellung von
Waren zu optimieren. Als Beispiel hierzu seien die Bestellungen von Grillgut eines Lebensmitteleinzelhändlers
genannt. Diese sind zumeist durch die Wettervorhersagen und die Jahreszeit geprägt.[55][56]
3.3.3 OLAP
OLAP (Online Analytical Processing) ist ein ?[?] Konzept für die im Dialogbetrieb realisierte Verdichtung und
Darstellung von managementrelevanten Daten [?]?[57].
Dies bedeutet OLAP ist eine Datenverarbeitungsmethode, die es dem Nutzer erlaubt Daten aus der zugrunde
liegenden Datenbank ?[?]gezielt zu extrahieren und aus verschiedenen Perspektiven anzuzeigen[?]?[58]. Die Daten
die hierzu genutzt werden oftmals per ODBC aus einem Data Warehouse (siehe Kapitel 3.2.1) in die vom
OLAP-System genutzte Datenbank importiert. Die Daten werden dabei in einer mehrdimeninsonalen Datenbank
gespeichert, in welcher jedes Attribut eine neue Datendimension darstellt. Die Datenbasis der OLAP-Software ist
hierbei jedoch meist nicht so groß, wie das eigentliche Data Warehouse, da beispielsweise Daten zu einzelnen
Verkäufen weniger relevant sind als die gesamten Abverkaufszahlen eines Produktes oder einer
Produktgruppe[58].
Hierbei werden zumeist Daten genutzt, welche, wie zum Beispiel Umsatzdaten, auf Fakten beruhen, jedoch eine
hohe Anzahl von Abhängigkeiten zu anderen Daten, wie beispielsweise dem Standort oder dem Produkt, dem ein
Umsatz zugeordnet wird, besteht. Diese Abhängigkeiten werden auch Dimensionsmerkmale genannt. Die
Dimensionsmerkmale können hierarchisch angeordnet sein[57], beispielsweise kann ein Umsatz einer
Tochtergesellschaft eines Unternehmens zugeordnet werden, welcher sich aus den Umsätzen der einzelnen, der
Tochtergesellschaft zugeordneten, Verkaufsstandorte ergibt. Die Umsätze der einzelnen Verkaufsstandorte
bestehen wiederum aus den Abverkaufszahlen der einzelnen Produktgruppen.
Mittels einer OLAP-Software lassen sich Schnittpunkte zwischen den einzelnen Dimensionen finden und daher
können Rückschlüsse gewonnen werden, die auf einer Kombination von Daten beruhen, welche so bislang nicht
betrachtet wurde. Dies eröffnet die Möglichkeit, Beziehungen zwischen den einzelnen Datenelementen zu
erkennen, welche ohne diese Art der Auswertung möglicherweise nicht wahrgenommen wurden[58].
OLAP unterteilt sich in zwei hauptsächliche Untertypen. Beim MOLAP (Multidimensional OLAP) werden die
Daten in multidimensionalen Datenbanken gespeichert. Die Daten werden in einem proprietären Format in der
Datenbank abgelegt. Das ROLAP-Verfahren (Relational OLAP) setzt hingegen auf den Ansatz, Daten in
herkömmlichen relationalen Datenbanksystemen zu speichern[59].
MOLAP ist für hohe Zugriffsgeschwindigkeiten bekannt und ist in der Lage, komplexe Berechnungen
durchzuführen, welche teils schon vorab vom Server durchgeführt werden.
Allerdings ist die Datenmenge, die mit dem MOLAP-Verfahren ausgewertet werden kann begrenzt, da alle
Berechnungen bei der Erstellung des Cubes durchgeführt werden. Weiterhin müssen, da die Daten in proproetären
Datenbanken abgelegt werden, zumeist extra Investitionen getätigt werden[59].
ROLAP hingegen ist in der Lage große Datenmengen auszuwerten, die Limitierungen der Datenmengen hängen
von der Datenmenge der versorgenden Datenbank ab. Weiterhin ist es durch den Einsatz von relationalen
3.3.2 Predictive Analytics
19
Theoretische_Grundlagen_von_Big_Data
Datenbanksystemen möglich, die Funktionen von dem ausgewählten Datenbankmanagementsystem zu nutzen.
Dies bedeutet im Normalfall, dass auf eine sehr viel größere Menge an Funktionalitäten zurückgegriffen werden
kann.
Jedoch ist die Performance eines ROLAP-Systems gewöhnlich im Vergleich zu einem MOLAP-System
langsamer und es ist nicht möglich, komplexe Berechnungen durchzuführen, da relationale Datenbanksysteme
bzw. deren Engines nicht auf die Berechnung von Daten, sondern nur deren Verwaltung ausgelegt sind. Die
Hersteller von ROLAP Software versuchen oftmals, diese Einschränkung zu kompensieren, indem sie die
Berechnungen in die aufrufende Applikation verlagern[59]. Dies schwächt allerdings weiter die Performance des
Systems.
HOLAP (Hybrid OLAP) ist eine Mischform zwischen MOLAP und ROLAP, die versucht, die Vorteile beider
Systeme miteinander zu verknüpfen[59].
Bekannte Anbieter von OLAP-Software sind unter Anderem Microsoft oder SAP[58].
4 Technische Implementierungen
Dieses Kapitel befasst sich exemplarisch mit den Grundlagen der diversen Techniken die für die Implementierung
von Big-Data förderlich und nötig geworden sind. Es beinhaltet weiterhin eine Abgrenzung zu den aktuellen
Verfahren im Bereich der Datenbanken, welche durch die bisherigen Hardwarelimitierungen und der Tauglichkeit
in der Praxis den Standard darstellen. Es ist nicht als eine Ablösung der bisherigen Systeme, sondern als eine
Erweiterung zu verstehen.
Die Technische Implementierung bildet die Grundlage zur effektiven Nutzung von Big Data, von dieser hängen
die Leistung und das Nutzungserlebnis ab.
4.1 Theorie
Die Theorie umfasst exemplarisch Möglichkeiten die zur sinnvollen Nutzung von Big Data beitragen, so wird auf
Techniken eingegangen um die Datenflut durch Big Data zu beherrschen. In diesem Bereich werden die
grundlegenden Eigenarten der Techniken erläutert.
4.1.1 NoSQL (Not Only Short Query Language)
Der Begriff NoSQL-Datenbanken bezeichnet Datenbanken, die nicht das Datenbank übliche Standard Schemata
von starren Zeilen und Spalten verwenden und nicht auf Transaktionen angewiesen sind, dies beschleunigt den
Zugriff auf die Daten um ein Vielfaches. Die NoSQL Datenbanken werden auch als unstrukturierte Datenbanken
bezeichnet. Der Name Not only SQL impliziert eine Erweiterung der bisherigen relationalen SQL-Datenbanken.
NoSQL soll keine bisherigen Datenbanksysteme ersetzen. Diese sind die beste Wahl bei festen Strukturen und der
Zuweisung von Daten untereinander[60].
Transaktionen gehören bei den relationalen Datenbanken zum Standard. NoSQL-Datenbanken synchronisieren
Datenmengen in kurzen Intervallen um die benötigte Konsistenz zu erreichen[60]. Auf Grund dieses Verfahrens ist
die Verwendung von Transaktionen nicht nötig. Die Installation von NoSQL-Datenbanken wird auf mehreren
Servern durchgeführt. Diese so genannten Knoten kommunizieren untereinander und tauschen die Informationen,
die für eine konsistente Datenhaltung nötig sind, aus. Relationale Datenbanken hingegen schreiben jede ihrer
Änderungen in ein Transaktions-Log um die benötigte Konsistenz in Bezug auf die Daten zu erhalten.
3.3.3 OLAP
20
Theoretische_Grundlagen_von_Big_Data
Der Aufbau des Datenbanksystems in Knoten ermöglicht eine hohe Ausfallsicherheit und vereinfacht die
Skalierung von Systemressourcen. Der Ausfall einzelner Knoten beeinträchtigt nicht die Funktionsfähigkeit des
gesamten Systems. Durch hinzufügen von weiteren Knoten werden die zur Verfügung stehenden Ressourcen
erhöht. So ist es nicht mehr nötig ein einzelnes sehr leistungsstarkes System zu nutzen. Knoten lassen sich
beliebig hinzufügen, so dass etwaige Leistungs Engpässe schnell ausgeglichen werden können.[60]
NoSQL ermöglicht eine flexiblere Speicherung der Daten, dies geschieht entweder auf eine vorgegebene Art und
Weise der Datenbank oder wird vollständig der Anwendung überlassen.[61] Somit ist eine unstrukturierte
Speicherung der Daten möglich. Des Weiteren ermöglichen die Gegebenheiten von NoSQL die Speicherung von
Video-, Audio- und Bilddateien. NoSQL ist in Einsatzgebieten sinnvoll, in denen die Daten nicht in die Struktur
der relationalen Datenbanken portiert werden können.
NoSQL-Datenbanken lassen sich in vier verschiedene Kategorien aufteilen. So ist bei der Wahl von NoSQL
zusätzlich zu entscheiden welches Verfahren von NoSQL genutzt werden soll.
Die dokumentenorientierten Datenbanken sind speziell für das Speichern von beliebig langen Texten,
Dokumente, mit unstrukturierten Inhalten konzipiert. Die einzelnen Texte benötigen keine identischen Felder. So
ist es möglich verschiedene Felder zu definieren und dann mit einer Abfrage die entsprechenden Dokumente zu
suchen. In relationalen Datenbanken ist es nur unter Aufwand möglich weitere Felder, die bisher nicht existierten
hinzuzufügen. In der unstrukturierten Datenbank werden dann auch nur die Dokumente gefunden, die das
gewünschte Feld mit dem gewünschten Wert enthalten.[62]
Die Graphen-Datenbaken sind auf die Abbildung von Beziehungen spezialisiert. Bei diesem Typ werden
einzelne Knoten und Beziehungen definiert. Durch diese Beziehungen werden einzelne Knoten miteinander
verknüpft. Diese Verknüpfung findet einmalig beim Einfügen in die Datenbank statt. Bei relationalen
Datenbanken müssen die Tabellen mit Hilfe von JOINS verknüpft werden, dies erfordert Leistung von der CPU
(Central Processing Unit) und dem Arbeitsspeicher, da für jeden JOIN die Fremdschlüssel aufgefunden werden
müssen. Graphen-Datenbanken werden häufiger gelesen als geschrieben, so ist die Belastung des
Speichermediums eher gering einzuschätzen. Beim Lesen wird von jedem Knoten die Verknüpfungen mit gelesen
und so wird unter einer einheitlicher Last durch die einzelnen Knoten navigiert. [63]
Key-Value-Datenbanken verknüpfen Schlüssel mit Werten. Dabei können diese Werte sowohl Zeichenketten als
auch Listen oder Sets sein. Diese Form der Datenbanken eignet sich vor allem für einfache Systeme mit
einseitigen Beziehungen, dort nutzen sie ihren Vorteil der Geschwindigkeit besonders gut aus. Sie finden häufig
Anwendung, wenn Werte einem gewissen Benutzer, wie es bei Apps oder Online-Spielen der Fall ist, zugeordnet
werden müssen. Dabei bildet der Benutzername der Person den Schlüssel. Des Weiteren steigen die Kosten
gleichbleibend mit der Größe. Bei relationalen Datenbanken steigen die Preise auf Grund der Anforderungen
deutlich stärker, da eine lineare Saklierung nicht möglich ist.[64]
Die spaltenorientierten Datenbanken speichern die Daten sowohl der Zeile als auch der Spalte zugehörig. So ist
es möglich sowohl Informationen aus einzelnen Zeilen als auch aus einzelnen Spalten zu beziehen. Dies hat den
Vorteil Rechenoperationen, die nur auf Daten aus einer Spalte bezogen sind, schneller und mit weniger Input
Output Aktionen auszuführen. Spaltenorientierte Datenbanken ermöglichen es Informationen aus der Datenbank
zu lesen ohne die restlichen Informationen, die anderen Spalten, zusätzlich zu laden.[65]
NoSQL wird in Bereichen, in denen die relationalen Datenbanken an ihre Grenzen stoßen eingesetzt. Sie eignen
sich hervorragend um große Datenmengen effizient und sinnvoll zu verarbeiten und sind außerdem für spezielle
Einsatzzwecke optimiert. Dieses Szenario findet sich vor allem im Bereich Big Data.
4.1.1 NoSQL (Not Only Short Query Language)
21
Theoretische_Grundlagen_von_Big_Data
4.1.2 In-Memory
In-Memory Datenbanken, sind Datenbanken, die vollständigen in den Arbeitsspeicher geladen werden. Dieses
Verfahren ist nötig geworden, da viel mehr Informationen in viel kürzerer Zeit verfügbar sein sollten. Des
Weiteren hat die Hardware im Bereich der Prozessoren immer höhere Geschwindigkeiten erzielt während die
Übertragungsgeschwindigkeiten von Festplatten nicht in diesem Maße anstiegen[66] . Der Preis, die Kapazität und
die Geschwindigkeit der einzelnen Arbeitsspeicher-Module so wie die Kapazität des Arbeitsspeichers, die ein
System verwalten kann ist zusätzlich gestiegen. Diese Faktoren machen die In-Memory Technologie erst sinnvoll
nutzbar.
Abb.10 Vergleich der Geschwindigkeiten von HDD, SSD und Arbeitsspeicher[67]
Relationale Datenbanken mussten bisher, wenn eine Anfrage eintraf, die Daten von der Festplatte in den
Arbeitsspeicher laden, dort die Anfrage verarbeiten und darauf diese Änderungen wieder auf der Festplatte
speichern. Wenn die Datenbank ausschließlich im Arbeitsspeicher liegt fällt der Laden und Speichern Prozess
ausschließlich bei starten und beenden der Datenbank an.
Die Abbildung gibt einen Überblick über die Unterschiede der Geschwindigkeit von HDDs, SSDs und
Arbeitsspeicher bei zufälligen und geordneten Zugriffen auf das Medium an. Dabei ist erkennbar, dass der
zufällige Zugriff auf den Arbeitsspeicher mehr als 100000 schneller abläuft als auf einer HDD.
Das Verfahren der In-Memory Datenbanken ist nicht neu. Die relationalen Datenbanksysteme laden
standardmäßig einen Teil ihrer Datenbank in den Arbeitsspeicher um Anfragen schneller zu verarbeiten, dies
reicht jedoch bei der Masse an Daten im Big Data Bereich nicht aus. Des Weiteren sind Systeme mit einer hohen
Kapazität an Arbeitsspeicher und ausreichend CPU-Leistung nötig um die Anforderungen der In-Memory
Technologie zu erfüllen. Diese Anschaffung ist meist kostenintensiv.
Als Nachteil dieser Technik sei zu nennen, dass der Arbeitsspeicher als flüchtiges Medium gilt. Sollte das System
von einem Stromausfall betroffen sein sind sämtliche Daten, die im Arbeitsspeicher gelagert wurden, verloren.
Die Systeme auf denen die In-Memory Technologie angewendet wird sollten daher entsprechend vor
Stromausfällen geschützt werden, da sonst nur der Stand, der beim Start der Datenbank vorlag, vorhanden bleibt.
Es gibt Software seitige Sicherheitsmaßnahmen, die die Änderung der Datenbank in gewissen Zeitintervallen auf
die Festplatten speichern.
4.1.3 Datenbank-Komprimierung
Die Datenbank-Komprimierung beschäftigt sich mit der Minimierung der Daten innerhalb einer Datenbank.
Dieses Verfahren kann sowohl bei relationalen als auch bei unstrukturierten Datenbanken angewendet werden.
Die Komprimierung ermöglicht es Datenbanken Abfragen schneller durchzuführen, da mehr Daten zur gleichen
Zeit den Arbeitsspeicher nicht überlasten und die geringeren Größen schneller von der Festplatte gelesen und
wieder auf die Festplatte geschrieben werden können.
Die Komprimierung kann bei einem Zeilenbasierten-Verfahren gewisse Symbolabfolgen als Muster erkennen und
diese Muster in einer kürzeren Symbolabfolge speichern, jedes Zeichen weniger bedeutet weniger benötigter
Speicherplatz[68].
4.1.2 In-Memory
22
Theoretische_Grundlagen_von_Big_Data
4.1.4 Tiering
Das Tiering ist eine Einteilung in Level. Bei diesem Verfahren wird der Zugriff auf jeden einzelnen Datensatz
ausgewertet und so ein Ranking von Daten, die extrem häufig genutzt werden bis zu Daten die, nahezu niemals
aufgerufen werden erstellt. Anhand dieses Rankings kann die Software die Datensätze in verschiedenen, den
Aufruf entsprechenden, Bereiche Speichern. So können häufig gebrauchte Daten auf schnelleren Medien wie
SSDs (Solid State Disks) und selten genutzte Datensätze auf langsamere HDDs (Hard Drive Disks) gespeichert
werden.[68]
Dieses Verfahren wurde von Storage-Systemen mit unterschiedlich schnellen Medien übernommen.
Storage-Systeme interpretieren Datenbanken ohne zusätzliche Software als eine Datei und können so das Tiering
für die einzelnen Datensätze nicht durchführen. Für diesen Fall wurde das Tiering innerhalb der Datenbank
implementiert und mit Storage-Herstellern Techniken zum hardwareseitigen Tiering erstellt.
4.2 Praxis
In diesem Unterkapitel wird beispielhaft die Umsetzung der theoretischen Techniken in die Praxis beschrieben.
So enthalten die aufgeführten Programme nicht nur eine Technik sondern gleich mehrere.
4.2.1 Hadoop
Abb.11 Logo von Apache Hadoop
Hadoop wurde als Framework für den Zugriff auf Big Data in Java programmiert. Es wurde so entwickelt, dass es
auf einem Computer-Cluster läuft und so einfach skalierbar bleibt und eine hohe Ausfallsicherheit bietet.
Mit Hadoop werden in den meisten Fällen riesige Datenmengen importiert. Diese Datenmengen werden in Pakete
segmentiert, woraus dann mit Hilfe der Software und dessen Algorithmen die relevanten Informationen
entnommen werden. Das Verfahren, das von Hadoop angewendet wird heißt Map Reduce (s. 3.2.3 Map
Reduce).[69]
Diese Datenmengen werden auf den einzelnen Server in ein spezielles für Hadoop entwickeltes File System
gespeichert. Das HDFS hat spezielle Eigenschaften, die es für die Nutzung von einer riesigen Anzahl an Servern
nutzbar macht. Jeder Server beinhaltet einen Teil der Daten.[70]
Eine der größten Schwierigkeiten ist in diesem Bereich der Ausfall der Hardware. Bei einer Hadoop Farm mit
1000 Servern kann man davon ausgehen, dass immer ein Server nicht funktioniert, dafür wurde eine eigene
Fehlererkennung und eine automatische Behebung dieser Fehler entwickelt.[70]
Das komplette HDFS wurde für die Stapel-Verarbeitung entwickelt. Das bedeutet, dass ein Prozess gestartet wird,
welcher erstmal bis zum Ende laufen soll, bevor der nächste startet. Das System ist auf einen hohen Durchfluss
ausgelegt.[70]
4.1.4 Tiering
23
Theoretische_Grundlagen_von_Big_Data
4.2.2 Cassandra
Abb.12 Logo von Apache Cassandra
Cassandra wurde ursprünglich für Facebook entwickelt und sollte die Inbox Suche für die Vielzahl der Nutzer
effektiv und schnell gestalten. Es wurde dann als Open Source Software bereitgestellt und wird nun von vielen
großen Unternehmen wie dem CERN, eBay, HP, IBM und Netflix[71] für diverse Anwendungsgebiete genutzt. Es
besteht zum einem aus der Amazon DynamoDB und zum anderen aus der Google BigTable, des Weiteren wurde
die Hadoop Technologie integriert, so dass große Datenmengen nebenher mit dem Map-Reduce Verfahren
verarbeitet werden können. Cassandra zählt sowohl zu den spaltenorientierten, als auch durch Akzente zu den
Key-Value NoSQL Datenbanken und wurde in Java entwickelt.[72]
Cassandra wird verteilt auf mehreren Knoten installiert, diese Knoten sind alle gleichberechtigt. Um Cassandra
mehr Ressourcen zur Verfügung zu stellen, wird eine Installation auf einen weiteren Rechner kopiert, alles
Weitere geschieht automatisiert. Des Weiteren werden alle Daten redundant gespeichert, um den durch einen
Serverausfall drohenden Datenverlust zu vermeiden. So entsteht ein hochverfügbares, schnelles System, das
beliebig durch weitere Knoten ergänzt werden kann und sich selbst reorganisiert. Cassandra schreibt nicht sofort
alles auf die Festplatten, sondern besitzt einen Mechanismus der erstmal Daten im Arbeitsspeicher zwischen
puffert und ab einem gewissen Level diese dann gesammelt auf die Festplatten schreibt.[73] Dieser Mechanismus
ermöglicht eine effizientere Ausnutzung der Schreib- und Leseperformance der Festplatte.
Cassandra zählt in die Gruppe der schlussendlich Konsistenten Anwendungen. Dies bedeutet, dass in gewissen
Zeitfenstern nicht alle User die gleiche Sicht auf die Daten haben. Dies wird aber für die entsprechende
Performance, die Cassandra bietet, von den Betreibern in Kauf genommen.[72]
4.3 Anwendungsbeispiele
Dieses Kapitel soll die exemplarisch die Einsatzmöglichkeiten von Big Data und die damit verbunden Analysen
in einzelnen Szenarien verdeutlichen. Die Entwicklung steht erst am Anfang und Szenarien, die als unvorstellbar
gelten, könnten in einigen Jahren Realität werden.
Für den Umgang mit Big Data ist kein klassischer Technologieschub verantwortlich, sondern viel mehr die
Weiterentwicklung bisheriger Techniken und die Möglichkeit Daten kostengünstig zu speichern. Viele Daten die
früher nur in analoger Form vorlagen und mühsam in IT-Systeme eingegeben werden mussten sind nun direkt
Digital verfügbar. Hauptsächlich dafür verantwortlich ist das Internet.
4.3.1 Verhaltensprognose
Eines der interessantesten Ziele für die Wirtschaft im Bereich Big Data ist die Verhaltensprognose um damit die
noch nicht vorhandenen Bedürfnisse zu erkennen und diese beim Kunden hervorzurufen. Aber auch der Staat hat
Interesse an dieser Technik und testet Systeme.
Mit Hilfe der Daten kann die Menge an frischen Lebensmitteln für einen Supermarkt berechnet werden, um die
4.2.2 Cassandra
24
Theoretische_Grundlagen_von_Big_Data
Gefahr des Verlustes durch verdorbene Güter zu minimieren. Big Data wird auch von Telefonkonzernen genutzt
um eventuelle Kündigungen zu bestimmen.
Ein konkretes System ist Precobs (Pre Crime Obersavation System) welches sowohl in der Schweiz als auch als
Test in Bayern eingesetzt wird. Es dient der Einbruchsvorhersage. Dieses System berechnet anhand von
bisherigen Verbrechensdaten Hot Spots in denen es mit großer Wahrscheinlichkeit zu Delikten kommen könnte.
Laut Schweizer Behörden liegt die Übereinstimmung bei 80%.[74]
Das System dient vor Allem dazu, Verbrechen von Profis aufzudecken. Impulsive Taten oder einmalige Täter
können nicht aufgespürt werden.
In Amerika werden Systeme mit Verhaltensvorhersage teilweise in Echtzeit mit Daten von Verkehrs- und
Überwachungskameras, so wie aus den Social Media Kanälen wie Facebook und Twitter versorgt. Die Systeme
sind so in der Lage eine Liste von Leuten zu generieren, die als potenzielle Gefährder gelten. Diese Personen
erhalten als präventiv Maßnahme einen Anruf um sie davon abzuhalten Straftaten zu begehen.[74]
Mit der Hilfe der Analyse von Daten lassen sich auch Schwangerschaften aufdecken. So ist es bei Zahlung mit
Karten oder mit Hilfe von Kundenkarten möglich, die Einkäufe einer bestimmten Person zuzuordnen und diese
Daten anschließend auszuwerten. Die Supermarkt Kette Target in Amerika schickte einer jungen Frau Coupons
für Baby-Artikel. Der unwissende Vater der jungen Frau bemerkte dies, war extrem wütend darüber und stellte
einen Mitarbeiter zur Rede. Dieser entschuldigte sich und rief die Familie später an. Bei diesem Anruf stellte sich
raus, dass die Coupons nicht unberechtigt zu der Dame geschickt wurden, da sie wirklich Schwanger war. Die
Firma Target nutzt einen Algorithmus um die Wahrscheinlichkeit der Schwangerschaft einer Person zu
berechnen.[75]
4.3.2 Klimaforschung
In der Klimaforschung fallen täglich immense Datenmengen durch Satelliten und Messstationen an. Alle diese
Daten sollten verarbeitet und aufbereitet werden. Für diese Zwecke wurde Blizzard entwickelt. Blizzard ist ein
Hochleistungsrechner, der ausschließlich die Klimaforschung unterstützt. Mit solchen Rechnern ist es möglich,
konkrete Modelle von Strömungen im tiefsten Meer und der Atmosphäre zu berechnen um die Entwicklung des
Klimas vorherzusagen und bestimmte Einflüsse auf das Klima festzustellen. Diese Berechnungen erfordern viele
Daten und dementsprechend auch hohe Rechenleistung um die Gesamtheit der Daten auszuwerten und in Relation
zueinender zu setzen. Diese Daten sind nötig um Systeme zu entwickeln, die Vorhersagen über Wirbelstürme
oder andere Klimaphänomene zu treffen.[76][77]
4.3.3 Medizin
Die medizinische Behandlung von Krankheiten lässt Kosten im Milliardenbereich entstehen. Diese Kosten
werden in Deutschland von den Krankenkassen bezahlt, die das zur Verfügung stehende Geld von der arbeitenden
Bevölkerung erhält. Big Data bietet in diesem Bereich die Möglichkeit, Prävention zu betreiben und so die Kosten
vor dem Ausbruch der Krankheit zu minimieren oder den Ausbruch sogar zu verhindern.
Durch die Nutzung von Fitness- und Trackingapplications und den damit verbundenen Geräten wie Smartwatch
oder diversen anderen Geräten wie zum Beispiel die Personenwaage und Armbänder mit Sensorik für Schlaf- und
Pulsanalyse, wird eine Vielzahl an Daten, die noch nicht vollständig genutzt werden, produziert. Das Profil der
Ärzte über ihre Patienten könnte wesentlich umfassender sein, wenn nicht nur der aktuelle Blutdruckwert vorliegt,
sondern der aus mehreren Monaten. Des Weiteren lassen sich dadurch Fehldiagnosen und so weitere Kosten für
das Gesundheitssystem vermeiden. Dies kommt letztendlich der arbeitenden Bevölkerung und der Wirtschaft zu
Gute, da die Krankenkassenbeiträge sinken und mögliche Ausfälle von Mitarbeiten früher erkannt und sogar
vermieden werden können.
4.3.1 Verhaltensprognose
25
Theoretische_Grundlagen_von_Big_Data
Diese Möglichkeit zielt auf Krankheiten, die durch das mögliche Fehlverhalten der betroffenen Person verursacht
werden. Darunter zählen Adipositas, Diabetes, Schlaganfälle, Herzinfarkte oder Bandscheibenvorfälle.
Das McKinsey Global Institute ist der Meinung, dass Qualitäts- und Effizienzsteigerungen im Wert von jährlich
250 Milliarden ? im Gesundheitswesen in Europa durch den Einsatz von Big Data möglich wären.[78]
5 Schlussbetrachtung
5.1 Zusammenfassung
Aufgrund des schieren Umfangs an Bereichen, auf die Big Data einen Einfluss hat, ist und bleibt Big Data als
Begriff trotz den Erläuterungen in den vorherigen Kapitel nur eingeschränkt skizzierbar. Es ist ein Trend, dem
sich niemand verschließen kann. Unternehmen wie Konsumenten sind gleichermaßen von den technischen
Entwicklungen, sowie dem Potenzial der gesammelten Daten betroffen. Die Sammlung, Verarbeitung und
Auswertung aller möglichen Daten kann enorme wirtschaftliche Optimierungspotenziale mit sich bringen.
Gleichzeitig kann die Privatsphäre jedes Einzelnen massiv eingeschränkt werden, sollte der Zugriff und die
Verarbeitung von personenbezogen Daten nicht eindeutig reglementiert werden. Big Data basiert auf keiner
technischen Neuerung, es ist die Vernetzung der Gesamtheit der Daten, die schon Jahre zur Verfügung stehen,
allerdings aufgrund der Kapselung der Systeme bislang in dieser Form nicht verknüpft werden konnten, welche
den Grundstein zur Entwicklung des Big Data-Konzepts gelegt hat. Hauptsächlich dafür verantwortlich ist das
Internet und die zunehmende Vernetzung aller Bereiche. Weiterhin ist zu nennen, dass sich die Verfügbarkeit der
Daten durch die digitale Revolution stark verbessert hat, allerdings noch nicht alle Bereiche durchdrungen hat.
Big Data-Projekte sind darüber hinaus hoch spezialisiert und unterscheiden sich je nach Anwendungsfall
erheblich voneinander, sodass für die Unternehmen eine große Einstiegshürde besteht. Diese Hürde beinhaltet
sowohl das technische Expertenwissen als auch die Aufwendungen, die für ein Unternehmen mit der Einführung
von Big Data-Lösungen zusammen hängen.
Je nach Anwendungsfall bleibt eine Auswahl an verschiedenen technischen und methodischen
Implementierungsmöglichkeiten bestehen um mit den Anforderungen, die an Big Data gestellt werden, umgehen
zu können.
5.2 Ausblick
Die Entwicklung von Big Data steht erst am Anfang und Szenarien, die heute noch als unvorstellbar gelten,
könnten in einigen Jahren Realität werden. Die Möglichkeiten Daten zu erheben steigen stetig an. Viele
Informationen sind bereits vorhanden, doch fehlt häufig die Verknüpfung der einzelnen Elemente um Neues zu
entdecken. Je mehr Fragen an den Zusammenhang der Daten gestellt werden, desto klarer kann eine Prognose
abgegeben werden.
Darüber hinaus ist das Potenzial dieser Daten stetig wachsend. Der technische Fortschritt setzt sich in den
nächsten Jahren immer weiter fort und beeinflusst mehr und mehr alle Lebensbereiche. Außerdem produzieren die
älteren Generationen nur einen Bruchteil der Gesamtheit der Daten. Sie nutzen selten Smartphones und die
Nutzung des Internets ist in dieser Bevölkerungsgruppe spärlich. Zusätzlich sind EC-Kartenzahlungen bei dieser
Generation eher die Ausnahme als die Regel. Die jüngere Gesellschaft hingegen nutzt Smart-Devices, wie
Smartphones und Fitness-Trackern intensiv, sie zahlen häufig mit EC-Karte und suchen und veröffentlichen viele
Informationen im Internet. Sollte dieses Verhalten andauern, werden zukünftige Generationen immer mehr
4.3.3 Medizin
26
Theoretische_Grundlagen_von_Big_Data
Technik nutzen, wodurch sich das Ausschöpfungspotenzial all dieser Daten immens steigert.
Ein weiterer wichtiger Punkt, der in naher Zukunft geklärt werden muss, ist der Datenschutz. Der Umfang an
Daten, den Firmen über einzelne Personen in Erfahrung bringen und nutzen können um weitere Erkenntnisse zu
sammeln, birgt enorme Potenziale in sich. Allerdings fehlt es aktuell noch an eindeutigen Regelungen und
Vorschriften, etwa zu den Themen Anonymisierung und Rückverfolgbarkeit, die Dauer der Speicherung oder die
Klärung der Besitzverhältnisse der Daten.
Des Weiteren muss zusätzlich zur technischen Weiterentwicklung auch sichergestellt werden, dass in diesen
neuen Bereichen ausreichend Expertenwissen zur Verfügung steht. Dazu müssen neue Berufsfelder, wie aktuell
der Data Scientist, erschlossen und definiert werden, um bei der Einführung von neuen Technologien und
Verfahrensweisen zu Datenanalysen zu unterstützen. Dies ist insbesondere im unternehmerischen Umfeld von
existentieller Bedeutung, da die Einführung neuer Technologien auch immer mit hohen Investitionskosten und
damit auch mit einem hohen Risiko verbunden ist.
Viele IT-Manager stehen vor der Frage, ob es sich lohnt das Thema Big Data und dessen Verwendung in ihrer
Firma umzusetzen. Diese Unsicherheit lässt sich auf die mangelnde Anzahl an Experten und auf die hohen Kosten
zurückführen.[79] Die Zukunft wird zeigen, in welche Richtung sich das Thema Big Data weiterentwickeln wird
und wie jeder Einzelne davon betroffen sein wird.
6 Fußnoten
1. ? Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Big Data, online im
Internet:http://wirtschaftslexikon.gabler.de/Archiv/-2046774198/big-data-v1.html
2. ? BITKOM,Arbeitskreis Big Data[1], Zugriff: 07.06.2015
3. ? http://www.gartner.com/technology/about.jsptechnology/about.jsp, Zugriff am 07.06.2015[2]
4. ? 4,0 4,1 4,2 4,3 http://www.ibmbigdatahub.com/infographic/four-vs-big-data, Zugriff am 07.06.2015[3]
5. ? Abbildung
http://api.ning.com/files/tRHkwQN7s-V9zyWeGmW9pYmXjhhHYlanslQxjZT53dE40q*P5F5tBhOzSnqCMXhql
6. ? Abbildung t3n, http://t3n.de/news/big-data-infografik-563632/infografik-big-data/,
Zugriff:25.05.2015[4]
7. ? 7,0 7,1 entnommen aus
http://de.statista.com/statistik/daten/studie/267974/umfrage/prognose-zum-weltweit-generierten-datenvolumen,
Zugriff am 07.06.2015
8. ? 8,0 8,1
http://www.t-systems.de/loesungen/mit-big-data-business-intelligence-von-t-systems-koennen-unternehmen-datenZugriff: 25.05.2015
9. ? 9,0 9,1 Vgl. http://www.wirtschaftsinformatik-archiv.de/pdf/01_editorial_36315.pdf, S.65, Zugriff am
08.06.15
10. ? http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,
08.06.15
11. ?
http://www.hgnc.de/wp-content/uploads/2014/05/KPMG_Einführungsvortrag_Big_Data_neu.pdf,Zugriff
am 21.06.2015
12. ? Vgl. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global
Institute
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,
June 2011, Stand: 20.06.2015
5.2 Ausblick
27
Theoretische_Grundlagen_von_Big_Data
13. ? 13,0 13,1 BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 9, Hrsg. BITKOM
http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F
14. ? 14,0 14,1
http://de.statista.com/statistik/daten/studie/257962/umfrage/umfrage-zum-potenzial-von-big-data-technologie-auf-g
Zugriff am 21.06.2015
15. ? http://de.statista.com/statistik/daten/studie/37545/umfrage/anzahl-der-aktiven-nutzer-von-facebook/,
Zugriff am 20.06.2015
16. ? https://www.google.org/flutrends/, Zugriff am 19.06.2015
17. ? Müller,Marcel/ Prokosch,Hans-Ulrich/ Schwarze,Jan-Christoph/ Sassenberg, Christoph/ Tessmann,
Sven/ Ückert,Frank,Eine modulare Gesundheitsakte als Antwort auf Kommunikationsprobleme im
Gesundheitswesen, S.188, WIRTSCHAFTSINFORMATIK 47 (2005)
18. ? http://www.gesakon.de/13.html, Zugriff 16.06.2015
19. ?
http://www.computerwelt.at/news/software/apps/detail/artikel/102825-70-millionen-runtastic-downloads/,
Zugriff am 18.06.2015
20. ? http://winfwiki.wi-fom.de/index.php/Fallstudie_Sommersemester_15, Zugriff 21.06.2015
21. ? 21,0 21,1 BITKOM, Leitfaden Big Data im Praxiseinsatz ? Szenarien, Beispiele, Effekte, S.15,
http://www.bitkom.org/files/documents/BITKOM_LF_big_data_2012_online(1).pdf Hrsg. BITKOM
2012 [6]
22. ? http://www-01.ibm.com/software/data/infosphere/data-scientist/, Zugriff 19.06.2015
23. ? Seufert, Andreas, Entwicklungsstand, Potentiale und zukünftige Herausforderungen von Big Data ?
Ergebnisse einer empirischen Studie, Springer Fachmedien Wiesbaden 2014
24. ? BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 36, Hrsg. BITKOM
http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F
25. ? Entnommen aus BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 38, Hrsg.
BITKOM
http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F
26. ? S. § 4 BDSG[9]
27. ? 27,0 27,1 Schaar, Peter, Datenschutz in Zeiten von Big Data, S. 842, Springer Fachmedien Wiesbaden
2014, Online publiziert: 23. Oktober 2014
28. ? S. § 3 Abs. 9 BDSG [10]
29. ? S. §3 Absatz 6 BDSG[11]
30. ? Sathi, Dr. Arvind, Big Data Analytics: Disruptive Technologies for Changing the Game, First Edition,
Mc Press (15. November 2012)[12]
31. ?
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-f
Zugriff am 18.06.2015
32. ? BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 140, Hrsg. BITKOM
http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F
33. ?
http://www.handelsblatt.com/unternehmen/banken-versicherungen/us-grossbank-jp-morgan-meldet-hackerangriffZugriff am 20.06.2015
34. ? 34,0 34,1 Entnommen aus
http://de.statista.com/statistik/daten/studie/265253/umfrage/prognose-zum-umsatz-mit-big-data-loesungen-weltwei
Zugriff am 20.06.2015
35. ? 35,0 35,1 Entnommen aus
http://de.statista.com/statistik/daten/studie/257976/umfrage/umsatz-mit-big-data-loesungen-in-deutschland
36. ? 36,0 36,1 Entnommen aus
http://de.statista.com/statistik/daten/studie/257964/umfrage/umfrage-zum-nutzen-von-big-data-fuer-verschiedene-g
37. ? 37,0 37,1 Analytics: Big Data in der Praxis Stand 04.06.2015
6 Fußnoten
28
Theoretische_Grundlagen_von_Big_Data
38. ? 38,0 38,1 38,2 38,3 Gerrit Thede: Big Data ? Datenquellen und Anwendungen Ausarbeitung Grundlagen
Vertiefung und Anwendung 1 Stand 04.06.2015
39. ? Wirtschaftslexikon Gabler, Stichpunkt: Soziale Medien, Stand 05.06.2015
40. ? Mucksch, H.; Holthuis, J.; Reiser, M.: Das Data Warehouse-Konzept ? ein Überblick
41. ? Inmon,W. H.: Building the Data Warehouse
42. ? 42,0 42,1 42,2 Gabler Wirtschaftslexikon, Stichpunkt Data Warehouse Stand 13.06.2015
43. ? 43,0 43,1 43,2 43,3 43,4 Gluchowski, Peter: Data Warehouse (1997)
44. ? 44,0 44,1 44,2 44,3 44,4 44,5 44,6 44,7 44,8 Microsoft TechNet: Introduction to Cubes, Stand 13.06.2015
45. ? 45,0 45,1 45,2 ITWissen: OLAP-Würfel, Stand 13.06.2015
46. ? entnommen aus Introduction to Cubes, Stand 13.06.2015
47. ? 47,0 47,1 47,2 47,3 Hadoop: MapReduce Tutorial Stand 06.06.2015
48. ? entnommen aus Module 4: MapReduce, Stand 20.06.2015
49. ? 49,0 49,1 49,2 49,3 IBM: What is MapReduce? Stand 04.06.2015
50. ? Hadoop: HDFS Architecture Guide Stand 20.06.2015
51. ? 51,0 51,1 51,2 51,3 51,4 51,5 51,6 Bissant, Nicolas, Hagedorn, Jürgen: Data Mining (Datenmustererkennung)
52. ? 52,0 52,1 52,2 52,3 Witschaftlexikon Gabler, Stichpunkt: Data Mining Stand 07.06.2015
53. ? Witschaftlexikon Gabler, Stichpunkt: ODBC Stand 07.06.2015
54. ? 54,0 54,1 Felden, Carsten, Koschtial, Claudia, Buder, Johannes : Predictive Analytics in der Strategischen
Anlagenwirtschaft (2012)
55. ? 55,0 55,1 Margaret Rouse: Predictive Analytics (2014) Stand 13.06.2015
56. ? 56,0 56,1 56,2 Predictive Analytics Today: What is predictive analytics Stand 14.06.2015
57. ? 57,0 57,1 Wirtschaftslexikon Gabler: Online Analytical Processing (OLAP) Stand 08.06.2015
58. ? 58,0 58,1 58,2 58,3 Margaret Rouse: Online Analytical Processing (OLAP) Stand 08.06.2015
59. ? 59,0 59,1 59,2 59,3 1KeyData Tutorials: MOLAP,ROLAP, Ana HOLAP Stand 15.06.2015
60. ? 60,0 60,1 60,2 Thomas Joos, Nico Litzel, Relationale Datenbanken sind nicht immer ideal, Stand
11.06.2015
61. ? D.J. Walker-Morgan, Heise Open Source, NoSQL im Überblick, Stand: 05.06.2015
62. ? Stefan Koch, NoSQL: Dokumentenorientierte Datenbanken (CouchDB, MongoDB), Stand: 11.06.2015
63. ? Peter Neubauer, Michael Hunger, Heise Know-How: Graphendatenbanken, Die Datenbank der Wahl,
Stand: 17.06.2015
64. ? April Reeve, Big Data Architectures ? NoSQL Use Cases for Key Value Databases, Stand: 13.06.2015
65. ? Daniel Bösswetter, Spaltenorientierte Datenbanken, Stand: 16.06.2015
66. ? Uwe Küll, Heise: Big Data - so beherrschen Sie die Datenflut, Stand: 10.06.2015
67. ? Entnommen aus "The Pathologies of Big Data", Adam Jacobs, Communications of the ACM, Vol.52
No. 8, Pages 36-44, 2009
68. ? 68,0 68,1 Klaus Mahnert, Datenbanktechniken für Big Data, Stand: 10.06.2015
69. ? Jesse Davis, Klug erklärt: Hadoop und der Zugriff auf Big Data, Stand 13.06.2015
70. ? 70,0 70,1 70,2 Dhruba Borthakur, HDFS Architecture Guide, Stand: 13.06.2015
71. ? Jens Ihlenfeld, Cassandra 2.0 unterstützt Trigger und Transaktionen,Stand: 13.06.2015
72. ? 72,0 72,1 Eberhard Wolff, Kai Spichale, Thomas Westphal und Andreas Hartmann, Datenflut bereitet
NoSQL den Weg, Stand: 14.06.2015
73. ? Rudolf Jansen, Einsatz der Cassandra-Datenbank, Heise Developer, Stand: 13.06.2015
74. ? 74,0 74,1 Kai Schlieter, Algorithmen gegen Gangster, Stand: 12.06.2015
75. ? Kashmir Hill, How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did, Stand:
12.06.2015
76. ? Projekt Zukunft: Big Data in der Klimaforschung, Stand: 13.06.2015
77. ? Neuer Superrechner für die Klimaforschung, Stand: 13.06.2015
78. ? Horvath, Sabine (2013): Aktueller Begriff Big Data, Berlin, November 2013, S. 2.
79. ? Rivera, Janessa / Meulen, Rob van der: "Gartner Survey Highlights Challenges to Hadoop Adoption",
Stand: 13.06.2015
6 Fußnoten
29
Theoretische_Grundlagen_von_Big_Data
7 Literaturverzeichnis
Monographien
Inmon,W. H. (1996): Building the Data Warehouse. 2.Aufl. New York: John Wiley & Sons
Horvath, Sabine (2013): Aktueller Begriff Big Data, Berlin, November 2013
Mucksch, H.; Holthuis, J./ Reiser, M. (1996): Das Data Warehouse-Konzept ? ein Überblick.
Fachzeitschriften
Müller,Marcel/ Prokosch,Hans-Ulrich/ Schwarze,Jan-Christoph/ Sassenberg, Christoph/ Tessmann, Sven/
Ückert,Frank: Eine modulare Gesundheitsakte als Antwort auf Kommunikationsprobleme im Gesundheitswesen,
WIRTSCHAFTSINFORMATIK 47 (2005)
Sammelbände
Bissantz, Nicolas / Hagedorn, Jürgen (2008): Data Mining (Datenmustererkennung)in:
WIRTSCHAFTSINFORMATIK, Volume 51, Issue 1, Seiten 139-144
Felden, Carsten / Koschtial, Claudia/ Buder, Johannes (2012): Predictive Analytics in der Strategischen
Anlagenwirtschaft in: Prognoserechnung, 2012, pp 519-537
Gluchowski, Peter (1997): Data Warehouse in: Informatik-Spektrum, Februar 1997, Volume 20, Issue 1, Seiten
48f
Holthuis, J. (1996): Multidimensionale Datenstrukturen. In: Mucksch, H., Behme,W.: Das
Data-Warehouse-Konzept,Wiesbaden: Gabler 1996, S. 165?204
Jacobs, Adam (2009): The Pathologies of Big Data in: Communications of the ACM, Vol 52, No.8, S. 36-44
Schinzer, H. (1996): Data Warehouse. Informationsbasis für die Computerunterstützung des Managements. WiSt,
Heft 9, September 1996
Internet-Quellen
Bendel, Prof. Dr. Oliver: ?Soziale Medien?, [14], 05.06.2015
Byers, Angela Hung, Brown, Brad , Bughin, Jacques, Chui, Michael, Dobbs, Richard, Manyika, James,
Roxburgh, Charles: "Big data: The next frontier for innovation, competition, and productivity", McKinsey Global
Institute, [15], 02.06.2015
BITKOM, Leitfaden Big Data im Praxiseinsatz ? Szenarien, Beispiele, Effekte, Hrsg. BITKOM 2012 [16],
15.05.2015
BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, Hrsg. BITKOM [17], 15.05.2015
Borthakur, Dhruba: "HDFS Architecture Guide", [18], 13.06.2015
Bösswetter, Daniel: "Spaltenorientierte Datenbanken", [19], 16.06.2015
Davis, Jesse: "Hadoop und der Zugriff auf Big Data", [20], 13.06.2015
Hill, Kashmir: "How Target Figured Out A Teen Girl Was Pregnat Before Her Father Did", [21], 12.06.2015
Ihlenfeld, Jens: "Cassandra 2.0 unterstützt Trigger und Transaktionen", [22], 13.06.2015
Imanuel: ?What is predictive analytics??, [23], 14.06.2015
Jansen, Rudolf: "Einsatz der Cassandra-Datenbank", [24], 13.06.2015
Joos, Thomas / Litzel, Nico, Relationale Datenbanken sind nicht immer ideal, [25], 11.06.2015
Koch, Stefan: "NoSQL: Dokumentenorientierte Datenbanken (CouchDB, MongoDB), [26], 11.06.2015
Küll, Uwe: "Big Data - so beherrschen Sie die Datenflut", [27], 10.06.2015
Lackes, Prof. Dr. Richard / Siepermann, Dr. Markus: ?Data Warehouse? [28], 13.06.2015
Lackes, Prof. Dr. Richard / Siepermann, Dr. Markus : ?Online Analytical Processing (OLAP)?,[29], 08.06.2015
Lackes, Prof. Dr. Richard: ?Data Mining?, [30], 07.06.2015
Lackes, Prof. Dr. Richard: ?ODBC?, [31], 07.06.2015
Mahnert, Klaus: "Datenbanktechniken für Big Data", [32], 10.06.2015
Neubauer,Peter / Hunger, Michael: "Graphendatenbanken, Die Datenbank der Wahl, [33], 17.06.2015
o.V.: ?About MapReduce? [34], 04.06.2015
o.V.: "About Data Scientist" [35], 18.06.2015
o.V.: ?Introduction to Cubes? [36], 13.06.2015
o.V.: ?MapReduce Tutorial? [37], 04.06.2015
7 Literaturverzeichnis
30
Theoretische_Grundlagen_von_Big_Data
o.V.: "Module 4: MapReduce" [38], 19.06.2015
o.V.: ?MOLAP, ROLAP, And HOLAP?: [39], 15.06.2015
o.V.: "Neuer Superrechnet für die Klimaforschung", [40], 13.06.2015
o.V.: ?OLAP-Würfel OLAP cube? [41], 13.06.2015
o.V.: "Projekt Zukunft: Big Data in der Klimaforschung", [42], 13.06.2015
Reeve, April: "Big Data Architectures - NoSQL Use Cases for Value Databases", [43], 13.06.2015
Romero-Morales, Prof. Dolores / Schroeck, Michael / Shockley, Rebecca / Smart, Dr. Janet/ Tufano, Prof. Peter:
?Analytics: Big Data in der Praxis? [44], 04.06.2015
Rouse, Margaret: ?Online Analytical Processing (OLAP)?, [45], 13.06.2015
Rouse, Margaret: ?Predictive Analytics?, [46], 13.06.2015
Sathi, Dr. Arvind, Big Data Analytics: Disruptive Technologies for Changing the Game, First Edition, Mc Press
(15. November 2012)[47], 10.06.2015
Seufert, Andreas: Entwicklungsstand, Potentiale und zukünftige Herausforderungen von Big Data ? Ergebnisse
einer empirischen Studie, Springer Fachmedien Wiesbaden 2014 Schlieter, Kai: "Algorithmen gegen Gangster",
[48], 12.06.2015
Thede, Gerrit: ?Big Data ? Datenquellen und Anwendungen Ausarbeitung Grundlagen Vertiefung und
Anwendung 1? [49], 14.06.2015
Walker-Morgan, D.J.: "NoSQL im Überblick", [50], 05.06.2015
Wolff, Eberhard / Spichale, Kai / Westphal, Thomas / Hartmann, Andreas: "Datenflut bereitet NoSQL den Weg",
[51], 14.06.2015
8 Gesetzestexte
"Bundesdatenschutzgesetz in der Fassung der Bekanntmachung vom 14. Januar 2003" (BGBl. I S. 66),
BDSG das zuletzt durch Artikel 1 des Gesetzes vom 25. Februar 2015 (BGBl. I S. 162) geändert worden ist. ,
http://www.gesetze-im-internet.de/bdsg_1990/BJNR029550990.html (21.06.2015)
9 Abkürzungsverzeichnis
Abkürzung
Bedeutung
BDSG
Bundesdatenschutzgesetz
CPU
Central Processing Unit
EGA
Elektronische Gesundheitsakte
FOM
Fachhochschule für Oekonomie und
Management
HDFS
Hadoop Distributed File System
HDD
Hard Drive Disk
KMU
Kleine und mittlere Unternehmen
ODBC
Open Database Connectivity
OLAP
Online Analytical Processing
HOLAP
Hybrid Online Analytical Processing
8 Gesetzestexte
31
Theoretische_Grundlagen_von_Big_Data
MOLAP
Multidimensional Online Analytical Processing
ROLAP
Relational Online Analytical Processing
NoSQL
Not only Short Query Language
Precobs
Pre Crime Obersavation System
RSS
Real Simple Syndication
SSD
Solid State Disk
TB
Terabyte
10 Abbildungsverzeichnis
Abbildungs-Nr.
Beschreibung
1
Die drei Dimensionen von Big Data
2
Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den
Jahren 2005 bis 2020 (in Exabyte)
3
Meinungsumfrage:Potenzial von Big-Data-Technologie auf Business-Ebene
4
Gesamte Anschaffungskosten einer Big Data Lösung
5
Prognose zum Umsatz mit Big-Data-Lösungen weltweit von 2011 bis 2017 (in Milliarden
US-Dollar)
6
Abb.6 Umsatz mit Big-Data-Lösungen in Deutschland von 2013 bis 2016 (in Milliarden
Euro)
7
Umfrage zum Nutzen von Big Data für verschiedene Geschäftsbereiche 2012
8
Beipielhafter Aufbau eines Cubes
9
Datenflussschema von MapReduce
10
Vergleich der Geschwindigkeiten von HDD, SSD und Arbeitsspeicher
11
Logo von Apache Hadoop
12
Logo von Apache Cassandra
11 Tabellenverzeichnis
Tabelle-Nr.
1
Beschreibung
Umsatz mit Big Data Lösungen weltweit im Vergleich zum Umsatz in Deutschland
9 Abkürzungsverzeichnis
32