Theoretische_Grundlagen_von_Big_Data Fallstudienarbeit Hochschule: Hochschule für Oekonomie & Management Standort: Essen Studiengang: Bachelor Wirtschaftsinformatik Veranstaltung: Fallstudie / Wissenschaftliches Arbeiten Betreuer: Prof._Dr._Uwe_Kern Typ: Fallstudienarbeit Themengebiet: Big Data Autor(en): Kevin Kleiber, Jan Pfeifer, Christoph Mertens Studienzeitmodell: Abendstudium Semesterbezeichnung: SS15 Studiensemester: 2 Bearbeitungsstatus: Bearbeitung abgeschlossen Prüfungstermin: 30.6.2015 Abgabetermin: 21.6.2015 Name des Autors / der Autoren: Kevin Kleiber, Christoph Mertens, Jan Pfeifer Titel der Arbeit: "Theoretische Grundlagen von Big Data" Hochschule und Studienort: FOM Essen Inhaltsverzeichnis • 1 Einleitung ♦ 1.1 Einführung in die Thematik ♦ 1.2 Zielsetzung der Arbeit ♦ 1.3 Methodischer Aufbau der Arbeit • 2 Grundlagen ♦ 2.1 Definition ♦ 2.2 Dimensionen ◊ 2.2.1 Volume ◊ 2.2.2 Variety ◊ 2.2.3 Velocity ◊ 2.2.4 Veracity ◊ 2.2.5 Value ♦ 2.3 Chancen & Herausforderungen ◊ 2.3.1 Chancen ⋅ 2.3.1.1 Einsatz von Big Data in der Wirtschaft ⋅ 2.3.1.2 Big Data in der Wissenschaft ⋅ 2.3.1.3 Big Data in Medizin ⋅ 2.3.1.4 Weitere Einsatzgebiete von Big Data ⋅ 2.3.1.5 Zusammenfassung ◊ 2.3.2 Herausforderungen ⋅ 2.3.2.1 Herausforderungen für Wirtschaft und Inhaltsverzeichnis 1 Theoretische_Grundlagen_von_Big_Data Institutionen ◊ 2.3.3 Recht/Sicherheit ⋅ 2.3.3.1 Datenschutz ⋅ 2.3.3.2 Privatsphäre ⋅ 2.3.3.3 Datenrisiken ◊ 2.3.4 Meinungstrends • 3 Theoretische Basis ♦ 3.1 Datenquellen ♦ 3.2 Modelle ◊ 3.2.1 Data Warehouse ◊ 3.2.2 Cube ◊ 3.2.3 MapReduce ♦ 3.3 Analyse ◊ 3.3.1 Data Mining ◊ 3.3.2 Predictive Analytics ◊ 3.3.3 OLAP • 4 Technische Implementierungen ♦ 4.1 Theorie ◊ 4.1.1 NoSQL (Not Only Short Query Language) ◊ 4.1.2 In-Memory ◊ 4.1.3 Datenbank-Komprimierung ◊ 4.1.4 Tiering ♦ 4.2 Praxis ◊ 4.2.1 Hadoop ◊ 4.2.2 Cassandra ♦ 4.3 Anwendungsbeispiele ◊ 4.3.1 Verhaltensprognose ◊ 4.3.2 Klimaforschung ◊ 4.3.3 Medizin • 5 Schlussbetrachtung ♦ 5.1 Zusammenfassung ♦ 5.2 Ausblick • 6 Fußnoten • 7 Literaturverzeichnis • 8 Gesetzestexte • 9 Abkürzungsverzeichnis • 10 Abbildungsverzeichnis • 11 Tabellenverzeichnis 1 Einleitung Die nachfolgende Arbeit behandelt die theoretischen Grundlagen von Big Data. 1.1 Einführung in die Thematik Durch die zunehmende Digitalisierung von Inhalten und den zunehmenden Einsatz intelligenter Systeme und ihrer Vernetzung in immer mehr Alltagsgegenständen werden laufend Daten erzeugt, erfasst und an Hersteller oder andere Dienstanbieter übermittelt. Aufgrund der schieren Masse der anfallenden Daten stößt die Verwaltung 1 Einleitung 2 Theoretische_Grundlagen_von_Big_Data und Verarbeitung dieser an ihre Grenzen. Der intelligente und wertschöpfende Umgang mit diesen Datenmengen wird unter dem Synonym ?Big Data? zusammengefasst. 1.2 Zielsetzung der Arbeit Ziel dieser Arbeit ist es, einen Überblick darüber zu schaffen, wofür der Begriff Big Data verwendet wird, welche theoretischen Modelle der zu Big Data gehörenden Datenanalyse und Verwaltung zugrunde liegen, welche technischen Voraussetzungen dafür erfüllt sein müssen und aufzuzeigen in welchen Bereichen der Wirtschaft und Forschung Big Data effektiv genutzt wird und zukünftig genutzt werden kann. 1.3 Methodischer Aufbau der Arbeit Innerhalb dieser Arbeit wird zunächst versucht den Begriff Big Data einzugrenzen sowie einen Überblick über die Chancen und Herausforderungen zu geben die Big Data ermöglicht und welche datenschutzrechtlichen Aspekte hierbei zu beachten sind. Darauffolgend wird ein Überblick über die theoretische Basis von Big Data gegeben und anhand verschiedener Datenquellen und Modellbetrachtungen erläutert. Anschließend werden verschiedene Möglichkeiten der technischen Implementierung der zuvor erläuterten theoretischen Modelle erörtert und einige fachliche Anwendungsbeispiele aufgezeigt. Zum Abschluss wird ein kurzes Fazit gezogen sowie ein Ausblick über die weitere Entwicklung von Big Data gegeben. 2 Grundlagen Dieses Kapitel beschäftigt sich mit dem Begriff Big Data als solchen und grenzt diesen ein. Anschließend werden einige Chancen aufgezeigt die Big Data bietet, aber auch die Herausforderungen herausgestellt die mit dem Einsatz von Big Data Methoden einhergehen. Abschließend werden einige Trends zum Einsatz von Big Data präsentiert, die zeigen, wie es mit dem Thema in naher Zukunft weitergeht. 2.1 Definition Aufgrund des weiten Spektrums an Themen die mit dem Begriff Big Data in Verbindung gebracht werden, gibt es aktuell keine einheitliche oder genaue Definition für den Begriff Big Data. Nach der Kurzerklärung des Gabler Wirtschaftslexikons werden mit dem Begriff Big Data ??große Mengen an Daten bezeichnet, die u.a. aus Bereichen wie Internet und Mobilfunk, Finanzindustrie, Energiewirtschaft, Gesundheitswesen und Verkehr und aus Quellen wie intelligenten Agenten, sozialen Medien, Kredit- und Kundenkarten, Smart-Metering-Systemen, Assistenzgeräten, Überwachungskameras sowie Flug- und Fahrzeugen stammen und die mit speziellen Lösungen gespeichert, verarbeitet und ausgewertet werden.?[1]. Weiterführend bezeichnet Big Data laut dem Big Data Arbeitskreis der BITKOM ?? [die] wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich strukturierten Informationen, die einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang anfallen. Big Data stellt Konzepte, Methoden, Technologien, IT-Architekturen sowie Tools zur Verfügung, um die geradezu exponentiell steigenden Volumina vielfältiger Informationen in besser fundierte und zeitnahe Management-Entscheidungen umzusetzen und so die Innovations- und Wettbewerbsfähigkeit von Unternehmen zu verbessern.?[2]. 1.1 Einführung in die Thematik 3 Theoretische_Grundlagen_von_Big_Data 2.2 Dimensionen Den meisten Definitionen von Big Data ist gemein, dass der Begriff mit den drei Dimensionen Volume (Datenmenge), Velocity (Geschwindigkeit der entstehenden Daten) und Variety (Datenvielfalt) charakterisiert wird (s. Abb.1). Diese werden allen voran von Gartner, dem (nach eigenen Aussagen) weltweit führenden Technologie Forschungsinstitut[3], und der IBM verwendet[4]. Abb.1 Die drei Dimensionen von Big Data[5] 2.2.1 Volume Eine Herausforderung von Big Data ist die Verwaltung und Verarbeitung von riesigen Datenmengen. Insgesamt existieren heute 4,4 Zetabyte an Daten.[6] Das Datenaufkommen verdoppelt sich ca. alle zwei Jahre. Laut aktuellen Statistiken werden im Jahr 2020 40 Zettabyte an Daten erzeugt (vgl. Abb.2)[7]. Damit hätte sich die generierte Datenmenge seit dem Jahr 2005 um etwa den Faktor 300 multipliziert. Abb.2 Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte)[7] In Anbetracht dieser gewaltigen Datenmengen stoßen traditionelle Werkzeuge, wie z.B. relationale Datenbanksysteme an ihre Grenzen. Aus diesem Grund kommen verschiedene Alternativsysteme wie das Framework NoSQL und nicht-relationale Datenbanken, wie MongoDB, Apache Hadoop oder Apache Cassandra zum Einsatz (s. Kapitel 4). 2.2.2 Variety Die für Big Data interessanten Informationen können in unterschiedlichen Formen und Formaten vorliegen. Dabei spielt es keine Rolle, ob es sich hierbei um Log-, Bild- oder (Frei-)Textformate handelt. Ziel ist es, diese unstrukturierten und unsystematischen Datensätze so aufzubereiten, dass diese einheitlich verarbeitet und anschließend daraus ein Mehrwert durch einen neuen Informationsgewinn erzeugt werden kann.[8] Eine besondere Rolle spielen hierbei auch die verschiedenen sozialen Netzwerke wie Facebook, Twitter oder 2.2 Dimensionen 4 Theoretische_Grundlagen_von_Big_Data YouTube, die die unterschiedlichsten Arten von usergenerierten Daten erzeugen.[4] 2.2.3 Velocity Durch die steigende Benutzung von Smart Devices, die zunehmende Vernetzung aller Geräte untereinander und der Einsatz von immer mehr Sensoren werden Daten werden fortlaufend erzeugt. Dadurch nimmt die Bedeutung der Echtzeitdatenverarbeitung immer weiter zu, da die gesamte Masse an Daten nicht zwischengespeichert werden kann.[4] 2.2.4 Veracity Zusätzlich zu den drei zuvor genannten Dimensionen die Big Data beschreiben, wird ein weiterer Aspekt insbesondere für wirtschaftliche Entscheidungen immer wichtiger: Die Glaubwürdigkeit der zur Verfügung stehenden Daten und deren Analyseergebnisse. Nach IBM vertrauen ein Drittel aller führenden IT Entscheider nicht den Analyseergebnissen von Big Data.[4]Ein Grund hierfür ist, dass es bei der zunehmenden Masse an Daten immer schwieriger wird, die wirklich relevanten Informationen herauszufiltern. Die übrigen Daten sind nicht zielführender ?Datenmüll?, welcher von menschlichen Mitarbeitern besser verarbeitet werden kann als von spezialisierter Analysesoftware.[9] Damit die zu analysierenden Daten brauchbar sind, müssen diese eindeutig identifizierbar, vollständig, umfassend und vertrauenswürdig sein.[9] Werden also für eine zu analysierende Fragestellung eine falsche Datenbasis oder ein unpassendes Analysemodell gewählt, kann das maßgeblich die Aussagekraft der Ergebnisse beeinflussen. 2.2.5 Value Ein weiterer Begriff der immer öfter mit Big Data in Verbindung gebracht wird ist Value. Value beschreibt den Mehrwert, der durch die Analyse aller anfallenden Daten erzeugt wird. Durch zielgerichtete Auswertungen können aus vorhandenen Daten neue Informationen gewonnen werden, die die Grundlage für weitere Geschäftsentscheidungen bilden können.[8] Informationen z.B. über genaue Abverkaufszahlen werden transparenter, stehen schneller zur Verfügung und können dazu genutzt werden, Vorhersagen über die Zukunft zu treffen und zielgerichtete Geschäftsentscheidungen zu treffen, Geschäftsprozesse zu verbessern und damit eine höhere Monetarisierung zu erreichen.[10][11] 2.3 Chancen & Herausforderungen Big Data ist ein unaufhaltbarer Trend dem sich niemand mehr verschließen kann. Unternehmen wie Konsumenten sind gleichermaßen von den technischen Entwicklungen betroffen. Die Sammlung, Verarbeitung und Auswertung aller möglichen Daten kann enorme wirtschaftliche Optimierungspotenziale mit sich bringen, gleichzeitig aber auch die Privatsphäre jedes Einzelnen massiv einschränken, bis hin zu der Vorstellung, dass die Vision des gläsernen Menschen in Zukunft Wirklichkeit werden kann. 2.3.1 Chancen Die Chancen und Möglichkeiten, die sich aus der Kombination vom Big Data und der zunehmenden Vernetzung aller Lebensbereich ergeben, sind gewaltig. Dies belegen unter anderem unterschiedliche Untersuchungen und des Studien McKinsey Global Institute[12]. 2.2.2 Variety 5 Theoretische_Grundlagen_von_Big_Data 2.3.1.1 Einsatz von Big Data in der Wirtschaft Die BITKOM fasst die möglichen Chancen in fünf wesentlichen Punkten zusammen[13]: • Schaffung von Transparenz über die eigenen Geschäftsprozesse. ♦ Auf dieser Basis können bessere Geschäftsentscheidungen getroffen werden, wodurch eine größere Wertschöpfung erzielt werden kann. • Aufgrund der großen Datenbasis können erweiterte Simulationen und Experimente durchgeführt werden um die Unternehmensleistung zu steigern. • Verbesserter Kundenzugang durch leichtere Kundensegmentierung und bedarfsgerechte Waren- und Dienstleistungsangebote. Durch eine zielgerichtete Kundenansprache können unter anderem Ausgaben für Marketingkampagnen gesenkt werden. • Unterstützung von Entscheidungsprozessen für das Management durch Embedded Analytics und voll automatisierten Prozessen zur Entscheidungsfindung. Die Auswertung großer Datenmengen können dabei helfen Risiken bei wichtigen Geschäftsentscheidungen zu minimieren. • Es können Chancen für neue Geschäftsmodelle, Produkte und Dienstleistungen entstehen wie z.B. voll individualisierte Produktangebote die perfekt auf jeden einzelnen Kunden zugeschnitten sind. Darüber hinaus werden von der BITKOM Beispiele gebracht, die den wirtschaftlichen Nutzen von Big Data näher veranschaulichen. Unter anderem kann Big Data durch Machine-to-Machine-Kommunikation (Industrie 4.0) produzierenden Unternehmen dabei helfen, ihre Fertigungsprozesse zu optimieren und Kosten zu senken. Es können aber auch Social-Media Analysen dazu beitragen, die Entwicklungen einer neuen Produktgeneration für die Forschungs- und Entwicklungsabteilungen in die richtige Richtung zu lenken.[13] Eine von Statista bereitgestellte und von IDC durchgeführte Meinungsumfrage unter 254 Unternehmen in Deutschland aus dem Jahr 2012 zum Thema ?Potenzial von Big-Data-Technologie auf Business-Ebene? ergab, dass Unternehmen vor allen Dingen Potenziale in den Bereichen Kostenoptimierung (45%), Informationsgewinnung (42%) und Informationsmanagement sehen (Vgl. Abb.3).[14] Neben wirtschaftlichen Aspekten birgt der Einsatz von Big Data auch noch viele Chancen für weitere Bereiche. Abb.3 Meinungsumfrage:Potenzial von Big-Data-Technologie auf Business-Ebene[14] 2.3.1.2 Big Data in der Wissenschaft Aufgrund der schieren Masse an unterschiedlichen Daten und der immer weiter steigenden Leistung von Computersystemen können diese dazu genutzt werden, immer umfassendere Simulationen und Analysen durchzuführen, wie beispielsweise in der Klimaforschung um genauere Wettervorhersagen machen zu können. Big Data kann aufgrund seiner Eigenschaften auch dazu verwendet werden, neue Erkenntnisse im Bereich der Verhaltens- oder Epedemieforschung zu gewinnen (s. Kapitel 5). Im Bereich der Verhaltensforschung können z.B. soziale Netzwerke, allen voran Facebook mit seinen knapp 1,4 Milliarden aktiven Nutzern[15], dazu genutzt werden Auswertungen über Verhaltensmuster einzelner Personen und Personengruppen durchzuführen. Im 2.3.1.1 Einsatz von Big Data in der Wirtschaft 6 Theoretische_Grundlagen_von_Big_Data Bereich der Epedemieforschung im Zusammenhang mit Big Data lässt sich als Beispiel das Projekt ?Google Flu Trends? anführen. Hierbei versucht Google anhand der Häufigkeit von bestimmten Suchbegriffen die Anzahl an Grippefällen in einer bestimmten Region abzuschätzen.[16] 2.3.1.3 Big Data in Medizin Die zunehmende Digitalisierung aller Bereiche wirkt sich auch auf das Gesundheitswesen aus. In medizinischen Praxen und Krankhäusern nimmt der Einsatz von elektronisch gestützten Untersuchungsverfahren wie die Anfertigung von Ultraschallbildern oder der Einsatz von Computertomographie immer weiter zu. Allerdings stehen diese Informationen nur eingeschränkt anderen Ärzten oder Kliniken zur Verfügung, da es aktuell keine institutionsübergreifenden Standards gibt, die einen solchen Informationsaustausch ermöglichen.[17] Eine übergreifende Datenverwaltung von Patienteninformationen die in einer elektronischen Gesundheitsakte (EGA) sowohl von Ärzten und Kliniken, als auch von den Patienten selbst gepflegt werden kann, könnte zum einen den bürokratischen Verwaltungsaufwand einzelner Patientenakten und den Austausch solcher zwischen einzelnen Kliniken maßgeblich verringern.[18] Zum anderen eröffnen die steigende Benutzung von Fitness-Trackern (Wearable devices) sowie Smartphoneapps wie z.B. Runtastic mit einer weltweiten Downloadzahl von über 70 Millionen[19] in der Bevölkerung neue Möglichkeiten Gesundheitsdaten zu erfassen und auszuwerten. Auf Grundlage dieser zusätzlichen Daten können neue medizinische Erkenntnisse gewonnen werden, die dazu beitragen Patienten eine bessere, individuellere medizinische Versorgung und Beratung anzubieten. 2.3.1.4 Weitere Einsatzgebiete von Big Data Neben den wirtschaftlichen, wissenschaftlichen oder medizinischen Potenzialen, die Big Data bietet, kommen auch noch viele weitere Sektoren in Frage, die vom Einsatz von Big Data profitieren können. Dazu gehören allen voran die Finanzwirtschaft, der Handel allgemein, die Marketing-, Tourismus-, Logistik. und die Automobilbranche. Diese Thematiken werden in separaten Fallstudien des Sommersemesters 2015 innerhalb des winfwiki-Systems der Fachhochschule für Oekonomie und Management (FOM) behandelt und erörtert.[20] 2.3.1.5 Zusammenfassung Die Möglichkeiten die sich durch den Einsatz von Big Data und Big Data Technologien erschließen sind vielfältig. Im Kern lassen sich die Hauptvorteile beim Einsatz von Big Data in drei wesentlichen Punkten zusammenfassen, der allen Bereichen gemein ist: 1. Schaffung neuer Erkenntnisse aus bestehenden Daten 2. Steigerung von Produktivität und Innovationsfähigkeit 3. Reduzierung von Kosten bzgl. Informationsverarbeitung und Informationsaustausch 2.3.2 Herausforderungen Neben den Chancen, die der Einsatz von Big Data Unternehmen, Institutionen und der Gesellschaft bietet, müssen diese auch mit der Vielzahl an Informationen umgehen können um aus den vorhandenen Daten einen Nutzen ziehen zu können. Bei Betrachtung und Analyse der vorhandenen Datenmassen gilt es eine Vielzahl an Hindernissen zu überwinden und Fragestellungen zu klären, sodass aus gesetzlichen, privaten oder ethischen Gründen keine negativen Auswirkungen von Big Data befürchtet werden müssen. 2.3.1.2 Big Data in der Wissenschaft 7 Theoretische_Grundlagen_von_Big_Data 2.3.2.1 Herausforderungen für Wirtschaft und Institutionen Aufgrund der Eigenschaften von Big Data (s. Kapitel 2.2) und der Schnelllebigkeit der Aktualität der Daten ist es für Unternehmen und Institutionen erforderlich eine geeignete Big Data Strategie zu entwerfen und zu verfolgen. Hierdurch ?[?] legen Unternehmen das Fundament, bevorstehende Veränderungen frühzeitig zu erkennen und sich dafür optimal aufzustellen.?[21] Dazu gehört auch, dass aus einer Vielzahl von Hard-und Softwareanbietern ausgewählt werden muss (s. Kapitel 4), um die notwendigen technischen Voraussetzungen zu schaffen. Darüber hinaus werden Spezialisten benötigt, die in der Lage sind mit der Masse an unterschiedlichen Daten umzugehen und für das Business die geeigneten Fragestellungen zu entwerfen um einen möglichst großen Nutzen aus den vorhandenen Daten zu ziehen um das Unternehmen optimal zu beraten und zu unterstützen. IBM bezeichnet diese Spezialisten als ?Data Scientist?[22]. Als eine der größten Herausforderungen für den Einsatz von Big Data Lösungen wird aktuell das fehlende Knowhow in diesem Geschäftsbereich angeführt.[23] Außerdem können bei Einführung von Big Data Lösungen hohe, initiale Beratungs- und Systemintegrationskosten entstehen, die viele kleinere mittelständische Unternehmen (KMU) vor einer Einführung von Big Data Lösungen zögern lassen. Die folgende Abbildung zeigt nach BITKOM ?[?] die gesamten Anschaffungskosten einer Lösung, inklusive Hardware, Software, Installation und Wartung für das erste Jahr, pro Terrabyte (TB) an Daten.?[24] Abb.4 Gesamte Anschaffungskosten einer Big Data Lösung[25] Wie in Abbildung 4 zu erkennen, können je nach gewähltem Verfahren Kosten in unterschiedlichen Größenordnungen zwischen 100 und 180.000 US$ entstehen. Dabei zielen die hochpreisigen Lösungen vor allem auf In-Memory Verfahren mit umfassenden Datenverarbeitungsmöglichkeiten ab, während günstigere Lösungen auf die Datenspeicherung setzen. 2.3.3 Recht/Sicherheit Beim Umgang mit großen Datenmengen gibt es gewisse Spielregeln an die sich die Anbieter und Verwender von Big Data Lösungen halten müssen. Damit sind in erster Linie gesetzliche Anforderungen gemeint, die insbesondere die Datenverarbeitung von und den Zugang zu personenbezogenen Daten umfassen. 2.3.2.1 Herausforderungen für Wirtschaft und Institutionen 8 Theoretische_Grundlagen_von_Big_Data 2.3.3.1 Datenschutz Datenschutz und Big Data sind ein schwieriges Thema. Aufgrund der schieren Masse an unterschiedlichen Informationen ist es insbesondere für amerikanische Internetunternehmen wie Google und Facebook ein leichtes, die vorhandenen Nutzerdaten zu verknüpfen und zu analysieren. Die vermeintlich kostenlosen, angebotenen Dienste bezahlt jeder einzelne Nutzer jedoch mit der Preisgabe seiner Daten, die es den Unternehmen ermöglichen ein detailliertes Nutzerprofil zu erstellen und für eigene Geschäftspraktiken (wie z.B. personalisierte Werbung durch z.B. Google Ads) zu verwenden. Deutschland hat eines der restriktivsten Datenschutzgesetze der Welt. Entsprechend ergeben sich hierdurch einige Fragestellungen, die es für Unternehmen hierzulande schwierig macht mit dem Thema Big Data umzugehen. In anderen Ländern wie den USA ist die Gesetzgebung zum Thema Datenverarbeitung weit weniger streng, wodurch dort weitreichende Analysen auf Grundlage personenbezogener Daten und die Entwicklung neuer Verfahrensweisen zur Datenanalyse wesentlich vereinfacht wird. In Deutschland kann Big Data nur dann gewinnbringend eingesetzt werden, wenn die Analyseverfahren mit dem deutschen Datenschutzrecht zu vereinbaren sind.[21] Nach dem Bundesdatenschutzgesetz (BDSG) wird zur Erhebung, Verarbeitung und Nutzung personenbezogener Daten die ausdrückliche Zustimmung der Betroffenen benötigt. Darüber hinaus sind diese Daten zweckgebunden, d.h. die erhobenen Daten dürfen nur in dem Kontext verwendet und verarbeitet werden, für den sie erhoben worden sind.[26] Allerdings kommt es immer auch auf das zugrundeliegende Vertragsverhältnis zwischen Konsumenten und Unternehmen an für das es Sonderregelungen innerhalb des BDSG gibt. Damit z.B. Kreditunternehmen und Zahlungsdienstleister Missbrauch und Betrugsversuche erkennen und vorbeugen können, müssen die Transaktionsdaten der Kunden überwacht und analysiert werden um ungewöhnliche Zahlungstransaktionen zu entdecken (Fraud Detection). Dies ist mit dem BDSG vereinbar, da das Unternehmen durch diese Verfahrensweise seinen vertraglichen Verpflichtungen nachkommt. Genauso können Big Data Analysen dazu genutzt werden, die Bewertung der Kreditwürdigkeit eines potentiellen Kunden zu berechnen. Hierbei können verschiedene Aspekte wie Alter, Beruf, Einkommen usw. betrachtet werden. Theoretisch könnte das komplette Verhalten des potentiellen Kunden ausgewertet werden, um so das persönliche Kredit-Scoring zu berechnen.[27] Laut dem BDSG dürfte hierbei nur nicht auf sensible Daten wie der bisherigen Gesundheitsgeschichte, der Ethnie oder der Staatsangehörigkeit zurückgegriffen werden.[28] In der Versicherungsbranche werden ebenfalls auf verschiedene Statistiken zurückgegriffen um individuelle Risikoprofile zu erstellen, auf deren Grundlage sich die Versicherungssumme berechnet (z.B. bei Einteilung der Schadensfreiheitsklasse oder bei ?pay as you drive?-Modellen in der Kfz-Versicherung).[27] Sollen personenbezogene Daten an Dritte weitergegeben werden, spielt die Anonymisierung der Daten eine besondere Rolle. Dabei müssen alle Informationen entfernt oder pseudonymisiert werden, sodass keine Rückschlüsse mehr auf die eigentliche natürliche Person möglich sind.[29] Dabei muss die Pseudo- und Anonymisierung so weit wie möglich durchgeführt werden, da es aufgrund der Vielzahl an unterschiedlichen Daten und Datenquellen durch Kombination dieser Daten und effektiven Analyseverfahren möglich ist, Rückschlüsse auf persönliche Details eines Einzelnen in Erfahrung zu bringen. 2.3.3.2 Privatsphäre Durch die Möglichkeiten von Big Data Daten aus jeder beliebigen Quelle auszuwerten, kann in der Gesellschaft der Eindruck entstehen, dass jeder Einzelne ständig von Firmen oder der Regierung beobachtet wird. Insbesondere die Auswertung von Informationen, die in sozialen Medien gepflegt werden oder aber auch die reine Beobachtung des Einkaufverhaltens, lassen sehr genaue Rückschlüsse auf den Charakter, Gewohnheiten, Bedürfnisse und Interessen eines Nutzers schließen. Diese Einsichten können von Firmen dazu genutzt werden hochgradig personalisierte Werbung für einen Kunden zu produzieren, um so vermeintliche neue Kaufanreize zu schaffen. Ein in diesem Zusammenhang oft genanntes Beispiel ist der US Einzelhändler Target. Charles Duhigg, ein Autor der New York Times, hat einen Einblick in die Data-Mining Prozesse des Unternehmens gewinnen können. Über jeden Kunden werden so viele Informationen wie möglich gespeichert und herangezogen, dass es 2.3.3.1 Datenschutz 9 Theoretische_Grundlagen_von_Big_Data dem Unternehmen schließlich ermöglicht, mit einer Wahrscheinlichkeit von 87 Prozent zu bestimmen, ob eine Kundin schwanger ist und wann sie auf den Monat genau ihr Kind erwartet. Die personalisierte Werbung wurde so perfekt, dass sich viele Leute begannen unwohl damit zu fühlen und begannen die Systematik der Kundenansprache des Unternehmens zu hinterfragen. Dies führte so weit, dass Target nun absichtlich weniger perfekte Werbung macht, damit die Kunden nicht weiter misstrauisch werden.[30][31] In diesem drastischen Fall wird deutlich wie schnell die Kundenbindung aufgrund von personalisierter Werbung Schaden nehmen kann. Solche Vorfälle sind oftmals der Anlass für öffentliche Diskussionen darüber, in wie weit Unternehmen personenbezogene Daten zu für eigene Marketingzwecke verwenden sollten und dürfen. Dabei ist es notwendig zwischen dem Nutzen für den Betroffenen und dem Nutzen für Unternehmen zu differenzieren und ein Gleichgewicht zu finden, damit auf der einen Seite die persönlichen Informationen des Kunden nicht ausgebeutet werden und auf der anderen Seite die Unternehmen gewinnbringend mit diesen Daten arbeiten können. Um also Datenmissbrauch verhindern zu können, sollte sichergestellt werden, dass die Betroffenen zu jeder Zeit Zugriff auf und Kontrolle über ihre eigenen Daten erhalten. 2.3.3.3 Datenrisiken Natürlich können personenbezogene Daten nicht nur im Sinne von Auswertungen, mit dem Ziel Menschen zu überwachen und zu manipulieren, missbraucht werden. Bei der Speicherung und Verarbeitung von Daten, muss auch immer die Frage gestellt werden, wer Einblick in diese Daten erhalten darf und wer auf diese Daten zugreifen kann. Nur ein eingeschränkter Kreis von autorisierten Systemadministratoren sollten direkten Zugriff auf die gesammelten Rohdaten haben. Andernfalls könnten diese sensiblen Daten zielgerichtet manipuliert werden, um so z.B. geschäftliche Analysen zu erschweren oder komplett zu verfälschen.[32] Eine andere Möglichkeit wäre ein gezielter Datendiebstahl bei dem große Mengen an sensiblen Daten, wie Adress-, Passwort oder Finanzdaten entwendet werden. Dabei kann ein solcher Diebstahl nicht nur von intern sondern auch von extern durch gezielte Hackerangriffe erfolgen. Der massivste Hackerangriff der letzten Jahre traf die US Bank JP Morgan, bei dem rund 83 Millionen Datensätze von Kunden der Bank entwendet wurden.[33] Dieses Beispiel zeigt, welch große Herausforderung das Thema Datensicherheit für die Unternehmen ist. Datendiebstähle in solchen Größenordnungen können das Vertrauensverhältnis der Kunden oder Geschäftspartner zum Unternehmen massiv schädigen, sodass diese die Zusammenarbeit sogar ganz einstellen können. Die große Herausforderung hier besteht also darin, sicherzustellen das insbesondere die personenbezogenen Daten sowohl von intern als auch von extern bestmöglich durch Missbrauch geschützt werden müssen. 2.3.4 Meinungstrends Das Thema Big Data ist ein unaufhaltbarer Trend in allen Bereichen der immer weiter an Bedeutung gewinnt. Um in Zukunft bestens auf diese Thematik vorbereitet zu sein, müssen Unternehmen schon heute reagieren, um später auch weiterhin wettbewerbsfähig zu bleiben. Laut einer Prognose von Wikibon aus dem Jahr 2014 zum weltweiten Umsatz mit Big Data Lösungen basierend auf Erhebungen zwischen 2011 bis 2013 steigt der Umsatz der Anbieter kontinuierlich an, (bis im Jahr 2017 bereits mehr als 50 Mrd. US$, s. Abb. 5)[34]. Dies zeigt, dass viele Unternehmen bereits den potenziellen Wert hinter Big Data erkannt haben. 2.3.3.2 Privatsphäre 10 Theoretische_Grundlagen_von_Big_Data Abb.5 Prognose zum Umsatz mit Big-Data-Lösungen weltweit von 2011 bis 2017 (in Milliarden US-Dollar)[34] Der Umsatz, der mit Big Data Lösungen allein in Deutschland gemacht wird, steigt laut einer Prognose der BITKOM ebenfalls jedes Jahr im Schnitt um ca. 53 Prozent an (s. Abb. 6)[35]. Abb.6 Umsatz mit Big-Data-Lösungen in Deutschland von 2013 bis 2016 (in Milliarden Euro)[35] Setzt man die vorherigen beiden Prognosen zueinander in Beziehung, lässt sich eine interessante Entwicklung feststellen: Zwar steigt der weltweite Umsatz an Big Data Lösungen jedes Jahr im Schnitt um 28,5 Mrd. US$ an, über die Jahre hinweg sinkt das Umsatzwachstum hingegen auf knapp achtzehn Prozent (2016 vgl. Tabelle 1). Dabei nimmt der Anteil des Umsatzes der in Deutschland gemacht wird, am weltweiten Wachstum über die Jahre immer zu. Überhaupt liegt das Umsatzwachstum innerhalb Deutschlands weit über dem weltweiten Wachstum. Dies kann als ein Indiz dafür gesehen werden, dass die deutschen Unternehmen die Potenziale von Big Data erkannt haben und sich entsprechend für den zukünftigen Markt entsprechend aufstellen. Anteil BRD Jahr am weltweiten Wachstum 2011 7,3 n/a n/a n/a n/a 2012 11,8 61,64% 2,5 n/a 21,19% 2013 18,6 57,63% 3.90 56,00% 20,97% 2014 28,5 53,23% 6,20 58,97% 21,75% 2015 38,4 34,74% 9,40 51,61% 24,48% 2016 45,3 17,97% 13,60 44,68% 30,02% 2017 50,10 10,60% n/a n/a n/a Durchschnitt 28,57 39,30% 7,12 52,82% 23,68% Dabei sehen deutsche Unternehmen laut einer Umfrage von IDC den größten Business-Nutzen vor allem in den Geschäftsbereichen Controlling (35%), Finanzplanung und Budgetierung (28%) und Preisoptimierung (23%) vgl. Abb. 7.[36] Umsatz Welt in Mrd. US$ 2.3.4 Meinungstrends Wachstum zum Vorjahr Welt Umsatz BRD in Wachstum zum Mrd. ? Vorjahr in BRD 11 Theoretische_Grundlagen_von_Big_Data Abb.7 Umfrage zum Nutzen von Big Data für verschiedene Geschäftsbereiche 2012[36] 3 Theoretische Basis Dieses Kapitel wird auf die theoretische Basis von Big Data eingehen. Hierbei wird zuerst beschrieben, durch welche Datenquellen die teils sehr großen Datenmengen zustande kommen. Daraufhin werden einige Modelle beschrieben, welche im Bereich Big Data Anwendung finden, um große Datenmengen auszuwerten. Im letzten Bereich wird auf beispielhafte Verfahren eingegangen, die von den Datenquellen bezogenen Daten zu analysieren. 3.1 Datenquellen Eine Studie des IBM Institute for Business Value in Zusammenarbeit mit der Sa?d Business School im Jahr 2012 über die Bedeutung und den Stand der Umsetzung von bzw. des Nutzengewinns durch Big Data, in der mehr als 1100 Fach und IT-Verantwortliche aus 95 verschiedenen Ländern befragt wurden, ergab, dass die meisten Firmen Ihre Big Data Systeme bislang hauptsächlich auf betriebsinterne Daten stützen. Hierzu zählen neben E-Mails, Protokoll- und Transaktionsdaten und Daten aus Enterprise Resource Planning-Lösungen auch Logdaten. Dies sind Daten, die Maschinen und IT-Systeme erfassen, um verantwortlichen Personen einen detaillierten Einblick in das automatisierte Geschehen zu gewähren. Weiterhin müssen auch Daten, welche durch andere betriebseigene Programme, wie beispielsweise einer Einkaufsanwendung oder einer möglichen unternehmenseigenen Kollaborationsplattform, sowie Bewerberdaten etc. genannt werden[37]. Jedoch wird auch beschrieben, dass in einigen Firmen sogar die Auswertung der internen Daten, bedingt durch das extrem hohe Volumen an Daten, nur begrenzt möglich ist und dementsprechend noch viele Daten ungenutzt bleiben, welche noch einen großen Mehrwert bieten können. Daher besteht das Bestreben in den Firmen, zuerst das volle Potenzial dieser Daten auszunutzen, um daraufhin die ausgewerteten internen Daten um Informationen aus externen Datenquellen zu erweitern[37]. In einer durch die Hochschule für angewandte Wissenschaften Hamburg im Jahre 2014 veröffentlichte Master-Arbeit wird vor Allem auf externe Datenquellen eingegangen. Der Autor beschreibt hier, dass Smartphones eine Quelle für eine Vielzahl verschiedener Daten, wie beispielsweise Mobilitätsdaten oder Informationen zum allgemeinen Nutzerverhalten darstellen. Darüber hinaus wird dargestellt, dass Firmen durch das Anbieten einer App für Smartphones weitere Daten generieren können, was sowohl komplett transparent für den Nutzer geschehen kann, wie auch freiwillig durch diesen eingeleitet werden kann[38]. Weiterhin wird auf soziale Medien als sehr umfangreiche Quelle für Big Data eingegangen, wobei der Gewinn nicht nur aus den eigentlichen Informationen, die der Nutzer über sich preisgibt, sondern auch aus Zeitdaten und Geodaten, welche Rückschlüsse auf die räumlichen und zeitlichen Gegebenheiten die mit den Informationen verbunden sind, zulassen[38]. Zu den soziale Medien müssen allerdings nicht nur soziale Netzwerke, wie beispielsweise Facebook oder Twitter gezählt werden, sondern auch Weblogs, Microblogs, Wikis, Chats, RSS-Feeds (Real Simple 3 Theoretische Basis 12 Theoretische_Grundlagen_von_Big_Data Syndication) etc[39]. Zudem stellen auch Sensordaten eine reichhaltige Informationsquelle dar[38]. Dies sind Daten, welche zum Beispiel durch in einem Fahrzeug verbaute elektrische Komponenten erzeugte Informationen sind, die verschiedenste mit dem Fahrzeug verbundene Zustände, wie dem Reifendruck oder dem aktuellen Benzinverbrauch beinhalten. Eine weitere firmenexterne Datenquelle stellen durch Fremdfirmen durchgeführte Umfragen und Forschungen sowie wissenschaftliche Datenbanken (Springer etc.) dar. Als wichtiger Punkt bei der Auswahl der Datenquellen für ein Unternehmen gilt die Verlässlichkeit der Daten. Vor Allem Soziale Medien als Datenquelle sind vergleichsweise unzuverlässig, da nicht jede Bevölkerungsgruppe oder Altersgruppe an sozialen Medien teilnimmt und somit kein repräsentativer Schnitt durch die Bevölkerung erreicht werden kann[38]. 3.2 Modelle Die im folgenden Kapitel beschriebenen Modelle, sind exemplarische Darstellungen von theoretischen Möglichkeiten der Datenauswertung, welche im Bereich Big Data Anwendung finden. Die ausgewählten dienen ausschließlich der Veranschaulichung und sollen nicht den Charakter einer bewertenden Rangliste von Modellen haben. 3.2.1 Data Warehouse Ein Data Warehouse ist ein System, dessen Aufgabe es ist, Anwendungen, die vom Management verwendet werden mit den benötigten Daten zu versorgen und somit strategische Entscheidungen zu unterstützen[40]. Es sollte separat zu den bestehenden produktiv genutzten Systemen aufgebaut und betrieben werden[41] und wird zu Analyse-Zwecken betrieben. Ein weiteres Ziel, neben der Unterstützung des Managements, stellt der Aufbau eines Wissensmanagements dar[42]. Generell gesagt beinhaltet ein Data Warehouse also Daten, die der Problemanalyse dienen. Daher stellt ein Data Warehouse die Datenquelle für verschiedenste analytische Modelle, wie dem Data Mining (siehe Kapitel 3.3.1) dar. Die zentrale Komponente eines Data Warehouse ist eine Datenbank[43]. Sie beherbergt Kopien von Daten, die in regelmäßigen Abständen zeitgesteuert und automatisiert aus den Datenbanken der Produktivsysteme importiert werden[42]. Hierbei besteht die Herausforderung, dass die produktiven Systeme durch diesen Vorgang nicht beeinflusst werden sollen. Daher wird der Zeitplan üblicherweise so gestaltet, dass dieser Prozess in belastungsarmen Zeiträumen (Beispielsweise nachts oder an Wochenenden) stattfindet[43]. Auf die Datenbank besteht für den Endanwender in den meisten Fällen ausschließlich lesender Zugriff[42], da die Daten, die in ihr gespeichert sind, wie bereits erwähnt, Duplikate der Daten von Produktivsystemen sind und als solche unveränderlich sein sollten. Weiterhin wird gewöhnlich auf Normalisierung der Daten in der Datenbank des Data Warehouses verzichtet, um eine Beschleunigung des Analyseprozesses zu erreichen[43]. Die Datenbanken bestehen oft aus Fakten- und Dimensionstabellen. Die Faktentabellen beinhalten die eigentlichen Messgrößen, während die Dimensionstabellen weitere, diesen zugeordnete Merkmale enthält. Die Dimensionstabellen sind häufig im Snowflake-Schema weiter verschachtelt, was ebenfalls Performance-Vorteile birgt[43]. Da das komplette Data Warehouse für die einzelnen Anwendungsfälle oftmals viel zu komplex ist, werden häufig eigens hierfür erstellte kleine Teilbereiche des kompletten Data Warehouses, sogenannte Data Marts, definiert, 3.1 Datenquellen 13 Theoretische_Grundlagen_von_Big_Data welche Ihre Daten beispielsweise per OLAP-Verfahren (Online Analytical Processing - genaueres siehe Kapitel 3.3.3) abrufen[43]. 3.2.2 Cube Im Microsoft TechNet, einem Online-Dienst, der Herstellerinformationen zu Microsoft-Produkten bereitstellt, wird der Cube als die bekannteste und meistgenutzte Form von OLAP (siehe Kapitel 3.3.3) beschrieben, welche ihre Daten zumeist aus dem firmeninternen Data Warehouse (siehe Kapitel 3.2.1) bezieht. Es handelt sich hierbei um eine schnelle und einfache Art der Datenauswertung, die nichtdestotrotz ein sehr umfangreiches und mächtiges Werkzeug für Controlling-Einheiten und das Management eines Unternehmens darstellen kann[44]. Ein Cube ist eine Zusammensetzung aus Dimensionen und Maßstäben. Die Dimensionen beinhalten Daten zu dem Merkmal, welches ausgewertet werden soll, die Maßstäbe sind die den Dimensionen zugeordneten Kennzahlen.[44]. Theoretisch ist eine unbegrenzte Anzahl an Dimensionen abbildbar[45], eventuelle Einschränkungen sind abhängig vom jeweiligen Hersteller (Limitierung des Microsoft SQL Server: 128 Dimensionen)[44]. Die Applikation, die der Endanwender ausführt, setzt sich auf Grundlage der Benutzerinteraktion eine Abfrage zusammen. Sobald der Datenbankserver hierauf ein Ergebnis geliefert hat, baut die Applikation eine Ansicht des Cubes auf. Dies hat den Vorteil, dass der Endanwender keine Datenbankabfragen selber schreiben muss und somit keine Kenntnisse über die Syntax der Datenbank-Abfragesprache benötigt[44]. Die möglichen Datenquellen eines Cubes sind zum einen, wie bereits eingangs erwähnt, das firmeninterne Data Warehouse (siehe Kapitel 3.2.1), sowie andererseits eine möglicherweise vorher zu diesen Reporting-Zwecken erstellte Datenbank. Weiterhin kommen vom Server anhand vorabberechnete Daten (Aggregationen), der Cache des Endgeräts, mit dem der Endanwender arbeitet oder eine Mischung aus all diesen Quellen dazu[44]. Ein Server kann mehrere Cubes bereitstellen, sodass beispielsweise die Abteilungen eines Unternehmens jeweils einen eigenen Cube nutzen können. Dies bietet den Vorteil, dass die generierbaren Daten möglichst individuell auf die Bedürfnisse des Anwenders zugeschnitten werden können, ohne die Bedürfnisse anderer Anwender zu vernachlässigen[44]. Dies bedeutet, dass Beispielsweise ein Unternehmen, welches mehrere Tochtergesellschaften hat, welche wiederum untergeordnete Verwaltungseinheiten betreut, denen eine Vielzahl an Verkaufsstandorten zugeordnet sind, diese komplexe Struktur innerhalb einer Dimension des Cubes darstellen kann. Der Endanwender kann hier diese Struktur beliebig weit aufbrechen, sodass er ? je nach Komplexität der zugrunde liegenden Daten - sich beispielsweise sowohl die gesamten Umsätze einer Tochtergesellschaft des Jahres als auch die Umsatzzahlen eines einzelnen Verkaufsstandortes für einen bestimmten Tag für einen Artikel anzeigen lassen kann. Hierzu müssen nur durch den Endanwender in der Applikation die Dimensionen entsprechend weit aufgebrochen werden. Das grundlegende Vorgehen hierbei ist, dass der Server, der den Cube bereitstellt, während der Berechnung die Daten der untergeordneten Elemente in den übergeordneten Elementen aggregiert bzw. summiert[44]. ? 3.2.1 Data Warehouse 14 Theoretische_Grundlagen_von_Big_Data Abb.8 Beipielhafter Aufbau eines Cubes[46] Jede Dimension eines Cubes kann hierarchisch unterteilt werden[45]. Dies bedeutet, dass beispielsweise ein Unternehmen, welches mehrere Tochtergesellschaften hat, welche wiederum untergeordnete Verwaltungseinheiten betreut, denen eine Vielzahl an Verkaufsstandorten zugeordnet sind, diese komplexe Struktur innerhalb einer Dimension des Cubes darstellen kann. Der Endanwender kann hier diese Struktur beliebig weit aufbrechen, sodass er ? je nach Komplexität der zugrunde liegenden Daten - sich beispielsweise sowohl die gesamten Umsätze einer Tochtergesellschaft des Jahres als auch die Umsatzzahlen eines einzelnen Verkaufsstandortes für einen bestimmten Tag für einen Artikel anzeigen lassen kann. Hierzu müssen nur durch den Endanwender in der Applikation die Dimensionen entsprechend weit aufgebrochen werden. Das grundlegende Vorgehen hierbei ist, dass der Server, der den Cube bereitstellt, während der Berechnung die Daten der untergeordneten Elemente in den übergeordneten Elementen aggregiert bzw. summiert[44]. Abbildung 8 verdeutlicht das im letzten Abschnitt beschriebene Prinzip des ?Drilldown?, also dem hierarchischen Darstellung der Dimensionen. Der abgebildete Cube besteht aus drei Dimensionen (Source, Route und Time), in welchen er zwei Maßstäbe angibt (Die Anzahl an Paketen und wann das letzte Paket in diesem Knotenpunkt bezogen wurde). Dies macht den Cube zu einem sehr mächtigen Analysewerkzeug, da der Anwender sowohl einen generellen Überblick über viele Datenelemente als auch einen präzisen Einblick in einzelne Datenelemente haben kann[44]. Der Cube ist sehr gut geeignet für die Analyse von Zahlendaten, Textdaten oder ähnliche weniger strukturierte Daten ist der Cube weniger geeignet[45]. 3.2.3 MapReduce MapReduce ist ein Programmiermodell, welches zur Auswertung großer Datenmengen eingesetzt wird. Der grundsätzliche Ansatz ist hierbei, ein Cluster aus vielen Rechnern aufzubauen, wodurch zur Abarbeitung von Rechenprozessen statt auf serielle Abarbeitung aller anfallenden Berechnungen auf einen parallelisierten Ansatz zurückgegriffen wird. Das häufigste Vorgehen beruht auf dem Ansatz, günstige Commodity-Hardware in großer Stückzahl einzusetzen[47].? 3.2.2 Cube 15 Theoretische_Grundlagen_von_Big_Data Abb.9 Datenflussschema von MapReduce[48] Das grobe Vorgehen hierbei lässt sich in drei Teilschritte unterteilen. Zuerst werden für den sogenannten Map Task die teilweise mehrere Terabyte großen, der Auswertung zugrunde liegenden Daten in kleine Teilbereiche unterteilt (bspw. einzelne Dateien, sofern der Datenbestand aus vielen einzelnen Dateien besteht). Diese werden dann an einen Knoten im Cluster verteilt, auf welchem die Datensätze, welche oftmals in keiner logischen Struktur organisiert sind, zu Tupeln, also Schlüssel-Wert-Paaren, konvertiert. Es erfolgt hier allerdings noch keine Aggregation der Daten[49]. Hieraufhin werden die Daten im sog. Shuffle Task an zentraler Stelle sortiert und somit für den Reduce-Task vorbereitet[49]. Beim Reduce Task werden die hierbei entstandenen Tupel dann zusammengefasst, um sie für die Datenanalyse vorzubereiten[49]. Abbildung 9 ist eine schematische Zeichnung, welche diesen Prozess verdeutlicht. Ein MapReduce-Framework besteht normalerweise aus einem Master JobTracker und einem Slave TaskTracker pro Clusterknoten. Die Aufgabe des Master JobTracker ist es, die Ausführung der Aufgaben zu planen und zu überwachen sowie fehlgeschlagene Berechnungen erneut ausführen zu lassen. Der Slave TaskTracker ist dafür verantwortlich, die Aufgaben sowie die dazu gehörenden Daten an die einzelnen Slaves, welche die schlussendliche Berechnung übernehmen, weiterzuleiten[47]. Die Daten werden hierbei in einem sog. ?distributed file system? auf allen Clusterknoten verteilt gespeichert[47], wobei die Dateien redundant vorgehalten werden, sodass der Ausfall eines einzelnen Clusterknotens unbedenklich ist und die Daten weiterhin konsistent bleiben[50]. Ein Beispiel hierfür ist HDFS (Hadoop Distributed File System). Durch den Einsatz von MapReduce wird nicht nur eine signifikante Beschleunigung des Prozesses der Datenanalyse verglichen zu den herkömmlichen Methoden erreicht, sondern auch eine Ausfallsicherheit geschaffen, da ein solches Cluster normalerweise aus mehreren Tausend Knoten besteht, sodass der Ausfall eines einzelnen Knotens nicht mit erheblichen Performance-Einbußen oder Datenverlust einhergehen muss[47].Hieraus folgt, dass eine gewisse Form von Load-Balancing betrieben wird, welche allerdings relativ statisch ist. Weiterhin ist ein MapReduce-Framework stark skalierbar (scale-out)[49] und durch den Einsatz von nicht spezialisierter Commodity-Hardware ist eine Kosteneinsparung im Vergleich zum Einsatz weniger teurer High-End-Server zu erwähnen. 3.2.3 MapReduce 16 Theoretische_Grundlagen_von_Big_Data 3.3 Analyse In den nachfolgenden Kapiteln wird auf einige beispielhafte Analyseverfahren eingegangen, die in der Lage sind, die extrem großen Datenmengen, die im Bereich Big Data anfallen können auszuwerten. Die Kapitel erheben keinen Anspruch auf Vollständigkeit im thematischen Kontext, sodass die Punkte auf die eingegangen wird ausschließlich als Beispiele gesehen werden dürfen, nicht jedoch als ausschließliche Möglichkeiten bzw. Alleinstellungsmerkmale. 3.3.1 Data Mining Nicolas Bissantz und Jürgen Hagedorn beschreiben in Ihrem Artikel ?Data Mining (Datenmustererkennung)? Data Mining als ?die Extraktion implizit vorhandenen, nicht trivialen und nützlichen Wissens aus großen, dynamischen, relativ komplex strukturierten Datenbeständen?[51]. Hieraus lässt sich ableiten, dass Data Mining eine Methode zum Wissensgewinn darstellt, deren Datenbasis durch sehr schnelle Veränderungen und große Datenmengen gekennzeichnet ist. Darüber hinaus ist die Datenstruktur hierbei meist derart komplex, dass eine Auswertung der Daten mit konventionellen Methoden nur mit extrem großem Aufwand durch Personen mit sehr großem Fachwissen möglich ist. Weiterhin ist das Wissen, das aus den Daten gewonnen wird, nicht offensichtlich, das heißt es kann nicht direkt aus den Daten abgeleitet werden. Beim Data Mining wird nach Mustern in den Daten, also Beziehungen zwischen Datensätzen gesucht, um diese in Regeln zu transformieren und hierfür repräsentative Datensätze, welche als Beispiele für die Regel angeführt werden, zu finden[51]. Gemeinhin wird beim Data Mining der Ansatz verfolgt, dieses Verfahren möglichst automatisiert zu gestalten[52]. Dies stellt den Datenanalysten vor einige Herausforderungen, welche einerseits technischer Natur, andererseits auf die Daten und die Person, welche die Auswertungen durchführt, also den Datenanalysten bezogen sind[51]. Zu den technischen Herausforderungen zählt laut den Autoren des Artikels Data Mining (Datenmustererkennung), dass die Bearbeitungszeiten durch zu komplexe Abfragen oder zu großes Datenvolumen sehr stark ansteigen können und dass die Ergebnisse durch fehlerhaften oder unvollständigen Datenbestand verfälscht werden können, was man einerseits durch Eingrenzung der auszuwertenden Daten und andererseits durch Präventionsmaßnahmen, wie dem vorigen Bereinigen des Datenbestandes, oder Plausibilitätsprüfungen zu verhindern versucht. Jedoch ist zu erwähnen, dass gerade die Bearbeitungszeiten durch die technische Weiterentwicklungen, wie schnelleren Prozessoren und Ansätzen zur Parallelisierung der Rechenvorgänge (beispielsweise MapReduce ? siehe Kapitel 3.2.3) stark verkürzt werden und somit ein immer kleineres Problem darstellen[51]. Eine weitere Herausforderung in Bezug auf das Data Mining ist, dass für die Auswertung der generierten Daten ein gewisses Maß an Fachwissen aus dem Bereich bei der auswertenden Person vorhanden sein muss. Denn einerseits ist es unerlässlich, dass die Person die generierten Daten versteht, andererseits kann die Person durch das Fachwissen voreingenommen sein. Weiterhin muss alleine, um das System zu implementieren, zu einem gewissen Anteil Fachwissen in den Analyseprozess einfließen. Dies kann diesen so beeinflussen, dass eher schon bekannte Muster in den Daten als Output generiert werden und neue bislang ungeahnte Muster ignoriert werden[51]. Der letzte Problembereich bezieht sich auf die generierten Daten selbst. Einerseits ist die Sicherheit der Daten unerlässlich, um die Daten für unternehmerische Entscheidungsprozesse verwenden zu können, andererseits sind beim Data Mining vor Allem die Aussagen interessant bzw. von großem Mehrwert, welche stark von den bisherigen Erkenntnissen abweichen[52]. Insbesondere fehlerhafte oder unvollständige Daten, aber auch eine zu 3.3 Analyse 17 Theoretische_Grundlagen_von_Big_Data klein gewählte Datenbasis kann negative Auswirkungen auf die Repräsentativität der Daten haben und diese somit unbrauchbar machen, sich jedoch so stark von den bisherigen Daten unterscheiden, dass gerade diese Daten als wichtig gewertet werden. Um dieses Problem einzudämmen, ist es gängig, den verschiedenen Verfahren, welche Muster in den Daten suchen und auswerten sogenannte Wahrscheinlichkeitsmaße, wie beispielsweise Standardabweichungen oder Fehlermaße beigefügt, um zu verhindern, dass einzelne Daten, welche abweichen, das Ergebnis beeinflussen können[51]. Weiterhin wird in dem Artikel ?Data Mining (Datenmustererkennung)?[51] angeführt, dass die errechneten Daten trivial sein können. Dies kann einerseits daher kommen, dass die Aussagen logisch erschließbar (?Im Sommer werden mehr Getränke verkauft als im Winter?), untereinander redundant (beispielsweise durch schlechte Definition von geographischen Bezirken, in dem eine Stadt mehreren Bezirken zugeordnet ist) oder invalide sind, da die Daten, welche die Aussage unterfüttern, nur sehr selten auftreten. Andererseits könnten die generierten Aussagen beim Kunden bereits bekannt oder mit einfachen und herkömmlichen Mitteln generierbar sein. Das Verfahren Data Mining stützt sich zumeist auf ein firmeninternes Data Warehouse, aus welchem es die Daten oftmals per ODBC (Open Database Connectivity) bezieht und in eine eigene Datenbasis importiert[52]. ODBC ist eine Schnittstelle von Windows-Systemen, welche es Anwendungen ermöglicht, auf Datenbanken zuzugreifen[53]. Der Anwendungsbereich des Data Mining setzt sich aus verschiedensten Bereichen zusammen. Einerseits werden beispielsweise Käuferprofile identifiziert oder Daten zur Marktsegmentierung generiert, andererseits werden häufig Warenkorbanalysen oder ähnliche Analysen durchgeführt. Außerdem wird Data Mining oft zur Generierung von Prognoseaussagen verwendet[52], hierauf wird im folgenden Kapitel ?Predictive Analytics? genauer eingegangen. 3.3.2 Predictive Analytics In ihrer Publikation ?Predictive Analytics in der strategischen Anlagewirtschaft? bezeichnen Carsten Felden, Claudia Koschtial und Johannes Buder Predictive Analytics als ?[?]eine Form der Aufbereitung und Auswertung von Daten zur zukunftsorientierten Entscheidungsunterstützung auf allen Unternehmensebenen.?[54]. Demnach bezeichnet Predictive Analytics ein Datenanalyseverfahren, welches Entscheidungen sowohl im Management als auch auf Mitarbeiterebene eines Unternehmens unterstützt. Weiter heißt es in dem Artikel ?Mithilfe von Prognosewerten wird das Data Mining erweitert, um Informationen über die Zukunft zur Entscheidungsfindung zur Verfügung zu stellen.?[54]. Dementsprechend stellt Predictive Analytics eine Erweiterung zum Data Mining (siehe Kapitel 3.3.1) dar, welche Rückschlüsse auf zukünftige Entwicklungen zulässt. Als zentrales Element gelten sogenannte Prädikatoren, welche Eigenschaften einer Person oder Personengruppe bzw. von Elementen sind, welche ausgewertet werden, um Rückschlüsse auf ihr zukünftiges Verhalten bzw. ihre weitere Entwicklung ziehen zu können. Diese Prädikatoren werden miteinander kombiniert, um ein in angemessenem Rahmen zuverlässiges Bild der künftigen Entwicklungen zu gewinnen[55]. Ein Beispiel hierzu ist die Kombination von Alter, Geschlecht, sportlicher Aktivität, Tagesablauf und möglichem Suchtverhalten, um die Gefahr der Entwicklung von gesundheitlichen Einschränkungen bei einer Person zu messen. Hierbei können sowohl strukturierte Daten wie auch unstrukturierte Daten, also Fließtexte und Ähnliches verarbeitet und analysiert werden[56]. Somit stellt das Verfahren eine Möglichkeit für Unternehmen und ähnliche Organisationen dar, die in Big Data Projekten gesammelten Daten effektiv einzusetzen, um aus ihnen Erkenntnisse abzuleiten, die es ermöglichen, das Unternehmen bzw. die Organisation faktenbasiert auf die Zukunft auszurichten und proaktiv zu handeln, statt 3.3.1 Data Mining 18 Theoretische_Grundlagen_von_Big_Data solche Entscheidungen auf Vermutungen basiert zu treffen oder auf aktuelle Entwicklungen reagieren zu müssen[56]. Der Ansatz von Predictive Analytics findet in verschiedensten Bereichen Einsatz. Hierzu zählen neben der Verbrechens- und Betrugsbekämpfung und ?vorhersage (Precobs ? siehe Kapitel 5.1), die Meteorologie, die Ölund Gasindustrie, das Versicherungswesen und die Reisebranche. Weiterhin wird das Verfahren auch häufig im Finanzsektor, beispielsweise zur Vorhersage von Aktienkursen, dem Gesundheitswesen (siehe Kapitel 4.3.3) und dem Verkauf, beispielsweise um in Anlehnung an Wetterdaten oder historischen Verkäufen die Bestellung von Waren zu optimieren. Als Beispiel hierzu seien die Bestellungen von Grillgut eines Lebensmitteleinzelhändlers genannt. Diese sind zumeist durch die Wettervorhersagen und die Jahreszeit geprägt.[55][56] 3.3.3 OLAP OLAP (Online Analytical Processing) ist ein ?[?] Konzept für die im Dialogbetrieb realisierte Verdichtung und Darstellung von managementrelevanten Daten [?]?[57]. Dies bedeutet OLAP ist eine Datenverarbeitungsmethode, die es dem Nutzer erlaubt Daten aus der zugrunde liegenden Datenbank ?[?]gezielt zu extrahieren und aus verschiedenen Perspektiven anzuzeigen[?]?[58]. Die Daten die hierzu genutzt werden oftmals per ODBC aus einem Data Warehouse (siehe Kapitel 3.2.1) in die vom OLAP-System genutzte Datenbank importiert. Die Daten werden dabei in einer mehrdimeninsonalen Datenbank gespeichert, in welcher jedes Attribut eine neue Datendimension darstellt. Die Datenbasis der OLAP-Software ist hierbei jedoch meist nicht so groß, wie das eigentliche Data Warehouse, da beispielsweise Daten zu einzelnen Verkäufen weniger relevant sind als die gesamten Abverkaufszahlen eines Produktes oder einer Produktgruppe[58]. Hierbei werden zumeist Daten genutzt, welche, wie zum Beispiel Umsatzdaten, auf Fakten beruhen, jedoch eine hohe Anzahl von Abhängigkeiten zu anderen Daten, wie beispielsweise dem Standort oder dem Produkt, dem ein Umsatz zugeordnet wird, besteht. Diese Abhängigkeiten werden auch Dimensionsmerkmale genannt. Die Dimensionsmerkmale können hierarchisch angeordnet sein[57], beispielsweise kann ein Umsatz einer Tochtergesellschaft eines Unternehmens zugeordnet werden, welcher sich aus den Umsätzen der einzelnen, der Tochtergesellschaft zugeordneten, Verkaufsstandorte ergibt. Die Umsätze der einzelnen Verkaufsstandorte bestehen wiederum aus den Abverkaufszahlen der einzelnen Produktgruppen. Mittels einer OLAP-Software lassen sich Schnittpunkte zwischen den einzelnen Dimensionen finden und daher können Rückschlüsse gewonnen werden, die auf einer Kombination von Daten beruhen, welche so bislang nicht betrachtet wurde. Dies eröffnet die Möglichkeit, Beziehungen zwischen den einzelnen Datenelementen zu erkennen, welche ohne diese Art der Auswertung möglicherweise nicht wahrgenommen wurden[58]. OLAP unterteilt sich in zwei hauptsächliche Untertypen. Beim MOLAP (Multidimensional OLAP) werden die Daten in multidimensionalen Datenbanken gespeichert. Die Daten werden in einem proprietären Format in der Datenbank abgelegt. Das ROLAP-Verfahren (Relational OLAP) setzt hingegen auf den Ansatz, Daten in herkömmlichen relationalen Datenbanksystemen zu speichern[59]. MOLAP ist für hohe Zugriffsgeschwindigkeiten bekannt und ist in der Lage, komplexe Berechnungen durchzuführen, welche teils schon vorab vom Server durchgeführt werden. Allerdings ist die Datenmenge, die mit dem MOLAP-Verfahren ausgewertet werden kann begrenzt, da alle Berechnungen bei der Erstellung des Cubes durchgeführt werden. Weiterhin müssen, da die Daten in proproetären Datenbanken abgelegt werden, zumeist extra Investitionen getätigt werden[59]. ROLAP hingegen ist in der Lage große Datenmengen auszuwerten, die Limitierungen der Datenmengen hängen von der Datenmenge der versorgenden Datenbank ab. Weiterhin ist es durch den Einsatz von relationalen 3.3.2 Predictive Analytics 19 Theoretische_Grundlagen_von_Big_Data Datenbanksystemen möglich, die Funktionen von dem ausgewählten Datenbankmanagementsystem zu nutzen. Dies bedeutet im Normalfall, dass auf eine sehr viel größere Menge an Funktionalitäten zurückgegriffen werden kann. Jedoch ist die Performance eines ROLAP-Systems gewöhnlich im Vergleich zu einem MOLAP-System langsamer und es ist nicht möglich, komplexe Berechnungen durchzuführen, da relationale Datenbanksysteme bzw. deren Engines nicht auf die Berechnung von Daten, sondern nur deren Verwaltung ausgelegt sind. Die Hersteller von ROLAP Software versuchen oftmals, diese Einschränkung zu kompensieren, indem sie die Berechnungen in die aufrufende Applikation verlagern[59]. Dies schwächt allerdings weiter die Performance des Systems. HOLAP (Hybrid OLAP) ist eine Mischform zwischen MOLAP und ROLAP, die versucht, die Vorteile beider Systeme miteinander zu verknüpfen[59]. Bekannte Anbieter von OLAP-Software sind unter Anderem Microsoft oder SAP[58]. 4 Technische Implementierungen Dieses Kapitel befasst sich exemplarisch mit den Grundlagen der diversen Techniken die für die Implementierung von Big-Data förderlich und nötig geworden sind. Es beinhaltet weiterhin eine Abgrenzung zu den aktuellen Verfahren im Bereich der Datenbanken, welche durch die bisherigen Hardwarelimitierungen und der Tauglichkeit in der Praxis den Standard darstellen. Es ist nicht als eine Ablösung der bisherigen Systeme, sondern als eine Erweiterung zu verstehen. Die Technische Implementierung bildet die Grundlage zur effektiven Nutzung von Big Data, von dieser hängen die Leistung und das Nutzungserlebnis ab. 4.1 Theorie Die Theorie umfasst exemplarisch Möglichkeiten die zur sinnvollen Nutzung von Big Data beitragen, so wird auf Techniken eingegangen um die Datenflut durch Big Data zu beherrschen. In diesem Bereich werden die grundlegenden Eigenarten der Techniken erläutert. 4.1.1 NoSQL (Not Only Short Query Language) Der Begriff NoSQL-Datenbanken bezeichnet Datenbanken, die nicht das Datenbank übliche Standard Schemata von starren Zeilen und Spalten verwenden und nicht auf Transaktionen angewiesen sind, dies beschleunigt den Zugriff auf die Daten um ein Vielfaches. Die NoSQL Datenbanken werden auch als unstrukturierte Datenbanken bezeichnet. Der Name Not only SQL impliziert eine Erweiterung der bisherigen relationalen SQL-Datenbanken. NoSQL soll keine bisherigen Datenbanksysteme ersetzen. Diese sind die beste Wahl bei festen Strukturen und der Zuweisung von Daten untereinander[60]. Transaktionen gehören bei den relationalen Datenbanken zum Standard. NoSQL-Datenbanken synchronisieren Datenmengen in kurzen Intervallen um die benötigte Konsistenz zu erreichen[60]. Auf Grund dieses Verfahrens ist die Verwendung von Transaktionen nicht nötig. Die Installation von NoSQL-Datenbanken wird auf mehreren Servern durchgeführt. Diese so genannten Knoten kommunizieren untereinander und tauschen die Informationen, die für eine konsistente Datenhaltung nötig sind, aus. Relationale Datenbanken hingegen schreiben jede ihrer Änderungen in ein Transaktions-Log um die benötigte Konsistenz in Bezug auf die Daten zu erhalten. 3.3.3 OLAP 20 Theoretische_Grundlagen_von_Big_Data Der Aufbau des Datenbanksystems in Knoten ermöglicht eine hohe Ausfallsicherheit und vereinfacht die Skalierung von Systemressourcen. Der Ausfall einzelner Knoten beeinträchtigt nicht die Funktionsfähigkeit des gesamten Systems. Durch hinzufügen von weiteren Knoten werden die zur Verfügung stehenden Ressourcen erhöht. So ist es nicht mehr nötig ein einzelnes sehr leistungsstarkes System zu nutzen. Knoten lassen sich beliebig hinzufügen, so dass etwaige Leistungs Engpässe schnell ausgeglichen werden können.[60] NoSQL ermöglicht eine flexiblere Speicherung der Daten, dies geschieht entweder auf eine vorgegebene Art und Weise der Datenbank oder wird vollständig der Anwendung überlassen.[61] Somit ist eine unstrukturierte Speicherung der Daten möglich. Des Weiteren ermöglichen die Gegebenheiten von NoSQL die Speicherung von Video-, Audio- und Bilddateien. NoSQL ist in Einsatzgebieten sinnvoll, in denen die Daten nicht in die Struktur der relationalen Datenbanken portiert werden können. NoSQL-Datenbanken lassen sich in vier verschiedene Kategorien aufteilen. So ist bei der Wahl von NoSQL zusätzlich zu entscheiden welches Verfahren von NoSQL genutzt werden soll. Die dokumentenorientierten Datenbanken sind speziell für das Speichern von beliebig langen Texten, Dokumente, mit unstrukturierten Inhalten konzipiert. Die einzelnen Texte benötigen keine identischen Felder. So ist es möglich verschiedene Felder zu definieren und dann mit einer Abfrage die entsprechenden Dokumente zu suchen. In relationalen Datenbanken ist es nur unter Aufwand möglich weitere Felder, die bisher nicht existierten hinzuzufügen. In der unstrukturierten Datenbank werden dann auch nur die Dokumente gefunden, die das gewünschte Feld mit dem gewünschten Wert enthalten.[62] Die Graphen-Datenbaken sind auf die Abbildung von Beziehungen spezialisiert. Bei diesem Typ werden einzelne Knoten und Beziehungen definiert. Durch diese Beziehungen werden einzelne Knoten miteinander verknüpft. Diese Verknüpfung findet einmalig beim Einfügen in die Datenbank statt. Bei relationalen Datenbanken müssen die Tabellen mit Hilfe von JOINS verknüpft werden, dies erfordert Leistung von der CPU (Central Processing Unit) und dem Arbeitsspeicher, da für jeden JOIN die Fremdschlüssel aufgefunden werden müssen. Graphen-Datenbanken werden häufiger gelesen als geschrieben, so ist die Belastung des Speichermediums eher gering einzuschätzen. Beim Lesen wird von jedem Knoten die Verknüpfungen mit gelesen und so wird unter einer einheitlicher Last durch die einzelnen Knoten navigiert. [63] Key-Value-Datenbanken verknüpfen Schlüssel mit Werten. Dabei können diese Werte sowohl Zeichenketten als auch Listen oder Sets sein. Diese Form der Datenbanken eignet sich vor allem für einfache Systeme mit einseitigen Beziehungen, dort nutzen sie ihren Vorteil der Geschwindigkeit besonders gut aus. Sie finden häufig Anwendung, wenn Werte einem gewissen Benutzer, wie es bei Apps oder Online-Spielen der Fall ist, zugeordnet werden müssen. Dabei bildet der Benutzername der Person den Schlüssel. Des Weiteren steigen die Kosten gleichbleibend mit der Größe. Bei relationalen Datenbanken steigen die Preise auf Grund der Anforderungen deutlich stärker, da eine lineare Saklierung nicht möglich ist.[64] Die spaltenorientierten Datenbanken speichern die Daten sowohl der Zeile als auch der Spalte zugehörig. So ist es möglich sowohl Informationen aus einzelnen Zeilen als auch aus einzelnen Spalten zu beziehen. Dies hat den Vorteil Rechenoperationen, die nur auf Daten aus einer Spalte bezogen sind, schneller und mit weniger Input Output Aktionen auszuführen. Spaltenorientierte Datenbanken ermöglichen es Informationen aus der Datenbank zu lesen ohne die restlichen Informationen, die anderen Spalten, zusätzlich zu laden.[65] NoSQL wird in Bereichen, in denen die relationalen Datenbanken an ihre Grenzen stoßen eingesetzt. Sie eignen sich hervorragend um große Datenmengen effizient und sinnvoll zu verarbeiten und sind außerdem für spezielle Einsatzzwecke optimiert. Dieses Szenario findet sich vor allem im Bereich Big Data. 4.1.1 NoSQL (Not Only Short Query Language) 21 Theoretische_Grundlagen_von_Big_Data 4.1.2 In-Memory In-Memory Datenbanken, sind Datenbanken, die vollständigen in den Arbeitsspeicher geladen werden. Dieses Verfahren ist nötig geworden, da viel mehr Informationen in viel kürzerer Zeit verfügbar sein sollten. Des Weiteren hat die Hardware im Bereich der Prozessoren immer höhere Geschwindigkeiten erzielt während die Übertragungsgeschwindigkeiten von Festplatten nicht in diesem Maße anstiegen[66] . Der Preis, die Kapazität und die Geschwindigkeit der einzelnen Arbeitsspeicher-Module so wie die Kapazität des Arbeitsspeichers, die ein System verwalten kann ist zusätzlich gestiegen. Diese Faktoren machen die In-Memory Technologie erst sinnvoll nutzbar. Abb.10 Vergleich der Geschwindigkeiten von HDD, SSD und Arbeitsspeicher[67] Relationale Datenbanken mussten bisher, wenn eine Anfrage eintraf, die Daten von der Festplatte in den Arbeitsspeicher laden, dort die Anfrage verarbeiten und darauf diese Änderungen wieder auf der Festplatte speichern. Wenn die Datenbank ausschließlich im Arbeitsspeicher liegt fällt der Laden und Speichern Prozess ausschließlich bei starten und beenden der Datenbank an. Die Abbildung gibt einen Überblick über die Unterschiede der Geschwindigkeit von HDDs, SSDs und Arbeitsspeicher bei zufälligen und geordneten Zugriffen auf das Medium an. Dabei ist erkennbar, dass der zufällige Zugriff auf den Arbeitsspeicher mehr als 100000 schneller abläuft als auf einer HDD. Das Verfahren der In-Memory Datenbanken ist nicht neu. Die relationalen Datenbanksysteme laden standardmäßig einen Teil ihrer Datenbank in den Arbeitsspeicher um Anfragen schneller zu verarbeiten, dies reicht jedoch bei der Masse an Daten im Big Data Bereich nicht aus. Des Weiteren sind Systeme mit einer hohen Kapazität an Arbeitsspeicher und ausreichend CPU-Leistung nötig um die Anforderungen der In-Memory Technologie zu erfüllen. Diese Anschaffung ist meist kostenintensiv. Als Nachteil dieser Technik sei zu nennen, dass der Arbeitsspeicher als flüchtiges Medium gilt. Sollte das System von einem Stromausfall betroffen sein sind sämtliche Daten, die im Arbeitsspeicher gelagert wurden, verloren. Die Systeme auf denen die In-Memory Technologie angewendet wird sollten daher entsprechend vor Stromausfällen geschützt werden, da sonst nur der Stand, der beim Start der Datenbank vorlag, vorhanden bleibt. Es gibt Software seitige Sicherheitsmaßnahmen, die die Änderung der Datenbank in gewissen Zeitintervallen auf die Festplatten speichern. 4.1.3 Datenbank-Komprimierung Die Datenbank-Komprimierung beschäftigt sich mit der Minimierung der Daten innerhalb einer Datenbank. Dieses Verfahren kann sowohl bei relationalen als auch bei unstrukturierten Datenbanken angewendet werden. Die Komprimierung ermöglicht es Datenbanken Abfragen schneller durchzuführen, da mehr Daten zur gleichen Zeit den Arbeitsspeicher nicht überlasten und die geringeren Größen schneller von der Festplatte gelesen und wieder auf die Festplatte geschrieben werden können. Die Komprimierung kann bei einem Zeilenbasierten-Verfahren gewisse Symbolabfolgen als Muster erkennen und diese Muster in einer kürzeren Symbolabfolge speichern, jedes Zeichen weniger bedeutet weniger benötigter Speicherplatz[68]. 4.1.2 In-Memory 22 Theoretische_Grundlagen_von_Big_Data 4.1.4 Tiering Das Tiering ist eine Einteilung in Level. Bei diesem Verfahren wird der Zugriff auf jeden einzelnen Datensatz ausgewertet und so ein Ranking von Daten, die extrem häufig genutzt werden bis zu Daten die, nahezu niemals aufgerufen werden erstellt. Anhand dieses Rankings kann die Software die Datensätze in verschiedenen, den Aufruf entsprechenden, Bereiche Speichern. So können häufig gebrauchte Daten auf schnelleren Medien wie SSDs (Solid State Disks) und selten genutzte Datensätze auf langsamere HDDs (Hard Drive Disks) gespeichert werden.[68] Dieses Verfahren wurde von Storage-Systemen mit unterschiedlich schnellen Medien übernommen. Storage-Systeme interpretieren Datenbanken ohne zusätzliche Software als eine Datei und können so das Tiering für die einzelnen Datensätze nicht durchführen. Für diesen Fall wurde das Tiering innerhalb der Datenbank implementiert und mit Storage-Herstellern Techniken zum hardwareseitigen Tiering erstellt. 4.2 Praxis In diesem Unterkapitel wird beispielhaft die Umsetzung der theoretischen Techniken in die Praxis beschrieben. So enthalten die aufgeführten Programme nicht nur eine Technik sondern gleich mehrere. 4.2.1 Hadoop Abb.11 Logo von Apache Hadoop Hadoop wurde als Framework für den Zugriff auf Big Data in Java programmiert. Es wurde so entwickelt, dass es auf einem Computer-Cluster läuft und so einfach skalierbar bleibt und eine hohe Ausfallsicherheit bietet. Mit Hadoop werden in den meisten Fällen riesige Datenmengen importiert. Diese Datenmengen werden in Pakete segmentiert, woraus dann mit Hilfe der Software und dessen Algorithmen die relevanten Informationen entnommen werden. Das Verfahren, das von Hadoop angewendet wird heißt Map Reduce (s. 3.2.3 Map Reduce).[69] Diese Datenmengen werden auf den einzelnen Server in ein spezielles für Hadoop entwickeltes File System gespeichert. Das HDFS hat spezielle Eigenschaften, die es für die Nutzung von einer riesigen Anzahl an Servern nutzbar macht. Jeder Server beinhaltet einen Teil der Daten.[70] Eine der größten Schwierigkeiten ist in diesem Bereich der Ausfall der Hardware. Bei einer Hadoop Farm mit 1000 Servern kann man davon ausgehen, dass immer ein Server nicht funktioniert, dafür wurde eine eigene Fehlererkennung und eine automatische Behebung dieser Fehler entwickelt.[70] Das komplette HDFS wurde für die Stapel-Verarbeitung entwickelt. Das bedeutet, dass ein Prozess gestartet wird, welcher erstmal bis zum Ende laufen soll, bevor der nächste startet. Das System ist auf einen hohen Durchfluss ausgelegt.[70] 4.1.4 Tiering 23 Theoretische_Grundlagen_von_Big_Data 4.2.2 Cassandra Abb.12 Logo von Apache Cassandra Cassandra wurde ursprünglich für Facebook entwickelt und sollte die Inbox Suche für die Vielzahl der Nutzer effektiv und schnell gestalten. Es wurde dann als Open Source Software bereitgestellt und wird nun von vielen großen Unternehmen wie dem CERN, eBay, HP, IBM und Netflix[71] für diverse Anwendungsgebiete genutzt. Es besteht zum einem aus der Amazon DynamoDB und zum anderen aus der Google BigTable, des Weiteren wurde die Hadoop Technologie integriert, so dass große Datenmengen nebenher mit dem Map-Reduce Verfahren verarbeitet werden können. Cassandra zählt sowohl zu den spaltenorientierten, als auch durch Akzente zu den Key-Value NoSQL Datenbanken und wurde in Java entwickelt.[72] Cassandra wird verteilt auf mehreren Knoten installiert, diese Knoten sind alle gleichberechtigt. Um Cassandra mehr Ressourcen zur Verfügung zu stellen, wird eine Installation auf einen weiteren Rechner kopiert, alles Weitere geschieht automatisiert. Des Weiteren werden alle Daten redundant gespeichert, um den durch einen Serverausfall drohenden Datenverlust zu vermeiden. So entsteht ein hochverfügbares, schnelles System, das beliebig durch weitere Knoten ergänzt werden kann und sich selbst reorganisiert. Cassandra schreibt nicht sofort alles auf die Festplatten, sondern besitzt einen Mechanismus der erstmal Daten im Arbeitsspeicher zwischen puffert und ab einem gewissen Level diese dann gesammelt auf die Festplatten schreibt.[73] Dieser Mechanismus ermöglicht eine effizientere Ausnutzung der Schreib- und Leseperformance der Festplatte. Cassandra zählt in die Gruppe der schlussendlich Konsistenten Anwendungen. Dies bedeutet, dass in gewissen Zeitfenstern nicht alle User die gleiche Sicht auf die Daten haben. Dies wird aber für die entsprechende Performance, die Cassandra bietet, von den Betreibern in Kauf genommen.[72] 4.3 Anwendungsbeispiele Dieses Kapitel soll die exemplarisch die Einsatzmöglichkeiten von Big Data und die damit verbunden Analysen in einzelnen Szenarien verdeutlichen. Die Entwicklung steht erst am Anfang und Szenarien, die als unvorstellbar gelten, könnten in einigen Jahren Realität werden. Für den Umgang mit Big Data ist kein klassischer Technologieschub verantwortlich, sondern viel mehr die Weiterentwicklung bisheriger Techniken und die Möglichkeit Daten kostengünstig zu speichern. Viele Daten die früher nur in analoger Form vorlagen und mühsam in IT-Systeme eingegeben werden mussten sind nun direkt Digital verfügbar. Hauptsächlich dafür verantwortlich ist das Internet. 4.3.1 Verhaltensprognose Eines der interessantesten Ziele für die Wirtschaft im Bereich Big Data ist die Verhaltensprognose um damit die noch nicht vorhandenen Bedürfnisse zu erkennen und diese beim Kunden hervorzurufen. Aber auch der Staat hat Interesse an dieser Technik und testet Systeme. Mit Hilfe der Daten kann die Menge an frischen Lebensmitteln für einen Supermarkt berechnet werden, um die 4.2.2 Cassandra 24 Theoretische_Grundlagen_von_Big_Data Gefahr des Verlustes durch verdorbene Güter zu minimieren. Big Data wird auch von Telefonkonzernen genutzt um eventuelle Kündigungen zu bestimmen. Ein konkretes System ist Precobs (Pre Crime Obersavation System) welches sowohl in der Schweiz als auch als Test in Bayern eingesetzt wird. Es dient der Einbruchsvorhersage. Dieses System berechnet anhand von bisherigen Verbrechensdaten Hot Spots in denen es mit großer Wahrscheinlichkeit zu Delikten kommen könnte. Laut Schweizer Behörden liegt die Übereinstimmung bei 80%.[74] Das System dient vor Allem dazu, Verbrechen von Profis aufzudecken. Impulsive Taten oder einmalige Täter können nicht aufgespürt werden. In Amerika werden Systeme mit Verhaltensvorhersage teilweise in Echtzeit mit Daten von Verkehrs- und Überwachungskameras, so wie aus den Social Media Kanälen wie Facebook und Twitter versorgt. Die Systeme sind so in der Lage eine Liste von Leuten zu generieren, die als potenzielle Gefährder gelten. Diese Personen erhalten als präventiv Maßnahme einen Anruf um sie davon abzuhalten Straftaten zu begehen.[74] Mit der Hilfe der Analyse von Daten lassen sich auch Schwangerschaften aufdecken. So ist es bei Zahlung mit Karten oder mit Hilfe von Kundenkarten möglich, die Einkäufe einer bestimmten Person zuzuordnen und diese Daten anschließend auszuwerten. Die Supermarkt Kette Target in Amerika schickte einer jungen Frau Coupons für Baby-Artikel. Der unwissende Vater der jungen Frau bemerkte dies, war extrem wütend darüber und stellte einen Mitarbeiter zur Rede. Dieser entschuldigte sich und rief die Familie später an. Bei diesem Anruf stellte sich raus, dass die Coupons nicht unberechtigt zu der Dame geschickt wurden, da sie wirklich Schwanger war. Die Firma Target nutzt einen Algorithmus um die Wahrscheinlichkeit der Schwangerschaft einer Person zu berechnen.[75] 4.3.2 Klimaforschung In der Klimaforschung fallen täglich immense Datenmengen durch Satelliten und Messstationen an. Alle diese Daten sollten verarbeitet und aufbereitet werden. Für diese Zwecke wurde Blizzard entwickelt. Blizzard ist ein Hochleistungsrechner, der ausschließlich die Klimaforschung unterstützt. Mit solchen Rechnern ist es möglich, konkrete Modelle von Strömungen im tiefsten Meer und der Atmosphäre zu berechnen um die Entwicklung des Klimas vorherzusagen und bestimmte Einflüsse auf das Klima festzustellen. Diese Berechnungen erfordern viele Daten und dementsprechend auch hohe Rechenleistung um die Gesamtheit der Daten auszuwerten und in Relation zueinender zu setzen. Diese Daten sind nötig um Systeme zu entwickeln, die Vorhersagen über Wirbelstürme oder andere Klimaphänomene zu treffen.[76][77] 4.3.3 Medizin Die medizinische Behandlung von Krankheiten lässt Kosten im Milliardenbereich entstehen. Diese Kosten werden in Deutschland von den Krankenkassen bezahlt, die das zur Verfügung stehende Geld von der arbeitenden Bevölkerung erhält. Big Data bietet in diesem Bereich die Möglichkeit, Prävention zu betreiben und so die Kosten vor dem Ausbruch der Krankheit zu minimieren oder den Ausbruch sogar zu verhindern. Durch die Nutzung von Fitness- und Trackingapplications und den damit verbundenen Geräten wie Smartwatch oder diversen anderen Geräten wie zum Beispiel die Personenwaage und Armbänder mit Sensorik für Schlaf- und Pulsanalyse, wird eine Vielzahl an Daten, die noch nicht vollständig genutzt werden, produziert. Das Profil der Ärzte über ihre Patienten könnte wesentlich umfassender sein, wenn nicht nur der aktuelle Blutdruckwert vorliegt, sondern der aus mehreren Monaten. Des Weiteren lassen sich dadurch Fehldiagnosen und so weitere Kosten für das Gesundheitssystem vermeiden. Dies kommt letztendlich der arbeitenden Bevölkerung und der Wirtschaft zu Gute, da die Krankenkassenbeiträge sinken und mögliche Ausfälle von Mitarbeiten früher erkannt und sogar vermieden werden können. 4.3.1 Verhaltensprognose 25 Theoretische_Grundlagen_von_Big_Data Diese Möglichkeit zielt auf Krankheiten, die durch das mögliche Fehlverhalten der betroffenen Person verursacht werden. Darunter zählen Adipositas, Diabetes, Schlaganfälle, Herzinfarkte oder Bandscheibenvorfälle. Das McKinsey Global Institute ist der Meinung, dass Qualitäts- und Effizienzsteigerungen im Wert von jährlich 250 Milliarden ? im Gesundheitswesen in Europa durch den Einsatz von Big Data möglich wären.[78] 5 Schlussbetrachtung 5.1 Zusammenfassung Aufgrund des schieren Umfangs an Bereichen, auf die Big Data einen Einfluss hat, ist und bleibt Big Data als Begriff trotz den Erläuterungen in den vorherigen Kapitel nur eingeschränkt skizzierbar. Es ist ein Trend, dem sich niemand verschließen kann. Unternehmen wie Konsumenten sind gleichermaßen von den technischen Entwicklungen, sowie dem Potenzial der gesammelten Daten betroffen. Die Sammlung, Verarbeitung und Auswertung aller möglichen Daten kann enorme wirtschaftliche Optimierungspotenziale mit sich bringen. Gleichzeitig kann die Privatsphäre jedes Einzelnen massiv eingeschränkt werden, sollte der Zugriff und die Verarbeitung von personenbezogen Daten nicht eindeutig reglementiert werden. Big Data basiert auf keiner technischen Neuerung, es ist die Vernetzung der Gesamtheit der Daten, die schon Jahre zur Verfügung stehen, allerdings aufgrund der Kapselung der Systeme bislang in dieser Form nicht verknüpft werden konnten, welche den Grundstein zur Entwicklung des Big Data-Konzepts gelegt hat. Hauptsächlich dafür verantwortlich ist das Internet und die zunehmende Vernetzung aller Bereiche. Weiterhin ist zu nennen, dass sich die Verfügbarkeit der Daten durch die digitale Revolution stark verbessert hat, allerdings noch nicht alle Bereiche durchdrungen hat. Big Data-Projekte sind darüber hinaus hoch spezialisiert und unterscheiden sich je nach Anwendungsfall erheblich voneinander, sodass für die Unternehmen eine große Einstiegshürde besteht. Diese Hürde beinhaltet sowohl das technische Expertenwissen als auch die Aufwendungen, die für ein Unternehmen mit der Einführung von Big Data-Lösungen zusammen hängen. Je nach Anwendungsfall bleibt eine Auswahl an verschiedenen technischen und methodischen Implementierungsmöglichkeiten bestehen um mit den Anforderungen, die an Big Data gestellt werden, umgehen zu können. 5.2 Ausblick Die Entwicklung von Big Data steht erst am Anfang und Szenarien, die heute noch als unvorstellbar gelten, könnten in einigen Jahren Realität werden. Die Möglichkeiten Daten zu erheben steigen stetig an. Viele Informationen sind bereits vorhanden, doch fehlt häufig die Verknüpfung der einzelnen Elemente um Neues zu entdecken. Je mehr Fragen an den Zusammenhang der Daten gestellt werden, desto klarer kann eine Prognose abgegeben werden. Darüber hinaus ist das Potenzial dieser Daten stetig wachsend. Der technische Fortschritt setzt sich in den nächsten Jahren immer weiter fort und beeinflusst mehr und mehr alle Lebensbereiche. Außerdem produzieren die älteren Generationen nur einen Bruchteil der Gesamtheit der Daten. Sie nutzen selten Smartphones und die Nutzung des Internets ist in dieser Bevölkerungsgruppe spärlich. Zusätzlich sind EC-Kartenzahlungen bei dieser Generation eher die Ausnahme als die Regel. Die jüngere Gesellschaft hingegen nutzt Smart-Devices, wie Smartphones und Fitness-Trackern intensiv, sie zahlen häufig mit EC-Karte und suchen und veröffentlichen viele Informationen im Internet. Sollte dieses Verhalten andauern, werden zukünftige Generationen immer mehr 4.3.3 Medizin 26 Theoretische_Grundlagen_von_Big_Data Technik nutzen, wodurch sich das Ausschöpfungspotenzial all dieser Daten immens steigert. Ein weiterer wichtiger Punkt, der in naher Zukunft geklärt werden muss, ist der Datenschutz. Der Umfang an Daten, den Firmen über einzelne Personen in Erfahrung bringen und nutzen können um weitere Erkenntnisse zu sammeln, birgt enorme Potenziale in sich. Allerdings fehlt es aktuell noch an eindeutigen Regelungen und Vorschriften, etwa zu den Themen Anonymisierung und Rückverfolgbarkeit, die Dauer der Speicherung oder die Klärung der Besitzverhältnisse der Daten. Des Weiteren muss zusätzlich zur technischen Weiterentwicklung auch sichergestellt werden, dass in diesen neuen Bereichen ausreichend Expertenwissen zur Verfügung steht. Dazu müssen neue Berufsfelder, wie aktuell der Data Scientist, erschlossen und definiert werden, um bei der Einführung von neuen Technologien und Verfahrensweisen zu Datenanalysen zu unterstützen. Dies ist insbesondere im unternehmerischen Umfeld von existentieller Bedeutung, da die Einführung neuer Technologien auch immer mit hohen Investitionskosten und damit auch mit einem hohen Risiko verbunden ist. Viele IT-Manager stehen vor der Frage, ob es sich lohnt das Thema Big Data und dessen Verwendung in ihrer Firma umzusetzen. Diese Unsicherheit lässt sich auf die mangelnde Anzahl an Experten und auf die hohen Kosten zurückführen.[79] Die Zukunft wird zeigen, in welche Richtung sich das Thema Big Data weiterentwickeln wird und wie jeder Einzelne davon betroffen sein wird. 6 Fußnoten 1. ? Springer Gabler Verlag (Herausgeber), Gabler Wirtschaftslexikon, Stichwort: Big Data, online im Internet:http://wirtschaftslexikon.gabler.de/Archiv/-2046774198/big-data-v1.html 2. ? BITKOM,Arbeitskreis Big Data[1], Zugriff: 07.06.2015 3. ? http://www.gartner.com/technology/about.jsptechnology/about.jsp, Zugriff am 07.06.2015[2] 4. ? 4,0 4,1 4,2 4,3 http://www.ibmbigdatahub.com/infographic/four-vs-big-data, Zugriff am 07.06.2015[3] 5. ? Abbildung http://api.ning.com/files/tRHkwQN7s-V9zyWeGmW9pYmXjhhHYlanslQxjZT53dE40q*P5F5tBhOzSnqCMXhql 6. ? Abbildung t3n, http://t3n.de/news/big-data-infografik-563632/infografik-big-data/, Zugriff:25.05.2015[4] 7. ? 7,0 7,1 entnommen aus http://de.statista.com/statistik/daten/studie/267974/umfrage/prognose-zum-weltweit-generierten-datenvolumen, Zugriff am 07.06.2015 8. ? 8,0 8,1 http://www.t-systems.de/loesungen/mit-big-data-business-intelligence-von-t-systems-koennen-unternehmen-datenZugriff: 25.05.2015 9. ? 9,0 9,1 Vgl. http://www.wirtschaftsinformatik-archiv.de/pdf/01_editorial_36315.pdf, S.65, Zugriff am 08.06.15 10. ? http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation, 08.06.15 11. ? http://www.hgnc.de/wp-content/uploads/2014/05/KPMG_Einführungsvortrag_Big_Data_neu.pdf,Zugriff am 21.06.2015 12. ? Vgl. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation, June 2011, Stand: 20.06.2015 5.2 Ausblick 27 Theoretische_Grundlagen_von_Big_Data 13. ? 13,0 13,1 BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 9, Hrsg. BITKOM http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F 14. ? 14,0 14,1 http://de.statista.com/statistik/daten/studie/257962/umfrage/umfrage-zum-potenzial-von-big-data-technologie-auf-g Zugriff am 21.06.2015 15. ? http://de.statista.com/statistik/daten/studie/37545/umfrage/anzahl-der-aktiven-nutzer-von-facebook/, Zugriff am 20.06.2015 16. ? https://www.google.org/flutrends/, Zugriff am 19.06.2015 17. ? Müller,Marcel/ Prokosch,Hans-Ulrich/ Schwarze,Jan-Christoph/ Sassenberg, Christoph/ Tessmann, Sven/ Ückert,Frank,Eine modulare Gesundheitsakte als Antwort auf Kommunikationsprobleme im Gesundheitswesen, S.188, WIRTSCHAFTSINFORMATIK 47 (2005) 18. ? http://www.gesakon.de/13.html, Zugriff 16.06.2015 19. ? http://www.computerwelt.at/news/software/apps/detail/artikel/102825-70-millionen-runtastic-downloads/, Zugriff am 18.06.2015 20. ? http://winfwiki.wi-fom.de/index.php/Fallstudie_Sommersemester_15, Zugriff 21.06.2015 21. ? 21,0 21,1 BITKOM, Leitfaden Big Data im Praxiseinsatz ? Szenarien, Beispiele, Effekte, S.15, http://www.bitkom.org/files/documents/BITKOM_LF_big_data_2012_online(1).pdf Hrsg. BITKOM 2012 [6] 22. ? http://www-01.ibm.com/software/data/infosphere/data-scientist/, Zugriff 19.06.2015 23. ? Seufert, Andreas, Entwicklungsstand, Potentiale und zukünftige Herausforderungen von Big Data ? Ergebnisse einer empirischen Studie, Springer Fachmedien Wiesbaden 2014 24. ? BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 36, Hrsg. BITKOM http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F 25. ? Entnommen aus BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 38, Hrsg. BITKOM http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F 26. ? S. § 4 BDSG[9] 27. ? 27,0 27,1 Schaar, Peter, Datenschutz in Zeiten von Big Data, S. 842, Springer Fachmedien Wiesbaden 2014, Online publiziert: 23. Oktober 2014 28. ? S. § 3 Abs. 9 BDSG [10] 29. ? S. §3 Absatz 6 BDSG[11] 30. ? Sathi, Dr. Arvind, Big Data Analytics: Disruptive Technologies for Changing the Game, First Edition, Mc Press (15. November 2012)[12] 31. ? http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-f Zugriff am 18.06.2015 32. ? BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, S. 140, Hrsg. BITKOM http://www.bitkom.org/files/documents/BITKOM_Leitfaden_Big-Data-Technologien-Wissen_fuer_Entscheider_F 33. ? http://www.handelsblatt.com/unternehmen/banken-versicherungen/us-grossbank-jp-morgan-meldet-hackerangriffZugriff am 20.06.2015 34. ? 34,0 34,1 Entnommen aus http://de.statista.com/statistik/daten/studie/265253/umfrage/prognose-zum-umsatz-mit-big-data-loesungen-weltwei Zugriff am 20.06.2015 35. ? 35,0 35,1 Entnommen aus http://de.statista.com/statistik/daten/studie/257976/umfrage/umsatz-mit-big-data-loesungen-in-deutschland 36. ? 36,0 36,1 Entnommen aus http://de.statista.com/statistik/daten/studie/257964/umfrage/umfrage-zum-nutzen-von-big-data-fuer-verschiedene-g 37. ? 37,0 37,1 Analytics: Big Data in der Praxis Stand 04.06.2015 6 Fußnoten 28 Theoretische_Grundlagen_von_Big_Data 38. ? 38,0 38,1 38,2 38,3 Gerrit Thede: Big Data ? Datenquellen und Anwendungen Ausarbeitung Grundlagen Vertiefung und Anwendung 1 Stand 04.06.2015 39. ? Wirtschaftslexikon Gabler, Stichpunkt: Soziale Medien, Stand 05.06.2015 40. ? Mucksch, H.; Holthuis, J.; Reiser, M.: Das Data Warehouse-Konzept ? ein Überblick 41. ? Inmon,W. H.: Building the Data Warehouse 42. ? 42,0 42,1 42,2 Gabler Wirtschaftslexikon, Stichpunkt Data Warehouse Stand 13.06.2015 43. ? 43,0 43,1 43,2 43,3 43,4 Gluchowski, Peter: Data Warehouse (1997) 44. ? 44,0 44,1 44,2 44,3 44,4 44,5 44,6 44,7 44,8 Microsoft TechNet: Introduction to Cubes, Stand 13.06.2015 45. ? 45,0 45,1 45,2 ITWissen: OLAP-Würfel, Stand 13.06.2015 46. ? entnommen aus Introduction to Cubes, Stand 13.06.2015 47. ? 47,0 47,1 47,2 47,3 Hadoop: MapReduce Tutorial Stand 06.06.2015 48. ? entnommen aus Module 4: MapReduce, Stand 20.06.2015 49. ? 49,0 49,1 49,2 49,3 IBM: What is MapReduce? Stand 04.06.2015 50. ? Hadoop: HDFS Architecture Guide Stand 20.06.2015 51. ? 51,0 51,1 51,2 51,3 51,4 51,5 51,6 Bissant, Nicolas, Hagedorn, Jürgen: Data Mining (Datenmustererkennung) 52. ? 52,0 52,1 52,2 52,3 Witschaftlexikon Gabler, Stichpunkt: Data Mining Stand 07.06.2015 53. ? Witschaftlexikon Gabler, Stichpunkt: ODBC Stand 07.06.2015 54. ? 54,0 54,1 Felden, Carsten, Koschtial, Claudia, Buder, Johannes : Predictive Analytics in der Strategischen Anlagenwirtschaft (2012) 55. ? 55,0 55,1 Margaret Rouse: Predictive Analytics (2014) Stand 13.06.2015 56. ? 56,0 56,1 56,2 Predictive Analytics Today: What is predictive analytics Stand 14.06.2015 57. ? 57,0 57,1 Wirtschaftslexikon Gabler: Online Analytical Processing (OLAP) Stand 08.06.2015 58. ? 58,0 58,1 58,2 58,3 Margaret Rouse: Online Analytical Processing (OLAP) Stand 08.06.2015 59. ? 59,0 59,1 59,2 59,3 1KeyData Tutorials: MOLAP,ROLAP, Ana HOLAP Stand 15.06.2015 60. ? 60,0 60,1 60,2 Thomas Joos, Nico Litzel, Relationale Datenbanken sind nicht immer ideal, Stand 11.06.2015 61. ? D.J. Walker-Morgan, Heise Open Source, NoSQL im Überblick, Stand: 05.06.2015 62. ? Stefan Koch, NoSQL: Dokumentenorientierte Datenbanken (CouchDB, MongoDB), Stand: 11.06.2015 63. ? Peter Neubauer, Michael Hunger, Heise Know-How: Graphendatenbanken, Die Datenbank der Wahl, Stand: 17.06.2015 64. ? April Reeve, Big Data Architectures ? NoSQL Use Cases for Key Value Databases, Stand: 13.06.2015 65. ? Daniel Bösswetter, Spaltenorientierte Datenbanken, Stand: 16.06.2015 66. ? Uwe Küll, Heise: Big Data - so beherrschen Sie die Datenflut, Stand: 10.06.2015 67. ? Entnommen aus "The Pathologies of Big Data", Adam Jacobs, Communications of the ACM, Vol.52 No. 8, Pages 36-44, 2009 68. ? 68,0 68,1 Klaus Mahnert, Datenbanktechniken für Big Data, Stand: 10.06.2015 69. ? Jesse Davis, Klug erklärt: Hadoop und der Zugriff auf Big Data, Stand 13.06.2015 70. ? 70,0 70,1 70,2 Dhruba Borthakur, HDFS Architecture Guide, Stand: 13.06.2015 71. ? Jens Ihlenfeld, Cassandra 2.0 unterstützt Trigger und Transaktionen,Stand: 13.06.2015 72. ? 72,0 72,1 Eberhard Wolff, Kai Spichale, Thomas Westphal und Andreas Hartmann, Datenflut bereitet NoSQL den Weg, Stand: 14.06.2015 73. ? Rudolf Jansen, Einsatz der Cassandra-Datenbank, Heise Developer, Stand: 13.06.2015 74. ? 74,0 74,1 Kai Schlieter, Algorithmen gegen Gangster, Stand: 12.06.2015 75. ? Kashmir Hill, How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did, Stand: 12.06.2015 76. ? Projekt Zukunft: Big Data in der Klimaforschung, Stand: 13.06.2015 77. ? Neuer Superrechner für die Klimaforschung, Stand: 13.06.2015 78. ? Horvath, Sabine (2013): Aktueller Begriff Big Data, Berlin, November 2013, S. 2. 79. ? Rivera, Janessa / Meulen, Rob van der: "Gartner Survey Highlights Challenges to Hadoop Adoption", Stand: 13.06.2015 6 Fußnoten 29 Theoretische_Grundlagen_von_Big_Data 7 Literaturverzeichnis Monographien Inmon,W. H. (1996): Building the Data Warehouse. 2.Aufl. New York: John Wiley & Sons Horvath, Sabine (2013): Aktueller Begriff Big Data, Berlin, November 2013 Mucksch, H.; Holthuis, J./ Reiser, M. (1996): Das Data Warehouse-Konzept ? ein Überblick. Fachzeitschriften Müller,Marcel/ Prokosch,Hans-Ulrich/ Schwarze,Jan-Christoph/ Sassenberg, Christoph/ Tessmann, Sven/ Ückert,Frank: Eine modulare Gesundheitsakte als Antwort auf Kommunikationsprobleme im Gesundheitswesen, WIRTSCHAFTSINFORMATIK 47 (2005) Sammelbände Bissantz, Nicolas / Hagedorn, Jürgen (2008): Data Mining (Datenmustererkennung)in: WIRTSCHAFTSINFORMATIK, Volume 51, Issue 1, Seiten 139-144 Felden, Carsten / Koschtial, Claudia/ Buder, Johannes (2012): Predictive Analytics in der Strategischen Anlagenwirtschaft in: Prognoserechnung, 2012, pp 519-537 Gluchowski, Peter (1997): Data Warehouse in: Informatik-Spektrum, Februar 1997, Volume 20, Issue 1, Seiten 48f Holthuis, J. (1996): Multidimensionale Datenstrukturen. In: Mucksch, H., Behme,W.: Das Data-Warehouse-Konzept,Wiesbaden: Gabler 1996, S. 165?204 Jacobs, Adam (2009): The Pathologies of Big Data in: Communications of the ACM, Vol 52, No.8, S. 36-44 Schinzer, H. (1996): Data Warehouse. Informationsbasis für die Computerunterstützung des Managements. WiSt, Heft 9, September 1996 Internet-Quellen Bendel, Prof. Dr. Oliver: ?Soziale Medien?, [14], 05.06.2015 Byers, Angela Hung, Brown, Brad , Bughin, Jacques, Chui, Michael, Dobbs, Richard, Manyika, James, Roxburgh, Charles: "Big data: The next frontier for innovation, competition, and productivity", McKinsey Global Institute, [15], 02.06.2015 BITKOM, Leitfaden Big Data im Praxiseinsatz ? Szenarien, Beispiele, Effekte, Hrsg. BITKOM 2012 [16], 15.05.2015 BITKOM, Leitfaden Big-Data-Technologien ? Wissen für Entscheider, Hrsg. BITKOM [17], 15.05.2015 Borthakur, Dhruba: "HDFS Architecture Guide", [18], 13.06.2015 Bösswetter, Daniel: "Spaltenorientierte Datenbanken", [19], 16.06.2015 Davis, Jesse: "Hadoop und der Zugriff auf Big Data", [20], 13.06.2015 Hill, Kashmir: "How Target Figured Out A Teen Girl Was Pregnat Before Her Father Did", [21], 12.06.2015 Ihlenfeld, Jens: "Cassandra 2.0 unterstützt Trigger und Transaktionen", [22], 13.06.2015 Imanuel: ?What is predictive analytics??, [23], 14.06.2015 Jansen, Rudolf: "Einsatz der Cassandra-Datenbank", [24], 13.06.2015 Joos, Thomas / Litzel, Nico, Relationale Datenbanken sind nicht immer ideal, [25], 11.06.2015 Koch, Stefan: "NoSQL: Dokumentenorientierte Datenbanken (CouchDB, MongoDB), [26], 11.06.2015 Küll, Uwe: "Big Data - so beherrschen Sie die Datenflut", [27], 10.06.2015 Lackes, Prof. Dr. Richard / Siepermann, Dr. Markus: ?Data Warehouse? [28], 13.06.2015 Lackes, Prof. Dr. Richard / Siepermann, Dr. Markus : ?Online Analytical Processing (OLAP)?,[29], 08.06.2015 Lackes, Prof. Dr. Richard: ?Data Mining?, [30], 07.06.2015 Lackes, Prof. Dr. Richard: ?ODBC?, [31], 07.06.2015 Mahnert, Klaus: "Datenbanktechniken für Big Data", [32], 10.06.2015 Neubauer,Peter / Hunger, Michael: "Graphendatenbanken, Die Datenbank der Wahl, [33], 17.06.2015 o.V.: ?About MapReduce? [34], 04.06.2015 o.V.: "About Data Scientist" [35], 18.06.2015 o.V.: ?Introduction to Cubes? [36], 13.06.2015 o.V.: ?MapReduce Tutorial? [37], 04.06.2015 7 Literaturverzeichnis 30 Theoretische_Grundlagen_von_Big_Data o.V.: "Module 4: MapReduce" [38], 19.06.2015 o.V.: ?MOLAP, ROLAP, And HOLAP?: [39], 15.06.2015 o.V.: "Neuer Superrechnet für die Klimaforschung", [40], 13.06.2015 o.V.: ?OLAP-Würfel OLAP cube? [41], 13.06.2015 o.V.: "Projekt Zukunft: Big Data in der Klimaforschung", [42], 13.06.2015 Reeve, April: "Big Data Architectures - NoSQL Use Cases for Value Databases", [43], 13.06.2015 Romero-Morales, Prof. Dolores / Schroeck, Michael / Shockley, Rebecca / Smart, Dr. Janet/ Tufano, Prof. Peter: ?Analytics: Big Data in der Praxis? [44], 04.06.2015 Rouse, Margaret: ?Online Analytical Processing (OLAP)?, [45], 13.06.2015 Rouse, Margaret: ?Predictive Analytics?, [46], 13.06.2015 Sathi, Dr. Arvind, Big Data Analytics: Disruptive Technologies for Changing the Game, First Edition, Mc Press (15. November 2012)[47], 10.06.2015 Seufert, Andreas: Entwicklungsstand, Potentiale und zukünftige Herausforderungen von Big Data ? Ergebnisse einer empirischen Studie, Springer Fachmedien Wiesbaden 2014 Schlieter, Kai: "Algorithmen gegen Gangster", [48], 12.06.2015 Thede, Gerrit: ?Big Data ? Datenquellen und Anwendungen Ausarbeitung Grundlagen Vertiefung und Anwendung 1? [49], 14.06.2015 Walker-Morgan, D.J.: "NoSQL im Überblick", [50], 05.06.2015 Wolff, Eberhard / Spichale, Kai / Westphal, Thomas / Hartmann, Andreas: "Datenflut bereitet NoSQL den Weg", [51], 14.06.2015 8 Gesetzestexte "Bundesdatenschutzgesetz in der Fassung der Bekanntmachung vom 14. Januar 2003" (BGBl. I S. 66), BDSG das zuletzt durch Artikel 1 des Gesetzes vom 25. Februar 2015 (BGBl. I S. 162) geändert worden ist. , http://www.gesetze-im-internet.de/bdsg_1990/BJNR029550990.html (21.06.2015) 9 Abkürzungsverzeichnis Abkürzung Bedeutung BDSG Bundesdatenschutzgesetz CPU Central Processing Unit EGA Elektronische Gesundheitsakte FOM Fachhochschule für Oekonomie und Management HDFS Hadoop Distributed File System HDD Hard Drive Disk KMU Kleine und mittlere Unternehmen ODBC Open Database Connectivity OLAP Online Analytical Processing HOLAP Hybrid Online Analytical Processing 8 Gesetzestexte 31 Theoretische_Grundlagen_von_Big_Data MOLAP Multidimensional Online Analytical Processing ROLAP Relational Online Analytical Processing NoSQL Not only Short Query Language Precobs Pre Crime Obersavation System RSS Real Simple Syndication SSD Solid State Disk TB Terabyte 10 Abbildungsverzeichnis Abbildungs-Nr. Beschreibung 1 Die drei Dimensionen von Big Data 2 Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte) 3 Meinungsumfrage:Potenzial von Big-Data-Technologie auf Business-Ebene 4 Gesamte Anschaffungskosten einer Big Data Lösung 5 Prognose zum Umsatz mit Big-Data-Lösungen weltweit von 2011 bis 2017 (in Milliarden US-Dollar) 6 Abb.6 Umsatz mit Big-Data-Lösungen in Deutschland von 2013 bis 2016 (in Milliarden Euro) 7 Umfrage zum Nutzen von Big Data für verschiedene Geschäftsbereiche 2012 8 Beipielhafter Aufbau eines Cubes 9 Datenflussschema von MapReduce 10 Vergleich der Geschwindigkeiten von HDD, SSD und Arbeitsspeicher 11 Logo von Apache Hadoop 12 Logo von Apache Cassandra 11 Tabellenverzeichnis Tabelle-Nr. 1 Beschreibung Umsatz mit Big Data Lösungen weltweit im Vergleich zum Umsatz in Deutschland 9 Abkürzungsverzeichnis 32