HAUPTBEITRAG / GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA } Grundlagen und Visionen großer Forschungsfragen im Bereich Big Data Johann-Christoph Freytag Einleitung Im Zeitalter der umfassenden und alle Bereiche des täglichen Lebens erreichenden Digitalisierung werden zentral und dezentral mehr und mehr Daten systematisch gesammelt, gespeichert, analysiert und Nutzern zugänglich gemacht. Diese rasant wachsenden Datenmengen werden auf Handys, Kameras und Sensoren sowie durch Interaktionen zwischen ubiquitären, orts- und zeitbezogenen Systemen und Dienstleistern (Servern) sowie Sensoren zur Messung von orts- und zeitbezogenen Größen generiert. Diese Entwicklung in der Datengenerierung hat zu einer Welle neuer technologischer Entwicklungen geführt, die zurzeit unter dem Begriff Big Data zusammengefasst werden. Jedoch erscheinen die momentanen Ansätze im Big Data-Bereich stark technologiezentriert statt nutzerorientiert zu sein. Dies hat zur Folge, dass die Potenziale beim Einsatz der Big Data-Technologie nur ungenügend ausgeschöpft werden können. Aus diesem Grunde argumentiert der vorliegende Beitrag, dass eine nutzerorientierte Weiterentwicklung der Big Data-Technologien notwendig ist, und entwirft anhand bisheriger Entwicklungen im Big Data-Bereich sowie Anforderungen aus verschiedenen Anwendungsdomänen eine Vision für eine Big Data-Plattform, die sich an zwei Grundprinzipien aus dem Datenbankbereich – Skalierbarkeit und deklarative Spezifikation – orientiert. Wie die Erkenntnisse aus Reaktionen auf die NSA-Affäre in 2013 zeigen, wird es für die gesellschaftliche Akzeptanz dieser Technologie notwendig sein, den Schutz der Privatsphäre nicht nur gesetz- geberisch sondern auch technologisch so weit wie möglich sicherzustellen. Aus diesem Grunde wird dieser Beitrag durch einen Überblick über technische Entwicklungen zum Schutz der Privatsphäre abgerundet. Eigenschaften von Big Data In den vergangenen zehn Jahren hat der Trend, (große) Datenmengen zu generieren, zu sammeln, zu speichern und zu analysieren mehr und mehr zugenommen. Diese Entwicklung wurde durch unterschiedliche technologische Entwicklungen ermöglicht. Zum einen trug eine immer engere und flächendeckendere Vernetzung mit hohen und preisgünstigen Bandbreiten und Übertragungsgeschwindigkeiten dazu bei, die Zusammenarbeit (Kollaboration) zwischen Menschen und Institutionen auf digitaler Ebene zu ermöglichen und zu verbessern. Zum anderen werden immer mehr Daten durch verschiedene Sensoren automatisch generiert und zusammengeführt. Beispiele für Sensordaten sind Lokationsdaten, die auf Handys oder anderen Geräten generiert werden, oder auch RFIDDaten, die von Lesegeräten erfasst und weitergeleitet werden. Darüber hinaus haben Leistungssteigerungen im Rechnerbereich (Multicore), preisgünstige und schnelle Speichertechnologien (Terabyte-Platten, SSD-Speichertechnologie) sowie neue Ansätze der DOI 10.1007/s00287-014-0771-y © Springer-Verlag Berlin Heidelberg 2014 Johann-Christoph Freytag Sprecher des GI-Fachbereiches Datenbanken und Informationssysteme (FB DBIS) Humboldt-Universität, Berlin E-Mail: [email protected] Informatik_Spektrum_37_2_2014 97 { GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA parallelen Bearbeitung großer Datenmengen dazu beigetragen, die Bearbeitung großer Datenmengen zu ermöglichen und zu ökonomisch akzeptablen Bedingungen bereitzustellen. Untermauert und weiter vorangetrieben wird diese Entwicklung darüber hinaus durch neue Technologien und Werkzeuge, die eine fach- bzw. domänenorientierte Bearbeitung großer Datenmengen ermöglicht. Durch die Entwicklung der Semantischen Web-Technologien zusammen mit dem Dienste-Paradigma (Services) sowie des Cloud-Computer-Paradigmas entstanden neue Konzepte wie das Internet der Dinge (Internet of Things) oder Cyberphysical Systems. Die in diesem Kontext entstehenden Datenmengen sind zwar wesentlich, aber nicht ausschließlich durch ihre kontinuierlich wachsenden Volumina (engl. Volume) im Exa- (1018 ) bzw. Zetta-ByteBereich (1021 ) gekennzeichnet, sondern auch durch unterschiedliche Formate/Datentypen (englisch Variety) sowie die Aktualität (engl. Velocity) der Daten, die alle zusammen als wesentliche charakteristische Eigenschaften von Big Data genannt werden [10]. Weit weniger häufig wird im Kontext von Big Data darauf hingewiesen, dass die gesammelten Daten meist von unterschiedlicher Qualität bzw. Genauigkeit sein können und damit mit einer Unsicherheit behaftet sind. Letztere Eigenschaft wird häufig als Eigenschaft der Glaubwürdigkeit (engl. Veracity) bezeichnet. Diese drei bzw. vier wesentlichen Eigenschaften werden in der Literatur häufig mit den vier V’s (Volume, Velocity, Variety, Veracity) beschrieben und bilden den Ausgangspunkt vieler Forschungs- und Entwicklungsarbeiten. Big Data – Anwendung vs. Technologie Die Verarbeitung großer Datenmengen steht seit über 50 Jahren im Mittelpunkt der Datenbankforschung und -entwicklung. Die in diesem Bereich entstandenen Konzepte und Systeme bilden in Wirtschaft und Forschung das Rückgrat heutiger Datenbearbeitung. Die Entwicklung in neue Dimensionen mit neuen Herausforderungen im Bereich Big Data wurde u. a. schon vor über zehn Jahren von Jim Gray (Abb. 1) mit dem Sloan Digital Sky SurveyProjekt vorweggenommen. Mit diesem Projekt schuf er als einer der ersten Big Data-Wissenschaftler für diese Astronomen in Kooperation mit diesen eine Analyse- und Kollaborationsplattform im 98 Informatik_Spektrum_37_2_2014 Abb. 1 Jim Gray, † 2007 – Big Data-Pionier Bereich der Astronomie, die ihrer Zeit in vielen technischen und nicht-technischen Eigenschaften voraus war [9]. Mit der digitalen Erfassung des Himmels anhand von Bildern bzw. Messungen unterschiedlicher Spektren, die pro Nacht ein Datenvolumen von bis zu 250 GB erzeugen, wurde bisher ca. ein Viertel des Himmels mit weit mehr als 930.000 Galaxien und über 120.000 Quasare beschrieben [9]. Das Sloan Digital Sky Survey-Projekt zeigt in vielen Aspekten deutlich, dass bisherige datenbankgetriebene Ansätze für die Bearbeitung nur unvollständig den Anforderungen der durch die vier V’s gekennzeichneten Datenmengen genügen. Diese Anforderungen sollen im Weiteren Gegenstand der Diskussion sein. Abbildung 2 zeigt in generischer Form sowohl Datenquellen aus unterschiedlichen Bereichen als auch unterschiedliche Aufgaben, die aus Anwendungssicht zu lösen sind. Daten sind zentral oder dezentral nicht nur in Datenbanksystemen gespeichert, sondern liegen als Dateien auch in anderen Formaten (XML, ASCII-Format) mit oder ohne Strukturbeschreibung vor. Als Beispiele für datengenerierende Bereiche seien hier Prozessdaten aus dem Fertigungsbereich, Daten aus dem Web, allgemeine Daten aus dem Wissenschaftsbzw. Unternehmensbereich, Sensordaten bzw. Daten, die in mobilen Geräten generiert werden sowie Daten aus sozialen Netzen bzw. Blogs etc. genannt. Durch den Domänenexperten werden diese Daten in unterschiedlicher Form in einem oder mehreren einfachen oder komplexen Schritten zusammengeführt und verarbeitet, die sich in vier wesentlichen Kategorien einteilen lassen: Abb. 2 Datenquellen und Kategorien der Verarbeitung von Big Data – Nachverfolgen & Auswerten (engl. track & evaluate) beschreibt solche Verarbeitungsaktivitäten, die – möglicherweise in Echtzeit – Prozesse bzw. Prozesszustände erfassen und bewerten, um eventuelle Korrekturen vorzunehmen, bzw. Objekte der realen Welt in ihren Eigenschaften – beispielsweise die aktuelle Lokation oder die aktuelle Temperatur eines Gegenstandes – erfasst, diese weitergibt bzw. im Einzelnen ebenfalls bewertet. – Suchen & Identifizieren (engl. search & identify) umfasst das Herausfiltern bzw. Bestimmen von Objekten aus einer großen Vielzahl anhand gegebener bekannter und nur unvollständig oder ungenau bekannter Merkmale zur weiteren Verarbeitung. – Analysieren (engl. analyze) einer Menge von Datenelementen ist die wohl am weitesten verbreitete und bekannte Form der Verarbeitung, die sich mehrheitlich auf entwickelte Techniken aus dem Bereich der künstlichen Intelligenz und der Statistik stützt. Beispiele für die Analyse sind Regressionsverfahren oder Verfahren der Cluster-Bestimmung bzw. Herleitung von Assoziationsregeln – alle mit dem Ziel aus Daten Informationen bzw. Wissen herzuleiten. – Vorhersagen & Planen (engl. predict & project) umfasst Verarbeitungsaktivitäten, wie die aus den anderen Aktivitäten gewonnenen Erkenntnisse für die Zukunft genutzt und eingesetzt werden können – beispielsweise zur Veränderung bzw. Optimierung von (Geschäfts- oder Fertigungs-) Prozessen. Alle vier Aktivitätskategorien lassen sich in verschiedenen Domänen (Anwendungsbereichen) wiederfinden, die durch datenintensive/datengetriebene Aktivitäten bzw. Anwendungen gekennzeichnet sind. Einige datengetriebene Anwendungen sollen im Folgenden beispielhaft genannt werden: – Wasser- bzw. Energiemanagement: dieser Bereich umfasst die Erzeugung, Verteilung, Bereitstellung und Nutzung von Wasserressourcen bzw. Energie in seinen verschiedenen Formen. Aktuelle neuen Herausforderungen in diesem Bereich lassen sich nur dann effektiv unterstützen, wenn die Aktivitäten des Energiemanagements durch entsprechende Anwendungen im Big Data-Bereich unterstützt werden. – Gesundheitsmanagement: dieser Bereich umfasst Anwendungen bzw. Aktivitäten in allen vier Kategorien. Für eine bessere Nutzung der immer Informatik_Spektrum_37_2_2014 99 { GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA teurer werdenden medizinischen Versorgung der (alternden) Bevölkerung scheint es unabdingbar zu sein, diese durch Big Data-Anwendungen zu unterstützen. Gerade dieser Bereich ist durch vielfältige Herausforderungen im technischen Bereich – beispielsweise Verteilung und Heterogenität der Daten – als auch im nicht-technischen Bereich, insbesondere im Bereich des Datenschutzes/Schutzes der Privatsphäre, gekennzeichnet. – Produktlebenszyklusmanagement umfasst die Integration aller Daten und Prozesse, die im Verlauf des Lebenszyklus eines Produktes anfallen. Gerade für komplexe Produkte (Autos, Flugzeuge, komplexe SW-Systeme) erscheint eine Unterstützung des Produktzyklus durch vielfältige datengetriebene Aktivitäten unumgänglich. Insbesondere für die komplexen Aufgaben in diesem Bereich werden Daten, die während des gesamten Produktlebenszyklus gesammelt werden, neue und verbesserte qualitative und quantitative Möglichkeiten erschließen. In allen genannten Bereichen wurden bisher Eigenschaften dieser Aktivitäten überwiegend mit den vier V’s technisch bzw. informatik-orientiert charakterisiert bzw. beschrieben. Dabei ist es mindestens genauso wichtig und notwendig, diese Aktivitäten aus Sicht des Nutzers bzw. Domänenexperten bezüglich der gewünschten Qualitäten zu beschreiben. Diese häufig vernachlässigte Sichtweise soll im Folgenden mit den drei F’s (three F’s) charakterisiert werden: – Schnell (engl. Fast): Sowohl die Spezifikation als auch die Ausführung in den vier genannten Aktivitätskategorien soll schnell erfolgen. Hinsichtlich der Spezifikation von Aktivitäten soll diese Eigenschaft für den Domänenexperten sicherstellen, dass er sich auf die für ihn inhaltliche Beschreibung seiner Aufgaben beschränken kann, während technische Aspekte so weit wie möglich keine Rolle spielen sollten. Hinsichtlich der Ausführung von Aktivitäten sollte die zur Verfügung stehende Ausführungsumgebung in der Lage sein, das Ergebnis so schnell wie möglich zu erzeugen. Dabei ist es unmöglich, absolute Zeitangaben zu geben, da unterschiedliche Parameter wie die Komplexität der Aktivität, der Umfang und die Heterogenität der Daten sowie die zur Verarbeitung zur Verfügung stehenden Ressourcen einen wesentlichen Einfluss 100 Informatik_Spektrum_37_2_2014 auf die Schnelligkeit der Aktivitätsausführung haben. – Flexibel (engl. Flexible) beschreibt die Möglichkeiten des Domänenexperten, bisher schon spezifizierte Aktivitäten an neue Anforderungen anzupassen, die sich beispielsweise durch das Einbeziehen neuer/weiterer Datenquellen, aus neuen/sich verändernden funktionalen Domänenanforderungen oder auch neuen Ansätzen zur Datenverarbeitung (neue Werkzeuge oder Algorithmen) ergeben. M. a. W. soll es möglich sein, existierende Verarbeitungsaktivitäten kontinuierlich an sich ändernde Bedingungen anzupassen, statt diese immer wieder neu (engl. from scratch) spezifizieren bzw. realisieren zu müssen, bzw. neue Aktivitäten anhand existierender durch Erweiterungen neu zu definieren bzw. abzuleiten. – Fokussiert (engl. Focused): Diese Anforderung soll sicherstellen, dass Aktivitäten sich auf diejenigen Daten bzw. Verarbeitungsaspekte konzentrieren können, die für die Erreichung eines vorgegebenen Zieles notwendig und wichtig sind. M. a. W. soll es möglich sein, relevante Datenquellen und Verarbeitungsschritte mit geringem Aufwand zu selektieren und zu nutzen, statt durch eine Vielzahl an Schritten, möglicherweise auch erst durch Ausprobieren, die notwendigen Entscheidungen bezüglich der zu nutzenden Daten und Aktivitäten treffen zu können. Mit diesen drei Merkmalen werden zumindest wichtige Anforderungen aus Domänensicht charakterisiert. Es sind durchaus weitere Merkmale vorstellbar – im Weiteren werden jedoch diese drei die Diskussion um wichtige Anforderungen im Big Data-Bereich bestimmen. Von den Big Data-Technologien zur Big Data-Plattform Wie eingangs dargestellt, sind in den vergangenen Jahren aufgrund der HW-Entwicklungen auch neue Konzepte entstanden, die zu einem ,,Bauchladen“ an Werkzeugen und Ansätzen zur Verarbeitung sehr großer Datenmengen geführt haben. Dazu gehören MapReduce-basierte Ansätze wie Hadoop [14], Stratosphere [15], Clauderas Impala [16] oder IBMs InfoSphereBigInsights [17], die u. a. mit (Script-)Sprachen wie Pig, Hive oder JAQL genutzt werden können. In den Berei- chen Data Mining, Informationsextraktion sowie Business Analytics/Intelligence seien beispielhaft IBMs SystemT [13], SPSS [19], das Produkt SAS Analytics [20] sowie die Statistikpakete R der Universität Auckland [21] sowie Matlab als Produkt der Firma Mathworks [22] genannt. Im Bereich Text-Suche bzw. Indizierung und Analyse sind die OpenSource-Systeme Lucene [24] und Solr [23] der Apache-Software-Foundation sowie eine UIMA-konforme Plattform durch die Apache-Software-Foundation [25] entwickelt worden. Neben der Weiterentwicklung bisheriger Datenbankmanagement-Produkte der Firmen IBM (DB2), Oracle (Oracle DBMS und Exadata) und Microsoft (SQL Server) sind auch neue DBMS entwickelt worden, u. a. DBMS durch Teradata, Greenplum/EMC und Vertica/HP. Alle diese Ansätze zeigen, dass mächtige (Teil-) Systeme entstanden sind; diese stellen aber den Domänenexperten für die Entwicklung von Lösungen im Big Data-Bereich vor große Probleme. Beispiele für diese Probleme sind unterschiedliche, prozedurale und deklarative Schnittstellen, die untereinander nicht kompatibel sind sowie unterschiedliche Datenformate bzw. unterschiedliche Modelle und Konzepte, die den benutzten SW-Systemen zugrunde liegen. Darüber hinaus berücksichtigen die meisten Systeme nur die Anforderungen, die sich aus der Bearbeitung großer Datenmengen ergeben – ergo nur eines V’s (für Volume), während Velocity, Variety und Veracity nicht selten nur eine untergeordnete Rolle spielen. Aus diesen Beobachtungen ergibt sich die Notwendigkeit, einen holistischen Ansatz für eine Big Data-Plattform zu entwickeln, die für den Domänenexperten neben der Berücksichtigung der drei F’s (Fast, Flexible, Focused) auch weitere Funktionen bzw. SW-Komponenten zur Verfügung stellt, die für die Big Data-Verarbeitung essentiell sind. Abbildung 3 spiegelt im Wesentlichen die genannten Aufgaben und Komponenten wider, wie sie bisher diskutiert wurden. Dabei ist ein wichtiger Gedanke einer solchen Big Data-Plattform, bisherige Unterschiede der verschiedenen Komponenten bzw. (Teil-)Systeme zur Big Data-Verarbeitung zu maskieren bzw. zu eliminieren. Darüber hinaus sind jedoch weitere Funktionen bzw. Aufgaben von einer Big Data-Plattform zur Verfügung zu stellen, die für den Domänenexperten Abb. 3 Wichtige Komponenten einer Big Data-Plattform bei der Big Data-Bearbeitung notwendig und wichtig sind. Im Folgenden nennen wir wichtige Bereiche bzw. Funktionen: – Datenvisualisierung: Die Ergebnisse unterschiedlicher Verarbeitungsschritte sollten in einer Art und Weise aufbereitet werden, dass trotz des Umfangs des Ergebnisses dieses durch Visualisierung verstanden werden kann. Eine tabellarische bzw. textuelle Darstellung wäre hierfür nicht ausreichend. Deshalb sind im Data Warehousing-Bereich in den vergangen Jahren etliche Ansätze für die Visualisierung großer Datenmengen entwickelt worden, die in den Big Data-Bereich übernommen und diesem angepasst werden sollten [8]. – Datenintegration: Aufgrund vieler verschiedener Datenquellen ist es nicht nur notwendig, syntaktische Unterschiede in der Darstellung zu bewältigen, sondern auch Unterschiede in den Strukturen der Daten, deren Strukturbeschreibungen, in der Semantik sowie im Datenzugriff zu adressieren [7]. Aufgrund umfangreicher Forschungsarbeiten in den vergangenen 15 Jahren sind auch für die Datenintegration in verschiedener Form Produkte und SW-Komponenten mit unterschiedlicher Funktionalität entstanden. – Entitätsintegration (engl. entity integration): Während die Datenintegration sich eher um Integrationslösungen auf technischer Ebene beschränkt, liegt der Fokus der Entitätsintegration auf der semantischen Ebene. Es sollen BeschreiInformatik_Spektrum_37_2_2014 101 { GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA bungen desselben ,,Objektes der realen Welt“, das in unterschiedlichen Datenquellen durch unterschiedliche Eigenschaften beschrieben und möglicherweise unterschiedlich identifiziert wird, zusammengeführt und verschmolzen werden. Um diese Zusammenführung möglichst fehlerfrei durchzuführen bedarf es unterschiedlicher Methoden und Ansätze, die teilweise im Bereich der künstlichen Intelligenz bzw. im Bereich des Semantic Web entwickelt wurden. – Datenqualität: Mit der Entwicklung von DBMS in den letzten fünfzig Jahren ist auch immer wieder die Frage der Datenqualität gestellt worden – doch erst in den letzten zwei Dekaden sind für dieses Problem aufgrund (automatischer) Datengenerierung und -erhebung in der Forschung Ansätze und Lösungen entwickelt worden, wie die Fehler in Daten erkannt und (semi-)automatisch eliminiert werden können [12]. – Datenherkunft bzw. -abstammung (engl. data provenance bzw. data lineage): In vielen Fällen werden Daten nicht nur von Organisationen oder Personen selbst erzeugt; vielmehr wird häufig auf Daten aus unterschiedlichen Quellen zugegriffen, um sie dann miteinander zu verknüpfen bzw. syntaktisch oder semantisch zu integrieren. Aus unterschiedlichen Gründen, u. a. der Qualitätssicherung, ist es wichtig, (Meta-)Daten über die Herkunft der Daten, über die zugegriffene Datenquelle und über den Erzeugungsprozess selbst zu speichern [18] [11]. Gleiches gilt auch für lokal durchgeführte Transformations- bzw. Bearbeitungsschritte, deren Eigenschaften wie Datenbzw. SW-Version ebenfalls für die Beurteilung von Ergebnissen eine Rolle spielen können. Der Umfang und der Detaillierungsgrad dieser (Meta-) Daten sind abhängig von der Domäne bzw. den Anforderungen des Domänenexperten. – Prozess-/Workflow-Management: In vielen Domänen setzen sich komplexe Datenanalysen und -transformationen aus mehreren atomaren Aktivitäten zusammen, die in ihrer Zusammensetzung als Einheit in Form einer Prozesskette (Workflows) im Entwurf und der Ausführung behandelt werden sollen. Sowohl im ökonomischen als auch im wissenschaftlichen Bereich sind Geschäftsprozesse (engl. business processes) [6] bzw. wissenschaftliche (engl. scientific) Workflows [5] seit langem Gegenstand der konzeptuellen Entwicklung und Realisierung. 102 Informatik_Spektrum_37_2_2014 – Metadaten-Management: Wie in anderen Bereichen auch unterliegen Daten einem Lebenszyklus, der die Speicherung und Aufbereitung sämtlicher, während des Lebenszyklus anfallenden Informationen (Metadaten) zusammen mit notwendigen Prozessen umfasst. Zu diesem Bereich gehören auch (Meta-)Daten aus den zuvor genannten Bereichen der Datenqualität, der Datenherkunft und der Datentransformation durch (Geschäfts-)Prozesse bzw. wissenschaftliche Workflows. Diese Zusatzinformationen geben dem Domänenexperten häufig wichtige Hinweise über die Nutzbarkeit bzw. Brauchbarkeit von Daten, um vorgegebene Aufgabenziele zu erreichen bzw. formulierte Probleme adäquat lösen zu können. Alle genannten Funktionalitäten sind nicht neu; viele wurden in unterschiedlichen Ansätzen konzeptuell entwickelt und prototypisch oder produktmäßig als SW-Systeme oder SW-Werkzeuge realisiert. Als besondere Herausforderung erweist sich dabei die Integration existierender bzw. neuer SW-Systeme und SW-Werkzeuge in eine Big Data-Plattform, sodass der Domänenexperte diese mit möglichst geringem Aufwand in den eigenen Bearbeitungsprozess (Workflow) zu integrieren vermag. Während die genannten Probleme eher pragmatischer Lösungen bedürfen, sollten bei der Entwicklung einer Big Data-Plattform zwei wichtige Prinzipien zukünftig mehr berücksichtigt bzw. ungesetzt werden: – Daten-Skalierbarkeit von SW-Komponenten bzw. Daten-Skalierbarkeit der zugrunde liegenden Algorithmen: in vielen Fällen werden existierende SW-Systeme als SW-Systeme, die auf bisherigen Datenvolumina in angemessener Zeit Ergebnisse lieferten, auch im Big Data-Bereich eingesetzt. Dabei wird häufig außer Acht gelassen, dass neue HW-Architekturen auch neue SW-Architekturen mit entsprechenden Algorithmen und Datenstrukturen benötigen, um mit einem beliebigen, meist vorher nicht bekannten Grad der Verarbeitungsparallelität ausgeführt werden zu können. Für diesen Fall hat sich das MapReduce-Paradigma als vorteilhaft erwiesen, da es den Programmierer von der (meist schwierigen) Aufgabe befreit, parallel arbeitende Programme zu erzeugen. Vielmehr ist es die MapReduceProgrammausführungsumgebung, die diese Aufgabe übernimmt, indem es die erzeugten Programme als atomare Einheit für die Parallelisierung (und damit Skalierbarkeit) nutzt. Darüber hinaus sind im Bereich der Algorithmen und Datenstrukturen weitere Entwicklungen notwendig – beispielsweise sperrfreie Datenstrukturen (engl. lock free data structures [4]) –, die ebenfalls für eine verbesserte Skalierbarkeit sorgen. – Deklarative Bearbeitung von Big Data: Bisherige Ansätze der imperativen (prozeduralen) Bearbeitung von Daten sind bei steigenden Anforderungen bzw. steigender Komplexität der Aktivitäten bei gleichzeitig steigender Heterogenität der Ausführungsumgebung immer weniger wünschenswert. Neben Ansätzen im Bereich der Programmierung durch funktionale oder logikbasierte Sprachen hat sich in den vergangenen 40 Jahren die Sprache SQL als deklarative Datenzugriffs- und Verarbeitungssprache kommerziell durchgesetzt und sich in Bezug auf Effektivität und ökonomische Effizienz bewährt. Neben diesen Vorteilen befreit eine deklarative Spezifikation den Domänenexperten von der Notwendigkeit, viele systemrelevante und systemspezifische Details zu kennen und zu spezifizieren, die nur indirekt etwas mit der Problemlösung zu tun haben. Es erscheint daher wichtig, die in der Vergangenheit gesammelten Erfahrungen im Datenbankbereich mit einem deklarativen Ansatz weiter fortzuschreiben, um die Vorteile eines solchen Ansatzes auch für die Big Data-Bearbeitung nutzbar zu machen. Weiterhin hat sich für die Datenbanknutzung die Sprache SQL als stabiler ,,Schutz“ bei Veränderungen im HW-, Betriebssystem- oder Datenbanksystembereich erwiesen: Datenbankzugriffe, die in SQL formuliert werden, brauchen trotz mancher grundlegender Veränderungen in den genutzten Technologien nicht angepasst werden. Diese Stabilität in der Programmierung wurde bisher in anderen ITBereichen nur bedingt oder gar nicht erreicht. Ein erster Ansatz in diese Richtung wurde durch Ceri et al. durch den Begriff Mega Programming formuliert [1]. Auch wenn beide Prinzipien für diesen Beitrag nur kurz und allgemein dargestellt werden, können sie aufgrund bisheriger Erfahrungen insbesondere im Bereich der DBMS durch deklarative Anfragesprachen wichtige Ansätze erschließen, die zurzeit verwirrende Vielfalt und Komplexität existieren- der Systeme für den Domänenexperten einfacher beherrschbar und nutzbar zu machen. Zwischen Technologie und Gesellschaft – Schutz der Privatsphäre Die bisher diskutierten Anforderungen und Herausforderungen für eine Big Data-Plattform lassen außer Acht, dass verschiedene Anwendungen durchaus personenbezogene Daten verarbeiten, so beispielsweise im Medizinbereich, im Energiebereich (Smart Meter mit individuellen Energieverbrauchsdaten), im Verkehrsbereich (Ortsdaten über Fahrzeuge und Fahrer) oder im Bereich sozialer Netzwerke. Bei dem Zugriff auf personenbezogene Daten und deren Verarbeitung werden Rechte in Bezug auf die Privatsphäre von Personen tangiert, die in den verschiedenen Ländern in Gesetzen und juristischen Vorschriften festgelegt sind. Die Erfahrungen der vergangenen Jahre, insbesondere im Jahr 2013, haben jedoch gezeigt, dass personenbezogene Daten bei internationaler Vernetzung durch (nationale) juristische Regeln nur unzureichend geschützt werden. Daher erscheint es erforderlich, technische Ansätze zum Schutz der Privatsphäre in Big Data-Plattformen von vornherein zu integrieren, um durch einen besseren Schutz der Privatsphäre auch die Akzeptanz dieser Technologie sicherzustellen. Im Bereich der Forschung, aber auch zunehmend im Bereich der Entwicklung technischer (Software-)Systeme sind in den vergangenen zehn Jahren Ansätze zum Schutz der Privatsphäre entwickelt worden. Dabei ist festzuhalten, dass Ansätze aus dem Sicherheitsbereich nicht ausreichen, um den Schutz der Privatsphäre sicherzustellen, wenn es um Balance zwischen diesem Grundrecht und dem durchaus vorhandenen und berechtigten Nutzungsinteresse an personenbezogenen Daten durch Dritte geht. Erste datenbezogene Ansätze zum Schutz personenbezogener Daten wurden mit dem Konzept der k-Anonymität [2] entwickelt, der im Ansatz sicherstellen soll, dass sensible Eigenschaften einzelner Personen diesen nicht eindeutig zugeordnet werden können. Dieser Grundgedanke ist in den vergangenen Jahren in vielfältiger Weise weiter entwickelt und für verschiedene Anwendungsbereiche verfeinert worden. Dabei zeigen viele Forschungsarbeiten, dass das Wissen eines Angreifers eine wichtige Rolle dabei spielt, inwieweit dieser Ansatz tatsächlich trägt Informatik_Spektrum_37_2_2014 103 { GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA bzw. inwieweit personenbezogene Daten tatsächlich vor der De-Anonymisierung geschützt sind. Gleichzeitig machen viele Forschungsarbeiten deutlich, dass ein Spannungsfeld zwischen dem Schutz der Privatsphäre und Nutzbarkeit der Daten für bestimmte Zwecke besteht. Inwieweit die in diesem Spannungsfeld existierenden Gegensätze in ausgewogener Weise ,,unter einen Hut“ gebracht werden können, muss Gegenstand weiterer Forschung sein. Als Alternative zur k-Anonymität ist der theoretisch begründete Ansatz der Differential Privacy [3] in den vergangenen sechs Jahren Gegenstand intensiver Forschung gewesen. Das Grundprinzip ist, jedem Ergebnis einer statistischen Anfrage (Aggregationsanfrage) genügend ,,Rauschen“ hinzuzufügen, sodass durch die entstehende Ungenauigkeit des Ergebnisses dieses keine Rückschlüsse auf schützenswerte Eigenschaften individueller Personen zulässt. Aufgrund der theoretischen Fundierung erscheint vielen Forschern dieser Ansatz zum Schutz der Privatsphäre der vielversprechendere zu sein, auch wenn dieser sich bisher nur auf statistische Anfragen (Aggregationsanfragen) beschränkt. Auch für den Ansatz der Differential Privacy sind weitere Forschungsarbeiten notwendig, um diesen in seinem Potenzial auszuschöpfen und für Anwendungen in der Wirtschaft und Wissenschaft nutzbar zu machen. Zusammenfassung Dieser Beitrag entwickelt anhand domänenorientierter Kriterien in einem holistischen Ansatz funktionale Anforderungen für eine Big Data-Plattform. Dabei werden als besondere Herausforderung die Entwicklung skalierbarer Systeme und SW-Komponenten gesehen, die durch die Entwicklung deklarativer Ansätze zur Spezifikation komplexer Big Data-Aktivitäten die Nutzung der Big Data-Technologien vereinfachen soll. Damit kann ein höheres Nutzungspotenzial und ein ökonomisch effizienterer Umgang erreicht werden. 104 Informatik_Spektrum_37_2_2014 Für die Akzeptanz von Big Data-Technologien im gesellschaftlichen Kontext wird die unmittelbare Integration von Techniken zum Schutz der Privatsphäre in eine Big Data-Plattform als unumgänglich angesehen. Literatur 1. Ceri S, Palpanas T, Della Valle E, Pedreschi D, Freytag J-C, Trasarti R (2013) Towards mega-modeling: a walk through data analysis experiences. SIGMOD Rec 42(3):19–27 2. Samarati P, Sweeney L (1998) Generalizing data to provide anonymity when disclosing information (abstract). In: Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems (PODS ’98) 3. Dwork C (2006) Differential Privacy. ICALP 2:1–12 4. Herlihy M, Eliot J, Moss B (1993) Transactional memory: architectural support for lock-free data structures. In: Proceedings of the 20th annual international symposium on computer architecture (ISCA ’93), ACM, New York, NY, USA, pp 289–300 5. Barker A, Van Hemert J (2008) Scientific Workflow: A Survey and Research Directions, Parallel Processing and Applied Mathematics. 7th International Conference, PPAM 2007. Revised Selected Papers, Lecture Notes in Computer Science, vol 4967. Springer, Berlin Heidelberg, pp 746–753, 200 6. Harmon P (2007) Business Process Change: A Guide for Business Managers and BPM and Six Sigma Professionals, 2nd edn. Morgan Kaufmann 7. Leser U, Naumann F (2007) Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt.verlag, Heidelberg 8. Ward MO, Grinstein GG, Keim DA (2010) Interactive Data Visualization – Foundations, Techniques, and Applications. AK Peters, pp I–XVII, 1–496 9. Singh V, Gray J, Thakar A, Szalay A S, Raddick J, Boroski B, Lebedeva S, Yanny B (2007) Sky Server Traffic Report – The First Five Years. CoRR abs/cs/0701173 10. Laney D (2001) 3D Data Management: Controlling Data Volume, Velocity, and Variety, Application Delivery Strategies published by META Group Inc. http://blogs. gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-ControllingData-Volume-Velocity-and-Variety.pdf 11. Cui Y, Widom J (2001) Lineage Tracing for General Data Warehouse Transformations. VLDB 2001:471–480 12. Naumann F, Raschid L (2009) Guest Editors for the Special Issue on Data Quality in Databases. J Data Inform 13. Chiticariu L, Krishnamurthy R, Li Y, Raghavan S, Reiss F, Vaithyanathan S (2010) SystemT: An Algebraic Approach to Declarative Information Extraction. ACL 128– 137 14. http://hadoop.apache.org/, letzter Zugriff 4.1.2014 15. http://stratosphere.eu/, letzter Zugriff 4.1.2014 16. http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/ impala.html, letzter Zugriff 4.1.2014 17. http://www-01.ibm.com/software/data/infosphere/biginsights/, letzter Zugriff 4.1.2014 18. Simmhan YL, Plale B, Gannon D (2005) A survey of data provenance in e-science. SIGMOD Rec 34(3):31–36 19. http://www-01.ibm.com/software/de/analytics/spss/, letzter Zugriff 4.1.2014 20. http://www.sas.com/en_us/software/analytics.html, letzter Zugriff 4.1.2014 21. http://www.r-project.org/, letzter Zugriff 4.1.2014 22. http://www.mathworks.de/products/matlab/, letzter Zugriff 4.1.2014 23. http://lucene.apache.org/solr/, letzter Zugriff 4.1.2014 24. http://lucene.apache.org/, letzter Zugriff 4.1.2014 25. http://uima.apache.org/, letzter Zugriff 4.1.2014