Grundlagen und Visionen großer Forschungsfragen im Bereich Big

Werbung
HAUPTBEITRAG / GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA
}
Grundlagen und Visionen
großer Forschungsfragen
im Bereich Big Data
Johann-Christoph Freytag
Einleitung
Im Zeitalter der umfassenden und alle Bereiche des
täglichen Lebens erreichenden Digitalisierung werden zentral und dezentral mehr und mehr Daten
systematisch gesammelt, gespeichert, analysiert
und Nutzern zugänglich gemacht. Diese rasant
wachsenden Datenmengen werden auf Handys,
Kameras und Sensoren sowie durch Interaktionen
zwischen ubiquitären, orts- und zeitbezogenen Systemen und Dienstleistern (Servern) sowie Sensoren
zur Messung von orts- und zeitbezogenen Größen
generiert.
Diese Entwicklung in der Datengenerierung hat
zu einer Welle neuer technologischer Entwicklungen geführt, die zurzeit unter dem Begriff Big Data
zusammengefasst werden. Jedoch erscheinen die
momentanen Ansätze im Big Data-Bereich stark
technologiezentriert statt nutzerorientiert zu sein.
Dies hat zur Folge, dass die Potenziale beim Einsatz der Big Data-Technologie nur ungenügend
ausgeschöpft werden können.
Aus diesem Grunde argumentiert der vorliegende Beitrag, dass eine nutzerorientierte
Weiterentwicklung der Big Data-Technologien
notwendig ist, und entwirft anhand bisheriger
Entwicklungen im Big Data-Bereich sowie Anforderungen aus verschiedenen Anwendungsdomänen
eine Vision für eine Big Data-Plattform, die sich an
zwei Grundprinzipien aus dem Datenbankbereich
– Skalierbarkeit und deklarative Spezifikation –
orientiert.
Wie die Erkenntnisse aus Reaktionen auf die
NSA-Affäre in 2013 zeigen, wird es für die gesellschaftliche Akzeptanz dieser Technologie notwendig
sein, den Schutz der Privatsphäre nicht nur gesetz-
geberisch sondern auch technologisch so weit wie
möglich sicherzustellen. Aus diesem Grunde wird
dieser Beitrag durch einen Überblick über technische Entwicklungen zum Schutz der Privatsphäre
abgerundet.
Eigenschaften von Big Data
In den vergangenen zehn Jahren hat der Trend,
(große) Datenmengen zu generieren, zu sammeln,
zu speichern und zu analysieren mehr und mehr
zugenommen. Diese Entwicklung wurde durch
unterschiedliche technologische Entwicklungen
ermöglicht. Zum einen trug eine immer engere
und flächendeckendere Vernetzung mit hohen und
preisgünstigen Bandbreiten und Übertragungsgeschwindigkeiten dazu bei, die Zusammenarbeit
(Kollaboration) zwischen Menschen und Institutionen auf digitaler Ebene zu ermöglichen und
zu verbessern. Zum anderen werden immer mehr
Daten durch verschiedene Sensoren automatisch
generiert und zusammengeführt. Beispiele für Sensordaten sind Lokationsdaten, die auf Handys oder
anderen Geräten generiert werden, oder auch RFIDDaten, die von Lesegeräten erfasst und weitergeleitet
werden.
Darüber hinaus haben Leistungssteigerungen
im Rechnerbereich (Multicore), preisgünstige und
schnelle Speichertechnologien (Terabyte-Platten,
SSD-Speichertechnologie) sowie neue Ansätze der
DOI 10.1007/s00287-014-0771-y
© Springer-Verlag Berlin Heidelberg 2014
Johann-Christoph Freytag
Sprecher des GI-Fachbereiches Datenbanken
und Informationssysteme (FB DBIS)
Humboldt-Universität, Berlin
E-Mail: [email protected]
Informatik_Spektrum_37_2_2014
97
{ GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA
parallelen Bearbeitung großer Datenmengen dazu
beigetragen, die Bearbeitung großer Datenmengen
zu ermöglichen und zu ökonomisch akzeptablen
Bedingungen bereitzustellen. Untermauert und weiter vorangetrieben wird diese Entwicklung darüber
hinaus durch neue Technologien und Werkzeuge,
die eine fach- bzw. domänenorientierte Bearbeitung großer Datenmengen ermöglicht. Durch die
Entwicklung der Semantischen Web-Technologien
zusammen mit dem Dienste-Paradigma (Services) sowie des Cloud-Computer-Paradigmas
entstanden neue Konzepte wie das Internet der
Dinge (Internet of Things) oder Cyberphysical
Systems.
Die in diesem Kontext entstehenden Datenmengen sind zwar wesentlich, aber nicht ausschließlich
durch ihre kontinuierlich wachsenden Volumina
(engl. Volume) im Exa- (1018 ) bzw. Zetta-ByteBereich (1021 ) gekennzeichnet, sondern auch durch
unterschiedliche Formate/Datentypen (englisch
Variety) sowie die Aktualität (engl. Velocity) der
Daten, die alle zusammen als wesentliche charakteristische Eigenschaften von Big Data genannt
werden [10]. Weit weniger häufig wird im Kontext von Big Data darauf hingewiesen, dass die
gesammelten Daten meist von unterschiedlicher
Qualität bzw. Genauigkeit sein können und damit mit einer Unsicherheit behaftet sind. Letztere
Eigenschaft wird häufig als Eigenschaft der Glaubwürdigkeit (engl. Veracity) bezeichnet. Diese drei
bzw. vier wesentlichen Eigenschaften werden in
der Literatur häufig mit den vier V’s (Volume,
Velocity, Variety, Veracity) beschrieben und bilden den Ausgangspunkt vieler Forschungs- und
Entwicklungsarbeiten.
Big Data – Anwendung vs. Technologie
Die Verarbeitung großer Datenmengen steht seit
über 50 Jahren im Mittelpunkt der Datenbankforschung und -entwicklung. Die in diesem Bereich
entstandenen Konzepte und Systeme bilden in
Wirtschaft und Forschung das Rückgrat heutiger
Datenbearbeitung. Die Entwicklung in neue Dimensionen mit neuen Herausforderungen im Bereich
Big Data wurde u. a. schon vor über zehn Jahren von
Jim Gray (Abb. 1) mit dem Sloan Digital Sky SurveyProjekt vorweggenommen. Mit diesem Projekt schuf
er als einer der ersten Big Data-Wissenschaftler
für diese Astronomen in Kooperation mit diesen eine Analyse- und Kollaborationsplattform im
98
Informatik_Spektrum_37_2_2014
Abb. 1 Jim Gray, † 2007 –
Big Data-Pionier
Bereich der Astronomie, die ihrer Zeit in vielen
technischen und nicht-technischen Eigenschaften voraus war [9]. Mit der digitalen Erfassung
des Himmels anhand von Bildern bzw. Messungen unterschiedlicher Spektren, die pro Nacht ein
Datenvolumen von bis zu 250 GB erzeugen, wurde
bisher ca. ein Viertel des Himmels mit weit mehr
als 930.000 Galaxien und über 120.000 Quasare
beschrieben [9].
Das Sloan Digital Sky Survey-Projekt zeigt in
vielen Aspekten deutlich, dass bisherige datenbankgetriebene Ansätze für die Bearbeitung nur
unvollständig den Anforderungen der durch die vier
V’s gekennzeichneten Datenmengen genügen. Diese
Anforderungen sollen im Weiteren Gegenstand der
Diskussion sein.
Abbildung 2 zeigt in generischer Form sowohl Datenquellen aus unterschiedlichen Bereichen
als auch unterschiedliche Aufgaben, die aus Anwendungssicht zu lösen sind. Daten sind zentral
oder dezentral nicht nur in Datenbanksystemen
gespeichert, sondern liegen als Dateien auch in anderen Formaten (XML, ASCII-Format) mit oder
ohne Strukturbeschreibung vor. Als Beispiele für
datengenerierende Bereiche seien hier Prozessdaten aus dem Fertigungsbereich, Daten aus dem
Web, allgemeine Daten aus dem Wissenschaftsbzw. Unternehmensbereich, Sensordaten bzw.
Daten, die in mobilen Geräten generiert werden
sowie Daten aus sozialen Netzen bzw. Blogs etc.
genannt.
Durch den Domänenexperten werden diese
Daten in unterschiedlicher Form in einem oder
mehreren einfachen oder komplexen Schritten zusammengeführt und verarbeitet, die sich in vier
wesentlichen Kategorien einteilen lassen:
Abb. 2 Datenquellen und Kategorien der Verarbeitung von Big Data
– Nachverfolgen & Auswerten (engl. track & evaluate) beschreibt solche Verarbeitungsaktivitäten,
die – möglicherweise in Echtzeit – Prozesse bzw.
Prozesszustände erfassen und bewerten, um eventuelle Korrekturen vorzunehmen, bzw. Objekte der
realen Welt in ihren Eigenschaften – beispielsweise
die aktuelle Lokation oder die aktuelle Temperatur
eines Gegenstandes – erfasst, diese weitergibt bzw.
im Einzelnen ebenfalls bewertet.
– Suchen & Identifizieren (engl. search & identify)
umfasst das Herausfiltern bzw. Bestimmen von Objekten aus einer großen Vielzahl anhand gegebener
bekannter und nur unvollständig oder ungenau
bekannter Merkmale zur weiteren Verarbeitung.
– Analysieren (engl. analyze) einer Menge von
Datenelementen ist die wohl am weitesten verbreitete und bekannte Form der Verarbeitung,
die sich mehrheitlich auf entwickelte Techniken aus dem Bereich der künstlichen Intelligenz
und der Statistik stützt. Beispiele für die Analyse
sind Regressionsverfahren oder Verfahren der
Cluster-Bestimmung bzw. Herleitung von Assoziationsregeln – alle mit dem Ziel aus Daten
Informationen bzw. Wissen herzuleiten.
– Vorhersagen & Planen (engl. predict & project)
umfasst Verarbeitungsaktivitäten, wie die aus den
anderen Aktivitäten gewonnenen Erkenntnisse
für die Zukunft genutzt und eingesetzt werden
können – beispielsweise zur Veränderung bzw.
Optimierung von (Geschäfts- oder Fertigungs-)
Prozessen.
Alle vier Aktivitätskategorien lassen sich in verschiedenen Domänen (Anwendungsbereichen)
wiederfinden, die durch datenintensive/datengetriebene Aktivitäten bzw. Anwendungen gekennzeichnet sind. Einige datengetriebene Anwendungen sollen im Folgenden beispielhaft genannt
werden:
– Wasser- bzw. Energiemanagement: dieser Bereich
umfasst die Erzeugung, Verteilung, Bereitstellung
und Nutzung von Wasserressourcen bzw. Energie
in seinen verschiedenen Formen. Aktuelle neuen
Herausforderungen in diesem Bereich lassen sich
nur dann effektiv unterstützen, wenn die Aktivitäten des Energiemanagements durch entsprechende
Anwendungen im Big Data-Bereich unterstützt
werden.
– Gesundheitsmanagement: dieser Bereich umfasst
Anwendungen bzw. Aktivitäten in allen vier Kategorien. Für eine bessere Nutzung der immer
Informatik_Spektrum_37_2_2014
99
{ GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA
teurer werdenden medizinischen Versorgung der
(alternden) Bevölkerung scheint es unabdingbar
zu sein, diese durch Big Data-Anwendungen zu
unterstützen. Gerade dieser Bereich ist durch vielfältige Herausforderungen im technischen Bereich
– beispielsweise Verteilung und Heterogenität der
Daten – als auch im nicht-technischen Bereich, insbesondere im Bereich des Datenschutzes/Schutzes
der Privatsphäre, gekennzeichnet.
– Produktlebenszyklusmanagement umfasst die
Integration aller Daten und Prozesse, die im
Verlauf des Lebenszyklus eines Produktes anfallen. Gerade für komplexe Produkte (Autos,
Flugzeuge, komplexe SW-Systeme) erscheint eine
Unterstützung des Produktzyklus durch vielfältige datengetriebene Aktivitäten unumgänglich.
Insbesondere für die komplexen Aufgaben in
diesem Bereich werden Daten, die während des
gesamten Produktlebenszyklus gesammelt werden,
neue und verbesserte qualitative und quantitative
Möglichkeiten erschließen.
In allen genannten Bereichen wurden bisher Eigenschaften dieser Aktivitäten überwiegend mit den
vier V’s technisch bzw. informatik-orientiert charakterisiert bzw. beschrieben. Dabei ist es mindestens
genauso wichtig und notwendig, diese Aktivitäten
aus Sicht des Nutzers bzw. Domänenexperten bezüglich der gewünschten Qualitäten zu beschreiben.
Diese häufig vernachlässigte Sichtweise soll im Folgenden mit den drei F’s (three F’s) charakterisiert
werden:
– Schnell (engl. Fast): Sowohl die Spezifikation als
auch die Ausführung in den vier genannten Aktivitätskategorien soll schnell erfolgen. Hinsichtlich
der Spezifikation von Aktivitäten soll diese Eigenschaft für den Domänenexperten sicherstellen,
dass er sich auf die für ihn inhaltliche Beschreibung seiner Aufgaben beschränken kann, während
technische Aspekte so weit wie möglich keine Rolle
spielen sollten. Hinsichtlich der Ausführung von
Aktivitäten sollte die zur Verfügung stehende Ausführungsumgebung in der Lage sein, das Ergebnis
so schnell wie möglich zu erzeugen. Dabei ist es
unmöglich, absolute Zeitangaben zu geben, da unterschiedliche Parameter wie die Komplexität der
Aktivität, der Umfang und die Heterogenität der
Daten sowie die zur Verarbeitung zur Verfügung
stehenden Ressourcen einen wesentlichen Einfluss
100
Informatik_Spektrum_37_2_2014
auf die Schnelligkeit der Aktivitätsausführung
haben.
– Flexibel (engl. Flexible) beschreibt die Möglichkeiten des Domänenexperten, bisher schon
spezifizierte Aktivitäten an neue Anforderungen
anzupassen, die sich beispielsweise durch das
Einbeziehen neuer/weiterer Datenquellen, aus
neuen/sich verändernden funktionalen Domänenanforderungen oder auch neuen Ansätzen
zur Datenverarbeitung (neue Werkzeuge oder
Algorithmen) ergeben. M. a. W. soll es möglich sein, existierende Verarbeitungsaktivitäten
kontinuierlich an sich ändernde Bedingungen
anzupassen, statt diese immer wieder neu (engl.
from scratch) spezifizieren bzw. realisieren zu
müssen, bzw. neue Aktivitäten anhand existierender durch Erweiterungen neu zu definieren bzw.
abzuleiten.
– Fokussiert (engl. Focused): Diese Anforderung soll
sicherstellen, dass Aktivitäten sich auf diejenigen
Daten bzw. Verarbeitungsaspekte konzentrieren
können, die für die Erreichung eines vorgegebenen Zieles notwendig und wichtig sind. M. a. W.
soll es möglich sein, relevante Datenquellen und
Verarbeitungsschritte mit geringem Aufwand zu
selektieren und zu nutzen, statt durch eine Vielzahl
an Schritten, möglicherweise auch erst durch
Ausprobieren, die notwendigen Entscheidungen
bezüglich der zu nutzenden Daten und Aktivitäten
treffen zu können.
Mit diesen drei Merkmalen werden zumindest
wichtige Anforderungen aus Domänensicht charakterisiert. Es sind durchaus weitere Merkmale
vorstellbar – im Weiteren werden jedoch diese drei
die Diskussion um wichtige Anforderungen im Big
Data-Bereich bestimmen.
Von den Big Data-Technologien
zur Big Data-Plattform
Wie eingangs dargestellt, sind in den vergangenen Jahren aufgrund der HW-Entwicklungen
auch neue Konzepte entstanden, die zu einem
,,Bauchladen“ an Werkzeugen und Ansätzen zur
Verarbeitung sehr großer Datenmengen geführt haben. Dazu gehören MapReduce-basierte Ansätze
wie Hadoop [14], Stratosphere [15], Clauderas Impala [16] oder IBMs InfoSphereBigInsights [17],
die u. a. mit (Script-)Sprachen wie Pig, Hive
oder JAQL genutzt werden können. In den Berei-
chen Data Mining, Informationsextraktion sowie
Business Analytics/Intelligence seien beispielhaft IBMs SystemT [13], SPSS [19], das Produkt
SAS Analytics [20] sowie die Statistikpakete R
der Universität Auckland [21] sowie Matlab als
Produkt der Firma Mathworks [22] genannt. Im
Bereich Text-Suche bzw. Indizierung und Analyse sind die OpenSource-Systeme Lucene [24]
und Solr [23] der Apache-Software-Foundation
sowie eine UIMA-konforme Plattform durch die
Apache-Software-Foundation [25] entwickelt worden. Neben der Weiterentwicklung bisheriger
Datenbankmanagement-Produkte der Firmen IBM
(DB2), Oracle (Oracle DBMS und Exadata) und
Microsoft (SQL Server) sind auch neue DBMS
entwickelt worden, u. a. DBMS durch Teradata,
Greenplum/EMC und Vertica/HP.
Alle diese Ansätze zeigen, dass mächtige (Teil-)
Systeme entstanden sind; diese stellen aber den
Domänenexperten für die Entwicklung von Lösungen im Big Data-Bereich vor große Probleme.
Beispiele für diese Probleme sind unterschiedliche, prozedurale und deklarative Schnittstellen,
die untereinander nicht kompatibel sind sowie
unterschiedliche Datenformate bzw. unterschiedliche Modelle und Konzepte, die den benutzten
SW-Systemen zugrunde liegen. Darüber hinaus
berücksichtigen die meisten Systeme nur die Anforderungen, die sich aus der Bearbeitung großer
Datenmengen ergeben – ergo nur eines V’s (für
Volume), während Velocity, Variety und Veracity nicht selten nur eine untergeordnete Rolle
spielen.
Aus diesen Beobachtungen ergibt sich die Notwendigkeit, einen holistischen Ansatz für eine Big
Data-Plattform zu entwickeln, die für den Domänenexperten neben der Berücksichtigung der drei
F’s (Fast, Flexible, Focused) auch weitere Funktionen bzw. SW-Komponenten zur Verfügung stellt,
die für die Big Data-Verarbeitung essentiell sind.
Abbildung 3 spiegelt im Wesentlichen die genannten Aufgaben und Komponenten wider, wie sie
bisher diskutiert wurden. Dabei ist ein wichtiger
Gedanke einer solchen Big Data-Plattform, bisherige Unterschiede der verschiedenen Komponenten
bzw. (Teil-)Systeme zur Big Data-Verarbeitung zu
maskieren bzw. zu eliminieren.
Darüber hinaus sind jedoch weitere Funktionen
bzw. Aufgaben von einer Big Data-Plattform zur
Verfügung zu stellen, die für den Domänenexperten
Abb. 3 Wichtige Komponenten einer Big Data-Plattform
bei der Big Data-Bearbeitung notwendig und wichtig
sind. Im Folgenden nennen wir wichtige Bereiche
bzw. Funktionen:
– Datenvisualisierung: Die Ergebnisse unterschiedlicher Verarbeitungsschritte sollten in einer Art
und Weise aufbereitet werden, dass trotz des Umfangs des Ergebnisses dieses durch Visualisierung
verstanden werden kann. Eine tabellarische bzw.
textuelle Darstellung wäre hierfür nicht ausreichend. Deshalb sind im Data Warehousing-Bereich
in den vergangen Jahren etliche Ansätze für die
Visualisierung großer Datenmengen entwickelt
worden, die in den Big Data-Bereich übernommen
und diesem angepasst werden sollten [8].
– Datenintegration: Aufgrund vieler verschiedener
Datenquellen ist es nicht nur notwendig, syntaktische Unterschiede in der Darstellung zu
bewältigen, sondern auch Unterschiede in den
Strukturen der Daten, deren Strukturbeschreibungen, in der Semantik sowie im Datenzugriff
zu adressieren [7]. Aufgrund umfangreicher Forschungsarbeiten in den vergangenen 15 Jahren
sind auch für die Datenintegration in verschiedener Form Produkte und SW-Komponenten mit
unterschiedlicher Funktionalität entstanden.
– Entitätsintegration (engl. entity integration):
Während die Datenintegration sich eher um
Integrationslösungen auf technischer Ebene beschränkt, liegt der Fokus der Entitätsintegration
auf der semantischen Ebene. Es sollen BeschreiInformatik_Spektrum_37_2_2014
101
{ GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA
bungen desselben ,,Objektes der realen Welt“,
das in unterschiedlichen Datenquellen durch
unterschiedliche Eigenschaften beschrieben und
möglicherweise unterschiedlich identifiziert wird,
zusammengeführt und verschmolzen werden.
Um diese Zusammenführung möglichst fehlerfrei durchzuführen bedarf es unterschiedlicher
Methoden und Ansätze, die teilweise im Bereich
der künstlichen Intelligenz bzw. im Bereich des
Semantic Web entwickelt wurden.
– Datenqualität: Mit der Entwicklung von DBMS in
den letzten fünfzig Jahren ist auch immer wieder
die Frage der Datenqualität gestellt worden – doch
erst in den letzten zwei Dekaden sind für dieses
Problem aufgrund (automatischer) Datengenerierung und -erhebung in der Forschung Ansätze
und Lösungen entwickelt worden, wie die Fehler in
Daten erkannt und (semi-)automatisch eliminiert
werden können [12].
– Datenherkunft bzw. -abstammung (engl. data
provenance bzw. data lineage): In vielen Fällen
werden Daten nicht nur von Organisationen oder
Personen selbst erzeugt; vielmehr wird häufig
auf Daten aus unterschiedlichen Quellen zugegriffen, um sie dann miteinander zu verknüpfen
bzw. syntaktisch oder semantisch zu integrieren.
Aus unterschiedlichen Gründen, u. a. der Qualitätssicherung, ist es wichtig, (Meta-)Daten über
die Herkunft der Daten, über die zugegriffene
Datenquelle und über den Erzeugungsprozess
selbst zu speichern [18] [11]. Gleiches gilt auch für
lokal durchgeführte Transformations- bzw. Bearbeitungsschritte, deren Eigenschaften wie Datenbzw. SW-Version ebenfalls für die Beurteilung
von Ergebnissen eine Rolle spielen können. Der
Umfang und der Detaillierungsgrad dieser (Meta-)
Daten sind abhängig von der Domäne bzw. den
Anforderungen des Domänenexperten.
– Prozess-/Workflow-Management: In vielen Domänen setzen sich komplexe Datenanalysen und
-transformationen aus mehreren atomaren Aktivitäten zusammen, die in ihrer Zusammensetzung
als Einheit in Form einer Prozesskette (Workflows)
im Entwurf und der Ausführung behandelt werden
sollen. Sowohl im ökonomischen als auch im
wissenschaftlichen Bereich sind Geschäftsprozesse
(engl. business processes) [6] bzw. wissenschaftliche (engl. scientific) Workflows [5] seit langem
Gegenstand der konzeptuellen Entwicklung und
Realisierung.
102
Informatik_Spektrum_37_2_2014
– Metadaten-Management: Wie in anderen Bereichen auch unterliegen Daten einem Lebenszyklus,
der die Speicherung und Aufbereitung sämtlicher,
während des Lebenszyklus anfallenden Informationen (Metadaten) zusammen mit notwendigen
Prozessen umfasst. Zu diesem Bereich gehören
auch (Meta-)Daten aus den zuvor genannten Bereichen der Datenqualität, der Datenherkunft und der
Datentransformation durch (Geschäfts-)Prozesse
bzw. wissenschaftliche Workflows. Diese Zusatzinformationen geben dem Domänenexperten
häufig wichtige Hinweise über die Nutzbarkeit bzw.
Brauchbarkeit von Daten, um vorgegebene Aufgabenziele zu erreichen bzw. formulierte Probleme
adäquat lösen zu können.
Alle genannten Funktionalitäten sind nicht neu; viele
wurden in unterschiedlichen Ansätzen konzeptuell
entwickelt und prototypisch oder produktmäßig
als SW-Systeme oder SW-Werkzeuge realisiert. Als
besondere Herausforderung erweist sich dabei die
Integration existierender bzw. neuer SW-Systeme
und SW-Werkzeuge in eine Big Data-Plattform,
sodass der Domänenexperte diese mit möglichst
geringem Aufwand in den eigenen Bearbeitungsprozess (Workflow) zu integrieren vermag.
Während die genannten Probleme eher pragmatischer Lösungen bedürfen, sollten bei der
Entwicklung einer Big Data-Plattform zwei wichtige Prinzipien zukünftig mehr berücksichtigt bzw.
ungesetzt werden:
– Daten-Skalierbarkeit von SW-Komponenten
bzw. Daten-Skalierbarkeit der zugrunde liegenden Algorithmen: in vielen Fällen werden
existierende SW-Systeme als SW-Systeme, die auf
bisherigen Datenvolumina in angemessener Zeit
Ergebnisse lieferten, auch im Big Data-Bereich
eingesetzt. Dabei wird häufig außer Acht gelassen, dass neue HW-Architekturen auch neue
SW-Architekturen mit entsprechenden Algorithmen und Datenstrukturen benötigen, um mit
einem beliebigen, meist vorher nicht bekannten
Grad der Verarbeitungsparallelität ausgeführt
werden zu können. Für diesen Fall hat sich das
MapReduce-Paradigma als vorteilhaft erwiesen, da
es den Programmierer von der (meist schwierigen)
Aufgabe befreit, parallel arbeitende Programme
zu erzeugen. Vielmehr ist es die MapReduceProgrammausführungsumgebung, die diese
Aufgabe übernimmt, indem es die erzeugten
Programme als atomare Einheit für die Parallelisierung (und damit Skalierbarkeit) nutzt. Darüber
hinaus sind im Bereich der Algorithmen und Datenstrukturen weitere Entwicklungen notwendig
– beispielsweise sperrfreie Datenstrukturen (engl.
lock free data structures [4]) –, die ebenfalls für
eine verbesserte Skalierbarkeit sorgen.
– Deklarative Bearbeitung von Big Data: Bisherige
Ansätze der imperativen (prozeduralen) Bearbeitung von Daten sind bei steigenden Anforderungen
bzw. steigender Komplexität der Aktivitäten bei
gleichzeitig steigender Heterogenität der Ausführungsumgebung immer weniger wünschenswert.
Neben Ansätzen im Bereich der Programmierung
durch funktionale oder logikbasierte Sprachen
hat sich in den vergangenen 40 Jahren die Sprache
SQL als deklarative Datenzugriffs- und Verarbeitungssprache kommerziell durchgesetzt und
sich in Bezug auf Effektivität und ökonomische
Effizienz bewährt. Neben diesen Vorteilen befreit
eine deklarative Spezifikation den Domänenexperten von der Notwendigkeit, viele systemrelevante
und systemspezifische Details zu kennen und
zu spezifizieren, die nur indirekt etwas mit der
Problemlösung zu tun haben. Es erscheint daher
wichtig, die in der Vergangenheit gesammelten
Erfahrungen im Datenbankbereich mit einem
deklarativen Ansatz weiter fortzuschreiben, um die
Vorteile eines solchen Ansatzes auch für die Big
Data-Bearbeitung nutzbar zu machen. Weiterhin
hat sich für die Datenbanknutzung die Sprache SQL
als stabiler ,,Schutz“ bei Veränderungen im HW-,
Betriebssystem- oder Datenbanksystembereich erwiesen: Datenbankzugriffe, die in SQL formuliert
werden, brauchen trotz mancher grundlegender
Veränderungen in den genutzten Technologien
nicht angepasst werden. Diese Stabilität in der
Programmierung wurde bisher in anderen ITBereichen nur bedingt oder gar nicht erreicht.
Ein erster Ansatz in diese Richtung wurde durch
Ceri et al. durch den Begriff Mega Programming
formuliert [1].
Auch wenn beide Prinzipien für diesen Beitrag nur
kurz und allgemein dargestellt werden, können sie
aufgrund bisheriger Erfahrungen insbesondere
im Bereich der DBMS durch deklarative Anfragesprachen wichtige Ansätze erschließen, die zurzeit
verwirrende Vielfalt und Komplexität existieren-
der Systeme für den Domänenexperten einfacher
beherrschbar und nutzbar zu machen.
Zwischen Technologie und Gesellschaft –
Schutz der Privatsphäre
Die bisher diskutierten Anforderungen und Herausforderungen für eine Big Data-Plattform lassen
außer Acht, dass verschiedene Anwendungen
durchaus personenbezogene Daten verarbeiten, so beispielsweise im Medizinbereich, im
Energiebereich (Smart Meter mit individuellen
Energieverbrauchsdaten), im Verkehrsbereich
(Ortsdaten über Fahrzeuge und Fahrer) oder im
Bereich sozialer Netzwerke. Bei dem Zugriff auf
personenbezogene Daten und deren Verarbeitung
werden Rechte in Bezug auf die Privatsphäre von
Personen tangiert, die in den verschiedenen Ländern
in Gesetzen und juristischen Vorschriften festgelegt
sind. Die Erfahrungen der vergangenen Jahre, insbesondere im Jahr 2013, haben jedoch gezeigt, dass
personenbezogene Daten bei internationaler Vernetzung durch (nationale) juristische Regeln nur
unzureichend geschützt werden. Daher erscheint es
erforderlich, technische Ansätze zum Schutz der Privatsphäre in Big Data-Plattformen von vornherein
zu integrieren, um durch einen besseren Schutz der
Privatsphäre auch die Akzeptanz dieser Technologie
sicherzustellen.
Im Bereich der Forschung, aber auch zunehmend im Bereich der Entwicklung technischer
(Software-)Systeme sind in den vergangenen zehn
Jahren Ansätze zum Schutz der Privatsphäre entwickelt worden. Dabei ist festzuhalten, dass Ansätze
aus dem Sicherheitsbereich nicht ausreichen, um
den Schutz der Privatsphäre sicherzustellen, wenn es
um Balance zwischen diesem Grundrecht und dem
durchaus vorhandenen und berechtigten Nutzungsinteresse an personenbezogenen Daten durch Dritte
geht.
Erste datenbezogene Ansätze zum Schutz personenbezogener Daten wurden mit dem Konzept der
k-Anonymität [2] entwickelt, der im Ansatz sicherstellen soll, dass sensible Eigenschaften einzelner
Personen diesen nicht eindeutig zugeordnet werden
können. Dieser Grundgedanke ist in den vergangenen Jahren in vielfältiger Weise weiter entwickelt
und für verschiedene Anwendungsbereiche verfeinert worden. Dabei zeigen viele Forschungsarbeiten,
dass das Wissen eines Angreifers eine wichtige Rolle
dabei spielt, inwieweit dieser Ansatz tatsächlich trägt
Informatik_Spektrum_37_2_2014
103
{ GRUNDLAGEN UND VISIONEN IM BEREICH BIG DATA
bzw. inwieweit personenbezogene Daten tatsächlich
vor der De-Anonymisierung geschützt sind. Gleichzeitig machen viele Forschungsarbeiten deutlich,
dass ein Spannungsfeld zwischen dem Schutz der
Privatsphäre und Nutzbarkeit der Daten für bestimmte Zwecke besteht. Inwieweit die in diesem
Spannungsfeld existierenden Gegensätze in ausgewogener Weise ,,unter einen Hut“ gebracht werden
können, muss Gegenstand weiterer Forschung sein.
Als Alternative zur k-Anonymität ist der theoretisch begründete Ansatz der Differential Privacy [3]
in den vergangenen sechs Jahren Gegenstand intensiver Forschung gewesen. Das Grundprinzip
ist, jedem Ergebnis einer statistischen Anfrage
(Aggregationsanfrage) genügend ,,Rauschen“
hinzuzufügen, sodass durch die entstehende Ungenauigkeit des Ergebnisses dieses keine Rückschlüsse
auf schützenswerte Eigenschaften individueller
Personen zulässt. Aufgrund der theoretischen Fundierung erscheint vielen Forschern dieser Ansatz
zum Schutz der Privatsphäre der vielversprechendere zu sein, auch wenn dieser sich bisher nur
auf statistische Anfragen (Aggregationsanfragen)
beschränkt. Auch für den Ansatz der Differential
Privacy sind weitere Forschungsarbeiten notwendig, um diesen in seinem Potenzial auszuschöpfen
und für Anwendungen in der Wirtschaft und
Wissenschaft nutzbar zu machen.
Zusammenfassung
Dieser Beitrag entwickelt anhand domänenorientierter Kriterien in einem holistischen
Ansatz funktionale Anforderungen für eine Big
Data-Plattform. Dabei werden als besondere Herausforderung die Entwicklung skalierbarer Systeme
und SW-Komponenten gesehen, die durch die Entwicklung deklarativer Ansätze zur Spezifikation
komplexer Big Data-Aktivitäten die Nutzung der
Big Data-Technologien vereinfachen soll. Damit
kann ein höheres Nutzungspotenzial und ein ökonomisch effizienterer Umgang erreicht werden.
104
Informatik_Spektrum_37_2_2014
Für die Akzeptanz von Big Data-Technologien im
gesellschaftlichen Kontext wird die unmittelbare
Integration von Techniken zum Schutz der Privatsphäre in eine Big Data-Plattform als unumgänglich
angesehen.
Literatur
1. Ceri S, Palpanas T, Della Valle E, Pedreschi D, Freytag J-C, Trasarti R (2013) Towards mega-modeling: a walk through data analysis experiences. SIGMOD Rec
42(3):19–27
2. Samarati P, Sweeney L (1998) Generalizing data to provide anonymity when
disclosing information (abstract). In: Proceedings of the seventeenth ACM
SIGACT-SIGMOD-SIGART symposium on Principles of database systems (PODS ’98)
3. Dwork C (2006) Differential Privacy. ICALP 2:1–12
4. Herlihy M, Eliot J, Moss B (1993) Transactional memory: architectural support for
lock-free data structures. In: Proceedings of the 20th annual international symposium on computer architecture (ISCA ’93), ACM, New York, NY, USA, pp 289–300
5. Barker A, Van Hemert J (2008) Scientific Workflow: A Survey and Research Directions, Parallel Processing and Applied Mathematics. 7th International Conference,
PPAM 2007. Revised Selected Papers, Lecture Notes in Computer Science,
vol 4967. Springer, Berlin Heidelberg, pp 746–753, 200
6. Harmon P (2007) Business Process Change: A Guide for Business Managers and
BPM and Six Sigma Professionals, 2nd edn. Morgan Kaufmann
7. Leser U, Naumann F (2007) Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt.verlag, Heidelberg
8. Ward MO, Grinstein GG, Keim DA (2010) Interactive Data Visualization – Foundations, Techniques, and Applications. AK Peters, pp I–XVII, 1–496
9. Singh V, Gray J, Thakar A, Szalay A S, Raddick J, Boroski B, Lebedeva S, Yanny B
(2007) Sky Server Traffic Report – The First Five Years. CoRR abs/cs/0701173
10. Laney D (2001) 3D Data Management: Controlling Data Volume, Velocity, and Variety, Application Delivery Strategies published by META Group Inc. http://blogs.
gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-ControllingData-Volume-Velocity-and-Variety.pdf
11. Cui Y, Widom J (2001) Lineage Tracing for General Data Warehouse Transformations. VLDB 2001:471–480
12. Naumann F, Raschid L (2009) Guest Editors for the Special Issue on Data Quality
in Databases. J Data Inform
13. Chiticariu L, Krishnamurthy R, Li Y, Raghavan S, Reiss F, Vaithyanathan S (2010)
SystemT: An Algebraic Approach to Declarative Information Extraction. ACL 128–
137
14. http://hadoop.apache.org/, letzter Zugriff 4.1.2014
15. http://stratosphere.eu/, letzter Zugriff 4.1.2014
16. http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/
impala.html, letzter Zugriff 4.1.2014
17. http://www-01.ibm.com/software/data/infosphere/biginsights/, letzter Zugriff
4.1.2014
18. Simmhan YL, Plale B, Gannon D (2005) A survey of data provenance in e-science.
SIGMOD Rec 34(3):31–36
19. http://www-01.ibm.com/software/de/analytics/spss/, letzter Zugriff 4.1.2014
20. http://www.sas.com/en_us/software/analytics.html, letzter Zugriff 4.1.2014
21. http://www.r-project.org/, letzter Zugriff 4.1.2014
22. http://www.mathworks.de/products/matlab/, letzter Zugriff 4.1.2014
23. http://lucene.apache.org/solr/, letzter Zugriff 4.1.2014
24. http://lucene.apache.org/, letzter Zugriff 4.1.2014
25. http://uima.apache.org/, letzter Zugriff 4.1.2014
Herunterladen