Master Thesis Agile Organizations - COREinstitute

Werbung
BIG-DATA-ARCHITEKTURVERGLEICH IM KONTEXT VON
VERSICHERUNGEN
Corinna, Ludwig
September 2016
Bachelor Thesis – Universität Koblenz Landau
Copyright © COREtransform GmbH
Abstract
Insurances deliver a substantial benefit to society through risk transformation. Nevertheless,
changes in the competitive and customer environment, and new opportunities through digital developments put pressure on insurance companies.
The cornerstone of an insurance’s business (risk management) relies heavily on data analysis.
However, growing challenges - due to the rise of information technologies such as Social Media
- on the data processing side can no longer be handled by conventional database systems. BigData-architectures can offer solutions for addressing these new challenges and the introduction
of a Big-Data capable solution requires the discussion and a structured decision process regarding the architecture of the target.
The aim of this bachelor thesis is to provide an overview of the topic Big Data, illuminate the
relevance of Big-Data capable solutions for insurance companies and outline a structured decision making process for the design of a Big-Data (based/capable/oriented) architecture. Based
on an exemplary evaluation of selected architectures, an outlook for further steps in the decisionmaking process for a target architecture will be presented.
The frame of reference for this work is based on the theoretical fundamentals of insurance, software architectures and specific elements of the Big-Data ecosystem derived from literature review. The relevance of Big-Data is analyzed with the “cartesian coordinate diagram” research
tool. Based on the theoretical requirements for Big-Data systems a taxonomy for the comparison
of selected architectures is established. The evaluation of architectures is implemented by using
an adapted scoring model.
Real-life testing of the taxonomy is still pending. While the present analysis is based on equally
weighted requirements, further criteria of different natures have to be considered in real-life. The
validation along the entity's specific circumstances in the practical selection of an architecture has
to be conducted.
Based on a successful implementation of a Big-Data architecture, the foundation for advanced
applications, such as artificial intelligence, is being set. Future requirements regarding the increasing internetworking of physical devices - "Internet of Things" - is taken into account. Therefore insurance companies can continue fulfilling their role in society and simultaneously raise new
business opportunities. New technologies such as artificial intelligence can be established for the
insurance industry for the first time.
II
Bachelor Thesis Corinna Ludwig © CORE 2016
Zusammenfassung
Versicherungsinstitute bieten mit der Risikotransformation einen positiven Nutzen für die Gesellschaft. Die aktuelle Veränderungen der Wettbewerbs- und Kundensituation, sowie die neuen
Chancen durch digitale Initiativen üben jedoch für die Assekuranz einen Handlungsdruck aus. Im
Fokus dieser Arbeit steht mit der unternehmerischen Datenbewirtschaftung der Eckpfeiler ihrer
Wertschöpfung. Wachsende Herausforderungen an die Datenverarbeitung können durch herkömmliche Datenbanksysteme nicht mehr abgebildet werden. Lösungsansätze werden durch die
Technologische Innovation Big-Data möglich. Die Entscheidungsgrundlage bezüglich möglicher
Architekturen bei der Einführung von Big-Data-Lösung bei Versicherungsinstituten ist objektiviert
nicht verfügbar.
Ziel der Bachelorarbeit ist es, einen Überblick über das Thema Big-Data zu geben. Neben der
Relevanz-Analyse von Big-Data-Lösungen für Versicherungen soll die Entscheidungsfindung für
eine Big-Data-Architektur objektivierbar gestaltet werden. Auf Basis einer beispielhaften Bewertung ausgewählter Architekturen soll ein Ausblick auf weitere Schritte des Entscheidungsprozess
für eine Zielarchitektur formuliert werden.
Der Bezugsrahmen der Arbeit wird von theoretischen Grundlagen zu Versicherungen, SoftwareArchitekturen und spezifischen Elementen von Big-Data-Technologien auf Basis einer Literaturrecherche hergestellt. Zur Objektivierung der Relevanz von Big-Data soll ein kartesisches Koordinatendiagramm als Analyseinstrument herangezogen werden. Basierend auf theoriebasiert entwickelten Anforderungen an ein Big-Data-System wird eine Taxonomie für den Vergleich ausgewählter Architekturen abgeleitet. Die Bewertung der Architekturen erfolgt mittels eines adaptierten
Scoring-Modells.
Eine Praxiserprobung der vorgeschlagenen Taxonomie steht bislang noch aus. Während für die
vorliegende Analyse gleichgewichtete Anforderungen an die Architektur angenommen wurden,
wären in der praktischen Auswahl einer Architektur die unterschiedliche Natur der Kriterien individuell erneut zu betrachten und eine Validierung entlang der unternehmensspezifischen Gegebenheiten vorzunehmen.
Auf Basis einer erfolgreich implementierten Big-Data-Architektur können Versicherungsinstitute
bereit gemacht werden für zukünftige Anforderungen aus der zunehmenden Vernetzung von Geräten und Maschinen - „Internet der Dinge“. So können sie ihre risikosenkende Rolle für die Gesellschaft weiterhin wahrnehmen und gleichzeitig neue Geschäftspotentiale heben. Fortschrittlichste Anwendungen wie künstliche Intelligenz werden technologisch erstmalig für diese Branche
ermöglicht.
III
Bachelor Thesis Corinna Ludwig © CORE 2016
Inhaltsverzeichnis
Abstract ....................................................................................................................................... II
Zusammenfassung ..................................................................................................................... III
Inhaltsverzeichnis ....................................................................................................................... IV
1 Einleitung ................................................................................................................................ 8
1.1
Problemstellung .............................................................................................................. 8
1.2
Ziel der Untersuchung .................................................................................................. 11
1.3
Beschreibung der Methoden......................................................................................... 12
1.4
Aufbau der Arbeit.......................................................................................................... 12
2 Theoretische Grundlagen: Versicherungen ........................................................................... 14
2.1
Das Versicherungsunternehmen .................................................................................. 14
2.1.1
Aufgaben und Organisation ............................................................................ 14
2.1.2
Datenverarbeitung / IT .................................................................................... 15
2.2
Wettbewerb und Kunden .............................................................................................. 16
2.2.1
Wettbewerbsumfeld ........................................................................................ 16
2.2.2
Kundenumfeld ................................................................................................. 18
3 Theoretische Grundlagen: Technologien .............................................................................. 21
3.1
Software-Architekturen ................................................................................................. 21
3.1.1
Der Software-Architektur-Lebenszyklus .......................................................... 22
3.1.2
Das Konzept einer Architekturbeschreibung ................................................... 22
3.1.3
Qualitätsanforderungen an eine Software-Architektur .................................... 24
3.2
Big-Data-Technologien ................................................................................................. 27
3.2.1
Verschiedene Definitionen zu Big-Data .......................................................... 28
3.2.2
Bekannteste Definition von Big-Data: Das 3-V-Modell .................................... 29
3.2.3
Einführung in No-SQL Datenmodelle .............................................................. 30
3.2.4
Das Big-Data-Ökosystem: Das 5-V-Modell ..................................................... 33
3.2.5
Big-Data-Engineering...................................................................................... 34
3.2.6
Datenlebenszyklus .......................................................................................... 34
3.2.7
Schichten und Bausteine einer Big-Data-Lösung ........................................... 35
3.2.8
Big-Data-Referenzarchitekturen ..................................................................... 36
4 Analyseinstrumente............................................................................................................... 41
4.1
Das Kartesische Koordinatensystem ............................................................................ 41
4.2
Das Scoring-Modell ...................................................................................................... 42
5 Big-Data-Architekturen im Kontext Versicherungen .............................................................. 43
5.1
Relevanz von Big-Data bei Versicherungen ................................................................. 43
5.1.1
Chancen und Herausforderungen der Einführung einer Big-Data-Lösung
einführen ............................................................................................. 45
5.1.2
Chancen und Herausforderungen bei der Weiterarbeit ohne eine Big-DataLösung................................................................................................. 46
5.1.3
Erkenntnisse und Folgerungen ....................................................................... 47
5.2
Big-Data-Architekturentscheidung ................................................................................ 48
5.2.1
Klassifikation und Herleitung der Kriterien für die Taxonomie ......................... 48
IV
Bachelor Thesis Corinna Ludwig © CORE 2016
5.2.2
5.2.3
5.2.4
5.2.5
Anwendung der Taxonomie am Beispiel des Vergleichs von Lambda- und
Kappa-Architektur ................................................................................ 60
Konkretisierung des Scoring-Modells und Ausgestaltung ............................... 66
Anwendung der Bewertungsmethode am Beispiel des Vergleichs von
Lambda- und Kappa-Architektur .......................................................... 67
Erkenntnisse und Folgerungen ....................................................................... 68
6 Schluss ................................................................................................................................. 72
6.1
Zusammenfassung ....................................................................................................... 72
6.2
Ausblick ........................................................................................................................ 74
Autorin ...................................................................................................................................... 78
Über das COREinstitute .......................................................................................................... 79
V
Bachelor Thesis Corinna Ludwig © CORE 2016
I
Abbildungsverzeichnis
ABBILDUNG 1: W ERTSCHÖPFUNGSKETTE EINER VERSICHERUNG
15
ABBILDUNG 2: SOFTWARE-ARCHITEKTUR-LEBENSZYKLUS
22
ABBILDUNG 3: DIMENSIONEN VON BIG-DATA: DAS 3-V-MODELL
30
ABBILDUNG 4: SCHICHTEN UND BAUSTEINE EINER BIG-DATA-LÖSUNG
36
ABBILDUNG 5: LAMBDA-ARCHITEKTUR
39
ABBILDUNG 6: BIG-DATA URSACHE-W IRKUNG-MATRIX
45
II
Tabellenverzeichnis
TABELLE 1: QUALITÄTSKRITERIEN SOFTWARE-ARCHITEKTUR (QUELLE: EIGENE DARSTELLUNG)
26
TABELLE 2: CHANCEN DURCH DEN EINSATZ VON BIG-DATA (QUELLE: BITKOM 2012, 5)
28
TABELLE 3: KRITERIUM KURZBESCHREIBUNG (EIGENE DARSTELLUNG)
49
TABELLE 4: KRITERIUM HAUPTZIEL (EIGENE DARSTELLUNG)
49
TABELLE 5: KRITERIUM ANNAHMEN (EIGENE DARSTELLUNG)
50
TABELLE 6: KRITERIUM PARADIGMEN (EIGENE DARSTELLUNG)
51
TABELLE 7: SUBKRITERIUM PARADIGMEN
55
TABELLE 8: KRITERIUM ANFORDERUNGEN (EIGENE DARSTELLUNG)
56
TABELLE 9: SUBKRITERIUM ANFORDERUNGEN (EIGENE DARSTELLUNG)
58
TABELLE 10: KRITERIUM RISIKEN
58
TABELLE 11: KRITERIUM REIFEGRAD
59
TABELLE 12: KRITERIUM REFERENZEN (EIGENE DARSTELLUNG)
59
TABELLE 13: TAXONOMIE (EIGENE DARSTELLUNG)
60
TABELLE 14: VERGLEICH VON LAMBDA- UND KAPPA-ARCHITEKTUR (EIGENE DARSTELLUNG)
66
TABELLE 15: BEWERTUNGSSKALA (EIGENE DARSTELLUNG)
67
TABELLE 16: SCORING-MODELL (EIGENE DARSTELLUNG)
68
VI
Bachelor Thesis Corinna Ludwig © CORE 2016
III
Abkürzungsverzeichnis
ATAM
Architecture tradeoff analysis method
B2B
Business-to-business
BaFin
Bundesanstalt für Finanzdienstleistungsaufsicht
BI
Business Intelligence
BITKOM.Bundesverband
Informationswirtschaft, Telekommunikation und neue Medien
CAP
C consistency, A availability, P partition tolerance
CEP
Complex Event Processing
COCOMO
Constructive Cost Model CPU
CRM
Customer Relationship Management
ELT
Extract, Load, Transform
engl
englisch
ERP
Enterprise Ressource Planning
ETL
Extract, Transform, Load
FinTech
Financial Services Technologies
GDV
Gesamtverband der Deutschen Versicherungswirtschaft e.V.
GPS
Global Positioning System
IBM
International Business Machines Corporation
IDC
International Data Corporation
IEC
International Electrotechnical Commission
IEEE
Institute of Electrical and Electronics Engineers
IFIP
International Federation for Information Processing
InsurTech
Insurance Technologies
ISO
International Organization for Standardization
IT
Informationstechnologie
JMS
Java Message Service
JSBM
Journal of Small Business Management
KFZ
Kraftfahrzeug
M2M
Machine-to-Machine
NASA
National Aeronautics and Space Administration
NoSQL
Not only SQL
OLAP
Online Analytical Processing
OLTP
Online Transaction Processing
RAM
Random Access Memory
ROPO
Research Online, Purchase Offline
SQL
Structured Query Language
STEP
Social, Technological, Economic, Political
U.S
United States (of America)
UML
Unified Modelling Language
VAG
Versicherungsaufsichtsgesetz
WICSA
Working IEEE/IFIP Conference on Software Architecture
XML
Extensible Markup Languag
Central Processing Unit
VII
Bachelor Thesis Corinna Ludwig © CORE 2016
73
1
Einleitung
1.1
Problemstellung
„Paukenschlag bei der Ergo Versicherung: Gestern verkündete Vorstandschef Markus Rieß ein
hartes Sanierungsprogamm, dem über 1.800 Arbeitsplätze zum Opfer fallen sollen. Rund 450
Millionen Euro jährlich wollen die Düsseldorfer bis 2020 einsparen. Gleichzeitig sind Investitionen
von einer Milliarde Euro geplant. Wir werden uns kompromisslos am Kunden orientieren. Dafür
müssen wir schlanker, effizienter und digital werden", sagte Rieß auf einer Pressekonferenz“
(Versicherungsmagazin 2016, 1). und auch der Marktführer in Deutschland Allianz stellte sein
Umbauprogramm 2014 vor „Die Zahl der Allianz-Kunden, die alles ganz traditionell über einen
Vertreter regeln lassen, sinkt schnell: von rund 90 Prozent 2005 auf weniger als 50 Prozent heute.
Mit einem 80 Millionen Euro schweren Programm versucht die Führung der Allianz Deutschland
deshalb nun, das 124 Jahre alte Traditionsunternehmen fit zu machen für die digitale Ära“ (Süddeutsche.de GmbH, Munich & Germany 2014).
Die Ursprünge von Versicherungen gehen bis 400 v.Chr. zurück (Museum der deutschen Versicherungswirtschaft 2007). Eine der frühen Formen der Versicherungen war die Absicherung des
Risikos im Seehandel. Versicherungen sind somit eine seit hunderten Jahren bekannte Mitigationsmaßnahme gegenüber möglicherweise existenzvernichtenden Risiken und sowohl im privaten als auch im geschäftlichen Umfeld von eminenter Bedeutung. (Prognos 2013) Seit dem 17.
Jahrhundert nutzt die Versicherungswirtschaft mathematische Methoden zur Einschätzung von
Risiken. Die Datenverarbeitung dient als Grundpfeiler analog dem Gesetz der großen Zahl für
die Quantifizierung solcher Risiken. (GDV 2015a)
Die Bedeutung des Versicherungsunternehmens manifestiert sich unter anderem durch die Einordnung als sogenannte kritische Infrastruktur des Bundesministeriums des Innern. Sektoren
zählen dann zur kritischen Infrastruktur sobald deren Ausfall oder Beeinträchtigung einen nachhaltigen Versorgungsmangel oder Beeinträchtigung der öffentlichen Sicherheit zur Folge hat. Neben Banken und Versicherungen werden unter anderem Energie, Wasser und Gesundheit als
kritische Infrastruktur geführt. (Prognos 2013)
Die volkswirtschaftliche Bedeutung der Finanz- und Versicherungsdienstleistungen zeigt sich in
dem hohen Anteil von 4,5 Prozent am Bruttoinlandsprodukt. Somit liegt die Finanzindustrie noch
vor den Branchen Fahrzeugbau, Maschinenbau und Energieversorgung im Jahr 2010 (Statistisches Bundesamt 2010). Erkennbar ist diese Bedeutung nicht zuletzt auch in rechtlich vorgeschriebenen Versicherungsformen wie Kranken- oder Haftpflichtversicherungen (Prognos 2013).
Weitere Versicherungen wie Berufsunfähigkeits-, Rechtsschutz- oder Hausratsversicherungen
sind von herausgehobener Wichtigkeit. Schätzungen zufolge besitzen beispielsweise 51Prozent
deutscher Haushalte eine Hausratsversicherung (IfD Allensbach 2015).
Es ist Bewegung in den Versicherungsmarkt gekommen (Zimmermann G. 2015, 91). Die Bedeutung dieser Bewegung zeigt sich unter anderem in den erwähnten Programmen der ausgewähl-
8
Bachelor Thesis Corinna Ludwig © CORE 2016
73
ten Zitate: Stellen werden abgebaut, kundenorientiertes Denken und Digitalisierung werden gefordert (Versicherungsmagazin 2016; Süddeutsche.de GmbH, Munich & Germany 2014). Die
Gründe sind vielschichtig: der Eintritt neuer Wettbewerber und technologische Entwicklungen
sowie die Veränderungen der Kundenbedürfnisse konnten als maßgebliche Einflussfaktoren für
die anfangs beschriebenen Bewegungen im Versicherungsmarkt identifiziert werden (Zimmermann G. 2015, 91).
Ein erster Grund für den erhöhten Druck auf Versicherungsunternehmen ist der Eintritt neuer
Marktteilnehmer und branchenfremder Akteure unter Nutzung der technologischen Entwicklung.
InsurTechs haben sich als neue Spieler am Markt etabliert (Altuntas P. & Uhl P. 2016). Der Begriff
InsurTechs setzt sich aus Insurance und Technology zusammen und markiert den Eckpfeiler für
die Veränderung der Versicherungsbranche durch die Nutzung neuer Technologien sowie die
Etablierung alternativer digitaler Geschäftsmodelle (GruenderSzene 2016a). InsurTechs platzieren sich entlang der Wertschöpfungskette des Versicherungsunternehmens und führen zu einer
Fragmentierung der Wertschöpfung (deutsche-startups.de 2016). Nach Angaben von CORE
Consulting gibt es mittlerweile 57 InsurTech Start-Ups in Deutschland (COREtechmonitor 2016),
zehn InsurTech Start-Ups werden durch Venture Kapital unterstützt, über 40 Millionen Euro Venture Kapital wurde seit 2012 investiert (Barkow Consulting 2016). Das Online-Magazin GruenderSzene beschreibt die Revolution der Versicherungsbranche durch Start-Ups: Start-Ups nutzen Technologien wie Big-Data kundenorientiert, werden finanziell gefördert und entscheiden so
über die Entwicklung der Branche (GruenderSzene 2016b). Es besteht außerdem das Risiko,
dass branchenfremde Akteure mit datengetriebenen Geschäftsmodellen und einem guten Kundenzugang wie Google oder Amazon in den Markt eintreten könnten (Versicherungsbote 2014).
Derzeit ist das Kerngeschäft eines Versicherungsunternehmens weitestgehend unberührt geblieben. Das Risiko der weiteren Fragmentierung der Wertschöpfungskette und Eintritt branchenfremder Akteure bleibt bestehen.
Kundenzufriedenheit ist einer der Erfolgshebel für nachhaltigen Geschäftserfolg. Zufriedenere
Kunden sind loyaler und sind eher dazu bereit, Produkte und Dienstleistungen weiterzuempfehlen und diese auch zukünftig zu nutzen. Nach Oletzky führt eine gesteigerte Kundenzufriedenheit
zu einer höheren Kundenbindung und wirkt sich positiv auf die Neuakquise aus (Oletzky T., Staud
N & Boltz J., 257). Kundenzufriedenheit kann nur dann gesteigert werden, wenn das Kundenverhalten bekannt ist. Die derzeit maßgebenden Trends des Kundenverhaltens konnten identifiziert
werden: Eine erhöhte Nutzung von Vergleichsportalen und Internetseiten der Versicherungsanbieter als Informationsquelle, ein erhöhtes Kostenbewusstsein und die Bequemlichkeit eines Vertragsabschlusses als Entscheidungskriterium für die Auswahl eines Anbieters (Gerlach V. & Gruber M. 2012, 67). Laut den Versicherungsforen Leipzig ist „der Kunde von heute immer vernetzt,
stets informiert und anspruchsvoll“ (Wedekind K., Dormann B. & Lay U. 2016, 5). Markus Rosenbaum erklärte auf der Konferenz Digisurance im Jahr 2016, dass die größte Ineffizienz in der
Versicherungsbranche die Kundenschnittstelle sei (Wedekind K., Dormann B. & Lay U. 2016, 5).
Hier müssen sich traditionelle Versicherungen bei der Erfüllung der Kundenerwartungen an anderen Branchen messen, schneiden im Vergleich jedoch nicht gut ab (Zimmermann G. 2015, 91).
Das Image der Versicherungswirtschaft ist nach Oletzky schlecht. Medienberichten zu Folge ist
9
Bachelor Thesis Corinna Ludwig © CORE 2016
73
der Hauptgrund hierfür Intransparenz und mangelnde Verständlichkeit von Versicherungsunterlagen (Oletzky T., Staud N & Boltz J.). Versicherungen werden mit den Herausforderungen veränderten Kundenverhaltens und Kundenerwartungen einer digitalen Generation konfrontiert (Altuntas P. & Uhl P. 2016, 23-29).
Auch die Veränderungen im Kundenumfeld sowie im Wettbewerbsumfeld, werden von technologischen Entwicklungen getrieben. Im Zuge dessen ist der Begriff Digitalisierung zu nennen. Der
Begriff Digitalisierung hat verschiedene Bedeutungen. Eine wesentliche Definition beschreibt die
digitale Transformation als „fundamentalen Wandel von Unternehmen hin zu einer vollständig
vernetzten digitalen Organisation. Auf Basis von neuen Technologien und Applikationen werden
Prozesse (…) umgestaltet und an die Anforderungen (Echtzeit, Vernetzung) der digitalen Ökonomie angepasst“ (Büst R., Hille M. & Schestakow S. 2015, 6). Verschiedene technologische Entwicklungen im Rahmen des digitalen Wandels, das Internet der Dinge, Big-Data, Social Media,
Künstliche Intelligenz und Cloudtechnologien, eröffnen Chancen für Veränderungen von Geschäftsmodellen, Wertschöpfungsketten sowie der Kundeninteraktion (Binckebanck L. & Elste R.
2016, 266-268).
Big-Data ist ein wesentlicher Aspekt der technologischen Entwicklung und soll hier hervorgehoben werden. Die Definitionen für Big-Data sind allerdings nicht einheitlich. Die bekannteste Definition von Gartner beschreibt Big-Data als einen Informationsbestand, der anhand von drei Dimensionen klassifiziert werden kann: ansteigendes Volumen der Daten (engl. volume), ansteigende Geschwindigkeit der Datenverarbeitung (engl. velocity) und eine erhöhte Datenvielfalt
(engl. variety) (Demchenko, Laat & Membrey, 2).
Wie bereits erwähnt ist die Datenverarbeitung maßgebend für die Risikoeinschätzung im Versicherungsunternehmen. In einer Studie von BITKOM (2014) verzeichneten neun von zehn Unternehmen ein durchschnittliches Datenvolumenwachstum um 22 Prozent (Weber M., Dehmel S. &
Hampe K. 2014, 15). Zusätzlich zu dem Anstieg des Datenvolumens erhöhte sich der Anteil an
unstrukturierten Daten aus Informationstechnologien wie Social Media und Real Time, Mobile
Apps, Location-Based Services, Cloud Computing und Sensorik und Machine-To-Machine (M2M)
(Weber M., Dehmel S. & Hampe K. 2014, 8).
Die wachsenden Herausforderungen an die Datenverarbeitung können durch herkömmliche Datenbanksysteme nicht mehr abgebildet werden (Versicherungsforen Leipzig 2014). Unstrukturierte Daten sind ohne Big-Data nicht als Entscheidungsgrundlage verwertbar. Durch Big-Data
wird die Analyse und Verarbeitung von Informationen in großen Mengen und hoher Geschwindigkeit möglich. Die Erkenntnisse aus der Verwertung bislang unzugänglicher Daten ermöglichen
zeitnahe Entscheidungsgrundlagen und bieten so die Chance, sich auf Marktanforderungen besser einzustellen und die Wettbewerbsfähigkeit zu steigern (Weber M., Dehmel S. & Hampe K.
2014, 8). Des Weiteren bietet eine bessere Datengrundlage die Möglichkeit, im Vertrieb Kunden
über eine 360-Grad-Sicht analysieren zu können. Im Bereich Produktentwicklung könnten KFZVersicherungen beispielsweise individuell auf der Basis von Sensorikdaten bemessen werden
oder künstliche Intelligenz bei der Ermittlung von Risiken und Schadensquoten eingesetzt werden. Big-Data bietet die Chance, neue Quellen für Wertschöpfung auszuschöpfen, Aktion als
10
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Paradigma anstatt Reaktion auf Marktveränderungen zu etablieren und eine angemessenere Entscheidungsbasis sowie Kundenkenntnis zu bieten.
Die Veränderungen der Wettbewerbs- und Kundensituation sowie die neuen Chancen durch digitale Initiativen verdeutlichen den Handlungsdruck für Versicherungen (Nicoletti B. 2016, 2). BigData kann eine mögliche Lösung sein, um Chancen für traditionelle Versicherungsunternehmen
zu schöpfen. Da die Einführung einer Big-Data-Lösung eine Vielzahl an Implikationen für das
Unternehmen bereithält, muss der Entscheidungsprozess für eine neue Architektur von den relevanten Stakeholdern objektiviert werden.
Herausforderungen im Kunden- und Wettbewerbsumfeld sowie die technologischen Entwicklungen sind bereits Gegenstand der wissenschaftlichen Literatur. Big-Data-Technologien und deren
Anwendungsszenarien sowie Nutzungspotenziale werden thematisiert. Es besteht jedoch eine
Forschungslücke in der gesamtheitlichen Betrachtung des Big-Data-Ökosystem und in der Herleitung der Relevanz für Versicherungen in der Literatur. Des Weiteren gibt es bereits Forschungsstände zu Bewertungsmethoden von Software-Architekturen im Fall von bereits konkret
getroffenen Systementscheidungen. Die in den Lehrbüchern beschriebenen Methoden bewerten
konkrete Systementscheidungen, aber keine Architekturansätze, die als Vorlage für die weitere
Konzeption und Entwurf einer Anwendung dienen. Der Big-Data-Architekturansatz - die LamdbaArchitektur - wird in der Literatur beschrieben. Weitere Architekturansätze wie die Kappa-Architektur werden auf Blogs und in Videos thematisiert. Diese werden jedoch in der Literatur weder
verglichen noch bewertet.
An den Forschungslücken - die fehlende ganzheitliche Betrachtung des Big-Data-Ökosystems,
die Herleitung der Relevanz für Versicherungen, die Nichtexistenz von Architekturevaluationsmethoden für Architekturansätze und der fehlende Vergleich sowie Bewertung von bestehenden BigData-Architekturansätzen - soll in dieser Arbeit angesetzt werden.
1.2
Ziel der Untersuchung
Ziel der Bachelorarbeit ist es, einen Überblick über das Thema Big-Data zu geben, die Relevanz
von Big-Data-Lösungen für Versicherungen aufzuzeigen, die Entscheidungsfindung für eine BigData-Architektur zu objektivieren, erste Ergebnisse aus einem Vergleich und der Bewertung ausgewählter Architekturen abzuleiten und einen Ausblick auf weitere vorzunehmende Schritte entlang des Entscheidungsprozess für eine Zielarchitektur zu geben.
Im Zuge dieser Arbeit soll auf folgende Forschungsfragen eine Antwort gefunden werden:

F1: Ist der Einsatz von Big-Data für ein Versicherungsunternehmen von Relevanz?

F2: Wie könnte ein Modell zur Objektivierung der Architekturentscheidung für Big-DataLösungen aussehen?

F3: Welche Ergebnisse liefern der Vergleich und die Bewertung ausgewählter Architekturen mit Hilfe des Modells?
11
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Im Ausblick wird erläutert, welche weiteren Schritte unternommen werden könnten, um die Taxonomie zu validieren und die Entscheidung für eine Architektur zu objektivieren.
1.3
Beschreibung der Methoden
Die Basis der Bachelorarbeit bildet eine Literaturanalyse zu den folgenden Themen:

Versicherungen,

Herausforderungen im Kunden- und Wettbewerbsumfeld bei Versicherungen,

Grundlagen zur Software-Architektur,

das Big-Data-Ökosystem,

Analyseinstrumente zur Bewertung von Optionen und Strukturierung von Entscheidungen.
Die strategische Einordnung erfolgt durch eine Teilbetrachtung der Umfeldanalyse gemäß des
STEP Modells (technologische Betrachtung) und Porters Five-Forces-Modell (Betrachtung des
Wettbewerbs- und Kundenumfeld).
Der Fokus liegt hier auf der Herleitung des Big-Data-Ökosystems. So können die abstrakten Zusammenhänge in der wissenschaftlichen Theorie offengelegt werden und dienen somit als qualitative Grundlage für die Herleitung einer Taxonomie. Die Literatur hierzu ist weitestgehend englischsprachig.
Zur Objektivierung der Relevanz von Big-Data soll als Analyseinstrument ein kartesisches Koordinatendiagramm herangezogen werden. Hier werden die erlangten Kenntnisse über Herausforderungen im Kunden-, Wettbewerbsumfeld und durch technologische Veränderungen aufbereitet.
Basierend auf den in der Theorie ersichtlichen Anforderungen an ein Big-Data-System wird eine
Taxonomie für den Vergleich ausgewählter Architekturen abgeleitet. Die Taxonomie beschreibt
ein Modell nach dem die Architekturen klassifiziert werden. Hierzu werden Kriterien aus der Theorie hergeleitet, Obergruppen gebildet und Subkriterien definiert. Diese Kriterien sind indikativer
und objektiver Natur. Diese werden benannt und beschrieben. Die Bewertung der Architekturen
erfolgt auf Basis der Methodik von Scoring-Modellen. In der quantitativen Analyse wird das Kriterium „Anforderungen“ herangezogen. Die konkrete Anwendung der Methodik in diesem Anwendungsfall wird hergeleitet. Der tatsächliche Vergleich und die Bewertung der Architekturen werden tabellarisch visualisiert.
1.4
Aufbau der Arbeit
Zur Beantwortung der Forschungsfragen gliedert sich die folgende Arbeit in fünf Kapitel. Im Kapitel eins wird nach der Einordnung der Thematik und Formulierung einer Problemstellung. Diese
manifestiert sich sowohl im gesamtwirtschaftlichen Zusammenhang als auch in den großen Linien
12
Bachelor Thesis Corinna Ludwig © CORE 2016
73
der Versicherungsbranche. Darüber hinaus wird die wissenschaftliche Herangehensweise dargelegt.
Die Kapitel zwei und drei legen theoretische Grundlagen für die darauf folgende praxisbezogene
Betrachtung. Das Kapitel zwei fokussiert dabei die Assekuranz; zum einen werden die Versicherungsunternehmen selbst in den Fokus genommen, zum anderen ihr ökonomisches Umfeld. Das
folgende Kapitel drei erörtert wesentliche Konzepte zum Verständnis von Software-Architekturen
und ihrer Eigenschaften. Weiterhin werden verschiedene Definitionen von Big-Data diskutiert und
erste Erkenntnisse in Bezug auf Datenmodelle formuliert. Zuletzt werden Schichten und Bausteine einer Big-Data Lösung vorgestellt und bekannte Referenzarchitekturen skizziert sowie zur
folgenden Analyse ausgewählt.
Im Kapitel vier werden Analyseinstrumente für Big-Data-Lösungen entwickelt.
Darauf aufbauend wird im Kapitel fünf die Relevanz von Big-Data für Versicherungen erörtert. Ein
Modell für den Vergleich und die Bewertung wird hergeleitet. Unter Anwendung auf die im Kapitel
drei ausgewählten Referenzarchitekturen wird das Modell erprobt, um Erkenntnisse und Folgerungen ableiten zu können. Diese Erkenntnisse beziehen sich auf Entscheidungsprozesse zur
Auswahl und Einführung einer Big-Data-Lösung.
Im Kapitel sechs werden die Erkenntnisse zusammengefasst und die Grenzen des Modells betrachtet sowie ein Ausblick für ihre Anwendung in der Praxis gegeben.
13
Bachelor Thesis Corinna Ludwig © CORE 2016
73
2
Theoretische Grundlagen: Versicherungen
Das folgende Kapitel strukturiert sich wie folgt:

Einführung in die Aufgaben, Organisation und die Funktion der IT im Versicherungsunternehmen,

Einführung in die Herausforderungen im Wettbewerbsumfeld und Kundenumfeld.
Die Beschreibung der theoretischen Grundlagen zum Thema Versicherungen ist notwendig, um
Ansatzpunkte für die Relevanz von Big-Data identifizieren zu können.
2.1
Das Versicherungsunternehmen
In diesem Kapitel werden die Aufgaben und die Organisation, die Wertschöpfungskette sowie die
Datenverarbeitung/IT als Eckpfeiler für die Absicherung von Risiken im Versicherungsunternehmen skizziert. Die Beschreibung dient dazu, Datenverarbeitung als Fundament für ein Versicherungsunternehmen zu manifestieren und so zusammen mit den anderen Bereichen der Wertschöpfungskette einen ersten Ansatzpunkt für die Relevanz von Big-Data zu identifizieren.
2.1.1
Aufgaben und Organisation
An dieser Stelle soll das Versicherungsunternehmen definiert, die Hauptaufgabe eines Versicherungsunternehmens, der Grundsatz der Spartentrennung und die Wertschöpfungskette erläutert
werden.
Die Ursprünge von Versicherungen gehen - wie in der Einleitung beschrieben - bis 400 v.Chr.
zurück (Museum der deutschen Versicherungswirtschaft 2007). Versicherungen sind eine seit
hunderten Jahren bekannte Mitigationsmaßnahme gegenüber möglicherweise existenzvernichtenden Risiken und sowohl im privaten als auch im geschäftlichen Umfeld von eminenter Bedeutung (Prognos 2013). Im Gabler-Lexikon Versicherung wird das Versicherungsunternehmen wie
folgt beschrieben:
Definition: „Neben dem Versicherungsnehmer die zweite Vertragspartei in einem Versicherungsvertrag. Das Versicherungsunternehmen ist der Verkäufer von Versicherungsschutz. Das Versicherungsunternehmen übernimmt gegen eine kalkulierte Prämie das versicherte Risiko von einem Versicherungsnehmer und ist bei Eintritt des Versicherungsfalls verpflichtet, die vereinbarte
Versicherungsleistung zu erbringen“ (Wagner 2011, 731).
Die Hauptaufgabe des Versicherungsunternehmens liegt in der Risikotransformation. Die wirtschaftliche Grundlage hierfür bildet das Gesetz der großen Zahl. Hier ist die Übernahme einer
Reihe gleichartiger, jedoch voneinander unabhängiger Risiken der Grundbaustein für den Risikoausgleich eines Unternehmens. (Mayer 1999, 2)
Auf Grund der Absicherung von Risiken nehmen Versicherer wie Banken eine zentrale volkswirtschaftliche Rolle ein und unterliegen staatlicher Kontrolle (Versicherungsaufsichtsgesetz - VAG).
Die zuständige Aufsichtsbehörde ist die Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin),
das zuständige Fachministerium ist das Bundesministerium der Finanzen. Eine Versicherung in
14
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Deutschland kann als Rechtsform ein Verein, eine Aktiengesellschaft, eine Anstalt oder eine Körperschaft des öffentlichen Rechts sein. Versicherungen werden nach dem versicherten Risiko in
Sparten eingeteilt; dies sind traditionell die Sachversicherungen, Krankenversicherungen, Lebensversicherungen und Rückversicherungen. Es gilt der Grundsatz der Spartentrennung: Für
die Sparten Lebensversicherung und Krankenversicherungen müssen getrennt von den übrigen
Versicherungssparten eigene Rechtseinheiten gebildet werden. (Altuntas P. & Uhl P. 2016, 9)
Die Wertschöpfungskette erstreckt sich wie in der Abbildung 1 dargestellt von Rückversicherung
im Bereich Beschaffung, Produktentwicklung, Underwriting, Risikotragung und Risikotransformation, Asset-Management und Marketing im Bereich Produktion sowie Vertrieb im Bereich Absatz.
Übergreifende Aktivitäten sind Bestandsverwaltung, Datenverarbeitung/IT, Unternehmensführung, Finanzen und Controlling sowie Personal. (Altuntas P. & Uhl P. 2016, 81).
Festzuhalten ist, die Hauptaufgabe der Versicherung liegt in der Risikotransformation. VersicheAbbildung 1: Wertschöpfungskette einer Versicherung (Quelle: eigene Darstellung in Anlehnung an Altuntas P. & Uhl P.
2016, 81)
rungen unterliegen staatlicher Kontrolle, werden nach den versicherten Risiken in Sparten unterteilt und die Wertschöpfung erstreckt sich weiterhin auf die Bereiche Marketing und Vertrieb, Asset- und Schadenmanagement, Underwriting und Produktentwicklung.
2.1.2
Datenverarbeitung / IT
An dieser Stelle soll die Wichtigkeit der Datenverarbeitung für ein Versicherungsunternehmen,
um Risiken abschätzen zu können sowie die neuen Herausforderungen durch erhöhte Datenmengen für die IT in Versicherungen kurz skizziert werden.
Seit dem 17. Jahrhundert nutzt die Versicherungswirtschaft mathematische Methoden zur Einschätzung der Risiken. Statistische Modelle und die technischen Möglichkeiten der Datenerhebung haben sich seither weiterentwickelt. Seit 2007 sind 94 Prozent aller Daten weltweit digital
anstatt analog in Akten oder Büchern abgespeichert. Versicherungen profitieren von den Entwicklungen in der Mathematik und Datenverarbeitung (GDV 2015a). Das Geschäftsmodell be-
15
Bachelor Thesis Corinna Ludwig © CORE 2016
73
steht aus der Absicherung von Risiken und ist daher datengetrieben. Das Instrument für die Abschätzung des Eintritts eines Ereignisses ist die Wahrscheinlichkeitsrechnung. Die Basis ist wie
beschrieben das Gesetz der großen Zahl von Bernoulli, welches besagt, dass der Eintritt eines
Ereignisses umso genauer bestimmt werden kann, desto größer die Stichprobe ist. Je mehr quantifizierbare Daten vorliegen, desto genauer kann ein Versicherungsunternehmen Risiken bestimmen. Aus diesem Grund sammeln Versicherungsunternehmen seit ihrer Existenz Daten. Die Anforderungen an Speicherung und Verarbeitung der Informationen stiegen mit dem Umfang und
Varietät an Daten (GDV 2015c).
Da die Datenverarbeitung die Grundlage für die Einschätzung von Risiken bildet, trägt die IT in
Versicherungen als Grundpfeiler der Wertschöpfungskette eminent zum Unternehmenserfolg bei.
Als Querschnittsfunktion unterstützt die IT die Unternehmenssparten beim Heben von Innovationspotenzialen, beispielsweise der Etablierung von digitalen Vertriebskanälen für den Kunden.
Die Datenverarbeitung steht vor neuen Herausforderungen. Nach Aussagen von BITKOM verzeichneten Unternehmen einen Anstieg von Datenvolumen um circa 22 Prozent. Rund 85 Prozent liegen in einem unstrukturierten Format vor und sind von einem herkömmlichen Datenbanksystem nicht verwertbar (Weber M., Dehmel S. & Hampe K. 2014, 5). Laut den Versicherungsforen Leipzig gibt es Indizien dafür, dass herkömmliche Datenbanksysteme in Versicherungsunternehmen nicht in der Lage sind die beschriebenen großen Datenmengen in der gewünschten Zeit
sowie die neuen Datenformate zu verarbeiten. Trotz der Bedeutung der IT für Versicherungen
wären die IT-Systeme oft veraltet und schwerfällig. Die IT-Budgets seien knapp und der Integrationsaufwand neuer Lösungen in die alte Systemlandschaft wäre hoch (Versicherungsforen
Leipzig 2014).
Im Ergebnis bildet die Datenverarbeitung die Grundlage für die Einschätzung von Risiken bei
Versicherungen. Die Verarbeitung von größeren Datenmengen dient analog dem Gesetz der großen Zahl einer genaueren Bestimmung von Risiken. Der Anstieg von Datenvolumen sowie unstrukturierten Daten kann jedoch durch herkömmliche Datenbanksysteme nicht mehr in ausreichender Geschwindigkeit und Qualität sichergestellt werden.
2.2
Wettbewerb und Kunden
In diesem Kapitel sollen die Herausforderungen im Wettbewerbs- sowie Kundenumfeld eines
Versicherungsunternehmens im digitalen Zeitalter skizziert werden. Die steigenden Herausforderungen sollen skizziert werden, um einen möglichen Handlungsbedarf für die Einführung einer
Big-Data-Lösung im Versicherungsunternehmen zur Sicherung der Marktposition aufzuzeigen.
2.2.1
Wettbewerbsumfeld
Im folgenden Kapitel sollen die verschiedenen neuen Anbieter im Versicherungsmarkt klassifiziert
und die Bedeutung von InsurTechs beschrieben werden, um den zunehmenden Wettbewerbsdruck für ein Versicherungsunternehmen zu skizzieren.
16
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Eine der zentralen Herausforderungen neben der Veränderung des Kundenverhaltens ist der zunehmende Wettbewerb im Versicherungsumfeld. Nach Altuntas zeichnet sich ein stark zunehmender Markt- und Wettbewerbsdruck in der Versicherungsbranche ab (Altuntas P. M. & Uhl P.
2016, 23-29). Der gesättigte Versicherungsmarkt lässt kaum Wachstum in der Gesamtbranche
zu. Neukundengewinnung läuft beruht nach Altuntas vielfach über Abwerbung. Versicherungsprodukte sind nicht patentierbar und lassen sich daher schnell kopieren. Die Situation für traditionelle Versicherungsunternehmen wird durch neue Anbieter verschärft. Neue Anbieter treten innerhalb der Branche auf, beispielsweise Direktversicherer oder InsurTechs sowie branchenfremde Akteure wie Automobilhersteller drängen in den Markt und Finanzdienstleister bieten Produkte in ähnlichen Kategorien an (Altuntas P. & Uhl P. 2016, 1).
InsurTechs sind Start-Ups, die sich neue Technologien zu Nutze machen, sich entlang der Wertschöpfungskette platzieren und durch Vergleichsportale für den Kunden Transparenz schaffen
(Rudolf B. 2016, 1). Der Begriff InsurTech setzt sich aus den Begriffen Insurance und Technology
zusammen und wird von Dr. Nikolai Dördrechter N., Geschäftsführer von Policen Direkt wie folgt
beschrieben:
Definition: „InsurTech

betrifft Versicherungsprodukte, deren Vertrieb und den laufenden Versicherungsbetrieb

wird von neuen, nicht etablierten Unternehmen/Start-ups bzw. industriefremden Unternehmen angeboten.

basiert auf neuen, digitalen Technologien zur Bereitstellung und Erbringung von Leistungen - also von Web-Technologien über neue Programmierverfahren bis hin zu DatenAnalysetechnologien, die bestimmte Geschäftsmodelle erst ermöglichen“ (Dördrechter
N. 2016, 6).
Branchenfremde Akteure wie Google oder Amazon könnten insbesondere im Bereich Policenvertrieb zur Konkurrenz für Versicherungen werden, da sie bereits über einen guten Kundenzugang verfügen und eine große Anzahl an Kundendaten sammeln. Nach Untersuchungen von
Bankrate 2014 würden Käufer von Versicherungspolicen gerne von nicht-traditionellen Kanälen
Gebrauch machen können wie beispielsweise Banken oder Amazon (Versicherungsbote 2014).
Die beschriebene Platzierung entlang der Wertschöpfungskette wird bei der Analyse der Geschäftsmodelle neuer Anbieter deutlich: Anbieter werden unterschieden, in diejenigen, die sich
auf das B2B-Segment konzentrieren, die digitale Vertriebswege nutzen, die Versicherungsvermittlungsplattformen in Kooperationen mit Versicherungen und die mit Makler kooperierenden
Versicherungen in einer App konsolidieren (deutsche-startups.de 2016). Oliver Wyman veröffentlichte im Jahr 2016 einen Report über die „Zukunft von InsurTechs in Deutschland“. Hier werden
in den Geschäftsmodellen „Angebot“ (Internet der Dinge, Neue digitale Risiken etc.), „Marketing/Vertrieb“ (B2B-Onlinemakler, Vergleichsportale etc.) und „Betrieb“ (Underwriting, Schaden
etc.) jeweils mehr als 8 Start-Ups genannt, die Wertschöpfungsschritte traditioneller Versicherungen übernehmen und mit neuen Digitalkonzepten Kundenbedürfnisse vorgeblich besser bedienen (Dördrechter N. N. 2016, 12). Nach Aussagen von CORE Consulting gibt es mittlerweile 57
17
Bachelor Thesis Corinna Ludwig © CORE 2016
73
InsurTech Start-Ups in Deutschland (COREtechmonitor 2016), zehn InsurTech Start-Ups werden
durch Venture Kapital unterstützt, über 40 Millionen Euro Venture Kapital wurde seit 2012 investiert (Barkow Consulting 2016). Das Online-Magazin Gruenderszene beschreibt die Revolution
der Versicherungsbranche durch Start-Ups: Start-Ups nutzen Technologien wie Big-Data kundenorientiert, werden finanziell gefördert und entscheiden so über die Entwicklung der Branche
(GruenderSzene 2016b).
Während das Kerngeschäft der traditionellen Versicherungsunternehmen (Risikotransformation)
weitestgehend unberührt geblieben ist, werden Fragmente der Wertschöpfungskette von Akteuren wie InsurTechs durch digital getriebene Geschäftsmodelle herausgelöst. Der mögliche Eintritt
von bislang marktfremden aber technologisch und ökonomisch hoch befähigten Unternehmen
wie Google und ihren datengetriebenen Geschäftsmodellen könnte diesen Trend potenzieren.
2.2.2
Kundenumfeld
In diesem Kapitel sollen die veränderten Kundenbedürfnisse und das veränderte Kundenverhalten sowie die Schnittmenge von technologischen Entwicklungen und Kundenorientierung aufgezeigt werden. Diese Themen sollen erläutert werden, um die Bedeutung der Verzahnung von
Technologien und Kundengewinnung hervorzuheben.
Nach einer Aussage der Versicherungsforen Leipzig ist „der Kunde von heute immer vernetzt,
stets informiert und anspruchsvoll“ (Wedekind K., Dormann B. & Lay U. 2016, 5). Die Veränderungen des Kundenverhaltens und -erwartungen stellte eine Herausforderung für die konservative Versicherungsbranche. Für die heranwachsende Kundengeneration, die „Generation Digital“,
ist „der Umgang mit Technologien ein selbstverständlicher Teil des Alltags“ (Altuntas P. & Uhl P.
2016, 23).
Kunden erwarten, dass Versicherungsunternehmen mit ihrem Leistungsangebot den veränderten
Kundenbedürfnissen gerecht werden; einiger dieser Erwartungen wurden hier aufgezählt:

Flexibilität: Möglichkeit der Anpassung der Versicherung, wenn sich Lebenssituation ändert,

Individualität: Personalisierung der Versicherung ist erforderlich,

Transparenz: Qualität und Preis müssen ersichtlich sein,

Einfachheit: Der Aufbau der Versicherungsprodukte soll modular sein, also einfach und
kombinierbar,

Komfort: Verfügbarkeit und Erreichbarkeit von Ansprechpartnern beispielsweise Maklern muss gegeben sein,

Schnelligkeit und Sicherheit: Die Bearbeitung von Versicherungsanträgen und Schadensmeldungen soll zeitnah und zuverlässig erfolgen. (Altuntas P. & Uhl P. 2016)
Des Weiteren ändert sich das Verhalten der Kunden. Kunden nutzen technologische Möglichkeiten, interagieren auf unterschiedlichen Kanälen und informieren sich:
18
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Kunden informieren sich vor dem Abschluss unter anderem im Internet; Google verzeichnet einen
Anstieg der Versicherungsthemen um 2,7 Prozent. Dieses Wachstum geht auf mobile Suchanfragen zurück, die um 44,3 Prozent zugenommen haben. Über mobile Endgeräte wie Smartphones erfolgen inzwischen 15,7 Prozent aller versicherungsrelevanten Abfragen. Der Abschluss
erfolgt über verschiedene Kanälen, oft jedoch noch über den Makler vor Ort (ROPO Effekt: „Research Online, Purchase Offline). Mittlerweile werden schon 17Prozent der KFZ Verträge im Internet abgeschlossen. KFZ nimmt so eine Vorreiterrolle für den Direktabschluss im Internet ein
(GDV 2015b).
Markus Rosenbaum erklärte auf der Konferenz Digisurance im Jahr 2016, dass die größte Ineffizienz in der Versicherungsbranche die Kundenschnittstelle sei (Wedekind K., Dormann B. & Lay
U. 2016, 5). Hier müssen sich traditionelle Versicherungen bei der Erfüllung der Kundenerwartungen an anderen Branchen messen, schneiden im Vergleich jedoch nicht gut ab (Zimmermann
G. 2015, 91). Das Image der Versicherungswirtschaft ist nach Oletzky schlecht. Medienberichten
zu Folge ist der Hauptgrund hierfür Intransparenz und mangelnde Verständlichkeit von Versicherungsunterlagen (Oletzky T., Staud N & Boltz J., 257-273).
Der anspruchsvolle Kunde soll nicht nur analysiert werden können, um dessen Ansprüche besser
erfüllen zu können, sondern auch um das Verhalten zur Risikoprävention messbar zu machen.
In verschiedenen Bereichen entlang der Wertschöpfungskette gibt es bereits Möglichkeiten, um
die Betrachtung des Kunden in der eigenen Unternehmensstrategie mit technologischer Unterstützung auf der Basis von Daten zu berücksichtigen.
Versicherungen integrieren die digitale Welt beispielsweise in ihren Vertriebsstrategien. Diese
sollten unter anderem die Integration digitaler Vertriebskanäle in die Vertriebslandschaft, die Analyse des Kunden über eine 360-Grad-Sicht und die Bereitstellung der nötigen IT-Landschaft beinhalten, um den anspruchsvollen Kunden analysieren zu können (Binckebanck L. & Elste R.
2016, 266). Insbesondere im Zuge der Nutzung von digitalen Vertriebskanälen gewinnt das Sammeln und Auswerten von Kundendatenmengen zunehmend an Bedeutung. Digitale Vertriebskanäle stellen neue Datenquellen und einen neuen Interaktionsweg für den Kunden dar (Binckebanck L. & Elste R. 2016, 268).
Auch im Bereich der Produktentwicklung leisten digitale Technologien einen ersten Beitrag zur
Neuausrichtung der Produkt- und Preispolitik. Sensoren liefern Daten über den Fahrstil an die
Kfz-Versicherung; wer umsichtig fährt, bekommt Rabatte vom Versicherer. Der Kunde erhält ein
individualisiertes Produkt. An dieser Stelle ist gleichermaßen wie im Vertrieb die Datengrundlage
entscheidend.
Werden technologische Entwicklungen im Risikobereich und Schaden betrachtet, wird erkennbar,
dass hier neue intelligente Computersysteme zur Entscheidungsfindung dazu beitragen, beispielsweise Risiken der Kunden bei der Antragsprüfung besser einschätzen zu können und Schadensquoten zu reduzieren. Hierzu ist die Analyse von großen Datenmengen notwendig. (GDV
2016)
19
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Festzuhalten bleibt, dass sich Kundenbedürfnisse und -verhalten im digitalen Zeitalter geändert
haben und der gemeinsame Nenner der Anwendungsfälle für die Verbesserung der Kundeneinsicht und der Adressierung der Bedürfnisse die Analyse steigender Datenmengen bildet.
Aus den Kapiteln Wettbewerb und Kunden ist festzustellen, dass die Herausforderungen für ein
Versicherungsunternehmen steigen: Das Unternehmen konkurriert auf der einen Seite mit Anbietern, die sich neue Technologien zu Nutze machen und steht auf der anderen Seite einer heranwachsenden digitalen Generation gegenüber.
20
Bachelor Thesis Corinna Ludwig © CORE 2016
73
3
Theoretische Grundlagen: Technologien
Das folgende Kapitel strukturiert sich wie folgt:

Einführung in die Theorie von Software-Architekturen,

Beschreibung des Big-Data-Ökosystems.
Die Beschreibung des Kapitels Software-Architektur ist notwendig, um die Einführung einer
neuen Software-Architektur für die Stakeholder einordnen zu können. Die Beschreibung des BigData-Ökosystems dient der Herleitung der Architekturentscheidung im Big-Data-Kontext.
3.1
Software-Architekturen
In diesem Kapitel soll der Begriff Software-Architektur näher erläutert, der Software-ArchitekturLebenszyklus, das Konzept einer Architekturbeschreibung und die Qualitätsanforderungen an
eine Architektur skizziert werden. Der Lebenszyklus und das Konzept der Architekturbeschreibung dienen der Einordnung der Architekturerstellung entlang des Architekturentscheidungsprozess. Die Qualitätsanforderungen bieten die Grundlage für die Klassifikation der Anforderungen
an eine Architektur.
Für die Entwicklung von komplexen Softwaresystemen hat sich das Konzept der Software-Architektur etabliert und ist Teil des Softwarelebenszyklus. Software-Architektur und -design schließen
sich der Anforderungsanalyse als erste technische Aktivität an (Heinrich G. 2007,43). In der Existenz von verschiedenen Werken namhafter Autoren, beispielsweise Bass, Clements, und Kazman „Software Architecture in Practice“ sowie internationalen Konferenzen wie WICSA manifestiert sich die Bedeutung von dem Konzept Software-Architektur als etablierte Disziplin.
Was verbirgt sich hinter dem Begriff Software-Architektur? Es gibt keine Standard-Definition von
Software-Architektur (Babar, M. A., Zhu, L.& Jeffery, R. 2004, 1). An dieser Stelle wird die Beschreibung von Clements P. herangezogen:
Definition: „Software-Architektur für ein System als Struktur oder Strukturen des Systems, das
aus den Elementen selber , deren von außen erkennbare Eigenschaften und den Beziehungen
zwischen den Elementen besteht“(Clements P. u.a. 2011, 5).
Welche Rolle spielt die Software-Architektur? Eine Software-Architektur hat einen unterrichtenden Charakter und stellt einen Weg dar, um die Kommunikation zwischen den verschiedenen
Stakeholdern - Architekten, Designer, Entwickler, Manager etc. - zu ermöglichen. Die Architektur
bildet die Basis für die weitere Systemanalyse und das Systemdesign (Clements P. u.a. 2008, 1).
Informationen sollen beispielsweise über die Erfüllung von Qualitätsmerkmalen dargestellt werden, um später evaluiert werden zu können (Clements P. u.a. 2001, 1).
Barry Boehm, Software Engineering Professor an der University of Southern California und bekannt für das Constructive Cost Model (COCOMO), das Spiral-Modell des Softwareprozesses
und die W-Theorie (Boehm B. 2012), beschrieb die Wichtigkeit der bedachten Entscheidung für
21
Bachelor Thesis Corinna Ludwig © CORE 2016
73
eine Software-Architektur in der Keynote „And a Very Few Lead Bullets Either”: „Marry your architecture in haste and you can repent in leisure“ (Clements P., Kazman R. & Klein M. 2002, 1).
3.1.1
Der Software-Architektur-Lebenszyklus
Das Vorgehen für das Erstellen einer Software-Architektur - der Software-Architektur-Lebenszyklus - lässt sich nach Posch in drei Bereiche gliedern: Vorbereitungen für den Entwurf, Entwurf,
Dokumentation und Bewertung sowie Umsetzung der Architektur (Posch, Birken & Gerdom
2004). Die genauere Untergliederung wird in der Abbildung 2 beschrieben.
Abbildung 2: Software-Architektur-Lebenszyklus (Quelle: eigene Darstellung in Anlehnung an Posch, Birken & Gerdom
2004, 53)
3.1.2
Das Konzept einer Architekturbeschreibung
In diesem Kapitel sollen die Interdependenzen der Begriffe des Konzepts einer Architekturbeschreibung und das etablierte Konzept der Architektur-Sichten beschrieben werden.
Zunächst soll der Begriff der Architekturbeschreibung in den Kontext gesetzt werden. Ein „System“ beschreibt eine Zusammenstellung von Komponenten, um einer bestimmten Funktion zu
dienen. Das System ist Teil einer „Umwelt“ (engl. Environment). Die Umwelt beeinflusst die Rahmenbedingungen für die Entwicklung und definiert den Scope des Systems. Andere Systeme
können Teil der Umwelt sein.
Es gibt verschiedene Stakeholder, die ein Interesse an der Entwicklung des Systems haben. Beispielsweise sind das in einer Versicherung der IT-Abteilungsleiter, der IT-Architekt oder der Vor-
22
Bachelor Thesis Corinna Ludwig © CORE 2016
73
stand. Als „Anliegen“ (engl. concern) werden diejenigen Interessen beschrieben, die die Systementwicklung direkt tangieren. Anliegen sind unteranderem systemrelevante Überlegungen, die
Qualitätsmerkmale wie Performance, Sicherheit und Zuverlässigkeit betreffen. Ein System soll
ein oder mehrere „Missionen“ adressieren, die eine Zielbündelung der Interessen von Stakeholdern beschreibt. Eine Architektur kann durch eine Beschreibung erfasst werden. (Sherlund B. u.a.
2000, 5)
Hier hat sich das Konzept von Architektursichten in der Praxis bewährt. Sichten (engl. View) beschreiben ein Set von Elementen und deren Beziehungen und eine Software-Architektur aus einem bestimmten „Standpunkt“(engl. viewpoint) (Clements P. 2005, 3).
Jede Sicht inkludiert ein oder mehrere Anliegen der Stakeholder. Die Konventionen für die Entwicklung einer Sicht werden im Standpunkt festgelegt. Hier werden Notationen, Modell und Analysetechniken festgelegt. Die Architekturbeschreibung besteht aus einer oder mehr Sichten je
nach Anliegen der Stakeholder. Bereits definierte Standpunkte werden von Sherlund als „Standpunkte der Bibliothek“ (engl. library viewpoint) bezeichnet. Eine Sicht kann aus verschiedenen
Architekturmodellen bestehen. Hier werden die Standpunkte verwertet. Ein Architekturmodell
kann mehr als einer Sicht zugeordnet werden. In dem Journal Recommended Practice for Architectural Description of Software Intensive Systems von Clements P. wird das Konzept einer Architekturbeschreibung einmal modellhaft dargestellt, um den Gesamtkontext zu erfassen. (Sherlund B. u.a. 2000, 5)
Für die Beschreibung von Software-Architekturen ist das Verständnis von den bereits erwähnten
drei Schlüsselbegriffen essentiell: Architektur-Sicht, Architektur-Perspektive und Architektur-Stil.
Die drei Schlüsselbegriffe werden zu dem etablierten Konzept für Architektur-Sichten zusammengefasst. (Clements P. u.a. 2001)
Mit Hilfe von Architektur-Sichten kann ein konkretes System beschrieben werden (Clements P.
P. u.a. 2001, 38). In verschiedenen Sichten werden unterschiedliche Qualitätsmerkmale adressiert. Beispielsweise können anhand einer „Schichten-Sicht“ Modifizierbarkeit und somit Portabilität ersichtlich gemacht werden. Eine „Prozess-Sicht“ hingegen stellt die Performance-Frage in
den Vordergrund.
Verschiedene Autoren haben unterschiedliche „Sets für Sichten“ (=Standpunktmengen) definiert,
beispielsweise die „4+1 Sicht“ von Kruchten oder die „Siemens 4 Sicht“ (Clements P. u.a. 2001).
Die 4+1 Sicht unterscheidet zwischen der“ logischen, der prozessualen, der physischen und der
Entwicklungssicht“. Die Siemens 4 Sicht hingegen gliedert die Architektursichten in die „konzeptionelle, die modellinteraktionsgetriebene, die ausführende und die Codesicht“ (Clements P. u.a.
2001, 42).
Der aktuelle Trend geht jedoch dahin, keine festen Sets zu definieren. Zur Dokumentation einer
Architektur können die Richtlinien der IEEE 1472 - Norm IEEE 1471-2000: Software-Architekturbeschreibung mit dem Titel „IEEE Recommended Practice for Architectural Description of Software-Intensive Systems“- herangezogen werden. Hier werden die für den Stakeholder relevanten
Sichten dokumentiert (IEEE 2000).
23
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Dieser Ansatz wird auch „Views-and-Beyond “ genannt und besagt:
Definition: „Die Dokumentation einer Architektur ist abhängig von der Dokumentation der relevanten Sichten, um dann die für mehrere Sichten übergreifende Dokumentation ergänzen zu
können“ (Clements P. u.a. 2008, 1).
Die Architektur-Perspektive beschreibt nach Clements P. die die Bausteinarten und Relationstypen, um die Architektur eines Softwaresystems aus einer bestimmten Perspektive zu beschreiben. Im Zuge der Auswahl der Perspektive werden die Elementtypen und die zugehörigen Beziehungsarten eingeschränkt. Hier wird zwischen drei „für das System natürlichen“ Perspektiven
unterschieden: „Module“, „Komponente-und-Konnektor“ und „Allokation“. Mit Hilfe der Perspektive Module können die Einheiten einer Implementation dargestellt werden. Die Komponente-undKonnektor-Perspektive bildet die auszuführenden Systemeinheiten ab. In der Allokations-Perspektive wird die Beziehung zwischen Ausführungs- und Entwicklungsumgebung mit dessen
Softwaresystem beschrieben (Clements P. u.a. 2008, 4).
Unter dem Begriff Architektur-Stile werden wiederverwendbare Architekturmuster zusammengefasst. Die Kommunikation zwischen den Elementen wird beschrieben sowie die Verteilung der
Aufgaben. Hier wird beschrieben, wie die Elemente zusammenspielen und welche Restriktionen
es gibt. Für die Perspektive „ Module“ gibt es beispielsweise den Schichten-Stil, für Komponenteund-Konnektor den Client-Server-Stil und der Implementations-Stil für die Allokations-Perspektive dar. (Clements P. u.a. 2008, 4)
Mit jeder Perspektive werden unterschiedliche Architektur-Stile assoziiert. Mit Hilfe von Architekturstilen werden die Entscheidungen getroffen, welche der im Stil gefassten Elemente in den Elementen des Systems, den Sichten, verankert werden (Clements P. u.a. 2001, 38). Stile werden
in einem Style-Guide festgehalten und können mit der verbreiteten vereinheitlichten Modellierungssprache Unified Modeling Language (UML) visualisiert werden (Clements P. u.a. 2008, 1).
Stile sind somit ausdifferenzierte Perspektiven; Sichten beschreiben die konkrete Anwendung
von Stilen bei einem System. Verschiedene Stile werden in der Praxis in Referenzarchitekturen
kombiniert, die einzelnen Stile können nur noch bedingt identifiziert werden. Auch hier werden
auf Grund der Individualität der Anforderungen für verschiedene Stakeholder unterschiedliche
Sichten mit unterschiedlichem Detaillierungsgrad aufbereitet (Clements P. u.a. 2008,1).
Die architektonische Beschreibung von IT-Systemen kann mit Hilfe der dargestellten Begrifflichkeiten und Konzepte formalisiert erfolgen. Ihre Sichten, Perspektiven und Stile ermöglichen den
Stakeholdern eine umfassende Kenntnis der Systeme. In der Folge der Arbeit soll auf dieses
konzeptionelle Gerüst aufgesetzt werden.
3.1.3
Qualitätsanforderungen an eine Software-Architektur
In diesem Kapitel sollen Qualitätsanforderungen klassifiziert und die Architekturevaluationsmethode ATAM dargestellt werden.
In der Praxis determinieren Qualitätsanforderungen an ein System seine Ausgestaltung. Diese
dienen somit auch als Eckpfeiler für Software-Architektur-Evaluationsmethoden. Eine der be-
24
Bachelor Thesis Corinna Ludwig © CORE 2016
73
kanntesten Architekturevaluationsmethoden ist die ATAM-Methode. Sie wird nach der Entscheidung für eine Referenzarchitektur eingesetzt. Im Zuge der Anwendung der ATAM-Methode werden die Abhängigkeiten von Qualitätsmerkmalen untersucht (Clements P. u.a. 2008, 239). Der
Fokus liegt hier insbesondere auf der Identifikation von Risiken sowie Überprüfung von Anforderungen an konkreten Szenarien. Die Risiken werden in Sensitivitätspunkte (engl. sensitivity
points) und Abwägungspunkte (engl. tradeoff Points) unterteilt (Malich S. 2008, 84). Sensitivitätspunkte beschreiben Eigenschaften von Softwareelementen, die kritisch sind für die Erreichung
eines einzelnen Qualitätsmerkmals. Abwägungspunkte hingegen sind Eigenschaften, die kritisch
sind für die Erreichung mehrerer Qualitätsmerkmale (Malich S. 2008, 85).
Die ATAM Methode lässt sich in folgende vier Phasen aufteilen:

Präsentation: Austausch von Informationen über die bestehende Architektur und Anforderungen,

Investigation & Analyse: Bewertung der Qualitätsanforderungen im Zuge der Architekturbetrachtung,

Testen: Vergleich der Analyseergebnisse mit den Anforderungen der Stakeholder

Reporting: Zusammenfassung der Ergebnisse. (Clements P., Kazman R. & Klein M.
2002, 44)
Die Qualitäts-Standards für die in der Architektur beschriebenen Softwaresysteme wurden im
ISO/IEC-Standard 9126 zunächst definiert und sind dann in der Norm ISO/IEC 25000 (ISO 2011)
aufgegangen. Für unterschiedliche Use-Cases werden verschiedene Qualitätsanforderungen
herangezogen. In der nachfolgenden Tabelle werden die Qualitätskriterien klassifiziert nach Charakteristika und Sub-Charakteristika der ISO-Norm aufgelistet.
25
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Charakteristika
Sub-Charakteristika
Funktionalität
Angemessenheit
Genauigkeit
Interoperabilität
Sicherheit der Funktionalität
Zuverlässigkeit
Reife
Fehlertoleranz
Wiederherstellbarkeit
Konformität der Zuverlässigkeit
Benutzbarkeit
Verständlichkeit
Erlernbarkeit
Bedienbarkeit
Attraktivität
Konformität der Zuverlässigkeit
Verständlichkeit
Erlernbarkeit
Bedienbarkeit
Attraktivität
Konformität der Benutzbarkeit
Effizienz
Zeitverhalten
Verbrauchsverhalten
Konformität der Effizienz
Wartbarkeit
Analysierbarkeit
Änderbarkeit
Stabilität
Testbarkeit
Konformität der Wartbarkeit
Portabilität
Anpassbarkeit
Installierbarkeit
Koexistenz
Austauschbarkeit
Konformität der Portabilität
Tabelle 1: Qualitätskriterien Software-Architektur (Quelle: eigene Darstellung in Anlehnung an Rochimah et al. 2015)
Bei jeder Architekturentscheidung sind mehrere konzeptionelle Aufgaben zu beachten, um an
einem frühen Punkt im Softwarelebenszyklus die Erfüllung der Anforderungen sicherzustellen.
Die Interdependenzen zwischen Stakeholdern und deren Anliegen sind bei der Systementscheidung zu berücksichtigen. Unter zu Hilfenahme von Architekturstilen können verschiedene Sichten
eines Systems betrachtet werden. Darüber hinaus müssen Qualitätsanforderungen erfüllt werden.
26
Bachelor Thesis Corinna Ludwig © CORE 2016
73
3.2
Big-Data-Technologien
In diesem Kapitel werden die theoretischen Grundlagen zum Verständnis der technologischen
Basis für Big-Data gelegt. Zur Einleitung in das Thema werden verschiedene Big-Data-Definitionen vorgestellt. Neue Entwicklungen im Bereich der Datenmodelle werden anhand der Einführung von No-SQL sowie ihrer Abgrenzung zu tradierten relationalen Modellen aufgezeigt. Die
Kenntnis der Daten ermöglicht in der Folge die Klassifikation von Daten und ihrer Einordnung ein
einen Datenlebenszyklus. Die Vielfalt an Daten erfordert zusätzlich eine Beschreibung der
Schichten und Bausteinen einer Big-Data-Lösung. Auf Basis dieses theoretischen Fundaments
werden Big-Data-Referenzarchitekturen und ihre Prinzipien vorgestellt. Zu weiteren Analyse werden die Referenzarchitekturen Lambda- und Kappa ausgewählt und detailliert.
1997 beschrieben die NASA Forscher Cox und Ellsworth in ihrem Report, dass Computersysteme
bei Simulationen ihre Grenzen erreichen. Sie bezeichnen das Phänomen als „Big-Data“ (Cox M.
& Ellsworth D. 1997). Verschiedenste Assoziationen verbindet die Gesellschaft mit dem Phänomen Big-Data: Die Datenhoheit und Macht der IT-Konzerne, die verallgemeinerte Beschreibung
der Verarbeitung von großen Datenmengen und der Auftrieb von neuen Technologien. Jedoch
gibt es keine allgemein akzeptierte Definition für dieses Phänomen. Unter dem Begriff Big-Data
subsummiert sich nach Dorschel J. eine „Vielfalt von Technologien, Analytischen Methoden, Modellierungs- und Designverfahren, Kommerzieller Konzepte, Rechtlicher Rahmenbedingungen“
(Dorschel J. 2015, 2). Das Phänomen kann nach Dorschel J. aus dem gesellschafts-und politischen, technischen sowie ökonomischen Standpunkt heraus beleuchtet werden (Dorschel J.
2015, 2). In dieser Arbeit soll Big-Data aus einem technischen Standpunkt betrachtet werden.
Vorab soll geklärt werden, warum ein Unternehmen sich mit dem Thema Big-Data beschäftigen
sollte. Die Chancen, die sich durch Big-Data ergeben, werden in dem Report „Big-Data im Praxiseinsatz - Szenarien, Beispiele, Effekte“ der BITKOM dargestellt und in folgenden Tabelle beschrieben (BITKOM 2012, 14)
Aspekt
Erläuterung
Big-Data-Strategie
Zunehmende Datenvolumina liefern Argumente für die Bedeutung der
Daten und regen das Management an, strategische Antworten für die
erfolgreiche Nutzung Daten und Technologien zu entwickeln.
Governance
Durch die Festlegung klarer Verantwortlichkeiten ist Transparenz zu
schaffen. Ein zeitnaher Zugang zu Big-Data für alle Beteiligten erschließt Innovationspotenzial und fördert neue Wertschöpfung.
Prozessoptimierung
Fortgeschrittenes Datenmanagement bildet die Voraussetzung für die
Prozessoptimierung. Die Bereitstellung von Informationen in Echtzeit
ist die Grundlage für völlig neue Geschäftsprozesse.
Compliance
Das wachsende Datenvolumen sowie die Komplexität der Daten stellen hohe Anforderungen an die Compliance. Ein transparentes Daten-
27
Bachelor Thesis Corinna Ludwig © CORE 2016
73
management einhergehend mit der detaillierten und zeitnahen Aufbereitung vorgeschriebener Informationen erleichtert die Erfüllung regulatorischer Anforderungen.
Kundenkenntnis
Big-Data versetzt Unternehmen in die Lage, Kundensegmente mit größerer Granularität im Auge zu behalten und somit Produkt- und Serviceangebote besser am realen Bedarf auszurichten.
Angemessene Ent-
Neue Formen der Datenauswertung und -aggregation liefern Informa-
scheidungsbasis
tionen mit bisher nicht erreichter Spezifikationen. Die Analyse der explodierenden Datenmengen erleichtert fundierte Management-Entscheidungen zum bestmöglichen Zeitpunkt. Die Analyse komplexer
Datensätze in Verbindung mit problemadäquater Interpretation der Ergebnisse verbessert Entscheidungen als zunehmend automatisierter
Prozess, oft in Echtzeit. Die Verknüpfung unterschiedlicher Datenformate unterstützt völlig neue Erkenntnisse.
Time-to-Market
Mit dem frühzeitigen Erkennen von Marktveränderungen wird Reagieren zunehmend durch Agieren ersetzt.
Geschäftsmodelle
Big-Data lässt Unternehmen nicht nur bestehende Angebote verbessern, sondern völlig neue Angebote entwickeln.
Tabelle 2: Chancen durch den Einsatz von Big-Data (Quelle: BITKOM 2012, 5)
3.2.1
Verschiedene Definitionen zu Big-Data
Wie bereits beschrieben, ist die Definition von Big-Data nicht allgemein akzeptiert und wird durch
Technologie-Unternehmen insbesondere zum Marketing ihrer jeweiligen Software verwendet. In
der Folge soll mit einer Reihe von gängigen Definitionen die Spannweite des Begriffes illustriert
werden. Diese Definitionen zeichnen sich vielfach jedoch dadurch aus, dass sie vielfach ohne
größere theoretische Einordnung auskommen oder Teilaspekte besonders betonen. Sie dienen
zur Überleitung zum 5 V-Modell, das in der Folge erläutert und für die weitere Betrachtung zu
Grunde gelegt wird.
Die Apache Software Hadoop stellt beispielsweise die Kerntechnologie und Komponenten für
große Datenverwertung und Datenanalysen dar. Big-Data ist jedoch nicht nur auf den Einsatz
von Hadoop zu beschränken. Der Begriff Big-Data jedoch umfasst ein Konstrukt von Komponenten, um Datenhaltung, -verarbeitung und -visualisierung sowie Bereitstellung von Ergebnissen an
nachfolgende Applikationen zu ermöglichen. Alle in Beziehung mit Daten stehenden Prozesse
werden so durch Big-Data unterstützt. Der Begriff umfasst somit mehr als den reinen Technologiestack (Demchenko Y., Laat C. & Membrey P. 2014, 1).
Die erste Definition von Mike Gualtieri hebt den Analytics-Aspekt von Big-Data hervor. Die verstärkte Nutzung wissenschaftlicher Methoden von Unternehmen im Zuge der Big-Data Entwicklung findet sich in der folgenden Beschreibung von Mike Gualtieri wieder:
Definition 1: „Firmen realisieren, dass sie präskriptive und deskriptive Analysen nutzen müssen,
um den Wert von Informationen feststellen zu können. Im Zuge der Anwendung von fortgeschrittene Big-Data Analysemethoden werden weitergehende Statistik, Data Mining und Algorithmen
28
Bachelor Thesis Corinna Ludwig © CORE 2016
73
des maschinellen Lernens verwendet, diese gehen weit über traditionelle Business Intelligence
Tools, einfachen Queries oder Regeln hinaus“ ((Demchenko Y., Laat C. & Membrey P. 2014, 2).
Welches Phänomen wird hier beschrieben? Big-Data hat verschiedene Auswirkungen in der Forschung sowie in der Industrie. In e-Science wird sich herkömmlich mit den Herausforderungen
von großen Datenmengen als Ergebnis des wissenschaftlichen Forschungsprozesses beschäftigt. Die Sammlung von Daten ist die Grundlage für Hypothesenverifizierung und Modellbildung.
Hier werden Daten zwischen verschiedenen Forschungszentren geteilt, um komplexe Probleme
lösen zu können. In der Industrie werden kaum Daten geteilt; die Unternehmen haben das Ziel,
ihre Datenhoheit zu behalten. Datensicherheit spielt hier eine große Rolle, unter anderem wenn
Unternehmen auf Drittanbieter, die beispielsweise Clouds bereitstellen, zurückgreifen. Für Unternehmen stellt die Nutzung von Big-Data Technologien eine Herausforderung dar. Um von BigData- Technologien profitieren zu können, muss auf wissenschaftliche Methoden zurückgegriffen
werden. So können Daten ausgewertet werden, um Kundenverhalten vorherzusagen oder Marktentwicklungen abschätzen zu können. (Demchenko Y., Laat C. & Membrey P. 2014, 1).
Das Unternehmen IDC charakterisiert Big-Data folgendermaßen:
Definition 2: „Neue Generationen von Technologien und Architekturen, die dazu designed worden sind ein hohes Volumen einer Varietät an Daten zu extrahieren und so Analysen, Entdeckungen und schnelle Datenerfassungen möglich zu machen“ (Demchenko Y., Laat C. & Membrey P.
2014, 1).
Die Herausforderungen durch Big-Data werden von Jason Bloomberg in der nachfolgenden Definition beschrieben:
Definition 3: „Big-Data: das steigende Volumen von strukturierten und unstrukturierten Daten hat
zur Folge, dass die Verarbeitung nicht mehr durch traditionelle Datenbanken und Software realisiert werden kann“ (Demchenko Y., Laat C. & Membrey P. 2014, 2).
Als Eckpfeiler für neue Analyseverfahren, Technologien, Architekturen und Herausforderungen
dient die Beschreibung der zugrundeliegenden Charakteristika der Daten.
In der Zusammenfassung der praxisgetriebenen Definitionen wird deutlich, dass neben steigenden Datenvolumen ihre Auswertung eine herausgehobene Rolle spielt.
3.2.2
Bekannteste Definition von Big-Data: Das 3-V-Modell
Um die Einschränkungen praxisorientierter Definitionen - insbesondere bezüglich der Auswertung
wachsender Datenvolumen - zu verbessern, haben Unternehmen der Beratungsbranche stärker
konzeptorientierte Definitionen vorgelegt. Das 3V-Modell ist ein verbreitetes Konzept, das hier
vorgestellt und diskutiert werden soll.
Eine der bekanntesten Definitionen für Big-Data stammt von Gartner und geht auf den Forschungsbericht des Analysten Doug Laney zurück.
Definition 4: Diese besagt, dass Big-Data „ein High-Volume, High-Velocity und High-Variety Informationsbestand ist, der Kosteneffektivität, innovative Ansätze der Informationsverwertung für
verbesserten Insight und Entscheidungsfindung verlangt“ (Laney D. 2001, 3).
29
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Diese Definition charakterisiert Big-Data anhand von den drei beschriebenen V’s: „Volume“,“Velocity“ und „Variety“ (Laney D. 2001, 3). Die verschiedenen Dimensionen sind in Abbildung 4
erkennbar. Einzelne Schichten des Kreises werden zu einem späteren Zeitpunkt noch einmal
aufgegriffen und erklärt. Viele der hier genannten Aspekte - neue Analytics-Methoden, neue
Technologien, Architekturen, Datenformen, Datencharakteristika - werden in dem Versuch der
umfassenderen Beschreibung von Big-Data wieder aufgegriffen; sie zeigen gleichzeitig die fehlende Einheitlichkeit der Beschreibung des Big-Data-Phänomens in der Literatur.
Abbildung 3: Dimensionen von Big-Data: Das 3-V-Modell (Quelle: eigene Darstellung in Anlehnung an Khaki S. 2016)
3.2.3
Einführung in No-SQL Datenmodelle
Zur Strukturierung der Daten in Big-Data werden Datenmodelle entworfen, wobei hier ebenfalls
neue Konzepte entwickelt werden. Im folgenden Kapitel soll das Konzept No-SQL erläutert werden sowie ihre herausgehobenen Ausprägungen bezüglich der

Datentypen,

Datenformate und

Datenzustände.
Die Betrachtung dieser Elemente ermöglicht in der Folge die Bewertung einer Big-Data Architektur entlang ihrer datenbezogenen Leistungsfähigkeit.
Im Zuge der wachsende Datenmenge, insbesondere an unstrukturierten Daten, stoßen traditionelle relationale Datenmodelle an Leistungsgrenzen, was unter anderem die NIST Big-Data
Public Working Group feststellt (NIST 2015, 6). In relationalen Datenmodelle werden eine Sammlung von Relationen in Tabellen abgebildet, jede Tabelle ist ein Datensatz, jede Zeile ein Tupel
30
Bachelor Thesis Corinna Ludwig © CORE 2016
73
und jede Spalte ein Attribut (= Eigenschaften eines Tupels). (Codd E. 1990, 28) Alle grundlegenden Operationen -Abspeicherung, Abfrage und Veränderung der Daten- können durch relationale
Algebra - ein algebraisches Modell - beschrieben werden. durch Wichtiger Bestandteil relationaler
Datenmodelle ist das feste Schema. Das Schema legt fest, welche Daten in der Datenbank gespeichert werden und wie diese Daten in Beziehung zueinander stehen. Zur Abfrage wird die
Datenbanksprache SQL (= Structured Query Language) verwendet. (Codd E. 1990, 91) Die Entwicklung flexibler Schemata wird erforderlich und No-SQL Datenmodelle bieten eine Antwort auf
die wachsende Vielfalt, das Volumen und die Velocity von Daten. No-SQL steht für Not-OnlyStructuredQueryLanguage und beschreibt die Existenz von logischen Datenmodellen, die die Paradigmen von relationaler Algebra ergänzen und die Schema-Notwendigkeit ablösen. Daten können in NoSQL Datenmodellen in Form von Dokumenten, Graphen, Key-Value-Paaren oder Spalten gespeichert werden (Gomez P. , Casallas R. & Roncancio C. 2016, 1) Die Gestalt der Daten
-beispielsweise Datentyp oder Datenformat - diktiert die Ausgestaltung des Datenmodells. Die
Kombination aus unterschiedlichen Modellen ist möglich und sollte individuell entschieden werden. Die Auswahl des Datenmodells ist maßgebend für die Auswahl der Architektur und der einzelnen Komponenten (NIST 2015, 6).
Bevor die Weiterentwicklung des 3-V-Modells zu einer umfassenderen Definition von Big-Data
beschrieben wird, muss ein grundsätzliches Verständnis über die verschieden vorliegenden Daten innerhalb des Big-Data Konzepts beschrieben werden. Die Daten werden im nächsten Abschnitt klassifiziert. Der Abschnitt strukturiert sich wie folgt: Zunächst werden Schlüsselkonzepte
von Daten im Big-Data-Konzept beschrieben, anschließend werden Daten weiter klassifiziert und
schließlich werden allgemeine Anforderungen an ein Datenmodell skizziert. Dieser Abschnitt ist
grundlegend für die in der Abbildung 2 (Software-Architektur-Lebenszyklus) im Kapitel 3.1 Software-Architekturen beschriebene Anforderungsspezifikation.
Datentyp-Metadaten
Individuelle Datenelemente unterliegen keiner Veränderung durch Big-Data. Ein wichtiges Konzept von Big-Data sind Metadaten. Metadaten beschreiben ergänzende Informationen über Daten, beispielsweise wie und wann sie gesammelt und verwertet worden sind. Metadaten sind für
Big-Data Analysen entscheidend, da durch sie eine Verringerung der Menge und leichtere Datenauswertung möglich ist. Der Blogger Christian Schön beschreibt Metadaten wie folgt: „ Zu
früheren Zeiten legten Archivare Zettelkästen an, um den Aufenthaltsort von Dokumenten und
Büchern in Archiven schnell zu finden. (…) Metadaten sind digitale Archivare“ (Schön C., 2015).
Datencontent-Format: Strukturierte, unstrukturierte, semi-strukturierte Daten
Datenelemente werden in Datensätzen zusammengefasst, die eine Transaktion, eine Beobachtung oder ein Event beschreiben. Es wird zwischen strukturierten, unstrukturierten und semistrukturierten Daten unterschieden. Strukturierte Daten können in relationalen Datenbanken effizient beschrieben werden und bezeichnen Daten mit gleichartiger Struktur. Unstrukturierte Daten bzw. semi-strukturierte Daten liegen nicht in geordneter Form vor. Zu den Datentypen zählen
beispielsweise Texte, Videos und Bilder (NIST 2015).
31
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Datenzustand- Data at Rest, Data-In-Motion
Datensätze (engl. data records) können in Datenbestände (engl. data sets) gruppiert werden, die
verschiedene Big-Data Charakteristiken aufweisen. Datenbestände können zwischen den Daten
an sich, gespeicherten Daten (engl. Data at Rest) und Daten bei der Übertragung bzw. Datenströmen (engl. Data-In-Motion) unterschieden werden. (NIST 2015) Data at Rest sind Informationen, die aus verschiedenen Quellen gesammelt und abgespeichert worden sind. Diese Daten
werden nach dem Event analysiert, bei dem sie angefallen sind somit separat. Data-In-Rest beschreiben also zu persistierende Daten. Bei Data-In-Motion ist der Analysezeitpunkt ein anderer.
Die Daten werden gesammelt und während der Event stattfindet in Echtzeit analysiert. Data-InMotion referenzieren auf zu prozessierende Daten. Das Spektrum an Datenformaten, logischen
Modellen, Zeitskalen und Semantik soll in Analysen verarbeitet werden können (Internap 2014).
Bei der Betrachtung von Data-In-Motion ist das Zeitfenster von Relevanz, in dem Daten verarbeitet und analysiert werden können. Hier wird zwischen Echtzeit und Nahezu-Echtzeit unterschieden.
Die Schlüsselkonzepte von Daten im Big-Data-Kontext wurden vorgestellt. Bei der Erstellung eines Datenmodells zur Klassifizierung einer Big-Data-Lösung sind nach Aussagen der Firma IBM
weiterhin die folgenden Kategorien zu beachten:

Datenquelle: beispielsweise Web und Social Media, biometrische Daten, Transaktionsdaten oder maschinell generierte Daten,

Datenfrequenz: beispielsweise Zeitreihen, Echtzeit-Übertragungen, kontinuierliche
Übertragungen, Stichtagsbetrachtungen oder On-Demand-Übertragungen,

Datentyp: beispielsweise Metadaten, Masterdaten, historische Daten, transaktionale
Daten,

Datencontent-Format: strukturierte Daten, unstrukturierte Daten oder semi-strukturierte
Daten,

“Daten-Consumer”: Business Prozesse, andere Repositories oder Applikationen.
(Mysore D.).
Die Grundlagen für die Spezifikation der Daten wurden gelegt. Marz beschreibt zudem die weiteren Anforderungen, die ein Datenmodell im Big-Data-Kontext erfüllen muss:

Daten sollten im Rohzustand vorliegen,

Daten sollten unveränderlich sein,

Daten sind „eternally true“ (Marz N. & Warren J. 2015, 36).
Die Kenntnis über die Art der zu speichernden, zu prozessierenden sowie zu analysierenden
Daten ist für die Definition eines spezifischen Datenmodells als Eckpfeiler für eine Big-Data-Lösung und der damit einhergehenden Entscheidung für ein Speichermedium, die Art des DatenZugriffs, die Datenintegration sowie der analytischen Verarbeitung und somit Big-Data-Architektur relevant. (NIST 2015, 6)
32
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Die Kenntnis der Datenmodelle und ihrer Ausprägungen Datentyp, Datenformat, und Datenzustand wird durch No-SQL-Modelle erweitert. Dies ermöglicht Leistungssteigerungen für Big-DataSysteme. Gleichzeitig bieten sie die Grundlage zur Bewertungen der assoziierten Architekturen.
3.2.4
Das Big-Data-Ökosystem: Das 5-V-Modell
Die von Gartner im 3-V-Modell beschriebenen Big-Data-Eigenschaften sowie die vorangegangene Klassifizierung von Daten bieten einen ersten Ansatzpunkt für die Forcierung dieser datengetriebenen Modelle. Sie stellen High-Level-Anforderungen an eine Big-Data-Architektur dar und
sind Grundlage für das Datenmodell. Das Modell wird in der Folge erläutert.
Der Ansatz von Gartner wurde im Journal „Adressing Big-Data Issues in Scientific Infrastructure“
weiterentwickelt. Hier wird Big-Data anhand von 5 V’s charakterisiert: „Volume“, „Velocity“, „Variety“, „Veracity“ und „Value“ (Demchenko Y., Laat C. & Membrey P. 2014, 2). Diese Charakteristika bieten die Grundlage für die systematische Herleitung der Definition des Big-Data-Ökosystems. Das Paper „Defining Architecture Components of the Big-Data Ecosystem” greift die beschriebenen fünf Charakteristika auf und führt sie zusammen; ergänzt durch weitere Komponenten ergibt sich der erste Versuch einer umfassenden Definition des Big-Data-Ökosystems:
Definition 5: „Big-Data Technologien zielen darauf ab High-Volume, High-Velocity, High-Variety
Daten zu verwerten, um den Wert (Value) der Daten zu extrahieren und die High-Veracity der
Original Daten sicherzustellen. Der Erhalt von Informationen mit der Zielsetzung der Kosteneffektivität, innovativer Datenformen und Informationsverarbeitung (Analytics) für verbesserten Insight, einer fundierten Entscheidungsgrundlage und Prozesskontrolle soll ermöglicht werden.
Diese Anforderungen sollen erfüllt werden durch neue Datenmodelle (diese Datenmodelle unterstützen alle Datenzustände und Stadien während des Datenlebenszyklus) und neue Infrastrukturservices und Tools, die die Verwertung von Daten aus einer Variation von Datenquellen ermöglichen sowie Daten in verschiedenen Variationen für unterschiedliche Datensätze, Endverbraucher und Devices bereitstellt“ (Demchenko Y., Laat C. & Membrey P. 2014, 2).
Diese Definition dient als Grundlage für diese Arbeit. Zunächst sollen die beschriebenen Datencharakteristika näher beleuchtet werden. Für den Stakeholder, beispielsweise den IT-Architekten wie im Kapitel 3.1 Software-Architekturen skizziert, ist die Kenntnis über die Datencharakteristika grundlegend für die weitere Beschreibung der spezifischen Anforderungen. Die Anforderungen können nach den 5-V klassifiziert werden:
Volume (= große Datenmengen im Terabyte- bis Petabyte-Bereich):

Das Big-Data Volume wirkt sich auf die Speicherung und Auswertung von Data-In-Rest
aus. Große Datenmengen müssen verwertet werden können. Hier werden Daten anhand von Größe, Skala, Menge und Dimension (beispielsweise Terabyte) spezifiziert,

Skalierbarkeit und Robustheit muss gegeben sein, um die Verarbeitung von großen Datenmengen zu gewährleisten. (Dorschel J. 2015,264)
Velocity (=Analyse von Streaming-Daten in Echtzeit oder Nahezu-Echtzeit) :

Die Verarbeitung großer Datenströme (Data-In-Motion) muss gewährleistet sein,
33
Bachelor Thesis Corinna Ludwig © CORE 2016
73

die Reaktion auf Ereignisse in Datenströmen sollte in Echt-Zeit erfolgen. (Dorschel J.
2015,264)
Variety (=Daten liegen in verschiedenen Formaten vor):

Verschiedene Formate, beispielsweise Texte, Bilder und Videos- und Datenquellen,
müssen unterstützt werden,

Data-In-Rest können strukturiert, unstrukturiert, semi-strukturiert oder gemischt vorliegen; das bedeutet, Schemalosigkeit muss unterstützt werden. Für die spezifischen Daten muss es weiterhin möglich sein verschiedene Schemata zu definieren,

Metadaten müssen beliebig änderbar sein. (Dorschel J. 2015,264)
Veracity (= Richtigkeit von naturgemäß unvorhersehbaren Daten):

Für Konsistenz muss eine Metadatenintegration für unterschiedliche Datenquellen möglich sein,

Metadaten für unstrukturierte Daten stehen zur Verfügung,

Datenqualität als Komponente muss berücksichtigt werden,

das Ursprungsformat mit der Möglichkeit den Datenursprung identifizieren zu können,
muss vorliegen. (Dorschel J. 2015,264)
Value (= Wert für das Unternehmen):

In der Dimension Value wird der Mehrwert beschrieben, den Big-Data durch die Verwendung der Daten in einem Prozess,

einer Aktivität oder

prädiktiver Analysis bieten kann. (Dorschel J. 2015,264)
3.2.5
Big-Data-Engineering
Der Fokus auf Systemerneuerungen auf Grund von veränderten Datencharakteristika lässt sich
im Begriff Big-Data Engineering zusammenfassen.
Definition: „Big-Data Engineering beinhaltet fortgeschrittene Techniken, die voneinander unabhängige Bausteine verwenden, um skalierbare Systeme zu bauen, wenn die Charakteristika der
Datensätze neue Architekturen für effiziente Speicherung, Handhabung und Analyse erfordern“
(NIST 2015, 10).
Im nachfolgenden sollen einige dieser Big-Data Bausteine angeführt werden, die im Zuge des
Big-Data Paradigma emergieren und grundlegend sind für datengetriebene Architekturentscheidungen. Hierzu wird zunächst der Datenlebenszyklus nach NIST vorgestellt.
3.2.6
Datenlebenszyklus
Der Datenlebensyklus beschreibt eine Reihe von Prozessen innerhalb einer Anwendung, die
Rohdaten in tatsächliches Wissen transformieren. Daten werden sukzessive angereichert und
abstrahiert im Verarbeitungsprozess von Quell- zu Zielsystem (NIST 2015, 16).
34
Bachelor Thesis Corinna Ludwig © CORE 2016
73
NIST kategorisiert den End-to-End Datenlebenszyklus in die folgenden vier Stadien:

Collection (Sammlung der Daten und Speicherung der Rohdaten),

Preparation (Prozesse zur Verarbeitung von Rohdaten zu organisierten Informationen),

Analysis (Techniken zur Synthese von Wissen aus den Informationen) und

Action (Prozesse zur Generierung von tatsächlichem Wert aus dem synthetisierten Wissen für das Unternehmen).
Festzuhalten ist, dass der Datenlebenszyklus im Mittelpunkt einer Big-Data-Lösung steht und im
Big-Data-Engineering zusammen mit dem Wissen über das Datenmodell als Basis für die Auswahl der Schichten und Bausteine einer Big-Data-Lösung verwendet (NIST 2015, 16).
3.2.7
Schichten und Bausteine einer Big-Data-Lösung
Die Vielfalt an Datentypen und somit Big-Data- Einsatzszenarien erfordert im Big-Data Engineering die Kombination verschiedener Bausteine auf unterschiedlichen Schichten, um so ausgehend von einer Referenzarchitektur eine Big-Data-Lösung zu beschreiben. Schichten beschreiben, wie im Kapitel 3.1 Software-Architekturen gezeigt, einen bestimmten Architektur-Stil der aus
der Architektur-Perspektive „Module“ betrachtet wird. Nach BITKOM ist der „Zweck jeder BigData-Lösung, Daten in entscheidungsrelevante Informationen umzuwandeln“ (BITKOM 2014,
26). BITKOM beschreibt verschiedene Bausteine auf 6 Schichten, wie in der Grafik erkennbar.
Vier Schichten - Daten-Haltung, Datenzugriff, Analytische Verarbeitung und Visualisierung markieren den „Weg von den Rohdaten hinzu geschäftsrelevanten Erkenntnissen“. Die Schichten
Datenintegration und Daten-Governance sowie Sicherheit unterstützen die Einbettung in den Unternehmenskontext (BITKOM 2014, 26). Die folgende Grafik stellt die Interdependenz zwischen
Datenlebenszyklus und Schichten sowie Bausteinen einer Big-Data-Lösung dar. Es ist anzumerken, dass die Schichten in der Praxis zum Teil nicht trennscharf sind, beispielsweise können
Streaming-Bausteine auch für die Daten-Integration verwendet werden.
35
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Abbildung 4: Schichten und Bausteine einer Big-Data-Lösung (Quelle: eigene Darstellung in Anlehnung an BITKOM
2014,26)
3.2.8
Big-Data-Referenzarchitekturen
Wie bereits im letzten Kapitel gezeigt, war der Ansatz vor Big-Data schema-getrieben und basierte zum größten Teil auf relationalen Modellen. Bisherige Architekturen sahen vor, dass Daten
der Funktion folgen. Der Big-Data-Ansatz hingegen sieht vor, dass die Funktion den Daten folgt.
Funktionen werden verteilt (IBM 2015, 5). Im folgenden Kapitel sollen allgemeine Verteilte Systeme definiert werden und ihre konkreten Referenzausprägungen als Lambda-Architektur und
Kappa-Architektur vorgestellt werden.
Verteilte Systeme
Big-Data-Anwendungen werden als verteilte Systeme konzipiert, so können Verarbeitungskapazitäten entsprechend angepasst werden.
Definition: „Verteilung bedeutet unter anderem, dass Daten mittels Replikaten redundant angelegt werden, einerseits zwecks Sicherung und Verfügbarkeit, wenn ein Daten-Knoten ausfällt,
andererseits um schnelle, lokale Zugriffe für verteilte Prozesse zu ermöglichen“ (BITKOM 2014,
30).
Für verteilte Systeme gilt das so genannte CAP-Theorem. Die Idee des CAP -Theorems wurde
erstmalig durch Eric Brewer E. beschrieben (Brewer E. 2000, 4) und von Nancy Lynch und Seth
Gilbert bewiesen (Gilbert, S. & Lynch, N. 2002, 1). Nach Brewer E. kann ein verteiltes System
maximal zwei der gewünschten Eigenschaften: Konsistenz, Verfügbarkeit und Toleranz zu einem
hohen Grad erfüllen (Brewer E. 2000, 4).

Konsistenz (C) bedeutet, dass es immer nur eine Single Up-To-Date Kopie von Daten
gibt, Replikate demnach identisch sind,
36
Bachelor Thesis Corinna Ludwig © CORE 2016
73

Verfügbarkeit (A) heißt, dass Anfragen an das System stets beantwortet werden können,

Partitionstoleranz (P) beschreibt die Ausfalltoleranz eines Systems, bei Verlust einer
Partition des Netzes arbeitet das System weiter.
Ziel ist es, die Anforderungen an die Eigenschaften so abzuwägen, dass eine bestmögliche Lösung für den jeweiligen Anwendungsfall gefunden werden kann. Bei traditionellen Datenbanken
beispielweise liegt die Einordnung bei CA, bei NoSQL-Datenbanken bei AP oder CP (Brewer E.
2012, 1). Ein Big-Data-System muss partitionstolerant sein, demnach ist perfekte Verfügbarkeit
bei gleichzeitiger Konsistenz ausgeschlossen.
Engpässe sollen durch horizontale Skalierung ausgeglichen werden. Skalierbarkeit beschreibt
einen wichtigen Grundsatz im Kontext von Big-Data. Skalierbarkeit beschreibt die Eigenschaft
eines Systems, den steigenden Ansprüchen an Leistungsfähigkeit gerecht werden zu können. Es
gibt zwei verschiedene Formen von Skalierbarkeit: Vertikale und Horizontale Skalierbarkeit (NIST
2015, 10). Vertikale Skalierbarkeit beschreibt das Hinzufügen von physische Ressourcen, beispielsweise CPU und Komponenten innerhalb einer logischen Einheit. Unter horizontaler Skalierbarkeit versteht man die Integration mehrerer logischer Ressourcen in einem alleinig fungierenden System, beispielsweise werden die Ressourcen eines physischen Servers auf verschiedene
Systeme - virtuelle Maschinen - verteilt und können additiv skaliert werden (Wehrmaker T. 2011,
1). Eine Big-Data-Architektur muss skalierbar sein, damit für die Erfüllung der Anforderungen benötigte Leistung und Kosteneffizienz gewährleistet werden können (NIST 2015, 10).
Big-Data-Architekturansätze haben sich im Zeitverlauf gewandelt. Zunächst wurde auf reine
Batch-Verarbeitung gesetzt, Verarbeitung von Data-In-Rest sowie skalierbaren Lösungen und
Volume im Fokus. Anschließend gab es verschiedene Lösungen zu reiner Real-Time-Verarbeitung, bei der Data-In-Motion verarbeitet wurden und geringe Latenzzeiten sowie Velocity im Fokus standen (Marcous D. 2015, 5).
Marz reduziert die im Kapitel 3.1 Software-Architekturen beschriebenen Qualitätsmerkmale und
charakterisiert die Anforderungen an eine Big-Data-Lösung wie folgt:

Robustheit und Fehlertoleranz,

Niedrige Latenzzeiten bei Lesevorgängen und Updates,

Skalierbarkeit,

Generalisierung,

Erweiterbarkeit,

Ad hoc Queries,

Minimale Wartbarkeit und

Debug-Möglichkeiten. (Marz N. & Warren J. 2015, 7-9)
Aus den vielfältigen Charakteristika der Daten wurden anschließend unter der Berücksichtigung
des Big-Data-Paradigmas verschiedene Architekturansätze für verschiedene Anwendungsfälle
entwickelt.
37
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Diese Architekturansätze sind Referenzarchitekturen und stellen wie bereits im Kapitel 3.1 Software-Architekturen beschriebene bekannte Muster dar, die unterschiedliche Stile für Anwendungsfälle kombinieren.
Die folgenden Architekturen sind nach Marcous (Data Wizard bei Google) an dieser Stelle nennenswert:

Lambda-,

Kappa-,

iot-a-,

Zeta- und

Mu-Architektur (Marcous D. 2015, 15).
Die Lambda-Architektur ist der einzige Architekturansatz, der in der Literatur beschrieben wird
(Marz N. & Warren J. 2015). Die anderen werden auf Grund ihrer Neuheit nur in diversen Blogs
von Mitarbeitern bekannter Unternehmen, beispielsweise Google, LinkedIn, Twitter, erklärt. Die
hier beschriebenen Erkenntnisse über Architekturansätze im Big-Data-Umfeld sind daher im Zeitverlauf zu überprüfen. Da die Lambda-Architektur in der Literatur beschrieben wird und die
Kappa-Architektur eine Simplifizierung darstellt, sollen in dieser Arbeit diese beiden Architekturen
vorgestellt werden.
Lambda-Architektur
Die Lambda-Architektur stellt einen, wie im Kapitel über Software-Architektur beschrieben, Architekturstil dar. Der Architekturansatz wurde von Nathan Marz - Mitentwickler von Apache Storm
(verteiltes Streaming System) - beschrieben. Das Muster ist konzipiert für Applikationen bei denen die Datenerhebung zeitverzögert stattfindet und Verfügbarkeit für Online-Auswertungen gegeben sein muss. Die grundlegende Idee der Lambda Architektur ist, dass jede Schicht des BigData Systems eine Anzahl an Eigenschaften erfüllt:
A.
Dateneingang (Data Ingestion):
Anfänglich eingehende Daten aus unterschiedlichen Quellen werden aufgenommen und dem
Batch Layer und/oder dem Speed Layer zur Verfügung gestellt (AltusInsight 2015).
B.
Dauerhafte Speicherung und Langzeit-Auswertung (Batch Layer):
Die Batch-Verarbeitung ist zuständig für die dauerhafte Speicherung in strukturierter Form (normalisiert in Tabellen) und Langzeitauswertungen über den gesamten Bestand an Data-In-Rest
und aktualisiert kontinuierlich die Batch-Sicht des Serving-Layer. Batch-Sichten stellen das Ergebnis der berechneten Daten dar- die Informationen. (Marz N. & Warren J. 2015, 83)
C.
Echtzeit-Analyse (Speed Layer)
Bei der Speed-Verarbeitung werden eingehende Data-In-Motion bearbeitet und in Echt-Zeit ausgewertet. Die Informationslücke der Batch-Verarbeitung durch hohe Latenzzeiten wird an dieser
Stelle ausgeglichen, indem fehlende Datensätze aus der Speed-Verarbeitung im Serving-Layer
38
Bachelor Thesis Corinna Ludwig © CORE 2016
73
abgebildet werden können. Nach der Bearbeitungszeit des Batch-Layers werden die temporär
gespeicherten Sichten des Speed Layers gelöscht. (Marz N. & Warren J. 2015, 18)
D.
Indizierung der Datensätze für Analyseabfragen
Der Serving-Layer dient als gedankliche Schnittstelle für die Beantwortung von Query-Anfragen
und der Bereitstellung der Ergebnisse aus Kalkulationen. Konkret werden die Datensätze aus
Batch-Sichten indiziert, um ad Hoc Queries zu ermöglichen.(Kiran u.a. 2015) Hier werden die
Daten unstrukturiert gespeichert (Marz N. & Warren J. 2015).
Eingabe der Analyseaufgaben (Query) (Marz N. & Warren J. 2015, 289)
Hier können Anfragen auf die aggregierten Daten (=Cluster) durchgeführt werden. Die Schnittstelle zwischen Cluster und Anwender stellt das Query dar. (AltusInsight 2015).
In der Abbildung 5 werden die beschriebenen Zusammenhänge zwischen den verschiedenen
Schichten einmal graphisch dargestellt:
Abbildung 5: Lambda-Architektur (Quelle: eigene Darstellung in Anlehnung an Marz und Warren 2015, 42
Eine grundlegende Eigenschaft von der Lambda-Architektur ist die „Complexity Isolation“. Die
Komplexität wird in der Schicht abgebildet, dessen Ergebnisse nur temporär sind. Sobald Daten
im Batch-Layer prozessiert worden sind, können die Ergebnisse der Echt-Zeit-Sicht verworfen
werden. Das Master Dataset ist der „Source-Of-Truth“, Fehler in der Batch-Sicht werden durch
das Master Dataset überschrieben. Nach Marz führt die Batch-Verarbeitung die exakte Berechnung durch und der im Speed-Layer verwandte Algorithmus ist approximativ (Marz N. & Warren
J. 2015, 20).
39
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Die Lambda-Architektur kann demnach in drei Gleichungen zusammengefasst werden:

Batch-Sicht

Echtzeit-Sicht = Funktion (Echtzeit-Sicht, Neue Daten) und

Query
=
=
Funktion (Alle Daten),
Funktion (Batch-Sicht. Echtzeit-Sicht)
(Marz N. & Warren J. 2015, 15).
Kappa-Architektur
Die Kappa-Architektur ist wie die Lambda-Architektur ein Architekturstil. Die Kappa-Architektur
wurde von Jay Kreps - Mitentwickler von Voldemort (Key-Value-Datenbank), Apache Kafka (verteiltes Messaging System) und Apache Samza (Streaming System) - entwickelt. Die Kappa-Architektur stellt eine Vereinfachung der Lambda-Architektur dar. Sie besteht aus den gleichen
Schichten bis auf den Batch-Layer, da hier die Grundannahme ist, dass Daten nicht repliziert
werden sollten und Echt-Zeit-Verarbeitung genauso akkurat ist wie Batch-Verarbeitung. Der
Speed Layer übernimmt die Aufgaben des Batch Layers. Es werden Echtzeit-Daten verarbeitet,
dann bestehende Daten durch verschiedene Streams aus Logs berechnet und schließlich aggregiert. Das heißt die beschriebenen Batch-Views werden durch den Speed-Layer bereitgestellt.
(Uesugi S. 2014).
Das bedeutet im Detail, dass dem Speed-Layer ein System vorgelagert wird, das die Möglichkeit
bietet, den gesamten Log an Daten vorhalten zu können. Eine erneute Verarbeitung findet hier
nur statt, wenn sich der Code für die Verarbeitung ändert. Diese erneute Verarbeitung wird parallel durchgeführt. Anstatt wie bei der Lambda-Architektur die jetzigen Sichten mit den Masterdaten zu überschreiben, wird für die erneute Verarbeitung bei der Architektur eine neue Instanz
innerhalb des Speed-Layers gestartet. Der Zeitstempel der neu zu verarbeitenden Daten ist innerhalb des Logs beliebig selektierbar (jetzt, vor einem Tag, vor einem Jahr), die Daten werden
erneut verarbeitet und in eine neue Output-Tabelle geschrieben. Die alte Output-Tabelle im Serving-Layer wird gelöscht und die neue Output-Tabelle dient als Grundlage (Kreps J. 2014).
Im Ergebnis wurden durch die Industrie Referenzarchitekturen für Big-Data entwickelt. Ausgehend von allgemeinen und Marketing-getriebenen Definitionen haben wir auf Basis des abstrahierten 3V-Modells die Daten-Ebene und ihre Ausprägung in No-SQL-Modellen betrachtet. Somit
wurde eine Ökosystembetrachtung (5V-Modell) möglich. Durch die Einbeziehung des Engineering-Ansatzes, des Datenlebenszyklus und einer Schichten-Analyse wurden zuletzt die Lambdaund Kappa-Referenzarchitekturen vorgestellt. Ein Raster zur Bewertung der Relevanz und Eignung von Big-Data Taxonomien für die Versicherungsbranche liegt somit vor.
40
Bachelor Thesis Corinna Ludwig © CORE 2016
73
4
Analyseinstrumente
In diesem Kapitel sollen die folgenden Analyseinstrumente kurz vorgestellt werden:

Das Kartesische Koordinatensystem für die Quantifizierung der Relevanz von Big-Data
für Versicherungen und

das Scoring-Modell für die Bewertung der Architekturen.
4.1
Das Kartesische Koordinatensystem
Zweck und Absicht
Die Idee des Tools basiert auf der Idee von René Descartes (1596-1650). Mit Hilfe des Tools
sollen mögliche Optionen und Konsequenzen, basierend auf konditionalen Kombinationen, beispielsweise „wenn A, dann B“, ermittelt werden. Das Tool bietet die Grundlage für eine erste
Strukturierung der eigenen Gedanken zu einer Ursache-Wirkungs-Beziehung. Verschiedene Aspekte und Sichtweisen sollen entdeckt werden. (Andler N. 2007, 406)
Funktionen und Aufgabe
Mögliche negative und positive Ergebnisse sowie Konsequenzen sollen für die Entscheidungsfindung aufgezeigt werden. Verschiedene Ergebnisse ergeben sich durch die Bedingungen und
die unterschiedliche Kombination von zwei Aussagen, die in einer Ursache-Wirkungs-Beziehung
zueinander stehen. (Andler N. 2007, 406)
Vorgehen
1.
Zwei Aspekte, die voneinander abhängen, werden definiert. Der erste Aspekt stellt die
Ursache (A) und der zweite Aspekt die Auswirkung dar (B), beispielsweise Einführung
von Multimedia-Technologie (A) und Konsumentenverhalten (B).
2.
Für jede der vier Kombinationen wird ein positives sowie ein negatives Ergebnis beschrieben:
I
Wenn A eintritt, was würde mit B passieren?
II
Wenn A nicht passiert, was würde mit B passieren?
III
Wenn A eintritt, was würde nicht mit B passieren?
IV
Wenn A nicht eintritt, was würde nicht mit B passieren?
Die Ergebnisse können in einem Kartesischen Koordinatensystem (=Matrix) visualisiert werden.
(Andler N. 2007, 406)
41
Bachelor Thesis Corinna Ludwig © CORE 2016
73
4.2
Das Scoring-Modell
Zweck und Absicht
Bei der Nutzwertanalyse oder auch Scoring-Modell genannt sollen messbare und vergleichbare
quantitative Ergebnisse erzielt werden. Verschiedene Optionen werden hier abgewogen. Das
Tool findet Anwendung bei komplexen Entscheidungen sowie schwer handhabbaren Problemen.
Es soll als erste Bewertungsgrundlage dienen und den Entscheidungsprozess unterstützen.
(Andler N. 2007, 407)
Funktionen und Aufgaben
Verschiedene Kriterien werden gewichtet und bewertet. Das Ergebnis der gewichteten Kalkulation entspricht einem „Gewinner nach Punkten“. (Andler N. 2007, 407)
Vorgehen
Alle relevanten Kriterien werden identifiziert.
1.
Evaluierungskriterien können in Haupt- und Unterkategorien unterteilt werden
2.
Jedem Kriterium wird eine Gewichtung zugewiesen. Maximal 100 Prozent in Prozentanteilen oder numerischen Werten können vergeben werden. Bei Zahlen wird eine Höchstzahl vergeben.
3.
Prüfung, ob die Vergabe der Gewichtung auch der Wichtigkeit der Anforderung entspricht.
4.
Für jedes Kriterium wird für jede Option eine Punktzahl vergeben. Die höchstmöglich zu
vergebende Punktzahl wird vorher festgelegt.
5.
Die Gewichtungen und Punktzahlen werden multipliziert und die endgültige Punktzahl
für jedes Kriterium ermittelt.
6.
Die endgültigen Punktzahlen aller Kriterien aufsummiert ergeben den endgültigen Punktestand für die Option.
Die Ergebnisse werden tabellarisch festgehalten. (Andler N. 2007, 407)
42
Bachelor Thesis Corinna Ludwig © CORE 2016
73
5
Big-Data-Architekturen im Kontext Versicherungen
Dieses Kapitel baut auf der Darstellung der Charakteristiken und Herausforderungen der Versicherungsindustrie in Bezug auf das Datenmanagement im Kapitel 2 auf. Kernpunkte sind die sich
ändernden Kundenbedürfnisse und -verhalten im digitalen Zeitalter. Der gemeinsame Nenner der
Anwendungsfälle für die Verbesserung der Kundeneinsicht und der Adressierung der Bedürfnisse
der heranwachsenden digitalen Generation ist die Analyse steigender Datenmengen. Die Analyse des Wettbewerbs zeigt, dass die Institute darüber hinaus mit Anbietern konkurrieren, die sich
neue Technologien zu Nutze machen.
Des Weiteren dient als Grundlage für die weitere Analyse die Betrachtung des Big-Data-Ökosystems wie im 5V-Modell beschrieben. Weitere Anforderungen werden aus dem CAP-Theorem sowie den Anforderungen an eine Big-Data-Lösung analysiert. Stellvertretend wird die Betrachtung
entlang der vorgestellten Referenzarchitekturen Lambda und Kappa vorgenommen.
Die Relevanz von Big-Data für Versicherungen wird zum Eingang des Kapitels erörtert (5.2). Das
Modell für den Vergleich und die Bewertung hergeleitet (Kapitel 5.2). Anhand von ausgewählter
Referenzarchitekturen wird das Modell erprobt, um schlussendlich Erkenntnisse und Folgerungen (Kapitel 5.3) für den Entscheidungsprozess ableiten zu können.
Somit werden die eingangs gestellten Forschungsfragen beantwortet:

F1: Ist der Einsatz von Big-Data für ein Versicherungsunternehmen von Relevanz?

F2: Wie könnte ein Modell zur Objektivierung der Architekturentscheidung für Big-DataLösungen aussehen?

F3: Welche Ergebnisse liefern der Vergleich und die Bewertung ausgewählter Architekturen mit Hilfe des Modells?
5.1
Relevanz von Big-Data bei Versicherungen
Der Einsatz von Big-Data Architekturen wird grundlegend durch die Analyse der Chancen und
Herausforderungen in Bezug auf die Wertschöpfung in seiner Relevanz bewertet. Die Bewertung
wird durch eine Übertragung auf das kartesische Koordinatensystem erhärtet und illustriert. Es
wird etabliert, dass die Chancen einer Einführung dabei signifikant die Risiken und die gegenüberstehenden Aspekte bei der Fortführung aktueller Datenmodelle überwiegen.
Anwendung des Analyseinstruments Kartesisches Koordinatensystem
Mit Hilfe des Tools sollen beispielhafte Argumente zu dem Thema „Big-Data- Relevanz für ein
Versicherungsunternehmen“ strukturiert werden. Eine weitere Quantifizierung erfolgt im Rahmen
dieser Arbeit nicht. Auf Grund der hohen Anzahl an Argumenten wurde bewusst auf eine Visualisierung verzichtet.
Wie im Kapitel 4 beschrieben sollen zwei voneinander abhängige Aspekte definiert werden. Der
erste Aspekt stellt die Ursache (A) und der zweite die Auswirkung dar (B).
43
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Hier sollen basierend auf den theoretischen Grundlagen die folgenden Ursache-Wirkungs-Beziehungen analysiert werden:

Ursache (A) :

Auswirkung (B): Wertschöpfung.
Einführung einer Big-Data-Lösung und
Für jede der vier Kombinationen wird nach dem eigentlichen Vorgehen ein positives sowie ein
negatives Ergebnis beschrieben:
I
Wenn A eintritt, was würde mit B passieren?
II
Wenn A nicht passiert, was würde mit B passieren?
III
Wenn A eintritt, was würde nicht mit B passieren?
IV
Wenn A nicht eintritt, was würde nicht mit B passieren?
An dieser Stelle soll das Vorgehen der Anwendung des Analyseinstruments modifiziert werden.
Die Frage - „Ist der Einsatz von Big-Data für ein Versicherungsunternehmen von Relevanz?“impliziert die Klassifizierung von Chancen (positivem Ergebnis) und Herausforderungen (negatives Ergebnis) für die Einführung und Nicht-Einführung von Big-Data. Daher sollen lediglich die
Fragen I und II betrachtet werden. Die folgenden Fragen ergeben sich daraus:
I
Wenn ein Versicherungsunternehmen eine Big-Data Lösung (A) einführt,
I a: welche Chancen (positives Ergebnis)
I b: und Herausforderungen (negatives Ergebnis)
ergeben sich für die Wertschöpfung (B)?
II
Wenn ein Versicherungsunternehmen keine Big-Data Lösung (A) einführt,
II a: welche Chancen (positives Ergebnis)
II b: und Herausforderungen (negatives Ergebnis)
ergeben sich für die Wertschöpfung (B)?
Auf Grund der hohen Anzahl an Argumenten wurde bewusst auf eine Visualisierung verzichtet.
Das Muster für eine Ursache-Wirkungs-Matrix wird an dieser Stelle somit nur in Kürze vorgestellt:
Die x-Ache wird mit der Ursache (A) - Einführung einer Big-Data-Lösung - gekennzeichnet, die yAchse stellt die Wirkung auf die Wertschöpfung (B) dar. Die Chancen (positive Ergebnisse) werden in den Quadranten I a und II a für eine Einführung sowie eine Nicht-Einführung eingeordnet.
Die Herausforderungen (negative Ergebnisse) können analog in den Quadranten I b und II b
dargestellt werden.
44
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Abbildung 6: Big-Data Ursache-Wirkung-Matrix (Quelle: eigene Darstellung in Anlehnung an Andler N. 2007, 406)
5.1.1
Chancen und Herausforderungen der Einführung einer Big-Data-Lösung einführen
Würde ein Versicherungsunternehmen eine Big-Data-Lösung einführen, …
I a: Chancen (Positives Ergebnis):

…so könnte ein Versicherungsunternehmen aktiv anstatt reaktiv auf Veränderungen in
der Branche reagieren (Time-to-Market),

…so könnte beispielsweise das Management die Nutzung von Daten für eine angemessenere Entscheidungsgrundlage nutzen,

…so könnte neues Innovationspotenzial erschlossen und neue Wertschöpfung gefordert werden,

…so könnten durch gezieltes Datenmanagement interne Prozesse optimiert und neue
Geschäftsprozesse erschlossen werden,

…so könnte die Beantwortung regulatorischer Anforderungen durch die gezielte Aufbereitung von erforderlichen Informationen erleichtert werden,

…so könnte die Funktion der Datenverarbeitung/IT eine tragende Rolle bei der Unterstützung der Unternehmensbereiche einnehmen und durch umfassendere Datenanalyse die Basis für eine übergreifende Entscheidungsbasis legen,

… so könnte analog zum Gesetz der großen Zahl insbesondere im Risikobereich Risiken bei der Antragsprüfung besser eingeschätzt und Schadensquoten reduziert werden,
45
Bachelor Thesis Corinna Ludwig © CORE 2016
73

… so könnten speziell im Bereich Produktentwicklung individuelle, innovative auf den
Kunden angepasste Produkte konzipiert werden,

…so könnte beispielsweise die Ausrichtung des Marketings und Vertriebs - auf Basis
von Datenanalysen - individuell auf die veränderten Kundenbedürfnisse und das Kundenverhalten ausgerichtet werden.
I b: Herausforderungen (Negatives Ergebnis):

…so könnte dies dazu führen, dass die Organisation die Einführung nicht tragen kann,
die für Big-Data notwendigen Entwicklungen der Flexibilisierung der Organisation (beispielsweise die Verzahnung der IT) zurückbleiben und so die Chancen durch Big-Data
nicht ausreichend genutzt werden können,

…so könnten Mitarbeiter nicht genügend qualifiziert sein, um Big-Data gewinnbringend
für die Organisation zu nutzen,

…so könnten regulatorische Anforderungen den Einsatz von Big-Data zum besseren
Verständnis des Kunden zukünftig einschränkt werden.
5.1.2
Chancen und Herausforderungen bei der Weiterarbeit ohne eine BigData-Lösung
II.
Würde ein Versicherungsunternehmen keine Big-Data-Lösung einführen, …
II a: Chancen (Positives Ergebnis):

…so könnten Aufwände für Qualifizierung der Mitarbeiter und Flexibilisierung der Organisation eingespart werden,

…so könnten Aufwände für die Erneuerung und Integration der Systemlandschaft und
für die Verzahnung der IT mit anderen Unternehmensbereichen reduziert werden,

…so könnten traditionelle Versicherungen den Markt weiterhin beobachten und erst reagieren, wenn absoluter Handlungsbedarf besteht.
II b: Herausforderungen (Negatives Ergebnis):

…so könnte ein Versicherungsunternehmen nur reaktiv auf Veränderungen in der Branche - wie beispielsweise die Fragmentierung der Wertschöpfungskette durch InsurTechs
- reagieren,

…so könnte die strategische Entscheidungsgrundlage für das Management wichtige
Sichten ausschließen,

…so könnte die Innovationsfähigkeit gefährdet sein,

…so könnte eine angedachte Prozessoptimierung zur Unterstützung der Wertschöpfungskette nur begrenzt möglich sein,

…so müssten möglicherweise hohe Aufwände für die Beantwortung regulatorischer Anforderungen durch die gezielte Aufbereitung von erforderlichen Informationen erbracht
werden,
46
Bachelor Thesis Corinna Ludwig © CORE 2016
73

…so könnte sich bei der Umsetzung einer Lösung zu einem späteren Zeitpunkt der Integrationsaufwand für neue Lösungen in die teilweise veraltete IT-Systemlandschaft erhöhen,

…so könnten die Risikoeinschätzung, Produktentwicklung, der Vertrieb und das Marketing nur hinreichend auf die individuellen Kundenbedürfnisse ausgerichtet werden,

5.1.3
…so könnte das Wechselverhalten von Kunden steigen.
Erkenntnisse und Folgerungen
Im diesem Kapitel wird dargelegt, inwiefern die Forschungsfrage mit dem vorgelegten Modell beantwortet werden kann. Grenzen im Rahmen dieser theoretischen Untersuchung werden aufgezeigt und Ansätze zu ihrer Überwindung in der Praxis vorgeschlagen.
In Kapitel 5.1 konnte die folgende Forschungsfrage beantwortet werden:
F1: Ist der Einsatz von Big-Data für ein Versicherungsunternehmen von Relevanz?
Für die Beantwortung der Forschungsfragen wurden Chancen sowie Herausforderungen bei der
Einführung sowie einer Weiterarbeit mit bisherigen Lösungen identifiziert. Bereits im Kapitel 2
„Theoretische Grundlagen: Versicherungen“ wurde die Wichtigkeit der Datenverarbeitung für die
Risikotransformation und die Herausforderungen durch den Eintritt neuer technologiebewusster
Wettbewerber am Markt sowie der wandelnden Bedürfnisse der heranwachsenden digitalen Generation etabliert. Diese Erkenntnisse sowie die im Kapitel 3.2. „Big Data Technologien“ beschriebenen Chancen durch Big-Data, wurden auf Basis des Analyseinstruments „Kartesisches Koordinatensystem“ aus Kapitel 4.1 strukturiert. Die Einordnung erfolgte entlang der Identifikation von
möglichen Chancen und Herausforderungen in Bezug auf die Wertschöpfung bei einer Einführung oder Nicht-Einführung einer Big-Data-Lösung. Es lässt sich feststellen, dass die umfassenden Chancen bei der Einführung einer Big-Data-Lösung die einhergehenden Herausforderungen
deutlich überwiegen. Gleichzeitig kann die Fortführung bestehender Modelle keine deutlichen
Vorteile generieren. Die Nutzung der Big-Data-Lösungen ist zu bevorzugen und ist somit von
Relevanz für Versicherungen.
An dieser Stelle sollen die Grenzen der theoretischen Betrachtung aufgezeigt werden. Das Aufzeigen der Ursache-Wirkungsbeziehung basierte auf einem Ausschnitt der insgesamt verfügbaren Informationen in der Literatur. Das hier verwendetet kartesische Koordinatensystem bietet die
Grundlage für eine Strukturierung der eigenen Gedanken zu einer Ursache-Wirkungs-Beziehung.
Die Argumente wurden nicht weiter quantifiziert. Sichtweisen wie Stärken- und Schwächen des
Unternehmens oder andere Wirkungsmechanismen wurden nicht betrachtet.
Für die Betrachtung von Indizien für die Relevanz von Big-Data für Versicherungen war das Tool
an dieser Stelle zweckdienlich. In der Praxis könnten zusätzlich messbare Kennzahlen und Expertenmeinungen herangezogen werden. Die Analyse sollte darüber hinaus quantifiziert werden
können.
47
Bachelor Thesis Corinna Ludwig © CORE 2016
73
5.2
Big-Data-Architekturentscheidung
Die Relevanz von Big-Data-Architekturen wurde im Kapitel 5.1 gezeigt. In der Folge soll ein Modell hergeleitet werden. Dieses Modell sieht eine Taxonomie für den Vergleich und eine Bewertungsmethode für die Bewertung von Architekturen zur Objektivierung der Entscheidungsfindung
vor.
Hierzu wird zunächst die Taxonomie beschrieben (Kapitel 5.2.1.). Die Taxonomie stellt ein Klassifikationsschema dar, um die Architekturen anhand von definierten Kriterien vergleichen zu können. Zu diesem Zweck werden die technischen Grundlagen unter Nutzung von objektivierbaren
Kriterien zusammengeführt. Diese Taxonomie dient dem generischen Vergleich unter Berücksichtigung allgemeingültiger Anforderungen an eine Big-Data-Lösung und ist unabhängig vom
konkreten Anwendungsfall. Im nächsten Schritt soll diese Taxonomie am Beispiel von den vorgestellten Referenzarchitekturen Lambda und Kappa erprobt werden (Kapitel 5.2.2.).
Im Folgenden wird die Bewertungsmethode anhand des Scoring-Modells aus dem Kapitel 4.2.
die konkrete Bewertung von Referenzarchitekturen hergeleitet (Kapitel 5.2.3.) und im nächsten
Schritt auf den Vergleich der Architekturen angewandt (Kapitel 5.2.4.). Anschließen sollen die
Erkenntnisse und Folgerungen zusammengefasst werden (Kapitel 5.2.5.). Ein konkreter Anwendungsfall in einer Versicherung wird hier nicht betrachtet. Diese Betrachtung wird im Entscheidungsprozess der zunächst generischen Betrachtung nachgelagert und bedarf der Kenntnis individueller Anforderungen.
Hier soll zunächst die Abgrenzung zu einer Architekturevaluationsmethode wie im Kapitel 3.1.
„Software-Architekturen“ beschrieben kurz skizziert werden. Die hier zu entwickelnde Taxonomie
für den Vergleich und die Bewertungsmethode für die Bewertung von Referenzarchitekturen ist
vorgelagert zu Architekturevaluationsmethoden. Hier werden Referenzarchitekturen im Big-DataKontext im Zuge einer ersten Bewertung vergleichbar gemacht. Diese Bewertung bildet den ersten Meilenstein für eine Architekturentscheidung. Daraufhin werden wie in der Abbildung 2 (Software-Architektur-Lebenszyklus) im Kapitel 3.1.1. beschrieben, Anforderungen und Einflussfaktoren, Szenarien und Risiken weiter individuell für das Unternehmen und den Anwendungsfall spezifiziert, um dann die Architektur zu dokumentieren. Der Entwurf kann dann durch bestehende
Architekturevaluationsmethoden - wie beispielsweise ATAM - geprüft werden, um letztendlich
eine Software-Architektur umsetzen zu können.
5.2.1
Klassifikation und Herleitung der Kriterien für die Taxonomie
Im Kapitel 5.1. wurde die Relevanz von Big-Data bei Versicherungen quantifiziert. Im weiteren
Entscheidungsfindungsprozess ist die Objektivierung der Architekturentscheidung für eine BigData-Lösung der nächste Schritt, um für die Stakeholder die weitere Architekturevaluation vorzubereiten. Hierzu wird eine Taxonomie entwickelt. Diese dient als Klassifikationsschema für BigData-Architekturstile. Zunächst werden Kriterien hergeleitet, diese werden klassifiziert, zusammengefasst zu Obergruppen, um dann die wesentlichen Fragen für den Vergleich abzuleiten.
48
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Für die Taxonomiebeschreibung werden acht Kriterien entwickelt und detailliert:

Kriterium 1: Kurzbeschreibung,

Kriterium 2: Hauptziel,

Kriterium 3: Annahmen,

Kriterium 4: Paradigmen,

Kriterium 5. Anforderungen,

Kriterium 6: Risiken,

Kriterium 7: Reifegrad und

Kriterium 8: Referenzen.
Die Kriterien 1-4 sind indikativer Natur, Kriterien 6-8 können objektiviert werden. Zur Ausgestaltung der vorgeschlagenen Kriterien werden in der Folge Subkriterien abgebildet, die beim späteren Architekturvergleich zu überprüfen sind. Es wird jeweils auf die theoretischen Grundlagen
hingewiesen, falls diese als Grundlage für die Beschreibung des Kriteriums gedient haben.
Kriterium 1: Kurzbeschreibung
Kriterium
Name
Beschreibung
Kurzbeschreibung
Die Grundzüge der Architektur sollen in 4-5 Sätzen beschrieben werden.
Subkriterium
-
-
Tabelle 3: Kriterium Kurzbeschreibung (eigene Darstellung)
Kriterium 2: Hauptziel
Kriterium
Name
Beschreibung
Hauptziel
Referenzarchitekturen können für verschiedene Zielsetzungen konzipiert werden. Keine Architektur kann alle Ziele
gleichermaßen erfüllen. Hier wird das Hauptziel identifiziert.
Subkriterium
-
-
Tabelle 4: Kriterium Hauptziel (eigene Darstellung)
49
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Kriterium 3: Annahmen
Kriterium
Name
Beschreibung
Annahmen
Für die Konzeption einer Referenzarchitektur werden bestimmte Grundannahmen getroffen. Diese sollen hier beschrieben.
Subkriterium
-
-
Tabelle 5: Kriterium Annahmen (eigene Darstellung)
Dieses Kriterium basiert auf den skizzierten theoretischen Grundlagen über „Schichten und Bausteine einer Big-Data-Lösung“ im Kapitel 3.2.7. Die einzelnen Schichten werden hier als Paradigmen geführt, da sie Grundsatzentscheidungen für die Architektur darstellen.
Kriterium 4: Paradigmen
Kriterium
Name
Beschreibung
Paradigmen
Einer Referenzarchitektur werden verschiedene Paradigmen zu Grunde gelegt. Diese sollen an dieser
Stelle identifiziert werden, um beispielsweise zu einem späteren Zeitpunkt des Entscheidungsfindungsprozesses die zielgerichtete Technologieauswahl treffen zu können.
Subkriterium
Datenzugriff (Prozes- An dieser Stelle soll der in der Architektur verwendete
sierung)
Baustein für den Datenzugriff, dem Lesen von Informationen, identifiziert werden. Die Bausteine sind die
folgenden: Batch Processing, Streaming Processing,
Search und Discovery sowie Querys.
Datenhaltung
Mit der Abfrage dieses Subkriteriums soll die Speicherung der Daten beschrieben werden. Der zugehörige
Baustein wird benannt. Die Bausteine sind die folgenden: Distributed File System, No-SQL-Datenbanken,
Relationale Datenbanken und In-Memory-Datenbanken.
Analytische Verarbei- Welcher Baustein für die analytische Verarbeitung
tung
und somit für die Gewinnung von Erkenntnissen aus
der Datenanalyse verwendet wird, soll an dieser
Stelle identifiziert werden. Die folgenden Bausteine
zählen zur analytischen Verarbeitung: Audio/Video,
Geospatial, Data Mining, Predictive, Web, Machine
Learning, Test/Semantic und Reporting.
50
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Datenintegration
An dieser Stelle werden die Bausteine für die Datenintegration, dem Zusammenführen von Informationen,
aufgezählt. Die Bausteine sind die folgenden: DatenKonnektivität und Daten-Ingestion (ELT, ETL).
Tabelle 6: Kriterium Paradigmen (eigene Darstellung)
An dieser Stelle sollen die Bausteine für die einzelnen Paradigmen näher skizziert sowie
das jeweilige Merkmal beschrieben werden. Der jeweilige Zweck, für den der Baustein
optimiert worden ist, wird klassifiziert.
Datenzugriff
Name (des Bausteins)
Erläuterung
Batch Processing
Merkmal: Stapelverarbeitung
(MapReduce)
Optimiert für: Parallele Verarbeitung von Daten
Beschreibung: Die Verarbeitung der Daten in einer Eingabedatei
erfolgt automatisch, sequentiell und vollständig ohne Eingriffe des
Benutzers (BITKOM 2014, 25). Die eingehenden Daten werden sequentiell verarbeitet, neu eingehende Daten können parallel verwertet werden. MapReduce ist ein im Umfeld von Hadoop geprägter
Begriff und beschreibt die Verteilung der Eingabedateien in einer
Phase „Map“ und die Aggregation zu einem Ergebnis in der Phase
„Reduce“. Die Vorgänge in den jeweiligen Phasen laufen nach dem
Batch-Prinzip. (BITKOM 2014, 49).
Streaming Processing
Merkmal: Echtzeitverarbeitung
and CEP
Optimiert für: Streaming wird unter anderem im Complex Event
Processing genutzt, um Echtzeit Ereignisse zu verarbeiten und zu
analysieren.
Beschreibung: Hier wird Data in Motion (Datenstrom) kontinuierlich verarbeitet bei gleichzeitiger kontinuierlicher Bereitstellung von
Ergebnisdaten. (BITKOM 2014, 25).
Search und Discovery
Merkmal: Verarbeitung unstrukturierter Daten
Optimiert für: Erfassung von Zusammenhängen von unstrukturierten Daten.
Beschreibung: Informationen sollen in unstrukturierten Daten gesucht und entdeckt werden, zudem werden verwandte Antworten
ermittelt, um Zusammenhänge herzustellen. Algorithmen führen
Matching von Textbausteinen durch und Indizes helfen bei der Suche. (BITKOM 2014, 25)
51
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Datenhaltungsschicht
Name (des Bausteins)
Erläuterung
Distributed File System Merkmal: Verteilte Datenspeicherung (NIST 2015, 14)
Optimiert für: Serielle Verarbeitung von großen Datenmengen
Beschreibung: Das Konzept eines solchen Distributed File System, oder auch verteiltes Dateisystem genannt, beschreibt die Verteilung von Datensätzen innerhalb eines Netzwerks (engl. Nodes)
von Clustern und erlaubt so Datenspeicherung auf mehreren Fileservern. (NIST 2015, 14). Des Weiteren ist die verteilte Datenspeicherung durch hohe Verfügbarkeit gekennzeichnet und erfüllt die
Anforderungen von Skalierbarkeit und Reliabilität durch Replikation
(BITKOM 2014, 26)
No-SQL Datenbanken
Merkmal: Datenspeicherung mit flexiblen Schemata. (BITKOM
2014,26)
Optimiert für: Speicherung von unstrukturierten und vernetzten
Daten, beispielsweise für Anwendungsszenarien wie Social Media
oder Predictive Analytics (BITKOM 2014, 26).
Beschreibung: NoSQL steht für Not-Only SQL und beschreibt die
Ergänzung von relationalen Modellen durch die Verwendung von
flexiblen Schemata. Der Begriff ist nicht klar in der Literatur definiert. Es zählen hierzu alle Datenbanken, die nicht hundert Prozent
einer relationalen Datenbank zuzuordnen sind, relationale Beziehungen können durch Indizes dennoch nachgebildet werden. Daten
können im Format von Dokumenten, Graphen, Key-Value-Paaren
oder Spalten gespeichert werden. (BITKOM 2014, 26)
Relationale Datenban-
Merkmal: Datenspeicherung mit festen Schemata (NIST 2015, 12)
ken
Optimiert für: Speicherung von strukturierten Daten in feste Schemata (NIST 2015, 12). Eine Klasse der relationalen Datenbanken,
die analytischen Datenbanken, sind für das Einsatzszenario OLAP
optimiert. Transaktionale Datenbanken wiederum für OLTP.
Beschreibung: Relationale Datenbanken basieren auf einem tabellenbasierten relationalen Datenbankmodell und sind nicht neu, sie
werden in Big-Data-Lösungen oftmals zusammen mit No-SQL Datenbanken oder Distributed File Systems eingesetzt.
52
Bachelor Thesis Corinna Ludwig © CORE 2016
73
In-Memory-
Merkmal: Speicherung der Daten im Hauptspeicher (BITKOM
Datenbank
2014, 47)
Optimiert für: Schneller Zugriff auf Informationen in Echtzeit, die
nicht persistiert werden müssen. Einsatzbeispiele bestehen im Bereich Predictive Modeling und Echtzeit-Daten-Zugriff (BITKOM
2014, 47).
Beschreibung: Daten bis zu mehreren Terabyte werden in dem
Hauptspeicher (RAM/Memory) von Plattenspeichern verlagert. InMemory- Datenbanken sind mit dem Fall von Speicherkosten interessant geworden, sie werden oft zusammen mit anderen Datenbanken eingesetzt, da die Speicherkapazitäten begrenzt sind. (BITKOM 2014, 47)
Analytische Verarbeitung
Name des Bausteins
Audio/Video Mining
Erläuterung
Merkmal: Textanalyse
Optimiert für: Analyse multimedialer Inhalte über Konvertierung in
Textdateien
Beschreibung: Die Text-Informationen von multimedialen Inhalten
werden zunächst extrahiert mit Hilfe von Transkriptios-Algorithmen,
dann werden linguistische und semantische Verfahren genutzt, um
Zusammenhänge herstellen zu können (BITKOM 2014, 61).
Geospatial Analytics
Merkmal: Statistische und mathematische Analyse
Optimiert für: Analyse geografischer oder räumlicher Daten
Beschreibung: Unter der Hilfenahme von Global Positioning System (GPS)- Koordinaten werden geografische und Daten mit statistischen und mathematischen Verfahren analysiert.
Data Mining
Merkmal: Statistische Analyse
Optimiert für: Analyse von großen strukturierten Datenmengen.
Beschreibung: Statistische Methoden werden auf große Datenbestände angewandt, um möglichst automatisch empirische Zusammenhänge zu extrahieren. Der Begriff Data Mining umfasst verschiedene Methoden und Verfahren. Ein Teilgebiet ist Predictive
Analytics für die Vorhersage von Trends und zukünftigen Geschäftsrisiken. Predictive Analytics erfolgt in drei Schritten: Descriptive (Beschreiben), Predictive (Vorhersagen) und Prescriptive
(Empfehlen) (BITKOM 2014, 61).
Web Analytics
Merkmal: Logdateianalyse.
Optimiert für: Analysen von Web-Inhalten
53
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Beschreibung: Im Zuge von Web Analytics werden die Daten gemessen, erfasst, analysiert und reported die für die Webpräsenz zu
optimieren sind (BITKOM 2014, 57).
Machine Learning
Merkmal: Maschineller iterativer Lernprozess durch statistische
und logische Analysen und Algorithmen
Optimiert für: Problemlösung zentraler Fragestellungen beispielsweise bei komplexen Planungsaufgaben
Beschreibung: Computerprogramme erwerben über einen maschinellen iterativen Prozess im Zuge von statistischen, logischen Analysen und Algorithmen neues Wissen, um Lösungen für Problemstellungen zu finden. Im Nachhinein wird die Aufbereitung der Informationen für die Analyse historischer Daten verwendet oder werden
als Grundlage für automatische Prozesse genutzt. (BITKOM 2014,
66)
Text Mining
Merkmal: Linguistische und semantische Analysen
Optimiert für: Textanalyse von unstrukturierten Daten
Beschreibung: Extraktion von Informationen, Strukturen sowie
Verknüpfungen aus unstrukturierten Datenströmen und Texten mit
Hilfe von linguistischen und semantischen Verfahren (BITKOM
2014, 58).
Reporting
Merkmal: Analytische Aufbereitung
Optimiert für: Zusammenfassung von strukturierten Daten zur visuellen Bereitstellung
Beschreibung: Detailberichte von strukturierten Daten in Form von
Tabellen und grafischen Elementen werden bereitgestellt. Diese
Detailberichte für die Visualisierungssicht verfügbar gemacht- beispielsweise auf einem Dashboard. (BITKOM 2014, 26)
Daten-Integration
Name (des Bausteins)
Erläuterung
Datenkonnektoren
Merkmal: Integration von verschiedenen Datenquellen und Bereitstellung der Daten (BITKOM 2014, 26)
Optimiert für: Strukturierte Daten aus existierenden Anwendungen, beispielsweise ERP, CRM (BITKOM 2014, 89)
Beschreibung: Die Zugänglichkeit der Daten aus verschiedenen
System wird durch Schnittstellen (=Konnektoren) gewährleistet, beispielsweise durch Datenbanken, Anwendungen oder Middleware.
Daten werden über Standardschnittstellen, beispielsweise XML,
JMS Messaging Middleware, SQL, bereitgestellt. (BITKOM 2014,
26)
54
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Daten-Ingestion
Merkmal: Umwandlung von Daten aus verschiedenen Quellen
Optimiert für: Daten mit unterschiedlichen Eingangsformaten
Beschreibung: Bei der Ingestion (Aufnahme) sollen Daten aus verschiedenen Quellen importiert werden können (BITKOM 2014, 27).
Im traditionellen relationalen Modell werden die Daten nach der
Preparationsphase gespeichert und nach dem „Schema-On-WriteKonzept“ verwertet. Das bedeutet: Zunächst erfolgt der Datenimport
aus verschiedensten Quellen in eine Big-Data-Lösung, auch Ingestion (Aufnahme) genannt. Die Umwandlung der Daten erfolgt in drei
Schritten: Extract, Transform, Load (ETL). Diese drei Schritte bezeichnen den „Prozess der Aufbereitung von Rohdaten für die
nachgelagerte Speicherung dieser Daten in einer analytischen Datenbank. Rohdaten werden normalisiert und validiert“ sowie mit einem Datenbank-Schema versehen. So können die Daten in eine relationale Datenbankstruktur übertragen werden (BITKOM 2014, 27).
Im Fall eines Big-Data Use-Case werden die Daten vor der Preparationsphase in ihrem rohen Zustand gespeichert. Die Prozessschritte werden umgekehrt: Extract, Load, Transform (ELT). Rohdaten werden ohne Struktur in das Speichermedium hochgeladen,
zum Analysezeitpunkt werden sie transformiert. (BITKOM 2014, 27)
Dieses Big-Data Konzept wird als „Schema-On-Read“ bezeichnet
(NIST 2015, 6). Daten werden hochgeladen und erst dann gelesen.
Die Datenstruktur bzw. das Datenschema wird in dem Moment interpretiert, in dem es gelesen wird. (Kerr R. 2013)
Tabelle 7: Subkriterium Paradigmen
Die Klassifizierung der einzelnen Anforderungen sollen an dieser Stelle basierend auf der Theorie
„Klassifizierung der Daten für ein Datenmodell“, „Big-Data-Ökosystem: Das 5-V-Modell“ und „BigData-Referenzarchitekturen“ aus dem Kapitel 3.2.4. erfolgen.
Kriterium 5: Anforderungen
Kriterium
Name
Beschreibung
Anforderungen
An dieser Stelle sollen die durch die Referenzarchitektur adressierten Anforderungen identifiziert werden.
Subkriterium
Datenmodell-Anforde- Unter dem Punkt Datenmodell-Anforderungen wird
rungen
geprüft, ob bestimmte Eigenschaften der Daten innerhalb des Datenmodells der Architektur Berück-
55
Bachelor Thesis Corinna Ludwig © CORE 2016
73
sichtigung gefunden haben. Daten sollen im Rohzustand vorliegen, unveränderlich und „eternally true“
sein.
High-Level-
In diesem Zusammenhang soll geprüft werden, wel-
Big-Data-
che der Big-Data-Charakteristika erfüllt werden. Die
Anforderungen
Charakteristika sind Volume, Velocity, Variety und
Veracity.
Systemeigenschaften
An dieser Stelle sollen die Eigenschaften an verteilte
Systeme geprüft werden: Konsistenz (C), Verfügbarkeit (A), Partitionstoleranz (P)
Qualitätsmerkmale
Mit Hilfe des Kriteriums Qualitätsmerkmale werden
hier diejenigen Anforderungen geprüft, die eine BigData-Lösung erfüllen sollte: Robustheit, Niedrige Latenzzeiten, Skalierbarkeit, Generalisierung, Erweiterbarkeit, Ad hoc Queries, Minimale Wartbarkeit und
Debug-Möglichkeiten.
Tabelle 8: Kriterium Anforderungen (eigene Darstellung)
Die Detaillierung der Subkriterien erfolgt in der nachfolgenden Tabelle:
Datenmodell-Anforderungen
Name (des Bausteins)
Erläuterung
Daten sollen im Rohzustand Daten werden möglichst unbearbeitet gespeichert, das heißt,
vorliegen
sie liegen unter anderem unstrukturiert vor. So wird gewährleistet, dass Erkenntnisse aus historischen Daten auch zu einem späteren Zeitpunkt extrahiert werden können.(Marz N. &
Warren J. 2015, 36)
Daten sollen unveränderlich Daten werden persistiert und der Wert bleibt beim Hinzufügen
sein
neuer Werte erhalten. Neue Werte erzeugen eine neue Datenstruktur. Daten werden nicht aktualisiert oder gelöscht, nur
hinzugefügt. (Marz N. & Warren J. 2015, 36)
Daten sollen „eternally true“ Diese Anforderung steht in Abhängigkeit mit Unveränderlichsein
keit. Daten werden mit einem Zeitstempel versehen und sind
ab dann auf Dauer gültig - „eternally true“. (Marz N. & Warren
J. 2015, 36)
High-Level-Big-Data-Anforderungen
Name (des Bausteins)
Erläuterung
Volume
Große Datenmengen im Terabyte, Petabyte Bereich sollen verarbeitet werden können (Khaki S. 2016).
56
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Velocity
Echtzeit-Verarbeitung von großen Datenströmen sollte möglich sein (Dorschel J. 2015, 264).
Variety
Verschiedene Datenformate und Datenquellen werden unterstützt (Dorschel J. 2015, 264).
Veracity
Metadatenintegration für unterschiedliche Datenquellen wird
ermöglicht und Datenqualität gewährleistet (Dorschel J. 2015,
264).
Systemeigenschaften
Name (des Bausteins)
Erläuterung
Konsistenz (C)
Konsistenz (C) bedeutet, dass es immer nur eine Single UpTo-Date Kopie von Daten gibt, Replikate sind identisch (Brewer E. 2012, 1).
Verfügbarkeit (A)
Verfügbarkeit (A) beschreibt das Maß, dass Anfragen an das
System in einem bestimmten Zeitraum beantwortet werden
können (Brewer E. 2012, 1).
Partitionztoleranz (P)
Partitionstoleranz (P) beschreibt die Ausfalltoleranz eines Systems, bei Verlust einer Partition des Netzes arbeitet das System weiter (Brewer E. 2012, 1).
Konsistenz (C)
Konsistenz (C) bedeutet, dass es immer nur eine Single UpTo-Date Kopie von Daten gibt, Replikate sind identisch (Brewer E. 2012, 1).
Qualitätsmerkmale
Name (des Bausteins)
Erläuterung
Robustheit
Hier wird die Zuverlässigkeit des Systems beschrieben. Wenn
bei einem verteilten System ein System ausfällt, soll das Gesamtsystem korrekt weiterarbeiten können. Komplexitäten
sollten vermieden werden (Marz N. & Warren J. 2015, 7).
Fehlertoleranz
Systemtoleranz gegenüber menschlichen Fehlern ist gegeben.
Neuberechnungen sollten möglich sein. Die Rohdaten bleiben
unveränderlich (Marz N. & Warren J. 2015, 7).
Niedrige Latenzzeit
Die benötigte Zeit für Lese-Vorgänge sollte zwischen wenigen
Millisekunden und einiger hundert Millisekunden liegen. Die
Latenzzeiten für Updates müssen wenn benötigt gering gehalten werden können (Marz N. & Warren J. 2015, 7).
Skalierbarkeit
Skalierbarkeit beschreibt die Eigenschaft eines Systems, den
steigenden Ansprüchen an Leistungsfähigkeit gerecht werden
zu können (NIST 2015, 10). Bei steigenden Datenmengen
können beispielweise Ressourcen hinzugefügt werden, um die
nötige Effizienz gewährleisten zu können (Marz N. & Warren
J. 2015, 7).
57
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Es sollte die Möglichkeit bestehen, eine Ergänzung von Funk-
Erweiterbarkeit
tionalitäten mit minimalen Aufwand zu einem System vornehmen zu können (Marz N. & Warren J. 2015, 7).
Das System sollte verschiedene Applikationen unterstützen
Generalisierung
können (Marz N. & Warren J. 2015, 7).
Das System bietet dem Benutzer die Möglichkeit, Inhalt und
Ad hoc Queries
Aussehen der Auswertungen für einen bestimmten Zweck
auswählen zu können (Marz N. & Warren J. 2015, 9).
Minimale Wartbarkeit
Wartbarkeit beschreibt das Maß an Aufwand, der verwendet
werden muss, damit ein System reibungslos funktioniert.
Minimaler Wartungsaufwand wird durch Reduktion der Komplexität für die Implementation erzielt (Marz N. & Warren J.
2015, 9).
Debug-Möglichkeiten
Die Nachvollziehbarkeit von Daten für das Debugging bei
Fehlläufen gegeben sein (Marz N. & Warren J. 2015, 9).
Tabelle 9: Subkriterium Anforderungen (eigene Darstellung)
Kriterium 6: Risiken
Kriterium
Name
Beschreibung
Risiken
An dieser Stelle sollen die Risiken im Zuge des Einsatzes eines Systems identifiziert werden. Bei der
Entscheidung für ein System werden Abwägungen
getroffen, nicht alle Anforderungen werden erfüllt.
Subkriterium
Sensitivitätsprunkte
Sensitivitätspunkte (engl. sensitivity points) sind Eigenschaften von Softwareelementen, die kritisch sind
für die Erreichung eines Qualitätsmerkmals (Malich
S. 2008, 85).
Abwägungspunkte
Abwägungspunkte (engl. tradeoff points) hingegen
sind Eigenschaften, die kritisch sind für die Erreichung mehrere Qualitätsmerkmale (Malich S. 2008,
85).
Tabelle 10: Kriterium Risiken
Kriterium 7: Reifegrad
Kriterium
Name
Beschreibung
Reifegrad
In diesem Kriterium soll der Reifegrad der Referenzarchitektur festgestellt werden.
58
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Subkriterium
Ingestions-Phase
Die Referenzarchitektur wurde in Internetquellen beispielsweise Videos, Blogs - beschrieben und noch
nicht praktisch erprobt.
Entwicklungsphase
Die Referenzarchitektur wurde in Internetquellen beispielsweise Videos, Blogs - beschrieben und
wurde bereits praktisch erprobt.
Differenzierungsphase Die Referenzarchitektur wurde in der Literatur beschrieben und Verbesserungen auf Basis von praktischen Erfahrungen wurden vorgenommen.
Ruhe-Phase
Referenzarchitekturen auf Basis von neuen Erkenntnissen wurden designed und stellen lösen das aktuelle Architekturmuster ab.
Tabelle 11: Kriterium Reifegrad
Kriterium 8: Referenzen
Kriterium
Name
Beschreibung
Referenzen
An dieser Stelle werden namenhafte Referenzen
identifiziert.
Tabelle 12: Kriterium Referenzen (eigene Darstellung)
Taxonomie zur Klassifikation und Vergleich von Big-Data-Architekturen
An dieser Stelle sollen die genannten Kriterien noch einmal als Gesamtübersicht dargestellt
werden.
Kriterium
Beschreibung
Kriterium 1: Kurzbe- Die Grundzüge der Architektur soll in 4-5 Sätzen beschrieben werden
schreibung
Kriterium 2: Haupt-
Referenzarchitekturen können für verschiedene Zielsetzungen konzi-
ziel
piert werden. Keine Architektur kann alle Ziele gleichermaßen erfüllen.
Hier soll das Hauptziel identifiziert werden.
Kriterium 3: Annah- Für die Konzeption einer Referenzarchitektur werden bestimmte
men
Grundannahmen getroffen. Diese sollen hier identifiziert werden.
Kriterium 4: Para-
Einer Referenzarchitektur werden verschiedene Paradigmen zu
digmen
Grunde gelegt. Diese sollen an dieser Stelle identifiziert werden, um
beispielsweise zu einem späteren Zeitpunkt des Entscheidungsfindungsprozess die zielgerichtete Technologieauswahl treffen zu können.
Kriterium 5. Anfor-
An dieser Stelle sollen die durch die Referenzarchitektur adressierten
derungen
Anforderungen identifiziert werden.
59
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Kriterium 6:
Hier sollen die Risiken im Zuge des Einsatzes eines Systems identifi-
Risiken
ziert werden. Bei der Entscheidung für ein System werden verschiedene Abwägungen getroffen, es können nicht alle Anforderungen
gleichermaßen erfüllt werden.
Kriterium 7: Reife-
In diesem Kriterium soll der Reifegrad der Referenzarchitektur festge-
grad
stellt werden.
Kriterium 8: Refe-
An dieser Stelle sollen namenhafte Referenzen identifiziert werden.
renzen
Tabelle 13: Taxonomie (eigene Darstellung)
5.2.2
Anwendung der Taxonomie am Beispiel des Vergleichs von Lambdaund Kappa-Architektur
Unter Anwendung der entwickelten Taxonomie werden nun die beiden Referenz-Architekturen
tabellarisch verglichen. Als Grundlage dient die im Kapitel 3.2.8. „Big-Data-Referenzarchitekturen“ beschriebene Theorie. Wie bereits in dem besagten Kapitel beschrieben, ist Nathan Marz
der Mitentwickler der Lambda-Architektur und Jay Kreps der Entwickler der Kappa-Architektur.
Aus diesem Grund stammen alle weiteren benötigten Informationen für die Prüfung der einzelnen
Kriterien aus der Literatur von Nathan Marz („Big-Data- Principles and best practices of scalable
real-time data systems) und dem Blog von Jay Kreps („Questioning the Lambda Architecture“).
Kriterium
Lambda-Architektur
Kappa-Architektur
Kurzbeschreibung
Die Lambda-Architektur ist ein Archi-
Die Kappa-Architektur ist ein
tekturstil, der aus den Schichten -
Architekturstil, der aus den
Batch, Speed und Serving - besteht
Schichten - Speed und Ser-
und die Anforderungen von Big-Data
ving - besteht und die Anfor-
adressiert (Marcous D. 2015).
derungen von Big-Data
adressiert (Marcous D.
2015).
Hauptziel
Das Hauptziel des Architekturstils ist
Das Hauptziel ist die Verbes-
die Konzeption eines Big-Data-Sys-
serung des Speed-Layers der
tems basierend auf verschiedenen
Lambda-Architektur, um so-
Schichten, die unterschiedliche Funk- mit auf den Batch-Layer vertionen erfüllen und die mit der besten
zichten zu können. Die Busi-
Technologie bestückt werden. Daten
ness Logik muss nur einmal
sind unveränderlich. Echtzeit- und his- implementiert werden.
torische Daten können prozessiert
Schnelle Verarbeitung und
werden. Jeder Prozess kann wieder-
Gewährleistung der Unverän-
holt und alle Daten können abgefragt
derlichkeit von Daten sollen
werden. (Marcous D. 2015).
ein Log vorhalten, ein System
60
Bachelor Thesis Corinna Ludwig © CORE 2016
73
das dem Speed-Layer vorgeschaltet wird. Eine erneute
Verarbeitung findet hier nur
statt, wenn der Code für die
Verarbeitung sich ändert.
Diese erneute Verarbeitung
wird parallel durch eine neue
Instanz durchgeführt. (Kreps
J. 2014)
Annahmen
1. Es gibt keine technische Kompo-
1. Echt-Zeit-Verarbeitung ist
nente, die eine Gesamtlösung bietet
akkurat (Kreps J. 2014)..
(Marz N. & Warren J. 2015, 14).
2. Echt-Zeit-Verarbeitung liefert Ap-
2. Wiederaufbereitung der
proximationen, ist weniger leistungs-
Daten ist nur bei Code-Ände-
fähig und verlustanfälliger als eine
rungen notwendig (Kreps J.
Batch-Lösung (Kreps J. 2014).
2014).
Die folgenden Schichten sind für den
Die folgenden Schichten sind
Datenzugriff vorgesehen
für den Datenzugriff vorgese-
Paradigmen
Datenzugriff
1. Batch Layer: Batch Processing und hen:
Reprozessierungsmöglichkeiten,
1. Stream Layer: Streaming
2. Stream Layer: Streaming Pro-
Processing,
cessing,
2. Query.
3. Query (Marz N. & Warren J. 2015). Die Verarbeitung erfolgt einmalig (=Exactly-Once-Processing). Reprozessierung
erfolgt nur bei Veränderung
des Codes (Kreps J. 2014).
Datenhaltung
Analytische Verarbei-
Serving Layer: beispielsweise Relatio- Serving Layer: beispielsweise
nale Datenbank oder In-Memory-Da-
Distributed File System oder
tenbank,
In-Memory Datenbank und
Batch Layer: Distributed File System
der
und der
Speed Layer: NoSQL Daten-
Speed Layer: NoSQL Datenbank
bank
(Marz N. & Warren J. 2015).
(Kreps J. 2014).
Keine Aussage von Marz
Keine Aussage von Kreps
tung
61
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Datenintegration
Daten-Konnektoren: Queues und
Daten-Konnektoren und Da-
Messaging,
ten-Ingestion: Messaging
Daten-Ingestion: Marz trifft hierzu
(Kreps J. 2014).
keine Aussage. (Marz N. & Warren J.
2015, 225)
Anforderungen
Datenmodell-Anforderungen
Daten sollen im Rohzu- Daten werden unstrukturiert gespeistand vorliegen
Der Log enthält alle Events,
chert (Marz N. & Warren J. 2015, 20). Daten werden im Rohzustand
abgebildet und können jederzeit abgerufen werden.
(Kreps J. 2013)
Daten sollen unverän-
Daten werden nicht verändert, son-
Bei einem Log werden die
derlich sein
dern Datensätze werden gekenn-
Daten nicht verändert; Trans-
zeichnet und mit einem Timestamp
aktionen werden v mit einem
hinzugefügt (Marz N. & Warren J.
neuen Timestamp festgehal-
2015, 20).
ten. Informationen sind jederzeit nachvollziehbar. (Kreps
J. 2013)
Daten sollen „eternally
Da Daten bis auf den Löschvorgang
Daten sind unveränderlich
true“ sein
nicht verändert werden können, sind
und damit „eternally true“
sie „eternally true“ (Marz N. & Warren Kreps J. 2013).
J. 2015, 20).
High-Level-Big-Data-Anforderungen
Volume
Die Anforderung an das Handling von Die Verarbeitung von großen
großen Datenmengen wird durch
Datenmengen wird durch Pa-
Batch-Processing erfüllt (Marcous D.
rallelisierung im Speed Layer
2015).
gewährleistet. (Kreps J.
2013)
Velocity
Stream-Processing gewährleistet Ver- Stream-Processing gewährarbeitung in Echtzeit
leistet Verarbeitung in Echt-
(Marcous D. 2015).
zeit
(Marcous D. 2015).
Variety
Verschiedene Datenformate werden
Verschiedene Datenformate
durch NoSQL Datenbanken im
werden durch NoSQL Daten-
Speed-Layer verarbeitet (Marcous D.
banken im Speed-Layer ver-
2015).
arbeitet und vorher im Log
gespeichert (Kreps J. 2013).
62
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Veracity
Daten werden im Rohzustand gespei- Daten werden im Rohzustand
chert und bleiben unverändert; die
gespeichert und bleiben un-
Anforderung an Veracity wird somit
verändert; die Anforderung
erfüllt
an Veracity wird somit erfüllt
(Marcous D. 2015).
(Marcous D. 2015).
Systemeigenschaften
Konsistenz (C)
Da zwei Business-Logiken implemen- Bei Ausfällen oder Fehlern in
tiert und asynchron prozessiert wer-
der Prozessierung, kann
den, ist Konsistenz nicht gegeben
keine Konsistenz der Daten
(Kreps J. 2014).
zwischen Log und ServingLayer gewährleistet werden
(Kreps J. 2014).
Verfügbarkeit (A)
Verfügbarkeit wird durch den Speed-
Verfügbarkeit wird durch den
Layer gewährleistet (Marz N. & War-
Speed-Layer gewährleistet
ren J. 2015, 212).
(Marz N. & Warren J. 2015,
212).
Partitionztoleranz (P)
Das Distributed File System des
Die Verarbeitung kann auch
Batch Layers erfüllt die Anforderun-
in partitionierten Zustand un-
gen an Partitionstoleranz (Marz N. &
ter Berücksichtigung der
Warren J. 2015, 212).
Exactly-Once-ProcessingGarantie erfolgen (Kreps J.
2014).
Qualitätsmerkmale
Robustheit
Wird durch den Batch-Layer und Ser-
Der Server Layer verwendet
ver-Layer erfüllt.
Replikationen als Instrument,
Das Distributed File System des
um Verfügbarkeit der Daten
Batch Layers fängt Systemausfälle
bei Systemausfall zu gewähr-
ab.
leisten. (Marz N. & Warren J.
Server Layer benutzt Replikationen,
2015, 177).
um Verfügbarkeit der Daten bei Systemausfall zu gewährleisten (Marz N.
& Warren J. 2015, 177).
Fehlertoleranz
Das System lässt eine hohe Fehlerto- Das System lässt eine hohe
leranz zu.
Fehlertoleranz zu.
Durch Menschen verursachte Fehler
Die Wiederherstellbarkeit der
werden durch die kontinuierliche Wie- verarbeiteten Daten wird
derherstellung der aggregierten Daten durch die Dokumentation der
in Batch-Sichten im Serving Layer im
Informationen über die zu
Zuge des Rückgriffs auf das Master
verwertenden Daten in einem
Data Set korrigiert. Die Daten sind un- Log sichergestellt. Hier werveränderlich, nur die Ergebnisse
den alle Transaktionen mit
63
Bachelor Thesis Corinna Ludwig © CORE 2016
73
durch den Algorithmus können ver-
Zeitstempel festgehal-
worfen werden.(Marz N. & Warren J.
ten.(Kreps J. 2013)
2015, 20)
Niedrige Latenzzeit
Der Batch Layer hat eine hohe Latenzzeit, Berechnungen können mehrere Stunden dauern.
Der Speed Layer hat eine niedrige La- Der Speed Layer hat eine
Skalierbarkeit
tenzzeit. (Marz N. & Warren J. 2015,
niedrige Latenzzeit.(Kreps J.
20).
2014)
Serving, Speed und Batch-Layer sind
Serving und Speed-Layer
verteilte Systeme, horizontale Skalier- sind verteilte Systeme, horibarkeit wird gewährleistet (Marz N. &
zontale Skalierbarkeit wird
Warren J. 2015, 20).
gewährleistet (Marz N. &
Warren J. 2015, 20).
Erweiterbarkeit
Neue Daten und Funktionen können
Anders als bei der Lambda-
der Berechnung des Master Datasets
Architektur die jetzigen Sich-
im Batch Layer hinzugefügt werden,
ten mit den Masterdaten zu
durch Re-Prozessierung werden neue überschreiben, wird für die
Sichten im Serving Layer er-
erneute Verarbeitung bei der
zeugt.(Marz N. & Warren J. 2015, 17). Architektur eine neue Instanz
innerhalb des Speed-Layers
gestartet. Erweiterbarkeit ist
also möglich. (Kreps J. 2014)
Generalisierung
Die Anforderung der Generalisierung
Der Zeitstempel der neu zu
wird erfüllt. Beliebig viele Sichten ei-
verarbeitenden Daten ist in-
nes Datenbestandes können erzeugt
nerhalb des Logs beliebig se-
werden. (Marz N. & Warren J. 2015,
lektierbar (jetzt, vor einem
17).
Tag, vor einem Jahr), die Daten werden erneut verarbeitet
und in eine neue Output-Tabelle geschrieben. (Kreps J.
2014)
Ad hoc Queries
Batch Layer unterstützt Ad Hoc
Die zu lesenden Daten könn-
Queries. Informationen sind alle an ei- ten zeitpunktbezogen aus
nem Ort verfügbar. (Marz N. & War-
dem Log selektiert, in Echt-
ren J. 2015, 18).
zeit prozessiert und im Serving-Layer bereitgestellt werden; demnach sind Ad hoc
Queries möglich. (Kreps J.
2014)
64
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Minimale Wartbarkeit
Der Wartungsaufwand von zwei Sys-
Da nur ein System für die
temen - dem Batch Layer und dem
Prozessierung der Daten ver-
Speed Layer - in denen die Business- wendet wird, ist der Grad an
Logik implementiert wird, ist höher als Wartbarkeit gering (Kreps J.
DebugMöglichkeiten
bei einem System. (Kreps J. 2014)
2014).
Das Wissen über Inputparameter
Da alle Informationen über
(Master Dataset) und Output (Sichten) die Daten in Logdateien gedes Batch-Layers bieten alle Informa- halten werden, ist Debugging
tionen, um Debugging vorzuneh-
einfach durchführbar. (Kreps
men(Marz N. & Warren J. 2015). Den- J. 2014)
noch müssen in zwei Systemen Fehler gesucht werden. Der Aufwand für
die Fehlersuche ist höher als bei nur
einem System. (Kreps J. 2014)
Risiken
Sensitivitätspunkte
Abwägungspunkte
Die lange Verarbeitungszeit des
Da die Prozessierung von
Batch-Layers bedingt die Existenz
Echtzeit-Daten und histori-
des Speed-Layers. Der Anforderung
schen Daten in der gleichen
einer niedrigen Latenzzeit wird somit
Schicht abläuft, wird das
nur bedingt Rechnung getragen.
Zweifache an Speicherplatz
(Kreps J. 2014)
benötigt. (Kreps J. 2014)
Die Business-Logik in zwei Systemen Bei der parallelen Prozessiezu implementieren, läuft den Erwar-
rung von großen historischen
tungen an minimale Wartbarkeit und
Datenbestände, könnte der
einfachen Debug-Möglichkeiten ent-
erhöhte Rechenaufwand
gegen. (Kreps J. 2014)
dazu führen, dass für die
Echtzeit-Verarbeitung ein
neues Cluster eröffnet werden muss. Die Performance
könnte darunter leiden.
(Kreps J. 2014)
Reifegrad
Der Architekturansatz befindet sich in
Der Architekturansatz befin-
der Differenzierungsphase, das Mus-
det sich in der Entwicklungs-
ter wurde bereits in der Literatur doku- phase, das Muster wurde bementiert und mehrfach erprobt (siehe
reits auf verschiedenen Blogs
Referenzen).
beschrieben und mehrfach
erprobt (siehe Referenzen),
die Dokumentation in der Literatur steht noch aus.
65
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Referenzen
Twitter, Spotify, Liveperson, Innerac-
LinkedIn, Yahoo
tive
Tabelle 14: Vergleich von Lambda- und Kappa-Architektur (eigene Darstellung)
5.2.3
Konkretisierung des Scoring-Modells und Ausgestaltung
Im Theoriekapitel 4.2. „Das Scoring-Modell“ wurde bereits das allgemeine Vorgehen für die Anwendung eines Scoring-Modells beschrieben.
Das Scoring wird in der Folge lediglich auf Kriterium 5. Anfrderungen angewendet da lediglich
diese objektiv quantifizierbar sind. Alle weiteren Kriterien wurden im Kapitel 5.2.2. bereits indikativ
gegenübergestellt. Risiken, Reifegrad und Referenzen könnten als zusätzliche Kriterien zur Entscheidungshilfe herangezogen, sollen im Rahmen dieser Arbeit jedoch nicht quantifiziert werden.
Vorgehen
A.
Alle relevanten Kriterien werden identifiziert.
Innerhalb der Taxonomie wurden alle bewertungsrelevanten Kriterien identifiziert.
B.
Evaluierungskriterien können in Haupt- und Unterkategorien unterteilt werden.
Die Kriterien wurden in Haupt- und Subkriterien untergliedert.
C.
Jedem Kriterium wird eine Gewichtung zugewiesen. Maximal 100 Prozent in Prozentanteilen oder numerische Werten können vergeben werden. Bei Zahlen muss eine Höchstzahl vergeben werden.
D.
Prüfung ob die Vergabe der Gewichtung auch der Wichtigkeit der Anforderung entspricht.
Bei der Betrachtung eines Use-Cases in einem Versicherungsunternehmen würden die Anforderungen verschieden priorisiert und gewichtet werden. An dieser Stelle soll aus Vereinfachungszwecken der individuelle Use-Case nicht betrachtet werden, sondern aus generischer Sicht die
Architekturen bewertet werden, somit wird jede Anforderung gleich gewichtet. Die Zuweisung wird
über numerische Werte vorgenommen. Die Skala mit aufsteigender Wichtigkeit von 1 bis 4 wird
zu Grunde gelegt. Diese Skala basiert auf der Priorisierungsmethode für Anforderungen
MoSCoW und spielt vier Stufen wider:

MUST (unbedingt erforderlich) = Stufe 4,

SHOULD (sollte umgesetzt werden) = Stufe 3,

COULD (kann umgesetzt werden) = Stufe 2 und

WON’T (wird diesmal nicht umgesetzt) = Stufe 1 (Drather, Koschek & Sahling 2013)
Die Höchstzahl wäre demnach 4 und jede Anforderung wird mit der Zahl 4 gewichtet.
E.
Für jedes Kriterium wird für jede Option eine Punktzahl vergeben. Die höchstmöglich zu
vergebende Punktzahl wird vorher festgelegt.
66
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Für die jeweiligen Optionen werden in der Bewertung im nächsten Kapitel die Punkte festgelegt.
Für die Festlegung der zu vergebenden Punktzahl wird eine Skala von eins bis drei gewählt. Die
Bewertung ist wie in der Theorie beschrieben subjektiv:
Bewertung in Punkten
Erklärung
1
Die niedrigste Punktzahl wird vergeben bei einem
geringen Erfüllungsgrad der Anforderung.
2
Die mittlere Punktzahl wird vergeben bei einem
mittleren Erfüllungsgrad der Anforderung.
3
Die Höchstanzahl wird vergeben bei Erfüllung der
Anforderung.
Tabelle 15: Bewertungsskala (eigene Darstellung)
Im nächsten Kapitel wird der Punkt 5 zu Ende geführt sowie die Punkte 6 und 7 durchgeführt.
F.
Die Gewichtungen und Punktzahlen werden multipliziert und die endgültige Punktzahl
für jedes Kriterium ermittelt.
Die endgültigen Punktzahlen aller Kriterien summieren ergeben den endgültigen Punktestand für
die Option. (Andler N. 2007, 407)
5.2.4
Anwendung der Bewertungsmethode am Beispiel des Vergleichs von
Lambda- und Kappa-Architektur
Das Scoring-Modell für die Lambda- und Kappa-Architektur soll als Bewertungsrundlage dienen.
Die beschriebene gleichverteilte Gewichtung ist in der Spalte Gewichtung wiederzufinden. Die
Vergabe der Punkte wurde auf Basis der subjektiven Einschätzung der Ergebnisse aus der tabellarischen Gegenüberstellung vorgenommen (Kapitel 5.2.2.). Die Bewertung wäre in der Praxis
von relevanten Stakeholdern zu validieren.
Scoring-Modell für Lambda- und Kappa Architektur
Kriterium:
Gewichtung
Lambda-Architektur
Kappa-Architektur
Punkte
Bewertung
Punkte
Bewertung
4
3
12
3
12
4
3
12
3
12
4
3
12
3
12
Anforderung
Datenmodell-Anforderungen
Daten sollen
im Rohzustand
vorliegen
Daten sollen
unveränderlich sein
Daten sollen
„eternally true“ sein
67
Bachelor Thesis Corinna Ludwig © CORE 2016
73
High-Level-Big-Data-Anforderungen
Volume
4
3
12
3
12
Velocity
4
3
12
3
12
Variety
4
3
12
3
12
Veracity
4
3
12
3
12
Systemeigenschaften
Konsistenz (C)
4
1
4
1
4
Verfügbarkeit (A)
4
3
12
3
12
Partitionztoleranz (P) 4
3
12
3
12
Qualitätsmerkmale
Robustheit
4
3
12
2
8
Fehlertoleranz
4
3
12
3
12
Niedrige Latenzzeit
4
2
8
3
12
Skalierbarkeit
4
3
12
3
12
Erweiterbarkeit
4
3
12
3
12
Generalisierung
4
3
12
3
12
Ad hoc Queries
4
2
8
3
12
Minimale Wartbarkeit 4
1
4
3
12
Debug-Möglichkeiten 4
1
4
3
12
Summe
47
208
54
240
76
Tabelle 16: Scoring-Modell (eigene Darstellung)
5.2.5
Erkenntnisse und Folgerungen
Im diesem Kapitel wird dargelegt, inwiefern die verbleibenden Forschungsfragen mit dem vorgelegten Modell beantwortet werden können. Analog zur Diskussion des ersten Gliedes der Forschungsfragen werden Grenzen dieser theoretischen Untersuchung aufgezeigt und Ansätze zu
ihrer Überwindung in der Praxis vorgeschlagen.
Die folgenden Forschungsfragen konnten beantwortet werden:

F2: Wie könnte ein Modell zur Objektivierung der Architekturentscheidung für Big-DataLösungen aussehen?

F3: Welche Ergebnisse liefern der Vergleich und die Bewertung ausgewählter Architekturen mit Hilfe des Modells?
Für die Beantwortung der Forschungsfrage F1 wurde eine Taxonomie entwickelt. Diese Taxonomie basiert auf acht Kriterien:

Kriterium 1: Kurzbeschreibung,

Kriterium 2: Hauptziel,

Kriterium 3: Annahmen,
68
Bachelor Thesis Corinna Ludwig © CORE 2016
73

Kriterium 4: Paradigmen,

Kriterium 5. Anforderungen,

Kriterium 6: Risiken,

Kriterium 7: Reifegrad und

Kriterium 8: Referenzen.
Die Kriterien wurden benannt, beschrieben und in Subkriterien untergliedert. Die Subkriterien
wurden ebenfalls benannt und beschrieben. Die Ableitung der Kriterien basierte auf dem Gesamtverständnis der theoretischen Grundlagen. Die Kriterien 1-4 dienen der indikativen Gegenüberstellung, die Kriterien 5-8 dienen der objektiven Quantifizierung. In dieser Arbeit wurde die Grundlage für die quantitative Analyse der Architekturen auf Basis des Kriteriums 5 bereits gelegt. Für
die Bewertung wird das Scoring- Modell als Analyseinstrument zur Objektivierung herangezogen.
Die Gewichtung der Anforderungen für die Bewertung der Architekturen erfolgt nach der beschriebenen Priorisierungsmethode MoSCoW und der Punktevergabe wird eine Bewertungsskala von
1-3 nach aufsteigendem Erfüllungsgrad der Anforderung.
Im Ergebnis wurde ein Modell - hier Taxonomie - entwickelt, dass eine Objektivierung unter Verwendung von qualitativen sowie quantifizierbaren Kriterien und der Bewertung innerhalb eines
Scoring Modells ermöglicht.
Für die Beantwortung der Forschungsfrage F2 wurde anhand des entwickelten Modells die ausgewählten Architekturen - Lambda- und Kappa-Architektur - tabellarisch gegenübergestellt und
im nächsten Schritt basierend auf dem Vergleich bewertet.
Die Erprobung der Taxonomie (Kapitel 5.2.2. und Kapitel 5.2.4.) und der vorgenommenen Bewertung zeigt:

Einen Überblick über die Konzeption der betrachteten Architekturen,

Wesentliche Unterschiede in ihren Merkmalen,

Anhaltspunkte für Risiken und

eine Gesamtscheinschätzung durch den Vergleich der Gesamtpunktestände.
Am Beispiel von der Lambda- und Kappa-Architektur ist die Kappa-Architektur mit einem deutlichen Punktevorsprung nach erster Einschätzung der Gewinner.
Diese Informationen können als Grundlage für den weiteren Architekturentscheidungsfindungsprozess im Sinne der Forschungsfrage dienen.
Allerdings sind die qualitativen Unterscheidungen und Auswirkungen auf tatsächliche Big-DataArchitekturen erheblich. An dieser Stelle sollen daher die Grenzen im Rahmen dieser theoretischen Betrachtung aufgezeigt werden.
Zunächst sollen kritische Punkte der Taxonomie aufgezeigt werden. Die Benennung der Kriterien
unterscheidet nicht zwischen dessen subjektiver oder objektiver Natur. Die Bemessungsgrundlage für die Bewertung waren allgemeingültige gleichgewichtete Anforderungen. Es fand keine
69
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Überprüfung der Taxonomie anhand eines verifizierten Anwendungsfalls in der Praxis statt. Die
Bewertung erfolgte auf Basis einer Einzelbetrachtung, keine weiteren Stakeholder wurden mit
einbezogen.
Die vorliegende Einschätzung bewertet die Kappa-Architektur besser, diese Aussage lässt sich
jedoch nur mit Einschränkungen verallgemeinern. Viele der beschriebenen Anforderungen - wie
beispielspeise Skalierbarkeit oder Fehlertoleranz- werden bei beiden Architekturen erfüllt. Es gibt
verschiedene Kriterien in denen sich die Architekturen unterscheiden. Beispielsweise muss bei
der Lambda-Architektur der Speed-Layer die hohe Latenzzeit des Batch-Layers ausgleichen. Bei
der Kappa-Architektur erfüllt der Speed-Layer die gewünschte Anforderung der niedrigen Latenzzeit. Bei der Wartbarkeit ist festzustellen, dass bei der Lambda-Architektur der Wartungsaufwand
deutlich höher ist. Dies wird durch die Implementierung von zwei Business-Logiken begründet,
im Gegensatz dazu ist bei der Kappa-Architektur nur eine Logik zu implementieren. Dieser Punkt
ist insbesondere für Entwickler und Tester von Relevanz.
Daraus abgeleitet unterscheiden sich die Lambda- und Kappa-Architekturen in dem Vergleich
ihrer Risiken. Der angesprochene Konflikt der Latenzzeit ist ein Sensitivitätspunkt der LambdaArchitektur. Business-Logik in zwei Systemen zu implementieren läuft den Erwartungen an minimale Wartungsaufwände und einfachen Debug-Möglichkeiten entgegen und ist somit ein Abwägungspunkt. Für die Prozessierung von Echtzeit- und historischen Daten in der gleichen Schicht
wird das Zweifache an Speicherplatz benötigt. Dies stellt einen Sensitivitätspunkt der Kappa-Architektur dar. Bei paralleler Prozessierung von großen Datenbeständen könnte der erhöhte Rechenaufwand zur Eröffnung eines neuen Clusters und geringerer Performance führen. Die verschlechterte Performance ist ein Abwägungspunkt der Kappa-Architektur. Des Weiteren unterscheiden sich die Architekturen in ihrem Reifegrad. Die Lambda-Architektur wurde mehrfach verprobt und bereits in der Literatur dokumentiert. Die Kappa-Architektur wurde nicht weiter in der
Literatur beschrieben.
Es ist festzustellen, dass die Taxonomie Grenzen aufweist und dass die Bewertung von Kappaund Lambda-Architektur differenziert zu betrachten ist.
An dieser Stelle sollen die Erkenntnisse synthetisiert werden. Die Taxonomie ist für die in der
Arbeit untersuchte Objektivierung der Architekturentscheidung anwendbar. In der Praxis könnten
Verbesserungen vorgenommen werden. Da kein konkreter Use-Case betrachtet wurde ist das
Aussehen dieser Taxonomie generischer Natur. Kriterien wie die Anforderungen an eine BigData-Lösung sind allgemeingültig und daher hier als Bemessungsgrundlage verwendet worden.
Die Taxonomie ist auf somit auf Erweiterbarkeit zu prüfen. Beispielsweise könnten die im Kapitel
3.1.3 beschriebenen Qualitätsanforderungen Betrachtung finden. Für den konkreten Anwendungsfall im Unternehmen muss unter Berücksichtigung der individuellen Anforderungen die Taxonomie geprüft, erweitert oder verändert werden. Für die Bewertung sollten die relevanten Stakeholder hinzugezogen werden. Für die Anwendung der Taxonomie könnte zudem ein definiertes
Vorgehen beschrieben und eine Visualisierung der Einordnung Taxonomie im Gesamtlebenszyklus stattfinden. Diese beschriebene Erweiterbarkeit und Überprüfung anhand eines Use-Cases
70
Bachelor Thesis Corinna Ludwig © CORE 2016
73
führt zu einer differenzierteren Sicht auf die Unterschiede der Architekturen im spezifischen Kontext. Hier müssen individuell alle Anforderungen gegeneinander abgewogen werden.
Es lässt sich festhalten, dass die Taxonomie eine gute Basis für die Weiterentwicklung und Erprobung in der Praxis bietet und eine Objektivierung ermöglicht.
71
Bachelor Thesis Corinna Ludwig © CORE 2016
73
6
Schluss
6.1
Zusammenfassung
Ziel der Bachelorarbeit war es, einen Überblick über das Thema Big-Data zu geben. Dazu war
die Relevanz von Big-Data-Lösungen für Versicherungen aufzuzeigen und die Entscheidungsfindung für eine Big-Data-Architektur zu objektivieren. Ausgehend von einer vergleichenden Bewertung ausgewählter Architekturen waren Grenzen im Rahmen dieser theoretischen Untersuchung
aufzuzeigen und ein Ausblick auf weitere Schritte entlang des Entscheidungsprozesses für eine
Zielarchitektur zu geben.
Konkret waren folgenden Forschungsfragen zu beantworten:

F1: Ist der Einsatz von Big-Data für ein Versicherungsunternehmen von Relevanz?

F2: Wie könnte ein Modell zur Objektivierung der Architekturentscheidung für Big-DataLösungen aussehen?

F3: Welche Ergebnisse liefern der Vergleich und die Bewertung ausgewählter Architekturen mit Hilfe des Modells?
A.
Der Überblick über das Thema Big-Data wurde gegeben.
Eine strukturierte Beschreibung des Big-Data-Ökosystems gibt es in der Literatur nur in Ansätzen.
Zur Vorstellung des Themas Big-Data wurden deshalb aus verschiedenen Quellen die Informationen aggregiert und strukturiert. Der Überblick dient als Versuch, diese Forschungslücke zu
schließen. Der Überblick über das Thema Big-Data bietet das Kapitel 3.2. „Big-Data-Technologien“ stellt den Eckpfeiler für die Arbeit dar:

Zur Einleitung in das Thema wurden verschiedene Big-Data-Definitionen vorgestellt,

neue Entwicklungen im Bereich der Datenmodelle wurden durch eine Einführung in NoSQL sowie einer Abgrenzung zu relationalen Modellen aufgezeigt,

die Wichtigkeit über die Kenntnis der Daten stellte die Überleitung zur Klassifikation von
Daten dar und der Vorstellung des Datenlebenszyklus,

sowie eine Beschreibung der durch die Vielfalt an Daten bedingten Anzahl an Schichten
und Bausteinen einer Big-Data-Lösung erfolgt,

die Einführung der Schichten und Bausteine einer Big-Data-Lösung bildete die Herleitung zu dem Thema Big-Data-Referenzarchitekturen, deren Prinzipien und die Vorstellung von Lambda- und Kappa-Architektur.
B.
Die Relevanz von Big-Data für Versicherungen wurde gezeigt.
Für die Beantwortung der Forschungsfragen wurden Chancen sowie Herausforderungen bei der
Einführung sowie einer Weiterarbeit mit bisherigen Lösungen identifiziert. Die umfassenden
Chancen bei der Einführung einer Big-Data-Lösung überwiegen die assoziierten Herausforderungen deutlich. Gleichzeitig kann die Fortführung bestehender Modelle keine deutlichen Vorteile
72
Bachelor Thesis Corinna Ludwig © CORE 2016
73
generieren. Die Nutzung der Big-Data-Lösungen ist zu bevorzugen und ist somit von Relevanz
für Versicherungen.
C.
Ein Modell für den Vergleich und Bewertung wurde entwickelt.
Identifiziert ein Unternehmen eine Relevanz für eine technische Lösung, so wird sich entlang des
Entscheidungsprozesses die Frage nach der Auswahl einer Architektur stellen. Diese Erkenntnis
diente der Überleitung zur Objektivierung der Entscheidungsfindung einer Big-Data-Architektur.
Die Objektivierung der Architekturentscheidung in einem frühen Stadium wurde bisher nicht in
der Literatur beschrieben. Die hierzu entwickelte Taxonomie für den Vergleich soll einen ersten
Ansatz bieten diese Forschungslücke zu schließen. Für die Objektivierung wurde die vorgeschlagene Taxonomie mittels eines Scoring-Modells bewertet.
Für die Entwicklung der Taxonomie wurden Teile der theoretischen Grundlagen aus dem Kapitel
3.2. „Big-Data-Technologien“ herangezogen und zu acht Kriterien sowie Subkriterien verdichtet:
1. Kurzbeschreibung, 2. Hauptziel, 3. Annahmen, 4. Paradigmen, 5. Anforderungen, 6. Risiken
und 7. Reifegrad sowie 8. Referenzen.
Die Ableitung der Kriterien basierte auf dem Gesamtverständnis der theoretischen Grundlagen.
Die Kriterien 1-4 dienten der indikativen Gegenüberstellung, die Kriterien 5-8 tragen einer objektiven Quantifizierung Rechnung. Die Bewertung erfolgte auf Basis eines Scoring-Modells und der
Betrachtung des 5. Kriteriums (Anforderungen). Die Gewichtung der Anforderungen erfolgte auf
einer aus der Anforderungshebung stammenden Priorisierungsmethode.
D.
Erkenntnisse aus dem Vergleich und der Bewertung konnten abgeleitet werden.
Die Erprobung der Taxonomie (Kapitel 5.2.2. und Kapitel 5.2.4.) hat im bewerteten Vergleich
folgende Ergebnisse produziert: Ein generischer Überblick über die Konzeption der Architektur
wurde ermöglicht, die Unterschiede der Referenzarchitekturen offengelegt, Anhaltspunkte für Risiken identifiziert und eine erst Gesamteinschätzung auf Basis der Punktevergabe getroffen.
Am Beispiel von der Lambda- und Kappa-Architektur konnte die Kappa-Architektur mit einem
deutlichen Punktevorsprung nach erster Einschätzung als Gewinner identifiziert werden.
Diese Informationen können als Grundlage für den weiteren Architekturentscheidungsfindungsprozess dienen. Die Forschungsfrage wurde beantwortet und das Modell auf erste Tragfähigkeit
überprüft.
An dieser Stelle sollen die Grenzen der theoretischen Betrachtung noch einmal zusammengefasst werden.
Das für die Analyse der Relevanz von Big-Data für Versicherungen verwendete kartesische Koordinatensystem dient der ersten Strukturierung der eigenen Gedanken zu einer Ursache-Wirkungs-Beziehung. Es wurde ein Ausschnitt der Literatur betrachtet. Die Argumente wurden nicht
weiter quantifiziert. Sichtweisen wie Stärken- und Schwächen des Unternehmens oder andere
Wirkungsmechanismen wurden nicht betrachtet.
73
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Das verwendete Modell für den Vergleich und die Bewertung der Architekturstile unterscheidet
nicht zwischen Kriterien subjektiver und objektiver Natur. Anforderungen wurden gleichgewichtet.
Die Taxonomie wurde bislang nicht praxiserprobt
Die vorliegende Einschätzung bewertet die Kappa-Architektur besser, diese Aussage lässt sich
jedoch nur mit Einschränkungen verallgemeinern. Die Sensitivitätspunkte sowie Abwägungspunkte unterscheiden sich. Da sich Anforderungen in der Praxis ebenso differenzieren, wäre eine
Bewertung in Einzelfall erneut vorzunehmen.
Insgesamt kann festgestellt werden, dass das Thema Big-Data einen hohen Grad an Komplexität
aufweist, Indizien für die Relevanz von Big-Data im Versicherungsunternehmen gegeben sind
und das vorgestellte Modell einen ersten Ansatz für die Objektivierung der Architekturentscheidung bietet.
6.2
Ausblick
Ausgehend von der Synthese der gewonnenen Erkenntnisse soll nun ein Ausblick auf den Entscheidungsprozesses für eine Zielarchitektur in der Praxis gegeben werden.
In meiner Arbeit habe ich erste Indizien für die Relevanz von Big-Data identifiziert. Die Frage nach
der Relevanz sollte in der Praxis unter Berücksichtigung von weiteren Faktoren - beispielsweise
sozio-kulturellen oder politischen Veränderungen - weiter quantifiziert und empirisch untersucht
werden. An dieser Stelle könnten zusätzlich messbare Kennzahlen und Expertenmeinungen herangezogen werden. Die Analyse sollte in Einzelfall quantifiziert werden.
Die Taxonomie ist für die in der Arbeit untersuchte Objektivierung der Architekturentscheidung
anwendbar. In der Praxis könnten Verbesserungen vorgenommen werden: Die generische Taxonomie ist auf Basis weiterer Analysen auf Erweiterbarkeit zu prüfen und beispielsweise weitere
Qualitätsmerkmale inkludiert werden. Für die Bewertung sollten die relevanten Stakeholder hinzugezogen werden. Die Taxonomie könnte durch eine Vorgehensbeschreibung ergänzt werden.
In meiner Arbeit habe ich exemplarisch die bekanntesten Architekturen Lambda- und Kappa-Architektur gegenübergestellt und bewertet. Das erarbeitete Klassifikationsschema kann als Grundlage für die Analyse und Bewertung weiterer Architekturen (zum Beispiel iot-a-, Zeta- und MuArchitektur) dienen, aber auch die Bewertung für die Lambda- und Kappa-Architekturen sind entlang unternehmensspezifischer Anforderungen zu validieren. Nach der Identifikation und Spezifizierung entsprechender Anwendungsfälle einer Big-Data Lösung in der Versicherungsbranche,
zum Beispiel 360 Grad Sicht auf den Kunden in Marketing und Vertrieb, Betrugserkennung im
Risiko- und Schadensmanagement, Innovationen und -Pricing in der Produktentwicklung, kann
die realitätsnahe Erprobung der beschriebenen Taxonomien erfolgen. Aufgrund der neu gewonnenen Erkenntnisse sollte das ermittelte Modell verfeinert und weiterentwickelt werden.
Nachdem der IT-Architekt die verschiedenen Architekturen unter Berücksichtigung der relevanten
Anwendungsfälle vergleichen und bewerten konnte, wäre der nächste Schritt entlang des Software-Architektur-Lebenszyklus die Erstellung eines ersten Entwurfs einer Architektur auf Basis
des unternehmensspezifischen Datenmodells unter Berücksichtigung der relevanten Anliegen
74
Bachelor Thesis Corinna Ludwig © CORE 2016
73
der Stakeholder. Für die Dokumentation könnten die im Kapitel 3.1.2. „Das Konzept einer Architekturbeschreibung“ beschriebene Norm ANSI/IEEE 1471-2000 herangezogen werden. Der Entwurf der Architekturentscheidung könnte beispielsweise mit Hilfe der Architekturevaluationsmethode ATAM aus dem Kapitel 3.1.3. „Qualitätsanforderungen an eine Software-Architektur“ unter
Berücksichtigung von konkreten Szenarien geprüft werden.
Entscheidet sich ein Unternehmen für eine Big-Data- Lösung, so bildet die Einführung den Meilenstein, um aktuelle technologische Entwicklungen als Unternehmen mittragen zu können.
Neue Technologien drängen in den Markt. Kognitive Systeme erlauben eine wesentlich einfachere Zusammenarbeit zwischen Mensch und Maschine. Sie reichen von Datenanalysen über
natürliche Sprachverarbeitung bis hin zu Machine Learning. Auch das „Internet der Dinge“, also
die intelligente Vernetzung von Geräten und Maschinen über das Internet wächst rasant an. Unternehmen werden zunehmend von der Möglichkeit profitieren, über vernetzte Geräte Ereignisse
zu senden, zu empfangen, zu sammeln, zu analysieren und angemessen reagieren zu können.
75
Bachelor Thesis Corinna Ludwig © CORE 2016
73
IV
Quellenverzeichnis
[1] AltusInsight 2015. Lambda-Architektur. URL: https://www.altusinsight.de/lambda-architecture/data-ingestion/ [Stand 2016-09-23].
[2] Barkow Consulting 2016. German InsurTech in 18 Facts. URL: http://www.barkowconsulting.com/13-facts-about-german-insurtech-vc/ [Stand 2016-06-09].
[3] BITKOM 2012. Big Data im Praxiseinsatz - Szenarien, Beispiele, Effekte. URL:
https://www.bitkom.org/Publikationen/2012/Leitfaden/Leitfaden-Big-Data-im-PraxiseinsatzSzenarien-Beispiele-Effekte/BITKOM-LF-big-data-2012-online1.pdf [Stand 2016-08-11].
[4] BITKOM (2014). Big-Data-Technologien-Wissen-für-Entscheider: Leitfaden. URL.
https://www.bitkom.org/Publikationen/2014/Leitfaden/Big-Data-Technologien-Wissen-fuerEntscheider/140228-Big-Data-Technologien-Wissen-fuer-Entscheider.pdf [Stand 2016-0811].
[5] Boehm B. 2012. Biography: TRW Professor of Software Engineering, Computer Science
Department Director. URL: http://sunset.usc.edu/Research_Group/barry.html [Stand 201606-16].
[6] Büst R.; Hille M & Schestakow S. (2015). Digital Business Readiness: Wie deutsche Unternehmen die Digitale Transformation angehen. URL: https://www.crisp-research.com/publication/digital-business-readiness-wie-deutsche-unternehmen-die-digitale-transformationangehen/ [Stand 2016-06-16].
[7] Schön C. (2015). Wie Metadaten Big Data beherrschbar machen. URL: https://bigdatablog.de/2015/05/05/wie-metadaten-big-data-beherrschbar-machen/ [Stand 2016-08-10].
[8] COREtechmonitor (2016). InsureTechs Database.
tor.com/insuretechs-database/ [Stand 2016-09-25].
URL:
http://www.coretechmoni-
[9] deutsche-startups.de (2016). InsurTech: Die Mega-Übersicht für Deutschland. URL:
http://www.deutsche-startups.de/2016/04/27/insurtech-die-mega-uebersicht-fuer-deutschland/ [Stand 2016-06-09].
[10] Dördrechter N. (2016). Zukunft von InsurTech in Deutschland. Online im Internet: URL:
http://www.oliverwyman.de/content/dam/oliver-wyman/europe/germany/de/insights/publications/2016/jul/Oliver_Wyman_Policen%20Direkt_Insurtech-Radar.pdf [Stand 2016-0916].
[11] GDV (2015a). Die Geschichte der Datenanalyse. URL: http://www.gdv.de/2015/11/infografik-die-geschichte-der-datenanalyse/ [Stand 2016-09-15].
[12] GDV (2015b). So suchen die Deutschen im Internet nach Versicherungen. URL:
http://www.gdv.de/2015/03/so-suchen-die-deutschen-im-internet-nach-versicherungen/
[Stand 2016-09-16].
[13] GDV
(2015c).
Warum
Versicherer
Daten
brauchen.
URL:
http://www.gdv.de/2015/11/warum-versicherer-daten-brauchen/ [Stand 2016-09-15].
[14] GDV
(2016).
Besser
versichert
durch
präzisere
Daten.
URL:
http://www.gdv.de/2016/07/besser-versichert-durch-praezisere-daten/ [Stand 2016-09-16].
[15] GruenderSzene (2016a). Insurtech – oder wie Startups Versicherungen modernisieren.
URL:
http://www.gruenderszene.de/allgemein/insurtech-swiss-innovation-outpost-20153514 [Stand 2016-06-09].
[16] GruenderSzene (2016b). Insurtech – oder wie Startups Versicherungen modernisieren.
URL:
http://www.gruenderszene.de/allgemein/insurtech-swiss-innovation-outpost-20153514 [Stand 2016-06-09].
[17] Heinrich G., (2007). Allgemeine Systemanalyse. München: Oldenbourg. (Wirtschaftsinformatik
kompakt).
URL:
http://deposit.d-nb.de/cgi-bin/dokserv?id=2923164&prov=M&dok_var=1&dok_ext=htm.
[18] IfD Allensbach (2015). Versicherungen - Besitz einer Hausratversicherung in Deutschland
2015 | Statistik: Allensbacher Markt- und Werbeträger-Analyse - AWA 2015. URL:
76
Bachelor Thesis Corinna Ludwig © CORE 2016
73
http://de.statista.com/statistik/daten/studie/266295/umfrage/versicherungen--besitz-einerhausratversicherung-in-deutschland/ [Stand 2016-06-08].
[19] Internap (2014). Decoding Big Data Infrastructure Decision: Data in Motion, Data at Rest.
URL:
http://www.internap.com/internap/wp-content/uploads/2014/12/Data_InMotion__VS_atRest_840px_2.jpg [Stand 2016-08-10].
[20] Kerr
R.
(2013).
Schema
on
Write
vs.
Schema
on
https://www.youtube.com/user/MSBIAcademy/about [Stand 2016-08-28].
Read.
URL:
[21] Khaki S. (2016). Big Data : Concepts, Challenges and Solutions. URL: http://bigdatatech.blogspot.de/p/big-data-definitions-and-concepts.html [Stand 2016-09-17].
[22] Kreps J. (2013). The Log: What every software engineer should know about real-time data’s
unifying abstraction. URL: https://engineering.linkedin.com/distributed-systems/log-whatevery-software-engineer-should-know-about-real-time-datas-unifying [Stand 2016-09-24].
[23] Kreps J. (2014). Questioning the Lambda Architecture. Staff Engineer LinkedIn. URL:
https://www.oreilly.com/ideas/questioning-the-lambda-architecture [Stand 2016-09-13].
[24] Marcous, D. (2015). Big Data Real Time Architectures. Data Wizard at Google. URL:
http://www.slideshare.net/DanielMarcous/big-data-real-time-architectures-51967547
[Stand 2016-09-12].
[25] Gualteri M. (2013). Big Data prediction for 2013. URL: http://blogs.forrester.com/mike_gualtieri [Stand 2016-08-07].
[26] Museum der deutschen Versicherungswirtschaft (2007). Historisches ab 1750 v.Chr. URL:
http://www.versicherungs-geschichte.de/en/historisches-ab-1750-vchr.html [Stand 201606-08].
[27] Mysore D. (2013) Introduction to big data classification and architecture. URL:
https://www.ibm.com/developerworks/library/bd-archpatterns1/.
[28] Prognos (2013). Die Bedeutung der Versicherungswirtschaft für den Wirtschaftsstandort
Deutschland: Im Auftrag des GDV. URL: http://www.gdv.de/wp-content/uploads/2013/10/GDV_Prognos_Studie_Bedeutung_der_Versicherungswirtschaft_fuer_Deutschland_2013.pdf [Stand 2016-06-08].
[29] Rudolf B. (2016). Vertrieb der Zukunft: Fintechs greifen nach der Schnittstelle zum Kunden.
(06).: URL: http://www.versicherungsmagazin.de/Artikel/196/24697/Vertrieb-der-ZukunftFintechs-greifen-nach-der-Schnittstelle-zum-Kunden.html [Stand 2016-02-06].
[30] Statisisches Bundesamt (2010). Anteile starker Branchen am Bruttoinlandsprodukt in
Deutschland 2010 | Statistik. URL: http://de.statista.com/statistik/daten/studie/262361/umfrage/anteile-starker-branchen-am-bruttoinlandsprodukt-in-deutschland/ [Stand 2016-0608].
[31] Süddeutsche.de GmbH, Munich & Germany (2014). Versicherungen – Allianz setzt alles auf
die digitale Karte. URL: http://www.sueddeutsche.de/geld/versicherungen-allianz-setzt-alles-auf-die-digitale-karte-1.2141052 [Stand 2016-06-08].
[32] Versicherungsbote (2014). Versicherungsvertrieb: Google oder Amazon könnten zu echter
Konkurrenz werden. URL: http://www.versicherungsbote.de/id/4808683/Versicherungsvertrieb-Google-Amazon/ [Stand 2016-09-16].
[33] Versicherungsforen (Leipzig 2014). IT für Versicherungen - steigende Anforderungen, steigende Relevanz. URL: http://www.versicherungsbote.de/id/4807710/Versicherung-IT-Versicherungsforen-Leipzig/ [Stand 2016-09-15].
[34] Versicherungsmagazin (2016). Ergo baut um und Stellen ab - versicherungsmagazin. URL:
http://www.versicherungsmagazin.de/Aktuell/Nachrichten/195/23145/Ergo-baut-um-undStellen-ab.html [Stand 2016-06-08].
[35] Wedekind K., Dormann B.; Lay U. (2016). „Digitalisierung in der Versicherungsbranche.
Treiber für den neuen Zeitgeister – Ansätze, Fragen und Lösungen“. URL: http://blog.versicherungsforen.net/2016/05/kunden-und-digitalisierung-treiben-die-assekuranz/
[Stand
2016-06-08].
77
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Autorin
Corinna Ludwig ist Student Professional bei CORE. Neben ihres Studiums in Wirtschaftsmathematik unterstützt sie Projektteams bei der Umsetzung umfangreicher IT Transformationen.
Ihren fachlichen Schwerpunkt im Anforderungsmanagement untermauert sie mit ihrer Abschlussarbeit zu Big Data Architekturmodellen in der Versicherungsindustrie.
78
Bachelor Thesis Corinna Ludwig © CORE 2016
73
Über das COREinstitute
Das COREinstitute ist eine Denkfabrik zur Erforschung der Dynamik und Systematik technologisch getriebener Transformationen in Industrien mit einem hohen Anteil an IT im Wertschöpfungsprozess. Um den Wandel aus Technologie zu gestalten, analysieren wir Ursachen und Wirkmechanismen komplexer IT-Transformationen und entwickeln gemeinsam mit Entscheidern aus
Wirtschaft, Politik und Wissenschaft Lösungsansätze. Die Resultate unserer Forschung stellen
wir einer breiteren Öffentlichkeit im Rahmen von übergreifenden Publikationen, Einzelstudien sowie Vorträgen zur Verfügung.
http://institute.core.se/home/
Disclaimer
Die abgebildeten Logos stehen im Eigentum der jeweiligen Unternehmen. Die COREtransform
GmbH hält keine Rechte an den Logos und nutzt diese ausschließlich zu wissenschaftlichen
Zwecken. Die Erklärung an Eides statt für diese Arbeit wurde im Rahmen des Studienabschlusses vom Autor an die Uni geleistet. Das Urheberrecht verbleibt beim Autor. Die COREtransform
GmbH übernimmt keine Haftung für Verstöße gegen das Urheberrecht oder sonstige fahrlässige
Zuwiderhandlungen des Autors im Zusammenhang mit der Abschlussarbeit.
79
Bachelor Thesis Corinna Ludwig © CORE 2016
73
COREinstitute
CORE SE
Am Sandwerder 21-23
Am Sandwerder 21-23
14109 Berlin | Germany
14109 Berlin | Germany
https://institute.core.se
https://www.core.se
Phone: +49 30 26344 020
Phone: +49 30 26344 020
[email protected]
[email protected]
COREtransform GmbH
COREtransform GmbH
Am Sandwerder 21-23
Limmatquai 1
14109 Berlin | Germany
8001 Zürich | Helvetia
https://www.core.se
https://www.core.se
Phone: +49 30 26344 020
Phone: +41 442 610 143
[email protected]
[email protected]
COREtransform Ltd.
COREtransform MEA LLC
One Canada Square
DIFC – 105, Currency House, Tower 1
London E14 5DY | Great Britain
Dubai P.O. Box 506656 I UAE
https://www.core.se
https://www.core.se
Phone: +44 203 319 0356
Phone: +971 4 3230633
[email protected]
[email protected]
80
Bachelor Thesis Corinna Ludwig © CORE 2016
Herunterladen