Big Data - IT Daily

Strategic Bulletin – Juli 2012
BIG DATA
Dr. Wolfgang Martin
Strategic Bulletin: BIG DATA
Copyright
Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen
wurden mit größter Sorgfalt und mit wissenschaftlichen Methoden recherchiert und zusammengestellt. Eine Garantie in Bezug auf Vollständigkeit und Richtigkeit wird
ausgeschlossen.
Alle Rechte am Inhalt dieses Strategic Bulletin, auch die der Übersetzung, liegen bei dem Autor. Daten und Informationen bleiben
intellektuelles Eigentum der S.A.R.L. Martin im Sinne des Datenschutzes. Kein Teil des Werkes darf in irgendeiner Form (Druck, Photokopie, Mikrofilm oder einem anderen Verfahren) ohne schriftliche Genehmigung durch die S.A.R.L. Martin und IT Research reproduziert oder unter Verwendung elektronischer Verfahren verarbeitet, vervielfältigt oder verbreitet werden. Die S.A.R.L. Martin und
IT Research übernehmen keinerlei Haftung für eventuelle aus dem Gebrauch resultierende Schäden.
© Copyright S.A.R.L. Martin, Annecy, und IT Research, Aying
Disclaimer
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen etc. in diesem Werk berechtigt auch ohne besondere
Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu
betrachten wären und daher von jedermann benutzt werden dürften. In diesem Werk gemachte Referenzen zu irgendeinem spezifischen kommerziellen Produkt, Prozess oder Dienst durch Markenname, Handelsmarke, Herstellerbezeichnung etc. bedeutet in keiner
Weise eine Empfehlung oder Bevorzugung durch die S.A.R.L. Martin und IT Research.
Gastbeiträge in diesem Strategic Bulletin sind freie Meinungsäußerungen der Sponsoren und geben nicht unbedingt die Meinung des
Herausgebers wieder.
© S.A.R.L Martin/IT Research Juli 2012
2
Titel
Inhalt
Strategic Bulletin: BIG DATA
Inhaltsverzeichnis
1. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Big Data – Einführung in das Thema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1 Big Data – die Definition und die Treiber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Nutzenpotenziale von Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Entwicklung von Big Data: Marktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3. Big Data-Technologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Datenhaltungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Big Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Big Data-Analytik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Big Data Roadmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1 Marktspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Pentaho bei TravelTainment – the amadeus leisure group –
Analyse großer Datenmengen und verbesserte Reporting-Services . . . . . . . . . . 26
4.3 SAS High-Performance Analytics – Gastbeitrag von SAS Institute . . . . . . . . . . 28
4.4 Interactive Analytics für Big Data – Gastbeitrag von TIBCO Spotfire . . . . . . . . 29
4.5 SAP Real-Time Data Platform – Für jede Herausforderung
die richtige Lösung – Gastbeitrag von SAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.6 Die fünf wichtigsten Fragen rund um den Betrieb von SAP HANA –
Gastbeitrag von RealTech. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.7 Big Data aus Sicht eines CIO – Gastbeitrag von InterSystems . . . . . . . . . . . . . . 32
4.8 Roadmap für Kunden (Nutzer von Big Data) . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Big Data – quo vadis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Realität – 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Trends – 2013/15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6. Profil: Wolfgang Martin Team und IT Research . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7. Profil: Die Sponsoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Pentaho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
REALTECH AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
SAP AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
SAS Institute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
TIBCO Software Inc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
© S.A.R.L Martin/IT Research Juli 2012
3
Titel
Strategic Bulletin: BIG DATA
1. Zusammenfassung
Big Data – Definition, Treiber, Nutzen und Markt
Big Data wird über vier Eigenschaften definiert: das Datenvolumen, die Vielzahl von Datenquellen, die Geschwindigkeit der Datenproduktion und die steigende Anzahl von Nutzern, die sich mittels Analysen die Potenziale von Big
Data erschließen wollen.
Big Data bedeutet also nicht nur ein riesiges, immer grösser werdendes Datenvolumen, sondern aufgrund der Vielzahl von Datenquellen auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen
untereinander. Heute schätzt man, dass 90% aller Daten im Big Data unstrukturiert sind. Die wahre Flut von Daten
wartet aber nicht nur im Web auf uns. Die Menge und Diversität der Quellen ist in der Tat mannigfaltig: Neben den
Quellen im Web wie Portalen, Web-Applikationen, Social Media, Videos, Photos, Lokalisierungsdaten, um nur
einige zu nennen, finden sich viele Quellen in Branchen-bezogenen Medien, beispielsweise im Gesundheitswesen
(20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf),
wo in den letzten Jahren das Datenvolumen geradezu explodiert ist.
Die prominentesten Produzenten von Big Data sind soziale Medien (allein fast 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten.
Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser,
Verkehr und Mautdaten, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere.
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit, Wettbewerbsvorteile zu erzielen, Einsparungen
und Umsatzsteigerungen zu realisieren und innovative, neue Geschäftsfelder zu schaffen. Das unterstreichen die
folgenden ausgewählten Beispiele:
• Optimierung und Personalisierung von Werbemaßnahmen und Steigerung von Cross- und Up-Selling
aufgrund von besserem Kunden- und Marktwissen,
• Besseres Risiko-Management in Zahlungs- und Handels-Strömen durch Entdeckung von Abweichungen
und Unregelmäßigkeiten,
• Aufbau flexibler und intelligenter Abrechnungssysteme in der Versorgung (Strom, Wasser, Gas) und
Telekommunikation,
• Erkennen von Interdependenzen und automatisierte Hypothesenbildung in Wissenschaft und Forschung
Wenn man sich diese Beispiele genauer anschaut, so lassen sich fünf Nutzenpotenziale erkennen: Transparenz
durch Big Data, Testen aller Entscheidungen, Personalisierung in Echtzeit, verbesserte und optimierte Prozess-Steuerung und Automatisierung und innovative Informations-getriebene Geschäftsmodelle.
Trotz der Möglichkeiten, die Big Data bietet, muss man heute noch Vorsicht im Umgang mit Big Data walten lassen: Der Markt für Big Data ist noch jung und unreif. Es fehlt an Erfahrung, im Umgang mit Big Data, es fehlen Experten, die in den Unternehmen erfolgreich Big Data-Initiativen und Strategien aufbauen können, und die neuen
Technologien zur Beherrschung von Big Data befinden sich auch erst in sehr frühen Entwicklungsphasen. Wer allerdings jetzt nicht mit den Vorbereitungen zum Management von Big Data beginnt, der könnte in ein bis zwei Jahren
aber den Anschluss verpasst haben und von seinen Mitbewerbern oder innovativen Neueinsteigern überholt werden,
deren Geschäftsmodell durch Big Data-Nutzung effektiver ist und effizienter arbeitet. Man erinnere sich an Amazon,
deren Geschäftsmodell anfangs belächelt und kritisiert wurde, die aber heute zu den Marktsiegern zählen.
© S.A.R.L Martin/IT Research Juli 2012
4
Inhalt
Strategic Bulletin: BIG DATA
Big Data Technologien
In Folge dieser Datenflut ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes
und mehr von Daten zu lesen und zu durchsuchen, nutzt man heute analytische oder NoSQL1-Datenhaltungssysteme. Hier werden unterschiedliche Software- und Hardware-Technologien teilweise auch miteinander kombiniert:
Objekt-Orientierung, Spalten-Orientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv
parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle sogenannte Data Appliances, um die gängigsten
zu nennen. Ein dritter Ansatz zur Beherrschung von Big Data kommt vom Open Source-System Hadoop, das das
Potenzial hat, den Standard der Zukunft zu setzen.
Diese zu SQL alternativen Datenhaltungssysteme sind so konzipiert, dass Tuningaufwände, die in konventionellen
Systemen notwendig sind und Zeit und Ressourcen kosten, nahezu entfallen. Die Datenhaltungslösung legt in der
Regel Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die
Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Solche Datenbanken lassen sich natürlich
auch „as a Service“ mittels Cloud Computing betreiben.
Big Data treibt auch neue Methoden und Technologien im Big Data Management. Beim Data Management geht es
zwar immer noch um Integration, Lineage und Qualität, aber im Big Data kommt noch einiges hinzu: So ist eine
neue Klasse von Integrationswerkzeugen zur agilen Web- und Cloud-Integration entstanden, um beispielsweise
auch auf Datenquellen zuzugreifen, die keine API-Schnittstelle haben. Plattformen zur Datenintegration werden
durch Selbstoptimierung beschleunigt und um Hadoop-Verarbeitung ergänzt. Daneben werden die bekannten Verfahren zum Data Management parallelisiert und Cluster-fähig, denn die Anforderungen an den Durchsatz steigen
natürlich erheblich mit Big Data. Service-Orientierung der Infrastruktur und Verarbeitung in Echtzeit sind jetzt im
Big Data unabdinglich geworden.
Die traditionellen BI-Werkzeuge erweisen sich ebenfalls als unzureichend für Big Data-Analytik. Data Discovery
steht jetzt ganz vorne in der Bedeutung. Dazu gehören Filtern und Visualisieren von Daten, kollaborative Werkzeuge zur Teamarbeit, intuitive Benutzerschnittstellen und eine neue Generation von Geräten wie die Tablets, damit
man in den Fachabteilungen produktiv und erfolgreich arbeiten kann. Im Fokus steht hier jetzt auch Location
Intelligence, die Erweiterung von Business Intelligence um die Dimension „Raum“. Denn im mobilen Internet konvergieren jetzt Information, Zeit und Raum. Die Lokalisierungsdaten aus Smartphones und Navigationsgeräten erlauben eben ganz neue Typen von Analysen. Dazu kommen neue analytische Methoden und Verfahren wie die Textanalytik. Textanalytik ist eine neue Klasse von Analytik insbesondere für unstrukturierte Daten, die linguistische
Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet.
Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen.
Solche neuen Methoden und Technologien erfordern auch neue Rollen wie die der Data Scientists, die als Mittler
zwischen der IT und den Fachabteilungen den weiteren Ausbau der Zusammenarbeit treiben, die Verarbeitung von
Big Data fördern und helfen, die Potenziale von Big Data auch zu realisieren. Das erfordert auch neue Skills und
eine Neuorientierung der IT: Die IT muss in den Zeiten von Big Data den Hauptfokus auf Data Management legen.
Big Data Roadmap
Die Analyse von Big Data muss wie jede andere Analyse auch in eine Strategie eingebettet sein. Eine Big DataStrategie sollte sich dabei an den drei Typen von Big Data-Analysen ausrichten:
• agiles Big Data, ein auf die Kosten achtender Ansatz, der darauf abzielt, schnell die Nutzenpotenziale von Big
Data zu erschließen,
1
NoSQL = not only SQL
© S.A.R.L Martin/IT Research Juli 2012
5
Inhalt
Strategic Bulletin: BIG DATA
• operatives Big Data, ein Ansatz, eine permanente und robuste Infrastruktur für Big Data-Analysen zu etablieren,
• High Resolution Management, ein innovatives Modell zur Unternehmenssteuerung, wobei man den Schritt macht
vom traditionellen Ansatz einer informationsarmen Welt, in der Entscheidungen im Wesentlichen auf Erfahrungswissen beruhen, zu einem neuen Ansatz einer informationsreichen Welt, in der Entscheidungen daten-getrieben getroffen werden.
Die Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der
Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Vor allen Dingen muss auch der Erfolg von Big
Data-Analysen durch kontinuierliches Testen in seinen Auswirkungen auf Kunden- und Marktverhalten gemessen
und monetär bewertet werden.
Big Data – Quo Vadis
Natürlich darf man nicht die Kritik an Big Data vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der
Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit. Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data
überhaupt repräsentativ sein kann.
Trotz der Kritik an Big Data: die Big Data-Vorreiter Amazon, eBay, Facebook und Google zeigen, dass Big DataPotenziale existieren und geldwerten Vorteil bringen können. Bei aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt. Schließlich sollte man
auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt
ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt
der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch
je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu
finden, nur noch grösser und wertvoller.
© S.A.R.L Martin/IT Research Juli 2012
6
Inhalt
Strategic Bulletin: BIG DATA
2. Big Data – Einführung in das Thema
2.1 Big Data – die Definition und die Treiber
Von der „Datenflut“ („data deluge“) haben wir schon Anfang der 90er Jahre gesprochen. Insofern ist das Thema
Big Data nicht wirklich neu. Auch die Technologien, mit denen wir heute versuchen, Big Data zu speichern und zu
analysieren, stammen zum Teil auch aus den frühen 90er Jahren, beispielsweise die Konzepte zu spalten-orientierten Datenbanken oder massiv paralleler Verarbeitung. Der Handel war eine der Branchen, die sich schon seit langem mit Big Data auseinandersetzen mussten: Die Analyse von Kassenbons kann ein für den Handel entscheidendes Wissen über das Kundenverhalten geben, so dass das kundenbezogene Prozesse personalisiert und optimiert
werden können. Dennoch ist Big Data erst seit rund einem Jahr das Thema, das den Markt elektrisiert. Was ist heute
anders als vor 10 oder 20 Jahren?
Um Antworten zu finden, beginnen wir mit der grundlegenden Definition von Big Data. In vielen Quellen zu
Big Data (beispielsweise im O’Reilly Radar2) wird Big Data durch drei Eigenschaften charakterisiert: Volume,
Velocity und Variety. Diese drei Eigenschaften in Kombination machen die Komplexität von Big Data aus. Ich sehe
da noch eine weitere, vierte Eigenschaft, die ebenfalls zur Komplexität beiträgt: den steigenden Bedarf an Analysen durch mehr und mehr Verbraucher von Information im und von Big Data. Das Ganze lässt sich dann recht kompakt zusammenfassen:
Die „Big Data-Herausforderung“: Immer mehr Nutzer wollen in nahezu Echtzeit die Daten aus der immer
mehr ausufernden Datenflut und aus immer mehr und unterschiedlichsten Quellen analysieren.
Schauen wir uns diese vier Big Data definierenden Eigenschaften jetzt genauer an.
• Extremes und anhaltendes Wachstum des Datenvolumens („Volume“). Allein im Jahr 2011 hat die Menschheit
1,8 ZB neue Daten produziert. (1 Zetta Byte = 1 Milliarde Tera Bytes). Die Menge der Daten im Unternehmen
und außerhalb des Unternehmens, die zu verarbeiten sind und die verarbeitet werden können, wächst ständig und
immer schneller. Dabei handelt es sich sowohl um strukturierte wie um unstrukturierte Daten. Zu den letzteren
zählen nicht nur Formulare und Textdokumente, sondern auch Abbildungen, Fotos, Audio und Video-Aufzeichnungen etc. So ist nicht nur im Handel, sondern beispielsweise auch im Gesundheitswesen (20 TB Daten pro
Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf) in den letzten
Jahren das Datenvolumen geradezu explodiert.
• Information hat den größten Wert, wenn sie neu und aktuell ist („Velocity“). Denn Dinge in der heutigen digitalisierten und vernetzten Welt passieren jetzt und überall. Daher brauchen wir Information, hier und jetzt. Die
Verarbeitung und Analyse vieler unterschiedlichen Daten muss dazu in nahezu Echtzeit erfolgen, denn von diesen
Daten hängen beispielsweise Steuerungs- und Abrechnungssysteme ab. Oder wollen sie als Fußgänger auf Basis
eines Photos, das vor fünf Minuten gemacht wurde, eine Straße überqueren?
• Die Anzahl der Datenquellen nimmt ebenfalls massiv zu („Variety“). Die prominentesten Produzenten sind soziale Medien (allein über 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie
intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, um nur einige zu nennen,
Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere. Viele dieser Quellen
erzeugen zudem beständig fließende nicht versiegen wollende Datenströme.
• Die Zahl der Nutzer von Big Data steigt ebenfalls („Verbraucher“). Die in dieser extremen Menge von Daten
verborgene Information und das darin verborgene Wissen wollen sich mehr und mehr Unternehmen und innerhalb
2
Zugriff am 08.02.2012 auf http://radar.oreilly.com/2012/01/what-is-big-data.html
© S.A.R.L Martin/IT Research Juli 2012
7
Inhalt
Strategic Bulletin: BIG DATA
der Unternehmen mehr und mehr Fachbereiche zu nutzen machen. Es sind dies entweder immer mehr Mitarbeiter in diversen Fachabteilungen, die Information beispielsweise über Kunden, Mitbewerber und Markt benötigen,
oder Systeme, die über Information aus dem Big Data gesteuert werden wie die Überwachung und Steuerung von
Netzwerken aller Art (Telefonie, Computer, Luft-, Straßen- und Eisenbahn-Verkehr etc.).
Jeder dieser vier Trends (Volume, Velocity, Variety, Verbraucher) an sich stellt eine große Herausforderung an die
Informationstechnologie dar. Jetzt aber gilt es, diese vier Anforderungen gemeinsam zu meistern. Die fast beliebig
vielen Formen, Typen und Mengen von Daten zu einer Fragestellung im Unternehmen gepaart mit der beliebig großen Zahl von Informationsverbrauchern zeigen, dass Big Data eine neue, zusätzliche Dimension von Information
darstellt. Das unterscheidet Big Data in der heutigen digitalisierten und vernetzten Welt von der Situation vor 10
oder 20 Jahren.
Die traditionellen Business Intelligence (BI)-Technologien zu Datenhaltung, Daten-Management und Analytik stoßen
im Big Data an ihre Grenzen, ja, man kann sogar sagen, sind teilweise obsolet geworden. Nicht mehr geeignet sind
traditionelle relationale Datenbanken, die am Datenvolumen scheitern. Nicht mehr geeignet sind traditionelle ETLProzesse zum Laden von Data Warehouses und Datamarts. Sie sind nicht nur zu langsam, sondern kommen auch mit
der Vielfalt und Beschaffenheit der Quellen nicht klar. Nicht mehr geeignet sind traditionelle BI-Werkzeuge, die auch
viel zu langsam sind, in der Regel nicht zur Analyse unstrukturierter Daten ausgelegt sind und bis zum Aufkommen
von Tablets auch immer noch nicht die Benutzerfreundlichkeit hatten, um wirklich in den Fachabteilungen akzeptiert
zu werden. Heutige Speicher-Lösungen wie Virtualisierung, Datendeduplizierung oder Storage Management erweisen
sich auch als unzureichend, weil die Datenmengen nicht mehr homogen vorliegen, sondern sich strukturiert und unstrukturiert auf verschiedenen Speichersystemen befinden. Jetzt sind Innovationen auf allen Ebenen gefragt, sonst gibt
es keine neuen und wettbewerbsentscheidenden Einsichten in Kunden- und Marktverhalten!
Mit anderen Worten, Big Data-Technologien umfassen Software, Hardware und Services. Bei der Software gehören zu den Big Data-Technologien alternative Datenhaltungssysteme, Big Data Management und Big Data-Analytik. Darauf wollen wir in diesem Strategic Bulletin den Fokus legen.
2.2 Nutzenpotenziale von Big Data
Im Big Data steckt großes Potenzial, vor allem viel Wissen, das man sich nur erschließen muss. Aber das Potenzial
an Wissen ist nicht so einfach zu erschließen, denn ein solcher verwobener Mix aus riesigen, unüberschaubaren und
fragmentierten Daten macht es schwierig, die Daten zu identifizieren, zu extrahieren, zu speichern, zu verwalten und
zu analysieren. Bevor wir uns aber die dazu notwendigen Innovationen anschauen, wollen wir die Nutzenpotenziale
verstehen und erkennen, wie wir vom Big Data profitieren können. Beginnen wir dazu mit zwei Beispielen.
Beispiel: Big Data im Handel. Im Handel kämpft man schon lange mit sehr großen Datenmengen, den
Kassenbon-Daten beispielsweise. In den Kassenbon-Daten steckt viel Kundenwissen, denn sie eignen sich
gut, um die Produktprofitabilität pro Kunden auszurechnen. Das ist eine wichtige Kennzahl zur Steuerung
von personalisierten Kampagnen und Echtzeit-Produktempfehlungen, also eine im analytischen CRM typische Kennzahl im Handel für die Outbound- und Inbound-Kundenkommunikation. Nur konnte man mit den
traditionellen BI-Werkzeugen diese Kunden/Produkt-Profitabilität-Kennzahl nicht ausrechnen, da das zugrunde liegende Datenvolumen zu groß war und die Analysen einfach zu lange dauerten, um beispielsweise
im Rahmen von Kundeninteraktionen Empfehlungen in Echtzeit auszusprechen. Mit Big Data-Technologien
lässt sich das Problem lösen.
Beispiel: Stimmungsanalysen in den Social Media. Insbesondere die Konsumgüterhersteller interessieren
sich für die Meinungen aller Marktteilnehmer zu den eigenen Produkten und Marken ebenso im Vergleich
dazu zu den Produkten und Marken der Mitbewerber. Hier bieten die Social Media neue und ergiebige Quel-
© S.A.R.L Martin/IT Research Juli 2012
8
Inhalt
Strategic Bulletin: BIG DATA
len. Neben der Chance, Zielgruppen mit chirurgischer Präzision zu bearbeiten, bringen Social Media aber
auch Risiken: In Blogs, Foren und Tweets wird schlicht und einfach alles über Produkte und Unternehmen
gesagt – inklusive echter Lügen: Expertenforen können schnell und nachhaltig Werbesprüche entzaubern.
Zur Auswertung all dieser Kommunikation in den Social Media beginnt man mit dem Identifizieren und
Extrahieren der relevanten Quellen im Big Data. Dann gilt es, diese Quellen auszuwerten. Das liefert nicht
nur statistische Information, wo und wie viele Spuren sich im Web und in den Social Media befinden, sondern mit Hilfe von Stimmungsanalysen (sentiment analysis) lässt sich auch die Tonalität der Beiträge
bestimmen. Auf Basis eines Social Media Monitoring kann im nächsten Schritt eine Social Media Interaktion aufgebaut werden. Das Unternehmen kann jetzt auf relevante Beiträge sofort reagieren und intervenieren. Das bringt Vorteile vor allem im Kundenservice oder bei der Einführung neuer Produkte im Markt,
da sich sofort eine Kommunikation mit Communities im Web aufbauen und unterhalten lässt. So sind beispielsweise schon in verschiedenen Service-Call Centern die Agenten auch zu Social Media-Agenten geworden, die jetzt eine Multikanal-Kommunikation mit den Kunden über die traditionellen und die Social Media-Kanäle führen können. Das ist der Schritt von Outbound- und Inbound-Kundenkommunikation zur Unbound-Kundenkommunikation. So schafft man eine gesteigerte Time-to-Market und eine höhere Kundenbindung bei einer vergleichsweise überschaubaren Investition.
Wenn man sich diese Beispiele genauer anschaut, dann lassen sich fünf Nutzenaspekte von Big Data erkennen.
Die fünf Nutzenaspekte von Big Data
1. Transparenz durch Big Data. Ein Hersteller von Konsumgütern will beispielsweise wissen, wie Konsumenten
seine Marken und Produkte und/oder die seiner Mitbewerber in den einschlägigen Blogs diskutieren und bewerten.
Oder eine Hotelkette interessiert sich für das elektronische Feedback ihrer Gäste und/oder für die Bewertungen der
Mitbewerber. Auch eine ganz neue Art der Wettbewerbsbeobachtung ist mittels der öffentlich zugänglichen Satellitenbilder machbar. Man kann so Hinweise über Fabrikkapazitäten erhalten, rechtzeitig Expansionen erkennen oder
auch topologische Beschränkungen, die Expansionen des Mitbewerbers behindern können. Alles wird möglich,
wenn all diese Daten im Unternehmen zugreifbar und auswertbar werden. In der Verbindung mit den Unternehmenskundendaten erhält man so nicht nur eine 360°-Sicht auf den Kunden, wie immer im CRM gefordert, sondern
sogar eine 360°-Sicht auf den gesamten Markt: Mitbewerber, Kunden der Mitbewerber, Presse, Marktmultiplikatoren etc. Denn im Big Data spiegelt sich ja der Markt mit allen Marktteilnehmern wieder.
Um von diesem Nutzenaspekt zu profitieren, muss das „Silo-Denken“ in den Unternehmen endlich aufhören. Das
Sammeln von Fachabteilungs-bezogenen Daten ist nicht ausreichend, um Kunden- und Marktwissen durch Big Data
aufzubauen. Im Finanzwesen ist es immer noch üblich, Daten über die Finanzmärkte, über den Zahlungsverkehr
und das Kreditwesen getrennt zu halten und nicht über Abteilungsgrenzen hinweg zu nutzen. Das hindert den Aufbau kohärenter Kundensichten und das Verstehen der Beziehungen und Beeinflussungen zwischen Finanzmärkten.
2. Testen aller Entscheidungen. Big Data bietet die Möglichkeit, das Treffen von Entscheidungen grundlegend zu
ändern. Mittels kontrollierter Experimente können Hypothesen getestet werden. Das erlaubt, Entscheidungen und
Maßnahmen auf Basis von Fakten zu treffen. So lassen sich auch Ursache-Wirkungsbeziehungen von reinen
Korrelationen unterscheiden.
Internet-Unternehmen wie Amazon und eBay waren mit bei den ersten, die solche kontrollierten Experimente nutzten, um die Konversionsraten von Besuchern ihrer Webseiten zu steigern. Dazu wurden gezielt bestimmt Funktionen und Verbindungen auf Webseiten geändert und die Wirkung entsprechend gemessen. So konnten die Faktoren
ermittelt werden, die die Konversionsraten steigern. Mittels des mobilen Internets kann jetzt die Wirkung von
Außenwerbung bezogen auf den Standort gemessen und entsprechend optimiert werden. Das wird durch die Klickraten auf den QR-Codes auf Werbeflächen ermöglicht. So lässt sich im Big Data auch ein cross-mediales Marketing aufbauen. Die Konzepte des kontrollierten Testens von Änderungen von Webseiten werden heute auch in der
realen Welt machbar. Das geschieht nicht nur durch die QR-Codes, sondern auch beispielsweise mittels Video-Aufzeichnungen von Kundenbewegungen in Kombination mit Kundeninteraktionen und Bestellmustern, die sich in
© S.A.R.L Martin/IT Research Juli 2012
9
Inhalt
Strategic Bulletin: BIG DATA
Transaktionsdaten verbergen. Durch kontrollierte Experimente lassen sich so Produkt-Portfolios und -Platzierungen sowie Preise kontinuierlich und gezielt verbessern. Daraus folgt eine Kosteneinsparung durch mögliche Reduktionen des Produktangebots ohne Risiko des Verlustes von Marktanteilen und sowie eine Steigerung der Marge
durch den Verkauf höherwertiger Produkte.
3. Personalisierung in Echtzeit. Kunden- und Marktsegmentierung hat eine lange Tradition. Jetzt mit Big Data gibt
es völlig neue Möglichkeiten durch Echtzeit-Personalisierung von Kundeninteraktionen. Im Handel kennen wir solche Strategien bereits von den Big Data-Vorreitern wie Amazon und eBay, aber auch von sozialen Netzen, wo uns
Freundschaften vorgeschlagen werden. Natürlich profitiert man auch in anderen Branchen von solchen personalisierten Kundeninteraktionen, beispielsweise im Versicherungswesen. Hier können Versicherungspolicen auf den
Kunden individuell zugeschnitten werden. Als Datenbasis dazu dienen kontinuierlich angepasste Profile der
Kundenrisiken, Änderungen in der Vermögenslage oder auch Lokalisierungsdaten. Kraftfahrzeuge können mit
speziellen Sendern ausgerüstet werden, so dass sie über eine Lokalisierung im Falle eines Diebstahls wiedergefunden werden können.
4. Prozess-Steuerung und Automatisierung. Big Data erweitert den Einsatz von Analytik zur Prozess-Steuerung
und Automatisierung. So können Sensor-Daten von Produktionsstraßen zur Autoregulierung von Produktionsprozessen genutzt werden. Damit lassen sich Kosteneinsparungen durch optimalen Materialeinsatz und durch Vermeidung von menschlichen Eingriffen erzielen, wobei gleichzeitig der Durchsatz erhöht werden kann. Proaktive
Wartung ist ein anderes Einsatzgebiet. Maschinen können kontinuierlich über Sensoren überwacht werden, so dass
auftretende Unregelmäßigkeiten sofort erkannt werden und rechtzeitig beseitigt werden können, bevor Schäden
auftreten oder es zum Stillstand kommt.
Andere Beispiele stammen aus der Konsumgüter-Branche. Getränke oder auch Speiseeis-Hersteller nutzen die täglichen Wettervorhersagen, um die eigenen Nachfrageplanungsprozesse an das aktuelle Wetter anzupassen. Dabei
sind die Messdaten zur Temperatur, zur Niederschlagsmenge und zur täglichen Sonnenscheindauer entscheidend.
Dieses Wissen erlaubt eine Prozessoptimierung durch die Verbesserung der Vorhersagewerte um einige Prozent.
5. Innovative Informations-getriebene Geschäftsmodelle. Big Data erlaubt auch neue, innovative Geschäftsmodelle auf der Basis von Information. Preis-Information wurde früher vielfach vertraulich behandelt. Heute in den
Zeiten des Internets und Internethandel sind Preise in der Regel öffentlich verfügbar. Das erlaubt den Internet- und
anderen Händlern die Preise des Mitbewerb zu überwachen und rechtzeitig auf Preisänderungen zu reagieren. Das
erlaubt aber auch den Kunden, sich über die Preise zu informieren und so den besten Preis für ein gewünschtes
Produkt zu erzielen. Darauf haben sich einige Anbieter spezialisiert, die über Konsolidierung, Aggregieren und
Analyse von Preisinformation ihr eigenes Geschäftsmodell gefunden haben. Das gilt nicht nur im Handel, sondern
auch im Gesundheitswesen, wo durch solche Information-Anbieter die Behandlungskosten transparent gemacht
werden.
2.3 Entwicklung von Big Data: Marktschätzungen
Der Big Data-Markt besteht wie bereits im Kap. 2.1 definiert aus Software, Hardware und Services. Zur Big DataSoftware werden Datenhaltungssysteme, Daten-Management und Analytik gezählt, die den Belangen und Herausforderungen von Big Data gerecht werden. Dazu gehören insbesondere:
• Datenhaltungssysteme wie Hadoop, NoSQL-Datenbanken und analytische Datenbanken,
eine neue Generation von Data Warehouse Software- und Hardware-Technologien,
• Big Data Management, i.e. Daten-Management angewandt auf Big Data,
• Big Data analytische Plattformen und Applikationen inklusive neuer Konzepte zur Daten-Visualisierung,
Data Discovery, Textanalyse etc. mit Fokus auch auf die Analyse unstrukturierter Daten.
Diese Technologien diskutieren wir im Kapitel 3 im Einzelnen.
© S.A.R.L Martin/IT Research Juli 2012
10
Inhalt
Strategic Bulletin: BIG DATA
Big Data-Services entsprechen den traditionellen Services wie Support, Training sowie Beratungs- und Entwicklungs-Dienstleistungen, jetzt bezogen auf Big Data. Big Data-Hardware umfasst alle Typen von Hardware, jetzt angewandt auf Big Data. Neu sind hier insbesondere Data Appliances, gebündelte und aufeinander abgestimmte Software- und Hardware-Lösungen, meist auch noch kombiniert mit den entsprechenden Dienstleistungen.
Am Jahresanfang 2012 ist dieser Big Data-Markt noch ein recht überschaubarer Markt, der laut Wikibon
(http://wikibon.org/wiki/v/Wikibon:About), einer „Professional Community“, gerade mal auf $5 Milliarden (Software, Hardware und Services) geschätzt wird. Aber dieser Markt soll in den nächsten 5 Jahren auf $50 Milliarden
wachsen (Abb. 1). Das macht ein CAGR von 58% von heute bis 2017. Anbieter wie EMC sprechen sogar von $70
Milliarden als Zielgröße. Die Gründe für dieses rasante Wachstum haben wir ja bereits in den beiden vorigen Kapiteln diskutiert: Die Nutzenpotenziale, die Analysen im Big Data versprechen, zielen direkt auf die Bottom Line
der Unternehmen in allen Branchen: Umsatzsteigerungen, Kosteneinsparungen, Erhöhung der Wettbewerbsfähigkeit und neue, innovative Geschäftsmodelle. Wer will da zurückstehen?
Entwicklung von Big Data
■ Markt- und
Big Data Market Forecast, 2012-2017 ( in $ US billions)
Potenzialschätzungen:
$60.0
$ 53.4
$50.0
$ 48.0
• Anbieter wie EMC sprechen
von $ 70b.
• Investitionen in Hadoop:
$ 350m.
■ Big Data ist mehr
$40.0
als ein Hype.
$ 32.1
$30.0
$20.0
$ 16.8
$10.0
$ 10.2
$ 5.4
$0.0
2012
2013
2014
2015
2016
Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
2017
© S.A.R.L. Martin 2012
Abbildung 1: Wikibon’s 5 Jahres-Vorhersage für den Big Data-Markt (Software, Hardware, Services weltweit).
Aber trotz aller Euphorie für die Marktentwicklung und die Zukunft: Noch wird im Big Data-Markt nicht das große Geld verdient. Wikibon hat dazu die Umsätze der „reinen“ Big Data-Anbieter 2011/2012 ermittelt. Als „reiner“
Big Data-Anbieter zählt dabei ein Software-, Hardware- oder Service-Anbieter, der mehr als 50% seines Umsatzes
mit Big Data macht. Der Gesamtumsatz dieser Anbieter (Februar 2012) macht gerade mal $311 Millionen aus, also gerade mal rund 5% des Gesamtumsatzes im Big Data-Markt (Abb. 2).
Aber umgekehrt sind es genau diese Anbieter, auf die nahezu alle Innovationen und alternativen Ansätze zu Data
Management und Analytik zurückgeführt werden können. Und diese Anbieter sind deshalb auch das Ziel von Übernahmen durch die großen IT-Anbieter: HP hat Vertica, Teradata Asterdata und EMC Greenplum übernommen. Das
zeigt, dass sich die großen IT-Anbieter ihren Anteil an diesem Wachstumsmarkt sichern. Das unterstreicht auch, dass
die Markteinschätzungen zum Wachstum nicht unbedingt aus der Luft gegriffen sind, da die großen Anbieter hier
investieren. So sind beispielsweise in das Apache OpenSource-Projekt Hadoop bisher $350 Millionen geflossen.
© S.A.R.L Martin/IT Research Juli 2012
11
Inhalt
Strategic Bulletin: BIG DATA
Big Data-Anbieter 2011/12
Big Data Pure-Play Vendors, Yearly Big Data Rvenue ( in $ US millions)
$90
$84
Total Big Data Pure Play Revenue: $ 310 million
$80
$70
$60
$52
$45
$50
$43
$40
$43
$30
$18
$20
$8
$10
$7
$6
$10
$3
$3
$2
$2
$2
Ve
r
As tica
te
rD
at
a
Sp
lin
G
re
k
en
pl
um
10
10
da
Th
ta
C
in
l
ou
k
Bi
de
g
An ra
al
yt
ic
s
D
ig
M
ita
a
lR
pR
ea
so
H
ni
or
ng
to
nw
or
ks
D
a
ta
H
PC
St
ax
C
Sy
st
em
D
s
at
Ka am
ee
rm
r
as
ph
er
e
O
th
er
$0
Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
© S.A.R.L. Martin 2012
Abbildung 2: Weltweiter Jahresumsatz der führenden „reinen“ Big Data-Anbieter bezogen auf Februar 2012. Die
„reinen“ Big Data-Anbieter sind definiert als Anbieter von Software, Hardware oder Services, die mehr als 50%
mit Big Data umsetzen. Diese gezeigten Zahlen spiegeln nur diese Umsätze wieder.
Big Data-Umsätze großer IT-Anbieter
Total 2012 Big Data Revenue by Vendor
Vendor
IBM
Intel
HP
Oracle
Teradata
Fujitsu
CSC
Accenture
Dell
Seagate
EMC
Capgemini
Hitachi
Big Data Revenue
(in $ US millions)
$1,100
$765
$550
$450
$220
$185
$160
$155
$150
$140
$140
$111
$110
Total Revenue
(in $US millions)
$106,000
$54,000
$126,000
$36,000
$2,200
$50,700
$16,200
$21,900
$61,000
$11,600
$19,000
$12,100
$100,000
Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues
Big Data
Revenue as
Percentage of
Total Revenue
1%
1%
0%
1%
10%
1%
1%
0%
0%
1%
1%
1%
0%
© S.A.R.L. Martin 2012
Abbildung 3: TOP-Anbieter, die mehr als $100 Millionen Umsatz im Big Data machen (Software, Hardware,
Services weltweit). Mit Ausnahme von Teradata liegt der Big Data-Umsatzanteil bei allen Anbieten bei rund 1%
des Gesamtumsatzes oder sogar darunter.
© S.A.R.L Martin/IT Research Juli 2012
12
Inhalt
Strategic Bulletin: BIG DATA
Wie sieht nun der $5 Milliarden Big Data-Markt in 2012 aus, wenn die „reinen“ Big Data-Anbieter gerade mal mit
5% zum Markt beitragen? Es dominieren wie immer die großen IT-Anbieter, und die haben sich alle Big Data auf
die Fahnen geschrieben. In der Abbildung 3 listen wir der Wikibon- Schätzung folgend alle IT-Anbieter, die mehr
als $100 Millionen Umsatz mit Big Data machen. Die SAP ist noch nicht dabei, steht aber mit geschätzten $85
Millionen kurz vor dieser Schwelle. Bei den Zahlen fällt zum einen auf, dass im Augenblick viel Geschäft mit Hardware und auch mit Services (beispielsweise IBM) gemacht wird, und zum anderen, dass mit Ausnahme von Teradata bei allen Anbieter der Big Data-Umsatz vernachlässigbar klein ist. Aber das soll sich ja ändern, wenn auch völlig klar ist, dass wir mit Big Data ganz am Anfang stehen. Auch ist in diesem Markt mit vielen Übernahmen der
kleinen innovativen Software-Anbieter durch die großen IT-Anbieter zu rechnen ganz analog zur BI-Übernahmewelle in den Jahren 2007/08.
Fazit Kapitel 2:
Big Data – Definition, Nutzen und Markt:
• Big Data bedeutet nicht nur ein großes Datenvolumen, sondern ist durch die vier „V“ definiert:
Volume, Velocity, Variety und Verbraucher.
• Die Nutzenpotenziale von Big Data liegen auf der Hand und zielen auf die Bottom Line:
Kosteneinsparungen, Umsatzsteigerungen, Erhöhung der Wettbewerbsfähigkeit und innovative
Geschäftsprozesse und Modelle.
• Der Markt ist jung und unreif. Wir stehen ganz am Anfang, aber eine Explosion des Marktes
ist zu erwarten: Big Data ist ein großer und schnell wachsender Markt.
Unternehmen sollten den Big Data-Markt beobachten, um nicht den Anschluss zu verlieren. Es empfiehlt
sich, Nutzenpotenziale für das Unternehmen jetzt zu identifizieren und in Abhängigkeit von einer solchen
Analyse erste Piloten zu starten.
Anbieter sollten eine glaubwürdige Position aufbauen und eine Roadmap, die klar erkennbare Werte bietet
und die notwendige Flexibilität, um im Big Data-Markt zu prosperieren.
© S.A.R.L Martin/IT Research Juli 2012
13
Inhalt
Strategic Bulletin: BIG DATA
3. Big Data-Technologien
Analytik ist im Zeitalter von Big Data wichtiger denn je, denn nur mit Analytik lassen sich die Big Data-Nutzenpotenziale erschließen. Es ist aber nicht nur das Volumen, das die Herausforderung an Analytik darstellt, sondern
auch die „Variety“, also die Menge und Diversität der Quellen, sowie die Velocity, also die Geschwindigkeit der
Datenproduktion. Big Data treibt daher auch neue Integrationswerkzeuge zur agilen Web- und Cloud-Integration
und zum Big Data Management sowie den Einsatz innovativer Datenhaltungs-Technologien, um die Petabytes, sogar Exabytes von Daten auswerten zu können: Analytische und NoSQL Datenbanken, die innovative Algorithmen
zum Zugriff- und Speicher-Management mit innovativen Ansätzen wie Spalten-Orientierung und innovativer Hardware-Technologie wie In-Memory-und verteilter Verarbeitung miteinander verbinden. Dazu kommen neue analytische Methoden und Verfahren zur Visualisierung und insbesondere zur Analyse unstrukturierter Daten wie die Textanalytik. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen.
Big Data als Quelle für Analytik
Social
Media
Data Discovery
Call Data
Records
Location Intelligence
RFID
Ereignisse
Sensoren
Big Data
Lokalisierungsdaten
Textanalytik
QuellenIdentifikation
QuellenExtraktion
Data/ Text Mining
Operative
Daten
Search
Files, XML,
Spreadsheets
Anreicherung
Data
Warehouse
Maschinendaten
Big Data-Management
Big Data-Analytik
Analytische und Not only SQL (NoSQL)-Datenhaltungssysteme
© S.A.R.L. Martin 2012
Abbildung 4: Big Data-Architektur. Die Big Data-Datenflut wird durch spezielle Datenhaltungssysteme adressiert.
Big Data bedeutet nicht nur die Datenflut, sondern auch eine Vielzahl unterschiedlichster Quellen im Internet, die
meist nicht über Schnittstellen verfügen oder die Schnittstellen haben, die nicht den vollen Datenzugriff erlauben.
Hier helfen agile Web-Integrations- und Extraktionswerkzeuge, die Daten auch ohne Schnittstellen abgreifen können. Zusätzlich sind auch semantische Suchmaschinen zur Quellenidentifikation entsprechend vordefinierter Relevanzmaße notwendig. Daten-Management muss darüber hinaus die neuen Zugriffsmethoden wie MapReduce und
andere unterstützen. Big Data-Analytik adressiert ebenfalls die neuen in der Abbildung gezeigten Themen.
3.1 Datenhaltungssysteme
Wenn die zu analysierende Datenmenge in Form von Volumen und Quellenvielzahl schneller steigt als die Leistung
von traditionellen Datenbanken, schafft man es einfach nicht mehr, Daten im Detail zu analysieren, da es schlichtweg gesagt zu lange dauert. Gartner sagt in seinem Bericht zum Magic Quadrat for Data Warehouse Database Management Systems 2010: „Gartner-Klienten stehen bei der Abfrage von Data Warehouses immer häufiger vor erheblichen Performanceproblemen. Auf Grundlage dieser Informationen dürften rund 70 % aller Data Warehouses
mit derartigen Problemen zu kämpfen haben.“
© S.A.R.L Martin/IT Research Juli 2012
14
Inhalt
Strategic Bulletin: BIG DATA
Klassifikation: Datenhaltungssysteme
Cassandra
Teradata
Couch DB
Intersystems
Hive
analytisch
NoSQL
HBase
Hadapt
Hadoop
© S.A.R.L. Martin 2012
Abbildung 5: Klassifikation der zu den relationalen Datenbanken alternativen Datenhaltungssysteme für Big Data.
Die genannten Produkte sind als Beispiel eines Vertreters dieser Klassen zu verstehen. In die Schnittmenge der analytischen und der NoSQL-Datenhaltungssysteme haben wir mit Cassandra ein Open Source spaltenorientiertes
Datenhaltungssystem und mit InterSystems eine objektorientierte Datenbank gesetzt, um auch zu zeigen, dass
NoSQL-Datenhaltungssysteme sich aus unterschiedlichen Ansätzen zusammensetzen. Eine ausführliche Klassifikation von entsprechenden Produkten befindet sich im Kapitel 4.1.
Daher haben sich neue Methoden und Technologien der Datenhaltung entwickelt, um Big Data in den Griff zu bekommen. Neben den traditionellen relationalen Datenbanken gibt es heute analytische Datenbanken, NoSQL-Datenhaltungssysteme und Datenbanken sowie Hadoop, ein Framework für skalierbare, verteilt arbeitende Software
mit der Zielsetzung, intensive Rechenprozesse mit großen Datenmengen auf Clustern von Rechnern durchzuführen. Allerdings sind diese drei Ansätze nicht trennscharf. Es gibt zwischen ihnen Überlappungen, so ist beispielsweise Hive, eine Data Warehouse-Umgebung, einerseits auf Hadoop basierend, andererseits als Data Ware auch als
analytische Datenbank zu verstehen und von den Konzepten auch als NoSQL-Datenbank zu verstehen. Die Abbildung 5 zeigt diese Klassifikation als Venn-Diagramm. Wir stellen nun die einzelnen Konzepte vor und geben dann
in Kapitel 4.1 eine Klassifikation der verschiedenen Anbieter.
Analytische Datenbanken. Analytische Datenbanken gibt es bereits seit den frühen 90er Jahren, aber ihr Erfolg im
Markt war bisher eher bescheiden. Das ändert sich jetzt im Big Data. Was machen analytische Datenbanken anders
als herkömmliche Datenbanken? Da gibt es in der Tat verschiedene Methoden, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung, neuartige Zugriffsverfahren und Algorithmen sowie Bündelungen von Hardware und Software („Data Appliances“).
All diese Methoden und Verfahren dienen der Beschleunigung des Suchens und Lesens in Datenhaltungssystemen.
Sie finden Einzelheiten dazu im Einschub. Aber diese Methoden und Verfahren schaffen an anderer Stelle Probleme: Die Transaktionsverarbeitung gemäß dem ACID-Prinzip3 ist zum Teil nicht mehr möglich. Daher sprechen wir
hier auch besser von Datenhaltungssystemen als von Datenbanken, da Datenbanken per Definition Transaktionssicherheit bieten müssen.
3
ACID (atomicity, consistency, isolation, durability) ist eine Menge von Eigenschaften,
die garantieren, dass Datenbank-Transaktionen zuverlässig abgewickelt werden.
© S.A.R.L Martin/IT Research Juli 2012
15
Inhalt
Strategic Bulletin: BIG DATA
Einschub: Methoden zur Beschleunigung des Lesens großer Datenmengen.
Beginnen wir mit der Spaltenorientierung. Herkömmliche relationale Datenbanken sind zeilenorientiert. Das
schafft bei großen Datenmengen einige Probleme, die wir jetzt zuerst beleuchten, um danach die Vorteile von
spaltenorientierten Datenbanken herauszuarbeiten.
Ein Datensatz, der beispielsweise einen Kunden beschreibt, hat vielleicht sagen wir 1.000 Attribute, aber wir
haben so viele Sätze, wie wir Kunden haben, also durchaus Millionen Sätze und unter Umstünden sogar noch
mehr. Wenn wir nun in einer herkömmlichen Datenbank nach gewissen Kunden mit bestimmten Merkmalen
(definiert über die Attribute) suchen, dann muss man eben alle Datensätze lesen. Beim Lesen stößt man
gleich an ein ganz allgemeines Problem von herkömmlichen Datenbanken. Die sind nämlich gar nicht zum
Lesen vieler Datensätze gebaut, sondern vom Design her eher transaktions-orientiert. Sprich, eine Datenbank gibt mir über einen Index in Bruchteilen von Sekunden eine bestimmte Datenmenge zum Ändern, Löschen oder Neuanlegen4. Will man also Adhoc-Abfragen auf herkömmlichen relationalen Datenbanken
durchführen, dann braucht man Indizes und Aggregate, um schnelle Antworten zu erzielen. Das bedeutet
aber, dass die Abfragen schon vorher bekannt sein müssen und durch Datenbankspezialisten aus der IT vorbereitet werden müssen (Sie bauen die Indizes und Aggregate). Mit anderen Worten, das ist teuer, weil gut
bezahlte Spezialisten notwendig sind. Das ist zudem langsam: Denn wenn man mit einer neuen Idee kommt,
zu der es noch keine Indizes und Aggregate gibt, dann müssen die erst gebaut werden. Wenn man eine Abfrage ohne eine solche Vorbereitung startet, kann der ganze IT-Betrieb empfindlich gestört werden. Indizes
und Aggregate haben noch eine weitere unangenehme Eigenschaft: Sie brauchen Platz und machen die Datenbank um einen meist zweistelligen Faktor grösser als notwendig. Damit wird sie dann immer langsamer.
Das führt dazu, dass irgendwann der Augenblick kommt, ab dem man gar keine Abfragen an die Datenbank
mehr stellt, weil die Antworten viel zu spät eintreffen. Der Nutzer ist frustriert, das Wissen liegt brach in der
Datenbank. Information wird zu einem reinen Kostenfaktor. Wissen über Kunden, Markt, Mitbewerber und
Risiken lässt sich nicht mehr anwenden. An dieser Stelle stehen heute viele Unternehmen.
Analytische Datenbanken schaffen hier Abhilfe durch ihre Spaltenorientierung. Bei einer spaltenorientierten Datenbank kann jede Spalte in einer eigenen Datei liegen, d.h. auf einen Wert eines Attributs eines Datensatzes folgt in Lese-Reihenfolge nicht das nächste Attribut des selben Datensatzes, sondern das gleiche
Attribut des nächsten Datensatzes: Die Zeilen und Spalten der Tabelle werden miteinander vertauscht. Intuitiv funktioniert dies, da in der Analytik meistens wenige Attribute von sehr vielen Datensätzen benötigt werden. Aufgrund der Spaltenorientierung müssen die restlichen Attribute nicht gelesen werden. Mit anderen
Worten: das Lesen wird drastisch reduziert, weil man durch das Vertauschen von Zeilen und Spalten nur noch
höchstens so viele Datensätze wie Attribute hat. Da die Anzahl der Attribute in der Regel klein ist gegen die
Anzahl der Datensätze, bringt das einen hohen Performance-Gewinn. Jedoch wird das Schreiben von Datensätzen dadurch jedoch sehr teuer, was man aber oft durch Differenzdateien zum Teil ausgleichen kann.
Aufgrund dieser Basiseigenschaft von spaltenorientierten Datenbanken erhält man einen weiteren Vorteil.
Man braucht keine Indizes und Aggregate mehr. Das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt. Zusätzlich lassen sich die Daten dann komprimieren. Dazu werden einfache Verfahren genutzt, die es erlauben, relationale Operationen auf den komprimierten Daten auszuführen. So können beispielsweise mehrfach vorkommende Werte durch Kürzel fixer oder variabler Länge ersetzt werden, die durch
ein Wörterbuch bei Bedarf wieder in die ursprünglichen Werte übersetzt werden können. Folgen identische
Werte direkt aufeinander, können diese Sequenzen lauflängencodiert abgelegt werden. Sortierte ganzzahlige
Daten können durch Differenzbildung zum jeweiligen Vorgänger oder zu einem lokalen Minimum in wenigen
Bits untergebracht werden. Ein solches Komprimieren bringt also Kostenvorteile, da die Datenbank „klein“
wird (Relativ zu einer zeilenorientierten Datenbank können die Daten bis zu 80% und mehr komprimiert werden.) Man erhält so weitere Performance-Vorteile.
4
Das ist das sogenannte CRUD-Prinzip: „create, read, update, delete“.
© S.A.R.L Martin/IT Research Juli 2012
16
Inhalt
Strategic Bulletin: BIG DATA
Eine weitere Beschleunigung lässt sich durch Parallelisieren der Verarbeitung auf Clustern und durch In-Memory-Verarbeitung erreichen. Das gilt sowohl für zeilen- wie auch spalten-orientierte Datenbanken. Daten
werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware-Ressourcen optimal ausgenutzt werden. Die Software ist so konzipiert, dass jeglicher Tuningaufwand entfällt, wie er in konventionellen Systemen üblich ist. Die Datenbanklösung legt Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht.
Analytische Datenbanken werden in unterschiedlichen Ausprägungsformen angeboten. Es gibt parallelisierte herkömmliche Datenbanken, die in der Regel als Appliance angeboten werden, also eine spezielle Hardware und den parallelen Zugriffsmethoden und Algorithmen. Dabei sind solche Datenbanken dann immer
noch zeilenorientiert. Dann gibt es analytische Datenbanken, die spaltenorientiert sind, aber weitgehend
Hardware-unabhängig eingesetzt werden können. Und schließlich gibt es spaltenorientierte Datenbanken,
die als Appliance teilweise mit spezieller Hardware angeboten werden, aber insbesondere In-Memory einsetzen. Schließlich sind hier auch noch objektorientierte Datenbanken zu nennen, die aufgrund ihrer Objektorientierten Struktur sowohl Transaktionsverarbeitung als auch schnelles Lesen und Suchen unterstützen.
Daneben gibt es auch noch besondere Verfahren wie beispielsweise „Database Images“ oder spezielle Data
Appliances, die die Kommunikation zwischen Server und Speicher optimieren.
Analytische Datenbanken lösen die Probleme, mit denen die Kunden heute in der Analytik kämpfen: Performance,
Skalierbarkeit und Kosten. Fassen wir nochmal die Vorteile zusammen:
• Informationen sind flexibler abrufbar und stehen bis zu 100mal schneller zur Verfügung.
• Die Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs
auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten
gespeichert wurden. Das unterstützt und schafft bessere Entscheidungen.
• Die IT wird entlastet, da die analytischen Datenbanken hoch automatisiert sind und ein spezielles
Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist.
Zwei Dinge sollten zum Schluss noch klar gesagt werden:
• Eine analytische Datenbank macht ein physikalisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische, fachliche Design der analytischen Datenbank. In diesem Sinne bleibt weiterhin ein
Information Management unabdinglich, auch wenn analytische Datenbanken eingesetzt werden. Denn ein Stammund Metadaten-Management, ein Datenqualitäts-Management, eine Information Governance und die anderen Aufgaben im Information Management bleiben auch mit analytischen Datenbanken kritische Erfolgsfaktoren.
• Eine analytische Datenbank ersetzt in der Regel nicht die herkömmlichen Datenbanken in der Transaktionsverarbeitung. Analytische Datenbanken sind eine neue Generation von Datenbanken für analytische Aufgaben im
Unternehmen. Ein Unternehmen braucht heute immer noch zwei unterschiedliche Datenbanktechnologien, eine
für die analytischen Aufgaben, eine für die Transaktionsverarbeitung. Dabei gilt natürlich der bekannte Satz:
Keine Regel ohne Ausnahme: Oracle Exadata, Kognitio WX2 und SAP HANA eignen sich sowohl für hoch-performante analytische als auch transaktionsorientierte Aufgaben. Insbesondere SAP HANA bietet hier zukünftig
ein großes Potenzial. Dabei ist allerdings der Performance-Gewinn in der Transaktionsverarbeitung deutlich geringer, denn in der Transaktionsverarbeitung braucht man ein Select auf den Einzelsatz. Der Einzelsatzzugriff
wird durch In-Memory-Verarbeitung aber kaum beschleunigt. Die In-Memory-Verarbeitung erweist erst beim
Select auf Gruppen die bekannten hohen Performance-Gewinne.
© S.A.R.L Martin/IT Research Juli 2012
17
Inhalt
Strategic Bulletin: BIG DATA
NoSQL Datenhaltungssysteme. Sie ergänzen das traditionelle relationale Datenbankmodell und zeigen genau wie
verschiedene analytische Datenbankenmethoden auch, dass das relationale Modell keinen Alleinstellungsanspruch
als „einziges“ Datenhaltungsmodell mehr hat. Genauso wie verschiedene Methoden analytischer Datenbanken
nicht neu sind, sind auch verschiedene NoSQL-Ansätze schon seit zum Teil langer Zeit im Einsatz. In den 90er Jahren boten objektorientierte Datenbanken Alternativen zum relationalen Modell. Die hatten einen grundlegenden
Ansatz, der in allen heutigen NoSQL-Datenhaltungssystemen zu finden ist. Sie sind schemafrei und setzen auf
alternative Techniken, um festzulegen, wie Daten gespeichert werden. Dazu kommt der Einsatz anderer Protokolle
als SQL für die Kommunikation zwischen Anwendung und Datenhaltungssysteme. Ähnlich wie bei den analytischen Datenbanken ist die Architektur vieler NoSQL-Datenbanken auf Skalierbarkeit ausgelegt: Die Verarbeitung
und Verwaltung großer Datenbestände erfolgt verteilt mittels Cluster aus Standardsystemen.
Neben den objektorientierten Datenbanken gibt es weitere Ausprägungen von NoSQL-Datenhaltungssystemen: dokumentenorientierte Datenbanken („document stores“), Key-Value-Datenbanken, spaltenorientierte Datenbanken
und Graphen-Datenbanken. Dokumentenorientierte Datenbanken speichern „Texte“ von beliebiger Länge mit
unstrukturierten Informationen und ermöglichen das Suchen auf Basis von Dokumentinhalten. Die gespeicherten
Dokumente müssen nicht die gleichen Felder enthalten. XML-Datenbanken sind dokumentorientierte Datenbanken
mit semi-strukturierten Daten.
Graphen-Datenbanken (oder: Entity-Relationship-Datenbanken). Sie basieren auf der Darstellung von Daten
als Knotenpunkte (Entitäten) und Beziehungen (Relationen) zwischen den Knoten. Statt traditioneller Datensätze
erstellt man hier Knoten, die durch die Beziehungen, die man zwischen ihnen definiert, miteinander verknüpft werden. Dabei wird Information zu den Knoten und ihren Beziehungen als Eigenschaften (Attribute) gespeichert. Graphen-Datenbanken haben insbesondere Vorteile, wenn wie bei (sozialen) Netzen die Beziehungen zueinander im
Mittelpunkt stehen, man also Netze abbilden will. Graphen-Datenbanken gehen auf Entwicklungen im Computer
Aided Software Enginering (CASE) der späten 80er Jahre zurück.
Key-Value-Datenbanken. Hier weist ein Schlüssel auf einen Wert, der in seiner einfachsten Form eine beliebige
Zeichenkette sein kann. Key-Value-Datenbanken sind auch nicht neu. Sie sind als traditionelle Embedded-Datenbanken wie dbm, gdbm und Berkley DB in der Unix-Welt bekannt geworden. Key-Value-Datenbanken arbeiten entweder als In-Memory-System oder als On-Disk-Version.
Spaltenorientierte Datenbanken. Sie gehören gemäß der hier benutzten Klassifikation in die Klasse der analytischen Datenbanken, was zeigt, dass analytische und NoSQL-Datenhaltungssysteme sich nicht disjunkt zueinander
verhalten (siehe auch Abb. 5).
Hadoop ist dabei, einen Standard der Zukunft in Big Data-Datenhaltung und Daten-Management zu setzen. Es ist
ein Apache Software Foundation Open Source-Entwicklungsprojekt und besteht aus drei Komponenten: der Speicherschicht HDFS (Hadoop Distributed File System), der von Google vorgeschlagenen Programmierumgebung
MapReduce zur parallelen Verarbeitung von Abfragen und einer Funktionsbibliothek. Zu Hadoop gehört auch die
HBase, ein skalierbares Datenhaltungssystem zur Verwaltung sehr großer Datenmengen innerhalb eines HadoopClusters. Die HBase ist eine Open Source-Implementierung der Google BigTable.
Die Speicherschicht HDFS speichert in der Standardeinstellung Daten in 64MB Blöcken, was paralleles Verarbeiten unterstützt und exzellent zum Lesen großer Datenmengen geeignet ist. Der Nachteil ist, dass eine solche Verarbeitung naturgemäß Batch-orientiert ist und sich deshalb nicht für Transaktionsverarbeitung oder Echtzeitanalysen eignet. HDFS hat schließlich eingebaute Redundanz. Es ist designt, um über hunderte oder tausende von preiswerten Servern zu laufen, von denen man annehmen kann, dass immer wieder einige ausfallen. Daher wird in der
Hadoop-Standardeinstellung jeder Datenblock dreimal gespeichert. Neue Daten werden zudem immer angehängt,
niemals eingefügt („no insert“).
Dazu kommen noch einige Ergänzungen wie die HLQL (high level query languages) Hive, Pig und JAQL. Hive ist
eine Data Warehouse-Umgebung, die auf einer Entwicklung von Facebook beruht. Zu Hive gehört die HLQL „QL“,
© S.A.R.L Martin/IT Research Juli 2012
18
Inhalt
Strategic Bulletin: BIG DATA
die auf SQL beruht. Da es für die Hadoop-Programmierumgebung MapReduce noch nicht sehr viele Ressourcen
gibt, die damit umgehen können, sind HLQLs wie QL sehr willkommen, da sie den Entwicklern die Verwendung
einer SQL-ähnlichen Syntax erlauben. Eine andere HLQL ist Pig. Mit Hilfe von Pig sind parallele Ausführungen
komplexer Analysen einfacher als mit MapReduce nachvollziehbar und durchführbar. Darüber hinaus bietet Pig
auch im Gegensatz zu MapReduce eine automatisierte Optimierung komplexer Rechenoperationen. Pig ist auch
offen und lässt sich durch eigene Funktionalitäten ergänzen. Zum Managen von Hadoop-Anwendungen dienen
Chukwa, das die Echtzeitüberwachung sehr großer verteilter Systeme ermöglicht, und ZooKeeper, das zur Konfiguration von verteilten Systemen dient.
Obwohl Hadoop auf Technologien und Konzepten beruht, die von Big Data-Unternehmen wir Facebook und
Google stammen, so ist doch heute noch sehr deutlich zu sagen, dass diese Technologien noch sehr jung und auch
unausgereift sind. Daraus folgt, dass der Einsatz solcher Technologien ausgewiesene und am Markt nur schwer zu
findende Mitarbeiter benötigt. Dazu kommt, dass viel Funktionalität noch in Eigenentwicklung zu leisten ist.
Zum Schluss sollte noch betont werden, dass all diese Datenhaltungssysteme auch „as a Service“ als Cloud
Computing angeboten werden können. Das gilt für alle Formen des Cloud Computings: private, öffentliche oder
hybride Wolke.
3.2 Big Data Management
Traditionelles Information Management stößt jetzt ebenfalls an seine Grenzen. Es hat sich zu „Big Data
Management“ weiterentwickelt. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information
Management entsprechend fort: Datenintegration, Data Lineage auf Basis eines Repository und DatenqualitätsManagement5. Eine Auflistung der entsprechenden Anbieter finden Sie in Kapitel 4.1.
Bei der Big Data-Integration werden zunächst einmal die traditionellen Datenintegrations-Technologien wie ETLund ELT-Prozesse6 und Echtzeit-Verarbeitung (change data capture, event triggering, Web Services) weiter genutzt.
Aber es gibt auch einige Innovationen. Man braucht jetzt – das ist neu – Unterstützung für Hadoop, also Import,
Export und interne Verarbeitung. Das setzt sich mit der Nutzung von Hadoop-Konstrukten zur Beschleunigung von
Integrationsprozessen fort: Basierend auf MapReduce gibt es eine schnelle und leistungsfähige Flat-FileVerarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer
Funktionen. Beispiel hierzu ist das FileScale-Verfahren von Talend, das auch von Anbietern wie Uniserv genutzt
wird. Alternativ kann man hier aber auch auf alte und sehr bewährte Hochleistungs-Extrakt-Technologien wie
DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data „wiederentdeckt“ werden und inzwischen auch
Schnittstellen zu Hadoop haben.
Bei der Extraktion von Big Data-Quellen geht man auch neue Wege. Es gibt inzwischen browser-basierte
Web-Extraktionswerkzeuge (Beispiel: Kapow Software), die Web-Daten ohne vordefinierte Schnittstelle und
ohne Programmierung visuell erschließen. Das ist ein wichtiger Vorteil, denn Schnittstellen im Big Data sind entweder in vielen Fällen nicht vorhanden, müssten also erst langwierig spezifiziert und programmiert werden, oder
sie leisten nicht das, was man gerade braucht. Schnittstellen schränken vielfach den Zugriff auf Daten ein. Daten
sind so dem Zugriff entzogen. Ein solches Extraktionswerkzeug dagegen gibt Zugriff auf alle sichtbaren Daten und
zwar sofort und auch in Echtzeit. Nicht nur Daten können so extrahiert werden, sondern jede Information aus WebApplikationen. Die agilen Extraktionswerkzeuge können auf jede Schicht von Web-Applikationen zugreifen und
Information extrahieren. Ein weiterer Vorteil dabei: Diese browserbasierte, visuelle Schnittstelle ist für alle Quellen im Big Data immer die gleiche.
5
6
Im Text genannte Anbieter stellen Beispiele dar: Eine Empfehlung dieser Anbieter ist nicht Zweck dieses Beitrages.
ETL = extract, transform, load ; ELT = extract, load, transform. Beide Verfahren unterscheiden sich durch die Reihenfolge der drei
Schritte. Bei ETL wird der transform-Schritt in der Datenintegrations-Plattform ausgeführt, bei ELT in der Datenbank.
© S.A.R.L Martin/IT Research Juli 2012
19
Inhalt
Strategic Bulletin: BIG DATA
So beschafft man sich die notwendigen Web-Daten automatisiert und schnell. Dabei darf man allerdings gesetzliche Aspekte nicht vergessen. Selbst wenn Daten nicht geschützt und öffentlich sind, verstößt man unter Umständen
bereits gegen die AGBs der Seiten, wenn man automatisch ausliest. Daten, die auf den Netzgemeinschaften als privat gekennzeichnet sind, darf man so natürlich unter keinen Umständen nutzen. Bei öffentlichen Daten ist ein optin den Kunden mehr als empfehlenswert. Die juristischen Details wollen wir aber hier nicht weiter vertiefen, die
muss jeder in seinem Unternehmen beachten.
Vor der Extraktion von Datenquellen im Web kommt noch das Identifizieren von relevanten Datenquellen. Dazu
setzt man Suchmaschinen ein, die also inzwischen auch zu Werkzeugen im Information Management werden. Der
Einsatz von Suchmaschinen zur Quellenidentifikation ist heute zumeist ein manuelles Verfahren. Man definiert ein
Relevanzmaß, um Quellen bewerten und miteinander vergleichen zu können. Durch Suchmaschinen gefundene
Quellen werden dann gemäß dem Relevanzmaß gefiltert, und die identifizierten Quellen stehen dann zur Extraktion zur Verfügung.
Big Data Lineage. Data Lineage basiert auf einem Repository zur Verwaltung von Metamodellen, Modellen und
Metadaten sowie der Verwaltung aller Transformationsregeln. Das Vorgehen im Big Data ist analog, aber hier sitzt
gleich ein erstes Problem, nämlich das der Gewinnung von Metadaten aus dem Big Data. Hier kann mittels Taxonomien per Textanalytik (siehe Kapitel 3.3) Abhilfe geschaffen werden. Hilfreich ist auch eine Wikifizierung der
Daten. Gerade im Big Data kann ein Wiki-Ansatz, der auf der Intelligenz und dem Fleiß von vielen basiert, als Methodik dahin führen, dass Erkenntnisse aus dem Big Data schneller gewonnen werden und mit den anderen geteilt
werden. So wie Wikipedia das Wissen der Menschheit in verschiedensten Domänen erschlossen hat, so sollten wiki-ähnliche Ansätze, egal welche Technologien zu Grunde liegen, das Wissen aus dem Unternehmen und aus seinem Ökosystem (Intranet und Internet) erschließen.7
Big Data-Repository
■ Data Lineage auf Basis eines Repository,
■ Managen des Business-Vokabulars,
■ Big Data Basis-Anforderungen
• Performance und Skalierbarkeit
• Echtzeit-Nutzung
■ Ein Repository sollte aktiv sein.
„Aktiv“ heißt:
Repository
• Managen des Life Cycle der
Service-Komponenten
• Komponenten werden getestet,
simuliert und aktiviert,
• Funktionen wie eine CMDB
„Search, Find, Use“:
Knowledge Management
& Service Execution
© S.A.R.L. Martin 2012
Abbildung 6: Auch im Big Data Management steht ein Repository im Zentrum.
7
Dan Tapscott und Anthony D. Williams: Wikinomics http://www.wikinomics.com/book/
© S.A.R.L Martin/IT Research Juli 2012
20
Inhalt
Strategic Bulletin: BIG DATA
Schließlich werden alle Objekte der Datenintegrations-Plattform im Big Data-Repository abgebildet, damit sie vom
Ursprung bis zum Ziel über den gesamten Informationslebenszyklus verfolgt werden können und bei Änderungen
so weit wie möglich auch alle betroffenen Objekte gleich mit geändert werden. Ein Big Data-Repository muss also in diesem Sinne aktiv sein und wie eine CMDB (configuration management database) arbeiten. Das ist im Big
Data wichtiger denn je, denn sonst verliert man schnell den Überblick über die Menge an Metadaten und Vielzahl
an Modellen. Idealerweise sollte deshalb ein Big Data-Repository Modelle wie das OMG M3-Modell unterstützen,
also alles zusammen genommen, eine Ontologie verwalten können. Das zeigt, dass das Repository im Big Data
noch wichtiger als bisher wird.
Es kommt jetzt auch noch auf die Performanz an, die mit der Repository-Technologie erreicht werden kann. Viele
Repository-Technologien basieren immer noch auf relationalen Datenbanken. Aufgrund der Vernetzung der Objekte in einem Repository sind aber zur Implementieren Graphen-Datenbanken in der Regel besser geeignet, da sie
nicht nur das physikalische Datenbankmodell vereinfachen, sondern auch eine höhere Performance bieten. Weitere Performance gewinnt man durch Parallelisierung der Verarbeitung. Hier bieten jetzt auch In-MemoryDatenbanken als Infrastruktur eines Big Data-Repositorys eine interessante Lösung. Wir betreten hier aber definitiv Neuland!
Big Data Quality. Datenqualität spielt auch im Big Data eine wichtige Rolle, vor allem dann, wenn Unternehmensdaten mit Information aus dem Big Data angereichert werden sollen, also beispielsweise Kundendaten durch
Daten aus den sozialen Medien oder Patientendaten mit therapeutischen Daten im Gesundheitswesen. Die Grundaufgaben von Data Quality Management bleiben die gleichen. Es geht wie immer um das Profiling, das Cleansing
und das Anreichern und Abgleichen mit Referenzdaten. Aber auch hier steigen im Big Data die Bedeutung von Datenqualität – das Schaffen des „single point of truth“ ist beim gegebenen Datenvolumen schwieriger geworden –
und die Anforderungen an die Performanz der Datenqualitätslösungen.
Auf die Performance im Big Data Management kommt es also besonders an: Alle Werkzeuge, Services und Plattformen müssen entsprechend skalierbar sein. Dazu kommen die Anforderungen der neuen Methoden wie Hadoop.
Ein weiteres „Muss“ ist die Service-Orientierung der Plattform und der Werkzeuge. Dann lassen sich auch hybride
Cloud-Lösungen betreiben, beispielweise ein Datenqualitäts-Management as a Service in ETL-Prozessen, um Social Media-Daten über Referenzdaten auf korrekte Adressen zu prüfen. Einer der ersten Anbieter im deutschsprachigen Raum hierzu ist die Uniserv.
Das alles erfordert aber neue Skills insbesondere in der IT. In einigen Unternehmen wie Amazon, eBay, Facebook,
Google u.a., die sich schon einige Zeit mit Big Data beschäftigen, haben sich neue Rollen wie Data Scientists gebildet. Das sind Mitarbeiter mit folgendem Profil:
• Technische Expertise: Tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig.
• Problembewusstsein: die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen.
• Kommunikation: die Fähigkeit, komplexe Dinge per Anekdoten durch einfach verständliche und gut
kommunizierbare Sachverhalte darzustellen.
• Kreativität: die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen („thinking out oft he box“).
Im Endeffekt wird so Datenmanagement wieder zur eigentlichen und Hauptaufgabe der IT8, während das Beherrschen der Prozesse und der Analytik die Hauptaufgabe der Fachbereiche ist.
8
Das unterstreichen einige neuere Marktstudien, siehe den Beitrag bei InformationAge
http://www.information-age.com/channels/information-management/features/1687078/its-focus-shifts-to-data-management.thtml
© S.A.R.L Martin/IT Research Juli 2012
21
Inhalt
Strategic Bulletin: BIG DATA
3.3 Big Data-Analytik
Schauen wir uns jetzt die wesentlichen Innovationen in Analytik an, die die Big Data-Technologie ausmachen und
so die traditionellen BI-Methoden, Werkzeuge und Technologien erweitern und fortsetzen.
Data Discovery. Unter Data Discovery versteht man eine neue Generation von Business Intelligence(BI)-Werkzeugen, die sich durch außerordentliche Benutzerfreundlichkeit und Flexibilität auszeichnen. Dazu kommt die Verwendung von In Memory-Technologien, die intern zur Speicherung und Verarbeitung genutzt werden. Der große
Vorteil der In Memory-Technologie ist die Performance: Daher sind Data Discovery-Werkzeuge insbesondere zur
Big Data-Analytik geeignet.
Data Discovery-Werkzeuge setzen auf Visualisierung, interaktive, intuitive Analyse, Kollaboration und Autonomie
der Endanwender. Die Gestaltung der Anwendung erfolgt hauptsächlich an der Benutzeroberfläche und kann auch
durch die Nutzer selbst vorgenommen werden. Hier hat sich auch der Begriff „Selbstbedienungs(self-service)BI“ gebildet. Die Nutzer dieser Werkzeuge erhalten eine hohe Autonomie, und die Rolle der IT entwickelt sich in
Richtung eines Service-Anbieters, der die Plattform für Selbstbedienungs-BI bereitstellt, betreibt und auch die notwendige Beratung zur Nutzung leistet.
Die Anwender von Data Discovery-Werkzeugen können auf zentrale Daten via Client-Server, Web-Browser oder
mobile Geräte wie Tablets zugreifen. Im mobilen Internet kann man für jede konkrete Aufgabenstellung eine eigene App erstellen, die dann ganz gezielt auf einen Geschäftsprozess zugeschnitten ist und direkt zu entsprechenden
Arbeitsschritten führt.
Weiterhin ist im Data Discovery eine deutlich bessere Teamunterstützung als mit den traditionellen BI-Werkzeugen
möglich. So können die Anwendungen via Web, E-Mail oder Social Media-Werkzeugen mit Geschäftspartnern ausgetauscht sowie in Office- oder andere Anwendungen eingebunden werden. Diese kollaborativen Aspekte gehen
noch weiter: Es können Bemerkungen zu den Daten an Sichten gekoppelt und mit anderen Anwender geteilt werden. Damit wird an die Prinzipien der schon im Kapitel 3.2 genannten Wikifizierung angeknüpft.
Hersteller wie QlikTech, Tibco Spotfire und Tableau gelten als die Trendsetter im Data Discovery. Dazu kommen
noch die beiden Open Source-Anbieter Jaspersoft und Pentaho. Weitere Anbieter finden Sie in der Klassifikation
in Kapitel 4.1.
Textanalytik. Das ist eine neue Klasse von Analytik, die linguistische Verfahren mit Suchmaschinen, Text Mining,
Data Mining und Algorithmen des maschinellen Lernens verbindet. Mit Textanalytik lassen sich Daten aus dem Big
Data systematisch auszuwerten, aber viele Unternehmen sprechen nicht darüber. Man will seinen Kunden nicht gerne sagen, dass man inzwischen eine nahezu gläserne Transparenz geschaffen hat. Daher ist es hier ebenfalls wichtig, alles konform mit den Datenschutzgesetzen zu halten.
Textanalytik wie jede Analytik sollte stets mit einem Performance Management verbunden sein ganz im Sinne des bekannten Leitsatzes: Man kann nur managen, was man auch messen kann. Benötigt werden unter anderem Metriken
zur Berechnung der Relevanz von Quellen und der Vernetzung von Quellen, Scorecards zum Visualisieren und Verdichten der Monitoring-Ergebnisse und schließlich auch ein Reporting, insbesondere ein Ausnahme-Reporting, um
automatisch Auffälligkeiten in den Social Media wie ein Anstieg von Tags, von Autoren, von Threads etc. anzuzeigen.
Auch wenn Textanalytik-Lösungen dem Namen nach als Komplettlösungen daherkommen, heißt das nicht, dass
diese „Produkte“ out of the box einsatzbereit sind. Textanalytik stellt im Moment ein arbeitsintensives und sehr lohnendes Feld für Berater dar. Eine individuelle Beratung ist notwendig, bis einerseits die Unternehmen entsprechende Kenntnisse aufgebaut haben, und andererseits die Hersteller ihre Tools soweit standardisiert und parametrisiert haben, dass die Anwender damit aus vordefinierten Bausteinen bestimmte Klassen von Lösungen erstellen
können. Zudem stellt sich auch in der Textanalytik ein ähnliches Problem wie in Data Mining: Die Interpretation
der Ergebnisse erfordert ein tiefes Fachwissen. Denn mittels mathematischer Verfahren gefundene Strukturen und
© S.A.R.L Martin/IT Research Juli 2012
22
Inhalt
Strategic Bulletin: BIG DATA
Beziehungen sind zwar faktisch richtig, aber solche Fakten müssen nicht unbedingt etwas mit der realen Welt zu
tun haben. Das gilt ganz besonders für gefundene Fakten aus dem Big Data, denn Bewertungen können aus Freundschaft erfolgt sein, Meinungen in Blogs können manipuliert und Profile in sozialen Netzen auch frei erfunden sein.
Daher ist es ganz wichtig, die durch Textanalytik gefundenen Fakten als Hypothesen auf Plausibilität zu testen. Das
ist heute in den meisten Fällen dem Menschen/Berater vorbehalten.
Die Marktführer in Textanalytik kommen aus den Reihen der großen BI-Anbieter: IBM, SAP und SAS Institute.
Dazu kommen eine ganze Reihe kleiner und sehr kleiner Unternehmen, die sehr erfolgreich bestimmte Nischen in
diesem Markt besetzen (siehe Kap. 4.1).
Location Intelligence. Das mobile Internet bringt eine Konvergenz von Information, Zeit und Raum. Mit Hilfe von
Lokalisierungsdaten lässt sich jetzt Information nicht nur in einen zeitlichen Kontext stellen („Echtzeit-Information“), sondern auch in einen zeitlich-räumlichen Kontext. So kann beispielsweise ein Händler zukünftig in einem
realen Supermarkt wie im Webshop à la Amazon Kaufempfehlungen geben. Denn auf Basis von Lokalisierungsdaten weiß er, welcher seiner Kunden sich vor welchem Regal befindet. Das stellt Kundenwissen in den Zeit/RaumKontext und schafft Innovation in der Kundenkommunikation.
Voraussetzung ist hier aber eine Geocodierung, die jetzt im Zuge von Big Data neue Nutzenpotenziale bietet. Geocodierung reichert Daten um geografische Daten an und schafft Location Intelligence. Hier etablieren sich gerade
neue Anbieter im deutschsprachigen Markt wie die geoXtend. Das bedeutet für Adressdaten eine neue Datenqualität, die über traditionelle Referenzdaten hinausgeht. Jetzt lässt sich jede Adresse in einer Karte darstellen. Der
Nutzen ist ein Erkennen von räumlichen Mustern und Trends durch Visualisierung, Analyse und Vorhersage. Das
ist auch die Voraussetzung für die Echtzeit-Location Intelligence mit der man mit Kunden in einem Einkaufszentrum interagieren kann wie in einem Webshop mittels Einladungen, Vergleichen und Empfehlungen.
Fazit Kapitel 3:
Big Data-Technologien bestehen aus Big Data-Datenhaltungssystemen, Big Data Management und Big
Data-Analytik.
Big Data-Datenhaltungstechnologien basieren nicht mehr unbedingt auf Datenbanken. Eine Transaktionsverarbeitung ist in vielen Fällen nicht möglich. Auch eine Echtzeitverarbeitung ist nicht mehr in jedem dieser
Systeme machbar.
• Im Big Data verliert die relationale Datenmodellierung ihren Alleinstellungsanspruch: Sie wird durch alternative Datenmodellierungsmethoden ergänzt, die auf schnelles und hochperformantes Suchen und Lesen
ausgelegt sind.
• Der Geschwindigkeitszuwachs bei Analysen ist enorm und kann durchaus einen Faktor von 1.000 und mehr
bedeuten. Allerdings hängt dieser Performance-Gewinn von der Beschaffenheit der Daten und der Art der
Analyse ab. Daher gibt es nicht die „beste“ Technologie oder das „beste“ Produkt, das immer die schnellsten Ergebnisse bringt.
Big Data Management steht auch vor Performance und Skalierbarkeits-Herausforderungen. Parallel- und InMemory-Verarbeitung sowie der Einsatz von NoSQL-Datenbanken für Repositorys bieten hier Auswege.
• Über traditionelle Konzepte wie den „single-point-of-truth“ muss neu nachgedacht werden, da Datenkonsistenz über die Vielfalt der Datenquellen in der Regel nicht mehr machbar ist.
Big Data-Analytik hat neben der Steigerung der Performance und Skalierbarkeit der Werkzeuge drei weitere
Schwerpunkte:
© S.A.R.L Martin/IT Research Juli 2012
23
Inhalt
Strategic Bulletin: BIG DATA
• die Analyse unstrukturierter Daten, beispielsweise durch Textanalytik,
• Selbstbedienungs-BI, die durch Visualisierung, intuitive Bedienung und kollaborative Werkzeuge die Autonomie der Nutzer in den Fachabteilungen und auch Teams besser unterstützt,
• Datenanreicherungsprozesse, die die Voraussetzung bilden, neue Datentypen zu analysieren, beispielsweise
Geocodierung zur Analyse von Lokalisierungsdaten.
• Ohne die Menschen geht es nicht: Die Mitarbeiter müssen motiviert und mitgenommen werden, auch ins
Big Data. Dazu dienen die Data Scientists, die Mediatoren zwischen IT und Fachabteilung sind. Ihre Aufgabe ist das Erschließen von Big Data-Potenzialen.
Viele Big Data-Technologien sind noch jung und unausgereift. Neben der Frage bei der Technologieauswahl,
ob eine Technologie robust genug für den beabsichtigten Einsatz im Unternehmen ist, ist auch beachten, ob
genügend erfahrene Mitarbeiter zu finden sind, die diese Technologien beherrschen und wie viel Eigenentwicklung notwendig ist.
© S.A.R.L Martin/IT Research Juli 2012
24
Inhalt
Strategic Bulletin: BIG DATA
4. Big Data Roadmap
4.1 Marktspieler
Die folgende Auflistung von Anbietern erhebt keinen Anspruch auf Vollständigkeit. Sie fokussiert auf den deutschsprachigen Raum und enthält eine Reihe von lokalen Anbietern.
Analytische Datenhaltungssysteme. Die Klassifikation folgt der Abbildung 5.
Analytische, SQL-MPP-Datenhaltungssysteme: IBM DB2 (InfoSphere Warehouse), IBM Smart Analytics System, IBM Netezza, Kognitio, SAS Scalable Performance Data Server (mit SAS Grid Computing und SAS In-Memory-Analytics), Teradata. Open Source: Actian VectorWise, EMC/Greenplum
Analytische, NoSQL-Datenhaltungssysteme (ohne In-Memory-Datenverarbeitung): DataStax, Illuminate,
HP/Vertica, Kx Systems, Sand Analytics, SAP Sybase IQ, Teradata/AsterData, Vectornova. Open Source: Apache
Cassandra, Apache Hadoop HBase, CouchDB, InfoBright, MongoDB.
Analytische, NoSQL-Datenhaltungssysteme (mit In-Memory-Datenverarbeitung): 1010Data, Exasol, IBM
Smart Analytics Optimizer, ParAccel, SAP HANA.
Spezielle Datenhaltungssysteme (Technologie in Klammern): CrossZSolutions (QueryObject System), dimensio informatics (minimal-invasives Performance-Tuning), InterSystems (OODB), HPCC Systems (Big Data Framework à la Hadoop), Oracle Exadata Database Machine (Data Appliance mit Massive Parallel Grid), Panoratio
(Database Images).
Hadoop Distributoren: Cloudera, Hortonworks, MapR.
Analytische Datenbanken bringen den Nutzern ganz neue Möglichkeiten, sowohl in der Skalierbarkeit, der
Performance als auch in den Betriebskosten. Wer heute komplexe Analysen auf Big Data durch viele Benutzer mit vielen Abfragen ausführt und eine hohe Performance und Skalierbarkeit bei einfacher Wartbarkeit
benötigt, sollte analytische Datenbanken auf jeden Fall berücksichtigen. Wir meinen: Eine Evaluation lohnt
sich auf jeden Fall. Damit sollte man auf keinen Fall mehr warten!
Zum Schluss dieser Aufstellung notieren wir noch führende Anbieter von „Data as a Service“, also Cloud-Lösungen für analytische Datenhaltungssysteme: 1010Data, ClickFox, Exasol, Tresata.
Big Data-Management.
Datenintegration, ETL, ELT: IBM, Informatica, Oracle, Pervasive, SAP, SAS Institute/Dataflux, SnapLogic,
Splunk, Syncsort, Talend, Theobald Software, Tibco, Versata, Uniserv. Open Source: CloverETL, JBOSS Enterprise Middleware, Jitterbit, JumpMind, Talend
ETL – Spezialwerkzeuge semantische Web-Crawler/-Extraktion: 30 Digits Web Extractor, Brainware, Connotate,
Fetch Technologies, Kapow Software, Lixto, Teezir
Big Data-Analytik.
Data Discovery: Datameer, Karmasphere, IBM Cognos, MicroStrategy, Oracle, QlikTech, SAP, SAS Institute,
Splunk, Tableau Software, Tibco/Spotfire. Open Source: Jaspersoft, Pentaho.
Location Intelligence: deCarta, Digital Globe, DMTI Spatial, ESRI, geoXtend, Google Earth, Integeo, mapdotnet,
MetaCarta, Microsoft/VisualEarth, Navteq, Oracle, Pitney Bowes Software, Talent Information Systems, TomTom
Global Content, VisTracks
© S.A.R.L Martin/IT Research Juli 2012
25
Inhalt
Strategic Bulletin: BIG DATA
Textanalytik: Attensity, Clarabridge, Digital Reasoning, IBM, SAP, SAS Institute, StatSoft, Temis Group, Thomson Reuters/Clear Forest, Treparel. Open Source: Gate, Python NLTK, R (TM module), RapidMiner
In der Big Data-Analytik spielen natürlich im Endeffekt alle Verfahren der traditionellen Business Intelligence eine
Rolle. Daher lassen sich auch die Werkzeuge der traditionellen BI-Anbieter in der Big Data-Analytik verwenden,
insbesondere auch die der prädiktiven Analysen. Eine Zusammenstellung dieser Anbieter finden Sie beispielsweise
im White Paper „Performance Management und Analytik – Business Intelligence trifft Business Process Management und Big Data“9.
4.2 Pentaho bei TravelTainment – the amadeus leisure group – Analyse großer
Datenmengen und verbesserte Reporting-Services
TravelTainment entwickelt Software-Lösungen für die Touristik. Die Lösungen des Unternehmens werden von großen internationalen Reiseportalen in ganz Europa, wie opodo.de, tui.de, expedia.co.uk und thomascook.fr, sowie
mehrere Tausend Reisebüros in mehr als 30 Ländern, eingesetzt. TravelTainment gehört seit 2006 zur Amadeus Leisure Group, die weltweit mehr als 400 Mitarbeiter beschäftigt.
Die Herausforderung. Reise-Websites müssen äußerst benutzerfreundlich und schnell sein – nicht nur aufgrund des
hohen Wettbewerbsdrucks in der Branche, sondern auch, um der Dringlichkeit von Reisebuchungen gerecht zu werden. Wer eine Reise bucht, möchte oder muss die Transaktion nach Möglichkeit mit nur einem Besuch der Website abschließen. Der Kunde ist sich dabei meist nicht bewusst, wie viele Terabyte an Daten die Anwendung verarbeiten muss. Er wünscht sich lediglich einen schnellen und effizienten Service. Angesichts des stetig wachsenden
Online-Reisemarkts erwarten die zahlreichen Geschäftskunden von TravelTainment (Reiseveranstalter, Reiseportale usw.) auch mehr Einblicke in ihre Daten und Möglichkeiten zur Berichterstellung, um die Planung von Aktionen
und neuen Services entsprechend zu unterstützen.
TravelTainment hatte eine Reihe älterer Systeme für die Berichterstellung im Einsatz, die rund um die verschiedenen Produkte des Unternehmens gewachsen waren. Diese boten jedoch nur wenig Einblick und begrenzte Möglichkeiten zur Berichterstellung. Zudem waren die Daten weder an einem Ort konsolidiert, noch gab es ein zentrales Reporting-Tool. Daher musste die IT-Abteilung von TravelTainment sehr viel Zeit und Mühe für die Konsolidierung der Daten verschiedener Produkte zur Berichterstellung aufwenden. Vor diesem Hintergrund entschied das
Unternehmen, alle seine Daten in ein einziges Data Warehouse zu verlagern und ein zentrales Berichterstellungssystem einzusetzen.
Folgende Kriterien wurden für das Reporting-System definiert:
• Professioneller Support für umfassende Analysen,
• Selbstbedienungsanalysen und Berichterstellung für Geschäftskunden,
• Möglichkeit zur Analyse von Daten aus Hadoop und Hive,
• Open Source,
• Kostengünstige Lösung.
Die Lösung. TravelTainment entschied sich für Pentaho Business Analytics als Berichtserstellungs- und AnalyseTool, da es am besten die Kriterien erfüllte. Es nutzt vor allem die folgenden Komponenten von Pentaho Business
Analytics:
• Reporting – Das web-basierte interaktive Reporting unterstützt TravelTainment bei der schnellen Ausführung von
Berichten und bei der On-Demand-Bereitstellung kundenorientierter Berichte.
9
siehe http://www.wolfgang-martin-team.net/BI-BPM-SOA_dt.php , Kapitel 9.
© S.A.R.L Martin/IT Research Juli 2012
26
Inhalt
Strategic Bulletin: BIG DATA
• Analyse – Dank der intuitiv nutzbaren, interaktiven Web-Oberfläche können Geschäftsanwender aus nicht technischen Bereichen ihre Daten mit schnellen Antwortzeiten analysieren und visualisieren.
TravelTainment verwendet Pentaho Business Analytics in einer Open Source-orientierten Umgebung mit großen
Datenmengen:
• Rabbit MQ für einen robusten Message Bus als erstes Ziel für Übergangsdaten,
• Apache HBase/MapReduce für schnelle Antwortzeiten und detaillierte Daten,
• Infobright SQL als Selbstbedienungsschnittstelle,
• Pentaho Business Analytics für den Selbstbedienungs-Datenabruf sowie für Analyse und Reporting.
Ergebnisse:
• Verbesserung der Kundenzufriedenheit – Dank flexibler und schnellerer Reporting-Funktionen führt TravelTainment nun selbst für die größten Datensätze die meisten Berichte täglich oder stündlich aus. Außerdem können bei
Bedarf Ad-hoc-Berichte erstellt werden – ganz ohne IT-Support. Dies spart viel Zeit und Geld im Bereich der ITRessourcen. Außerdem wird die Kundenzufriedenheit verbessert. Da sich Berichte ganz einfach erstellen lassen,
fügt TravelTainment stets neue Berichte hinzu, die sich an den Kundenanforderungen orientieren.
• Dreimal schnelleres Reporting – TravelTainment kann mit Pentaho Berichten bis zu drei mal schneller erstellen
und so zügiger Kundenanfragen bearbeiten. Ein kleines Team von Analysten kann nun Berichte erstellen, die bisher die Beteiligung des IT-Teams erforderten.
• Entwickler können sich auf die Verbesserung der Plattform konzentrieren – Dank des Selbstbedienungsaspekts von
Pentaho Business Analytics können die Geschäftsanwender selbständig ihre Analysen und Berichte erstellen, sodass
sich das Entwicklungs-Team von TravelTainment ganz auf die Verbesserung der Plattform des Unternehmens konzentrieren kann. Dies hat zu einer effizienteren Nutzung von Personalressourcen im ganzen Unternehmen geführt.
• Erschließen großer Datenmengen – Pentaho Business Analytics versetzt TravelTainment in die Lage, seine sehr
großen Datenmengen so für Berichte und Analysen auszuwerten und zu visualisieren, dass auch Anwender ohne
technischen Hintergrund diese Daten leicht verstehen.
• Potenzial für künftigen Einsatz –TravelTainment verwendet Pentaho seit mehr als einem Jahr und ist mit den Ergebnissen sehr zufrieden. Das Unternehmen evaluiert nun den Einsatz von Pentaho Data Integration (PDI) um Daten in- und aus Hadoop zu laden.
Zusammenfassung. TravelTainment als Anbieter einer globalen, multichannel-fähigen Vertriebsplattform für touristische Leistungen, verwendet Pentaho Business Analytics für Selbstbedienungsanalysen und Berichterstellung in
einer Umgebung mit großen Datenmengen. Angesichts des ungebrochenen Aufwärtstrends im Reisemarkt benötigen die verschiedenen Kunden von TravelTainment mehr Einblicke in ihre Daten, um Aktionen und andere Services besser planen zu können.
Vor Pentaho hatte das Unternehmen eine heterogene Systemlandschaft im Einsatz, die altersbedingt nur über begrenzte Berichterstellungsmöglichkeiten verfügten und deshalb ineffizient und für die IT zeitaufwändige für die Berichterstellung waren. Als sich TravelTainment für die Standardisierung auf Basis einer einzigen, kundenorientierten
Reporting-Anwendung entschied, wählte das Unternehmen Pentaho Business Analytics, da diese Lösung Self-Service-Reporting und die Möglichkeit zur Verwaltung großer Datenmengen bot. Mit Pentaho Reporting kann TravelTainment Berichte nun drei Mal schneller und flexibler als bisher erstellen. TravelTainment kann seinen Kunden nun
erstmalig benutzerfreundliche Selbstbedienungs- und Ad-hoc-Reporting-Services bieten. Dies bedeutet auch, dass
sich die Entwickler von TravelTainment nun voll auf das Hauptgeschäft konzentrieren können, anstatt sich mit dem
Reporting-Support befassen zu müssen. Aufgrund des Erfolgs dieser Implementierung plant TravelTainment jetzt,
sich näher mit Pentaho Data Integration (PDI) zu befassen, um seine Daten in und aus Hadoop zu laden.
© S.A.R.L Martin/IT Research Juli 2012
27
Inhalt
Strategic Bulletin: BIG DATA
4.3 SAS High-Performance Analytics – Gastbeitrag von SAS Institute
Mit High-Performance Analytics schafft SAS einen Durchbruch in der Bearbeitung komplexer analytischer Probleme, die in vielen Branchen zu den Hauptherausforderungen zählen. Was bisher Tage oder Stunden Berechnungszeit in Anspruch genommen hat, ist nun in Minuten und Sekunden machbar. Bisher mussten Geschäftsprozesse so organisiert werden, dass diese Wartezeiten eingehalten wurden. Jetzt können auch anspruchsvolle Fragestellungen im Bereich von Fraud, Optimierung, Risiko und vielen anderen Bereichen nahezu in Echtzeit angegangen werden.
Der Anlass: Wachsende Datenmengen / Big Data. Einfache Aggregationen, die im Nachhinein wichtige Trends
zusammenfassen, sind im Big-Data-Zeitalter nicht mehr ausreichend. Dieses klassische Verständnis von Business
Intelligence wird nach wie vor für viele Bereiche seine Berechtigung haben. Analytisch geprägte Unternehmen gehen aber darüber hinaus und erzielen echte Wettbewerbsvorteile. Wenn es gelingt, aus der Masse von Daten die
wirklich relevanten Muster und Zusammenhänge zu erkennen und in Vorhersagemodelle zu bringen, wird ein immer genauerer Ausblick in die Zukunft möglich.
Um mit immer mehr Daten zurechtzukommen, gibt es nicht eine einzige Antwort. Die eine „Big-Data“-Technologie
gibt es nicht. Neben organisatorischen und strategischen Entscheidungen, die hier nicht im Fokus stehen, verfolgt
SAS im Wesentlichen drei Strategien:
1. Verbessertes Information Management durch automatisierte, eingebettete Analytik
2. Technologische Quantensprünge im Bereich paralleler Verarbeitung
3. Völlig neue Visualisierungen, um Analytics einfacher und umsetzbarer zu machen
Strategie für Daten: Information Management
Wenn immer mehr Daten auf die Unternehmen einströmen, lässt sich das Paradigma eines zentralen Data Warehouses nicht mehr lange aufrechterhalten. Die gigantischen Ströme von Maschinendaten in einem Enterprise Datawarehouse zu speichern ist auf die Dauer schlicht zu teuer. Gleichzeitig handelt es sich dabei in den seltensten Fällen um
relationale, in Zeilen und Spalten organisierte Daten. Dennoch stecken darin viele wichtige Informationen.
Der entscheidende Schritt ist der, dass in die einlaufenden Datenströme bereits eine intelligente Analytik eingebaut
wird. Diese entscheidet nicht nach einfachen Regeln, sondern nach auftretenden Mustern, welche Daten auf welche Weise behandelt werden. Einzelne Datenpunkte verlangen danach, sofort Ereignisse auszulösen. Bei bestimmten Konstellationen etwa wird es angebracht sein, eine Maschine kontrolliert herunterzufahren und auszuschalten.
Teile des Datenstroms werden nach wie vor in das Datawarehouse laufen und dort zentrale Berichte befüllen. Eine
Trennung von zwar wichtigen, aber nicht für das Tagesgeschäft bedeutenden Daten ist angebracht, vor allem um
das Datawarehouse zu entlasten und als Datenhaltung auf kostengünstigere Varianten zu setzen.
Neue Technologien: Grid, In-Database, In-Memory
Grid – Rechenlast besser verteilen. Schnellere Antwortzeiten auf bestehender IT-Infrastruktur MultiprozessorRessourcen erlauben das Aufteilen von Aufgaben in Teilaufgaben, die parallel abgearbeitet werden können. Am besten geeignet für eine solche Parallelisierung sind Rechenprozeduren, die eine große Datenmenge mit langen Laufzeiten mit sich bringen, sowie solche, in denen unabhängige Aufgaben an große Datenmengen herangetragen werden. Die schnellere Datenintegration, das raschere Analysieren und das beschleunigte Reporting erhöhen die Geschwindigkeit in der Entscheidungsfindung im gesamten Unternehmen. Ein wesentlicher Vorteil des SAS Grid-Managers ist die einfache und kostengünstige Skalierung. Bei Bedarf können weitere Computing-Einheiten zum Grid
geschaltet werden.
In-Database – Analytics zu den Daten bringen. Mit SAS In-Database lassen sich auch größte Datenmengen flexibel und effizient analysieren und produktiv nutzen. SAS In-Database setzt die massiv-parallele (MPP-) Architektur
© S.A.R.L Martin/IT Research Juli 2012
28
Inhalt
Strategic Bulletin: BIG DATA
der Datenbank respektive des Data Warehouse ein – für Skalierbarkeit und bessere Performance. Der sonst notwendige Transfer der Daten in ein Analysesystem entfällt, lediglich die Ergebnisse der Berechnung werden weiterverarbeitet. Die Geschwindigkeit von Analysen wird vervielfacht, relevante Aussagen und verwertbare Erkenntnisse stehen viel schneller zur Verfügung und beschleunigen damit den Entscheidungsprozess im Unternehmen.
In-Memory – Blitzschnelle Analysen im Hauptspeicher. SAS In-Memory Analytics führt Berechnungen im Speicher auf jedem Serverknoten durch – in einem entsprechend konfigurierten Verband von Servern. Durch eine Optimierung der Algorithmen auf die neue Hardware-Infrastruktur wird ein extrem hoher Grad an Parallelisierung erreicht. Die Ergebnisse und zugehörigen Daten verbleiben im gemeinsamen Speicher, sodass neue Szenarien oder
zusätzliche Berechnungen noch bessere Reaktionszeiten haben. Diese Konfiguration ist vor allem bei rechenintensiven Aufgaben von großem Vorteil, etwa bei der Neuberechnung eines kompletten Risikoportfolios oder der Preisoptimierung umfangreicher Warensortimente.
Die Erfahrungen der Early Adopter von SAS High-Performance Analytics berichten von dramatischen Beschleunigungen bei sehr komplexen analytischen Verfahren wie etwa dem Berechnen eines Modells zur Berechnung der
Kreditausfallwahrscheinlichkeit. Der Pilotkunde konnte die Zeit zur Erstellung dieses Modells von 167 Stunden auf
lediglich 84 Sekunden reduzieren. Das ermöglicht es nun, Prozesse, die bisher rund um die technischen Limitationen gestrickt waren, komplett neu zu designen.
Analysen einfacher machen: SAS Visual Analytics. Die wachsenden Datenmengen ergeben nur dann neue
Möglichkeiten, wenn diese auch von entsprechend kundigem Personal durchforstet und bewertet werden können.
Die SAS-Strategie dazu ist es, die Bedienung und Nutzung von Analytics zu vereinfachen. Ende März 2012 hat
SAS ein bahnbrechendes neues Produkt vorgestellt, das genau diese Herausforderung adressiert: SAS Visual Analytics. SAS Visual Analytics lädt riesige Datenmengen in die Hauptspeicher vernetzter Rechner und wertet sie dort
mit extrem hoher Geschwindigkeit aus. Unternehmen können damit ihre Datenbestände auf Trends und Muster
untersuchen und gewinnen Anhaltspunkte für nähere Analysen. Die Ergebnisse lassen sich grafisch aufbereiten und
per Webreporting oder iPad abrufen.
Fazit. „Big Data“ steht als Schlagwort für die wachsende Bedeutung des Rohstoffs „Daten“ in den Unternehmen. Es gibt keine eindimensionale Antwort auf die Herausforderungen die dadurch entstehen. Im Gegenteil geht es darum, je nach Anforderung und geplanter Nutzung die jeweils passende Antwort zu finden – die
nur zu einem Teil aus Technologie besteht. SAS unterstützt seine Kunden in der Entwicklung und Anwendung
von Big-Data-Strategien mit einem ganzen Bündel von bahnbrechenden Innovationen. Gleichzeitig wächst
insgesamt die Bedeutung von Analytics, der angestammten Kernkompetenz von SAS.
4.4 Interactive Analytics für Big Data – Gastbeitrag von TIBCO Spotfire
Je größer Datenmengen werden, umso wichtiger ist es, sich auf die entscheidenden Elemente zu fokussieren. Wesentliche Trends oder kritische Ausreißer gilt es schnell zu erkennen. Werkzeuge für Interactive Analytics wie TIBCO Spotfire helfen, im Datendickicht schneller zu den entscheidenden Erkenntnissen vorzudringen. Damit Anwender aus den unterschiedlichsten Bereichen mit ihren Daten interagieren können, arbeitet TIBCO Spotfire „inMemory“, also im Arbeitsspeicher des PC oder Laptop des Benutzers. Dieser bietet für die meisten Anwendungsfälle und sogar für größere Datenmengen ausreichend Platz. So nutzen zum Beispiel zahlreiche in der Genforschung aktive Unternehmen die Software für die Auswertung komplexer wissenschaftlicher Untersuchungen. Doch
nicht in allen Szenarien, in denen man heute von Big Data spricht, reicht der Arbeitsspeicher eines Rechners, um
alle relevanten Daten einzulesen. So fallen im Bereich der Telekommunikation, bei Finanztransaktionen oder auch
in der Produktion riesige Datenmengen an. Hier greift der „data on demand“-Ansatz von TIBCO Spotfire: Der Anwender navigiert zunächst durch aggregierte Daten. Sobald er in einen Teilbereich mit dem Drill-Down beginnt, ruft
Spotfire das benötigte Subset an Daten auf und lädt sie zur vollständigen Analyse. So macht es TIBCO Spotfire
sehr einfach, riesige Datenbestände nach allen nur erdenklichen Aspekten und Dimensionen zu untersuchen. Die-
© S.A.R.L Martin/IT Research Juli 2012
29
Inhalt
Strategic Bulletin: BIG DATA
ser Ansatz unterstützt auch die Verknüpfung mehrerer Datenquellen für die Analyse, ein ebenso wesentlicher Aspekt des komplexen Themas „Big Data“.
Neben der Menge der Datensätze ist auch deren Volumen eine große Herausforderung. Niemand will Tausende von
Variablen durchgehen um die wesentlichen Parameter für eine Analyse zu identifizieren. Die in Spotfire integrierten Möglichkeiten für Data Mining und Predictive Analytics erleichtern es herauszufiltern, was wirklich wichtig ist.
Damit gelingt es, die in Datenbergen begrabenen Schlüsselinformationen aufzuspüren und sie für Geschäftsentscheidungen nutzbar zu machen.
Jedoch was hilft die genaueste Information, wenn sie schon veraltet ist. Mit dem Konzept des „Two-SecondAdvantage™“ weist TIBCO zurecht darauf hin, dass eine Teilinformation zum richtigen Zeitpunkt wertvoller ist,
als alle Daten der Welt, wenn sie zu spät zur Verfügung stehen. Entsprechend ermöglicht es TIBCO Spotfire, Datenströme komplexer Events zu analysieren, und quasi in Echtzeit wichtige Ausreißer oder Systemstörungen ausfindig zu machen – und so schnell reagieren zu können. (Dr. Mark Demesmaeker)
Abbildung 7: Die Abbildung zeigt ein
Beispiel für die Auswertung von Trends
in Wikipedia. Wichtig dabei: Die Daten
müssen möglichst aktuell zur Verfügung
stehen. Über eine „live“-Verbindung extrahiert TIBCO Spotfire große Mengen in den
Arbeitsspeicher und erlaubt eine direkte,
interaktive Auswertung. Dies wird über den
neuen Application Data Service Connector
für Apache Hadoop ermöglicht.
Werden andere beziehungsweise detailliertere Daten benötigt, holt sich TIBCO
Spotfire diese nach Bedarf dynamisch
dazu, daher spricht man bei TIBCO Spotfire auch von einer „Data-on-Demand“Architektur.
4.5 SAP Real-Time Data Platform – Für jede Herausforderung die richtige Lösung –
Gastbeitrag von SAP
Wie bekommen Unternehmen ihre Datenflut unter Kontrolle? Ein Schlüssel sind leistungsfähige Datenbanken, die
nahtlos und vom Anwender unbemerkt zusammenarbeiten. Wie sich das technisch umsetzen lässt, zeigt die neue
SAP-Datenbankstrategie.
Lange haben Datenbanken in der Diskussion um IT-Innovationen ein Schattendasein geführt. Technisch zwar unentbehrlich, fanden technologische Quantensprünge woanders statt, so der Eindruck. Das stetige anschwellende Datenvolumen – Stichwort Big Data – rückte aber zunehmend wieder Datenbanktechnologien ins Blickfeld. Denn
Auswertungen und Analysen stellen nun einmal andere Anforderungen an Datenbanken als der Umgang mit transaktionalen ERP-Daten.
Datenbanken für jeden Zweck. Für die wechselnden Aufgaben nutzt ein Unternehmen daher idealerweise unterschiedliche Datenbankkonzepte. Für das ERP-Geschäft ist zum Beispiel SAP Sybase Adaptive Server Enterprise
(SAP Sybase ASE) ideal, eine klassische Standarddatenbank (OLTP). Sie verwaltet online-transaktionale, hochdetaillierte Massendaten und punktet im Vergleich zum Wettbewerb nicht nur bei der Leistung, sondern auch bei den
Kosten. Das belegen auch Studien von Gartner und Forrester. „Kommende Releases der SAP Business Suite wer-
© S.A.R.L Martin/IT Research Juli 2012
30
Inhalt
Strategic Bulletin: BIG DATA
den daher von Beginn an für SAP Sybase ASE zertifiziert. Das schafft Investitionssicherheit und vereinfacht die
Budgetplanung“, blickt Bruno Flohr, Leiter Database & Technology für die Region DACH bei SAP in die Zukunft.
„Zudem sorgen ein niedrigerer Administrationsaufwand und Ressourceneinsatz im Vergleich zu anderen Datenbanken für sinkende Gesamtbetriebskosten.“
Im Gegensatz hierzu liegen die Stärken der SAP-HANA-Datenbank woanders. Sie ist auf die Anforderungen der
speicherbasierten Datenanalyse mittels In-Memory-Technologie optimiert, indem sie Daten spalten-, anstatt wie
sonst üblich zeilenweise ablegt. Die für Auswertungen nicht relevanten Informationen werden einfach ausgeblendet, das erlaubt schnelle Analysen und Simulationen – und spart so nebenbei Speicherplatz. „Dreh- und Angelpunkt
der speicherbasierten Analyse ist, dass Daten schnell zur Verfügung stehen. Genau das stellt die SAP-HANADatenbank sicher“, sagt Flohr.
SAP Sybase IQ, das dritte Standbein der SAP-Datenbankstrategie, ist ähnlich wie die SAP-HANA-Datenbank vektorbasiert, läuft aber im Gegensatz zu dieser nicht im Arbeitsspeicher, sondern klassisch auf Festplatten. Beim Datenvolumen sind hiermit kaum Grenzen gesetzt. „Sogar Versuche mit 5.000 Terabyte Volumen haben reibungslos
funktioniert“, so Flohr. „Die Antwortzeiten sind auch bei diesen Mengen hervorragend.“ Und das funktioniert auch
bei unstrukturierten Daten.“ SAP Sybase IQ wird somit zum spaltenbasierten Speicher für Analysen, übernimmt
aber auch die Rolle eines Nearline-Storage für alte oder selten benötigte Daten– beispielsweise für den Einsatz in
SAP NetWeaver Business Warehouse oder SAP HANA.
Eine Plattform für alle Datenbanken. Doch die Entwicklung geht weiter. OLAP- und OLTP-Datenbanken, die beiden früher getrennten Welten, nähern sich inzwischen gegenseitig an, es gibt Anwendungsfelder, wo sich beide Modelle parallel einsetzen lassen. Die neue SAP Real-Time Data Platform schlägt daher die Brücke zwischen diesen
drei SAP-Datenbankmodellen, indem sie künftig die In-Memory-Plattform SAP HANA, die Sybase-Angebote für
das Datenmanagement sowie die SAP-Lösungen für das Enterprise Information Management operational verbindet.
Unternehmen erhalten auf diesem Weg eine Plattform für sämtliche Transaktions- und Analyseaufgaben. Und eine
gemeinsame Basis, über die sich Daten dynamisch zwischen den vorhandenen Datenbanktypen verteilen lassen– und
das aus einer Hand. Die drei Datenbankmodelle von SAP, die auch unabhängig voneinander eingesetzt werden können, zeigen: Analytische und online-transaktionale Datenbanken rücken näher zusammen. Ziel der SAP Realtime
Data Plattform ist es nun, die Brücke zwischen beiden Konzepten zu schlagen und sie operational zu verbinden.
Welche Datenbank welche Transaktionen bedient, ist für die Anwender dann nicht mehr von Interesse, denn das
Framework trifft diese Auswahl von alleine. Schon heute können Datenbankadministratoren individuelle Regeln definieren, die Informationen zwischen SAP Sybase ASE und SAP HANA automatisch verteilen. Die Inhalte werden
dazu in die einzelnen Datenbanken repliziert, später soll sogar die Datensynchronisation automatisch erfolgen. Verknüpft mit SAP Sybase IQ sind dann auch OLAP-Analysen möglich. So können Unternehmen nicht nur eine einheitliche Speicherstrategie für alle Anforderungen umsetzen, sondern dabei sogar die Verwaltung vereinfachen.
„Big Data heißt letztendlich, Daten beliebig in Datenbanken zu speichern – ohne dass sich die Anwender Gedanken machen müssen, wo die Daten letztendlich liegen“, bringt es Flohr auf den Punkt. Dass sich über SAP Sybase
SQL Anywhere künftig auch mobile Daten einbetten lassen, ist daher eigentlich nur konsequent. Mit diesem Ansatz will SAP bis 2015 die Position im Datenbankmarkt deutlich ausbauen.
Weitere Informationen finden Sie unter www.sap.de/datenmanagement sowie www.sap.de/echtzeit
4.6 Die fünf wichtigsten Fragen rund um den Betrieb von SAP HANA –
Gastbeitrag von RealTech
In-Memory-Datenbanken versprechen eine exorbitante Geschwindigkeitssteigerung beim Zugriff auf Daten. Der
potenzielle Nutzen dieser Datenbanken geht jedoch weit darüber hinaus. Durch die neue Dimension der Verarbeitungsgeschwindigkeit von Informationen werden bisher nicht vorstellbare Anwendungen erst ermöglicht. Und genau dies macht SAP HANA so interessant für SAP Kunden.
© S.A.R.L Martin/IT Research Juli 2012
31
Inhalt
Strategic Bulletin: BIG DATA
Doch was nutzen neue Anwendungen für neue Märkte, wenn diese nicht ausreichend verfügbar sind? Was passiert
bei einem Stromausfall und dem anschließenden Neustart der Datenbank? Wie passt SAP HANA in bestehende Betriebskonzepte?
Es ist an der Zeit hinter die Kulissen der neuen Anwendungen zu schauen und sich mit den technologischen
Aspekten von SAP HANA zu befassen.
Was passiert bei einem System-Crash? Zur Sicherung der Daten einer SAP HANA wird regelmäßig ein Savepoint auf Speichersubsysteme geschrieben, der ein Abbild der Daten im Hauptspeicher beinhaltet. Das Erstellen des
Savepoints findet parallel zum normalen Betrieb statt und beeinträchtigt diesen nicht. Ein Transaktionslog wird auf
sehr schnell angebundenen Flash-Speichern fortlaufend gesichert. Diese zwei Mechanismen sichern die Persistenz
und Konsistenz der Daten auch bei einem Systemausfall. Beim Neustart der Datenbank wird der letzte Savepoint
genutzt und das Transaktionslog darauf angewandt. Abgeschlossene Tranasaktionen werden „nachgefahren“, so
dass sich die Datenbank wieder in einem konsistenten Zustand befindet. Diese beiden Mechanismen (Savepoint
und Transaktionslog) ersetzen jedoch kein Backup.
Was gilt es bei einem Backup zu beachten? Derzeit sind ausschließlich Full-Backups der SAP HANA Datenbank
möglich. Differentielle oder inkrementelle Backups können nicht erstellt werden. Bandlaufwerke oder 3’rd Party
Backup Lösungen werden zum jetzigen Zeitpunkt ebenfalls noch nicht unterstützt. Betriebssystem- und Konfigurationsinformationen müssen separat gesichert werden.
Wie kann ich die Software einer SAP HANA aktualisieren? Der Software Update Manager (SUM) kann Software vom SAP Service Marketplace (mittels HTTPS) herunterladen und auf dem System applizieren. Vorher muss
jedoch sichergestellt sein, dass die Datenreplikation gestoppt ist und dass ein Komplettbackup erstellt wurde. Dann
lässt sich während einer System-Downtime die Software automatisch aktualisieren.
Welche Systemlandschaft ist für SAP HANA zu empfehlen? Die etablierte und bewährte Systemlandschaft
bestehend aus Entwicklungssystem, Qualitätssicherungssystem und Produktivsystem wird auch bei dem Einsatz
von SAP HANA genutzt. Eine Lizensierung erfolgt wie gewohnt nur für die produktiven Systeme. Jedoch muss die
zur Zeit noch hochpreisige Hardware, mindestens auch für das Qualitätssicherungssystem beschafft werden. Falls
das Produktivsystem mit einem Hauptspeicherausbau von z.B. 512 GB RAM versehen wurde, ist ein Test auf einem
Qualitätsicherungssystem mit z.B. lediglich 128 GB Hauptspeicher nur begrenzt aussagekräftig. Dies muss im
Design der Systemlandschaft berücksichtigt werden.
Wie repliziere ich Daten aus 3rd Party Systemen in eine SAP HANA? Für den Replikations-Prozess existieren
unterschiedliche Technologien – Trigger Based Replication (SLT), ETL-based Replication und Log-based Replication. Die Auswahl der passenden Replikationsart ist in der Hauptsache abhängig von vorhandenen Quellsystemen.
Das Einrichten und Überwachen des Replikationsprozesses erfolgt mit Werkzeugen, die sich je nach genutzter
Replikationsart unterscheiden. Bei der Backup- / Recoverystrategie gilt es jedoch zu beachten, dass nicht jede
Replikationsart Konfigurationsdaten innerhalb der SAP HANA ablegt.
Fazit. SAP HANA ist keine „Plug & Play“ Appliance. Betriebliche Aspekte müssen intensiv beleuchtet werden, was aktuell kaum Beachtung findet. REALTECH berät seine Kunden seit 17 Jahren auf diesem Gebiet
und optimiert so unter anderem den sicheren und effizienten Betrieb von SAP Systemen. (Hinrich Mielke,
Consulting Manager REALTECH)
4.7 Big Data aus Sicht eines CIO – Gastbeitrag von InterSystems
Big Data ist nicht wirklich neu, aber in vielen Aspekten so anders, dass traditionelle Antworten nicht länger ausreichen. Vor allem aber ist Big Data nicht allein mit mehr Hard- und Software beizukommen, sondern mit smarten
Prozessen und einer IT-Lösung, die in der Lage ist, diese auch in allen Facetten zu unterstützen.
© S.A.R.L Martin/IT Research Juli 2012
32
Inhalt
Strategic Bulletin: BIG DATA
Es ist noch gar nicht so lange her, dass der Begriff „Big Data“ breiteren Einzug in die IT-Diskussion hielt. Er tauchte vermehrt 2008/2009 im Zusammenhang mit dem Siegeszug von Google, Facebook oder Twitter in der IT-Presse
auf. Heute ist er fester Bestandteil des Presse- und Marketingkanons. Das Thema selbst ist jedoch keinesfalls neu.
Die meisten Unternehmen sitzen seit jeher auf ungleich mehr Daten, als sie tatsächlich zur Informationsgewinnung
nutzen. Auch die im Zusammenhang mit Big Data regelmäßig angeführte Tatsache, dass rund 80 Prozent aller Daten unstrukturiert sind, ist kein neuer Trend: Bilder, Videos, Textnachrichten oder Dokumente haben stets die überwiegende Menge aller Daten dargestellt und waren mit ihren diversen Formaten für die Verarbeitung in Spalten und
Zeilen von jeher eher ungeeignet. Selbst heute werden Datenmengen, die zu groß sind, um effektiv in relationalen
Datenbanken verwaltet zu werden, daher häufig erst einmal in Form nicht weiter strukturierter Objekte oder Felddaten als Binary Large Objects (BLOB) gespeichert, um später dann aufbereitet und analysiert zu werden. Und
schon immer war es Teil des Aufgabenspektrums eines CIO, Ordnung in das Chaos zu bringen und Mehrwerte aus
den Informationen zu gewinnen.
Braucht ein Unternehmen Big Data? Big Data hat heute grundsätzlich zwei Aspekte. Da ist zum einen der Punkt
der zeitnahen Analyse von Daten. Ob das nun in Echtzeit passieren muss, wie beim elektronischen Börsenhandel,
oder zeitnah, wie immer, wenn Mitarbeiter Informationen per Dashboard erhalten, um daraus bessere Entscheidungen auf allen Managementebenen abzuleiten, ist eher nachrangig. Genauso wie die Frage, ob die Informationen aus den Daten innerhalb des Unternehmens gewonnen werden, aus externen Quellen wie dem Web oder interaktiver Marktforschung oder einer Kombination von beidem. Wichtig ist, dass die Informationen definiert werden, die für diese Entscheidungsprozesse relevant sind, und Mittel gefunden werden, sie zu extrahieren oder zu
berechnen.
Dazu gehört es dann auch, Prozessketten zu hinterfragen und eventuell Entscheidungsbefugnisse zu verlagern.
Echtzeitinformationen machen wenig Sinn, wenn erst noch per E-Mail eine Freigabe eingeholt werden muss. Stattet man seine Mitarbeiter mit den Tools aus, fundiertere Entscheidungen treffen zu können, sollten diese sie auch
treffen dürfen.
Während ein Unternehmen bei der Frage nach dem Mehrwert aus Big Data noch die Wahl hat, ob man sich in dieser Richtung engagieren möchte, gibt es beim zweiten Aspekt von Big Data, dem Monitoring von Social Media,
diese Option eigentlich nicht länger. Selbst ein Unternehmen, das mit Fug und Recht behaupten kann, Social Media wären irrelevant, um seine Zielgruppe zu erreichen, kann die Macht der sozialen Netze nicht länger ignorieren.
Kürzlich brach das, was neudeutsch als Shitstorm bezeichnet wird, über ein kleines Verleihunternehmen in der Nähe von Aachen los, weil ein Vertriebsmitarbeiter pampig auf die Anfrage eines Abiturienten nach einer „günstigen“
Hüpfburg für einen Abi-Streich reagiert hatte.10
Die Analyse von Daten aus dem Web dient also nicht länger nur der Suche nach neuen Trends und Möglichkeiten,
sondern vermehrt auch dem Schutz von Produkten, Marken und dem Unternehmen als Ganzes. Die Kosten, um den
durch einen Shitstorm verursachten Imageschaden zu beheben, übersteigen bei Weitem die Kosten, um ihn im Ansatz zu erkennen und zu vermeiden.
Die Aufgabe eines CIO. Wenn es sich also ohnehin nicht vermeiden lässt, sich auf die für das eigene Unternehmen
relevanten Aspekte von Big Data einzulassen, gilt es, das Potenzial auch voll zu nutzen. Die Herausforderungen,
die mit Big Data für ein Unternehmen einhergehen, lassen sich aber nicht isoliert betrachten. Eine der prägnantesten Beschreibungen der Aufgaben eines CIO lautet:
• „run the business“
• „change the business“
• „engineer the business“
10
Quelle: Spiegel online www.spiegel.de/schulspiegel/abi/abiturienten-aus-eschweiler-huepfburg-streit-auf-facebook-ausgetragen-a-840603.html
© S.A.R.L Martin/IT Research Juli 2012
33
Inhalt
Strategic Bulletin: BIG DATA
Die mit Abstand wichtigste ist, den störungsfreien Ablauf aller Prozesse im Unternehmen zu gewährleisten. Was
auch immer an Veränderung vorgenommen wird, um aus Big Data Big Business zu machen, es darf auf keinen Fall
zulasten des Betriebsablaufs gehen.
Andererseits verändert jede Big Data-Strategie die Prozesse im Unternehmen. Sei es, weil Entscheidungsbefugnisse
verlagert werden, sei es, weil plötzlich IT und Unternehmenskommunikation gemeinsam an Reaktionsszenarien für
Social Media-Hypes, positive wie negative, arbeiten müssen. Die Entscheidung für eine Big Data-Strategie bekommt unweigerlich unternehmenspolitische Aspekte, wenn man nicht nur ein besseres Data Warehouse bauen
will. Sie manifestieren sich in Form von Prozessvorgaben, die sinnvollerweise top-down getroffen und bottom-up
verifiziert sowie mit dem Betriebsrat abgestimmt werden.
Big Data elegant integrieren. Die performante Auswertung von strukturierten und unstrukturierten Daten ist also
wie gezeigt nur die halbe Miete. Die Mehrwerte, die mittels der Analyse von Big Data gewonnen werden, müssen
zudem so in die Arbeitsabläufe des Unternehmens eingebaut werden können, dass der Betrieb zu keinem Zeitpunkt
unterbrochen wird. Für ein solches Szenario eignen sich Lösungen wie InterSystems Ensemble. Die Integrationsund Entwicklungsumgebung bietet alles, um Big Data elegant und unterbrechungsfrei in die Unternehmensprozesse einbinden zu können.
Als Middleware ist Ensemble in der Lage, alle Unternehmensanwendungen zu vernetzen und so schon einmal als
leistungsstarke Datendrehscheibe zu fungieren. Dies wird zudem noch durch die Prozess-Engine unterstützt, die
Transformationen und Routing mittels einfach zu konfigurierender und leicht anpassbarer Regeln erlaubt. Alle
Nachrichten und Prozessschritte werden zudem in einer integrierten multidimensionalen Datenbank gespeichert, so
dass Prozesse einfach überwacht und betreut werden können.
Des Weiteren verfügt Ensemble mit Active Analytics über modernste Technologien, um gleichermaßen strukturierte Daten mittels BI-Ansatz und unstrukturierte Daten mit Hilfe einer bahnbrechenden semantischen Analyse auszuwerten. Das Ganze erfolgt nicht in ausgelagerten Data Warehouses, sondern auf Basis der aktuellen transaktionalen Daten.
Für CIOs bedeutet das höchste Sicherheit im Betrieb und beim Prozesswechsel, eine zentrale Plattform samt Datenbank, die in der Lage ist, unterschiedlichste Datenformate nativ zu speichern, und die Freiheit, Prozesse und Abläufe ihres Unternehmens ohne Einschränkungen zu gestalten.
Was die Möglichkeiten von Big Data betrifft, stehen wir heute sicherlich erst ganz am Anfang. Sicher ist aber, dass
wie schon bei den IT-Lösungen in der Vergangenheit ein Best of Breed-Ansatz, der Einsatz der jeweils besten Applikation, nach einer offenen und leistungsstarken Lösung für die Vernetzung aller Anwendungen verlangen wird.
InterSystems Ensemble hat seine Eignung dazu in der Vergangenheit vielfach eindrucksvoll und branchenunabhängig bewiesen. Sei es als zentrale Infrastruktur im Gesundheitswesen, mit seinen diversen Datenformaten oder
als Daten- und Prozessdrehscheibe in der Energiewirtschaft. Mit Active Analytics ist Ensemble heute auch erste
Wahl für viele Aufgabenstellungen im Bereich Big Data.
4.8 Roadmap für Kunden (Nutzer von Big Data)
Die aktuellen Big Data-Aktivitäten in Unternehmen kann man in drei Gruppen einteilen: agiles Big Data, operationelles Big Data und „High Resolution Management“. So lassen sich im Endeffekt die Angebote der Anbieter besser verstehen, und CIOs und CTOs können für ihre Ziele die richtigen Angebote besser auswählen.
Agiles Big Data bezeichnet den Ansatz, dass alles nicht viel kosten und vor allem auch schnell gehen sollte. Bei
diesem Ansatz helfen beispielsweise die Technologie-Angebote, die Analysten rasch erlauben festzustellen, ob eine Datenmenge aus dem Big Data fürs Unternehmen Potenzial hat. Hier eignen sich insbesondere auch die jetzt auf
den Markt kommenden Data as a Service-Angebote, die über ein OPEX-Finanzierungsmodell kurzfristig operativ
© S.A.R.L Martin/IT Research Juli 2012
34
Inhalt
Strategic Bulletin: BIG DATA
abgerechnet werden können und die schnell nutzbar – und wenn es sich nicht lohnt – auch schnell wieder abschaltbar sind. Im agilen Big Data-Ansatz sind die Analysten oder Data Scientists (siehe Kapitel 3.2) die Macher.
Die Unternehmen, die einen solchen Ansatz fahren haben typischerweise eine robuste Unternehmenskultur in daten-getriebenem Treffen von Entscheidungen. Die Kernfrage im agilen Big Data ist: Wie kann man eine Art von
Spreadsheet-Konzept in der Welt von Big Data etablieren?
Operationelles Big Data bezeichnet die Automatisierung und Verschlankung des Analyseprozesses, damit man
Entscheidungen treffen kann und Geschäftsprozesse intelligenter werden. Hier findet der Wettbewerb statt zwischen der OpenSource-Welt von Hadoop und den in Kapitel 4.1 genannten Anbietern zusammen mit den Data Discovery-Lösungen wie sie beispielsweise SAS Institute und TIBCO Spotfire anbieten. Die Kernfrage im operationellen Big Data ist: Wie können wir eine Infrastruktur schaffen, so dass jeder Nutzen aus dem ziehen kann, was wir
aus dem Big Data lernen?
High Resolution Management meint die Idee, dass die Management-Prozesse und auch so mancher operativer
Geschäftsprozess auf Basis der viel detaillierteren Fakten, die man aus dem Big Data gewinnen kann, komplett neu
zu gestalten ist. Die Kernfrage im High Resolution Management ist: Wie können wir die Art und Weise ändern, mit
der wir unser Unternehmen managen, wenn wir all die Details über Markt und Kunden aus dem Big Data zur Verfügung haben? Mit diesem Modell als Hintergrund lässt sich sehr schön die SAP-Strategie darstellen, die wir wegen
der Bedeutung von SAP im deutschsprachigen Markt hier anführen: „SAP is attempting to create an integrated approach that allows companies to perform analytics, make big data operational, and support applications for high resolution management all in one environment,” sagt Sanjay Poonen11.
Fünf Herausforderungen auf dem Weg ins Big Data
Wie wir schon gesagt haben: Big Data Technologien sind noch jung und unausgereift. Big Data-Vorgehensweise
stützen sich auf eine noch überschaubare Menge von Erfahrungen. Hier haben wir fünf Herausforderungen zusammengestellt, die Nutzern helfen sollen, die ersten Schritte in Richtung Big Data zu gehen.
1. Herausforderung: Das Aufspüren von talentierten Mitarbeitern, die Big Data und Analytik kennen und Erfahrungen gemacht haben. Das ist nicht zu unterschätzen, denn solche Experten sind noch rar im Markt. Hier
sollte man auf jeden Fall auf spezialisierte Beratungsunternehmen zurückgreifen, denn sonst kann man schnell
viel Zeit und Geld verlieren ohne einen Mehrwert aus Big Data zu erzielen. Vor allem: Starten Sie nicht ins Big
Data ohne externe Beratung, die neben den Big Data-Technologien vor allem auch in Sachen Organisation berät.
Im Big Data braucht man neue Wege in der Zusammenarbeit IT und Fachabteilung sowie neue Rollen und Arbeitsplatzbeschreibungen. Wir hatten die Data Scientists in diesem Zusammenhang ja schon genannt (Kap. 3.2).
2. Herausforderung: Das Auswählen der Technologie und der Werkzeuge. Hier sollte natürlich auch der externe Berater helfen. Es empfiehlt sich (nicht nur) im Big Data, die Strategie zuerst festzulegen, also beispielsweise,
ob man ins agile oder operative Big Data will oder sogar ein High Resolution Management anstrebt. Denn – wie
schon gesagt – die Auswahl der Technologie und der Werkzeuge, sowie die Frage der Bereitstellung – Cloud oder
nicht Cloud – hängt davon ab.
3. Herausforderung: Das Feststellen der Relevanz von Information für die Problemstellung. Welche Information bietet einen Mehrwert in Bezug auf die Kosten der Identifizierung, Extraktion, Speicherung und Analyse? Das
ist die Grundsatzfrage, die man in priori in den seltensten Fällen beantworten kann. Ein Lösungsansatz ist das Aufstellen von Relevanzmaßen. Bei Stimmungsanalysen kann man beispielsweise eine Datenquelle danach bewerten,
wie oft ein uns interessierender Begriff in welchen Zeitraum vorkommt. Dabei helfen dann die bekannten Suchfunktionen, um sich solche Statistiken zu erarbeiten. Hier sollte auch der externe Berater mit Best Practices helfen. Ansonsten gilt: Ausprobieren und iterieren („trial and error“). Man betritt hier definitiv Neuland.
11
Sanjay Poonen ist President und Corporate Officer bei SAP Global Solutions, siehe Beitrag in Forbes:
http://www.forbes.com/sites/danwoods/2012/01/05/bringing-value-of-big-data-to-business-saps-integrated-strategy/
© S.A.R.L Martin/IT Research Juli 2012
35
Inhalt
Strategic Bulletin: BIG DATA
4. Herausforderung: Das kontinuierliche „Anders-Denken”. Hier gilt als Regel: keine Annahmen treffen, keine
Hypothesen haben. Denn Big Data-Analysen dienen ja gerade dazu, Hypothesen zu finden, die man so nicht
kannte und erwartet hatte. Das Testen solcher Hypothesen erfolgt erst in einem zweiten Schritt. Das Problem ist
hier, dass wir aus der „alten“ Zeit, in der nur wenig Information zur Verfügung stand, es gewohnt sind, mit Hypothesen zu arbeiten, die man aus Erfahrungswissen her kannte. Analyse diente dann genau dem Testen solcher
Hypothesen. Jetzt im Big Data dient Analyse zuerst eben dem Finden von Hypothesen. Das ist neues, anderes
Denken, an das man sich erst noch gewöhnen muss.
5. Herausforderung: Ein Ende finden und den Analyseergebnissen vertrauen. Hier können wir an den zweiten
der fünf Nutzenaspekte aus Kapitel 2.2 anknüpfen: Testen aller Entscheidungen. Wenn eine Hypothese gefunden
wurde, dann sollte man die schnell in einen Test umsetzen und Kunden und Markt entscheiden lassen, ob die
Hypothese falsch ist oder zu positiven Auswirkungen geführt hat. Das entspricht dem Vorgehen der Big DataVorreiter, die ihre gefundenen Hypothesen zügig in Testumgebungen umgesetzt haben und dann die Wirkung gemessen haben. Das ist schnell und dann auch monetär bewertbar. Im Endeffekt ist das natürlich auch wieder ein
iteratives Verfahren nach der “trial and error”-Methode. Da man aber Kunde und Markt einbezieht, hat man in
jeder Iteration eine direkte Wirkung auf die Bottom-Line und damit eine zuverlässige Steuerung des Gesamtprozesses mit Umsatz und Profit als mögliche Zielgrößen. Hier sieht man auch, wie wichtig das Wissen eines
externen Beraters in den organisatorischen Fragen ist: Nur wenn ein solches iteratives Verfahren in der Unternehmensorganisation machbar ist, können Big Data-Analysen tatsächlich einen messbaren Mehrwert erzeugen.
Fazit Kapitel 4:
Big Data-Roadmap:
• Der Big Data-Markt besteht zum einen aus den „reinen“ Big Data-Anbietern, die mit innovativen Technologien in den Markt kommen, aber nur rund 5% zum Marktvolumen beitragen. Zum anderen besteht er aus
den „großen“ Anbietern, die sich entweder im Big Data neu positionieren und/oder durch Akquisitionen sich
neue, innovative Technologien beschaffen. Aber, keine Regel ohne Ausnahme: wie beispielsweise SAP mit
HANA.
• Nutzer von Big Data sollten (wie immer) mit dem Aufstellen der Strategie beginnen. Die sollte den Richtlinien agiles oder operatives Big Data oder High Resolution Management folgen sollte.
• Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und
in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen.
Der Erfolg von Big Data-Analysen muss iterativ durch seine Auswirkungen auf Kunden- und Marktverhalten
gemessen und monetär bewertet werden.
© S.A.R.L Martin/IT Research Juli 2012
36
Inhalt
Strategic Bulletin: BIG DATA
5. Big Data – quo vadis
Realität – 2012
• Big Data steht ganz am Anfang. Es gibt durchaus grundsätzliche Kritik am Ansatz:
- Big Data-Initiativen sind heute in der Regel IT-getrieben. Daher erfolgt die Datenidentifizierung und Analyse oft
technischen Gesichtspunkten. Das Problem ist hier zumeist, dass eine Unternehmensstrategie für Big Data fehlt.
- Größere Datenmengen müssen nicht qualitativ bessere Daten sein. Die traditionell bewährten Maßnahmen von
Datenqualitäts-Management werden vielfach nicht beachtet. Man sucht im Big Data beispielsweise nach Ausreißern, aber nicht etwa, um sie zu bereinigen, sondern man sucht nach Informationsgehalt in den Ausreißern.
Das entspricht zwar dem Prinzip der hypothesenfreien Analyse, aber bei der Interpretation des Informationsgehaltes von Ausreißern sollte man Artefakten nicht aufsitzen.
- Betrachten wir nochmal die Frage der Interpretation: Die bekannte Problematik aus dem traditionellen Data Mining tritt natürlich im Big Data verschärft auf: Mathematische Zusammenhänge müssen nichts mit den Phänomenen in der realen Welt zu tun haben. Fehlschlüsse können zum Teil fatale Folgen haben. Deshalb ist das kontrollierte Testen und Bewerten von Ergebnissen aus den Big Data-Analysen so wichtig.
- Nicht alle Datenquellen sind gleich und sind nicht unbedingt vergleichbar. Dabei werden auch statistische
Grundprinzipien wie das einer repräsentativen Stichprobe oft vernachlässigt.
- Big Data-Analysen haben zum Teil die Tendenz, ethische Grenzen zu überschreiten. Man sollte sich stets fragen,
ob die mit Big Data-Analysen angestrebte Transparenz des Kunden mit der Unternehmensethik vereinbar ist.
- Trotz aller Kritik an Big Data: die Big Data-Vorreiter Amazon, eBay, Facebook und Google zeigen, dass Big
Data-Potenziale existieren und geldwerten Vorteil bringen können.
- Trotz aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von
diesem schnell wachsenden Markt.
- Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik,
Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu finden, nur noch grösser und wertvoller.
Trends – 2013/15
• Technologie-Trends:
- Die traditionellen führenden Datenbankanbieter werden ihre SQL-Datenbanken zu hybriden Datenbanken ausbauen, in dem NoSQL-Techniken integriert werden, so dass man durch die Kombination der SQL mit der
NoSQL-Welt die Vorteile beider Welten miteinander verbindet und die Marktführerschaft erhalten bleibt. Dazu
kommt die sich weiter ausbreitende Nutzung von Data Appliances, die in die gleiche Richtung zielt. Die SAP
wird mit der HANA-Technologie zu den führenden Datenbankanbietern aufschließen, jedenfalls in ihrer eigenen Kundenbasis.
- Es werden Datenanalyse-Bibliotheken entstehen, vor allem auf Basis von R, der freien Programmiersprache für
statistisches Rechnen und statistische Grafiken. In einer solchen Bibliothek werden gemeinsame Analyse-
© S.A.R.L Martin/IT Research Juli 2012
37
Inhalt
Strategic Bulletin: BIG DATA
Muster und Vorgehensweise als offene Services verfügbar sein, so dass man mittels Analyse-Best Practices
schnell die Nutzenpotenziale von Big Data erkennen und nutzen kann. Das wird auch zum Teil die Schmerzen
aufgrund des Mangels an Experten lindern.
- Big Data-Technologien etablieren sich im Konzert mit den anderen vier IT-Megatrends: Mobile, Cloud Computing, Social Media und Consumerization. Die Anbieter werden ihre Technologien unter diesem gemeinsamen
Blickwinkel weitertreiben.
• Markt-Trends:
- Im Big Data-Markt werden wir – wie für einen jungen Markt ganz typisch – viele Übernahmen und Firmenzusammenschlüsse sehen. Die großen IT-Anbieter und Dienstleister werden auch hier vorne sein und bleiben.
- Open Source-Angebote wie Hadoop und R werden im Big Data einen größeren Anteil erreichen und eine größere Rolle spielen als im traditionellen BI-Markt. Das folgt aus dem größeren Pool von verfügbaren Experten
in Open Source-Technologien und einem Vorsprung an Funktionalität in den Open Source-Systemen aufgrund
einer großen Anzahl von engagierten Entwicklern.
- Gleiches gilt für Cloud-Angebote wie Data as a Service. Die werden gewinnen, da man diese Services unkompliziert finanzieren kann und ohne großen Aufwand ein- und vor allem auch abschalten kann.
• Business-Trends:
- Start-Ups werden besonders von Big Data profitieren. Das unterstreichen die Big Data-Vorreiter, die alle so gestartet sind. Der Grund liegt in der Regel in der Flexibilität von Start-Ups, die Big Data-Denken und Big DataOrganisationstrukturen viel leichter umsetzen und leben können als traditionelle Unternehmen.
- Trotz des aktuellen Hypes wird sich Big Data bei der Mehrzahl der Unternehmen immer noch in der Pilotierungsphase befinden. Der große Bremser ist nicht die Verfügbarkeit und der Reifezustand der Technologie, sondern der Mangel an Experten und Beratern sowie die Schwierigkeit, die notwendigen neuen Denk- und Arbeitsweisen in den Alltag traditioneller Unternehmen zu verankern.
- Big Data setzt neue Richtlinien für die Zusammenarbeit zwischen IT und Business. Während die Fachabteilungen die Oberhoheit über die Strategie, Prozesse und Analytik festigen werden, wird die IT die Rolle des Information Management als Kernaufgabe wiedergewinnen. Die Schnittstelle zwischen diesen beiden Sichten bilden
dann die Prozesse, denn es gilt ja auch im Big Data: Kein Prozess ohne Daten.
- Mit der Nutzung von Big Data ergeben sich neue Anforderungen an die Compliance, die zu meistern sind. Es
werden sich neue gesetzliche Regeln entwickeln, die jetzt die gemeinsame Speicherung von Daten aus den
unterschiedlichsten Quellen zu regulieren haben, beispielsweise Regeln, die beschreiben in welcher Art Finanzund Gesundheitsdaten ein und der derselben Person gemeinsam gespeichert und genutzt werden dürfen. Weiterhin ist auch eine Regulierung der Nutzung der öffentlich zugänglichen Social Media-Daten zu erwarten, denn
man wird eine solche Regelung besser nicht den Facebooks und Co. überlassen wollen.
© S.A.R.L Martin/IT Research Juli 2012
38
Inhalt
Strategic Bulletin: BIG DATA
6. Profil: Wolfgang Martin Team und IT Research
Dr. Wolfgang Martin ist ein europäischer Experte auf den Gebieten
• Business Intelligence, Performance Management, Analytics
• Business Process Management, Information Management, Information Governance
• Service Oriented Architecture (SOA)
• Customer Relationship Management (CRM)
• Cloud Computing (SaaS, PaaS)
Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse. Er ist iBonD Partner
(www.iBonD.net), Ventana Research Advisor (www.ventanaresearch.com) und Research Advisor des Instituts für
Business Intelligence der Steinbeis Hochschule Berlin (www.i-bi.de). The InfoEconomist zählte ihn in 2001 zu den
10 einflußreichsten IT Consultants in Europa.
Dr. Martin ist unabhängiger Analyst. Vor der Gründung des Wolfgang MARTIN Teams war Dr. Martin 5 ½ Jahre
lang bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies. Darüber hinaus kennt man ihn aus TV-Interviews, durch Fachartikel in der Wirtschafts- und IT-Presse, als Autor der Strategic Bulletins zu den Themen BI, EAI, SOA und CRM (www.it-research.net) und als Herausgeber und Co-Autor
von Büchern, u.a. „Data-Warehousing – Data Mining – OLAP“, Bonn, 1998, „CRM – Jahresgutachten 2003, 2004,
2005, 2006 & 2007“, Würzburg, 2002, 2003, 2004, 2005 & 2007 und „CRM Trend-Book 2009“, Würzburg, 2009.
Bevor er für die META Group arbeitete, war Dr. Martin in verschiedenen Managementpositionen bei Sybase und
Software AG tätig, wo er für Business Development, Marketing und Produktmarketing verantwortlich war. Nachdem er sich intensiv mit der Entwicklung von Anwendungen für Computational Statistics in der Wissenschaft
beschäftigt hatte, sammelte Dr. Martin als Decision Support-Experte bei Comshare Erfahrung im Bereich endbenutzerorientierte Verarbeitung von individuellen Daten. Dr. Martin promovierte und habilitierte an der Universität
Bonn in angewandter Mathematik.
S.A.R.L. Martin, Dr. Wolfgang Martin, 6, rue Paul Guiton, 74000 Annecy, France,
E-Mail: [email protected]
IT Research ist ein deutschsprachiges Unternehmen, das Studien, Bulletins und White Papers im Bereich der Informationstechnik erstellt. Ziel ist, auf neueste Technologien hinzuweisen, IT-Investitionen der Unternehmen noch
rentabler zu machen, Fehlinvestitionen zu vermeiden und Risiken zu minimieren. Um dies zu erreichen, arbeiten
wir mit einem Netzwerk von Kompetenzträgern auf den verschiedensten Gebieten der IT zusammen
it verlag GmbH, Michael-Kometer-Ring 5, D-85653 Aying
Tel. 0049 8104 649414, E-Mail: [email protected]
© S.A.R.L Martin/IT Research Juli 2012
39
Inhalt
Strategic Bulletin: BIG DATA
7. Profil: Die Sponsoren
InterSystems
InterSystems ist der führende Anbieter von Software für ein vernetztes Gesundheitswesen. Das Unternehmen hat
seinen Hauptsitz in Cambridge, USA, und Niederlassungen in 23 Ländern.
InterSystems HealthShare™ ist eine strategische Plattform für die Informationsverarbeitung im Gesundheitswesen
und den Aufbau regionaler oder nationaler elektronischer Gesundheitsakten. Die hochperformante Objektdatenbank InterSystems Caché® ist das weltweit meistgenutzte Datenbanksystem für klinische Anwendungen.
InterSystems Ensemble® ist eine Integrations- und Entwicklungsplattform, die Anwendungen schnell miteinander
verbindet und um neue Funktionen erweitert.InterSystems DeepSee™ ist eine Software, mit der Echtzeit-Analysefunktionen direkt in transaktionale Anwendungen eingebettet werden können, um bessere Entscheidungsgrundlagen für das Tagesgeschäft zu erhalten. InterSystems TrakCare™ ist ein webbasiertes, einheitliches Informationssystem für Krankenhäuser und Krankenhausverbünde bis hin zu landesübergreifenden Gesundheitsinformationssystemen, das schnell alle Leistungen einer elektronischen Patientenakte zur Verfügung stellt.
Weitere Informationen finden Sie unter www.intersystems.de
Pentaho
Pentaho ist der Anbieter von Business Analytics Lösungen Pentaho stellt leistungsstarke Analyse zur Verfügung mit
Funktionen für Datenzugriff, -integration, -analyse, -visualisierung und Data Mining. Ein kostenloser Download
zur Evaluierung von Pentaho Business Analytics steht unter www.pentaho.de/download zur Verfügung.
REALTECH AG
Die REALTECH AG ist ein auf SAP-spezialisiertes Beratungshaus sowie Softwarehersteller mit Fokus auf Geschäftsprozess- und IT Service-Management.
Mithilfe von REALTECH gestalten Unternehmen ihre IT der Zukunft. Die Mitarbeiter arbeiten gemeinsam mit den
Kunden daran, Mehrwert durch den Einsatz von IT-Lösungen zu schaffen. Mit zwei sich ergänzenden Geschäftsbereichen für strategische IT-Beratung und Software Produkte für das Business Service Management unterstützt
REALTECH Unternehmen aller Größen entlang der Wertschöpfungskette.
Die börsennotierte REALTECH AG hat ihren Firmensitz in Walldorf (Baden) und erzielte im Geschäftsjahr 2011
einen Umsatz von über 39 Millionen Euro. Weltweit haben sich bereits mehr als 2.200 Kunden für REALTECH
entschieden.
Weitere Informationen unter: www.realtech.de/sap-hana
© S.A.R.L Martin/IT Research Juli 2012
40
Inhalt
Strategic Bulletin: BIG DATA
SAP AG
Als marktführender Anbieter von Unternehmenslösungen unterstützt SAP Firmen aller Größen und Industriezweige dabei, mehr zu erreichen. SAP steht für „Systeme, Anwendungen und Produkte in der Datenverarbeitung“
und wurde 1972 gegründet. Seitdem steht der Branchenführer für innovative Ideen und starkes Wachstum. Aktuell
verfügt SAP über Vertriebs- und Entwicklungsstandorte in mehr als 50 Ländern weltweit. SAP-Anwendungen und
Services helfen mehr als 183,000 Kunden in der ganzen Welt, ihr Unternehmen rentabel zu führen, flexibel auf
Marktänderungen zu reagieren und nachhaltig zu wachsen.
www.sap.com
SAS Institute
SAS ist Marktführer bei Business Analytics Software und weltweit größter unabhängiger Anbieter im Business
Intelligence-Markt. Die SAS Lösungen für eine integrierte Unternehmenssteuerung helfen Unternehmen an
insgesamt mehr als 55.000 Standorten dabei, aus ihren vielfältigen Geschäftsdaten konkrete Informationen für
strategische Entscheidungen zu gewinnen und damit ihre Leistungsfähigkeit zu steigern. 90 der Top-100 der
Fortune-500-Unternehmen vertrauen auf SAS. Firmensitz der 1976 gegründeten US-amerikanischen Muttergesellschaft ist Cary, North Carolina (USA). SAS Deutschland hat seine Zentrale in Heidelberg und weitere Niederlassungen in Berlin, Frankfurt, Hamburg, Köln und München.
Weitere Informationen unter:
http://www.sas.com/offices/europe/germany/index.html?gclid=CM_jtZbdp7ACFY5pfAodrizlWg
TIBCO Software Inc.
TIBCO Software Inc. (NASDAQ: TIBCX) ist Anbieter von Infrastruktur-Software, die entweder bei Unternehmen
vor Ort oder als Teil einer Cloud-Computing-Umgebung eingesetzt werden kann. Egal, ob es um die Verarbeitung
von Schadensmeldungen oder Handelsumsätzen geht, um das Cross-Selling von Produkten auf Basis des Kundenverhaltens in Echtzeit oder das Abwenden einer Krise im Vorfeld: TIBCO bietet Unternehmen „The Two-Second
Advantage“TM, also die Möglichkeit, die richtige Information zur rechten Zeit zu erfassen und darauf präventiv zu
reagieren, und sich somit einen Wettbewerbsvorteil zu sichern. Über 4.000 Kunden weltweit verlassen sich auf
TIBCO, um ihre Informationen, Entscheidungen, Prozesse und Anwendungen in Echtzeit zu managen.
TIBCO Spotfire® ist die In-Memory Analytics-Software des Unternehmens für Business Intelligence der nächsten
Generation. Die visuell-interaktive Bedienung unterstützt Spotfire®-Anwender dabei, schnell neue und umsetzbare
Erkenntnisse aus ihren Informationen zu gewinnen.
Mehr Informationen unter http://spotfire.tibco.com
© S.A.R.L Martin/IT Research Juli 2012
41
Inhalt
Die Sponsoren: