Strategic Bulletin – Juli 2012 BIG DATA Dr. Wolfgang Martin Strategic Bulletin: BIG DATA Copyright Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen wurden mit größter Sorgfalt und mit wissenschaftlichen Methoden recherchiert und zusammengestellt. Eine Garantie in Bezug auf Vollständigkeit und Richtigkeit wird ausgeschlossen. Alle Rechte am Inhalt dieses Strategic Bulletin, auch die der Übersetzung, liegen bei dem Autor. Daten und Informationen bleiben intellektuelles Eigentum der S.A.R.L. Martin im Sinne des Datenschutzes. Kein Teil des Werkes darf in irgendeiner Form (Druck, Photokopie, Mikrofilm oder einem anderen Verfahren) ohne schriftliche Genehmigung durch die S.A.R.L. Martin und IT Research reproduziert oder unter Verwendung elektronischer Verfahren verarbeitet, vervielfältigt oder verbreitet werden. Die S.A.R.L. Martin und IT Research übernehmen keinerlei Haftung für eventuelle aus dem Gebrauch resultierende Schäden. © Copyright S.A.R.L. Martin, Annecy, und IT Research, Aying Disclaimer Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen etc. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. In diesem Werk gemachte Referenzen zu irgendeinem spezifischen kommerziellen Produkt, Prozess oder Dienst durch Markenname, Handelsmarke, Herstellerbezeichnung etc. bedeutet in keiner Weise eine Empfehlung oder Bevorzugung durch die S.A.R.L. Martin und IT Research. Gastbeiträge in diesem Strategic Bulletin sind freie Meinungsäußerungen der Sponsoren und geben nicht unbedingt die Meinung des Herausgebers wieder. © S.A.R.L Martin/IT Research Juli 2012 2 Titel Inhalt Strategic Bulletin: BIG DATA Inhaltsverzeichnis 1. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Big Data – Einführung in das Thema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 Big Data – die Definition und die Treiber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Nutzenpotenziale von Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Entwicklung von Big Data: Marktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3. Big Data-Technologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.1 Datenhaltungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2 Big Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 Big Data-Analytik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4. Big Data Roadmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.1 Marktspieler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Pentaho bei TravelTainment – the amadeus leisure group – Analyse großer Datenmengen und verbesserte Reporting-Services . . . . . . . . . . 26 4.3 SAS High-Performance Analytics – Gastbeitrag von SAS Institute . . . . . . . . . . 28 4.4 Interactive Analytics für Big Data – Gastbeitrag von TIBCO Spotfire . . . . . . . . 29 4.5 SAP Real-Time Data Platform – Für jede Herausforderung die richtige Lösung – Gastbeitrag von SAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.6 Die fünf wichtigsten Fragen rund um den Betrieb von SAP HANA – Gastbeitrag von RealTech. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.7 Big Data aus Sicht eines CIO – Gastbeitrag von InterSystems . . . . . . . . . . . . . . 32 4.8 Roadmap für Kunden (Nutzer von Big Data) . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5. Big Data – quo vadis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Realität – 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Trends – 2013/15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6. Profil: Wolfgang Martin Team und IT Research . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7. Profil: Die Sponsoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Pentaho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 REALTECH AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 SAP AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 SAS Institute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 TIBCO Software Inc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 © S.A.R.L Martin/IT Research Juli 2012 3 Titel Strategic Bulletin: BIG DATA 1. Zusammenfassung Big Data – Definition, Treiber, Nutzen und Markt Big Data wird über vier Eigenschaften definiert: das Datenvolumen, die Vielzahl von Datenquellen, die Geschwindigkeit der Datenproduktion und die steigende Anzahl von Nutzern, die sich mittels Analysen die Potenziale von Big Data erschließen wollen. Big Data bedeutet also nicht nur ein riesiges, immer grösser werdendes Datenvolumen, sondern aufgrund der Vielzahl von Datenquellen auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander. Heute schätzt man, dass 90% aller Daten im Big Data unstrukturiert sind. Die wahre Flut von Daten wartet aber nicht nur im Web auf uns. Die Menge und Diversität der Quellen ist in der Tat mannigfaltig: Neben den Quellen im Web wie Portalen, Web-Applikationen, Social Media, Videos, Photos, Lokalisierungsdaten, um nur einige zu nennen, finden sich viele Quellen in Branchen-bezogenen Medien, beispielsweise im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf), wo in den letzten Jahren das Datenvolumen geradezu explodiert ist. Die prominentesten Produzenten von Big Data sind soziale Medien (allein fast 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere. Für Unternehmen bietet die Analyse von Big Data die Möglichkeit, Wettbewerbsvorteile zu erzielen, Einsparungen und Umsatzsteigerungen zu realisieren und innovative, neue Geschäftsfelder zu schaffen. Das unterstreichen die folgenden ausgewählten Beispiele: • Optimierung und Personalisierung von Werbemaßnahmen und Steigerung von Cross- und Up-Selling aufgrund von besserem Kunden- und Marktwissen, • Besseres Risiko-Management in Zahlungs- und Handels-Strömen durch Entdeckung von Abweichungen und Unregelmäßigkeiten, • Aufbau flexibler und intelligenter Abrechnungssysteme in der Versorgung (Strom, Wasser, Gas) und Telekommunikation, • Erkennen von Interdependenzen und automatisierte Hypothesenbildung in Wissenschaft und Forschung Wenn man sich diese Beispiele genauer anschaut, so lassen sich fünf Nutzenpotenziale erkennen: Transparenz durch Big Data, Testen aller Entscheidungen, Personalisierung in Echtzeit, verbesserte und optimierte Prozess-Steuerung und Automatisierung und innovative Informations-getriebene Geschäftsmodelle. Trotz der Möglichkeiten, die Big Data bietet, muss man heute noch Vorsicht im Umgang mit Big Data walten lassen: Der Markt für Big Data ist noch jung und unreif. Es fehlt an Erfahrung, im Umgang mit Big Data, es fehlen Experten, die in den Unternehmen erfolgreich Big Data-Initiativen und Strategien aufbauen können, und die neuen Technologien zur Beherrschung von Big Data befinden sich auch erst in sehr frühen Entwicklungsphasen. Wer allerdings jetzt nicht mit den Vorbereitungen zum Management von Big Data beginnt, der könnte in ein bis zwei Jahren aber den Anschluss verpasst haben und von seinen Mitbewerbern oder innovativen Neueinsteigern überholt werden, deren Geschäftsmodell durch Big Data-Nutzung effektiver ist und effizienter arbeitet. Man erinnere sich an Amazon, deren Geschäftsmodell anfangs belächelt und kritisiert wurde, die aber heute zu den Marktsiegern zählen. © S.A.R.L Martin/IT Research Juli 2012 4 Inhalt Strategic Bulletin: BIG DATA Big Data Technologien In Folge dieser Datenflut ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes und mehr von Daten zu lesen und zu durchsuchen, nutzt man heute analytische oder NoSQL1-Datenhaltungssysteme. Hier werden unterschiedliche Software- und Hardware-Technologien teilweise auch miteinander kombiniert: Objekt-Orientierung, Spalten-Orientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle sogenannte Data Appliances, um die gängigsten zu nennen. Ein dritter Ansatz zur Beherrschung von Big Data kommt vom Open Source-System Hadoop, das das Potenzial hat, den Standard der Zukunft zu setzen. Diese zu SQL alternativen Datenhaltungssysteme sind so konzipiert, dass Tuningaufwände, die in konventionellen Systemen notwendig sind und Zeit und Ressourcen kosten, nahezu entfallen. Die Datenhaltungslösung legt in der Regel Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Solche Datenbanken lassen sich natürlich auch „as a Service“ mittels Cloud Computing betreiben. Big Data treibt auch neue Methoden und Technologien im Big Data Management. Beim Data Management geht es zwar immer noch um Integration, Lineage und Qualität, aber im Big Data kommt noch einiges hinzu: So ist eine neue Klasse von Integrationswerkzeugen zur agilen Web- und Cloud-Integration entstanden, um beispielsweise auch auf Datenquellen zuzugreifen, die keine API-Schnittstelle haben. Plattformen zur Datenintegration werden durch Selbstoptimierung beschleunigt und um Hadoop-Verarbeitung ergänzt. Daneben werden die bekannten Verfahren zum Data Management parallelisiert und Cluster-fähig, denn die Anforderungen an den Durchsatz steigen natürlich erheblich mit Big Data. Service-Orientierung der Infrastruktur und Verarbeitung in Echtzeit sind jetzt im Big Data unabdinglich geworden. Die traditionellen BI-Werkzeuge erweisen sich ebenfalls als unzureichend für Big Data-Analytik. Data Discovery steht jetzt ganz vorne in der Bedeutung. Dazu gehören Filtern und Visualisieren von Daten, kollaborative Werkzeuge zur Teamarbeit, intuitive Benutzerschnittstellen und eine neue Generation von Geräten wie die Tablets, damit man in den Fachabteilungen produktiv und erfolgreich arbeiten kann. Im Fokus steht hier jetzt auch Location Intelligence, die Erweiterung von Business Intelligence um die Dimension „Raum“. Denn im mobilen Internet konvergieren jetzt Information, Zeit und Raum. Die Lokalisierungsdaten aus Smartphones und Navigationsgeräten erlauben eben ganz neue Typen von Analysen. Dazu kommen neue analytische Methoden und Verfahren wie die Textanalytik. Textanalytik ist eine neue Klasse von Analytik insbesondere für unstrukturierte Daten, die linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen. Solche neuen Methoden und Technologien erfordern auch neue Rollen wie die der Data Scientists, die als Mittler zwischen der IT und den Fachabteilungen den weiteren Ausbau der Zusammenarbeit treiben, die Verarbeitung von Big Data fördern und helfen, die Potenziale von Big Data auch zu realisieren. Das erfordert auch neue Skills und eine Neuorientierung der IT: Die IT muss in den Zeiten von Big Data den Hauptfokus auf Data Management legen. Big Data Roadmap Die Analyse von Big Data muss wie jede andere Analyse auch in eine Strategie eingebettet sein. Eine Big DataStrategie sollte sich dabei an den drei Typen von Big Data-Analysen ausrichten: • agiles Big Data, ein auf die Kosten achtender Ansatz, der darauf abzielt, schnell die Nutzenpotenziale von Big Data zu erschließen, 1 NoSQL = not only SQL © S.A.R.L Martin/IT Research Juli 2012 5 Inhalt Strategic Bulletin: BIG DATA • operatives Big Data, ein Ansatz, eine permanente und robuste Infrastruktur für Big Data-Analysen zu etablieren, • High Resolution Management, ein innovatives Modell zur Unternehmenssteuerung, wobei man den Schritt macht vom traditionellen Ansatz einer informationsarmen Welt, in der Entscheidungen im Wesentlichen auf Erfahrungswissen beruhen, zu einem neuen Ansatz einer informationsreichen Welt, in der Entscheidungen daten-getrieben getroffen werden. Die Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Vor allen Dingen muss auch der Erfolg von Big Data-Analysen durch kontinuierliches Testen in seinen Auswirkungen auf Kunden- und Marktverhalten gemessen und monetär bewertet werden. Big Data – Quo Vadis Natürlich darf man nicht die Kritik an Big Data vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit. Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data überhaupt repräsentativ sein kann. Trotz der Kritik an Big Data: die Big Data-Vorreiter Amazon, eBay, Facebook und Google zeigen, dass Big DataPotenziale existieren und geldwerten Vorteil bringen können. Bei aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt. Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu finden, nur noch grösser und wertvoller. © S.A.R.L Martin/IT Research Juli 2012 6 Inhalt Strategic Bulletin: BIG DATA 2. Big Data – Einführung in das Thema 2.1 Big Data – die Definition und die Treiber Von der „Datenflut“ („data deluge“) haben wir schon Anfang der 90er Jahre gesprochen. Insofern ist das Thema Big Data nicht wirklich neu. Auch die Technologien, mit denen wir heute versuchen, Big Data zu speichern und zu analysieren, stammen zum Teil auch aus den frühen 90er Jahren, beispielsweise die Konzepte zu spalten-orientierten Datenbanken oder massiv paralleler Verarbeitung. Der Handel war eine der Branchen, die sich schon seit langem mit Big Data auseinandersetzen mussten: Die Analyse von Kassenbons kann ein für den Handel entscheidendes Wissen über das Kundenverhalten geben, so dass das kundenbezogene Prozesse personalisiert und optimiert werden können. Dennoch ist Big Data erst seit rund einem Jahr das Thema, das den Markt elektrisiert. Was ist heute anders als vor 10 oder 20 Jahren? Um Antworten zu finden, beginnen wir mit der grundlegenden Definition von Big Data. In vielen Quellen zu Big Data (beispielsweise im O’Reilly Radar2) wird Big Data durch drei Eigenschaften charakterisiert: Volume, Velocity und Variety. Diese drei Eigenschaften in Kombination machen die Komplexität von Big Data aus. Ich sehe da noch eine weitere, vierte Eigenschaft, die ebenfalls zur Komplexität beiträgt: den steigenden Bedarf an Analysen durch mehr und mehr Verbraucher von Information im und von Big Data. Das Ganze lässt sich dann recht kompakt zusammenfassen: Die „Big Data-Herausforderung“: Immer mehr Nutzer wollen in nahezu Echtzeit die Daten aus der immer mehr ausufernden Datenflut und aus immer mehr und unterschiedlichsten Quellen analysieren. Schauen wir uns diese vier Big Data definierenden Eigenschaften jetzt genauer an. • Extremes und anhaltendes Wachstum des Datenvolumens („Volume“). Allein im Jahr 2011 hat die Menschheit 1,8 ZB neue Daten produziert. (1 Zetta Byte = 1 Milliarde Tera Bytes). Die Menge der Daten im Unternehmen und außerhalb des Unternehmens, die zu verarbeiten sind und die verarbeitet werden können, wächst ständig und immer schneller. Dabei handelt es sich sowohl um strukturierte wie um unstrukturierte Daten. Zu den letzteren zählen nicht nur Formulare und Textdokumente, sondern auch Abbildungen, Fotos, Audio und Video-Aufzeichnungen etc. So ist nicht nur im Handel, sondern beispielsweise auch im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf) in den letzten Jahren das Datenvolumen geradezu explodiert. • Information hat den größten Wert, wenn sie neu und aktuell ist („Velocity“). Denn Dinge in der heutigen digitalisierten und vernetzten Welt passieren jetzt und überall. Daher brauchen wir Information, hier und jetzt. Die Verarbeitung und Analyse vieler unterschiedlichen Daten muss dazu in nahezu Echtzeit erfolgen, denn von diesen Daten hängen beispielsweise Steuerungs- und Abrechnungssysteme ab. Oder wollen sie als Fußgänger auf Basis eines Photos, das vor fünf Minuten gemacht wurde, eine Straße überqueren? • Die Anzahl der Datenquellen nimmt ebenfalls massiv zu („Variety“). Die prominentesten Produzenten sind soziale Medien (allein über 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, um nur einige zu nennen, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere. Viele dieser Quellen erzeugen zudem beständig fließende nicht versiegen wollende Datenströme. • Die Zahl der Nutzer von Big Data steigt ebenfalls („Verbraucher“). Die in dieser extremen Menge von Daten verborgene Information und das darin verborgene Wissen wollen sich mehr und mehr Unternehmen und innerhalb 2 Zugriff am 08.02.2012 auf http://radar.oreilly.com/2012/01/what-is-big-data.html © S.A.R.L Martin/IT Research Juli 2012 7 Inhalt Strategic Bulletin: BIG DATA der Unternehmen mehr und mehr Fachbereiche zu nutzen machen. Es sind dies entweder immer mehr Mitarbeiter in diversen Fachabteilungen, die Information beispielsweise über Kunden, Mitbewerber und Markt benötigen, oder Systeme, die über Information aus dem Big Data gesteuert werden wie die Überwachung und Steuerung von Netzwerken aller Art (Telefonie, Computer, Luft-, Straßen- und Eisenbahn-Verkehr etc.). Jeder dieser vier Trends (Volume, Velocity, Variety, Verbraucher) an sich stellt eine große Herausforderung an die Informationstechnologie dar. Jetzt aber gilt es, diese vier Anforderungen gemeinsam zu meistern. Die fast beliebig vielen Formen, Typen und Mengen von Daten zu einer Fragestellung im Unternehmen gepaart mit der beliebig großen Zahl von Informationsverbrauchern zeigen, dass Big Data eine neue, zusätzliche Dimension von Information darstellt. Das unterscheidet Big Data in der heutigen digitalisierten und vernetzten Welt von der Situation vor 10 oder 20 Jahren. Die traditionellen Business Intelligence (BI)-Technologien zu Datenhaltung, Daten-Management und Analytik stoßen im Big Data an ihre Grenzen, ja, man kann sogar sagen, sind teilweise obsolet geworden. Nicht mehr geeignet sind traditionelle relationale Datenbanken, die am Datenvolumen scheitern. Nicht mehr geeignet sind traditionelle ETLProzesse zum Laden von Data Warehouses und Datamarts. Sie sind nicht nur zu langsam, sondern kommen auch mit der Vielfalt und Beschaffenheit der Quellen nicht klar. Nicht mehr geeignet sind traditionelle BI-Werkzeuge, die auch viel zu langsam sind, in der Regel nicht zur Analyse unstrukturierter Daten ausgelegt sind und bis zum Aufkommen von Tablets auch immer noch nicht die Benutzerfreundlichkeit hatten, um wirklich in den Fachabteilungen akzeptiert zu werden. Heutige Speicher-Lösungen wie Virtualisierung, Datendeduplizierung oder Storage Management erweisen sich auch als unzureichend, weil die Datenmengen nicht mehr homogen vorliegen, sondern sich strukturiert und unstrukturiert auf verschiedenen Speichersystemen befinden. Jetzt sind Innovationen auf allen Ebenen gefragt, sonst gibt es keine neuen und wettbewerbsentscheidenden Einsichten in Kunden- und Marktverhalten! Mit anderen Worten, Big Data-Technologien umfassen Software, Hardware und Services. Bei der Software gehören zu den Big Data-Technologien alternative Datenhaltungssysteme, Big Data Management und Big Data-Analytik. Darauf wollen wir in diesem Strategic Bulletin den Fokus legen. 2.2 Nutzenpotenziale von Big Data Im Big Data steckt großes Potenzial, vor allem viel Wissen, das man sich nur erschließen muss. Aber das Potenzial an Wissen ist nicht so einfach zu erschließen, denn ein solcher verwobener Mix aus riesigen, unüberschaubaren und fragmentierten Daten macht es schwierig, die Daten zu identifizieren, zu extrahieren, zu speichern, zu verwalten und zu analysieren. Bevor wir uns aber die dazu notwendigen Innovationen anschauen, wollen wir die Nutzenpotenziale verstehen und erkennen, wie wir vom Big Data profitieren können. Beginnen wir dazu mit zwei Beispielen. Beispiel: Big Data im Handel. Im Handel kämpft man schon lange mit sehr großen Datenmengen, den Kassenbon-Daten beispielsweise. In den Kassenbon-Daten steckt viel Kundenwissen, denn sie eignen sich gut, um die Produktprofitabilität pro Kunden auszurechnen. Das ist eine wichtige Kennzahl zur Steuerung von personalisierten Kampagnen und Echtzeit-Produktempfehlungen, also eine im analytischen CRM typische Kennzahl im Handel für die Outbound- und Inbound-Kundenkommunikation. Nur konnte man mit den traditionellen BI-Werkzeugen diese Kunden/Produkt-Profitabilität-Kennzahl nicht ausrechnen, da das zugrunde liegende Datenvolumen zu groß war und die Analysen einfach zu lange dauerten, um beispielsweise im Rahmen von Kundeninteraktionen Empfehlungen in Echtzeit auszusprechen. Mit Big Data-Technologien lässt sich das Problem lösen. Beispiel: Stimmungsanalysen in den Social Media. Insbesondere die Konsumgüterhersteller interessieren sich für die Meinungen aller Marktteilnehmer zu den eigenen Produkten und Marken ebenso im Vergleich dazu zu den Produkten und Marken der Mitbewerber. Hier bieten die Social Media neue und ergiebige Quel- © S.A.R.L Martin/IT Research Juli 2012 8 Inhalt Strategic Bulletin: BIG DATA len. Neben der Chance, Zielgruppen mit chirurgischer Präzision zu bearbeiten, bringen Social Media aber auch Risiken: In Blogs, Foren und Tweets wird schlicht und einfach alles über Produkte und Unternehmen gesagt – inklusive echter Lügen: Expertenforen können schnell und nachhaltig Werbesprüche entzaubern. Zur Auswertung all dieser Kommunikation in den Social Media beginnt man mit dem Identifizieren und Extrahieren der relevanten Quellen im Big Data. Dann gilt es, diese Quellen auszuwerten. Das liefert nicht nur statistische Information, wo und wie viele Spuren sich im Web und in den Social Media befinden, sondern mit Hilfe von Stimmungsanalysen (sentiment analysis) lässt sich auch die Tonalität der Beiträge bestimmen. Auf Basis eines Social Media Monitoring kann im nächsten Schritt eine Social Media Interaktion aufgebaut werden. Das Unternehmen kann jetzt auf relevante Beiträge sofort reagieren und intervenieren. Das bringt Vorteile vor allem im Kundenservice oder bei der Einführung neuer Produkte im Markt, da sich sofort eine Kommunikation mit Communities im Web aufbauen und unterhalten lässt. So sind beispielsweise schon in verschiedenen Service-Call Centern die Agenten auch zu Social Media-Agenten geworden, die jetzt eine Multikanal-Kommunikation mit den Kunden über die traditionellen und die Social Media-Kanäle führen können. Das ist der Schritt von Outbound- und Inbound-Kundenkommunikation zur Unbound-Kundenkommunikation. So schafft man eine gesteigerte Time-to-Market und eine höhere Kundenbindung bei einer vergleichsweise überschaubaren Investition. Wenn man sich diese Beispiele genauer anschaut, dann lassen sich fünf Nutzenaspekte von Big Data erkennen. Die fünf Nutzenaspekte von Big Data 1. Transparenz durch Big Data. Ein Hersteller von Konsumgütern will beispielsweise wissen, wie Konsumenten seine Marken und Produkte und/oder die seiner Mitbewerber in den einschlägigen Blogs diskutieren und bewerten. Oder eine Hotelkette interessiert sich für das elektronische Feedback ihrer Gäste und/oder für die Bewertungen der Mitbewerber. Auch eine ganz neue Art der Wettbewerbsbeobachtung ist mittels der öffentlich zugänglichen Satellitenbilder machbar. Man kann so Hinweise über Fabrikkapazitäten erhalten, rechtzeitig Expansionen erkennen oder auch topologische Beschränkungen, die Expansionen des Mitbewerbers behindern können. Alles wird möglich, wenn all diese Daten im Unternehmen zugreifbar und auswertbar werden. In der Verbindung mit den Unternehmenskundendaten erhält man so nicht nur eine 360°-Sicht auf den Kunden, wie immer im CRM gefordert, sondern sogar eine 360°-Sicht auf den gesamten Markt: Mitbewerber, Kunden der Mitbewerber, Presse, Marktmultiplikatoren etc. Denn im Big Data spiegelt sich ja der Markt mit allen Marktteilnehmern wieder. Um von diesem Nutzenaspekt zu profitieren, muss das „Silo-Denken“ in den Unternehmen endlich aufhören. Das Sammeln von Fachabteilungs-bezogenen Daten ist nicht ausreichend, um Kunden- und Marktwissen durch Big Data aufzubauen. Im Finanzwesen ist es immer noch üblich, Daten über die Finanzmärkte, über den Zahlungsverkehr und das Kreditwesen getrennt zu halten und nicht über Abteilungsgrenzen hinweg zu nutzen. Das hindert den Aufbau kohärenter Kundensichten und das Verstehen der Beziehungen und Beeinflussungen zwischen Finanzmärkten. 2. Testen aller Entscheidungen. Big Data bietet die Möglichkeit, das Treffen von Entscheidungen grundlegend zu ändern. Mittels kontrollierter Experimente können Hypothesen getestet werden. Das erlaubt, Entscheidungen und Maßnahmen auf Basis von Fakten zu treffen. So lassen sich auch Ursache-Wirkungsbeziehungen von reinen Korrelationen unterscheiden. Internet-Unternehmen wie Amazon und eBay waren mit bei den ersten, die solche kontrollierten Experimente nutzten, um die Konversionsraten von Besuchern ihrer Webseiten zu steigern. Dazu wurden gezielt bestimmt Funktionen und Verbindungen auf Webseiten geändert und die Wirkung entsprechend gemessen. So konnten die Faktoren ermittelt werden, die die Konversionsraten steigern. Mittels des mobilen Internets kann jetzt die Wirkung von Außenwerbung bezogen auf den Standort gemessen und entsprechend optimiert werden. Das wird durch die Klickraten auf den QR-Codes auf Werbeflächen ermöglicht. So lässt sich im Big Data auch ein cross-mediales Marketing aufbauen. Die Konzepte des kontrollierten Testens von Änderungen von Webseiten werden heute auch in der realen Welt machbar. Das geschieht nicht nur durch die QR-Codes, sondern auch beispielsweise mittels Video-Aufzeichnungen von Kundenbewegungen in Kombination mit Kundeninteraktionen und Bestellmustern, die sich in © S.A.R.L Martin/IT Research Juli 2012 9 Inhalt Strategic Bulletin: BIG DATA Transaktionsdaten verbergen. Durch kontrollierte Experimente lassen sich so Produkt-Portfolios und -Platzierungen sowie Preise kontinuierlich und gezielt verbessern. Daraus folgt eine Kosteneinsparung durch mögliche Reduktionen des Produktangebots ohne Risiko des Verlustes von Marktanteilen und sowie eine Steigerung der Marge durch den Verkauf höherwertiger Produkte. 3. Personalisierung in Echtzeit. Kunden- und Marktsegmentierung hat eine lange Tradition. Jetzt mit Big Data gibt es völlig neue Möglichkeiten durch Echtzeit-Personalisierung von Kundeninteraktionen. Im Handel kennen wir solche Strategien bereits von den Big Data-Vorreitern wie Amazon und eBay, aber auch von sozialen Netzen, wo uns Freundschaften vorgeschlagen werden. Natürlich profitiert man auch in anderen Branchen von solchen personalisierten Kundeninteraktionen, beispielsweise im Versicherungswesen. Hier können Versicherungspolicen auf den Kunden individuell zugeschnitten werden. Als Datenbasis dazu dienen kontinuierlich angepasste Profile der Kundenrisiken, Änderungen in der Vermögenslage oder auch Lokalisierungsdaten. Kraftfahrzeuge können mit speziellen Sendern ausgerüstet werden, so dass sie über eine Lokalisierung im Falle eines Diebstahls wiedergefunden werden können. 4. Prozess-Steuerung und Automatisierung. Big Data erweitert den Einsatz von Analytik zur Prozess-Steuerung und Automatisierung. So können Sensor-Daten von Produktionsstraßen zur Autoregulierung von Produktionsprozessen genutzt werden. Damit lassen sich Kosteneinsparungen durch optimalen Materialeinsatz und durch Vermeidung von menschlichen Eingriffen erzielen, wobei gleichzeitig der Durchsatz erhöht werden kann. Proaktive Wartung ist ein anderes Einsatzgebiet. Maschinen können kontinuierlich über Sensoren überwacht werden, so dass auftretende Unregelmäßigkeiten sofort erkannt werden und rechtzeitig beseitigt werden können, bevor Schäden auftreten oder es zum Stillstand kommt. Andere Beispiele stammen aus der Konsumgüter-Branche. Getränke oder auch Speiseeis-Hersteller nutzen die täglichen Wettervorhersagen, um die eigenen Nachfrageplanungsprozesse an das aktuelle Wetter anzupassen. Dabei sind die Messdaten zur Temperatur, zur Niederschlagsmenge und zur täglichen Sonnenscheindauer entscheidend. Dieses Wissen erlaubt eine Prozessoptimierung durch die Verbesserung der Vorhersagewerte um einige Prozent. 5. Innovative Informations-getriebene Geschäftsmodelle. Big Data erlaubt auch neue, innovative Geschäftsmodelle auf der Basis von Information. Preis-Information wurde früher vielfach vertraulich behandelt. Heute in den Zeiten des Internets und Internethandel sind Preise in der Regel öffentlich verfügbar. Das erlaubt den Internet- und anderen Händlern die Preise des Mitbewerb zu überwachen und rechtzeitig auf Preisänderungen zu reagieren. Das erlaubt aber auch den Kunden, sich über die Preise zu informieren und so den besten Preis für ein gewünschtes Produkt zu erzielen. Darauf haben sich einige Anbieter spezialisiert, die über Konsolidierung, Aggregieren und Analyse von Preisinformation ihr eigenes Geschäftsmodell gefunden haben. Das gilt nicht nur im Handel, sondern auch im Gesundheitswesen, wo durch solche Information-Anbieter die Behandlungskosten transparent gemacht werden. 2.3 Entwicklung von Big Data: Marktschätzungen Der Big Data-Markt besteht wie bereits im Kap. 2.1 definiert aus Software, Hardware und Services. Zur Big DataSoftware werden Datenhaltungssysteme, Daten-Management und Analytik gezählt, die den Belangen und Herausforderungen von Big Data gerecht werden. Dazu gehören insbesondere: • Datenhaltungssysteme wie Hadoop, NoSQL-Datenbanken und analytische Datenbanken, eine neue Generation von Data Warehouse Software- und Hardware-Technologien, • Big Data Management, i.e. Daten-Management angewandt auf Big Data, • Big Data analytische Plattformen und Applikationen inklusive neuer Konzepte zur Daten-Visualisierung, Data Discovery, Textanalyse etc. mit Fokus auch auf die Analyse unstrukturierter Daten. Diese Technologien diskutieren wir im Kapitel 3 im Einzelnen. © S.A.R.L Martin/IT Research Juli 2012 10 Inhalt Strategic Bulletin: BIG DATA Big Data-Services entsprechen den traditionellen Services wie Support, Training sowie Beratungs- und Entwicklungs-Dienstleistungen, jetzt bezogen auf Big Data. Big Data-Hardware umfasst alle Typen von Hardware, jetzt angewandt auf Big Data. Neu sind hier insbesondere Data Appliances, gebündelte und aufeinander abgestimmte Software- und Hardware-Lösungen, meist auch noch kombiniert mit den entsprechenden Dienstleistungen. Am Jahresanfang 2012 ist dieser Big Data-Markt noch ein recht überschaubarer Markt, der laut Wikibon (http://wikibon.org/wiki/v/Wikibon:About), einer „Professional Community“, gerade mal auf $5 Milliarden (Software, Hardware und Services) geschätzt wird. Aber dieser Markt soll in den nächsten 5 Jahren auf $50 Milliarden wachsen (Abb. 1). Das macht ein CAGR von 58% von heute bis 2017. Anbieter wie EMC sprechen sogar von $70 Milliarden als Zielgröße. Die Gründe für dieses rasante Wachstum haben wir ja bereits in den beiden vorigen Kapiteln diskutiert: Die Nutzenpotenziale, die Analysen im Big Data versprechen, zielen direkt auf die Bottom Line der Unternehmen in allen Branchen: Umsatzsteigerungen, Kosteneinsparungen, Erhöhung der Wettbewerbsfähigkeit und neue, innovative Geschäftsmodelle. Wer will da zurückstehen? Entwicklung von Big Data ■ Markt- und Big Data Market Forecast, 2012-2017 ( in $ US billions) Potenzialschätzungen: $60.0 $ 53.4 $50.0 $ 48.0 • Anbieter wie EMC sprechen von $ 70b. • Investitionen in Hadoop: $ 350m. ■ Big Data ist mehr $40.0 als ein Hype. $ 32.1 $30.0 $20.0 $ 16.8 $10.0 $ 10.2 $ 5.4 $0.0 2012 2013 2014 2015 2016 Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues 2017 © S.A.R.L. Martin 2012 Abbildung 1: Wikibon’s 5 Jahres-Vorhersage für den Big Data-Markt (Software, Hardware, Services weltweit). Aber trotz aller Euphorie für die Marktentwicklung und die Zukunft: Noch wird im Big Data-Markt nicht das große Geld verdient. Wikibon hat dazu die Umsätze der „reinen“ Big Data-Anbieter 2011/2012 ermittelt. Als „reiner“ Big Data-Anbieter zählt dabei ein Software-, Hardware- oder Service-Anbieter, der mehr als 50% seines Umsatzes mit Big Data macht. Der Gesamtumsatz dieser Anbieter (Februar 2012) macht gerade mal $311 Millionen aus, also gerade mal rund 5% des Gesamtumsatzes im Big Data-Markt (Abb. 2). Aber umgekehrt sind es genau diese Anbieter, auf die nahezu alle Innovationen und alternativen Ansätze zu Data Management und Analytik zurückgeführt werden können. Und diese Anbieter sind deshalb auch das Ziel von Übernahmen durch die großen IT-Anbieter: HP hat Vertica, Teradata Asterdata und EMC Greenplum übernommen. Das zeigt, dass sich die großen IT-Anbieter ihren Anteil an diesem Wachstumsmarkt sichern. Das unterstreicht auch, dass die Markteinschätzungen zum Wachstum nicht unbedingt aus der Luft gegriffen sind, da die großen Anbieter hier investieren. So sind beispielsweise in das Apache OpenSource-Projekt Hadoop bisher $350 Millionen geflossen. © S.A.R.L Martin/IT Research Juli 2012 11 Inhalt Strategic Bulletin: BIG DATA Big Data-Anbieter 2011/12 Big Data Pure-Play Vendors, Yearly Big Data Rvenue ( in $ US millions) $90 $84 Total Big Data Pure Play Revenue: $ 310 million $80 $70 $60 $52 $45 $50 $43 $40 $43 $30 $18 $20 $8 $10 $7 $6 $10 $3 $3 $2 $2 $2 Ve r As tica te rD at a Sp lin G re k en pl um 10 10 da Th ta C in l ou k Bi de g An ra al yt ic s D ig M ita a lR pR ea so H ni or ng to nw or ks D a ta H PC St ax C Sy st em D s at Ka am ee rm r as ph er e O th er $0 Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues © S.A.R.L. Martin 2012 Abbildung 2: Weltweiter Jahresumsatz der führenden „reinen“ Big Data-Anbieter bezogen auf Februar 2012. Die „reinen“ Big Data-Anbieter sind definiert als Anbieter von Software, Hardware oder Services, die mehr als 50% mit Big Data umsetzen. Diese gezeigten Zahlen spiegeln nur diese Umsätze wieder. Big Data-Umsätze großer IT-Anbieter Total 2012 Big Data Revenue by Vendor Vendor IBM Intel HP Oracle Teradata Fujitsu CSC Accenture Dell Seagate EMC Capgemini Hitachi Big Data Revenue (in $ US millions) $1,100 $765 $550 $450 $220 $185 $160 $155 $150 $140 $140 $111 $110 Total Revenue (in $US millions) $106,000 $54,000 $126,000 $36,000 $2,200 $50,700 $16,200 $21,900 $61,000 $11,600 $19,000 $12,100 $100,000 Quelle: Wikibon - http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues Big Data Revenue as Percentage of Total Revenue 1% 1% 0% 1% 10% 1% 1% 0% 0% 1% 1% 1% 0% © S.A.R.L. Martin 2012 Abbildung 3: TOP-Anbieter, die mehr als $100 Millionen Umsatz im Big Data machen (Software, Hardware, Services weltweit). Mit Ausnahme von Teradata liegt der Big Data-Umsatzanteil bei allen Anbieten bei rund 1% des Gesamtumsatzes oder sogar darunter. © S.A.R.L Martin/IT Research Juli 2012 12 Inhalt Strategic Bulletin: BIG DATA Wie sieht nun der $5 Milliarden Big Data-Markt in 2012 aus, wenn die „reinen“ Big Data-Anbieter gerade mal mit 5% zum Markt beitragen? Es dominieren wie immer die großen IT-Anbieter, und die haben sich alle Big Data auf die Fahnen geschrieben. In der Abbildung 3 listen wir der Wikibon- Schätzung folgend alle IT-Anbieter, die mehr als $100 Millionen Umsatz mit Big Data machen. Die SAP ist noch nicht dabei, steht aber mit geschätzten $85 Millionen kurz vor dieser Schwelle. Bei den Zahlen fällt zum einen auf, dass im Augenblick viel Geschäft mit Hardware und auch mit Services (beispielsweise IBM) gemacht wird, und zum anderen, dass mit Ausnahme von Teradata bei allen Anbieter der Big Data-Umsatz vernachlässigbar klein ist. Aber das soll sich ja ändern, wenn auch völlig klar ist, dass wir mit Big Data ganz am Anfang stehen. Auch ist in diesem Markt mit vielen Übernahmen der kleinen innovativen Software-Anbieter durch die großen IT-Anbieter zu rechnen ganz analog zur BI-Übernahmewelle in den Jahren 2007/08. Fazit Kapitel 2: Big Data – Definition, Nutzen und Markt: • Big Data bedeutet nicht nur ein großes Datenvolumen, sondern ist durch die vier „V“ definiert: Volume, Velocity, Variety und Verbraucher. • Die Nutzenpotenziale von Big Data liegen auf der Hand und zielen auf die Bottom Line: Kosteneinsparungen, Umsatzsteigerungen, Erhöhung der Wettbewerbsfähigkeit und innovative Geschäftsprozesse und Modelle. • Der Markt ist jung und unreif. Wir stehen ganz am Anfang, aber eine Explosion des Marktes ist zu erwarten: Big Data ist ein großer und schnell wachsender Markt. Unternehmen sollten den Big Data-Markt beobachten, um nicht den Anschluss zu verlieren. Es empfiehlt sich, Nutzenpotenziale für das Unternehmen jetzt zu identifizieren und in Abhängigkeit von einer solchen Analyse erste Piloten zu starten. Anbieter sollten eine glaubwürdige Position aufbauen und eine Roadmap, die klar erkennbare Werte bietet und die notwendige Flexibilität, um im Big Data-Markt zu prosperieren. © S.A.R.L Martin/IT Research Juli 2012 13 Inhalt Strategic Bulletin: BIG DATA 3. Big Data-Technologien Analytik ist im Zeitalter von Big Data wichtiger denn je, denn nur mit Analytik lassen sich die Big Data-Nutzenpotenziale erschließen. Es ist aber nicht nur das Volumen, das die Herausforderung an Analytik darstellt, sondern auch die „Variety“, also die Menge und Diversität der Quellen, sowie die Velocity, also die Geschwindigkeit der Datenproduktion. Big Data treibt daher auch neue Integrationswerkzeuge zur agilen Web- und Cloud-Integration und zum Big Data Management sowie den Einsatz innovativer Datenhaltungs-Technologien, um die Petabytes, sogar Exabytes von Daten auswerten zu können: Analytische und NoSQL Datenbanken, die innovative Algorithmen zum Zugriff- und Speicher-Management mit innovativen Ansätzen wie Spalten-Orientierung und innovativer Hardware-Technologie wie In-Memory-und verteilter Verarbeitung miteinander verbinden. Dazu kommen neue analytische Methoden und Verfahren zur Visualisierung und insbesondere zur Analyse unstrukturierter Daten wie die Textanalytik. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen. Big Data als Quelle für Analytik Social Media Data Discovery Call Data Records Location Intelligence RFID Ereignisse Sensoren Big Data Lokalisierungsdaten Textanalytik QuellenIdentifikation QuellenExtraktion Data/ Text Mining Operative Daten Search Files, XML, Spreadsheets Anreicherung Data Warehouse Maschinendaten Big Data-Management Big Data-Analytik Analytische und Not only SQL (NoSQL)-Datenhaltungssysteme © S.A.R.L. Martin 2012 Abbildung 4: Big Data-Architektur. Die Big Data-Datenflut wird durch spezielle Datenhaltungssysteme adressiert. Big Data bedeutet nicht nur die Datenflut, sondern auch eine Vielzahl unterschiedlichster Quellen im Internet, die meist nicht über Schnittstellen verfügen oder die Schnittstellen haben, die nicht den vollen Datenzugriff erlauben. Hier helfen agile Web-Integrations- und Extraktionswerkzeuge, die Daten auch ohne Schnittstellen abgreifen können. Zusätzlich sind auch semantische Suchmaschinen zur Quellenidentifikation entsprechend vordefinierter Relevanzmaße notwendig. Daten-Management muss darüber hinaus die neuen Zugriffsmethoden wie MapReduce und andere unterstützen. Big Data-Analytik adressiert ebenfalls die neuen in der Abbildung gezeigten Themen. 3.1 Datenhaltungssysteme Wenn die zu analysierende Datenmenge in Form von Volumen und Quellenvielzahl schneller steigt als die Leistung von traditionellen Datenbanken, schafft man es einfach nicht mehr, Daten im Detail zu analysieren, da es schlichtweg gesagt zu lange dauert. Gartner sagt in seinem Bericht zum Magic Quadrat for Data Warehouse Database Management Systems 2010: „Gartner-Klienten stehen bei der Abfrage von Data Warehouses immer häufiger vor erheblichen Performanceproblemen. Auf Grundlage dieser Informationen dürften rund 70 % aller Data Warehouses mit derartigen Problemen zu kämpfen haben.“ © S.A.R.L Martin/IT Research Juli 2012 14 Inhalt Strategic Bulletin: BIG DATA Klassifikation: Datenhaltungssysteme Cassandra Teradata Couch DB Intersystems Hive analytisch NoSQL HBase Hadapt Hadoop © S.A.R.L. Martin 2012 Abbildung 5: Klassifikation der zu den relationalen Datenbanken alternativen Datenhaltungssysteme für Big Data. Die genannten Produkte sind als Beispiel eines Vertreters dieser Klassen zu verstehen. In die Schnittmenge der analytischen und der NoSQL-Datenhaltungssysteme haben wir mit Cassandra ein Open Source spaltenorientiertes Datenhaltungssystem und mit InterSystems eine objektorientierte Datenbank gesetzt, um auch zu zeigen, dass NoSQL-Datenhaltungssysteme sich aus unterschiedlichen Ansätzen zusammensetzen. Eine ausführliche Klassifikation von entsprechenden Produkten befindet sich im Kapitel 4.1. Daher haben sich neue Methoden und Technologien der Datenhaltung entwickelt, um Big Data in den Griff zu bekommen. Neben den traditionellen relationalen Datenbanken gibt es heute analytische Datenbanken, NoSQL-Datenhaltungssysteme und Datenbanken sowie Hadoop, ein Framework für skalierbare, verteilt arbeitende Software mit der Zielsetzung, intensive Rechenprozesse mit großen Datenmengen auf Clustern von Rechnern durchzuführen. Allerdings sind diese drei Ansätze nicht trennscharf. Es gibt zwischen ihnen Überlappungen, so ist beispielsweise Hive, eine Data Warehouse-Umgebung, einerseits auf Hadoop basierend, andererseits als Data Ware auch als analytische Datenbank zu verstehen und von den Konzepten auch als NoSQL-Datenbank zu verstehen. Die Abbildung 5 zeigt diese Klassifikation als Venn-Diagramm. Wir stellen nun die einzelnen Konzepte vor und geben dann in Kapitel 4.1 eine Klassifikation der verschiedenen Anbieter. Analytische Datenbanken. Analytische Datenbanken gibt es bereits seit den frühen 90er Jahren, aber ihr Erfolg im Markt war bisher eher bescheiden. Das ändert sich jetzt im Big Data. Was machen analytische Datenbanken anders als herkömmliche Datenbanken? Da gibt es in der Tat verschiedene Methoden, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung, neuartige Zugriffsverfahren und Algorithmen sowie Bündelungen von Hardware und Software („Data Appliances“). All diese Methoden und Verfahren dienen der Beschleunigung des Suchens und Lesens in Datenhaltungssystemen. Sie finden Einzelheiten dazu im Einschub. Aber diese Methoden und Verfahren schaffen an anderer Stelle Probleme: Die Transaktionsverarbeitung gemäß dem ACID-Prinzip3 ist zum Teil nicht mehr möglich. Daher sprechen wir hier auch besser von Datenhaltungssystemen als von Datenbanken, da Datenbanken per Definition Transaktionssicherheit bieten müssen. 3 ACID (atomicity, consistency, isolation, durability) ist eine Menge von Eigenschaften, die garantieren, dass Datenbank-Transaktionen zuverlässig abgewickelt werden. © S.A.R.L Martin/IT Research Juli 2012 15 Inhalt Strategic Bulletin: BIG DATA Einschub: Methoden zur Beschleunigung des Lesens großer Datenmengen. Beginnen wir mit der Spaltenorientierung. Herkömmliche relationale Datenbanken sind zeilenorientiert. Das schafft bei großen Datenmengen einige Probleme, die wir jetzt zuerst beleuchten, um danach die Vorteile von spaltenorientierten Datenbanken herauszuarbeiten. Ein Datensatz, der beispielsweise einen Kunden beschreibt, hat vielleicht sagen wir 1.000 Attribute, aber wir haben so viele Sätze, wie wir Kunden haben, also durchaus Millionen Sätze und unter Umstünden sogar noch mehr. Wenn wir nun in einer herkömmlichen Datenbank nach gewissen Kunden mit bestimmten Merkmalen (definiert über die Attribute) suchen, dann muss man eben alle Datensätze lesen. Beim Lesen stößt man gleich an ein ganz allgemeines Problem von herkömmlichen Datenbanken. Die sind nämlich gar nicht zum Lesen vieler Datensätze gebaut, sondern vom Design her eher transaktions-orientiert. Sprich, eine Datenbank gibt mir über einen Index in Bruchteilen von Sekunden eine bestimmte Datenmenge zum Ändern, Löschen oder Neuanlegen4. Will man also Adhoc-Abfragen auf herkömmlichen relationalen Datenbanken durchführen, dann braucht man Indizes und Aggregate, um schnelle Antworten zu erzielen. Das bedeutet aber, dass die Abfragen schon vorher bekannt sein müssen und durch Datenbankspezialisten aus der IT vorbereitet werden müssen (Sie bauen die Indizes und Aggregate). Mit anderen Worten, das ist teuer, weil gut bezahlte Spezialisten notwendig sind. Das ist zudem langsam: Denn wenn man mit einer neuen Idee kommt, zu der es noch keine Indizes und Aggregate gibt, dann müssen die erst gebaut werden. Wenn man eine Abfrage ohne eine solche Vorbereitung startet, kann der ganze IT-Betrieb empfindlich gestört werden. Indizes und Aggregate haben noch eine weitere unangenehme Eigenschaft: Sie brauchen Platz und machen die Datenbank um einen meist zweistelligen Faktor grösser als notwendig. Damit wird sie dann immer langsamer. Das führt dazu, dass irgendwann der Augenblick kommt, ab dem man gar keine Abfragen an die Datenbank mehr stellt, weil die Antworten viel zu spät eintreffen. Der Nutzer ist frustriert, das Wissen liegt brach in der Datenbank. Information wird zu einem reinen Kostenfaktor. Wissen über Kunden, Markt, Mitbewerber und Risiken lässt sich nicht mehr anwenden. An dieser Stelle stehen heute viele Unternehmen. Analytische Datenbanken schaffen hier Abhilfe durch ihre Spaltenorientierung. Bei einer spaltenorientierten Datenbank kann jede Spalte in einer eigenen Datei liegen, d.h. auf einen Wert eines Attributs eines Datensatzes folgt in Lese-Reihenfolge nicht das nächste Attribut des selben Datensatzes, sondern das gleiche Attribut des nächsten Datensatzes: Die Zeilen und Spalten der Tabelle werden miteinander vertauscht. Intuitiv funktioniert dies, da in der Analytik meistens wenige Attribute von sehr vielen Datensätzen benötigt werden. Aufgrund der Spaltenorientierung müssen die restlichen Attribute nicht gelesen werden. Mit anderen Worten: das Lesen wird drastisch reduziert, weil man durch das Vertauschen von Zeilen und Spalten nur noch höchstens so viele Datensätze wie Attribute hat. Da die Anzahl der Attribute in der Regel klein ist gegen die Anzahl der Datensätze, bringt das einen hohen Performance-Gewinn. Jedoch wird das Schreiben von Datensätzen dadurch jedoch sehr teuer, was man aber oft durch Differenzdateien zum Teil ausgleichen kann. Aufgrund dieser Basiseigenschaft von spaltenorientierten Datenbanken erhält man einen weiteren Vorteil. Man braucht keine Indizes und Aggregate mehr. Das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt. Zusätzlich lassen sich die Daten dann komprimieren. Dazu werden einfache Verfahren genutzt, die es erlauben, relationale Operationen auf den komprimierten Daten auszuführen. So können beispielsweise mehrfach vorkommende Werte durch Kürzel fixer oder variabler Länge ersetzt werden, die durch ein Wörterbuch bei Bedarf wieder in die ursprünglichen Werte übersetzt werden können. Folgen identische Werte direkt aufeinander, können diese Sequenzen lauflängencodiert abgelegt werden. Sortierte ganzzahlige Daten können durch Differenzbildung zum jeweiligen Vorgänger oder zu einem lokalen Minimum in wenigen Bits untergebracht werden. Ein solches Komprimieren bringt also Kostenvorteile, da die Datenbank „klein“ wird (Relativ zu einer zeilenorientierten Datenbank können die Daten bis zu 80% und mehr komprimiert werden.) Man erhält so weitere Performance-Vorteile. 4 Das ist das sogenannte CRUD-Prinzip: „create, read, update, delete“. © S.A.R.L Martin/IT Research Juli 2012 16 Inhalt Strategic Bulletin: BIG DATA Eine weitere Beschleunigung lässt sich durch Parallelisieren der Verarbeitung auf Clustern und durch In-Memory-Verarbeitung erreichen. Das gilt sowohl für zeilen- wie auch spalten-orientierte Datenbanken. Daten werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware-Ressourcen optimal ausgenutzt werden. Die Software ist so konzipiert, dass jeglicher Tuningaufwand entfällt, wie er in konventionellen Systemen üblich ist. Die Datenbanklösung legt Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Analytische Datenbanken werden in unterschiedlichen Ausprägungsformen angeboten. Es gibt parallelisierte herkömmliche Datenbanken, die in der Regel als Appliance angeboten werden, also eine spezielle Hardware und den parallelen Zugriffsmethoden und Algorithmen. Dabei sind solche Datenbanken dann immer noch zeilenorientiert. Dann gibt es analytische Datenbanken, die spaltenorientiert sind, aber weitgehend Hardware-unabhängig eingesetzt werden können. Und schließlich gibt es spaltenorientierte Datenbanken, die als Appliance teilweise mit spezieller Hardware angeboten werden, aber insbesondere In-Memory einsetzen. Schließlich sind hier auch noch objektorientierte Datenbanken zu nennen, die aufgrund ihrer Objektorientierten Struktur sowohl Transaktionsverarbeitung als auch schnelles Lesen und Suchen unterstützen. Daneben gibt es auch noch besondere Verfahren wie beispielsweise „Database Images“ oder spezielle Data Appliances, die die Kommunikation zwischen Server und Speicher optimieren. Analytische Datenbanken lösen die Probleme, mit denen die Kunden heute in der Analytik kämpfen: Performance, Skalierbarkeit und Kosten. Fassen wir nochmal die Vorteile zusammen: • Informationen sind flexibler abrufbar und stehen bis zu 100mal schneller zur Verfügung. • Die Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft bessere Entscheidungen. • Die IT wird entlastet, da die analytischen Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Zwei Dinge sollten zum Schluss noch klar gesagt werden: • Eine analytische Datenbank macht ein physikalisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische, fachliche Design der analytischen Datenbank. In diesem Sinne bleibt weiterhin ein Information Management unabdinglich, auch wenn analytische Datenbanken eingesetzt werden. Denn ein Stammund Metadaten-Management, ein Datenqualitäts-Management, eine Information Governance und die anderen Aufgaben im Information Management bleiben auch mit analytischen Datenbanken kritische Erfolgsfaktoren. • Eine analytische Datenbank ersetzt in der Regel nicht die herkömmlichen Datenbanken in der Transaktionsverarbeitung. Analytische Datenbanken sind eine neue Generation von Datenbanken für analytische Aufgaben im Unternehmen. Ein Unternehmen braucht heute immer noch zwei unterschiedliche Datenbanktechnologien, eine für die analytischen Aufgaben, eine für die Transaktionsverarbeitung. Dabei gilt natürlich der bekannte Satz: Keine Regel ohne Ausnahme: Oracle Exadata, Kognitio WX2 und SAP HANA eignen sich sowohl für hoch-performante analytische als auch transaktionsorientierte Aufgaben. Insbesondere SAP HANA bietet hier zukünftig ein großes Potenzial. Dabei ist allerdings der Performance-Gewinn in der Transaktionsverarbeitung deutlich geringer, denn in der Transaktionsverarbeitung braucht man ein Select auf den Einzelsatz. Der Einzelsatzzugriff wird durch In-Memory-Verarbeitung aber kaum beschleunigt. Die In-Memory-Verarbeitung erweist erst beim Select auf Gruppen die bekannten hohen Performance-Gewinne. © S.A.R.L Martin/IT Research Juli 2012 17 Inhalt Strategic Bulletin: BIG DATA NoSQL Datenhaltungssysteme. Sie ergänzen das traditionelle relationale Datenbankmodell und zeigen genau wie verschiedene analytische Datenbankenmethoden auch, dass das relationale Modell keinen Alleinstellungsanspruch als „einziges“ Datenhaltungsmodell mehr hat. Genauso wie verschiedene Methoden analytischer Datenbanken nicht neu sind, sind auch verschiedene NoSQL-Ansätze schon seit zum Teil langer Zeit im Einsatz. In den 90er Jahren boten objektorientierte Datenbanken Alternativen zum relationalen Modell. Die hatten einen grundlegenden Ansatz, der in allen heutigen NoSQL-Datenhaltungssystemen zu finden ist. Sie sind schemafrei und setzen auf alternative Techniken, um festzulegen, wie Daten gespeichert werden. Dazu kommt der Einsatz anderer Protokolle als SQL für die Kommunikation zwischen Anwendung und Datenhaltungssysteme. Ähnlich wie bei den analytischen Datenbanken ist die Architektur vieler NoSQL-Datenbanken auf Skalierbarkeit ausgelegt: Die Verarbeitung und Verwaltung großer Datenbestände erfolgt verteilt mittels Cluster aus Standardsystemen. Neben den objektorientierten Datenbanken gibt es weitere Ausprägungen von NoSQL-Datenhaltungssystemen: dokumentenorientierte Datenbanken („document stores“), Key-Value-Datenbanken, spaltenorientierte Datenbanken und Graphen-Datenbanken. Dokumentenorientierte Datenbanken speichern „Texte“ von beliebiger Länge mit unstrukturierten Informationen und ermöglichen das Suchen auf Basis von Dokumentinhalten. Die gespeicherten Dokumente müssen nicht die gleichen Felder enthalten. XML-Datenbanken sind dokumentorientierte Datenbanken mit semi-strukturierten Daten. Graphen-Datenbanken (oder: Entity-Relationship-Datenbanken). Sie basieren auf der Darstellung von Daten als Knotenpunkte (Entitäten) und Beziehungen (Relationen) zwischen den Knoten. Statt traditioneller Datensätze erstellt man hier Knoten, die durch die Beziehungen, die man zwischen ihnen definiert, miteinander verknüpft werden. Dabei wird Information zu den Knoten und ihren Beziehungen als Eigenschaften (Attribute) gespeichert. Graphen-Datenbanken haben insbesondere Vorteile, wenn wie bei (sozialen) Netzen die Beziehungen zueinander im Mittelpunkt stehen, man also Netze abbilden will. Graphen-Datenbanken gehen auf Entwicklungen im Computer Aided Software Enginering (CASE) der späten 80er Jahre zurück. Key-Value-Datenbanken. Hier weist ein Schlüssel auf einen Wert, der in seiner einfachsten Form eine beliebige Zeichenkette sein kann. Key-Value-Datenbanken sind auch nicht neu. Sie sind als traditionelle Embedded-Datenbanken wie dbm, gdbm und Berkley DB in der Unix-Welt bekannt geworden. Key-Value-Datenbanken arbeiten entweder als In-Memory-System oder als On-Disk-Version. Spaltenorientierte Datenbanken. Sie gehören gemäß der hier benutzten Klassifikation in die Klasse der analytischen Datenbanken, was zeigt, dass analytische und NoSQL-Datenhaltungssysteme sich nicht disjunkt zueinander verhalten (siehe auch Abb. 5). Hadoop ist dabei, einen Standard der Zukunft in Big Data-Datenhaltung und Daten-Management zu setzen. Es ist ein Apache Software Foundation Open Source-Entwicklungsprojekt und besteht aus drei Komponenten: der Speicherschicht HDFS (Hadoop Distributed File System), der von Google vorgeschlagenen Programmierumgebung MapReduce zur parallelen Verarbeitung von Abfragen und einer Funktionsbibliothek. Zu Hadoop gehört auch die HBase, ein skalierbares Datenhaltungssystem zur Verwaltung sehr großer Datenmengen innerhalb eines HadoopClusters. Die HBase ist eine Open Source-Implementierung der Google BigTable. Die Speicherschicht HDFS speichert in der Standardeinstellung Daten in 64MB Blöcken, was paralleles Verarbeiten unterstützt und exzellent zum Lesen großer Datenmengen geeignet ist. Der Nachteil ist, dass eine solche Verarbeitung naturgemäß Batch-orientiert ist und sich deshalb nicht für Transaktionsverarbeitung oder Echtzeitanalysen eignet. HDFS hat schließlich eingebaute Redundanz. Es ist designt, um über hunderte oder tausende von preiswerten Servern zu laufen, von denen man annehmen kann, dass immer wieder einige ausfallen. Daher wird in der Hadoop-Standardeinstellung jeder Datenblock dreimal gespeichert. Neue Daten werden zudem immer angehängt, niemals eingefügt („no insert“). Dazu kommen noch einige Ergänzungen wie die HLQL (high level query languages) Hive, Pig und JAQL. Hive ist eine Data Warehouse-Umgebung, die auf einer Entwicklung von Facebook beruht. Zu Hive gehört die HLQL „QL“, © S.A.R.L Martin/IT Research Juli 2012 18 Inhalt Strategic Bulletin: BIG DATA die auf SQL beruht. Da es für die Hadoop-Programmierumgebung MapReduce noch nicht sehr viele Ressourcen gibt, die damit umgehen können, sind HLQLs wie QL sehr willkommen, da sie den Entwicklern die Verwendung einer SQL-ähnlichen Syntax erlauben. Eine andere HLQL ist Pig. Mit Hilfe von Pig sind parallele Ausführungen komplexer Analysen einfacher als mit MapReduce nachvollziehbar und durchführbar. Darüber hinaus bietet Pig auch im Gegensatz zu MapReduce eine automatisierte Optimierung komplexer Rechenoperationen. Pig ist auch offen und lässt sich durch eigene Funktionalitäten ergänzen. Zum Managen von Hadoop-Anwendungen dienen Chukwa, das die Echtzeitüberwachung sehr großer verteilter Systeme ermöglicht, und ZooKeeper, das zur Konfiguration von verteilten Systemen dient. Obwohl Hadoop auf Technologien und Konzepten beruht, die von Big Data-Unternehmen wir Facebook und Google stammen, so ist doch heute noch sehr deutlich zu sagen, dass diese Technologien noch sehr jung und auch unausgereift sind. Daraus folgt, dass der Einsatz solcher Technologien ausgewiesene und am Markt nur schwer zu findende Mitarbeiter benötigt. Dazu kommt, dass viel Funktionalität noch in Eigenentwicklung zu leisten ist. Zum Schluss sollte noch betont werden, dass all diese Datenhaltungssysteme auch „as a Service“ als Cloud Computing angeboten werden können. Das gilt für alle Formen des Cloud Computings: private, öffentliche oder hybride Wolke. 3.2 Big Data Management Traditionelles Information Management stößt jetzt ebenfalls an seine Grenzen. Es hat sich zu „Big Data Management“ weiterentwickelt. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information Management entsprechend fort: Datenintegration, Data Lineage auf Basis eines Repository und DatenqualitätsManagement5. Eine Auflistung der entsprechenden Anbieter finden Sie in Kapitel 4.1. Bei der Big Data-Integration werden zunächst einmal die traditionellen Datenintegrations-Technologien wie ETLund ELT-Prozesse6 und Echtzeit-Verarbeitung (change data capture, event triggering, Web Services) weiter genutzt. Aber es gibt auch einige Innovationen. Man braucht jetzt – das ist neu – Unterstützung für Hadoop, also Import, Export und interne Verarbeitung. Das setzt sich mit der Nutzung von Hadoop-Konstrukten zur Beschleunigung von Integrationsprozessen fort: Basierend auf MapReduce gibt es eine schnelle und leistungsfähige Flat-FileVerarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer Funktionen. Beispiel hierzu ist das FileScale-Verfahren von Talend, das auch von Anbietern wie Uniserv genutzt wird. Alternativ kann man hier aber auch auf alte und sehr bewährte Hochleistungs-Extrakt-Technologien wie DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data „wiederentdeckt“ werden und inzwischen auch Schnittstellen zu Hadoop haben. Bei der Extraktion von Big Data-Quellen geht man auch neue Wege. Es gibt inzwischen browser-basierte Web-Extraktionswerkzeuge (Beispiel: Kapow Software), die Web-Daten ohne vordefinierte Schnittstelle und ohne Programmierung visuell erschließen. Das ist ein wichtiger Vorteil, denn Schnittstellen im Big Data sind entweder in vielen Fällen nicht vorhanden, müssten also erst langwierig spezifiziert und programmiert werden, oder sie leisten nicht das, was man gerade braucht. Schnittstellen schränken vielfach den Zugriff auf Daten ein. Daten sind so dem Zugriff entzogen. Ein solches Extraktionswerkzeug dagegen gibt Zugriff auf alle sichtbaren Daten und zwar sofort und auch in Echtzeit. Nicht nur Daten können so extrahiert werden, sondern jede Information aus WebApplikationen. Die agilen Extraktionswerkzeuge können auf jede Schicht von Web-Applikationen zugreifen und Information extrahieren. Ein weiterer Vorteil dabei: Diese browserbasierte, visuelle Schnittstelle ist für alle Quellen im Big Data immer die gleiche. 5 6 Im Text genannte Anbieter stellen Beispiele dar: Eine Empfehlung dieser Anbieter ist nicht Zweck dieses Beitrages. ETL = extract, transform, load ; ELT = extract, load, transform. Beide Verfahren unterscheiden sich durch die Reihenfolge der drei Schritte. Bei ETL wird der transform-Schritt in der Datenintegrations-Plattform ausgeführt, bei ELT in der Datenbank. © S.A.R.L Martin/IT Research Juli 2012 19 Inhalt Strategic Bulletin: BIG DATA So beschafft man sich die notwendigen Web-Daten automatisiert und schnell. Dabei darf man allerdings gesetzliche Aspekte nicht vergessen. Selbst wenn Daten nicht geschützt und öffentlich sind, verstößt man unter Umständen bereits gegen die AGBs der Seiten, wenn man automatisch ausliest. Daten, die auf den Netzgemeinschaften als privat gekennzeichnet sind, darf man so natürlich unter keinen Umständen nutzen. Bei öffentlichen Daten ist ein optin den Kunden mehr als empfehlenswert. Die juristischen Details wollen wir aber hier nicht weiter vertiefen, die muss jeder in seinem Unternehmen beachten. Vor der Extraktion von Datenquellen im Web kommt noch das Identifizieren von relevanten Datenquellen. Dazu setzt man Suchmaschinen ein, die also inzwischen auch zu Werkzeugen im Information Management werden. Der Einsatz von Suchmaschinen zur Quellenidentifikation ist heute zumeist ein manuelles Verfahren. Man definiert ein Relevanzmaß, um Quellen bewerten und miteinander vergleichen zu können. Durch Suchmaschinen gefundene Quellen werden dann gemäß dem Relevanzmaß gefiltert, und die identifizierten Quellen stehen dann zur Extraktion zur Verfügung. Big Data Lineage. Data Lineage basiert auf einem Repository zur Verwaltung von Metamodellen, Modellen und Metadaten sowie der Verwaltung aller Transformationsregeln. Das Vorgehen im Big Data ist analog, aber hier sitzt gleich ein erstes Problem, nämlich das der Gewinnung von Metadaten aus dem Big Data. Hier kann mittels Taxonomien per Textanalytik (siehe Kapitel 3.3) Abhilfe geschaffen werden. Hilfreich ist auch eine Wikifizierung der Daten. Gerade im Big Data kann ein Wiki-Ansatz, der auf der Intelligenz und dem Fleiß von vielen basiert, als Methodik dahin führen, dass Erkenntnisse aus dem Big Data schneller gewonnen werden und mit den anderen geteilt werden. So wie Wikipedia das Wissen der Menschheit in verschiedensten Domänen erschlossen hat, so sollten wiki-ähnliche Ansätze, egal welche Technologien zu Grunde liegen, das Wissen aus dem Unternehmen und aus seinem Ökosystem (Intranet und Internet) erschließen.7 Big Data-Repository ■ Data Lineage auf Basis eines Repository, ■ Managen des Business-Vokabulars, ■ Big Data Basis-Anforderungen • Performance und Skalierbarkeit • Echtzeit-Nutzung ■ Ein Repository sollte aktiv sein. „Aktiv“ heißt: Repository • Managen des Life Cycle der Service-Komponenten • Komponenten werden getestet, simuliert und aktiviert, • Funktionen wie eine CMDB „Search, Find, Use“: Knowledge Management & Service Execution © S.A.R.L. Martin 2012 Abbildung 6: Auch im Big Data Management steht ein Repository im Zentrum. 7 Dan Tapscott und Anthony D. Williams: Wikinomics http://www.wikinomics.com/book/ © S.A.R.L Martin/IT Research Juli 2012 20 Inhalt Strategic Bulletin: BIG DATA Schließlich werden alle Objekte der Datenintegrations-Plattform im Big Data-Repository abgebildet, damit sie vom Ursprung bis zum Ziel über den gesamten Informationslebenszyklus verfolgt werden können und bei Änderungen so weit wie möglich auch alle betroffenen Objekte gleich mit geändert werden. Ein Big Data-Repository muss also in diesem Sinne aktiv sein und wie eine CMDB (configuration management database) arbeiten. Das ist im Big Data wichtiger denn je, denn sonst verliert man schnell den Überblick über die Menge an Metadaten und Vielzahl an Modellen. Idealerweise sollte deshalb ein Big Data-Repository Modelle wie das OMG M3-Modell unterstützen, also alles zusammen genommen, eine Ontologie verwalten können. Das zeigt, dass das Repository im Big Data noch wichtiger als bisher wird. Es kommt jetzt auch noch auf die Performanz an, die mit der Repository-Technologie erreicht werden kann. Viele Repository-Technologien basieren immer noch auf relationalen Datenbanken. Aufgrund der Vernetzung der Objekte in einem Repository sind aber zur Implementieren Graphen-Datenbanken in der Regel besser geeignet, da sie nicht nur das physikalische Datenbankmodell vereinfachen, sondern auch eine höhere Performance bieten. Weitere Performance gewinnt man durch Parallelisierung der Verarbeitung. Hier bieten jetzt auch In-MemoryDatenbanken als Infrastruktur eines Big Data-Repositorys eine interessante Lösung. Wir betreten hier aber definitiv Neuland! Big Data Quality. Datenqualität spielt auch im Big Data eine wichtige Rolle, vor allem dann, wenn Unternehmensdaten mit Information aus dem Big Data angereichert werden sollen, also beispielsweise Kundendaten durch Daten aus den sozialen Medien oder Patientendaten mit therapeutischen Daten im Gesundheitswesen. Die Grundaufgaben von Data Quality Management bleiben die gleichen. Es geht wie immer um das Profiling, das Cleansing und das Anreichern und Abgleichen mit Referenzdaten. Aber auch hier steigen im Big Data die Bedeutung von Datenqualität – das Schaffen des „single point of truth“ ist beim gegebenen Datenvolumen schwieriger geworden – und die Anforderungen an die Performanz der Datenqualitätslösungen. Auf die Performance im Big Data Management kommt es also besonders an: Alle Werkzeuge, Services und Plattformen müssen entsprechend skalierbar sein. Dazu kommen die Anforderungen der neuen Methoden wie Hadoop. Ein weiteres „Muss“ ist die Service-Orientierung der Plattform und der Werkzeuge. Dann lassen sich auch hybride Cloud-Lösungen betreiben, beispielweise ein Datenqualitäts-Management as a Service in ETL-Prozessen, um Social Media-Daten über Referenzdaten auf korrekte Adressen zu prüfen. Einer der ersten Anbieter im deutschsprachigen Raum hierzu ist die Uniserv. Das alles erfordert aber neue Skills insbesondere in der IT. In einigen Unternehmen wie Amazon, eBay, Facebook, Google u.a., die sich schon einige Zeit mit Big Data beschäftigen, haben sich neue Rollen wie Data Scientists gebildet. Das sind Mitarbeiter mit folgendem Profil: • Technische Expertise: Tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig. • Problembewusstsein: die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen. • Kommunikation: die Fähigkeit, komplexe Dinge per Anekdoten durch einfach verständliche und gut kommunizierbare Sachverhalte darzustellen. • Kreativität: die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen („thinking out oft he box“). Im Endeffekt wird so Datenmanagement wieder zur eigentlichen und Hauptaufgabe der IT8, während das Beherrschen der Prozesse und der Analytik die Hauptaufgabe der Fachbereiche ist. 8 Das unterstreichen einige neuere Marktstudien, siehe den Beitrag bei InformationAge http://www.information-age.com/channels/information-management/features/1687078/its-focus-shifts-to-data-management.thtml © S.A.R.L Martin/IT Research Juli 2012 21 Inhalt Strategic Bulletin: BIG DATA 3.3 Big Data-Analytik Schauen wir uns jetzt die wesentlichen Innovationen in Analytik an, die die Big Data-Technologie ausmachen und so die traditionellen BI-Methoden, Werkzeuge und Technologien erweitern und fortsetzen. Data Discovery. Unter Data Discovery versteht man eine neue Generation von Business Intelligence(BI)-Werkzeugen, die sich durch außerordentliche Benutzerfreundlichkeit und Flexibilität auszeichnen. Dazu kommt die Verwendung von In Memory-Technologien, die intern zur Speicherung und Verarbeitung genutzt werden. Der große Vorteil der In Memory-Technologie ist die Performance: Daher sind Data Discovery-Werkzeuge insbesondere zur Big Data-Analytik geeignet. Data Discovery-Werkzeuge setzen auf Visualisierung, interaktive, intuitive Analyse, Kollaboration und Autonomie der Endanwender. Die Gestaltung der Anwendung erfolgt hauptsächlich an der Benutzeroberfläche und kann auch durch die Nutzer selbst vorgenommen werden. Hier hat sich auch der Begriff „Selbstbedienungs(self-service)BI“ gebildet. Die Nutzer dieser Werkzeuge erhalten eine hohe Autonomie, und die Rolle der IT entwickelt sich in Richtung eines Service-Anbieters, der die Plattform für Selbstbedienungs-BI bereitstellt, betreibt und auch die notwendige Beratung zur Nutzung leistet. Die Anwender von Data Discovery-Werkzeugen können auf zentrale Daten via Client-Server, Web-Browser oder mobile Geräte wie Tablets zugreifen. Im mobilen Internet kann man für jede konkrete Aufgabenstellung eine eigene App erstellen, die dann ganz gezielt auf einen Geschäftsprozess zugeschnitten ist und direkt zu entsprechenden Arbeitsschritten führt. Weiterhin ist im Data Discovery eine deutlich bessere Teamunterstützung als mit den traditionellen BI-Werkzeugen möglich. So können die Anwendungen via Web, E-Mail oder Social Media-Werkzeugen mit Geschäftspartnern ausgetauscht sowie in Office- oder andere Anwendungen eingebunden werden. Diese kollaborativen Aspekte gehen noch weiter: Es können Bemerkungen zu den Daten an Sichten gekoppelt und mit anderen Anwender geteilt werden. Damit wird an die Prinzipien der schon im Kapitel 3.2 genannten Wikifizierung angeknüpft. Hersteller wie QlikTech, Tibco Spotfire und Tableau gelten als die Trendsetter im Data Discovery. Dazu kommen noch die beiden Open Source-Anbieter Jaspersoft und Pentaho. Weitere Anbieter finden Sie in der Klassifikation in Kapitel 4.1. Textanalytik. Das ist eine neue Klasse von Analytik, die linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet. Mit Textanalytik lassen sich Daten aus dem Big Data systematisch auszuwerten, aber viele Unternehmen sprechen nicht darüber. Man will seinen Kunden nicht gerne sagen, dass man inzwischen eine nahezu gläserne Transparenz geschaffen hat. Daher ist es hier ebenfalls wichtig, alles konform mit den Datenschutzgesetzen zu halten. Textanalytik wie jede Analytik sollte stets mit einem Performance Management verbunden sein ganz im Sinne des bekannten Leitsatzes: Man kann nur managen, was man auch messen kann. Benötigt werden unter anderem Metriken zur Berechnung der Relevanz von Quellen und der Vernetzung von Quellen, Scorecards zum Visualisieren und Verdichten der Monitoring-Ergebnisse und schließlich auch ein Reporting, insbesondere ein Ausnahme-Reporting, um automatisch Auffälligkeiten in den Social Media wie ein Anstieg von Tags, von Autoren, von Threads etc. anzuzeigen. Auch wenn Textanalytik-Lösungen dem Namen nach als Komplettlösungen daherkommen, heißt das nicht, dass diese „Produkte“ out of the box einsatzbereit sind. Textanalytik stellt im Moment ein arbeitsintensives und sehr lohnendes Feld für Berater dar. Eine individuelle Beratung ist notwendig, bis einerseits die Unternehmen entsprechende Kenntnisse aufgebaut haben, und andererseits die Hersteller ihre Tools soweit standardisiert und parametrisiert haben, dass die Anwender damit aus vordefinierten Bausteinen bestimmte Klassen von Lösungen erstellen können. Zudem stellt sich auch in der Textanalytik ein ähnliches Problem wie in Data Mining: Die Interpretation der Ergebnisse erfordert ein tiefes Fachwissen. Denn mittels mathematischer Verfahren gefundene Strukturen und © S.A.R.L Martin/IT Research Juli 2012 22 Inhalt Strategic Bulletin: BIG DATA Beziehungen sind zwar faktisch richtig, aber solche Fakten müssen nicht unbedingt etwas mit der realen Welt zu tun haben. Das gilt ganz besonders für gefundene Fakten aus dem Big Data, denn Bewertungen können aus Freundschaft erfolgt sein, Meinungen in Blogs können manipuliert und Profile in sozialen Netzen auch frei erfunden sein. Daher ist es ganz wichtig, die durch Textanalytik gefundenen Fakten als Hypothesen auf Plausibilität zu testen. Das ist heute in den meisten Fällen dem Menschen/Berater vorbehalten. Die Marktführer in Textanalytik kommen aus den Reihen der großen BI-Anbieter: IBM, SAP und SAS Institute. Dazu kommen eine ganze Reihe kleiner und sehr kleiner Unternehmen, die sehr erfolgreich bestimmte Nischen in diesem Markt besetzen (siehe Kap. 4.1). Location Intelligence. Das mobile Internet bringt eine Konvergenz von Information, Zeit und Raum. Mit Hilfe von Lokalisierungsdaten lässt sich jetzt Information nicht nur in einen zeitlichen Kontext stellen („Echtzeit-Information“), sondern auch in einen zeitlich-räumlichen Kontext. So kann beispielsweise ein Händler zukünftig in einem realen Supermarkt wie im Webshop à la Amazon Kaufempfehlungen geben. Denn auf Basis von Lokalisierungsdaten weiß er, welcher seiner Kunden sich vor welchem Regal befindet. Das stellt Kundenwissen in den Zeit/RaumKontext und schafft Innovation in der Kundenkommunikation. Voraussetzung ist hier aber eine Geocodierung, die jetzt im Zuge von Big Data neue Nutzenpotenziale bietet. Geocodierung reichert Daten um geografische Daten an und schafft Location Intelligence. Hier etablieren sich gerade neue Anbieter im deutschsprachigen Markt wie die geoXtend. Das bedeutet für Adressdaten eine neue Datenqualität, die über traditionelle Referenzdaten hinausgeht. Jetzt lässt sich jede Adresse in einer Karte darstellen. Der Nutzen ist ein Erkennen von räumlichen Mustern und Trends durch Visualisierung, Analyse und Vorhersage. Das ist auch die Voraussetzung für die Echtzeit-Location Intelligence mit der man mit Kunden in einem Einkaufszentrum interagieren kann wie in einem Webshop mittels Einladungen, Vergleichen und Empfehlungen. Fazit Kapitel 3: Big Data-Technologien bestehen aus Big Data-Datenhaltungssystemen, Big Data Management und Big Data-Analytik. Big Data-Datenhaltungstechnologien basieren nicht mehr unbedingt auf Datenbanken. Eine Transaktionsverarbeitung ist in vielen Fällen nicht möglich. Auch eine Echtzeitverarbeitung ist nicht mehr in jedem dieser Systeme machbar. • Im Big Data verliert die relationale Datenmodellierung ihren Alleinstellungsanspruch: Sie wird durch alternative Datenmodellierungsmethoden ergänzt, die auf schnelles und hochperformantes Suchen und Lesen ausgelegt sind. • Der Geschwindigkeitszuwachs bei Analysen ist enorm und kann durchaus einen Faktor von 1.000 und mehr bedeuten. Allerdings hängt dieser Performance-Gewinn von der Beschaffenheit der Daten und der Art der Analyse ab. Daher gibt es nicht die „beste“ Technologie oder das „beste“ Produkt, das immer die schnellsten Ergebnisse bringt. Big Data Management steht auch vor Performance und Skalierbarkeits-Herausforderungen. Parallel- und InMemory-Verarbeitung sowie der Einsatz von NoSQL-Datenbanken für Repositorys bieten hier Auswege. • Über traditionelle Konzepte wie den „single-point-of-truth“ muss neu nachgedacht werden, da Datenkonsistenz über die Vielfalt der Datenquellen in der Regel nicht mehr machbar ist. Big Data-Analytik hat neben der Steigerung der Performance und Skalierbarkeit der Werkzeuge drei weitere Schwerpunkte: © S.A.R.L Martin/IT Research Juli 2012 23 Inhalt Strategic Bulletin: BIG DATA • die Analyse unstrukturierter Daten, beispielsweise durch Textanalytik, • Selbstbedienungs-BI, die durch Visualisierung, intuitive Bedienung und kollaborative Werkzeuge die Autonomie der Nutzer in den Fachabteilungen und auch Teams besser unterstützt, • Datenanreicherungsprozesse, die die Voraussetzung bilden, neue Datentypen zu analysieren, beispielsweise Geocodierung zur Analyse von Lokalisierungsdaten. • Ohne die Menschen geht es nicht: Die Mitarbeiter müssen motiviert und mitgenommen werden, auch ins Big Data. Dazu dienen die Data Scientists, die Mediatoren zwischen IT und Fachabteilung sind. Ihre Aufgabe ist das Erschließen von Big Data-Potenzialen. Viele Big Data-Technologien sind noch jung und unausgereift. Neben der Frage bei der Technologieauswahl, ob eine Technologie robust genug für den beabsichtigten Einsatz im Unternehmen ist, ist auch beachten, ob genügend erfahrene Mitarbeiter zu finden sind, die diese Technologien beherrschen und wie viel Eigenentwicklung notwendig ist. © S.A.R.L Martin/IT Research Juli 2012 24 Inhalt Strategic Bulletin: BIG DATA 4. Big Data Roadmap 4.1 Marktspieler Die folgende Auflistung von Anbietern erhebt keinen Anspruch auf Vollständigkeit. Sie fokussiert auf den deutschsprachigen Raum und enthält eine Reihe von lokalen Anbietern. Analytische Datenhaltungssysteme. Die Klassifikation folgt der Abbildung 5. Analytische, SQL-MPP-Datenhaltungssysteme: IBM DB2 (InfoSphere Warehouse), IBM Smart Analytics System, IBM Netezza, Kognitio, SAS Scalable Performance Data Server (mit SAS Grid Computing und SAS In-Memory-Analytics), Teradata. Open Source: Actian VectorWise, EMC/Greenplum Analytische, NoSQL-Datenhaltungssysteme (ohne In-Memory-Datenverarbeitung): DataStax, Illuminate, HP/Vertica, Kx Systems, Sand Analytics, SAP Sybase IQ, Teradata/AsterData, Vectornova. Open Source: Apache Cassandra, Apache Hadoop HBase, CouchDB, InfoBright, MongoDB. Analytische, NoSQL-Datenhaltungssysteme (mit In-Memory-Datenverarbeitung): 1010Data, Exasol, IBM Smart Analytics Optimizer, ParAccel, SAP HANA. Spezielle Datenhaltungssysteme (Technologie in Klammern): CrossZSolutions (QueryObject System), dimensio informatics (minimal-invasives Performance-Tuning), InterSystems (OODB), HPCC Systems (Big Data Framework à la Hadoop), Oracle Exadata Database Machine (Data Appliance mit Massive Parallel Grid), Panoratio (Database Images). Hadoop Distributoren: Cloudera, Hortonworks, MapR. Analytische Datenbanken bringen den Nutzern ganz neue Möglichkeiten, sowohl in der Skalierbarkeit, der Performance als auch in den Betriebskosten. Wer heute komplexe Analysen auf Big Data durch viele Benutzer mit vielen Abfragen ausführt und eine hohe Performance und Skalierbarkeit bei einfacher Wartbarkeit benötigt, sollte analytische Datenbanken auf jeden Fall berücksichtigen. Wir meinen: Eine Evaluation lohnt sich auf jeden Fall. Damit sollte man auf keinen Fall mehr warten! Zum Schluss dieser Aufstellung notieren wir noch führende Anbieter von „Data as a Service“, also Cloud-Lösungen für analytische Datenhaltungssysteme: 1010Data, ClickFox, Exasol, Tresata. Big Data-Management. Datenintegration, ETL, ELT: IBM, Informatica, Oracle, Pervasive, SAP, SAS Institute/Dataflux, SnapLogic, Splunk, Syncsort, Talend, Theobald Software, Tibco, Versata, Uniserv. Open Source: CloverETL, JBOSS Enterprise Middleware, Jitterbit, JumpMind, Talend ETL – Spezialwerkzeuge semantische Web-Crawler/-Extraktion: 30 Digits Web Extractor, Brainware, Connotate, Fetch Technologies, Kapow Software, Lixto, Teezir Big Data-Analytik. Data Discovery: Datameer, Karmasphere, IBM Cognos, MicroStrategy, Oracle, QlikTech, SAP, SAS Institute, Splunk, Tableau Software, Tibco/Spotfire. Open Source: Jaspersoft, Pentaho. Location Intelligence: deCarta, Digital Globe, DMTI Spatial, ESRI, geoXtend, Google Earth, Integeo, mapdotnet, MetaCarta, Microsoft/VisualEarth, Navteq, Oracle, Pitney Bowes Software, Talent Information Systems, TomTom Global Content, VisTracks © S.A.R.L Martin/IT Research Juli 2012 25 Inhalt Strategic Bulletin: BIG DATA Textanalytik: Attensity, Clarabridge, Digital Reasoning, IBM, SAP, SAS Institute, StatSoft, Temis Group, Thomson Reuters/Clear Forest, Treparel. Open Source: Gate, Python NLTK, R (TM module), RapidMiner In der Big Data-Analytik spielen natürlich im Endeffekt alle Verfahren der traditionellen Business Intelligence eine Rolle. Daher lassen sich auch die Werkzeuge der traditionellen BI-Anbieter in der Big Data-Analytik verwenden, insbesondere auch die der prädiktiven Analysen. Eine Zusammenstellung dieser Anbieter finden Sie beispielsweise im White Paper „Performance Management und Analytik – Business Intelligence trifft Business Process Management und Big Data“9. 4.2 Pentaho bei TravelTainment – the amadeus leisure group – Analyse großer Datenmengen und verbesserte Reporting-Services TravelTainment entwickelt Software-Lösungen für die Touristik. Die Lösungen des Unternehmens werden von großen internationalen Reiseportalen in ganz Europa, wie opodo.de, tui.de, expedia.co.uk und thomascook.fr, sowie mehrere Tausend Reisebüros in mehr als 30 Ländern, eingesetzt. TravelTainment gehört seit 2006 zur Amadeus Leisure Group, die weltweit mehr als 400 Mitarbeiter beschäftigt. Die Herausforderung. Reise-Websites müssen äußerst benutzerfreundlich und schnell sein – nicht nur aufgrund des hohen Wettbewerbsdrucks in der Branche, sondern auch, um der Dringlichkeit von Reisebuchungen gerecht zu werden. Wer eine Reise bucht, möchte oder muss die Transaktion nach Möglichkeit mit nur einem Besuch der Website abschließen. Der Kunde ist sich dabei meist nicht bewusst, wie viele Terabyte an Daten die Anwendung verarbeiten muss. Er wünscht sich lediglich einen schnellen und effizienten Service. Angesichts des stetig wachsenden Online-Reisemarkts erwarten die zahlreichen Geschäftskunden von TravelTainment (Reiseveranstalter, Reiseportale usw.) auch mehr Einblicke in ihre Daten und Möglichkeiten zur Berichterstellung, um die Planung von Aktionen und neuen Services entsprechend zu unterstützen. TravelTainment hatte eine Reihe älterer Systeme für die Berichterstellung im Einsatz, die rund um die verschiedenen Produkte des Unternehmens gewachsen waren. Diese boten jedoch nur wenig Einblick und begrenzte Möglichkeiten zur Berichterstellung. Zudem waren die Daten weder an einem Ort konsolidiert, noch gab es ein zentrales Reporting-Tool. Daher musste die IT-Abteilung von TravelTainment sehr viel Zeit und Mühe für die Konsolidierung der Daten verschiedener Produkte zur Berichterstellung aufwenden. Vor diesem Hintergrund entschied das Unternehmen, alle seine Daten in ein einziges Data Warehouse zu verlagern und ein zentrales Berichterstellungssystem einzusetzen. Folgende Kriterien wurden für das Reporting-System definiert: • Professioneller Support für umfassende Analysen, • Selbstbedienungsanalysen und Berichterstellung für Geschäftskunden, • Möglichkeit zur Analyse von Daten aus Hadoop und Hive, • Open Source, • Kostengünstige Lösung. Die Lösung. TravelTainment entschied sich für Pentaho Business Analytics als Berichtserstellungs- und AnalyseTool, da es am besten die Kriterien erfüllte. Es nutzt vor allem die folgenden Komponenten von Pentaho Business Analytics: • Reporting – Das web-basierte interaktive Reporting unterstützt TravelTainment bei der schnellen Ausführung von Berichten und bei der On-Demand-Bereitstellung kundenorientierter Berichte. 9 siehe http://www.wolfgang-martin-team.net/BI-BPM-SOA_dt.php , Kapitel 9. © S.A.R.L Martin/IT Research Juli 2012 26 Inhalt Strategic Bulletin: BIG DATA • Analyse – Dank der intuitiv nutzbaren, interaktiven Web-Oberfläche können Geschäftsanwender aus nicht technischen Bereichen ihre Daten mit schnellen Antwortzeiten analysieren und visualisieren. TravelTainment verwendet Pentaho Business Analytics in einer Open Source-orientierten Umgebung mit großen Datenmengen: • Rabbit MQ für einen robusten Message Bus als erstes Ziel für Übergangsdaten, • Apache HBase/MapReduce für schnelle Antwortzeiten und detaillierte Daten, • Infobright SQL als Selbstbedienungsschnittstelle, • Pentaho Business Analytics für den Selbstbedienungs-Datenabruf sowie für Analyse und Reporting. Ergebnisse: • Verbesserung der Kundenzufriedenheit – Dank flexibler und schnellerer Reporting-Funktionen führt TravelTainment nun selbst für die größten Datensätze die meisten Berichte täglich oder stündlich aus. Außerdem können bei Bedarf Ad-hoc-Berichte erstellt werden – ganz ohne IT-Support. Dies spart viel Zeit und Geld im Bereich der ITRessourcen. Außerdem wird die Kundenzufriedenheit verbessert. Da sich Berichte ganz einfach erstellen lassen, fügt TravelTainment stets neue Berichte hinzu, die sich an den Kundenanforderungen orientieren. • Dreimal schnelleres Reporting – TravelTainment kann mit Pentaho Berichten bis zu drei mal schneller erstellen und so zügiger Kundenanfragen bearbeiten. Ein kleines Team von Analysten kann nun Berichte erstellen, die bisher die Beteiligung des IT-Teams erforderten. • Entwickler können sich auf die Verbesserung der Plattform konzentrieren – Dank des Selbstbedienungsaspekts von Pentaho Business Analytics können die Geschäftsanwender selbständig ihre Analysen und Berichte erstellen, sodass sich das Entwicklungs-Team von TravelTainment ganz auf die Verbesserung der Plattform des Unternehmens konzentrieren kann. Dies hat zu einer effizienteren Nutzung von Personalressourcen im ganzen Unternehmen geführt. • Erschließen großer Datenmengen – Pentaho Business Analytics versetzt TravelTainment in die Lage, seine sehr großen Datenmengen so für Berichte und Analysen auszuwerten und zu visualisieren, dass auch Anwender ohne technischen Hintergrund diese Daten leicht verstehen. • Potenzial für künftigen Einsatz –TravelTainment verwendet Pentaho seit mehr als einem Jahr und ist mit den Ergebnissen sehr zufrieden. Das Unternehmen evaluiert nun den Einsatz von Pentaho Data Integration (PDI) um Daten in- und aus Hadoop zu laden. Zusammenfassung. TravelTainment als Anbieter einer globalen, multichannel-fähigen Vertriebsplattform für touristische Leistungen, verwendet Pentaho Business Analytics für Selbstbedienungsanalysen und Berichterstellung in einer Umgebung mit großen Datenmengen. Angesichts des ungebrochenen Aufwärtstrends im Reisemarkt benötigen die verschiedenen Kunden von TravelTainment mehr Einblicke in ihre Daten, um Aktionen und andere Services besser planen zu können. Vor Pentaho hatte das Unternehmen eine heterogene Systemlandschaft im Einsatz, die altersbedingt nur über begrenzte Berichterstellungsmöglichkeiten verfügten und deshalb ineffizient und für die IT zeitaufwändige für die Berichterstellung waren. Als sich TravelTainment für die Standardisierung auf Basis einer einzigen, kundenorientierten Reporting-Anwendung entschied, wählte das Unternehmen Pentaho Business Analytics, da diese Lösung Self-Service-Reporting und die Möglichkeit zur Verwaltung großer Datenmengen bot. Mit Pentaho Reporting kann TravelTainment Berichte nun drei Mal schneller und flexibler als bisher erstellen. TravelTainment kann seinen Kunden nun erstmalig benutzerfreundliche Selbstbedienungs- und Ad-hoc-Reporting-Services bieten. Dies bedeutet auch, dass sich die Entwickler von TravelTainment nun voll auf das Hauptgeschäft konzentrieren können, anstatt sich mit dem Reporting-Support befassen zu müssen. Aufgrund des Erfolgs dieser Implementierung plant TravelTainment jetzt, sich näher mit Pentaho Data Integration (PDI) zu befassen, um seine Daten in und aus Hadoop zu laden. © S.A.R.L Martin/IT Research Juli 2012 27 Inhalt Strategic Bulletin: BIG DATA 4.3 SAS High-Performance Analytics – Gastbeitrag von SAS Institute Mit High-Performance Analytics schafft SAS einen Durchbruch in der Bearbeitung komplexer analytischer Probleme, die in vielen Branchen zu den Hauptherausforderungen zählen. Was bisher Tage oder Stunden Berechnungszeit in Anspruch genommen hat, ist nun in Minuten und Sekunden machbar. Bisher mussten Geschäftsprozesse so organisiert werden, dass diese Wartezeiten eingehalten wurden. Jetzt können auch anspruchsvolle Fragestellungen im Bereich von Fraud, Optimierung, Risiko und vielen anderen Bereichen nahezu in Echtzeit angegangen werden. Der Anlass: Wachsende Datenmengen / Big Data. Einfache Aggregationen, die im Nachhinein wichtige Trends zusammenfassen, sind im Big-Data-Zeitalter nicht mehr ausreichend. Dieses klassische Verständnis von Business Intelligence wird nach wie vor für viele Bereiche seine Berechtigung haben. Analytisch geprägte Unternehmen gehen aber darüber hinaus und erzielen echte Wettbewerbsvorteile. Wenn es gelingt, aus der Masse von Daten die wirklich relevanten Muster und Zusammenhänge zu erkennen und in Vorhersagemodelle zu bringen, wird ein immer genauerer Ausblick in die Zukunft möglich. Um mit immer mehr Daten zurechtzukommen, gibt es nicht eine einzige Antwort. Die eine „Big-Data“-Technologie gibt es nicht. Neben organisatorischen und strategischen Entscheidungen, die hier nicht im Fokus stehen, verfolgt SAS im Wesentlichen drei Strategien: 1. Verbessertes Information Management durch automatisierte, eingebettete Analytik 2. Technologische Quantensprünge im Bereich paralleler Verarbeitung 3. Völlig neue Visualisierungen, um Analytics einfacher und umsetzbarer zu machen Strategie für Daten: Information Management Wenn immer mehr Daten auf die Unternehmen einströmen, lässt sich das Paradigma eines zentralen Data Warehouses nicht mehr lange aufrechterhalten. Die gigantischen Ströme von Maschinendaten in einem Enterprise Datawarehouse zu speichern ist auf die Dauer schlicht zu teuer. Gleichzeitig handelt es sich dabei in den seltensten Fällen um relationale, in Zeilen und Spalten organisierte Daten. Dennoch stecken darin viele wichtige Informationen. Der entscheidende Schritt ist der, dass in die einlaufenden Datenströme bereits eine intelligente Analytik eingebaut wird. Diese entscheidet nicht nach einfachen Regeln, sondern nach auftretenden Mustern, welche Daten auf welche Weise behandelt werden. Einzelne Datenpunkte verlangen danach, sofort Ereignisse auszulösen. Bei bestimmten Konstellationen etwa wird es angebracht sein, eine Maschine kontrolliert herunterzufahren und auszuschalten. Teile des Datenstroms werden nach wie vor in das Datawarehouse laufen und dort zentrale Berichte befüllen. Eine Trennung von zwar wichtigen, aber nicht für das Tagesgeschäft bedeutenden Daten ist angebracht, vor allem um das Datawarehouse zu entlasten und als Datenhaltung auf kostengünstigere Varianten zu setzen. Neue Technologien: Grid, In-Database, In-Memory Grid – Rechenlast besser verteilen. Schnellere Antwortzeiten auf bestehender IT-Infrastruktur MultiprozessorRessourcen erlauben das Aufteilen von Aufgaben in Teilaufgaben, die parallel abgearbeitet werden können. Am besten geeignet für eine solche Parallelisierung sind Rechenprozeduren, die eine große Datenmenge mit langen Laufzeiten mit sich bringen, sowie solche, in denen unabhängige Aufgaben an große Datenmengen herangetragen werden. Die schnellere Datenintegration, das raschere Analysieren und das beschleunigte Reporting erhöhen die Geschwindigkeit in der Entscheidungsfindung im gesamten Unternehmen. Ein wesentlicher Vorteil des SAS Grid-Managers ist die einfache und kostengünstige Skalierung. Bei Bedarf können weitere Computing-Einheiten zum Grid geschaltet werden. In-Database – Analytics zu den Daten bringen. Mit SAS In-Database lassen sich auch größte Datenmengen flexibel und effizient analysieren und produktiv nutzen. SAS In-Database setzt die massiv-parallele (MPP-) Architektur © S.A.R.L Martin/IT Research Juli 2012 28 Inhalt Strategic Bulletin: BIG DATA der Datenbank respektive des Data Warehouse ein – für Skalierbarkeit und bessere Performance. Der sonst notwendige Transfer der Daten in ein Analysesystem entfällt, lediglich die Ergebnisse der Berechnung werden weiterverarbeitet. Die Geschwindigkeit von Analysen wird vervielfacht, relevante Aussagen und verwertbare Erkenntnisse stehen viel schneller zur Verfügung und beschleunigen damit den Entscheidungsprozess im Unternehmen. In-Memory – Blitzschnelle Analysen im Hauptspeicher. SAS In-Memory Analytics führt Berechnungen im Speicher auf jedem Serverknoten durch – in einem entsprechend konfigurierten Verband von Servern. Durch eine Optimierung der Algorithmen auf die neue Hardware-Infrastruktur wird ein extrem hoher Grad an Parallelisierung erreicht. Die Ergebnisse und zugehörigen Daten verbleiben im gemeinsamen Speicher, sodass neue Szenarien oder zusätzliche Berechnungen noch bessere Reaktionszeiten haben. Diese Konfiguration ist vor allem bei rechenintensiven Aufgaben von großem Vorteil, etwa bei der Neuberechnung eines kompletten Risikoportfolios oder der Preisoptimierung umfangreicher Warensortimente. Die Erfahrungen der Early Adopter von SAS High-Performance Analytics berichten von dramatischen Beschleunigungen bei sehr komplexen analytischen Verfahren wie etwa dem Berechnen eines Modells zur Berechnung der Kreditausfallwahrscheinlichkeit. Der Pilotkunde konnte die Zeit zur Erstellung dieses Modells von 167 Stunden auf lediglich 84 Sekunden reduzieren. Das ermöglicht es nun, Prozesse, die bisher rund um die technischen Limitationen gestrickt waren, komplett neu zu designen. Analysen einfacher machen: SAS Visual Analytics. Die wachsenden Datenmengen ergeben nur dann neue Möglichkeiten, wenn diese auch von entsprechend kundigem Personal durchforstet und bewertet werden können. Die SAS-Strategie dazu ist es, die Bedienung und Nutzung von Analytics zu vereinfachen. Ende März 2012 hat SAS ein bahnbrechendes neues Produkt vorgestellt, das genau diese Herausforderung adressiert: SAS Visual Analytics. SAS Visual Analytics lädt riesige Datenmengen in die Hauptspeicher vernetzter Rechner und wertet sie dort mit extrem hoher Geschwindigkeit aus. Unternehmen können damit ihre Datenbestände auf Trends und Muster untersuchen und gewinnen Anhaltspunkte für nähere Analysen. Die Ergebnisse lassen sich grafisch aufbereiten und per Webreporting oder iPad abrufen. Fazit. „Big Data“ steht als Schlagwort für die wachsende Bedeutung des Rohstoffs „Daten“ in den Unternehmen. Es gibt keine eindimensionale Antwort auf die Herausforderungen die dadurch entstehen. Im Gegenteil geht es darum, je nach Anforderung und geplanter Nutzung die jeweils passende Antwort zu finden – die nur zu einem Teil aus Technologie besteht. SAS unterstützt seine Kunden in der Entwicklung und Anwendung von Big-Data-Strategien mit einem ganzen Bündel von bahnbrechenden Innovationen. Gleichzeitig wächst insgesamt die Bedeutung von Analytics, der angestammten Kernkompetenz von SAS. 4.4 Interactive Analytics für Big Data – Gastbeitrag von TIBCO Spotfire Je größer Datenmengen werden, umso wichtiger ist es, sich auf die entscheidenden Elemente zu fokussieren. Wesentliche Trends oder kritische Ausreißer gilt es schnell zu erkennen. Werkzeuge für Interactive Analytics wie TIBCO Spotfire helfen, im Datendickicht schneller zu den entscheidenden Erkenntnissen vorzudringen. Damit Anwender aus den unterschiedlichsten Bereichen mit ihren Daten interagieren können, arbeitet TIBCO Spotfire „inMemory“, also im Arbeitsspeicher des PC oder Laptop des Benutzers. Dieser bietet für die meisten Anwendungsfälle und sogar für größere Datenmengen ausreichend Platz. So nutzen zum Beispiel zahlreiche in der Genforschung aktive Unternehmen die Software für die Auswertung komplexer wissenschaftlicher Untersuchungen. Doch nicht in allen Szenarien, in denen man heute von Big Data spricht, reicht der Arbeitsspeicher eines Rechners, um alle relevanten Daten einzulesen. So fallen im Bereich der Telekommunikation, bei Finanztransaktionen oder auch in der Produktion riesige Datenmengen an. Hier greift der „data on demand“-Ansatz von TIBCO Spotfire: Der Anwender navigiert zunächst durch aggregierte Daten. Sobald er in einen Teilbereich mit dem Drill-Down beginnt, ruft Spotfire das benötigte Subset an Daten auf und lädt sie zur vollständigen Analyse. So macht es TIBCO Spotfire sehr einfach, riesige Datenbestände nach allen nur erdenklichen Aspekten und Dimensionen zu untersuchen. Die- © S.A.R.L Martin/IT Research Juli 2012 29 Inhalt Strategic Bulletin: BIG DATA ser Ansatz unterstützt auch die Verknüpfung mehrerer Datenquellen für die Analyse, ein ebenso wesentlicher Aspekt des komplexen Themas „Big Data“. Neben der Menge der Datensätze ist auch deren Volumen eine große Herausforderung. Niemand will Tausende von Variablen durchgehen um die wesentlichen Parameter für eine Analyse zu identifizieren. Die in Spotfire integrierten Möglichkeiten für Data Mining und Predictive Analytics erleichtern es herauszufiltern, was wirklich wichtig ist. Damit gelingt es, die in Datenbergen begrabenen Schlüsselinformationen aufzuspüren und sie für Geschäftsentscheidungen nutzbar zu machen. Jedoch was hilft die genaueste Information, wenn sie schon veraltet ist. Mit dem Konzept des „Two-SecondAdvantage™“ weist TIBCO zurecht darauf hin, dass eine Teilinformation zum richtigen Zeitpunkt wertvoller ist, als alle Daten der Welt, wenn sie zu spät zur Verfügung stehen. Entsprechend ermöglicht es TIBCO Spotfire, Datenströme komplexer Events zu analysieren, und quasi in Echtzeit wichtige Ausreißer oder Systemstörungen ausfindig zu machen – und so schnell reagieren zu können. (Dr. Mark Demesmaeker) Abbildung 7: Die Abbildung zeigt ein Beispiel für die Auswertung von Trends in Wikipedia. Wichtig dabei: Die Daten müssen möglichst aktuell zur Verfügung stehen. Über eine „live“-Verbindung extrahiert TIBCO Spotfire große Mengen in den Arbeitsspeicher und erlaubt eine direkte, interaktive Auswertung. Dies wird über den neuen Application Data Service Connector für Apache Hadoop ermöglicht. Werden andere beziehungsweise detailliertere Daten benötigt, holt sich TIBCO Spotfire diese nach Bedarf dynamisch dazu, daher spricht man bei TIBCO Spotfire auch von einer „Data-on-Demand“Architektur. 4.5 SAP Real-Time Data Platform – Für jede Herausforderung die richtige Lösung – Gastbeitrag von SAP Wie bekommen Unternehmen ihre Datenflut unter Kontrolle? Ein Schlüssel sind leistungsfähige Datenbanken, die nahtlos und vom Anwender unbemerkt zusammenarbeiten. Wie sich das technisch umsetzen lässt, zeigt die neue SAP-Datenbankstrategie. Lange haben Datenbanken in der Diskussion um IT-Innovationen ein Schattendasein geführt. Technisch zwar unentbehrlich, fanden technologische Quantensprünge woanders statt, so der Eindruck. Das stetige anschwellende Datenvolumen – Stichwort Big Data – rückte aber zunehmend wieder Datenbanktechnologien ins Blickfeld. Denn Auswertungen und Analysen stellen nun einmal andere Anforderungen an Datenbanken als der Umgang mit transaktionalen ERP-Daten. Datenbanken für jeden Zweck. Für die wechselnden Aufgaben nutzt ein Unternehmen daher idealerweise unterschiedliche Datenbankkonzepte. Für das ERP-Geschäft ist zum Beispiel SAP Sybase Adaptive Server Enterprise (SAP Sybase ASE) ideal, eine klassische Standarddatenbank (OLTP). Sie verwaltet online-transaktionale, hochdetaillierte Massendaten und punktet im Vergleich zum Wettbewerb nicht nur bei der Leistung, sondern auch bei den Kosten. Das belegen auch Studien von Gartner und Forrester. „Kommende Releases der SAP Business Suite wer- © S.A.R.L Martin/IT Research Juli 2012 30 Inhalt Strategic Bulletin: BIG DATA den daher von Beginn an für SAP Sybase ASE zertifiziert. Das schafft Investitionssicherheit und vereinfacht die Budgetplanung“, blickt Bruno Flohr, Leiter Database & Technology für die Region DACH bei SAP in die Zukunft. „Zudem sorgen ein niedrigerer Administrationsaufwand und Ressourceneinsatz im Vergleich zu anderen Datenbanken für sinkende Gesamtbetriebskosten.“ Im Gegensatz hierzu liegen die Stärken der SAP-HANA-Datenbank woanders. Sie ist auf die Anforderungen der speicherbasierten Datenanalyse mittels In-Memory-Technologie optimiert, indem sie Daten spalten-, anstatt wie sonst üblich zeilenweise ablegt. Die für Auswertungen nicht relevanten Informationen werden einfach ausgeblendet, das erlaubt schnelle Analysen und Simulationen – und spart so nebenbei Speicherplatz. „Dreh- und Angelpunkt der speicherbasierten Analyse ist, dass Daten schnell zur Verfügung stehen. Genau das stellt die SAP-HANADatenbank sicher“, sagt Flohr. SAP Sybase IQ, das dritte Standbein der SAP-Datenbankstrategie, ist ähnlich wie die SAP-HANA-Datenbank vektorbasiert, läuft aber im Gegensatz zu dieser nicht im Arbeitsspeicher, sondern klassisch auf Festplatten. Beim Datenvolumen sind hiermit kaum Grenzen gesetzt. „Sogar Versuche mit 5.000 Terabyte Volumen haben reibungslos funktioniert“, so Flohr. „Die Antwortzeiten sind auch bei diesen Mengen hervorragend.“ Und das funktioniert auch bei unstrukturierten Daten.“ SAP Sybase IQ wird somit zum spaltenbasierten Speicher für Analysen, übernimmt aber auch die Rolle eines Nearline-Storage für alte oder selten benötigte Daten– beispielsweise für den Einsatz in SAP NetWeaver Business Warehouse oder SAP HANA. Eine Plattform für alle Datenbanken. Doch die Entwicklung geht weiter. OLAP- und OLTP-Datenbanken, die beiden früher getrennten Welten, nähern sich inzwischen gegenseitig an, es gibt Anwendungsfelder, wo sich beide Modelle parallel einsetzen lassen. Die neue SAP Real-Time Data Platform schlägt daher die Brücke zwischen diesen drei SAP-Datenbankmodellen, indem sie künftig die In-Memory-Plattform SAP HANA, die Sybase-Angebote für das Datenmanagement sowie die SAP-Lösungen für das Enterprise Information Management operational verbindet. Unternehmen erhalten auf diesem Weg eine Plattform für sämtliche Transaktions- und Analyseaufgaben. Und eine gemeinsame Basis, über die sich Daten dynamisch zwischen den vorhandenen Datenbanktypen verteilen lassen– und das aus einer Hand. Die drei Datenbankmodelle von SAP, die auch unabhängig voneinander eingesetzt werden können, zeigen: Analytische und online-transaktionale Datenbanken rücken näher zusammen. Ziel der SAP Realtime Data Plattform ist es nun, die Brücke zwischen beiden Konzepten zu schlagen und sie operational zu verbinden. Welche Datenbank welche Transaktionen bedient, ist für die Anwender dann nicht mehr von Interesse, denn das Framework trifft diese Auswahl von alleine. Schon heute können Datenbankadministratoren individuelle Regeln definieren, die Informationen zwischen SAP Sybase ASE und SAP HANA automatisch verteilen. Die Inhalte werden dazu in die einzelnen Datenbanken repliziert, später soll sogar die Datensynchronisation automatisch erfolgen. Verknüpft mit SAP Sybase IQ sind dann auch OLAP-Analysen möglich. So können Unternehmen nicht nur eine einheitliche Speicherstrategie für alle Anforderungen umsetzen, sondern dabei sogar die Verwaltung vereinfachen. „Big Data heißt letztendlich, Daten beliebig in Datenbanken zu speichern – ohne dass sich die Anwender Gedanken machen müssen, wo die Daten letztendlich liegen“, bringt es Flohr auf den Punkt. Dass sich über SAP Sybase SQL Anywhere künftig auch mobile Daten einbetten lassen, ist daher eigentlich nur konsequent. Mit diesem Ansatz will SAP bis 2015 die Position im Datenbankmarkt deutlich ausbauen. Weitere Informationen finden Sie unter www.sap.de/datenmanagement sowie www.sap.de/echtzeit 4.6 Die fünf wichtigsten Fragen rund um den Betrieb von SAP HANA – Gastbeitrag von RealTech In-Memory-Datenbanken versprechen eine exorbitante Geschwindigkeitssteigerung beim Zugriff auf Daten. Der potenzielle Nutzen dieser Datenbanken geht jedoch weit darüber hinaus. Durch die neue Dimension der Verarbeitungsgeschwindigkeit von Informationen werden bisher nicht vorstellbare Anwendungen erst ermöglicht. Und genau dies macht SAP HANA so interessant für SAP Kunden. © S.A.R.L Martin/IT Research Juli 2012 31 Inhalt Strategic Bulletin: BIG DATA Doch was nutzen neue Anwendungen für neue Märkte, wenn diese nicht ausreichend verfügbar sind? Was passiert bei einem Stromausfall und dem anschließenden Neustart der Datenbank? Wie passt SAP HANA in bestehende Betriebskonzepte? Es ist an der Zeit hinter die Kulissen der neuen Anwendungen zu schauen und sich mit den technologischen Aspekten von SAP HANA zu befassen. Was passiert bei einem System-Crash? Zur Sicherung der Daten einer SAP HANA wird regelmäßig ein Savepoint auf Speichersubsysteme geschrieben, der ein Abbild der Daten im Hauptspeicher beinhaltet. Das Erstellen des Savepoints findet parallel zum normalen Betrieb statt und beeinträchtigt diesen nicht. Ein Transaktionslog wird auf sehr schnell angebundenen Flash-Speichern fortlaufend gesichert. Diese zwei Mechanismen sichern die Persistenz und Konsistenz der Daten auch bei einem Systemausfall. Beim Neustart der Datenbank wird der letzte Savepoint genutzt und das Transaktionslog darauf angewandt. Abgeschlossene Tranasaktionen werden „nachgefahren“, so dass sich die Datenbank wieder in einem konsistenten Zustand befindet. Diese beiden Mechanismen (Savepoint und Transaktionslog) ersetzen jedoch kein Backup. Was gilt es bei einem Backup zu beachten? Derzeit sind ausschließlich Full-Backups der SAP HANA Datenbank möglich. Differentielle oder inkrementelle Backups können nicht erstellt werden. Bandlaufwerke oder 3’rd Party Backup Lösungen werden zum jetzigen Zeitpunkt ebenfalls noch nicht unterstützt. Betriebssystem- und Konfigurationsinformationen müssen separat gesichert werden. Wie kann ich die Software einer SAP HANA aktualisieren? Der Software Update Manager (SUM) kann Software vom SAP Service Marketplace (mittels HTTPS) herunterladen und auf dem System applizieren. Vorher muss jedoch sichergestellt sein, dass die Datenreplikation gestoppt ist und dass ein Komplettbackup erstellt wurde. Dann lässt sich während einer System-Downtime die Software automatisch aktualisieren. Welche Systemlandschaft ist für SAP HANA zu empfehlen? Die etablierte und bewährte Systemlandschaft bestehend aus Entwicklungssystem, Qualitätssicherungssystem und Produktivsystem wird auch bei dem Einsatz von SAP HANA genutzt. Eine Lizensierung erfolgt wie gewohnt nur für die produktiven Systeme. Jedoch muss die zur Zeit noch hochpreisige Hardware, mindestens auch für das Qualitätssicherungssystem beschafft werden. Falls das Produktivsystem mit einem Hauptspeicherausbau von z.B. 512 GB RAM versehen wurde, ist ein Test auf einem Qualitätsicherungssystem mit z.B. lediglich 128 GB Hauptspeicher nur begrenzt aussagekräftig. Dies muss im Design der Systemlandschaft berücksichtigt werden. Wie repliziere ich Daten aus 3rd Party Systemen in eine SAP HANA? Für den Replikations-Prozess existieren unterschiedliche Technologien – Trigger Based Replication (SLT), ETL-based Replication und Log-based Replication. Die Auswahl der passenden Replikationsart ist in der Hauptsache abhängig von vorhandenen Quellsystemen. Das Einrichten und Überwachen des Replikationsprozesses erfolgt mit Werkzeugen, die sich je nach genutzter Replikationsart unterscheiden. Bei der Backup- / Recoverystrategie gilt es jedoch zu beachten, dass nicht jede Replikationsart Konfigurationsdaten innerhalb der SAP HANA ablegt. Fazit. SAP HANA ist keine „Plug & Play“ Appliance. Betriebliche Aspekte müssen intensiv beleuchtet werden, was aktuell kaum Beachtung findet. REALTECH berät seine Kunden seit 17 Jahren auf diesem Gebiet und optimiert so unter anderem den sicheren und effizienten Betrieb von SAP Systemen. (Hinrich Mielke, Consulting Manager REALTECH) 4.7 Big Data aus Sicht eines CIO – Gastbeitrag von InterSystems Big Data ist nicht wirklich neu, aber in vielen Aspekten so anders, dass traditionelle Antworten nicht länger ausreichen. Vor allem aber ist Big Data nicht allein mit mehr Hard- und Software beizukommen, sondern mit smarten Prozessen und einer IT-Lösung, die in der Lage ist, diese auch in allen Facetten zu unterstützen. © S.A.R.L Martin/IT Research Juli 2012 32 Inhalt Strategic Bulletin: BIG DATA Es ist noch gar nicht so lange her, dass der Begriff „Big Data“ breiteren Einzug in die IT-Diskussion hielt. Er tauchte vermehrt 2008/2009 im Zusammenhang mit dem Siegeszug von Google, Facebook oder Twitter in der IT-Presse auf. Heute ist er fester Bestandteil des Presse- und Marketingkanons. Das Thema selbst ist jedoch keinesfalls neu. Die meisten Unternehmen sitzen seit jeher auf ungleich mehr Daten, als sie tatsächlich zur Informationsgewinnung nutzen. Auch die im Zusammenhang mit Big Data regelmäßig angeführte Tatsache, dass rund 80 Prozent aller Daten unstrukturiert sind, ist kein neuer Trend: Bilder, Videos, Textnachrichten oder Dokumente haben stets die überwiegende Menge aller Daten dargestellt und waren mit ihren diversen Formaten für die Verarbeitung in Spalten und Zeilen von jeher eher ungeeignet. Selbst heute werden Datenmengen, die zu groß sind, um effektiv in relationalen Datenbanken verwaltet zu werden, daher häufig erst einmal in Form nicht weiter strukturierter Objekte oder Felddaten als Binary Large Objects (BLOB) gespeichert, um später dann aufbereitet und analysiert zu werden. Und schon immer war es Teil des Aufgabenspektrums eines CIO, Ordnung in das Chaos zu bringen und Mehrwerte aus den Informationen zu gewinnen. Braucht ein Unternehmen Big Data? Big Data hat heute grundsätzlich zwei Aspekte. Da ist zum einen der Punkt der zeitnahen Analyse von Daten. Ob das nun in Echtzeit passieren muss, wie beim elektronischen Börsenhandel, oder zeitnah, wie immer, wenn Mitarbeiter Informationen per Dashboard erhalten, um daraus bessere Entscheidungen auf allen Managementebenen abzuleiten, ist eher nachrangig. Genauso wie die Frage, ob die Informationen aus den Daten innerhalb des Unternehmens gewonnen werden, aus externen Quellen wie dem Web oder interaktiver Marktforschung oder einer Kombination von beidem. Wichtig ist, dass die Informationen definiert werden, die für diese Entscheidungsprozesse relevant sind, und Mittel gefunden werden, sie zu extrahieren oder zu berechnen. Dazu gehört es dann auch, Prozessketten zu hinterfragen und eventuell Entscheidungsbefugnisse zu verlagern. Echtzeitinformationen machen wenig Sinn, wenn erst noch per E-Mail eine Freigabe eingeholt werden muss. Stattet man seine Mitarbeiter mit den Tools aus, fundiertere Entscheidungen treffen zu können, sollten diese sie auch treffen dürfen. Während ein Unternehmen bei der Frage nach dem Mehrwert aus Big Data noch die Wahl hat, ob man sich in dieser Richtung engagieren möchte, gibt es beim zweiten Aspekt von Big Data, dem Monitoring von Social Media, diese Option eigentlich nicht länger. Selbst ein Unternehmen, das mit Fug und Recht behaupten kann, Social Media wären irrelevant, um seine Zielgruppe zu erreichen, kann die Macht der sozialen Netze nicht länger ignorieren. Kürzlich brach das, was neudeutsch als Shitstorm bezeichnet wird, über ein kleines Verleihunternehmen in der Nähe von Aachen los, weil ein Vertriebsmitarbeiter pampig auf die Anfrage eines Abiturienten nach einer „günstigen“ Hüpfburg für einen Abi-Streich reagiert hatte.10 Die Analyse von Daten aus dem Web dient also nicht länger nur der Suche nach neuen Trends und Möglichkeiten, sondern vermehrt auch dem Schutz von Produkten, Marken und dem Unternehmen als Ganzes. Die Kosten, um den durch einen Shitstorm verursachten Imageschaden zu beheben, übersteigen bei Weitem die Kosten, um ihn im Ansatz zu erkennen und zu vermeiden. Die Aufgabe eines CIO. Wenn es sich also ohnehin nicht vermeiden lässt, sich auf die für das eigene Unternehmen relevanten Aspekte von Big Data einzulassen, gilt es, das Potenzial auch voll zu nutzen. Die Herausforderungen, die mit Big Data für ein Unternehmen einhergehen, lassen sich aber nicht isoliert betrachten. Eine der prägnantesten Beschreibungen der Aufgaben eines CIO lautet: • „run the business“ • „change the business“ • „engineer the business“ 10 Quelle: Spiegel online www.spiegel.de/schulspiegel/abi/abiturienten-aus-eschweiler-huepfburg-streit-auf-facebook-ausgetragen-a-840603.html © S.A.R.L Martin/IT Research Juli 2012 33 Inhalt Strategic Bulletin: BIG DATA Die mit Abstand wichtigste ist, den störungsfreien Ablauf aller Prozesse im Unternehmen zu gewährleisten. Was auch immer an Veränderung vorgenommen wird, um aus Big Data Big Business zu machen, es darf auf keinen Fall zulasten des Betriebsablaufs gehen. Andererseits verändert jede Big Data-Strategie die Prozesse im Unternehmen. Sei es, weil Entscheidungsbefugnisse verlagert werden, sei es, weil plötzlich IT und Unternehmenskommunikation gemeinsam an Reaktionsszenarien für Social Media-Hypes, positive wie negative, arbeiten müssen. Die Entscheidung für eine Big Data-Strategie bekommt unweigerlich unternehmenspolitische Aspekte, wenn man nicht nur ein besseres Data Warehouse bauen will. Sie manifestieren sich in Form von Prozessvorgaben, die sinnvollerweise top-down getroffen und bottom-up verifiziert sowie mit dem Betriebsrat abgestimmt werden. Big Data elegant integrieren. Die performante Auswertung von strukturierten und unstrukturierten Daten ist also wie gezeigt nur die halbe Miete. Die Mehrwerte, die mittels der Analyse von Big Data gewonnen werden, müssen zudem so in die Arbeitsabläufe des Unternehmens eingebaut werden können, dass der Betrieb zu keinem Zeitpunkt unterbrochen wird. Für ein solches Szenario eignen sich Lösungen wie InterSystems Ensemble. Die Integrationsund Entwicklungsumgebung bietet alles, um Big Data elegant und unterbrechungsfrei in die Unternehmensprozesse einbinden zu können. Als Middleware ist Ensemble in der Lage, alle Unternehmensanwendungen zu vernetzen und so schon einmal als leistungsstarke Datendrehscheibe zu fungieren. Dies wird zudem noch durch die Prozess-Engine unterstützt, die Transformationen und Routing mittels einfach zu konfigurierender und leicht anpassbarer Regeln erlaubt. Alle Nachrichten und Prozessschritte werden zudem in einer integrierten multidimensionalen Datenbank gespeichert, so dass Prozesse einfach überwacht und betreut werden können. Des Weiteren verfügt Ensemble mit Active Analytics über modernste Technologien, um gleichermaßen strukturierte Daten mittels BI-Ansatz und unstrukturierte Daten mit Hilfe einer bahnbrechenden semantischen Analyse auszuwerten. Das Ganze erfolgt nicht in ausgelagerten Data Warehouses, sondern auf Basis der aktuellen transaktionalen Daten. Für CIOs bedeutet das höchste Sicherheit im Betrieb und beim Prozesswechsel, eine zentrale Plattform samt Datenbank, die in der Lage ist, unterschiedlichste Datenformate nativ zu speichern, und die Freiheit, Prozesse und Abläufe ihres Unternehmens ohne Einschränkungen zu gestalten. Was die Möglichkeiten von Big Data betrifft, stehen wir heute sicherlich erst ganz am Anfang. Sicher ist aber, dass wie schon bei den IT-Lösungen in der Vergangenheit ein Best of Breed-Ansatz, der Einsatz der jeweils besten Applikation, nach einer offenen und leistungsstarken Lösung für die Vernetzung aller Anwendungen verlangen wird. InterSystems Ensemble hat seine Eignung dazu in der Vergangenheit vielfach eindrucksvoll und branchenunabhängig bewiesen. Sei es als zentrale Infrastruktur im Gesundheitswesen, mit seinen diversen Datenformaten oder als Daten- und Prozessdrehscheibe in der Energiewirtschaft. Mit Active Analytics ist Ensemble heute auch erste Wahl für viele Aufgabenstellungen im Bereich Big Data. 4.8 Roadmap für Kunden (Nutzer von Big Data) Die aktuellen Big Data-Aktivitäten in Unternehmen kann man in drei Gruppen einteilen: agiles Big Data, operationelles Big Data und „High Resolution Management“. So lassen sich im Endeffekt die Angebote der Anbieter besser verstehen, und CIOs und CTOs können für ihre Ziele die richtigen Angebote besser auswählen. Agiles Big Data bezeichnet den Ansatz, dass alles nicht viel kosten und vor allem auch schnell gehen sollte. Bei diesem Ansatz helfen beispielsweise die Technologie-Angebote, die Analysten rasch erlauben festzustellen, ob eine Datenmenge aus dem Big Data fürs Unternehmen Potenzial hat. Hier eignen sich insbesondere auch die jetzt auf den Markt kommenden Data as a Service-Angebote, die über ein OPEX-Finanzierungsmodell kurzfristig operativ © S.A.R.L Martin/IT Research Juli 2012 34 Inhalt Strategic Bulletin: BIG DATA abgerechnet werden können und die schnell nutzbar – und wenn es sich nicht lohnt – auch schnell wieder abschaltbar sind. Im agilen Big Data-Ansatz sind die Analysten oder Data Scientists (siehe Kapitel 3.2) die Macher. Die Unternehmen, die einen solchen Ansatz fahren haben typischerweise eine robuste Unternehmenskultur in daten-getriebenem Treffen von Entscheidungen. Die Kernfrage im agilen Big Data ist: Wie kann man eine Art von Spreadsheet-Konzept in der Welt von Big Data etablieren? Operationelles Big Data bezeichnet die Automatisierung und Verschlankung des Analyseprozesses, damit man Entscheidungen treffen kann und Geschäftsprozesse intelligenter werden. Hier findet der Wettbewerb statt zwischen der OpenSource-Welt von Hadoop und den in Kapitel 4.1 genannten Anbietern zusammen mit den Data Discovery-Lösungen wie sie beispielsweise SAS Institute und TIBCO Spotfire anbieten. Die Kernfrage im operationellen Big Data ist: Wie können wir eine Infrastruktur schaffen, so dass jeder Nutzen aus dem ziehen kann, was wir aus dem Big Data lernen? High Resolution Management meint die Idee, dass die Management-Prozesse und auch so mancher operativer Geschäftsprozess auf Basis der viel detaillierteren Fakten, die man aus dem Big Data gewinnen kann, komplett neu zu gestalten ist. Die Kernfrage im High Resolution Management ist: Wie können wir die Art und Weise ändern, mit der wir unser Unternehmen managen, wenn wir all die Details über Markt und Kunden aus dem Big Data zur Verfügung haben? Mit diesem Modell als Hintergrund lässt sich sehr schön die SAP-Strategie darstellen, die wir wegen der Bedeutung von SAP im deutschsprachigen Markt hier anführen: „SAP is attempting to create an integrated approach that allows companies to perform analytics, make big data operational, and support applications for high resolution management all in one environment,” sagt Sanjay Poonen11. Fünf Herausforderungen auf dem Weg ins Big Data Wie wir schon gesagt haben: Big Data Technologien sind noch jung und unausgereift. Big Data-Vorgehensweise stützen sich auf eine noch überschaubare Menge von Erfahrungen. Hier haben wir fünf Herausforderungen zusammengestellt, die Nutzern helfen sollen, die ersten Schritte in Richtung Big Data zu gehen. 1. Herausforderung: Das Aufspüren von talentierten Mitarbeitern, die Big Data und Analytik kennen und Erfahrungen gemacht haben. Das ist nicht zu unterschätzen, denn solche Experten sind noch rar im Markt. Hier sollte man auf jeden Fall auf spezialisierte Beratungsunternehmen zurückgreifen, denn sonst kann man schnell viel Zeit und Geld verlieren ohne einen Mehrwert aus Big Data zu erzielen. Vor allem: Starten Sie nicht ins Big Data ohne externe Beratung, die neben den Big Data-Technologien vor allem auch in Sachen Organisation berät. Im Big Data braucht man neue Wege in der Zusammenarbeit IT und Fachabteilung sowie neue Rollen und Arbeitsplatzbeschreibungen. Wir hatten die Data Scientists in diesem Zusammenhang ja schon genannt (Kap. 3.2). 2. Herausforderung: Das Auswählen der Technologie und der Werkzeuge. Hier sollte natürlich auch der externe Berater helfen. Es empfiehlt sich (nicht nur) im Big Data, die Strategie zuerst festzulegen, also beispielsweise, ob man ins agile oder operative Big Data will oder sogar ein High Resolution Management anstrebt. Denn – wie schon gesagt – die Auswahl der Technologie und der Werkzeuge, sowie die Frage der Bereitstellung – Cloud oder nicht Cloud – hängt davon ab. 3. Herausforderung: Das Feststellen der Relevanz von Information für die Problemstellung. Welche Information bietet einen Mehrwert in Bezug auf die Kosten der Identifizierung, Extraktion, Speicherung und Analyse? Das ist die Grundsatzfrage, die man in priori in den seltensten Fällen beantworten kann. Ein Lösungsansatz ist das Aufstellen von Relevanzmaßen. Bei Stimmungsanalysen kann man beispielsweise eine Datenquelle danach bewerten, wie oft ein uns interessierender Begriff in welchen Zeitraum vorkommt. Dabei helfen dann die bekannten Suchfunktionen, um sich solche Statistiken zu erarbeiten. Hier sollte auch der externe Berater mit Best Practices helfen. Ansonsten gilt: Ausprobieren und iterieren („trial and error“). Man betritt hier definitiv Neuland. 11 Sanjay Poonen ist President und Corporate Officer bei SAP Global Solutions, siehe Beitrag in Forbes: http://www.forbes.com/sites/danwoods/2012/01/05/bringing-value-of-big-data-to-business-saps-integrated-strategy/ © S.A.R.L Martin/IT Research Juli 2012 35 Inhalt Strategic Bulletin: BIG DATA 4. Herausforderung: Das kontinuierliche „Anders-Denken”. Hier gilt als Regel: keine Annahmen treffen, keine Hypothesen haben. Denn Big Data-Analysen dienen ja gerade dazu, Hypothesen zu finden, die man so nicht kannte und erwartet hatte. Das Testen solcher Hypothesen erfolgt erst in einem zweiten Schritt. Das Problem ist hier, dass wir aus der „alten“ Zeit, in der nur wenig Information zur Verfügung stand, es gewohnt sind, mit Hypothesen zu arbeiten, die man aus Erfahrungswissen her kannte. Analyse diente dann genau dem Testen solcher Hypothesen. Jetzt im Big Data dient Analyse zuerst eben dem Finden von Hypothesen. Das ist neues, anderes Denken, an das man sich erst noch gewöhnen muss. 5. Herausforderung: Ein Ende finden und den Analyseergebnissen vertrauen. Hier können wir an den zweiten der fünf Nutzenaspekte aus Kapitel 2.2 anknüpfen: Testen aller Entscheidungen. Wenn eine Hypothese gefunden wurde, dann sollte man die schnell in einen Test umsetzen und Kunden und Markt entscheiden lassen, ob die Hypothese falsch ist oder zu positiven Auswirkungen geführt hat. Das entspricht dem Vorgehen der Big DataVorreiter, die ihre gefundenen Hypothesen zügig in Testumgebungen umgesetzt haben und dann die Wirkung gemessen haben. Das ist schnell und dann auch monetär bewertbar. Im Endeffekt ist das natürlich auch wieder ein iteratives Verfahren nach der “trial and error”-Methode. Da man aber Kunde und Markt einbezieht, hat man in jeder Iteration eine direkte Wirkung auf die Bottom-Line und damit eine zuverlässige Steuerung des Gesamtprozesses mit Umsatz und Profit als mögliche Zielgrößen. Hier sieht man auch, wie wichtig das Wissen eines externen Beraters in den organisatorischen Fragen ist: Nur wenn ein solches iteratives Verfahren in der Unternehmensorganisation machbar ist, können Big Data-Analysen tatsächlich einen messbaren Mehrwert erzeugen. Fazit Kapitel 4: Big Data-Roadmap: • Der Big Data-Markt besteht zum einen aus den „reinen“ Big Data-Anbietern, die mit innovativen Technologien in den Markt kommen, aber nur rund 5% zum Marktvolumen beitragen. Zum anderen besteht er aus den „großen“ Anbietern, die sich entweder im Big Data neu positionieren und/oder durch Akquisitionen sich neue, innovative Technologien beschaffen. Aber, keine Regel ohne Ausnahme: wie beispielsweise SAP mit HANA. • Nutzer von Big Data sollten (wie immer) mit dem Aufstellen der Strategie beginnen. Die sollte den Richtlinien agiles oder operatives Big Data oder High Resolution Management folgen sollte. • Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Der Erfolg von Big Data-Analysen muss iterativ durch seine Auswirkungen auf Kunden- und Marktverhalten gemessen und monetär bewertet werden. © S.A.R.L Martin/IT Research Juli 2012 36 Inhalt Strategic Bulletin: BIG DATA 5. Big Data – quo vadis Realität – 2012 • Big Data steht ganz am Anfang. Es gibt durchaus grundsätzliche Kritik am Ansatz: - Big Data-Initiativen sind heute in der Regel IT-getrieben. Daher erfolgt die Datenidentifizierung und Analyse oft technischen Gesichtspunkten. Das Problem ist hier zumeist, dass eine Unternehmensstrategie für Big Data fehlt. - Größere Datenmengen müssen nicht qualitativ bessere Daten sein. Die traditionell bewährten Maßnahmen von Datenqualitäts-Management werden vielfach nicht beachtet. Man sucht im Big Data beispielsweise nach Ausreißern, aber nicht etwa, um sie zu bereinigen, sondern man sucht nach Informationsgehalt in den Ausreißern. Das entspricht zwar dem Prinzip der hypothesenfreien Analyse, aber bei der Interpretation des Informationsgehaltes von Ausreißern sollte man Artefakten nicht aufsitzen. - Betrachten wir nochmal die Frage der Interpretation: Die bekannte Problematik aus dem traditionellen Data Mining tritt natürlich im Big Data verschärft auf: Mathematische Zusammenhänge müssen nichts mit den Phänomenen in der realen Welt zu tun haben. Fehlschlüsse können zum Teil fatale Folgen haben. Deshalb ist das kontrollierte Testen und Bewerten von Ergebnissen aus den Big Data-Analysen so wichtig. - Nicht alle Datenquellen sind gleich und sind nicht unbedingt vergleichbar. Dabei werden auch statistische Grundprinzipien wie das einer repräsentativen Stichprobe oft vernachlässigt. - Big Data-Analysen haben zum Teil die Tendenz, ethische Grenzen zu überschreiten. Man sollte sich stets fragen, ob die mit Big Data-Analysen angestrebte Transparenz des Kunden mit der Unternehmensethik vereinbar ist. - Trotz aller Kritik an Big Data: die Big Data-Vorreiter Amazon, eBay, Facebook und Google zeigen, dass Big Data-Potenziale existieren und geldwerten Vorteil bringen können. - Trotz aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt. - Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu finden, nur noch grösser und wertvoller. Trends – 2013/15 • Technologie-Trends: - Die traditionellen führenden Datenbankanbieter werden ihre SQL-Datenbanken zu hybriden Datenbanken ausbauen, in dem NoSQL-Techniken integriert werden, so dass man durch die Kombination der SQL mit der NoSQL-Welt die Vorteile beider Welten miteinander verbindet und die Marktführerschaft erhalten bleibt. Dazu kommt die sich weiter ausbreitende Nutzung von Data Appliances, die in die gleiche Richtung zielt. Die SAP wird mit der HANA-Technologie zu den führenden Datenbankanbietern aufschließen, jedenfalls in ihrer eigenen Kundenbasis. - Es werden Datenanalyse-Bibliotheken entstehen, vor allem auf Basis von R, der freien Programmiersprache für statistisches Rechnen und statistische Grafiken. In einer solchen Bibliothek werden gemeinsame Analyse- © S.A.R.L Martin/IT Research Juli 2012 37 Inhalt Strategic Bulletin: BIG DATA Muster und Vorgehensweise als offene Services verfügbar sein, so dass man mittels Analyse-Best Practices schnell die Nutzenpotenziale von Big Data erkennen und nutzen kann. Das wird auch zum Teil die Schmerzen aufgrund des Mangels an Experten lindern. - Big Data-Technologien etablieren sich im Konzert mit den anderen vier IT-Megatrends: Mobile, Cloud Computing, Social Media und Consumerization. Die Anbieter werden ihre Technologien unter diesem gemeinsamen Blickwinkel weitertreiben. • Markt-Trends: - Im Big Data-Markt werden wir – wie für einen jungen Markt ganz typisch – viele Übernahmen und Firmenzusammenschlüsse sehen. Die großen IT-Anbieter und Dienstleister werden auch hier vorne sein und bleiben. - Open Source-Angebote wie Hadoop und R werden im Big Data einen größeren Anteil erreichen und eine größere Rolle spielen als im traditionellen BI-Markt. Das folgt aus dem größeren Pool von verfügbaren Experten in Open Source-Technologien und einem Vorsprung an Funktionalität in den Open Source-Systemen aufgrund einer großen Anzahl von engagierten Entwicklern. - Gleiches gilt für Cloud-Angebote wie Data as a Service. Die werden gewinnen, da man diese Services unkompliziert finanzieren kann und ohne großen Aufwand ein- und vor allem auch abschalten kann. • Business-Trends: - Start-Ups werden besonders von Big Data profitieren. Das unterstreichen die Big Data-Vorreiter, die alle so gestartet sind. Der Grund liegt in der Regel in der Flexibilität von Start-Ups, die Big Data-Denken und Big DataOrganisationstrukturen viel leichter umsetzen und leben können als traditionelle Unternehmen. - Trotz des aktuellen Hypes wird sich Big Data bei der Mehrzahl der Unternehmen immer noch in der Pilotierungsphase befinden. Der große Bremser ist nicht die Verfügbarkeit und der Reifezustand der Technologie, sondern der Mangel an Experten und Beratern sowie die Schwierigkeit, die notwendigen neuen Denk- und Arbeitsweisen in den Alltag traditioneller Unternehmen zu verankern. - Big Data setzt neue Richtlinien für die Zusammenarbeit zwischen IT und Business. Während die Fachabteilungen die Oberhoheit über die Strategie, Prozesse und Analytik festigen werden, wird die IT die Rolle des Information Management als Kernaufgabe wiedergewinnen. Die Schnittstelle zwischen diesen beiden Sichten bilden dann die Prozesse, denn es gilt ja auch im Big Data: Kein Prozess ohne Daten. - Mit der Nutzung von Big Data ergeben sich neue Anforderungen an die Compliance, die zu meistern sind. Es werden sich neue gesetzliche Regeln entwickeln, die jetzt die gemeinsame Speicherung von Daten aus den unterschiedlichsten Quellen zu regulieren haben, beispielsweise Regeln, die beschreiben in welcher Art Finanzund Gesundheitsdaten ein und der derselben Person gemeinsam gespeichert und genutzt werden dürfen. Weiterhin ist auch eine Regulierung der Nutzung der öffentlich zugänglichen Social Media-Daten zu erwarten, denn man wird eine solche Regelung besser nicht den Facebooks und Co. überlassen wollen. © S.A.R.L Martin/IT Research Juli 2012 38 Inhalt Strategic Bulletin: BIG DATA 6. Profil: Wolfgang Martin Team und IT Research Dr. Wolfgang Martin ist ein europäischer Experte auf den Gebieten • Business Intelligence, Performance Management, Analytics • Business Process Management, Information Management, Information Governance • Service Oriented Architecture (SOA) • Customer Relationship Management (CRM) • Cloud Computing (SaaS, PaaS) Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse. Er ist iBonD Partner (www.iBonD.net), Ventana Research Advisor (www.ventanaresearch.com) und Research Advisor des Instituts für Business Intelligence der Steinbeis Hochschule Berlin (www.i-bi.de). The InfoEconomist zählte ihn in 2001 zu den 10 einflußreichsten IT Consultants in Europa. Dr. Martin ist unabhängiger Analyst. Vor der Gründung des Wolfgang MARTIN Teams war Dr. Martin 5 ½ Jahre lang bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies. Darüber hinaus kennt man ihn aus TV-Interviews, durch Fachartikel in der Wirtschafts- und IT-Presse, als Autor der Strategic Bulletins zu den Themen BI, EAI, SOA und CRM (www.it-research.net) und als Herausgeber und Co-Autor von Büchern, u.a. „Data-Warehousing – Data Mining – OLAP“, Bonn, 1998, „CRM – Jahresgutachten 2003, 2004, 2005, 2006 & 2007“, Würzburg, 2002, 2003, 2004, 2005 & 2007 und „CRM Trend-Book 2009“, Würzburg, 2009. Bevor er für die META Group arbeitete, war Dr. Martin in verschiedenen Managementpositionen bei Sybase und Software AG tätig, wo er für Business Development, Marketing und Produktmarketing verantwortlich war. Nachdem er sich intensiv mit der Entwicklung von Anwendungen für Computational Statistics in der Wissenschaft beschäftigt hatte, sammelte Dr. Martin als Decision Support-Experte bei Comshare Erfahrung im Bereich endbenutzerorientierte Verarbeitung von individuellen Daten. Dr. Martin promovierte und habilitierte an der Universität Bonn in angewandter Mathematik. S.A.R.L. Martin, Dr. Wolfgang Martin, 6, rue Paul Guiton, 74000 Annecy, France, E-Mail: [email protected] IT Research ist ein deutschsprachiges Unternehmen, das Studien, Bulletins und White Papers im Bereich der Informationstechnik erstellt. Ziel ist, auf neueste Technologien hinzuweisen, IT-Investitionen der Unternehmen noch rentabler zu machen, Fehlinvestitionen zu vermeiden und Risiken zu minimieren. Um dies zu erreichen, arbeiten wir mit einem Netzwerk von Kompetenzträgern auf den verschiedensten Gebieten der IT zusammen it verlag GmbH, Michael-Kometer-Ring 5, D-85653 Aying Tel. 0049 8104 649414, E-Mail: [email protected] © S.A.R.L Martin/IT Research Juli 2012 39 Inhalt Strategic Bulletin: BIG DATA 7. Profil: Die Sponsoren InterSystems InterSystems ist der führende Anbieter von Software für ein vernetztes Gesundheitswesen. Das Unternehmen hat seinen Hauptsitz in Cambridge, USA, und Niederlassungen in 23 Ländern. InterSystems HealthShare™ ist eine strategische Plattform für die Informationsverarbeitung im Gesundheitswesen und den Aufbau regionaler oder nationaler elektronischer Gesundheitsakten. Die hochperformante Objektdatenbank InterSystems Caché® ist das weltweit meistgenutzte Datenbanksystem für klinische Anwendungen. InterSystems Ensemble® ist eine Integrations- und Entwicklungsplattform, die Anwendungen schnell miteinander verbindet und um neue Funktionen erweitert.InterSystems DeepSee™ ist eine Software, mit der Echtzeit-Analysefunktionen direkt in transaktionale Anwendungen eingebettet werden können, um bessere Entscheidungsgrundlagen für das Tagesgeschäft zu erhalten. InterSystems TrakCare™ ist ein webbasiertes, einheitliches Informationssystem für Krankenhäuser und Krankenhausverbünde bis hin zu landesübergreifenden Gesundheitsinformationssystemen, das schnell alle Leistungen einer elektronischen Patientenakte zur Verfügung stellt. Weitere Informationen finden Sie unter www.intersystems.de Pentaho Pentaho ist der Anbieter von Business Analytics Lösungen Pentaho stellt leistungsstarke Analyse zur Verfügung mit Funktionen für Datenzugriff, -integration, -analyse, -visualisierung und Data Mining. Ein kostenloser Download zur Evaluierung von Pentaho Business Analytics steht unter www.pentaho.de/download zur Verfügung. REALTECH AG Die REALTECH AG ist ein auf SAP-spezialisiertes Beratungshaus sowie Softwarehersteller mit Fokus auf Geschäftsprozess- und IT Service-Management. Mithilfe von REALTECH gestalten Unternehmen ihre IT der Zukunft. Die Mitarbeiter arbeiten gemeinsam mit den Kunden daran, Mehrwert durch den Einsatz von IT-Lösungen zu schaffen. Mit zwei sich ergänzenden Geschäftsbereichen für strategische IT-Beratung und Software Produkte für das Business Service Management unterstützt REALTECH Unternehmen aller Größen entlang der Wertschöpfungskette. Die börsennotierte REALTECH AG hat ihren Firmensitz in Walldorf (Baden) und erzielte im Geschäftsjahr 2011 einen Umsatz von über 39 Millionen Euro. Weltweit haben sich bereits mehr als 2.200 Kunden für REALTECH entschieden. Weitere Informationen unter: www.realtech.de/sap-hana © S.A.R.L Martin/IT Research Juli 2012 40 Inhalt Strategic Bulletin: BIG DATA SAP AG Als marktführender Anbieter von Unternehmenslösungen unterstützt SAP Firmen aller Größen und Industriezweige dabei, mehr zu erreichen. SAP steht für „Systeme, Anwendungen und Produkte in der Datenverarbeitung“ und wurde 1972 gegründet. Seitdem steht der Branchenführer für innovative Ideen und starkes Wachstum. Aktuell verfügt SAP über Vertriebs- und Entwicklungsstandorte in mehr als 50 Ländern weltweit. SAP-Anwendungen und Services helfen mehr als 183,000 Kunden in der ganzen Welt, ihr Unternehmen rentabel zu führen, flexibel auf Marktänderungen zu reagieren und nachhaltig zu wachsen. www.sap.com SAS Institute SAS ist Marktführer bei Business Analytics Software und weltweit größter unabhängiger Anbieter im Business Intelligence-Markt. Die SAS Lösungen für eine integrierte Unternehmenssteuerung helfen Unternehmen an insgesamt mehr als 55.000 Standorten dabei, aus ihren vielfältigen Geschäftsdaten konkrete Informationen für strategische Entscheidungen zu gewinnen und damit ihre Leistungsfähigkeit zu steigern. 90 der Top-100 der Fortune-500-Unternehmen vertrauen auf SAS. Firmensitz der 1976 gegründeten US-amerikanischen Muttergesellschaft ist Cary, North Carolina (USA). SAS Deutschland hat seine Zentrale in Heidelberg und weitere Niederlassungen in Berlin, Frankfurt, Hamburg, Köln und München. Weitere Informationen unter: http://www.sas.com/offices/europe/germany/index.html?gclid=CM_jtZbdp7ACFY5pfAodrizlWg TIBCO Software Inc. TIBCO Software Inc. (NASDAQ: TIBCX) ist Anbieter von Infrastruktur-Software, die entweder bei Unternehmen vor Ort oder als Teil einer Cloud-Computing-Umgebung eingesetzt werden kann. Egal, ob es um die Verarbeitung von Schadensmeldungen oder Handelsumsätzen geht, um das Cross-Selling von Produkten auf Basis des Kundenverhaltens in Echtzeit oder das Abwenden einer Krise im Vorfeld: TIBCO bietet Unternehmen „The Two-Second Advantage“TM, also die Möglichkeit, die richtige Information zur rechten Zeit zu erfassen und darauf präventiv zu reagieren, und sich somit einen Wettbewerbsvorteil zu sichern. Über 4.000 Kunden weltweit verlassen sich auf TIBCO, um ihre Informationen, Entscheidungen, Prozesse und Anwendungen in Echtzeit zu managen. TIBCO Spotfire® ist die In-Memory Analytics-Software des Unternehmens für Business Intelligence der nächsten Generation. Die visuell-interaktive Bedienung unterstützt Spotfire®-Anwender dabei, schnell neue und umsetzbare Erkenntnisse aus ihren Informationen zu gewinnen. Mehr Informationen unter http://spotfire.tibco.com © S.A.R.L Martin/IT Research Juli 2012 41 Inhalt Die Sponsoren: