Strategic Bulletin – März 2013 Analytische Datenbanken Trends in Data Warehousing und Analytik Eine Analyse von & Strategic Bulletin: Analytische Datenbanken Copyright Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen wurden mit größter Sorgfalt und mit wissenschaftlichen Methoden recherchiert und zusammengestellt. Eine Garantie in Bezug auf Vollständigkeit und Richtigkeit wird ausgeschlossen. Alle Rechte am Inhalt dieses Strategic Bulletin, auch die der Übersetzung, liegen bei dem Autor. Daten und Informationen bleiben intellektuelles Eigentum der S.A.R.L. Martin im Sinne des Datenschutzes. Kein Teil des Werkes darf in irgendeiner Form (Druck, Photokopie, Mikrofilm oder einem anderen Verfahren) ohne schriftliche Genehmigung durch die S.A.R.L. Martin und IT Research reproduziert oder unter Verwendung elektronischer Verfahren verarbeitet, vervielfältigt oder verbreitet werden. Die S.A.R.L. Martin und IT Research übernehmen keinerlei Haftung für eventuelle aus dem Gebrauch resultierende Schäden. © Copyright 2013 S.A.R.L. Martin, Annecy, und IT Research, Aying Disclaimer Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen etc. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. In diesem Werk gemachte Referenzen zu irgendeinem spezifischen kommerziellen Produkt, Prozess oder Dienst durch Markenname, Handelsmarke, Herstellerbezeichnung etc. bedeutet in keiner Weise eine Empfehlung oder Bevorzugung durch die S.A.R.L. Martin und IT Research. Gastbeiträge in diesem Strategic Bulletin sind freie Meinungsäußerungen der Sponsoren und geben nicht unbedingt die Meinung des Herausgebers wieder. Titelbild: © Shutterstock.com/agsandrew ISBN 3-936052-40-9 © S.A.R.L. Martin/IT Research März 2013 2 Titel Inhalt Strategic Bulletin: Analytische Datenbanken Inhaltsverzeichnis 1. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Analytische Datenbanken – Einführung in das Thema . . . . . . . . . . . . . . . . . . . . . 6 2.1 Analytische Datenbanken – die Definition und die Treiber . . . . . . . . . . . . . . . . . . 6 2.2 Nutzenpotenziale analytischer Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Analytische Datenbanken – Markttrends . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3. Analytischer Datenbanken – Technologien, Architekturen und Positionierung 10 3.1 Technologien analytischer Datenbanken. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2 NoSQL-Technologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Analytik – Online versus Offline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4 Big Data: Datenstrukturen und Latenz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 Information Management im Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4. Analytische Datenbanken: Roadmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1 Klassifikation der Anbieter von analytischen Datenbanken . . . . . . . . . . . . . . . . 23 4.2 Klassifikation der Anbieter von Information Management . . . . . . . . . . . . . . . . . 24 4.3 Die Datenvielfalt meistern – Gastbeitrag von Datawatch . . . . . . . . . . . . . . . . . . 25 4.4 Erst Analytics macht aus Big Data Big Business – Gastbeitrag von InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.5 Big Data und die Datenbankstrategie der Zukunft – Gastbeitrag von SAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.6 Herausforderungen an Analytik und den Umgang mit analytischen Datenbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5. Big Data-Analytik – Quo Vadis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Realität – 2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Trends – 2014/15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 6. Profil: Wolfgang Martin Team und IT Research . . . . . . . . . . . . . . . . . . . . . . . . . . 33 7. Profil: Die Sponsoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Datawatch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 InterSystems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 SAP AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 © S.A.R.L. Martin/IT Research März 2013 3 Titel Strategic Bulletin: Analytische Datenbanken 1. Zusammenfassung “In the Age of Analytics, as products and services become ‘lighter’ (i.e., less physical and more digital), manufacturing and distribution costs – while still important – will be augmented with new metrics – the costs of know, the flow of know, and the costs of not knowing.” Thornton May [1], Futurist, Executive Director, and Dean of the IT Leadership Academy Analytische Datenbanken – Definition und Treiber Ein Unternehmen verfügt bereits über große Mengen strukturierter (in der Regel rund 20 % aller Unternehmensdaten) und poly-strukturierter Daten (die machen rund 80% aller Unternehmensdaten aus) wie Dokumente, Verträge, Protokolle, E-Mail, Podcasts, Videos end andere. Eine Flut von Daten wartet bekanntlich im Web auf uns. Und noch mehr Daten liefert und das Internet der Dinge: Hier konvergieren Internet und die reale Welt. Nicht nur mobile Telefone, Smartphones und Tablets gehören hier dazu, sondern Geräte aller Art wie Sensoren, Smart Meter, Home Entertainment bis hin zu selbstfahrenden Autos. Das alles fasst man heute unter dem Begriff Big Data zusammen. Es sind Daten aller Art über Konsum, Verhalten und Vorlieben, Orte und Bewegungen, Gesundheitszustand und viele andere Dinge. Analytik wird deshalb immer wichtiger für Unternehmen in allen Branchen, denn der Einsatz von Analytik schafft Wettbewerbsvorteile und vermeidet Risiken durch ein besseres und tieferes Wissen über Markt und Kunden. Analytik treibt daher auch den Einsatz innovativer Technologien, um diese Petabytes, sogar Exabytes von Daten auswerten zu können, da durch die schiere Menge an Daten die bisher im Markt dominierenden relationalen Datenbanksysteme an ihre Grenzen stoßen: Es etablieren sich so „Analytische Datenbanken“ und „NoSQL-Datenhaltungssysteme“ [2], die innovative Algorithmen zum Zugriff- und Speicher-Management mit innovativen Ansätzen wie Spalten-Orientierung und innovativer Hardware-Technologie wie In-MemoryVerarbeitung miteinander verbinden. Technologien analytischer Datenbanken In Folge dieser Datenflut braucht man für Analytik neue Technologien, die die Grenzen traditioneller relationaler Datenhaltung überwinden. Relationale Datenhaltungssysteme waren auf Transaktionsverarbeitung und -Sicherheit ausgerichtet. Analytische Datenbanken sind konzipiert für ein schnelles Lesen, wobei aber gemäß Brewers CAPTheorem Kompromisse mit der Sicherheit und Zuverlässigkeit von Transaktionsverarbeitung gemacht werden müssen. Die Methoden und Technologien, mit denen man ein schnelles Lesen erreichen kann sind vielfältig. In der Tat setzt man bei den verschiedenen analytischen Datenbanken auch verschiedene dieser Methoden und Technologien ein, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung sowie Bündelungen von Hardware und Software („Data Appliances“). Analytische Datenbanken – Nutzen Das erlaubt einerseits Analytik in Echtzeit: Große, sogar sehr große Datenmengen können im Sekundenbereich analysiert werden. Früher haben solche Analysen Stunden bis hin zu Tagen benötigt. Andererseits wird so auch Echtzeitanalytik ermöglicht. So werden operative Prozesse im Unternehmen wie Kundeninteraktionen, Produktion, Logistik etc. jetzt in Echtzeit („online“) steuerbar. Mittels operativer Kennzahlen erreicht man Automation, also schnelleren Durchsatz, weniger Fehler und bessere, individualisierte Prozesse. Hierzu sind insbesondere In-Memory Datenbanken geeignet, die analytische und transaktionale Daten gemeinsam verwalten. So lösen analytische Datenbanken die Probleme, mit denen die Kunden heute in der Analytik mit großen und sehr großen Datenmengen kämpfen: Performance, Skalierbarkeit und Kosten. Die Vorteile sind: Information ist flexibler abrufbar und steht bis zu 100mal schneller oder sogar noch schneller zur Verfügung. Die Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft besse[1] Thornton May: „The New Know“, Innovation Powered by Analytics, 2009 [2] NoSQL = not only SQL, SQL = sequential query Language. © S.A.R.L. Martin/IT Research März 2013 4 Inhalt Strategic Bulletin: Analytische Datenbanken re Entscheidungen. Und schließlich wird die IT entlastet, da analytische Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Analytische Datenbanken – Quo Vadis Natürlich darf man nicht die Kritik an Analytik vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit. Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data überhaupt repräsentativ sein kann. Es gibt noch ein weiteres Problem: Um Analytik anwenden und verstehen zu können, braucht man analytische geschulte Manager und Mitarbeiter. Tom Davenport [3] geht sogar so weit, dass er im Fehlen von ausreichend analytisch geschulten Mitarbeitern einen der Gründe für die anhaltende Finanz- und Schuldenkrise sieht: Alle Finanzund Handelssysteme sind automatisiert und analytisch auf dem höchsten Stand, aber es fehlten die Mitarbeiter, die in der Lage waren (und sind), all die Metriken und analytischen Ergebnisse und Vorhersagen zu verfolgen, zu interpretieren und dem Management richtig zu erklären. In der Big Data-Analytik fehlt es ebenfalls an ausreichend geschulten Mitarbeitern: Data Scientists sind heute im Markt nur schwer zu finden. Hier ist noch eine große Aufgabe zu lösen, die uns noch einige Zeit beschäftigen wird. [3] Siehe: Henschen, D.: Analytics at Work, Q&A with Tom Davenport (Interview), InformationWeek Software, 04. Januar 2010. © S.A.R.L. Martin/IT Research März 2013 5 Inhalt Strategic Bulletin: Analytische Datenbanken 2. Analytische Datenbanken – Einführung in das Thema 2.1 Analytische Datenbanken – die Definition und die Treiber Analytische Datenbanken sind nicht neu. Es gibt sie schon seit rund 20 Jahren: Datenbanktechnologien, die darauf ausgelegt sind, riesige Bestände strukturierter Daten bei gleichzeitig hoher Anzahl von Abfragen durch viele bis sehr viele Nutzer in Sekundenschnelle zu analysieren. Aber erst heute finden sie wirkliche Beachtung. Der Einsatz solcher analytischen Datenbanken, wie sie jetzt genannt werden, nimmt zu, Tendenz steigend. Denn in den Unternehmen wächst die Nachfrage nach Analytik. Der Bedarf an Analytik ist insbesondere im Marketing hoch, wenn es um die Steigerung der Kundenprofitabilität durch Echtzeit-Kunden-Identifizierung und intelligente KundenInteraktionen geht. In der Supply Chain geht es um Prozess-Optimierung durch bessere Planung sowie um Identifizierung und Vermeidung von Risiken. Auf der Ebene der Unternehmenssteuerung geht es um rechtzeitiges Erkennen von Markttrends und von Innovationspotenzialen. Analytik durchdringt alle Unternehmensbereiche. Dazu kommt, dass wir auf dem Weg in die totale Digitalisierung der Welt sind. Reale und virtuelle Welt konvergieren. Das „Internet der Dinge“ wird mehr um mehr zur Realität: Geräte und Rechner verschmelzen miteinander. Das sieht man gerade sehr deutlich in der Branche der Versorger, wo „Smart Meter“ Verbrauchs- und Nutzungsdaten im Sekundentakt liefern können. Das sieht man auch in der Automobilindustrie: In Autos eingebettete Software nimmt nicht nur zu, sondern kontrolliert mehr und mehr das Fahrzeug bis hin zu ersten selbstfahrenden und lenkenden Autos. Das alles bedeutet: mehr und mehr Daten, Big Data (siehe auch Martin, Strategic Bulletin „Big Data“, 2012) wie man auch sagt. Big Data ist durch riesige Datenvolumen, große Datenvielfalt aus unterschiedlichsten Quellen und hohe Produktionsrate von Daten gekennzeichnet. Beispiel: Der Handel war immer eine der Branchen, in der Analytik Priorität hatte und die produzierten und vorhandenen Datenbestände ein großes bis sehr großes Volumen hatten, beispielsweise die Kassenbon-Daten. Die Analyse von Kassenbons bringt ein für den Handel entscheidendes Wissen über das Kundenverhalten, so dass kundenbezogene Prozesse personalisiert und optimiert werden können. Das steigert nachweislich die Kundenprofitabilität. Hier hatte man es schon lange mit Big Data zu tun, ohne dass man es so genannt hat. Um nämlich die Kundenprofitabilität steigern zu können, braucht man nicht nur die durchschnittliche Profitabilität eines Kunden über alle Produkte, sondern insbesondere die Kundenprofitabilität pro Produkt. Das ist eine wichtige Kennzahl zur Steuerung von personalisierten Kampagnen und Echtzeit-Produktempfehlungen, also eine im analytischen CRM typische Kennzahl im Handel für die Outbound- und Inbound-Kundenkommunikation. Das Ausrechnen dieser Kennzahlen übersteigt aber die Fähigkeit traditioneller relationaler Datenbanksysteme. Erst mit Hilfe analytischer Datenbanken lässt sich die Aufgabe lösen. Sie verkürzen die Rechenzeit, die beim Einsatz traditioneller Datenbanken einen oder mehrere Tage dauern konnte, auf einige Minuten oder liefern sogar Ergebnisse in Sekundengeschwindigkeit. Die Treiber für analytische Datenbanken sind also einerseits der gestiegene Bedarf an Analytik im Unternehmen und zum anderen, ein Datenvolumen das schneller steigt als die Leistung von traditionellen Datenbanken. Man schaffte es einfach nicht mehr, Daten im Detail zu analysieren, da es schlichtweg gesagt mit traditionelle Datenbanktechnologien zu lange dauerte. Gartner sagt bereits 2010 in seinem Bericht zum Magic Quadrat for Data Warehouse Database Management Systems: „Gartner-Klienten stehen bei der Abfrage von Data Warehouses immer häufiger vor erheblichen Performanceproblemen. Auf Grundlage dieser Informationen dürften rund 70 % aller Data Warehouses mit derartigen Problemen zu kämpfen haben.“ Definition: Analytische Datenbanken verbessern die Skalierbarkeit und die Performance von analytischen Datenbank-Abfragen deutlich gegenüber traditionellen Datenbanken. Zusätzlich helfen sie auch, die Betriebskosten zu senken. Das beruht auf der Kombination von bekannten und neuen Technologien wie Spaltenorientierung, Komprimierung, speziellen, intelligenten Zugriffsverfahren, massiv paralleler Verarbeitung sowie In-Memory-Technologien. © S.A.R.L. Martin/IT Research März 2013 6 Inhalt Strategic Bulletin: Analytische Datenbanken Diese Technologien, die analytische Datenbanken auszeichnen, wollen wir im Folgenden untersuchen. Vorher diskutieren wir aber noch die Nutzenpotenziale und Markttrends. 2.2 Nutzenpotenziale analytischer Datenbanken Analytische Datenbanken verbessern nicht nur die Analytik im Unternehmen durch eine höhere Geschwindigkeit, sondern erlauben auch den Einsatz von Analytik in Fragestellungen, die man aufgrund der notwendigen und teuren Rechenzeiten bisher nicht angehen konnte. Dadurch verbessern sie den bekannten Nutzen von Analytik wie Umsatzsteigerung, Kosteneinsparung, Erhöhung der Wettbewerbsfähigkeit und neue, innovative Geschäftsmodelle. Wenn man sich das etwas genauer anschaut, dann lassen sich fünf Nutzenpotenziale erkennen. 1. Transparenz. Hier bietet der Einsatz von Analytik in Netzwerken ein gutes Beispiel. In der Telekommunikationsbranche möchte man beispielsweise zur Optimierung von Verkehrs-Mustern das Anrufnetzwerk oder das Roaming-Verhalten von Anrufern analysieren. Dazu gilt es unter anderem, mögliche unsichere Pfade zu meiden, die Anzahl der Netzwerkwechsel beim Roaming zu reduzieren sowie Roaming-Muster zu optimieren, um Leistungsverträge einzuhalten. Ähnliche Aufgaben stellen sich auch für andere Anbieter, die Netzwerke in der Transport-, IT-, oder Energie- und Wasser-Versorgungsbranche betreiben. Um von diesem Nutzenaspekt zu profitieren, muss das „Silo-Denken“ in den Unternehmen allerdings endlich aufhören. Das Sammeln von Fachabteilungs-bezogenen Daten ist nicht ausreichend, um Kunden- und Marktwissen durch Analytik aufzubauen. Im Finanzwesen ist es immer noch üblich, Daten über die Finanzmärkte, über den Zahlungsverkehr und das Kreditwesen getrennt zu halten und nicht über Abteilungsgrenzen hinweg zu nutzen. Das hindert den Aufbau kohärenter Kundensichten und das Verstehen der Beziehungen und Beeinflussungen zwischen Finanzmärkten. 2. Erfolgskontrolle von Maßnahmen. Auf der Basis der Analysegeschwindigkeit, die mittels analytischer Datenbanken erreicht werden können, und neuen Datenquellen aus Big Data wie Lokalisierungsdaten im mobilen Internet, bieten sich neue Möglichkeiten, getroffene Maßnahmen auf ihre Wirksamkeit hin zu kontrollieren und mittels kontrollierter Experimente Hypothesen zu testen. Das erlaubt, Entscheidungen und Maßnahmen auf Basis von Fakten zu überprüfen und gegebenenfalls weiter anzupassen. So lassen sich auch Ursache-Wirkungsbeziehungen von reinen Korrelationen unterscheiden. Internet-Unternehmen wie Amazon und eBay waren mit bei den ersten, die solche kontrollierten Experimente nutzten, um die Konversionsraten von Besuchern ihrer Webseiten zu steigern. Dazu wurden gezielt bestimmte Funktionen und Verbindungen auf Webseiten geändert und die Wirkung entsprechend gemessen. So konnten die Faktoren ermittelt werden, die die Konversionsraten steigern. Mittels Lokalisierungsdaten aus dem mobilen Internet kann dieses Konzept aus der Webanalyse in die reale Welt übertragen werden. Jetzt kann beispielsweise die Wirkung von Außenwerbung bezogen auf den Standort gemessen und entsprechend optimiert werden. Das wird durch die Klickraten auf den QR-Codes auf Werbeflächen ermöglicht. So lässt sich durch Big Data-Analytik auch ein cross-mediales Marketing aufbauen. Weiter lassen sich Video-Aufzeichnungen von Kundenbewegungen in Kombination mit Kundeninteraktionen und Bestellmustern, die sich in Transaktionsdaten verbergen, zur Kontrolle von Marketing-Maßnahmen nutzen: So können Änderungen in Produkt-Portfolios und Platzierungen sowie Preisänderungen kontinuierlich und gezielt überprüft und optimiert werden. Daraus folgt eine Kosteneinsparung durch mögliche Reduktionen des Produktangebots ohne Risiko des Verlustes von Marktanteilen und sowie eine Steigerung der Marge durch den Verkauf höherwertiger Produkte. 3. Personalisierung in Echtzeit. Kunden- und Marktsegmentierung hat eine lange Tradition. Jetzt gibt es mit analytischen Datenbanken völlig neue Möglichkeiten durch Echtzeit-Personalisierung von Kundeninteraktionen. Im © S.A.R.L. Martin/IT Research März 2013 7 Inhalt Strategic Bulletin: Analytische Datenbanken Handel kennen wir solche Strategien bereits von Vorreitern wie Amazon und eBay, wo uns auf unser Profil zugeschnittene Produkte angeboten werden, und inzwischen auch von sozialen Netzen, wo uns Freundschaften vorgeschlagen werden. Natürlich profitiert man auch in anderen Branchen von solchen personalisierten Kundeninteraktionen, beispielsweise im Versicherungswesen. Hier können Versicherungspolicen auf den Kunden individuell zugeschnitten werden. Als Datenbasis dazu dienen kontinuierlich angepasste Profile der Kundenrisiken, Änderungen in der Vermögenslage oder auch Lokalisierungsdaten. Kraftfahrzeuge können mit speziellen Sendern ausgerüstet werden, so dass sie über eine Lokalisierung im Falle eines Diebstahls wiedergefunden werden können. 4. Prozess-Steuerung und Automation. Analytische Datenbanken erweitern den Einsatz von Analytik zur ProzessSteuerung und Automation. So können Sensor-Daten von Produktionsstraßen zur Autoregulierung von Produktionsprozessen genutzt werden. Damit lassen sich Kosteneinsparungen durch optimalen Materialeinsatz und durch Vermeidung von menschlichen Eingriffen erzielen, wobei gleichzeitig der Durchsatz erhöht werden kann. Proaktive Wartung ist ein anderes Einsatzgebiet. Maschinen können kontinuierlich über Sensoren überwacht werden, so dass auftretende Unregelmäßigkeiten sofort erkannt werden und rechtzeitig beseitigt werden können, bevor Schäden auftreten oder es zum Stillstand kommt. Andere Beispiele stammen aus der Konsumgüter-Branche. Getränke oder auch Speiseeis-Hersteller nutzen die täglichen Wettervorhersagen, um die eigenen Nachfrageplanungsprozesse an das aktuelle Wetter anzupassen. Dabei sind die Messdaten zur Temperatur, zur Niederschlagsmenge und zur täglichen Sonnenscheindauer entscheidend. Dieses Wissen erlaubt eine Prozessoptimierung durch die Verbesserung der Vorhersagewerte zwar nur um einige Prozent, aber das kann viel Geld bedeuten. 5. Innovative Informations-getriebene Geschäftsmodelle. Mit Hilfe analytischer Datenbanken wird Information nutzbar, die man früher nicht auswerten konnte, da der Nutzen möglicher Auswertungen die Kosten einer Auswertung nicht rechtfertigte. Das ist jetzt anders und so werden neue, innovative Geschäftsmodelle auf der Basis von Information möglich. Schauen wir uns als Beispiel die Information über Marktpreise an, die in den Zeiten des Internets und Internethandels in der Regel öffentlich verfügbar ist. Das erlaubt den Internet- und anderen Händlern die Preise des Mitbewerb zu überwachen und rechtzeitig auf Preisänderungen zu reagieren. Das erlaubt aber auch den Kunden, sich über die Preise zu informieren und so den besten Preis für ein gewünschtes Produkt zu erzielen. Darauf haben sich einige Anbieter spezialisiert, die über Konsolidierung, Aggregieren und Analyse von Preisinformation ihr eigenes Geschäftsmodell gefunden haben. Das gilt nicht nur im Handel, sondern auch im Gesundheitswesen, wo durch solche Informations-Anbieter Behandlungskosten transparent gemacht werden. 2.3 Analytische Datenbanken – Markttrends Die vier IT-Megatrends 2013 sind zweifellos Mobile, Cloud, Social und Big Data. Interessanterweise sind diese vier Trends miteinander verwoben, und alle vier bewirken eine weiter steigende Nachfrage nach analytischen Datenbanken. Das mobile Internet produziert Daten in großem Volumen und mit großer Geschwindigkeit, Big Data eben. Zum einen werden Lokalisierungs- und Navigations-Daten produziert. Im mobilen Internet konvergieren Zeit, Raum und Information: Man weiß heute exakt und genau, wo und zu welcher Zeit sich ein Kunde, eine Ware oder ein beliebiges Gerät sich befindet. Jedes Smartphone ist so Produzent von Daten. Zum anderen schafft die Konvergenz von Zeit, Raum und Information darüber hinaus eine neue Welt: Das Internet der Dinge. Wesentliche Elemente des IoT, die in einer Vielzahl von mobilen Geräten enthalten sein werden, sind Smart Meter und eingebettete Sensoren, Bilderkennungstechniken und die Bezahlung über NFC (Near-field Communication). Im Endergebnis wird der Begriff mobil sich nicht mehr ausschließlich auf Mobiltelefone oder Tablets beschränken und Mobilfunktechnik nicht mehr ausschließlich auf Mobilfunknetze. Die Kommunikation wird auch über NFC, Bluetooth, LTE und WLAN ablaufen und schon bald in viele neue Geräte integriert werden, beispielsweise in Displays von Armbanduhren, me- © S.A.R.L. Martin/IT Research März 2013 8 Inhalt Strategic Bulletin: Analytische Datenbanken dizinischen Sensoren, intelligenten Plakaten, Home-Entertainment-Systemen und in Autos. So werden schließlich noch mehr Daten produziert. Mobil treibt auch die Cloud, denn das mobile Internet arbeitet nach dem Prinzip des Cloud Computings. Jede App, die wir nutzen, arbeitet so. Cloud Computing ist auch mit Big Data eng verbunden, denn Cloud Computing ist ein IT-Bereitstellungsmodell, das aufgrund der Elastizität, Flexibilität und von Kostenvorteilen bestens Anforderungen von Big Data und Big Data-Analytik erfüllt. Viele Anbieter von analytischen Datenbanken bieten heute schon ein DWaaS (Data Warehouse as a Service). Wir können davon ausgehen, dass dieser Trend sich weiter verstärken wird. Mobil treibt auch Social, denn Social funktioniert eben dann am besten, wenn jeder immer und überall zu erreichen ist. Social wiederum treibt Big Data, denn jetzt haben wir in den sozialen Medien noch mehr und auch komplett neue Daten, beispielsweise Information über die Beziehungen zwischen Personen. Big Data hat damit seinen Platz unter den unverzichtbaren Kompetenzen eines Unternehmens. Die Masse an digitalen Inhalten ist 2012 auf 2,7 Zettabyte (ZB) gestiegen, ein Zuwachs um 48 Prozent im Vergleich zu 2011. Über 90 Prozent dieser Information sind unstrukturierte Daten (wie Photos, Videos, Audios und Daten aus den sozialen Netze und dem Internet der Dinge). Diese stecken voller reichhaltiger Information, und die Unternehmen sind mehr und mehr daran interessiert, aus Big Data wertvolle Erkenntnisse zu gewinnen. Damit können wir davon ausgehen, dass sich analytische Technologien wie analytische Datenbanken zum Mainstream entwickeln. Big Data bedeutet ja nicht nur große Datenvolumen, sondern auch Datenproduktion in großer Geschwindigkeit. Das treibt Echtzeitanalytik. Die ist nicht nur erfolgreich in der Kundenkommunikation, sondern geradezu essentiell im Internet der Dinge. Echtzeitanalytik im Internet der Dinge erlaubt die Anwendung von maschinellem Lernen. Algorithmen zum Selbst-Lernen, Selbst-Heilen und Selbst-Adjustieren dienen der Automation von Prozessen, steigern die Produktivität und senken Kosten und Risiken. Ein gutes Beispiel steht recht nahe an der Schwelle zur Wirklichkeit: Das führerlose, selbstfahrende Auto. Eine der wesentlichen technischen Voraussetzungen dazu ist In-Memory Computing, denn auf die Rechnerleistung kommt es hier an. Das stellt ein weiteres, riesiges Feld für analytische Datenbanken dar. Fazit Kapitel 2: Analytische Datenbanken – Treiber, Nutzen und Markttrends: • Die Treiber des Markts für analytische Datenbanken sind ein gestiegener und weiter steigender Bedarf an Analytik im Unternehmen und eine Datenproduktion, die schneller steigt als die Leistung traditioneller Datenbanken. • Die Nutzenpotenziale analytischer Datenbanken zielen auf die Bottom Line: Durch die bisher nie erreichte Geschwindigkeit von Analysen ergeben sich Kosteneinsparungen, Umsatzsteigerungen, Risikovermeidung, Erhöhung der Wettbewerbsfähigkeit und innovative Geschäftsprozesse und Modelle. • Die vier IT-Megatrends (Mobile, Cloud, Social, Big Data) bedingen sich untereinander und treiben so den Bedarf an analytischen Technologien wie analytischen Datenbanken. Damit werden analytische Datenbanken Mainstream-Produkte. Unternehmen sollten den Markt für analytische Datenbanken beobachten, um nicht den Anschluss zu verlieren. Es empfiehlt sich, Nutzenpotenziale für das Unternehmen jetzt zu identifizieren und in Abhängigkeit von einer solchen Analyse erste Piloten zu starten. Anbieter sollten eine glaubwürdige Position aufbauen und eine Roadmap, die klar erkennbare Werte bietet und die notwendige Flexibilität, um im Analytik-Markt zu prosperieren. © S.A.R.L. Martin/IT Research März 2013 9 Inhalt Strategic Bulletin: Analytische Datenbanken 3. Analytische Datenbanken – Technologien, Architekturen und Positionierung 3.1 Technologien analytischer Datenbanken. Analytische Datenbanken sind auf ein schnelles Lesen von Daten ausgerichtet, während die traditionellen relationalen Datenbanken auf Transaktionsverarbeitung hin ausgerichtet sind. Die Traditionellen Datenbanken sind exzellent, wenn es um den Zugriff auf den einzelnen Datensatz geht, aber bei einer Selektion von Gruppen sind die auf das Lesen optimierten analytischen Datenbanken schneller. Das ist die Basis für die Verabeitungsgeschwindigkeit von Analysen mit analytischen Datenbanken. Die Methoden und Technologien, mit denen man ein schnelles Lesen erreichen kann sind vielfältig. In der Tat setzt man bei den verschiedenen analytischen Datenbanken auch verschiedene dieser Methoden und Technologien ein, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung sowie Bündelungen von Hardware und Software („Data Appliances“). Spaltenorientierung. Bei einer spaltenorientierten Datenbank kann jede Spalte einer Tabelle in einer eigenen Datei liegen, d.h. auf einen Wert eines Attributs eines Datensatzes folgt in Lese-Reihenfolge nicht das nächste Attribut des selben Datensatzes, sondern das gleiche Attribut des nächsten Datensatzes: Die Zeilen und Spalten der Tabelle werden miteinander vertauscht. Intuitiv funktioniert dies, da in der Analytik meistens wenige Attribute von sehr vielen Datensätzen benötigt werden. Aufgrund der Spaltenorientierung müssen die restlichen Attribute nicht gelesen werden. Mit anderen Worten: das Lesen wird drastisch reduziert, weil man durch das Vertauschen von Zeilen und Spalten nur noch höchstens so viele Datensätze wie Attribute hat. Da die Anzahl der Attribute in der Regel klein ist gegen die Anzahl der Datensätze, bringt das einen hohen Performance-Gewinn. Jedoch wird das Schreiben von Datensätzen dadurch jedoch teurer, was man aber oft durch Differenzdateien zum Teil ausgleichen kann. Aufgrund dieser Basiseigenschaft von spaltenorientierten Datenbanken erhält man einen weiteren Vorteil. Man braucht keine Indizes und Aggregate mehr. Das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt. Kompression. Zusätzlich lassen sich die Daten in einer spaltenorientierten Datenhaltung sehr gut komprimieren. Dazu werden Verfahren genutzt, die es erlauben, relationale Operationen auf den komprimierten Daten auszuführen. So können beispielsweise mehrfach vorkommende Werte durch Kürzel fixer oder variabler Länge ersetzt werden, die durch ein Wörterbuch bei Bedarf wieder in die ursprünglichen Werte übersetzt werden können. Folgen identische Werte direkt aufeinander, können diese Sequenzen lauflängencodiert abgelegt werden. Sortierte ganzzahlige Daten können durch Differenzbildung zum jeweiligen Vorgänger oder zu einem lokalen Minimum in wenigen Bits untergebracht werden. Ein solches Komprimieren bringt also Kostenvorteile, da die Datenbank „klein“ wird (Relativ zu einer zeilenorientierten Datenbank können die Daten bis zu 80% und mehr komprimiert werden.) Man erhält so weitere Performance-Vorteile. Reines Einfügen von Daten („insert only“). Neue Daten werden bei dieser Methode ausschließlich hinzugefügt (insert). Ein Überschreiben von bestehenden Datensätzen (update) findet nicht mehr statt. So bekommt man eine persistente Speicherung der kompletten Historien aller Daten, was natürlich einen erhöhten Speicherplatzbedarf bedeutet. Ein Vorteil ist dagegen, dass man so die Möglichkeit der Analyse historischer Daten bekommt, die heute in der Regel nur mittels Data Warehouse machbar ist. Die Konsistenz der Daten wird durch Snapshot Isolation bewahrt. Partitionierung („partitioning“) lässt sich in spalten-orientierten Datenbanken gut nutzen. Es bedeutet die Verteilung einer Spalte auf mehrere Server und/oder die Verteilung verschiedener Spalten einer Tabelle auf verschiedene Server. Dadurch erreicht man eine weitere Steigerung der Verarbeitungsgeschwindigkeit. Massiv parallele Verarbeitung. Eine weitere Beschleunigung lässt sich durch Parallelisieren der Verarbeitung auf Clustern erreichen. Das gilt sowohl für zeilen- wie auch spalten-orientierte Datenbanken. Daten werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware- © S.A.R.L. Martin/IT Research März 2013 10 Inhalt Strategic Bulletin: Analytische Datenbanken Ressourcen optimal ausgenutzt werden. Die Software ist so konzipiert, dass jeglicher Tuningaufwand entfällt, wie er in konventionellen Systemen üblich ist. Die Datenbanklösung legt Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. In-Memory-Datenbanken. Eine In-Memory-Datenbank ist ein Datenbank-Managementsystem, das den Arbeitsspeicher eines Rechners als Datenspeicher nutzt. Sie arbeitet also im Gegensatz zu traditionellen Datenbank-Managementsystemen nicht mit Festplatten, sondern „plattenlos“. Sie vermeidet so den Flaschenhals der Ein-/Ausgabezeiten. Zudem bietet der Arbeitsspeicher eine wesentlich höhere Verarbeitungsgeschwindigkeit, und die Algorithmen für den Zugriff sind einfacher. Deshalb sind In-Memory-Datenbanken wesentlich schneller. Auch sind die Zugriffszeiten besser abschätzbar als die von Festplatten-basierten Systemen. Natürlich gibt es auch Nachteile: Zum einen ist Arbeitsspeicher deutlich teurer als Festplattenspeicher. Setzt man aber andere Methoden wie Spalten-Orientierung und Komprimierung in Kombination mit In-Memory ein, so werden die Datenvolumen deutlich reduziert, so dass der Arbeitsspeicherbedarf einer solchen Datenbank kleiner wird als der Festplattenspeicherbedarf einer vergleichbaren platten-basierten Datenbank. Zum anderen haben Rechner nicht beliebig viel Arbeitsspeicher. Daher greift man bei Datenbanken mit hoher Speicherkapazität auf GridComputing zurück, um auch Tera- und Petabyte-Volumen mit In-Memory-Datenbanken managen zu können. Die Persistenz der Daten stellt bei In-Memory-Datenbanken eine weitere Herausforderung dar: Da sie ihre Daten in flüchtigem Arbeitsspeicher speichern, der sie bei Systemabstürzen verliert, erfüllen sie nicht die Anforderung der dauerhaften Speicherung (Persistenz) erfolgreich abgeschlossener Transaktionen. Hier muss man mit Zusatzmethoden wie Schnappschuss- oder Protokoll-Dateien, nicht-flüchtigem RAM-Speicher oder mittels Replikation eine Hochverfügbarkeit anstreben. Data Appliances. Analytische Datenbanken können auch als sogenannte Data Appliances angeboten werden. Hier wird die Hardware an die Software angepasst. So lässt sich beispielsweise bei plattenbasierten Datenbanken die Kommunikation zwischen dem Datenbankserver und dem Speicher optimieren. Dazu kann man entweder die Zahl der Threads oder auch die Bandweite erhöhen. Zusätzlich kann man einen Mix aus großen, langsamen und kleinen, schnellen Speichereinheiten einsetzen und die Speicherung mittels Algorithmen dynamisch an das Verhalten des Datenbankspeichers anpassen. Das reduziert recht deutlich die Eingabe/Ausgabe-Geschwindigkeit, die bei plattenbasierten Datenbanken den Flaschenhals darstellt. Bei In-Memory-Datenbanken kann die Data Appliance sehr gut genutzt werden, um eine Hochverfügbarkeit der Datenbank herzustellen. All diese Methoden und Verfahren dienen der Beschleunigung des Suchens und Lesens in Datenhaltungssystemen. Aber diese Methoden und Verfahren schaffen an anderer Stelle Probleme: Die Transaktionsverarbeitung gemäß dem ACID-Prinzip [4] ist nicht so ohne weiteres möglich möglich. Das basiert auf Brewers CAP-Theorem [5], das besagt, dass in einem verteilten System die drei Eigenschaften Konsistenz, Verfügbarkeit und Partition-Toleranz nicht gleichzeitig erreichbar sind. (Abb. 1) Man kann sich diesem nicht existierenden „Ideal“-Zustand nur annähern, in dem man jeweils eine der drei Bedingungen abschwächt. So kann beispielsweise eine ACID-Transaktionskonsistenz abgeschwächt werden zu einer „eventual consistency“, also einer sich nach einigen Zwischenzuständen und nach einer gewissen Latenzzeit sich dann doch einstellenden Konsistenz. Das kann für gewisse Transaktionen ausreichend sein, für andere aber nicht. Daher muss man beim Einsatz von analytischen Datenbanken immer abwägen, was die tatsächlichen Anforderungen an die ACID-Transaktions-Konsistenz sind, und dann die entsprechenden analytischen Datenhaltungssysteme auswählen, die die geeigneten Eigenschaften haben. [4] ACID (atomicity, consistency, isolation, durability) ist eine Menge von Eigenschaften, die garantieren, dass Datenbank-Transaktionen zuverlässig abgewickelt werden. [5] siehe beispielsweise http://fr.slideshare.net/alekbr/cap-theorem © S.A.R.L. Martin/IT Research März 2013 11 Inhalt Strategic Bulletin: Analytische Datenbanken Brewers CAP-Theorem Verfügbarkeit: totale Redundanz Konsistenz: ACIDTransaktionen Es gibt kein verteiltes System, das gleichzeitig diese drei Eigenschaften hat. Partition-Toleranz: unbegrenzte Skalierbarkeit © S.A.R.L. Martin 2013 Abbildung 1: Brewers CAP-Theorem besagt, dass in einem verteilten System die drei Eigenschaften Konsistenz, Verfügbarkeit und Partition-Toleranz nicht gleichzeitig erreichbar sind. Dabei bedeutet Konsistenz, dass alle Knoten zur selben Zeit dieselben Daten sehen, Verfügbarkeit, dass alle Anfragen an das System immer beantwortet werden, und Partitionstoleranz, dass das System auch bei Verlust von Nachrichten, einzelner Netzknoten oder Partition des Netzes weiterarbeitet. Analytische Datenbanken lösen dagegen die Probleme, mit denen die Kunden heute in der Analytik kämpfen: Performance, Skalierbarkeit und Kosten. Fassen wir nochmal die Vorteile zusammen: • Information ist flexibler abrufbar und steht bis zu 100mal schneller oder sogar noch schneller zur Verfügung. • Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft bessere Entscheidungen. • Die IT wird entlastet, da analytische Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Zwei Dinge sollten zum Schluss noch klar gesagt werden: • Eine analytische Datenbank macht ein physikalisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische, fachliche Design der analytischen Datenbank. In diesem Sinne bleibt weiterhin ein Information Management unabdinglich, auch wenn analytische Datenbanken eingesetzt werden. Denn ein Stamm- und Metadaten-Management, ein Datenqualitäts-Management, eine Information Governance und die anderen Aufgaben im Information Management bleiben auch mit analytischen Datenbanken kritische Erfolgsfaktoren. • Eine analytische Datenbank ersetzt aufgrund von Brewers CAP-Theorem nicht die herkömmlichen Datenbanken in der Transaktionsverarbeitung. Analytische Datenbanken sind eine neue Generation von Datenbanken, die eben besonders für analytische Aufgaben im Unternehmen geeignet sind. Daher gehen viele Unternehmen den Weg, zwei unterschiedliche Datenbanktechnologien einzusetzen, eine für die analytischen Aufgaben, eine andere für die Transaktionsverarbeitung. © S.A.R.L. Martin/IT Research März 2013 12 Inhalt Strategic Bulletin: Analytische Datenbanken • Doch es gibt Ausnahmen: Oracle Exadata, Kognitio WX2 und SAP HANA eignen sich sowohl für hoch-performante analytische als auch transaktionsorientierte Aufgaben, in dem sie gute Kompromisse bieten, um Brewers CAP-Theorem in seiner rigorosen Form zu „umgehen“ und den praktischen Anforderungen im operativen Unternehmensbetrieb befriedigende Lösungen zu bieten. Insbesondere SAP HANA bietet hier zukünftig ein großes Potenzial. Bei SAP HANA ist allerdings der Performance-Gewinn in der Transaktionsverarbeitung deutlich geringer, denn in der Transaktionsverarbeitung braucht man ein Select auf den Einzelsatz. Der Einzelsatzzugriff wird durch die von SAP HANA verwendeten Methoden aber kaum beschleunigt. Sie zeigen erst beim Select auf Gruppen die bekannten hohen Performance-Gewinne. 3.2 NoSQL-Technologien NoSQL-Datenhaltungssysteme werden heute vielfach im Kontext von Big Data diskutiert. Sie fokussieren auf der Haltung und Verarbeitung poly-strukturierter Daten und ergänzen so das traditionelle relationale Datenmodell, das im Wesentlichen für strukturierte Daten entworfen wurde. Das bedeutet im Endeffekt, dass die relationale Algebra keinen Alleinstellungsanspruch als „einziges“ Datenhaltungsmodell mehr hat. Genauso wie verschiedene Methoden analytischer Datenbanken nicht neu sind, sind auch verschiedene NoSQL-Ansätze schon seit zum Teil langer Zeit im Einsatz, gewinnen aber erst jetzt im Big Data neue Aufmerksamkeit und Anwendung. NoSQL-Datenhaltungssysteme lassen sich wie folgt klassifizieren (Abb. 2): Daten-Volumen NoSQL-Datenhaltungssysteme Casandra Couchbase Hadoop HBase SAP Sybase IQ Mongo DB Couchbase 2.0 Key Value Spaltenorientiert Neo4j Dokumentenorientiert InterSystems Graph Objektorientiert relational Daten-Komplexität Eine relationale Algebra löst nicht alle Datenprobleme. © S.A.R.L. Martin 2013 Abbildung 2: Klassifikation von NoSQL-Datenbanken und Positionierung anhand von Daten-Volumen und DatenKomplexität. Das ergibt einen guten Anhaltspunkt, welche NoSQL-Technologie zu welchen fachlichen Anforderungen passt. Die genannten Produkte stellen (typische) Beispiele dar. Eine detaillierte Aufstellung von spaltenorientierten Datenhaltungssystemen, die ja zu den analytischen Datenbanken gehören, befindet sich in Kap. 4.1. © S.A.R.L. Martin/IT Research März 2013 13 Inhalt Strategic Bulletin: Analytische Datenbanken Objektorientierte Datenbanken. In den 90er Jahren boten sie bereits Alternativen zum relationalen Modell. Sie hatten einen grundlegenden Ansatz, der in allen heutigen NoSQL-Datenhaltungssystemen zu finden ist. Sie sind schemafrei und setzen auf alternative Techniken, um festzulegen, wie Daten gespeichert werden. Dazu kommt der Einsatz anderer Protokolle als SQL für die Kommunikation zwischen Anwendung und Datenhaltungssysteme. Ähnlich wie bei den analytischen Datenbanken ist die Architektur vieler NoSQL-Datenbanken auf Skalierbarkeit ausgelegt: Die Verarbeitung und Verwaltung großer Datenbestände erfolgt verteilt mittels Cluster aus Standardsystemen. Graphen-Datenbanken (oder: Entity-Relationship-Datenbanken). Sie basieren auf der Darstellung von Daten als Knotenpunkte (Entitäten) und Beziehungen (Relationen) zwischen den Knoten. Statt traditioneller Datensätze erstellt man hier Knoten, die durch die Beziehungen, die man zwischen ihnen definiert, miteinander verknüpft werden. Dabei wird Information zu den Knoten und ihren Beziehungen als Eigenschaften (Attribute) gespeichert. Graphen-Datenbanken haben insbesondere Vorteile, wenn wie bei (sozialen) Netzen die Beziehungen zueinander im Mittelpunkt stehen, man also Netze abbilden will. Graphen-Datenbanken gehen auf Entwicklungen im Computer Aided Software Enginering (CASE) der späten 80er Jahre zurück. Dokumentenorientierte Datenbanken speichern „Texte“ von beliebiger Länge mit poly-strukturierter Information und ermöglichen das Suchen auf Basis von Dokumentinhalten. Die gespeicherten Dokumente müssen nicht die gleichen Felder enthalten. XML-Datenbanken sind dokumentorientierte Datenbanken mit semi-strukturierten Daten. Spaltenorientierte Datenbanken. Sie gehören gemäß der hier benutzten Klassifikation in die Klasse der analytischen Datenbanken, was zeigt, dass analytische und NoSQL-Datenhaltungssysteme sich nicht disjunkt zueinander verhalten: Es gibt eben analytische Datenbanksysteme, die immer noch auf dem relationalen Modell basieren, als auch solche, die spalten-orientiert, also NoSQL sind. Key-Value-Datenbanken. Hier weist ein Schlüssel auf einen Wert, der in seiner einfachsten Form eine beliebige Zeichenkette sein kann. Key-Value-Datenbanken sind auch nicht neu. Sie sind als traditionelle Embedded-Datenbanken wie dbm, gdbm und Berkley DB in der Unix-Welt bekannt geworden. Key-Value-Datenbanken arbeiten entweder als In-Memory-System oder als On-Disk-Version. Sie sind besonders zum schnellen Suchen geeignet. Hadoop ist dabei, einen Standard der Zukunft in Big Data-Datenhaltung und Daten-Management zu setzen. Es ist ein Apache Software Foundation Open Source-Entwicklungsprojekt. Es arbeitet wie ein Daten-Betriebssystem und besteht aus drei Komponenten: • der Speicherschicht HDFS (Hadoop Distributed File System), • der von Google vorgeschlagenen Programmierumgebung MapReduce zur parallelen Verarbeitung von Abfragen, • einer Funktionsbibliothek. Zu Hadoop gehört auch die HBase, ein skalierbares, analytisches Datenhaltungssystem zur Verwaltung sehr großer Datenmengen innerhalb eines Hadoop-Clusters. Die HBase ist eine Open Source-Implementierung der Google BigTable. Die Speicherschicht HDFS speichert in der Standardeinstellung Daten in 64MB Blöcken, was paralleles Verarbeiten unterstützt und exzellent zum Lesen großer Datenmengen geeignet ist. Der Nachteil ist, dass eine solche Verarbeitung naturgemäß Batch-orientiert ist und sich deshalb nicht für Transaktionsverarbeitung oder Echtzeitanalysen eignet. HDFS hat schließlich eingebaute Redundanz. Es ist designt, um über hunderte oder tausende von preiswerten Servern zu laufen, von denen man annehmen kann, dass immer wieder einige ausfallen. Daher wird in der Hadoop-Standardeinstellung jeder Datenblock dreimal gespeichert. Neue Daten werden zudem immer angehängt, niemals eingefügt („no insert“). Das erhöht die Geschwindigkeit des Speicherns und Lesens von Daten und erhöht auch die Zuverlässigkeit der Systeme. MapReduce (MR) wurde von Google in seiner spaltenorientierten BigTable implementiert, die auf dem Google File-System basiert. Es ist eine Programmier-Umgebung zur Parallelisierung von Abfragen, die die Verarbeitung © S.A.R.L. Martin/IT Research März 2013 14 Inhalt Strategic Bulletin: Analytische Datenbanken großer Datenmengen deutlich beschleunigt. MR ist keine Programmier- oder Abfragesprache. Die Programmierung innerhalb von MR kann in verschiedenen Sprachen wie Java, C++, Perl, Python, Ruby oder R erfolgen. MR Programm-Bibliotheken können nicht nur HDFS, sondern auch andere Datei- und Datenbanksysteme unterstützen. In einigen analytischen Datenbank-Systemen werden MR Programme als in-database analytische Funktionen unterstützt, die in SQL-Befehlen benutzt werden können. MapReduce ist allerdings nur im Batch einsetzbar, nicht in Echtzeit-Verarbeitung, also auch nicht interaktiv. Dazu kommen noch einige Ergänzungen wie die HLQL (high level query languages) Hive, Pig und JAQL. Hive ist eine Data Warehouse-Umgebung, die auf einer Entwicklung von Facebook beruht. Zu Hive gehört die HLQL „QL“, die auf SQL beruht. Da es für die Hadoop-Programmierumgebung MapReduce noch nicht sehr viele Ressourcen gibt, die damit umgehen können, sind HLQLs wie QL sehr willkommen, da sie den Entwicklern die Verwendung einer SQL-ähnlichen Syntax erlauben. Eine andere HLQL ist Pig, eine prozedurale Sprache. Mit Hilfe von Pig sind parallele Ausführungen komplexer Analysen einfacher als mit MapReduce nachvollziehbar und durchführbar. Darüber hinaus bietet Pig auch im Gegensatz zu MapReduce eine automatisierte Optimierung komplexer Rechenoperationen. Pig ist auch offen und lässt sich durch eigene Funktionalitäten ergänzen. Zum Managen von HadoopAnwendungen dienen Chukwa, das die Echtzeitüberwachung sehr großer verteilter Systeme ermöglicht, und ZooKeeper, das zur Konfiguration von verteilten Systemen dient. Achtung. Obwohl Hadoop auf Technologien und Konzepten beruht, die von Big Data-Unternehmen wir Facebook und Google stammen, so ist doch heute noch sehr deutlich zu sagen, dass diese Technologien noch sehr jung und auch unausgereift sind. Daraus folgt, dass der Einsatz solcher Technologien ausgewiesene und am Markt nur schwer zu findende Mitarbeiter benötigt. Dazu kommt, dass viel Funktionalität noch in Eigenentwicklung zu leisten ist. 3.3 Analytik – Online versus Offline Analytik lässt sich online und offline einsetzen. Offline-Analytik meint die Analyse einer statischen Datenmenge, Online-Analytik die Analyse einer dynamischen Datenmenge. Das beste Beispiel für Offline-Analytik ist das Data Warehouse. Daten werden hier aus operativen Prozessen mittels ETL-Prozessen vorverarbeitet und in einer Data Warehouse-Umgebung für analytische Adhoc-Abfragen oder analytische Anwendungen wie Berichte, Dashboards, Briefing Books, Data Mining etc. bereitgestellt. Hier lassen sich analytische Datenbanken bestens als Data Warehouse-Datenbank einsetzen. Man gewinnt so eine erhebliche Performance-Steigerung um Faktoren, die in der Regel zweistellig sind, aber unter bestimmten Bedingungen sogar dreistellig sein können: Man spricht auch von Analytik in Echtzeit. Hier kommen jetzt die im Kapitel 3.1 genannten Vorteile voll zum Tragen. Heute können solche Data Warehouse-Umgebungen erweitert werden, um Offline Big Data-Analytik zu unterstützen. Die Abbildung 3 zeigt eine solche Architektur, die einerseits einer existierenden Data Warehouse-Umgebung Investitionsschutz gibt und andererseits zeigt, wie Big Data-Analytik und existierende BI-Landschaften miteinander verknüpft werden können. Heutige Implementierungen einer solchen Offline Big Data-Analytik verwenden in der Regel zwei unterschiedliche Datenbank-Typen. Das Data Warehouse sitzt entweder immer noch auf traditionellen relationalen Datenbanken oder inzwischen auf einer analytischen Datenbank, während man vielfach, auch aus Kostengründen, zu einer Open Source NoSQL-Datenhaltung (wie Cassandra, Hadoop, MongoDB etc.) für das Managen von Big Data setzt. Zukünftig mit fortschreitender Reife von solchen NoSQL-Technologien wird man das heute physikalisch instanziierte Data Warehouse nur noch als logisches (virtuelles) Data Warehouse betreiben wollen. Es ist dann im Sinne von Datenvirtualisierung eine View auf das NoSQL-Datenhaltungssystem. © S.A.R.L. Martin/IT Research März 2013 15 Inhalt Strategic Bulletin: Analytische Datenbanken Big Data-Analytik: Architektur recherchieren/ identifizieren Datenanalyse Analytische Applikationen & Services NoSQL oder analytisches DBMS polystrukturierte Daten modellierte Daten gefilterte Daten analytische Ergebnisse Big Data DatenIntegration Datenarchivierung, Filterung, Transformation Datenanalyse strukturierte Daten ETL/ELT Enterprise Data Warehouse Analytische Applikationen & Services externe und Unternehmensdaten nach Colin White © S.A.R.L. Martin 2013 Abbildung 3: In der Offline Big Data-Analytik wird die traditionelle Data Warehouse-Architektur um die Analyse poly-strukturierter Daten ergänzt. Ein analytisches oder NoSQL-Datenhaltungssystem (beispielsweise Hadoop) wird mit den zu einer Problemlösung relevanten Daten aus dem Big Data und aus dem Enterprise Data Warehouse versorgt. Dann kann man dort recherchieren, identifizieren und analysieren. Analytische Ergebnisse und Daten, die für weitere Analysen in Frage kommen, werden gefiltert und ins Enterprise Data Warehouse zurückgeschrieben. So wird auch die traditionelle Datenanalyse durch Big Data Information angereichert. Hinzu kommt nach der Problemlösung die Datenarchivierung mittels Datenintegration inklusive möglicherweise anfallender Datenfilterung und -Transformation. Online-Analytik wird zur Steuerung operativer Prozesse in Echtzeit eingesetzt. Das Ziel ist, proaktiv mittels operativer Kennzahlen Unternehmen und Prozesse zu überwachen und zu steuern. Ein Beispiel gibt hier der Abgleich des Produktangebotes in einem Web-Shop mit der Produktverfügbarkeit. Die Produktverfügbarkeit ist eine operative Kennzahl, die den Bestand von Produkten an Hand der Verkaufs- und Lieferungs-Transaktionen misst. Die Produktverfügbarkeit ist also mit den Transaktionen synchronisiert. Sinkt nun die Produktverfügbarkeit unter einen vordefinierten Schwellenwert, so kann ein Alarm ausgelöst werden. Ein solcher Alarm könnte eine Nachlieferung automatisch auslösen. Ist eine Nachlieferung nicht möglich, dann könnte man das Produkt aus dem Katalog des Web-Shops herausnehmen oder sperren, so dass Kunden das Produkt nicht mehr bestellen können. Damit ist proaktiv sichergestellt, dass Kundenaufträge nicht storniert werden müssen, Kundenfrust wird vermieden und das Risiko eines Ausverkaufs wird minimiert. Zusätzlich könnte man auch noch automatisch einen Vermerk in den Web-Shop stellen, wann das Produkt wieder lieferbar wäre. Diese Kennzahl ist eine operative Steuerungsinformation, die mittels Online-Analytik in jeder Prozess-Instanz in Echtzeit ermittelt und genutzt wird. Basierend auf dem im Beispiel diskutierten Konzept kann man jetzt auch „Echtzeit“ definieren. Definition: Echtzeit im Business bedeutet die richtige Information zum richtigen Zeitpunkt am richtigen Ort zum richtigen Zweck verfügbar zu haben. © S.A.R.L. Martin/IT Research März 2013 16 Inhalt Strategic Bulletin: Analytische Datenbanken Die „Echtzeit“-Forderung im Business hat also nichts mit der Uhrzeit zu tun. Was für „Echtzeit“ entscheidend ist, ist die Verfügbarkeit von Information in der Geschwindigkeit, mit der sie benötigt wird. Monatliche, wöchentliche oder tägliche Informationsbereitstellung kann also durchaus „Echtzeit“ sein, wenn der zugrundeliegende Prozess entsprechend langsam abläuft (Beispiel: Fahrplan-Information bei Buchung versus Verspätungs-Information bei der Reise). In diesem Sinne bedeutet „Echtzeit“ nichts anderes als „Rechtzeitigkeit“. Das Beispiel zeigt weiter, dass Analytik nicht nur diagnostische Aufgaben hat wie früher in der traditionellen Business Intelligence, sondern insbesondere auch vorausschauenden Charakter im Sinne von Vorhersage („predictive analytics“) haben. Mittels Online-Analytik erhalten Prozesse die Fähigkeit, proaktiv und korrektiv zu agieren: Probleme und Risiken werden rechtzeitig erkannt und behandelt bevor Schäden auftreten. Das ist Geschäftssteuerung durch Echtzeit-Control basierend auf Analytik. (Abb. 4) Alles geschieht „voll“ automatisch, also ohne manuelle Eingriffe von Produktmanagern oder anderen am Prozess Beteiligten. So spart man Zeit, Ressourcen und Kosten. Echtzeitanalytik: Architektur Geschäftsprozess Sensoren Zusammengesetzter Service analytische, kollaborative & TransaktionsServices Datenvirtualisierung Events & Sensoren Operative Daten Files, XML, Spreadsheets externe Daten Data Warehouse Big Data Einbettung von Echtzeitanalytik. © S.A.R.L. Martin 2013 Abbildung 4: Online- oder Echtzeitanalytik dient der Prozesssteuerung und Automation. Sie wird erreicht durch die Einbettung von Analytik mittels Services in die Geschäftsprozesse. Die Analytik bedient sich aus unterschiedlichen Datenquellen mittels Datenvirtualisierung. So erreicht man eine Nulllatenzlösung. Die Ereignis- und Sensordaten stammen dabei nicht notwendigerweise allein aus dem Prozess, in den Analytik eingebettet wird, sondern in der Regel aus verschiedenen Prozessen und anderen Beobachtern, die die Außenwelt des Prozesses messen. Die Einbeziehung des Data Warehouses zeigt die Verknüpfung von Offline-Analytik und Online-Analytik. Die Anbindung von Big Data an das Data Warehouse entspricht der Big Data-Analytik von Abbildung 3. Die Ideen zu Online-Analytik stammen aus der Kontrolltheorie: Genauso wie man eine Raumtemperatur über einen geschlossenen Regelkreis überwachen und steuern kann, so will man jetzt Geschäftsprozesse auch operativ überwachen und steuern. Die Überwachung und Steuerung von operativen Systemen wird durch das Echtzeitprinzip ermöglicht: Es geht darum, die richtige Information zur richtigen Zeit am richtigen Ort für den richtigen Zweck © S.A.R.L. Martin/IT Research März 2013 17 Inhalt Strategic Bulletin: Analytische Datenbanken zur Verfügung zu haben. In der Online-Analytik wird also Information als Bringschuld behandelt, i. e. eine eingehende oder entstehende Information wird im Augenblick des Entstehens an alle registrierten Informationsverbraucher propagiert. Im traditionellen Data Warehouse Modell (Offline-Analytik) war dagegen Information eine Holschuld. Der Informationsverbraucher war dafür verantwortlich, sich seine Information selbst abzuholen. Die Technologien zur Online-Analytik arbeiten nach dem Prinzip einer Service-Orientierung. Wird ein Online-Analytik-Service gestartet, so werden im ersten Schritt die notwendigen Daten mittels Datenvirtualisierung bereitgestellt. Datenvirtualisierung meint den virtualisierten (logischen) Zugriff auf Daten aus unterschiedlichen Datenquellen mittels einer Abstraktionsebene, wobei der Zugriff auf Daten zentralisiert wird, ohne die Notwendigkeit die Daten zu replizieren bzw. zu duplizieren. Sie erlaubt beispielsweise relationale JOINs in einer logischen View. Die Ergebnis-Mengen werden als Information Services bei Benutzeranforderung bereitgestellt. Das ist dann besonders elegant und performant, wenn analytische und transaktionelle Daten sich in einer In-Memory-Datenbank befinden (was seit kurzem SAP HANA erlaubt). Im zweiten Schritt werden die definierten analytischen Operationen ausgeführt, die auch mit weiteren Services kombiniert werden können. Im dritten Schritt erfolgt dann die Anwendung des analytischen Ergebnisses im Kontext des Geschäftsprozesses (Abb. 4). Wesentlich ist natürlich, dass diese drei Schritte schneller ausgeführt werden können als die im Kontext des Prozesses gegebene Latenzzeit. Beispiel: Kaufempfehlungen im Rahmen von Kundeninteraktionen in einem Webshop sollen die Kunden begeistern. Sie müssen also „sofort“ (im Unter-Sekundenbereich) ausgesprochen werden können. Hier gilt es beispielsweise Data Warehouse-Daten zur Kunden-/Produkt-Profitabilität und zur Kundeneinstellung gewissen Produkten gegenüber (mittels Meinungsanalysen aus Big Data gewonnen) mit den Transaktionsdaten (Was liegt schon im Warenkorb?) und dem aktuellen Web-Klickstrom-Daten (Wie hat der Kunde aktuell im Webshop navigiert?) zu kombinieren, auszuwerten und mittels einer Regelmaschine eine Empfehlung auszusprechen. Wichtig ist es dann zu messen, ob die Empfehlung angenommen oder abgelehnt wurde. So bekommt man nicht nur eine Erfolgskontrolle, sondern kann auch eine lernende Komponente ins System einführen. 3.4 Big Data: Datenstrukturen und Latenz Analysen von Big Data lassen sich schließlich an Hand unterschiedlicher Datenstrukturen und Latenzanforderungen klassifizieren. Abbildung 5 visualisiert diese Klassifikation mittels der beiden Dimensionen Komplexität der Datenstrukturen und Verarbeitung in Batch (offline) oder Echtzeit (online). “Echtzeit” kann unterschiedliche Bedeutungen haben: Sie bezieht sich entweder auf Niedriglatenz-Zugriff auf bereits gespeicherte Daten oder auf die Verarbeitung und das Abfragen von Datenströmen mit Nulllatenz. Schauen wir uns die vier Quadranten der Abbildung 5 etwas genauer an: • Batch und hoch-strukturiert. Lösungen basieren hier auf einer massiv-parallelen Architektur und einer hochskalierbaren, virtuellen Infrastruktur. Ein solcher Ansatz reduziert deutlich die Speicherkosten und verbessert in hohem Maße die Verarbeitungs-Effizienz traditioneller Data Warehouses. Führende Anbieter sind hier Oracle mit Exadata, IBM mit Netezza und Teradata. • Echtzeit und hoch-strukturiert. Lösungen fokussieren hier auf analytischer Echtzeitverarbeitung und Data Mining-Ansätzen für prädiktive Analysen. Wenn es „nur“ um schnelle Analysen („Analyse in Echtzeit“) geht, dann sind analytische NoSQL-Datenhaltungssysteme gut geeignet. Wenn es aber um „Echtzeitanalytik“ geht, dann sind In-Memory-Datenbanken die Lösung, da sie analytische und Transaktions-Daten gemeinsam im Hauptspeicher statt auf Platten verwalten. Sie gewinnen zudem an Geschwindigkeit durch eine drastische Reduzierung der Eingabe-/Ausgabe-Zeiten beim Datenzugriff und bieten eine besser abschätzbare Performance als platten-basierte Datenbanken. Führende Anbieter sind einerseits SAP mit Sybase IQ und Teradata mit Aster und andererseits Oracle mit TimesTen und SAP mit HANA. © S.A.R.L. Martin/IT Research März 2013 18 Inhalt Strategic Bulletin: Analytische Datenbanken massiv parallele Data Warehouses (IBM Netezza, Teradata) hoch strukturiert Big Data: Strukturen und Latenz Analytische NoSQL DB (Aster, SAP Sybase IQ) verteilte Dateisysteme (Hadoop) Echtzeit (online) poly-strukturiert Batch (offline) In-Memory Datenbanken (Oracle x10, SAP HANA) NoSQL: Graph DB, OODB (Neo4J, InterSystems) DatenstromVerarbeitung (HStreaming, Streambase) Klassifikation von Big Data-Anbietern nach Datenstruktur- und Latenzanforderungen nach Forrester © S.A.R.L. Martin 2013 Abbildung 5: Big Data klassifiziert nach Datenstrukturen (hoch strukturiert und poly-strukturiert) und Latenzanforderungen (Batch und Echtzeit). Die genannten Anbieter stehen stellvertretend für ihre Klasse. Mehr zur Klassifizierung von analytischen Datenbanken befindet sich in Kapitel 4.1. • Batch und poly-strukturiert. Lösungen basieren hier auf einer Software-Struktur, die typischerweise ein verteiltes Datei-System, eine Verarbeitungsmaschine für große Mengen von Rohdaten und Anwendungen zum Managen der Software-Struktur enthalten. Ein prominentes Beispiel hierzu ist Hadoop. • Echtzeit und poly-strukturiert. Geht es wieder um Analytik in Echtzeit, dann sind NoSQL-Technologien wie graphische und objekt-orientierte Datenhaltungssysteme gut geeignet. Die Basis für Lösungen in Echtzeitanalytik ist hier Event Stream Processing, um multiple Ereignisströme zu verarbeiten und bedeutungsvolle Einsichten zu geben. Die Aufgabe ist die Erkennung komplexer Muster in mehreren Ereignissen, Ereignis-Korrelierung und -Abstraktion, also Complex Event Processing. Führende Anbieter sind hier Cassandra, HStreaming, Streambase und Splunk. 3.5 Information Management im Big Data Information Management im Big Data bedeutet neue Herausforderungen. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information Management zunächst entsprechend fort: Datenintegration, Stamm- und Meta-Daten-Management und Datenqualitäts-Management. Eine Auflistung der entsprechenden Anbieter finden Sie in Kapitel 4.2. Datenintegration. Bei der Big Data-Integration werden zunächst einmal die traditionellen DatenintegrationsTechnologien wie ETL- und ELT-Prozesse und Echtzeit-Verarbeitung (change data capture, event triggering, Services) weiter genutzt. Aber es gibt auch einige weitere Anforderungen. Man braucht jetzt Konnektoren für alle Arten von analytischen und NoSQL-Datenbanken. Das setzt sich mit der Nutzung von Konstrukten zur Beschleu- © S.A.R.L. Martin/IT Research März 2013 19 Inhalt Strategic Bulletin: Analytische Datenbanken nigung von Integrationsprozessen fort: Basierend auf MapReduce gibt es eine schnelle und leistungsfähige Flat-FileVerarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer Funktionen. Beispiel hierzu ist das FileScale-Verfahren von Talend. Alternativ kann man hier aber auch auf alte und sehr bewährte Hochleistungs-Extrakt-Technologien wie DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data „wiederentdeckt“ werden und inzwischen auch Schnittstellen zu Hadoop haben. Eine weitere Herausforderung ist Datenintegration im Rahmen von Echtzeit-Analytik. Wir brauchen Informationsund Datenservices, die simultan Daten aus dem Data Warehouse und operativen Systemen mittels einer Datenintegrationsplattform bereitstellen. Selbst wenn es heute durch In-Memory-Datenbanken bereits möglich ist, ERP, CRM, SCM und andere Systeme auf gemeinsamen analytischen und Transaktions-Daten zu betreiben, werden wir in Zukunft weiterhin Datenintegrationsplattformen brauchen, da es außerhalb dieser Systeme ein großes Kontinuum weiterer Daten gibt, das es zu nutzen gilt. In der Vergangenheit hat man versucht, dieses zeitkritische Datenzugriffsproblem mit physischer (oder materialisierter) Datenintegration zu lösen. Die Daten werden mittels der ETL-Prozesse in das Zielmodell transformiert und in eine zentrale Datenbank kopiert, wo sie dann für rein lesende Verarbeitungen, beispielsweise Performance Management und Analytik zur Verfügung stehen. Heute nutzt man mehr und mehr Datenvirtualisierung, bei der die Integration erst bei einem Datenzugriff stattfindet. Kern ist ein logisches Datenmodell (kanonisches Schema). Es stellt einerseits die Schnittstelle zu den Quelldaten und deren Datenmodellen dar und bietet andererseits zugreifenden Services mittels Informations-Services eine integrierte globale sowohl lesende wie auch schreibende Schnittstelle zu den virtualisierten Daten. Datenvirtualisierung bedeutet auch, dass man alle Daten nur einmal hält und so redundante Datenhaltung vermeidet. Das ist im Big Data besonders wichtig, da man ja sowieso mit hohen Datenvolumen kämpfen muss. Durch Datenvirtualisierung lässt man alle Daten da wo sie sind: Man hält sie nur einmal. Datenvirtualisierung basiert also auf einer Abstraktion von Ort, Speicher, Schnittstelle und Zugriff. So werden relationale JOINs und andere Operationen in einer logischen View ermöglicht. Die Ergebnis-Mengen werden als Views oder Informations-Services bei Benutzeranforderung bereitgestellt. In solche Informations-Services lassen sich weitere Services zur Datenaufbereitung oder Anreicherung integrieren, beispielsweise Datenqualität-Services zu Gültigkeitsprüfungen. Datenvirtualisierung heute ist eine Weiterentwicklung der „data federation“, auch Enterprise Information Integration (EII) genannt. Datenvirtualisierung ist für Echtzeit-Analytik bestens geeignet und erlaubt eine Nulllatenz-Datenintegration, i.e. die Analytik arbeitet synchron mit den Transaktionsdaten. Eine solche Lösung war bisher wegen der PerformanzAnforderungen an die notwendige Netzwerk- und Hardware-Infrastruktur aber eine teure Lösung. Heute bietet In Memory-Verarbeitung interessante und preiswertere Alternativen. Datenintegration beschränkte sich bisher auf die Aufgabe, im Unternehmen vorhandene Daten zu integrieren, Adress- und Geo-Daten hinzuzukaufen und mit Attributen aus im Markt angebotenen Daten wie demo- und soziogeographischen Daten anzureichern. Das lässt sich mit den beschriebenen Methoden und Technologien machen. Heute im Zeitalter von Big Data kommt eine weitere Aufgabe auf die Datenintegration zu: Das Anreichern von Daten durch Social Media-Daten. Hier hat man jetzt die Aufgabe, die Kundendaten im Unternehmen mit den entsprechenden Daten aus den Social Media zusammenzuführen, denn Personen in den Social Media nennen sich teilweise anders, sind anonym oder benutzen falsche Identitäten. Ein solches Problem der „Identity Resolution“ hatte man auch schon in gewissem Umfang bei Adressdaten, wenn es um die Dublettenbereinigung ging. Jetzt ist das Problem im Big Data entsprechend schwieriger, denn wir haben es mit unterschiedlichen Social Media, unterschiedlichen Sprachen, mit unterschiedlichen Schrifttypen und deren unterschiedlichen Transkriptionen zu tun. Die Aufgabe ist es, ein „soziales Profil“ eines Kunden aufzustellen und mit dem Unternehmensprofil des Kunden abzugleichen. Das schafft man mit den Methoden und Technologien der sogenannten „Entity Identity Resolution“. Vor der Extraktion von Datenquellen im Web kommt noch das Identifizieren von relevanten Datenquellen. Dazu setzt man Suchmaschinen ein, die also inzwischen auch zu Werkzeugen im Information Management werden. Der © S.A.R.L. Martin/IT Research März 2013 20 Inhalt Strategic Bulletin: Analytische Datenbanken Einsatz von Suchmaschinen zur Quellenidentifikation ist heute zumeist ein manuelles Verfahren. Man definiert ein Relevanzmaß, um Quellen bewerten und miteinander vergleichen zu können. Durch Suchmaschinen gefundene Quellen werden dann gemäß dem Relevanzmaß gefiltert, und die identifizierten Quellen stehen dann zur Extraktion zur Verfügung. Stamm- und Meta-Daten-Management. Der Kern von Stamm- und Meta-Daten-Management ist und bleibt ein Repository zur Verwaltung von Metamodellen, Modellen und Metadaten sowie der Verwaltung aller Transformationsregeln. Das Vorgehen im Big Data ist analog, aber hier kommt gleich ein neues Problem, nämlich das der Gewinnung von Metadaten aus dem Big Data. Hier kann mittels Taxonomien per Textanalytik Abhilfe geschaffen werden. Hilfreich ist auch eine Wikifizierung der Daten. Gerade im Big Data kann ein Wiki-Ansatz, der auf der Intelligenz und dem Fleiß von vielen basiert, als Methodik dahin führen, dass Erkenntnisse aus dem Big Data schneller gewonnen werden und mit den anderen geteilt werden. So wie Wikipedia das Wissen der Menschheit in verschiedensten Domänen erschlossen hat, so sollten wiki-ähnliche Ansätze, egal welche Technologien zu Grunde liegen, das Wissen aus dem Unternehmen und aus seinem Ökosystem (Intranet und Internet) erschließen. Schließlich werden alle Objekte der Datenintegrations-Plattform im Big Data-Repository abgebildet, damit sie vom Ursprung bis zum Ziel über den gesamten Informationslebenszyklus verfolgt werden können und bei Änderungen so weit wie möglich auch alle betroffenen Objekte gleich mit geändert werden. Ein Big Data-Repository muss also in diesem Sinne aktiv sein und wie eine CMDB (configuration management database) arbeiten. Das ist im Big Data wichtiger denn je, denn sonst verliert man schnell den Überblick über die Menge an Metadaten und Vielzahl an Modellen. Idealerweise sollte deshalb ein Big Data-Repository Modelle wie das OMG M3-Modell unterstützen, also alles zusammen genommen, eine Ontologie verwalten können. Das zeigt, dass das Repository im Big Data noch wichtiger als bisher wird. Es kommt jetzt auch noch auf die Performanz an, die mit der Repository-Technologie erreicht werden kann. Viele Repository-Technologien basieren immer noch auf relationalen Datenbanken. Aufgrund der Vernetzung der Objekte in einem Repository sind aber zur Implementierung Graphen- und objekt-orientierte Datenbanken in der Regel besser geeignet, da sie nicht nur das physikalische Datenbankmodell vereinfachen, sondern auch eine höhere Performance bieten. Weitere Performance gewinnt man durch Parallelisierung der Verarbeitung. Hier bieten jetzt auch In-Memory-Datenbanken als Infrastruktur eines Big Data-Repositorys eine interessante Lösung. Wir betreten hier aber definitiv Neuland! Big Data Quality. Datenqualität spielt auch im Big Data weiterhin die große Rolle, vor allem dann, wenn Unternehmensdaten mit Information aus dem Big Data angereichert werden sollen, also beispielsweise Kundendaten durch Daten aus den sozialen Medien oder Patientendaten mit therapeutischen Daten im Gesundheitswesen. Die Grundaufgaben von Data Quality Management bleiben die gleichen. Es geht wie immer um das Profiling, das Cleansing und das Anreichern und Abgleichen mit Referenzdaten. Neu dazu kommt die schon genannte Entity Identity Resolution, um ein fehler-tolerantes Anreichern von Daten durch Social Media- und andere Web-Daten zu erlauben. Deutlich an Bedeutung im Big Data gewinnt Geocodierung Zunächst einmal ist es eine zusätzliche Methode im Datenqualitäts-Management: Eine Geocodierung wirkt wie ein zusätzliches Profiling und identifiziert Fehler in Adressdaten. Daher empfiehlt es sich, Geocodierungs- und Datenqualitäts-Management-Services gleichzeitig einzusetzen. So schafft man Adressdaten mit höchster Datenqualität. Am besten baut man Geocodierungs-Services in Echtzeit gleich in die Datenerfassung ein. Geocodierung hat zwei Komponenten, zum einen die Codierung von Adressdaten und zum anderen die Codierung von IP-Adressen. Letztere ist entscheidend, um im mobilen Internet Nutzer räumlich identifizieren zu können. Mit Hilfe von Lokalisierungs- und Navigationsdaten lässt sich Information nicht nur in einen zeitlichen Kontext stellen („Echtzeit-Information“), sondern auch in einen zeitlich-räumlichen Kontext. Jetzt kann man beispielsweise mit Kunden cross-medial interagieren: die virtuelle und die reale Welt verschmelzen. So wird Kundenwissen in den Zeit/Raum-Kontext gestellt und schafft Innovation in der Kundenkommunikation. © S.A.R.L. Martin/IT Research März 2013 21 Inhalt Strategic Bulletin: Analytische Datenbanken Fazit Kapitel 3: Analytische Datenbanken fokussieren auf schnelles Lesen von Daten. So wird Information flexibler verfügbar und steht bis zu 1.000mal und schneller zur Verfügung. • Schnelles Lesen von Daten erreicht man durch Kombination verschiedener Methoden und Technologien wie Spalten-Orientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung und Bündelung von Hardund Software. Mit analytischen Datenbanken erreicht man Analytik in Echtzeit: Analysen werden machbar, die früher nicht machbar waren. NoSQL-Datenhaltungssysteme lassen sich nach Datenvolumen und Datenkomplexität klassifizieren. Das gibt einen guten Ansatz zu entscheiden, welche fachlichen Anforderungen an Analytik welche NoSQL-Datenhaltungssysteme brauchen. • Analytische Datenbanken können SQL- oder NoSQL-Datenhaltungssysteme sein. Echtzeitanalytik dient der Prozesssteuerung und Automation. Sie wird durch In-Memory-Verarbeitung erreicht. Sie erlaubt Prozessinnovationen und innovative neue Prozesse. Im Big Data-Management kommt es auf die Performance besonders an: Alle Werkzeuge, Services und Plattformen müssen entsprechend skalierbar sein. Dazu kommen die Anforderungen der neuen Methoden von Hadoop und anderen NoSQL-Ansätzen: Konnektoren und neue Verarbeitungsmethoden in Datenintegration, Stamm- und Meta-Daten-Management und Datenqualitäts-Management. © S.A.R.L. Martin/IT Research März 2013 22 Inhalt Strategic Bulletin: Analytische Datenbanken 4. Analytische Datenbanken: Roadmap 4.1 Klassifikation der Anbieter von analytischen Datenbanken Analytische Datenbanken lassen sich anhand der eingesetzten Speichertypen, Datenstrukturen und Bereitstellungsmodelle klassifizieren (Abb. 6) Klassifikation analytischer Datenbanken Bereitstellungsmodell Software On Premise Appliance Cloud relational Datenstrukturen Speicherung Analytische Datenbanken/ Plattformen In-Memory Platten-basiert NoSQL Hybrid © S.A.R.L. Martin 2013 Abbildung 6: Klassifikation analytischer Datenbanken über Speichermethoden, Datenstrukturen und IT-Bereitstellungsmodell. Die folgende Auflistung von Anbietern entsprechend der Klassifikation von Abbildung 6 erhebt keinen Anspruch auf Vollständigkeit. Sie fokussiert auf den deutschsprachigen Raum und enthält eine Reihe von lokalen Anbietern. Analytische, relationale MPP-Datenhaltungssysteme: IBM DB2 (InfoSphere Warehouse), IBM Smart Analytics System, IBM Netezza, Kognitio, SAS Scalable Performance Data Server (mit SAS Grid Computing und SAS In-Memory-Analytics), Teradata, XtremeData. Open Source: Actian VectorWise, EMC/Greenplum, VoltDB. Analytische, NoSQL-Datenhaltungssysteme (ohne In-Memory-Datenverarbeitung): Amazon DynamoDB, Illuminate, HP/Vertica, Kx Systems, Sand Analytics, SAP Sybase IQ, Teradata/AsterData, Vectornova. Open Source: Apache Cassandra, Apache Hadoop HBase, InfoBright, MongoDB. Analytische, NoSQL-Datenhaltungssysteme (mit In-Memory-Datenverarbeitung): 1010Data, Amazon Redshift, Exasol, IBM Smart Analytics Optimizer, ParAccel, SAP HANA Spezielle Datenhaltungssysteme (Technologie in Klammern): Actian/Versant (OODB), CrossZSolutions (QueryObject System), Drawn-to-Scale (Big Data Platform auf Hadoop), dimensio informatics (minimal-invasives Performance-Tuning), HPCC Systems (Big Data Framework à la Hadoop), InterSystems (OODB), Oracle Exadata Database Machine (Data Appliance mit Massive Parallel Grid), Oracle Exalytics In-Memory Machine (Spezialtechnologie für CEP), Panoratio (Database Images), Spire (Big Data operational SQL DB) © S.A.R.L. Martin/IT Research März 2013 23 Inhalt Strategic Bulletin: Analytische Datenbanken Hadoop-Distributoren: Amazon Elastic MapReduce, Cloudera, Hortonworks, IBM Infosphere BigInsights, Intel Apache Hadoop Distribution, MapR Technologies, Pivotal HD, Talend Platform for Big Data, VMWare (HVE, Serengeti) Zum Schluss dieser Aufstellung notieren wir noch führende Anbieter von „Data Warehouse as a Service“, also Cloud-Lösungen für analytische Datenhaltungssysteme und Data Warehouses: 1010Data, Amazon Redshift, ClickFox, Exasol, SAP HANA, Tresata. Fazit: Analytische Datenbanken bringen den Nutzern ganz neue Möglichkeiten, sowohl in der Skalierbarkeit, der Performance als auch in den Betriebskosten. Wer heute komplexe Analysen auf Big Data durch viele Benutzer mit vielen Abfragen ausführt und eine hohe Performance und Skalierbarkeit bei einfacher Wartbarkeit benötigt, sollte analytische Datenbanken auf jeden Fall berücksichtigen. Wir meinen: Eine Evaluation lohnt sich auf jeden Fall. Damit sollte man auf keinen Fall mehr warten! 4.2 Klassifikation der Anbieter von Information Management Die folgende Auflistung von Anbietern erhebt keinen Anspruch auf Vollständigkeit. Sie fokussiert auf den deutschsprachigen Raum und enthält eine Reihe von lokalen Anbietern. Datenintegration – Plattformen • die GROSSEN: IBM, Informatica, Oracle, SAP, SAS Institute/DataFlux • die Herausforderer: Actian/Pervasive, Adeptia, Astera, Attunity, Axway, CA/Inforefiner, Columba Global Systems, Comlab/Ares, Composite Software, DataStreams, DataWatch, Diyotta, ETI, Gamma Soft, HVR Software, Information Builders/iWay Software, Nimaya, Parity Computing, Progress Software, SnapLogic, Software AG, Stone Bond, Tibco, Uniserv, Versata • Open Source: CloverETL, JBOSS Enterprise Middleware, Jitterbit, JumpMind, Talend ETL/ELT: AbInitio, Actian/Pervasive, Astera Software, CA/Advantage Data Transformer, Datarocket, Datawatch, ETL Solutions, IBM, Informatica, Information Builders, iQ4bis, Menta, Microsoft, Open Text, Oracle, Pitney Bowes Software, SAP, SAS, Sesam Software, Software Labs, SQ Data, Syncsort, Theobald Software, Tonbeller AG, Uniserv, Versata Spezielle Werkzeuge zur Planung von DW („pre-ETL“): Wherescape 3D; und zum Managen von DWs: BIReady Open Source: Apatar, The Bee Project, CloverETL, Enhydra Octopus, KETL, Pentaho/Kettle, RapidMiner, Talend Datenqualität: Alteryx, AS Address Solutions, Ataccama, Business Data Quality, Clavis Technology, Datactics, DataMentors, Datanomic, Datras, emagixx, Eprentise Harte Henks, Human Inference, IBM, Informatica, Innovative Systems, Omikron, Oracle, Pervasive, Pitney Bowes Software, Posidex Technologies, Scarus, SAP, SAS, tekko, TIQ Solutions, Uniserv, Versata, X88 Software Open Source: CloverETL, Infosolve Technologies, RapidMiner, SQL Power, Talend © S.A.R.L. Martin/IT Research März 2013 24 Inhalt Strategic Bulletin: Analytische Datenbanken 4.3 Die Datenvielfalt meistern – Gastbeitrag von Datawatch Autor: Patrick Benoit, Regional Director EMEA Central, North and East bei Datawatch Unternehmen, die sich im Rahmen ihrer Big-Data-Projekte nur auf die strukturierten Informationen konzentrieren, erhalten leider nur „mehr vom Gleichen“. Aus gutem Grund besteht die Definition von Big Data nicht aus einem „V“ (Volumen), sondern bekanntlich aus drei „Vs“: Volumen, Velocity (Schnelligkeit) und eben Variety (Vielfalt). Für eine umfängliche Sicht ist potenziell jeder „Datenschnipsel” wertvoll - unabhängig von der Datenquelle und vom Datenformat. Die Auswertung von Reports, ECM-Dokumenten und anderen Dateien mit semi- und unstrukturierten Daten sowie die nachvollziehbare Verbindung unterschiedlichster Datenquellen muss aber nicht komplex und aufwändig sein. Semistrukturierte Daten in gewinnbringende Informationen umwandeln. Viele Unternehmen haben in den letzten Monaten Initiativen gestartet, unstrukturierte Informationen zu erschließen. Beispielsweise werden Daten aus Social Networks, aus Tweets und Foren ausgelesen und in strukturierte Daten überführt, um daraus verwertbare Informationen abzuleiten. Dagegen sind die in gemischten Formaten vorliegenden Daten - also semistrukturierte Daten, die in System-Berichten, EDI-Streams, PDF-Dateien oder Logfiles dokumentiert sind - vielfach noch unerschlossen, obwohl hier ebenfalls wertvolle Informationen schlummern. Viele Unternehmen konnten diese Quellen bislang gar nicht oder nur mit massivem manuellen Aufwand auswerten. Eine Aufarbeitung mittels Excel ist zeitintensiv und enorm fehleranfällig. Zudem lassen sich die Quellen der Daten, arbeitet man einmal in Excel, nicht mehr nachvollziehen. Dieses Problem stellt sich vielen Unternehmen, etwa bei der Kombination von SAP-Reports. Beispielsweise nutzt ein führender Hersteller der Halbleiterindustrie für die Berechnung von Finanzkennzahlen ein Werk aus mehreren verknüpften Excel-Tabellen. Darin werden Ergebnisse aus verschiedenen SAP-Berichten zusammengetragen. Eines Tages stellte man fest: In einem Tabellenblatt hatte sich ein Übertragungsfehler eingeschlichen. Dieser Fehler war zwar nicht gravierend für die Bilanzierung, dennoch dürfen bei der Berechnung der Kennzahlen einfach keine Fehler passieren. Um die Zuverlässigkeit der Zahlen zu gewährleisten, etablierte das Unternehmen eine InformationOptimization-Lösung. Ohne Zugriff auf Systemschnittstellen liest diese Software die Daten aus den verschiedensten Reports aus - und zwar unabhängig von Quelle oder Format der Daten. Im nächsten Schritt werden sie in Datenmodelle eingespielt und mit anderen Daten kombiniert. Um dies zu leisten, erkennt die Software Strukturen und Komponenten der einzelnen Datenarten in den unterschiedlichsten Datei-Formaten und zerlegt sie in kleinste Einheiten. Die Software leistet damit das, was sonst das menschliche Gehirn übernimmt, wenn ein Mensch einen Bericht oder ein Dokument betrachtet: Sie erfasst die Struktur und kann Text und Zahlen in den Zeile zu Kategorien zuordnen und unterteilen. Diese „Datenportionen” werden daraufhin neu kombiniert und im Anschluss erfolgt, wie gewohnt, die Auswertung. Dabei können alle Daten stets auf ihre ursprüngliche Quelle zurückverfolgt werden, um so den gesetzlichen und rechtlichen Anforderungen zu entsprechen. Sollen die aufbereiteten Daten nach diesem Schritt weiterverarbeitet werden, lassen sie sich einfach in relationale Datenbanken oder auch Hadoop importieren. Da Hadoop per se semistrukturierte Daten nur schwer verarbeiten kann, erweitern Unternehmen mit einer Information-Optimization-Lösung ihre Big-Data-Infrastruktur, da sie zusätzliche Informationsquellen in Hadoop auswertbar macht. Dokumente in ECM-Systemen auswerten. Neben Berichten aus ERP-Systemen haben sich auch im Enterprise Content Management (ECM) große Bestände wichtiger Informationen in Form von Dokumenten angesammelt. Sie sind eine weitere „Fundgrube” für wertvolle Informationen. Logica, internationaler Anbieter von Beratung- und Systemintegration, hat dies erkannt und sein Cloud-basiertes Enterprise Content Management (ECM) mit der Information-Optimization-Plattform von Datawatch erweitert. Durch die Verknüpfung der beiden Lösungen können Logica-Kunden alle textbasierten Dokumente, ob Geschäftsunterlagen oder Berichte, jederzeit abrufen und analysieren. Aus der Umwandlung der dort hinterlegten Berichte und Dokumente in Excel-Tabellen oder andere gängige Formate erhalten Anwender verwertbare, relevante Daten. Dabei spielt es keine Rolle, ob die Ausgangsdaten unstrukturiert, semistrukturiert oder hoch strukturiert vorliegen. Es lassen sich beliebige Dokumententypen und Dateiformate, darunter PDF, Text, Rechnungen, ERP-Reports oder Berichtslisten aus Großrechnern, verarbeiten. © S.A.R.L. Martin/IT Research März 2013 25 Inhalt Strategic Bulletin: Analytische Datenbanken Mehrere Datenquellen verknüpfen. Für Big-Data-Projekte müssen neben den strukturierten Daten beliebige andere Datenquellen erschlossen werden. Software-Lösungen, mit deren Hilfe die verschiedenen Outputs unterschiedlichster Datenquellen kombiniert werden können, kommt damit eine entscheidende Rolle zu. Indem Information-Optimization-Plattformen wie Datawatch diese Flexibilität ermöglichen und helfen, sämtliche losen Enden zu verknüpfen, sind sie der Schlüssel zum dritten V – der Variety. 4.4 Erst Analytics macht aus Big Data Big Business – Gastbeitrag von InterSystems Autor: Thomas Leitner – Regional Managing Director Europe Central & North bei InterSystems Big Data ist zweifellos eines der IT-Buzzwords der letzten Jahre, auch wenn wir von einer einheitlichen Begriffsbestimmung noch weit entfernt sind. Gemeinsamer Kern der meisten Definitionsversuche von Big Data ist jedenfalls der Bezug auf große und wachsende Datenmengen, die mit herkömmlichen technischen Mitteln, insbesondere typischen relationalen Datenbankwerkzeugen, nicht mehr ohne Weiteres optimal verarbeitet werden können. Gartner (2012) hat diese Quintessenz in seiner Definition mit Bezug auf die bekannten drei „V“ – „high volume, high velocity, high variety“ – weiter differenziert: Big Data sind demnach Informationsbestände, die aufgrund ihres hohen Datenvolumens, der großen Geschwindigkeit und der Vielfalt von Formaten und Formen, in denen sie anfallen, neue Formen der Verarbeitung erfordern, um aus ihnen Erkenntnisse und Entscheidungsunterstützung zu gewinnen. Evolution statt Revolution. Big Data ist keine neue Problematik. So hat InterSystems seine Technologien in den vergangenen dreißig Jahren in Auseinandersetzung mit genau den Problemstellungen entwickelt, die sich auch heute im Zusammenhang mit Big Data stellen: das Beherrschen komplexer Szenarien, großer Datenmengen, kontinuierlicher Ströme von Massendaten oder zahlreicher Transaktionen pro Zeiteinheit. InterSystems vertritt deshalb eine aus Anwendersicht pragmatische Position zu dem Thema: „Big Data“ betrifft heute Daten verschiedenen Umfangs und Formats, die gemeinhin nicht schon zentral verwaltet werden und die für das Geschäft eines Unternehmens wichtig sind oder sein können. Diese Daten – darunter z. B. Office-Dokumente, PDFs, E-Mails, Instant-Messaging-Nachrichten oder Texte und Mediendateien aus Blogs und sozialen Netzwerken, aber auch von Maschinen oder Sensoren automatisch erzeugte Daten – können in allen Bereichen des Unternehmens anfallen. Ob es sich vom Volumen her dabei dann um Terabyte oder Exabyte an Daten handelt, ist eigentlich nachrangig. Die Problemstellung ist immer dieselbe – in Echtzeit Informationen zur Entscheidungsunterstützung zu generieren. „Advanced“ BI ist zu wenig. Je nachdem, über welche Daten im Zusammenhang mit Big Data gesprochen wird, können quantitative Ansätze, die man aus dem Business Intelligence-Umfeld kennt, erste zusätzliche Erkenntnisse bringen. Unglücklicherweise wird in vielen Fällen versucht, dieses Konzept auch auf unstrukturierte Daten zu übertragen. Ein Ansatz, manchmal als Advanced BI bezeichnet, der der Natur dieser Daten nicht gerecht werden kann. Bei jeder Aggregation gehen Informationsinhalte verloren. Werden unstrukturierte Daten in strukturierte Formen gezwängt, erhält man Datensätze, deren statistische Relevanz bestenfalls das Prädikat „zweifelhaft“ verdient. Umso mehr, als dass beide Schritte heute überhaupt nicht mehr notwendig sind. Moderne Analysetools arbeiten gleichermaßen mit strukturierten wie unstrukturierten transaktionalen Daten. Active Analytics für unstrukturierte Daten. In vielen Bereichen gewinnt die Analyse von unstrukturierten Daten aus Texten, Bildern und Tonaufzeichnungen an Relevanz. Hier verbergen sich die so oft erwähnten 80 Prozent bislang nicht genutzter Daten. Moderne Technologien wie Active Analytics von InterSystems überwinden Grenzen, die der semantischen Analyse bislang gesetzt waren. Schon einfache Aufgabenstellungen, wie das Anreichern strukturierter Daten mit Informationen aus Freitextfeldern, stellte IT-Systeme bislang vor unlösbare Probleme. Mit iKnow, einer der Technologien aus Active Analytics, © S.A.R.L. Martin/IT Research März 2013 26 Inhalt Strategic Bulletin: Analytische Datenbanken konnte genau diese Herausforderung für ein führendes deutsches Online-Portal gelöst werden. Ein weiteres Einsatzgebiet ist das Aufspüren von Betrugsversuchen (Fraud Detection). Es gibt erkennbare Muster in Texten, wenn Menschen versuchen zu schummeln. Die letztendliche Prüfung obliegt natürlich weiterhin den Sachbearbeitern, aber eine überraschend präzise Evaluierung aller eingereichten Anträge, zum Beispiel bei Sachversicherern, erleichtert und beschleunigt die Arbeit der Spezialisten und spart bares Geld. Visualisieren, um Zusammenhänge zu erkennen. Um strategische Vorteile für Unternehmen zu generieren, muss sich Analytics aber von dem Konzept der Prozessoptimierung lösen. Schneller präzisere Informationen an Entscheidungsstellen nutzen zu können ist sicherlich ein Vorteil, aber es erlaubt keine Betrachtungen darüber, wie der Status quo geändert werden müsste, um als Organisation besser zu werden. Für diese Anforderung eignen sich visuelle Darstellungen deutlich besser als Tabellen oder Listen. An dieser Stelle kommt Erkenntnis wirklich von Erkennen. Flaschenhälse werden so genauso sichtbar gemacht wie bislang unvermutete Zusammenhänge. Data Cubes erlauben es, strategische Fragen aus allen Perspektiven zu betrachten und zu analysieren. Datengrundlage dafür sind dann 100 Prozent der Unternehmensdaten und nicht nur die 20 bis 30 Prozent, die BI-tauglich sind. Data Science und Visual Analytics erlauben es dem Senior Management somit, Unternehmen und Prozesse aus allen Blickwinkeln zu analysieren und auch externe Datenquellen, zum Beispiel Geoinformationen oder Sozialdaten, in die Betrachtungen mit einzubeziehen. Das Ergebnis ist eine kontinuierliche Weiterentwicklung und Optimierung, basierend auf harten Fakten. Die Frage, was Big Data ist, wird schlussendlich jedes Unternehmen für sich anders beantworten. Dass jedes Unternehmen über bislang ungenutzte Daten verfügt, sei es innerhalb des Unternehmens oder in Social Networks, ist dagegen unbestritten. Flexible Technologien wie die Produktfamilie von InterSystems bieten leistungsstarke Ansätze, ohne gleich massiv in Hardware investieren zu müssen. Big Data wird so zu Big Business. 4.5 Big Data und die Datenbankstrategie der Zukunft – Gastbeitrag von SAP Big Data stellt die IT in Unternehmen vor Herausforderungen ganz neuer Ausmaße, eröffnet aber auch ungeahnte Chancen. Die IT muss mit revolutionären Konzepten reagieren. Der Schlüssel ist eine einheitliche Datenbankstrategie. Mobile-, Cloud-, Social- und Monitoring-Daten: Beinahe stündlich wachsen die Informationsmassen in Unternehmen an. Traditionelle Datenbanksysteme sind damit oft überfordert. Sie sind vorrangig auf Transaktionen ausgelegt und für überschaubare Mengen optimiert. Entsprechend steigen die Verarbeitungszeiten, Unternehmen können nur noch verzögert auf neue Situationen reagieren. Dabei verspricht die Analyse strukturierter und vor allem unstrukturierter Daten enorme Wettbewerbsvorteile. Unternehmen müssen sich also umstellen, wenn sie das riesige Potenzial ihrer Informationen voll ausschöpfen wollen. Wie werden sie künftig ihre Daten halten? Die SAP-Datenbankstrategie. In Zusammenarbeit mit seinen Kunden hat SAP einen ganzheitlichen Ansatz entwickelt, der das Informationsmanagement auf ein sicheres, zukunftsfähiges Fundament setzt. Technologische Basis dieser Strategie ist die SAP® Real-Time Data Platform. Sie funktioniert wie ein automatischer Verteiler, der alle Daten in die jeweils passenden Systeme überträgt. Die Basis der Plattform bilden mehrere Datenbanken, die für unterschiedliche Aufgaben optimiert sind. Dazu zählen beispielsweise klassische Transaktionen, mobile Szenarien oder Analysen. Unternehmen definieren einfach, welche Informationen wie genutzt werden sollen und wie wichtig sie im Tagesgeschäft sind. Die Plattform verteilt sie dann automatisch zwischen den Datenbanken. Die wichtigsten Daten („Hot Data“) werden im Echtzeitspeicher gehalten, wo sie jederzeit sekundenschnell verfügbar sind. So haben Entscheider alle Kennzahlen rasch zur Hand, © S.A.R.L. Martin/IT Research März 2013 27 Inhalt Strategic Bulletin: Analytische Datenbanken Fertigungsleiter erkennen beispielsweise noch in der laufenden Produktion mögliche Normabweichungen. Die große Masse der Daten („Cold Data“) dagegen liegt in kostengünstigeren Speichern. Mit dieser Doppelstrategie lassen sich Petabytes an Informationen zuverlässig, zeitsparend und kostenoptimiert verwalten. Ganzheitliches Datenmanagement. Bislang bilden Datenbanksysteme meist isolierte Silos. Administratoren verwalten jede Datenbank einzeln und passen sie manuell an die Erfordernisse der Geschäftslösungen an. Ein Aufwand, der in Zeiten von Big Data nicht mehr zu stemmen ist. Die SAP Real-Time Data Platform revolutioniert das Konzept mit einer einfachen Grundidee: Sie fasst alle Datenbanken zusammen. Die IT-Abteilung kann sämtliche Informationen zentral verwalten, statt einzelne Systeme separat anzusprechen. Für Analysezwecke enthält die Plattform die Komponenten SAP Sybase® IQ und SAP HANA®. Der Analyse-Server SAP Sybase IQ. Die Datenbank SAP Sybase IQ hält Business-Intelligence-Daten vor und eignet sich besonders für Ad-hoc-Analysen. Im Gegensatz zu traditionellen Datenbanken ist SAP Sybase IQ mit ihrem spaltenorientierten Aufbau speziell für Abfragen strukturierter und unstrukturierter Daten optimiert. Patentierte Komprimierungsverfahren sorgen für einen vergleichsweise geringen Platzbedarf. Die OLAP-Datenbank (Online Analytical Processing) benötigt keine spezielle Serverhardware, sondern ist mit Standardkomponenten kompatibel, wie sie auch im privaten Umfeld üblich sind. Teure Vorabinvestitionen und eine komplexe Wartung entfallen. Speicherkosten und Administrationsaufwand sind damit niedriger als bei herkömmlichen Systemen. Hinzu kommt: Große Datenvolumina lassen sich 10- bis 100-mal schneller analysieren als über transaktionale Datenbanken. Die spaltenbasierte Architektur macht eine Optimierung für einzelne Abfragen überflüssig und vereinfacht so wichtige Einsatzzwecke wie die Mustererkennung (Data Mining). SAP Sybase IQ lässt sich reibungslos mit Apache Hadoop verbinden, wodurch sich selbst größte Datenmengen effizient verarbeitet lassen. Mitarbeiter in den Fachabteilungen können jetzt eigenständig viele Terabytes an Daten analysieren – ohne die Hilfe der IT-Abteilung. Die Echtzeit-Datenbank SAP HANA. SAP HANA ist eine revolutionäre In-Memory-Appliance, mit der sich in Sekundenschnelle enorme Informationsmengen auswerten lassen. Die Besonderheit: Daten werden statt auf Festplatten im wesentlich schnelleren Arbeitsspeicher verarbeitet und ähnlich wie bei SAP Sybase IQ für Analysezwecke spaltenweise abgelegt. Aktuell irrelevante Informationen erkennt SAP HANA und blendet sie aus. Auf diese Weise erreicht das System einen sehr hohen Komprimierungsgrad. Das ermöglicht extrem schnelle Auswertungen und Simulationen – im Vergleich zu herkömmlichen Datenbanken steigt die Verarbeitungsleistung um das bis zu 10.000-fache. SAP HANA unterstützt heute sämtliche Anwendungen der SAP Business Suite und damit alle wichtigen Geschäftsprozesse. Die Zukunft des Datenmanagements. Wer in der Big-Data-Ära ganz vorne mitspielen will, braucht mehr als eine effektive Datenbank. Mit leistungsstarken Analyse-Tools lassen sich in den Datenbergen wahre Schätze heben und neue Geschäftsfelder erschließen. Dabei unterstützt eine stabile Architektur aus verschiedenen Datenbanken und Anwendungen. SAP wird die SAP Real-Time Data Platform auf Jahrzehnte weiterentwickeln. Mit dieser zukunftssicheren Technologie sind Unternehmen für die digitalen Herausforderungen von heute und morgen bestens aufgestellt. 4.6 Herausforderungen an Analytik und den Umgang mit analytischen Datenbanken Die Analyse von großen und sehr großen Datenmengen wird von den Big Data-Vorreitern wie Amazon, eBay, Facebook, Google, Sears, Twitter, Walmart etc. zwar schon seit einiger Zeit betrieben, aber Vorgehensweisen in solcher Big Data-Analytik stützen sich auf eine noch überschaubare Menge von Erfahrungen. Hier haben wir fünf Herausforderungen zusammengestellt, die Nutzern helfen sollen, die ersten Schritte in Richtung Big Data-Analytik mit analytischen Datenbanken zu gehen. [6] Das unterstreichen einige neuere Marktstudien, siehe den Beitrag bei InformationAge http://www.information-age.com/channels/information-management/features/1687078/its-focus-shifts-to-data-management.thtml © S.A.R.L. Martin/IT Research März 2013 28 Inhalt Strategic Bulletin: Analytische Datenbanken 1. Herausforderung: Das Feststellen der Relevanz von Information für die Problemstellung. Welche Information bietet dem Unternehmen einen Mehrwert in Bezug auf die Kosten der Identifizierung, Extraktion, Speicherung und Analyse? Das ist die Grundsatzfrage, die man in priori in den seltensten Fällen beantworten kann. Ein Lösungsansatz stellt das „Drei-W-Vorgehen“ dar. Das erste W ist das „Was“. Diese Frage bezieht sich auf die Daten und die Information, die zur Analyse benötigt werden. Hier hilft beispielsweise das Aufstellen von Relevanzmaßen. Bei Stimmungsanalysen kann man beispielsweise eine Datenquelle danach bewerten, wie oft ein uns interessierender Begriff in welchen Zeitraum vorkommt. Dabei helfen die bekannten Suchfunktionen, um sich solche Statistiken zu erarbeiten. Hier sollte auch der externe Berater mit Best Practices helfen. Ansonsten gilt: Ausprobieren und iterieren („trial and error“). Man betritt hier definitiv Neuland. Die zweite Frage ist die nach dem „Wie“. Hier geht es um die Frage, welche Analyse-Methoden angewendet werden sollen oder können und wie der Prozess zum Verstehen und Interpretieren der Ergebnisse aussieht. Die dritte Frage ist die nach dem „Was nun“. Hier geht es um die Frage wie Entscheidungen abgeleitet und getroffen werden und welche Maßnahmen in Gang gesetzt werden. Denn im Endeffekt lässt sich der Wert von Information dann am besten verstehen, wenn die Information und das das daraus abgeleitete Wissen in Prozessen umgesetzt und der monetäre Nutzen gemessen werden. 2. Herausforderung: Das Aufsetzen einer Organisation für Analytik. Ein Analytik-Kompetenzzentrum bietet eine geeignete Organisationsstruktur. Es ist eine funktionsübergreifende Einheit im Unternehmen, die als interdisziplinäres Team verantwortlich ist, den Einsatz von Analytik im Unternehmen zu fördern. Es besteht aus einem Leitungsgremium, dem ein Analytik-Sponsor vorsitzt, dem eigentlichen Kompetenzzentrum und BusinessAnalysten und Data Stewards, die in den Fachbereichen sitzen. Der Sponsor sollte aus der Geschäftsführung oder dem Vorstand kommen, damit die Analytik-Strategie im gesamten Unternehmen auch durchgesetzt werden kann. Das Analytik-Kompetenzzentrum zentralisiert das Management der Analytik-Strategie und der AnalytikMethoden, -Standards, -Regeln und -Technologien. Sein Leitsatz ist: Das Analytik-Kompetenzzentrum plant, unterstützt und koordiniert Analytik-Projekte und sorgt für den effizienten Einsatz aller Ressourcen und der Technologie. Allerdings sind Experten für Big Data-Analytik noch rar im Markt. Hier sollte man auf jeden Fall auf spezialisierte Beratungsunternehmen zurückgreifen, denn sonst kann man schnell viel Zeit und Geld verlieren ohne einen Mehrwert aus Big Data-Analytik zu erzielen. Vor allem: Starten Sie nicht ins Big Data ohne externe Beratung, die neben den analytischen Technologien vor allem auch in Sachen Organisation berät. Jetzt braucht man neue Wege in der Zusammenarbeit IT und Fachabteilung sowie neue Rollen und Arbeitsplatzbeschreibungen wie die von Data Scientists. Das sind Mitarbeiter mit folgendem Profil: • Technische Expertise: Tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig. • Problembewusstsein: die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen. • Kommunikation: die Fähigkeit, komplexe Dinge per Anekdoten durch einfach verständliche und gut kommunizierbare Sachverhalte darzustellen. • Kreativität: die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen („thinking out oft he box“). “Data scientists turn big data into big value, delivering products that delight users, and insight that informs business decisions. Strong analytical skills are given: above all a data scientist needs to be able to derive robust conclusions from data.” Daniel Tunkelang, Principal Data Scientist, LinkedIn © S.A.R.L. Martin/IT Research März 2013 29 Inhalt Strategic Bulletin: Analytische Datenbanken Im Endeffekt wird so Datenmanagement wieder zur eigentlichen und Hauptaufgabe der IT [6], während das Beherrschen der Prozesse und der Analytik die Hauptaufgabe der Fachbereiche ist. Als ständige Einrichtung kann das Analytik-Kompetenzzentrum sowohl innerhalb der IT-Organisation als auch in einer operativen Fachabteilung wie dem Finanzressort angesiedelt sein. Für Analytik-Kompetenzzentren gilt grundsätzlich: Sie sind unternehmensspezifisch und sollten auf jeden Fall an die Kultur und Business-Ethik des Unternehmens angepasst sein. 3. Herausforderung: Das Auswählen der Technologie und der Werkzeuge. Hier sollte auch der externe Berater helfen. Es empfiehlt sich zuerst die Business Cases auf ihre Anforderungen technologischer und methodischer Art hin zu untersuchen. Denn – wie schon gesagt – die Auswahl der Technologie und der Werkzeuge, sowie die Frage der Bereitstellung – Cloud oder nicht Cloud – hängt davon ab. Hier verweisen wir auch nochmal auf das Kapitel 3.4, dass eine Strukturierung der analytischen Technologien gibt. 4. Herausforderung: Das kontinuierliche „Anders-Denken“. Hier gilt als Regel: keine Annahmen treffen, keine Hypothesen haben, wenn es um Analytik in Echtzeit geht. Denn solche Big Data-Analysen dienen ja gerade dazu, Hypothesen zu finden, die man so nicht kannte und erwartet hatte. Das Testen solcher Hypothesen erfolgt erst in einem zweiten Schritt. Das Problem ist hier, dass wir aus der „alten“ Zeit, in der nur wenig Information zur Verfügung stand, es gewohnt sind, mit Hypothesen zu arbeiten, die man aus Erfahrungswissen her kannte. Analyse diente dann genau dem Testen solcher Hypothesen. Jetzt im Big Data dient Analyse zuerst eben dem Finden von Hypothesen. Das ist neues, anderes Denken, an das man sich erst noch gewöhnen muss. 5. Herausforderung: Bei Analyse in Echtzeit ein Ende finden und den Analyseergebnissen vertrauen. Hier können wir an den zweiten der fünf Nutzenaspekte aus Kapitel 2.2 anknüpfen: Erfolgskontrolle aller Maßnahmen und Testen aller Entscheidungen. Wenn eine Hypothese gefunden wurde, dann sollte man die schnell in einen Test umsetzen und Kunden und Markt entscheiden lassen, ob die Hypothese falsch ist oder zu positiven Auswirkungen geführt hat. Das entspricht dem Vorgehen der Big Data-Vorreiter, die ihre gefundenen Hypothesen zügig in Testumgebungen umgesetzt haben und dann die Wirkung gemessen haben. Das ist schnell und dann auch monetär bewertbar. Im Endeffekt ist das natürlich auch wieder ein iteratives Verfahren nach der “trial and error”-Methode. Da man aber Kunde und Markt einbezieht, hat man in jeder Iteration eine direkte Wirkung auf die Bottom-Line und damit eine zuverlässige Steuerung des Gesamtprozesses mit Umsatz und Profit als mögliche Zielgrößen. Hier sieht man auch, wie wichtig das Wissen eines externen Beraters in den organisatorischen Fragen ist: Nur wenn ein solches iteratives Verfahren in der Unternehmensorganisation machbar ist, kann Big Data-Analytik mittels analytischer Technologien tatsächlich einen messbaren Mehrwert erzeugen. Fazit Kapitel 4: Roadmap analytische Datenbanken: • Der Markt besteht zum einen aus den neuen, aufkommenden Anbietern, die mit innovativen Technologien in den Markt kommen. Zum anderen besteht er aus den „großen“ Anbietern, die sich entweder in Big Data-Analytik neu positionieren und/oder durch Akquisitionen sich neue, innovative Technologien beschaffen. Aber, keine Regel ohne Ausnahme wie beispielsweise SAP mit HANA. • Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Der Erfolg von Big Data-Analysen muss iterativ durch seine Auswirkungen auf Kunden- und Marktverhalten gemessen und monetär bewertet werden. © S.A.R.L. Martin/IT Research März 2013 30 Inhalt Strategic Bulletin: Analytische Datenbanken 5. Big Data-Analytik – Quo Vadis Realität – 2013 • Der Markt für analytische Datenbanken und Big Data-Analytik ist noch jung. Es gibt aber durchaus grundsätzliche Kritik am Ansatz: 3 Big Data-Analytik-Initiativen sind heute meist IT-getrieben. Daher erfolgt die Technologie-Auswahl, Datenidentifizierung und Analyse oft technischen Gesichtspunkten. Das Problem ist hier zumeist, dass eine Unternehmensstrategie für Analytik und den Einsatz analytischer Technologien fehlt. 3 Größere Datenmengen müssen nicht qualitativ bessere Daten sein. Die traditionell bewährten Maßnahmen von Datenqualitäts-Management werden vielfach nicht beachtet. 3 Betrachten wir nochmal die Frage der Interpretation: Die bekannte Problematik aus dem traditionellen Data Mining tritt natürlich in der Big Data-Analytik verschärft auf: Mathematische Zusammenhänge müssen nichts mit den Phänomenen in der realen Welt zu tun haben. Fehlschlüsse können zum Teil fatale Folgen haben. Deshalb ist das kontrollierte Testen und Bewerten von Ergebnissen aus der Big Data-Analytik so wichtig. 3 Nicht alle Datenquellen sind gleich und sind nicht unbedingt vergleichbar. Dabei werden auch statistische Grundprinzipien wie das einer repräsentativen Stichprobe oft vernachlässigt. 3 Big Data-Analytik hat zum Teil die Tendenz, ethische Grenzen zu überschreiten. Man sollte sich stets fragen, ob die mit Big Data-Analytik angestrebte Transparenz des Kunden im Sinne eines „Big Brother is watching you“ mit der Unternehmensethik vereinbar ist. • Trotz aller Kritik an Big Data-Analytik: die Big Data-Vorreiter Amazon, eBay, Facebook, Google und andere zeigen, dass Potenziale durch die Analyse großer und sehr großer Datenmengen existieren und geldwerten Vorteil bringen können. Das gilt in zunehmenden Masse für die Analyse von Daten aus dem Internet der Dinge. Hier öffnen sich sehr wohl Chancen zu Innovationen und innovativen Prozessen. • Trotz aller Skepsis zum Hype um Big Data-Analytik: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt. • Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data „Nuggets“ zu finden, nur noch grösser und wertvoller. Trends – 2014/15 • Technologie-Trends: 3 Die traditionellen führenden Datenbankanbieter werden ihre SQL-Datenbanken zu hybriden Datenbanken ausbauen, in dem NoSQL-Techniken integriert werden, so dass man durch die Kombination der SQL mit der NoSQL-Welt die Vorteile beider Welten miteinander verbindet und die Marktführerschaft erhalten bleibt. Dazu kommt die sich weiter ausbreitende Nutzung von Data Appliances, die in die gleiche Richtung zielt. Die SAP wird mit der HANA-Technologie zu den führenden Datenbankanbietern aufschließen, jedenfalls in ihrer eigenen Kundenbasis. Sie hat zudem die Chance mit HANA ganz neue Anwendungsgebiete für Analytik zu öffnen. © S.A.R.L. Martin/IT Research März 2013 31 Inhalt Strategic Bulletin: Analytische Datenbanken 3 Es werden Datenanalyse-Bibliotheken entstehen, vor allem auf Basis von R, der freien Programmiersprache für statistisches Rechnen und statistische Grafiken. In einer solchen Bibliothek werden gemeinsame AnalyseMuster und Vorgehensweise als offene Services verfügbar sein, so dass man mittels Analyse-Best Practices schnell die Nutzenpotenziale von Big Data erkennen und nutzen kann. Das wird auch zum Teil die Schmerzen aufgrund des Mangels an Experten lindern. 3 Big Data-Technologien etablieren sich im Konzert mit den anderen vier IT-Megatrends: Mobile, Cloud Computing, Social Media und Consumerization. Die Anbieter werden ihre Technologien unter diesem gemeinsamen Blickwinkel weitertreiben. • Markt-Trends: 3 Im Markt für analytische Technologien werden wir – wie für einen jungen Markt ganz typisch – viele Übernahmen und Firmenzusammenschlüsse sehen. Die großen IT-Anbieter und Dienstleister werden auch hier vorne sein und bleiben. 3 Open Source-Angebote wie Hadoop und R werden in der Big Data-Analytik einen größeren Anteil erreichen und eine größere Rolle spielen als im traditionellen BI-Markt. Das folgt aus dem größeren Pool von verfügbaren Experten in Open Source-Technologien und einem Vorsprung an Funktionalität in den Open Source-Systemen aufgrund einer großen Anzahl von engagierten Entwicklern. 3 Gleiches gilt für Cloud-Angebote wie Data Warehouse as a Service. Die werden gewinnen, da man diese Services unkompliziert finanzieren kann und ohne großen Aufwand ein- und vor allem auch abschalten kann. Zudem werden solche Angebote zurzeit mit Kampfpreisen in den Markt gedrückt. • Business-Trends: 3 Start-Ups werden besonders von analytischen Technologien profitieren. Das unterstreichen die Big DataVorreiter, die alle so gestartet sind. Der Grund liegt in der Regel in der Flexibilität von Start-Ups, die Big DataDenken und Big Data-Organisationstrukturen viel leichter umsetzen und leben können als traditionelle Unternehmen. 3 Trotz des aktuellen Hypes wird sich Big Data bei der Mehrzahl der Unternehmen immer noch in der Pilotierungsphase befinden. Der große Bremser ist nicht die Verfügbarkeit und der Reifezustand der Technologie, sondern der Mangel an Experten und Beratern sowie die Schwierigkeit, die notwendigen neuen Denk- und Arbeitsweisen in den Alltag traditioneller Unternehmen zu verankern. 3 Big Data-Analytik setzt neue Richtlinien für die Zusammenarbeit zwischen IT und Business. Während die Fachabteilungen die Oberhoheit über die Strategie, Prozesse und Analytik festigen werden, wird die IT die Rolle des Information Management als Kernaufgabe wiedergewinnen. Die Schnittstelle zwischen diesen beiden Sichten bilden dann die Prozesse, denn es gilt ja auch im Big Data: Kein Prozess ohne Daten. 3 Mit der Nutzung von Big Data-Analytik ergeben sich neue Anforderungen an Compliance und Datenschutz, die zu meistern sind. Es werden sich neue gesetzliche Regeln entwickeln, die jetzt die gemeinsame Speicherung von Daten aus den unterschiedlichsten Quellen zu regulieren haben, beispielsweise Regeln, die beschreiben in welcher Art Finanz- und Gesundheitsdaten ein und der derselben Person gemeinsam gespeichert und genutzt werden dürfen. Weiterhin ist auch eine Regulierung der Nutzung der öffentlich zugänglichen Social Media-Daten zu erwarten, denn man wird eine solche Regelung besser nicht den Facebooks und Co. überlassen wollen. © S.A.R.L. Martin/IT Research März 2013 32 Inhalt Strategic Bulletin: Analytische Datenbanken 6. Profil: Wolfgang Martin Team und IT Research Dr. Wolfgang Martin ist ein europäischer Experte auf den Gebieten • Business Intelligence, Performance Management, Analytik und Big Data • Business Process Management, Information Management, Information Governance • Customer Relationship Management (CRM) • Cloud Computing (SaaS, PaaS) Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse. Er ist Mitglied im BI Boulder Brain Trust (www.boulderbibraintrust.org), iBonD Partner (www.iBonD.net), Ventana Research Advisor (www.ventanaresearch.com) und Research Advisor des Instituts für Business Intelligence der Steinbeis Hochschule Berlin (www.i-bi.de). The InfoEconomist zählte ihn in 2001 zu den 10 einflußreichsten IT Consultants in Europa. Dr. Martin ist unabhängiger Analyst. Vor der Gründung des Wolfgang MARTIN Teams war Dr. Martin 5 ½ Jahre lang bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies. Darüber hinaus kennt man ihn aus TV-Interviews, durch Fachartikel in der Wirtschafts- und IT-Presse, als Autor der Strategic Bulletins zu den Themen BI, Big Data, EAI, SOA und CRM (www.it-research.net) und als Herausgeber und Co-Autor von Büchern, u.a. „Data-Warehousing – Data Mining – OLAP“, Bonn, 1998, „CRM – Jahresgutachten 2003, 2004, 2005, 2006 & 2007“, Würzburg, 2002, 2003, 2004, 2005 & 2007 und „CRM Trend-Book 2009“, Würzburg, 2009. Wolfgang Martin Team, 6, rue Paul Guiton, 74000 Annecy, France, E-Mail: [email protected] IT Research ist ein deutschsprachiges Unternehmen, das Studien, Bulletins und White Papers im Bereich der Informationstechnik erstellt. Ziel ist, auf neueste Technologien hinzuweisen, IT-Investitionen der Unternehmen noch rentabler zu machen, Fehlinvestitionen zu vermeiden und Risiken zu minimieren. Um dies zu erreichen, arbeiten wir mit einem Netzwerk von Kompetenzträgern auf den verschiedensten Gebieten der IT zusammen it verlag GmbH, Michael-Kometer-Ring 5, D-85653 Aying Tel. 0049 8104 649414, E-Mail: [email protected] © S.A.R.L. Martin/IT Research März 2013 33 Inhalt Strategic Bulletin: Analytische Datenbanken 7. Profil: Die Sponsoren Datawatch Die Datawatch Corporation (NASDAQ-CM: DWCH) ist ein Anbieter von Softwarelösungen für Information Optimization. Die Technologie-Plattform ermöglicht Unternehmen den einfachen Zugriff auf verschiedene Datenquellen und Umwandlung beliebiger Datenformate in strukturierte Daten. Damit erschließen sich Unternehmen wertvolle Informationsquellen für individuelle Analysen und unterstützen maßgeblich ihre Datenmanagement-und Reporting-Strategie im BI-Umfeld und operativen Bereich. Grundlage sind dabei statische Berichte, PDF-Dateien, Textdateien und sonstige Datenquellen aus ERP-, CRM- und anderen Unternehmensanwendungen. Bereits 40.000 Kunden in über 100 Ländern sind von Datawatch Lösungen überzeugt. Datawatch hat seine Firmenzentrale in Chelmsford, Massachusetts, USA, und unterhält Büros in München, London, Sydney und Manila. Weitere Informationen sind unter www.datawatch.com zu finden. InterSystems InterSystems ist der führende Anbieter von Software für ein vernetztes Gesundheitswesen. Das Unternehmen hat seinen Hauptsitz in Cambridge, USA, und Niederlassungen in 23 Ländern. InterSystems HealthShare™ ist eine strategische Plattform für die Informationsverarbeitung im Gesundheitswesen und den Aufbau regionaler oder nationaler elektronischer Gesundheitsakten. Die hochperformante Objektdatenbank InterSystems Caché® ist das weltweit meistgenutzte Datenbanksystem für klinische Anwendungen. InterSystems Ensemble® ist eine Integrations- und Entwicklungsplattform, die Anwendungen schnell miteinander verbindet und um neue Funktionen erweitert. InterSystems DeepSee™ ist eine Software, mit der Echtzeit-Analysefunktionen direkt in transaktionale Anwendungen eingebettet werden können, um bessere Entscheidungsgrundlagen für das Tagesgeschäft zu erhalten. InterSystems TrakCare™ ist ein webbasiertes, einheitliches Informationssystem für Krankenhäuser und Krankenhausverbünde bis hin zu landesübergreifenden Gesundheitsinformationssystemen, das schnell alle Leistungen einer elektronischen Patientenakte zur Verfügung stellt. Weitere Informationen finden Sie unter www.intersystems.de. © S.A.R.L. Martin/IT Research März 2013 34 Inhalt Strategic Bulletin: Analytische Datenbanken SAP AG Wer wichtige Daten in Echtzeit durchsuchen kann, gewinnt wertvolle Zeit im Wettlauf mit der Konkurrenz. SAP hat daher mit der „Real-Time Data Platform“ eine ganzheitliche Datenbankstrategie entwickelt, mit der Sie individuelle Anforderungen zuverlässig abdecken können: • SAP Sybase ASE ist die Basis für Ihre transaktionalen Daten (OLTP) aus SAP ERP, SAP Customer Relationship Management und anderen Anwendungen der SAP Business Suite. • SAP HANA® ermöglicht hochdetaillierte Auswertungen in Echtzeit (In-Memory-Computing). • SAP Sybase IQ unterstützt die Analyse von Business-Intelligence-Daten und dient als Speicher für SAP NetWeaver® Business Warehouse. Weiterführende Informationen finden Sie unter www.sap.de/datenmanagement, beziehungsweise zu SAP HANA unter www.sap.de/echtzeit Als Marktführer für Unternehmenssoftware unterstützt die SAP AG Firmen jeder Größe und Branche, ihr Geschäft profitabel zu betreiben, sich kontinuierlich anzupassen und nachhaltig zu wachsen. Vom Back Office bis zur Vorstandsetage, vom Warenlager bis ins Regal, vom Desktop bis hin zum mobilen Endgerät – SAP versetzt Menschen und Organisationen in die Lage, effizienter zusammenzuarbeiten und Geschäftsinformationen effektiver zu nutzen als die Konkurrenz. Mehr als 190.000 Kunden (inklusive Kunden von SuccessFactors) setzen auf SAP-Anwendungen und -Dienstleistungen, um ihre Ziele besser zu erreichen. Weitere Informationen unter www.sap.de. © S.A.R.L. Martin/IT Research März 2013 35 Inhalt Die Sponsoren: