Executive Summary THOUGHT LEADERSHIP PAPER MIT BIG DATA BESSERE ENTSCHEIDUNGEN TREFFEN Unternehmen wissen heute mehr denn je über ihre Kunden: Das Internet, Soziale Medien wie Facebook und Co. sowie der allgemeine Trend zur Digitalisierung im Privat- wie im Geschäftsleben erlauben es Firmen, detaillierte Daten ihrer Kunden zu sammeln – von der Bestellhistorie bis zum Aufenthaltsort. Doch nur wer diese Daten auch zu interpretieren weiß, wird sie als Schlüssel nutzen können, um Marktzusammenhänge besser zu verstehen, verborgene Trends aufzuspüren und neue Geschäftschancen frühzeitig zu erkennen. Auf diese Weise lassen sich Entscheidungen schneller und präziser treffen – mit dem Ziel, den Anforderungen der Kunden besser entsprechen zu können. IT-seitig sind Business-Intelligence-Tools das Mittel der Wahl, um das Geschäft gezielt anzupassen und zu steuern. Doch dieses Technologiesegment hat sich in den vergangenen Jahren grundlegend verändert: Auslöser ist die schiere Menge an unterschiedlichsten Daten, wie sie im Zuge der digitalen Transformation zunehmend entstehen. Um diese enormen Mengen großenteils unstrukturierter Daten schnell analysieren zu können, bedarf es neuer Ansätze und Technologien. Am Markt wurden dafür bereits leistungsfähige Lösungen entwickelt wie die Open-Source-Technologie Hadoop oder In-Memory- und NoSQL-Datenbanken, die die Echtzeitanalyse großer Datenmengen erst ermöglichten. Doch damit Big-Data-Analysen zuverlässige Ergebnisse liefern können, müssen einige Voraussetzungen erfüllt sein: Zu allererst müssen die Daten korrekt, konsistent und vollständig sein – kurz: Die Datenqualität muss stimmen. Auch verteilte sowie heterogene Datenverarbeitungs- und Speicherstrukturen, die oft aus historischen Gründen die IT-Landschaft beherrschen, gehören integriert, damit die Analyse auf einer möglichst breiten und einheitlichen Datenbasis gründet. Und schließlich ist der erfolgreiche Einsatz von Big-Data-Analysen an kompetentes Fachpersonal geknüpft, das zum einen den Umgang mit Tools und Technologien beherrscht. Zum anderen werden Experten benötigt, die in der Lage sind, faktisch mit den Daten zu arbeiten. Auf die Frage, welche Lösung zu welcher Aufgabe und zu welchem Unternehmen passt, gibt es keine standardmäßige Antwort. Aktuell hat sich Hadoop als Branchenstandard für Big-Data-Umgebungen durchgesetzt, wenngleich ein Hadoop-Cluster an seine Grenzen stößt, sobald die Daten auf der Festplatte liegen und Datenbankzugriffe langsam machen. Für die Echtzeitverarbeitung extrem großer Datenmengen haben sich deshalb In-Memory-Datenbanken etabliert, die Daten direkt in den und aus dem Arbeitsspeicher (RAM) laden, was sie um den Faktor 1.000 schneller macht als herkömmliche Plattentechnologie. Gerade weil standardisierte Industrielösungen im Bereich von Big Data nicht verfügbar sind, müssen sich Unternehmen entscheiden, ob sie eine Software kaufen und an die eigenen Bedürfnisse anpassen oder diese komplett von der eigenen IT-Abteilung realisieren lassen: Meist sind Cloud-basierte Infrastrukturen dann sinnvoller, wenn Analysen nur einmal durchgeführt werden oder große Schwankungen im Datenvolumen oder in der Analysenachfrage bestehen. Fazit Nur wer nah am Kunden ist und dessen Bedürfnisse kennt, kann sich langfristig im Wettbewerb behaupten. Das setzt effiziente Entscheidungsfindungsprozesse voraus, für die immer mehr Daten in immer kürzerer Zeit analysiert werden müssen. Big-DataLösungen werden in diesem Zusammenhang zum Erfolgsfaktor. Executive Briefing MIT BIG DATA BESSERE ENTSCHEIDUNGEN TREFFEN Um Business-Entscheidungen frühzeitig, schnell und präzise zu treffen, müssen heute große Mengen von strukturierten und unstrukturierten Daten ausgewertet werden. Analysen mit Big-Data-Technologien helfen, hierfür die richtigen Antworten zu finden. Früher galt ein Händler als kundenfreundlich, wenn er Grillkohle neben Bier und Ketchup ins Regal stellte. Ganz nebenbei profitierte er von Mitnahmeeffekten. Heute muss er sich schon mehr einfallen lassen, wenn er im Kampf um die Gunst des Kunden bestehen will. Im E-Business ist es heute gang und gäbe, dass der Händler die Präferenzen seiner Kunden kennt, seine Bestellhistorie, die Rabattvorlieben und möglichst noch den Aufenthaltsort. Doch nur wer solche Daten auch zu interpretieren weiß beziehungsweise intelligent miteinander verknüpft, ist in der Lage, auf den Kunden zugeschnittene Angebote zu präsentieren und ihn dort abzuholen, wo er gerade ist – online, zu Hause auf der Couch oder in der Fußgängerzone. Dazu braucht er die richtigen Analyseinstrumente – und für seine Zwecke bestimmte oder notwendige Daten. Sie sind in Zeiten von globalem Wettbewerb und volatilen Märkten unverzichtbar und unterstützen Entscheidungsträger bei der Optimierung ihres Geschäfts. Händlern etwa geben Daten dezidiert Auskunft über das Kaufverhalten ihrer Klientel. Für Unternehmen sind sie der Schlüssel dazu, Markt­ zusammenhänge besser zu verstehen, verborgene Trends aufzuspüren und neue Geschäftschancen frühzeitig zu erkennen. Entscheidungen lassen sich so schneller und präziser treffen – das alles mit dem Ziel, näher am Kunden zu sein und seinen Anforderungen besser entsprechen zu können. So versetzt die Analyse von Daten zum Beispiel Marketingabteilungen in die Lage, feinkörnige ­ evölkerungs- und Kundensegmente zu erstelB len sowie Waren und Dienstleistungen auf deren Bedarfe zuzuschneiden. Eine detaillierte Seg­ mentierung von Zielgruppen erleichtert deren ­Ansprache, v­ ermindert die Streuverluste und ­somit auch die Kosten für Marketingkampagnen. Ein ­Telekommunikationsanbieter etwa kann mittels Datenanalyse herausfinden, warum Kunden ­abwandern, und so mit gezielten Maßnahmen ­gegensteuern. Die Rolle von Daten Viele Entscheidungsträger und Manager haben mittlerweile den strategischen Wert von Daten ­erkannt, nutzen relevante Datenquellen mit Informationen über ihre Produkte und Kunden und analysieren mit Business-Intelligence-Tools beispielsweise die Kaufhäufigkeit von Produkten oder die Veränderung von Lagerbeständen. Einer Studie des Softwareanbieters Artegic zufolge gehen 75 Prozent der befragten Unternehmen davon aus, dass der Unternehmenserfolg durch die Nutzung per­ sonenbezogener Daten aus dem Online-Marketing ­signifikant gesteigert werden kann. Mithilfe von Business-Intelligence-Tools lässt sich das Geschäft gezielt anpassen und steuern. Das Management profitiert deutlich von den daraus ­gewonnenen Informationen und kann sie als stra­ tegischen Kompass nutzen, um Veränderungen im Markt und im Kundenverhalten rechtzeitig zu erkennen und proaktiv tätig zu werden. 1 Aus Daten wird Big Data Entspannt zurücklehnen können sich Manager heute allerdings trotz Dashboards, Grafiken und Tabellen nicht. Denn in den vergangenen Jahren ist die Welt der Business Intelligence gehörig durcheinandergewirbelt worden. Auslöser ist die schiere Menge an Daten. Waren die für geschäftliche Entscheidungen relevanten Informationen noch bis vor Kurzem relativ überschaubar, sind sie in den zurückliegenden Jahren förmlich explodiert. Mittlerweile wird faktisch alles digita­lisiert, und es entstehen neue Arten von Transaktions- und Echtzeitdaten. Und auch Maschinen und Rechner produzieren enorme Datenmengen, die heute auf immer preiswerter und dynamischer w ­ erdender Hardware nutzbar werden: Allein ein modernes Flugzeug generiert innerhalb von 30 Minuten Flugzeit bis zu 10 Terabyte an Daten. Bei 25.000 Flügen pro Tag entstehen damit Petabytes an Daten. Die Transformation hin zu digitalen Geschäfts­ modellen und neuen Anwendungen steigert das Datenwachstum ebenfalls. Technologien wie Cloud Computing, RFID, transaktionale Systeme, Data Warehouses sowie Dokumenten-Managementund Enterprise-Content-Management-Systeme sind wichtige Entwicklungen im Kontext von Big Data. Viele dieser Systeme erzeugen fortwährend neue Datenströme. Den entscheidenden Anteil an der Datenexplosion aber haben das Internet, der zunehmende Anteil mobiler Geräte und vor allem die sozialen Medien wie Facebook, Twitter, YouTube und Co. Allein Facebook produziert beispielsweise täglich 2,7 Milliarden „Likes“, 300 Millionen Fotos und scannt jede halbe Stunde 105 TB Daten. Hinzu kommt, dass Datenmengen heutzutage nicht nur groß, sondern auch deutlich weniger strukturiert sind als die früheren typischen Geschäftsdaten in ERP-Systemen. Social-Media-Informationen wie Texte, Bilder, Audiodateien oder Videos lassen sich nicht mehr in ordentliche Zeilen und Spalten zwängen, wie es das relationale Datenbankmodell verlangt: Sie sind unstrukturiert. Laut der IDC-Studie „Storage in Deutschland 2013“ gehören inzwischen bereits 90 Prozent der Daten zu diesem unstrukturierten Typus und müssen mit ganz neuen Techniken erfasst und ausgewertet werden. (Quelle: IDC Storage*) Im Ergebnis bedeutet dies, dass Unternehmen es mittlerweile mit einem ungeordneten Aufkommen großer Mengen an strukturierten, semistrukturierten und unstrukturierten Daten aus einer Vielzahl verschiedenster Quellen zu tun haben. Gerade unstrukturierte Daten aus sozialen Netzwerken können Unternehmen heute nicht mehr ­ignorieren. Aus E-Mails, Feedback-Formularen, Kommentaren und Bewertungen in sozialen ­Netzen und Diskussionen in Foren lässt sich eine Menge lernen. Die massive Anzahl an täglich generierten Tweets – zurzeit etwa 12 Terabyte – ist eine profunde Basis etwa für die Trendforschung oder für die Produktentwicklung. Welche Branchen profitieren von Big Data? Unternehmen haben, je nach technischer Ausstattung, relativ einfachen Zugang zu großen Mengen nützlicher Markt- und Kundendaten – und wollen den Wert dieser Daten auch ausschöpfen. Laut ­einer von T-Systems in Auftrag gegebenen interna- Typische Datenarten heute Strukturierte DatenDaten, die in Tabellen und Strukturen von relationalen Datenbanken ­abgebildet werden Semi-strukturierte DatenDaten, die oft durch die Anwendung von Datenaustauschprogrammen zwischen Unternehmen erzeugt werden und daher häufig auf XML ­basieren Unstrukturierte DatenDaten aus Textdateien, Speech-to-Text-Anwendungen, PDFs, gescannte Post, ­Präsentationen, Bildern, Videos, Audiodateien 2 tionalen IDC-Studie hat bereits jedes zweite Unternehmen Big-Data-Projekte implementiert oder plant dies konkret. Drei von vier Unternehmen, die Big-Data-Projekte eingeführt haben, bezeichnen Business Analytics dabei in einer SAS-Umfrage als wirksam bei der Entscheidungsfindung (Quelle: SAS Decision Making*). Am meisten profitieren sie der Untersuchung zufolge von einer erhöhten Rentabilität, reduzierten Kosten, gezielterem ­Risikomanagement, Prozessoptimierung, schneller Entscheidungsfindung und Performance-­ Verbesserungen. Der mit Big Data verbundene Aufwand zahlt sich laut McKinsey auch in barer Münze aus. Werden Big Data richtig und zeitnah analysiert, können beispielsweise Handelsunternehmen ihre Marge um bis zu 60 Prozent verbessern, und europäische Behörden können durch effizientere Prozesse 250 Millionen Euro pro Jahr einsparen, so die Consultants. Wenn Unternehmen mehr über die Standorte ihrer Kunden wüssten, könnten sie sogar zusätzlich Produkte im Wert von 600 Millionen Dollar absetzen. (Quelle: McKinsey Big Data*) Während sich bis vor Kurzem nur Banken, Finanzdienstleister und ausgewählte Großkonzerne – ­typische Anwender von Data Warehousing und Business Intelligence – mit automatisierten Entscheidungsprozessen beschäftigt haben, erkennen nun laut Experton Group zunehmend auch Han­ delskonzerne, Versorgungsunternehmen sowie ­Anbieter in den Branchen Life Sciences und Medizin sowie aus vielen anderen Märkten, dass Daten zum Grundkapital gehören – also ein wichtiges Wirtschaftsgut sind. (Quelle: Experton Big Data*) Aufgefächert auf Unternehmensabteilungen pro­ fitieren von Big Data besonders Forschung und ­Entwicklung, Marketing und Vertrieb, Produktion, Distribution und Logistik sowie Finanz-Controlling und Risk-Management. In diesen fünf Funktions­ bereichen lässt sich der wirtschaftliche Nutzen von Big Data besonders eindrucksvoll belegen. Big Data analysieren Trotz des unumstrittenen Nutzens stellt es für viele Firmen eine Herausforderung dar, die gesammelten Daten in verwertbare Informationen zu verwandeln. Laut Marktforscher Gartner werden bis 2015 mehr als 85 Prozent der Fortune-500-Unternehmen nicht in der Lage sein, Big Data effektiv zu nutzen, um sich einen Wettbewerbsvorteil zu verschaffen. „Die meisten Unternehmen sind schlecht auf die Herausforderungen für Technik und Verwaltung vorbereitet, die mit Big Data einhergehen“, sagen die Analysten von Gartner. „Daher werden nur ­wenige in der Lage sein, diesen Trend effektiv zu nutzen und sich einen Wettbewerbsvorteil zu verschaffen.“ (Quelle: Gartner PI*) Alle drei Faktoren – Datenmenge, Datenvielfalt und Verarbeitungsgeschwindigkeit – sind eine große Herausforderung mit Blick auf die herkömmliche Datenverarbeitung und -analyse. Relationale ­Datenbanken sind ihrem Ursprung und ihrer Architektur nach dann effizient nutzbar, wenn sie für häufige Transaktionen auf Datensatzebene oder für Szenarien mit kleinen bis mittleren Datenvolumina eingesetzt werden. Zur Verarbeitung und Analyse von Datenmengen im Peta- oder gar Exabyte-Bereich sind sie nicht ausgerichtet. Vor allem lassen sich unstrukturierte Daten nicht oder nur schwer in tabellenorientierten, relationalen Datenbanksystemen speichern. „Da immer mehr Daten für Auswertungen zur ­Verfügung stehen, brauchen Unternehmen neue Ansätze und Technologien“, heißt es in der GartnerStudie „Big Data Opportunities, New Answers and New Questions“ (Quelle: Gartner Big Data*). Neue „Big-Data-Systeme“ müssen nicht nur die ­Datenmassen bewältigen, sondern auch unstruk­ turierte Daten zuverlässig analysieren – und das möglichst schnell. Diese Echtzeitanalysen erfordern Systeme mit extrem schnellen Datenbankzugriffen und einer effizienten Parallelisierung, um Aufgaben auf viele Rechner zu verteilen – ein Ansatz, der aus der Vergangenheit unter dem Begriff Grid Computing bekannt ist. Wegbereiter solcher Big-Data-Werkzeuge zur Analyse unstrukturierter Daten war Google. Mit dem Programmiermodell MapReduce hat der Konzern die Verarbeitung der Datenmassen so aufgeteilt, dass die Infrastruktur flexibel an die Datengröße angepasst werden kann. Daraus entstand das populäre Open-Source-Projekt Hadoop, heute neben In-Memory und NoSQL-Datenbanken für unstrukturierte Daten der Standard für die Big-Data-Technologie. Im Bereich der Unternehmensanwendungen setzte SAP mit der auf In-Memory-Technologie basierenden SAP-HANA-Datenbank (High Performance Analytic Appliance) die Entwicklung in Gang. Das Herzstück der Big-Data-Analyse bilden Modelle und Algorithmen, die darauf ausgerichtet sind, 3 ­ usammenhänge in den Datenbergen ausfindig zu Z machen und Muster und Ähnlichkeiten zu erkennen. Diese Predictive- oder Business-Analytics-­ Lösungen helfen nicht nur, schnell und akkurat ein Bild der Gegenwart zu zeichnen, sondern auch, ­Vorhersagen zu treffen und damit Prognosen über künftige Entwicklungen abzugeben. Dies geschieht auf Basis von statistischen und stochastischen ­Methoden, Datenmodellen und Simulationen mit Best-Case- und Worst-Case-Szenarien, die die ­Entwicklung ganz neuer Berufsbilder, wie das des „Data Scientist“, nach sich ziehen. Business goals related to decision-making capabilities and agility/speed are significantly connected to a majority of respondents’ big data strategies and initiatives. (5) To a significant extent (4) (3) To a moderate extent (2) Increasing speed of decision-making Increasing business agility New customer acquisition/retention Using immediate market feedback to improve customer satisfaction Building new business partnerships Improving internal communication Developing new products/services and revenue streams Quelle: How ­Organisations are ­approaching Big Data, IDG, September 2013 (200 Entscheider aus Unternehmen mit mehr als 100 Mitar­ beitern in den USA, Brasilien, Niederlande, Österreich, Südafrika und der Schweiz) Strengthening existing business partnerships Improving finance/accounting and procurement processes Reducing CAPEX Reducing OPEX 34 23 53 35 32 26 53 37 31 Improving the speed of response to IT security issues Meeting regulatory/compliance requirements 35 31 Improving the quality of decision-making Improving planning and forecasting capabilities (1) To a significant extent 28 31 29 22 29 35 6 3 28 26 33 30 26 33 27 4 3 8 3 8 5 26 32 32 6 4 25 34 32 6 4 25 32 35 5 3 25 32 34 6 3 25 29 23 30 19 23 18 28 35 33 41 41 6 4 9 5 12 5 8 5 To what extent is your organization’s big data strategy/big data initiatives connected to each of the following business goals? Base: 155 qualified respondents who have implemented or have plans to implement big data projects (figures in per cent) About half of all respondents have either already deployed or are in the process of implementing big data projects at their organizations. Already deployed/implemented big data initiatives In the process of implementing big data projects 23 25 Planning to implement big data projects over the next 12 months Planning to implement big data projects within the next 13 – 24 months We have no immediate plans to implement big data projects Quelle: How ­Organisations are ­approaching Big Data, IDG, September 2013 10 23 21 At what stage is your organization currently with the planning and rollout of big data projects? Base: 200 qualified respondents (figures in per cent) 4 Data to Decisions: die sechs Schritte Wie entstehen aus den großen Mengen un­ strukturierter Twitter- und Facebook-Text-, ­Video- und Verbrauchsdaten aussagekräftige ­Informationen? Zwischen den Daten, die den Weg in das Unternehmen finden, und den ­aufbereiteten Informationen, die Führungs­ kräften als Entscheidungsgrundlage dienen, liegt ein technisch aufwendiger Weg. Es finden unzählige Auswahl-, Verarbeitungs- und Analyseprozesse statt. Der Analytics-Experte Ken McLaughlin schlägt – basierend auf der Auswertung mehrerer Fall­ studien – in seinem Blog „Data to Decisions“ sechs konkrete Schritte vor, wie sich mit Business Analytics datenbasierte Entscheidungen generieren lassen. Schritt 1: Ein Ziel definieren Ein klar definiertes Ziel muss zwei Voraussetzungen erfüllen: Es muss sowohl erreichbar als auch messbar sein. „Senke die Produktversandkosten um 15 Prozent“ wäre zum Beispiel ein klar formuliertes Ziel. Schritt 2: Alternativen modellieren Das Ziel bestimmt die Richtung, gibt die Alternativen und den Weg zur Erreichung des Ziels vor. Beispiel: „Kosten für einen preiswerten ­Versender“ versus „Kosten für einen automa­ tisierten Abwicklungsprozess“ wären mögliche Alternativen. Schritt 3: Erforderliche Daten bestimmen Festlegung der Daten und Metriken, die für die ­jeweilige Alternativen gebraucht werden. Im Beispiel: frühere Versandkosten sowie Software- und Hardwarekosten für automatisierte Prozesse. Schritt 4: Daten sammeln und organisieren Um die Modelle bewerten zu können, müssen zuvor Daten gesammelt und organisiert werden. Schritt 5: Daten analysieren Für die eigentliche Bewertung müssen die geeignete Analysetechnik und im Anschluss die beste Modellalternative ausgewählt werden. Schritt 6: Entscheiden und ausführen Schließlich sollten die Aktion, die die besten ­Ergebnisse brachte, ausgeführt und die realen Resultate beobachtet werden. Welche Risiken gibt es? Eine zentrale Frage im Zusammenhang mit Big Data ist die nach der Datenqualität: Kommen ­Daten mehrfach vor, sind sie fehlerhaft oder in­ konsistent, fehlen ganze Datensätze? Den Nutzern ist die Bedeutung dieser Frage in der Regel bewusst, wie eine Studie von Omikron Data Quality zeigt. Danach gehen 39 Prozent der Befragten ­davon aus, dass Big-Data-Ansätze zum Scheitern verurteilt sind, wenn die Daten von schlechter ­Qualität sind. „Es leuchtet ein, dass mit einer größeren Datenmenge die statistische Signifikanz steigt und man sich also auf die BI-Analyseergebnisse besser verlassen kann“, heißt es in der Studie. „Sind aber schon die Ausgangsdaten unrichtig, doppelt oder inkonsistent, wird diese Signifikanz trüge- risch: Im schlimmsten Fall hat man dann zwar ­mathematisch folgerichtige und scheinbar klare Ergebnisse – die aber sind faktisch falsch. Wenn dann aus den Analyseergebnissen auch noch Handlungen abgeleitet werden – was ja das Ziel von BI ist –, sind negative Folgen programmiert.“ (Quelle: Omikron Data Quality*) Sollen die Analysen und Prognosen also korrekt sein, muss die Grundlage, die Daten, stimmen. In der klassischen BI existieren dazu im Rahmen des sogenannten ETL-Prozesses (Extract, Transform, Load) erprobte Verfahren und Methoden, unsau­ bere Daten zu bereinigen, bevor die Informationen im Data Warehouse landen. Dazu gehören etwa Profiling, Cleansing sowie Anreichern und Abgleichen mit Referenzdaten. 5 Herausforderung Datensilos Eine weitere grundlegende Herausforderung (oder weitere Kernfrage) im Umgang mit Big Data ist die Verteilung der Daten auf parallele Systeme. Zum ­einen beherrschen aus historischen Gründen noch immer Datensilos – etwa aus CRM-, ERP- und anderen Systemen – die Architektur der Datenhaltung, die zunehmend auch die Altdatenarchivierung übernehmen müssen. Mit steigendem Datenvolumen weisen zum nderen viele Unternehmen die ­anfallende Datenflut nur noch verschiedenen ­Speicherorten zu – ohne sie vorher zu verarbeiten und zu transformieren. Diese verteilten und heterogenen Datenverar­ beitungs- und Speicherstrukturen sind weder ­wirtschaftlich noch zielführend für potenzielle ­Datenanalysen. Sie verhindern den Austausch und die Integration von Daten und erschweren insbeson­dere den ganzheitlichen Blick auf das ­Datenmanagement. Abhilfe können hier moderne Integrationstech­ nologien schaffen, die die strukturierten, unstruk­ turierten und semistrukturierten Daten aus den ­verschiedenen Quellen zu einem integralen Bestandteil der unternehmensweiten Datenmanagementstrategie machen. Dazu zapfen Softwarelösungen die Datenquellen im gesamten Unternehmen an, lesen und extra­ hieren sie und laden sie in das dafür vorgesehene Speichersystem. Im nächsten Schritt werden diese Daten in Datenmodelle eingespielt und mit weiteren Daten aus anderen Quellen angereichert und anschließend ausgewertet. Cloud-basierte Systeme helfen hier, Speicherkapazitäten für große Datenmengen zu schaffen. Kein Big Data ohne Fachkräfte Für den erfolgreichen Einsatz von Big-Data-Analysen sind nicht nur geeignete Technologien erforderlich, sondern auch kompetentes Fachpersonal. Big Data Analytics lässt sich nur mithilfe hoch qualifizierter Spezialisten umsetzen, die den Umgang mit Tools und Technologien beherrschen und zugleich in der Lage sind, Fachbereichsanforderungen zu verstehen und IT-seitig umzusetzen. ­ mwandlung in konkreten betrieblichen Wert. Im U Jahr 2003 hat Capital One den branchenweit ersten CDO ernannt. Seitdem erscheint die CDO-Position allmählich auf Führungskräftelisten, vor allem in großen öffent­lichen Institutionen, die mit Daten überflutet werden. Laut Gartner ist der CDO weltweit bei 2 Prozent der Unternehmen etabliert, in großen Betrieben sind es 6 Prozent, 2017 sollen es – so die Prognose – 20 Prozent sein. In Europa ist der CDO noch relativ unbekannt. Ob es wirklich notwendig ist, einen CDO zu etablieren, ist umstritten, zumal dessen Rolle nicht genau umrissen ist. Dringend benötigt werden indes Big-Data-Experten, die faktisch mit den Daten arbeiten. Diese ­IT-Experten müssen andere Fähigkeiten besitzen als die Fachkräfte für konventionelle IT-Systeme. Neben den technischen Voraussetzungen müssen diese Spezialisten den Umgang mit statistischen und stochastischen Methoden sowie analytischen Modellen beherrschen und über ein fundiertes Branchen-Know-how verfügen. Die Experton Group fordert deshalb neue Berufs­ bilder wie den Data Scientist und den Data Artist. Der Data Scientist ist der Datenexperte, der die Analyseverfahren festlegt und die Daten analysiert. Er benötigt eine Querschnittsausbildung mit Kenntnissen in Mathematik und Stochastik, Grundlagen der Programmierung, SQL und Datenbanken, Informationstechnik und Netzwerken. Die Aufbereitung und Visualisierung übernimmt dann ergänzend der Data Artist. Dessen Ausbildung umfasst Grafikdesign, Psychologie, ein wenig ­Mathematik, IT und Kommunikation. Diese Jobs bilden sozusagen den Kern des Big-Data-Personals. Zu dieser Kerngruppe gesellen sich noch weitere neue Berufe, alle zusammen zeigt die Tabelle (auf der nächsten Seite). In den USA wurde vor einiger Zeit begonnen, auf C-Level-Ebene den Chief Data Officer (CDO) ein­zuführen. Dessen Schwerpunkt liegt bei der ­Ver­waltung der Daten als Aktivposten und bei der 6 Big-Data-Berufsbilder Tätigkeit Inhalt Erforderliches Know-how Data Scientist Legt fest, welche Analyseformen sich am besten eignen und welche Rohdaten benötigt werden, und wertet diese aus Mathematik, Stochastik, Programmierung, SQL und Datenbanken, Informationstechnik und Netz­ werke Data Artist Verständliche Präsentation der Auswertungen in Form von Diagrammen und Grafiken Grafikdesign, Psychologie, Mathematik, IT und Kommunikation Data Architect Erstellt Datenmodelle und legt fest, wann welche Analyse-Tools Verwendung finden Datenbanken, Datenanalyse, BI Dateningenieur Betreut die Hardware und ­Software, insbesondere die ­Analysesysteme und die Netzkomponenten Hardware, Softwarekenntnisse, Programmierung Information Broker Beschafft Informationen und stellt sie zur Verfügung, z.B. indem er Kundendaten oder Inhouse-­ Datenbestände unterschiedlicher Quellen bereitstellt Datenbanken, Kommunikation, Psychologie Wer Big-Data-Spezialisten ausbildet Bis dato können Unternehmen allerdings kaum auf diese personellen Ressourcen zurückgreifen. „Data Scientist und Data Artist sind Berufsbilder, die im Rahmen einer zwei- bis dreijährigen Berufsausbildung vermittelbar sind, aber aufgrund ihres Querschnittscharakters heute noch nicht existieren“, sagt Holm Landrock, Senior Advisor der Experton Group. In der Tat gibt es nur wenige Unternehmen und ­Organisationen, die sich für Ansätze einer Aus­ bildung von Data Scientists und Data Artists ­enga­gieren – von einer fundierten Ausbildung kann keine Rede sein. IT-Unternehmen wie SAS, EMC oder Oracle bieten zumindest Schulungen und Fortbildungen in dieser Richtung an. Auch die Fraunhofer-Gesellschaft ist mit einem Trainings­ angebot Data Scientist aktiv. Doch diese Schnellkurse sind nur ein Tropfen auf den heißen Stein. Die Experton Group empfiehlt deshalb der ICT-Branche, gemeinsam mit Bildungseinrichtungen – etwa den Berufsakademien, Fachschulen, den Branchenverbänden und auch den IHKs – schnellstmöglich neue Berufsbilder zu schaffen. ­Solche Ausbildungen von Mitarbeitern für die Rolle der Data Scientists und weiterer neuer Berufsbilder sind keine Samariter-Projekte, sondern ein guter Grundstein für künftige Big-Data-Projekte und sich daraus ergebende nachhaltige Geschäftserfolge. 7 Welche Big-Data-Lösungen gibt es? Eine Standardlösung gibt es nicht, doch haben sich in den vergangenen Jahren Verarbeitungstechniken herauskristallisiert, die heute und die nächsten Jahre als Basis für Big-Data-Analysen dienen. Der Königsweg, die Datenmassen in den Griff zu bekommen, ist das uralte Prinzip „Teile und herrsche“. Rechenaufgaben werden dazu in viele kleine Teilaufgaben zerlegt und auf mehrere Server ­verteilt. Als De-facto-Standard beim verteilten Rechnen hat sich der von Google entwickelte ­MapReduce-Algorithmus durchgesetzt. Eine ­typische MapReduce-Anwendung berechnet ­dabei einige Terabyte an Daten auf Tausenden von Maschinen. Praktisch realisiert wird MapReduce mit der Softwarebibliothek Apache Hadoop. Mit der Aufteilung der Daten in kleinere Portionen und deren paralleler Bearbeitung auf Standardrechnern hat sich Hadoop als aktueller Branchenstandard für Big-Data-Umgebungen durchgesetzt. Mit Hadoop konnte beispielsweise der chinesische Mobilfunk-Provider China Mobile das Nutzungsverhalten und die Abwanderungswahrscheinlichkeit ­aller seiner Kunden analysieren. Die zuvor eingesetzte „scale up“-Lösung ermöglichte es dem Unternehmen, die Daten von nur etwa zehn Prozent der Kunden auszuwerten. Nun konnten alle Kundendaten berücksichtigt werden, sodass gezielte Marketingmaßnahmen die Abwanderungen reduzierten. About two-thirds of respondents are extremely/very likely to consider using or to continue to use in-memory databases. (5) Extremely likely (4) Very likely (3) Somewhat likely (2) Not very likely (1) Not at all likely Not familiar with this type of solution In-memory databases (e.g., SAP HANA, Oracle Exadata) Log file analysis software NoSQL databases Columnar databases Hadoop/MapReduce 28 38 15 9 3 6 20 32 26 10 3 20 31 26 9 7 17 15 28 25 28 26 12 12 4 6 9 6 11 15 Quelle: How ­Organisations are ­approaching Big Data, IDG, September 2013 How likely are you to consider using or to continue to use each of the following big data solutions? Base: 155 qualified respondents who have implemented or have plans to implement big data projects (figures in per cent) In-Memory erlaubt Echtzeitanalysen Ein Hadoop-Cluster löst allerdings nicht alle BigData-Aufgaben. Liegen die Daten auf der Festplatte, kannibalisieren langsame Datenbankzugriffe das, was beim Parallelisieren gewonnen wurde. Für die beschleunigte Verarbeitung extrem großer Datenmengen haben sich deshalb In-Memory-­ Datenbanken etabliert. Diese Datenbanken speichern die Daten direkt im Arbeitsspeicher (RAM) und rufen sie von dort ab. Das macht sie etwa um den Faktor 1.000 schneller als mit herkömmlicher Plattentechnologie. Um das Performance-Maximum herauszuholen, ­laden In-Memory-Datenbanken deshalb möglichst das gesamte Datenvolumen – zusammen mit den Datenbankanwendungen – in den Hauptspeicher, der dann entsprechend groß dimensioniert sein muss. Damit lässt sich die Analyse von Geschäfts8 daten nahezu in Echtzeit ausführen und nimmt nicht Tage oder Wochen in Anspruch. sen dabei auf gute und sehr gute Erfahrungen. (Quelle: T-Systems New Study*) Mit dem inzwischen recht populären HANA (High Performance Analytic Appliance) bietet SAP beispielsweise eine eigene, auf In-Memory-Technik ­basierende Datenbanktechnologie, die Mitte 2010 von ihren geistigen Vätern Hasso Plattner und ­SAP-Technik-Chef Vishal Sikka als Hochleistungsplattform für die analytische Bearbeitung großer Datenmengen entwickelt wurde. Auch der Datenbankspezialist Oracle bietet mit Exadata inzwischen ein auf In-Memory-Technologie basierendes Datenbanksystem an. Die Mehrheit der deutschen Unternehmen betrachtet In-Memory-Verfahren allerdings zunächst als ­Ergänzungsbaustein für zeitkritische Analysen. Immerhin bereits knapp 20 Prozent der Unternehmen sehen in ihnen aber eine wichtige Antwort auf die Herausforderungen durch Big Data. Sie erwarten, dass In-Memory-Systeme zentraler Bestandteil von Datenanalyseumgebungen werden. In-Memory-Datenbanken sind inzwischen kein ­Nischenthema mehr. Laut einer von TNS-Infratest im Auftrag von T-Systems durchgeführten Studie haben 43 Prozent der deutschen Unter­ nehmen ­In-Memory-Technologien zur Datenauswertung b ­ ereits im Einsatz oder planen dies für die nahe ­Zukunft. 90 Prozent der Nutzer verwei- Für unstrukturierte Daten gibt es darüber hinaus Techniken wie NoSQL-Datenbanken. Dabei ist NoSQL der Sammelbegriff für „nicht-relationale“ Datenbanksysteme und zugleich der Name einer Bewegung weg von den relationalen Datenbanken hin zu neuen beziehungsweise vergessenen Datenbankmodellen. NoSQL Datenbanksysteme können unstrukturierte Daten wie Texte, Audiodateien, ­Videos und Bildmaterial effizient speichern und ­verarbeiten. Overall, respondents believe that in-memory databases best address big data’s challenges, but there are significant differences by region. Respondents in EMEA are significantly more likely to favor in-memory databases (60%), compared to only 22% in the US and 14% in Brazil. In-memory databases (e.g., SAP, HANA, Oracle Exadata) 30 NoSQL databases 19 Log file analysis software Columnar databases Hadoop/MapReduce Not sure Quelle: How ­Organisations are ­approaching Big Data, IDG, September 2013 15 12 11 14 Which of the following solutions do you believe would best address the challenges associated with big data? Base: 147 qualified respondents who are familiar with two or more big data solutions shown in Q.3 (figures in per cent) Make or Buy? Eine letzte Herausforderung auf dem Weg zum ­Big-Data-Erfolg stellt die aktuelle Marktlage für Big-Data-Lösungen dar. Mehrere Dienstleister ­bieten Softwarewerkzeuge auf Hadoop-Basis. Dazu gehören Cloudera, Hortonworks, Datameer und HStreaming und auch große Namen wie IBM, Intel und EMC. Doch die Anbieter stoßen alle an dieselbe Grenze: Keiner besitzt standardisierte Industrielösungen, die sich schnell an die Kundenbedürfnisse anpassen lassen. Oft müssen diese Systeme erst in gemeinsamen Kundenprojekten fachlich entwickelt werden. 9 Für Unternehmen, die die Technologie anwenden möchten, ist dies eine klassische „Make or Buy“Entscheidung. Wenn Analysen nur einmalig erfolgen beziehungsweise große Schwankungen im ­Datenvolumen oder in der Analysenachfrage be­ stehen, dann lohnt es sich eher, auf Cloud-basierte Infrastrukturen zurückzugreifen, als in eine eigene Hardware zu investieren. Der in Deutschland größte Hadoop-Cluster befindet sich derzeit im Münchner Rechenzentrum von T-Systems. Unternehmen bekommen hier Big Data oder Analytics-as-a-Service – zugeschnitten auf den jeweiligen Zeitpunkt und Bedarf. Big-Data-Lösungen werden dabei zum Erfolgsfaktor, doch sie erfordern auch eine gezielte Transformation etwa in Richtung Cloud, um die benötigten Big-Data-Technologien nahtlos in die bestehende Infrastruktur integrieren zu können. Unternehmen müssen zudem die Bereitschaft aufbringen, am Ball zu bleiben und neue Entwicklungen zu integrieren. Ein einziges Datenreservoir, das die Big-Data-Herausforderungen zentral und unkompliziert löst, wird es auch in Zukunft nicht geben. Nach Ansicht von Experton-Group-Analyst Andreas Zilch werden immer nur Teillösungen möglich sein: „Es wird nicht ’die’ Big-Data-Superlösung geben.“ Mittel- bis langfristig sollten Unternehmen aber das Datenmanagement selbst betreiben, da andernfalls ein Großteil der wertvollen Informationen verloren geht. Nur bei kontinuierlicher Arbeit mit den Daten, dem Testen von Hypothesen und der Beobachtung von Veränderungen kann das ganze Potenzial von Big Data ausgeschöpft werden. Erwartet werden in nächster Zeit massiv-parallele Systeme, die durch paralleles Data Crunching noch umfangreichere Daten in noch kürzerer Zeit analysieren können, als dies mit den jetzigen Methoden möglich ist. Fazit Um in hart umkämpften Märkten bei immer kürzer werdenden Produktionszyklen bestehen oder gar wachsen zu können, müssen sich Unternehmen Marktanteile und Absatzerfolge sichern. Dabei unterscheidet der richtige Einsatz von IT Gewinner von Verlierern. Nur wer nah an seinem Kunden ist, dessen Bedarf exakt kennt, Business und IT eng verzahnt und entsprechend ausrichtet, kann sich langfristig im Wettbewerb behaupten. Dabei müssen Unternehmen heute mitunter in der Lage sein, schnell gut vorbereitete Entscheidungen zu treffen und proaktiv zu handeln. So stehen sie heute vor der Herausforderung, ein extrem wachsendes ­Datenvolumen aus zunehmend unterschiedlichen Datenquellen in immer kürzeren Zeitabständen verarbeiten zu müssen. Diese Daten müssen anschließend analysiert werden, um die unternehmerische Entscheidungsfindung mit besseren Zahlen, Daten und Fakten zu untermauern. *Quellen: – Artegic „Marketing in the Digital Age“, 2013 – Experton „Die Entwicklung von Big Data im Jahr 2012“ (Experton Big Data) – Gartner „Big Data Opportunities, New Answers and New Questions“, April 2013 (Gartner Big Data) – Gartner PI „Gartner Reveals Top Predictions for IT-Organizations and Users for 2012 and Beyond“ (Gartner PI) – IDC „Storage in Deutschland 2013“ (IDC Storage) – McKinsey: „Big data: The next frontier for innovation, ­competition, and productivity“ (McKinsey Big Data) – OMIKRON „Datenqualität wird zur Herausforderungen von Big-Data-Strategien“ (Omikron Data Quality) – SAS Study „Most firms say business analytics boosts ­decision-making process“ (SAS Decision Making) – T-Systems-Studie „Quo vadis Big Data“ (T-Systems Big Data) – T-Systems-PI „Neue Studie: Big Data im Fokus der ICT-Entscheider“ (T-Systems New Study) ©IDG Business Media GmbH, Germany 1/2014 10 Case Study HAMBURGER HAFEN WIE KANN BIG DATA EINEM HAFENBETREIBER HELFEN, BESSERE ENTSCHEIDUNGEN ZU TREFFEN? Am Hamburger Hafen bewegen sich täglich bis zu 40.000 mit Containern beladene Lastkraftwagen. Auf dem Gelände interagieren tausende Mitarbeiter von Speditionen, Transporteuren, Parkflächen- und Terminal-Betreibern sowie der Hamburger Hafenbehörde (Hamburg Port Authority, kurz: HPA). Sie alle treffen ohne Unterlass Entscheidungen zum Beispiel über Ankunft- und Verladezeiten oder die Nutzung von Routen und Zwischenstationen, Lagerplätzen, Parkplätzen und Leercontainern. Je besser sich die Akteure dabei abstimmen, desto schneller lassen sich Güter aller Art verschiffen oder wieder auf die Straße bringen. Um dies zu ermöglichen, ist es Aufgabe der Hafenbehörde, die richtigen Informationen den richtigen Beteiligten zur richtigen Zeit zur Verfügung zu stellen. Doch bislang waren die einzelnen Dienstleister lediglich hinsichtlich ihrer eigenen Informationsbedürfnisse optimiert: Durch diese Informationsinseln aufgrund proprietärer Systeme, inhomogener Datenstrukturen und fehlender Schnittstellen gab es am Ende kein übergreifendes Lagebild der Verkehrs- und Infrastruktursituation, das zur Entscheidungsfindung hätte dienen können. Dies und die Menge an Daten und Informationen, die nicht ohne Big Data zur Analyse herangezogen werden konnte, führten in der Folge zu vielen und langen Stehzeiten der Fahrzeuge oder auch zu Leerfahrten über das Hafengelände. De facto waren nur 30 % der Zeit, die Fahrzeuge im Hafen verbringen, effektive Fahrzeit. Auch das Kontakthalten zwischen den Akteuren war aufgrund von Medienbrüchen in der Kommunikation schwierig. So führte zum Beispiel die Nutzung von CB-Funk bei der Auftragsübermittlung an den Fahrer häufig zu Fehlern – etwa bei der Durchgabe von komplexen Auftragsnummern. Bis 2025 erwartet der Hamburger Hafen eine Verdoppelung seines Containerumschlags gegenüber heute. Eine Erweiterung des Hafengeländes ist dabei ausgeschlossen: Der Hamburger Hafen nimmt 10 Prozent des Stadtgebietes ein und kann räumlich nicht wachsen. Umso wichtiger ist es, die bestehende Fläche optimal auszunutzen und den Umschlag besser zu takten. Um diesen zukunftsentscheidenden Anforderungen gerecht zu werden, entwickelte die HPA „Smart Port Logistics“. Die Lösung bindet alle an der Hafenlogistikkette Beteiligten ein und optimiert so den Prozess entlang des Containertransportprozesses. Smart Port Logistics integriert zum einen die Telematiksysteme diverser Fahrzeug- und Trailer-Hersteller und deren Schnittstellen via TelematicOne, was auch über eine Nachrüstlösung (Bring Your Own Device, BYOD) möglich ist. Zum anderen nutzt die Logistiklösung das sogenannte Geofencing für die Kommunikation und für Location Based Services. Erfassung und Verarbeitung der enormen Datenmengen, die dabei entstehen, erfolgen über SAP HANA aus einer Private Cloud. TelematicOne und SAP HANA bilden die Grundlage der verschiedenen Anwendungen (Services), die in einem Servicemarktplatz für den Hamburger Hafen bereitgestellt werden. Die Mitarbeiter des Straßenund Wegemanagements, Disponenten der Speditionen sowie Parkplatzanbieter können damit leicht auf das auf allen Daten basierende, übergreifende Lagebild zugreifen und mittels fundierter Entscheidungen etwa über Routen- und Stellflächennutzung oder An- und Abfahrtzeiten ihre Fahrer gezielt steuern – auch zum Vorteil ihrer Kunden. Dabei erfolgt der Abruf von Informationen dediziert und rollenspezifisch – Datenschutz und Vertraulichkeit sind somit sichergestellt. Rollen heute Lkws auf das Hafengelände, erhalten die Fahrer Aufträge und Ziel von der Speditionszentrale direkt auf ihr Smart Device übermittelt. Das System errechnet außerdem aus Verknüpfungen von Verkehrsfluss und Containertransportkette die geschätzte Ankunftszeit am Terminal (ETA) und zeigt diese ebenso an wie ortsrelevante Infos auf Basis von Geofencing, zum Beispiel wichtige Zufahrtstraßen oder bestimmte Hafenzonen. Pro Tour können Spediteure so fünf bis zehn Minuten Zeit sparen und somit eine Fuhre pro Tag mehr schaffen. Bei 40.000 Lkws pro Tag würden 300.000 Minuten eingespart. 11