WIsMar – WirtschaftsInformatik steigert Marktchancen Modul Wissenschaftliches Arbeiten SS2013 Big Data – Strategischer Vorteil im internationalen Wettbewerb Robert Sack Hochschule Wismar, Fakultät für Wirtschaftswissenschaften Wirtschaftsinformatik Nach Berechnungen verdoppelt sich das weltweite Datenvolumen alle zwei Jahre. Hierbei handelt es sich um Datenmengen, die bis in die Exabytes (1018) gehen. Big Data behandelt das Problem der Erfassung, Analyse und Visualisierung dieser Daten. Für Unternehmen ist es sinnvoll sich mit dem Thema Big Data auseinanderzusetzen. Die schnelle und präzise Auswertung von Daten ermöglichen Unternehmen sowie Institutionen eine effektivere Marktbeobachtung und eine schnelle Auswertung von Webstatistiken zur Anpassung von Online-Werbemaßnahmen. Sogar der Präsident der USA, Barack Obama, hat sich bereits der Konzepte von Big Data bedient. Durch gezielte Analyse von Nutzerprofilen sozialer Netzwerke, wurden sowohl unentschlossene Wähler, als auch deren Interessen ermittelt. Diese Kenntnisse stellen in einem Wahlkampf einen markanten Vorteil dar. Durch den voranschreitenden Globalisierungsprozess, wird es für Unternehmen immer wichtiger durch alternative Konzepte konkurrenzfähig zu bleiben. Der nachfolgende Artikel zeigt Anwendungsbereiche von Big Data in der Wirtschaft auf, welche Probleme dabei zu beachten sind und beantwortet die Frage: inwiefern Unternehmen von Big Data Konzepten profitieren können. According to calculations the worldwide data volume doubles every two years. These are amounts of data in the area of Exabytes (10 18). Big Data is about the capture, analyze and visualizing of these informations. For companies it makes sense to think about the topic Big Data. Because of the fast and precise evaluation of informations, companies as well as institutions are able to have a more effective market investigation and a faster evaluation of web statistics for the adaption of online commercials. Due to the increasing process of globalization it becomes more and more important for companies using alternative concepts to keep competitive. The following article shows areas of application of Big Data in the economy. Which problems have to be observed? Also the article answer the question: Which companies benefit? EINFÜHRUNG BEGRIFFSDEFINITION UND -ERKLÄRUNG In einer Zeit mit immer schneller wachsenden Datenmengen, stellt sich für Unternehmen die Frage, wie sie diese Datenflut bewältigen und Trends sowie Muster daraus ableiten können. Berechnungen zufolge verzehnfacht sich das Datenvolumen alle fünf Jahre. Doch worin liegen die Ursachen dieser explosionsartigen Vervielfältigung an Daten weltweit? Der Hauptgrund liegt in vernetzten Geräten wie Smartphones, Stromzählern, Überwachungskameras oder Autos mit Navigationssystemen. Diese erzeugen fortwährend Daten. Hinzu kommt die Vielfalt an verschiedenen Datentypen zum Beispiel aus Transaktionen, wissenschaftlichen Versuchen, Simulationen und Sensordaten. Dieses Problems nimmt sich Big Data an. Doch kann der Nutzen von Big Data auch mit bereits vorhandenen Mitteln, sprich mit einem Data Warehouse, erzielt werden? Welches sind die zentralen Problemstellungen von Big Data? Welche Herausforderungen ergeben sich daraus für Unternehmen und welche Chancen bieten sich? Über alle diese Fragen gibt der Artikel Auskunft. Zunächst wird Big Data genauer definiert und erklärt. Bei Big Data handelt es sich um einen abstrakten Oberbegriff für jegliche Art und Anzahl von Daten, die mit traditionellen Datenanalyseverfahren nicht handhabbar sind und daher neuer Techniken und Technologien bedürfen. Jedoch ist der genaue Ursprung und die erste Verwendung des Begriffes Big Data nicht eindeutig zu bestimmen. Außerdem gibt es verschiedene Quellen, die Big Data in seiner aktuellen Verwendung geprägt haben. Bezüglich der Eigenschaften gibt es jedoch eine unumstrittene Definition. Diese wurde von Gartner im Jahre 2011 verfasst. Gartner ist das weltweit führende ITForschungs- und Beratungsunternehmen. Sie haben Kunden in 13200 verschiedenen Organisationen. [1] Die Definition stützt sich auf einen Forschungsbericht der Analysten Doug Laney. Er hatte die Herausforderungen des Datenwachstums als dreidimensional bezeichnet. Gartner hat daraus ein 3-V-Modell entwickelt. 1 Die erste Eigenschaft ist „Volume“ (dt. Volumen). Soziale Medien wie Facebook und Twitter erzeugen eine Vielzahl an Daten. Allein Facebook verwaltet täglich ein Datenvolumen von 500 Terabyte (1012). [2] Für traditionelle Datenbanksysteme stellt das eine große Herausforderung dar. Es gibt bereits Datenbanken im Petabyte (1015) Bereich. Jedoch sind diese teuer. Die Herausforderung besteht darin den Wert der Daten zu ermitteln und herauszufinden ob diese die hohen Anschaffungskosten für solch eine Datenbank aufwiegen. ABGRENZUNG ZU BUSINESS INTELLIGENCE Zur Beantwortung der Frage ob Big Data Herausforderungen auch mit bereits vorhandenen Mitteln gelöst werden können, soll anschließend der Unterschied von Big Data zu Business Intelligence erläutert werden. Laut Definition wird Business Intelligence als betriebliche Entscheidungsunterstützung durch einen integrierten, aufs Unternehmen bezogenen IT-basierten Gesamtansatz beschrieben. [6] Daten werden aus unterschiedlichen Abteilungen extrahiert, transformiert und in einer zentralen Datenbank (Data Warehouse) abgelegt. Business Intelligence Anwendungen können über definierte Schnittstellen auf die Daten zugreifen und diese weiterverarbeiten. Der zentrale Unterschied zwischen Big Data und Business Intelligence liegt in der Ausrichtung auf die gesammelten und verarbeitenden Daten. Business Intelligence Lösungen setzen strukturierte, konsistente und beständige Daten voraus. Big Data Lösungen dagegen sind auf unstrukturierte und möglicherweise nicht konsistente Daten hin optimiert. Der Unterschied zwischen strukturierten und unstrukturierten Daten wurde bereits erläutert. Was sind konsistente beziehungsweise nicht konsistente Daten? Datenkonsistenz bezeichnet die Korrektheit der in der Datenbank gespeicherten Daten. Inkonsistente Daten können zu schweren Fehlern führen, wenn die darüber liegende Anwendungsschicht nicht damit rechnet. Business Intelligence Lösungen greifen auf Daten eines Data Warehouse zu. Da das Data Warehouse eine klassische relationale Datenbank ist, kann Business Intelligence nicht mit inkonsistenten Daten arbeiten. Im Unterschied ist auch der Einsatz von verschiedenen Technologien begründet. Wie bereits erläutert setzen Business Intelligence Lösungen auf traditionelle Datenbanksysteme wie relationale Datenbanken, wohingegen Big Data Lösungen auf neuen Konzepten wie zum Beispiel Not Only SQL (NoSql), Hadoop oder In-MemoryTechnologien basieren. Diese Lösungsansätze werden im Folgenden genau erörtert. Die zweite Eigenschaft ist „Velocity“ (dt. Geschwindigkeit). In einer marktwirtschaftlich geprägten Welt wird es für Unternehmen immer wichtiger Daten möglichst schnell zu verarbeiten und entsprechend darauf reagieren zu können. Es existiert allerdings noch ein zweiter Aspekt. Und das ist die Rate mit der aktuell Daten in verschiedensten Anwendungsbereichen erzeugt werden. So verdoppelt sich das Datenvolumen alle zwei Jahre. Das geht aus einer Studie der International Data Corporation aus dem Jahre 2011 hervor. [3] Diese Entwicklung wird in erster Linie getrieben durch die zunehmende maschinelle Erzeugung von Daten zum Beispiel über Protokolle von Telekommunikationsverbindungen, WebZugriffen und die automatische Erfassung von verschiedenen Sensoren (zum Beispiel Kameras, Mikrofone, Wettersensoren). Im Jahre 2011 zum Beispiel wurden global 1,8 Zettabyte (10 21) an Daten produziert. [4] Die dritte Eigenschaft ist „Variety“ (dt. Vielfalt). Diese Eigenschaft ist der wichtigste Aspekt von Big Data und stellt gleichzeitig die größte Herausforderung dar. Traditionelle Datenbanksysteme können mit den stark unterschiedlichen und oft unstrukturierten Daten nicht umgehen. Sie arbeiten mit Relationen. Das kann man sich vereinfacht als Tabelle vorstellen. Jede Zeile einer solchen Tabelle entspricht einem Datensatz. Zudem sind strukturierte Daten erforderlich. Ein Beispiel für strukturierte Daten sind Kundenstammdaten. Es gibt jedoch auch halbstrukturierte Daten, wie zum Beispiel die von E-Mails. Hierbei ist der Kopf (Absender, Empfänger, Betreff) strukturiert und der Rumpf unstrukturiert. Für den Text einer E-Mail existiert keine vorgegebene Struktur. Außerdem existieren unstrukturierte Daten wie Bilder, Videos und Audiodateien. Big Data fasst alle Daten, ob strukturiert oder nicht zusammen und analysiert diese gemeinsam. LÖSUNGSANSÄTZE Eine zentrale Herausforderung von Big Data ist die rasant wachsende Komplexität, die aufgrund der mangelnden Struktur von Daten entsteht. Als Regel lässt sich sagen, dass heute nur 15% der Daten strukturiert sind, circa 85% der Daten sind unstrukturiert. [7](S. 5) Außerdem hält eine neue Vielfalt an Datenarten im geschäftlichen und privaten Bereich Einzug. Soziale Medien fördern die Verbreitung von Texten, Bildern, Musik- oder Videodateien. Darüber hinaus liefern intelligente Geräte wie Smartphones oder Navigationssysteme eine Vielzahl an Sensordaten. Darüber hinaus ist es für die optimale Unterstützung und Steuerung von Geschäftsprozessen unabdingbar, Geschäftsdaten in Echtzeit zu analysieren und auszuwerten. Um diese Herausforderungen zu bewältigen, gibt es verschiedene Lösungsansätze welche jetzt erläutert werden. Eine weitere Eigenschaft, die häufig zur Beschreibung von Big Data Verwendung findet ist „Veracity“ (dt. Zuverlässigkeit). Diese wurde von IBM geprägt. [5] Daten stammen häufig aus unterschiedlichen Quellen und können daher zweifelhaft oder ungenau sein. Auch darin besteht die Herausforderung von Big Data. Zudem muss unter dem Aspekt der Unternehmensziele (zum Beispiel maximaler Gewinn) die Verfügbarkeit und Analyse der Daten möglichst schnell geschehen. Das führt dazu, dass die Daten nicht rechtzeitig bereinigt werden. Daher haftet den gesammelten Daten häufig eine gewisse Ungenauigkeit und Unsicherheit an. Dies muss bei der Betrachtung von Big Data berücksichtigt werden. 2 Der erste Lösungsansatz soll Not Only SQL (NoSql) sein. NoSql dient dazu nicht strukturierte Daten zu managen. Das sind vor allem Texte, Bilder, Audios und Videos. Die Bezeichnung Not Only SQL steht für „nicht nur SQL“. Obwohl die NoSql Datenbanken nicht-relationale Daten speichern können, verfügen sie meist auch über eine an SQL angelehnte Schnittstelle zur Abfrage der Daten. Der NoSql-Ansatz wird versucht relationale Systeme sinnvoll zu ergänzen. Und zwar mit Methoden die deren Defizite beheben, durch nichtrelationale und nicht transaktionsgeschützte Konzepte. Transaktionsschutz beschreibt erwünschte Eigenschaften von Verarbeitungsschritten in Datenbankmanagementsystemen (Atomarität, Konsistenzerhaltung, Isolation, Dauerhaftigkeit). NoSql gewährleistet eine schnelle Speicherung großer Datenmengen. Dafür verzichtet NoSql auf absolute Datenkonsistenz und starke Strukturierung der gespeicherten Daten. Big Data überall anzutreffen wo Informationen von großer Bedeutung sind. Die Anwendungsbereiche in der Wirtschaft gliedern sich in fünf Gruppen. Die erste Gruppe ist Marketing und Vertrieb. Big Data erleichtert es Marketing- und Vertriebsabteilungen Produktund Serviceangebote zunehmend auf Kundensegmente oder einzelne Kunden zuzuschneiden und Streuverluste im Marketing zu vermindern. Streuverluste sind Fehlinvestitionen in Werbekampagnen, die eine nicht relevante Zielgruppe erreichen, aber dennoch einen Werbeträger belegen. [8] Dem Handel eröffnen sich Cross-Selling-Potenziale. Wenn Händler typische Muster für Kaufentscheidungen identifizieren, können sie den Umsatz pro Kaufvorgang erhöhen. Durch das in Echtzeit zueinander in Beziehung setzen von Transaktionsdaten, Standortdaten eines Kunden und demographischen Daten, ist es Händlern möglich, zu einem bestimmten Zeitpunkt an einem Ort spezifische Angebote zu machen. Der nächste Lösungsansatz ist Hadoop. Hadoop nimmt sich in erster Linie des Problems der großen Datenmengen an. Applikationen können komplexe Computing-Aufgaben auf tausende Rechnerknoten verteilen und Datenvolumina im Petabyte-Bereich verarbeiten. Dabei werden rechenintensive Prozesse auf Server-Clustern abgearbeitet. Ein Server-Cluster ist ein Verbund aus mehreren Servern. Hadoop enthält eine Implementierung des MapReduce-Algorithmus. Die Grundidee von MapReduce ist, Rechenaufgaben in kleine Teile zu zerlegen, auf eine Vielzahl von Rechnern zu verteilen, dort extrem parallelisiert abzuarbeiten und sie danach wieder zusammenzuführen. Die zweite Gruppe ist die Produktentwicklung. In der Entwicklung der nächsten Produktgeneration helfen SocialMedia-Analysen und die Auswertung von Sensordaten der zurzeit im Einsatz befindlichen Produkte. Produkte nächster Generationen könnten demnach genauer auf die Bedürfnisse der Kunden zugeschnitten sein. Durch Social-MediaTrendanalysen könnten außerdem neue Produktideen entwickelt werden. Die dritte Gruppe ist Produktion, Service und Support. Entlang von Produktions- und Lieferketten und an Produkten werden Sensordaten erfasst und zur Optimierung der Fertigungs-, Service- und Supportprozesse verwendet. Die meisten dieser Daten fließen in Echtzeit in Datenbanken ein. Zum Beispiel zum Zweck der Überwachung. Dies wird unter anderem in der Ölförderung praktiziert. Hierbei lassen sich mit Daten von Bohrköpfen, seismischen Sensoren und Telemetrie-Satelliten Fehler vermeiden sowie Betriebs- und Wartungskosten senken. Unternehmen arbeiten daran die verschiedenen Unternehmensbereiche miteinander zu verknüpfen und auch Zulieferer und Partner in die Optimierung mit einzubeziehen. Ein weiterer Lösungsansatz ist die In-Memory-Technologie. In-Memory-Technologie ist eine weitere Technik, die den Umgang mit großen Datenmengen erleichtert. Durch gesunkene Hardwarekosten hat sich das Caching der Daten im Hauptspeicher zu einem beliebten Mittel der PerformanceSteigerung gemacht. Aus einer Befragung der InfraLive GmbH aus dem Jahr 2012 geht das klar hervor. Dabei gaben 56% der Befragten an, dass Bestrebungen bezüglich der Implementierung der Data-Management-Strategie eine zentrale Rolle spielen. [7](S. 13) Der größte Vorteil von In-MemoryTechnologien ist, dass der Arbeitsspeicher eines Rechners wesentlich höhere Zugriffsgeschwindigkeiten ermöglicht als der Festplattenspeicher. Zudem werden dadurch die Algorithmen für den Zugriff einfacher. Mit In-MemoryTechnologien wird vor allem die Herausforderung der möglichst schnellen Verarbeitung von Daten angegangen. Die Vorteile von In-Memory-Technologien lassen sich optimal nutzen, wenn die gesamte Datenmenge in den Hauptspeicher passt. Um hohe Leistung zu erzielen wird In-MemoryComputing verwendet, ohne dabei mit der bewährten relationalen Technik zu brechen. Hersteller bieten hybride Datenbanken an. Das ist eine Mischung aus beidem. Die vierte Gruppe ist Distribution und Logistik. Durch eine stärkere Vernetzung von Fahrzeugen mit der Außenwelt, wird eine nachhaltige Kostensenkung angestrebt. Immer mehr Fahrzeuge werden mit Sensoren und Steuerungsmodulen ausgestattet. Diese liefern Fahrzeugdaten wie den Benzinverbrauch, Verschleißinformationen von Fahrzeugteilen sowie Positionsdaten und speichern sie in eine Datenbank. Mit Hilfe solcher Daten können Disponenten zeitnah Touren planen, und gegebenenfalls Routen und / oder Beladung ändern, Wartungskosten und Stillstandzeiten minimieren. In der Optimierung von Lieferketten liegt ein weiteres Einsatzgebiet von Big Data. Dazu dienen Daten der eigenen Kapazitäten. Darüber hinaus müssen dafür Daten der Auftragsfertiger, der Zwischenlager und der Logistikpartner sowie Prognosen künftiger Absatzmengen gesammelt und analysiert werden. Eine zeitnahe Auswertung dieser Daten ist erfolgsentscheidend. EINSATZGEBIETE IN DER WIRTSCHAFT Die Anwendungsbereiche von Big Data sind vielfältig. Die klassischen Produktionsfaktoren in der Wirtschaft sind Boden, Arbeit und Kapital. Durch die wachsende Bedeutung von Daten im betriebswirtschaftlichen Kontext, aber auch für statistische, wissenschaftliche oder technische Anwendungen, wird immer häufiger die Information als Produktionsfaktor hinzugenommen. Deshalb sind die Anwendungsbereiche von Die fünfte Gruppe ist Finanz- und Risikocontrolling. Eine zentrale Anwendung ist hierbei die Echtzeit-Reaktion auf Geschäftsinformationen. 3 Durch Big-Data-Technologien können unterschiedliche Unternehmensinformationen schnell zusammengeführt werden. Die Zahl an Daten, Fakten und Beobachtungen steigt kontinuierlich. Und neue Herangehensweisen in Soft- und Hardware ermöglichen es Informationen analytisch so aufzubereiten, dass sie im Geschäftsprozess zur Verfügung stehen. Big Data Ansätze erlauben die gezielte Beantwortung von Add-Hoc Fragestellungen, wohingegen Business Intelligence Lösungen formatierte Berichte aus starren Datenmodellen einsetzen. Eine weitere Anwendung ist die Erstellung von aussagekräftigen Vorhersagemodellen. Mit BigData-Technologien können viele unterschiedliche Modelle berechnet werden und deren Aussagekraft verglichen werden. Und das zeitnah. Mit Business-Intelligence-Lösungen ist die Berechnung der Vohersagemodelle aufgrund der Komplexität der Fragestellung sowie der Menge der anfallenden Daten ein aufwändiger Prozess mit langen Laufzeiten. Die Chancen die sich aus Big Data ergeben sind zahlreich. Laut dem Frauenhofer-Institut für intelligente Analyse- und Informationsverfahren wird Big Data zu einem Schlüsselfaktor in der weltweiten digitalen Revolution in der Wirtschaft. [9] (S. 3) Mit Big Data Konzepten lassen sich Vertriebs- und Marketingaktivitäten und –auswertungen verbessern. Geschäftsanalysen lassen sich optimieren, sodass genau identifiziert werden kann bei welchen Prozess in welcher Abteilung des Unternehmens Potentiale zur Umsatzsteigerung beziehungsweise Kostensenkung vorhanden sind. Außerdem lassen sich Logistikprozesse optimieren. Damit sind beispielweise minimale Stillstandzeiten gemeint. Zudem kann Big Data neue Geschäftsfelder erschließen. Durch SocialMedia-Analysen ergibt sich die Möglichkeit für Unternehmen Produkte zu entwickeln, die besser auf die Bedürfnisse der Kunden zugeschnitten sind. Unter dem Aspekt der wachsenden Konkurrenz auf dem Weltmarkt in allen Bereichen der Wirtschaft, kann Big Data Unternehmen einen beträchtlichen strategischen Vorteil einbringen. Allerdings sind diese Chancen momentan alle theoretisch. Es existieren noch keine Standards und wenig fertige Lösungen für Big Data. HERAUSFORDERUNGEN & CHANCEN FÜR UNTERNEHMEN Der Einsatz von Big Data Konzepten eröffnet Unternehmen viele Chancen. Wie diese genau aussehen, soll später ausgeführt werden. Die mit Big Data verbundenen Chancen entstehen nicht automatisch. Unternehmen müssen sich mit Herausforderungen auseinandersetzen, die primär das Management von Daten betrifft. Das Fundament um die Möglichkeiten von Big Data Konzepten zu nutzen, ist eine innovative Big Data Strategie. Mit einer solchen Strategie haben Unternehmen die Möglichkeit auf Markt- und Kundenveränderungen schnell reagieren und bevorstehende Veränderungen frühzeitig erkennen zu können. Daraus lassen sich Wettbewerbsvorteile ziehen. Für solch eine Strategie reicht es nicht aus immer größere Datenmengen zu speichern. Unternehmen verfügen seit Jahren über Massendaten und Dokumenten, die mithilfe von Business Intelligence analysiert und ausgewertet werden. Dies stößt jedoch an seine Grenzen. Aufgrund des Datenvolumens dauert die Auswertung zu lange und verliert somit für die Entscheidungsvorbereitung an Wert. Daraus lässt sich schlussfolgern, dass Daten schnell ausgewertet werden müssen, um den optimalen Nutzen aus ihnen zu ziehen. Des Weiteren müssen Unternehmen sicherstellen alle relevanten Daten und Informationen zu erfassen und sicherzustellen, dass diese nicht verloren gehen. Sprich Unternehmen müssen Datenverluste vermeiden. Des Weiteren müssen Unternehmen für den Umgang mit Daten Verantwortlichkeiten und Prozesse festlegen. Zum einen um Missbrauch von Daten zu vermeiden, zum anderen für die Auswertung komplexer Daten in Echtzeit. Um dies umsetzen zu können benötigen Unternehmen eine heterogene und komplexe Informationslandschaft. Das führt zu höheren Betriebskosten. Das immense Datenvolumen sowie die Vielfalt der Informationen erhöhen die Bedeutung einer problemadäquaten Interpretation der Daten sowie die Sicherstellung ihrer Aktualität. Fehlinterpretationen sind unbedingt zu vermeiden. Grundvoraussetzung um das immense Datenvolumen problemadäquat interpretieren zu können sind klare Datenstrukturen und Abläufe. Unternehmen müssen darüber hinaus beachten, dass Daten aus vielen unterschiedlichen und möglicherweise unsicheren Quellen stammen. Dies hat große Relevanz bei der Analyse, weil Daten eventuell ungenau und unsicher sein können. AUSBLICK In den nächsten Jahren werden durch wachsende Anzahl und Diversität von Diensten die immer größere Datenmengen anfallen. Dieser große, unstrukturierte Datenhaufen soll in Zukunft durch Big Data Systeme strukturiert und für Analysen zugänglich gemacht werden. Damit das gelingt muss sowohl auf Software- als auch auf Hardwareebene weiterentwickelt werden. Es werden einerseits geeignete Speicher und Rechencluster und andererseits neue abstrakte und analytische Verfahren sowie statistische Methoden, um Zusammenhänge in den Daten zu verstehen und diese gewinnbringend nutzen zu können benötigt. REFERENZEN 1. http://www.gartner.com/technology/about.jsp 2. http://t3n.de/news/facebook-big-datagigantische-410203/ 3. http://www.cio.de/dynamicit/bestpractice/228 1581/ 4. http://t3n.de/news/infografik-viele-datenproduziert-welt-2011-317261/ 5. http://www01.ibm.com/software/data/bigdata/ 6. Grünwald, Taubner: Business Intelligence, In: Informatik Spektrum: Aktuelles Schlagwort. http://link.springer.com/content/pdf/10.1007% 2Fs00287-009-0374-1, Deutschland, 2009 7. TNS Infratest GmbH – Geschäftsbereich Technology: Quo Vadis Big Data – Herausforderungen – Erfahrungen – Lösungsansätze, 2012 8. http://de.wikipedia.org/wiki/Streuung 9. http://www.iais.fraunhofer.de/fileadmin/user_ upload/Abteilungen/KD/pdfs/FraunhoferIAIS_Bi g-Data_2012-12-10.pdf 4