BIG DATA-ANALYSE Wettbewerbsvorteile aus der Kombination von Big Data und erweiterter Analyse EMC PERSPECTIVE INHALT ZURÜCK IN DIE ZUKUNFT: DAS ZEITALTER VON BIG DATA 1 NUTZEN DER MÖGLICHKEITEN EINER „BIG DATA-ANALYSE“ 1 PUNKT 1: AGILES COMPUTING 2 „AGILES“ DATA WAREHOUSING 2 INTEGRIERTE DATA WAREHOUSES UND ANALYSEN 2 PUNKT 2: LINEARE SKALIERBARKEIT 3 UMWANDLUNG VON ETL IN DATENANREICHERUNG 3 UNTERSTÜTZUNG VON EXTREM VARIABLEN ABFRAGE- UND ANALYSE-WORKLOADS 3 ANALYSE VON GROSSEN, DETAILLIERTEN DATENSÄTZEN (BIG DATA) 4 DATENZUGRIFF UND ENTSCHEIDUNGSFINDUNG MIT GERINGER LATENZ 4 PUNKT 3: TIEFGREIFENDE, WEITREICHENDE UND KOLLABORATIVE BENUTZERERFAHRUNG 5 INTUITIVE UND TIEFGREIFENDE BENUTZERERFAHRUNG 5 AUSNUTZEN DER KOLLABORATIVEN EIGENSCHAFTEN 5 NEUE GESCHÄFTSANWENDUNGEN 5 ATTRIBUIERUNGSBASIERTE ANWENDUNGEN 5 EMPFEHLUNGSBASIERTE ANWENDUNGEN 6 PRÄDIKTIVE/PROGNOSENBASIERTE ANWENDUNGEN 6 ERKENNTNISBASIERTE ANWENDUNGEN 7 BENCHMARK-BASIERTE ANWENDUNGEN 7 SCHLUSSBEMERKUNGEN 7 ÜBER DEN AUTOR 8 2 ZURÜCK IN DIE ZUKUNFT: DAS ZEITALTER VON BIG DATA In den 70er und 80er Jahren führten Hersteller von Verbrauchsgütern und Einzelhändler ihr Geschäft mithilfe von halbmonatlichen AC Nielsen-Marktberichten. Diese Berichte enthielten Daten zu Wettbewerbern und Markt (z. B. Umsatz, verkaufte Einheiten, Durchschnittspreis und Marktanteil), die Hersteller bei der Festlegung ihrer Strategien für Vertrieb, Marketing und Werbung, Pläne und Ausgaben für ihre Channel-Partner (z. B. Distributoren, Großhändler und Einzelhändler) heranzogen. Mitte der 80er Jahre bot Information Resources Inc. (IRI) Einzelhändlern im Tausch gegen verbleibende Scannerdaten die Installation von kostenlosen Scannern für Verkaufsräume (POS, Point-of-Sale) an. Die Einzelhändler ließen sich mehr als bereitwillig auf diesen Handel ein, da Personalkosten die größte Kostenkomponente ausmachten und der Wert der POS-Scannerdaten größtenteils nicht erkannt wurde. Diese POS-Scannerdaten, die damals als „Big Data“ betrachtet wurden, verursachten einen entscheidenden Machtwechsel (zwischen Herstellern und Einzelhändlern) innerhalb der Branche und veränderten die Art und Weise, wie Hersteller und Einzelhändler ihre Geschäfte tätigen. Das Datenvolumen stieg sprunghaft von Megabyte auf Terabyte an und erforderte eine neue Generation von Speicher- und Serverplattformen (z. B. Teradata, Red Brick, Sybase IQ, Sun und Sequent) sowie Analysetools (z. B. Metaphor, Business Objects, Informatica und MicroStrategy). Neue Kategorien von analysebasierten Business-Anwendungen: • Bedarfsbasierte Prognose • Lieferkettenoptimierung • Ausgabeneffizienz für den Handel • Warenkorbanalyse • Kategoriemanagement und Merchandising • Preis-/Ertragsoptimierung • Preisabschlagsmanagement • Kundentreueprogramme Führende Unternehmen wie Wal-Mart, Procter & Gamble, Tesco und Frito Lay machten sich diese neuen „Big Data“ und die neuen Analyseplattformen und -tools zunutze, um einen Wettbewerbsvorteil zu erreichen. Diese Unternehmen übernahmen eine Vorreiterrolle bei der Entwicklung von neuen Kategorien für Big Data und analysebasierten Geschäftsanwendungen zur Behebung von Geschäftsproblemen, die früher nicht kosteneffizient gehandhabt werden konnten (siehe Tabelle auf der linken Seite). 30 Jahre später befinden wir uns wieder in derselben Situation. Die Anzahl von neuen, präzisen und vielseitigen Datenquellen mit geringer Latenz („Big Data“), die das Potenzial zur Änderung der Betriebsmethoden von Unternehmen und Branchen enthalten, steigt explosionsartig an. Diese neuen Datenquellen basieren auf einer Fülle von Geräten, Kundeninteraktionen und Geschäftsvorgängen, die neue Erkenntnisse zu Wertketten innerhalb von Unternehmen und Branchen liefern. Mit dem Aufkommen dieser neuen, detaillieren Datenquellen können Unternehmen Geschäftschancen wahrnehmen, die zuvor nicht verfolgt werden konnten, was zur Schaffung von neuen Geschäftsanwendungsfamilien führt. Um diese Vorteile jedoch nutzen zu können, sind neue Plattformen (Infrastruktur) und Tools (Analyse) erforderlich. Dieses White Paper erläutert die Rolle, die diese neuen Plattformen spielen können, sowie die Arten von analysebasierten Geschäftsanwendungen zur optimalen Nutzung von Big Data, die möglicherweise auf uns zukommen. NUTZEN DER MÖGLICHKEITEN EINER „BIG DATA-ANALYSE“ Big Data erfordern eine neue Analyseplattform, die sowohl Unternehmen als auch Technologien einen Wettbewerbsvorteil bieten kann. Dazu wird eine neue Technologieinfrastruktur benötigt, die (a) problemlos für Datenmengen im Petabytebereich skalierbar ist, (b) Datenzugriff und Entscheidungsfindung mit geringer Latenz unterstützt und (c) über integrierte Analysefunktionen zur Beschleunigung von erweiterten Prozessen für die Analysemodellierung und Operationalisierung verfügt. Die Möglichkeit, ganz neue Ebenen der Verarbeitungsleistung auf große Datensätze anzuwenden, erlaubt eine fortlaufende Identifikation von verwertbaren Erkenntnissen, die sich tief in den Big Data verstecken, sowie die nahtlose Integration dieser verwertbaren Erkenntnisse in die Arbeitsumgebung des Benutzers – wie auch immer diese aussehen mag. Dank dieser neuen Analyseplattform können Unternehmen sich von rückblickenden Berichten verabschieden und zukunftsorientierte, prädiktive Analysen für die Massen bereitstellen sowie bessere Geschäftsentscheidungen auf allen Unternehmensebenen treffen. 1 PUNKT 1: AGILES COMPUTING Agilität basiert auf einem stark flexiblen und neu konfigurierbaren Data Warehousing und Analysearchitekturen. Analyseressourcen können schnell neu konfiguriert und bereitgestellt werden, um auf die sich ständig ändernden Geschäftsanforderungen zu reagieren und eine neue Ebene der Analyseflexibilität und -agilität zu erschließen. „AGILES“ DATA WAREHOUSING Die neue Analyseplattform gestattet die Entwicklung von Data Warehouses, die frei von den Einschränkungen moderner IT-Umgebungen sind. Heutzutage sind Unternehmen gezwungen, unnatürliche Designmethoden und unzureichende Reporting-Tools zur Gewinnung von Erkenntnissen aus schnell wachsenden, großen Datenquellen mithilfe von veralteten Datenbanktechnologien einzusetzen. Während das Datenvolumen weiter wächst und neue Datenquellen hinzukommen, sind die aktuellen Architekturen, Tools und Lösungen für Unternehmen zu teuer, zu langsam und zu starr, um ihre strategischen Geschäftsinitiativen zu unterstützen. Sehen wir uns als Beispiel die Auswirkungen von im Voraus erstellten Datenaggregaten genauer an. Aggregate1 werden in der Regel genutzt, um die eingeschränkte Verarbeitungsleistung von herkömmlichen RDBMS (relationalen Datenbankmanagementsystemen) bei der Verkettung mit mehreren Tabellen und bei Scans von großen Tabellen zu umgehen. Ein DBA (Datenbankadministrator) berechnet im Rahmen der Datenvorbereitung im Voraus die am häufigsten vorkommenden Aggregate, um die Geschwindigkeit und Reporting-Performance zu verbessern. Die Menge der in diesen Aggregattabellen gespeicherten Daten wächst auf ein Vielfaches der eigentlichen Rohdatenmenge an. Daher ist die Erstellung von Aggregaten im Voraus zeitaufwändig, was zulasten der SLAs (Service-LevelAgreements) geht. Die Auswertung von „Datenrinnsalen“ für ein betriebliches Reporting in Echtzeit ist wenig sinnvoll, da die erforderliche Zeit zur Neuerstellung der Aggregattabellen mit jedem Eintreffen von neuen Datenhäppchen im Data Warehouse zu hoch ist. Die Beseitigung dieser Einschränkungen ermöglicht eine agile Data Warehouse-Umgebung, die ebenso flexibel und reaktionsfähig ist wie die Geschäfte, die diese unterstützt. Dies wird erreicht durch: • Aggregation nach Bedarf – es müssen keine Aggregate im Voraus erstellt werden, um eine schnellere Abfrage- und Berichtreaktionszeit zu ermöglichen. Es ist ausreichend Leistung zur Erstellung von Aggregaten in Echtzeit verfügbar, was die langwierige Neuerstellung der Aggregattabellen mit jedem Eintreffen von neuen Datenhäppchen im Data Warehouse überflüssig macht. • Unabhängigkeit von Indizes – DBAs benötigen keine strenge Indexierung mehr. DBAs müssen nicht mehr im Voraus wissen, welche Fragen Benutzer stellen möchten, um alle unterstützenden Indizes zu erstellen. Benutzer können neuartige detaillierte Geschäftsfragen stellen, ohne sich Gedanken über die Performance zu machen. • KPI-Erstellung bei laufendem Betrieb – Geschäftsbenutzer können neue abgeleitete (und zusammengefasste) Key-Performance-Indikatoren, kurz KPIs, definieren, erstellen und testen, ohne dass eine vorherige Berechnung durch die DBAs erforderlich ist. • Flexible, hierarchische Ad-hoc-Strukturen – größenbezogene Hierarchien müssen nicht mehr bei der Erstellung des Data Warehouse im Voraus definiert werden. Beispielsweise können Unternehmen während der Analyse von Marktinformationen die Unternehmen, mit denen sie verglichen werden, flexibel ändern. INTEGRIERTE DATA WAREHOUSES UND ANALYSEN Bisher befanden sich Data Warehouses und Analysen in unterschiedlichen Umgebungen. Zur Verschiebung von Daten aus dem Data Warehouse in die Analyseumgebung war ein separater ETLProzess erforderlich, bei dem die Daten ausgewählt, gefiltert, aggregiert, vorverarbeitet, neu formatiert und dann in die Analyseumgebung transportiert wurden. Sobald die Daten in der Analyseumgebung angekommen waren, begannen die Datenanalysten mit der Erstellung, dem Testen und der Verfeinerung der Analysemodelle und -algorithmen. Wenn die Datenanalysten im Rahmen dieses Prozesses erkannten, dass detailliertere und/oder andere Daten erforderlich waren, musste der gesamte ETL-Prozess im Data Warehouse wiederholt werden. Dies konnte den Analyseprozess um Tage, wenn nicht sogar Wochen verzögern. Aggregate sind im Voraus kalkulierte hierarchische oder dimensionale Zusammenfassungen der Fakten (Messgrößen oder Maßeinheiten), die in der Regel durch den Ausdruck „SQL Group By“ definiert werden. Beispielsweise können in der geografischen Dimension Aggregate für alle Fakten (z. B. Vertrieb, Umsatz, Marge in Dollar, Marge in Prozent und Ertrag) nach Land, Region, Bundesstaat, Stadt, Landkreis und Postleitzahl erstellt werden. 1 2 Eine einzige, integrierte Data Warehouse- und Analyseumgebung mit datenbankinternen Analysefunktionen hat den Vorteil, dass Datenanalysten das Data Warehouse zur Analyse nicht mehr verlassen müssen. Große Datensätze können mit blitzschnellen Übertragungsraten (5 bis 10 TB/Stunde) zwischen der Data Warehouse- und Analyseumgebung verschoben werden. Dies führt zu einer deutlichen Beschleunigung des Analysevorgangs und vereinfacht die Integration der Analyseergebnisse in die Data Warehouse- und Business Intelligence-Umgebung. Eine integrierte Data Warehouse- und Analyseumgebung unterstützt beispielsweise die folgenden Analysetypen: • Untersegmentierung und Übertragung von großen Datensätzen zwischen der Data Warehouse- und Analyseumgebung zur Erstellung von „Analyse-Sandboxes“ für die analytische Überprüfung und Erkennung • Abfrage von großen Datensätzen mit möglichst hoher Detailschärfe zur Kennzeichnung von „ungewöhnlichen“ Verhaltensweisen, Trends und Aktivitäten für die Erstellung von nutzbaren Erkenntnissen nebst zugehörigen Empfehlungen • Beschleunigung der Bereitstellung und Überprüfung von unterschiedlichen Geschäftsszenarien zur Vereinfachung von hypothetischen Analysen, Empfindlichkeitsanalysen und Risikoanalysen Die Integration dieser Vorteile in alltägliche Aufgaben wäre von unschätzbarem Wert. Fragen Sie nur einmal einen Distribution Manager, der mögliche Performance-Probleme durch Zulieferer in Bezug auf sich verschlechternde Services gemessen an pünktlichen Lieferungen und der Anzahl von vollständigen Lieferungen innerhalb des Systems kennzeichnen möchte. PUNKT 2: LINEARE SKALIERBARKEIT Die Verfügbarkeit hoher Rechenleistung ermöglicht neuartige Ansätze zur Behebung von Geschäftsproblemen. Betrachten wir einige Beispiele, in denen eine umfassende Skalierbarkeit der Rechenleistung direkte Auswirkungen auf das Geschäft hat. UMWANDLUNG VON ETL ZUR DATENANREICHERUNG ETL konzentriert sich auf die Behebung von Fehlern, die durch die Quellsysteme verursacht wurden, sowie auf die Übersetzung, Bereinigung, Profilierung, Normalisierung und Ausrichtung aller Daten mit dem Ziel, dass Benutzer in ihren Analysen Äpfel mit Äpfeln vergleichen. Angesichts der für ETL zur Verfügung stehenden Rechenleistung (zusätzlich zur Nutzung von neuen Programmiersprachen wie Hadoop) können herkömmliche ETL-Prozesse in Prozesse zur Anreicherung von Daten umgewandelt werden. Dies ermöglicht die Erstellung von neuen und aussagekräftigen Messgrößen, darunter: • Sequenzierung oder Sortierung von Aktivitäten – Identifizierung der Reihenfolge von Aktivitäten, die vor einem bestimmten Ereignis eingetreten sind. So kann beispielsweise festgestellt werden, dass eine Person auf der Suche nach Support-Optionen in der Regel zweimal beim Call Center anruft, bevor das Problem erfolgreich behoben werden kann. • Häufigkeitszählung – Zählung, wie oft ein bestimmtes Ereignis innerhalb eines bestimmten Zeitraums eintritt. So können beispielsweise die Produkte identifiziert werden, für die innerhalb von 90 Tagen Nutzungsdauer eine Anzahl von x Service-Anrufen stattfanden. • N-Kacheln – Gruppierung von Elementen (z. B. Produkten, Ereignissen, Kunden und Partnern) in Blöcke anhand von bestimmten Messgrößen oder Messgrößenzusammenstellungen. So können beispielsweise die führenden 10 % von Kunden basierend auf Umsatz oder Gewinnspanne in einem fortlaufenden Zeitraum von drei Monaten nachverfolgt werden. • Verhaltensbasierte „Blöcke“ – Erstellung eines „Blocks“ von Aktivitäten mit Häufigkeit und Sortierung, die einem Vertriebs- oder „Abschluss“-Ereignis vorangehen, um die effektivsten und rentabelsten Kombinationen von Vermarktungsmaßnahmen zu bestimmen. UNTERSTÜTZUNG VON EXTREM VARIABLEN ABFRAGE- UND ANALYSE-WORKLOADS Man kann nur schwer im Voraus wissen, welche Abfrage- und Analysetypen Unternehmen basierend auf der aktuellen Geschäftsumgebung durchführen möchten. Möglicherweise erfordern die Preisgestaltung oder Werbemaßnahmen eines Wettbewerbers eine schnelle Analyse, um die finanziellen und geschäftlichen Auswirkungen auf das eigene Unternehmen zu ermitteln. Die interessantesten Analysen beziehen sich auf extrem variable Workloads, die nur schwer vorhersagbar sind. 3 Früher mussten sich Unternehmen mit oberflächlichen nachträglichen Analysen zufriedengeben und verfügten nicht über die Rechenleistung für eine genauere Untersuchung der Analyse zum Zeitpunkt des Auftretens oder zur Berücksichtigung aller möglicher Variablen und Varianten, die das Geschäft fördern könnten. Mit den neuen Plattformen können diese rechenintensiven, kurzfristigen Analyseanforderungen unterstützt werden. Für geschäftliche Benutzer manifestiert sich diese Möglichkeit in den folgenden Aspekten: • Performance und Skalierbarkeit – Agilität zur Aufschlüsselung und Analyse der Daten auf der zweiten und dritten Ebene, um die Entscheidungsfindung zu unterstützen. Wenn Geschäftsbenutzer sich Daten im Detail ansehen möchten, um geschäftsfördernde Variablen zu finden, müssen sie sich nicht länger über Systemausfälle durch die Analyse von zu vielen Daten sorgen. • Agilität – schnelle Entwicklung, Überprüfung und Verfeinerung von Analysemodellen für eine bessere Prognose der geschäftlichen Performance. Datenanalysten können nach Belieben unterschiedliche Variablen untersuchen, die die geschäftliche Performance steigern können, Rückschlüsse aus den Ergebnissen ziehen und diese Erkenntnisse in der nächsten Version des Modells berücksichtigen. Sie können schnell Fehler in Analysen erkennen, ohne Folgen für die System-Performance aufgrund der Analyse befürchten zu müssen. ANALYSE VON GROSSEN, DETAILLIERTEN DATENSÄTZEN (BIG DATA) Einer der wichtigsten Vorteile der Cloud sind die Menge und Ebene von detaillierten Daten, die durch die Analyse und Modellierung von geschäftsfördernden Aspekten genutzt werden kann. Die Cloud bietet nicht nur das Potenzial für eine effizientere Verarbeitungsleistung nach Bedarf, sondern ermöglicht auch effizientere und kostengünstigere Datenspeicherfunktionen. Statt sich an die Daten anpassen zu müssen, können Unternehmen nach Belieben ihre Analysen erweitern, indem sie alle Aspekte der Daten mit folgenden Methoden berücksichtigen: • Durchführung von multidimensionalen Analysen bis zu einem festgelegten Grad. Unternehmen sind nicht länger auf drei oder vier Dimensionen beschränkt, sondern können Hunderte, wenn nicht sogar Tausende von Dimensionen analysieren, um die Geschäftsleistungen zu optimieren und lokalisieren. Diese multidimensionalen Analysen ermöglichen die Identifizierung von geschäftsfördernden Aspekten nach Standort (z. B. Stadt oder Postleitzahl), Produkt (z. B. SKU oder UPC-Ebene), Hersteller, Angebot, Preis, Tageszeit oder Wochentag usw. Mit diesem Grad an Präzision kann die Geschäftsleistung wesentlich verbessert werden. • Identifizieren von aussagekräftigen lokalen Daten innerhalb des Datenvolumens zum Erzielen von entscheidenden Geschäftsvorteilen. Die Plattform meistert zwei wichtige Herausforderungen in Bezug auf ortsbezogene Analysen: Die erste besteht darin, geschäftsfördernde Aspekte auf lokaler oder spezifischer Ebene zu finden, und die zweite besteht darin, eine ausreichende Menge dieser lokalen geschäftsfördernden Aspekte zu finden, um wesentliche Vorteile für das Geschäft zu erreichen. DATENZUGRIFF UND ENTSCHEIDUNGSFINDUNG MIT GERINGER LATENZ Da Daten keine aufwändige Vorbereitung erfordern (in Bezug auf die Erstellung von Aggregaten und Berechnung von abgeleiteten Messgrößen im Voraus) sinkt die Latenz zwischen der Erstellung der Daten und ihrer Nutzbarkeit für das Geschäft dramatisch. Da die Zeit zwischen dem Auftreten und der Verfügbarkeit der Daten verkürzt wird, kann das Konzept der betrieblichen Analyse wie folgt in die Tat umgesetzt werden: • Nutzung von fortlaufenden Datenströmen (Datenrinnsal) zur Bereitstellung von betrieblichem Reporting und betrieblichen Analysen mit geringer Verzögerung. Die Zeit zwischen einem geschäftlichen Ereignis (z. B. einem Wertpapierhandel) und der Entscheidung zwischen Kauf und Verkauf wird drastisch verkürzt. Die Auswirkungen dieser Entscheidungsfindung mit geringer Latenz wird im Vormarsch des automatisierten Handels an der Wall Street deutlich3. • Der Zugriff auf Daten mit niedriger Latenz ermöglicht zeitnahe „In-Flight“-Entscheidungen. Beispielsweise können Kampagnenmanager ihre Budgets für Online-Kampagnen während der laufenden Kampagne zwischen leistungsstärksten und/oder ergebnisreichsten Kombinationen aus Websites und Stichwörtern umverteilen. 4 PUNKT 3: TIEFGREIFENDE, WEITREICHENDE UND KOLLABORATIVE BENUTZERERFAHRUNG Was geschäftliche Benutzer wirklich nicht brauchen können, sind noch mehr Daten, Diagramme und Reporting-Optionen, ganz gleich, wie elegant sie präsentiert werden. Geschäftliche Benutzer brauchen eine Lösung, die Analysen nutzt, um wesentliche, nutzbare Erkenntnisse für ihr Geschäft zu identifizieren und bereitzustellen. INTUITIVE UND TIEFGREIFENDE BENUTZERERFAHRUNG Die Verknüpfung von detaillierten Daten mit einer umfassenderen Analyseleistung bietet einen interessanten Vorteil: einfachere und intuitivere Oberflächen. Wie ist das möglich? Denken Sie an die Beziehung zwischen iPod und iTunes. Die minimalistische Oberfläche des iPod ist einer der Gründe für den großen Erfolg bei Kunden (und den dominanten Marktanteil). Apple hat einen Großteil der Benutzerkomplexität (z. B. Verwaltung von Wiedergabelisten, Hinzufügen von neuen Titeln und Erstellung von Empfehlungen mit der Genius-Funktion) vom iPod in iTunes verlagert, wo diese Funktionen besser gemanagt werden können. Genau dieses Konzept können wir anwenden, um die Benutzererfahrung bei Analysen zu verbessern. • Im Rahmen der Benutzererfahrung können Analysen genutzt werden, um einen Großteil der leistungsintensiven Datenanalyse im Hintergrund durchzuführen. Statt immer mehr und immer kompliziertere Berichte, Diagramme und Tabellen zu präsentieren, kann die Oberfläche intuitiver gestaltet werden und Benutzern genau die Informationen anzeigen, die für ihr Geschäft erforderlich sind. • Basierend auf den aus den Daten gewonnenen Erkenntnissen kann die Benutzererfahrung durch bestimmte empfohlene Aktionen (wie bei der Genius-Funktion von iTunes) gesteuert werden. Die Komplexität bei der Identifizierung von relevanten und nutzbaren Empfehlungen bleibt der Analyse vorbehalten. Stellen Sie sich beispielsweise eine Oberfläche für Kampagnenmanager vor, die die unzähligen Variablen mit Auswirkungen auf die Kampagnen-Performance auf wesentliche und nutzbare Variablen einschränkt. Dabei zeigt die Benutzeroberfläche nicht nur diese Variablen an, sondern auch Empfehlungen zur Verbesserung der Kampagnen-Performance, während diese aktiv ist. Ihre Benutzer wären Ihnen für eine derartige Erfahrung sicher sehr dankbar. AUSNUTZEN DER KOLLABORATIVEN EIGENSCHAFTEN Zusammenarbeit bildet einen natürlichen Bestandteil von Analyse- und Entscheidungsfindungsprozessen. Kleine Gruppen gleichgesinnter Benutzer können sich schnell zusammentun, um Erkenntnisse zu bestimmten Themenbereichen auszutauschen. Beispielsweise könnte eine Gruppe aus allen Brand Managern innerhalb eines großen Verbrauchsgüterunternehmens Daten, Informationen und Erkenntnisse zum Thema Brand Management einfach austauschen und diskutieren, um einen wesentlichen Geschäftsvorteil zu erreichen. Marketingkampagnen, die sich für eine Marke als erfolgreich erwiesen haben, können durch den Austausch der resultierenden Daten und Analysen schneller kopiert und auf andere Marken ausgeweitet werden. NEUE GESCHÄFTSANWENDUNGEN Um das Potenzial dieser neuen Analyseplattform zu erkennen, sollten Sie sich folgende Frage stellen: Welche Arten von geschäftlichen Problemen kann die Plattform mit ihrer bedarfsorientierten Verarbeitungsleistung, den detailreichen Datensätzen, dem Datenzugriff mit geringer Latenz und der engen Integration von Data Warehouse und Analyse lösen, die das Unternehmen bisher nicht lösen konnte? Betrachten wir einige Geschäftsanwendungen, die eine Analyse auf diesen neuen Plattformen, besonders in Kombination mit Big Data, ermöglicht: In elektronischen Finanzmärkten bezeichnet der automatisierte Handel die Nutzung von Computerprogrammen zur Eingabe von Handelsaufträgen, wobei der Computeralgorithmus die Aspekte des Auftrags, wie z. B. Zeitpunkt, Preis oder Menge des Auftrags, bestimmt oder in vielen Fällen den Auftrag ohne menschliches Eingreifen initiiert. 2 5 ATTRIBUIERUNGSBASIERTE ANWENDUNGEN Attribuierungsanwendungen weisen einem bestimmten Ereignis aus einer Reihe von Aktivitäten oder Transaktionen in einem komplexen, mehrphasigen Prozess eine „Gutschrift“ zu. Diese Anwendungen müssen die Reihe von Aktivitäten abrufen, anpassen und analysieren, wobei Faktoren wie Häufigkeit, Reihenfolge, Aktualität, Grenzwerte und Zeitverfall zwischen den Aktivitäten berücksichtigt werden müssen, um den Wert jeder Aktivität zuzuordnen. Beispiele für Attribuierungsanwendungen sind: • Anwendungen zur Bestimmung der Effektivität von Multi-Channel-Marketing, mit denen Marketingspezialisten Verkäufe über mehrere Marketing-Channel hinweg zuordnen möchten. Dies ist besonders für Marketingspezialisten im Online-Bereich wichtig, um einen Abschluss innerhalb von verschiedenen Werbeanzeigen, Websites und Schlüsselwort-Suchvorgänge zuzuordnen. • Attribuierungsanwendungen für Partner, mit denen Vertriebsunternehmen den Beitrag eines Partners über komplexe geschäftliche Transaktionen mit mehreren Phasen hinweg ermitteln. • Attribuierungsanwendungen für die Patientenversorgung, mit denen Gesundheitsdienstleister die Wirkung von verschiedenen Behandlungsmethoden und Medikamenten ihren Ergebnissen zuordnen. EMPFEHLUNGSBASIERTE ANWENDUNGEN Empfehlungsanwendungen identifizieren und erstellen basierend auf Verhalten, demografischen Informationen und anderen erkennbaren Attributen Zusammenstellungen von gleichartigen oder ähnlichen Benutzern oder Produkten. Die Anwendungen analysieren die Aktionen dieser Zusammenstellungen zur Erstellung von Tendenzen, die die Stärke der Beziehungen zwischen Benutzern und ihren Verhaltensweisen und Vorlieben messen. Basierend auf diesen Tendenzen können die Anwendungen dann Empfehlungen für Produkte (z. B. Amazon und Netflix) oder Personen (z. B. LinkedIn und Facebook) aussprechen. Beispiele für Empfehlungsanwendungen sind: • Anwendungen für kundenorientierte Werbeanzeigen, die gleichartige oder ähnliche Zielgruppensegmente basierend auf dem Verhalten und dem Produktkaufverlauf empfehlen (z. B. sind erfolgreiche Kampagnen mit der Zielgruppe „Fußballmamas“ mit hoher Wahrscheinlichkeit auch bei der Zielgruppe „Neue Omas“ erfolgreich). • Produktempfehlungsanwendungen, die ergänzende Produkte basierend auf von ähnlichen Benutzern in einem bestimmten Zeitraum erworbenen Gegenständen empfehlen (z. B. Kunden, die ein neues Haus mit einer bestimmten Postleitzahl erworben haben, erwerben wahrscheinlich auch innerhalb der nächsten drei Monate nach dem Hauskauf eine neue Waschmaschine und einen neuen Trockner). PRÄDIKTIVE/PROGNOSENBASIERTE ANWENDUNGEN Prädiktive und Prognoseanwendungen verarbeiten eine Vielzahl von Variablen, Messgrößen und Dimensionen zur Vereinfachung der Entscheidungsfindung in verschiedenen Marktszenarien. Diese Anwendungen nutzen statistische und Data Mining-Methoden zur Filterung einer Vielzahl von Variablen, um diejenigen Variablen und Kombinationen dieser Variablen zu identifizieren, die in bestimmten Situationen eine optimale Prognose-Performance ermöglichen. Angesichts der Fristen für einige dieser Entscheidungen (z. B. Preisgestaltung) sind ein Datenzugriff mit geringer Latenz und eine Analyse innerhalb der Datenbank für den Erfolg entscheidend. Fortschrittliche Prognoseanwendungen verfügen über integrierte Risiko- und Empfindlichkeitsbewertungen, um dem Entscheidungsträger ein Verständnis dafür zu vermitteln, welche Variablen bei der Entscheidung am wichtigsten sind. Wenn eine bestimmte Variable beispielsweise für eine Entscheidung als wesentlich gilt, kann durch zusätzlichen Aufwand die Genauigkeit und Vollständigkeit dieser Variable gewährleistet werden. Beispiele für prädiktive/Prognoseanwendungen sind: • Anwendungen zur Bewertung der Kundenabwanderung, die die Wahrscheinlichkeit einer Abwanderung basierend auf Faktoren wie Nutzungsaktivitäten, Support-Anfragen, Zahlungsmuster und sozialen Einfluss durch Freunde voraussagen. • Produktwartungsanwendungen, die Geräteausfälle basierend auf Informationen zu Produktnutzung (besonders durch integrierte Datengeräte bereitgestellte Informationen), Wartungs-Service-Protokolle und dem allgemeinen Performance-Verlauf des Produkts vorhersagen. • Anwendungen zur Bewertung der Mitarbeiter-Performance, die die mögliche Performance eines Mitarbeiters basierend auf Faktoren wie Ausbildung, sozioökonomischer Hintergrund, frühere Positionen, Familienstand und bestimmte verhaltenspsychologische Reaktionen vorhersagen. 6 • Anwendungen zur Bewertung der Performance klinischer Studien, die verschiedene Medikamentenergebnisse basierend auf klinischen Studien modellieren, sodass ein Unternehmen die Wirkung bestimmter Behandlungen verstehen und katastrophale Probleme bei der Einnahme von Medikamenten in bestimmten Kombinationen vermeiden kann. Dies ist sogar noch wichtiger, wenn die Ergebnisse über verschiedene Behandlungsmethoden und Medikamente hinweg zugeordnet werden müssen (siehe Attribuierungsanwendungen). • Anwendungen zur Bewertung von Ertragsmanagement, Preisabschlagsmanagement und Preisoptimierung, die zeitsensitive Modelle erstellen, um Entscheidungsträger bei der Bestimmung des Zeitpunkts und der Höhe für Preissteigerungen/-senkungen unter Berücksichtigung des aktuellen Bedarfs und der Liefersituationen zu unterstützen. Diese Anwendungstypen werden vor allem in der Konsumgüterbranche (z. B. verderbliche Waren, Flugtickets, Hotelbuchungen, Modeartikel und Baseball-Eintrittskarten) eingesetzt, bei denen der Wert zu einem bestimmten Zeitpunkt Null erreicht. ERKENNTNISBASIERTE ANWENDUNGEN Erkenntnisanwendungen nutzen statistische und Data Mining-Methoden zur Identifizierung von „ungewöhnlichen“ Verhaltensmustern oder Situationen. Fortschrittliche Erkenntnisanwendungen können komplexe Analysen über Hunderte oder Tausende von Geschäftsdimensionen hinweg durchführen. Diese Anwendungen werden immer wichtiger, da das Volumen der Datendetails aus Datenquellen wie Webklicks, RFID-Sensoren und Netzwerkanwendungen weiter ansteigt. Beispiele für Erkenntnisanwendungen sind: • Anwendungen zum Identifizieren von Produktverteilung und Produktschwund, die fortlaufend Sensoren und RFID-Daten überwachen, um Diskrepanzen zwischen der erwarteten und tatsächlichen Position des Produkts zu erkennen. • Anwendungen zum Identifizieren von Betrug, die fortlaufend finanzielle Transaktionen überwachen, um „ungewöhnliches“ Verhalten zu erkennen, das auf betrügerische Aktivitäten hinweisen kann. Diese Anwendungstypen werden bei Kreditkarten, Girokonten sowie bei Versicherungs- und Krankenpflegeansprüchen genutzt. • Anwendungen zum Identifizieren von Geldwäsche, die den Cashflow fortlaufend überwachen, um „ungewöhnliches“ Verhalten zu erkennen, das auf Geldwäscheaktivitäten hinweisen kann (z. B. eine ungewöhnlich hohe Anzahl von Bargeldtransaktionen mit geringen Beträgen in schneller Folge). BENCHMARK-BASIERTE ANWENDUNGEN Benchmark-Anwendungen nutzen Analysen zum Vergleich der Performance einer Einheit mit einem Richtwert. Beim Richtwert für den Vergleich kann es sich um einen Branchenstandard, die Ergebnisse eines früheren Zeitraums oder ein früheres Ereignis (z. B. eine Marketingkampagne) handeln. Beispiele für Benchmark-Anwendungen sind: • Anwendungen zur Bewertung des Marktanteils, die Informationen zum Marktanteil und zur Kundenausschöpfung bereitstellen. Beispielsweise können große Websiteunternehmen „Share of Voice“-Daten und -Analysen bereitstellen, die Werbefachleuten und Agenturen ein Verständnis für ihre Marketingausgaben im Vergleich zu Wettbewerbern vermitteln. • Wettbewerbsorientierte Benchmark-Anwendungen, die die Performance eines Unternehmens mit einer Gruppe von Wettbewerbern oder einem Branchendurchschnitt vergleichen. So wird ein Richtwert erzeugt, anhand dessen Unternehmen ihre finanzielle Performance oder Performance auf dem Markt in Relation setzen können. • Kampagnenorientierte Benchmark-Anwendungen, die die Performance einer aktuellen Marketingkampagne mit einer früheren und/oder ähnlichen Marketingkampagne oder einem Marketingereignis vergleichen. Beispielsweise möchte ein Unternehmen die Performance der aktuellen Kampagne zum amerikanischen Unabhängigkeitstag im Vergleich zur gleichen Kampagne aus dem letzten Jahr analysieren. Benutzer können den Prozentsatz des gesamten Vertriebs innerhalb der Kampagne an einem bestimmten Datum für jeden Tag der Kampagne nachverfolgen und Regionen oder Produkte mit der besten/niedrigsten Performance auf Tagesbasis vergleichen. 7 FALLSTUDIE: HAVAS DIGITAL DIE LEISTUNGSFÄHIGKEIT VON INTEGRIERTEN ANALYSEN UNTERSTÜTZT KOMPLEXE ATTRIBUIERUNGSMODELLE Havas Digital und die Data Computing Products Division von EMC arbeiten gemeinsam an der Verbesserung von Artemis Analytics Lab, einer Forschungs- und Entwicklungsinitiative zur Umsetzung von großangelegten Big Data-Analysen in der Private Cloud. Diese Initiative ermöglicht den Kunden von Havas Digital ein deutlich besseres Verständnis des Benutzerverhaltens und fördert die entsprechende Optimierung von Marketingkampagnen. Artemis Analytics Lab ist eine Initiative, die das Fachwissen von Artemis zu datengestütztem Marketing und die Data Computing Foundation von EMC® Greenplum kombiniert, um branchenführendes digitales Marketinganalysen-Mining und datenbankinterne Analysen bereitzustellen. „Für viele Marketingspezialisten reichen einfache demografische Benutzerdaten nicht mehr aus“, so Katrin Ribant, Senior Vice President von Artemis. „Unsere Kunden möchten die Aspekte des Benutzerverhaltens verstehen, die nur über einen längeren Zeitraum erfasst werden können, um Erkenntnisse zu gewinnen, die sich hinter einfachen Transaktionslisten verbergen. Mit fortschrittlichen Analysemethoden bietet EMC Greenplum® direkt in die Datenbank integrierte Analysefunktionen, die über sehr große Datensätze ausgeführt werden können. So erreichen wir umfassende neue Einblicke in das Benutzerverhalten und unterstützen Marketingexperten bei der Prognose der Benutzerreaktion auf neue Kampagnen.“ SCHLUSSBEMERKUNGEN Diese neuen, umfassend skalierbaren Plattformen bieten bahnbrechende Funktionen für die Analyse. Worin liegen die Vorteile im Vergleich zu aktuellen Data Warehouse- und Analyseplattformen? • Die Agilität zur Bereitstellung und Neuzuweisung umfassender Rechenressourcen nach Bedarf und im Einklang mit den geschäftlichen Prioritäten • Die Fähigkeit, detailliertere und unterschiedlichere Datensätze (Big Data) mit geringer Latenz zu analysieren und gleichzeitig die Nuancen und detaillierten Beziehungen zwischen den Daten beizubehalten, um differenzierte Erkenntnisse für eine optimierte geschäftliche Performance zu gewinnen • Organisationsübergreifende Zusammenarbeit an entscheidenden Geschäftsinitiativen und schnelle Verbreitung von Best Practices und unternehmensinternen Erkenntnissen • Kosteneffizienz zur Nutzung von gängigen Verarbeitungskomponenten zur Analyse von Big Data, um Geschäftschancen zu nutzen, die früher nicht kosteneffizient (oder gar nicht) gehandhabt werden konnten Die ideale Plattform für die Analyse bietet eine stark skalierbare Verarbeitungsleistung, die Möglichkeit zur Nutzung von detaillierten Datensätzen, Datenzugriff mit geringer Verzögerung und eine enge Integration von Data Warehouses und Analysen. Wenn diese Plattform richtig verstanden und bereitgestellt wird, kann sie zur Lösung komplexer geschäftlicher Probleme eingesetzt werden, die zuvor unlösbar waren, und wesentliche nutzbare Erkenntnisse für das Geschäft bereitstellen. ÜBER DEN AUTOR Bill Schmarzo, Global Competency Lead bei EMC Consulting, verfügt über mehr als zwei Jahrzehnte Erfahrung im Bereich Data Warehousing, Business Intelligence und Analyseanwendungen. Er ist Verfasser der Analysemethode für Business-Vorteile, die die strategischen Geschäftsinitiativen eines Unternehmens mit den zugrunde liegenden Daten und Analyseanforderungen verknüpft, und schrieb gemeinsam mit Ralph Kimball eine Reihe von Artikeln zu Analyseanwendungen. Außerdem war er in der Fakultät von The Data Warehouse Institute als Manager des Lehrplans für Analyseanwendungen tätig. Ein wichtiges Alleinstellungsmerkmal des Artemis-Systems ist der einzigartige, hochmoderne Attribuierungsmechanismus, der eine genauere Berechnung des relativen Einflusses von Werbung auf Kaufereignisse ermöglicht. Durch die Verschiebung der Modellierung und anderer Rechenvorgänge in die Datenbank und Nutzung von EMC Greenplum kann Havas Digital seinen Kunden jetzt ein algorithmisches Framework zur Attribuierungsanalyse nahezu in Echtzeit bereitstellen. EMC2, EMC, Greenplum und das EMC Logo sind eingetragene Marken oder Marken der EMC Corporation in den USA und in anderen Ländern. Alle anderen in diesem Dokument erwähnten Marken sind das Eigentum ihrer jeweiligen Inhaber. © Copyright 2011 EMC Corporation. Alle Rechte vorbehalten. 5/11 EMC Perspective H8668.1 EMC Deutschland GmbH Am Kronberger Hang 2a 65824 Schwalbach/Taunus Tel.: +49 6196 4728-0 Website: www.germany.emc.com