BIG DATA-ANALYSE

BIG DATA-ANALYSE
Wettbewerbsvorteile aus der
Kombination von Big Data und
erweiterter Analyse
EMC PERSPECTIVE
INHALT
ZURÜCK IN DIE ZUKUNFT: DAS ZEITALTER VON BIG DATA
1
NUTZEN DER MÖGLICHKEITEN EINER „BIG DATA-ANALYSE“
1
PUNKT 1: AGILES COMPUTING
2
„AGILES“ DATA WAREHOUSING
2
INTEGRIERTE DATA WAREHOUSES UND ANALYSEN
2
PUNKT 2: LINEARE SKALIERBARKEIT
3
UMWANDLUNG VON ETL IN DATENANREICHERUNG
3
UNTERSTÜTZUNG VON EXTREM VARIABLEN ABFRAGE- UND ANALYSE-WORKLOADS
3
ANALYSE VON GROSSEN, DETAILLIERTEN DATENSÄTZEN (BIG DATA)
4
DATENZUGRIFF UND ENTSCHEIDUNGSFINDUNG MIT GERINGER LATENZ
4
PUNKT 3: TIEFGREIFENDE, WEITREICHENDE UND KOLLABORATIVE BENUTZERERFAHRUNG
5
INTUITIVE UND TIEFGREIFENDE BENUTZERERFAHRUNG
5
AUSNUTZEN DER KOLLABORATIVEN EIGENSCHAFTEN
5
NEUE GESCHÄFTSANWENDUNGEN
5
ATTRIBUIERUNGSBASIERTE ANWENDUNGEN
5
EMPFEHLUNGSBASIERTE ANWENDUNGEN
6
PRÄDIKTIVE/PROGNOSENBASIERTE ANWENDUNGEN
6
ERKENNTNISBASIERTE ANWENDUNGEN
7
BENCHMARK-BASIERTE ANWENDUNGEN
7
SCHLUSSBEMERKUNGEN
7
ÜBER DEN AUTOR
8
2
ZURÜCK IN DIE ZUKUNFT: DAS ZEITALTER VON BIG DATA
In den 70er und 80er Jahren führten Hersteller von Verbrauchsgütern und Einzelhändler ihr Geschäft
mithilfe von halbmonatlichen AC Nielsen-Marktberichten. Diese Berichte enthielten Daten zu
Wettbewerbern und Markt (z. B. Umsatz, verkaufte Einheiten, Durchschnittspreis und Marktanteil), die
Hersteller bei der Festlegung ihrer Strategien für Vertrieb, Marketing und Werbung, Pläne und
Ausgaben für ihre Channel-Partner (z. B. Distributoren, Großhändler und Einzelhändler) heranzogen.
Mitte der 80er Jahre bot Information Resources Inc. (IRI) Einzelhändlern im Tausch gegen verbleibende
Scannerdaten die Installation von kostenlosen Scannern für Verkaufsräume (POS, Point-of-Sale) an. Die
Einzelhändler ließen sich mehr als bereitwillig auf diesen Handel ein, da Personalkosten die größte
Kostenkomponente ausmachten und der Wert der POS-Scannerdaten größtenteils nicht erkannt wurde.
Diese POS-Scannerdaten, die damals als „Big Data“ betrachtet wurden, verursachten einen
entscheidenden Machtwechsel (zwischen Herstellern und Einzelhändlern) innerhalb der Branche
und veränderten die Art und Weise, wie Hersteller und Einzelhändler ihre Geschäfte tätigen. Das
Datenvolumen stieg sprunghaft von Megabyte auf Terabyte an und erforderte eine neue Generation
von Speicher- und Serverplattformen (z. B. Teradata, Red Brick, Sybase IQ, Sun und Sequent) sowie
Analysetools (z. B. Metaphor, Business Objects, Informatica und MicroStrategy).
Neue Kategorien von analysebasierten
Business-Anwendungen:
• Bedarfsbasierte Prognose
• Lieferkettenoptimierung
• Ausgabeneffizienz für den Handel
• Warenkorbanalyse
• Kategoriemanagement und Merchandising
• Preis-/Ertragsoptimierung
• Preisabschlagsmanagement
• Kundentreueprogramme
Führende Unternehmen wie Wal-Mart, Procter & Gamble, Tesco und Frito Lay machten sich diese neuen
„Big Data“ und die neuen Analyseplattformen und -tools zunutze, um einen Wettbewerbsvorteil zu
erreichen. Diese Unternehmen übernahmen eine Vorreiterrolle bei der Entwicklung von neuen
Kategorien für Big Data und analysebasierten Geschäftsanwendungen zur Behebung von
Geschäftsproblemen, die früher nicht kosteneffizient gehandhabt werden konnten (siehe Tabelle
auf der linken Seite).
30 Jahre später befinden wir uns wieder in derselben Situation. Die Anzahl von neuen, präzisen
und vielseitigen Datenquellen mit geringer Latenz („Big Data“), die das Potenzial zur Änderung der
Betriebsmethoden von Unternehmen und Branchen enthalten, steigt explosionsartig an. Diese neuen
Datenquellen basieren auf einer Fülle von Geräten, Kundeninteraktionen und Geschäftsvorgängen,
die neue Erkenntnisse zu Wertketten innerhalb von Unternehmen und Branchen liefern.
Mit dem Aufkommen dieser neuen, detaillieren Datenquellen können Unternehmen Geschäftschancen
wahrnehmen, die zuvor nicht verfolgt werden konnten, was zur Schaffung von neuen
Geschäftsanwendungsfamilien führt. Um diese Vorteile jedoch nutzen zu können, sind neue
Plattformen (Infrastruktur) und Tools (Analyse) erforderlich. Dieses White Paper erläutert die Rolle, die
diese neuen Plattformen spielen können, sowie die Arten von analysebasierten
Geschäftsanwendungen zur optimalen Nutzung von Big Data, die möglicherweise auf uns zukommen.
NUTZEN DER MÖGLICHKEITEN EINER „BIG DATA-ANALYSE“
Big Data erfordern eine neue Analyseplattform, die sowohl Unternehmen als auch Technologien
einen Wettbewerbsvorteil bieten kann. Dazu wird eine neue Technologieinfrastruktur benötigt,
die (a) problemlos für Datenmengen im Petabytebereich skalierbar ist, (b) Datenzugriff und
Entscheidungsfindung mit geringer Latenz unterstützt und (c) über integrierte Analysefunktionen zur
Beschleunigung von erweiterten Prozessen für die Analysemodellierung und Operationalisierung
verfügt.
Die Möglichkeit, ganz neue Ebenen der Verarbeitungsleistung auf große Datensätze anzuwenden,
erlaubt eine fortlaufende Identifikation von verwertbaren Erkenntnissen, die sich tief in den Big Data
verstecken, sowie die nahtlose Integration dieser verwertbaren Erkenntnisse in die Arbeitsumgebung
des Benutzers – wie auch immer diese aussehen mag. Dank dieser neuen Analyseplattform können
Unternehmen sich von rückblickenden Berichten verabschieden und zukunftsorientierte, prädiktive
Analysen für die Massen bereitstellen sowie bessere Geschäftsentscheidungen auf allen
Unternehmensebenen treffen.
1
PUNKT 1: AGILES COMPUTING
Agilität basiert auf einem stark flexiblen und neu konfigurierbaren Data Warehousing und
Analysearchitekturen. Analyseressourcen können schnell neu konfiguriert und bereitgestellt werden,
um auf die sich ständig ändernden Geschäftsanforderungen zu reagieren und eine neue Ebene der
Analyseflexibilität und -agilität zu erschließen.
„AGILES“ DATA WAREHOUSING
Die neue Analyseplattform gestattet die Entwicklung von Data Warehouses, die frei von den
Einschränkungen moderner IT-Umgebungen sind. Heutzutage sind Unternehmen gezwungen,
unnatürliche Designmethoden und unzureichende Reporting-Tools zur Gewinnung von Erkenntnissen
aus schnell wachsenden, großen Datenquellen mithilfe von veralteten Datenbanktechnologien
einzusetzen. Während das Datenvolumen weiter wächst und neue Datenquellen hinzukommen, sind
die aktuellen Architekturen, Tools und Lösungen für Unternehmen zu teuer, zu langsam und zu starr,
um ihre strategischen Geschäftsinitiativen zu unterstützen.
Sehen wir uns als Beispiel die Auswirkungen von im Voraus erstellten Datenaggregaten genauer an.
Aggregate1 werden in der Regel genutzt, um die eingeschränkte Verarbeitungsleistung von
herkömmlichen RDBMS (relationalen Datenbankmanagementsystemen) bei der Verkettung mit
mehreren Tabellen und bei Scans von großen Tabellen zu umgehen. Ein DBA (Datenbankadministrator)
berechnet im Rahmen der Datenvorbereitung im Voraus die am häufigsten vorkommenden Aggregate,
um die Geschwindigkeit und Reporting-Performance zu verbessern. Die Menge der in diesen
Aggregattabellen gespeicherten Daten wächst auf ein Vielfaches der eigentlichen Rohdatenmenge an.
Daher ist die Erstellung von Aggregaten im Voraus zeitaufwändig, was zulasten der SLAs (Service-LevelAgreements) geht. Die Auswertung von „Datenrinnsalen“ für ein betriebliches Reporting in Echtzeit ist
wenig sinnvoll, da die erforderliche Zeit zur Neuerstellung der Aggregattabellen mit jedem Eintreffen
von neuen Datenhäppchen im Data Warehouse zu hoch ist.
Die Beseitigung dieser Einschränkungen ermöglicht eine agile Data Warehouse-Umgebung, die ebenso
flexibel und reaktionsfähig ist wie die Geschäfte, die diese unterstützt. Dies wird erreicht durch:
• Aggregation nach Bedarf – es müssen keine Aggregate im Voraus erstellt werden, um eine schnellere
Abfrage- und Berichtreaktionszeit zu ermöglichen. Es ist ausreichend Leistung zur Erstellung von
Aggregaten in Echtzeit verfügbar, was die langwierige Neuerstellung der Aggregattabellen mit jedem
Eintreffen von neuen Datenhäppchen im Data Warehouse überflüssig macht.
• Unabhängigkeit von Indizes – DBAs benötigen keine strenge Indexierung mehr. DBAs müssen nicht
mehr im Voraus wissen, welche Fragen Benutzer stellen möchten, um alle unterstützenden Indizes zu
erstellen. Benutzer können neuartige detaillierte Geschäftsfragen stellen, ohne sich Gedanken über
die Performance zu machen.
• KPI-Erstellung bei laufendem Betrieb – Geschäftsbenutzer können neue abgeleitete (und
zusammengefasste) Key-Performance-Indikatoren, kurz KPIs, definieren, erstellen und testen, ohne
dass eine vorherige Berechnung durch die DBAs erforderlich ist.
• Flexible, hierarchische Ad-hoc-Strukturen – größenbezogene Hierarchien müssen nicht mehr bei
der Erstellung des Data Warehouse im Voraus definiert werden. Beispielsweise können Unternehmen
während der Analyse von Marktinformationen die Unternehmen, mit denen sie verglichen werden,
flexibel ändern.
INTEGRIERTE DATA WAREHOUSES UND ANALYSEN
Bisher befanden sich Data Warehouses und Analysen in unterschiedlichen Umgebungen. Zur
Verschiebung von Daten aus dem Data Warehouse in die Analyseumgebung war ein separater ETLProzess erforderlich, bei dem die Daten ausgewählt, gefiltert, aggregiert, vorverarbeitet, neu formatiert
und dann in die Analyseumgebung transportiert wurden. Sobald die Daten in der Analyseumgebung
angekommen waren, begannen die Datenanalysten mit der Erstellung, dem Testen und der
Verfeinerung der Analysemodelle und -algorithmen. Wenn die Datenanalysten im Rahmen dieses
Prozesses erkannten, dass detailliertere und/oder andere Daten erforderlich waren, musste der
gesamte ETL-Prozess im Data Warehouse wiederholt werden. Dies konnte den Analyseprozess um Tage,
wenn nicht sogar Wochen verzögern.
Aggregate sind im Voraus kalkulierte hierarchische oder dimensionale Zusammenfassungen der Fakten
(Messgrößen oder Maßeinheiten), die in der Regel durch den Ausdruck „SQL Group By“ definiert werden.
Beispielsweise können in der geografischen Dimension Aggregate für alle Fakten (z. B. Vertrieb, Umsatz,
Marge in Dollar, Marge in Prozent und Ertrag) nach Land, Region, Bundesstaat, Stadt, Landkreis und
Postleitzahl erstellt werden.
1
2
Eine einzige, integrierte Data Warehouse- und Analyseumgebung mit datenbankinternen
Analysefunktionen hat den Vorteil, dass Datenanalysten das Data Warehouse zur Analyse nicht mehr
verlassen müssen. Große Datensätze können mit blitzschnellen Übertragungsraten (5 bis 10 TB/Stunde)
zwischen der Data Warehouse- und Analyseumgebung verschoben werden. Dies führt zu einer
deutlichen Beschleunigung des Analysevorgangs und vereinfacht die Integration der Analyseergebnisse
in die Data Warehouse- und Business Intelligence-Umgebung. Eine integrierte Data Warehouse- und
Analyseumgebung unterstützt beispielsweise die folgenden Analysetypen:
• Untersegmentierung und Übertragung von großen Datensätzen zwischen der Data Warehouse- und
Analyseumgebung zur Erstellung von „Analyse-Sandboxes“ für die analytische Überprüfung und
Erkennung
• Abfrage von großen Datensätzen mit möglichst hoher Detailschärfe zur Kennzeichnung von
„ungewöhnlichen“ Verhaltensweisen, Trends und Aktivitäten für die Erstellung von nutzbaren
Erkenntnissen nebst zugehörigen Empfehlungen
• Beschleunigung der Bereitstellung und Überprüfung von unterschiedlichen Geschäftsszenarien zur
Vereinfachung von hypothetischen Analysen, Empfindlichkeitsanalysen und Risikoanalysen
Die Integration dieser Vorteile in alltägliche Aufgaben wäre von unschätzbarem Wert. Fragen Sie nur
einmal einen Distribution Manager, der mögliche Performance-Probleme durch Zulieferer in Bezug auf
sich verschlechternde Services gemessen an pünktlichen Lieferungen und der Anzahl von vollständigen
Lieferungen innerhalb des Systems kennzeichnen möchte.
PUNKT 2: LINEARE SKALIERBARKEIT Die Verfügbarkeit hoher Rechenleistung ermöglicht neuartige Ansätze zur Behebung von
Geschäftsproblemen. Betrachten wir einige Beispiele, in denen eine umfassende Skalierbarkeit der
Rechenleistung direkte Auswirkungen auf das Geschäft hat.
UMWANDLUNG VON ETL ZUR DATENANREICHERUNG
ETL konzentriert sich auf die Behebung von Fehlern, die durch die Quellsysteme verursacht wurden,
sowie auf die Übersetzung, Bereinigung, Profilierung, Normalisierung und Ausrichtung aller Daten mit
dem Ziel, dass Benutzer in ihren Analysen Äpfel mit Äpfeln vergleichen. Angesichts der für ETL zur
Verfügung stehenden Rechenleistung (zusätzlich zur Nutzung von neuen Programmiersprachen wie
Hadoop) können herkömmliche ETL-Prozesse in Prozesse zur Anreicherung von Daten umgewandelt
werden. Dies ermöglicht die Erstellung von neuen und aussagekräftigen Messgrößen, darunter:
• Sequenzierung oder Sortierung von Aktivitäten – Identifizierung der Reihenfolge von Aktivitäten,
die vor einem bestimmten Ereignis eingetreten sind. So kann beispielsweise festgestellt werden,
dass eine Person auf der Suche nach Support-Optionen in der Regel zweimal beim Call Center anruft,
bevor das Problem erfolgreich behoben werden kann.
• Häufigkeitszählung – Zählung, wie oft ein bestimmtes Ereignis innerhalb eines bestimmten
Zeitraums eintritt. So können beispielsweise die Produkte identifiziert werden, für die innerhalb von
90 Tagen Nutzungsdauer eine Anzahl von x Service-Anrufen stattfanden.
• N-Kacheln – Gruppierung von Elementen (z. B. Produkten, Ereignissen, Kunden und Partnern) in
Blöcke anhand von bestimmten Messgrößen oder Messgrößenzusammenstellungen. So können
beispielsweise die führenden 10 % von Kunden basierend auf Umsatz oder Gewinnspanne in einem
fortlaufenden Zeitraum von drei Monaten nachverfolgt werden.
• Verhaltensbasierte „Blöcke“ – Erstellung eines „Blocks“ von Aktivitäten mit Häufigkeit und
Sortierung, die einem Vertriebs- oder „Abschluss“-Ereignis vorangehen, um die effektivsten und
rentabelsten Kombinationen von Vermarktungsmaßnahmen zu bestimmen.
UNTERSTÜTZUNG VON EXTREM VARIABLEN ABFRAGE- UND ANALYSE-WORKLOADS
Man kann nur schwer im Voraus wissen, welche Abfrage- und Analysetypen Unternehmen basierend
auf der aktuellen Geschäftsumgebung durchführen möchten. Möglicherweise erfordern die
Preisgestaltung oder Werbemaßnahmen eines Wettbewerbers eine schnelle Analyse, um die
finanziellen und geschäftlichen Auswirkungen auf das eigene Unternehmen zu ermitteln. Die
interessantesten Analysen beziehen sich auf extrem variable Workloads, die nur schwer
vorhersagbar sind.
3
Früher mussten sich Unternehmen mit oberflächlichen nachträglichen Analysen zufriedengeben und
verfügten nicht über die Rechenleistung für eine genauere Untersuchung der Analyse zum Zeitpunkt
des Auftretens oder zur Berücksichtigung aller möglicher Variablen und Varianten, die das Geschäft
fördern könnten. Mit den neuen Plattformen können diese rechenintensiven, kurzfristigen
Analyseanforderungen unterstützt werden. Für geschäftliche Benutzer manifestiert sich diese
Möglichkeit in den folgenden Aspekten:
• Performance und Skalierbarkeit – Agilität zur Aufschlüsselung und Analyse der Daten auf der
zweiten und dritten Ebene, um die Entscheidungsfindung zu unterstützen. Wenn Geschäftsbenutzer
sich Daten im Detail ansehen möchten, um geschäftsfördernde Variablen zu finden, müssen sie sich
nicht länger über Systemausfälle durch die Analyse von zu vielen Daten sorgen.
• Agilität – schnelle Entwicklung, Überprüfung und Verfeinerung von Analysemodellen für eine bessere
Prognose der geschäftlichen Performance. Datenanalysten können nach Belieben unterschiedliche
Variablen untersuchen, die die geschäftliche Performance steigern können, Rückschlüsse aus den
Ergebnissen ziehen und diese Erkenntnisse in der nächsten Version des Modells berücksichtigen. Sie
können schnell Fehler in Analysen erkennen, ohne Folgen für die System-Performance aufgrund der
Analyse befürchten zu müssen.
ANALYSE VON GROSSEN, DETAILLIERTEN DATENSÄTZEN (BIG DATA)
Einer der wichtigsten Vorteile der Cloud sind die Menge und Ebene von detaillierten Daten, die durch
die Analyse und Modellierung von geschäftsfördernden Aspekten genutzt werden kann. Die Cloud
bietet nicht nur das Potenzial für eine effizientere Verarbeitungsleistung nach Bedarf, sondern
ermöglicht auch effizientere und kostengünstigere Datenspeicherfunktionen. Statt sich an die Daten
anpassen zu müssen, können Unternehmen nach Belieben ihre Analysen erweitern, indem sie alle
Aspekte der Daten mit folgenden Methoden berücksichtigen:
• Durchführung von multidimensionalen Analysen bis zu einem festgelegten Grad. Unternehmen sind
nicht länger auf drei oder vier Dimensionen beschränkt, sondern können Hunderte, wenn nicht sogar
Tausende von Dimensionen analysieren, um die Geschäftsleistungen zu optimieren und lokalisieren.
Diese multidimensionalen Analysen ermöglichen die Identifizierung von geschäftsfördernden
Aspekten nach Standort (z. B. Stadt oder Postleitzahl), Produkt (z. B. SKU oder UPC-Ebene),
Hersteller, Angebot, Preis, Tageszeit oder Wochentag usw. Mit diesem Grad an Präzision kann die
Geschäftsleistung wesentlich verbessert werden.
• Identifizieren von aussagekräftigen lokalen Daten innerhalb des Datenvolumens zum Erzielen von
entscheidenden Geschäftsvorteilen. Die Plattform meistert zwei wichtige Herausforderungen in
Bezug auf ortsbezogene Analysen: Die erste besteht darin, geschäftsfördernde Aspekte auf lokaler
oder spezifischer Ebene zu finden, und die zweite besteht darin, eine ausreichende Menge dieser
lokalen geschäftsfördernden Aspekte zu finden, um wesentliche Vorteile für das Geschäft zu
erreichen.
DATENZUGRIFF UND ENTSCHEIDUNGSFINDUNG MIT GERINGER LATENZ
Da Daten keine aufwändige Vorbereitung erfordern (in Bezug auf die Erstellung von Aggregaten und
Berechnung von abgeleiteten Messgrößen im Voraus) sinkt die Latenz zwischen der Erstellung der
Daten und ihrer Nutzbarkeit für das Geschäft dramatisch. Da die Zeit zwischen dem Auftreten und der
Verfügbarkeit der Daten verkürzt wird, kann das Konzept der betrieblichen Analyse wie folgt in die Tat
umgesetzt werden:
• Nutzung von fortlaufenden Datenströmen (Datenrinnsal) zur Bereitstellung von betrieblichem
Reporting und betrieblichen Analysen mit geringer Verzögerung. Die Zeit zwischen einem
geschäftlichen Ereignis (z. B. einem Wertpapierhandel) und der Entscheidung zwischen Kauf und
Verkauf wird drastisch verkürzt. Die Auswirkungen dieser Entscheidungsfindung mit geringer Latenz
wird im Vormarsch des automatisierten Handels an der Wall Street deutlich3.
• Der Zugriff auf Daten mit niedriger Latenz ermöglicht zeitnahe „In-Flight“-Entscheidungen.
Beispielsweise können Kampagnenmanager ihre Budgets für Online-Kampagnen während der
laufenden Kampagne zwischen leistungsstärksten und/oder ergebnisreichsten Kombinationen aus
Websites und Stichwörtern umverteilen.
4
PUNKT 3: TIEFGREIFENDE, WEITREICHENDE UND KOLLABORATIVE
BENUTZERERFAHRUNG
Was geschäftliche Benutzer wirklich nicht brauchen können, sind noch mehr Daten, Diagramme und
Reporting-Optionen, ganz gleich, wie elegant sie präsentiert werden. Geschäftliche Benutzer brauchen
eine Lösung, die Analysen nutzt, um wesentliche, nutzbare Erkenntnisse für ihr Geschäft zu
identifizieren und bereitzustellen.
INTUITIVE UND TIEFGREIFENDE BENUTZERERFAHRUNG
Die Verknüpfung von detaillierten Daten mit einer umfassenderen Analyseleistung bietet einen
interessanten Vorteil: einfachere und intuitivere Oberflächen. Wie ist das möglich? Denken Sie an die
Beziehung zwischen iPod und iTunes. Die minimalistische Oberfläche des iPod ist einer der Gründe für
den großen Erfolg bei Kunden (und den dominanten Marktanteil). Apple hat einen Großteil der
Benutzerkomplexität (z. B. Verwaltung von Wiedergabelisten, Hinzufügen von neuen Titeln und
Erstellung von Empfehlungen mit der Genius-Funktion) vom iPod in iTunes verlagert, wo diese
Funktionen besser gemanagt werden können. Genau dieses Konzept können wir anwenden, um die
Benutzererfahrung bei Analysen zu verbessern.
• Im Rahmen der Benutzererfahrung können Analysen genutzt werden, um einen Großteil der
leistungsintensiven Datenanalyse im Hintergrund durchzuführen. Statt immer mehr und immer
kompliziertere Berichte, Diagramme und Tabellen zu präsentieren, kann die Oberfläche intuitiver
gestaltet werden und Benutzern genau die Informationen anzeigen, die für ihr Geschäft erforderlich
sind.
• Basierend auf den aus den Daten gewonnenen Erkenntnissen kann die Benutzererfahrung durch
bestimmte empfohlene Aktionen (wie bei der Genius-Funktion von iTunes) gesteuert werden. Die
Komplexität bei der Identifizierung von relevanten und nutzbaren Empfehlungen bleibt der Analyse
vorbehalten.
Stellen Sie sich beispielsweise eine Oberfläche für Kampagnenmanager vor, die die unzähligen
Variablen mit Auswirkungen auf die Kampagnen-Performance auf wesentliche und nutzbare Variablen
einschränkt. Dabei zeigt die Benutzeroberfläche nicht nur diese Variablen an, sondern auch
Empfehlungen zur Verbesserung der Kampagnen-Performance, während diese aktiv ist. Ihre Benutzer
wären Ihnen für eine derartige Erfahrung sicher sehr dankbar.
AUSNUTZEN DER KOLLABORATIVEN EIGENSCHAFTEN
Zusammenarbeit bildet einen natürlichen Bestandteil von Analyse- und Entscheidungsfindungsprozessen.
Kleine Gruppen gleichgesinnter Benutzer können sich schnell zusammentun, um Erkenntnisse zu bestimmten
Themenbereichen auszutauschen.
Beispielsweise könnte eine Gruppe aus allen Brand Managern innerhalb eines großen
Verbrauchsgüterunternehmens Daten, Informationen und Erkenntnisse zum Thema Brand
Management einfach austauschen und diskutieren, um einen wesentlichen Geschäftsvorteil zu
erreichen. Marketingkampagnen, die sich für eine Marke als erfolgreich erwiesen haben, können
durch den Austausch der resultierenden Daten und Analysen schneller kopiert und auf andere Marken
ausgeweitet werden.
NEUE GESCHÄFTSANWENDUNGEN
Um das Potenzial dieser neuen Analyseplattform zu erkennen, sollten Sie sich folgende Frage stellen:
Welche Arten von geschäftlichen Problemen kann die Plattform mit ihrer bedarfsorientierten
Verarbeitungsleistung, den detailreichen Datensätzen, dem Datenzugriff mit geringer Latenz und der
engen Integration von Data Warehouse und Analyse lösen, die das Unternehmen bisher nicht lösen
konnte? Betrachten wir einige Geschäftsanwendungen, die eine Analyse auf diesen neuen Plattformen,
besonders in Kombination mit Big Data, ermöglicht:
In elektronischen Finanzmärkten bezeichnet der automatisierte Handel die Nutzung von
Computerprogrammen zur Eingabe von Handelsaufträgen, wobei der Computeralgorithmus die Aspekte des
Auftrags, wie z. B. Zeitpunkt, Preis oder Menge des Auftrags, bestimmt oder in vielen Fällen den Auftrag
ohne menschliches Eingreifen initiiert.
2
5
ATTRIBUIERUNGSBASIERTE ANWENDUNGEN
Attribuierungsanwendungen weisen einem bestimmten Ereignis aus einer Reihe von Aktivitäten oder
Transaktionen in einem komplexen, mehrphasigen Prozess eine „Gutschrift“ zu. Diese Anwendungen
müssen die Reihe von Aktivitäten abrufen, anpassen und analysieren, wobei Faktoren wie Häufigkeit,
Reihenfolge, Aktualität, Grenzwerte und Zeitverfall zwischen den Aktivitäten berücksichtigt werden
müssen, um den Wert jeder Aktivität zuzuordnen. Beispiele für Attribuierungsanwendungen sind:
• Anwendungen zur Bestimmung der Effektivität von Multi-Channel-Marketing, mit denen
Marketingspezialisten Verkäufe über mehrere Marketing-Channel hinweg zuordnen möchten. Dies ist
besonders für Marketingspezialisten im Online-Bereich wichtig, um einen Abschluss innerhalb von
verschiedenen Werbeanzeigen, Websites und Schlüsselwort-Suchvorgänge zuzuordnen.
• Attribuierungsanwendungen für Partner, mit denen Vertriebsunternehmen den Beitrag eines Partners
über komplexe geschäftliche Transaktionen mit mehreren Phasen hinweg ermitteln.
• Attribuierungsanwendungen für die Patientenversorgung, mit denen Gesundheitsdienstleister die
Wirkung von verschiedenen Behandlungsmethoden und Medikamenten ihren Ergebnissen zuordnen.
EMPFEHLUNGSBASIERTE ANWENDUNGEN
Empfehlungsanwendungen identifizieren und erstellen basierend auf Verhalten, demografischen
Informationen und anderen erkennbaren Attributen Zusammenstellungen von gleichartigen oder
ähnlichen Benutzern oder Produkten. Die Anwendungen analysieren die Aktionen dieser
Zusammenstellungen zur Erstellung von Tendenzen, die die Stärke der Beziehungen zwischen
Benutzern und ihren Verhaltensweisen und Vorlieben messen. Basierend auf diesen Tendenzen
können die Anwendungen dann Empfehlungen für Produkte (z. B. Amazon und Netflix) oder Personen
(z. B. LinkedIn und Facebook) aussprechen. Beispiele für Empfehlungsanwendungen sind:
• Anwendungen für kundenorientierte Werbeanzeigen, die gleichartige oder ähnliche
Zielgruppensegmente basierend auf dem Verhalten und dem Produktkaufverlauf empfehlen
(z. B. sind erfolgreiche Kampagnen mit der Zielgruppe „Fußballmamas“ mit hoher Wahrscheinlichkeit
auch bei der Zielgruppe „Neue Omas“ erfolgreich).
• Produktempfehlungsanwendungen, die ergänzende Produkte basierend auf von ähnlichen Benutzern
in einem bestimmten Zeitraum erworbenen Gegenständen empfehlen (z. B. Kunden, die ein neues
Haus mit einer bestimmten Postleitzahl erworben haben, erwerben wahrscheinlich auch innerhalb
der nächsten drei Monate nach dem Hauskauf eine neue Waschmaschine und einen neuen Trockner).
PRÄDIKTIVE/PROGNOSENBASIERTE ANWENDUNGEN
Prädiktive und Prognoseanwendungen verarbeiten eine Vielzahl von Variablen, Messgrößen und
Dimensionen zur Vereinfachung der Entscheidungsfindung in verschiedenen Marktszenarien. Diese
Anwendungen nutzen statistische und Data Mining-Methoden zur Filterung einer Vielzahl von
Variablen, um diejenigen Variablen und Kombinationen dieser Variablen zu identifizieren, die in
bestimmten Situationen eine optimale Prognose-Performance ermöglichen. Angesichts der Fristen für
einige dieser Entscheidungen (z. B. Preisgestaltung) sind ein Datenzugriff mit geringer Latenz und eine
Analyse innerhalb der Datenbank für den Erfolg entscheidend.
Fortschrittliche Prognoseanwendungen verfügen über integrierte Risiko- und Empfindlichkeitsbewertungen,
um dem Entscheidungsträger ein Verständnis dafür zu vermitteln, welche Variablen bei der
Entscheidung am wichtigsten sind. Wenn eine bestimmte Variable beispielsweise für eine
Entscheidung als wesentlich gilt, kann durch zusätzlichen Aufwand die Genauigkeit und Vollständigkeit
dieser Variable gewährleistet werden. Beispiele für prädiktive/Prognoseanwendungen sind:
• Anwendungen zur Bewertung der Kundenabwanderung, die die Wahrscheinlichkeit einer
Abwanderung basierend auf Faktoren wie Nutzungsaktivitäten, Support-Anfragen, Zahlungsmuster
und sozialen Einfluss durch Freunde voraussagen.
• Produktwartungsanwendungen, die Geräteausfälle basierend auf Informationen zu Produktnutzung
(besonders durch integrierte Datengeräte bereitgestellte Informationen), Wartungs-Service-Protokolle
und dem allgemeinen Performance-Verlauf des Produkts vorhersagen.
• Anwendungen zur Bewertung der Mitarbeiter-Performance, die die mögliche Performance eines
Mitarbeiters basierend auf Faktoren wie Ausbildung, sozioökonomischer Hintergrund, frühere
Positionen, Familienstand und bestimmte verhaltenspsychologische Reaktionen vorhersagen.
6
• Anwendungen zur Bewertung der Performance klinischer Studien, die verschiedene
Medikamentenergebnisse basierend auf klinischen Studien modellieren, sodass ein Unternehmen
die Wirkung bestimmter Behandlungen verstehen und katastrophale Probleme bei der Einnahme von
Medikamenten in bestimmten Kombinationen vermeiden kann. Dies ist sogar noch wichtiger, wenn
die Ergebnisse über verschiedene Behandlungsmethoden und Medikamente hinweg zugeordnet
werden müssen (siehe Attribuierungsanwendungen).
• Anwendungen zur Bewertung von Ertragsmanagement, Preisabschlagsmanagement und
Preisoptimierung, die zeitsensitive Modelle erstellen, um Entscheidungsträger bei der Bestimmung
des Zeitpunkts und der Höhe für Preissteigerungen/-senkungen unter Berücksichtigung des aktuellen
Bedarfs und der Liefersituationen zu unterstützen. Diese Anwendungstypen werden vor allem in der
Konsumgüterbranche (z. B. verderbliche Waren, Flugtickets, Hotelbuchungen, Modeartikel und
Baseball-Eintrittskarten) eingesetzt, bei denen der Wert zu einem bestimmten Zeitpunkt Null
erreicht.
ERKENNTNISBASIERTE ANWENDUNGEN
Erkenntnisanwendungen nutzen statistische und Data Mining-Methoden zur Identifizierung von
„ungewöhnlichen“ Verhaltensmustern oder Situationen. Fortschrittliche Erkenntnisanwendungen
können komplexe Analysen über Hunderte oder Tausende von Geschäftsdimensionen hinweg
durchführen. Diese Anwendungen werden immer wichtiger, da das Volumen der Datendetails aus
Datenquellen wie Webklicks, RFID-Sensoren und Netzwerkanwendungen weiter ansteigt. Beispiele für
Erkenntnisanwendungen sind:
• Anwendungen zum Identifizieren von Produktverteilung und Produktschwund, die fortlaufend
Sensoren und RFID-Daten überwachen, um Diskrepanzen zwischen der erwarteten und tatsächlichen
Position des Produkts zu erkennen.
• Anwendungen zum Identifizieren von Betrug, die fortlaufend finanzielle Transaktionen überwachen,
um „ungewöhnliches“ Verhalten zu erkennen, das auf betrügerische Aktivitäten hinweisen kann.
Diese Anwendungstypen werden bei Kreditkarten, Girokonten sowie bei Versicherungs- und
Krankenpflegeansprüchen genutzt.
• Anwendungen zum Identifizieren von Geldwäsche, die den Cashflow fortlaufend überwachen, um
„ungewöhnliches“ Verhalten zu erkennen, das auf Geldwäscheaktivitäten hinweisen kann (z. B. eine
ungewöhnlich hohe Anzahl von Bargeldtransaktionen mit geringen Beträgen in schneller Folge).
BENCHMARK-BASIERTE ANWENDUNGEN
Benchmark-Anwendungen nutzen Analysen zum Vergleich der Performance einer Einheit mit einem
Richtwert. Beim Richtwert für den Vergleich kann es sich um einen Branchenstandard, die Ergebnisse
eines früheren Zeitraums oder ein früheres Ereignis (z. B. eine Marketingkampagne) handeln. Beispiele
für Benchmark-Anwendungen sind:
• Anwendungen zur Bewertung des Marktanteils, die Informationen zum Marktanteil und zur
Kundenausschöpfung bereitstellen. Beispielsweise können große Websiteunternehmen „Share of
Voice“-Daten und -Analysen bereitstellen, die Werbefachleuten und Agenturen ein Verständnis für
ihre Marketingausgaben im Vergleich zu Wettbewerbern vermitteln.
• Wettbewerbsorientierte Benchmark-Anwendungen, die die Performance eines Unternehmens mit
einer Gruppe von Wettbewerbern oder einem Branchendurchschnitt vergleichen. So wird ein
Richtwert erzeugt, anhand dessen Unternehmen ihre finanzielle Performance oder Performance auf
dem Markt in Relation setzen können.
• Kampagnenorientierte Benchmark-Anwendungen, die die Performance einer aktuellen
Marketingkampagne mit einer früheren und/oder ähnlichen Marketingkampagne oder einem
Marketingereignis vergleichen. Beispielsweise möchte ein Unternehmen die Performance der
aktuellen Kampagne zum amerikanischen Unabhängigkeitstag im Vergleich zur gleichen Kampagne
aus dem letzten Jahr analysieren. Benutzer können den Prozentsatz des gesamten Vertriebs
innerhalb der Kampagne an einem bestimmten Datum für jeden Tag der Kampagne nachverfolgen
und Regionen oder Produkte mit der besten/niedrigsten Performance auf Tagesbasis vergleichen.
7
FALLSTUDIE: HAVAS DIGITAL
DIE LEISTUNGSFÄHIGKEIT VON INTEGRIERTEN
ANALYSEN UNTERSTÜTZT KOMPLEXE
ATTRIBUIERUNGSMODELLE
Havas Digital und die Data Computing
Products Division von EMC arbeiten
gemeinsam an der Verbesserung von Artemis
Analytics Lab, einer Forschungs- und
Entwicklungsinitiative zur Umsetzung von
großangelegten Big Data-Analysen in der
Private Cloud. Diese Initiative ermöglicht den
Kunden von Havas Digital ein deutlich
besseres Verständnis des Benutzerverhaltens
und fördert die entsprechende Optimierung
von Marketingkampagnen.
Artemis Analytics Lab ist eine Initiative,
die das Fachwissen von Artemis zu
datengestütztem Marketing und die Data
Computing Foundation von EMC® Greenplum
kombiniert, um branchenführendes digitales
Marketinganalysen-Mining und
datenbankinterne Analysen bereitzustellen.
„Für viele Marketingspezialisten reichen
einfache demografische Benutzerdaten nicht
mehr aus“, so Katrin Ribant, Senior Vice
President von Artemis. „Unsere Kunden
möchten die Aspekte des Benutzerverhaltens
verstehen, die nur über einen längeren
Zeitraum erfasst werden können, um
Erkenntnisse zu gewinnen, die sich hinter
einfachen Transaktionslisten verbergen. Mit
fortschrittlichen Analysemethoden bietet EMC
Greenplum® direkt in die Datenbank
integrierte Analysefunktionen, die über sehr
große Datensätze ausgeführt werden können.
So erreichen wir umfassende neue Einblicke in
das Benutzerverhalten und unterstützen
Marketingexperten bei der Prognose der
Benutzerreaktion auf neue Kampagnen.“
SCHLUSSBEMERKUNGEN
Diese neuen, umfassend skalierbaren Plattformen bieten bahnbrechende Funktionen für die Analyse.
Worin liegen die Vorteile im Vergleich zu aktuellen Data Warehouse- und Analyseplattformen?
• Die Agilität zur Bereitstellung und Neuzuweisung umfassender Rechenressourcen nach Bedarf und
im Einklang mit den geschäftlichen Prioritäten
• Die Fähigkeit, detailliertere und unterschiedlichere Datensätze (Big Data) mit geringer Latenz zu
analysieren und gleichzeitig die Nuancen und detaillierten Beziehungen zwischen den Daten
beizubehalten, um differenzierte Erkenntnisse für eine optimierte geschäftliche Performance zu
gewinnen
• Organisationsübergreifende Zusammenarbeit an entscheidenden Geschäftsinitiativen und schnelle
Verbreitung von Best Practices und unternehmensinternen Erkenntnissen
• Kosteneffizienz zur Nutzung von gängigen Verarbeitungskomponenten zur Analyse von Big Data, um
Geschäftschancen zu nutzen, die früher nicht kosteneffizient (oder gar nicht) gehandhabt werden
konnten
Die ideale Plattform für die Analyse bietet eine stark skalierbare Verarbeitungsleistung, die Möglichkeit
zur Nutzung von detaillierten Datensätzen, Datenzugriff mit geringer Verzögerung und eine enge
Integration von Data Warehouses und Analysen. Wenn diese Plattform richtig verstanden und
bereitgestellt wird, kann sie zur Lösung komplexer geschäftlicher Probleme eingesetzt werden, die
zuvor unlösbar waren, und wesentliche nutzbare Erkenntnisse für das Geschäft bereitstellen.
ÜBER DEN AUTOR
Bill Schmarzo, Global Competency Lead bei EMC Consulting, verfügt über mehr als zwei Jahrzehnte
Erfahrung im Bereich Data Warehousing, Business Intelligence und Analyseanwendungen. Er ist
Verfasser der Analysemethode für Business-Vorteile, die die strategischen Geschäftsinitiativen eines
Unternehmens mit den zugrunde liegenden Daten und Analyseanforderungen verknüpft, und schrieb
gemeinsam mit Ralph Kimball eine Reihe von Artikeln zu Analyseanwendungen. Außerdem war er in
der Fakultät von The Data Warehouse Institute als Manager des Lehrplans für Analyseanwendungen
tätig.
Ein wichtiges Alleinstellungsmerkmal des
Artemis-Systems ist der einzigartige,
hochmoderne Attribuierungsmechanismus,
der eine genauere Berechnung des relativen
Einflusses von Werbung auf Kaufereignisse
ermöglicht. Durch die Verschiebung der
Modellierung und anderer Rechenvorgänge in
die Datenbank und Nutzung von EMC
Greenplum kann Havas Digital seinen Kunden
jetzt ein algorithmisches Framework zur
Attribuierungsanalyse nahezu in Echtzeit
bereitstellen.
EMC2, EMC, Greenplum und das EMC Logo sind eingetragene Marken oder Marken der EMC Corporation in den USA und in anderen
Ländern. Alle anderen in diesem Dokument erwähnten Marken sind das Eigentum ihrer jeweiligen Inhaber.
© Copyright 2011 EMC Corporation. Alle Rechte vorbehalten. 5/11 EMC Perspective H8668.1
EMC Deutschland GmbH
Am Kronberger Hang 2a
65824 Schwalbach/Taunus
Tel.: +49 6196 4728-0
Website: www.germany.emc.com