Big Data und Data Warehouse Evolution statt Revolution

Werbung
Big Data und Data Warehouse
Evolution statt Revolution
ORACLE WHITE PAPER | NOVEMBER 2015
Disclaimer
Die folgenden Ausführungen beschreiben eine generelle Produktrichtung. Sie sind nur als Information gedacht,
und sind nicht Bestandteil von Vereinbarungen oder Verträgen. Es ist nicht erlaubt Material, Code oder sonstige
Teile an anderer Stelle zu verwenden, und es ist nicht erlaubt, Bedingungen von Kaufentscheidungen an die
Inhalte dieses Dokuments zu knüpfen. Die Entwicklung, Freigabe oder Freigabezeitpunkte von beschriebenen
Features und Oracle Produkten bleiben in der Entscheidungshoheit von Oracle.
Table of Contents
Disclaimer
1
Big Data - Warum gerade jetzt?
3
„Neue“ Daten neue Chancen
4
Die neue Qualität von „Big Data“
5
Kosten und Masse- Was macht die Big Data Technologie so interessant
5
HDFS – Hadoop Distributed File System
NoSQL-Datenbanken
RDBMS, HDFS und NoSQL
Data Warehouse und Big Data ergänzen sich
5
6
6
7
Big Data ermöglicht einen erweiterten Data Warehouse Ansatz
Das Eco System Big Data und Data Warehouse als Plattform
SQL – Dreh- und Angelpunkt
Oracle Loader for Hadoop
Oracle SQL Connector for HDFS
Die Brücke hin zum Hadoop Cluster – Golden Gate
Weniger Programmieren sondern Generieren – Oracle Data Integrator
„
7
10
10
11
11
12
12
12
Neue“ Daten und „neue“ Formate für eine integrierte Hadoop / Data Warehouse Analyselandschaft
13
JSON
Geografische Daten kommen fast immer vor
„Wer redet mit wem?“ – Kommunikation sichtbar machen mit Graphen-Analysen
R das universelles Hilfsmittel
13
14
14
15
Big Data Discovery – Visuelle Analysen
16
Aufbau und Betrieb einer Big Data Plattform
17
Big Data Plattform in der Cloud
Anhang
17
18
Energie / Umwelt / Ressourcen
Logistik von verteilten Anlagen, Automaten,Maschinen, LKW-Transporte, Nahverkehr
Tourismus, Freizeit, Outdoor, Happenings
Medien, Unterhaltung, Information
Medizin, Pflege, Gesundheitswesen
Polizei, Öffentlicher Dienst, Versorgung
Finanzdienstleistungen
2 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
18
18
19
20
20
21
21
Landwirtschaft
Industrie 4.0
Handel
Öffentlicher Dienst - Bürgerversorgung
Service, Support, Call-Center
22
22
23
23
24
Big Data - Warum gerade jetzt?
Viele der mit Big Data diskutierten neuen Lösungen enthalten im Kern schon recht alte und bekannte Ideen.
Doch wollen wir heute die Dimensionen und das Potenzial von Big Lösungen begreifen, so sollten wir uns
zunächst mit den geänderten gesellschaftlichen Rahmenbedingungen und auch den neuen sog. EnablerTechnologien befassen. In den modernen Industriegesellschaften hat sich das Internet zu dem
Kommunikationsmedium schlechthin entwickelt. Damit ist es eine riesige Quelle von Fakten aber auch von
Beziehungsinformationen, Informationen über Trends oder gesellschaftliche und politische Bewegungen
geworden. Mehr noch: Was für das Internet Text, Sprache oder Bilder sind, das sind für die Dinge, die uns direkt
umgeben also Produkte, Umwelt, Verkehr, aber auch Produktions- und Handelsprozesse die vielen
Abermillionen Sensoren und Messstationen. Das Gemeinsame ist die Möglichkeit alles, was passiert, digital zu,
zu analysieren, zu bewerten, neue Schlüssel daraus zu ziehen und entsprechend zu handeln.
Sensor- und Internettechnologie führen zur massenhaften Datenproduktion. Skalierungsverfahren wie Hadoop
oder auch In-Memory ermöglichen eine bis dahin nicht geahnte Verarbeitungs- und Analysegeschwindigkeit. Wir
3 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
haben also nicht nur zu fast allem, was uns umgibt Daten, wir können diese Daten auch nutz- und
gewinnbringend einsetzen.
Solche Chance zu nutzen, ist aktuell eine der wichtigsten Aufgaben. Das Potenzial der neuen technischen
Möglichkeiten für neue Geschäftsideen zu erkennen und zu nutzen ist sicher Aufgabe in den Fachabteilungen.
Voraussetzung dazu sind jedoch Offenheit und Flexibilität gegenüber den technischen Innovationen, denn die
Weiterentwicklung der technischen Rahmenbedingungen ist oft Voraussetzung für Business-Aktivitäten. Um die
Chancen zu erkennen, müssen Business und Technik heute noch enger zusammenarbeiten.
Hierfür finden wir in den verschiedenen Industriesegmenten entsprechende Anwendungsszenarien, wie sie
vielleicht schon vor 20 Jahren als Vision vorhanden waren, die aber heute Wirklichkeit geworden sind. (Vgl.
dazu industriespezifische Anwendungsszenarien im Anhang).
„Neue“ Daten neue Chancen
Daten sind die besonderen Mittel, aus denen heraus viele neue Ideen rund um Big Data entstehen. Eine erste Betrachtung
sollte daher den „neuen“ Daten gelten, die heute relevant werden. Die technische Innovation der letzten Jahre hat den Horizont
der Daten, die wir zur Planung und Steuerung von Unternehmensaktivitäten nutzen können massiv erweitert. Moderne
Anwendungsszenarien rund um Big Data greifen diese neuen Daten auf. Die Liste möglicher Anwendungsszenarien im Anhang
erfasst daher auch die Datenarten, die man in den jeweiligen Szenarien hinzuziehen kann. Nicht alle Datenarten sind wirklich
neu. Aber in vielen Fällen fehlte die Idee zur Nutzbarmachung oder einfach nur die Technik. Wir können diese neuen Daten
entsprechend ihrer Verwendung in mehrere Datenarten untergliedern:
1.
Daten wie betriebswirtschaftliche Ergebnisse, Verbrauchsdaten, Umsätze, Gewinne, abgesetzte Waren, Menge der
Kunden usw. sind klassische Informationen, wie sie in Data Warehouse Systemen schon lange vorgehalten und
gemessen werden.
2.
Die nächste Gruppe sind Daten, die im Verlauf von Abläufen oder Geschäftsprozessen auftreten, das sind LogInformationen oder Sensordaten aus Maschinen. Es sind also Daten mit einem unmittelbaren Zusammenhang zu den
verursachenden Aktionen. Man kann direkt Rückschlüsse auf den Verlauf der jeweiligen Aktion schließen.
3.
Im Gegensatz dazu steht die Gruppe der mittelbaren Daten. Das sind z. B. Wetter- und Umweltdaten (Klima) oder
Verkehrsprognosen. Solche Daten können einen gewissen Einfluss auf Geschäftsprozesse haben. Der Zusammenhang
ist jedoch nicht absolut und nur beschränkt vorhanden, aber er ist messbar.
4.
Eine weitere Gruppe sind weiche Daten, z. B. Meinungsäußerungen in den sozialen Medien, aber auch Presseartikel und
Nachrichten. Hier lassen sich über „Sentiments“ Einstellungen, Vorlieben erkennen.
5.
Eine wichtige neue Gruppe sind die Dokumenten-orientierten Daten, wobei der Begriff Dokument als Platzhalter für alles
in Textform Geschriebene, für Bilder, Filme und Tonaufnahmen steht. „Wissen“ über Zusammenhänge entsteht hier durch
Vergleiche von vielen ähnlich angelegten Datenobjekten, es ist die Suche nach unbekannten Auffälligkeiten.
6.
Eine Sonderrolle spielen Bewegungsdaten. Hier ist der Orts- und Zeitzug der entscheidende Aspekt.
7.
Es fehlt noch die Gruppe der Umfeld-Informationen. Das sind Daten über Wettbewerber oder allgemeine Marktlage.
4 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Die neue Qualität von „Big Data“
Datenmengen und Rechengeschwindigkeit
Die besonderen Anforderungen aktueller Anwendungsszenarien z. B. große Datenmengen und das Aufkommen der heutigen
technischen Möglichkeiten fallen zusammen. Viele Szenarien, ob die Analyse von Web-, Kommunikations- oder Sensordaten,
laufen schnell in den zwei-, dreistelligen Terabyte oder gar Petabyte-Bereich. Herausfordernd sind aber nicht die
Datenmengen, die man in großen Cluster-Systemen beliebig skalierend speichert, sondern die heute mögliche Analyse- bzw.
Rechengeschwindigkeit durch massenhaftes Parallelisieren über vielen Rechenknoten hinweg. Die Hadoop-Technologie mit
ihren aktuellen Spark-Erweitungen machen dies möglich.
Die Art der Entstehung – beiläufig und spontan und „ohne Plan“
„Daten in jeder Alltagssituation der Menschen erfassen“, das bedeutetet spontanes und beiläufiges Entstehen der Daten.
Zufällig und situationsabhängig sind extreme Datenmengen möglich. Positionsangaben von Fahrzeugen oder Handynutzer
entstehen, ohne dass die Benutzer dies wahrnehmen. Die Nutzung des Internets hinterlässt Spuren. Hier gewinnt der Begriff
„Schemaless“ Bedeutung d. h., ohne Berücksichtigung einer möglichen späteren Verwendung speichert man Daten in
kürzester Zeit. Auch „projektorganisatorisch“ entspannt sich die Lage: Nicht für jede gesammelte Information ist ein Projekt zu
planen und eine Verwendung zu spezifizieren. Daten lassen sich ohne Bestimmung (und ohne besondere Kosten) sammeln.
Der Zweck mag später erst „entdeckt“ werden. Explorationsprojekte sind möglich, also Projekte zur Ermittlung neuer
Geschäftsideen aus einem riesigen zur Verfügung stehenden Datenreservoir.
Verschiedenheit der Daten
Die vorher genannte Auflistung zu den Datenarten zeigt schon, dass wir auch über unterschiedliche Datenformate sprechen.
Sammelt man für eine Fragestellung alle relevanten Daten, dann darf das Format und die Struktur keine Rolle spielen.
Klassische transaktionale Records, Texte, Bilder, Filme, Sprache, Messdaten u. v. m. fallen an.
Explorativer Charakter der Analyse
Die meisten Analyseverfahren, die wir heute einsetzen, sind nicht neu, aber der technische Fortschritt macht es heute leichter
sie einzusetzen, und zwar unabhängig von Masse und Form der Daten. Insbesondere Mustererkennung, Textmining und
Vorhersageanalysen werden heute wesentlich häufiger genutzt. Sie gehören zu den explorativen Verfahren. Sie produzieren
neues Wissen über unbekannte, versteckte Zusammenhänge in großen Datenmengen.
Kosten und Masse- Was macht die Big Data Technologie so interessant
Relationale Datenbanksysteme (RDBMS), wie Oracle, beherrschen heute noch die Speichertechnik von Data Warehouse-
Systemen. Sie sind über Jahre gereift und lassen kaum noch Wünsche offen. Die Szenarien der aktuellen Big Data Diskussion
forcieren jedoch einen neuen Umgang mit Daten. Das permanente Sammeln von Bewegungs-, Kommunikations-, Zustandsoder Log-Daten führt nicht nur zu einer gewaltigen Schwemme an Daten, sondern die Bedeutung eines einzelnen Datensatzes
verschwindet gegenüber potenziellen „Richtungsinformation“, die durch die Masse der Daten bzw. Summe der Datensätze
angezeigt wird. Es sind mehr die Trends und versteckten Muster, die durch das tendenziell gemeinsame Inhalte in den Daten
zu Tage treten. Auch ist in vielen Fällen nicht unbedingt ersichtlich, mit welchen Analyseverfahren und vor allem mit welchen
Zielen die gesammelten Daten bearbeitet werden können und sollen. Transaktionaler Datenschutz oder das Modellieren von
fixen Datenstrukturen, wie sie aus der relationalen Datenbankwelt bekannt sind, können hinderlich sein, wenn einfach nur
große Text- oder Bildansammlungen aus Twitterfeets, Facebook oder Nachrichtenportalen zu analysieren sind. Und wenn es
weniger auf Textaussagen einzelner Personen, sondern mehr auf Bewertungen ganzer Personengruppen ankommt.
HDFS – Hadoop Distributed File System
Die Apache Hadoop-Technologie ermöglicht es heute solche großen und einfach strukturierte Datenmengen kostengünstig zu
verwalten und auszuwerten. Das Hadoop Distributed File System (HDFS) ist eine der Kernkomponenten des Frameworks,
ein Dateisystem, das die Verteilung von Daten auf einen beliebig großen Rechnerverbund (Cluster) ermöglicht. Die zweite
wichtige Hadoop-Komponente, das Map Reduce Verfahren, transportiert Verarbeitungs- und Analysefunktionen parallel auf
5 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
die einzelnen Clusterknoten. Die Skalierungseffekte entstehen durch das Hinzufügen von Knotenrechnern. Zusätzliche Knoten
bringen zusätzlichen Speicherplatz aber auch zusätzliche Rechenleistung durch die CPU-Cores. Eine weitere Gruppe von
dedizierten Rechnern verwaltet diese Art der Verteilung und führt verteilte Abfrageresultate wieder zusammen. Das Verfahren
macht keine Vorgaben zur Strukturierung der Daten, sie können beliebige sein. Alle Komponenten sind einfach gehalten und
nicht spezialisiert. Dementsprechend müssen aber die Map Reduce – Programme die Daten verstehen.
Während in den frühen Jahren die ersten Projekte schnell auch die Grenzen von Map Reduce aufzeigten, sind aktuelle
Erweiterungen, z. B. Spark, sehr viel versprechend. Hier rückt die In-Memory-Verarbeitung in den Vordergrund. Die zu
analysierenden Daten gelangen als sog. Resilient Distributed Datasets (RDD) in die Hauptspeicher der Clusterknoten. Als
verteilte Speicherobjekt kann die Verarbeitung leicht parallelisiert werde. Die Verarbeitung, Transformationen und
Aggregationen finden sind mehrere 100-mal schneller als die ersten Map Reduce Ausführungen. Ein wesentlicher Vorzug von
Spark sind sicher auch die etwa 80 vorkonfektionierten Funktionen zur Verwaltung des Systems und der Daten. Hinzukommt
die leichtere Programmierung mit Sprachen wie Scala, Python oder auch mit R gegenüber Java. Diese Entwicklungssprachen
lassen kompakte Funktionsaufrufe zu und minimieren Projektaufwände enorm. Dies ist ein sehr wichtiger Aspekt, denn
letztendlich verbreitet sich eine Technologie dann besonders gut, wenn die Einsatzhürden gering sind und gerade in stark
kommerziell ausgerichteten und konventionellen Unternehmen bremste in der Vergangenheit die Java-Lastigkeit den frühen
Erfolg der Hadoop-Technologie.
NoSQL-Datenbanken
Ein weiterer Trend sind sog. NoSQL-Datenbanken (Not only SQL). Während das HDFS – System Daten pauschal als
Datenblöcke von 128 oder 256 MB auf die Speichermedien schreibt, erlauben NoSQL Datenbank das differenzierte Schreiben
und Lesen von Einzelinformationen (Sätzen) bis hin zur transaktionalen Verarbeitung. Man spricht auch von einer Key Value
Store Datenhaltung, wobei ein „Key“ als Zugriffsschlüssel den wahlfreien Zugriff ermöglicht (Random Access) und „Value“ der
Bereich für die formatfreie Datenspeicherung. Die formatfreie Speicherung von Daten in dem Value-Bereich ist der Grund für
die hohe Schreib-Leseperformance dieser Systeme, den die Verarbeitungslogik während der IO-Vorgänge ist gering. Auch
NoSQL – Datenbanken lassen sich extrem parallelisiert in einem Cluster-Verbund kostengünstig betreiben.
RDBMS, HDFS und NoSQL
Alle drei Datenhaltungstechniken RDBMS, HDFS und NoSQL sollten nicht gegeneinander ausgespielt werden, denn jede
Technik hat ihre Vorteile, die für die jeweiligen Einsatzszenarien zu bewerten sind. Die Bewertungskriterien lassen sich nach
Kosten, Performance und Sicherheit gruppieren (siehe Grafik).
Vorteile der jeweiligen Technologie RDBMS, NoSQL DB, Hadoop HDFS
6 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Zusammenfassend lässt sich sagen:
RDBMS-Systeme benötigen wir für sensible und schützenswerte Daten und bezogen auf Data Warehouse-Systeme für
komplexe Abfragen. Zudem entwickeln Sie ihre Stärken in großen Multi-User-Systemen mit vielen gleichzeitigen Lese- und
Schreiboperationen.
NoSQL Datenbanken sind kostengünstiger im Betrieb und sind bei Schreib- und Leseoperationen performant. Sie liefern
jedoch weniger Datensicherheit.
Reine HDFS-Hadoop-Systeme sind kostengünstige Massenschreibsysteme. Große Datenmengen lassen sich in kurzer Zeit in
einem günstigen Cluster speichern. Security, parallele Nutzung der Daten und performante Leseoperationen sind weniger gut
entwickelt.
Das Apache Hadoop System hält noch weitere Technologien für spezielle Aufgabenstellungen bereit, die hier nur kurz bzw.
nicht näher betrachtet werden sollen..
Dies sind u. a.:
Hive ermöglicht eine relationale Sicht und SQL Zugriffe auf Hadoop-Daten.
Flume erlaubt streaming-artigen Datenimport z. B. von Log-Files.
Pig (Pig Latin) ist eine Programmierumgebung für Transformationen.
Mit HBASE sind transaktionale Verarbeitungen auf einzelne Sätze möglich.
Während die vorgenannten Werkzeuge eine sehr stark native Verwendungsart besitzen (z. B. Bedienen über KommandoPrompt und Skripting) liefert Oracle eine Reihe von Lösungen, mit denen die Bedienung komfortabler gestaltet werden kann.
Data Warehouse und Big Data ergänzen sich
In den letzten 20 Jahren haben sich Data Warehouse Systeme zu einer festen Größe bei der Bewertung und Planung von
Unternehmensprozessen in fast allen größeren Unternehmen etabliert. Sinn und Zweck stehen außer Frage.
Ein gut eingeführtes Warehouse-System ist meist die einzige Stelle in einem Unternehmen, an der Informationen über nahezu
alle Geschäftsprozesse zusammenfließen. Daten aus verschiedenen Geschäftsbereichen sind aufeinander abgestimmt.
Auswertungen zu fast allen relevanten Fragestellungen sind unternehmensweit machbar. Erst eine solche integrierende Sicht
ermöglicht z. B. eine echte 360°-Kundensicht, da alle Kontakt- und damit Erfahrungspunkte zu einem Kunden vom Vertrieb,
über die Buchhaltung und Rechnungsstellung bis hin zum Service einbezogen sind. Alle geschäftlichen Aktivitäten sind erfasst.
Hinzukommt die relativ hohe Informationsqualität in einem Data Warehouse, da nicht nur transaktionale Fakten der operativen
Systeme zentral gesammelt werden, sondern diese auch noch in einer leicht nachvollziehbaren Form für Analysezwecke
bequem bereitstehen. Man entwirft spezielle Datenmodellformen (z. B. multidimensionale Modelle) um Zusammenhänge
augenfällig werden zu lassen, und um Analysen zu erleichtern. Allein die Tatsache, dass man in einem Data Warehouse quasi
mit einer Kopie operativer Daten arbeitet, erleichtert das beliebige Konfigurieren und Neu-Kombinieren von Datenbeständen
und die Simulation und Planung mit Unternehmensdaten.
Auch wenn Warehouse-Systeme separat und beiläufig zu den operativen Unternehmensanwendungen laufen, so hat man
deren Analyseergebnisse auch immer wieder als Input zur Steuerung von operativen Anwendungen benutzt. In vielen Fällen
wurden sie sogar Teil der operativen Geschäftsprozesse.
Big Data ermöglicht einen erweiterten Data Warehouse Ansatz
Die Big Data Diskussion erscheint vor diesem Hintergrund eine logische Weiterentwicklung der Data Warehouse Anwendung.
Hat die oben erwähnte 360°-Kundensicht bislang nur unternehmensinterne Daten zur Kundenbetrachtung und
Kundenbewertung herangezogen, so eröffnen sich jetzt weitere Lebensbereiche des Kunden als zusätzliche
Informationsquellen, z. B. die Phase der Nutzung erworbener Produkte oder auch die Kommunikation über Erfahrungen mit
diesen Produkten. Ein schönes Beispiel ist die Nutzung von technischen Einrichtungen oder Extras im Fahrzeugbau. Der durch
Sensoren messbare Nutzungsverlauf gepaart mit Umweltinformationen wie Wetter, Straßenzustand oder Verkehrsdichte lässt
Schlüsse über die sinnvolle Weiterentwicklung solcher technischen Einrichtungen zu. Bis dahin konnten Fahrzeughersteller nur
7 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
klassische Data Warehouse-Informationen zu Verkaufszahlen, Reparaturvorfällen oder Beschwerden über die Servicestellen
auswerten. Mit Big Data wird das Bild vollständiger und die Maßnahmen, die daraus folgen zielgerichteter.
Das Beispiel zeigt aber auch die Folgen und die damit verbundenen besonderen technischen Herausforderungen. Während
der Kauf eines Fahrzeugs durch einen Kunden in einem Data Warehouse i. d. R. nur einen Datensatz ausmacht, verursacht die
Messung der permanenten Verwendung von z. B. einer Start-/Stopp-Automatik Hunderttausende im Verlauf der
Fahrzeugnutzung. Auch die Informationsdichte ist gegenüber der Information des einen Kaufdatensatzes viel geringer. Mehr
noch, ein Sensormessdatensatz für sich genommen ist kaum interessant. Interessant ist die Häufigkeit der Sätze in Verbindung
mit weiteren Parametern über die Nutzung eines Fahrzeugs.
Hier zeigt sich der bereits erwähnte Charakter von typischen Big Data Fragestellungen. Es interessiert der Verlauf von
einzelnen Vorkommnissen (Events), es ist das „Rauschen“ von operativen Daten. Es stellt sich automatisch die Frage, ob diese
Art von Informationen in einem mit historischen Daten gefüllten Data Warehouse zu speichern sind. Oder ob nicht einfach nur
die Ergebnisse, z. B. einer Mustererkennung in das Data Warehouse fließen, während die Sensordaten selbst in einem dafür
besser geeigneten (weil günstigeren) Hadoop-Cluster verbleiben. Oft wird man auch nur wenige Informationen aus den
gesammelten Messwerten ziehen. Die Masse solcher Messdaten bleibt heute noch ungenutzt, weil der Bedarf für weitere
Analysefragestellung nicht gegeben ist. Hier stellt sich die weitere Frage: Soll man das Data Warehouse mit Datenmassen
füllen, deren Analysezweck noch nicht bekannt ist?
Vor dem Hintergrund solcher Überlegungen erweitert die Big Data Technologie heute die Einsatzbereiche sowie das
Datenspektrum der Data Warehouse Systeme. Vier Einsatzszenarien von Big Data Technologien in dem Kontext des Data
Warehouse lassen sich abgrenzen:
1.
Data Staging
Welche Informationen werden in welchem Umfang in einem Data Warehouse für Analysezwecke vorgehalten. Weil diese Frage
für die oft nicht vollständig beantwortet werden kann, laden die meisten Data Warehouse-Teams zu viele Daten in die Systeme.
Vermengung, Unübersichtlichkeit und letztlich Chaos sind die Folge. Big Data Technologie ermöglicht eine Trennung zwischen
Daten, die man aktuell für bekannte Analysen benötigt, und solchen, nur auf Verrat eingelagert werden. Zudem kann ein Teil
der Vorverarbeitung außerhalb des Data Warehouse in einem Hadoop-System stattfinden und so die Ladezeiten verkürzen.
2.
Abbilden spezieller Data Warehouse Architektur-Lösungsbereiche
Bestimmte Daten will man aufgrund ihrer Masse nur ungerne in einem Data Warehouse vorhalten. Z. B. operativen Daten wie
Bondaten oder Call Detail Records oder Click-Daten von Webservern. Um diese dennoch für Analyse in einem Data
Warehouse vorzuhalten, kann man sie in einer Art Operational Data Store basierend auf Hadoop-Technologie speichern. Auch
Datenarchive gehören nicht in das Data Warehouse. In einem angeschlossenen Hadoop-System stehen Datenarchive auf für
Online-Analysen zur Verfügung.
Einsatzszenarien von Big Data im Data Warehouse Kontext
8 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
3.
Ausbau der Heterogenität
Heutige Datenanalysen werden vor allem durch Verschiedenheit der Datenformate und Verteilung von Datenressource
(Quellen) erschwert. Hier nutzt man Hadoop-Technologie um jegliche Art der Daten zusammenzubringen, unabhängig von
Form und Herkunft. Entscheidend ist die Art des Zugriffs auf die Daten. Da die meisten Analysewerkzeuge mit SQL arbeiten,
bleibt SQL die bevorzugte Zugriffssprache sowohl auf Daten in relationalen Datenbanken als auch auf Daten in HadoopSystemen.
4.
Prozessflexibilität
Die Fähigkeit von Hadoop-Systemen in Realtime auch große Datenmengen entgegenzunehmen kann man sich in WarehouseSystemen zu nutze machen, um diese noch stärker in operative Abläufe einzubauen. Warehouse-Systeme benötigen eine
gewisse Latenzzeit für die Integration und Harmonisierung von verteilten Unternehmensdaten. Das Event-artige Auftreten von
z. B. Sensordaten als permanenter Datenfluss kann über ein separates Hadoop-System mit der Fähigkeit sehr schnell und
ohne besondere Verarbeitung Daten zu speichern erfolgen. Das Realtime Data Warehouse bekommt mit Big Data eine
zusätzliche Dynamik.
Einsatzszenarien von Big Data im Data Warehouse Kontext
9 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Das Eco System Big Data und Data Warehouse als Plattform
Big Data Lösungen gibt es heute nicht als einzelnes Produkt. Es wird eine Art Eco-System benötigt, in dem sich die einzelnen
Komponenten gegenseitig ergänzen. Mehr noch, je nach Anforderung der zu lösenden Aufgabenstellung und Datenarten
benötigt man zusätzliche Bibliotheken zum Parsen von Formaten, zum Verstehen und Analysieren von Sprache oder
zusätzliche statistische Analysen.
Oracle hat mit seiner Lösung den klassischen Data Warehouse Ansatz zu einer Big Data Plattform erweitert. In diesem
Konzept findet die relationale Oracle 12c Datenbank ebenso Verwendung, wie die Oracle eigene NoSQL DB (Berkeley DB)
und die Cloudera Hadoop Distribution, die zusammen mit der Big Data Appliance Maschine ausgeliefert wird.
In dieser Analyselandschaft können Daten entsprechend den Anforderungen an den passenden Stellen abgelegt werden,
relational in der Oracle Datenbank als RDBMS-System, Daten mit einer frei wählbaren Struktur in einem Key Value Store der
Oracle NoSQL Datenbank oder als einfache Datei in einem HDFS-Cluster-System. Zugriffe sind von allen Positionen innerhalb
des Systems auf alle Daten möglich. Zusätzliche Werkzeuge sorgen für den Datenaustausch zwischen relationaler Datenbank,
dem Hadoop-System oder der NoSQL Datenbank. Auf der Big Data Appliance – Maschine – ein 18 Knoten Cluster – sind die
Komponenten für den Einsatz schon vorbereitet. Ein Set an Auswertewerkzeugen ergänzt das Angebot.
SQL – Dreh- und Angelpunkt
Eine zentrale Rolle in diesem Eco-System spielt SQL. SQL hat sich mittlerweile als Quasi-Abfragestandard etabliert. Die
meisten Analyse- und Business Intelligence-Werkzeuge lesen ihre Daten über SQL-Zugriffe. Daher sollten SQL-Zugriffe sowohl
auf HDFS- als auch auf klassische Datenbank-Systeme machbar sein, ohne, dass man zwischen den Systemen wechseln
muss.
Mit Big Data SQL sind SQL Abfragen aus der Oracle Datenbank heraus auf das Hadoop-System und in umgekehrter Richtung
absetzbar. Auch Joins zwischen RDBMS-Tabellen und HDFS-Daten sind ad hoc möglich. Zur Auflösung von Join-Operationen
in diesem heterogenen Geflecht müssen die angesprochenen Objekte nicht auf das jeweils andere System „kopiert“ werden.
Eine solche Vorgehensweise hätte massive Performanceprobleme zur folgen, da es sich oft um große Datenobjekte handelt.
Zu Lösung dieser Herausforderung nutzt das System dabei keine MapReduce-Jobs, sondern eigene höchst performante
Oracle-Scan-Prozesse auf den Hadoop-Cluster-Knoten. Diese Scan-Prozesse filtern Daten auf dem Hadoop-Cluster vor, bevor
die Abfrage- oder Join-Ergebnisse zur gegenüberliegenden Seite, z. B. der Datenbank, geschickt werden. Ein dynamischer
Storage Index unterstützt dabei. Big Data SQL unterstützt damit alle SQL generierenden Werkzeuge wie Business Intelligence
Tools oder Report-Generatoren. Das System führt die Abfragen ad hoc und interaktiv aus.
10 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Oracle Loader for Hadoop
Der Oracle Loader for Hadoop liefert Hadoop Datenbestände oder Extrakte daraus als Batch-Job von dem Hadoop-Cluster zur
relationalen Oracle Datenbank. Grundlage ist ein frei konfigurierbares Map Reduce oder Scala-Programm auf dem HadoopCluster und beliebige Datenformate (Text, Avro, Parquet, Hive, JSON oder noSQL). Die Verarbeitung lässt sich stark
parallelisieren. Der Aufruf wird von der Hadoop-Seite gesteuert. Die Hauptverarbeitungslast liegt daher auch auf dem HadoopCluster.
Oracle Loader For Hadoop – Aufrufschema
Oracle SQL Connector for HDFS
Der Oracle SQL Connector for HDFS baut eine Brücke zwischen SQL-Aufrufen in der Oracle Datenbank und Datenbeständen
auf einem HDFS-Hadoop-Cluster. Anders als die oben dargestellte Big Data SQL – Lösung liest dieser SQL-Connecter
vorbereitete HDFS-Datenbestände in Batch-Manier in Richtung Oracle Datenbank. Auch dieser Connector ist stark
parallelisierbar. Die Aufrufe auf der Oracle Datenbankseite erfolgen über External Tables.
Oracle SQL Connector – Aufrufschema mit External Table
11 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Die Brücke hin zum Hadoop Cluster – Golden Gate
Golden Gate repliziert in Real Time Daten aus vielen Quellsystemen, ob Datenbanken oder Dateien in den HDFS-Cluster
(HDFS, HBase, Hive oder Flume).
Oracle Golden Gate Komponenten und Funktionen
Weniger Programmieren sondern Generieren – Oracle Data Integrator
Im Sinne von klassischen und mit grafischen Oberflächen arbeitenden ETL-Tools kann man mit dem Oracle Data Integrator
aus grafisch modellierten Datenflüssen fertige Programme zum Laden, Transformieren und Verwalten von Daten in das
Hadoop-System oder aus dem System heraus generieren. Man hat die Wahl zwischen Pig, Scala oder Hive. Auch die
Datenformate können unterschiedliche sein (SQL, JSON, XML u. a.). Daten sind in alle Richtungen bewegbar. Mit Oracle Data
Integrator lassen sich viele Hadoop-Werkzeuge über die grafische Oberfläche aufrufen. Das Arbeiten auf den nativen
Kommando-Prompts entfällt.
Oracle Data Integrator – Beispiel Mapping mit Demo-Generierungen für HiveSQL, PigLatin und PySpark
„
12 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Neue“ Daten und „neue“ Formate für eine integrierte Hadoop / Data Warehouse
Analyselandschaft
Data Warehouse-Systeme müssen heute mit einer Reihe zusätzlicher Datenformate und Analysearten zurechtkommen, die in
dem Data Warehouse Segment so bislang selten zu finden waren. Das sind neben XML vor allem das heute sehr beliebte
JSON-Format (JavaScript Object Notation), geografische Informationen oder auch netzwerkartig zu betrachtende
Beziehungsdaten (Graphen). Die Oracle –Lösung erlaubt das Speichern und Auswerten dieser Datenarten auf allen drei
Speicherformen, HDFS, NoSQL und RDBMS.
JSON
Wie durchgängig Analyseplattformen heute sein müssen, zeigt eindrucksvoll das Beispiel JSON. Dieses schemaneutrale
Format hat in den vergangenen Jahren XML schon an vielen Stellen verdrängt. Das Format ist kompakter und kommt JavaEntwicklern, die mit dem Hadoop-Framework arbeiten, stark entgegen. Gerne wird „Schemaless“ als wichtiges Big Data
Merkmal zitiert, also das formatfreie, schnelle Wegspeichern von Daten ohne Prüfungen und Formatierungen während des
Schreibens. Die Interpretation der Daten wird dabei auf den Zeitpunkt des Lesens verlagert. Die lesenden Anwendungen
müssen schließlich die Daten verstehen, was dann wieder aufwendig sein kann. JSON ist hier der Kompromiss. Ein JSONSatz besteht aus einer Ansammlung einzelner Key/Value-Paare. Den Key-Teil der Information kann man als
Positionierungswert beim Lesen nutzen. Einerseits lassen sich beliebige Strukturen und Daten ohne besondere Prüfung schnell
speichern. Andererseits wird das Lesen durch die Key-Bestandteile leicht gemacht.
Messdaten oder Log-Sätze im JSON-Format müssen nicht zwingen in einem Hadoop-System liegen. Auch die Oracle
Datenbank kennt heute JSON. JSON–Sätze sind sogar mit SQL abfragbar. Damit lassen sich „Schemaless“- Daten innerhalb
der Oracle Datenbank vorhalten, ohne dass man bereits Investitionen in eine Hadoop-Plattform vornehmen muss.
Will man große JSON-Datenbestände auf Einzelsatzebene schnell lesen, dann macht das Speichern in der Oracle NoSQLDatenbank Sinn. Sollen große JSON – Datenbestände zusammenhängend gelesen werden, empfiehlt sind das Speichern in
einem HDFS-Cluster. Die Logik in den Abfrage- und Verarbeitungsskripten muss sich dagegen nicht ändern. Ob Python, R,
Scala oder auch SQL, alle Wege stehen offen.
JSON als universelles Beschreibungsmittel für NoSQL, Hadoop und Oracle RDBMS
13 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Geografische Daten kommen fast immer vor
Geografische Bezüge kommen in nahezu allen Daten vor. Allein der Entstehungsort der Daten kann schon interessant sein,
wenn er die Position eines Kunden verrät, den man mit einer Werbebotschaft erreichen will. Einerseits bereichern Geodaten
klassische Warehouse-Analysen um zusätzliche Aspekte wie Visualisierung von räumlichen Gegebenheiten, Wohnorten und regionen, Verkehrsanbindungen. Andererseits ergeben sich im Rahmen von Big Data neue Einsatzfelder, etwa die Optimierung
von Transportrouten in Abhängigkeit von Verkehrsströmen oder auch Wetterdaten.
Zeit und Ort gehören oft zu den wichtigsten Dimensionen in multidimensionalen Modellen (Star Schemen). Durch geografische
Datenpunkte gewinnen die Ortsinformationen eine visuelle Information, die Landkarte als Analysehilfsmittel. Durch das
Sammeln von Bewegungsdaten entstehen Bewegungskarten zu Personen, Fahrzeugen oder Schiffen.
Alle Schiffsbewegungen im Jahr 2014 in der deutschen Bucht (kumuliert). AIS.
In der Oracle Datenbank sind Geodaten als eigenständiger Datentyp abgelegt. Bringt man die Informationen in eine NoSQL
Datenbank oder in das HDFS Filesystem, so gewinnt das JSON-Format an Bedeutung. Oracle bietet dazu eine Reihe von
Algorithmen zur Analyse von Geodaten, dazu gehören die Geo-Codierung (Umwandeln von Adressdaten zu geografischen
Punkten um umgekehrt), Umfeld- und Distanzanalysen, das Finden von kürzesten Wegen u. a. m.
„Wer redet mit wem?“ – Kommunikation sichtbar machen mit Graphen-Analysen
Die Bewegründe von Kunden, die zu einem Kauf, Nichtkauf, oder aber auch zur Kündigung von Verträgen führen, kann man
besser verstehen, wenn man die Meinungsbildungsprozesse, die dazu führen, kennt. Meinungen entstehen u. a. durch
Kommunikation und hier spielt die nicht direkte und nicht verbale Internet-Kommunikation eine immer wichtigere Rolle. „Wer
redet mit wem?“, „Welche Webseiten werden besucht?“, „Welche Blogs werden gelesen?“, „Welche Tweets werden verfolgt?“.
Solche Informationen kann man heute aus den jeweiligen Systemen auslesen und speichern wird man sie in einer GraphenDatenhaltung. Ein Graph ist verkürzt gesagt die Beschreibung der Verbindung von zwei Objekten (Trible). Die drei Aussagen
„Meier kennt Müller“, „Müller kennt Schmidt“, „Schmidt kennt Schuster“ lassen sich verkürzt gesprochen zu einem
Graphenmodell zusammenfassen, aus dem die Aussage ableitbar ist, dass „Meier indirekt Schmidt kennt“. Diese Art von
Modellen ist ideal geeignet, um soziale Netzwerke auf deren Struktur hin zu analysieren. Dazu gibt es eine Reihe von
Algorithmen zu dem Analysieren der Bestandteile (Komponenten) von Netzwerken, Entfernungen und Häufungen von Knoten,
Netzstrukturanalysen, Wegenetzoptimierungen u. a. m.
14 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
35 Graphen-Algorithmen auf HBase oder NoSQL DB, In-Memory und hoch parallel.
In Oracles Big Data Appliance werden solche Algorithmen extrem performant In-Memory und parallelisiert über die ClusterKnoten hinweg in HBase oder auch in der NoSQL Datenbank ausgeführt. Das ist um so bedeutsamer je größer die
Netzwerkmodelle werden. und die aktuell diskutierten Daten umfassen sehr große Datennetze.
R das universelles Hilfsmittel
R ist ursprünglich als Statistiksprache bekannt geworden. Die Sprache hat sich jedoch heute zu einem der wichtigsten
Werkzeuge für Analysten im Big Data Umfeld entwickelt. Die Sprache ist kompakt, oft genügen wenige Funktionsaufrufe, um
komplette Verfahren auszulösen. Analyseergebnisse sind schnell und einfach als Grafik dargestellt. Für unvorhergesehene
neue Aufgabenstellungen gibt es meist Zusatzbibliotheken, die rund um den Globus über das Internet zum Downloaden zur
Verfügung stehen. Man kann die meisten Analyseverfahren inklusive Data Mining mit R auf nahezu alle Datenformate
anwenden. Die Sprache lebt, denn sie wird permanent über die Open Source Gemeinde weiterentwickelt.
Oracle hat die Sprache in das Big Data Eco-System mit einbezogen und dabei einige der Limitierungen, die R mit sich bringt,
aufgehoben. So kann man die R-Analyse-Engine auf dem Datenbank-Server oder auf der Big Data Appliance Maschine
parallel zur Ausführung bringen. R analysiert Daten als Objekte im Hauptspeicher: in dem Big Data Cluster-Verbund der Big
Data Maschine stehen dafür sehr große Hauptspeicherausbauten zur Verfügung. Spezielle Data Mining Algorithmen (GLM,
Neural Network) sind mit der neusten Spark-Technologie als Bibliotheken in R und auf dem Hadoop-Cluster lauffähig.
Mit R arbeitet man heute in dem Big Data Ecosystem sowohl in der Oracle Datenbank als auch in dem Hadoop-Cluster. Daten
können an beliebigen Stellen der Plattform ist durchgängig bearbeitet und ausgewertet werden.
15 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Ablaufumgebungen für R, Client, Oracle Datenbank Server oder Big Data Appliance
Big Data Discovery – Visuelle Analysen
Die Masse und die Verschiedenheit der heute interessierenden Daten kann man sicher nicht mit klassischen Business
Intelligence Werkzeugen analysieren. Daten liegen nicht in den passenden Formaten vor, sie sind schlecht kombinierbar oder
sind zu wenig verdichtet. Daher hat Oracle zur Analyse von Big Data Daten das Werkzeug Big Data Discovery in das
Ecosystem eingeführt. Mit diesem Werkzeug lassen sich die unterschiedlichen Datenobjekte interaktiv zunächst vorsortieren
und mit zusätzlichen Attributen versehen, um sie dann schrittweise ersten Analysen zu unterziehen. Da es sich meist um
unbekanntes Datenmaterial handelt, wird man diese iterativen Schritte so lange wiederholen, bis sich nach und nach
Erkenntnisse einstellen.
Grafisches Bearbeiten von Big Data Daten mit Oracle Big Data Discovery
16 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Aufbau und Betrieb einer Big Data Plattform
Letztlich müssen Hadoop-Cluster auch physisch aufgebaut und betrieben werden. Der Big Data Philosophie entsprechend,
koppelt man hierzu kostengünstige Standardrechner in einem Netzwerk zusammen. Anders, als die in Rechenzentren oft zu
findende Separierung von Storage (SAN) und Server-Rechnern, bilden bei einem Hadoop-Cluster Speicherplatten,
Rechenkerne und Hauptspeicher eine Einheit und stellen einen Knoten dar. Während man einzelne Knoten noch initial einfach
konfigurieren kann, steigt die Komplexität und Fehleranfälligkeit mit wachsender Knotenzahl an. Schwierig wird es erst recht,
wenn Software-Upgrades oder Wartungsarbeiten durchzuführen sind. Die eigentliche Aufgabe, nämlich das Analysieren von
neuen Daten, kann dann schon mal als Nebensache in den Hintergrund geraten. Um möglichst schnell dieses Hauptziel zu
verfolgen und auch nicht aus den Augen zu verlieren, liefert Oracle die Big Data Appliance Cluster Maschine für Big Data
Analysen mit aus. Die Größe dieses Cluster-Verbunds ist anpassbar. Beginnend bei 6 Knoten, lässt sich das System beliebig
nach oben ausbauen. Datenmengen im Petabyte-Bereich und Hauptspeichergrößen von mehreren Terabytes sind in einem
einzigen Rack standardmäßig schon nach wenigen Tagen einsatzbereit. Für die parallele Verarbeitung ist vor allem auch die
Anzahl der Rechenkerne wichtig. Das System bringt im schon im Grundausbau 216 Rechenkerne mit.
Auf dieser Hardware sind die Hadoop-Distribution von Cloudera mit HDFS und den entsprechenden Hadoop-Werkzeuge
vorinstalliert. Oracle R Enterprise und Oracle NoSQL DB vervollständigen die Umgebung.
Einstiegskonfiguration einer Big Data Appliance
Maschine
• 6 Xeon-basierte zwei-Sockel Server
– 216 Cores (36 Cores pro Server)
– 768 GB / 4608 GB Hauptspeicher (128 GB / 768 GB
pro Server)
– 576 TB (96 TB – 12x 8 TB SAS High Capacity Platten
pro Server)
– 12x InfiniBand 4X QDR (40Gb/s) CX3 Ports (PCIe 3.0)
(2 pro Server)
– 24x 10GbE ports (4 per server)
• 1 Sun Datacenter InfiniBand (Spine) Switch 36
– 36-port Managed QDR (40Gb/s) Switch
• 2 NM2 Gateway InfiniBand Switch
• 1 “Admin” Cisco Ethernet Switch
• Redundante Netzteile (PDUs)
Big Data Appliance Starter Rack Konfiguration
Big Data Plattform in der Cloud
Will man sich nicht selbst mit dem Betrieb einer Big Data – Umgebung belasten, so kann man die Big Data Plattform auch in
einer Cloud-Umgebung in beliebigen Ausprägungen und zeitlich passend nutzen.
17 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Anhang
Die folgende Liste enthält einige Einsatzszenarien nach Industrie-Segmenten untergliedert. Enthalten sind mögliche Datenarten
und möglich Analyseverfahren.
Energie / Umwelt / Ressourcen
Energie / Umwelt /
Ressourcen
„Neue“ Daten
Lösungen
Methoden/Verfahren/
Algorithmus
Senken von
Energieverbrauch
Smart MeterStrom+
Intelligentes Stromnetz /
Trenderkennung
Energiever-
Austausch von
Regression
Effizientes Steuern der
brauchsdaten von
Zustandsinformationen
Energieproduktion
Haushalten
von Verbrauchern und
Transparenz von
Energieproduktionsda
Energieverbrauch durch
ten
Publizierung von
Verbrauchsdaten
Unterstützung im
Energiehandel,
Wetterprognosedaten
Marktdaten
Wettbewerbsdaten
Mustererkennung
Produzenten
Durch rechtzeitiges
Erkennen
von Spitzen- und
Niedriglasten,frühzeitiges
Hoch+Runterfahren
Zeitlich versetztes
Markttransparenz
Beliefern von
Großverbrauchen
Logistik von verteilten Anlagen, Automaten,Maschinen, LKW-Transporte, Nahverkehr
Energie / Umwelt /
Ressourcen
„Neue“ Daten
Lösungen
Methoden/Verfahren/
Algorithmus
Optimierung von
Sensordaten über
Automaten, Maschinen,
Wartungsdaten-DWH
Wartungsfahrten für
Maschinen-zustand
verteilte Anlagen liefern
Automaten, Maschinen,
verteilte Anlagen etc.
Bedarfsgerechte
Wartungszyklen
Proaktives Versorgungsmanagement
Kostensenkung für
Wartung + Fuhrpark +
Logistik
Bedarfsgerechtes
Bereitstellen von
Transportkapazität,
Verbrauchsdaten,
Füllstandsanzeigen
Erfahrungsdaten aus
der
Historie
Aktuelle Verkehrs- und
Wetterdaten
permanent Zustandsdaten
an die Zentrale.
Berechnung von
Wartungsfenstern
Tägliches Neuberechnen
von Routen /
Alternativrouten
Patternanalyse zur
Erkennung
von verdeckten
VerschleißZusammenhängen
Spatial-Analysen
(kürzeste Wege)
Realtime
Tägliche Neuberechnung
Logdatenstrom-
Bewegungsstromprofile
von
Analyse
von
Transportkapazitäten im
Personen über Handy-
öffentlichen Nahverkehr
Ortung
Zugfolgen,
Zuggrößen, Verhindern von
Leerfahrten,
18 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Event-Management
Tourismus, Freizeit, Outdoor, Happenings
Energie / Umwelt /
Ressourcen
„Neue“ Daten
Lösungen
Methoden/Verfahren/
Algorithmus
Optimierung von
Social-Media-Daten,
Tägliche Top-
Clusteranalyse zu
Reisezielangeboten
Twitter, Facebook,
Themen-Trendliste
bisherigem
Geografische
Freizeitverhalten
Travel-Management,
Blogs...
Optimieren von Zeiten,
Wirtschaftsdaten aus
Routen,
den
Transportmittel
Regionen
Verhindern von
Stimmungsbarometer
Textmining auf soziale
Tägliches
Medien zum Finden
Neuberechnen von
von Schlagwörtern,
Nachrichten über
Routen /
Trends etc.
Reiseausfällen und
politische +soziale
Alternativrouten
Stornierungen
Entwicklungen bzw.
Kapazitätsplanung
Kontingentierung
Entwickeln und Vermarkten
neuer Freizeitangebote
Entwickeln und Vermarkten
von zielgruppenspezif.
Angeboten
Optimieren von Charter-
Naturereignisse,
Katastrophen,
Wetterlagen,
Klimadaten,
Stimmungen mit Hilfe
Verkehr + Wetter
von
Flexibles
(Textmining auf
nt mit frühzeitigem
Nachrichten)
Freigeben oder
)kalender
Zubuchen von
Währungsdaten
angeboten
Treibstoffkosten
Steuerung von
Eventkalender der
Mietwagenflotten
Wettbewerber
Reiseportale im Web
Bewertungsfaktoren
Kapazitätsmanageme
Monats-(Wetter-
Reiseberichte
Scoring auf politische
Berücksichtigen von
Fremd-Kapazitäten
Eventplanung mit
günstigsten Zeiten
mit Vermeidung von
Event-Häufungen
Filtern von
Zielgruppen
(Alter, soziale
Gruppen)
Automatisiertes
Beobachten von
Web-Angeboten, Last
Minutes etc.
19 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Text-Mining auf
Reiseberichte
Zeitungen, Fernsehen,
Funk
Trend-Analyse im
zentralen
DWH (Zeitenreihen)
Web Scraping zum
Beobachten der Online
Medien
Text-Mining auf
Reiseberichte
Zeitungen, Fernsehen,
Funk
Medien, Unterhaltung, Information
Energie / Umwelt /
„Neue“ Daten
Ressourcen
Zielgruppenspezifisches
Fernsehangebot
Diversifizieren
Kulturangeboten
„Massentrends +
Individualismus“
Entwickeln von Soaps /
Kettenserien
Bedienen von
gesellschaftliche
Trendthemen
Lösungen
Methoden/Verfahren/
Algorithmus
Tägliche Top-ThemenTrendliste
Clusteranalyse zu
bisherigem
Geografische
Stimmungsbarometer
Freizeitverhalten
Private Anzeigen, Blogs,
Leserbriefe
Tägliches Neuberechnen
Absatzzahlen, EinschaltQuoten
von Routen /
Alternativrouten
Wetterlagen, Klimadaten,
Berücksichtigen von
Verkehr +Wetter
Social-Media-Daten,
Twitter, Facebook,
Blogs...
Web-Traffic-Daten
Zeitliche Flexibilisierung
von
Unterhaltungsangeboten
Flexible Medienarchive mit
Automatisierte BildContentErkennung
(Textmining auf
Nachrichten)
Eventplanung mit
günstigsten
Zeiten mit Vermeidung
von Event-Häufungen
Trend-Analyse im
zentralen
DWH (Zeitenreihen)
Automatisiertes
Beobachten von
Web-Angeboten, Last
Minutes etc.
Überwachung von
biometrischen Daten von
chronisch Kranken
Sensordaten,
FitnesstrackerDaten
Finden von versteckten
Zusammenhängen in
Krankheitsbildern
Wetterdaten zum
Feststellen der
Rahmenbedingungen
Prävention durch
Früherkennung
von Krankheitsindikatoren
Umweltdaten wie
Zustand der
Luft , Ozon etc.
(regionale
Luftmessstationen)
Unterstützung beim
Selbstmanagement zur
Verhaltensänderung oder
Training
Aufdecken von Medikamentenmissbrauch und falschen
Medikationen
Überprüfung der Wirksamkeit
von Medikamenten
Individuelle
Krankenversicherung
Verbrauchsdaten von
Medikamenten
Statistikdaten der
Krankenkassen
Scoring auf politische
Stimmungen mit Hilfe von
Bewertungsfaktoren
Flexibles
Kapazitätsmanagement
mit frühzeitigem
Freigeben oder Zubuchen
von Fremd-Kapazitäten
Filtern von Zielgruppen
(Alter, soziale Gruppen)
Medizin, Pflege, Gesundheitswesen
Energie / Umwelt /
„Neue“ Daten
Ressourcen
Textmining auf soziale
Medien zum Finden von
Schlagwörtern, Trends
etc.
Bilderkennung,
Tonerkennung
Web Scraping zum
Beobachten der
Wettbewerber
Text-Mining auf
Reiseberichte Zeitungen,
Fernsehen, Funk
Lösungen
Methoden/Verfahren
/
Algorithmus
Erstellung von individuellen
Behandlungsplänen
Nahezu alle Data
Warehouse Analysen
Risiko-minimierte Medikation
durch Kontrolle individueller
Faktoren
Textmining auf
Krankenberichte
Zusammenfassen von
Patientendaten aus
unterschiedlichen Quellen
Abgleich mit Daten aus
mehreren Pflegestellen,
Arzneidaten,
Erfahrungsberichten
Einbeziehen von ökonomischen
und
-sozialen Faktoren in die
Bewertung
von Heilungschancen.
Monitoring von gesundheitsbeeinflussenden
Verhaltensweisen
20 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Klassifikation aufgrund
gemeinsamer Merkmale
Clusterbildung , für
komplexe
Zusammenhänge
Attribute-Importance
Wetterdaten-Scoring
Regionen-Scoring
Pattern-Matching in
Massendaten
Polizei, Öffentlicher Dienst, Versorgung
Energie / Umwelt /
„Neue“ Daten
Ressourcen
Lösungen
Methoden/Verfahren
/
Algorithmus
Predictive Policing,
Kriminalprevention
Umfeldinformationen,
Verkehrsbewegungen
Klassifizierung von
Straftaten
Nahezu alle Data
Warehouse-Verfahren
Planung der Versorgung
mit
öffentlichen Einrichtungen
(Feuerwehr,
Krankenwagen,
Polizeitstationen)
Kriminalakten
Erstellen von
Täterprofilen durch das
Sammeln vieler
Merkmale
Textmining auf Protokolle
Terrorfahndung
Automatisches Bearbeiten
von Täterprofilen
Umweltdaten, Wetter
Veranstaltungsinformatione
n
Geografische
Informationen,
Karten, Adressen
Umfeldanalysen
Social Media-Screening
Medienmonitoring
Graphanalysen zum
Erkennen von indirekten
Beziehungen
Musterdaten zu
psychologischem Verhalten
Aufdecken von privaten
Versicherungsbetrugsversuch
en
Minimierung des Risikos bei
der
Kreditvergabe
Aufdecken von Geldwäsche
Individuelle Prämien und
Versicherungsangebote
Entwickeln von
Kundenbindungsangeboten /
Kombiangeboten
„Neue“ Daten
Lösungen
Methoden/Verfahre
n/
Algorithmus
Umfeldinformationen,
Verkehrsbewegungen
Erstellung von
Ausgabeprofilen
privater Haushalte
Pattern-Matching von
Finanztransaktionen jeder
Art
Finden von
Zusammenhängen
über NetzwerkAnalysen
Graphen-Analysen zur
Erkennung von
Beziehungen
Kontobewegungsdaten
Social Media Daten
Umweltdaten, Wetter
Kreditkarteninformation
en
Katastrophendaten
Klick-Daten (Weblogs)
Vergleichen von
Finanztransaktionszeiten +
und Orte mit der
Suche nach
Auffälligkeiten
Entwickeln von
Anlageangeboten für Kunden
Anreichern von
Kundendaten durch
zusätzliche frei
erhältliche
Merkmale, z. B. aus
sozialen Medien.
Monitoren von Tradings ->
Finden von Auffälligkeiten
Kundenwertermittlu
ng
Fokussierung auf
finanzkräftige
Kunden
Graph-Analysen zum
Aufspüren von
Täternetzwerken
Statistik zum Erkennen von
Ausreißern
Kreditkarteninformationen
Telekommunikationsdaten
Finanzdienstleistungen
Energie / Umwelt /
Ressourcen
Spatial-Analysen zum
Aufdecken geografischer
Zusammenhänge
Customer LifetimeAnalysen
360° KundensichtOptimierung
21 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Zwischen Personen und
Handelspartnern
Abgleich von
Textvermerken
von Überweisungen.
Statistik zum Finden von
Extremwerten
Historienauswertung
DWH
EntscheidungsbaumAnalysen
Segmentierung
Landwirtschaft
Energie / Umwelt /
Ressourcen
„Neue“ Daten
Lösungen
Methoden/Verfahren
/
Algorithmus
Steuerung von
Produktionsabläufen, Ernte- und
Maschineneinsatzplanung
Geodaten
Erstellung von
Maschineneinsatzplä
nen
Geodateneinsatz, Finden
optimaler Wege
Regelung von Wasser und
Düngemitteleinsatz
Bodenanalysedaten,
Feuchtigkeit, Mineralien
Erstellung von
Einsatzplänen für
Erntehelfer
Steuerung von
Landmaschinen
mit Geodaten
Umweltdaten, Wetter,
Sonnenstunden,
Regenmengen
Geodaten-optimierter
Ernteprozess
Historienauswertung DWH
Optimierung Pflanzenpflege
Marktpreisdaten
Finden optimaler
Erntezeitpunkte
EntscheidungsbaumAnalyse
Düngemittelplanung
Segmentierung
Maschinendaten /
Sensoren
Patternanalyse für lokale
Wetterdatenphänomene
Statistik zum Finden von
Extremwerten
Der „vernetzte
Weinberg“
Industrie 4.0
Energie / Umwelt /
Ressourcen
„Neue“ Daten
Lösungen
Methoden/Verfahren
/
Algorithmus
Optimieren von Ressourceverbräuchen bei der
Produktion.
RFID-Daten
Realtime-Analysen
Besseres Anpassen von
Absatz und Produktion
Bewegungsdaten,
Regionen
Smart Factory:
Optimieren der
Produktionsplanung
durch das Sammeln
von Verbrauchs- und
Verschleißdaten.
„Verwendungsmonitoring“
Klassische
Vertriebsdaten
Optimieren von
Produktionsabläufen
Smart Operations:
Vernetzte Produktion
Verbrauchsdaten
Statistik zum Finden von
Extremwerten
Historienauswertung DWH
Weiterentwickeln von
Produkten unter echten
Einsatzbedingungen
Smart Products:
Aktive Produkte
kommunizieren auch
nach Produktion und
Verkauf mit Hersteller
Frühzeitiges Erkennen von
Fehlerausfällen und
Wartungsoptimierung
Smart Service:
Produkt-ServiceSystem.
Sensordaten
Automatisierte Wartung
22 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Event Management
Pattern-Analysen zum
Erkennen von
Regelmäßigkeiten
EntscheidungsbaumAnalysen
Handel
Energie / Umwelt /
Ressourcen
Angebots- /
Sortimentoptimierung
Preisoptimierung
Besseres Platzieren von
Waren in Regalen und
Wegen
Positionieren von Shops
Optimierung der
Bevorratung +
Regalbestückung
Flexibleres Reagieren auf
„zufällige“ Vorkommnisse
(Wetter, gesellschaftl.
Ergeignisse)
„Neue“ Daten
Lösungen
Methoden/Verfahren
/Algorithmus
RFID-Daten
Realtime-Analysen
Webdaten von
Wettbewerbern
Analysieren der
Kundenbeswegung
in Läden und EKZentren.
Bewegungsprofile
von Kunden
Analysieren der
Verkehrsströme
Statistik zum Finden von
Extremwerten
Weblog-Daten
Klassische BondatenAnalyse
Klassisches Analysieren
von Abverkaufsdaten im
DWH
Geo-Daten
Wetterdaten
Sentiment-Daten
Öffentliche
Statistikdaten
Bedarfsermittlung mit
Hilfe von
Trenderkennung in
sozialen
Medien aber auch
Wetter
Event Management
Sentiment-Analyse im Web
Warenkorb-Analysen
Zeitreihen-Analysen
Entscheidungsbäume
ProduktlebenszyklusAnalyse
Entwickeln von „Themen-“
Kampagnen
Individualisieren von
Kundenangeboten
1:1 Marketing
Öffentlicher Dienst - Bürgerversorgung
Energie /
„Neue“ Daten
Umwelt /
Ressourcen
Minimieren von
Personalaufwand
Mehr
Bürgerinformation
Kostenminimierung
durch Selfservice
Früherkennung von
Missständen,
z. B.
Straßenverkehr,
bauliche
Einrichtungen,
öffentliches Leben
RFID-Messstationen
Bewegungsprofile von
Personen
Verkehrsmengendaten
Verkehrsnutzungsdaten
Social Media Daten
Verbrauchsdaten
(Strom,
Wasser, Gas)
Steueraufkommen
Lösungen
Methoden/Verfahren/
Algorithmus
Erstellung von Verkehrs- und
Bewegungskarten
Spatial-Analysen
Aufbau von
Informationsportalen
und Datenabrufdiensten
Automatisierte
Event Messung /
Statistik
Pattern-Analysen
zum Erkennen von
Regelmäßigkeiten
Optimierung Bürgerbüros
Statistik zum Finden
von
Extremwerten
Flexibles Zeitmanagement von
öffentlichen Einrichtungen
Historienauswertung
DWH
Verkehrslenkungsmassnahmen
Kommunikationsdaten
Stadtplanung,
Infrastruktur,
Grünflächen
Aufdecken von
Freizeitverhalten
der
Bürger
23 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Service, Support, Call-Center
Energie / Umwelt /
„Neue“ Daten
Ressourcen
Minimieren von
Personalaufwand
Mehr Bürgerinformation
Kostenminimierung durch
Selfservice
Lösungen
Methoden/Verfahren
/
Algorithmus
Gesprächsprotokolle
Telefonstatistiken
Textmining
Tonaufnahmen
Zufriedenheitsstatistik
en
Klassische Statistik
Vertragsdaten
CDRs
Gesprächs-CoachLösung
Klassische
Vertriebsdaten
Trainingslösungen
Oracle Deutschland B.V. & Co. KG
Worldwide Inquiries
Kühnehöfe 5
Tel: +494089091 0
22761 Hamburg, Germany
Fax: +494089091250
Linguistik
Clsuter-Analysen
Autor: Alfred [email protected]
CONNECT WITH US
blogs.oracle.com/oracle
facebook.com/oracle
twitter.com/oracle
oracle.com
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. This document is provided for information purposes only, and
the contents hereof are subject to change without notice. This document is not warranted to be error-free, nor subject to any
other warranties or conditions, whether expressed orally or implied in law, including implied warranties and conditions of
merchantability or fitness for a particular purpose. We specifically disclaim any liability with respect to this document, and no
contractual obligations are formed either directly or indirectly by this document. This document may not be reproduced or
transmitted in any form or by any means, electronic or mechanical, for any purpose, without our prior written permission.
Oracle and Java are registered trademarks of Oracle and/or its affiliates. Other names may be trademarks of their respective
owners.
Intel and Intel Xeon are trademarks or registered trademarks of Intel Corporation. All SPARC trademarks are used under license
and are trademarks or registered trademarks of SPARC International, Inc. AMD, Opteron, the AMD logo, and the AMD Opteron
logo are trademarks or registered trademarks of Advanced Micro Devices. UNIX is a registered trademark of The Open Group.
1115
24 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution
Herunterladen