Big Data und Data Warehouse Evolution statt Revolution ORACLE WHITE PAPER | NOVEMBER 2015 Disclaimer Die folgenden Ausführungen beschreiben eine generelle Produktrichtung. Sie sind nur als Information gedacht, und sind nicht Bestandteil von Vereinbarungen oder Verträgen. Es ist nicht erlaubt Material, Code oder sonstige Teile an anderer Stelle zu verwenden, und es ist nicht erlaubt, Bedingungen von Kaufentscheidungen an die Inhalte dieses Dokuments zu knüpfen. Die Entwicklung, Freigabe oder Freigabezeitpunkte von beschriebenen Features und Oracle Produkten bleiben in der Entscheidungshoheit von Oracle. Table of Contents Disclaimer 1 Big Data - Warum gerade jetzt? 3 „Neue“ Daten neue Chancen 4 Die neue Qualität von „Big Data“ 5 Kosten und Masse- Was macht die Big Data Technologie so interessant 5 HDFS – Hadoop Distributed File System NoSQL-Datenbanken RDBMS, HDFS und NoSQL Data Warehouse und Big Data ergänzen sich 5 6 6 7 Big Data ermöglicht einen erweiterten Data Warehouse Ansatz Das Eco System Big Data und Data Warehouse als Plattform SQL – Dreh- und Angelpunkt Oracle Loader for Hadoop Oracle SQL Connector for HDFS Die Brücke hin zum Hadoop Cluster – Golden Gate Weniger Programmieren sondern Generieren – Oracle Data Integrator „ 7 10 10 11 11 12 12 12 Neue“ Daten und „neue“ Formate für eine integrierte Hadoop / Data Warehouse Analyselandschaft 13 JSON Geografische Daten kommen fast immer vor „Wer redet mit wem?“ – Kommunikation sichtbar machen mit Graphen-Analysen R das universelles Hilfsmittel 13 14 14 15 Big Data Discovery – Visuelle Analysen 16 Aufbau und Betrieb einer Big Data Plattform 17 Big Data Plattform in der Cloud Anhang 17 18 Energie / Umwelt / Ressourcen Logistik von verteilten Anlagen, Automaten,Maschinen, LKW-Transporte, Nahverkehr Tourismus, Freizeit, Outdoor, Happenings Medien, Unterhaltung, Information Medizin, Pflege, Gesundheitswesen Polizei, Öffentlicher Dienst, Versorgung Finanzdienstleistungen 2 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution 18 18 19 20 20 21 21 Landwirtschaft Industrie 4.0 Handel Öffentlicher Dienst - Bürgerversorgung Service, Support, Call-Center 22 22 23 23 24 Big Data - Warum gerade jetzt? Viele der mit Big Data diskutierten neuen Lösungen enthalten im Kern schon recht alte und bekannte Ideen. Doch wollen wir heute die Dimensionen und das Potenzial von Big Lösungen begreifen, so sollten wir uns zunächst mit den geänderten gesellschaftlichen Rahmenbedingungen und auch den neuen sog. EnablerTechnologien befassen. In den modernen Industriegesellschaften hat sich das Internet zu dem Kommunikationsmedium schlechthin entwickelt. Damit ist es eine riesige Quelle von Fakten aber auch von Beziehungsinformationen, Informationen über Trends oder gesellschaftliche und politische Bewegungen geworden. Mehr noch: Was für das Internet Text, Sprache oder Bilder sind, das sind für die Dinge, die uns direkt umgeben also Produkte, Umwelt, Verkehr, aber auch Produktions- und Handelsprozesse die vielen Abermillionen Sensoren und Messstationen. Das Gemeinsame ist die Möglichkeit alles, was passiert, digital zu, zu analysieren, zu bewerten, neue Schlüssel daraus zu ziehen und entsprechend zu handeln. Sensor- und Internettechnologie führen zur massenhaften Datenproduktion. Skalierungsverfahren wie Hadoop oder auch In-Memory ermöglichen eine bis dahin nicht geahnte Verarbeitungs- und Analysegeschwindigkeit. Wir 3 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution haben also nicht nur zu fast allem, was uns umgibt Daten, wir können diese Daten auch nutz- und gewinnbringend einsetzen. Solche Chance zu nutzen, ist aktuell eine der wichtigsten Aufgaben. Das Potenzial der neuen technischen Möglichkeiten für neue Geschäftsideen zu erkennen und zu nutzen ist sicher Aufgabe in den Fachabteilungen. Voraussetzung dazu sind jedoch Offenheit und Flexibilität gegenüber den technischen Innovationen, denn die Weiterentwicklung der technischen Rahmenbedingungen ist oft Voraussetzung für Business-Aktivitäten. Um die Chancen zu erkennen, müssen Business und Technik heute noch enger zusammenarbeiten. Hierfür finden wir in den verschiedenen Industriesegmenten entsprechende Anwendungsszenarien, wie sie vielleicht schon vor 20 Jahren als Vision vorhanden waren, die aber heute Wirklichkeit geworden sind. (Vgl. dazu industriespezifische Anwendungsszenarien im Anhang). „Neue“ Daten neue Chancen Daten sind die besonderen Mittel, aus denen heraus viele neue Ideen rund um Big Data entstehen. Eine erste Betrachtung sollte daher den „neuen“ Daten gelten, die heute relevant werden. Die technische Innovation der letzten Jahre hat den Horizont der Daten, die wir zur Planung und Steuerung von Unternehmensaktivitäten nutzen können massiv erweitert. Moderne Anwendungsszenarien rund um Big Data greifen diese neuen Daten auf. Die Liste möglicher Anwendungsszenarien im Anhang erfasst daher auch die Datenarten, die man in den jeweiligen Szenarien hinzuziehen kann. Nicht alle Datenarten sind wirklich neu. Aber in vielen Fällen fehlte die Idee zur Nutzbarmachung oder einfach nur die Technik. Wir können diese neuen Daten entsprechend ihrer Verwendung in mehrere Datenarten untergliedern: 1. Daten wie betriebswirtschaftliche Ergebnisse, Verbrauchsdaten, Umsätze, Gewinne, abgesetzte Waren, Menge der Kunden usw. sind klassische Informationen, wie sie in Data Warehouse Systemen schon lange vorgehalten und gemessen werden. 2. Die nächste Gruppe sind Daten, die im Verlauf von Abläufen oder Geschäftsprozessen auftreten, das sind LogInformationen oder Sensordaten aus Maschinen. Es sind also Daten mit einem unmittelbaren Zusammenhang zu den verursachenden Aktionen. Man kann direkt Rückschlüsse auf den Verlauf der jeweiligen Aktion schließen. 3. Im Gegensatz dazu steht die Gruppe der mittelbaren Daten. Das sind z. B. Wetter- und Umweltdaten (Klima) oder Verkehrsprognosen. Solche Daten können einen gewissen Einfluss auf Geschäftsprozesse haben. Der Zusammenhang ist jedoch nicht absolut und nur beschränkt vorhanden, aber er ist messbar. 4. Eine weitere Gruppe sind weiche Daten, z. B. Meinungsäußerungen in den sozialen Medien, aber auch Presseartikel und Nachrichten. Hier lassen sich über „Sentiments“ Einstellungen, Vorlieben erkennen. 5. Eine wichtige neue Gruppe sind die Dokumenten-orientierten Daten, wobei der Begriff Dokument als Platzhalter für alles in Textform Geschriebene, für Bilder, Filme und Tonaufnahmen steht. „Wissen“ über Zusammenhänge entsteht hier durch Vergleiche von vielen ähnlich angelegten Datenobjekten, es ist die Suche nach unbekannten Auffälligkeiten. 6. Eine Sonderrolle spielen Bewegungsdaten. Hier ist der Orts- und Zeitzug der entscheidende Aspekt. 7. Es fehlt noch die Gruppe der Umfeld-Informationen. Das sind Daten über Wettbewerber oder allgemeine Marktlage. 4 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Die neue Qualität von „Big Data“ Datenmengen und Rechengeschwindigkeit Die besonderen Anforderungen aktueller Anwendungsszenarien z. B. große Datenmengen und das Aufkommen der heutigen technischen Möglichkeiten fallen zusammen. Viele Szenarien, ob die Analyse von Web-, Kommunikations- oder Sensordaten, laufen schnell in den zwei-, dreistelligen Terabyte oder gar Petabyte-Bereich. Herausfordernd sind aber nicht die Datenmengen, die man in großen Cluster-Systemen beliebig skalierend speichert, sondern die heute mögliche Analyse- bzw. Rechengeschwindigkeit durch massenhaftes Parallelisieren über vielen Rechenknoten hinweg. Die Hadoop-Technologie mit ihren aktuellen Spark-Erweitungen machen dies möglich. Die Art der Entstehung – beiläufig und spontan und „ohne Plan“ „Daten in jeder Alltagssituation der Menschen erfassen“, das bedeutetet spontanes und beiläufiges Entstehen der Daten. Zufällig und situationsabhängig sind extreme Datenmengen möglich. Positionsangaben von Fahrzeugen oder Handynutzer entstehen, ohne dass die Benutzer dies wahrnehmen. Die Nutzung des Internets hinterlässt Spuren. Hier gewinnt der Begriff „Schemaless“ Bedeutung d. h., ohne Berücksichtigung einer möglichen späteren Verwendung speichert man Daten in kürzester Zeit. Auch „projektorganisatorisch“ entspannt sich die Lage: Nicht für jede gesammelte Information ist ein Projekt zu planen und eine Verwendung zu spezifizieren. Daten lassen sich ohne Bestimmung (und ohne besondere Kosten) sammeln. Der Zweck mag später erst „entdeckt“ werden. Explorationsprojekte sind möglich, also Projekte zur Ermittlung neuer Geschäftsideen aus einem riesigen zur Verfügung stehenden Datenreservoir. Verschiedenheit der Daten Die vorher genannte Auflistung zu den Datenarten zeigt schon, dass wir auch über unterschiedliche Datenformate sprechen. Sammelt man für eine Fragestellung alle relevanten Daten, dann darf das Format und die Struktur keine Rolle spielen. Klassische transaktionale Records, Texte, Bilder, Filme, Sprache, Messdaten u. v. m. fallen an. Explorativer Charakter der Analyse Die meisten Analyseverfahren, die wir heute einsetzen, sind nicht neu, aber der technische Fortschritt macht es heute leichter sie einzusetzen, und zwar unabhängig von Masse und Form der Daten. Insbesondere Mustererkennung, Textmining und Vorhersageanalysen werden heute wesentlich häufiger genutzt. Sie gehören zu den explorativen Verfahren. Sie produzieren neues Wissen über unbekannte, versteckte Zusammenhänge in großen Datenmengen. Kosten und Masse- Was macht die Big Data Technologie so interessant Relationale Datenbanksysteme (RDBMS), wie Oracle, beherrschen heute noch die Speichertechnik von Data Warehouse- Systemen. Sie sind über Jahre gereift und lassen kaum noch Wünsche offen. Die Szenarien der aktuellen Big Data Diskussion forcieren jedoch einen neuen Umgang mit Daten. Das permanente Sammeln von Bewegungs-, Kommunikations-, Zustandsoder Log-Daten führt nicht nur zu einer gewaltigen Schwemme an Daten, sondern die Bedeutung eines einzelnen Datensatzes verschwindet gegenüber potenziellen „Richtungsinformation“, die durch die Masse der Daten bzw. Summe der Datensätze angezeigt wird. Es sind mehr die Trends und versteckten Muster, die durch das tendenziell gemeinsame Inhalte in den Daten zu Tage treten. Auch ist in vielen Fällen nicht unbedingt ersichtlich, mit welchen Analyseverfahren und vor allem mit welchen Zielen die gesammelten Daten bearbeitet werden können und sollen. Transaktionaler Datenschutz oder das Modellieren von fixen Datenstrukturen, wie sie aus der relationalen Datenbankwelt bekannt sind, können hinderlich sein, wenn einfach nur große Text- oder Bildansammlungen aus Twitterfeets, Facebook oder Nachrichtenportalen zu analysieren sind. Und wenn es weniger auf Textaussagen einzelner Personen, sondern mehr auf Bewertungen ganzer Personengruppen ankommt. HDFS – Hadoop Distributed File System Die Apache Hadoop-Technologie ermöglicht es heute solche großen und einfach strukturierte Datenmengen kostengünstig zu verwalten und auszuwerten. Das Hadoop Distributed File System (HDFS) ist eine der Kernkomponenten des Frameworks, ein Dateisystem, das die Verteilung von Daten auf einen beliebig großen Rechnerverbund (Cluster) ermöglicht. Die zweite wichtige Hadoop-Komponente, das Map Reduce Verfahren, transportiert Verarbeitungs- und Analysefunktionen parallel auf 5 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution die einzelnen Clusterknoten. Die Skalierungseffekte entstehen durch das Hinzufügen von Knotenrechnern. Zusätzliche Knoten bringen zusätzlichen Speicherplatz aber auch zusätzliche Rechenleistung durch die CPU-Cores. Eine weitere Gruppe von dedizierten Rechnern verwaltet diese Art der Verteilung und führt verteilte Abfrageresultate wieder zusammen. Das Verfahren macht keine Vorgaben zur Strukturierung der Daten, sie können beliebige sein. Alle Komponenten sind einfach gehalten und nicht spezialisiert. Dementsprechend müssen aber die Map Reduce – Programme die Daten verstehen. Während in den frühen Jahren die ersten Projekte schnell auch die Grenzen von Map Reduce aufzeigten, sind aktuelle Erweiterungen, z. B. Spark, sehr viel versprechend. Hier rückt die In-Memory-Verarbeitung in den Vordergrund. Die zu analysierenden Daten gelangen als sog. Resilient Distributed Datasets (RDD) in die Hauptspeicher der Clusterknoten. Als verteilte Speicherobjekt kann die Verarbeitung leicht parallelisiert werde. Die Verarbeitung, Transformationen und Aggregationen finden sind mehrere 100-mal schneller als die ersten Map Reduce Ausführungen. Ein wesentlicher Vorzug von Spark sind sicher auch die etwa 80 vorkonfektionierten Funktionen zur Verwaltung des Systems und der Daten. Hinzukommt die leichtere Programmierung mit Sprachen wie Scala, Python oder auch mit R gegenüber Java. Diese Entwicklungssprachen lassen kompakte Funktionsaufrufe zu und minimieren Projektaufwände enorm. Dies ist ein sehr wichtiger Aspekt, denn letztendlich verbreitet sich eine Technologie dann besonders gut, wenn die Einsatzhürden gering sind und gerade in stark kommerziell ausgerichteten und konventionellen Unternehmen bremste in der Vergangenheit die Java-Lastigkeit den frühen Erfolg der Hadoop-Technologie. NoSQL-Datenbanken Ein weiterer Trend sind sog. NoSQL-Datenbanken (Not only SQL). Während das HDFS – System Daten pauschal als Datenblöcke von 128 oder 256 MB auf die Speichermedien schreibt, erlauben NoSQL Datenbank das differenzierte Schreiben und Lesen von Einzelinformationen (Sätzen) bis hin zur transaktionalen Verarbeitung. Man spricht auch von einer Key Value Store Datenhaltung, wobei ein „Key“ als Zugriffsschlüssel den wahlfreien Zugriff ermöglicht (Random Access) und „Value“ der Bereich für die formatfreie Datenspeicherung. Die formatfreie Speicherung von Daten in dem Value-Bereich ist der Grund für die hohe Schreib-Leseperformance dieser Systeme, den die Verarbeitungslogik während der IO-Vorgänge ist gering. Auch NoSQL – Datenbanken lassen sich extrem parallelisiert in einem Cluster-Verbund kostengünstig betreiben. RDBMS, HDFS und NoSQL Alle drei Datenhaltungstechniken RDBMS, HDFS und NoSQL sollten nicht gegeneinander ausgespielt werden, denn jede Technik hat ihre Vorteile, die für die jeweiligen Einsatzszenarien zu bewerten sind. Die Bewertungskriterien lassen sich nach Kosten, Performance und Sicherheit gruppieren (siehe Grafik). Vorteile der jeweiligen Technologie RDBMS, NoSQL DB, Hadoop HDFS 6 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Zusammenfassend lässt sich sagen: RDBMS-Systeme benötigen wir für sensible und schützenswerte Daten und bezogen auf Data Warehouse-Systeme für komplexe Abfragen. Zudem entwickeln Sie ihre Stärken in großen Multi-User-Systemen mit vielen gleichzeitigen Lese- und Schreiboperationen. NoSQL Datenbanken sind kostengünstiger im Betrieb und sind bei Schreib- und Leseoperationen performant. Sie liefern jedoch weniger Datensicherheit. Reine HDFS-Hadoop-Systeme sind kostengünstige Massenschreibsysteme. Große Datenmengen lassen sich in kurzer Zeit in einem günstigen Cluster speichern. Security, parallele Nutzung der Daten und performante Leseoperationen sind weniger gut entwickelt. Das Apache Hadoop System hält noch weitere Technologien für spezielle Aufgabenstellungen bereit, die hier nur kurz bzw. nicht näher betrachtet werden sollen.. Dies sind u. a.: Hive ermöglicht eine relationale Sicht und SQL Zugriffe auf Hadoop-Daten. Flume erlaubt streaming-artigen Datenimport z. B. von Log-Files. Pig (Pig Latin) ist eine Programmierumgebung für Transformationen. Mit HBASE sind transaktionale Verarbeitungen auf einzelne Sätze möglich. Während die vorgenannten Werkzeuge eine sehr stark native Verwendungsart besitzen (z. B. Bedienen über KommandoPrompt und Skripting) liefert Oracle eine Reihe von Lösungen, mit denen die Bedienung komfortabler gestaltet werden kann. Data Warehouse und Big Data ergänzen sich In den letzten 20 Jahren haben sich Data Warehouse Systeme zu einer festen Größe bei der Bewertung und Planung von Unternehmensprozessen in fast allen größeren Unternehmen etabliert. Sinn und Zweck stehen außer Frage. Ein gut eingeführtes Warehouse-System ist meist die einzige Stelle in einem Unternehmen, an der Informationen über nahezu alle Geschäftsprozesse zusammenfließen. Daten aus verschiedenen Geschäftsbereichen sind aufeinander abgestimmt. Auswertungen zu fast allen relevanten Fragestellungen sind unternehmensweit machbar. Erst eine solche integrierende Sicht ermöglicht z. B. eine echte 360°-Kundensicht, da alle Kontakt- und damit Erfahrungspunkte zu einem Kunden vom Vertrieb, über die Buchhaltung und Rechnungsstellung bis hin zum Service einbezogen sind. Alle geschäftlichen Aktivitäten sind erfasst. Hinzukommt die relativ hohe Informationsqualität in einem Data Warehouse, da nicht nur transaktionale Fakten der operativen Systeme zentral gesammelt werden, sondern diese auch noch in einer leicht nachvollziehbaren Form für Analysezwecke bequem bereitstehen. Man entwirft spezielle Datenmodellformen (z. B. multidimensionale Modelle) um Zusammenhänge augenfällig werden zu lassen, und um Analysen zu erleichtern. Allein die Tatsache, dass man in einem Data Warehouse quasi mit einer Kopie operativer Daten arbeitet, erleichtert das beliebige Konfigurieren und Neu-Kombinieren von Datenbeständen und die Simulation und Planung mit Unternehmensdaten. Auch wenn Warehouse-Systeme separat und beiläufig zu den operativen Unternehmensanwendungen laufen, so hat man deren Analyseergebnisse auch immer wieder als Input zur Steuerung von operativen Anwendungen benutzt. In vielen Fällen wurden sie sogar Teil der operativen Geschäftsprozesse. Big Data ermöglicht einen erweiterten Data Warehouse Ansatz Die Big Data Diskussion erscheint vor diesem Hintergrund eine logische Weiterentwicklung der Data Warehouse Anwendung. Hat die oben erwähnte 360°-Kundensicht bislang nur unternehmensinterne Daten zur Kundenbetrachtung und Kundenbewertung herangezogen, so eröffnen sich jetzt weitere Lebensbereiche des Kunden als zusätzliche Informationsquellen, z. B. die Phase der Nutzung erworbener Produkte oder auch die Kommunikation über Erfahrungen mit diesen Produkten. Ein schönes Beispiel ist die Nutzung von technischen Einrichtungen oder Extras im Fahrzeugbau. Der durch Sensoren messbare Nutzungsverlauf gepaart mit Umweltinformationen wie Wetter, Straßenzustand oder Verkehrsdichte lässt Schlüsse über die sinnvolle Weiterentwicklung solcher technischen Einrichtungen zu. Bis dahin konnten Fahrzeughersteller nur 7 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution klassische Data Warehouse-Informationen zu Verkaufszahlen, Reparaturvorfällen oder Beschwerden über die Servicestellen auswerten. Mit Big Data wird das Bild vollständiger und die Maßnahmen, die daraus folgen zielgerichteter. Das Beispiel zeigt aber auch die Folgen und die damit verbundenen besonderen technischen Herausforderungen. Während der Kauf eines Fahrzeugs durch einen Kunden in einem Data Warehouse i. d. R. nur einen Datensatz ausmacht, verursacht die Messung der permanenten Verwendung von z. B. einer Start-/Stopp-Automatik Hunderttausende im Verlauf der Fahrzeugnutzung. Auch die Informationsdichte ist gegenüber der Information des einen Kaufdatensatzes viel geringer. Mehr noch, ein Sensormessdatensatz für sich genommen ist kaum interessant. Interessant ist die Häufigkeit der Sätze in Verbindung mit weiteren Parametern über die Nutzung eines Fahrzeugs. Hier zeigt sich der bereits erwähnte Charakter von typischen Big Data Fragestellungen. Es interessiert der Verlauf von einzelnen Vorkommnissen (Events), es ist das „Rauschen“ von operativen Daten. Es stellt sich automatisch die Frage, ob diese Art von Informationen in einem mit historischen Daten gefüllten Data Warehouse zu speichern sind. Oder ob nicht einfach nur die Ergebnisse, z. B. einer Mustererkennung in das Data Warehouse fließen, während die Sensordaten selbst in einem dafür besser geeigneten (weil günstigeren) Hadoop-Cluster verbleiben. Oft wird man auch nur wenige Informationen aus den gesammelten Messwerten ziehen. Die Masse solcher Messdaten bleibt heute noch ungenutzt, weil der Bedarf für weitere Analysefragestellung nicht gegeben ist. Hier stellt sich die weitere Frage: Soll man das Data Warehouse mit Datenmassen füllen, deren Analysezweck noch nicht bekannt ist? Vor dem Hintergrund solcher Überlegungen erweitert die Big Data Technologie heute die Einsatzbereiche sowie das Datenspektrum der Data Warehouse Systeme. Vier Einsatzszenarien von Big Data Technologien in dem Kontext des Data Warehouse lassen sich abgrenzen: 1. Data Staging Welche Informationen werden in welchem Umfang in einem Data Warehouse für Analysezwecke vorgehalten. Weil diese Frage für die oft nicht vollständig beantwortet werden kann, laden die meisten Data Warehouse-Teams zu viele Daten in die Systeme. Vermengung, Unübersichtlichkeit und letztlich Chaos sind die Folge. Big Data Technologie ermöglicht eine Trennung zwischen Daten, die man aktuell für bekannte Analysen benötigt, und solchen, nur auf Verrat eingelagert werden. Zudem kann ein Teil der Vorverarbeitung außerhalb des Data Warehouse in einem Hadoop-System stattfinden und so die Ladezeiten verkürzen. 2. Abbilden spezieller Data Warehouse Architektur-Lösungsbereiche Bestimmte Daten will man aufgrund ihrer Masse nur ungerne in einem Data Warehouse vorhalten. Z. B. operativen Daten wie Bondaten oder Call Detail Records oder Click-Daten von Webservern. Um diese dennoch für Analyse in einem Data Warehouse vorzuhalten, kann man sie in einer Art Operational Data Store basierend auf Hadoop-Technologie speichern. Auch Datenarchive gehören nicht in das Data Warehouse. In einem angeschlossenen Hadoop-System stehen Datenarchive auf für Online-Analysen zur Verfügung. Einsatzszenarien von Big Data im Data Warehouse Kontext 8 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution 3. Ausbau der Heterogenität Heutige Datenanalysen werden vor allem durch Verschiedenheit der Datenformate und Verteilung von Datenressource (Quellen) erschwert. Hier nutzt man Hadoop-Technologie um jegliche Art der Daten zusammenzubringen, unabhängig von Form und Herkunft. Entscheidend ist die Art des Zugriffs auf die Daten. Da die meisten Analysewerkzeuge mit SQL arbeiten, bleibt SQL die bevorzugte Zugriffssprache sowohl auf Daten in relationalen Datenbanken als auch auf Daten in HadoopSystemen. 4. Prozessflexibilität Die Fähigkeit von Hadoop-Systemen in Realtime auch große Datenmengen entgegenzunehmen kann man sich in WarehouseSystemen zu nutze machen, um diese noch stärker in operative Abläufe einzubauen. Warehouse-Systeme benötigen eine gewisse Latenzzeit für die Integration und Harmonisierung von verteilten Unternehmensdaten. Das Event-artige Auftreten von z. B. Sensordaten als permanenter Datenfluss kann über ein separates Hadoop-System mit der Fähigkeit sehr schnell und ohne besondere Verarbeitung Daten zu speichern erfolgen. Das Realtime Data Warehouse bekommt mit Big Data eine zusätzliche Dynamik. Einsatzszenarien von Big Data im Data Warehouse Kontext 9 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Das Eco System Big Data und Data Warehouse als Plattform Big Data Lösungen gibt es heute nicht als einzelnes Produkt. Es wird eine Art Eco-System benötigt, in dem sich die einzelnen Komponenten gegenseitig ergänzen. Mehr noch, je nach Anforderung der zu lösenden Aufgabenstellung und Datenarten benötigt man zusätzliche Bibliotheken zum Parsen von Formaten, zum Verstehen und Analysieren von Sprache oder zusätzliche statistische Analysen. Oracle hat mit seiner Lösung den klassischen Data Warehouse Ansatz zu einer Big Data Plattform erweitert. In diesem Konzept findet die relationale Oracle 12c Datenbank ebenso Verwendung, wie die Oracle eigene NoSQL DB (Berkeley DB) und die Cloudera Hadoop Distribution, die zusammen mit der Big Data Appliance Maschine ausgeliefert wird. In dieser Analyselandschaft können Daten entsprechend den Anforderungen an den passenden Stellen abgelegt werden, relational in der Oracle Datenbank als RDBMS-System, Daten mit einer frei wählbaren Struktur in einem Key Value Store der Oracle NoSQL Datenbank oder als einfache Datei in einem HDFS-Cluster-System. Zugriffe sind von allen Positionen innerhalb des Systems auf alle Daten möglich. Zusätzliche Werkzeuge sorgen für den Datenaustausch zwischen relationaler Datenbank, dem Hadoop-System oder der NoSQL Datenbank. Auf der Big Data Appliance – Maschine – ein 18 Knoten Cluster – sind die Komponenten für den Einsatz schon vorbereitet. Ein Set an Auswertewerkzeugen ergänzt das Angebot. SQL – Dreh- und Angelpunkt Eine zentrale Rolle in diesem Eco-System spielt SQL. SQL hat sich mittlerweile als Quasi-Abfragestandard etabliert. Die meisten Analyse- und Business Intelligence-Werkzeuge lesen ihre Daten über SQL-Zugriffe. Daher sollten SQL-Zugriffe sowohl auf HDFS- als auch auf klassische Datenbank-Systeme machbar sein, ohne, dass man zwischen den Systemen wechseln muss. Mit Big Data SQL sind SQL Abfragen aus der Oracle Datenbank heraus auf das Hadoop-System und in umgekehrter Richtung absetzbar. Auch Joins zwischen RDBMS-Tabellen und HDFS-Daten sind ad hoc möglich. Zur Auflösung von Join-Operationen in diesem heterogenen Geflecht müssen die angesprochenen Objekte nicht auf das jeweils andere System „kopiert“ werden. Eine solche Vorgehensweise hätte massive Performanceprobleme zur folgen, da es sich oft um große Datenobjekte handelt. Zu Lösung dieser Herausforderung nutzt das System dabei keine MapReduce-Jobs, sondern eigene höchst performante Oracle-Scan-Prozesse auf den Hadoop-Cluster-Knoten. Diese Scan-Prozesse filtern Daten auf dem Hadoop-Cluster vor, bevor die Abfrage- oder Join-Ergebnisse zur gegenüberliegenden Seite, z. B. der Datenbank, geschickt werden. Ein dynamischer Storage Index unterstützt dabei. Big Data SQL unterstützt damit alle SQL generierenden Werkzeuge wie Business Intelligence Tools oder Report-Generatoren. Das System führt die Abfragen ad hoc und interaktiv aus. 10 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Oracle Loader for Hadoop Der Oracle Loader for Hadoop liefert Hadoop Datenbestände oder Extrakte daraus als Batch-Job von dem Hadoop-Cluster zur relationalen Oracle Datenbank. Grundlage ist ein frei konfigurierbares Map Reduce oder Scala-Programm auf dem HadoopCluster und beliebige Datenformate (Text, Avro, Parquet, Hive, JSON oder noSQL). Die Verarbeitung lässt sich stark parallelisieren. Der Aufruf wird von der Hadoop-Seite gesteuert. Die Hauptverarbeitungslast liegt daher auch auf dem HadoopCluster. Oracle Loader For Hadoop – Aufrufschema Oracle SQL Connector for HDFS Der Oracle SQL Connector for HDFS baut eine Brücke zwischen SQL-Aufrufen in der Oracle Datenbank und Datenbeständen auf einem HDFS-Hadoop-Cluster. Anders als die oben dargestellte Big Data SQL – Lösung liest dieser SQL-Connecter vorbereitete HDFS-Datenbestände in Batch-Manier in Richtung Oracle Datenbank. Auch dieser Connector ist stark parallelisierbar. Die Aufrufe auf der Oracle Datenbankseite erfolgen über External Tables. Oracle SQL Connector – Aufrufschema mit External Table 11 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Die Brücke hin zum Hadoop Cluster – Golden Gate Golden Gate repliziert in Real Time Daten aus vielen Quellsystemen, ob Datenbanken oder Dateien in den HDFS-Cluster (HDFS, HBase, Hive oder Flume). Oracle Golden Gate Komponenten und Funktionen Weniger Programmieren sondern Generieren – Oracle Data Integrator Im Sinne von klassischen und mit grafischen Oberflächen arbeitenden ETL-Tools kann man mit dem Oracle Data Integrator aus grafisch modellierten Datenflüssen fertige Programme zum Laden, Transformieren und Verwalten von Daten in das Hadoop-System oder aus dem System heraus generieren. Man hat die Wahl zwischen Pig, Scala oder Hive. Auch die Datenformate können unterschiedliche sein (SQL, JSON, XML u. a.). Daten sind in alle Richtungen bewegbar. Mit Oracle Data Integrator lassen sich viele Hadoop-Werkzeuge über die grafische Oberfläche aufrufen. Das Arbeiten auf den nativen Kommando-Prompts entfällt. Oracle Data Integrator – Beispiel Mapping mit Demo-Generierungen für HiveSQL, PigLatin und PySpark „ 12 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Neue“ Daten und „neue“ Formate für eine integrierte Hadoop / Data Warehouse Analyselandschaft Data Warehouse-Systeme müssen heute mit einer Reihe zusätzlicher Datenformate und Analysearten zurechtkommen, die in dem Data Warehouse Segment so bislang selten zu finden waren. Das sind neben XML vor allem das heute sehr beliebte JSON-Format (JavaScript Object Notation), geografische Informationen oder auch netzwerkartig zu betrachtende Beziehungsdaten (Graphen). Die Oracle –Lösung erlaubt das Speichern und Auswerten dieser Datenarten auf allen drei Speicherformen, HDFS, NoSQL und RDBMS. JSON Wie durchgängig Analyseplattformen heute sein müssen, zeigt eindrucksvoll das Beispiel JSON. Dieses schemaneutrale Format hat in den vergangenen Jahren XML schon an vielen Stellen verdrängt. Das Format ist kompakter und kommt JavaEntwicklern, die mit dem Hadoop-Framework arbeiten, stark entgegen. Gerne wird „Schemaless“ als wichtiges Big Data Merkmal zitiert, also das formatfreie, schnelle Wegspeichern von Daten ohne Prüfungen und Formatierungen während des Schreibens. Die Interpretation der Daten wird dabei auf den Zeitpunkt des Lesens verlagert. Die lesenden Anwendungen müssen schließlich die Daten verstehen, was dann wieder aufwendig sein kann. JSON ist hier der Kompromiss. Ein JSONSatz besteht aus einer Ansammlung einzelner Key/Value-Paare. Den Key-Teil der Information kann man als Positionierungswert beim Lesen nutzen. Einerseits lassen sich beliebige Strukturen und Daten ohne besondere Prüfung schnell speichern. Andererseits wird das Lesen durch die Key-Bestandteile leicht gemacht. Messdaten oder Log-Sätze im JSON-Format müssen nicht zwingen in einem Hadoop-System liegen. Auch die Oracle Datenbank kennt heute JSON. JSON–Sätze sind sogar mit SQL abfragbar. Damit lassen sich „Schemaless“- Daten innerhalb der Oracle Datenbank vorhalten, ohne dass man bereits Investitionen in eine Hadoop-Plattform vornehmen muss. Will man große JSON-Datenbestände auf Einzelsatzebene schnell lesen, dann macht das Speichern in der Oracle NoSQLDatenbank Sinn. Sollen große JSON – Datenbestände zusammenhängend gelesen werden, empfiehlt sind das Speichern in einem HDFS-Cluster. Die Logik in den Abfrage- und Verarbeitungsskripten muss sich dagegen nicht ändern. Ob Python, R, Scala oder auch SQL, alle Wege stehen offen. JSON als universelles Beschreibungsmittel für NoSQL, Hadoop und Oracle RDBMS 13 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Geografische Daten kommen fast immer vor Geografische Bezüge kommen in nahezu allen Daten vor. Allein der Entstehungsort der Daten kann schon interessant sein, wenn er die Position eines Kunden verrät, den man mit einer Werbebotschaft erreichen will. Einerseits bereichern Geodaten klassische Warehouse-Analysen um zusätzliche Aspekte wie Visualisierung von räumlichen Gegebenheiten, Wohnorten und regionen, Verkehrsanbindungen. Andererseits ergeben sich im Rahmen von Big Data neue Einsatzfelder, etwa die Optimierung von Transportrouten in Abhängigkeit von Verkehrsströmen oder auch Wetterdaten. Zeit und Ort gehören oft zu den wichtigsten Dimensionen in multidimensionalen Modellen (Star Schemen). Durch geografische Datenpunkte gewinnen die Ortsinformationen eine visuelle Information, die Landkarte als Analysehilfsmittel. Durch das Sammeln von Bewegungsdaten entstehen Bewegungskarten zu Personen, Fahrzeugen oder Schiffen. Alle Schiffsbewegungen im Jahr 2014 in der deutschen Bucht (kumuliert). AIS. In der Oracle Datenbank sind Geodaten als eigenständiger Datentyp abgelegt. Bringt man die Informationen in eine NoSQL Datenbank oder in das HDFS Filesystem, so gewinnt das JSON-Format an Bedeutung. Oracle bietet dazu eine Reihe von Algorithmen zur Analyse von Geodaten, dazu gehören die Geo-Codierung (Umwandeln von Adressdaten zu geografischen Punkten um umgekehrt), Umfeld- und Distanzanalysen, das Finden von kürzesten Wegen u. a. m. „Wer redet mit wem?“ – Kommunikation sichtbar machen mit Graphen-Analysen Die Bewegründe von Kunden, die zu einem Kauf, Nichtkauf, oder aber auch zur Kündigung von Verträgen führen, kann man besser verstehen, wenn man die Meinungsbildungsprozesse, die dazu führen, kennt. Meinungen entstehen u. a. durch Kommunikation und hier spielt die nicht direkte und nicht verbale Internet-Kommunikation eine immer wichtigere Rolle. „Wer redet mit wem?“, „Welche Webseiten werden besucht?“, „Welche Blogs werden gelesen?“, „Welche Tweets werden verfolgt?“. Solche Informationen kann man heute aus den jeweiligen Systemen auslesen und speichern wird man sie in einer GraphenDatenhaltung. Ein Graph ist verkürzt gesagt die Beschreibung der Verbindung von zwei Objekten (Trible). Die drei Aussagen „Meier kennt Müller“, „Müller kennt Schmidt“, „Schmidt kennt Schuster“ lassen sich verkürzt gesprochen zu einem Graphenmodell zusammenfassen, aus dem die Aussage ableitbar ist, dass „Meier indirekt Schmidt kennt“. Diese Art von Modellen ist ideal geeignet, um soziale Netzwerke auf deren Struktur hin zu analysieren. Dazu gibt es eine Reihe von Algorithmen zu dem Analysieren der Bestandteile (Komponenten) von Netzwerken, Entfernungen und Häufungen von Knoten, Netzstrukturanalysen, Wegenetzoptimierungen u. a. m. 14 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution 35 Graphen-Algorithmen auf HBase oder NoSQL DB, In-Memory und hoch parallel. In Oracles Big Data Appliance werden solche Algorithmen extrem performant In-Memory und parallelisiert über die ClusterKnoten hinweg in HBase oder auch in der NoSQL Datenbank ausgeführt. Das ist um so bedeutsamer je größer die Netzwerkmodelle werden. und die aktuell diskutierten Daten umfassen sehr große Datennetze. R das universelles Hilfsmittel R ist ursprünglich als Statistiksprache bekannt geworden. Die Sprache hat sich jedoch heute zu einem der wichtigsten Werkzeuge für Analysten im Big Data Umfeld entwickelt. Die Sprache ist kompakt, oft genügen wenige Funktionsaufrufe, um komplette Verfahren auszulösen. Analyseergebnisse sind schnell und einfach als Grafik dargestellt. Für unvorhergesehene neue Aufgabenstellungen gibt es meist Zusatzbibliotheken, die rund um den Globus über das Internet zum Downloaden zur Verfügung stehen. Man kann die meisten Analyseverfahren inklusive Data Mining mit R auf nahezu alle Datenformate anwenden. Die Sprache lebt, denn sie wird permanent über die Open Source Gemeinde weiterentwickelt. Oracle hat die Sprache in das Big Data Eco-System mit einbezogen und dabei einige der Limitierungen, die R mit sich bringt, aufgehoben. So kann man die R-Analyse-Engine auf dem Datenbank-Server oder auf der Big Data Appliance Maschine parallel zur Ausführung bringen. R analysiert Daten als Objekte im Hauptspeicher: in dem Big Data Cluster-Verbund der Big Data Maschine stehen dafür sehr große Hauptspeicherausbauten zur Verfügung. Spezielle Data Mining Algorithmen (GLM, Neural Network) sind mit der neusten Spark-Technologie als Bibliotheken in R und auf dem Hadoop-Cluster lauffähig. Mit R arbeitet man heute in dem Big Data Ecosystem sowohl in der Oracle Datenbank als auch in dem Hadoop-Cluster. Daten können an beliebigen Stellen der Plattform ist durchgängig bearbeitet und ausgewertet werden. 15 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Ablaufumgebungen für R, Client, Oracle Datenbank Server oder Big Data Appliance Big Data Discovery – Visuelle Analysen Die Masse und die Verschiedenheit der heute interessierenden Daten kann man sicher nicht mit klassischen Business Intelligence Werkzeugen analysieren. Daten liegen nicht in den passenden Formaten vor, sie sind schlecht kombinierbar oder sind zu wenig verdichtet. Daher hat Oracle zur Analyse von Big Data Daten das Werkzeug Big Data Discovery in das Ecosystem eingeführt. Mit diesem Werkzeug lassen sich die unterschiedlichen Datenobjekte interaktiv zunächst vorsortieren und mit zusätzlichen Attributen versehen, um sie dann schrittweise ersten Analysen zu unterziehen. Da es sich meist um unbekanntes Datenmaterial handelt, wird man diese iterativen Schritte so lange wiederholen, bis sich nach und nach Erkenntnisse einstellen. Grafisches Bearbeiten von Big Data Daten mit Oracle Big Data Discovery 16 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Aufbau und Betrieb einer Big Data Plattform Letztlich müssen Hadoop-Cluster auch physisch aufgebaut und betrieben werden. Der Big Data Philosophie entsprechend, koppelt man hierzu kostengünstige Standardrechner in einem Netzwerk zusammen. Anders, als die in Rechenzentren oft zu findende Separierung von Storage (SAN) und Server-Rechnern, bilden bei einem Hadoop-Cluster Speicherplatten, Rechenkerne und Hauptspeicher eine Einheit und stellen einen Knoten dar. Während man einzelne Knoten noch initial einfach konfigurieren kann, steigt die Komplexität und Fehleranfälligkeit mit wachsender Knotenzahl an. Schwierig wird es erst recht, wenn Software-Upgrades oder Wartungsarbeiten durchzuführen sind. Die eigentliche Aufgabe, nämlich das Analysieren von neuen Daten, kann dann schon mal als Nebensache in den Hintergrund geraten. Um möglichst schnell dieses Hauptziel zu verfolgen und auch nicht aus den Augen zu verlieren, liefert Oracle die Big Data Appliance Cluster Maschine für Big Data Analysen mit aus. Die Größe dieses Cluster-Verbunds ist anpassbar. Beginnend bei 6 Knoten, lässt sich das System beliebig nach oben ausbauen. Datenmengen im Petabyte-Bereich und Hauptspeichergrößen von mehreren Terabytes sind in einem einzigen Rack standardmäßig schon nach wenigen Tagen einsatzbereit. Für die parallele Verarbeitung ist vor allem auch die Anzahl der Rechenkerne wichtig. Das System bringt im schon im Grundausbau 216 Rechenkerne mit. Auf dieser Hardware sind die Hadoop-Distribution von Cloudera mit HDFS und den entsprechenden Hadoop-Werkzeuge vorinstalliert. Oracle R Enterprise und Oracle NoSQL DB vervollständigen die Umgebung. Einstiegskonfiguration einer Big Data Appliance Maschine • 6 Xeon-basierte zwei-Sockel Server – 216 Cores (36 Cores pro Server) – 768 GB / 4608 GB Hauptspeicher (128 GB / 768 GB pro Server) – 576 TB (96 TB – 12x 8 TB SAS High Capacity Platten pro Server) – 12x InfiniBand 4X QDR (40Gb/s) CX3 Ports (PCIe 3.0) (2 pro Server) – 24x 10GbE ports (4 per server) • 1 Sun Datacenter InfiniBand (Spine) Switch 36 – 36-port Managed QDR (40Gb/s) Switch • 2 NM2 Gateway InfiniBand Switch • 1 “Admin” Cisco Ethernet Switch • Redundante Netzteile (PDUs) Big Data Appliance Starter Rack Konfiguration Big Data Plattform in der Cloud Will man sich nicht selbst mit dem Betrieb einer Big Data – Umgebung belasten, so kann man die Big Data Plattform auch in einer Cloud-Umgebung in beliebigen Ausprägungen und zeitlich passend nutzen. 17 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Anhang Die folgende Liste enthält einige Einsatzszenarien nach Industrie-Segmenten untergliedert. Enthalten sind mögliche Datenarten und möglich Analyseverfahren. Energie / Umwelt / Ressourcen Energie / Umwelt / Ressourcen „Neue“ Daten Lösungen Methoden/Verfahren/ Algorithmus Senken von Energieverbrauch Smart MeterStrom+ Intelligentes Stromnetz / Trenderkennung Energiever- Austausch von Regression Effizientes Steuern der brauchsdaten von Zustandsinformationen Energieproduktion Haushalten von Verbrauchern und Transparenz von Energieproduktionsda Energieverbrauch durch ten Publizierung von Verbrauchsdaten Unterstützung im Energiehandel, Wetterprognosedaten Marktdaten Wettbewerbsdaten Mustererkennung Produzenten Durch rechtzeitiges Erkennen von Spitzen- und Niedriglasten,frühzeitiges Hoch+Runterfahren Zeitlich versetztes Markttransparenz Beliefern von Großverbrauchen Logistik von verteilten Anlagen, Automaten,Maschinen, LKW-Transporte, Nahverkehr Energie / Umwelt / Ressourcen „Neue“ Daten Lösungen Methoden/Verfahren/ Algorithmus Optimierung von Sensordaten über Automaten, Maschinen, Wartungsdaten-DWH Wartungsfahrten für Maschinen-zustand verteilte Anlagen liefern Automaten, Maschinen, verteilte Anlagen etc. Bedarfsgerechte Wartungszyklen Proaktives Versorgungsmanagement Kostensenkung für Wartung + Fuhrpark + Logistik Bedarfsgerechtes Bereitstellen von Transportkapazität, Verbrauchsdaten, Füllstandsanzeigen Erfahrungsdaten aus der Historie Aktuelle Verkehrs- und Wetterdaten permanent Zustandsdaten an die Zentrale. Berechnung von Wartungsfenstern Tägliches Neuberechnen von Routen / Alternativrouten Patternanalyse zur Erkennung von verdeckten VerschleißZusammenhängen Spatial-Analysen (kürzeste Wege) Realtime Tägliche Neuberechnung Logdatenstrom- Bewegungsstromprofile von Analyse von Transportkapazitäten im Personen über Handy- öffentlichen Nahverkehr Ortung Zugfolgen, Zuggrößen, Verhindern von Leerfahrten, 18 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Event-Management Tourismus, Freizeit, Outdoor, Happenings Energie / Umwelt / Ressourcen „Neue“ Daten Lösungen Methoden/Verfahren/ Algorithmus Optimierung von Social-Media-Daten, Tägliche Top- Clusteranalyse zu Reisezielangeboten Twitter, Facebook, Themen-Trendliste bisherigem Geografische Freizeitverhalten Travel-Management, Blogs... Optimieren von Zeiten, Wirtschaftsdaten aus Routen, den Transportmittel Regionen Verhindern von Stimmungsbarometer Textmining auf soziale Tägliches Medien zum Finden Neuberechnen von von Schlagwörtern, Nachrichten über Routen / Trends etc. Reiseausfällen und politische +soziale Alternativrouten Stornierungen Entwicklungen bzw. Kapazitätsplanung Kontingentierung Entwickeln und Vermarkten neuer Freizeitangebote Entwickeln und Vermarkten von zielgruppenspezif. Angeboten Optimieren von Charter- Naturereignisse, Katastrophen, Wetterlagen, Klimadaten, Stimmungen mit Hilfe Verkehr + Wetter von Flexibles (Textmining auf nt mit frühzeitigem Nachrichten) Freigeben oder )kalender Zubuchen von Währungsdaten angeboten Treibstoffkosten Steuerung von Eventkalender der Mietwagenflotten Wettbewerber Reiseportale im Web Bewertungsfaktoren Kapazitätsmanageme Monats-(Wetter- Reiseberichte Scoring auf politische Berücksichtigen von Fremd-Kapazitäten Eventplanung mit günstigsten Zeiten mit Vermeidung von Event-Häufungen Filtern von Zielgruppen (Alter, soziale Gruppen) Automatisiertes Beobachten von Web-Angeboten, Last Minutes etc. 19 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Text-Mining auf Reiseberichte Zeitungen, Fernsehen, Funk Trend-Analyse im zentralen DWH (Zeitenreihen) Web Scraping zum Beobachten der Online Medien Text-Mining auf Reiseberichte Zeitungen, Fernsehen, Funk Medien, Unterhaltung, Information Energie / Umwelt / „Neue“ Daten Ressourcen Zielgruppenspezifisches Fernsehangebot Diversifizieren Kulturangeboten „Massentrends + Individualismus“ Entwickeln von Soaps / Kettenserien Bedienen von gesellschaftliche Trendthemen Lösungen Methoden/Verfahren/ Algorithmus Tägliche Top-ThemenTrendliste Clusteranalyse zu bisherigem Geografische Stimmungsbarometer Freizeitverhalten Private Anzeigen, Blogs, Leserbriefe Tägliches Neuberechnen Absatzzahlen, EinschaltQuoten von Routen / Alternativrouten Wetterlagen, Klimadaten, Berücksichtigen von Verkehr +Wetter Social-Media-Daten, Twitter, Facebook, Blogs... Web-Traffic-Daten Zeitliche Flexibilisierung von Unterhaltungsangeboten Flexible Medienarchive mit Automatisierte BildContentErkennung (Textmining auf Nachrichten) Eventplanung mit günstigsten Zeiten mit Vermeidung von Event-Häufungen Trend-Analyse im zentralen DWH (Zeitenreihen) Automatisiertes Beobachten von Web-Angeboten, Last Minutes etc. Überwachung von biometrischen Daten von chronisch Kranken Sensordaten, FitnesstrackerDaten Finden von versteckten Zusammenhängen in Krankheitsbildern Wetterdaten zum Feststellen der Rahmenbedingungen Prävention durch Früherkennung von Krankheitsindikatoren Umweltdaten wie Zustand der Luft , Ozon etc. (regionale Luftmessstationen) Unterstützung beim Selbstmanagement zur Verhaltensänderung oder Training Aufdecken von Medikamentenmissbrauch und falschen Medikationen Überprüfung der Wirksamkeit von Medikamenten Individuelle Krankenversicherung Verbrauchsdaten von Medikamenten Statistikdaten der Krankenkassen Scoring auf politische Stimmungen mit Hilfe von Bewertungsfaktoren Flexibles Kapazitätsmanagement mit frühzeitigem Freigeben oder Zubuchen von Fremd-Kapazitäten Filtern von Zielgruppen (Alter, soziale Gruppen) Medizin, Pflege, Gesundheitswesen Energie / Umwelt / „Neue“ Daten Ressourcen Textmining auf soziale Medien zum Finden von Schlagwörtern, Trends etc. Bilderkennung, Tonerkennung Web Scraping zum Beobachten der Wettbewerber Text-Mining auf Reiseberichte Zeitungen, Fernsehen, Funk Lösungen Methoden/Verfahren / Algorithmus Erstellung von individuellen Behandlungsplänen Nahezu alle Data Warehouse Analysen Risiko-minimierte Medikation durch Kontrolle individueller Faktoren Textmining auf Krankenberichte Zusammenfassen von Patientendaten aus unterschiedlichen Quellen Abgleich mit Daten aus mehreren Pflegestellen, Arzneidaten, Erfahrungsberichten Einbeziehen von ökonomischen und -sozialen Faktoren in die Bewertung von Heilungschancen. Monitoring von gesundheitsbeeinflussenden Verhaltensweisen 20 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Klassifikation aufgrund gemeinsamer Merkmale Clusterbildung , für komplexe Zusammenhänge Attribute-Importance Wetterdaten-Scoring Regionen-Scoring Pattern-Matching in Massendaten Polizei, Öffentlicher Dienst, Versorgung Energie / Umwelt / „Neue“ Daten Ressourcen Lösungen Methoden/Verfahren / Algorithmus Predictive Policing, Kriminalprevention Umfeldinformationen, Verkehrsbewegungen Klassifizierung von Straftaten Nahezu alle Data Warehouse-Verfahren Planung der Versorgung mit öffentlichen Einrichtungen (Feuerwehr, Krankenwagen, Polizeitstationen) Kriminalakten Erstellen von Täterprofilen durch das Sammeln vieler Merkmale Textmining auf Protokolle Terrorfahndung Automatisches Bearbeiten von Täterprofilen Umweltdaten, Wetter Veranstaltungsinformatione n Geografische Informationen, Karten, Adressen Umfeldanalysen Social Media-Screening Medienmonitoring Graphanalysen zum Erkennen von indirekten Beziehungen Musterdaten zu psychologischem Verhalten Aufdecken von privaten Versicherungsbetrugsversuch en Minimierung des Risikos bei der Kreditvergabe Aufdecken von Geldwäsche Individuelle Prämien und Versicherungsangebote Entwickeln von Kundenbindungsangeboten / Kombiangeboten „Neue“ Daten Lösungen Methoden/Verfahre n/ Algorithmus Umfeldinformationen, Verkehrsbewegungen Erstellung von Ausgabeprofilen privater Haushalte Pattern-Matching von Finanztransaktionen jeder Art Finden von Zusammenhängen über NetzwerkAnalysen Graphen-Analysen zur Erkennung von Beziehungen Kontobewegungsdaten Social Media Daten Umweltdaten, Wetter Kreditkarteninformation en Katastrophendaten Klick-Daten (Weblogs) Vergleichen von Finanztransaktionszeiten + und Orte mit der Suche nach Auffälligkeiten Entwickeln von Anlageangeboten für Kunden Anreichern von Kundendaten durch zusätzliche frei erhältliche Merkmale, z. B. aus sozialen Medien. Monitoren von Tradings -> Finden von Auffälligkeiten Kundenwertermittlu ng Fokussierung auf finanzkräftige Kunden Graph-Analysen zum Aufspüren von Täternetzwerken Statistik zum Erkennen von Ausreißern Kreditkarteninformationen Telekommunikationsdaten Finanzdienstleistungen Energie / Umwelt / Ressourcen Spatial-Analysen zum Aufdecken geografischer Zusammenhänge Customer LifetimeAnalysen 360° KundensichtOptimierung 21 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Zwischen Personen und Handelspartnern Abgleich von Textvermerken von Überweisungen. Statistik zum Finden von Extremwerten Historienauswertung DWH EntscheidungsbaumAnalysen Segmentierung Landwirtschaft Energie / Umwelt / Ressourcen „Neue“ Daten Lösungen Methoden/Verfahren / Algorithmus Steuerung von Produktionsabläufen, Ernte- und Maschineneinsatzplanung Geodaten Erstellung von Maschineneinsatzplä nen Geodateneinsatz, Finden optimaler Wege Regelung von Wasser und Düngemitteleinsatz Bodenanalysedaten, Feuchtigkeit, Mineralien Erstellung von Einsatzplänen für Erntehelfer Steuerung von Landmaschinen mit Geodaten Umweltdaten, Wetter, Sonnenstunden, Regenmengen Geodaten-optimierter Ernteprozess Historienauswertung DWH Optimierung Pflanzenpflege Marktpreisdaten Finden optimaler Erntezeitpunkte EntscheidungsbaumAnalyse Düngemittelplanung Segmentierung Maschinendaten / Sensoren Patternanalyse für lokale Wetterdatenphänomene Statistik zum Finden von Extremwerten Der „vernetzte Weinberg“ Industrie 4.0 Energie / Umwelt / Ressourcen „Neue“ Daten Lösungen Methoden/Verfahren / Algorithmus Optimieren von Ressourceverbräuchen bei der Produktion. RFID-Daten Realtime-Analysen Besseres Anpassen von Absatz und Produktion Bewegungsdaten, Regionen Smart Factory: Optimieren der Produktionsplanung durch das Sammeln von Verbrauchs- und Verschleißdaten. „Verwendungsmonitoring“ Klassische Vertriebsdaten Optimieren von Produktionsabläufen Smart Operations: Vernetzte Produktion Verbrauchsdaten Statistik zum Finden von Extremwerten Historienauswertung DWH Weiterentwickeln von Produkten unter echten Einsatzbedingungen Smart Products: Aktive Produkte kommunizieren auch nach Produktion und Verkauf mit Hersteller Frühzeitiges Erkennen von Fehlerausfällen und Wartungsoptimierung Smart Service: Produkt-ServiceSystem. Sensordaten Automatisierte Wartung 22 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Event Management Pattern-Analysen zum Erkennen von Regelmäßigkeiten EntscheidungsbaumAnalysen Handel Energie / Umwelt / Ressourcen Angebots- / Sortimentoptimierung Preisoptimierung Besseres Platzieren von Waren in Regalen und Wegen Positionieren von Shops Optimierung der Bevorratung + Regalbestückung Flexibleres Reagieren auf „zufällige“ Vorkommnisse (Wetter, gesellschaftl. Ergeignisse) „Neue“ Daten Lösungen Methoden/Verfahren /Algorithmus RFID-Daten Realtime-Analysen Webdaten von Wettbewerbern Analysieren der Kundenbeswegung in Läden und EKZentren. Bewegungsprofile von Kunden Analysieren der Verkehrsströme Statistik zum Finden von Extremwerten Weblog-Daten Klassische BondatenAnalyse Klassisches Analysieren von Abverkaufsdaten im DWH Geo-Daten Wetterdaten Sentiment-Daten Öffentliche Statistikdaten Bedarfsermittlung mit Hilfe von Trenderkennung in sozialen Medien aber auch Wetter Event Management Sentiment-Analyse im Web Warenkorb-Analysen Zeitreihen-Analysen Entscheidungsbäume ProduktlebenszyklusAnalyse Entwickeln von „Themen-“ Kampagnen Individualisieren von Kundenangeboten 1:1 Marketing Öffentlicher Dienst - Bürgerversorgung Energie / „Neue“ Daten Umwelt / Ressourcen Minimieren von Personalaufwand Mehr Bürgerinformation Kostenminimierung durch Selfservice Früherkennung von Missständen, z. B. Straßenverkehr, bauliche Einrichtungen, öffentliches Leben RFID-Messstationen Bewegungsprofile von Personen Verkehrsmengendaten Verkehrsnutzungsdaten Social Media Daten Verbrauchsdaten (Strom, Wasser, Gas) Steueraufkommen Lösungen Methoden/Verfahren/ Algorithmus Erstellung von Verkehrs- und Bewegungskarten Spatial-Analysen Aufbau von Informationsportalen und Datenabrufdiensten Automatisierte Event Messung / Statistik Pattern-Analysen zum Erkennen von Regelmäßigkeiten Optimierung Bürgerbüros Statistik zum Finden von Extremwerten Flexibles Zeitmanagement von öffentlichen Einrichtungen Historienauswertung DWH Verkehrslenkungsmassnahmen Kommunikationsdaten Stadtplanung, Infrastruktur, Grünflächen Aufdecken von Freizeitverhalten der Bürger 23 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution Service, Support, Call-Center Energie / Umwelt / „Neue“ Daten Ressourcen Minimieren von Personalaufwand Mehr Bürgerinformation Kostenminimierung durch Selfservice Lösungen Methoden/Verfahren / Algorithmus Gesprächsprotokolle Telefonstatistiken Textmining Tonaufnahmen Zufriedenheitsstatistik en Klassische Statistik Vertragsdaten CDRs Gesprächs-CoachLösung Klassische Vertriebsdaten Trainingslösungen Oracle Deutschland B.V. & Co. KG Worldwide Inquiries Kühnehöfe 5 Tel: +494089091 0 22761 Hamburg, Germany Fax: +494089091250 Linguistik Clsuter-Analysen Autor: Alfred [email protected] CONNECT WITH US blogs.oracle.com/oracle facebook.com/oracle twitter.com/oracle oracle.com Copyright © 2015, Oracle and/or its affiliates. All rights reserved. This document is provided for information purposes only, and the contents hereof are subject to change without notice. This document is not warranted to be error-free, nor subject to any other warranties or conditions, whether expressed orally or implied in law, including implied warranties and conditions of merchantability or fitness for a particular purpose. We specifically disclaim any liability with respect to this document, and no contractual obligations are formed either directly or indirectly by this document. This document may not be reproduced or transmitted in any form or by any means, electronic or mechanical, for any purpose, without our prior written permission. Oracle and Java are registered trademarks of Oracle and/or its affiliates. Other names may be trademarks of their respective owners. Intel and Intel Xeon are trademarks or registered trademarks of Intel Corporation. All SPARC trademarks are used under license and are trademarks or registered trademarks of SPARC International, Inc. AMD, Opteron, the AMD logo, and the AMD Opteron logo are trademarks or registered trademarks of Advanced Micro Devices. UNIX is a registered trademark of The Open Group. 1115 24 | Oracle White Paper – Big Data und Data Warehouse – Evolution statt Revolution