Die 10 wichtigsten Big Data-Technologien - it

Werbung
Durchblick im Datendschungel
Die 10 wichtigsten Big Data-Technologien
it-novum.com
Inhalt
Zusammenfassung
3
1. Hadoop - Ein bewährtes Konzept 4
2. Cloudera – Hadoop für Unternehmen 4
3. Apache Hive - Das Data Warehouse für Hadoop 5
4. Cloudera Impala - Die Lösung für Echtzeit abfragen 6
5. MongoDB - Die Datenbank für alle Fälle 7
6. Pentaho - Flexible Business Intelligence Plattform 8
7. Infobright - MySQL-Engine mit effektiver Datenkompression
9
8. Apache Spark - Ein Framework zur Echtzeitanalyse 10
9. Splunk - Big Data vereinfachen
11
10. Apache Storm - Big Data Analyse auf Echtzeitbasis 12
Ausblick
2
14
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Zusammenfassung
Das Whitepaper präsentiert eine Auswahl der wichtigsten Big Data-Technologien, die derzeit auf
dem Markt sind. Es soll der ersten Information und Orientierung dienen, kann aber eine intensive Auseinandersetzung mit dem Thema nicht ersetzen.
Heute ist es wichtiger denn je, möglichst viele Informationen über den Markt und die Kunden zu sammeln und auszuwerten, um einen Wettbewerbsvorteil zu generieren. Ohne Zweifel
gehören Big-Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen, aus denen
sich Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien ziehen
lassen. Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung,
ein geeignetes Big-Data-Konzept und die geeigneten Use Cases für sich zu identifizieren. Je nach
Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte
aus dem Big-Data-Umfeld zum Einsatz. Die zehn wichtigsten dieser Technologien stellen wir in
diesem Whitepaper vor.
3
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
1.Hadoop - Ein bewährtes Konzept
Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung
auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei
vielen Lösungen eine zentrale Rolle. Ursprünglich wurde es entwickelt, um große Datenmengen
für Internet-Riesen wie Facebook, Google und Yahoo günstig zu speichern und die Daten gleichzeitig auf vielfältige Weise zu verarbeiten. Besonders geeignet ist Hadoop für Datenauswertungen, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschiedenen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller
Business Intelligence Tools hinaus.
Unternehmen profitieren durch den Einsatz von Hadoop, da
ии große und vielfältige Datenmengen kostengünstig gespeichert werden. Damit lohnt sich auch
die Vorratshaltung von Rohdaten, deren Wert noch unklar ist
ии es auf preiswerter Hardware ohne Bindung an einen bestimmten Hersteller läuft,
ии die Daten auf vielfältige und flexible Weise analysiert werden können,
ии die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensentscheidungen unterstützt werden.
Ein großes Problem in vielen Unternehmen ist, dass die zur Verfügung stehende Zeit fehlt, um
die Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Datenfluss dergestalt, dass die Verarbeitungszeit bei zunehmendem Datenvolumen sinkt. Dies wird
erreicht, indem mehrere Rechner parallel an den Aufgaben arbeiten. Die sogenannte SharedNothing-Architektur, die in Hadoop eingesetzt wird, sorgt dafür, dass jeder Rechner des verteilten Systems unabhängig von den anderen seine Aufgaben erfüllt.
2.Cloudera – Hadoop für Unternehmen
Cloudera ist eine Datenmanagementplattform, die Apache Hadoop mit einer Reihe von Open
Source-Projekten im Big Data-Bereich kombiniert. Cloudera stellt die umfangreichste und am
häufigsten eingesetzte Hadoop-Distribution dar – die „Cloudera‘s Distribution including Apache
Hadoop“ (CDH). Als einzelnes System, das hochskalierbar ist, vereint Cloudera Speicherressourcen mit leistungsstarken Verarbeitungs- und Analyseframeworks.
CDH umfasst als einzige Hadoop-Distribution individuell auswählbare Erweiterungen, eine
Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Verfügbarkeit auf Unternehmensniveau.
4
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Die mit Abstand wichtigsten Features von CDH sind ein eigenes Installationsprogramm und
ein komfortables Werkzeug zur Cluster-Administraton - der proprietäre Cloudera Manager. Die
Kompatibilität von CDH mit einer großen Anzahl von Betriebssystemen, Hardwarekomponenten,
Data Warehouses und ETL-Systemen ist in ausführlichen Tests bewiesen worden.
CDH-Anwender profitieren davon, dass sie bestehende IT-Tools und -Ressourcen weiter einsetzen können. Ein weiterer Vorteil der Cloudera-Distribution liegt in ihrer Flexibilität, denn bei der
Implementierung von neuen Technologien in bestehende Produktionsabläufe sind meistens
große Herausforderungen zu bewältigen, die oft nur individuell gelöst werden können.
Die Vorteile von Cloudera sind:
ии Komplette Hadoop-Distribution für den Business-Einsatz
ии Hochskalierbar
ии Große Flexibilität bei der Integration in Unternehmensprozesse
3.Apache Hive - Das Data Warehouse für
Hadoop
Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil
die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query
Language (SQL) gespeichert sind. Unterstützung bietet hier das Open Source Data WarehouseSystem Apache Hive. Von Facebook entwickelt und auf dem MapReduce-Algorithmus beruhend,
liefert es den SQL-Dialekt Hive Query Language (HiveQL oder einfach HQL) mit.
Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die
Datenanalyse. Dazu werden HiveQL SQL-artige Abfragen automatisch in MapReduce-Jobs übersetzt, die auf dem Hadoop-Cluster ausgeführt werden. Auf diese Weise kann Hive Implementierungen für Aggregationen, Filter, Joins und andere Standard-Operationen zur Verfügung stellen,
die ansonsten in Java individuell implementiert werden müssten. Zusätzlich können Benutzer
die Funktionalität durch sogenannte User Defined Functions selbst umsetzen, um damit z.B.
spezielle Dateiformate einzulesen. Am besten eignet sich Hive für die Batch-Verarbeitung von
großen Datenmengen wie zum Beispiel Web-Logs.
5
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Vorteile, die sich für Unternehmen beim Einsatz von Hive ergeben:
ии Die Hürden für den Einsatz von MapReduce sind niedrig, da die Jobs nicht selbst implementiert werden müssen,
ии Schnelles Laden der Daten durch den Schema-on-Read-Ansatz,
ии SQL-Kenntnisse sind weit verbreitet, wodurch auch Nichtspezialisten mit Hive arbeiten können.
Relationale Datenbanken arbeiten nach dem Schema-on-Write-Ansatz (SoW). Hier wird beim
Einspielen von Daten ein Schema erzwungen. Ein herkömmliches ETL bereitet die Daten so auf,
das sie zum Datenbankschema passen. Enthalten die Quelldaten neue Informationen, muss das
Schema angepasst werden, bevor die neuen Daten eingespielt werden. Hive dagegen arbeitet
nach dem Schema-on-Read-Ansatz (SoR). Dabei werden die Daten unverändert im HDFS abgelegt und erst bei Anfragen mittels „ETL on the fly“ gegen das Schema geprüft. Der Vorteil des
SoR-Ansatz gegenüber dem SoW-Konzept besteht darin, dass er ein schnelles Laden von Daten
ermöglicht, da sie nicht gelesen, geparst und in das datenbankinterne Format konvertiert werden müssen. Das Laden besteht lediglich aus dem Kopieren oder Verschieben von Dateien. Das
hat den positiven Nebeneffekt, dass mehrere Schemata auf denselben Daten arbeiten können.
Die Ausführungszeit der Übersetzungen steigt natürlicherweise mit der zu analysierenden
Datenmenge. Daher sollten die Dateien in Hadoops HDFS möglichst effektiv organisiert werden,
damit effiziente Abfragen nur auf einer Teildatenmenge durchgeführt werden müssen. Hive bietet darüber hinaus auch die Möglichkeit, Daten komprimiert zu speichern. Das ermöglicht eine
kostengünstige Datenhaltung und senkt den für Hive erforderlichen Speicherplatz im HDFS. Für
Ad-hoc-Analysen ist Hive allerdings wegen der Latenz durch das Starten der MapReduce-Jobs
nur bedingt geeignet. Benutzerspezifische Funktionen für Hive werden in Java geschrieben.
4.Cloudera Impala - Die Lösung für Echtzeit abfragen
Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfragen in HDFS oder HBase durchgeführt werden können. Das für Apache lizenzierte Impala-Projekt
ermöglicht es Nutzern, Low Latency SQL-Abfragen ohne die Bewegung oder Umwandlung von
Daten aus HDFS und Apache HBase zu erstellen. Diese Abfragen werden in SQL formuliert und
versprechen, schneller zu sein als mit Hive oder MapReduce durchgeführte.
Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool
für HDFS und HBase bereitzustellen. Dazu erzeugt Impala ein flexibles Datenmodell, das effizienter mit komplexen Daten umgehen kann als ein klassisches Data Warehouse.
6
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Impala ist in das Hadoop-Ökosystem integriert und nutzt die gleichen flexiblen Datei- und
Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Apache
Hadoop, Apache Hive, Apache Pig und andere Komponenten der Hadoop-Produktfamilie. Für
Anwender, die SQL beherrschen, stellt Impala ein effizientes Entwicklungsmodell dar, da nicht
jedes Mal ein neues Java-Programm geschrieben werden muss, wenn neue Arten von Analysen
durchgeführt werden müssen.
Unternehmen, die Cloudera Impala einsetzen, profitieren von der Technologie, da
ии Daten nicht importiert bzw. exportiert werden müssen; sie werden direkt mit Pig oder Hive
gelesen,
ии kostengünstige Standardhardware ausreicht,
ии Abfragen in SQL formuliert werden und damit keine neue Sprache gelernt werden muss,
ии es ein eigenständiges System zur Big Data-Verarbeitung und -Analyse ist. Kosten für ETL zu
Analysezwecken lassen sich daher vermeiden.
5.MongoDB - Die Datenbank für alle Fälle
MongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich.
Als „Allzweckdatenbank“ eignet sich MongoDB bestens für die heutige IT-Landschaft mit ihren
großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei den Anwendungen. Dem Nutzer bietet MongoDB
eine integrierte Query Language für einfache Abfragen, Replikation und Sharding. Mongo DB
folgt dem Sharding-Ansatz, um einen hohen Durchsatz bei den Schreib- und Leseoperationen zu
erreichen.
Vorteile, die sich durch den Einsatz von Mongo DB ergeben, sind:
ии dynamische Entwicklung und horizontale Skalierbarkeit der Datenbank,
ии vielfältig einsetzbar, einfach zu konfigurieren und schnell einsatzfähig,
ии Skalierung von Einzelservern bis hin zu komplexen Architekturen über mehrere Rechenzentren hinweg möglich,
ии Schemafreiheit. Dadurch entfällt ein gewisser Arbeitsaufwand bei der Implementierung.
MongoDB lässt sich auf allen gängigen Betriebssystemen einsetzen und ist mittlerweile auch in
der Cloud verfügbar. Wie bei anderen schemafreien NoSQL-Datenbanken muss auch bei MongoDB kein Schema vor dem Einsatz festgelegt werden. Das erlaubt im Gegensatz zu einer MySQLDatenbank eine hohe Flexibilität bei den zu speichernden Daten. Bei MongoDB bestehen die
Dokumente aus JSON-Code und lassen sich nach Bedarf verändern. Elemente wie Arrays oder
Timestamps dürfen dabei vorkommen.
7
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Änderungen an der Datenstruktur stellen kein Problem dar, weshalb sich MongoDB vor allem für
neue und dadurch oft ändernde Datenstrukturen eignet. Trotzdem sollten Anwender sich Gedanken über die Gestaltung der Dokumente machen, da Performance-Probleme drohen, wenn die
Datenbank an Umfang zunimmt.
Die Daten werden im BSON-Format gespeichert, das mit dem JSON-Format verwandt ist. Damit
unterstützt MongoDB alle JavaScript-Datentypen. Werden neue Felder hinzugefügt oder wächst
die Größe eines Dokuments über den zugewiesenen Speicherplatz hinaus, speichert MongoDB
das Dokument an einer anderen Stelle der Datei. Das kann die Performance beeinträchtigen,
denn die Software muss die Daten neu schreiben. Geschieht das Neuschreiben häufig, passt
MongoDB automatisch den Padding-Faktor an und räumt Dokumenten von Haus aus mehr Platz
ein. Darüber hinaus garantiert die eingebaute Replikation mit automatisierter Ausfallsicherung
eine große Zuverlässigkeit.
6.Pentaho - Flexible Business Intelligence
Plattform
Pentaho ist einer der weltweit führenden Anbieter für Open Source Business Intelligence-Software und unterstützt Unternehmen bei der Integration ihrer Big Data-Bestände. Die Strategie
von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework
zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel
Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung
neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch
für die Visualisierung der Daten verwenden. PDI unterstützt viele Big Data-spezifische Verarbeitungsschritte, wie das Ausführen von MapReduce-Jobs sowie Pig- oder Hive-Skripten. PDI ist
sehr flexibel und kann nicht nur auf Hadoop, sondern auch auf HBase, MongoDB und andere Big
Data-Datenquellen zugreifen.
Der Einsatz von Pentaho im Big Data-Bereich bringt folgende Vorteile mit sich:
ии Unterstützung bei der Einführung von Big Data-Technologien, sodass keine hochspezialisierten Kenntnisse von Seiten des Unternehmens nötig sind,
ии Flexibilität bei der Auswahl der Software-Komponenten ermöglicht individuelle Lösungen,
ии Zusammenfassung von Einzellösungen zu einem kompletten Framework,
ии Präsentation der einzelnen Funktionen der Pentaho BI-Plattform in einheitlicher Form und
Aussehen.
8
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Pentaho verfügt über eine offene Architektur, die sich mit einer großen Anzahl von Schnittstellen einfach in bestehende IT-Landschaften eingliedern lässt. Im Vergleich zu traditionellen
BI-Lösungen ist die Pentaho-Plattform eine aus verschiedenen Modulen bestehende Suite. Die
Suite besteht aus dem Pentaho Server, der das BI-Framework umfasst, das wiederum das ETL,
die Webdienste und das Sicherheitszentrum enthält. Der Server umfasst Komponenten für die
Report-Erstellung, Analyse, Workflow, Dashboards und Data Mining sowie die BI-Workbench,
daneben enthält er eine Reihe von Design- und Verwaltungs-Tools. Die Aufgabe des PentahoServers ist es, dem Anwender die einzelnen Funktionen in einheitlicher Form und Aussehen zu
präsentieren.
Neben den Open Source Software-Komponenten, die in der sogenannten Pentaho Community
Edition enthalten sind, bietet Pentaho auch proprietäre Funktionen. Diese können entweder
einzeln oder zusammengefasst als komplette Suite, der Pentaho Enterprise Edition, bezogen
werden. Alle Komponenten der Community Edition stehen unter Open Source-Lizenzen und sind
in Java entwickelt. Die Enterprise Edition bietet zusätzliche Software-Komponenten und Dienstleistungen an, wie zum Beispiel einen Kundensupport.
Für die wichtigsten Big Data-Quellen bietet Pentaho umfassende Unterstützung: Neben der
Hadoop-Plattform unterstützt Pentaho auch NoSQL-Datenbanken wie Apache Cassandra/DataStax, HBase, MongoDB, und HPCC Systems sowie analytische Datenbanken wie Infobright und
Vectorwise. Damit stellt Pentaho eine flexible und kostengünstige Software-Suite für die Anbindung von Big Data-Technologien und bietet eine leistungsfähige und moderne Anwendung für
die Auswertung von sehr großen Datenbeständen.
7. Infobright - MySQL-Engine mit effektiver Datenkompression
Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter
Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenbanken entwickelt. Bei der spaltenorientierten Speicherung werden die Werte einer Spalte fortlaufend abgespeichert. Das ist besonders für Data Warehouse, Customer Relationship Managementund andere Ad-hoc-Abfrage-Systeme sowie für analysierende Applikationen vorteilhaft.
Vorteile, die sich aus dem Einsatz spaltenorientierter Datenbanksysteme ergeben, sind:
ии Effektive Datenkompressionen können durchgeführt werden,
ии Weniger Speicherplatz wird verbraucht, wodurch Kosten gespart werden,
ии Insgesamt größere Flexibilität und Schnelligkeit bei Analysen,
ии Ad-hoc-Abfragen können durchgeführt werden.
9
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
In spaltenbasierten Systemen können im Gegensatz zu zeilenorientierten Systemen effektivere Kompressionen durchgeführt werden. Die Spaltendaten haben einen einheitlichen Typ und
können daher über Kompressionsschemata verdichtet werden, was den Speicherplatzverbrauch
verringert. Mit zunehmender Kompression wird es jedoch schwerer, auf einzelne Daten zuzugreifen, da große Datenmengen dekomprimiert werden müssen. Bei der Speicherung sollte daher
beachtet werden, dass die Daten einer gesamten Spalte an gleicher Stelle abgespeichert werden, da sonst die Lesegeschwindigkeit abnimmt.
Im Laufe der letzten Jahre haben sich verschiedene Systeme wie Vectorwise, HP Vertica oder
Netezza/BM am Markt etabliert. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergangenheit ein neues Open Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet
ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden
Knowledge Grid-Architektur. Damit werden die Kosten gering gehalten. Für den Betrieb von Infobright reicht eine einfache Server- und Speicherinfrastruktur aus, weil die Datenbank auf jeder
Standardhardware läuft.
Das skalierbare Data Warehouse ist auf einfache Implementierung und Pflege ausgelegt und
kann komplexe Anfragen sehr gut bearbeiten. Die Notwendigkeit, spezifische Schemata zu erstellen, entfällt, genauso wie die Erstellung und Wartung von Indizes oder die Partionierung von
Daten sowie deren manuelle Feinabstimmung. Infobright macht damit hohe Ladegeschwindigkeiten von sehr komprimiert gespeicherten Daten möglich.
8.Apache Spark - Ein Framework zur
Echtzeitanalyse
Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen
treffen zu können, zum Beispiel die Optimierung von Produkten oder das Identifizieren von Einsparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark.
Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open Source-Bereich, das
die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht. Im
Vergleich zu Hadoops MapReduce-Algorithmus kann Spark bei bestimmten Anwendungen Daten
um ein vielfaches schneller verarbeiten.
Vorteile, die sich durch den Einsatz von Apache Spark ergeben, sind:
ии Echtzeitanalysen durch In-Memory-Bearbeitung der Daten,
ии Schnelle und fundierte Entscheidungen,
ии SQL-ähnliche Abfragen möglich, wodurch keine spezialisierten Kenntnisse im Unternehmen
nötig sind.
10
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Durch die In-Memory-Funktion wird bei Spark die Datenverarbeitung von der Festplatte in den
Hauptspeicher verlagert. Berechnungen lassen sich dadurch wesentlich schneller durchführen.
Spark unterstützt eine schnelle Big Data-Anwendungsentwicklung und ermöglicht die Wiederverwendung von Codes in Batch-, Streaming- und interaktiven Anwendungen. Zudem bietet
die Technologie eine erweiterte Ausführung von hochentwickelten Graphen. Gelesen werden
können Daten aus verschiedenen Quellsystemen, z.B. Hive, Cassandra oder auch HDFS.
Spark stellt einfache und verständliche APIs zur Verfügung, um Applikationen in Java, Python
oder Skala zu schreiben. Spark Streaming ist ein Modul für die Verarbeitung von Daten-Streams
wie z.B. Clickstreams. Damit ist die Software mit dem bereits besprochenen Storm vergleichbar.
Im Gegensatz zu Storm verfolgt Spark jedoch einen Durchsatz-erhöhenden Micro Batching-Ansatz. Der Nachteil ist allerdings, dass gleichzeitig auch die Latenz steigt.
SparkSQL ist ein weiteres Modul, mit dem sich automatisch SparkJobs aus einem SQL Statement erzeugen lassen. Damit lassen sich z.B. ETL-Strecken ohne Programmieraufwand entwickeln. Das macht es für Entwickler leichter, SQL-Befehle in einer Applikation zu programmieren,
die externe Daten mit komplexen Analysen kombinieren.
9.Splunk - Big Data vereinfachen
Splunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei
die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können.
Anfänglich wurde Splunk nicht als eine der großen Entwicklungen im Big Data-Bereich gesehen.
Heute hat sich die Technologie jedoch besonders auf dem Gebiet des Digital Footprint etabliert.
Vorteile, die sich aus dem Einsatz von Splunk ergeben, sind:
ии Kompatibilität mit den meisten Betriebssystemen,
ии Vertraute Befehle können zur Datensuche eingesetzt werden,
ии Echtzeit-Interaktion mit Suchergebnissen,
ии Starke Individualisierung möglich, da Funktionen unabhängig voneinander eingestellt werden können,
ии zu Beginn reicht eine einzige Instanz des Produkts auf dem Computer aus, um von dort aus
wachsen zu können.
Splunk kann fast alle Arten von Dateien, die in einem Unternehmen anfallen, indizieren, verarbeiten und auswerten. Dazu sammelt die Software alle Daten, unabhängig von Format oder
Speicherort. Splunk kann Daten von Netzwerk-Ports oder direkt von Programmen oder Skripten
übernehmen.
11
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Zusätzlich kann das System mit relationalen Datenbanken kooperieren, um Daten zu aktualisieren oder zu sammeln.
Die Auswertung findet mit der Splunk-spezifischen Suchsprache, der Search Processing Language (SPL) statt. Zahlreiche mathematische Funktionen erlauben ein umfangreiches Auswerten der
Daten. Die Pivot-Schnittstelle ermöglicht es Benutzern, Maschinendaten zu lesen, um umfassende Berichte zu erstellen, ohne die Suchsprache lernen zu müssen. Nach dem Auswerten können
Resultate grafisch weiterverarbeitet und in Dashboards mit mehreren Diagrammen und Ansichten zusammengefasst und individuell platziert werden.
Ein weiterer großer Vorteil von Splunk ist, dass sich seine Funktionen stark anpassen und unabhängig voneinander individualisieren lassen. Beispielsweise ist es möglich, die Datensammelkomponente zu skalieren, um mehrere Server bearbeiten zu können. Die Datenindizierungsfunktion kann ebenfalls auf mehreren Servern, die als verteilte Peers konfiguriert werden, eingestellt
werden. Damit lässt sich mit einer großen Verfügbarkeitsoption die Fehlertoleranz transparent
behandeln.
10. Apache Storm - Big Data Analyse auf Echtzeitbasis
Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Datenströmen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet
unabhängig von Programmiersprachen. Die Idee zu Storm ist im Umfeld von Twitter entstanden
und wurde zur Erfüllung der folgenden Ziele entwickelt: Datenbanken sollen auf Basis der Echtzeitverarbeitung von Nachrichten aktualisiert werden, fortlaufend Ergebnisse berechnen und
ausgeben (Continuous Computation) sowie rechenintensive Anfragen mithilfe verteilter Remote
Procedure Calls parallelisieren.
Vorteile, die der Einsatz von Apache Storm mit sich bringt, sind:
ии die Echtzeitanalyse von Daten,
ии eine einfach und überschaubar aufgebaute API,
ии ein geringer Aufwand um mit nahezu jeder beliebigen Programmiersprache auf das Analysesystem zuzugreifen.
12
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Das Einsatzgebiet von Storm ist der latenzsensitive Bereich der Echtzeitdatenverabeitung: Storm
ist das Mittel der Wahl, wenn Entscheidungen im Millisekundenbereich getroffen werden müssen, ohne dass darauf gewartet werden kann, dass z.B. ein klassischer Batch Job ein Ergebnis
liefert. Ein typischer Anwendungsfall ist die Analyse von Clickstreams im Retailbereich. Storm
kann hier mit wenig Hardware bereits eine große Anzahl an Tupeln mit geringen Latenzen verarbeiten. Dabei garantiert Storm mit Hilfe eines Acknowlegement-Algorithmus, dass im verteilten
Einsatz keine Nachrichten verloren gehen und jedes Tupel verarbeitet wird. Geht ein Tupel z.B.
durch einen Netzwerkfehler verloren, wird es automatisch erneut gesendet.
Ein weiterer Vorteil von Storm ist die Ausfallsicherheit. So werden Work Threads auf den Nodes
automatisch vom Master Node neugestartet, falls dort ein Fehler auftritt. Des Weiteren findet ein
automatisches Loadbalancing zwischen einzelnen (gleichen) Nodes statt.
Storm bietet überdies eine einfache vertikale Skalierbarkeit durch das Hinzufügen von WorkerNodes. Dazu ist es allerdings erforderlich, dass die Topologie neu gestartet wird. Das Hinzufügen
„on-the-fly“ ist derzeit noch nicht möglich.
13
it-novum Whitepaper | Die 10 wichtigsten Big Data-Technologien
Ausblick
Ohne Zweifel gehören Big Data-Bestände zu den wichtigsten Ressourcen vieler Unternehmen,
aus denen sich Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien ziehen lassen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht
einführen, riskieren Wettbewerbsnachteile.
In den nächsten Jahren wird das Angebot an individualisierten Lösungen und Echtzeitprodukten
wird stark zunehmen. Damit werden sich auch neue Tätigkeitsfelder erschließen, die Fachkräfte
benötigen. Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einführen, riskieren Wettbewerbsnachteile.
Im Moment stehen die meisten Unternehmen jedoch erstmal vor der Herausforderung, ein geeignetes Big Data-Konzept für sich zu identifizieren. Dabei ist es wichtig, individuelle Bedürfnisse
herauszuarbeiten und darauf basierend die richtigen Technologien einzuführen.
14
it-novum Profil
Führend in Business Open Source-Lösungen
und -Beratung
it-novum ist das führende IT-Beratungsunternehmen für Business Open Source im deutschsprachigen Markt. Gegründet 2000 aus dem Fachbereich IT der KAP-AG heraus, ist it-novum heute eine Konzerntochter der börsennotierten KAP-AG.
Mit unseren 75 Mitarbeitern betreuen wir vom Hauptsitz in Fulda und den Niederlassungen in Berlin und Wien aus
vorwiegend große Mittelstandskunden sowie Großunternehmen im deutschsprachigen Raum.
WirsindzertifizierterSAPBusinessPartnerundlangjährigerakkreditierterPartnerzahlreicherOpenSource-Produkte. Unsere Schwerpunkte sind die Integration von Open Source mit Closed Source und die Entwicklung kombinierter
Open Source-Lösungen und -Plattformen.
MitseinerISO9001:2008Zertifizierunggehörtit-novumzudenwenigenOpenSource-Spezialisten, die die Businesstauglichkeit ihrer Lösungen auch durch ein Qualitätssicherungssystem
belegen.
Über 15 Jahre Open Source-Projekterfahrung
и Unser Portfolio umfasst die vielfältige Bandbreite von Open Source-Lösungen im Applications- und InfrastrukturBereich sowie eigene, im Markt etablierte Produktentwicklungen.
и Als IT-Beratungshaus mit profunder technischer Expertise im Business Open Source-Bereich grenzen wir uns von
den Standardangeboten der großen Lösungsanbieter ab. Denn unsere Lösungen sind nicht nur skalierbar und
flexibelanpassbar,sondernfügensichauchnahtlosinIhrebestehendeIT-Infrastrukturein.
и Wir stellen fachübergreifende Projektteams zur Verfügung, bestehend aus Entwicklern, Consultants und Wirtschaftsinformatikern.SoverbindenwirBusinessKnow-howmitTechnologieexzellenzundschaffennachhaltige
Geschäftsprozesse.
и Unser Ziel ist es, Ihnen eine qualitativ hochwertige Beratung in allen Projektphasen zu bieten – von der Analyse,
über die Konzeption bis hin zu Umsetzung und Support.
и Als Entscheidungshilfe vor Projektbeginn bieten wir Ihnen einen Proof-of-Concept an. Durch die PraxissimulationunddenerstelltenPrototypenkönnenSiesichrisikofreifüreineneueSoftwareentscheidenundprofitieren
vonSicherheitundPlanbarkeit,klareProjektmethodikundvernünftigeKalkulation.
Ihr Ansprechpartner für Business Intelligence und Big Data:
Stefan Müller
Director Business Intelligence & Big Data
 [email protected]
+49(0)661103-942
it-novum GmbH Deutschland
Hauptsitz Fulda:
it-novum GmbH – Niederlassung Österreich
EdelzellerStraße44·36043Fulda·Tel.+49(0)661103-333
OfficePark1·TopB02·1300Wien-Flughafen·+43(1)22787-139
Niederlassungen in: Berlin und Dortmund
Herunterladen