Best Practice-Leitfaden Transformation von Big Data in geschäftsrelevante Informationen Best Practices für das moderne Rechenzentrum Best Practice-Leitfaden Seite 2 Die Menge der verfügbaren Daten ist größer als je zuvor, doch nur wenige Unternehmen nutzen diese Daten optimal. Dadurch stehen ihnen nicht alle Informationen zur Verfügung, die für das Unternehmen und seine Wettbewerbsfähigkeit wichtig sind. Zur Aufrechterhaltung der Wettbe­ werbsfähigkeit muss das Management eines Unternehmens kontinuierlich die Antwort auf zwei einfache Fragen suchen: •Wie kann ich für meine Kunden ein besseres Kundenerlebnis als die Wettbewerber schaffen? •Wie kann ich dies auf kosteneffiziente Weise erreichen? Eine im Jahr 2015 vom IDG durchgeführte Studie ergab, dass 80 % der Großkonzerne und 63 % der kleinen bis mittleren Unternehmen bereits Big Data-Projekte imple­ mentiert hatten oder eine Implementie­ rung planten. Die geplanten Investitionen der Konzerne im Bereich „Big Data“ belie­ fen sich im Jahr 2015 auf durchschnittlich 13,8 Mio. US-Dollar.1 Was viele von uns überraschen dürfte ist die Aussage von Experten, dass derzeit nur 1 Prozent der weltweit verfügbaren Daten von Spezialisten analysiert wird, um relevante Informationen zu gene­ rieren. Die gute Nachricht ist, dass Entscheider die Möglichkeit haben, diese Fragen zu beantworten. Auf dem Big Data-Markt von heute gibt es unzählige Angebote. Innovationsfreudige, zukunftsorientierte Firmen unternehmen bereits die notwendigen Schritte, um geschäftsrelevante Informationen aus diesen Daten zu extrahieren. Wesentliche Voraussetzung für den Erfolg in der heutigen Wissensökonomie sind datengesteu­ertes Denken und die Fähigkeit, Daten zu sammeln, zu verarbeiten, zu analysieren und zu organisieren, um Ergebnisse zu generieren, mit deren Hilfe sich das Geschäftsergebnis verbessern lässt. Grundlegendes zu Big Data Big Data-Trends Drei zentrale Aspekte von Big Data haben sich in den zurückliegenden Jahren we­ sentlich verändert: • Menge – Neue Anwendungen, eine große Anzahl an Endgeräten und neue Datenquellen wie Social Media und das Internet der Dinge (Internet-of-Things, IoT) bewirken einen kontinuierlichen Anstieg der Datenmenge. • Vielfalt – Strukturierte Daten wie Ver­ triebsdatensätze, Fertigungsberichte und HR-Daten sind in der Regel an spezielle, in Silos befindliche Anwendungen gebunden und müssen nun über Funk­ tionsbereiche und unterschiedliche Anwendungen hinweg innerhalb und au­ ßerhalb des Unternehmens geteilt und verknüpft werden. • Geschwindigkeit – Unternehmen benö­ tigen Unterstützung für Entscheidungen in Echtzeit (d. h. vorausschauende Da­ ten, die bessere Entscheidungen in der Gegenwart ermöglichen). Laut einem Bericht von Bain & Co. konnten 400 Großunternehmen, die bereits Big Data Analytics eingeführt hatten, einen signifikanten Vorteil im Vergleich zu allen übrigen Unternehmen erzielen.2 1 2 015 Big Data and Analytics Insights into Initiatives and Strategies Driving Data Investments, IDG Enterprise scribd.com/doc/258158270/2015Big-Data-and-Analytics-Survey 2 ig Data: The organizational challenge B bain.com/publications/articles/big_data_ the_organizational_challenge.aspx Die bisher verwendeten Systeme sind nicht mehr in der Lage, den kontinuierlichen Fluss neuer Daten zu verarbeiten, die Unternehmen erfassen und analysieren, um schnell auf ihre geschäft­ liche Anforderungen reagieren zu können. Große webbasierte Unternehmen wie Google™ und Amazon nutzen Big Data Analytics aktiv über ihre eigene proprietäre Infrastruktur, aber nur weni­ ge Unternehmen sind groß genug, um das Problem auf diese Weise lösen zu können. Daher muss die IT eine neue Strategie im Hinblick auf die Systeme entwickeln, die für Big Data und Analysen bereitgestellt werden. Nur so lassen sich geschäftliche Anforderungen effizienter erfüllen. Mit Big Data zu besseren Geschäftsergebnissen Wenn Sie aus Big Data-Ressourcen handlungsrelevante Informationen gewinnen möchten, müssen Sie vieles, was Ihr Unternehmen betrifft, überdenken. Dies schließt auch die Infrastruktur ein, die Sie zum Speichern und Verarbeiten dieser Daten verwenden. Durch das IoT erstellte Daten Ein Flugzeugbauer bemüht sich um technische Innovationen, indem er Sensoren an den Trieb­ werken anbringt, um die Leistung verfolgen und dadurch die Triebwerkskonstruktion im Hinblick auf maximale Effizienz verbessern zu können. Anhand der Ergebnisse kann das Unternehmen ein neues Triebwerk entwickeln, das 20 % treibstoffsparender als die bislang verwendeten Triebwerke ist. Die verbesserte Konstruktion ist das unmittelbare Ergebnis der Analyse und Modellierung von gewaltigen Datenmengen in einer großen Umgebung mit paralleler Verarbeitung. Durch Simulation generierte Daten Öl- und Gaskonzerne nutzen leistungsintensive Softwareanwendungen, um Milliarden von kom­ plexen, unstrukturierten Datenpunkten in interpretierbare 2D-, 3D- und mittlerweile auch 4DSimulationen möglicher Vorkommen umzuwandeln. Nach dem Rendern dieser Visualisierungen werden weitere Analysen vorgenommen, um aktuelle Modelle anzupassen und ausführliche Durchführungsvorgaben für das Bohrverfahren zu formulieren. Neue Nutzung älterer Daten Finanzinstitute nutzen die vorausschauende Analyse, um bessere Entscheidungen mit ihren Handelsanwendungen zu treffen. Mit den Daten aus der Vergangenheit zur zurückliegenden Performance von Finanzwerten können Händler bessere Prognosen und Entscheidungen bei Investitionsgeschäften treffen. Forschungs- und Patientendaten Die Technische Universität von Dänemark nutzt gewaltige Mengen an Forschungs- und Patien­ tendaten, die zum richtigen Zeitpunkt für autorisierte Fachleute im Gesundheitswesen verfügbar gemacht werden, um auf diese Weise die Diagnose und Behandlung auf der Basis realer Informa­ tionen zu revolutionieren. Weitere Informationen. Best Practice-Leitfaden Seite 3 Nutzung von Best Practices für die Modernisierung der Infrastruktur Eine optimale Nutzung von Datenressour­ cen setzt neue Strategien für die Erfassung, Verarbeitung, Speicherung, Verwal­ tung und Analyse der Daten voraus. Die Bereitstellung einer besseren Kundenerfahrung setzt genauere Informationen über den Kunden voraus. Je mehr Daten verfügbar sind, umso umfassender sind die Einblicke, die Sie gewinnen kön­ nen. Gleiches gilt im Hinblick auf Informationen, wie Sie die Versorgung jedes einzelnen Kunden kosteneffizienter gestalten können. Zur besseren Unterstützung müssen die IT-Teams mehr Daten in kürzerer Zeit analysieren und die folgenden Fragen beantworten: •Wie kann ich so viele Daten angemessen speichern und organisieren? •Wie kann ich Daten aus nicht herkömmlichen Datenquellen wie Social Media, Click­streams, Maschinen- und Sensordaten, Video usw. speichern und verwalten? •Wie kann ich die Verarbeitungsleistung anpassen, um eine so große Menge an Daten zu verarbeiten? Eine veränderte Herangehensweise an Technologien wie Speicher- und Computingressourcen sollte Ihnen die Möglichkeit bieten, serverbasierten Speicher zu nutzen, die vorhandenen Computingkapa­ zitäten zu optimieren und die Infrastruktur entsprechend der vorhandenen Infrastruktur anzupassen. Nutzung von serverbasiertem Speicher – Kostengünstige Scale-Out-Möglichkeiten im Petabyte-Maßstab. Der Hardwaremarkt wird mit Speicher- und Datenlösungen nur so überschwemmt. Viele davon sind SAN- und Array-basierte Lösungen, die als Datenspeicher für Unternehmen ausge­ legt sind und realisiert wurden. Diese Lösungen wurden für unternehmenstypische Anwendungsfälle entwickelt, beispielsweise relationale Datenbanken, strukturierte Daten, herkömmliche Anwendungen und kleinere Datenbestände. Die meisten herkömmlichen Speichersysteme wurden für Daten konzipiert, wie wir sie uns bis vor we­ nigen Jahren vorgestellt haben, sprich strukturierte Daten im Terabyte-Maßstab. Heute sprechen wir häufig nicht mehr von Terabytes, sondern von zig oder hunderten von Petabytes häufig unstruktu­ rierter Daten, und schon bald werden wir die Größenordnung von Exabyte erreicht haben. Die lineare Kostensteigerung für die Skalierung mehrerer herkömmlicher Datenspeicherarrays auf eine Größe von etlichen Petabytes und darüber hinaus führt in kürzester Zeit zu unbezahlbaren Lösungen. Die Alternative zu herkömmlichem Speicher ist die Umschichtung der Daten von proprietären Spei­ cherplattformen zu einem softwaredefinierten, serverbasierten Verfahren mithilfe von Technologien wie Objektspeicher. Mit DAS (Direct‑Attached Storage) können Sie Speicher durch Hinzufügen von Standardservern skalieren, was langfristig deutlich günstiger ist als die Skalierung herkömmlicher Speicherarrays. Der Einsatz von Objektspeicher auf Serverplattformen ermöglicht heute die problem­ lose Skalierung auf hunderte von Petabytes und bietet einen überschaubaren und kostengünstigen Weg für eine zukünftige Erweiterung hin zu Speicher im Exabyte- oder sogar Zettabyte-Maßstab. Optimierung der Computingleistung – Kompakt geclustert und speziell für die Anforderungen von Hadoop und anderen Tools optimiert. Das Erfassen, Speichern und Verwalten Ihrer Daten ist nur ein Teil der Lösung. Wenn es Ihnen nicht möglich ist, die Daten zu nutzen, da sie nicht problem­ los zugänglich oder nicht ordnungsgemäß auf die Analysefunktionalität abgestimmt sind, sind Sie einer Lösung nicht wirklich näher gekommen. Die meisten Unternehmen verfügen über Data Ware­ house-Produkte für den Einsatz in Großunternehmen, um strukturierte Daten in relationalen Daten­ banken (RDBMS) zu analysieren. In modernen Datenumgebungen stellen strukturierte Daten jedoch nur einen kleinen Bruchteil sämtlicher Unternehmensdaten dar. Unstrukturierte Daten wie Daten aus Social Media, Sensordaten und Videodateien passen nicht in das RDBMS-Modell. Viele Unternehmen verwenden ein Open Source-Projekt mit Namen Hadoop, um unstrukturierte Daten mithilfe eines skalierbaren, serverbasierten Speichermodells zu verwalten. Ein Hadoop-Cluster umfasst viele Server mit Daten, die auf lokalen Festplatten gespeichert sind. Mittels Open SourceTools, die oberhalb des Clusters ausgeführt werden, lassen sich diese unstrukturierten Daten ana­ lysieren. Hadoop ist so aufgebaut, dass es auf Standardservern ausgeführt werden kann. Hochleis­ tungscomputing-Infrastrukturen, die speziell für die Anforderungen von Big Data konzipiert sind, können die Analyseleistung jedoch dramatisch erhöhen, während gleichzeitig die Infrastruktur- und Betriebskosten reduziert werden. Intelligente Infrastrukturskalierung – Nutzen Sie Referenzarchitekturen, die sich auf Best Practices stützen, zusammen mit flexiblen Appliances, um Speicher- und Verarbeitungsressourcen in genau der richtigen Größenordnung zu erhalten. Hadoop kann zwar auf Standard­ servern ausgeführt werden, aber durch den Wechsel zu Hochleistungscomputing-Appliances, die speziell für Hadoop-Anwendungen und die damit verbundene parallele Verarbeitung konzipiert sind, können Kosten und Leistung optimiert und das Hochleistungscomputing auch für die breite Masse zugänglich gemacht werden. Jeder Hadoop-Knoten umfasst Computing- und Speicherressourcen als Teil der standardmäßigen Hadoop-Architektur. Diese Knoten sind die Grundbausteine von Hadoop-Clustern. Best Practice-Leitfaden Wenn bei einem Cluster ein Speicherproblem auftritt, können Sie einfach einen weiteren Knoten hinzufügen, was jedoch auf Dauer ineffizient sein kann, da jeder Knoten sowohl Speicher- als auch Computingressourcen einschließt. Mit den herkömmlichen Hadoop-Methoden wird ein Speichereng­ pass durch eine Computinglösung behoben, indem ein neuer Serverknoten inklusive neuer Kosten für die Softwarelizenzierung hinzugefügt wird, um neuen Speicher hinzuzufügen. Bei einem Com­ putingengpass schließt die Lösung das Hinzufügen neuer Speicherressourcen zum Cluster ein (d. h. ein neuer Serverknoten mit zugehörigem Speicher). Eine Architektur, die Speicher- und Computing­ komponenten trennt, ermöglicht bessere Leistung, höhere Dichte, mehr Energieeffizienz und eine intelligente Skalierung von Hadoop-Clustern. Falls ein Speicher­problem auftritt, kann dieses gelöst werden, indem der Speicher ersetzt wird, ohne nicht benötigte Computingressourcen hinzuzufügen. Ein Computingengpass kann behoben werden, in­dem die Computingknoten ersetzt werden, ohne weiteren DAS hinzuzufügen. Das Konzept der Trennung von Computing- und Speicherkomponenten ist ein zentrales Prinzip der Hadoop-Community. Maßgebliche Mitglieder der Community wie Hortonworks und Cloudera unter­ stützen diese neue Architektur. Indem eine Infrastruktur geschaffen wird, die das Ziel verfolgt, subop­ timale Daten und Techniksilos zu beseitigen, lässt sich die Leistung und Effizienz von Anwendungen verbessern, während diese zielgerichtet entwickelten und optimierten HPC-Infrastrukturplattformen gleichzeitig Daten in geschäftsrelevante Informationen transformieren. Zusammenfassung Mit aktuellen Big Data-Technologien können Unternehmen anhand der rasant anwachsenden Da­ tenmengen wertvolle geschäftliche Erkenntnisse gewinnen. Eine optimale Nutzung der Datenres­ sourcen setzt jedoch neue Strategien für die Erfassung, Verarbeitung, Speicherung, Verwaltung und Analyse von Daten voraus. Big Data-Unterstützung durch HPE Hewlett Packard Enterprise gehört zu den wenigen wirklich innovativen Anbietern, die neue Technologien entwickeln und sinnvoll in Partnerschaften rund um das Thema „Big Data“ investieren. HPE verfügt über sämtliche Hardwarelösungen wie Verarbeitungs-, Speicher und Netz­ werkressourcen sowie wichtige Softwarekomponenten wie Vertica, IDOL und Haven, um zentrale Funktionen und Analysetools implementieren zu können. Durch die Zusammenarbeit mit ISVs wie Hadoop in der Open Source-Community leistet HPE außerdem einen wichtigen Beitrag für Innovationen. Bei der Konzeption speziell entwickelter Produkte wie der Familie der HPE Apollo-Systeme stehen die Anforderungen von Big Data (HPE Apollo 4000-Systeme) und Hochleistungscomputing (HPE Apollo 6000-Systeme) sowie von Supercomputing (HPE Apollo 8000-Systeme) im Mittelpunkt, wodurch ein enormes Maß an Skalierbarkeit und Zuverlässigkeit auf Infrastrukturebene verfügbar wird. Als unangefochtener HPC-Marktführer mit einem Marktan­ teil von 34 Prozent stellt Hewlett Packard Enterprise Lösungen bereit, die einfache Implementie­ rung, einfaches Management und einfachen Support ermöglichen. Der Einstieg Unabhängig davon, ob Sie reine Open Source- oder gut eingeführte proprietäre Lösungen vorziehen, HPE bietet Ihnen einen eintägigen HPE Transformation Workshop, um Ihnen beim Aufbau eines Fundaments für ein datenorientiertes Rechenzentrum zu helfen und die Unterstützung von Analyseanwendungen erleichtern. In diesem Workshop lernen Sie, Ihre Big DataVision herauszuarbeiten und die Auswirkungen zu bestimmen, die Big Data auf Ihre IT-Infrastruktur haben wird. Darüber hinaus stehen HPE Integrations- und Implementierungsservices zur Ver­ fügung, um die gewünschten Geschäftsergebnisse zu erzielen. Weitere Informationen erhalten Sie unter hpe.com/info/apollo hpe.com/info/bigdata Melden Sie sich noch heute an. © Copyright 2016 Hewlett Packard Enterprise Development Die enthaltenen Informationen können sich jederzeit ohne vorherige Ankündigung ändern. Die Garantien für Hewlett Packard Enterprise Produkte und Services werden ausschließlich in der entsprechenden, zum Produkt oder Service gehörigen Garantieerklärung beschrieben. Die hier enthaltenen Informationen stellen keine zusätzliche Garantie dar. HP haftet nicht für hierin enthaltene technische oder redaktionelle Fehler oder Auslassungen. Google ist eine eingetragene Marke von Google Inc. 4AA6-3934DEE, Februar 2016