TECHNISCHE ÜBERSICHT BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS Beschleunigte Berechnungen revolutionieren die Wirtschaftlichkeit des Rechenzentrums. HPC Enterprise- und Hyperscale-Kunden setzen beschleunigte Server ein, da Grafikprozessoren ihrem Rechenzentrum bisher unerreichte Kosteneinsparungen bescheren. Das vorliegende Whitepaper analysiert die Methoden, wie Grafikprozessoren wie z. B. der NVIDIA® Tesla® P100 die Kosten eines Rechenzentrums um bis zu 50 % senken können. Das neue Rechenzentrum Rechenzentren sind heutzutage so aufgebaut, dass eine Menge an COTSTechnologien (COTS = commercial off-the-shelf; handelsübliche Komponenten) miteinander verbunden werden. Kunden sind immer daran interessiert, das kostengünstigste System zu implementieren, und gehen dabei Kompromisse bei den Standardkomponenten wie der CPU, dem Arbeitsspeicher und den Verbindungsleitungen ein. Damit sind jedoch nur geringe Kosteneinsparungen möglich. Grafikprozessoren verändern die Wirtschaftlichkeit von Rechenzentren von Grund auf, denn Verbesserungen der Anwendungsleistung vollziehen sich nicht mehr nur in kleinen Schritten. Anwendungen werden durch Grafikprozessoren typischerweise um den Faktor 5 bis 10 beschleunigt. Mit dem Tesla P100 erfahren manche Anwendungen, wie im Folgenden dargestellt, eine 20-fache Leistungssteigerung. Abb. 1: Grafikprozessoren sorgen für eine 5‑ bis 10-fache Leistungssteigerung, was die Wirtschaftlichkeit des Rechenzentrums fundamental verändert. LEISTUNG VON NVIDIA TESLA®-GRAFIKPROZESSOREN Grafikprozessorknoten 2 Broadwell-CPUs + 4 × Tesla P100 CPU-Knoten 2 Broadwell-CPUs 45x 40x 35x 30x 25x 20x 15x 10x 5x x LAMMPS LSMS MiniFE QUDA HOOMD-BLUE MILC GTC-P Broadwell-CPU: E5-2699 v4 mit 2,2 GHz Laut einer aktuellen Erhebung von Intersect360 Research, eines führenden Unternehmens für HPC-Analytik, unterstützen heute 70 % der verbreitetsten Anwendungen für HPC-Daten und -Analysen die Grafikprozessorbeschleunigung. Angesichts Hunderter beschleunigter Anwendungen lautet die Frage nun nicht mehr, ob, sondern wie viele Grafikprozessoren im Rechenzentrum eingesetzt werden sollen. Die Antwort kann deutlich höhere Kosteneinsparungen bedeuten. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 1 Abb. 2: Viele der verbreitetsten Anwendungen in den Bereichen HPC und Deep Learning werden durch Grafikprozessoren beschleunigt, um unschlagbare Produktivität und Kosteneinsparungen im Rechenzentrum zu erzielen. 70 % DER WICHTIGSTEN HPC-ANWENDUNGEN BESCHLEUNIGT INTERSECT360-STUDIE ZU DEN WICHTIGSTEN ANWENDUNGEN DIE 10 WICHTIGSTEN HPC-ANWENDUNGEN 90 % beschleunigt DIE 10 WICHTIGSTEN HPC-ANWENDUNGEN 70% beschleunigt Intersect360, Nov. 2015, „HPC Application Support for GPU Computing“ (HPC-Anwendungsunterstützung für GPU-Computing) DIE 25 WICHTIGSTEN ANWENDUNGEN IN DER STUDIE GROMACS SIMULIA Abaqus NAMD AMBER ANSYS Mechanical Exelis IDL MSN NASTRAN LAMMPS NWChem LS-DYNA Schrodinger ANSYS Fluent WRF VASP OpenFOAM CHARM Quantum Espresso ANSYS CFX Star-CD CCSM COMSOL Star-CCM+ BLAST Gaussian GAMESS = Alle verbreiteten Funktionen beschleunigt = Einige verbreitete Funktionen beschleunigt = In der Entwicklungsphase = Nicht unterstützt Der ultimative Leistungswert für Produktivität Die Produktivität einer Infrastruktur wird häufig an deren Durchsatz gemessen. In der Fertigung gilt als wichtigster für den Nutzen relevanter Leistungswert die Anzahl der täglich produzierten Waren. Für Cloud-Dienste bezahlen Benutzer nach Datendurchsatz gestaffelt, gemessen in Megabyte pro Sekunde. Und bei Rechenzentren sieht das auch nicht anders aus. Abb. 3: Die Produktivität einer Infrastruktur wird häufig an deren Durchsatz gemessen. Rechenzentren bilden dabei keine Ausnahme. Input Rohstoffe Output Anzahl der pro Tag gefertigten Güter INTERNETDIENSTE Input Web, Video, Apps Output Megabyte pro Sekunde RECHENZENTRUM Input Berechnungs-Jobs Output Pro Tag abgeschlossene Jobs PRODUKTION Der Durchsatz von Rechenzentren wird anhand der Arbeitsmenge gemessen, die in einer bestimmten Zeit erledigt wird, (d. h. der Anzahl Jobs, die pro Tag oder Monat berechnet werden können). Da diese Architektur recht komplex ist, komprimieren Benutzer üblicherweise die ganze Komplexität des Systems zu einem einfachen Arbeitsmodell: Sie senden Jobanfragen über einen Job-Scheduler an eine Black Box und erwarten schon kurz darauf Ergebnisse. Beim High-Performance Computing (HPC) vertrauen die Forscher für ihre Entdeckungen und Erkenntnisse auf die Schnelligkeit der Ausgabe im Rechenzentrum. Höhere Durchsätze bedeuten, dass die Forscher täglich mehr wissenschaftliche Entdeckungen machen können. Bei Internetdiensten fordern beispielsweise Tausende von Nutzern an den verschiedensten Gerätearten das Live-Videostreaming eines aktuellen Ereignisses an. Ein höherer Durchsatz führt hier zu einem besseren Benutzererlebnis. Der Durchsatz ist der ultimative Leistungswert für die Produktivität im Rechenzentrum. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 2 Job-Warteschlange 1.000 Jobs pro Tag abgeschlossen Abb. 4: Das rein CPU-basierte Rechenzentrum besitzt 1.000 rein CPU-basierte Knoten, die täglich 1.000 Jobs verarbeiten. Gleicher Durchsatz mit weniger Serverknoten Um anschaulich zu machen, in welchem Verhältnis Durchsatz und Kosteneinsparungen zueinander stehen, stellen wir uns zwei Rechenzentren vor: Ein rein CPU-basiertes Rechenzentrum, das über herkömmliche CPUServer verfügt, und ein beschleunigtes Rechenzentrum mit einer Kombination aus herkömmlichen CPU-Servern und grafikprozessorbeschleunigten Servern. Jeder Knoten ist auf einem doppelten CPU-Sockel (Dual Socket) aufgebaut und die grafikprozessorbeschleunigten Knoten sind mit jeweils zwei NVIDIA Tesla P100-Grafikprozessoren bestückt. Hinsichtlich des Berechnungsprofils gehen wir bei beiden Arten von Rechenzentren davon aus, dass 70 % der Jobs Anwendungen mit GPU-Computing-Unterstützung zugrunde liegen. Im vorliegenden Whitepaper nehmen wir an, dass ein einzelner CPU-Knoten eine Arbeitseinheit, sprich einen Job, am Tag verarbeiten kann. Das rein CPU-basierte Rechenzentrum verfügt also über 1.000 Knoten, die zusammen 1.000 Jobs verarbeiten können. Job-Warteschlange (GPU) Job-Warteschlange (CPU) 1.000 Jobs pro Tag abgeschlossen Abb. 5: Das beschleunigte Rechenzentrum verfügt über 300 rein CPU-basierte Knoten sowie 70 Knoten mit Tesla P100-Grafikprozessoren. Das entspricht demselben Durchsatz wie beim rein CPU-basierten Rechenzentrum, nur mit 63 % weniger Knoten. Sehen wir uns nun das beschleunigte Rechenzentrum an. Da 70 % der Jobs GPU-Computing unterstützen, können 700 Jobs in der Warteschlange über beschleunigte Knoten laufen, während 300 Jobs dann über rein CPU-basierte Knoten laufen müssen. Bei vorsichtiger Schätzung, dass grafikprozessorfähige Jobs über einen Tesla P100-Knoten 10-mal schneller laufen als über einen CPUKnoten, werden zur Bewältigung von 700 Jobs am Tag lediglich 70 beschleunigte Knoten benötigt. Für die restlichen Jobs in der Warteschlange sind dann noch 300 CPU-Knoten erforderlich. Zusammen macht das 300 Serverknoten. Das beschleunigte Rechenzentrum liefert dieselbe Produktivität mit 63 % weniger Servern, Racks und Netzwerkausstattung. Daraus ergeben sich aufgrund des geringeren Stromverbrauchs und geringeren Platzbedarfs gewaltige Einsparungen bei den Anschaffungs‑ und Betriebskosten. Sind grafikprozessorbeschleunigte Server nicht sehr teuer? Grafikprozessoren verursachen Mehrkosten bei den einzelnen Knoten, sodass Kunden irrigerweise häufig daraus schließen, die GPU-beschleunigte Lösung sei teurer. Um zu analysieren, wie sich die Kosten durch den zusätzlichen Einsatz von Grafikprozessoren auswirken, schlüsseln wir zunächst einmal beispielhaft einen Serverknoten auf. KOSTEN REINER CPU-KNOTEN (Dual-Socket-CPU) BESCHLEUNIGTER KNOTEN (4 × Tesla P100) CPU 2.000 $ (×2) 2.000 $ (×2) GRAFIKPROZESSOR - 5.500 $ (×4) NIC, Speicher, diverse Kosten 4.000 $ 4.000 $ Gesamtkosten für Knoten 8.000 $ 30.000 $ Tabelle 1: Übersicht über Kosten für reinen CPU-Knoten und grafikprozessorbeschleunigten Knoten. Ein einzelner CPU-Sockel kostet 2.000 $ und weitere erforderliche Komponenten wie NICs und DDR4-Speicher kosten 4.000 $. Gesamtkosten für den Knoten: 8.000 $. Wird dieser so aufgebaute Knoten um vier Tesla P100Grafikprozessoren erweitert, kostet der Knoten nun 30.000 $. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 3 Die Kosten für einen Knoten sind zwar mit Grafikprozessoren höher, jedoch kommen Knoten im laufenden Betrieb nicht ohne sonstige Rechenzentrumstechnik wie Kabel, Switches, Datenspeicher oder Software aus – Posten, die alle einen nicht unerheblichen Teil der Gesamtkosten ausmachen. Die Kosten eines Rechenzentrums lassen sich wie folgt aufschlüsseln: TECHNOLOGIEN IM RECHENZENTRUM % DES BESCHAFFUNGSBUDGETS FÜR DAS SYSTEM Server 60 % Netzwerkinfrastruktur 10 % Datenspeicher 10 % Software und Services 20 % Gesamtkosten 100 % Tabelle 2: Typische Aufteilung des Budgets für das Rechenzentrum In diesem Beispiel benötigt ein rein CPU-basiertes Rechenzentrum 8 Mio. $ für Serverknoten, 1,5 Mio. $ für Netzwerkinfrastruktur und Datenspeicher und 3 Mio. $ für Software und Services. Ein beschleunigtes Rechenzentrum benötigt ein kleineres Budget für Serverknoten und Netzwerkinfrastruktur, da es weniger Knoten zum Verbinden gibt. Auch das Budget für Software und Kundendienst reduziert sich aufgrund der geringeren Anzahl an Knoten und der niedrigeren Systemgesamtkosten. Das Budget für den Datenspeicher stimmt mit dem des rein CPU-basierten Rechenzentrums überein. KOSTEN REINES CPU-RECHENZENTRUM BESCHLEUNIGTES RECHENZENTRUM CPU-Knoten 8.000 $ × 1.000 Knoten 8.000 $ × 300 Knoten Tesla P100-Knoten - 30.000 $ × 70 Knoten Server 8 Mio. $ 4,5 Mio. $ Netzwerkinfrastruktur 1,5 Mio. $ 1 Mio. $ Datenspeicher 1,5 Mio. $ 1,5 Mio. $ Software und Services 3 Mio. $ 2 Mio. $ Gesamtkosten für Rechenzentrum 14 Mio. $ 9 Mio. $ Tabelle 3: Beim beschleunigten Rechenzentrum mit dem Tesla P100 sind die Systemkosten um 39 % geringer als beim reinen CPU-Rechenzentrum. Abb. 6: 35 % Kosteneinsparungen ergeben sich für das beschleunigte Rechenzentrum. Während der Kunde 14 Mio. $ benötigt, um das rein CPU-basierte Rechenzentrum zu implementieren, muss er nur noch 9 Mio. $ aufbringen, wenn einige Knoten wie im beschleunigten Rechenzentrum beschleunigt werden. Fazit: Beim beschleunigten Rechenzentrum belaufen sich die Einsparungen auf 35 %. Da ein höherer Anteil des Workloads beschleunigt wird, lassen sich bis zu 50 % einsparen. SYSTEMKOSTEN BEI GLEICHEM DURCHSATZ REINES CPURECHENZENTRUM BESCHLEUNIGTES RECHENZENTRUM 0,00 $ 2,00 $ 4,00 $ 6,00 $ 8,00 $ 10,00 $ 12,00 $ 14,00 $ BESCHAFFUNGSKOSTEN FÜR DAS SYSTEM (IN MILLIONEN US-DOLLAR) Und wenn für die CPU keine Anschaffungskosten anfallen? Unter Umständen wird durch einen Rabatt auf die CPU der Versuch unternommen, mit einer grafikprozessorbeschleunigten Lösung mithalten zu können. Nehmen wir daher in einem Extrembeispiel an, dass die CPU für das rein CPU-basierte Rechenzentrum kostenlos, für das beschleunigte Rechenzentrum jedoch zum vollen Preis abgegeben wird. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 4 KOSTEN REINES CPU-RECHENZENTRUM (keine Kosten für CPU) BESCHLEUNIGTES RECHENZENTRUM CPU-Knoten 4.000 $ × 1.000 Knoten 8.000 $ × 300 Knoten Tesla P100-Knoten - 30.000 $ × 70 Knoten Server 4 Mio. $ 4,5 Mio. $ Netzwerkinfrastruktur 1,5 Mio. $ 1 Mio. $ Datenspeicher 1,5 Mio. $ 1,5 Mio. $ Software und Services 3 Mio. $ 2 Mio. $ Gesamtkosten für Rechenzentrum 10 Mio. $ 9 Mio. $ Gesamtdurchsatz im Rechenzentrum 1.000 Jobs/Tag 1.000 Jobs/Tag Tabelle 4: Selbst wenn im reinen CPU-Rechenzentrum für die CPUs keine Anschaffungskosten anfallen, ist das beschleunigte Rechenzentrum mit Tesla P100-Grafikprozessoren um 15 % günstiger. Für die Implementierung von 1.000 Knoten benötigt das rein CPU-basierte Rechenzentrum ein schmaleres Budget; die übrigen Kosten im Rechenzentrum bleiben unverändert. Die Kosten für die Knoten halbieren sich auf 4.000 $ und die Gesamtkosten für das Rechenzentrum reduzieren sich um 29 % auf 10 Mio. $. Selbst in diesem extremen, jedoch eher unwahrscheinlichen Szenario sind die Gesamtkosten für das beschleunigte Rechenzentrum immer noch um 10 % niedriger. Maximierung von Budget und Durchsatz Verfügt ein Kunde über ein festes Budget, das ausgegeben werden muss, liefert der Tesla P100 durch die Maximierung des Durchsatzes eine bisher unerreichte Kapitalrendite (ROI). Da 70 % der Spitzenanwendungen die Grafikprozessorbeschleunigung bereits nutzen und weitere Anwendungen demnächst folgen, entscheiden sich viele Kunden dafür, mehr Grafikprozessoren im Rechenzentrum zu implementieren. Die 35 % Einsparungen, die das beschleunigte Rechenzentrum erzielt hat, kann der Leiter der IT anderweitig einsetzen und damit noch mehr Grafikprozessorknoten einkaufen. Nennen wir dieses neue Rechenzentrum jetzt einmal „maximiert beschleunigtes Rechenzentrum“. Dieses verfügt nun über eine Kombination aus rein CPU-basierten und gegenüber dem beschleunigten Rechenzentrum noch mehr grafikprozessorbeschleunigten Knoten. Dabei wird natürlich davon ausgegangen, dass genügend Rechenlast anfällt, um die zusätzlichen Grafikprozessorknoten auch nutzen zu können. KOSTEN REINES CPU-RECHENZENTRUM BESCHLEUNIGTES RECHENZENTRUM CPU-Knoten 8.000 $ × 1000 Knoten 8.000 $ × 300 Knoten Tesla P100-Knoten - 30.000 $ × 220 Knoten Server 8 Mio. $ 9 Mio. $ Netzwerkinfrastruktur 1,5 Mio. $ 1 Mio. $ Datenspeicher 1,5 Mio. $ 1,5 Mio. $ Software und Services 3 Mio. $ 2.5 Mio. $ Gesamtkosten für Rechenzentrum 14 Mio. $ 14 Mio. $ Gesamtdurchsatz im Rechenzentrum 1.000 Jobs/Tag 2.200 Jobs/Tag Tabelle 5: Beim beschleunigten Rechenzentrum mit Tesla P100-Grafikprozessoren ist der Durchsatz doppelt so hoch wie beim reinen CPU-Rechenzentrum. Mit den Kosteneinsparungen, die die Tesla P100-Grafikprozessoren ermöglichen, können IT-Leiter 150 weitere Grafikprozessorknoten implementieren. Im maximiert beschleunigten Rechenzentrum sinken aufgrund der geringeren Knotenanzahl zudem die Kosten für Netzwerkinfrastruktur, Software und Kundendienst. Bei 220 Grafikprozessorknoten, die für einen 10-mal höheren Durchsatz sorgen, stellt das maximiert beschleunigte Rechenzentrum 2.200 Jobs täglich bereit. Gegenüber dem rein CPU-basierten Rechenzentrum ist das eine Steigerung beim Durchsatz um mehr als das Doppelte. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 5 Kostensenkung durch Beschleunigung Die IT-Verantwortlichen haben immer ein Auge auf die Kosten. Das Budget kann niemals groß genug sein, um alle Programme und Geräte, die für den reibungslosen Betrieb eines Unternehmens erforderlich sind, abzudecken. Kosteneinsparungen sind also immer willkommen. Mit dem Tesla P100 konnten IT-Manager die Kosten für das Rechenzentrum deutlich senken. 3,0× 2,5× 2,2× 2,0× Durchsatz Abb. 7: Grafikprozessorbeschleunigte Rechenzentren reduzieren die Kosten beträchtlich und liefern damit den bestmöglichen Durchsatz je Dollar. (Die Daten in diesem Diagramm wurden im Hinblick auf das rein CPUbasierte Rechenzentrum normiert.) Maximiert beschleunigtes Rechenzentrum 1,5× 1,0× 1,6× Reines CPURechenzentrum Beschleunigtes Rechenzentrum 1,0× 0,5× 0,0× 0,0× 0,5× 1,0× 1,5× 2,0× 2,5× Durchsatz pro Dollar In dem vorliegenden Whitepaper haben wir drei Beispiele von Rechenzentren angeführt, wie sie bei den Kunden heutzutage gängig sind. Der Tesla P100 führt, verglichen mit einem rein CPU-basierten Rechenzentrum, in einem beschleunigten Rechenzentrum zu einer Kostenreduzierung von 35 %. Bei einem Gesamtbudget von 14 Mio. $ entspricht das Einsparungen von 5 Mio. $. Kunden, die die Produktivität maximieren wollen, erhalten mit dem Tesla P100 im maximiert beschleunigten Rechenzentrum eine Steigerung der Gesamtproduktivität um mehr als das Doppelte. Die Demokratisierung des Supercomputers Forschungs- und Technologiemitarbeiter im HPC- und Hyperscale-Bereich sowie in Fortune 100-Unternehmen müssen enorme Datenmengen und steigende Kosten für ihr Rechenzentrum bewältigen. Mit GPU-beschleunigtem Computing profitieren sie nicht nur von höherer Leistung und mehr Durchsatz, sondern auch von besserer Kostenkontrolle. Beschleunigte Berechnungen demokratisieren das Supercomputing, indem sie die Implementierung des benötigten Systems für mehr Forscher, Wissenschaftler und Unternehmen erschwinglich machen. Nun kann sich auch ein Universitätsteam, das mithilfe von Berechnungen ein Heilmittel gegen Krebs finden möchte, oder eine Forschungsabteilung, die nach einer Lösung der Geheimnisse rund um den Urknall sucht, oder ein Fortune 100-Unternehmen, das an neuen geschäftlichen Innovationen arbeitet, ein Rechnersystem leisten, das bisher Supercomputing-Einrichtungen vorbehalten war. Im Zeitalter beschleunigter Berechnungen ist Supercomputing erschwinglich und erreichbar geworden. © 2017 NVIDIA Corporation. Alle Rechte vorbehalten. NVIDIA, das NVIDIA-Logo und Tesla sind Marken bzw. eingetragene Marken der NVIDIA Corporation. Bei allen Firmen und Produktbezeichnungen handelt es sich um Marken oder eingetragene Marken der jeweiligen Eigentümer, die hiermit anerkannt werden. BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 6