beschleunigte berechnungen und demokratisierung des

TECHNISCHE ÜBERSICHT
BESCHLEUNIGTE BERECHNUNGEN
UND DEMOKRATISIERUNG
DES SUPERCOMPUTINGS
Beschleunigte Berechnungen revolutionieren die Wirtschaftlichkeit
des Rechenzentrums. HPC Enterprise- und Hyperscale-Kunden setzen
beschleunigte Server ein, da Grafikprozessoren ihrem Rechenzentrum bisher
unerreichte Kosteneinsparungen bescheren.
Das vorliegende Whitepaper analysiert die Methoden, wie Grafikprozessoren wie
z. B. der NVIDIA® Tesla® P100 die Kosten eines Rechenzentrums um bis zu 50 %
senken können.
Das neue Rechenzentrum
Rechenzentren sind heutzutage so aufgebaut, dass eine Menge an COTSTechnologien (COTS = commercial off-the-shelf; handelsübliche Komponenten)
miteinander verbunden werden. Kunden sind immer daran interessiert, das
kostengünstigste System zu implementieren, und gehen dabei Kompromisse
bei den Standardkomponenten wie der CPU, dem Arbeitsspeicher und den
Verbindungsleitungen ein. Damit sind jedoch nur geringe Kosteneinsparungen
möglich.
Grafikprozessoren verändern die Wirtschaftlichkeit von Rechenzentren von
Grund auf, denn Verbesserungen der Anwendungsleistung vollziehen sich nicht
mehr nur in kleinen Schritten. Anwendungen werden durch Grafikprozessoren
typischerweise um den Faktor 5 bis 10 beschleunigt. Mit dem Tesla P100
erfahren manche Anwendungen, wie im Folgenden dargestellt, eine 20-fache
Leistungssteigerung.
Abb. 1: Grafikprozessoren
sorgen für eine 5‑ bis 10-fache
Leistungssteigerung, was
die Wirtschaftlichkeit des
Rechenzentrums fundamental
verändert.
LEISTUNG VON NVIDIA TESLA®-GRAFIKPROZESSOREN
Grafikprozessorknoten 2 Broadwell-CPUs + 4 × Tesla P100
CPU-Knoten 2 Broadwell-CPUs
45x
40x
35x
30x
25x
20x
15x
10x
5x
x
LAMMPS
LSMS
MiniFE
QUDA
HOOMD-BLUE
MILC
GTC-P
Broadwell-CPU: E5-2699 v4 mit 2,2 GHz
Laut einer aktuellen Erhebung von Intersect360 Research, eines
führenden Unternehmens für HPC-Analytik, unterstützen heute 70 %
der verbreitetsten Anwendungen für HPC-Daten und -Analysen die
Grafikprozessorbeschleunigung. Angesichts Hunderter beschleunigter
Anwendungen lautet die Frage nun nicht mehr, ob, sondern wie viele
Grafikprozessoren im Rechenzentrum eingesetzt werden sollen. Die Antwort
kann deutlich höhere Kosteneinsparungen bedeuten.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 1
Abb. 2: Viele der verbreitetsten
Anwendungen in den Bereichen HPC
und Deep Learning werden durch
Grafikprozessoren beschleunigt,
um unschlagbare Produktivität
und Kosteneinsparungen im
Rechenzentrum zu erzielen.
70 % DER WICHTIGSTEN HPC-ANWENDUNGEN BESCHLEUNIGT
INTERSECT360-STUDIE ZU DEN WICHTIGSTEN ANWENDUNGEN
DIE 10 WICHTIGSTEN
HPC-ANWENDUNGEN
90 %
beschleunigt
DIE 10 WICHTIGSTEN
HPC-ANWENDUNGEN
70%
beschleunigt
Intersect360, Nov. 2015, „HPC Application Support for GPU Computing“
(HPC-Anwendungsunterstützung für GPU-Computing)
DIE 25 WICHTIGSTEN ANWENDUNGEN IN DER STUDIE
GROMACS
SIMULIA Abaqus
NAMD
AMBER
ANSYS Mechanical
Exelis IDL
MSN NASTRAN
LAMMPS
NWChem
LS-DYNA
Schrodinger
ANSYS Fluent
WRF
VASP
OpenFOAM
CHARM
Quantum Espresso
ANSYS CFX
Star-CD
CCSM
COMSOL
Star-CCM+
BLAST
Gaussian
GAMESS
= Alle verbreiteten Funktionen beschleunigt
= Einige verbreitete Funktionen beschleunigt
= In der Entwicklungsphase
= Nicht unterstützt
Der ultimative Leistungswert für Produktivität
Die Produktivität einer Infrastruktur wird häufig an deren Durchsatz gemessen.
In der Fertigung gilt als wichtigster für den Nutzen relevanter Leistungswert die
Anzahl der täglich produzierten Waren. Für Cloud-Dienste bezahlen Benutzer
nach Datendurchsatz gestaffelt, gemessen in Megabyte pro Sekunde. Und bei
Rechenzentren sieht das auch nicht anders aus.
Abb. 3: Die Produktivität einer
Infrastruktur wird häufig an deren
Durchsatz gemessen. Rechenzentren
bilden dabei keine Ausnahme.
Input
Rohstoffe
Output
Anzahl der pro
Tag gefertigten Güter
INTERNETDIENSTE
Input
Web, Video, Apps
Output
Megabyte pro Sekunde
RECHENZENTRUM
Input
Berechnungs-Jobs
Output
Pro Tag abgeschlossene Jobs
PRODUKTION
Der Durchsatz von Rechenzentren wird anhand der Arbeitsmenge gemessen,
die in einer bestimmten Zeit erledigt wird, (d. h. der Anzahl Jobs, die pro Tag
oder Monat berechnet werden können). Da diese Architektur recht komplex
ist, komprimieren Benutzer üblicherweise die ganze Komplexität des
Systems zu einem einfachen Arbeitsmodell: Sie senden Jobanfragen über einen
Job-Scheduler an eine Black Box und erwarten schon kurz darauf Ergebnisse.
Beim High-Performance Computing (HPC) vertrauen die Forscher für ihre
Entdeckungen und Erkenntnisse auf die Schnelligkeit der Ausgabe im
Rechenzentrum. Höhere Durchsätze bedeuten, dass die Forscher täglich mehr
wissenschaftliche Entdeckungen machen können. Bei Internetdiensten fordern
beispielsweise Tausende von Nutzern an den verschiedensten Gerätearten das
Live-Videostreaming eines aktuellen Ereignisses an. Ein höherer Durchsatz
führt hier zu einem besseren Benutzererlebnis.
Der Durchsatz ist der ultimative Leistungswert für die Produktivität im
Rechenzentrum.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 2
Job-Warteschlange
1.000 Jobs
pro Tag abgeschlossen
Abb. 4: Das rein CPU-basierte
Rechenzentrum besitzt 1.000 rein
CPU-basierte Knoten, die täglich
1.000 Jobs verarbeiten.
Gleicher Durchsatz mit weniger Serverknoten
Um anschaulich zu machen, in welchem Verhältnis Durchsatz und
Kosteneinsparungen zueinander stehen, stellen wir uns zwei Rechenzentren
vor: Ein rein CPU-basiertes Rechenzentrum, das über herkömmliche CPUServer verfügt, und ein beschleunigtes Rechenzentrum mit einer Kombination
aus herkömmlichen CPU-Servern und grafikprozessorbeschleunigten Servern.
Jeder Knoten ist auf einem doppelten CPU-Sockel (Dual Socket) aufgebaut
und die grafikprozessorbeschleunigten Knoten sind mit jeweils zwei NVIDIA
Tesla P100-Grafikprozessoren bestückt. Hinsichtlich des Berechnungsprofils
gehen wir bei beiden Arten von Rechenzentren davon aus, dass 70 % der Jobs
Anwendungen mit GPU-Computing-Unterstützung zugrunde liegen.
Im vorliegenden Whitepaper nehmen wir an, dass ein einzelner CPU-Knoten
eine Arbeitseinheit, sprich einen Job, am Tag verarbeiten kann. Das rein
CPU-basierte Rechenzentrum verfügt also über 1.000 Knoten, die zusammen
1.000 Jobs verarbeiten können.
Job-Warteschlange (GPU)
Job-Warteschlange (CPU)
1.000 Jobs
pro Tag abgeschlossen
Abb. 5: Das beschleunigte
Rechenzentrum verfügt über 300 rein
CPU-basierte Knoten sowie 70 Knoten
mit Tesla P100-Grafikprozessoren.
Das entspricht demselben Durchsatz
wie beim rein CPU-basierten
Rechenzentrum, nur mit 63 % weniger
Knoten.
Sehen wir uns nun das beschleunigte Rechenzentrum an. Da 70 % der Jobs
GPU-Computing unterstützen, können 700 Jobs in der Warteschlange über
beschleunigte Knoten laufen, während 300 Jobs dann über rein CPU-basierte
Knoten laufen müssen. Bei vorsichtiger Schätzung, dass grafikprozessorfähige
Jobs über einen Tesla P100-Knoten 10-mal schneller laufen als über einen CPUKnoten, werden zur Bewältigung von 700 Jobs am Tag lediglich 70 beschleunigte
Knoten benötigt. Für die restlichen Jobs in der Warteschlange sind dann noch
300 CPU-Knoten erforderlich. Zusammen macht das 300 Serverknoten.
Das beschleunigte Rechenzentrum liefert dieselbe Produktivität mit 63 %
weniger Servern, Racks und Netzwerkausstattung. Daraus ergeben sich
aufgrund des geringeren Stromverbrauchs und geringeren Platzbedarfs
gewaltige Einsparungen bei den Anschaffungs‑ und Betriebskosten.
Sind grafikprozessorbeschleunigte Server nicht sehr
teuer?
Grafikprozessoren verursachen Mehrkosten bei den einzelnen Knoten, sodass
Kunden irrigerweise häufig daraus schließen, die GPU-beschleunigte Lösung sei
teurer. Um zu analysieren, wie sich die Kosten durch den zusätzlichen Einsatz
von Grafikprozessoren auswirken, schlüsseln wir zunächst einmal beispielhaft
einen Serverknoten auf.
KOSTEN
REINER CPU-KNOTEN
(Dual-Socket-CPU)
BESCHLEUNIGTER KNOTEN
(4 × Tesla P100)
CPU
2.000 $ (×2)
2.000 $ (×2)
GRAFIKPROZESSOR
-
5.500 $ (×4)
NIC, Speicher, diverse Kosten
4.000 $
4.000 $
Gesamtkosten für Knoten
8.000 $
30.000 $
Tabelle 1: Übersicht über Kosten für reinen CPU-Knoten und grafikprozessorbeschleunigten Knoten.
Ein einzelner CPU-Sockel kostet 2.000 $ und weitere erforderliche
Komponenten wie NICs und DDR4-Speicher kosten 4.000 $. Gesamtkosten für
den Knoten: 8.000 $. Wird dieser so aufgebaute Knoten um vier Tesla P100Grafikprozessoren erweitert, kostet der Knoten nun 30.000 $.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 3
Die Kosten für einen Knoten sind zwar mit Grafikprozessoren höher,
jedoch kommen Knoten im laufenden Betrieb nicht ohne sonstige
Rechenzentrumstechnik wie Kabel, Switches, Datenspeicher oder Software
aus – Posten, die alle einen nicht unerheblichen Teil der Gesamtkosten
ausmachen. Die Kosten eines Rechenzentrums lassen sich wie folgt
aufschlüsseln:
TECHNOLOGIEN IM
RECHENZENTRUM
% DES BESCHAFFUNGSBUDGETS
FÜR DAS SYSTEM
Server
60 %
Netzwerkinfrastruktur
10 %
Datenspeicher
10 %
Software und Services
20 %
Gesamtkosten
100 %
Tabelle 2: Typische Aufteilung des Budgets für das Rechenzentrum
In diesem Beispiel benötigt ein rein CPU-basiertes Rechenzentrum 8 Mio. $
für Serverknoten, 1,5 Mio. $ für Netzwerkinfrastruktur und Datenspeicher
und 3 Mio. $ für Software und Services. Ein beschleunigtes Rechenzentrum
benötigt ein kleineres Budget für Serverknoten und Netzwerkinfrastruktur,
da es weniger Knoten zum Verbinden gibt. Auch das Budget für Software und
Kundendienst reduziert sich aufgrund der geringeren Anzahl an Knoten und der
niedrigeren Systemgesamtkosten. Das Budget für den Datenspeicher stimmt
mit dem des rein CPU-basierten Rechenzentrums überein.
KOSTEN
REINES CPU-RECHENZENTRUM
BESCHLEUNIGTES
RECHENZENTRUM
CPU-Knoten
8.000 $ × 1.000 Knoten
8.000 $ × 300 Knoten
Tesla P100-Knoten
-
30.000 $ × 70 Knoten
Server
8 Mio. $
4,5 Mio. $
Netzwerkinfrastruktur
1,5 Mio. $
1 Mio. $
Datenspeicher
1,5 Mio. $
1,5 Mio. $
Software und Services
3 Mio. $
2 Mio. $
Gesamtkosten für Rechenzentrum
14 Mio. $
9 Mio. $
Tabelle 3: Beim beschleunigten Rechenzentrum mit dem Tesla P100 sind die Systemkosten um 39 % geringer als beim reinen CPU-Rechenzentrum.
Abb. 6: 35 % Kosteneinsparungen
ergeben sich für das beschleunigte
Rechenzentrum.
Während der Kunde 14 Mio. $ benötigt, um das rein CPU-basierte
Rechenzentrum zu implementieren, muss er nur noch 9 Mio. $ aufbringen, wenn
einige Knoten wie im beschleunigten Rechenzentrum beschleunigt werden.
Fazit: Beim beschleunigten Rechenzentrum belaufen sich die Einsparungen auf
35 %. Da ein höherer Anteil des Workloads beschleunigt wird, lassen sich bis zu
50 % einsparen.
SYSTEMKOSTEN BEI GLEICHEM DURCHSATZ
REINES CPURECHENZENTRUM
BESCHLEUNIGTES
RECHENZENTRUM
0,00 $
2,00 $
4,00 $
6,00 $
8,00 $
10,00 $
12,00 $
14,00 $
BESCHAFFUNGSKOSTEN FÜR DAS SYSTEM (IN MILLIONEN US-DOLLAR)
Und wenn für die CPU keine Anschaffungskosten
anfallen?
Unter Umständen wird durch einen Rabatt auf die CPU der Versuch
unternommen, mit einer grafikprozessorbeschleunigten Lösung mithalten
zu können. Nehmen wir daher in einem Extrembeispiel an, dass die CPU
für das rein CPU-basierte Rechenzentrum kostenlos, für das beschleunigte
Rechenzentrum jedoch zum vollen Preis abgegeben wird.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 4
KOSTEN
REINES CPU-RECHENZENTRUM
(keine Kosten für CPU)
BESCHLEUNIGTES
RECHENZENTRUM
CPU-Knoten
4.000 $ × 1.000 Knoten
8.000 $ × 300 Knoten
Tesla P100-Knoten
-
30.000 $ × 70 Knoten
Server
4 Mio. $
4,5 Mio. $
Netzwerkinfrastruktur
1,5 Mio. $
1 Mio. $
Datenspeicher
1,5 Mio. $
1,5 Mio. $
Software und Services
3 Mio. $
2 Mio. $
Gesamtkosten für Rechenzentrum
10 Mio. $
9 Mio. $
Gesamtdurchsatz im Rechenzentrum
1.000 Jobs/Tag
1.000 Jobs/Tag
Tabelle 4: Selbst wenn im reinen CPU-Rechenzentrum für die CPUs keine Anschaffungskosten anfallen, ist das beschleunigte Rechenzentrum mit Tesla P100-Grafikprozessoren um 15 % günstiger.
Für die Implementierung von 1.000 Knoten benötigt das rein CPU-basierte
Rechenzentrum ein schmaleres Budget; die übrigen Kosten im Rechenzentrum
bleiben unverändert. Die Kosten für die Knoten halbieren sich auf 4.000 $ und
die Gesamtkosten für das Rechenzentrum reduzieren sich um 29 % auf 10 Mio. $.
Selbst in diesem extremen, jedoch eher unwahrscheinlichen Szenario sind
die Gesamtkosten für das beschleunigte Rechenzentrum immer noch um 10 %
niedriger.
Maximierung von Budget und Durchsatz
Verfügt ein Kunde über ein festes Budget, das ausgegeben werden muss,
liefert der Tesla P100 durch die Maximierung des Durchsatzes eine bisher
unerreichte Kapitalrendite (ROI). Da 70 % der Spitzenanwendungen die
Grafikprozessorbeschleunigung bereits nutzen und weitere Anwendungen
demnächst folgen, entscheiden sich viele Kunden dafür, mehr Grafikprozessoren
im Rechenzentrum zu implementieren.
Die 35 % Einsparungen, die das beschleunigte Rechenzentrum erzielt hat, kann der
Leiter der IT anderweitig einsetzen und damit noch mehr Grafikprozessorknoten
einkaufen. Nennen wir dieses neue Rechenzentrum jetzt einmal „maximiert
beschleunigtes Rechenzentrum“. Dieses verfügt nun über eine Kombination aus
rein CPU-basierten und gegenüber dem beschleunigten Rechenzentrum noch mehr
grafikprozessorbeschleunigten Knoten. Dabei wird natürlich davon ausgegangen,
dass genügend Rechenlast anfällt, um die zusätzlichen Grafikprozessorknoten auch
nutzen zu können.
KOSTEN
REINES CPU-RECHENZENTRUM
BESCHLEUNIGTES
RECHENZENTRUM
CPU-Knoten
8.000 $ × 1000 Knoten
8.000 $ × 300 Knoten
Tesla P100-Knoten
-
30.000 $ × 220 Knoten
Server
8 Mio. $
9 Mio. $
Netzwerkinfrastruktur
1,5 Mio. $
1 Mio. $
Datenspeicher
1,5 Mio. $
1,5 Mio. $
Software und Services
3 Mio. $
2.5 Mio. $
Gesamtkosten für Rechenzentrum
14 Mio. $
14 Mio. $
Gesamtdurchsatz im Rechenzentrum
1.000 Jobs/Tag
2.200 Jobs/Tag
Tabelle 5: Beim beschleunigten Rechenzentrum mit Tesla P100-Grafikprozessoren ist der Durchsatz doppelt so hoch wie beim reinen CPU-Rechenzentrum.
Mit den Kosteneinsparungen, die die Tesla P100-Grafikprozessoren ermöglichen,
können IT-Leiter 150 weitere Grafikprozessorknoten implementieren. Im maximiert
beschleunigten Rechenzentrum sinken aufgrund der geringeren Knotenanzahl
zudem die Kosten für Netzwerkinfrastruktur, Software und Kundendienst. Bei
220 Grafikprozessorknoten, die für einen 10-mal höheren Durchsatz sorgen, stellt
das maximiert beschleunigte Rechenzentrum 2.200 Jobs täglich bereit. Gegenüber
dem rein CPU-basierten Rechenzentrum ist das eine Steigerung beim Durchsatz um
mehr als das Doppelte.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 5
Kostensenkung durch Beschleunigung
Die IT-Verantwortlichen haben immer ein Auge auf die Kosten. Das Budget
kann niemals groß genug sein, um alle Programme und Geräte, die für den
reibungslosen Betrieb eines Unternehmens erforderlich sind, abzudecken.
Kosteneinsparungen sind also immer willkommen. Mit dem Tesla P100 konnten
IT-Manager die Kosten für das Rechenzentrum deutlich senken.
3,0×
2,5×
2,2×
2,0×
Durchsatz
Abb. 7: Grafikprozessorbeschleunigte
Rechenzentren reduzieren die Kosten
beträchtlich und liefern damit den
bestmöglichen Durchsatz je Dollar.
(Die Daten in diesem Diagramm
wurden im Hinblick auf das rein CPUbasierte Rechenzentrum normiert.)
Maximiert
beschleunigtes
Rechenzentrum
1,5×
1,0×
1,6×
Reines CPURechenzentrum
Beschleunigtes
Rechenzentrum
1,0×
0,5×
0,0×
0,0×
0,5×
1,0×
1,5×
2,0×
2,5×
Durchsatz pro Dollar
In dem vorliegenden Whitepaper haben wir drei Beispiele von Rechenzentren
angeführt, wie sie bei den Kunden heutzutage gängig sind. Der Tesla P100 führt,
verglichen mit einem rein CPU-basierten Rechenzentrum, in einem beschleunigten
Rechenzentrum zu einer Kostenreduzierung von 35 %. Bei einem Gesamtbudget von
14 Mio. $ entspricht das Einsparungen von 5 Mio. $. Kunden, die die Produktivität
maximieren wollen, erhalten mit dem Tesla P100 im maximiert beschleunigten
Rechenzentrum eine Steigerung der Gesamtproduktivität um mehr als das
Doppelte.
Die Demokratisierung des Supercomputers
Forschungs- und Technologiemitarbeiter im HPC- und Hyperscale-Bereich
sowie in Fortune 100-Unternehmen müssen enorme Datenmengen und
steigende Kosten für ihr Rechenzentrum bewältigen. Mit GPU-beschleunigtem
Computing profitieren sie nicht nur von höherer Leistung und mehr Durchsatz,
sondern auch von besserer Kostenkontrolle.
Beschleunigte Berechnungen demokratisieren das Supercomputing,
indem sie die Implementierung des benötigten Systems für mehr Forscher,
Wissenschaftler und Unternehmen erschwinglich machen. Nun kann sich auch
ein Universitätsteam, das mithilfe von Berechnungen ein Heilmittel gegen
Krebs finden möchte, oder eine Forschungsabteilung, die nach einer Lösung der
Geheimnisse rund um den Urknall sucht, oder ein Fortune 100-Unternehmen,
das an neuen geschäftlichen Innovationen arbeitet, ein Rechnersystem leisten,
das bisher Supercomputing-Einrichtungen vorbehalten war.
Im Zeitalter beschleunigter Berechnungen ist Supercomputing erschwinglich
und erreichbar geworden.
© 2017 NVIDIA Corporation. Alle Rechte vorbehalten. NVIDIA, das NVIDIA-Logo und Tesla sind Marken bzw. eingetragene
Marken der NVIDIA Corporation. Bei allen Firmen und Produktbezeichnungen handelt es sich um Marken oder
eingetragene Marken der jeweiligen Eigentümer, die hiermit anerkannt werden.
BESCHLEUNIGTE BERECHNUNGEN UND DEMOKRATISIERUNG DES SUPERCOMPUTINGS | TECHNISCHE ÜBERSICHT | 6