Ausblick auf den HLRN III - die neue HPC Ressource für

Werbung
Ausblick auf den HLRN III - die neue HPC Ressource
für Norddeutschland
Holger Naundorf
RRZN
Leibniz Universität IT Services
Schloßwender Straße 5
30159 Hannover
[email protected]
14. März 2013
Inhalt
Der HLRN Verbund
Der aktuelle HLRN-II
Ausblick auf den HLRN-III
Phase 1 (Ende 2013)
Phase 2 (Ende 2014)
Architektur Cray XC30
Software
Vergleich HLRN-II ↔ HLRN-III
Holger Naundorf, HLRN-III | 14. März 2013
Seite 2
Der HLRN Verbund
Der HLRN wurde als Zusammenschluss der 6 nördlichen Bundesländer
(Berlin, Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen
und Schleswig-Holstein) gegründet. Ende 2012 ist Brandenburg als 7.
Mitglied beigetreten.
Standorte der Hardware sind
Berlin
(Konrad-Zuse-Zentrum)
Hannover (Leibniz
Universität IT Services)
Holger Naundorf, HLRN-III | 14. März 2013
Seite 3
HLRN-II
Berlin und Hannover betreiben identisch konfigurierte Systeme von
(Beschaffung: 2008)
ca. 25.000 CPU Kerne
Verbindung über dedizierten 10GBit Link
einheitliche Nutzer- und Projektverwaltung, gespiegelte
Nutzerverzeichnisse
System kann auch beim kompletten Ausfall einer Site weiter genutzt
werden
keine Komplexübergreifenden Jobs
Fachberater für die Nutzer verteilt an Standorten in allen beteiligten
Ländern
Holger Naundorf, HLRN-III | 14. März 2013
Seite 4
HLRN-II
HLRN-II Komponenten pro Site:
XE 48 Knoten (2x Quad-Core
Intel Harpertown, 64GB), 4x
DDR Infiniband
ICE1 320 Knoten (2x
Quad-Core Intel Harpertown,
16GB), 4x DDR Infiniband
Service Nodes (data, perm,
login)
2x 400TB Filesystem (Lustre)
ICE2 960 Knoten (2x
Quad-Core Intel Nehalem,
48GB), 4x DDR Infiniband
dual-rail
UV 4.5 Racks, 32 Knoten pro
Rack (2x Octo-Core Intel
Nehalem, 64GB), 2TB NUMA
pro Rack
Holger Naundorf, HLRN-III | 14. März 2013
Seite 5
HLRN-III
November 2010: Antragsskizze an die DFG
Juli 2011: Genehmigung des Vollantrags
März 2012: EU weite Aussschreibung des HLRN-III im
Verhandlungsverfahren
August 2012: Beginn der Verhandlungen mit IBM und Cray
Oktober 2012: Finale Angebote nach drei Verhandlungsrunden
Dezember 2012: Vertragsabschluss mit Cray
September 2013: geplante Betriebsbereitschaft HLRN-III in Berlin
Dezember 2013: geplante Betriebsbereitschaft HLRN-III in Hannover
Ende 2014: Installation HLRN-III Phase 2
Holger Naundorf, HLRN-III | 14. März 2013
Seite 6
HLRN-III Anforderungen
Kriterien der Ausschreibung:
Investitionssumme und Räumlichkeiten (30 M EUR)
Limitierung der Betriebskosten (Wartung, Strom und Klima) (2 M
EUR pro Jahr und Site für 5 Jahre)
Erhalt der Expertise aus dem HLRN-II (Forderung mindestens ein
Teil der MPP Komponente x86 CPU + Linux)
extrem heterogener Anwendungsmix, d.h. die Leistungsbewertung
kann nicht an einem singulären Benchmark festgelegt werden
Anbieter mussten Leistungszusagen für 8 repräsentative
Applikationen abgeben
Garantierte Lauffähigkeit aller großen ISV und OpenSource Pakete
Vorgaben für weitere Komponenten: SMP Knoten,
Pre/Post-Processing und Dateisysteme
Holger Naundorf, HLRN-III | 14. März 2013
Seite 7
HLRN-III Hardware Phase 1
symmetrisch in Berlin + Hannover
4 Racks Cray XC30
744 Knoten (2x 12core Intel
Ivy Bridge, 64GB RAM)
Aries Interconnect
17856 Cores
1.4 PB Work-Filesystem
(Lustre) ∼20GB/s Bandbreite
500TB /home /sw etc.
(10GigE NFS)
SMP Komponente in Hannover
46 TB Memory
32 Knoten
329 TFlops peak
4x 8core Intel Sandy Bridge
2 Pre/Post Knoten (4x 8core
Intel Sandy Bridge, 768GB
RAM)
256GB RAM
Holger Naundorf, HLRN-III | 14. März 2013
12 TB lokale Festplatten
Infiniband FDR (Lustre + MPI)
Seite 8
HLRN-III Hardware Phase 2
Berlin: 6 Racks Cray XC30
1128 Knoten (2x 12core Intel
Haswell, 64GB RAM)
27072 Cores, 71 TB Memory,
1040 TFlops peak
Hannover: 5 Racks Cray XC30
936 Knoten (2x 12core Intel
Haswell, 64GB RAM)
22464 Cores, 59 TB Memory,
863 TFlops peak
Holger Naundorf, HLRN-III | 14. März 2013
nur in Hannover 32 weitere SMP
Knoten:
4x 10core Intel Ivy Bridge
512GB RAM
24 TB lokale Festplatten
Infiniband FDR (Lustre + MPI)
Lustre pro Site:
2.3 PB Work-Filesystem
31GB/s Bandbreite
2 weitere Pre/Post Knoten (4x
10core Intel Ivy Bridge, 1.5 TB
RAM) pro Site
Seite 9
Endausbau
MPP Komponente
3552 Knoten, ∼85k Cores, 222TB RAM, ∼2.5PFlops peak
SMP Komponente
64 Knoten, 2300 Cores, 24TB RAM
Work Dateisystem
Lustre, ∼7.2PB Kapazität, ∼100GB/s I/O Bandbreite
8 Pre/Post Knoten, /home (500TB), Login Knoten, . . .
In Phase 2 eventuell Tausch einiger Knoten zu CPU/GPU
Konfiguration (Nvidia), je nach Bedarf der Nutzer.
Holger Naundorf, HLRN-III | 14. März 2013
Seite 10
Schema einer Site
Holger Naundorf, HLRN-III | 14. März 2013
Seite 11
HLRN-III Architektur
Aufbau der Cray XC30 (Cascade)
Die Kühlung erfolgt transversal.
Packung der MPP Knoten in den
XC30 Racks.
Holger Naundorf, HLRN-III | 14. März 2013
Seite 12
Aries Netzwerk
Ein Aries Router pro Blade, direkt mit den PCIe 3.0 x16 Lanes eines
Knotens verbunden.
1.3 µs Latenz
∼16GB/s Durchsatz (bidirektional) Knoten ↔ Router
16 Router werden über die Chassis-Backplane verbunden
6 Chassis werden elektrisch verkabelt
optische Verkabelung zwischen den Gruppen
Holger Naundorf, HLRN-III | 14. März 2013
Seite 13
HLRN-III Software
OS: Cray Linux Environment (CLE) auf der XC30, SLES auf den
SMP und Pre/Post Knoten
Compiler: GNU, Intel und Cray
MPI: Intel MPI und Cray mpt
Intel MKL + Cray Scientific Libraries
Allinea DDT Debugger und/oder Totalview
Intel und Cray Performance und Analysis Tools
Batch: Moab/Torque HPC Suite – Enterprise Edition
Ein Cray Mitarbeiter zur Anwenderunterstützung und Portierung von
OpenSource Paketen und Nutzerprogrammen.
Holger Naundorf, HLRN-III | 14. März 2013
Seite 14
HLRN-III vs. HLRN-II
Anzahl Cores (MPP): 20k → 85k
größtes MPP Segment: 7680 cores → 44920 cores
RAM: 100TB → 222TB
peak Performance: 240 TFlops → 2.5 PFlops
Work Filesystem: 1.6 PB → 7.2 PB
Racks: 100 → 30
Leistungsaufnahme: 1.6 MW → 1.6 MW
Holger Naundorf, HLRN-III | 14. März 2013
Seite 15
Herunterladen