Powerpoint Folien des Vortrags zum (PP 97, 705 KByte)

Werbung
Die SX-Series: Eine Erfolgsstory
mit Fortsetzung
Dr. Christian Lantwin, Product Marketing Manager
NEC ESS
1
Was bisher geschah:
 Ende 1994 wird die SX-4 als erste CMOS
Implementierung eines PVP
Supercomputers angekündigt
 Alle Welt glaubte, daß die Zukunft
Architekturen mit Standardkomponenten
gehören wird
European Supercomputer Systems
2
Heute:
 Die SX-4 ist mit ca. 120 Installationen mit
mehr als 900 CPUs die erfolgreichste
Maschine ihrer Art
 PVP ist wieder auf Erfolgskurs



höchste Effizienz in Anwendungen
zukunftsträchtige Technologiebasis
ausgewogenes, weil maßgeschneidertes
Konzept
European Supercomputer Systems
3
Effizienz & Leistung
 Die SX-4 demonstriert in Anwendungen bis
zu 80 % und mehr Leistung im
Parallelbetrieb
 Grundlagen


ausgewogene Architektur
konsequente Implementierung
European Supercomputer Systems
4
Memory Performance
STREAM Memory Bandwidth --- John D. McCalpin, [email protected]
Revised to Sat Jun 14 09:17:22 PDT 1997
All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B
-----------------------------------------------------------------Machine ID
ncpus
COPY
SCALE
-----------------------------------------------------------------NEC_SX_4
NEC_SX_4
NEC_SX_4
NEC_SX_4
NEC_SX_4
NEC_SX_4
32
16
8
4
2
1
Cray_T932_321024-3E
Cray_T932_321024-3E
Cray_T932_321024-3E
Cray_J932
Cray_J932
Cray_J932
SGI_Origin_2000_2
32
16
1
32
16
1
2
ADD
TRIAD
434784.0
247440.0
126084.0
63537.0
31887.0
15983.0
432886.0
247343.0
126084.0
63536.0
31886.0
15984.0
437358.0
250262.0
126725.0
63694.0
31925.0
15989.0
436954.0
250231.0
126724.0
63692.0
31925.0
15898.0
310721.0
160263.0
10653.0
302182.0
154880.0
10221.0
359841.0
193335.0
13014.0
359270.0
194562.0
13682.0
19007.0
16298.2
1433.6
18944.1
15851.5
1408.6
19993.9
15657.6
1260.8
18870.4
14995.9
1270.0
351.0
365.0
392.0
413.0
European Supercomputer Systems
5
Streams Benchmark TRIAD
Streams Benchmark: TRIAD
450000
436954
400000
350000
350270
300000
250231
250000
MB/s
200000
194562
126724
150000
6369299343
15898 31925
13682 26117 50718
100000
50000
0
J90
T90
SX-4
1270
1
2527.6
2
4657.6
4
# CPU
SX-4
8941.3
8
14995.9
18870.4
T90
J90
16
32
European Supercomputer Systems
6
Die Skalierungsperspektive
 Mit der SX-4 ist der leistungsfähigste
Clusteransatz verwirklicht

5 Standorte weltweit nutzen erfolgreich
MultiNode Systeme mit bis zu 128 VektorCPUs
 Teraflopscomputing auf Vektorbasis ist
reale Option
European Supercomputer Systems
7
Und in Zukunft...
 „Vector Supercomputing has always offered
the ultimate in processor performance“
SGI Website, 16. Juni 1998
 aber auch:
„A Supercomputer is a high performance
memory with a fast CPU attached“
sinngemäß S. Cray
European Supercomputer Systems
8
Warum eigentlich Vektor?
Leistungscharakteristik von Vektor und Skalarprozessoren
Performance
Vector Processing
Cache Size Limitation
Applications
Scalar Processing
Applications
Data Size
European Supercomputer Systems
9
The System You Have Heard About
European Supercomputer Systems
10
Welcomes You to the Future
of High Performance Supercomputing 11
European Supercomputer Systems
Das Produkt
 Die logische Fortführung der SX-4 Series
 Setzt Renaissance des PVP Markets fort


Anwender wählen PVP, weil sie JETZT
funktionieren
SX Systeme machen PVP Technologie
erschwinglich
 Bietet eine brauchbare, flexible Architektur


Single Node Shared Memory Modell
Multi Node Distributed Memory Modell
European Supercomputer Systems
12
Spezifikationen
 Single Node


Bis zu 128 GFLOPS
aus 16 x 8 GFLOPS Prozessoren
Bis zu 128 GBytes Shared Main Memory
 Multi Node




Bis zu 4 TFLOPS
Bis zu 32 Nodes über SX-5 IXS
Bis zu 512 Processors
Bis zu 4 Tbyte Hauptspeicher
European Supercomputer Systems
13
CMOS VLSI Technologie
 0.25 Micron mit 5 Layern


Commodity, High Yield Geometry
Wirtschaftliche Herstellung
 64 Mbit SDRAM Memory Chips


kostengünstige High-end
Standardkomponenten
Leistungsfähigkeit durch sehr hohe Bankzahl
European Supercomputer Systems
14
Packaging Technologies
 Chip Size Package



25 mm sq
1600+ Pinouts
0.5 mm grid
 Multi Chip Package



225 mm sq
11,000+ Pinouts
32 Layers
European Supercomputer Systems
15
Single Node Processor
16 units
MASK
MAX 16 CPUs
MASK
MAIN
STORAGE
LOGICAL
MULT
LOAD
&
STORE
VR
ADD/SHIFT
DIVIDE
CACHE
SR
XMU
SCALAR
EXECUTION
UNIT
IOP
European Supercomputer Systems
16
Vector Einheit: Architektur
 Multiple parallele Vektor Pipelines
 64 SX-4 kompatible Pipelines




Add-Shift
Multiply
Logical
Divide
x 16
x 16
x 16
x 16
 Jede Instruktion nutzt 16 Pipelines

Automatische Hardware Parallelität
 Piplines arbeiten unabhängig voneinander
European Supercomputer Systems
17
Pro Processor
 8 GFLOPS Peak Vector
 500 MFLOPS Peak Scalar

Mehr als 2 X SX-4 Series
skalaren Durchsatz
• Weniger Konflikte der Skalareinheit
• Extra Load Path
• Double Issue Rate
 64 GB / sec Speicherbandbreite
European Supercomputer Systems
18
Memory Architecture
 Voller Non-blocking Crossbar
 Single Node



128 GB Kapazität
1 TB/s Bandbreite
1 CPU auf 2 MMU Einheiten
• Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec
• 64 Gbytes/second verfügbar für jede CPU
 Die höchste im Markt verfügbare
Speicherleistung !
European Supercomputer Systems
19
Streams Benchmark TRIAD
Streams Triad
1200000
1000000
1000924
800000
MB/s
600000
506896
400000
63592
200000
0
1270
1
2527.6
2
4657.6
4
#CPUs
8941.3
8
SX-5
194562
99343
50718
26117
13682
254768
127700
14995.9
16
T90
J90
(SX-5 Werte extrapoliert)
European Supercomputer Systems
20
The Single Node
IOP
IOP
SDRAM technology
32,768 64-bit banks
32 4-GB cards
32 GB/s per card
3.15 GB/s
x 4 IOPs
16 x 8 GF
Vector Processors
1 CPU : 2 MMU
(64 GB/s)
European Supercomputer Systems
21
Multi Node Spezifikationen
 Maximal 512 Prozessoren


16 Prozessoren per Node Maximum
32 Node Maximum
 Maximal 4 TB Hauptspeicher
 IXS Internode Crossbar


256 GB/s Gesamzbandbreite
8 GB/s Bandbreite Node zu Node
European Supercomputer Systems
22
The Multi Node
IXS Internode Crossbar
Max.16 CPU
CPU CPU
....
CPU
éÂãLâØ
MM
CPU CPU
....
CPU
éÂãLâØ
MM
IOP IOP IOP IOP
MMIOP
••••
Node #1
IOP IOP IOP
•••• IOP
MMIOP
••••
Node #2
CPU CPU
.......
....
CPU
éÂãLâØ
MM
IOP IOP IOP
•••• IOP
MMIOP
••••
Node #32
8 GB/s x 2
European Supercomputer Systems
23
Japanische Konzepte haben Zukunft
*
*Aber Effizienz ist ein Muß!
European Supercomputer Systems
24
Herunterladen