Die SX-Series: Eine Erfolgsstory mit Fortsetzung Dr. Christian Lantwin, Product Marketing Manager NEC ESS 1 Was bisher geschah: Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird European Supercomputer Systems 2 Heute: Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art PVP ist wieder auf Erfolgskurs höchste Effizienz in Anwendungen zukunftsträchtige Technologiebasis ausgewogenes, weil maßgeschneidertes Konzept European Supercomputer Systems 3 Effizienz & Leistung Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb Grundlagen ausgewogene Architektur konsequente Implementierung European Supercomputer Systems 4 Memory Performance STREAM Memory Bandwidth --- John D. McCalpin, [email protected] Revised to Sat Jun 14 09:17:22 PDT 1997 All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B -----------------------------------------------------------------Machine ID ncpus COPY SCALE -----------------------------------------------------------------NEC_SX_4 NEC_SX_4 NEC_SX_4 NEC_SX_4 NEC_SX_4 NEC_SX_4 32 16 8 4 2 1 Cray_T932_321024-3E Cray_T932_321024-3E Cray_T932_321024-3E Cray_J932 Cray_J932 Cray_J932 SGI_Origin_2000_2 32 16 1 32 16 1 2 ADD TRIAD 434784.0 247440.0 126084.0 63537.0 31887.0 15983.0 432886.0 247343.0 126084.0 63536.0 31886.0 15984.0 437358.0 250262.0 126725.0 63694.0 31925.0 15989.0 436954.0 250231.0 126724.0 63692.0 31925.0 15898.0 310721.0 160263.0 10653.0 302182.0 154880.0 10221.0 359841.0 193335.0 13014.0 359270.0 194562.0 13682.0 19007.0 16298.2 1433.6 18944.1 15851.5 1408.6 19993.9 15657.6 1260.8 18870.4 14995.9 1270.0 351.0 365.0 392.0 413.0 European Supercomputer Systems 5 Streams Benchmark TRIAD Streams Benchmark: TRIAD 450000 436954 400000 350000 350270 300000 250231 250000 MB/s 200000 194562 126724 150000 6369299343 15898 31925 13682 26117 50718 100000 50000 0 J90 T90 SX-4 1270 1 2527.6 2 4657.6 4 # CPU SX-4 8941.3 8 14995.9 18870.4 T90 J90 16 32 European Supercomputer Systems 6 Die Skalierungsperspektive Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht 5 Standorte weltweit nutzen erfolgreich MultiNode Systeme mit bis zu 128 VektorCPUs Teraflopscomputing auf Vektorbasis ist reale Option European Supercomputer Systems 7 Und in Zukunft... „Vector Supercomputing has always offered the ultimate in processor performance“ SGI Website, 16. Juni 1998 aber auch: „A Supercomputer is a high performance memory with a fast CPU attached“ sinngemäß S. Cray European Supercomputer Systems 8 Warum eigentlich Vektor? Leistungscharakteristik von Vektor und Skalarprozessoren Performance Vector Processing Cache Size Limitation Applications Scalar Processing Applications Data Size European Supercomputer Systems 9 The System You Have Heard About European Supercomputer Systems 10 Welcomes You to the Future of High Performance Supercomputing 11 European Supercomputer Systems Das Produkt Die logische Fortführung der SX-4 Series Setzt Renaissance des PVP Markets fort Anwender wählen PVP, weil sie JETZT funktionieren SX Systeme machen PVP Technologie erschwinglich Bietet eine brauchbare, flexible Architektur Single Node Shared Memory Modell Multi Node Distributed Memory Modell European Supercomputer Systems 12 Spezifikationen Single Node Bis zu 128 GFLOPS aus 16 x 8 GFLOPS Prozessoren Bis zu 128 GBytes Shared Main Memory Multi Node Bis zu 4 TFLOPS Bis zu 32 Nodes über SX-5 IXS Bis zu 512 Processors Bis zu 4 Tbyte Hauptspeicher European Supercomputer Systems 13 CMOS VLSI Technologie 0.25 Micron mit 5 Layern Commodity, High Yield Geometry Wirtschaftliche Herstellung 64 Mbit SDRAM Memory Chips kostengünstige High-end Standardkomponenten Leistungsfähigkeit durch sehr hohe Bankzahl European Supercomputer Systems 14 Packaging Technologies Chip Size Package 25 mm sq 1600+ Pinouts 0.5 mm grid Multi Chip Package 225 mm sq 11,000+ Pinouts 32 Layers European Supercomputer Systems 15 Single Node Processor 16 units MASK MAX 16 CPUs MASK MAIN STORAGE LOGICAL MULT LOAD & STORE VR ADD/SHIFT DIVIDE CACHE SR XMU SCALAR EXECUTION UNIT IOP European Supercomputer Systems 16 Vector Einheit: Architektur Multiple parallele Vektor Pipelines 64 SX-4 kompatible Pipelines Add-Shift Multiply Logical Divide x 16 x 16 x 16 x 16 Jede Instruktion nutzt 16 Pipelines Automatische Hardware Parallelität Piplines arbeiten unabhängig voneinander European Supercomputer Systems 17 Pro Processor 8 GFLOPS Peak Vector 500 MFLOPS Peak Scalar Mehr als 2 X SX-4 Series skalaren Durchsatz • Weniger Konflikte der Skalareinheit • Extra Load Path • Double Issue Rate 64 GB / sec Speicherbandbreite European Supercomputer Systems 18 Memory Architecture Voller Non-blocking Crossbar Single Node 128 GB Kapazität 1 TB/s Bandbreite 1 CPU auf 2 MMU Einheiten • Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec • 64 Gbytes/second verfügbar für jede CPU Die höchste im Markt verfügbare Speicherleistung ! European Supercomputer Systems 19 Streams Benchmark TRIAD Streams Triad 1200000 1000000 1000924 800000 MB/s 600000 506896 400000 63592 200000 0 1270 1 2527.6 2 4657.6 4 #CPUs 8941.3 8 SX-5 194562 99343 50718 26117 13682 254768 127700 14995.9 16 T90 J90 (SX-5 Werte extrapoliert) European Supercomputer Systems 20 The Single Node IOP IOP SDRAM technology 32,768 64-bit banks 32 4-GB cards 32 GB/s per card 3.15 GB/s x 4 IOPs 16 x 8 GF Vector Processors 1 CPU : 2 MMU (64 GB/s) European Supercomputer Systems 21 Multi Node Spezifikationen Maximal 512 Prozessoren 16 Prozessoren per Node Maximum 32 Node Maximum Maximal 4 TB Hauptspeicher IXS Internode Crossbar 256 GB/s Gesamzbandbreite 8 GB/s Bandbreite Node zu Node European Supercomputer Systems 22 The Multi Node IXS Internode Crossbar Max.16 CPU CPU CPU .... CPU éÂãLâØ MM CPU CPU .... CPU éÂãLâØ MM IOP IOP IOP IOP MMIOP •••• Node #1 IOP IOP IOP •••• IOP MMIOP •••• Node #2 CPU CPU ....... .... CPU éÂãLâØ MM IOP IOP IOP •••• IOP MMIOP •••• Node #32 8 GB/s x 2 European Supercomputer Systems 23 Japanische Konzepte haben Zukunft * *Aber Effizienz ist ein Muß! European Supercomputer Systems 24