Lehrstuhl für Informatik 12 Cauerstraße 11 91058 Erlangen TECHNISCHE FAKULTÄT 1. Übung zur Vorlesung Parallele Systeme Aufgabe 1 (Performanz) Auf einem Prozessor mit einer Taktrate von 2,24 GHz soll ein aus 200000 Instruktionen bestehender Objekt-Code ausgeführt werden. Der Code besteht aus vier verschiedenen Instruktionstypen unterschiedlicher Häufigkeit und Ausführungszeit (CPI = Cycles per Instruction), wie in nachfolgender Tabelle angegeben. Instruktions-Typ arithmetisch/logisch laden/speichern mit Cache-Hit Verzweigung Speicherzugriff bei Cache-Miss CPI 1 2 4 8 Häufigkeit 60% 18% 12% 10% a) Welche Ausführungszeit benötigt das oben beschriebene Programm? b) Bestimmen Sie die MIPS-Rate des Prozessors. Aufgabe 2 (PRAM-Modell) Entwerfen Sie einen Algorithmus, um das Maximum von n ganzzahligen Werten in O(log n) Zeitschritten für ein EREW-PRAM Modell zu bestimmen. Nehmen Sie an, dass zur Initialisierung jeder zur Verfügung stehende Prozessor bereits einen Eingabewert geladen hat. 1 Aufgabe 3 (Klassifikation von Parallelrechnern) Unterscheiden Sie nachfolgende Architekturen gemäß in der Vorlesung vorgestellten Kriterien und klassifizieren Sie die Architekturen nach Flynns Schema. a) Der Tianhe-2 (“Milchstraße-2”) besteht aus 16000 Knoten, die jeweils zwei Intel XeonMehrkernprozessoren sowie drei Vielkernbeschleuniger des Typs Intel Xeon Phi beherbergen (siehe Abb. 1). 32 GB Proprietäres Highspeed-Netzwerk 16x PCIE Network Interface Chip 8 GB Gb-LAN Xeon (12 Kerne) 16x PCIE Xeon Phi Platform Controller Hub Intel QPI 8 GB Xeon Phi 8 GB Xeon Phi 16x PCIE 16x PCIE Xeon (12 Kerne) Steuerungschip 32 GB Überwachung, Steuerung Beschleuniger (jeweils 57 Kerne) Abbildung 1: Tianhe-2 Knoten Die 16000 Knoten sind in Form eines Fat Tree zusammengeschlossen (d.h. die Bandbreite der Verbindungen nimmt von unten nach oben zu; siehe Abb. 2). Top-Level Switches ··· 0 0 ··· ··· 124 3 0 ··· ··· ··· 125 Racks 3 ··· Abbildung 2: Tianhe-2 Netzwerk 2 500 Frames 16.000 Knoten b) Der Wavetracer Data Transport Computer besitzt 32768 1-Bit-Prozessorelemente, die mittels eines dreidimensionalen Kubus-Netzwerkes miteinander verbunden sind (Abb. 3). Jedes Prozessorelement beinhaltet 2 Kilobit lokalen Speicher. Die Operationensteuerung wird von einem AMD-RISC-Prozessor zentral durchgeführt. Knoten 2 Kilobit SRAM 1-Bit-Prozessor Über Kubusnetzwerk Externer RAM Abbildung 3: Wavetracer DTC c) Im Intel Paragon XP/S sind bis zu 1024 Knoten mittels eines 2D-Gitternetzwerks miteinander verbunden (Abb. 4). Jeder Knoten besteht aus 5 Mikroprozessoren des Typs Intel i860XP und lokalem Speicher, auf den nur innerhalb eines Knotens zugegriffen werden kann. I/O System Application I/O Application Processor 1 i860XP Cache Level 2 .. . .. . Application Processor 4 i860XP Cache Level 2 Message Processor i860XP Cache Level 2 Data Transfer Engine Network Interface Performance Monitor Abbildung 4: Intel Paragon XP/S 3 Memory 400 MB/s 50 MHz single cycle d) Die CRAY X/MP-4 besteht aus der Kopplung von vier Cray-1 Vektorprozessoren, die mittels explizit ausgewiesener Speicherbereiche miteinander kommunizieren (Abb. 5). Interprocessor Communication Real-time Clock Vector Unit Scalar Unit CPU 1 (CRAY-1) Address Unit Control Unit I/O Main Memory (32 Banks) CPU 2 (CRAY-1) CPU 4 (CRAY-1) Interface Peripherals Abbildung 5: CRAY X/MP-4 4