Slide 1 Vorlesung 2 • Architektur eines Prozessors • Systemaufbau

de 1
Vorlesung 2
( A ) PARALLELIT ÄT AUF B ITEBENE :
2. A RCHITEKTUR
VON
PARALLELRECHNERN
• Alle Bits der Wortbreite können potentiell parallel
verarbeitet werden
Z WEI B ETRACHTUNGSEBENEN :
• Entwicklung: 8 −→ 16 −→ 32 −→ 64 Bits
• Architektur eines Prozessors
• Systemaufbau aus mehreren Prozessoren
Slide 3
Wir werden sehen, daß auf beiden Ebenen
ähnliche Ansätze zur Parallelität benutzt werden.
• Moderne Hardware-Algortihmen für Addition,
Multiplikation, etc. sind Parallelalgorithmen
(wir werden diese hier nicht näher betrachten)
Moderne Rechner, sogar einzelne Mikroprozessoren,
kann/sollte man als parallele Systeme betrachten !
2.1. PARALLELIT ÄT
IN
• Die Weiterentwicklung ist vorläufig gestoppt, da 64 Bits
(vorerst) ausreichende Genauigkeit und
Adressraumgröße bieten
( B ) PARALLELIT ÄT DURCH P IPELINING : M OTIVATION :
M IKROPROZESSOREN
➀ Steigerung der Taktrate um ca. 30% p.a.
➜ Das Pipelining ist eine der grundlegenden Ideen/Paradigmen,
die auch im täglichen Leben reichlich benutzt wird
(z.B. von Henry Ford in der Autoindustrie eingeführt)
➁ Steigerung der Performance: ca. 55% – 75% p.a.
➜ Bearbeitung einer Instruktion besteht aus Schritten/Stufen, z.B.:
A KTUELLE S TEIGERUNGSRATEN :
➂ Aus 1.< 2. folgt, daß ausser der Taktrate noch weitere,
architektonische Faktoren zur Performance-Steigerung
beitragen.
de 2
Slide 4
•
•
•
•
F (fetch): das Laden der nächsten Instruktion
D (decode): das Dekodieren dieser Instruktion
E (execute): das Ausführen der Instruktion
W (write-back): das Schreiben des Resultates
V IER PARALLELIT ÄTSEBENEN IM P ROZESSOR :
F
➜ (a) Parallelität auf Bitebene
D
E
W
➜ (b) Parallelität durch Pipelining
➜ Üblicherweise führt der Prozessor die Stufen einer Instruktion
nacheinander (sequentiell) aus: F1 → D1 → E1 → W1
➜ (c) Parallelität durch mehrere Funktionseinheiten
➜ (d) Parallelität auf Prozeß- bzw. Thread-Ebene
➜ Auch ein und dieselbe Stufe verschiedener Instruktionen
ist häufig nur sequentiell ausführbar: E1 → E2 → E3 → E4
werden im Folgenden einzeln kurz besprochen.
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
1
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
2
P IPELINING : D IE I DEE
F4
D4
E4
F3
D3
E3
W3
F2
D2
E2
W2
D1
E1
W1
4
3
2
1
F1
DURCH MEHRERE
F UNKTIONSEINHEITEN
➜ Abkürzung FU = Functional Unit
➜ ALUs, FPUs, etc. können parallel zueinander arbeiten
➜ Zwei Prozessorarten, die mehrere FUs benutzen:
➀ VLIW-Prozessoren (z.B. IA 64)
• Beim Übersetzen wird Maschinencode erzeugt, der die
zeitliche Verteilung von Instruktionen auf FUs angibt
• Das ist statisches Scheduling, d.h. vor der Ausführung,
im Gegensatz zum Scheduling zur Laufzeit (dynamisch)
• Die Instruktionsworte werden dadurch lang
=⇒ Very Long Instruction Word = VLIW
Instruktionen
de 5
de 6
( C ) PARALLELIT ÄT
➜ Möglichkeit der Parallelität: gleichzeitig unterschiedliche Stufen
mehrerer Instruktionen, z.B.: W1 || E2 || D3 || F4
➜ Dies erreicht man durch
Pipelining ≈ verzahnt-parallele Ausführung, z.B. wie folgt:
Slide 7
W4
➁ Superscalare Prozessoren (z.B. Pentium)
• Teile des Maschinencodes werden per Hardware während
der Ausführung zur Laufzeit den FUs zugeteilt
• D.h. dynamisches Scheduling durch Analyse der
bestehenden Datenabhängigkeiten!
➜ Moderne Prozessoren: 2 bis 6 gleichzeitige Instruktionen
Zeit
4 Instruktionen brauchen anstatt 4*4=16 lediglich 7 Zeitschritte
S UPERSCALARE P ROZESSOREN UND I NSTRUKTIONSFENSTER
P IPELINING : B EOBACHTUNGEN
➜ Dynamisches Scheduling kostet viel Overhead (Chipfläche),
trotzdem werden z.Zt. superscalare Prozessoren bevorzugt
➜ Der Speedup wächst mit der Anzahl der Instruktionen
➜ Pipelining ist effizient, wenn verschiedene Pipelinestufen
etwa gleich lange dauern
➜ Kosten vs. Nutzen: bei ca. 4 absetzbaren Instruktionen
ist die Grenze in etwa erreicht (z.B. in Pentium maximal 3)
➜ Die Anzahl der Stufen (in der Praxis: zwischen 2 und 20)
bestimmt den Parallelitätsgrad
Slide 8
➜ Prozessoren mit vielen Stufen heißen super-pipelined.
➜ Grenzen für die Stufenanzahl/Parallelitätsgrad:
➜ Korrektheit: Die (funktionale) Semantik des Programms darf
durch die parallele Abarbeitung nicht geändert werden
• Instruktionen nicht beliebig in gleich große Stufen zerlegbar
• Datenabhängigkeiten zwischen Instruktionen
➜ Dies wird vom reorder buffer garantiert: die Ergebnisse werden
erst dann in die Register geschrieben, wenn alle vorherige
Instruktionen ihre Ergebnisse reingeschrieben haben.
• ... und viele andere
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
➜ Dekodierte Instruktionen werden im sog. Instruktionsfenster
abgelegt und, sobald Operanden verfügbar sind, an FU
weitergegeben (dispatch)
3
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
4
de 9
e 10
( D ) PARALLELIT ÄT
AUF
P ROZESS -
BZW.
K LASSIFIZIERUNG
T HREADEBENE
NACH
M. F LYNN [1972]
➜
➜
➜
➜
➜ Bisher sind wir immer von einem Kontrollfluß ausgegangen
➜ Zusätzliche Möglichkeit: Erhöhung des Parallelitätsgrades
durch mehrere Kontrollflüsse
➜ Heutzutage auf Prozessorebene noch selten benutzt,
ist Gegenstand aktueller Forschung & Entwicklung
➜ Einschlägige Techniken aus der Parallelprogrammierung (siehe
später) und werden zunehmend in einzelnen Prozessoren
eingesetzt, z.B. HTT - Hyper-Threading Technology von Intel
Slide 11
➜ Siehe “Multithreading” in späteren Kapiteln
Eine der ersten Klassifizierungen überhaupt
Vorteil: sehr einfach
Ist immer noch die meistbenutzte
Klassifiziert wird nach zwei Merkmalen:
➀ I ( Instruction): Organisation des Kontrollflusses
➁ D ( Data): Organisation des Datenflusses
➜ Jedes Merkmal kann einen der zwei Werte annehmen:
➀ S: für Single
➁ M: für Multiple
➜ Somit erhält man 4 mögliche Kombinationen:
Instruction
Data
Drei allgemeine Informatik-Aspekte spielen hier eine Rolle:
➜ Statisch vs. Dynamisch (zur Compile- vs. zur Laufzeit)
S
M
S
SISD
MISD
M
SIMD
MIMD
➜ Nutzen/Optimierung vs. Kosten/Overhead
➜ Korrektheit: Semantik-erhaltende Transformationen
2.2. K LASSIFIZIERUNG
VON
PARALLELRECHNERN
Wir widmen uns nun dem Aufbau von Parallelrechnern
durch das Verbinden mehrerer Prozessoren
F LYNNSCHE K LASSIFIKATION : SISD
Eine (noch intuitive und vage) Definition:
Ein Verarbeitungsschritt besteht aus:
➜ Laden einer Instruktion aus dem Programmspeicher
Ein Parallelrechner ist eine Ansammlung von Recheneinheiten (Prozessoren), die durch koordinierte Zusammenarbeit komplexe Anwendungen schneller lösen können
➜ Laden angesprochener Daten aus dem Datenspeicher
Slide 12
➜ Anwendung der Instruktion auf die Daten
➜ Zurückspeichern des Resultates
Viele Details in dieser Definition bleiben offen:
➜
➜
➜
➜
Anzahl und Komplexität der Recheneinheiten
Struktur der Verbindungen zwischen den Prozessoren
Art der Koordination
... und vieles mehr
Datenspeicher
Prozessor
Programmspeicher
SISD ≈ Klassisches Von-Neumann-Rechnermodell
Diese Details werden durch Klassifizierungen festgelegt
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
5
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
6
F LYNNSCHE K LASSIFIKATION : MIMD
F LYNNSCHE K LASSIFIKATION : MISD
Ein Verarbeitungsschritt besteht aus:
Ein Verarbeitungsschritt besteht aus:
➜ Laden einer Instruktion aus eigenem Programmspeicher
➜ Laden separater Daten
➜ Asynchrone Abarbeitung der jeweiligen Instruktionen
➜ Laden einer Instruktion aus eigenem Programmspeicher
➜ Laden derselben Daten aus dem Datenspeicher
➜ Anwendung verschiedener Instruktionen auf dasselbe Datum
e 13
Prozessor 1
Programmspeicher 1
.
.
.
.
.
.
Prozessor n
Programmspeicher n
Datenspeicher
Slide 15
Daten
speicher
F LYNNSCHE K LASSIFIKATION : SIMD
Slide 16
Programmspeicher
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
VS .
MIMD
➜ Streng synchrone Abarbeitung bremst die Geschwindigkeit
⇒ Statement if (b==0) c=a; else c=a/b;
benötigt zur Ausführung zwei Schritte:
(1) Ein Teil der Prozessoren berechnet c=a;
(2) Anderer Teil berechnet c=a/b.
Beachte: Da SIMD-Systeme z.Zt. keine wichtige Rolle spielen,
konzentriert sich diese Vorlesung auf MIMD-Architekturen
Mehrere realisierte SIMD-Rechner: z.B. Connection Machine
(bis ca. 65K Prozessoren), MasPar, etc. bis zur Mitte der 90er
BY
Programmspeicher n
➜ SIMD-Rechner benötigen spezialisierte Prozessoren
Prozessor n
c
2006
Prozessor n
• Nachteile SIMD:
Prozessor 1
speicher
..
.
• Vorteil SIMD: nur ein Kontrollfluß
=⇒ einfach zu programmieren, da alle Prozessoren
gleichzeitig nur ein Kommando ausführen
(oder setzen durch Maskierung aus)
➜ Laden derselben Instruktion aus (globalem) Programmspeicher
➜ Laden separater Daten aus (gemeinsamem oder verteiltem)
Datenspeicher
➜ Synchrone Ausführung der Instruktion auf allen Daten
➜ Beispielanwendung: Seismologie
.
..
..
.
V ERGLEICH : SIMD
Verarbeitungsschritt:
Daten
Programmspeicher 1
MIMD ist das z.Zt. populärste Parallelrechnermodell.
Die meisten Parallelrechner sind MIMD-Architekturen,
bzw. Hybride, z.B.: MIMD-Maschinen mit SIMD-Knoten
Keine der gegenwärtigen Architekturen entspricht genau
dem MISD-Modell ⇒ bisher keine praktische Bedeutung
e 14
Prozessor 1
7
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
8
e 17
K LASSIFIKATION
O RGANISATION
NACH DER
DES
S PEICHERS
R ECHNER
➀ Physisch (aus der Sicht des Systemarchitekten) :
MIT PHYSISCH VER TEILTEM
S PEICHER II
P ROGRAMMIERMODELL :
Parallele und verteilte
MIMD-Rechnersysteme
➜ Entspricht dem physischen Aufbau
➜ Expliziter Nachrichtenaustausch (message passing)
über das Verbindungsnetzwerk
➜ Komplementäre Sende- und Empfangsbefehle (Send – Receive)
Rechner mit
virtuell (durch Hardware)
gemeinsamem Speicher
Multicomputer
Speicher ist
physisch verteilt
Multiprozessoren
Speicher ist
physisch gemeinsam
Slide 19
• Sendebefehl: PA sendet Nachricht m an PB
• Empfangsbefehl: PB empfängt Nachricht von PA in Puffer b
und bearbeitet den Puffer anschließend
H ERAUSFORDERUNG F ÜR P ROGRAMMIERER :
➁ Logisch (aus der Sicht des Programmierers) :
➜ verteilter Adreßraum
➜ gemeinsamer Adreßraum
Das Programmieren vom expliziten Nachrichtenaustausch
ist aufwendig und fehleranfällig, insb. müssen einzelne Sendeund Empfangsbefehle aufeinander abgestimmt werden
Physische und logische Sicht sind zueinander orthogonal !
R ECHNER
MIT PHYSISCH VER TEILTEM
S PEICHER I
H ISTORISCHE E NTWICKLUNG
AUFBAU :
VON VER TEILTEM
S PEICHER I
P UNKT- ZU -P UNKT V ERBINDUNG ( IN ERSTEN PARALLELRECHNERN ):
➜ Mehrere Recheneinheiten (Knoten) bestehend aus:
Prozessor, lokalem bzw. privatem Speicher, I/O
➜ Verbindungsnetzwerk, das die Knoten durch
physische Leitungen verbindet
Verbindungsnetzwerk
e 18
Slide 20
P = Prozessor
➜ Ein Knoten ist mit einer festen Menge von anderen Knoten
durch physische Leitungen (Links) verbunden
➜ Kommunikation nur mit direkten Nachbarn, entfernte
Kommunikation durch die Nachbar-Verbindungen realisiert
➜ Gleichzeitiges Senden und Empfangen evtl. möglich
➜ Die Kommunikation wird vom Programmierer explizit organisiert
M = lokaler Speicher
P
P
M
M
...
P
Computer with distributed memory
and a hypercube network
M
DATENSPEICHERUNG :
➜ Speicherung und direkter Zugriff auf lokalen Speicher
➜ Zugriff auf Speicher anderer Knoten nur über das Netzwerk
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
9
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
10
E NTWICKLUNG
VON VER TEILTEM
S PEICHER II: DMA-C ONTROLLER
R ECHNER
➜ DMA = direct memory access
➜ Direkter Datentransfer zwischen lokalem Speicher
und I/O-Anschluß: entkoppelt Kommunikation vom Prozessor
➜ Kommunikation zwischen Nachbar-Knoten ist nicht-blockierend:
➜ mehrere Prozessoren
➜ gemeinsamer bzw. globaler Speicher,
evtl. in Speichermodulen aufgeteilt, siehe b)
➜ Verbindungsnetzwerk, das die Prozessoren und gemeinsamen
Speicher verbindet
Slide 23
➜ Entfernte Kommunikation wird durch Software über
Nachbar-Links aufgebaut und dauert relativ lange
a)
b)
P
. . .
P
.. .
M
P
E NTWICKLUNG
DMA
M
M
VON VER TEILTEM
P
Gemeinsamer Speicher
S PEICHER III: H ARDWARE -R OUTER
R ECHNER
➜ Entfernte Kommunikation wird von Routern (einer pro Knoten)
realisiert, was die Zwischenknoten zusätzlich entlastet
MIT PHYSISCH GEMEINSAMEM
. . .
M
Speichermodule
S PEICHER II
P ROGRAMMIERMODELL :
➜ Folge: Entfernungen im Netzerk spielen immer geringere Rolle
➜ Gemeinsame Variablen (shared variables)
➜ Router und Leitungen bilden das eigentliche Netzwerk
➜ Verwendung von Multithreading: mehrere leichtgewichtige
Prozesse arbeiten gleichzeitig (mehr dazu später)
➜ Aufgaben des Routers: Pipelining von Nachrichten,
Vermeidung von Konflikten und Verklemmungen im Netz
➜ So werden hierarchische Systeme (Cluster ) aufgebaut
e 22
P
Verbindungsnetzwerk
Verbindungsnetzwerk
DMA
. . .
P
Parallelrechner mit
DMA−Verbindungen zum Netzwerk
Verbindungsnetzwerk
S PEICHER I
AUFBAU :
• Sender initiiert die Kommunikation (und arbeitet weiter)
• Die Nachricht wird vom DMA im Empfänger gepuffert
• Empfänger entnimmt die Nachricht aus dem Puffer
e 21
MIT PHYSISCH GEMEINSAMEM
Slide 24
➜ Prozessoren greifen auf gemeinsamen Speicher zu
⇒ Lese- und Schreibkonflikte möglich
B EWER TUNG :
N
N
R
R
N
R
R = Router
R
N = Knoten bestehend aus
Prozessor und
lokalem Speicher
N
N
N
R
R
c
2006
R
N
R
BY
P
N
N
R
..
+ relativ einfache Programmierung (Diskussionsfrage, da Konflikte
und Synchronisierungsprobleme möglich)
M
...
...
Router
externe
Eingabekanaele
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
+ gute Speicherausnutzung: keine Datenreplizierung nötig
..
.
– Speicherzugriffe aller Prozessoren erfolgen über ein Netzwerk:
⇒ hohe Hardware-Anforderung
⇒ Skalierbarkeit/Erweiterbarkeit des Systems problematisch
externe
Ausgabekanaele
11
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
12
SMP –
SYMMETRISCHE
R ECHNER
AUFBAU :
➜ Speicherzugriff über einen Bus (potentieller Flaschenhals)
➜ Kein zusätzlicher privater Speicher, evtl. Prozessor-Caches
P1
P2
. . .
S PEICHER
MIT VIR TUELL GEMEINSAMEM
➜ Physisch: verteilter Speicher, i.d.R. hierarchisch
➜ Logisch: gemeinsamer Adreßraum durch Kohärenzprotokolle
(mehr dazu später)
➜ Unterschiedliche Speicherzugriffszeiten
in Abhängigkeit von der Speicheradresse
➜ Bezeichnung: NUMA-Maschinen = Non-Uniform Memory Access
Symmetrisch bedeutet:
Alle Prozessoren haben gleiche Funktionalität und gleiche
Sicht auf den Gesamtspeicher, insb. gleiche Zugriffsdauer
e 25
e 26
M ULTIPROZESSOREN I
Slide 27
p
P3
p
1
...
2
p
n
schnell
M1
Cache
M2
Mn
Cache
Cache
langsam
Bus
Verbindungsnetzwerk
Speicher
SMP –
SYMMETRISCHE
M ULTIPROZESSOREN II
M ETHODEN
• Quasi Industrie-Standard seit mehr als 20 Jahren
für Hochleistungsserver, z.B. bei Großbanken.
Slide 28
• Werden auch als UMA-Maschinen bezeichnet
UMA = Uniform Memory Access
• Beispiele: SUN Enterprise und SGI Challenge Systeme
• Relativ niedrige Anzahl von Prozessoren wegen
Skalierbarkeit (Flaschenhals s.o.!), i.d.R.: bis 30-60
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
R EDUKTION
DER
S PEICHERZUGRIFFSZEITEN
➜ Multithreading:
jeder physische Prozessor simuliert eine feste Anzahl
von virtuellen Prozessoren (abwechselnd)
⇒ verbirgt die Latenz der Speicherzugriffe
E INSATZ VON SMP S :
c
2006
ZUR
➜ Cache:
kleiner, sehr schneller Speicher zwischen Prozessor und
Hauptspeicher; mehr dazu nächste Vorlesung
⇒ Reduktion der transportierten Daten durch Speicherung
häufig genutzter Daten im Cache
➜ Beachte: Cache 6= Cash :–)
es wird jedoch manchmal Zeichen $ für Cache verwendet.
13
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
14
CC-NUMA
WAS
HABEN WIR HEUTE GELERNT
➜ CC-NUMA – Cache-Coherent NUMA (siehe Bild)
➜ Bereits im Prozessor gibt es 4 Ebenen der Parallelität
➜ Der Cache kann Daten aus lokalem und aus virtuell
gemeinsamem Speicher aufnehmen
➜ Viele Ideen (Pipelining, Multithreading, etc.) sind an mehreren
Ebenen der Parallelität einsetzbar
➜ Die “Richtigkeit” von Daten (Cache-Kohärenz) wird von
Hardware gewährleistet
➜ Moderne Prozessoren sind i.d.R. super-pipelined, sowie
superscalar oder VLIW
➜ Beispiele: Convex Exemplar, SGI Origin 2000, Cray T3E
Slide 31
e 29
P1
P2
C1
C2
...
Pn
➜ Speicher kann gemeinsam, verteilt oder virtuell gemeinsam sein
Cn
➜ DMA und Router befreien den Programmierer von expliziter
Kommunikations-Organisation
M2
M1
➜ Beim (virtuell) gemeinsamen Speicher spielt die Daten-Kohärenz
eine entscheidende Rolle
Mn
Verbindungsnetzwerk
NC-NUMA
UND
➜ Flynnsche Klassifizierung unterscheidet 4 Architekturklassen: SISD,
MISD, SIMD, MIMD
Nächste Vorlesungen: Caches, Kohärenz, Konsistenz, etc.
COMA
➜ NC-NUMA = Non-Coherent NUMA:
Hardware gewährleistet keine Kohärenz, deshalb enthält der
Cache nur Daten der lokalen Speicher oder Variablen, die nur
gelesen werden können
➜ Beispiel: Cray T3D – Vorgänger von Cray T3E
➜ COMA = Cache Only Memory Access (z.B. KSR 1/2):
der ganze Speicher besteht aus individuellen Caches
e 30
Prozessor
P1
P2
Cache
C1
C2
. . .
Pn
Cn
Verbindungsnetzwerk
➜ Dynamische Speicherzuordnung, hoher Hardwareaufwand
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
15
c
2006
BY
S ERGEI G ORLATCH · U NI M ÜNSTER · PARALLELE S YSTEME · VORLESUNG 2
16