Kein Folientitel

Werbung
Skalierbare Rechnerarchitekturen für ein DWH:
Eine vergleichende Analyse
Dr. Klaus Ruhlig
Technology & Product
Consulting
Sun Microsystems, München
Agenda
●
●
●
●
●
●
Warum Skalierbarkeit?
Was bedeutet Skalierbarkeit?
Skalierbarkeit bei Data Warehouses
Rechnerarchitekturen: Cluster/SMP
Beispiele für Rechnerarchitekturen
TPC-H Ergebnisse
Warum Skalierbarkeit?
●
●
Die Skalierbarkeit eines Data
Warehouses ist notwendig, um einen
Wachstumspfad für größere
Datenmengen und komplexere
Anfragen zu besitzen.
Ein System, das gut skaliert, hält keine
Überaschungen bereit, wenn das
System oder die Arbeitslast wächst. Es
besitzt ein vorhersehbares Verhalten.
Was bedeutet Skalierbarkeit?
Drei Arbeiter
bearbeiten neun
Bleche in vier
Zeiteinheiten
Drei Arbeiter
bearbeiten neun
Bleche in drei
Zeiteinheiten:
Optimale Skalierung!
Skalierbarkeit hängt davon an, wie optimal die Aufgabe
zur parallelen Bearbeitung aufgeteilt werden können!
Skalierbarkeit
➔
➔
Die Skalierbarkeit eines Systems ist
bestimmt dadurch, wie schnell und
gleichmäßig es Ungleichverteilungen
der Aufgaben beheben kann.
Die Skalierbarkeit einer
Rechnerarchitektur ist abhängig von der
Geschwindigkeit und der Symmetrie
des System-Interconnects.
Beispiel: SQL-Abfrage
SELECT * FROM TabelleA ORDER BY
Spalte2
1. Paralleler Full Table Scan, Daten sind
noch unsortiert
2. Paralleles Sortieren bzgl. der Einträge
in Spalte2
3. Zusammenführen der sortierten Daten
Scannen und Sortieren
Kommunikation
über den
SystemInterconnect!
Die unsortierten Zeilen müssen bzgl. der
Häufigkeit der einzelnen Schlüsseldaten
auf die Sortierprozesse verteilt werden!
Data Warehouse
➔
➔
Neuverteilungen von Daten sind die
Regel bei Ad-Hoc SQL-Abfragen im
Data Warehouse Umfeld, da es dann
nicht möglich ist, das Datenlayout der
Datenbank hierfür zu optimieren.
Die Güte des System-Interconnects ist
sehr wichtig für die Skalierbarkeit einer
Rechner-architektur für Data Warehouse
Anwen-dungen!
Rechnerarchitekturen: Cluster
lokale
Festplatten
unabhängige
Prozessor/
Speicher-Knoten
●
●
relativ langsamer Interconnect < 1
GB/sec
jeder Knoten besitzt sein eigenes
Betriebssystem
Symmetrischer Multiprozessor
(SMP)
Shared Disks
mehrere
Prozessoren
teilen sich
symmetrisch
Speicher bzw.
I/O
●
Schneller Interconnect >> 1 GB/s
●
Ein Betriebssystem für alle Prozessoren
Teradata WorldMark 5250
●
BYNET-Bandbreite: 120 MB/s pro Port
●
1.92 GB/s Bisection-Bandbreite bei 512
IBM RS/6000 SP
System mit
zwei Switches
für 32 Knoten
(bis zu 16
Prozessoren
pro Knoten, bis
zu 128
Knoten):
●
300 MB/s pro Port (1 GB/s bei Switch2)
●
4.7 GB/s Bandbreite (16 GB/s bei
IBM p690 (32 Prozessorkerne)
●
viermal 5.08 GB/s=20.32 GB/s Bandbreite
●
asymmetrisch: 1-3 Interconnect-Stufen
HP Superdome (64 CPUs)
●
8 GB/s pro Port
●
asymmetrisch: zwei Switch-Stufen
Sun Fire 15K (72 CPUs)
Bis zu 18
System- und
I/O-Boards
●
43.2 GB/s Bisection-Bandbreite
●
4.8 GB/s pro System-Board
Sun Fire 15K
●
Höchste Symmetrie durch einstufigen
Inter-connect: gleiche Anbindung bei 1-18
Boards!
Effizienzvergleich der
verschiedenen Architekturen
mit Hilfe des TPC-H
Benchmarks
●
TPC-H: Decision Support Benchmark für
Datenbankgrößen von 100-3000 GB:
Dabei werden die Zeiten für Ad-HocQueries gemessen, so daß es kein
Vorwissen bzgl. der Anfragen gibt,
welches zur Optimierung der Datenbank
genutzt werden könnte.
Verglichene Systeme
●
●
●
●
Sun Fire 15K: 72 UltraSparc III Cu 900
(1050) MHz Prozessoren, 288 GB, Oracle
9i (R2), Solaris 8 (9)
Teradata Worldmark 5250: 128 Intel
Pentium III Xeon 700 MHz Prozessoren,
64 GB, Terradata V2R4.1, MP-RAS
IBM RS/6000 SP 550: 128 IBM Power III
375 MHz Prozessoren, 128 GB, DB2 UDB
7.1, AIX
HP 9000 Superdome: 64 HP PA-RISC
8600 552 MHz Prozessoren, 128 GB,
Verglichene Systeme
●
●
IBM p690: noch keine Resultate
Compaq ProLiant DL760 X900-128P:
32 Knoten zu je vier 900 MHz Pentium
III Xeon Prozessoren und 4 GB
Speicher, verbunden mit einem 32-Port
Gigabit Ethernet Switch, IBM DB2 UDB
7.2, Windows 2000 Server
TPC-H Ergebnisse für 1 TB
QphH@1000GB
Sun
Teradata
Compaq
HP
IBM
0
5000
10000
15000
20000
25000
Gesamtprozessorleistung der
Systeme
Anzahl der Prozessoren * SPECint2000 [SPECint2000]
Sun
Teradata
Compaq
HP
IBM
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
55000
Normierte TPC-H Ergebnisse für 1
TBQphH@1000GB/ Gesamtprozessorleistung [QphH/ SPECint2000]
Sun
Teradata
85 %
Compaq
HP
79
%
91 %
IBM
73 %
0
0.1
0.2
0.3
0.4
0.5
Die Sun Fire 15K besitzt die höchste
Effizienz!
0.6
TPC-H Ergebnisse für 3 TB
QphH@3000
Sun
Teradata
Compaq
0
5000
10000
15000
20000
25000
Normierte TPC-H Ergebnisse für
3 TB
QphH@3000/Gesamtprozessorleistung [QphH/SPECint2000]
Sun Fire 15K
Teradata
Worldmark
5250
78
%
67
%
Compaq
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Weitere Informationen
●
●
●
●
Transaction Processing Performance
Council: www.tpc.org
Standard Performance Evaluation
Corporation www.spec.org
“Scalable Computer Architectures for
Data Warehousing” von Mark Sweiger
“Data Warehousing Performance with
SMP, Cluster, and MPP Architectures”,
Sun Whitepaper
Dr. Klaus Ruhlig
[email protected]
Herunterladen