Version 2.2b November 2009 Performance Report PRIMERGY RX600 S4 Seiten 49 Abstract In diesem Dokument sind alle Benchmarks, die für die PRIMERGY RX600 S4 durchgeführt wurden, zusammengefasst. Ferner werden die Leistungsdaten der PRIMERGY RX600 S4 mit denen anderer PRIMERGY Modelle verglichen und diskutiert. Neben den Benchmark-Ergebnissen als solchen wird jeder Benchmark und die Umgebung, in der der Benchmark durchgeführt wurde, kurz erläutert. Inhalt Technische Daten ...................................................................................................................................................2 SPECcpu2006.........................................................................................................................................................3 SPECjbb2005........................................................................................................................................................10 SPECweb2005 ......................................................................................................................................................16 StorageBench .......................................................................................................................................................21 OLTP-2..................................................................................................................................................................26 TPC-E ...................................................................................................................................................................29 SAP SD .................................................................................................................................................................33 Terminal Server .....................................................................................................................................................37 vServCon ..............................................................................................................................................................43 Literatur .................................................................................................................................................................48 Kontakt ..................................................................................................................................................................49 White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Technische Daten Die PRIMERGY RX600 S4 ist ein mit nur 4 Höheneinheiten besonders Platz sparender 4-Socket Rack Server mit Intel 7300 Chipsatz, Intel Xeon Prozessoren, 4-way interleaved registered enhanced ECC PC2-5300F DDR2-SDRAM, einem mit 1067 MHz getakteten Front-Side-Bus, einem 8-Port SAS RAID-Controller mit 512 MB Cache, zwei dual GBit Ethernet-Controllern und acht PCI-Steckplätzen (4 PCI-Express x8, 4 PCI-Express x4). Sie besitzt 8 Laufwerkseinschübe für SAS-Festplatten. Detaillierte technische Informationen finden Sie im Datenblatt PRIMERGY RX600 S4. © Fujitsu Technology Solutions 2009 Seite 2 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 SPECcpu2006 Benchmark-Beschreibung SPECcpu2006 ist ein Benchmark, der die Systemeffizienz bei Integer- und Fließkomma-Operationen misst. Er besteht aus einer Integer-Testsuite (SPECint2006), die 12 Applikationen enthält, und einer Fließkomma-Testsuite (SPECfp2006), die 17 Applikationen enthält. Beide Testsuiten sind extrem rechenintensiv und konzentrieren sich auf die CPU und den Speicher. Andere Komponenten, wie Disk-I/O und Netzwerk, werden von diesem Benchmark nicht vermessen. SPECcpu2006 ist nicht an ein spezielles Betriebssystem gebunden. Der Benchmark ist als Source-Code verfügbar und wird vor der eigentlichen Messung kompiliert. Daher beeinflussen auch die verwendete Compiler-Version und deren Optimierungseinstellungen das Messergebnis. SPECcpu2006 beinhaltet zwei verschiedene Methoden der Performance-Messung: Die erste Methode (SPECint2006 bzw. SPECfp2006) ermittelt die Zeit, die für die Bearbeitung einer einzelnen Aufgabe benötigt wird. Die zweite Methode (SPECint_rate2006 bzw. SPECfp_rate2006) ermittelt den Durchsatz, d.h. wie viele Aufgaben parallel erledigt werden können. Beide Methoden werden zusätzlich noch in zwei Messläufe unterteilt, „base“ und „peak“, die sich in der Verwendung der Compiler-Optimierung unterscheiden. Bei der Publikation von Ergebnissen werden immer „base“-Werte verwendet, „peak“-Werte sind optional. Benchmark SPECint2006 SPECint_base2006 SPECint_rate2006 SPECint_rate_base2006 SPECfp2006 SPECfp_base2006 SPECfp_rate2006 SPECfp_rate_base2006 Arithmetik Typ Integer Integer Integer Integer Fließkomma Fließkomma Fließkomma Fließkomma peak base peak base peak base peak base CompilerOptimierung aggressiv konservativ aggressiv konservativ aggressiv konservativ aggressiv konservativ Messergebnis Anwendung Geschwindigkeit Singlethreaded Durchsatz Multithreaded Geschwindigkeit Singlethreaded Durchsatz Multithreaded Bei den Messergebnissen handelt es sich um das geometrische Mittel aus normalisierten Verhältniswerten, die für die Einzel-Benchmarks ermittelt wurden. Das geometrische Mittel führt gegenüber dem arithmetischen Mittel dazu, dass bei unterschiedlich hohen Einzelergebnissen eine Gewichtung zugunsten der niedrigeren Einzelergebnisse erfolgt. Normalisiert heißt, dass gemessen wird, wie schnell das Testsystem verglichen mit einem Referenzsystem ist. Der Wert „1“ wurde für die SPECint_base2006-, SPECint_rate_base2006, SPECfp_base2006 und SPECfp_rate_base2006Ergebnisse des Referenzsystems festgelegt. So bedeutet beispielsweise ein SPECint_base2006-Wert von 2, dass das Messsystem diesen Benchmark etwa doppelt so schnell wie das Referenzsystem bewältigt hat. Ein SPECfp_rate_base2006-Wert von 4 bedeutet, dass das Messsystem diesen Benchmark etwa 4/[# base copies] mal so schnell wie das Referenzsystem bewältigt hat. „# base copies“ gibt hierbei an, wie viele parallele Instanzen des Benchmarks ausgeführt worden sind. Nicht alle SPECcpu2006-Messungen werden von uns zur Veröffentlichung bei SPEC eingereicht. Daher erscheinen auch nicht alle Ergebnisse auf den Web-Seiten von SPEC. Da wir für alle Messungen die Protokolldateien archivieren, können wir jederzeit den Nachweis für die korrekte Durchführung der Messungen erbringen. Benchmark-Ergebnisse Die PRIMERGY RX600 S4 wurde mit zwei verschiedenen Prozessorvarianten der Xeon-Reihe vermessen: Xeon E7220, E7310, E7330 und X7350 (Tigerton) Xeon E7430, L7445, E7450 und X7460 (Dunnington) Die Ergebnisse der Tigerton-Prozessoren basieren auf Messungen, bei denen die SPECcpu-Benchmark-Programme mit dem Intel C++/Fortran-Compiler 10.1 kompiliert und unter SUSE Linux Enterprise Server 10 SP1 (64-bit) ausgeführt wurden. Für die Dunnington-Prozessoren wurden die SPECcpu-Benchmark-Programme mit dem Intel C++/FortranCompiler 11.0 kompiliert und unter SUSE Linux Enterprise Server 10 SP2 (64-bit) ausgeführt. SPEC®, SPECint®, SPECfp® und das SPEC-Logo sind eingetragene Warenzeichen der Standard Performance Evaluation Corporation (SPEC). © Fujitsu Technology Solutions 2009 Seite 3 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die in den beiden folgenden Tabellen fett gedruckten Ergebnisse sind veröffentlicht bei http://www.spec.org. Prozessor Xeon E7220 Xeon E7310 Xeon E7330 Xeon X7350 Xeon E7430 Xeon L7445 Xeon E7450 Xeon X7460 Cores 2 4 4 4 4 4 6 6 GHz 2.93 1.60 2.40 2.93 2.13 2.13 2.40 2.67 L2-Cache 4 MB pro Core 4 MB pro Chip 6 MB pro Chip 8 MB pro Chip 6 MB pro Chip 6 MB pro Chip 9 MB pro Chip 9 MB pro Chip L3-Cache TDP n/a n/a n/a n/a 12 MB pro Chip 12 MB pro Chip 12 MB pro Chip 16 MB pro Chip 80 Watt 80 Watt 80 Watt 130 Watt 90 Watt 50 Watt 90 Watt 130 Watt SPECint_rate_base2006 2 Chips 4 Chips 62.0 119 63.6 115 85.1 151 99.0 175 n/a 180 n/a 179 n/a 235 144 269 SPECint_rate2006 2 Chips 4 Chips 74.8 142 70.3 126 94.9 177 112 210 n/a 194 n/a 194 n/a 252 159 291 Die SPECint_rate_2006-Ergebnisse der Tigerton-Prozessoren liegen 10-21%, die der Dunnington-Prozessoren 7-10% über den SPECint_rate_base2006-Ergebnissen. Prozessor Xeon E7220 Xeon E7310 Xeon E7330 Xeon X7350 Xeon E7430 Xeon L7445 Xeon E7450 Xeon X7460 Cores 2 4 4 4 4 4 6 6 GHz 2.93 1.60 2.40 2.93 2.13 2.13 2.40 2.67 L2-Cache 4 MB pro Core 4 MB pro Chip 6 MB pro Chip 8 MB pro Chip 6 MB pro Chip 6 MB pro Chip 9 MB pro Chip 9 MB pro Chip © Fujitsu Technology Solutions 2009 L3-Cache TDP n/a n/a n/a n/a 12 MB pro Chip 12 MB pro Chip 12 MB pro Chip 16 MB pro Chip 80 Watt 80 Watt 80 Watt 130 Watt 90 Watt 50 Watt 90 Watt 130 Watt SPECfp_rate_base2006 2 Chips 4 Chips 44.4 82.3 45.4 82.3 55.2 97.6 60.6 107 n/a 110 n/a 110 n/a 130 73.7 142 SPECfp_rate2006 2 Chips 4 Chips 47.8 88.4 48.0 87.3 58.4 104 64.3 117 n/a 116 n/a 116 n/a 139 81.2 156 Seite 4 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die SPECfp_rate_2006-Ergebnisse der Tigerton-Prozessoren liegen 6-9%, die der Dunnington-Prozessoren 5-10% über den SPECfp_rate_base2006-Ergebnissen. Mit dem Xeon X7460 Prozessor wurden Vergleichsmessungen vorgenommen, die den Einfluss von Compiler-Versionen auf den Durchsatz des Servers verdeutlichen. Für die Komplierung der Benchmark-Programme wurden die Versionen 10.1 und 11.0 des Intel C++/Fortran-Compilers verwendet. Die Messungen erfolgten in identischer Hard- und SoftwareUmgebung. Die Messungen zeigten, dass die Wahl des Compilers für die Benchmark-Ergebnisse von erheblicher Bedeutung sind. © Fujitsu Technology Solutions 2009 Seite 5 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Im August 2008 wurde die PRIMERGY RX600 S4 mit vier Xeon X7460 Prozessoren vermessen. Die SPECcpuBenchmark-Programme wurden mit dem Intel C++/FortranCompiler 10.1 kompiliert und unter SUSE Linux Enterprise Server 10 SP2 (64-bit) ausgeführt. Die PRIMERGY RX600 S4 erzielte sowohl das beste SPECint_rate_base2006-Ergebnis1 2 als auch das beste SPECint_rate2006-Ergebnis aller Server mit Intel Xeon Prozessoren. Quelle: http://www.spec.org/cpu2006/results, Stand: 2.9.2008 1 2 Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 2. September 2008 wieder. Der vorgestellte Vergleich basiert auf den SPECint_rate_base2006-Ergebnissen für Server mit Intel Xeon Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Lenovo, IBM und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECint_rate_base2006-Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results. Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 2. September 2008 wieder. Der vorgestellte Vergleich basiert auf den SPECint_rate2006-Ergebnissen für Server mit Intel Xeon Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Acer, Dell, Lenovo und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECint_rate2006-Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results. © Fujitsu Technology Solutions 2009 Seite 6 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Im August 2008 wurde die PRIMERGY RX600 S4 mit vier Xeon X7460 Prozessoren vermessen. Die SPECcpuBenchmark-Programme wurden mit dem Intel C++/Fortran-Compiler 11.0 kompiliert und unter SUSE Linux Enterprise Server 10 SP2 (64-bit) ausgeführt. Die PRIMERGY RX600 S4 erzielte sowohl das beste SPECfp_rate_base2006-Ergebnis als auch das beste SPECfp_rate2006Ergebnis aller Server mit Intel Xeon Prozessoren. 3 Quelle: http://www.spec.org/cpu2006/results, Stand: 18.9.2008 Im September 2008 wurde die PRIMERGY RX600 S4 mit vier Xeon X7460 Prozessoren vermessen. Die SPECcpu-Benchmark-Programme wurden mit dem Intel C++/FortranCompiler 11.0 kompiliert und unter SUSE Linux Enterprise Server 10 SP2 (64-bit) ausgeführt. Die PRIMERGY RX600 S4 erzielte sowohl das beste SPECint_rate_base2006-Ergebnis als auch gemeinsam mit Servern anderer Hersteller das beste SPECint_rate2006Ergebnis aller Server mit Intel Xeon Prozessoren. 4 Quelle: http://www.spec.org/cpu2006/results, Stand: 16.9.2008 3 4 Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 18. September 2008 wieder. Der vorgestellte Vergleich basiert auf den SPECfp_rate_base2006-Ergebnissen und SPECfp_rate2006-Ergebnissen für Server mit Intel Xeon Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Dell, HP und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECfp_rate_base2006Ergebnisse und SPECfp_rate2006-Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results. Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 16. September 2008 wieder. Der vorgestellte Vergleich basiert auf den SPECint_rate_base2006-Ergebnissen und SPECint_rate2006-Ergebnissen für Server mit Intel Xeon Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von HP, Dell und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECint_rate_base2006Ergebnisse und SPECint_rate2006-Ergebnisse sind zu finden unter http://www.spec.org/cpu2006/results. © Fujitsu Technology Solutions 2009 Seite 7 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die beiden nebenstehenden Grafiken verdeutlichen die Leistungsunterschiede zwischen den derzeit besten Mono-, Dual- und Quad-Prozessor Rack Servern der PRIMERGY Serie. Die PRIMERGY RX600 S4 übertrifft das Ergebnis des derzeit leistungsstärksten Monoprozessorsystems PRIMERGY RX100 S5 um mehr als 275% in der Integer-Testsuite und knapp 200% in der Fließkomma-Testsuite. Im Vergleich zum derzeit leistungsstärksten Dualprozessorsystems PRIMERGY RX200 S4 erzielt die PRIMERGY RX600 S4 ein Plus von rund 90%. Die beiden folgenden Grafiken stellen die PRIMERGY RX600 S4 in Relation zu ihrem Vorgänger, der PRIMERGY RX600 S3, in jeweils performantester Ausstattung. In der Integer-Testsuite wurde eine Steigerung von +256% bei SPECint_rate_base2006 und +261% bei SPECint_rate2006 erzielt. In der Fließkomma-Testsuite beträgt der Zuwachs +143% bei SPECfp_rate_base2006 und +159% bei SPECfp_rate2006. © Fujitsu Technology Solutions 2009 Seite 8 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Alle SPECcpu2006-Messungen wurden auf einer PRIMERGY RX600 S4 mit folgender Hard- und Software-Ausstattung vorgenommen: Hardware Modell CPU Anzahl CPUs Primary Cache Secondary Cache Other Cache Memory Software Betriebssystem Compiler * PRIMERGY RX600 S4 Xeon E7220, E7310, E7330 und X7350 Xeon E7430, L7445, E7450 und X7460 2, 4 32 kB instruction + 32 kB data on chip, pro Core Xeon E7220: 4 MB (I+D) on chip, pro Core Xeon E7310: 4 MB (I+D) on chip, pro Chip Xeon E7330, E7430 und L7445: 6 MB (I+D) on chip, pro Chip Xeon X7350: 8 MB (I+D) on chip, pro Chip Xeon E7450 und X7460: 9 MB (I+D) on chip, pro Chip Xeon E7430, L7445 und E7450: 12 MB (I+D) on chip, pro Chip Xeon X7460: 16 MB (I+D) on chip, pro Chip andere: nein 16 x 4 GB PC2-5300F DDR2-SDRAM Xeon E7220, E7310, E7330 und X7350: SUSE Linux Enterprise Server 10 SP1 (64-bit) Xeon E7430, L7445, E7450 und X7460: SUSE Linux Enterprise Server 10 SP2 (64-bit) Xeon E7220, E7310, E7330, X7350 and X7460: Intel C++/Fortran Compiler 10.1 Xeon E7430, L7445, E7450 and X7460: Intel C++/Fortran Compiler 11.0 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 9 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 SPECjbb2005 Benchmark-Beschreibung SPECjbb2005 ist ein Java Business Benchmark, dessen Fokus auf der Leistung von Java Server Plattformen liegt. Im Wesentlichen ist SPECjbb2005 ein modernisierter SPECjbb2000. Die Hauptunterschiede sind: Die Transaktionen sind komplexer geworden, um einen größeren Bereich an Funktionalität abzudecken. Der Working Set des Benchmarks ist vergrößert worden, so dass die Systemlast insgesamt gestiegen ist. SPECjbb2000 erlaubt nur eine aktive Java Virtual Machine Instanz (JVM), während SPECjbb2005 mehrere Instanzen zulässt, was eine größere Realitätsnähe insbesondere bei großen Systemen bewirkt. Softwareseitig misst SPECjbb2005 die Effizienz der Implementierungen der JVM, Just-In-Time (JIT) Compilers, Garbage Collection, Threads sowie einige Aspekte des Betriebssystems. Hardwareseitig wird die Effizienz der CPUs und Caches, des Speichersubsystems und die Skalierbarkeit von Shared Memory Systemen (SMP) gemessen. Disk- und NetzwerkI/O spielen keine Rolle. SPECjbb2005 emuliert ein für moderne Geschäftsprozess-Applikationen typisches Three-Tier Client/Server System mit Augenmerk auf das Middle-Tier System: Clients erzeugen die Last, bestehend aus Driver Threads, die angelehnt an den TPC-C Benchmark OLTP Zugriffe auf eine Datenbank ohne Denkzeiten generieren. Das Middle-Tier System implementiert die Geschäftsprozesse und Aktualisierung der Datenbank. Die Datenbank übernimmt die Datenverwaltung und wird emuliert durch Java-Objekte, die im Memory liegen. Transaktions-Logging ist implementiert auf XML Basis. Der große Vorteil dieses Benchmarks ist, dass er alle drei Tiers beinhaltet, die gemeinsam auf einem Single-Host laufen. Gemessen wird die Performance des Middle-Tier. So werden große Hardware-Installationen vermieden und direkte Vergleiche von SPECjbb2005-Ergebnissen unterschiedlicher Systeme sind möglich. Client- und Datenbank-Emulation sind ebenfalls in Java geschrieben. SPECjbb2005 benötigt nur das Betriebssystem sowie eine Java Virtual Machine mit J2SE 5.0 Eigenschaften. Die Skalierungseinheit ist ein Warenhaus mit ca. 25 MB Java Objekten. Genau ein Java-Thread pro Warenhaus führt die Operationen auf diesen Objekten aus. Die Geschäftsoperationen sind von TPC-C übernommen: New Order Entry Payment Order Status Inquiry Delivery Stock Level Supervision Customer Report Das sind aber auch die einzigen Gemeinsamkeiten von SPECjbb2005 und TPC-C. Die Ergebnisse beider Benchmarks sind nicht vergleichbar. SPECjbb2005 besitzt 2 Performance-Metriken: bops (business operations per second) ist die Gesamtrate aller Geschäftsoperationen, die pro Sekunde durchgeführt werden. bops/JVM ist der Quotient der ersten Metrik und der Anzahl der aktiven JVM Instanzen. In Vergleichen verschiedener SPECjbb2005-Ergebnisse müssen beide Metriken angegeben werden. Grundlage für diese Metriken sind die folgenden Regeln, nach denen ein konformer Benchmark-Lauf durchgeführt werden muss: Ein konformer Benchmarklauf besteht aus einer Sequenz von Messpunkten mit wachsender Anzahl von Warenhäusern (und damit von Threads), wobei die Anzahl jeweils um ein Warenhaus erhöht wird. Gestartet wird mit einem Warenhaus bis zu 2*MaxWH, mindestens aber 8 Warenhäusern. MaxWh ist die Anzahl Warenhäuser, bei der der Benchmark die höchste Operationsrate pro Sekunde erwartet. Standardmäßig setzt der Benchmark MaxWH mit der Anzahl vom Betriebssystem erkannter CPUs gleich. Die Metrik bops ist das arithmetische Mittel aller gemessenen Operations-Raten mit MaxWh Warenhäusern bis 2*MaxWh Warenhäusern. SPEC®, SPECjbb® und das SPEC-Logo sind eingetragene Warenzeichen der Standard Performance Evaluation Corporation (SPEC). © Fujitsu Technology Solutions 2009 Seite 10 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Ergebnisse Im August 2007 wurde die PRIMERGY RX600 S4 mit vier Xeon X7350 Prozessoren und einem Speicherausbau von 64 GB PC2-5300F DDR2-SDRAM vermessen. Die Messung wurde unter Windows Server 2003 R2 Enterprise x64 Edition durchgeführt. Als JVM wurden acht Instanzen von JRockit(R) 6.0 P27.4.0 (build P27.4.0-3-86647-1.6.0_02-200708011931-windows-x86_64) von BEA verwendet. Die PRIMERGY RX600 S4 erzielte das beste Ergebnis aller Server mit 4 Prozessoren und ließ damit auch Anbieter von Servern mit anderen Prozessortypen hinter sich. Bei der Messung der PRIMERGY RX600 S4 flossen alle Ergebnisse von 2 bis 4 Warenhäusern, bei der Messung des IBM System p 570 alle Ergebnisse von 4 bis 8 Warenhäusern in das Benchmark-Ergebnis ein. Quelle: http://www.spec.org/jbb2005/results, Stand: 30.9.2007 Im August 2008 wurde die PRIMERGY RX600 S4 mit vier Xeon X7460 Prozessoren und einem Speicherausbau von 64 GB PC2-5300F DDR2-SDRAM vermessen. Die Messung wurde unter Windows Server 2003 R2 Enterprise x64 Edition durchgeführt. Als JVM wurden vier Instanzen von JRockit(R) 6.0 P27.5.0 (build P27.5.0-5_o_CR371811_CR374296100684-1.6.0_03-20080702-1651-windows-x86_64) von Oracle verwendet. Im September 2008 erfolgten weitere Messungen mit zwei und vier Xeon E7310 und Xeon E7330 Prozessoren. Hier wurden bei den Messungen mit zwei Prozessoren vier JVM-Instanzen, bei den Messungen mit vier Prozessoren acht JVM-Instanzen verwendet. Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 30. September 2007 wieder. Der vorgestellte Vergleich basiert auf den SPECjbb2005-Ergebnissen für Server mit 4 Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von IBM und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECjbb2005-Ergebnisse sind zu finden unter http://www.spec.org/jbb2005/results. © Fujitsu Technology Solutions 2009 Seite 11 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Im Februar 2009 wurde die PRIMERGY RX600 S4 erneut mit vier Xeon X7460 Prozessoren und einem Speicherausbau von 64 GB PC2-5300F DDR2-SDRAM vermessen. Die Messung wurde unter Windows Server 2003 R2 Enterprise x64 Edition durchgeführt. Als JVM wurden vier Instanzen von JRockit(R) 6 P28.0.0 (build P28.0.0-8-109238-1.6.0_0520090130-1408-windows-x86_64) von Oracle verwendet. Die PRIMERGY RX600 S4 erzielte das beste Ergebnis aller Server mit 4 Intel Prozessoren. Bei den Messungen flossen alle Ergebnisse von 6 bis 12 Warenhäusern in das Benchmark-Ergebnis ein. Quelle: http://www.spec.org/jbb2005/results, Stand: 26.3.2009 Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 26. März 2009 wieder. Der vorgestellte Vergleich basiert auf den SPECjbb2005-Ergebnissen für Server mit 4 Intel Prozessoren. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Dell und Fujitsu verglichen. Die aktuellen SPECjbb2005Ergebnisse sind zu finden unter http://www.spec.org/jbb2005/results. © Fujitsu Technology Solutions 2009 Seite 12 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Vergleicht man die PRIMERGY RX600 S4 mit ihrem Vorgänger, der PRIMERGY RX600 S3, in jeweils performantester Ausstattung, so ergibt sich ein Plus von 192%. © Fujitsu Technology Solutions 2009 Seite 13 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die beiden folgenden Grafiken verdeutlichen die Leistungsunterschiede zwischen den derzeit besten Mono-, Dual- und Quad-Prozessor Rack Servern der PRIMERGY Serie. Die PRIMERGY RX600 S4 übertrifft das Ergebnis des derzeit leistungsstärksten Monoprozessorsystems PRIMERGY RX150 S5 um 200% und das Ergebnis des derzeit leistungsstärksten Dualprozessorsystems PRIMERGY RX200 S4 um 72%. Bei der PRIMERGY RX600 S4 flossen die Messwerte von 6 bis 12 Warenhäusern, bei den anderen Servern die Messwerte von 2 bis 4 Warenhäusern in das Benchmark-Ergebnis ein. © Fujitsu Technology Solutions 2009 Seite 14 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Die SPECjbb2005-Messung wurde auf einer PRIMERGY RX600 S4 mit folgender Hard- und Software-Ausstattung vorgenommen: Hardware Modell CPU Anzahl Chips Primary Cache Secondary Cache Other Cache Memory Software Betriebssystem JVM Version * PRIMERGY RX600 S4 Xeon E7310, E7330, X7350 und X7460 Xeon E7310 und E7330: 2 Chips, 8 Cores, 4 Cores pro Chip Xeon E7310, E7330 und X7350: 4 Chips, 16 Cores, 4 Cores pro Chip Xeon X7460: 4 Chips, 24 Cores, 6 Cores pro Chip 32 KB instruction + 32 KB data on chip, pro Kern Xeon E7310: 4 MB (I+D) on chip, pro Chip Xeon E7330: 6 MB (I+D) on chip, pro Chip Xeon X7350: 8 MB (I+D) on chip, pro Chip Xeon X7460: 9 MB (I+D) on chip, pro Chip Xeon X7460: 16 MB (I+D) on chip, pro Chip alle anderen: nein 16 x 4 GB PC2-5300F DDR2-SDRAM Windows Server 2003 R2 Enterprise x64 Edition Xeon X7350: BEA JRockit(R) 6.0 P27.4.0 (build P27.4.0-3-86647-1.6.0_02-20070801-1931-windows-x86_64) alle anderen: Oracle JRockit(R) 6.0 P27.5.0 (build P27.5.0-5_o_CR371811_CR374296-100684-1.6.0_03-20080702-1651windows-x86_64) Xeon X7460 zusätzlich: Oracle JRockit(R) 6 P28.0.0 (build P28.0.0-8-109238-1.6.0_05-20090130-1408-windows-x86_64) Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 15 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 SPECweb2005 Benchmark-Beschreibung SPECweb2005 wurde von der Open Systems Group (OSG) der Standard Performance Evaluation Corporation (SPEC) als Nachfolger für SPECweb99 und SPECweb99_SSL entwickelt. SPECweb2005 ist der Benchmark der nächsten Generation zur Leistungsbewertung von Web-Servern im WWW. Der Benchmark misst die Leistung eines HTTP-Servers unter einer standardisierten Last von Anfragen nach statischen und dynamischen Webseiten. Die neue Version enthält viele Erweiterungen zum Test der ständig fortschreitenden Web-Technologien. Im Unterschied zur Vorgängerversion ist SPECweb2005 in drei verschiedene Workloads aufgeteilt, die sich an echten Anwendungen orientieren: - SPECweb2005_Banking – Es werden typische Anfragen simuliert, die Kunden einer Online-Bank abschicken, wie Anmelden/Abmelden, Kontostandsabfrage, Überweisungen, Anzeigen und Ändern des Benutzerprofils usw.. Die Anmeldung umfasst die Einrichtung einer SSL Verbindung, die für alle weiteren Aktionen genutzt wird. - SPECweb2005_Ecommerce – Es wird ein Online-Geschäft für Computer simuliert. Die Benutzer können die Seiten durchsuchen, Waren anschauen, Bestellungen zusammenstellen und die Produkte erwerben. Die ersten Schritte erfolgen über ungesicherte Verbindungen. Sobald eine Bestellung abgeschickt werden soll, werden daraus SSLverschlüsselte Verbindungen. - SPECweb2005_Support – Hier werden die Anfragen einer Support Seite simuliert. Die Benutzer können die Seite durchsuchen, Listen verfügbarer Produkte anschauen und die zugehörigen Dateien herunterladen. Alle Anfragen erfolgen unverschlüsselt. Die Anfragen aller drei Workloads umfassen dynamisch erzeugte Inhalte und statische Dateien verschiedener Größe. Zwischen den Anfragen werden unterschiedliche Wartezeiten eingehalten. Die Verteilung der Anfragen und die Dauer der Wartezeiten werden über Tabellen und Funktionen gesteuert. Die Durchschnittswerte für diese Größen sind in Konfigurationsdateien festgelegt und werden durch die Ablaufsteuerung überwacht. SPECweb2005 ist nicht an ein spezielles Betriebssystem oder einen bestimmten Web-Server gebunden. Die Benchmark-Umgebung besteht aus mehreren Teilen. Auf den Client-Systemen läuft ein Lastgenerator-Programm, das Verbindungen zum Web-Server aufbaut, Seitenanforderungen sendet und die Antwortseiten empfängt. Ein Prime Client initialisiert die anderen Systeme, überwacht den Testablauf, sammelt die Ergebnisse und und wertet sie aus. Der Web-Server oder System Under Test (SUT) umfasst die Hardware und Software zur Bearbeitung der Anfragen. Neu hinzugekommen ist der Back-End Simulator (BeSim), der die Datenbank- und Applikationsteile der gesamten Anwendung simuliert. Der Web-Server kommuniziert mit dem BeSim über HTTP-Anfragen, um zusätzlich erforderliche Informationen zu erhalten. Die Ablaufsteuerung und die Client-Programme sind in Java programmiert und in einzelne Threads unterteilt, die jeweils einen virtuellen Benutzer (Session) simulieren. Alle drei Workloads durchlaufen im Test verschiedene Phasen. In der Ramp-Up Phase werden die Threads zur Lastgenerierung nacheinander gestartet. Es folgt eine Warm-Up Phase zur Vorbereitung der Messung. Bevor das eigentliche Messinterval beginnt, werden die bisher aufgezeichneten Ergebnisse und Fehler gelöscht. Während der Messphase werden alle Anfragen und Antworten aufgezeichnet zur Ermittlung der Ergebnisse. In der anschliessenden Ramp-Down Phase werden die Threads gestoppt. Danach folgt eine Ruhephase, bevor der nächste Durchlauf wieder mit einer RampUp Phase beginnt. Insgesamt werden so jeweils drei Durchläufe für jeden Workload durchgeführt. Die Zahl der erzeugten Threads wird für jeden Workload extra je nach Leistungsfähigkeit des SUT in der Testkonfiguration festgelegt. Zur Ermittlung der Ergebnisse werden auf den Clients für jede angeforderte Seite die Zeiten gemessen zwischen dem Abschicken der Anfrage und dem Eintreffen aller Daten, die zu dieser Seite gehören. Ferner werden die Antwortzeiten für eingebettete Bilddateien hinzugezählt. Im Ergebnis werden alle Seiten gewertet, die bestimmte QoS (Quality of Service) Kriterien erfüllen. Dazu werden die Anworten nach Antwortzeiten (Banking und Ecommerce) bzw. Transferraten (Support) innerhalb der Workloads in folgende Klassen eingeteilt: - GOOD – Antwortzeit < 2s (Banking), < 3s (Ecommerce); Transferrate > 99000 Bytes/s (Support) TOLERABLE – Antwortzeit < 4s (Banking), < 5s (Ecommerce); Transferrate > 95000 Bytes/s (Support) FAILED – Antwortzeit > 4s (Banking), > 5s (Ecommerce); Transferrate < 95000 Bytes/s (Support) Für ein gültiges Workload-Ergebnis müssen in allen drei Durchläufen mindestens 95% aller Antworten in die Klasse GOOD und 99% in die Klasse TOLERABLE fallen. Ein regelkonformes Gesamtergebnis erfordert gültige Teilergebnisse in allen drei Workloads mit der gleichen Systemkonfiguration. Die Einzelresultate sind nach den Workloads benannt und zeigen, wieviele Benutzer (Sessions) maximal bei Einhaltung der QoS Kriterien vom gemessenen System bedient werden können. Sie ermöglichen so die Beurteilung eines Systems unter realitätsnahen Bedingungen. Zur Berechnung des Gesamtergebnisses wird jedes Teilresultat ins Verhältnis zu SPEC®, SPECweb® und das SPEC-Logo sind eingetragene Warenzeichen der Standard Performance Evaluation Corporation (SPEC). © Fujitsu Technology Solutions 2009 Seite 16 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 einem Referenzwert gesetzt und aus diesen drei Werten wird das geometrische Mittel gebildet multipiziert mit 100. Das Gesamtergebnis (SPECweb2005) zeigt also die relative Leistung des gemessenen Systems im Verhältnis zum Referenzsystem. Benchmark-Ergebnisse Im Mai 2008 wurde die PRIMERGY RX600 S4 mit vier Prozessoren Xeon X7350 sowie 72 GB PC2-5300F DDR2SDRAM vermessen. Für das Netzwerk wurden vier quad-port Intel PRO/1000PT (PCIe) und ein Intel PRO/1000 (onboard) verwendet. Als Disk-Subsystem kamen zwei FibreCAT CX500 mit jeweils 75 Festplatten vom Typ Seagate ST336753 mit 36 GB und 15 krpm zum Einsatz, die über einen Qlogic QLE2462 Fibre Channel Controller angeschlossen waren. Es wurden zwei RAID 5 Verbände über je 75 Festplatten gebildet. Diese wurden zu einem RAID 0 zusammengefasst. Das Betriebssystem lag auf einer Festplatte des Typs Seagate ST936751SS, die über den onboard SAS-Controller betrieben wurde. Die Messung wurde mit der HTTP-Software Accoria Rock Web Server v1.4.7 (x86_64) unter Red Hat Enterprise Linux 5.1 (2.6.18-53.el5 x86_64) durchgeführt. Die PRIMERGY RX600 S4 erzielte das weltweit beste SPECweb2005-Ergebnis aller Server. Quelle: http://www.spec.org/web2005/results, Stand: 9. Juni 2008 Im Nobember 2008 wurde die PRIMERGY RX600 S4 mit vier Prozessoren Xeon X7460 sowie 64 GB PC2-5300F DDR2SDRAM vermessen. Für das Netzwerk wurden vier quad-port Intel PRO/1000PT (PCIe) und ein Intel PRO/1000 (onboard) verwendet. Als Disk-Subsystem kamen vier FibreCAT SX40 mit jeweils 12 Festplatten vom Typ Seagate ST3300656SS mit 300 GB und 15 krpm zum Einsatz, die über einen LSI SAS MegaRAID 8880EM2 Controller angeschlossen waren. Es wurden zwei RAID 0 Verbände über je 24 Festplatten gebildet. Diese wurden zu einem RAID 0 zusammengefasst. Die Logdateien lagen auf vier Festplatten des Typs Seagate ST973401SS, das Betriebssystem auf einer Festplatte des Typs Seagate ST936751SS: Diese fünf Festplatten wurden über den onboard SAS-Controller betrieben. HTTP-Software und Betriebssystem entsprachen der Messung vom Mai 2008. Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 9. Juni 2008 wieder. Der vorgestellte Vergleich basiert auf den besten vier SPECweb2005-Ergebnissen aller Server. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Fujitsu, HP, Sun und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECweb2005-Ergebnisse sind zu finden unter http://www.spec.org/web2005/results. © Fujitsu Technology Solutions 2009 Seite 17 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die PRIMERGY RX600 S4 erzielte erneut das weltweit beste SPECweb2005-Ergebnis aller Server. Quelle: http://www.spec.org/web2005/results, Stand: 23. Dezember 2008 Im Februar 2009 wurde die PRIMERGY RX600 S4 mit vier Prozessoren Xeon X7460 sowie 128 GB PC2-5300F DDR2SDRAM vermessen. Für das Netzwerk wurden fünf quad-port Intel PRO/1000PT (PCIe) und ein Intel PRO/1000 (onboard) verwendet. Als Disk-Subsystem kamen zwei FibreCAT CX500 mit jeweils 60 Festplatten vom Typ Seagate ST336753 mit 36 GB und 15 krpm zum Einsatz, die über einen Emulex LPe11002 Fibre Channel Controller angeschlossen waren. Es wurden zwei RAID 0 Verbände über je 60 Festplatten gebildet. Diese wurden zu einem RAID 0 zusammengefasst. Die Logdateien lagen auf vier Festplatten des Typs Seagate ST973401SS, das Betriebssystem auf einer Festplatte des Typs Seagate ST936751SS: Diese fünf Festplatten wurden über den onboard SAS-Controller betrieben. Die Messung wurde unter Red Hat Enterprise Linux 5.2 (2.6.18-92.el5 x86_64) durchgeführt. Die HTTPSoftware entsprach der Messung vom Mai 2008. Die PRIMERGY RX600 S4 erzielte wie üblich das weltweit beste SPECweb2005-Ergebnis aller Server. Quelle: http://www.spec.org/web2005/results, Stand: 13. März 2009 Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 23. Dezember 2008 wieder. Der vorgestellte Vergleich basiert auf den besten drei SPECweb2005-Ergebnissen aller Server. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von HP und Fujitsu Siemens Computers, heute firmierend unter Fujitsu, verglichen. Die aktuellen SPECweb2005-Ergebnisse sind zu finden unter http://www.spec.org/web2005/results. Die oben genannten Vergleichswerte zu Wettbewerbsprodukten geben den Stand vom 13. März 2009 wieder. Der vorgestellte Vergleich basiert auf den besten vier SPECweb2005-Ergebnissen aller Server. Es werden die zu diesem Zeitpunkt besten verfügbaren Systeme von Sun, HP und Fujitsu verglichen. Die aktuellen SPECweb2005-Ergebnisse sind zu finden unter http://www.spec.org/web2005/results. © Fujitsu Technology Solutions 2009 Seite 18 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Gegenüber der PRIMERGY RX600 S3, die im September 2006 gleichfalls einen SPECweb2005-Weltrekord aufgestellt hatte, verbesserte die PRIMERGY RX600 S4 die Durchsatzleistung um 245%. Benchmark-Umgebung* Messung Mai 2008 Disk subsystem 2 FibreCAT CX500 with 150 36 GB Seagate ST336753 ● ● ● ● ● ● ● ● ● ● 64 PRIMERGY RX100 S3 1 x Pentium D 820 2 GB RAM 2 x Broadcom NetXtreme (onboard) Windows Server 2003 SE SP1 © Fujitsu Technology Solutions 2009 PRIMERGY RX600 S4 4 Xeon X7350 72 GB PC2-5300F DDR2-SDRAM 1 Qlogic QLE2462 fibre channel controller 4 quad channel Intel PRO/1000PT (PCIe) 1 Intel PRO/1000PT (onboard) Operating system: Red Hat Enterprise Linux 5.1 (2.6.18-53.el5 x86_64) HTTP software: Accoria Rock Web Server v1.4.7 (x86_64) Seite 19 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Messung Dezember 2008 Disk subsystem 4 FibreCAT SX40 with 48 hard disks (300 GB, 3.5”, 15 krpm) ● ● ● ● ● ● ● ● ● ● 64 PRIMERGY RX100 S3 1 x Pentium D 820 2 GB RAM 2 x Broadcom NetXtreme (onboard) Windows Server 2003 SE SP1 PRIMERGY RX600 S4 4 Xeon X7460 64 GB PC2-5300F DDR2-SDRAM 1 LSI Fusion MPT SAS/RAID 1078I controller (onboard) 1 LSI SAS/MegaRAID 8880EM2 controller 4 quad channel Intel PRO/1000PT (PCIe) 1 Intel PRO/1000PT (onboard) Operating system: Red Hat Enterprise Linux 5.1 (2.6.18-53.el5 x86_64) HTTP software: Accoria Rock Web Server v1.4.7 (x86_64) Messung Februar 2009 Disk subsystem 2 FibreCAT CX500 with 120 36 GB Seagate ST336753 ● ● ● ● ● ● ● ● ● ● 60 PRIMERGY RX100 S3 1 x Pentium D 820 2 GB RAM 2 x Broadcom NetXtreme (onboard) Windows Server 2003 SE SP1 * PRIMERGY RX600 S4 4 Xeon X7460 128 GB PC2-5300F DDR2-SDRAM 1 Emulex LPe11002 fibre channel controller 5 quad channel Intel PRO/1000PT (PCIe) 1 Intel PRO/1000PT (onboard) Operating system: Red Hat Enterprise Linux 5.2 (2.6.18-92.el5 x86_64) HTTP software: Accoria Rock Web Server v1.4.7 (x86_64) Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 20 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 StorageBench Benchmark-Beschreibung Um die Leistungsfähigkeit von Disk-Subsystemen zu beurteilen, wurde von Fujitsu Technology Solutions ein Benchmark mit dem Namen »StorageBench« definiert, mit dem ein Vergleich der verschiedenen Storage-Anbindungen möglich ist. StorageBench nutzt zu diesem Zweck das von der Firma Intel entwickelte Messwerkzeug Iometer mit einem definierten Satz von in der Praxis vorkommenden Lastprofilen und einem festgelegten Messszenario. Messwerkzeug Seit Ende 2001 ist Iometer ein Projekt bei http://SourceForge.net und wird von einer Gruppe internationaler Entwickler auf verschiedene Plattformen portiert und weiterentwickelt. Iometer besteht aus einer grafischen Bedieneroberfläche für Windows-Systeme und dem so genannten »dynamo«, der für verschiedene Plattformen verfügbar ist. Diese beiden Komponenten können seit einigen Jahren unter »Intel Open Source License« von http://www.iometer.org/ oder http://sourceforge.net/projects/iometer heruntergeladen werden. Mit Iometer hat man die Möglichkeit, das Verhalten realer Anwendungen bezüglich der Zugriffe auf I/O-Subsysteme nachzubilden. Dazu kann man unter anderem die zu verwendenden Blockgrößen, die Art des Zugriffs wie sequentielles Lesen oder Schreiben, wahlfreies Lesen oder Schreiben und auch Mischungen davon konfigurieren. Als Ergebnis liefert Iometer eine Textdatei mit durch Komma separierten Werten (.csv) wesentlicher Kenngrößen wie z.B. »Durchsatz pro Sekunde«, »Transaktionen pro Sekunde« und »durchschnittliche Antwortzeit« für das jeweilige Zugriffsmuster. Auf diese Weise kann man die Leistungsfähigkeit verschiedener Subsysteme bei bestimmten Zugriffsmustern vergleichen. Iometer ist in der Lage, sowohl auf I/O-Subsysteme mit einem Dateisystem als auch auf I/O-Subsysteme ohne Dateisystem, so genannte Raw-Devices, zuzugreifen. Mit Iometer können die Zugriffsmuster verschiedenster Anwendungen simuliert und vermessen werden, jedoch bleibt der File-Cache des Betriebssystems außer Acht und es wird blockmäßig auf einer einzelnen Testdatei operiert. Lastprofil Von erheblichem Einfluss auf die Performance eines Speichersystems ist die Art, wie Anwendungen auf den Massenspeicher zugreifen. Beispiele für verschiedene Zugriffsmuster einiger Anwendungen: Anwendung Zugriffsmuster Datenbank (Datentransfer) random, 67% read, 33% write, 8 KB (SQL Server) Datenbank (Log File) sequentiell, 100% write, 64 KB Blöcke Backup sequentiell, 100% read, 64 KB Blöcke Restore sequentiell, 100% write, 64 KB Blöcke Video Streaming sequentiell, 100% read, Blöcke ≥ 64 KB File-Server random, 67% read, 33% write, 64 KB Blöcke Web-Server random, 100% read, 64 KB Blöcke Betriebssystem random, 40% read, 60% write, Blöcke ≥ 4 KB File-Copy random, 50% read, 50% write, 64 KB Blöcke Daraus wurden vier markante Profile abgeleitet: Lastprofil Zugriff Zugriffsmuster read Streaming sequentiell Restore sequentiell write 100% Blockgröße Last-Tool 64 KB Iometer 100% 64 KB Iometer Database random 67% 33% 8 KB Iometer File-Server random 67% 33% 64 KB Iometer Alle vier Profile wurden mit Iometer generiert. © Fujitsu Technology Solutions 2009 Seite 21 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Messszenario Um vergleichbare Messergebnisse zu erhalten ist es wichtig, alle Messungen in identischen, reproduzierbaren Umgebungen durchzuführen. Daher liegen StorageBench neben dem oben beschriebenen Lastprofil die folgenden Regeln zugrunde: Da in realen Kundenkonfigurationen nur in Ausnahmefällen mit Raw-Devices gearbeitet wird, sind bei den Untersuchungen zur Leistungsfähigkeit der internen Festplatten diese immer mit einem Dateisystem formatiert. Für Windows wird NTFS, für Linux ext3 verwendet, auch wenn mit anderen Dateisystemen oder Raw-Devices eventuell eine höhere Leistung erreicht werden könnte. Festplatten gehören zu den fehleranfälligsten Komponenten eines Computersystems. Daher werden in Serversystemen RAID-Controller eingesetzt, um dem Datenverlust durch den Ausfall von Festplatten vorzubeugen. Dabei werden mehrere Festplatten zu einem »Redundant Array of Independent Disks«, kurz RAID, zusammengefasst. Dabei werden die Daten über mehrere Festplatten derart verteilt, dass auch beim Ausfall einer Festplatte alle Daten, mit Ausnahme von RAID 0, erhalten bleiben. Die gebräuchlichsten Arten um Festplatten in Verbänden zu organisieren sind die RAID-Levels RAID 0, RAID 1, RAID 5, RAID 6, RAID 10, RAID 50 und RAID 60. Informationen zu den Grundlagen verschiedener RAID-Levels sind im Papier Performance Report Modular RAID für PRIMERGY zu finden. Für die StorageBench-Untersuchungen der PRIMERGY Server werden die je nach Plattenanzahl und eingebautem Controller möglichen RAID-Konfigurationen verwendet. Bei Systemen mit zwei Festplatten RAID 1 und RAID 0, bei drei und mehr Festplatten zusätzlich RAID 1E und RAID 5 und ggf. weitere RAID-Levels – sofern der Controller diese RAID-Levels unterstützt. Für die Messung wird immer eine Messdatei mit einer Größe von 8 GB verwendet, unabhängig von der Größe der Festplatte. Bei der Beurteilung der Leistungsfähigkeit von I/O-Subsystemen spielen bei heutigen Systemen die Prozessorleistung und der Speicherausbau des Systems keine signifikante Rolle – ein eventuell vorhandener Engpass betrifft in der Regel die Festplatten und den RAID-Controller und nicht CPU oder Memory. Daher brauchen unterschiedliche Ausbauvarianten mit CPU und Speicher unter StorageBench nicht untersucht zu werden. Messergebnisse StorageBench liefert pro Lastprofil eine ganze Reihe von Kenngrößen, z.B. den »Datendurchsatz« in Megabytes pro Sekunde, kurz MB/s, die »Transaktionsrate« in I/O-Operationen pro Sekunde, kurz IO/s, und die »Latenzzeit« oder auch »mittlere Zugriffszeit« in ms. Für die sequentiellen Lastprofile ist der Datendurchsatz die übliche Messgröße, während bei den random-Lastprofilen mit ihren kleinen Blockgrößen die Messgröße »Transaktionsrate« allgemein verwendet wird. Datendurchsatz und Transaktionsrate sind direkt proportional zueinander und lassen sich nach der Formel Datendurchsatz [MB/s] = Transaktionsrate [Disk-I/O s-1] × Blockgröße [MB] Transaktionsrate [Disk-I/O s-1] = Datendurchsatz [MB/s] / Blockgröße [MB] berechnen. Benchmark-Ergebnisse Die PRIMERGY RX600 S4 ist mit dem Controller LSI MegaRAID SAS 1078 der »Modular RAID« Familie ausgestattet. Der Controller wird als Riser-Karte mit der PRIMERGY RX600 S4 mitgeliefert und bietet dem Anwender eine komplette RAID-Lösung an. Es werden die RAID-Levels 0, 1, 5, 6, 10, 50 und 60 unterstützt. Der Controller wird mit 512 MB Controller-Cache angeboten. Der Controller-Cache kann durch eine optionale Battery Backup Unit (BBU) gegen Stromausfälle geschützt werden. Der Controller unterstützt bis zu 240 Festplatten. An den Controller können unterschiedliche 2½" SAS-Festplatten angeschlossen werden. In Abhängigkeit von der benötigten Performance und Kapazität kann das Disk-Subsystem passend ausgewählt werden. Die PRIMERGY RX600 S4 bietet acht hot-plug Einschübe für 2½" SAS-Festplatten. Für die PRIMERGY RX600 S4 stehen folgende Festplatten zur Auswahl: 2½" SAS Festplatten mit einer Kapazität von 36 GB, 73 GB und 146 GB (10 krpm) 2½" SAS Festplatten mit einer Kapazität von 36 GB und 73 GB (15 krpm) RAID-Unterstützung Der RAID-Verband definiert die Art und Weise, wie die Daten hinsichtlich der Verfügbarkeit behandelt werden. Wie schnell die Daten im jeweiligen RAID-Verband-Kontext transportiert werden, hängt nicht unwesentlich vom Datendurchsatz der Festplatten ab. Der Durchsatz ist weiterhin geprägt vom verwendeten RAID-Level und Zugriffsmuster sowie von den Controller- und Disk-Cache-Einstellungen. Weil der LSI MegaRAID SAS 1078 Controller einen Cache besitzt, wurden bei den Messungen sowohl die Auswirkungen der Controller-Cache- als auch der Disk-Cache-Parameter auf den Gesamtdurchsatz untersucht. Der Disk-Cache hat Einfluss auf die Disk-I/O-Performance, aber er wird leider häufig als Sicherheitsproblem bei Stromausfall angesehen und daher abgeschaltet. Andererseits wurde er von den Festplattenherstellern aus gutem © Fujitsu Technology Solutions 2009 Seite 22 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Grund zur Steigerung der Schreib-Performance integriert. Aus Performance-Gründen ist es empfehlenswert, den DiskCache einzuschalten. Der weitaus größere Cache für I/O-Zugriffe und damit potentielles Sicherheitsrisiko für Datenverluste bei Stromausfall sitzt ohnehin im Arbeitsspeicher und wird vom Betriebssystem verwaltet. Um Datenverlusten vorzubeugen, empfiehlt es sich, das System mit einer USV auszustatten. Abhängig vom RAID-Level wurde die Anzahl Festplatten festgelegt, die für die Messungen in einem RAID-Verband konfiguriert wurden. Im Testaufbau wurden zwei Festplatten an den Controller angeschlossen und als RAID 1 konfiguriert. Bei den Messungen wurden 2½" SAS-Festplatten mit 10 krpm und 15 krpm verwendet. Dabei wurde der Einfluss der Umdrehungsgeschwindigkeit der Festplatten auf die Durchsätze bei sequentiellem Lesen/Schreiben sowie bei wahlfreiem Zugriff untersucht. Es wurden jeweils zwei Messreihen durchgeführt. Eine mit ausgeschalteten Caches (Off), d.h. »No Read-ahead«, »Write-through«, »I/O direct« und »Disk cache disabled« und eine mit optimalen Cache-Einstellungen (Optimal), d.h. »No Read-ahead«, »Write-through«, »I/O direct« und »Disk cache enabled«. Mit diesen Cache-Einstellungen kann man bei einem Mix von Zugriffsmustern die besten Durchsätze erreichen. Die Grafik für RAID 1 zeigt, dass der Durchsatz mit steigender Umdrehungsgeschwindigkeit bei allen Zugriffsmustern steigt. Werden beim sequentiellen Lesen im RAID 1 statt Festplatten mit einer Umdrehungsgeschwindigkeit von 10 krpm Festplatten mit 15 krpm verwendet, ergibt sich eine Durchsatzsteigerung von etwa 20%. Wird beim sequentiellen Schreiben im RAID 1 und bei eingeschaltetem Disk-Cache statt Festplatten mit einer Umdrehungsgeschwindigkeit von 10 krpm eine Festplatte mit 15 krpm verwendet, ergibt sich eine Durchsatzsteigerung von etwa 18%. Eine besondere Durchsatzsteigerung beim sequentiellen Schreiben kann man durch das Einschalten des Disk-Caches erreichen. Bei den 2½" Festplatten mit 10 krpm steigt der Durchsatz um 47% und bei den 2½" Festplatten mit 15 krpm um etwa 62%. Die nebenstehende Grafik zeigt, dass auch bei wahlfreiem Zugriff mit 67% Leseanteil der Disk-Cache eine wichtige Rolle bei der Verbesserung des Durchsatzes spielt. Die Durchsatzsteigerung bei den beiden Festplattentypen durch Einschalten des Disk-Caches beträgt etwa 15%. Vergleicht man den Durchsatz der 2½" SAS-Festplatten mit 10 krpm und 15 krpm, sieht man, dass der Durchsatz der schnelleren Festplatte bei wahlfreiem Zugriff mit 8 KB und 64 KB Blöcken etwa um 22% höher ist als bei der langsameren Festplatte. Die Cache-Einstellungen, die bei den Messungen im RAID 1 verwendet wurden, bringen im Durchschnitt bei einem Mix von Zugriffsmustern die besten Durchsätze. Bei speziellen Zugriffsmustern, z.B. beim wahlfreien Zugriff im RAID 1, können durch Einschalten des Controller-Caches, also durch die Verwendung der Controller-Cache-Optionen »No Readahead«, »Write-back«, »I/O direct« und »Disk cache enabled« noch höhere Durchsätze erreicht werden. Allerdings ist es in diesem Falle unabdingbar, den Controller-Cache gegen eventuelle Stromausfälle mit einer BBU zu sichern, um einen Datenverlust zu vermeiden. © Fujitsu Technology Solutions 2009 Seite 23 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Bei den weiteren Messungen wurden nur die schneller drehenden 15 krpm Festplatten verwendet. Die zweite Grafik stellt die Durchsätze dieser Festplatten im RAID 5 Verband dar. Die Durchsätze wurden bei ausgeschalten Caches (Off) und bei den optimalen Cache-Einstellungen (Optimal) ermittelt. Beim sequentiellen Lesen mit 64 KB Blöcken haben Controller- und DiskCache keine Auswirkung auf die Durchsätze. Bei den anderen Zugriffsmustern dagegen kann man die Durchsätze durch die geeignete Controller-Cache-Einstellungen teilweise erheblich erhöhen. Diese Durchsatzsteigerungen falllen allerdings, je nach Datenstruktur und Zugriffsmuster, unterschiedlich aus. Beispielsweise hängt der Schreibdurchsatz beim sequentiellen Schreiben stark von den Cache-Einstellungen ab. Um die beste Leistung zu erreichen, ist es notwendig, die optimalen CacheEinstellungen »Write-back«, »I/O direct« und »Disk-Cache enabled« zu verwenden. Der erreichete Durchsatz ist um den Faktor 30 höher, als der, der bei ausgeschalteten Caches erreicht wurde. Beim wahlfreien Zugriff im RAID 5 ist die Performance-Steigerung durch die optimale Cache-Einstellung auch ziemlich groß, allerdings nicht mehr so beeindruckend, wie es beim sequentiellen Schreiben der Fall war. Beim wahlfreien Zugriff mit 8 KB Blöcken steigt der Durchsatz etwa um 62% und mit 64 KB Blöcken um 54%. Ähnliche Charakteristika kann man auch aus der Grafik für RAID 10 entnehmen. Die Cache-Einstellungen beim sequentiellen Lesen haben auch im RAID 10 keinen Einfluß auf den Durchsatz. Beim sequentielllen Schreiben dagegen kann man durch die optimale Cache-Einstellung eine bis zu 4.5-fache Durchsatzsteigerung erreichen. Beim wahlfreien Zugriff im RAID 10 ist die Performance-Steigerung durch die optimale Cache-Einstellung auch ziemlich groß, allerdings nicht mehr so markant wie es beim sequentiellen Schreiben der Fall war. Beim wahlfreien Zugriff mit 8 KB Blöcken steigt der Durchsatz etwa um 37% und mit 64 KB Blöcken um 29%. Umfangreichere Information zu diesem Thema sind im Papier Performance Report - Modular RAID für PRIMERGY zu finden. Fazit Mit dem »Modular RAID« LSI MegaRAID SAS 1078 Controller bietet die PRIMERGY RX600 S4 eine Fülle von Möglichkeiten, um den verschiedenen Anforderungen unterschiedlichster Anwendungsszenarien gerecht zu werden. Der LSI MegaRAID SAS 1078 Controller bietet alle heute gängige RAID-Lösungen RAID 0, 1, 5, 6, 10, 50 und 60 an. Der Controller wird mit einem 512 MB großen Controller-Cache ausgeliefert und kann optional mit einer BBU gesichert werden. Vielfältige Möglichkeiten, die Nutzung des Caches einzustellen, erlauben eine flexible Anpassung der Controllerleistung an den verwendeten RAID-Level. Die Verwendung von RAID 5 ermöglicht eine wirtschaftliche Ausnutzung der vorhandenen Festplattenkapazität bei guter Performance. Für optimale Performance beim wahlfreien Zugriff und Sicherheit ist jedoch ein RAID 10 zu empfehlen. Die PRIMERGY RX600 S4 bietet die Auswahl zwischen 2½" SAS Festplatten mit 10 krpm oder 15 krpm Umdrehungsgeschwindigkeit. In Abhängigkeit von der benötigten Performance ist zu entscheiden, welcher Festplattentyp mit welcher Umdrehungsgeschwindigkeit zum Einsatz kommen soll. Festplatten mit 15 krpm bieten eine bis zu 62% bessere Performance. © Fujitsu Technology Solutions 2009 Seite 24 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Alle hier vorgestellten Messungen wurden mit den im Folgenden aufgelisteten Hardware- und Software-Komponenten durchgeführt. * Komponente Details Server PRIMERGY RX600 S4 Betriebssystem Windows Server 2003, Enterprise Edition Version: 5.2.3790 Service Pack 1 Build 3790 Dateisystem NTFS Messwerkzeug Iometer 27.07.2006 Messdaten Messdatei von 8 GB Controller LSI MegaRAID SAS 1078 Produkt: LSI RAID 5/6 SAS 1078 Driver Name: msas2k3.sys, Driver Version: 2.17.0.32 Controller Cache: 512 MB Hard Disk SAS, 2½", 10 krpm, Seagate ST973402SS, 73 GB Hard Disk SAS, 2½", 15 krpm, Seagate ST973451SS, 73 GB Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 25 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 OLTP-2 Benchmark-Beschreibung OLTP steht für Online Transaction Processing. Dem OLTP-2-Benchmark liegt das typische Anwendungsszenario einer Datenbanklösung zugrunde. Es werden bei OLTP-2 Zugriffe auf eine Datenbank simuliert und die Anzahl erreichter Transaktionen pro Sekunde (tps) als Maß für die Leistungsfähigkeit des vermessenen Systems ermittelt. Im Gegensatz zu Benchmarks, wie beispielsweise SPECint und TPC-E, die von unabhängigen Gremien standardisiert wurden und bei denen die Einhaltung des jeweiligen Reglements überwacht wird, ist OLTP-2 ein interner Benchmark von Fujitsu Technology Solutions. Der zum Teil enorme Hardware- und Zeit-Aufwand der standardisierten Benchmarks wurde bei OLTP-2 auf ein vertretbares Maß reduziert, sodass eine Vielzahl von Konfigurationen in akzeptabler Zeit vermessen werden kann. Auch wenn die beiden Benchmarks OLTP-2 und TPC-E ähnliche Anwendungsszenarien simulieren und die gleichen Lastprofile verwenden, so sind die Ergebnisse nicht vergleichbar oder gar gleichzusetzen, da die beiden Benchmarks unterschiedliche Methoden zur Simulation der Benutzerlast verwenden. Typischerweise sind OLTP-2-Werte TPC-EWerten ähnlich. Ein direkter Vergleich oder gar die Bezeichnung des OLTP-2-Ergebnisses als TPC-E-Ergebnis ist nicht zulässig, da insbesondere kein Preis-Leistungswert ermittelt wird. Benchmark-Ergebnisse Die PRIMERGY RX600 S4 wurde mit Intel Xeon Prozessoren der Serien 73xx und 74xx bei Speicherausbauten von 64 GB, 128 GB und 256 GB vermessen. Alle Ergebnisse basieren auf dem Betriebssystem Microsoft Windows Server 2008 Enterprise x64 Edition und der Datenbank SQL Server 2008 Enterprise x64 Edition. OLTP-2 Benchmark-Ergebnisse sind in hohem Maße abhängig von den Ausbaumöglichkeiten eines Systems mit Festplatten und deren Controllern. Für die Messungen wurden daher zwei Ausbaustufen des Disk-Subsystems mit 240 und 336 SAS-Festplatten verwendet. Weitere Informationen über die Systemkonfiguration können dem Abschnitt Benchmark-Umgebung entnommen werden. Die folgende Grafik zeigt die OLTP-2-Leistungsdaten der PRIMERGY RX600 S4 mit Intel Xeon Serie 73xx Prozessoren (E7220, E7310, E7330 und X7350) und einem Disk-Subsystem mit 240 SAS Festplatten. OLTP-2: OLTP-2:PRIMERGY PRIMERGYRX600 RX600S4 S4wwith ith22and and44Xeon Xeonprocessors processors73xx 73xx 501.23 501.23 tps tps 453.10 453.10 489.96 489.96 500 500 443.13 443.13 464.59 464.59 371.83 371.83421.12 421.12 363.83 363.83 bold boldnumbers: numbers:measured measuredresults results others: calculated others: calculatedresults results 400 400 300 300 200 200 273.39 273.39 245.42 245.42 269.22 269.22 241.79 200.60 200.60 241.79 258.22 258.22 167.56 231.82 167.56 197.73 197.73 231.82 165.25 165.25 190.13 190.13 159.62 159.62 308.14 308.14 346.50 346.50 301.65 301.65 289.22 289.22 +80-83% +80-83% RAM RAM 100 100 00 +60-63% +60-63% +62-63% +62-63% 256 256GB GB 128 GB 128 GB 64 64GB GB Xeon Xeon E7220 E7220 Xeon Xeon E7310 E7310 Xeon Xeon E7330 E7330 Xeon Xeon X7350 X7350 Xeon Xeon E7220 E7220 Xeon Xeon E7310 E7310 Xeon Xeon E7330 E7330 Xeon Xeon X7350 X7350 Die Skalierung über alle Prozessor-Typen liegt bei +60% bis +63% und ist bei zwei und vier Prozessoren in etwa identisch. Besonders gut ist die Skalierung von zwei auf vier Prozessoren mit bis zu +83%. Die Speicherskalierung von 64 GB auf 128 GB beträgt +4% bis +5% und von 128 GB auf 256 GB +1% bis +2%. Dies ist sehr stark vom Lastprofil des OLTP-2 Benchmarks abhängig und kann nicht auf alle Datenbankanwendungen übertragen werden. © Fujitsu Technology Solutions 2009 Seite 26 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die folgende Grafik zeigt die OLTP-2-Leistungsdaten der PRIMERGY RX600 S4 mit Intel Xeon Serie 74xx (L7445, E7430, E7450 und X7460) und einem Disk-Subsystem mit 336 SAS-Festplatten. Der Low Voltage Prozessor Xeon L7445 unterscheidet sich nur im Stromverbrauch vom Xeon E7430 und erreicht für diesen Benchmark die gleichen Durchsatzwerte. tps tps OLTP-2: OLTP-2:PRIMERGY PRIMERGYRX600 RX600S4 S4wwith ith22and and44Xeon Xeonprocessors processors74xx 74xx 736.94 736.94 718.91 656.69 656.69 718.91 700 700 bold boldnumbers: numbers:measured measuredresults results others: others:calculated calculatedresults results 641.32 641.32 649.11 649.11 590.07 478.77 478.77 478.77 478.77 590.07 600 600 468.07 468.07 468.07 468.07 401.99 401.99 500 500 400 400 300 300 355.38 355.38 394.96 394.96 349.56 349.56 369.92 251.07 369.92 251.07 251.07 251.07329.26 329.26 247.24 247.24 247.24 247.24 435.09 435.09 435.09 435.09 +75-83% +75-83% 234.43 234.43 234.43 234.43 200 200 RAM RAM +58-60% +58-60% 100 100 00 +49-54% +49-54% Xeon Xeon L7445 L7445 Xeon Xeon E7430 E7430 Xeon Xeon E7450 E7450 Xeon Xeon X7460 X7460 Xeon Xeon L7445 L7445 Xeon Xeon E7430 E7430 Xeon Xeon E7450 E7450 256 256GB GB 128 128GB GB 64 64GB GB Xeon Xeon X7460 X7460 Die Skalierung über diese Prozessortypen liegt bei +49% bis +60% und fällt für zwei Prozessoren etwas höher aus als für 4 Prozessoren. Besonders gut ist auch hier die Skalierung von zwei auf vier Prozessoren mit bis zu +83%. Die Speicherskalierung von 64 GB auf 128 GB beträgt +5% bis +11% und von 128 GB auf 256 GB +1.5% bis +2.5%. Bei vier Prozessoren mit höherem Durchsatz wird mehr Speicher benötigt und die Werte fallen entsprechend höher aus. Auch hier gilt, dass die Angaben für das Lastprofil von OLTP-2 zutreffen und nicht auf alle Datenbankanwendungen übertragen werden kann. Die nebenstehende Graphik zeigt einen OLTP-2: Vergleich zwischen der PRIMERGY RX600 S3 OLTP-2:PRIMERGY PRIMERGYRX600 RX600S4 S4vs. vs.RX600 RX600S3 S3 800 mit Xeon 7140M (2 Cores), der PRIMERGY 800 66Cores tps RX600 S4 mit Xeon X7350 (4 Cores) und der Cores tps PRIMERGY RX600 S4 mit Xeon X7460 (6 700 736.94 700 736.94 Cores). Durch die Verdopplung der Anzahl Cores von zwei auf vier wird eine 600 600 Leistungssteigerung von +46% erreicht. Mit dem 44Cores Xeon X7460 erhöht sich die Anzahl Cores zwar Cores 500 nur um 50%, es wird aber ein 16 MB grosser 500 L3-Cache verwendet, so dass die 489.96 489.96 22Cores Leistungssteigerung gegenüber dem Xeon Cores 400 400 X7350 +50% beträgt. Gegenüber der PRIMERGY RX600 S3 beträgt die Zunahme +121% +121% 300 333.70 des Durchsatzes +121%. 300 333.70 200 200 100 100 +47% +47% +50% +50% 00 PRIMERGY PRIMERGYRX600 RX600S3 S3PRIMERGY PRIMERGYRX600 RX600S4 S4PRIMERGY PRIMERGYRX600 RX600S4 S4 44xxXeon 7140M 4 x Xeon X7350 4 x Xeon X7460 Xeon 7140M 4 x Xeon X7350 4 x Xeon X7460 64 128 256 64GB GBRAM RAM 128GB GBRAM RAM 256GB GBRAM RAM © Fujitsu Technology Solutions 2009 Seite 27 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Für die OLTP-2 Messungen der PRIMERGY RX600 S4 wurde das Disk-Subsystem in zwei Ausbaustufen genutzt. Zum einen mit 240 SAS-Festplatten, 20 FibreCAT SX40 und 4 LSI SAS-RAID Controllern, zum anderen mit 336 SAS-Festplatten, 28 FibreCAT SX40 und 5 LSI SAS RAID Controllern. Diese Konfigurationen entsprechen denen bei den TPC-E Messungen. Als Betriebssystem wurde Microsoft Windows Server 2008 Enterprise x64 Edition und als Datenbank SQL Server 2008 Enterprise x64 Edition eingesetzt. Bei den OLTP-2 Messungen wurden die Prozessor-Typen, die Prozessoranzahl sowie die Speichermenge variiert. Die folgenden beiden Bilder zeigen den Rackaufbau mit Front-End PRIMERGY RX300 S4 (Tier A), Datenbankserver PRIMERGY RX600 S4 (Tier B) und dem Festplattensubsystem FibreCAT SX40. Als Lastgeneratoren (Driver Systems) wurden zwei PRIMERGY Econel 200 verwendet. Testumgebung mit Disk-Subsystem mit 240 SAS-Festplatten Tier A PRIMERGY RX300 S4 2x Intel Xeon E5405 2.00 GHz 4 GB Memory 1x 250 GB SATA Drive Onboard 1 GBit/s Dual-Port LAN 1 GBit/s 2 Driver Systems Storage 1x PRIMECENTER Rack 20x FibreCAT SX40 Disk Drives: 120x 73 GB 15K SAS 120x 146 GB 15K SAS Tier B PRIMERGY RX600 S4 2/4x Intel Xeon X73xx Serie 64/128/256 GB Memory 2x 36 GB 15K SAS Drives 6x 146 GB 10K SAS Drives Onboard SAS RAID Controller 4x SAS RAID Controller Testumgebung mit Disk-Subsystem mit 336 SAS-Festplatten Tier A PRIMERGY RX300 S4 2x Intel Xeon E5405 2.00 GHz 4 GB Memory 1x 250 GB SATA Drive Onboard 1 GBit/s Dual-Port LAN 1 GBit/s 2 Driver Systems * Storage 2x PRIMECENTER Rack 28x FibreCAT SX40 Disk Drives: 192x 73 GB 15K SAS 144x 146 GB 15K SAS Tier B PRIMERGY RX600 S4 2/4x Intel Xeon X74xx Serie 64/128/256 GB Memory 2x 36 GB 15K SAS Drives 6x 146 GB 10K SAS Drives Onboard SAS RAID Controller 5x SAS RAID Controller Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 28 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 TPC-E Benchmark Beschreibung Der TPC-E-Benchmark misst die Performance online transaktionsverarbeitender Systeme (Online Transaction Processing oder kurz OLTP genannt). Er basiert auf einer komplexen Datenbank und einer Reihe unterschiedlicher Transaktionstypen, die auf ihr ausgeführt werden. TPC-E ist ein sowohl Hardware- als auch Software-unabhängiger Benchmark und kann damit auf jeder Testplattform – sei es eine proprietäre oder offene – implementiert werden. Neben den Messergebnissen müssen auch sämtliche Details der vermessenen Systeme und des Messvorgangs in einem Messreport (Full Disclosure Report oder kurz FDR) erläutert werden. Dadurch wird überprüfbar, ob eine Messung allen BenchmarkAnforderungen entspricht und nachvollziehbar ist. Durch TPC-E wird nicht ein einzelner Server, sondern eine recht umfangreiche Systemkonfiguration vermessen. Performance-bestimmend ist hierbei die Systemleistung des Datenbankservers mit Disk-I/O und Netzwerk-Kommunikation. Die Performance-Metrik ist tpsE. tps steht dabei für transactions per second. tpsE ist die mittlere Anzahl an Trade-Result-Transaktionen, die innerhalb einer Sekunde ausgeführt wurden. Gemäß dem TPC-E-Standard besteht eine korrekte Angabe aus der tpsE-Rate, dem zugehörigen Preis/Leistungs-Wert und dem Verfügbarkeitsdatum (Availability Date) der Konfiguration. Weitere Informationen können dem Dokument Benchmark-Überblick TPC-E entnommen werden. Benchmark-Ergebnisse Im September 2008 veröffentlichte Fujitsu Siemens Computers, heute firmierend unter Fujitsu, zwei TPC-E BenchmarkErgebnisse, für den 4-Core Prozessor Xeon X7350 und den 6-Core Prozessor Xeon X7460, in nahezu identischer Hardware- und Software-Umgebung*. Damit ist es möglich, die enorme Leistungssteigerung bei gleichzeitiger Reduzierung der Kosten zu demonstrieren. Weitere Informationen sowie der Vergleich zum Mitbewerb können der TPCWebseite (http://www.tpc.org/tpce/default.asp) entnommen werden. TPC-E 1.5.1 TPC Pricing 1.3.0 PRIMERGY RX600 S4 TPC-E Throughput 492.34 tpsE Price/Performance $ 559.88 USD per tpsE Availability Date January 1, 2009 Report Date September 10, 2008 Total System Cost $ 275,649 Database Server Configuration Operating System Microsoft Windows Server 2008 Enterprise x64 Edition Database Manager Microsoft SQL Server 2008 Enterprise x64 Edition Processors/Cores/Threads 4/16/16 Memory 128 GB SUT Tier A PRIMERGY RX300 S4 2x Intel Xeon E5405 2.00 GHz 4 GB Memory 1x 250 GB SATA Drive Onboard 1 GBit/s Dual Port LAN 1 GBit/s Tier B PRIMERGY RX600 S4 4x Intel Xeon X7350 2.93 GHz 128 GB Memory 2x 36 GB 15K SAS Drives 6x 146 GB 10K SAS Drives Onboard SAS RAID Controller 4x SAS RAID Controller 2 Driver Systems Storage 1x PRIMECENTER Rack 20x FibreCAT SX40 120x 73 GB 15K SAS Drives 120x 146 GB 15K SAS Drives Initial Database Size 1,928 GB * Redundancy Level 1 RAID-10 Storage 120 x 73 GB15K 120 x 146GB 15K 6 x 146GB 10K Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 29 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 TPC-E 1.5.1 TPC Pricing 1.3.0 PRIMERGY RX600 S4 TPC-E Throughput 721.40 tpsE Price/Performance $ 459.71 USD per tpsE Report Date September 5, 2008 Total System Cost $ 331,637 Availability Date January 1, 2009 Database Server Configuration Operating System Microsoft Windows Server 2008 Enterprise x64 Edition Database Manager Microsoft SQL Server 2008 Enterprise x64 Edition Processors/Cores/Threads 4/24/24 Memory 128 GB SUT Tier A PRIMERGY RX300 S4 2x Intel Xeon E5405 2.00 GHz 4 GB Memory 1x 250 GB SATA Drive Onboard 1 GBit/s Dual Port LAN 1 GBit/s Tier B PRIMERGY RX600 S4 4x Intel Xeon X7460 2.66 GHz 128 GB Memory 2x 36 GB 15K SAS Drives 6x 146 GB 10K SAS Drives Onboard SAS RAID Controller 5x SAS RAID Controller 2 Driver Systems Storage 2x PRIMECENTER Rack 28x FibreCAT SX40 192x 73 GB 15K SAS Drives 144x 146 GB 15K SAS Drives Initial Database Size 2,798 GB Redundancy Level 1 RAID-10 Storage 192 x 73 GB15K 144 x 146GB 15K 6 x 146GB 10K Im September 2008 ist Fujitsu Siemens Computer, heute firmierend unter Fujitsu, in der TPC-E Liste mit drei Veröffentlichungen vertreten, nachdem bereits das Messergebnis der PRIMERGY TX300 S4 im Mai 2008 eingereicht wurde. System und Prozessor TX300 S4 mit 2x Xeon X5460 RX600 S4 mit 4x Xeon X7350 RX600 S4 mit 4x Xeon X7460 © Fujitsu Technology Solutions 2009 Durchsatz 317.45 tpsE 492.34 tpsE 721.40 tpsE Preis / Performance $ 523.49 pro tpsE $ 559.88 pro tpsE $ 459.71 pro tpsE Verfügbarkeit 30. August 2008 1. Januar 2009 1. Januar 2009 Seite 30 (49) White Paper Performance Report PRIMERGY RX600 S4 Nebenstehende Graphik für 2 Sockel 4 Cores, 4 Sockel 4 Cores und 4 Sockel 6 Cores zeigt Einzelsteigerungen von +51% und +46%. Von der PRIMERGY TX300 S4 zur PRIMERGY RX600 S4 mit dem Xeon X7460 Prozessor beträgt der Leistungsgewinn +127%. Der Preis pro Performance von $560/tpsE ist bei der PRIMERGY RX600 S4 mit dem 4-Core-Prozessor Xeon X7350 etwas höher als $523/tpsE bei der PRIMERGY TX300 S4. Den besten Preis pro Performance von $460/tpsE erreicht die PRIMERGY RX600 S4 mit dem 6Core-Prozessor Xeon X7460. 800.00 800.00 Version: 2.2b, November 2009 TPC-E: TPC-E:PRIMERGY PRIMERGYRX600 RX600S4 S4vs. vs.TX300 TX300 $$600 600 tpsE tpsE $/tpsE $/tpsE 700.00 700.00 721.40 721.40 $560 $560 $523 $523 $$500 500 600.00 600.00 $460 $460 $$400 400 500.00 500.00 492.34 492.34 400.00 400.00 $$300 300 +127 +127 300.00 300.00 317.45 317.45 $$200 200 200.00 200.00 100.00 100.00 +46% +46% $$100 100 +51% +51% 0.00 0.00 $$ PPRIM RIMERGY ERGYTX300 TX300S4 S4 PPRIM RIMERGY ERGYRX600 RX600S4 S4 PPRIM RIMERGY ERGYRX600 RX600S4 S4 22xxXeo 44xxXeo 44xxXeo XeonnX5460 X5460 XeonnX7350 X7350 XeonnX7460 X7460 64 128 128 64GB GBRA RAMM 128GB GBRA RAMM 128GB GBRA RAMM Die folgende Graphik zeigt die besten TPC-E Ergebnisse (Stand 5.9.2008) und die zugehörigen Preis/PerformanceWerte für Konfigurationen mit 4 Prozessoren. Über alle TPC-E Veröffentlichungen betrachtet ist das Ergebnis der PRIMERGY RX600 S4 der viertbeste Performancewert und beste Preis/Performance-Wert. Stand 5. September 2008 1) PRIMERGY RX600 S4 721.40 tpsE, 459.71 $/tpsE, availability date 1/1/2009 2) Inspur NF520D2 702.90 tpsE, 4771.37 China Yuan (CNY) Renminbi/tpsE, availability date 11/300/2008 3) Dell PowerEdge R900 671.35 tpsE, 500.55 $/tpsE, availability date 9/15/2008 © Fujitsu Technology Solutions 2009 Seite 31 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die folgende Graphik zeigt die besten TPC-E Ergebnisse (Stand 10.9.2008) und die zugehörigen Preis/PerformanceWerte für alle Konfigurationen mit 4 Prozessoren und 4 Cores pro Prozessor. Die PRIMERGY RX600 S4 hat in dieser Klasse den besten Performance-Wert und das beste Preis/Performance-Verhältnis. Stand 10. September 2008 1) PRIMERGY RX600 S4 492.34 tpsE, 559.88 $/tpsE, availability date 1/1/2009 2) IBM System x3850 M2 479.51 tpsE, 1591.20 $/tpsE, availability date 8/30/2008 3) Dell PowerEdge R900 451.29 tpsE, 734.25 $/tpsE, availability date 8/31/2008 4) IBM System x3850 M2 419.80 tpsE, 1527.25 $/tpsE, availability date 12/07/2007 © Fujitsu Technology Solutions 2009 Seite 32 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 System R/3 Standard Application Benchmark Benchmark-Beschreibung Die Anwendungssoftware SAP System R/3 besteht aus sieben betriebswirtschaftlichen Modulen zur Verwaltung aller Standard-Geschäftsprozesse: FI Finanzen MM Materialwirtschaft SD Vertrieb (Sales und Distribution) PP Produktion und Planung WM Warenwirtschaft (Warehouse Management) PS Projektsystem HR Personalwesen (Human Resources) Diese Applikationssoftware basiert wiederum auf einer Datenbank, so dass eine R/3-Konfiguration neben der tragenden Hardware aus den Software-Komponenten Betriebssystem, Datenbank und letztendlich der R/3-Software selbst besteht. Zur Verifikation der Konfiguration und Performance eines R/3-Applikationssystems hat die SAP AG den System-R/3Standard-Application-Benchmark entwickelt. Der Benchmark analysiert die Performance des Gesamtsystems und ist somit ein Maß für die Qualität der Integration der Einzelkomponenten. Bei dem Benchmark wird zwischen einer Two-Tier- und einer Three-Tier-Konfiguration unterschieden. Bei der Two-TierKonfiguration sind die R/3-Applikation und die Datenbank auf einem Server installiert. Bei einer Three-Tier-Konfiguration können die einzelnen Komponenten der R/3-Applikation über mehrere Server verteilt sein und ein weiterer Server übernimmt die Datenbank. Eine komplette Spezifikation des von der SAP AG, Walldorf – Deutschland entwickelten Benchmarks ist unter http://www.sap.com/benchmark zu finden. Benchmark-Ergebnisse Mit der Zertifikationsnummer 2008004 belegt SAP, dass die PRIMERGY RX600 S4, ausgestattet mit 4 Xeon X7350 Prozessoren, mit SAP ECC 6.0 und SQL Server 2005 (64-bit) unter Windows Server 2003 Enterprise x64 Edition SP2 am 17. Januar 2008 folgendes Ergebnis erzielte: Number of benchmark users 3660 SD (Sales & Distribution) Average dialog response time 1.99 seconds Throughput Fully Processed Order Line items / hour 366330 Dialog steps / hour 1099000 SAPS 18320 Average DB request time (dia/upd) 0.030 sec / 0.020 sec CPU utilization central server 98% Operating System central server Windows Server 2003 Enterprise x64 Edition SP2 RDBMS SQL Server 2005 (64-bit) SAP ECC Release 6.0 Configuration Central Server PRIMERGY RX600 S4 4 Xeon X7350, 2.93 GHz, 8 MB L2 cache per chip, 64 GB RAM © Fujitsu Technology Solutions 2009 Seite 33 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Mit der Zertifikationsnummer 2007074 belegt SAP, dass die PRIMERGY RX600 S4, ausgestattet mit 4 Xeon X7350 Prozessoren, mit SAP ECC 6.0 und SQL Server 2005 (64-bit) unter Windows Server 2003 Enterprise x64 Edition SP2 auf VMware ESX Server 3.0.2 am 7. November 2007 folgendes Ergebnis erzielte: Number of benchmark users 470 SD (Sales & Distribution) Average dialog response time 1.91 seconds Throughput Fully Processed Order Line items / hour 47330 Dialog steps / hour 142000 SAPS 2370 Average DB request time (dia/upd) 0.019 sec / 0.049 sec CPU utilization of central server 12% CPU utilization inside virtual machine 99% Operating System central server Windows Server 2003 Enterprise x64 Edition SP2 on VMware ESX Server 3.0.2 (using 2 virtual CPUs) RDBMS SQL Server 2005 (64-bit) SAP ECC Release 6.0 Configuration Central Server PRIMERGY RX600 S4 4 Xeon X7350, 2.93 GHz, 8 MB L2 cache per chip, 32 GB RAM Mit der Zertifikationsnummer 2008060 belegt SAP, dass die PRIMERGY RX600 S4, ausgestattet mit 4 Xeon X7460 Prozessoren, mit SAP ECC 6.0 und SQL Server 2005 (64-bit) unter Windows Server 2003 Enterprise x64 Edition SP2 am 25. September 2008 folgendes Ergebnis erzielte: Number of benchmark users 5135 SD (Sales & Distribution) Average dialog response time 1.98 seconds Throughput Fully Processed Order Line items / hour 514330 Dialog steps / hour 1543000 SAPS 25720 Average DB request time (dia/upd) 0.016 sec / 0.015 sec CPU utilization central server 98% Operating System central server Windows Server 2003 Enterprise x64 Edition SP2 RDBMS SQL Server 2005 (64-bit) SAP ECC Release 6.0 Configuration Central Server PRIMERGY RX600 S4 4 Xeon X7460, 2.67 GHz, 3 MB L2 cache per 2 cores, 16 MB L3 cache per chip, 64 GB RAM © Fujitsu Technology Solutions 2009 Seite 34 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die beiden folgenden Grafiken verdeutlichen die Performance der PRIMERGY RX600 S4 im Vergleich zu ihren Vorgängern und anderen PRIMERGY Rack Servern. Benchmark-Umgebung* Zertifikationsnummer 2008004 2-Tier-Umgebung Last-Generator PRIMERGY RX600 4 Xeon MP 2.50 GHz, 512 KB L2 cache, 1 MB L3 cache 8 GB RAM Linux 2.6 © Fujitsu Technology Solutions 2009 R/3 & Database Server PRIMERGY RX600 S4 2 Xeon X7350, 2.93 GHz, 8 MB L2 cache per chip 64 GB PC2-5300F DDR2-SDRAM 2 x LSI MegaRAID SAS 8344 ELP controller with 256 MB cache 2 x FibreCAT SX40 21 SAS hard disks, 73 GB, 15 krpm, 2.5” Windows Server 2003 Enterprise x64 Edition SP2 MS SQL Server 2005 (64-bit) SAP ECC 6.0 SR1 Seite 35 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Zertifikationsnummer 2007074: 2-Tier-Umgebung Last-Generator PRIMERGY RX600 4 Xeon MP 2.50 GHz, 512 KB SLC, 1 MB TLC 8 GB RAM Linux 2.6 R/3 & Database Server PRIMERGY RX600 S4 2 Xeon X7350, 2.93 GHz, 8 MB L2 cache per chip 32 GB PC2-5300F DDR2-SDRAM 2 SAS hard disk, 73 GB, 15 krpm VMware ESX Server 3.0.2 Windows Server 2003 Enterprise x64 Edition SP2 MS SQL Server 2005 (64-bit) SAP ECC 6.0 SR1 Zertifikationsnummer 2008060 2-Tier-Umgebung Last-Generator PRIMERGY RX600 4 Xeon MP 2.50 GHz, 512 KB L2 cache, 1 MB L3 cache 8 GB RAM Linux 2.6 * R/3 & Database Server PRIMERGY RX600 S4 2 Xeon X7460, 2.67 GHz, 16 MB L3 cache per chip 64 GB PC2-5300F DDR2-SDRAM 2 x LSI MegaRAID SAS 8344 ELP controller with 256 MB cache 2 x FibreCAT SX40 21 SAS hard disks, 73 GB, 15 krpm, 2.5” Windows Server 2003 Enterprise x64 Edition SP2 MS SQL Server 2005 (64-bit) SAP ECC 6.0 SR1 Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 36 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Terminal Server Benchmark-Beschreibung Für die Messungen von Terminal Server gibt es verschiedene Lastsimulationswerkzeuge, deren Messergebnisse nicht miteinander vergleichbar sind, aber keinen Standard-Benchmark. Die existierenden Lastsimulatoren sind nicht in der Lage, Microsoft Terminal Services und Citrix Presentation Server unter den gleichen Bedingungen zu vermessen oder haben andere Einschränkungen. Fujitsu Technology Solutions setzt daher ein selbst entwickeltes Programm namens T4US, „Tool for User Simulation“, ein. Dieses flexible Werkzeug, das beliebige Terminal Server-artige Szenarien simulieren kann, ist unabhängig vom verwendeten Betriebssystem und von der Anwendersoftware und kann eine detaillierte Messwerterfassung von Antwortzeiten und Auslastung unterschiedlichster Systemkomponenten vornehmen. Benutzeraktivitäten wie Tastatur- und Mauseingaben sowie Bildschirmausgaben können mit Hilfe des Aufzeichnungswerkzeugs T4US-Record in Echtzeit aufgezeichnet und in einem T4US-Skript gespeichert werden. T4US-Skripte werBenutzer bei T4UST4USden während der Messung als Lastprofil verwendet. der Arbeit Record Skript Der Lastsimulator von T4US besteht aus drei Komponenten. T4US-Control steuert und überwacht den gesamten SiSystem under Test (SUT) mulationslauf zentral und erController Lastgenerator SUT mittelt Messwerte bereits während der Messung. Auf jedem T4USder Lastgeneratoren laufen Playmehrere Instanzen des T4USback TS-Client Playback. Jedes T4US-Playback „füttert“ einen Terminal T4USServer Client in Echtzeit mit PlayTastatur- und Mauseingaben back TS-Client … anhand der mit T4US-Record aufgezeichneten Skripte und überwacht die BildschirminT4UST4UST4USTerminal halte des Terminal Server Agent PlayControl Server back Clients. Durch hoch auflöTS-Client sende Timer wird so die Antwortzeit des Terminal Servers ermittelt. Auf jedem der Lastgeneratoren läuft ein T4US-Agent, der für die Kommunikation mit dem Controller zuständig ist, die Instanzen von T4US-Playback steuert und überwacht und die ermittelten Antwortzeiten zum Controller überträgt. Bei der Messung wird die Anzahl der Benutzer, die mit dem Terminal Server arbeiten, kontinuierlich erhöht. Die Antwortzeiten des Terminal Servers werden vom T4US-Controller überwacht und mit gespeicherten Referenzwerten, die in einer vorhergehenden Referenzmessung mit nur fünf Benutzern ermittelt worden sind, verglichen. Wenn sich die Antwortzeit der Anwendung so weit verschlechtert, dass sie den vorgegebenen Regeln nicht mehr genügt, wird die Messung beendet und man erhält die Benutzeranzahl als Resultat der Messung. Als Lastprofil dient ein „Medium User“, der nur mit einer Anwendung arbeitet und Daten zügig eingibt. In unserem Medium Lastprofil dient Microsoft Word als Anwendung und der Benutzer schreibt einen bebilderten Text mit einer durchschnittlichen Eingaberate von 230 Anschlägen pro Minute. Da die Benutzer versetzt gestartet werden, finden während der gesamten Messdauer kontinuierlich An- und Abmeldungen sowie Applikationsstarts statt. Es hat sich gezeigt, dass viele Messtools, z.B. das früher verwendete CSTK von Citrix, im Vergleich zur Realität zu hohe Benutzerzahlen liefern. In unseren neuen Messreihen haben wir dies berücksichtigt und können daher davon ausgehen, dass die ermittelten Benutzerzahlen denen aus realen Produktionsumgebungen nahe kommen. Bei einer Aussage von absoluten Benutzerzahlen auf einem Server muss trotzdem der kundenspezifische Last-Mix analysiert und mit den Leistungsdaten in diesem Papier in Relation gesetzt werden. Obgleich das Resultat der Messungen „Anzahl Benutzer pro Server“ ist, sollte man die Ergebnisse in erster Linie relativ betrachten, also beispielsweise „ein PRIMERGY System A ist doppelt so leistungsfähig wie ein PRIMERGY System B“ oder „die Verdopplung des Arbeitsspeichers resultiert in x% Leistungssteigerung“. Die hier gemessene „Anzahl Benutzer pro Server“ gilt für Medium Benutzer, die mit diesem Lastprofil arbeiten. Dieser synthetische Benutzer muss nicht in allen Fällen mit einem realen Benutzer korrelieren. Nähere Informationen über die T4US-Messumgebung, das Medium Lastprofil und die Resultate der anderen PRIMERGY Modelle findet man im Terminal Server Sizing Guide. … © Fujitsu Technology Solutions 2009 Seite 37 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Ergebnisse Bei der PRIMERGY RX600 S4 kommen Intel Xeon Prozessoren zum Einsatz, die es heute in zwei Ausprägungen gibt: mit zwei CPU-Kernen („Dual-Core“) oder mit vier CPU-Kernen („Quad-Core“) pro Chip. Auf diesen Prozessoren sind sowohl 32-bit- als auch 64-bit-Betriebssysteme ablauffähig. Die 32-bit- und 64-bit-Versionen von Windows Server 2003 R2 basieren auf der gleichen Code-Basis und sind daher direkt vergleichbar. Des Weiteren ist Windows Server 2003 R2 bis auf einige zusätzliche Dienste und Tools identisch mit Windows Server 2003 Service Pack 1. Für die 64-bit-Messungen wurden die gleichen Randbedingungen verwendet wie für die 32-bit-Messungen. Die simulierten Benutzer arbeiteten mit dem Medium Lastprofil unter Verwendung von Microsoft Office 2003. Für die Messungen wurde zum einen das Medium Lastprofil verwendet und ferner eine Abwandlung des Medium Lastprofils mit einer Reduzierung der An- und Abmeldevorgänge. Des Weiteren wurde auch das unterschiedliche Verhalten von Microsoft Terminal Services und Citrix Presentation Server untersucht. Alle Installationen sind Standard. Für die Messungen wurden keine Optimierungen an Server oder Client durchgeführt bis auf: Die Page-Datei des Betriebssystems wurde auf eine feste Größe von 16 GB eingestellt. Bei Citrix musste die Grenze von 100 Benutzern pro Server, die durch das eingebaute Load Balancing vorgegeben wird, aufgehoben werden. Für ein Terminal Server-System sind die folgenden Performance-relevanten Faktoren maßgeblich: Rechenleistung Arbeitsspeicher Disk-Subsystem Netzwerk Netzwerk Einen erheblichen Einfluss auf eine Infrastruktur, die auf Terminal Server basiert, hat die zugrunde liegende Netzwerkinfrastruktur. Da wir hier die Leistungsfähigkeit eines einzelnen Terminal Servers diskutieren, wurde das Netzwerk so dimensioniert, dass es keinen Engpass darstellt. Disk-Subsystem Eine weitere Performance-relevante Komponente ist das Disk-Subsystem. In der hier verwendeten Messumgebung wird das Betriebssystem inklusive Swap-File auf einer Partition und die Daten der Benutzer auf einer zweiten Partition des Terminal Servers gespeichert. Die Partitionen lagen dabei auf je einem RAID 0 Verbund von jeweils zwei Festplatten. Diese Konfiguration wird verwendet, damit die Messergebnisse zwischen den verschiedenen PRIMERGY Systemen vergleichbar sind und das Disk-Subsystem nicht zum Engpass bei der Messung wird. Dies entspricht jedoch nicht zwingend der realen Kundenkonfiguration, denn dort wird man die Benutzerdaten typischerweise auf entsprechende DiskSubsysteme oder externe File Server legen. Um einen maximalen Durchsatz zu erreichen, wurden alle Caches, auch die Write-Caches, eingeschaltet. Write-Caches der Festplatten tragen erheblich zur Performance-Steigerung bei, und es empfiehlt sich, diese bei allen Festplatten vorhandene Funktionalität auch im produktiven Einsatz zu nutzen. Dabei ist die Verwendung einer USV zum Schutz gegen Stromausfälle und damit verbundenem Datenverlust empfehlenswert. Rechenleistung Nachfolgend sind die vermessenen Prozessoren mit ihren technischen Daten spezifiziert: Xeon E7220, 2.93 GHz, 1067 MHz Front-Side-Bus, 2 x 4 MB L2-Cache, 80 Watt Xeon E7310, Xeon E7330, Xeon X7350, 1.60 GHz, 2.40 GHz, 2.93 GHz, 1067 MHz Front-Side-Bus, 1067 MHz Front-Side-Bus, 1067 MHz Front-Side-Bus, 2 x 2 MB L2-Cache, 2 x 3 MB L2-Cache, 2 x 4 MB L2-Cache, 80 Watt 80 Watt 130 Watt Der Prozessor Xeon E7220 hat zwei Kerne pro Chip (Dual-Core), die Prozessoren der Reihe x73xx dagegen haben vier Kerne pro Chip (Quad-Core). Der L2-Cache beträgt bei dem Dual-Core Xeon E7220 Prozessor 4 MB pro Core, also 8 MB für zwei Cores. Bei den Quad-Core Xeon x73xx Prozessoren wird der L2-Cache von je zwei Cores gemeinsam benutzt und mit einer höheren CPU-Taktfrequenz steht bei diesem Prozessortyp auch ein größerer L2-Cache von bis zu 8 MB zur Verfügung. So hat der Xeon X7350 Prozessor beispielsweise insgesamt 8 MB L2-Cache, wobei jeweils zwei Cores gemeinsam Zugriff auf einen 4 MB L2-Cache haben. Hyper-Threading wird bei den aktuellen Xeon Prozessoren nicht angeboten. Bei der Betrachtung der Rechenleistung waren alle Systeme mit genügend Arbeitsspeicher ausgebaut, damit diese Komponente keinen Engpass darstellt. Die Messungen erfolgten unter 64-bit Windows 2003 R2. In Anwendungsszenarien, in denen heute die Einschränkungen der 32-bit Architektur hinsichtlich fehlender interner Betriebssystemstrukturen oder beschränktem virtuellen Adressraum eine Ausnutzung der CPU-Ressourcen unmöglich macht, profitiert man vom Umstieg auf ein 64-bit Betriebssystem. Gerade modernen Servern mit einer hohen Anzahl an leistungsfähigen Dual- oder Quad-Core Prozessoren, wie der PRIMERGY RX600 S4, ist die 32-bit Variante von Windows nicht mehr gewachsen und es sollte die moderne 64-bit Version eingesetzt werden, um die Leistungsfähigkeit der Hardware effektiv nutzen zu können. Eine ausführliche Diskussion von Terminal Server unter x64 findet sich in dem Dokument Terminal Server Sizing Guide - 64-bit Technologie (siehe Literaturverzeichnis). © Fujitsu Technology Solutions 2009 Seite 38 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Die folgende Grafik stellt alle Messergebnisse der PRIMERGY RX600 S4 mit unterschiedlicher Prozessorausstattung dar. Das mit dem „Medium User Lastprofil“ unter Microsoft Terminal Server gemessene Leistungsspektrum erstreckt sich von 162 Benutzern (ein Xeon E7220) bis zu 272 Benutzern (vier Xeon X7350). Mit Citrix Presentation Server 4.0 liegt die Benutzeranzahl generell etwa 7% niedriger, was der Vergleich der Messungen mit dem Xeon E7220 Prozessor zeigt. Die Erklärung liegt in dem etwas höheren Ressourcenverbrauch pro Citrix Benutzer aufgrund zusätzlicher Funktionalität. Mit steigender Taktfrequenz und größerem L2Cache erhöht sich auch die Benutzeranzahl, die das System unter Terminal Server bedienen kann. Zwei Dual-Core Xeon E7220 Prozessoren liefern dabei etwas mehr Leistung als ein Quad-Core Xeon X7350 Prozessor, was durch den größeren L2-Cache des Dual-Core Prozessors zu erklären ist. Auffallend bei den Messergebnissen ist, dass in dem oberen Leistungsspektrum der Prozessoren die Leistungssteigerung durch höhere Taktfrequenz oder einen weiteren Prozessor kaum noch in eine größere Benutzeranzahl umgesetzt werden kann. Die Verdopplung der Prozessoranzahl führt nur zu einer Leistungssteigerung in einem Bereich von ca. 52% - 11% beim Hinzufügen eines zweiten Prozessors und ist bei einer Erweiterung auf vier Prozessoren noch niedriger. Das liegt zum einen daran, dass eine Steigerung beispielsweise von vier auf acht Prozessorkerne weniger effektiv ist als von zwei auf vier. Eine genauere Analyse zeigte darüber hinaus, dass bereits bei den Messungen mit zwei Quad-Core Prozessoren deren Kerne nur zu ca. 40% - 60% ausgelastet waren, obwohl weder ein Netzwerk- noch ein Plattenengpass vorlag, d.h. der Benchmark konnte die CPU-Leistung des Systems nicht nutzen. Eine Begründung für dieses Verhalten ist in dem Lastprofil des Benchmarks zu finden: Als Lastprofil dient ein „Medium User“, der nur mit einer Anwendung arbeitet und Daten zügig eingibt. In unserem Medium Lastprofil dient Microsoft Word als Anwendung und der Benutzer schreibt einen bebilderten Text mit einer durchschnittlichen Eingaberate von 230 Anschlägen pro Minute. Dies dauert ca. 15 Minuten. Dann loggt sich der Benutzer aus und wieder ein und bearbeitet erneut einen Text. Da die Benutzer versetzt gestartet werden, finden während der gesamten Messdauer kontinuierlich An- und Abmeldungen sowie Applikationsstarts statt. Genau diese vielen An- und Abmeldungen führen dazu, dass die CPU-Leistung nicht voll genutzt werden kann. Deshalb wurden Messungen auf ausgewählten Prozessoren mit einem leicht modifizierten Lastprofil durchgeführt. Jeder Benutzer schreibt nun zweimal einen bebilderten Text, meldet sich also nur ca. alle halbe Stunde ab und wieder an, was zu einer Halbierung der An- und Abmeldevorgänge führt. Die geänderte Last bewirkt natürlich auch andere maximale Benutzeranzahlen. Interessant ist aber, dass durch die geänderte Last die Prozessoren insbesondere bei den Messungen mit zwei und vier Prozessoren besser ausgelastet werden konnten (ca. 60% - 80% bei zwei Prozessoren) und sich damit auch die gemessene Skalierung verbesserte, beispielsweise bei den Quad-Core Prozessoren von zwei auf vier CPUs von maximal 8% auf maximal 21%. © Fujitsu Technology Solutions 2009 Seite 39 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Arbeitsspeicher Den stärksten Einfluss auf die Leistungsfähigkeit eines Terminal Servers übt der Arbeitsspeicher aus. Dabei spiegelt sich dies insbesondere in der Antwortzeit wider, denn Windows verschafft sich bei Bedarf weiteren virtuellen Speicher durch Auslagern (Swappen) von momentan nicht benötigten Daten aus dem Arbeitsspeicher (RAM) in die Auslagerungsdatei (Swap-File) auf Festplatte. Da Plattenzugriffe aber mindestens um die Größenordnung 1000 langsamer sind als Speicherzugriffe, führt dies unmittelbar zum Zusammenbruch der Leistung und zu einem rapiden Anstieg der Antwortzeiten. Bei Terminal Server wächst der Speicherbedarf bei allen PRIMERGY Systemen linear mit der Anzahl der Benutzer, dies ist auch bei der PRIMERGY RX600 S4 der Fall, wie die zwei Grafiken zum 32-bit- und 64-bit-System veranschaulichen. Trägt man den belegten Speicher, den „Committed“ Speicher und das „Working Set“ grafisch auf, so erkennt man einen linearen Verlauf, der mit steigender Benutzeranzahl wächst. Der Anstieg der Geraden beim 64-bit-Betriebssystem ist jedoch steiler. Das 32-bit-Betriebssystem (Windows Server 2003 Enterprise Edition mit Microsoft Terminal Services) hat einen Grundbedarf von 128 MB, und pro Benutzer bzw. Client werden weitere 20 MB benötigt. Der Grundbedarf des 64-bit-Systems erhöht sich auf ca. 150 MB. In dem Messszenario arbeiten allerdings alle Benutzer mit der gleichen Applikation, daher zeigen alle Benutzergruppen den gleichen Speicherbedarf. Der Speicherbedarf ist jedoch von den verwendeten Applikationen abhängig und muss kundenspezifisch ermittelt werden. Hierbei sollte man beachten, dass die Gesamtleistung des Systems durch die schwächste Komponente bestimmt wird. Hinzu kommt, dass durch die Architektur des 32-bit-Betriebssystems die internen Strukturen und der virtuelle Adressraum eingeschränkt sind, so dass man den maximalen Speicherausbau der PRIMERGY RX600 S4 von 128 GB für Terminal Server unter 32-bit nicht ausnutzen kann. Insbesondere Anwendungen, die Speicherund nicht CPU-limitiert sind, profitieren von der 64-bit-Architektur. Dabei sollte aber auch nicht verschwiegen werden, dass 64-bit-Betriebssysteme und 64-bit-Anwendungen in der Regel mehr Arbeitsspeicher benötigen als die 32-bitVersionen, denn alle Adresszeiger sind bei 64bit doppelt so breit. Im Extremfall führt das bei 64-bit zu einem doppelten Speicherbedarf im Vergleich zu 32-bit. Wie die nebenstehende Grafik zeigt, belegt der gleiche Benutzer, der den Desktop gestartet hat und mit Microsoft Word 2003 arbeitet, auf dem 64-bit-System ca. 60% mehr Arbeitsspeicher. Die Anwendung, mit der der Terminal Server Benutzer arbeitet, ist in beiden Fällen Microsoft Word, welches heute nur als 32-bit-Version existiert. Die Microsoft Terminal Services liegen als Be(Medium Lastprofil, Microsoft Office 2003, Microsoft Terminal Services) standteil des Betriebssystems in einer 64-bitVersion vor. © Fujitsu Technology Solutions 2009 Seite 40 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Da meist der Arbeitsspeicher der limitierende Faktor ist, kann mit der Formel der benötigte Arbeitsspeicher bei einer vorgegeben Anzahl Benutzer, bzw. die Anzahl Benutzer bei einer vorgegeben Speichermenge berechnet werden. Resümee Das PRIMERGY System RX600 S4 ist ein leistungsfähiger und ausbaubarer Server mit bis zu 16 CPU-Kernen, der im Scale-Up-Szenario seinen optimalen Platz hat. Terminal Server Umgebungen werden in der Praxis eher als Terminal Server Farm in einem Scale-Out-Szenario auf Basis von Dual-Socket-Systemen aufgebaut, bei dem eine exzellente Skalierung durch einfaches Hinzufügen weiterer Server erreicht wird. Folgende Grafik zeigt die PRIMERGY RX600 S4 im Vergleich zu anderen PRIMERGY Systemen. In dieser Darstellung wird die höchste erreichbare Benutzeranzahl jedes PRIMERGY Systems als Maximalwert verwendet, die mit einer optimalen Hardwarekonfiguration und dem jeweils besten Betriebssystem (32-bit oder 64-bit) erreicht wurde. Es gibt keine scharfe Grenze, wo die Leistung eines Modells endet und die des nächst leistungsfähigeren beginnt. Jedes PRIMERGY System deckt eine gewisse Bandbreite ab, wobei es Überlappungen zwischen den Systemen gibt. Die PRIMERGY RX600 S4 als High-End Serversystem kann in Verbindung mit einem 64-bit Betriebssystem mehr Benutzer bedienen als unter einem 32-bit Betriebssystem, wo die Limitierung der Kernel-Strukturen die Benutzeranzahl begrenzt. © Fujitsu Technology Solutions 2009 Seite 41 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Unten stehende Grafik zeigt die Umgebung, in der die Terminal Server Performance Messungen durchgeführt wurden. Ein Lastgenerator kann eine Vielzahl von Benutzern simulieren, da die Anwendungen auf dem Server ablaufen. Es werden bei den Terminal Server Protokollen nur Tastatureingaben und Mausklicks zum Server und Änderungen des Bildschirminhalts zum Client übertragen. Daher wird keine große Netzwerk-Bandbreite benötigt. Die Anbindung der Lastsimulatoren an den Terminal Server (auch „System under Test“ (SUT) genannt) erfolgte über ein 100-MBit-Ethernet-Netzwerk, wobei der Terminal Server über den Gigabit-Uplink angeschlossen war. Die Benutzerprofile wurden auf dem Terminal Server gespeichert. Auch die Dateien der Benutzer, die während der Messung gelesen und geschrieben wurden, lagen lokal auf dem Terminal Server. Der sich auch im SUT-Netzwerk befindende Infrastruktur-Server stellt dem zu vermessenden Terminal Server Basisdienste wie Active Directory, DNS und Terminal Services Licensing zur Verfügung. Ein Login der simulierten Benutzer fand immer gegen das Active Directory statt. Controller für die Simulation Lastgeneratoren Simulationsnetzwerk switched 100 MBit PRIMERGY C200 T4US-Control > 20 PRIMERGY Dual Server Windows Server 2003 TS-Client T4US-Agent, T4US-Playback Jeder simuliert bis zu 30 Benutzer System Under Test (SUT): Der Terminal Server wurde mit den Microsoft Terminal Services betrieben, die im Windows Betriebssystem enthalten sind. Als Terminal Server Anwendung wurde Microsoft Office 2003 verwendet. Auf dem Terminal Server wurde keine weitere Software installiert. Hardware Modell Prozessor Speicher Netzwerk-Interface Disk Subsystem Software Betriebssystem Version Netzwerkprotokoll Disk Organisation Terminal Server Software Anwendung * PRIMERGY RX600 S4 1 - 4 Xeon E7220, E7310, E7330, X7350 bis 16 GB 1 × 1-GBit LAN Intel 82575EB (onboard) 1 × SAS Controller (LSI1078) 4 × 2.5" SAS-Festplatten, 15 krpm, 2 × RAID 0 Windows Server 2003 Enterprise Edition R2 Windows Server 2003 Enterprise x64 Edition R2 Service Pack 1 (Build 1830) TCP/IP 1 Volume für das Betriebssystem 1 Volume für die Daten Microsoft Terminal Services Citrix Presentation Server 4.0 x64 Microsoft Office 2003 (32-bit) System under test (SUT) InfrastrukturServer SUTNetzwerk switched 100 MBit PRIMERGY Windows Server 2003 Enterprise Edition PRIMERGY C200 Windows Server 2003 Active Directory Terminal Server Licensing Service T4US Messumgebung: Die Lastgeneratoren simulieren eine Vielzahl von Benutzern, die mit dem Terminal Server arbeiten. Ein T4US-Controller steuert und überwacht den gesamten Simulationslauf. Der Infrastruktur-Server stellt Basisdienste zur Verfügung. Lastgenerator-Hardware Modell PRIMERGY RX100 S3 # Lastgeneratoren 20 Prozessor Pentium D 940 Memory 2 GB Netzwerk-Interface 2 × 1 GBit LAN T4US Controller- und Infrastrukturserver-Hardware Model PRIMERGY C200 Prozessor 2 × Pentium III 1.40 MHz Memory 1.5 GB Netzwerk-Interface 2 × 100 MBit LAN Software Betriebssystem Windows Server 2003 Standard Edition SP1 Netzwerkprotokoll TCP/IP RDP Client 5.2.3790.1830 ICA Client 9.00.32649, 32-bit T4US Version 3.3 T4US Lastprofil Medium Lastprofil Medium Lastprofil (2 × Word) Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 42 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 vServCon Benchmark-Beschreibung vServCon ist ein bei Fujitsu Technology Solutions verwendeter Benchmark zum Vergleich von Serverkonfigurationen mit Hypervisor in Bezug auf ihre Eignung für Server-Konsolidierung. Hiermit ist sowohl der Vergleich von Systemen, Prozessoren und I/O-Technologien möglich, wie auch der Vergleich von Hypervisor-en, Virtualisierungsformen und zusätzlichen Treibern für virtuelle Maschinen. Bei Fehler! Unbekannter Name für Dokument-Eigenschaft. handelt es sich um ein Framework, das bereits etablierte Benchmarks zusammenfasst, um die Last einer konsolidierten und virtualisierten Serverumgebung nachzubilden. Es kommen drei bewährte Benchmarks zum Einsatz, die die Anwendungsszenarien Datenbank, Applikationsserver und Webserver abdecken: Anwendungsszenario Benchmark Anzahl logische CPU-Cores Memory Database Sysbench (angepasst) 2 1.5 GB Java-Applikationsserver SPECjbb (angepasst, mit 50% - 60% Last) 2 2 GB Webserver WebBench 1 1.5 GB Jeder der drei Standard-Benchmarks wird jeweils einer dedizierten virtuellen Maschine (VM) zugeordnet. Hinzu kommt eine vierte, so genannte Idle-VM. Diese vier VMs bilden eine »Tile« (engl. Kachel). Je nach Leistungsfähigkeit der zugrunde liegenden Server-Hardware kann es notwendig sein, dass im Rahmen einer Messung auch mehrere identische Tiles System Under Test parallel gestartet werden müssen, um eine maximale Performance-Bewertungszahl (Score) zu erreichen. Tile Tile Tile Jedes der drei vServCon-Anwendungsszenarien ergibt für jede VM VM ein spezifisches Benchmark-Ergebnis in Form von VM VM VM Web Database Java Idle applikationsspezifischen Transaktionsraten. Um hieraus einen Score für eine gegebene Tile-Anzahl zu bilden, werden die einzelnen Benchmark-Ergebnisse in Relation zu den jeweiligen Loadgen. Ergebnissen eines definierten Referenzsystems gesetzt, einer Loadgen. Load gen. Web PRIMERGY RX300 S3. Die daraus resultierenden diWeb Web mensionslosen Performance-Werte werden dann unter Berücksichtigung der Anzahl der virtuellen CPUs und der MemoryGröße gewichtet und über alle VMs und Tiles aufsummiert. Das Framework Controller Ergebnis ist der vServCon-Score für die betrachtete Tile-Anzahl. Diese Prozedur wird – in der Regel beginnend mit eins - für steigende Tile-Anzahlen durchgeführt, bis keine signifikante Steigerung dieses vServCon-Scores mehr eintritt. Der finale vServCon-Score ist dann das Maximum über die vServCon-Scores aller Tile-Anzahlen. Er spiegelt für eine Serverkonfiguration mit Hypervisor den maximalen summarischen Konsolidierungs-Nutzen über alle VMs wider. Ferner werden bei vServCon die Gesamt-CPU-Auslastung des Hosts (VMs und alle übrigen CPU-Aktivitäten), MemoryVerbrauch und Leistungsaufnahme dokumentiert. Der Score soll eine virtualisierungs-spezifische Leistung eines Systems ausdrücken, die man bis zur möglichst vollständigen Ausnutzung der CPU-Ressourcen mittels vieler VMs erzielen kann. Der Score wäre also nicht aussagekräftig, wenn während einer vServCon-Messung schon bei einer unnötig kleinen Tile-Anzahl eine Limitierung eintreten würde, z. B. durch eine nicht ausreichend dimensionierte Disk-Anbindung. Deswegen wird die Messumgebung für vServCon-Messungen so ausgelegt, dass nur die CPU der begrenzende Faktor ist, und keine Limitierungen durch andere Ressourcen eintreten. Zu diesem Zweck und zu Zwecken der Vergleichbarkeit wird für alle benutzten VMs in vServCon ein genau festgelegtes Profil für die virtuellen Hardware-Ressourcen, das Betriebssystem und die Anwendungen verwendet. Eine ausführliche Beschreibung von vServCon ist zu finden im Übersichtsdokument: vServCon - Benchmark Überblick. © Fujitsu Technology Solutions 2009 Seite 43 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Ergebnisse Die PRIMERGY RX600 S4 ist durch ihre vielfältige Ausbaufähigkeit auf bis zu 24 Prozessorkerne, 128 GB Hauptspeicher und sieben freie I/O-Steckplätze besonders für höhere Anzahlen von Anwendungs-VMs geeignet. So ist z. B. auf Basis des zuvor beschriebenen vServCon-Profils bei Vollausbau mit vier Xeon X7460 Prozessoren durch 18 echte Anwendungs-VMs (entsprechend sechs Tiles) eine nahezu optimale Auslastung der CPU-Ressourcen des Systems möglich. Das erste Diagramm veranschaulicht dies für die PRIMERGY RX600 S4 durch die vServCon-Scores in Abhängigkeit vom Prozessor und der Anzahl der Tiles. Zusätzlich sind die jeweiligen CPU-Auslastungen des Hosts eingetragen. Im Bereich um 90% liegen typischerweise die Tile-Anzahlen mit optimaler CPU-Ausnutzung; jenseits davon liegt der Überlastbereich, in dem die Virtualisierungs-Performance nicht mehr zunimmt bzw. wieder abnimmt. Ein wesentlicher Aspekt der Server-Konsolidierung ist die Einsparung elektrischer Energie. So kann man z. B. beim Xeon E7430 Prozessor allein durch die Verdreifachung der Anzahl der echten Anwendungs-VMs von 3 auf 9 die Virtualisierungs-Performance um 162% steigern, während gleichzeitig die elektrische Leistungsaufnahme nur um ca. 14% ansteigt. Die Power-Aspekte für die oben dargestellten Prozessoren veranschaulicht das folgende Diagramm. Darin sind zum einen die absoluten Unterschiede in der Leistungsaufnahme dargestellt, zum anderen das Verhältnis vServCon-Score zur Leistungsaufnahme in kW, im Diagramm kurz als »vServCon power score« bezeichnet. © Fujitsu Technology Solutions 2009 Seite 44 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Im Vorangegangenen wurde die Virtualisierungs-Performance des Systems in Gänze betrachtet. Im Folgenden soll noch die Performance aus Sicht einer einzelnen Anwendungs-VM in der beschriebenen virtualisierten Umgebung diskutiert werden. Dazu wird im Folgenden exemplarisch das System mit dem Prozessor Xeon X7460 betrachtet. Wenn die Anzahl der AnwendungsVMs im optimalen Bereich aus Sicht der Gesamtperformance liegt, ist die Performance einer einzelnen VM schon merklich geringer als im Betrieb in Niedriglastsituationen. Das nebenstehende Diagramm verdeutlicht dies durch die relative Performance im Verhältnis zum Referenzsystem bei einer einzelnen Anwendungs-VM von jedem der drei Typen für wachsende VMAnzahlen. Die jeweils erste Säule einer Gruppe betrachtet eine VM im Verbund von insgesamt drei Anwendungs-VMs (1 Tile), die jeweils zweite im Verbund von 6 Anwendungs-VMs (2 Tiles) usw. Die Werte sind sowohl einzeln dargestellt als auch summiert über alle VMs des jeweiligen Typs durch die Höhe der gestapelten Säule. Die Performance-Abnahme in der Nähe des GesamtOptimums zeigt systemübergreifend ein generelles Verhalten: Es fällt am mildesten für die CPU-intensive JAVA-VM aus, ein bisschen deutlicher für die Netzwerk-I/O-intensive Web-VM und am stärksten für die DB-VM. Jenseits des Optimums bricht die Performance der DB-VM erkennbar ein. Bezüglich der VM-Anzahlen auf einem Virtualisierungs-Host muss man im konkreten Fall die Performance-Anforderungen einer einzelnen Anwendung gegen die Gesamtanforderungen abwägen. Wenn man Anwendungen in virtuellen Maschinen mit größtmöglicher Performance betreiben will, lohnt sich ein genauer Blick auf solche Anwendungsprofile, die erhöhte Anforderungen an eine Virtualisierungslösung stellen. Hierzu gehören Anwendungsszenarien wie Webserver, die das Memory-Management stark beanspruchen. Der erste Optimierungsweg setzt beim Anwendungsszenario an. Am Beispiel eines Webservers mit dynamischen Seiten lässt sich eindrucksvoll der Einfluss der Realisierung der dynamischen Inhalte auf die Performance aufzeigen. Dynamische Inhalte sind häufig als CGIProgramme (bzw. Skripte) realisiert. Diese CGI-Programme erzeugen bei jedem Aufruf einen neuen Prozess, was für den Hypervisor recht aufwändig ist. Alternativ können dynamische Inhalte durch den Einsatz von PHP, ASP oder ähnlichen Methoden realisiert werden, die keinen Overhead durch neu erzeugte Prozesse bewirken. Dies lässt sich in vServCon simulieren, indem im Lastprofil der Webserver-VM der Anteil der HTTP-Requests, die solche CGI-Programme starten, variiert wird. Die Auswirkungen auf die Performance verdeutlicht das nebenstehende Diagramm für einen unmodifizierten Linux-Kernel in der VM. Die beiden verglichenen Lastprofile sind: Lastprofile für Webserver STD-CGI Definiert, dass 16% aller HTTP-Requests und 2% aller HTTP-SSL-Requests auf dem Webserver ein CGI-Programm starten. Beansprucht eine Virtualisierungslösung stark. MIN-CGI STD-CGI-Profil ohne die 16% CGI-HTTP-Requests. Durch diese Verringerung der Zahl der CGI-Prozesse wird ein Webserver entlastet; sehr viel mehr noch aber reduziert dies den Aufwand innerhalb der Virtualisierungslösung. Durch beide Effekte zusammen wird soviel zusätzliche CPU-Leistung verfügbar, dass sich die Web-Transaktionsrate für VMs deutlich erhöht. Alle zuvor beschriebenen Messungen benutzen das STD-CGI-Profil als Standard. © Fujitsu Technology Solutions 2009 Seite 45 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Der zweite Optimierungsweg setzt unterhalb der Anwendungsebene in der VM an. Prinzipiell möglich sind PerformanceSteigerungen sowohl durch entsprechende Prozessorfunktionalitäten, als auch durch einen geeigneten Hypervisor oder auch durch ein speziell auf den Hypervisor angepasstes Betriebssystem oder Treiber in der VM. Eine so angepasste VM unterstützt den Hypervisor aktiv in seiner Arbeit, wodurch sich der Virtualisierungs-Overhead teilweise signifikant reduzieren lässt. Das Potential dieses Optimierungsweges soll demonstriert werden durch einen Performance-Vergleich einer einzeln vermessenen Webserver-VM mit zwei verschiedenen VM-Kerneln. Der eine Kernel ist der unmodifizierte LINUX-Kernel, und der andere ist ein für Virtualisierung angepasster Kernel. Letzterer ist der Standard für die zuvor beschriebenen Messungen, wenn nichts anderes gesagt wurde. Das nebenstehende Ergebnisdiagramm vergleicht die so erzielten Performance-Werte für beide Kernel und die beiden o.g. Lastprofile. Interessant ist hierbei das STD-CGI-Lastprofil, das die Qualität der Virtualisierungskonfiguration besonders beansprucht. Hierbei ist der prozentuale Abstand zwischen der Web-Transaktionsrate für den unmodifizierten Kernel und den angepassten Kernel ein reziprokes Maß für die Qualität der Virtualisierungsunterstützung durch die CPU. Je besser die CPU hier unterstützt, umso weniger können der Hypervisor oder modifizierte VM-Kernel noch erreichen. Bei den für die PRIMERGY RX600 S4 freigegebenen Prozessoren liegen die prozentualen Performance-Abstände zwischen den Kerneln im Bereich 64% - 72%. Für das Referenzsystem ist dieser Prozentsatz 71%. Das MIN-CGI-Lastprofil simuliert den Fall, dass bereits auf Anwendungsebene optimiert worden ist (bessere Web-Schnittstelle). Es zeigt, dass sich hierbei die Notwendigkeit eines angepassten Kernels signifikant verringert. Wählt man beide Optimierungswege, so profitiert man von beiden Effekten und erzielt die bestmögliche Performance. © Fujitsu Technology Solutions 2009 Seite 46 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Benchmark-Umgebung* Die Messungen wurden mit der im Folgenden beschriebenen Umgebung durchgeführt: Fehler! Unbekannter Name für Dokument-Eigenschaft. Benchmark Environment System under Test (SUT) 1 GBit LAN Tile n … VM Web VM Database VM Java VM Idle VM Web VM Database VM Java VM Idle Tile 1 1 GBit LAN Fehler! Unbekannter Name für DokumentEigenschaft. Framework Controller Disk-Subsystem FibreCAT CX500 Load generator BX600 SUT-Hardware Modell PRIMERGY RX600 S4 Prozessor 4 × Xeon E7330 (2.40 GHz) 4 × Xeon X7350 (2.93 GHz) 4 × Xeon E7430 (2.13 GHz) 4 × Xeon E7450 (2.40 GHz) 4 × Xeon X7460 (2.67 GHz) Speicher 32 GB Netzwerk-Interface 2 × 1-GBit LAN; eins für Load, eins für Control Disk Subsystem Es wurden keine internen Festplatten verwendet, sondern ausschließlich ein Storage-System FibreCAT CX500. Pro Tile eine 50 GB LUN für die »virtual disk files« der VMs. Jede LUN ist ein RAID 0 Verband aus je 6 Seagate ST373454Disks (15 krpm) Storage-Anbindung Über FC-Controller Qlogic QLE 2460 SUT-Software Betriebssystem Version BIOS Hypervisor VMware ESX Server. Für Hexa-Core Prozessoren: Vmkernel.Boot.cpuCellSize = 6 (*) Version 3.5.0 build 110268, Update 2 Version 1.16A; Default-Einstellungen SUT: Virtualisierungsspezifisches Webserver-VM-Kernel SLES10 SP2, 32-bit, 2.6.16.60-0.23-smp original Webserver-VM-Kernel SLES10 SP2, 32-bit, 2.6.16.60-0.23-vmi angepasst (Kernel mit VMware-VMI-Interface) Generelles Beschrieben im Benchmark Überblick vServCon Lastgenerator-Hardware Modell Pro Tile 4 Serverblades in PRIMERGY BX600 S2 Chassis Prozessor X86 Family 15, Model 4, Stepping 1, Genuine Intel 3000 MHz Memory 1 – 2 GB Netzwerk-Interface Je 2 × 1 GBit LAN Betriebssystem W2K3 EE (*) Performance-relevant, siehe: http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1007361 * Einige Komponenten sind möglicherweise nicht in allen Ländern / Vertriebsregionen verfügbar. © Fujitsu Technology Solutions 2009 Seite 47 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Literatur PRIMERGY Systems http://de.ts.fujitsu.com/primergy PRIMERGY RX600 S4 Datenblatt http://docs.ts.fujitsu.com/dl.aspx?id=0f5f9d85-529f-460c-8877-feab81341e76 PRIMERGY Performance http://de.ts.fujitsu.com/products/standard_servers/primergy_bov.html OLTP-2 Benchmark Überblick OLTP-2 http://docs.ts.fujitsu.com/dl.aspx?id=743d7d46-56e8-41d2-9d50-9ab29ccf4d18 http://www.sap.com/benchmark SAP SD Benchmark Überblick SAP SD http://docs.ts.fujitsu.com/dl.aspx?id=ae039b1d-73d8-4946-ae60-08dcef54cfa8 http://www.spec.org/osg/cpu2006 SPECcpu2006 Benchmark Überblick SPECcpu2006 http://docs.ts.fujitsu.com/dl.aspx?id=04351fd2-8a69-42a3-ba1c-4342dcc89b89 http://www.spec.org/jbb2005 SPECjbb2005 Benchmark Überblick SPECjbb2005 http://docs.ts.fujitsu.com/dl.aspx?id=e8477909-3a17-40dd-8c64-ff338b6457a0 http://www.spec.org/web2005 SPECweb2005 StorageBench Benchmark Überblick SPECweb2005 http://docs.ts.fujitsu.com/dl.aspx?id=e8d3b50b-04c5-4bcd-b076-2b24dd0757ee Performance Report – Modular RAID für PRIMERGY http://docs.ts.fujitsu.com/dl.aspx?id=2d0d20d8-7c14-407c-b904-6112f4c7821c http://www.iometer.org Terminal Server Sizing Guide (DE) http://docs.ts.fujitsu.com/dl.aspx?id=278825c9-7644-49c1-9848-f2a5c8c694cd Terminal Server Sizing Guide - 64-bit Technologie (DE) http://docs.ts.fujitsu.com/dl.aspx?id=5216e667-a708-414f-b486-a39fb56a07c1 Terminal Server Microsoft Windows 2003 und Terminal Services http://www.microsoft.com/terminalserver Citrix http://www.citrix.de http://www.tpc.org/tpce TPC-E vServCon Benchmark Überblick TPC-E http://docs.ts.fujitsu.com/dl.aspx?id=08c95eef-5f18-4453-bed6-cbf9363f4e2f Benchmark Überblick vServCon http://docs.ts.fujitsu.com/dl.aspx?id=214ee9dc-9239-4985-86e4-f0f9ac78ea25 © Fujitsu Technology Solutions 2009 Seite 48 (49) White Paper Performance Report PRIMERGY RX600 S4 Version: 2.2b, November 2009 Kontakt PRIMERGY Hardware PRIMERGY Product Marketing mailto:[email protected] PRIMERGY Performance und Benchmarks PRIMERGY Performance und Benchmarks mailto:[email protected] Lieferung vorbehaltlich Verfügbarkeit, technische Änderungen ohne Vorankündigung möglich, Korrektur von Irrtümern und Auslassungen vorbehalten. Alle angegebenen Konditionen (TCs) sind empfohlene Einstandspreise in Euro ohne MwSt. (sofern im Text nicht anderweitig angegeben). Sämtliche verwendete Hardware- und Software- Namen sind Handelsnamen und/oder Warenzeichen ihrer jeweiligen Hersteller. Copyright © Fujitsu Technology Solutions GmbH 2009 Herausgegeben durch: Internet: http://ts.fujitsu.com/primergy Enterprise Products PRIMERGY Server PRIMERGY Performance Lab mailto:[email protected] Extranet: http://partners.ts.fujitsu.com/com/products/serv ers/primergy