Fast wie Neu, Tuning eines bestehenden Warehouses DOAG 17.11.2011 Jörg Okonek E-Plus Mobilfunk GmbH & Co. KG E-Plus-Straße, 1 D-40472 Düsseldorf Telefon: Fax: E-Mail Internet: +49 (0) 211-4483387 +49 (0) 211-4483404 [email protected] www.eplus.de Agenda • E-Plus Gruppe • Situation • Motivation • Potentiale • Infrastruktur • Migration • Ergebnisse Seite 2 E-Plus Gruppe im Überblick 1993: Gründung der E-Plus Mobilfunk GmbH & Co. KG 1994: Marktstart Seit 2002: niederländische KPN alleiniger Gesellschafter Seit 2006: der am stärksten und profitabelsten wachsende Netzbetreiber 3,2 Milliarden Euro Jahresumsatz 1,4 Milliarden Euro EBITDA Über 21,5 Millionen Kunden Über 2.650 Mitarbeiter Beteiligungen (Auswahl): E-Plus Retail GmbH, Düsseldorf simyo GmbH, Düsseldorf AY Yildiz Communications GmbH, Düsseldorf Gettings GmbH, Düsseldorf Blau Mobilfunk GmbH, Hamburg Nummer 3 im deutschen Mobilfunk Seite 3 Situation - Schichtenmodell EV Informix Oracle SQL Server Stage Core KDM Essbase Mart1 MSAS Mart2 Excel USER SAS Flatfiles Marts Quellsysteme DWH (Oracle) 09.02. Bi Applikationen Seite 4 Situation - Datenbanken DWHPxx 12 TB DWHKxx 13 TB SUN E20K SCOxx 2 TB SUN V240 Test und Entwicklungsumgebung CMCxx 2 TB SUN V880 DWHExx 2 TB SUN V490 CLMPxx 2 TB CLMDxx 2 TB CLMCxx 0,5 TB SUN V890 XXX XXX XXX Seite 5 Situation - Datenwachstum Seite 6 Situation Technologische Grenzen hinsichtlich Datenwachstum Bereitstellungszeiten DB Version Hardware BI Tools erreicht! Seite 7 Motivation Ziele aus Business Sicht Einhaltung der Lieferzeiten, auch in den nächsten Jahren Sicherstellung des Reportings im Schadensfall (erheblicher HW Defekt) Ziele aus technischer Sicht Sicherstellung Wartbarkeit der Applikation Vereinheitlichung Backup- und Recovery Verfahren Zukunftssichere Infrastruktur/Technologie Vereinbarung neuer KPI mit dem IT Dienstleister Möglichkeit von aussagefähigen Perfomancetest vor Produktivsetzung Seite 8 Potentiale 1. DWH Infrastruktur (Server, Datenbank, Storage) 2. DWH Applikation (individual Software) 3. DWH Lieferobjekte (Reduktion) Seite 9 Infrastruktur - Basis Alternativen „klassische“ Oracle RAC Architektur (Server, DB, SAN) Oder Oracle DWH Appliance Exadata 5 Monate später! Entscheidung für Exadata da, Erheblich bessere Performance Mögliche Komprimierungsmethoden Zukunftssichere Technologie Kein signifikanter Preisunterschied Ein Lieferant (Oracle) Anforderungen Backup/Recovery/Failover Wiederherstellung der DB innerhalb von 3 Tagen Wöchentliches Fullbackup (6 Wochen aufbewahren) Möglichkeit der Widerherstellung einer einzelnen Tabelle innerhalb von 3 Tagen Bereitstellung einer Ausweichumgebung innerhalb von 24 Stunden Seite 10 Infrastruktur – Zielsystem Applikation/ Job Server Applikation/ Job Server Sun T5440 Sun T5440 Exadata Exadata Full Rack (SAS) „Half“ Rack (SATA) Storage Storage 110 TB Sun unified storage7410 Replication 110 TB Sun unified storage7410 Produktion Test / Entwicklung Shared Tape Library Die Test / Entwicklungsumgebung dient dabei als Failoverumgebung Seite 11 Infrastruktur – DB Verteilung Lastverteilung • Über Knoten DWHP • Automatic Workload Management DWHKDP • Innerhalb der Knoten DWHE • Instance Caging (OverProvisioning oder Partitioning) SCOP CMCP • Innerhalb der Datenbank • Database Resource Manager • Während der Migration zusätzliche Instanzen CLMP CLMD N o d e 1 N o d e 2 N o d e 3 N o d e 4 N o d e 5 N o d e 6 N o d e 7 N o d e 8 Seite 12 Migration Anforderungen Maximale Ausfallzeit 96 Stunden Sicherstellung einer verlustfreien Migration Berücksichtigung der neuen Komprimierungsverfahren Weitestgehend automatisiertes Verfahren Umsetzung Migration der Datenbank, ohne Daten auf die Exadata Festlegung der Komprimierungsoptionen für die Tabellen Migration der Daten per DB – Link 2 Migrationsschritte (2 größten DBs zuerst) Migrationstool eines Drittanbieters wurde verwendet. Seite 13 Migration – notwendige Softwareanpassungen • Group By nicht mehr sortiert • Einige Kompressionsarten erfordern bulk load operations • Rule based optimizer • undocumented hints ->BYPASS_UJVC • bind Variables in group by clause • to use pseudo-column ROWNUM • Evaluation of numeric literals has changed Seite 14 Ergebnisse + signifikante Performanceverbesserungen ohne Softwareanpassungen + erhebliche Komprimierungsraten + erhebliche Verbesserung der Lieferzeiten der DWH Applikation - es mussten viele Patches eingespielt werden um Störungen zu beheben - das vorgesehene Backup und Recoverykonzept hat nicht funktioniert und musste modifiziert werden - längere Projektlaufzeit als geplant Seite 15 27.08.2011 10.09.2011 24.09.2011 08.10.2011 22.10.2011 10.09.2011 24.09.2011 08.10.2011 22.10.2011 02.07.2011 18.06.2011 04.06.2011 21.05.2011 07.05.2011 23.04.2011 09.04.2011 27.08.2011 0 13.08.2011 5 13.08.2011 10 30.07.2011 15 30.07.2011 Datenintegration Geschäftsvorfall 16.07.2011 Datensätze pro Sekunde 16.07.2011 02.07.2011 18.06.2011 04.06.2011 21.05.2011 07.05.2011 23.04.2011 09.04.2011 26.03.2011 12.03.2011 26.02.2011 12.02.2011 29.01.2011 15.01.2011 01.01.2011 18.12.2010 04.12.2010 20.11.2010 4.343 26.03.2011 12.03.2011 26.02.2011 12.02.2011 29.01.2011 15.01.2011 01.01.2011 18.12.2010 04.12.2010 20.11.2010 Ergebnisse - signifikante Performanceverbesserungen Daten laden Datenintegration Massendaten Datensätze pro Sekunde 100.000 80.000 60.000 40.000 20.000 18.567 Seite 16 Ergebnisse - signifikante Performanceverbesserungen Datensätze pro Sekunde Daten auswerten komplexe Kennzahl Berechnung 250.000 217.687 200.000 150.000 100.000 50.000 8.265 Nov. 10 Dez. 10 Jan. 11 Feb. 11 Apr. 11 Mrz. 11 Mai. 11 Jun. 11 Jul. 11 Aug. 11 Sep. 11 Okt. 11 Datenextraktion für MOLAP Würfel 80.000 60.000 58.690 40.000 20.000 10.041 Nov. 10 Dez. 10 Jan. 11 Feb. 11 Apr. 11 Mrz. 11 Mai. 11 Jun. 11 Jul. 11 Aug. 11 Sep. 11 Okt. 11 Starschema Brechnung 15.000 10.660 10.000 5.000 2.840 Dez. 10 Jan. 11 Feb. 11 Mrz. 11 Apr. 11 Mai. 11 Jun. 11 Jul. 11 Aug. 11 Sep. 11 Okt. 11 Nov. 11 Seite 17 0 DWHKDP 2 DWHP 0 16 14 12 8 3 6 2 4 Aug. 11 4 Aug. 11 CMCP Apr. 11 SCOP Apr. 11 CLMP Dez. 10 Aug. 10 Apr. 10 Dez. 09 Aug. 09 Apr. 09 Dez. 08 Aug. 08 Apr. 08 Dez. 07 50 Dez. 10 Aug. 10 Apr. 10 Dez. 09 Aug. 09 Apr. 09 Dez. 08 Aug. 08 Apr. 08 Daten in TiB DWHP Dez. 07 Aug. 07 Apr. 07 Dez. 06 Datenbankgrössen Aug. 07 Apr. 07 Dez. 06 Oracle Exadata Aug. 06 10 Aug. 06 0 Apr. 06 20 Apr. 06 -55% Aug. 11 30 Apr. 11 Datenbankgrösse in TiB 40 Dez. 10 Aug. 10 Apr. 10 Dez. 09 Aug. 09 Oracle 09.02 Apr. 09 Dez. 08 Aug. 08 Apr. 08 Dez. 07 Aug. 07 Apr. 07 Dez. 06 Aug. 06 Apr. 06 Ergebnisse - erhebliche Komprimierungsraten Daten in TiB DWHKDP 14 12 CLMD 10 8 6 Index in TiB DWHP 6 5 10 4 2 1 0 Seite 18 Ergebnisse - erhebliche Verbesserung der Lieferzeiten Bereitstellungzeit Modell CTRL Bereitstellungszeit Modell CO_TWMM 60 Bereistellungszeit in Stunden 600 Stunden in Stunden 500 400 300 200 100 0 Nov. 10 Jan. 11 Mrz. 11 Mai. 11 Jul. 11 Sep. 11 50 40 30 20 10 0 Dez. Jan. Feb. Mrz. Apr. Mai. Jun. Jul. Aug. Sep. Okt. 10 11 11 11 11 11 11 11 11 11 11 Bereitstellungszeit Datamart CMC Bereitstellungszeit Modell CO_USG 700 350 300 250 200 150 100 50 0 Dez. Jan. Feb. Mrz. Apr. Mai. Jun. Jul. Aug. Sep. Okt. 10 11 11 11 11 11 11 11 11 11 11 Bereistellungszeit in Stunden Bereistellungszeit in Stunden 400 600 500 400 300 200 100 0 Nov. 10 Jan. 11 Mrz. 11 Mai. 11 Jul. 11 Sep. 11 Seite 19 Ergebnisse - viele Patches •Während der Entwicklungsphase waren viele Patches notwendig. (z.T. den Überblick verloren !) •Nach Produktivsetzung kam es 4 Monate lang zu Ausfällen und zu einer ernsten Störung. •Bis heute kommt es zu Langläufer, die Zahl hat aber stark abgenommen. 28.04.2011 17:03 SR 3-3496985271: ORA-00600 [17182] and ORA-07445 [skgmrf_alloc()+480] 28.04.2011 17:03 SR 3-3503298731: cellserver:ORA-00600: internal error code, arguments: [kdzdbuffer version unsupported], [1] 28.04.2011 17:03 SR 3-3518959341: In cellserver: ORA-00600: internal error code, arguments: [kdzdbuffer version unsupported], [1] 28.04.2011 17:03 SR 3-3527497761: The ORA-04030 ORA-00600 errors generated by DWHP8 04.05.2011 08:54 SR 3-3534687151: listener no longer listening on RAW/HTTP neede for APEX 04.05.2011 15:44 SR 3-3536109491: ORA-00700: soft internal error, arguments: [main_7],[13],[Failed disk discovery] 09.05.2011 09:49 SR 3-3568180931: Hard disk status changed to predictive failure. 10.05.2011 12:44 SR 3-3577154221: camicell12:[ERROR] The Cell has missing system disks or improperly configured and partitioned disks 15.05.2011 22:03 SR 3-3615163131: Database hang 16.05.2011 09:36 SR 3-3619841851: Issue with patch 12400152 09.06.2011 08:06 SR 3-3793906321: Exadata database server kernel panic 11.06.2011 12:09 SR 3-3810287951: Exadata nodes rebooting unexpectedly 12.06.2011 23:27 SR 3-3817182541: Exadata DB nodes camidb08 & camidb03 crashed/rebooted. 15.06.2011 12:00 SR 3-3836816121: ORA-00600: Interner Fehlercode, Argumente: [ksztout5], [56815] Seite 20 Ergebnisse - Backup und Recoverykonzept bzw. Failover •Die Wiederherstellung einer Tabelle hat erst nach 4 Wochen funktioniert. •Test wurden während der Entwicklungsphase immer wieder verschoben. •Derzeit wird das Verfahren überarbeitet Applikation/ Job Server Sun T5440 Applikation/ Job Server Sun T5440 Exadata Full Rack (SAS) Exadata „Half“ Rack (SATA) Storage 110 TB Sun unified storage7410 Storage 110 TB Sun unified storage7410 Replication Produktion Test / Entwicklung Shared Tape Library Seite 21 Ergebnisse - längere Projektlaufzeit als geplant •Laufzeit von 2 Jahren ! •Neue Technologie •Hoher Abstimmungsbedarf zwischen den Dienstleistern •Unsicherheit bzgl. Migrationsverfahren •Testverfahren •KPI / SLA Definition IT Fachabteilung E-Plus Abteilung A Abteilung B Abteilung … IT Dienstleister Oracle Firma A Firma B Seite 22 Ergebnisse - Fazit Es hat sich gelohnt! Es ist in diesem Kontext die richtige Technologie! Seite 23