Oracle Whitepaper september 2009 Oracle Database 11g für Data Warehousing und Business Intelligence Oracle Database 11g für Data Warehousing und Business Intelligence Einführung Oracle Database 11g ist eine umfassende Datenbankplattform für Data Warehousing und Business Intelligence. Sie vereint in sich branchenführende Skalierbarkeit und Leistung, eng integrierte Analysen sowie Integration und Datenqualität in einer einzigen Plattform, die auf einer zuverlässigen, kostengünstigen Grid-Infrastruktur ausgeführt wird. Oracle Database 11g bietet erstklassige Funktionalität für Data Warehouses und Data Marts mit bewährter Skalierbarkeit bis auf Hunderte von Terabytes und einzigartigen Leistungsparametern. Ein weiteres Merkmal ist die integrierte Analyse-Plattform. Durch direktes Einbetten von OLAP, Data Mining und statistischen Funktionen in die Datenbank bietet Oracle die gesamte Funktionalität von eigenständigen Analyse-Engines, jedoch mit der für Unternehmen erforderlichen Skalierbarkeit, Sicherheit und Zuverlässigkeit einer Oracle Database. Da die Datenintegration eine der wichtigsten Anforderungen an jedes Data Warehouse darstellt, enthält Oracle Database 11g den Oracle Warehouse Builder, ein führendes ETL-Tool, das die skalierbare Datentransformation und heterogenen Datenzugriffsmöglichkeiten von Oracle nutzt. Die Data Warehouse-Lösungen von Oracle umfassen nun auch Hardware-Komponenten. Sun Exadata Storage Server, auf denen die einzigartige Exadata-Speichersoftware ausgeführt wird, ermöglichen eine extrem hohe Leistung und unbegrenzte lineare Skalierbarkeit. Oracle arbeitet ebenfalls gemeinsam mit Sun daran, die Sun Oracle Database Machine, eine komplette Warehouse-Konfiguration in einem einzigen Schrank anzubieten. Zudem bietet die Oracle Optimized Warehouse Initiative den Kunden eine Auswahl von Referenzkonfigurationen für eine optimierte Warehouse-Leistung von mehreren Hardwareanbietern. Dieses Whitepaper enthält eine Übersicht über die Möglichkeiten, die Oracle für Data Warehousing bietet. Außerdem werden die wichtigsten Merkmale und Technologien erläutert, mit deren Hilfe Oracle-basierte Business Intelligence- und Data WarehouseSysteme unkompliziert Informationen integrieren, schnelle Abfragen ausführen, auf sehr große Datenmengen skalieren und Daten analysieren. 1 Oracle Database 11g für Data Warehousing und Business Intelligence Hardware Der Grundstein einer soliden Data Warehouse-Funktion ist eine skalierbare, leistungsfähige Hardwareinfrastruktur. Eine der Herausforderungen für Data Warehouses ist die Bereitstellung der für umfangreiche Abfragen erforderlichen I/O-Bandbreite, da insbesondere die Datenmengen und Arbeitslast der Benutzer weiterhin zunehmen. Die Oracle ExadataArchitektur bietet eine einzigartig optimierte Speicherlösung für Data Warehousing, die Leistungssteigerungen für umfangreiche Data Warehouse-Abfragen liefert. Die Technologie, die diese Leistungssteigerungen ermöglicht, ist eine Kombination aus massiv parallelem SpeicherGrid mit hoher Bandbreite und der einzigartigen „Smart Scan“-Funktion der Exadata Storage Server Software, die die SQL-Verarbeitung im Speicherserver ausführt und den I/O-Verkehr zwischen den Speicherservern und den Datenbankservern deutlich reduziert. Die Oracle Exadata-Produktfamilie umfasst zwei Bestandteile. Die Grundlage der ExadataProduktfamilie ist der Sun Oracle Exadata Storage Server. Er wird zum Aufbau von Data Warehousing-Lösungen mithilfe der durch Kunden bereitgestellten Datenbankserver und Infrastruktur verwendet. Der zweite Bestandteil der Exadata-Produktfamilie ist die Sun Oracle Database Machine. Diese Database Machine ist eine komplette und vollständig integrierte Lösung für Data Warehousing, die Speicher, Server und Datenbanksoftware umfasst. Oracle Exadata Storage Server Der Sun Oracle Exadata Storage Server ist ein Datenbankspeichergerät, das von der auf SunHardware ausgeführten Exadata Storage Server Software betrieben wird. Die Hardware des Exadata Storage Servers wurde sorgfältig ausgewählt, um den Anforderungen der Hochleistungsverarbeitung von Abfragen gerecht zu werden. Der Speicherserver ist vorkonfiguriert mit zwei Intel-Vierkern-Prozessoren, zwölf Festplatten, vier Flash-Cards, InfiniBand-Konnektivität mit zwei Anschlüssen, einer Management-Karte für Remote-Zugriff und komplett vorinstallierter Software. Und kann in einem üblichen 19-Zoll-Rack installiert werden. Sun Oracle Exadata Storage Server 2 Oracle Database 11g für Data Warehousing und Business Intelligence Sun Oracle Database Machine Die Sun Oracle Database Machine ist ein Data Warehouse mit Extremleistung, das mithilfe von Exadata Storage Servern und modernster branchenüblicher Hardware von Sun aufgebaut wird. Die Sun Oracle Database Machine ist ein komplettes, vorab optimiertes und vorkonfiguriertes Paket aus Software, Servern und Speicher, das für große Data Warehouses mit mehreren Terabyte und I/O-intensiven Arbeitslasten entwickelt wurde. Jedes vollständige Rack von Sun Oracle Database Machine fasst von 28 TB bis 100 TB unkomprimierter Benutzerdaten und ist einfach und schnell zu implementieren. Die Database Machine umfasst folgende Hardware. • Vierzehn Exadata Storage Server (entweder SAS oder SATA) • Acht Sun X4170 Oracle Database 11gDatenbankserver • Die gesamte erforderliche InfiniBandInfrastruktur (HCAs, Switches und Kabel) für die Kommunikation von Datenbankserver zu Exadata Storage Server. • Ethernet-Switch für die Kommunikation von der Database Machine zu Clients oder anderen Computersystemen • Tastatur, Video oder visuelles Anzeigegerät, Maus (KVM-Hardware) • Und all das in einem einzigen standardmäßigen 19-Zoll-Rack mit 42 E Auf der Basis eines modularen Ansatzes bietet Sun Oracle Database Machine eine schnelle und einfache Möglichkeit der Skalierung. Durch schrittweises Hinzufügen neuer Racks von Oracle Database Machines zum System steigen auch die Speicherkapazität und die Leistung des Systems. Ein System mit zwei Racks ist also doppelt so leistungsfähig wie ein einziges Rack. Die Skalierung ist einfach. Die zusätzliche Oracle Database Machine wird mit dem InfiniBandInterconnect in vorhandenen Racks verbunden, und Oracle verteilt die Datenbank automatisch neu, um die gesamte Speicher- und Prozessorleistung aller Racks zu nutzen. 3 Oracle Database 11g für Data Warehousing und Business Intelligence Oracle stellt bei kleineren Konfigurationen Sun Oracle Database Machine Half Rack, Quarter Rack und ein Basic System bereit. Das Half Rack ist ein System mit vier Datenbankservern und sieben Exadata Storage Servern und damit genau halb so groß wie die Full-Rack Database Machine. Das Quarter Rack ist wiederum ein System mit zwei Datenbankservern und drei Exadata Storage Servern. Das Basic System besteht aus einem einzigen Datenbankserver und einem einzigen Exadata Storage Server und ist im Gegensatz zu den anderen Lösungen nicht in einem Rack vorinstalliert, sondern muss in einem bereits vorhandenen Rack des Kunden installiert werden. Die Exadata-Familie bietet die skalierbaren Hardwaremöglichkeiten, um die für Data Warehousing-Anwendungen im Hochleistungsbereich erforderliche Bandbreite bereitzustellen. Diese Lösung ergänzt die anspruchsvolle Software von Oracle Database 11g. Ihre umfangreichen Algorithmen für die Verarbeitung von Abfragen, erweiterte Analysen und robuste Datenintegration werden im Folgenden erläutert. Leistung Oracle bietet Leistungsoptimierungen für jede Art von Data Warehouse-Umgebung. Data Warehouse-Arbeitslasten sind häufig komplex. Unterschiedliche Benutzer führen sehr unterschiedliche Vorgänge aus, und an die Abfrageleistung werden ähnlich unterschiedliche Erwartungen und Anforderungen gestellt. Oracle erfüllt die Anforderungen der Data Warehouse-Leistung durch: • • Eine Reihe von Leistungsoptimierungsverfahren für jede Art von Abfrage und Arbeitslast: • Erweiterte Indizierungs- und Aggregationsverfahren für Reaktionszeiten von unter einer Sekunde für Berichte und Dashboard-Abfragen. • Star-Abfrageoptimierungen und OLAP-basierte, materialisierte Ansichten für dimensionale Abfragen • Skalierbare, parallelisierte Abfragezugriffsmethoden für die Verarbeitung großer Mengen von Detaildaten • Hohe I/O-Bandbreite mit Datenbankoptimierungen auf Speicherebene in Exadata Ein anspruchsvoller Resource Manager zur Aufrechterhaltung der Leistung selbst in Datenbanken mit komplexen, heterogenen Arbeitslasten. Mit dem Database Resource Manager können Endbenutzer in Ressourcenverbrauchergruppen eingeteilt werden. Für jede Gruppe kann der Datenbankadministrator Richtlinien zum Steuern der Nutzung von CPUund I/O-Ressourcen und Richtlinien für die proaktive Abfragesteuerung und für Abfragewarteschlangen festlegen. Oracle stellt mit dem Database Resource Manager Möglichkeiten bereit, um zu gewährleisten, dass das Data Warehouse ihre Leistungs-SLAs für alle Benutzer erfüllen kann. 4 Oracle Database 11g für Data Warehousing und Business Intelligence • Ein einzigartiges, patentiertes Modell für Lesekonsistenz gewährleistet, dass sich Datenlasten nicht auf die Abfrageleistung auswirken. Oracle begegnet den Herausforderungen des gleichzeitigen Zugriffs mit einer Technologie, die als Mehrversionen-Lesekonsistenz bezeichnet wird. Diese einzigartige Technologie bildet bereits seit 15 Jahren den Grundstein des Oracle-Modells für die gleichzeitige Verarbeitung. Die Mehrversionen-Lesekonsistenz gewährleistet, dass ein Benutzer stets eine einheitliche Ansicht der angeforderten Daten sieht. Wenn ein anderer Benutzer die zugrundeliegenden Daten während der Ausführung der Abfrage ändert (z. B. eine schrittweise Aktualisierung einer großen Data Warehouse-Tabelle), behält Oracle eine Version der Daten zum Zeitpunkt des Starts der Abfrage bei. Die auf eine Abfrage hin zurückgegebenen Daten spiegeln stets den Zustand der Datenbank (einschließlich aller verbindlich vorgenommenen Transaktionen) zu dem Zeitpunkt wider, zu dem die Abfrage übermittelt wurde. Weitere Aktualisierungen, die während der Ausführung der Abfrage auftreten, werden nicht berücksichtigt. Mit dieser Technologie kann Oracle auf einzigartige Weise Datenlasten in Data Warehouse-Umgebungen nahezu in Echtzeit verarbeiten. • Management Packs zur Automatisierung der fortlaufenden Leistungsoptimierung eines Data Warehouse. Oracle Database 11g bietet drei neue, innovative Leistungsmöglichkeiten: Exadata „Smart Scans“ Bei herkömmlichen Speichern befindet sich die gesamte Datenbankintelligenz auf den Datenbankservern. Bei Exadata jedoch ist die Datenbankintelligenz in die Speicherserver integriert. Dadurch können Datenbankvorgänge und insbesondere die SQL-Verarbeitung sowohl die Speicherserver als auch die Datenbankserver nutzen, um die Leistung deutlich zu steigern. Das wichtigste Merkmal ist „Smart Scans“, die Technologie der Verschiebung eines Teils der datenintensiven Verarbeitung auf den Exadata Storage Server. Die meisten umfangreichen Data Warehouse-SQL-Abfragen arbeiten nur mit einer Untermenge der Zeilen und Spalten in den Tabellen (z. B. eine Abfrage zu Verkaufstransaktionen für Kunden, die eine bestimmte Menge von Produkten erworben haben). Mit Smart Scans werden nur die relevanten Mengen von Zeilen und Spalten an die Datenbankserver zurückgesendet, um die Endergebnisse, bei denen es sich im Allgemeinen um eine relativ kleine Datenmenge handelt, zu berechnen. „Smart Scans“ identifiziert mithilfe von Speicherindizes die relevanten Datenabschnitte, ohne je auf die gesamte Tabelle zuzugreifen. „Smart Scans“ führt dann auf dem Exadata-Speicherserver die grundlegende Zeilenfilterung (Evaluierung der Where-Klausel-Prädikate) und die Spaltenfilterung (Evaluierung der Select-Liste) aus. Dabei werden die relevanten Datenabschnitte entweder von der Festplatte oder vom Flash-Speicher gelesen. Wenn eine Abfrage das Scannen einer Tabelle von 1 TB erfordert, müssen weniger als 1 TB physisch von den Exadata-Speicherservern gescannt werden. Nur die relevanten Daten (häufig nur ein paar GB oder weniger) werden für die weitere SQLVerarbeitung an die Datenbankserver gesendet. „Smart Scans“ kann die Abfrageleistung von 5 Oracle Database 11g für Data Warehousing und Business Intelligence großen Abfragen eindrucksvoll verbessern und bietet in Verbindung mit der deutlich höheren I/O-Bandbreite der Exadata-Architektur die beste Leistung in der Branche in Bezug auf umfangreiche Abfragen. Speicherresidente parallele Ausführung Die parallele Ausführung ist eine der grundlegenden Technologien, dank derer Unternehmen Dutzende oder sogar Hunderte von Terabyte Daten verwalten und auf sie zugreifen können. Dabei handelt es sich um die Möglichkeit, mehrere CPU- und I/O-Ressourcen für die Ausführung eines einzigen Datenbankvorgangs zu verwenden. Während die Oracle Database schon immer Speicher zur Verbesserung der Abfrageleistung über Puffer-Cache und andere Verfahren genutzt hat, erhöhen die zunehmende Anzahl von Knoten in Grid-fähigen Real Application Clusters-Umgebungen und die geringeren Kosten für Speicher die für große Data Warehouses verfügbare Speichermenge. Der Gesamtspeicher erreicht dabei bereits Hunderte von GB und sogar TB. Die speicherresidente parallele Ausführung von Oracle nutzt die Gesamtmenge des in so großen Systemen verfügbaren Speichers und bietet die speicherresidente Parallelisierung im gesamten Cluster. Bei der Ausführung speichert jeder aktive Knoten in einem Cluster eine Untermenge der zu verarbeitenden Daten parallel. Die nachfolgenden parallelen Vorgänge zum Zugriff auf dieselben großen Objekte nutzen den Cache aller aktiven Knoten. So wird nicht nur der für eine Geschäftsabfrage erforderliche I/O minimiert, sondern auch die Ausführungszeit für die einzelnen Abfragen deutlich verringert und somit die maximal in einem System mögliche Arbeitslast verbessert. Die speicherresidente parallele Ausführung ergänzt die „Smart Scan“-Technologie von Exadata und vereinigt alle Vorteile: Die Datenbank berücksichtigt automatisch nur solche Objekte bei der speicherresidenten parallelen Ausführung, die entweder vollständig oder zu einem großen Teil in den verfügbaren Speicher passen. Sobald die Datenmenge den verfügbaren Speicher deutlich übersteigt, übernimmt die „Smart Scan“Verarbeitung, denn sie ist gegenüber der teilweisen Verarbeitung im Speicher von Vorteil. OLAP-basierte materialisierte Ansichten Herkömmliche Methoden der Leistungsoptimierung für Star-Schemen in Data Warehouses nutzen schon seit einiger Zeit Zusammenfassungstabellen (oder materialisierte Ansichten). Dank dieses Ansatzes wird die Leistung der Abfragen durch Vorberechnung einer oder mehrerer Zusammenfassungen und Speichern dieser Zusammenfassungen im Data Warehouse optimiert. Diese Zusammenfassungen sind für die Anwendung vollständig transparent, da die Datenbank Möglichkeiten zum Neuschreiben von Abfragen bietet. Dabei wird eine Abfrage gegen eine Grundmenge von Star-Schema-Tabellen neu geschrieben, um auf Zusammenfassungsdaten zuzugreifen. Eine Herausforderung bei materialisierten Ansichten ist die, dass ein einzelnes StarSchema Tausende oder sogar Millionen von möglichen Aggregationen haben kann, die als Zusammenfassungstabellen gespeichert werden können. Es ist praktisch unmöglich, eine materialisierte Ansicht für jede mögliche Aggregation zu erstellen. Die Kosten für Platz und 6 Oracle Database 11g für Data Warehousing und Business Intelligence Wartung wären zu hoch. OLAP-basierte materialisierte Ansichten bieten hier eine Lösung. Eine OLAP-basierte materialisierte Ansicht nutzt die OLAP-Datenstrukturen, in denen alle möglichen Aggregationen schnell abgerufen werden können. Somit bietet ein Star-Schema mit einer OLAPbasierten materialisierten Ansicht die Leistung eines Star-Schemas mit Tausenden von relationalen materialisierten Ansichten in einem einzigen, einfach zu verwaltenden OLAPWürfel, der stark komprimiert ist und effiziente Aktualisierungsmöglichkeiten bietet. Diese Anwendung der OLAP-Technologie auf allgemeine Data Warehouse-Arbeitslasten bietet nur Oracle. Während auf frühere OLAP-Lösungen über eine OLAP-basierte API zugegriffen wurde, bietet Oracle OLAP die Leistungsvorteile von OLAP für alle Data Warehouse-Benutzer, die ein beliebiges SQL-basiertes Tool verwenden. Skalierung Die Größe der größten Data Warehouses steigt exponential. Immer mehr Unternehmensprozesse werden immer stärker automatisiert. Mehr Daten werden auf immer detaillierterer Ebene gespeichert. Es gibt keine Anzeichen dafür, dass die Zunahme der Datenmengen nachlässt. Oracle Database 11g bietet vier wichtige Funktionen für Skalierbarkeit: Partitionierung, Komprimierung, Clustering und Parallelismus. 7 Oracle Database 11g für Data Warehousing und Business Intelligence Partitionierung Oracle Partitioning ist unabdingbar für die Verwaltung großer Datenbanken. Sie ermöglicht die Verwaltung großer Tabellen in der Datenbank durch den Ansatz „Teile und herrsche“, insbesondere bei zunehmender Größe dieser Tabellen. Auch wenn die Datenbank im nächsten Jahr möglicherweise doppelt so viele Daten umfasst, werden die Endbenutzer kaum Verständnis dafür aufbringen, dass ihre Anwendung doppelt so langsam ausgeführt wird. Der Datenbank wird nicht doppelt so viel Zeit für Wartungs- und Stapelverarbeitung zugestanden werden, und IT-Manager werden nicht das Hardware-Budget für das Data Warehouse verdoppeln. Dank der Partitionierung kann eine Datenbank für sehr große Datenmengen skaliert werden und dabei eine einheitliche Leistung bewahren. Auch die Ressourcen für Administration und Hardware müssen nicht unnötig steigen. Durch die Partitionierung werden große Tabellen in kleinere Teile geteilt. Dadurch kann die Leistung für Datenverwaltungsfenster und viele Endbenutzerabfragen selbst bei zunehmenden Datenmengen konstant gehalten werden. Oracle ist hinsichtlich der umfassenden Partitionierungstechnologien mit neun Methoden für die Partitionierung von Tabellen, der Möglichkeit zum Definieren von angepassten Partitionierungsschemen durch DBAs und zahlreichen Befehlen für partitionierte Tabellen führend in der Branche. Zudem führt ein Partition Advisor Administratoren durch die bestmögliche Implementierung der Partitionierung. Die Partitionierung ermöglicht auch ILM-Strategien („Information Lifecycle Management“) in der Oracle-Datenbank. Eine einzige partitionierte Tabelle kann über mehrere Speicherebenen verteilt werden. Alte Daten, auf die weniger häufig zugegriffen wird, entsprechen älteren Partitionen und können auf kostengünstigeren Speichermedien gespeichert werden. Bei großen Datenbanken können durch diesen Ansatz deutliche Einsparungen erzielt werden. Komprimierung Die Komprimierung findet in jedem großen Data Warehouse Einsatz. Für Kunden, die immer größere Datenmengen speichern, ist die Komprimierung eine selbstverständliche Lösung. Oracle 11g Release 2 eröffnet der Komprimierung mit neuen Komprimierungsverfahren eine neue Ebene. Oracle bietet die Möglichkeit, alle Tabellen in einem Data Warehouse zu komprimieren: • „OLTP“-Komprimierung: Dieses ursprüngliche Verfahren zum Komprimieren von Tabellen von Oracle bietet ein typisches Komprimierungsverhältnis von 3:1 für Data Warehouses praktisch ohne Abstriche bei der Abfrageleistung. Dieses Komprimierungsverfahren ermöglicht effiziente Aktualisierungen zur Unterstützung der Komprimierung von Data Warehouse-Tabellen, die schrittweise oder auf andere Art regelmäßig aktualisiert werden. 8 Oracle Database 11g für Data Warehousing und Business Intelligence • „Warehouse“-Komprimierung: Dieses Verfahren liefert basierend auf der Exadata Hybrid Columnar Compression ein typisches Komprimierungsverhältnis von bis zu 10:1 für Data Warehouses praktisch ohne Abstriche bei der Abfrageleistung. • Archivkomprimierung: Dieses Verfahren liefert basierend auf der Exadata Hybrid Columnar Compression ein typisches Komprimierungsverhältnis von bis zu 40:1 für Data Warehouses. Hier müssen jedoch Abstriche bei der Abfrageleistung hingenommen werden. Real Application Clusters Mit Real Application Clusters (RAC) kann eine einzige Datenbank auf mehrere Server skaliert werden. Bei Data Warehousing bietet RAC eine Lösung für die Skalierung auf Hunderte von CPUs. Die RAC-Architektur bietet einzigartige Vorteile für Oracle Data Warehousing. RAC ermöglicht nicht nur, einem Data Warehouse-System zusätzliche Ausgangscomputerleistung hinzuzufügen, sondern bietet auch eine hohe Verfügbarkeit im Zusammenhang mit dem Ausfall von Knoten. RAC bietet zudem eine erstaunliche Flexibilität für die Verwaltung von mehreren Arbeitslasten in einer einzigen Datenbank. Mithilfe von RAC-Services können unterschiedliche Anwendungen separaten Services zugewiesen werden, die wiederum auf separaten Knoten eines Clusters ausgeführt werden. So können beispielsweise Data Mart-Benutzer einem Satz von Knoten zugewiesen werden, während ETL-Vorgänge einem anderen Satz von Knoten zugewiesen werden. Ein wichtiger Vorteil von RAC ist die Möglichkeit, diese Arbeitslasten dynamisch zu ändern und anzupassen. Nachts könnten beispielsweise problemlos mehr Knoten der ETLVerarbeitung zugewiesen werden, während diese Knoten tagsüber wieder der Abfrageverarbeitung zugewiesen werden. Parallelismus Parallelismus ist die Fähigkeit, mehrere Prozessoren für die Ausführung eines einzelnen Datenbankvorgangs zu nutzen. Die skalierbare Architektur mit paralleler Ausführung passt sich automatisch den Benutzeranforderungen an. Bei umfangreicheren Vorgängen parallelisiert Oracle die Datenbankvorgänge über alle verfügbaren Knoten und CPUs. Für kleinere Vorgänge passt Oracle den Parallelismus dynamisch an, um den Gesamtdurchsatz des Systems zu maximieren. Der Database Resource Manager gewährleistet, dass Vorgänge mit hoher Priorität die entsprechenden Ressourcen erhalten. Analysen Technologien wie OLAP, Statistiken und Data Mining sind nicht neu für Data Warehousing und Business Intelligence. OLAP-Produkte haben jedoch im Allgemeinen ihre eigene BerechnungsEngine, Statistikprodukte haben ihre eigene Daten-Engine, und Data Mining-Produkte haben 9 Oracle Database 11g für Data Warehousing und Business Intelligence ihre eigenen Mining-Engines. Kurz gesagt, eine unternehmensweite Business IntelligenceUmgebung würde mindestens vier unterschiedliche Arten von Daten-Engines verwenden. Jede dieser Engines erfordert ihre eigenen Server, ihre eigenen Datenkopien, ihre eigene Managementinfrastruktur, ihre eigene Sicherheitsverwaltung und ihre eigene HochverfügbarkeitsInfrastruktur. Jede Engine hat ihre eigenen APIs und ihre eigenen Entwickler-Tools und Endbenutzer-Tools. Die Komplexität und die Kosten der Replizierung der gesamten Stacks von BI-Technologien sind hoch. Oracle Database bietet einen vollständig anderen Ansatz durch die Integration von OLAP, Data Mining und Statistiken in der Datenbank-Engine. Statt Daten für die weitere Analyse von einem Data Warehouse zu anderen Analyse-Engines zu übertragen, bringt Oracle die erweiterten Analysealgorithmen in die Datenbank, in der sich die Daten befinden. Zudem bietet Oracle SQLZugriff auf alle Analysen, sodass sie mit jedem SQL-basierten Tool oder jeder Anwendungsumgebung implementiert werden können. Über die deutlichen Vorteile der Konsolidierung der Backend-Datenarchitektur einer Business Intelligence-Umgebung eines Unternehmens hinaus bietet die Oracle Database eine Reihe von Vorteilen, die nicht für eigenständige Umgebungen verfügbar sind. Kann Ihr eigenständiger OLAP-Server auf Hunderte von CPUs oder Server-Cluster skaliert werden? Wie einfach lässt sich Ihre Data Mining-Engine in Ihren Benutzerauthentifizierungsserver integrieren? Und kann sie alle Datensicherheitsrichtlinien transparent implementieren? Wie einfach können Sie die Ergebnisse Ihrer statistischen Analyse in Ihre Data Warehouse-Daten integrieren? In Oracle Database werden all diese Probleme einfach aufgrund der tiefen Integration von OLAP, Data Mining und Statistiken gelöst. Data Mining Oracle Data Mining ist eine leistungsstarke Software, die in die Oracle Database integriert ist und mit deren Hilfe Sie neue Erkenntnisse aus Ihren Daten ziehen können. Mit Oracle Data Mining können Unternehmen gezielt ihre besten Kunden ansprechen, Betrug ermitteln und verhindern, die einflussreichsten Attribute, die sich auf die Key Performance Indicators (KPIs) auswirken, ermitteln und wertvolle neue Informationen, die in den Daten verborgen sind, auffinden. Mit Oracle Data Mining können technische Experten Muster in ihren Daten finden, wichtige Attribute identifizieren, neue Cluster und Zuordnungen ermitteln und wertvolle Erkenntnisse erlangen. Um diese Geschäftsprobleme zu lösen, können Unternehmen mit Oracle Data Mining mithilfe von modernsten Algorithmen neue Informationen in ihren Daten finden. Data MiningAlgorithmen sind maschinelle Lernverfahren für die Analyse von Daten zum Ermitteln von Mustern und Zusammenhängen. Oracle bietet viele Algorithmen, denn verschiedene Algorithmen sind für verschiedene Arten von Analysen und verschiedene Geschäftsprobleme nützlich. 10 Oracle Database 11g für Data Warehousing und Business Intelligence Die meisten Data Mining-Algorithmen können grob unter Data Mining-Verfahren für „überwachtes Lernen“ und für „nicht überwachtes Lernen“ eingeordnet werden. Für das überwachte Lernen muss der Datenanalyst ein Zielattribut oder eine abhängige Variable (z. B. Kunden, die ein bestimmtes Produkt gekauft haben) identifizieren. Das überwachte Lernverfahren durchsucht dann die Daten, um Muster und Zusammenhänge zwischen anderen Attributen und dem Zielattribut zu finden (z. B. die Merkmale, die darauf hinweisen, ob ein potenzieller Kunde wahrscheinlich ein bestimmtes Produkt erwerben wird). Zu den Algorithmen für überwachtes Lernen in Oracle Data Mining gehören Naïve Bayes, Decision Tree, General Linear Models und Support Vector Machines. Die andere grobe Kategorie von Data Mining-Algorithmen ist das „nicht überwachte Lernen“. In diesen Szenarien gibt es kein Zielattribut. Stattdessen suchen die Data Mining-Algorithmen unabhängig von zuvor definierten Geschäftszielen nach Zuordnungen und Clustern in den Daten. Zu diesen Algorithmen gehören Enhanced k-Means Clustering, Orthogonal Partitioning Clustering, Association Rules (Einkaufswagenanalyse) und Nonnegative Matrix Factorization. Oracle Data Mining enthält Oracle Data Miner, eine grafische Benutzerschnittstelle für Datenanalysten zum Erstellen, Evaluieren und Anwenden von Data Mining-Modellen. Oracle Data Miner führt den Datenanalyst absolut flexibel durch den Data Mining-Prozess und stellt die Ergebnisse grafisch oder tabellarisch dar. Oracle Data Miner kann den mit einer Mining-Aktivität verbundenen PL/SQL-Code generieren. OLAP Oracle OLAP ist eine OLAP-Engine (Online Analytical Processing) mit großem Funktionsumfang, die in die Oracle Database integriert ist. Oracle OLAP verbessert Data Warehouses durch Verbessern der Abfrageleistung (siehe Leistungsabschnitt) und durch Hinzufügen von angereichertem analytischem Inhalt. Das Kernmerkmal von Oracle OLAP ist der Würfel. Diese Datenstruktur wird in der OracleDatenbank verwaltet und speichert Daten in einem stark optimierten, mehrdimensionalen Format. Würfel bieten skalierbaren und komprimierten Speicher von dimensionalen Daten, schnelle inkrementelle Aktualisierung, schnelle Abfrageleistung und die Möglichkeit, erweiterte analytische Berechnungen zu verarbeiten oder zu speichern. Die Strategie von Oracle OLAP ist es, diese wichtigen OLAP-Vorteile in das Data Warehouse zu integrieren. Dies erfolgt durch Bereitstellung der wichtigen Fähigkeiten von Oracle OLAP über Standard-SQL, sodass Business Intelligence-Tools oder andere SQL-basierte Anwendungen OLAP nutzen können. Zu den wichtigen SQL-Integrationsmerkmalen gehören der Zugriff auf OLAP-Würfel über SQL-Ansichten, in denen ein mehrdimensionaler Würfel als Satz von Dimensionstabellen und Faktentabellen angezeigt wird, würfelbasierte materialisierte Ansichten, durch die OLAP-Würfel als materialisierte Ansichten verwendet werden können, die Datenwörterbuchintegration, dank 11 Oracle Database 11g für Data Warehousing und Business Intelligence der SQL-basierte Abfrage-Tools ebenso wie SQL-Entwickler rasch alle Würfel und ihre Attribute identifizieren können, und die Integration von Würfelzugriffspfaden innerhalb des OracleOptimierers. Integration Die moderne Informationsarchitektur ist wesentlich dynamischer als noch vor wenigen Jahren. Unternehmen brauchen heute mehr Informationen. Sie möchten sie schneller erhalten, und sie liefern mehr Analysen für eine ständig wachsende Anzahl von Benutzern und Anwendungen. Oracle Warehouse Builder und Oracle Data Integrator Um diesen Geschäftsanforderungen zu entsprechen, enthält Oracle Database 11g ein führendes Datenintegrationstool, den Oracle Warehouse Builder (OWB). Der OWB ist als kostenloses Datenbankmerkmal enthalten und wurde entwickelt, um allen Oracle-Kunden die effiziente Erstellung eines Data Mart oder Data Warehouse beliebiger Größe zu ermöglichen. Er bietet ein Metadaten-Repository für mehrere Benutzer in Unternehmen, Data Modeling-Funktionen und eine Vielzahl von Transformations- und Extraktionsverfahren ebenso wie die Leistung und Skalierbarkeit einer ELT-Architektur. Die erweiterten Merkmale von OWB, der zuvor Bestandteil der Enterprise ETL-Option war, wurden nun in die Oracle Data Integrator Enterprise Edition integriert. Oracle Data Integrator bietet nicht nur die am häufigsten von Data Warehouses benötigten ELT-Funktionen, sondern auch eine unternehmensweite Plattform für die Integration von z. B. SOA-fähigen DatenServices oder ereignisbasierten Daten-Feeds. Heute umfasst Oracle die erweiterten Merkmale von Oracle Data Integrator und Oracle Warehouse Builder als zwei Komponenten von Oracle Data Integrator Enterprise Edition. In der weiteren Entwicklung werden diese Produkte in eine einheitliche Technologieplattform zur Datenintegration eingegliedert werden. Mit dieser Strategie werden die vorhandenen Entwicklungsinvestitionen aller Oracle-Kunden im Bereich der Datenintegration bewahrt und ein nahtloser, einfacher Upgrade-Pfad von den derzeitigen Komponenten zur einheitlichen Plattform bereitgestellt. Wichtige Merkmale der Datenbankintegration Oracle Warehouse Builder verwendet eine ELT-Architektur (Extract-Load-Transform). Statt eine externe Datentransformations-Engine bereitzustellen, führt OWB alle Transformationen in einer Oracle-Datenbank unter Nutzung der Skalierbarkeit und Leistung der Datenbankplattform aus. Die Oracle-Datenbank verfügt über eine Reihe von Funktionen für Extraktion, Laden und Transformation. Diese Merkmale werden vom OWB genutzt, können jedoch in jeder Umgebung verwendet werden, in denen Daten in ein Oracle Data Warehouse integriert werden. Zu diesen Merkmalen gehören: 12 Oracle Database 11g für Data Warehousing und Business Intelligence • Database Gateways zum Zugriff auf Systeme, die nicht von Oracle stammen • Ladeprogramm für schnelles Datenladen von flachen Dateien • SQL-Erweiterungen für Datentransformationen: MERGE-Anweisung • Tabellenfunktionen: effiziente parallele benutzerdefinierte Transformationen • Ändern der Datenerfassung für protokollbasierte Erfassung mit geringer Latenz aus OracleDatenbanken Schlussfolgerung Die Oracle Database ist branchenführend im Bereich Data Warehousing, basiert auf dem soliden Fundament der Skalierbarkeit und Leistung und wird durch innovative Merkmale wie das einzigartiges Lesekonsistenz-Modell für Data Warehouses nahezu in Echtzeit und die leistungsstarken Tabellenpartitionierungs-Funktionen, die Nutzung der OLAP-Technologie zur Verbesserung der relationalen Umgebungen und die unvergleichliche Unterstützung für GridArchitekturen ergänzt. Die Kombination aus Oracle Database und einem Oracle ExadataSpeicher-Grid liefert höchste Leistung für I/O-intensive Arbeitslasten. Zusammen mit der Sun Oracle Database Machine bietet Oracle eine vollständige Hard- und Softwarelösung für Data Warehousing. 13 über hunkler Die HUNKLER GmbH & Co. KG mit Hauptsitz in Karlsruhe ist ein Systemhaus, das sich ausschließlich auf Oracle-Datenbanktechnologien spezialisiert hat. Das 1987 gegründete Unternehmen war der erste offizielle Oracle-Partner in Deutschland. Das Angebot gliedert sich in den Lizenzvertrieb sowie umfassende Dienstleistungen, von der Planung über die Realisierung bis zur Remote-Administration von Daten­ bankinfrastrukturen. Das Unternehmen ist Oracle Platinum Partner und hat damit den höchsten Partnerstatus inne, den Oracle vergibt. Hauptsitz Karlsruhe Bannwaldallee 32, 76185 Karlsruhe Tel. 0721-490 16-0, Fax 0721-490 16-29 Geschäftsstelle Bodensee Fritz-Reichle-Ring 6a 78315 Radolfzell Tel. 07732-939 14-00, Fax 07732-939 14-04 [email protected], www.hunkler.de Oracle Database 11g für Data Warehousing und Business Intelligence September 2009 Autor: George Lumpkin Copyright © 2009, Oracle und/oder seine verbundenen Unternehmen. Alle Rechte vorbehalten. Der Inhalt dieses Dokuments dient lediglich zu Informationszwecken und kann ohne vorherige Ankündigung geändert werden. Die Richtigkeit dieses Dokuments kann nicht garantiert werden. Es unterliegt keinen Garantien oder Bedingungen, die mündlich gegeben wurden oder gesetzlich gegeben Oracle Corporation World Headquarters 500 Oracle Parkway Redwood Shores, CA 94065 USA sind, einschließlich konkludenter Garantien oder Bedingungen hinsichtlich der Marktgängigkeit oder oder Eignung für einen bestimmten Zweck. Insbesondere schließen wir jegliche Haftung aus, die sich aus diesem Dokument ergeben könnte. Vertragliche Pflichten können weder direkt noch indirekt aus diesem Dokument abgeleitet werden. Dieses Dokument darf zu keinem Zweck und in keiner Weise, weder elektronisch noch mechanisch, ohne die vorherige schriftliche Genehmigung von Oracle vervielfältigt oder übertragen werden. Informationen weltweit: Oracle ist eine eingetragene Marke der Oracle Corporation und/oder ihrer verbundenen Unternehmen. Andere Namen und Tel.: +1 650 506 7000 Bezeichnungen können Marken ihrer jeweiligen Inhaber sein. Fax: +1 650 506 7200 oracle.com 0109