Oracle Database 11g for Data Warehousing and Business Intelligence

Werbung
Oracle Whitepaper
september 2009
Oracle Database 11g für Data
Warehousing und Business
Intelligence
Oracle Database 11g für Data Warehousing und Business Intelligence
Einführung
Oracle Database 11g ist eine umfassende Datenbankplattform für Data Warehousing und
Business Intelligence. Sie vereint in sich branchenführende Skalierbarkeit und Leistung,
eng integrierte Analysen sowie Integration und Datenqualität in einer einzigen Plattform,
die auf einer zuverlässigen, kostengünstigen Grid-Infrastruktur ausgeführt wird. Oracle
Database 11g bietet erstklassige Funktionalität für Data Warehouses und Data Marts mit
bewährter Skalierbarkeit bis auf Hunderte von Terabytes und einzigartigen
Leistungsparametern. Ein weiteres Merkmal ist die integrierte Analyse-Plattform. Durch
direktes Einbetten von OLAP, Data Mining und statistischen Funktionen in die Datenbank
bietet Oracle die gesamte Funktionalität von eigenständigen Analyse-Engines, jedoch mit
der für Unternehmen erforderlichen Skalierbarkeit, Sicherheit und Zuverlässigkeit einer
Oracle Database. Da die Datenintegration eine der wichtigsten Anforderungen an jedes
Data Warehouse darstellt, enthält Oracle Database 11g den Oracle Warehouse Builder,
ein führendes ETL-Tool, das die skalierbare Datentransformation und heterogenen
Datenzugriffsmöglichkeiten von Oracle nutzt.
Die Data Warehouse-Lösungen von Oracle umfassen nun auch Hardware-Komponenten.
Sun Exadata Storage Server, auf denen die einzigartige Exadata-Speichersoftware
ausgeführt wird, ermöglichen eine extrem hohe Leistung und unbegrenzte lineare
Skalierbarkeit. Oracle arbeitet ebenfalls gemeinsam mit Sun daran, die Sun Oracle
Database Machine, eine komplette Warehouse-Konfiguration in einem einzigen Schrank
anzubieten. Zudem bietet die Oracle Optimized Warehouse Initiative den Kunden eine
Auswahl von Referenzkonfigurationen für eine optimierte Warehouse-Leistung von
mehreren Hardwareanbietern.
Dieses Whitepaper enthält eine Übersicht über die Möglichkeiten, die Oracle für Data
Warehousing bietet. Außerdem werden die wichtigsten Merkmale und Technologien
erläutert, mit deren Hilfe Oracle-basierte Business Intelligence- und Data WarehouseSysteme unkompliziert Informationen integrieren, schnelle Abfragen ausführen, auf sehr
große Datenmengen skalieren und Daten analysieren.
1
Oracle Database 11g für Data Warehousing und Business Intelligence
Hardware
Der Grundstein einer soliden Data Warehouse-Funktion ist eine skalierbare, leistungsfähige
Hardwareinfrastruktur. Eine der Herausforderungen für Data Warehouses ist die Bereitstellung
der für umfangreiche Abfragen erforderlichen I/O-Bandbreite, da insbesondere die
Datenmengen und Arbeitslast der Benutzer weiterhin zunehmen. Die Oracle ExadataArchitektur bietet eine einzigartig optimierte Speicherlösung für Data Warehousing, die
Leistungssteigerungen für umfangreiche Data Warehouse-Abfragen liefert. Die Technologie, die
diese Leistungssteigerungen ermöglicht, ist eine Kombination aus massiv parallelem SpeicherGrid mit hoher Bandbreite und der einzigartigen „Smart Scan“-Funktion der Exadata Storage
Server Software, die die SQL-Verarbeitung im Speicherserver ausführt und den I/O-Verkehr
zwischen den Speicherservern und den Datenbankservern deutlich reduziert.
Die Oracle Exadata-Produktfamilie umfasst zwei Bestandteile. Die Grundlage der ExadataProduktfamilie ist der Sun Oracle Exadata Storage Server. Er wird zum Aufbau von Data
Warehousing-Lösungen mithilfe der durch Kunden bereitgestellten Datenbankserver und
Infrastruktur verwendet. Der zweite Bestandteil der Exadata-Produktfamilie ist die Sun Oracle
Database Machine. Diese Database Machine ist eine komplette und vollständig integrierte
Lösung für Data Warehousing, die Speicher, Server und Datenbanksoftware umfasst.
Oracle Exadata Storage Server
Der Sun Oracle Exadata Storage Server ist ein Datenbankspeichergerät, das von der auf SunHardware ausgeführten Exadata Storage Server Software betrieben wird. Die Hardware des
Exadata Storage Servers wurde sorgfältig ausgewählt, um den Anforderungen der
Hochleistungsverarbeitung von Abfragen gerecht zu werden. Der Speicherserver ist
vorkonfiguriert mit zwei Intel-Vierkern-Prozessoren, zwölf Festplatten, vier Flash-Cards,
InfiniBand-Konnektivität mit zwei Anschlüssen, einer Management-Karte für Remote-Zugriff
und komplett vorinstallierter Software. Und kann in einem üblichen 19-Zoll-Rack installiert
werden.
Sun Oracle Exadata Storage Server
2
Oracle Database 11g für Data Warehousing und Business Intelligence
Sun Oracle Database Machine
Die Sun Oracle Database Machine ist ein Data Warehouse mit Extremleistung, das mithilfe von
Exadata Storage Servern und modernster branchenüblicher Hardware von Sun aufgebaut wird.
Die Sun Oracle Database Machine ist ein komplettes, vorab optimiertes und vorkonfiguriertes
Paket aus Software, Servern und Speicher, das für große Data Warehouses mit mehreren
Terabyte und I/O-intensiven Arbeitslasten entwickelt wurde. Jedes vollständige Rack von Sun
Oracle Database Machine fasst von 28 TB bis 100 TB unkomprimierter Benutzerdaten und ist
einfach und schnell zu implementieren. Die Database Machine umfasst folgende Hardware.
• Vierzehn Exadata Storage Server
(entweder SAS oder SATA)
• Acht Sun X4170 Oracle Database 11gDatenbankserver
• Die gesamte erforderliche InfiniBandInfrastruktur (HCAs, Switches und
Kabel) für die Kommunikation von
Datenbankserver zu Exadata Storage
Server.
• Ethernet-Switch für die Kommunikation
von der Database Machine zu Clients
oder anderen Computersystemen
• Tastatur, Video oder visuelles
Anzeigegerät, Maus (KVM-Hardware)
• Und all das in einem einzigen
standardmäßigen 19-Zoll-Rack mit 42 E
Auf der Basis eines modularen Ansatzes bietet Sun Oracle Database Machine eine schnelle und
einfache Möglichkeit der Skalierung. Durch schrittweises Hinzufügen neuer Racks von Oracle
Database Machines zum System steigen auch die Speicherkapazität und die Leistung des Systems.
Ein System mit zwei Racks ist also doppelt so leistungsfähig wie ein einziges Rack. Die
Skalierung ist einfach. Die zusätzliche Oracle Database Machine wird mit dem InfiniBandInterconnect in vorhandenen Racks verbunden, und Oracle verteilt die Datenbank automatisch
neu, um die gesamte Speicher- und Prozessorleistung aller Racks zu nutzen.
3
Oracle Database 11g für Data Warehousing und Business Intelligence
Oracle stellt bei kleineren Konfigurationen Sun Oracle Database Machine Half Rack, Quarter
Rack und ein Basic System bereit. Das Half Rack ist ein System mit vier Datenbankservern und
sieben Exadata Storage Servern und damit genau halb so groß wie die Full-Rack Database
Machine. Das Quarter Rack ist wiederum ein System mit zwei Datenbankservern und drei
Exadata Storage Servern. Das Basic System besteht aus einem einzigen Datenbankserver und
einem einzigen Exadata Storage Server und ist im Gegensatz zu den anderen Lösungen nicht in
einem Rack vorinstalliert, sondern muss in einem bereits vorhandenen Rack des Kunden
installiert werden.
Die Exadata-Familie bietet die skalierbaren Hardwaremöglichkeiten, um die für Data
Warehousing-Anwendungen im Hochleistungsbereich erforderliche Bandbreite bereitzustellen.
Diese Lösung ergänzt die anspruchsvolle Software von Oracle Database 11g. Ihre umfangreichen
Algorithmen für die Verarbeitung von Abfragen, erweiterte Analysen und robuste
Datenintegration werden im Folgenden erläutert.
Leistung
Oracle bietet Leistungsoptimierungen für jede Art von Data Warehouse-Umgebung. Data
Warehouse-Arbeitslasten sind häufig komplex. Unterschiedliche Benutzer führen sehr
unterschiedliche Vorgänge aus, und an die Abfrageleistung werden ähnlich unterschiedliche
Erwartungen und Anforderungen gestellt.
Oracle erfüllt die Anforderungen der Data Warehouse-Leistung durch:
•
•
Eine Reihe von Leistungsoptimierungsverfahren für jede Art von Abfrage und Arbeitslast:
•
Erweiterte Indizierungs- und Aggregationsverfahren für Reaktionszeiten von unter einer
Sekunde für Berichte und Dashboard-Abfragen.
•
Star-Abfrageoptimierungen und OLAP-basierte, materialisierte Ansichten für dimensionale
Abfragen
•
Skalierbare, parallelisierte Abfragezugriffsmethoden für die Verarbeitung großer Mengen von
Detaildaten
•
Hohe I/O-Bandbreite mit Datenbankoptimierungen auf Speicherebene in Exadata
Ein anspruchsvoller Resource Manager zur Aufrechterhaltung der Leistung selbst in
Datenbanken mit komplexen, heterogenen Arbeitslasten. Mit dem Database Resource
Manager können Endbenutzer in Ressourcenverbrauchergruppen eingeteilt werden. Für jede
Gruppe kann der Datenbankadministrator Richtlinien zum Steuern der Nutzung von CPUund I/O-Ressourcen und Richtlinien für die proaktive Abfragesteuerung und für
Abfragewarteschlangen festlegen. Oracle stellt mit dem Database Resource Manager
Möglichkeiten bereit, um zu gewährleisten, dass das Data Warehouse ihre Leistungs-SLAs für
alle Benutzer erfüllen kann.
4
Oracle Database 11g für Data Warehousing und Business Intelligence
•
Ein einzigartiges, patentiertes Modell für Lesekonsistenz gewährleistet, dass sich Datenlasten
nicht auf die Abfrageleistung auswirken. Oracle begegnet den Herausforderungen des
gleichzeitigen Zugriffs mit einer Technologie, die als Mehrversionen-Lesekonsistenz
bezeichnet wird. Diese einzigartige Technologie bildet bereits seit 15 Jahren den Grundstein
des Oracle-Modells für die gleichzeitige Verarbeitung. Die Mehrversionen-Lesekonsistenz
gewährleistet, dass ein Benutzer stets eine einheitliche Ansicht der angeforderten Daten sieht.
Wenn ein anderer Benutzer die zugrundeliegenden Daten während der Ausführung der
Abfrage ändert (z. B. eine schrittweise Aktualisierung einer großen Data Warehouse-Tabelle),
behält Oracle eine Version der Daten zum Zeitpunkt des Starts der Abfrage bei. Die auf eine
Abfrage hin zurückgegebenen Daten spiegeln stets den Zustand der Datenbank (einschließlich
aller verbindlich vorgenommenen Transaktionen) zu dem Zeitpunkt wider, zu dem die
Abfrage übermittelt wurde. Weitere Aktualisierungen, die während der Ausführung der
Abfrage auftreten, werden nicht berücksichtigt. Mit dieser Technologie kann Oracle auf
einzigartige Weise Datenlasten in Data Warehouse-Umgebungen nahezu in Echtzeit
verarbeiten.
•
Management Packs zur Automatisierung der fortlaufenden Leistungsoptimierung eines Data
Warehouse.
Oracle Database 11g bietet drei neue, innovative Leistungsmöglichkeiten:
Exadata „Smart Scans“
Bei herkömmlichen Speichern befindet sich die gesamte Datenbankintelligenz auf den
Datenbankservern. Bei Exadata jedoch ist die Datenbankintelligenz in die Speicherserver
integriert. Dadurch können Datenbankvorgänge und insbesondere die SQL-Verarbeitung sowohl
die Speicherserver als auch die Datenbankserver nutzen, um die Leistung deutlich zu steigern.
Das wichtigste Merkmal ist „Smart Scans“, die Technologie der Verschiebung eines Teils der
datenintensiven Verarbeitung auf den Exadata Storage Server. Die meisten umfangreichen Data
Warehouse-SQL-Abfragen arbeiten nur mit einer Untermenge der Zeilen und Spalten in den
Tabellen (z. B. eine Abfrage zu Verkaufstransaktionen für Kunden, die eine bestimmte Menge
von Produkten erworben haben). Mit Smart Scans werden nur die relevanten Mengen von Zeilen
und Spalten an die Datenbankserver zurückgesendet, um die Endergebnisse, bei denen es sich im
Allgemeinen um eine relativ kleine Datenmenge handelt, zu berechnen. „Smart Scans“
identifiziert mithilfe von Speicherindizes die relevanten Datenabschnitte, ohne je auf die gesamte
Tabelle zuzugreifen. „Smart Scans“ führt dann auf dem Exadata-Speicherserver die grundlegende
Zeilenfilterung (Evaluierung der Where-Klausel-Prädikate) und die Spaltenfilterung (Evaluierung
der Select-Liste) aus. Dabei werden die relevanten Datenabschnitte entweder von der Festplatte
oder vom Flash-Speicher gelesen. Wenn eine Abfrage das Scannen einer Tabelle von 1 TB
erfordert, müssen weniger als 1 TB physisch von den Exadata-Speicherservern gescannt werden.
Nur die relevanten Daten (häufig nur ein paar GB oder weniger) werden für die weitere SQLVerarbeitung an die Datenbankserver gesendet. „Smart Scans“ kann die Abfrageleistung von
5
Oracle Database 11g für Data Warehousing und Business Intelligence
großen Abfragen eindrucksvoll verbessern und bietet in Verbindung mit der deutlich höheren
I/O-Bandbreite der Exadata-Architektur die beste Leistung in der Branche in Bezug auf
umfangreiche Abfragen.
Speicherresidente parallele Ausführung
Die parallele Ausführung ist eine der grundlegenden Technologien, dank derer Unternehmen
Dutzende oder sogar Hunderte von Terabyte Daten verwalten und auf sie zugreifen können.
Dabei handelt es sich um die Möglichkeit, mehrere CPU- und I/O-Ressourcen für die
Ausführung eines einzigen Datenbankvorgangs zu verwenden. Während die Oracle Database
schon immer Speicher zur Verbesserung der Abfrageleistung über Puffer-Cache und andere
Verfahren genutzt hat, erhöhen die zunehmende Anzahl von Knoten in Grid-fähigen Real
Application Clusters-Umgebungen und die geringeren Kosten für Speicher die für große Data
Warehouses verfügbare Speichermenge. Der Gesamtspeicher erreicht dabei bereits Hunderte von
GB und sogar TB. Die speicherresidente parallele Ausführung von Oracle nutzt die
Gesamtmenge des in so großen Systemen verfügbaren Speichers und bietet die speicherresidente
Parallelisierung im gesamten Cluster. Bei der Ausführung speichert jeder aktive Knoten in einem
Cluster eine Untermenge der zu verarbeitenden Daten parallel. Die nachfolgenden parallelen
Vorgänge zum Zugriff auf dieselben großen Objekte nutzen den Cache aller aktiven Knoten. So
wird nicht nur der für eine Geschäftsabfrage erforderliche I/O minimiert, sondern auch die
Ausführungszeit für die einzelnen Abfragen deutlich verringert und somit die maximal in einem
System mögliche Arbeitslast verbessert. Die speicherresidente parallele Ausführung ergänzt die
„Smart Scan“-Technologie von Exadata und vereinigt alle Vorteile: Die Datenbank
berücksichtigt automatisch nur solche Objekte bei der speicherresidenten parallelen Ausführung,
die entweder vollständig oder zu einem großen Teil in den verfügbaren Speicher passen. Sobald
die Datenmenge den verfügbaren Speicher deutlich übersteigt, übernimmt die „Smart Scan“Verarbeitung, denn sie ist gegenüber der teilweisen Verarbeitung im Speicher von Vorteil.
OLAP-basierte materialisierte Ansichten
Herkömmliche Methoden der Leistungsoptimierung für Star-Schemen in Data Warehouses
nutzen schon seit einiger Zeit Zusammenfassungstabellen (oder materialisierte Ansichten). Dank
dieses Ansatzes wird die Leistung der Abfragen durch Vorberechnung einer oder mehrerer
Zusammenfassungen und Speichern dieser Zusammenfassungen im Data Warehouse optimiert.
Diese Zusammenfassungen sind für die Anwendung vollständig transparent, da die Datenbank
Möglichkeiten zum Neuschreiben von Abfragen bietet. Dabei wird eine Abfrage gegen eine
Grundmenge von Star-Schema-Tabellen neu geschrieben, um auf Zusammenfassungsdaten
zuzugreifen. Eine Herausforderung bei materialisierten Ansichten ist die, dass ein einzelnes StarSchema Tausende oder sogar Millionen von möglichen Aggregationen haben kann, die als
Zusammenfassungstabellen gespeichert werden können. Es ist praktisch unmöglich, eine
materialisierte Ansicht für jede mögliche Aggregation zu erstellen. Die Kosten für Platz und
6
Oracle Database 11g für Data Warehousing und Business Intelligence
Wartung wären zu hoch. OLAP-basierte materialisierte Ansichten bieten hier eine Lösung. Eine
OLAP-basierte materialisierte Ansicht nutzt die OLAP-Datenstrukturen, in denen alle möglichen
Aggregationen schnell abgerufen werden können. Somit bietet ein Star-Schema mit einer OLAPbasierten materialisierten Ansicht die Leistung eines Star-Schemas mit Tausenden von
relationalen materialisierten Ansichten in einem einzigen, einfach zu verwaltenden OLAPWürfel, der stark komprimiert ist und effiziente Aktualisierungsmöglichkeiten bietet. Diese
Anwendung der OLAP-Technologie auf allgemeine Data Warehouse-Arbeitslasten bietet nur
Oracle. Während auf frühere OLAP-Lösungen über eine OLAP-basierte API zugegriffen wurde,
bietet Oracle OLAP die Leistungsvorteile von OLAP für alle Data Warehouse-Benutzer, die ein
beliebiges SQL-basiertes Tool verwenden.
Skalierung
Die Größe der größten Data Warehouses steigt exponential. Immer mehr
Unternehmensprozesse werden immer stärker automatisiert. Mehr Daten werden auf immer
detaillierterer Ebene gespeichert. Es gibt keine Anzeichen dafür, dass die Zunahme der
Datenmengen nachlässt. Oracle Database 11g bietet vier wichtige Funktionen für Skalierbarkeit:
Partitionierung, Komprimierung, Clustering und Parallelismus.
7
Oracle Database 11g für Data Warehousing und Business Intelligence
Partitionierung
Oracle Partitioning ist unabdingbar für die Verwaltung großer Datenbanken. Sie ermöglicht die
Verwaltung großer Tabellen in der Datenbank durch den Ansatz „Teile und herrsche“,
insbesondere bei zunehmender Größe dieser Tabellen.
Auch wenn die Datenbank im nächsten Jahr möglicherweise doppelt so viele Daten umfasst,
werden die Endbenutzer kaum Verständnis dafür aufbringen, dass ihre Anwendung doppelt so
langsam ausgeführt wird. Der Datenbank wird nicht doppelt so viel Zeit für Wartungs- und
Stapelverarbeitung zugestanden werden, und IT-Manager werden nicht das Hardware-Budget für
das Data Warehouse verdoppeln. Dank der Partitionierung kann eine Datenbank für sehr große
Datenmengen skaliert werden und dabei eine einheitliche Leistung bewahren. Auch die
Ressourcen für Administration und Hardware müssen nicht unnötig steigen. Durch die
Partitionierung werden große Tabellen in kleinere Teile geteilt. Dadurch kann die Leistung für
Datenverwaltungsfenster und viele Endbenutzerabfragen selbst bei zunehmenden Datenmengen
konstant gehalten werden.
Oracle ist hinsichtlich der umfassenden Partitionierungstechnologien mit neun Methoden für die
Partitionierung von Tabellen, der Möglichkeit zum Definieren von angepassten
Partitionierungsschemen durch DBAs und zahlreichen Befehlen für partitionierte Tabellen
führend in der Branche. Zudem führt ein Partition Advisor Administratoren durch die
bestmögliche Implementierung der Partitionierung.
Die Partitionierung ermöglicht auch ILM-Strategien („Information Lifecycle Management“) in
der Oracle-Datenbank. Eine einzige partitionierte Tabelle kann über mehrere Speicherebenen
verteilt werden. Alte Daten, auf die weniger häufig zugegriffen wird, entsprechen älteren
Partitionen und können auf kostengünstigeren Speichermedien gespeichert werden. Bei großen
Datenbanken können durch diesen Ansatz deutliche Einsparungen erzielt werden.
Komprimierung
Die Komprimierung findet in jedem großen Data Warehouse Einsatz. Für Kunden, die immer
größere Datenmengen speichern, ist die Komprimierung eine selbstverständliche Lösung. Oracle
11g Release 2 eröffnet der Komprimierung mit neuen Komprimierungsverfahren eine neue
Ebene. Oracle bietet die Möglichkeit, alle Tabellen in einem Data Warehouse zu komprimieren:
•
„OLTP“-Komprimierung: Dieses ursprüngliche Verfahren zum Komprimieren von Tabellen
von Oracle bietet ein typisches Komprimierungsverhältnis von 3:1 für Data Warehouses
praktisch ohne Abstriche bei der Abfrageleistung. Dieses Komprimierungsverfahren
ermöglicht effiziente Aktualisierungen zur Unterstützung der Komprimierung von Data
Warehouse-Tabellen, die schrittweise oder auf andere Art regelmäßig aktualisiert werden.
8
Oracle Database 11g für Data Warehousing und Business Intelligence
•
„Warehouse“-Komprimierung: Dieses Verfahren liefert basierend auf der Exadata Hybrid
Columnar Compression ein typisches Komprimierungsverhältnis von bis zu 10:1 für Data
Warehouses praktisch ohne Abstriche bei der Abfrageleistung.
•
Archivkomprimierung: Dieses Verfahren liefert basierend auf der Exadata Hybrid Columnar
Compression ein typisches Komprimierungsverhältnis von bis zu 40:1 für Data Warehouses.
Hier müssen jedoch Abstriche bei der Abfrageleistung hingenommen werden.
Real Application Clusters
Mit Real Application Clusters (RAC) kann eine einzige Datenbank auf mehrere Server skaliert
werden. Bei Data Warehousing bietet RAC eine Lösung für die Skalierung auf Hunderte von
CPUs. Die RAC-Architektur bietet einzigartige Vorteile für Oracle Data Warehousing. RAC
ermöglicht nicht nur, einem Data Warehouse-System zusätzliche Ausgangscomputerleistung
hinzuzufügen, sondern bietet auch eine hohe Verfügbarkeit im Zusammenhang mit dem Ausfall
von Knoten.
RAC bietet zudem eine erstaunliche Flexibilität für die Verwaltung von mehreren Arbeitslasten in
einer einzigen Datenbank. Mithilfe von RAC-Services können unterschiedliche Anwendungen
separaten Services zugewiesen werden, die wiederum auf separaten Knoten eines Clusters
ausgeführt werden. So können beispielsweise Data Mart-Benutzer einem Satz von Knoten
zugewiesen werden, während ETL-Vorgänge einem anderen Satz von Knoten zugewiesen
werden. Ein wichtiger Vorteil von RAC ist die Möglichkeit, diese Arbeitslasten dynamisch zu
ändern und anzupassen. Nachts könnten beispielsweise problemlos mehr Knoten der ETLVerarbeitung zugewiesen werden, während diese Knoten tagsüber wieder der
Abfrageverarbeitung zugewiesen werden.
Parallelismus
Parallelismus ist die Fähigkeit, mehrere Prozessoren für die Ausführung eines einzelnen
Datenbankvorgangs zu nutzen. Die skalierbare Architektur mit paralleler Ausführung passt sich
automatisch den Benutzeranforderungen an. Bei umfangreicheren Vorgängen parallelisiert Oracle
die Datenbankvorgänge über alle verfügbaren Knoten und CPUs. Für kleinere Vorgänge passt
Oracle den Parallelismus dynamisch an, um den Gesamtdurchsatz des Systems zu maximieren.
Der Database Resource Manager gewährleistet, dass Vorgänge mit hoher Priorität die
entsprechenden Ressourcen erhalten.
Analysen
Technologien wie OLAP, Statistiken und Data Mining sind nicht neu für Data Warehousing und
Business Intelligence. OLAP-Produkte haben jedoch im Allgemeinen ihre eigene BerechnungsEngine, Statistikprodukte haben ihre eigene Daten-Engine, und Data Mining-Produkte haben
9
Oracle Database 11g für Data Warehousing und Business Intelligence
ihre eigenen Mining-Engines. Kurz gesagt, eine unternehmensweite Business IntelligenceUmgebung würde mindestens vier unterschiedliche Arten von Daten-Engines verwenden. Jede
dieser Engines erfordert ihre eigenen Server, ihre eigenen Datenkopien, ihre eigene
Managementinfrastruktur, ihre eigene Sicherheitsverwaltung und ihre eigene HochverfügbarkeitsInfrastruktur. Jede Engine hat ihre eigenen APIs und ihre eigenen Entwickler-Tools und
Endbenutzer-Tools. Die Komplexität und die Kosten der Replizierung der gesamten Stacks von
BI-Technologien sind hoch.
Oracle Database bietet einen vollständig anderen Ansatz durch die Integration von OLAP, Data
Mining und Statistiken in der Datenbank-Engine. Statt Daten für die weitere Analyse von einem
Data Warehouse zu anderen Analyse-Engines zu übertragen, bringt Oracle die erweiterten
Analysealgorithmen in die Datenbank, in der sich die Daten befinden. Zudem bietet Oracle SQLZugriff auf alle Analysen, sodass sie mit jedem SQL-basierten Tool oder jeder
Anwendungsumgebung implementiert werden können.
Über die deutlichen Vorteile der Konsolidierung der Backend-Datenarchitektur einer Business
Intelligence-Umgebung eines Unternehmens hinaus bietet die Oracle Database eine Reihe von
Vorteilen, die nicht für eigenständige Umgebungen verfügbar sind. Kann Ihr eigenständiger
OLAP-Server auf Hunderte von CPUs oder Server-Cluster skaliert werden? Wie einfach lässt
sich Ihre Data Mining-Engine in Ihren Benutzerauthentifizierungsserver integrieren? Und kann
sie alle Datensicherheitsrichtlinien transparent implementieren? Wie einfach können Sie die
Ergebnisse Ihrer statistischen Analyse in Ihre Data Warehouse-Daten integrieren? In Oracle
Database werden all diese Probleme einfach aufgrund der tiefen Integration von OLAP, Data
Mining und Statistiken gelöst.
Data Mining
Oracle Data Mining ist eine leistungsstarke Software, die in die Oracle Database integriert ist und
mit deren Hilfe Sie neue Erkenntnisse aus Ihren Daten ziehen können. Mit Oracle Data Mining
können Unternehmen gezielt ihre besten Kunden ansprechen, Betrug ermitteln und verhindern,
die einflussreichsten Attribute, die sich auf die Key Performance Indicators (KPIs) auswirken,
ermitteln und wertvolle neue Informationen, die in den Daten verborgen sind, auffinden. Mit
Oracle Data Mining können technische Experten Muster in ihren Daten finden, wichtige
Attribute identifizieren, neue Cluster und Zuordnungen ermitteln und wertvolle Erkenntnisse
erlangen.
Um diese Geschäftsprobleme zu lösen, können Unternehmen mit Oracle Data Mining mithilfe
von modernsten Algorithmen neue Informationen in ihren Daten finden. Data MiningAlgorithmen sind maschinelle Lernverfahren für die Analyse von Daten zum Ermitteln von
Mustern und Zusammenhängen. Oracle bietet viele Algorithmen, denn verschiedene
Algorithmen sind für verschiedene Arten von Analysen und verschiedene Geschäftsprobleme
nützlich.
10
Oracle Database 11g für Data Warehousing und Business Intelligence
Die meisten Data Mining-Algorithmen können grob unter Data Mining-Verfahren für
„überwachtes Lernen“ und für „nicht überwachtes Lernen“ eingeordnet werden. Für das
überwachte Lernen muss der Datenanalyst ein Zielattribut oder eine abhängige Variable (z. B.
Kunden, die ein bestimmtes Produkt gekauft haben) identifizieren. Das überwachte
Lernverfahren durchsucht dann die Daten, um Muster und Zusammenhänge zwischen anderen
Attributen und dem Zielattribut zu finden (z. B. die Merkmale, die darauf hinweisen, ob ein
potenzieller Kunde wahrscheinlich ein bestimmtes Produkt erwerben wird). Zu den Algorithmen
für überwachtes Lernen in Oracle Data Mining gehören Naïve Bayes, Decision Tree, General
Linear Models und Support Vector Machines.
Die andere grobe Kategorie von Data Mining-Algorithmen ist das „nicht überwachte Lernen“. In
diesen Szenarien gibt es kein Zielattribut. Stattdessen suchen die Data Mining-Algorithmen
unabhängig von zuvor definierten Geschäftszielen nach Zuordnungen und Clustern in den
Daten. Zu diesen Algorithmen gehören Enhanced k-Means Clustering, Orthogonal Partitioning
Clustering, Association Rules (Einkaufswagenanalyse) und Nonnegative Matrix Factorization.
Oracle Data Mining enthält Oracle Data Miner, eine grafische Benutzerschnittstelle für
Datenanalysten zum Erstellen, Evaluieren und Anwenden von Data Mining-Modellen. Oracle
Data Miner führt den Datenanalyst absolut flexibel durch den Data Mining-Prozess und stellt die
Ergebnisse grafisch oder tabellarisch dar. Oracle Data Miner kann den mit einer Mining-Aktivität
verbundenen PL/SQL-Code generieren.
OLAP
Oracle OLAP ist eine OLAP-Engine (Online Analytical Processing) mit großem
Funktionsumfang, die in die Oracle Database integriert ist. Oracle OLAP verbessert Data
Warehouses durch Verbessern der Abfrageleistung (siehe Leistungsabschnitt) und durch
Hinzufügen von angereichertem analytischem Inhalt.
Das Kernmerkmal von Oracle OLAP ist der Würfel. Diese Datenstruktur wird in der OracleDatenbank verwaltet und speichert Daten in einem stark optimierten, mehrdimensionalen
Format. Würfel bieten skalierbaren und komprimierten Speicher von dimensionalen Daten,
schnelle inkrementelle Aktualisierung, schnelle Abfrageleistung und die Möglichkeit, erweiterte
analytische Berechnungen zu verarbeiten oder zu speichern.
Die Strategie von Oracle OLAP ist es, diese wichtigen OLAP-Vorteile in das Data Warehouse zu
integrieren. Dies erfolgt durch Bereitstellung der wichtigen Fähigkeiten von Oracle OLAP über
Standard-SQL, sodass Business Intelligence-Tools oder andere SQL-basierte Anwendungen
OLAP nutzen können.
Zu den wichtigen SQL-Integrationsmerkmalen gehören der Zugriff auf OLAP-Würfel über
SQL-Ansichten, in denen ein mehrdimensionaler Würfel als Satz von Dimensionstabellen und
Faktentabellen angezeigt wird, würfelbasierte materialisierte Ansichten, durch die OLAP-Würfel
als materialisierte Ansichten verwendet werden können, die Datenwörterbuchintegration, dank
11
Oracle Database 11g für Data Warehousing und Business Intelligence
der SQL-basierte Abfrage-Tools ebenso wie SQL-Entwickler rasch alle Würfel und ihre Attribute
identifizieren können, und die Integration von Würfelzugriffspfaden innerhalb des OracleOptimierers.
Integration
Die moderne Informationsarchitektur ist wesentlich dynamischer als noch vor wenigen Jahren.
Unternehmen brauchen heute mehr Informationen. Sie möchten sie schneller erhalten, und sie
liefern mehr Analysen für eine ständig wachsende Anzahl von Benutzern und Anwendungen.
Oracle Warehouse Builder und Oracle Data Integrator
Um diesen Geschäftsanforderungen zu entsprechen, enthält Oracle Database 11g ein führendes
Datenintegrationstool, den Oracle Warehouse Builder (OWB). Der OWB ist als kostenloses
Datenbankmerkmal enthalten und wurde entwickelt, um allen Oracle-Kunden die effiziente
Erstellung eines Data Mart oder Data Warehouse beliebiger Größe zu ermöglichen. Er bietet ein
Metadaten-Repository für mehrere Benutzer in Unternehmen, Data Modeling-Funktionen und
eine Vielzahl von Transformations- und Extraktionsverfahren ebenso wie die Leistung und
Skalierbarkeit einer ELT-Architektur.
Die erweiterten Merkmale von OWB, der zuvor Bestandteil der Enterprise ETL-Option war,
wurden nun in die Oracle Data Integrator Enterprise Edition integriert. Oracle Data Integrator
bietet nicht nur die am häufigsten von Data Warehouses benötigten ELT-Funktionen, sondern
auch eine unternehmensweite Plattform für die Integration von z. B. SOA-fähigen DatenServices oder ereignisbasierten Daten-Feeds. Heute umfasst Oracle die erweiterten Merkmale
von Oracle Data Integrator und Oracle Warehouse Builder als zwei Komponenten von Oracle
Data Integrator Enterprise Edition. In der weiteren Entwicklung werden diese Produkte in eine
einheitliche Technologieplattform zur Datenintegration eingegliedert werden. Mit dieser Strategie
werden die vorhandenen Entwicklungsinvestitionen aller Oracle-Kunden im Bereich der
Datenintegration bewahrt und ein nahtloser, einfacher Upgrade-Pfad von den derzeitigen
Komponenten zur einheitlichen Plattform bereitgestellt.
Wichtige Merkmale der Datenbankintegration
Oracle Warehouse Builder verwendet eine ELT-Architektur (Extract-Load-Transform). Statt eine
externe Datentransformations-Engine bereitzustellen, führt OWB alle Transformationen in einer
Oracle-Datenbank unter Nutzung der Skalierbarkeit und Leistung der Datenbankplattform aus.
Die Oracle-Datenbank verfügt über eine Reihe von Funktionen für Extraktion, Laden und
Transformation. Diese Merkmale werden vom OWB genutzt, können jedoch in jeder Umgebung
verwendet werden, in denen Daten in ein Oracle Data Warehouse integriert werden. Zu diesen
Merkmalen gehören:
12
Oracle Database 11g für Data Warehousing und Business Intelligence
•
Database Gateways zum Zugriff auf Systeme, die nicht von Oracle stammen
•
Ladeprogramm für schnelles Datenladen von flachen Dateien
•
SQL-Erweiterungen für Datentransformationen: MERGE-Anweisung
•
Tabellenfunktionen: effiziente parallele benutzerdefinierte Transformationen
•
Ändern der Datenerfassung für protokollbasierte Erfassung mit geringer Latenz aus OracleDatenbanken
Schlussfolgerung
Die Oracle Database ist branchenführend im Bereich Data Warehousing, basiert auf dem soliden
Fundament der Skalierbarkeit und Leistung und wird durch innovative Merkmale wie das
einzigartiges Lesekonsistenz-Modell für Data Warehouses nahezu in Echtzeit und die
leistungsstarken Tabellenpartitionierungs-Funktionen, die Nutzung der OLAP-Technologie zur
Verbesserung der relationalen Umgebungen und die unvergleichliche Unterstützung für GridArchitekturen ergänzt. Die Kombination aus Oracle Database und einem Oracle ExadataSpeicher-Grid liefert höchste Leistung für I/O-intensive Arbeitslasten. Zusammen mit der Sun
Oracle Database Machine bietet Oracle eine vollständige Hard- und Softwarelösung für Data
Warehousing.
13
über hunkler
Die HUNKLER GmbH & Co. KG mit Hauptsitz in Karlsruhe ist ein Systemhaus, das
sich ausschließlich auf Oracle-Datenbanktechnologien spezialisiert hat. Das 1987
gegründete Unternehmen war der erste offizielle Oracle-Partner in Deutschland.
Das Angebot gliedert sich in den Lizenzvertrieb sowie umfassende Dienstleistungen,
von der Planung über die Realisierung bis zur Remote-Administration von Daten­
bankinfrastrukturen. Das Unternehmen ist Oracle Platinum Partner und hat damit
den höchsten Partnerstatus inne, den Oracle vergibt.
Hauptsitz Karlsruhe
Bannwaldallee 32, 76185 Karlsruhe
Tel. 0721-490 16-0, Fax 0721-490 16-29
Geschäftsstelle Bodensee
Fritz-Reichle-Ring 6a
78315 Radolfzell
Tel. 07732-939 14-00, Fax 07732-939 14-04
[email protected], www.hunkler.de
Oracle Database 11g für Data Warehousing und
Business Intelligence
September 2009
Autor: George Lumpkin
Copyright © 2009, Oracle und/oder seine verbundenen Unternehmen. Alle Rechte vorbehalten. Der Inhalt dieses Dokuments dient
lediglich zu Informationszwecken und kann ohne vorherige Ankündigung geändert werden. Die Richtigkeit dieses Dokuments kann
nicht garantiert werden. Es unterliegt keinen Garantien oder Bedingungen, die mündlich gegeben wurden oder gesetzlich gegeben
Oracle Corporation
World Headquarters
500 Oracle Parkway
Redwood Shores, CA 94065
USA
sind, einschließlich konkludenter Garantien oder Bedingungen hinsichtlich der Marktgängigkeit oder oder Eignung für einen
bestimmten Zweck. Insbesondere schließen wir jegliche Haftung aus, die sich aus diesem Dokument ergeben könnte. Vertragliche
Pflichten können weder direkt noch indirekt aus diesem Dokument abgeleitet werden. Dieses Dokument darf zu keinem Zweck und
in keiner Weise, weder elektronisch noch mechanisch, ohne die vorherige schriftliche Genehmigung von Oracle vervielfältigt oder
übertragen werden.
Informationen weltweit:
Oracle ist eine eingetragene Marke der Oracle Corporation und/oder ihrer verbundenen Unternehmen. Andere Namen und
Tel.: +1 650 506 7000
Bezeichnungen können Marken ihrer jeweiligen Inhaber sein.
Fax: +1 650 506 7200
oracle.com
0109
Herunterladen