Inhaltsverzeichnis

Werbung
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Hochschule:
Standort:
Studiengang:
Veranstaltung:
Betreuer:
Typ:
Themengebiet:
Autor(en):
Studienzeitmodell:
Semesterbezeichnung:
Studiensemester:
Bearbeitungsstatus:
Prüfungstermin:
Abgabetermin:
Fallstudienarbeit
Hochschule für Oekonomie & Management
Bonn
Bachelor Wirtschaftsinformatik
Fallstudie / Wissenschaftliches Arbeiten
Prof._Dr._Uwe_Kern
Fallstudienarbeit
Business Intelligence
Tobias Wäschle, Bernd Dabrock
Abendstudium
SS11
2
vergeben
23.01.12
15.01.12
Inhaltsverzeichnis
• 1 Einleitung
♦ 1.1 Zielsetzung und Abgrenzung
♦ 1.2 Vorgehensweise
• 2 Business Intelligence
♦ 2.1 Begriffsklärung
♦ 2.2 Geschichte
♦ 2.3 Anwendungsgebiete für BI
• 3 Architekturkonzepte
♦ 3.1 Fachliche Architektur
◊ 3.1.1 Auswertungen
◊ 3.1.2 Measures
◊ 3.1.3 Facts
◊ 3.1.4 Dimensionen
◊ 3.1.5 Fachliche Sterne
◊ 3.1.6 Fachliche
Modellierung
♦ 3.2 Referenzarchitektur
◊ 3.2.1 Data Sources
◊ 3.2.2 Data Integration
⋅ 3.2.2.1 Extract
⋅ 3.2.2.2
Transform
⋅ 3.2.2.3 Load
◊ 3.2.3 Data Management
⋅ 3.2.3.1 Core
Data Warehouse
⋅ 3.2.3.2 Data
Marts
⋅ 3.2.3.3
Operational Data
Store
◊ 3.2.4 Information
Delivery
Inhaltsverzeichnis
1
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
⋅ 3.2.4.1 Free
Data Research
⋅ 3.2.4.2 Online
Analytical
Processing
⋅ 3.2.4.3 Data
Mining
◊ 3.2.5 Visualization
⋅ 3.2.5.1
Front-Ends
⋅ 3.2.5.2
Dashboards
⋅ 3.2.5.3 Portale
♦ 3.3 Architekturvarianten
◊ 3.3.1 Zentrales Data
Warehouse
◊ 3.3.2 Distributed Data
Warehouse
◊ 3.3.3
Hub&Spoke-Architektur
• 4 Praktische Umsetzung
♦ 4.1 Grundphilosophien
◊ 4.1.1 DWH
Umsetzungsvarianten
⋅ 4.1.1.1
Klassisches Data
Warehousing
⋅ 4.1.1.2
Closed-Loop
Data
Warehousing
⋅ 4.1.1.3
Real-Time Data
Warehousing
⋅ 4.1.1.4 Active
Data
Warehousing
◊ 4.1.2 DWH Archetypen
⋅ 4.1.2.1 Archetyp
Transaktionsorientiert
⋅ 4.1.2.2 Archetyp
Workfloworientiert
⋅ 4.1.2.3 Archetyp
Stammdatenorientiert
⋅ 4.1.2.4 Archetyp
Anwendungsspezifisch
♦ 4.2 Hersteller und Produkte
◊ 4.2.1 Marktübersicht
◊ 4.2.2 Marktrelevanteste
BI Lösungen
Inhaltsverzeichnis
2
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
◊ 4.2.3 Open Source im BI
Umfeld
⋅ 4.2.3.1
Entwicklung
⋅ 4.2.3.2 Vor- und
Nachteile
⋅ 4.2.3.3 Zukunft
von Open
Source im BI
Umfeld
♦ 4.3 Szenario: "Schoko GmbH"
◊ 4.3.1 Ausgangssituation
◊ 4.3.2 Motivation und
Zielsetzung
◊ 4.3.3 Lösungskonzept
◊ 4.3.4 Entwicklung und
Betrieb
◊ 4.3.5 Abschließende
Bemerkungen
• 5 Fazit
• 6 Abbildungsverzeichnis
• 7 Tabellenverzeichnis
• 8 Fußnoten
• 9 Literatur- und Quellenverzeichnis
1 Einleitung
1.1 Zielsetzung und Abgrenzung
Ziel der Fallstudie ist es in einem ersten Schwerpunkt, die Konzepte, die sich hinter dem Begriff "Business
Intelligence" verbergen, zu beleuchten und ein Grundverständnis zunächst einmal des Begriffes selbst und
anschließend der Architektur moderner BI-Systeme im Allgemeinen zu schaffen. Dabei liegt der Fokus auf den
allgemeingültigen theoretischen Architekturkonzepten der Business Intelligence und es werden keine konkreten
herstellerspezifischen Konzepte betrachtet. In einem zweiten Schwerpunkt werden Konzepte der praktischen
Umsetzung vorgestellt, d.h. unter welchen Voraussetzungen sind gewisse Architekturkonzepte gut geeignet oder
weniger gut geeignet. Der Abschnitt ist keine Anleitung, wie z.B. BI in einem Unternehmen richtig eingeführt
wird sondern versteht sich eher als richtungsweisend und ratgebend zur Schärfung des Praxisverständnisses von
BI und als Einstieg zur weiteren Vertiefung.
1.2 Vorgehensweise
Die Fallstudie hat zwei Themenschwerpunkte: "Konzepte" und "praktische Umsetzung". Daher liegt der Fokus,
nach einem Anfangskapitel zur Begriffsklärung und Herkunft von Business Intelligence, auf den Kapiteln
"Architekturkonzepte" und "Praktische Umsetzung".
Im Kapitel "Architekturkonzepte" werden die fachliche Architektur, die Referenzarchitektur und weitere
1 Einleitung
3
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Architekturvarianten erläutert. Teilweise unterscheiden sich BI-Systeme sowohl in Konzept als auch in der
Umsetzung erheblich. In dieser Fallstudie werden daher nur Architekturkonzepte betrachtet die sich in den
meisten aktuellen BI-Systemen wiedererkennen lassen und denen sich somit die höchste Allgemeingültigkeit
unterstellen lässt.
Im Kapitel "praktische Umsetzung" werden Umsetzungsvarianten vorgestellt. Je nachdem in welcher Branche das
jeweilige Unternehmen tätig ist oder in welchem Bereich die BI-Software zum Einsatz kommt ergeben sich
unterschiedliche Anforderungen an z.B. Verfügbarkeit, Latenzzeit und Datenhaltung oder andere individuellere
Bedürfnisse. Um diesem Sachverhalt gerecht zu werden existieren verschiedene Möglichkeiten der praktischen
Umsetzung die in diesem Kapitel nicht in höchstem Detailgrad aber möglichst verständlich dargestellt werden.
Auch hier gilt: Es werden die typischsten und somit allgemeingültigsten Varianten vorgestellt. Aufgrund der
Breite des BI-Umfelds kann nicht auf jede Nische im Besonderen eingegangen werden.
Anschließend folgt das Fazit der Fallstudie.
2 Business Intelligence
2.1 Begriffsklärung
Business Intelligence (Abkz. BI) ist in der Informationstechnik ein Oberbegriff für Techniken und
Vorgehensweisen zur Datenerhebung, Informationsgewinnung und zur Darstellung von Informationen. Ziel ist es,
anhand der gesammelten Informationen einen größtmöglichen Erkenntnisgewinn zu erzielen und das
Unternehmensmanagement dadurch bei der Entscheidungsfindung in Planung, Steuerung und Kontrolle zu
unterstützen. Dies wird heutzutage mithilfe von IT-Systemen erreicht, die speziell für dieses Ziel der
Datenerhebung, Aufbereitung und Darstellung programmiert sind.
2.2 Geschichte
Die Geburtsstunde des Begriffes "Business Intelligence" war vermutlich 1958, als der Informatiker Hans Peter
Luhn im IBM-Journal seinen Beitrag ?A Business Intelligence System? veröffentlichte[1]. Populär wurde der
Begriff allerdings erst in den 90er Jahren, als sich ein Analyst der Gartner Group vertiefend mit dem Thema
befasste. Er bezeichnete "Business Intelligence" als einen Oberbegriff für Konzepte und Methoden zur
Entscheidungsfindung auf Grundlage von Daten- und faktenbasierten Unterstützungssystemen[2].
2.3 Anwendungsgebiete für BI
1.2 Vorgehensweise
4
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Abb. 1: BI-Framework
Die Grundvorgehensweise aus unternehmerischen Prozessen Rückschlüsse auf das Geschäft zu ziehen und daraus
weitere Handlungsschritte abzuleiten ist betriebswirtschaftlich nichts Neues. Ein handschriftlicher Report mit den
aktuellen Produktionsdaten kann demnach bereits als "Business Intelligence" bezeichnet werden. Immer
komplexer werdende Prozesse und stetig steigende Datenmengen erschweren allerdings die Durchschaubarkeit
von Unternehmensabläufen wodurch es zusehends schwerer wird, ohne einen strukturierten Ansatz, eine
transparente und nachvollziehbare Faktenlage darzulegen auf der vernünftige Entscheidungen getroffen werden
können. Aus dieser Erkenntnis heraus wurde IT-Software entwickelt um auch in Zeiten von stetig steigenden
Datenmengen eine transparente und nachvollziehbare Faktenlage darzulegen. Auch wenn sich die Software der
jeweiligen Hersteller in Funktion und Umfang unterscheidet, so ist das Rahmenkonzept im Grunde genommen
identisch.
Zunächst werden die Geschäftsdaten und -zahlen eines Unternehmens aus den vielen verschiedenen
Datenbeständen der einzelnen IT-Systeme und Unternehmensbereiche gesammelt. Diese Daten werden in einem
typischerweise als "Data Warehouse" bezeichneten Datenlager gespeichert. Ein Data Warehouse ist ein
umfassendes Datenlager in dem die Daten aus den verschiedenen Quellsystemen bereinigt und thematisch sortiert
abgelegt werden. Dieses Data Warehouse ist anschließend selbst Datenquelle für Auswertungs- und
Analysesysteme. Der Zugriff auf die Daten ist für die verschiedenen Unternehmensteile in der Regel selektiv
geregelt. Produktion, Vertrieb, Beschaffung als auch die Unternehmensleitung können sich die Daten individuell
nach dem benötigten Informationsbedarf und in gewünschter Präsentationsform abrufen. Die Daten stehen auch
sofort für eine Auswertung zur Verfügung, indem sie automatisch strukturiert, grafisch aufbereitet und somit
vergleichbar gemacht werden [3].
3 Architekturkonzepte
Die Datenquellen der IT-basierten Managementunterstützung "Business Intelligence" sind oft als transaktionale
Systeme oder OnLine Transaction Processing Systems (OLTP) bezeichnet. Oft sind es ERP- oder CRM-Systeme
welche zur Auftragserfassung, Rechnungsstellung, Rechnungslegung, Logistiksteuerung, Einkauf,
Personalverwaltung oder dem Management von Kundenbeziehungen dienen. Ihre Ausrichtung auf einzelne
Transaktionen (Auftragspositionen, Buchungssätze, Materialstämme, usw.) schränkt den Umfang der
2.3 Anwendungsgebiete für BI
5
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
prozessübergreifenden betriebswirtschaftlichen Entscheidungsfundierungen gravierend ein:
- schlechte Performance
- eingeschränkte betriebswirtschaftliche Analysemöglichkeiten[4]
Die schlechte Performance transaktionaler Strukturen ist dadurch bedingt, dass analytische Anwendungen in der
Regel keinen Nutzen aus einzelnen Transaktionen gewinnen können, sondern eine übergreifende Information zu
mehreren Transaktionen benötigen. In einem transaktionalen Datenmodell würde eine Abfrage, welchen Umsatz
ein Unternehmen in den letzten 2 Jahren erwirtschaftet hat, das Lesen aller Transaktionen der letzten zwei Jahre
bedeuten, obwohl diese genaue Detaillierungsstufe gar nicht benötigt wird. Darüber hinaus würden diese
OLTP-Systeme mit Analysen belastet, für die sie ursprünglich nicht gebaut worden sind. Deshalb werden die
Daten der OLTP-Systeme in Verbindung mit modernen Data-Warehouse-Systemen (DWH) genutzt, um
Informationen einmalig auszulesen und zum Zwecke der Business Intelligence Analysen in spezielle
Datenmodelle zu transformieren.[5]
Auf dieser Basis stellen die, meist für BI zum Einsatz kommenden entscheidungsunterstützenden Systeme
(Decision Support Systems, DSS), den Gegenpart dar und umfassen das klassische Berichtswesen, die interaktive
Datenanalyse (Online Analytical Processing, OLAP) sowie Systeme zur Suche nach komplexen
Zusammenhängen und unbekannten Datenmustern (Data Mining).[6]
Die Architektur beschreibt die konzeptionelle Planung der Funktionen, des Aufbaus und des Zusammenwirkens
der unterschiedlichen Komponenten eines BI-Systems.
3.1 Fachliche Architektur
Den Output und fachlichen Nutzen der Business Intelligence bilden die Auswertungen (Reports). Reports sind
Listen, bestehend aus Spalten- und Zeilenbeschriftungen, Filtern, Gruppierungs-Ebenen und Kennzahlen. Die
Reports sind die Informationsanforderungen der Anwender (Fachvertreter). Diese Informationen werden in
technischen Datenmodellen in der Datenbank abgelegt. Ziel der Datenmodellierung ist immer, ein Abbild der
Realität in einer datentechnisch darstellbaren Form zu schaffen.[7]
Bereits in der frühen Entwurfsphase ist es wichtig, dass auch die Fachvertreter ein Verständnis der technichen
Datenmodelle entwickeln und bei deren Spezifikationen mitwirken. Ein grundsätzlich falsch gewähltes
Datenmodell kann nachträglich nur mit sehr großem Aufwand korrigiert werden.
Auf Grund der Komplexität wählt man von allen Parteien leicht verständliche Sprachen und Techniken, um die
Anforderungen und Sachverhalte darzustellen. Eine weit verbreitete Sprache zwischen Fachvertretern,
Management und IT-Experten ist die Unified Modeling Language (UML). UML ist die meist genutzte
Beschreibungtechnik der Object Management Group (OMG) und der Weg der Welt nicht nur
Anwendungsstrukturen, Betriebseigenschaften und Architekturen, sondern auch Geschäftsprozesse und
Datenstrukturen zu modellieren[8]. Neben UML existieren noch einige weitere Ansätze aber im Business
Intelligence Umfeld hat sich noch kein Standard durchgesetzt[9].
Auch wenn sich keine standardisierte Sprache zur Beschreibung von Business Intelligence Systemen durchgesetzt
hat, bedarf es dennoch einiger Begriffe welche der fachlichen Beschreibung dienen.
3 Architekturkonzepte
6
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
3.1.1 Auswertungen
In Anlehnung an: Humm (2005), Seite 6
Abb. 2: Auswertung
Der Informationsbedarf betriebswirtschaftlicher Unternehmungen ist unterschiedlich. Die Ausgestaltung und das
Design der benötigten Auswertungen (Reports) ist von verschiedensten Faktoren abhängig. So fordern
unterschiedliche Branchen, Produkte und Prozesse auch inhomogene Informationen zur Entscheidungsfundierung.
Selbst Standardreports wie z.B. Finanzkennzahlen aus dem Reporting oder Kampagnenanalysen aus dem
Marketing- und Vertriebsbereich erfordern meist aufwendige Anpassungen am Customizing bis hin zur
Modellierung der Datenmodelle.
Die Vertreter der Fachseiten und das Management werden über Ziele der Unternehmensstrategie gesteuert. Die
Ziele bilden die Grundlage für den Informationsbedarf einer Unternehmung. So sind die Informationssysteme
sowohl technisch, fachlich und organisatorisch so aufzubauen, dass sie mit diesen Anforderungen harmonisieren.
Diese Kennzahlen, welche die Grundlage für die Messung der Zielerreichungen bilden, müssen in geeigneter
Form bereitgestellt werden.
3.1.2 Measures
Measure, auch Maßzahl oder Kennzahl genannt, ist die kleinste Informationseinheit und bildet die Basis für alle
Reports. Measures sind stets numerisch und können in der Regel aggregiert werden (Summe, Mittelwert etc.).
Komplexe Measures können aus anderen Measures oder (evtl. nicht aggregierbaren) Basisinformationen
abgeleitet sein[10]. Measures sind folglich für mathematische Operationen geeignet.
Ohne zusätzliche beschreibende Daten bringen Measures keinen Informationsgewinn. Aus diesem Grund werden
sie immer mit bzw. in Facts verwendet.
3.1.3 Facts
3.1.1 Auswertungen
7
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In Anlehnung an: Humm (2005), Seite 5
Abb. 3: Fact
Facts sind Größen mit betriebswirtschaftlichem Bezug. Zum Beispiel Daten zum Kunden, zur Kostenstelle oder
zu einem Auftrag.
Ein Fact ist eine Sammlung von fachlich verbundenen Measures und Dimensionen. Fact-Beschreibungen
speichern Zusatzinformationen zu den verwendeten Measures und müssen keine numerischen Werte enthalten. So
lassen sie allerdings auch keine mathematischen Operationen oder Aggregationen zu.
Wobei in dieses Beispiel (Abb. 3) bereits eine Analyse für einen bestimmtes Jahr, eine bestimmte Region und
einen bestimmten Debitor (Kunden) darstellt (Dimensionen).
3.1.4 Dimensionen
In Anlehnung an: Humm (2005), Seite 6
Abb. 4: Fachlicher Stern
Dimensionen, oder auch Navigationsattribute genannt, beschreiben die aggregierbaren Daten eines Facts, indem
sie Relationen zu anderen Facts herstellen. So ist im Beispiel der Abb. 4 die Region vom Kunden (Debitor) des
Auftrags abhängig. Dimensionen stellen also die Informationen über die Daten eines Facts bereit.
Dimensionen stellen auch die Abhängigkeit im zeitlichen Verlauf dar. So können sich beispielsweise die
Measures Straße und Hausnummer innerhalb der Adresse (Fact) eines Kunden (Fact) geändert haben. Setzt man
dann verschiedene Filter auf zeitliche Dimensionen, finden sich zu einem Kunden unterschiedliche Adressen.
Dimensionen sind hierarchisch aufgebaut und führen so zu Gebilden wie die fachlichen Sterne.
3.1.3 Facts
8
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Wenn das Ergebnis einer Analyse "42" (Measure) ergibt, ist dieses Datum an sich wertlos. Mit der Überschrift
(Fact) "Anzahl Verkäufe", einer zeitlichen Dimension "Januar 2011" und der örtlichen Dimension "Bonn", wird
dieses Datum zu der Information "42 Verkäufe im Januar 2011 in Bonn".
Auf transaktionale Systeme (OLTP) basierende BI kennen diese historisierende Form der Filter- und
Auswertungsinstrumente für Measures in Facts nicht und lassen nur Analysen auf aktuelle Daten zu.
3.1.5 Fachliche Sterne
Ein fachlicher Stern ist die fachliche Definition der Facts mit ihren Measures und den zugehörigen Dimensionen.
Der Stern "Aufträge" (Abb. 4) umfasst die Measures "Umsatz" und "Anzahl Verkäufe", die Fact-Beschreibung
"AuftragsNr" und die Dimensionen "Zeit" und "Region".
3.1.6 Fachliche Modellierung
Abb. 5: Fachlicher Cube
Die zentralen Objekte, auf denen Berichte und Analysen in einem Data Warehouse (DWH) basieren, heißen
fachliche Würfel (Cubes). Ein Cube wird mit Hilfe der Modellvorstellungen fachlicher Sterne aus den geforderten
Auswertungen spezifiziert und in die technischen Datenmodellstrukturen übersetzt. Der Cube beschreibt einen
(aus Reportingsicht) in sich geschlossenen Datenbestand z.B. eines betriebswirtschaftlichen Bereichs. Aus
Reportingsicht bezieht sich ein Report immer auf einen Cube, der die Measures, Facts und Dimensionen so
anordnet, dass sie dem intuitiven Verständnis der Endanwender entsprechen.
3.1.4 Dimensionen
9
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In Anlehnung an: Humm (2005), Seite 6
Abb. 6: Fachliche Modellierung
3.2 Referenzarchitektur
Abb. 7: BI Referenz Architektur
Je nach Anwendung, Hersteller der BI und vorhandener IT-Architektur gibt es unterschiedliche Ausprägungen
einer BI-Architektur. Abb. 7 zeigt eine Architektur mit Elementen, wie sie in der Praxis häufig vorgefunden wird:
Das Kernstück einer BI-Architektur ist das Data-Warehouse (DWH oder C-DWH).
Thomas Zeh schreibt hierzu: »Ein DataWarehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf
die zugrunde liegenden Datenquellen ermöglicht.«[11]
Die Sammlung der verschiedenen Komponenten um das DWH, welche erst brauchbare Auswertungen aus den
Datenbeständen des DWH ermöglichen, werden in ihrer Gesamtheit als "Business Intelligence" bezeichnet.
Hierzu gehören die Quellsysteme (in Abb. 7 "Data Sources"), der ETL Process innerhalb der Data Integration, der
Information Delivery und schließlich die Benutzerschnittstellen zur Datenbereitstellung und Visualisierung.
3.1.6 Fachliche Modellierung
10
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
3.2.1 Data Sources
Die Data Sources (im Bild beschrieben) bilden die operativen Quellsysteme (OLTP) des Unternehmens. Als
Beispiel werden in Abb. 7 verschiedene Module eines Customer Relationship Management Systems
(CRM-Systems) und eines Enterprise Recource Planing Systems (ERP-Systems) dargestellt.
Natürlich können noch weitere Systeme über unterschiedliche Schnittstellen angebunden werden. Die Data
Sources können dabei aus unterschiedlichen Technologien und Herstellern bestehen. Um die Daten für
Auswertungen in einem BI-Umfeld zur Verfügung zu stellen, müssen in den Data Sources die relevanten Daten
zu Extraktion bereitgestellt werden. Im Idealfall befinden sich die Daten in einer integrierten Umgebung eines
Herstellers und die Datenfelder lassen sich in den Tabellen der Quellsysteme zur Extraktion kennzeichnen. Diese
Kennzeichnung sorgt für ausreichende Zugriffsberechtigungen für das BI-System und erlaubt dem ETL-Process
das Lesen in den transaktionalen Tabellen. In einem heterogenen Systemumfeld werden die Daten mit
unterschiedlichen Lösungen zur Extraktion bereitgestellt. Eine übliche Variante ist das Schreiben einer Textdatei
im CSV- oder XML-Format, mit anschließender Bereitstellung über einem sftp-Zugang.
3.2.2 Data Integration
Der Bereich Data Integration (deutsch: Datenintegration) bildet die Schnittstelle zwischen den operativen
Quellsystemen und dem Data Management im Data Warehouse (DWH). In dieser Schicht werden die Daten aus
den Quellsystemen extrahiert, transformiert, die Qualität gesichert und in das DWH geladen. Dieser Prozess wird
deshalb auch in den ETL Prozess für Extraction, Transformation and Loading zusammengefasst. Der temporäre
Speicher- oder Arbeitsbereich der Data Integration wird als Staging Area bezeichnet.
3.2.2.1 Extract
Die Extraktion der Daten beschreibt die eigentliche Schnittstelle. Hierbei werden die Rohdaten von den
physikalischen Maschinen der Quellsysteme (Data Source) auf die BI-Server mit dem Data Warehouse (DWH)
geladen. Für die Extraktion stehen dem BI-System meist vielseitige Import-Tools zur Verfügung, da nur im
Idealfall direkt aus einer relationalen Quelldatenbank gelesen werden kann. Diese Import-Tools sind
beispielsweise in der Lage, sich mit einen sftp-Server zu verbinden und die bereit gestellten Daten in CSV- oder
XML-Dateiformaten einzulesen.
Die Spezifikationen dieser Schnittstellen und Formate werden in Schnittstellenvereinbarungen mit beiden Seiten
(BI <-> Data Source) abgesprochen. Diese Dokumente enthalten neben den Details zu den Datenfeldern auch
Absprachen zur Art und zum Zeitpunkt der geplanten Extraktionen. Wegen der Lastzeiten der Data Sources
werden die großen Datenbeladungen meist für die lastarme Nachtzeit eingeplant. In Beladungsketten werden die
Extraktionen der unterschiedlichen Data Sources in Zeitfenstern eingeplant und abgearbeitet. Neben dieser Art
der synchronen Extraktion können die Daten auch asynchron oder abfragegesteuert beladen werden. Die
Extraktion findet dann zu einem vereinbarten Ereignis statt. Z.B. stellt die Data Source einen Extrakt der aktuellen
Daten bereit, wenn eine definierte Anzahl bestimmter Vorgänge erreicht wurde.
3.2.2.2 Transform
»Der Transformationsprozess umfasst alle Aktivitäten zur Umwandlung der operativen Daten in
betriebswirtschaftlich interpretierbare Daten. Er setzt sich aus den Teilprozessen der Filterung, der
Harmonisierung, der Aggregation sowie der Anreicherung zusammen.«[12]
3.2.1 Data Sources
11
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Der Teilprozess Filterung ist bereits ein wichtiger Teil der Qualitätssicherung der Daten. Da die Inhalte der
Datenfelder oft aus manuellen Eingaben der Mitarbeiter resultieren, ist auf die syntaktische und semantische
Qualität der Daten kein Verlass.
Es wird in unterschiedlichen Qualtitäsebenen der Filterung unterschieden:
Service Level 1: Ein falscher Datentyp eines einzelnen Datums kann bereits zu Abbrüchen einzelner
Data-Source-Beladungen oder ganzer Beladungsketten führen. Im Service Level 1 werden die Daten auf ihren
Typ und ihr Format (Syntax) automatisch überprüft und an bekannte Formen angepasst. Aus einem 13.01.80 wird
beispielsweise der 13.01.1980.
Ein semantischer Fehler, wie beispielsweise das Fehlen von Pflichtfeldern, kann durch vordefinierte Regeln mit
Defaultwerten automatisiert behoben werden.
Service Level 2: Die Regeldefinition des Service Level 1 wird nur die wenigsten Unstimmigkeiten aufstöbern und
beseitigen können. So findet der Service Level 2 zwar noch selbständig die syntaktischen Herausforderungen aber
keine passende Regel für die automatische Korrektur. Fehler dieser Stufe erfordern das manuelle Eingreifen von
Spezialisten. Mit einer nachträglichen Spezifikation einer passenden Korrekturroutine werden zukünftige Fehler
dieser Art bereits im Service Level 1 abgefangen.
Die semantischen Prüfungen erkennen mit Hilfe von Plausibilitätskontrollen, einfachen
Wertebereichsüberprüfungen oder Data-Mining-basierenden Musterkennungsverfahren fehlerhafte Datenwerte.
Fehler dieser Art sich häufig fachlicher Natur und lassen sich nicht kurzfristig durch IT-Spezialisten in den Data
Sources bereinigen.
Service Level 3: Syntaktische Fehler können vollständig beschrieben und automatisch erkannt werden. Deshalb
verbleiben nur unerkannte semantische Fehler im Service Level 3, welche nur noch manuell durch
betriebswirtschaftliche Spezialisten gefunden und korrigiert werden können[13].
In Anlehnung an: Kemper (2006), Seite 29
Abb. 8: Harmonisierung
Die Harmonisierung der Daten ist notwendig, weil die meist heterogenen externen Quelldaten aus den
unterschiedlichen Data Sources nach unterschiedlichen Schlüsselfeldern indiziert sind. Daher liegt die
3.2.2.2 Transform
12
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Hauptaufgabe in der Zusammenführung der gefilterten Daten und im Mapping synonymer oder homonymer
Werte[14].
Der Teilprozess Aggregation beginnt bereits mit der Realisierung der Dimensionen und stellt die Datenstrukturen
in Anlehnung an die fachliche Konzeption her[15].
Relationale Datenstrukturen
In Anlehung an: Humm (2005), Seite 7
Abb. 9: Datenstruktur nach Star-Schema
• Flache Strukturen
Flache Strukturen bilden eine bewusst denormalisierte und höhere Aggregationsebene ab. So können die
Analysen mit einer stark verkleinerten Datenbasis arbeiten. Jeder Fact muss einen eigenen
Tabellenschlüssel erhalten und so kommt es durch die so entstehenden langen Schlüssel zu
Performanceeinbußen. Auch sind sie nicht für OLAP-Anwendungen geeignet. Die flachen Strukturen
kommen heute meist im Austausch zwischen den Systemen und somit in der Staging Area zum
Einsatz[16].
• Star-Schema
Das Star-Schema ist speziell auf die Leistungsmerkmale relationaler Datenbanken abgestimmt und so
kommt es nicht zu den Performanceeinbußen wie bei den flachen Strukturen. Die Faktentabelle (in Abb. 9
"Auftrag") nimmt nur die Measures und die Schlüssel der Dimensionen auf. So wird der Einsatz von
besonders kurzen Schlüsseln möglich. Das Star-Schema wird beim Einsatz von R-OLAP-Systemen
verwendet[17][18].
• Snowflake-Schema
3.2.2.2 Transform
13
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Das Snowflake-Schema ist eine Erweiterung des Star-Schemas. Es erweitert das Star-Schema um
Stammdatentabellen, die es möglich machen, Measures nicht nur historisiert, sondern auch aktuell
darzustellen. Die Administration wird allerdings aufwändiger und so wird es schwieriger, das Modell
performant zu lesen. Das Snowflake-Schema wird beim Einsatz von R-OLAP-Systemen verwendet[19][20].
Multidimensionale Datenstruktur für OLAP-Systeme (M-OLAP)
Hier werden herstellerabhängige, proprietäre Datenstrukturen und Datenbanksysteme verwendet, die
speziell auf eine hohe Performance in multidimensionalen Datenstrukturen ausgerichtet sind,
verwendet[21]" Sie werden meist in Data Marts für den Einsatz von M-OLAP benötigt.
Mit dem 4. Teilprozess Anreicherung werden die betriebswirtschaftlichen Kennzahlen errechnet und in den neuen
Datenstrukturen abgelegt[22].
3.2.2.3 Load
Im letzten Schritt des Data Integration ETL-Process "Load" werden die vorbereiteten Daten aus der Staging Area
in das Data Management (Data Warehouse) geladen und die darauf aufbauenden Analysen aktualisiert. Hier
ergeben sich weitere Möglichkeiten Ressourcen zu sparen und die Performance der Systeme nicht unnötig zu
belasten. So ist es nicht nötig, immerzu alle Daten aus der Staging Area in die Datenbanken des Data Warehouse
erneut zur überführen. Meist reicht es aus, nur die Änderungen am Datenbestand zu betrachten.
Der Load-Process versieht geänderte Daten mit einem Zeitstempel und historisiert frühere Versionen der
Datensätze, sodass auf Daten zugegriffen werden kann, die zu einem früheren Zeitpunkt gültig waren.
Während des Loadings sind die Datenbanken des Data Warehouse für den Zugriff der Analyse Tools blockiert. So
bietet sich auch für diesen Prozess das Zeitfenster der geringsten Last an.
3.2.3 Data Management
Das Data Management umfasst die Bereiche der Datenhaltung einer BI-Architektur. Neben dem Core Data
Warehouse stehen je nach Architekturkonzept noch Data Marts und der Operational Data Store (ODS) zur
Verfügung.
3.2.3.1 Core Data Warehouse
Das Core Data Warehouse (C-DWH) ist die zentrale Komponente und stellt sämtliche Daten nach der ersten
Transformation für unterschiedlichste Auswertungszwecke bereit. Die Daten werden in einer relationalen
Datenstruktur von der Extraktion abgelegt. Siehe auch R-OLAP-Technologie
Das C-DWH erfüllt somit die folgenden Funktionen:
3.2.2.3 Load
14
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
• Sammel- und Integrationsfunktion
Aufnahme aller für die Analyse wichtigen Daten im Sinne eines logisch zentralen Datenlagers.
• Distributionsfunktion
Versorgung aller nachgeschalteten Data Marts mit Daten.
• Auswertungsfunktion
Direkte Verwendung als Datenbasis für Analysen unter Umgehung der Data Marts[23].
Die Daten sind hier in meist geringerer Detaillierung abgelegt und sind so auch für zukünftige
Analyseanforderungen leichter nutzbar. Auswertungen direkt im C-DWH durchzuführen, erfordert jedoch
fortgeschrittene Kenntnisse im Umgang mit Datenbanken und deren Abfragen. Gerade vor dem Hintergrund der
ständig steigenden Datenvolumina können die Abfragen zu Performanceeinbrüchen der Datenbank führen. Aus
diesem Grund setzt man auf die, unternehmensweit ausgerichtete, Datenhaltung des C-DWHs kleinere
Datenpools, mit bereichs- oder themenorientierten Datensammlungen (Data Marts), auf. Analysen, welche auf
Grundlage unternehmensweiter Daten basieren, werden in Standard Reports allen Entscheidern eines
Unternehmens für ihre strategischen, taktischen und operativen Entscheidungen zur Verfügung gestellt. In der
Regel wird der Datenbestand des C-DWH aus den genannten Gründen dem IT-Bereich vorbehalten[24].
3.2.3.2 Data Marts
Data Marts sind bereichs- oder themenorientierte Datenpools mit wesentlich geringeren Datenvolumina als die
zentralen Core Data Warehouses. Sie erlauben spezifische Benutzerberechtigungen nach Aufgaben im
Unternehmen und sind für die analytischen Abfragen durch die Fachseiten gebaut. Je nach Anwendung kommen
hier auch M-OLAP und H-OLAP Technologien zum Einsatz. Data Marts sind auf die Entscheidungsfundierung
des Managements kleinerer Unternehmenseinheiten wie Bereiche oder Abteilungen ausgelegt. Beispielsweise
werden die Datenbestände des Vertriebs mit den Instrumenten der Vertriebssteuerung, die sensiblen
personenbezogenen Daten des Personalbereichs und Kennzahlen des Controllings in getrennten Data Marts
aufgeteilt. Die Leseberechtigungen der Nutzer können so voneinander getrennt werden. Die Granularität der
Daten ist hier erheblich höher als in einem C-DWH und auf vorab modellierte Analyseanforderungen der
Fachbereiche festgelegt. Deshalb sind auch die Freiheitsgrade der Analysen eingeschränkt und neue
Analyseanforderungen müssen meist durch die IT auf Basis des C-DWH neu modelliert werden[25]. Kennzahlen,
welche bereichsübergreifend generiert und eingesehen werden sollen, können auf Basis der C-DWH oder ODS als
Standard Reports von der IT bereitgestellt werden.
3.2.3.3 Operational Data Store
3.2.3.1 Core Data Warehouse
15
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In Anlehnung an: von Maur et al. 2003, Seite 15
Abb. 10: Eigenschaftsprofile von operativen, Operational-Data-Store- und Data-Warehouse-Systemen
Der Operational Data Store (ODS) ist eine dem C-DWH ähnliche, jedoch parallel betriebene und je nach
Architekturkonzept optionale Datenbank.
Der ODS bietet eine integrierte, konsolidierte, datenzentrierte Sicht auf die Quelldaten, beschränkt sich jedoch auf
den jeweils aktuellen Stand und ist typischerweise sowohl fachlich wie auch technisch relational modelliert[26].
Ein ODS lehnt sich mit seinem Datenbestand nah an die transaktionalen Quellsysteme an ist aber doch für die
unterschiedlichsten Anwendungen in den Transformationsprozessen eine Art Zwischenablage. Dennoch lassen
sich Reports, wenn die dort vorliegenden Strukturen für das gewünschte Ergebnis ausreichend sind, auch auf den
Bestand des ODS aufbauen.
Der Transformationsprozess zur Befüllung des ODS ist daher dem Transformationsprozess zum Beladen eines
Data Warehouses sehr ähnlich, beinhaltet jedoch primär nur die Stufen der Filterung und Harmonisierung. Die
Daten werden oft nur über eine Zeitspanne von mehreren Tagen vorgehalten (z.B. wochenweise) und so sind
zeitraumbezogene Auswertungen nicht möglich. Jede Änderung in den Quellsystemen überschreibt den im ODS
vorhandenen Datensatz. Dies kann, je nach Aktualisierungshäufigkeit, zu einer vorteilhaften Aktualität der Daten
im ODS führen[27]. Da die Daten im ODS hauptsächlich für Analysen auf der Basis des operativen Kontextes
herangezogen werden, werden sie sehr detailliert festgehalten. Häufig erfolgt die Detaillierung auf
Transaktionsebene, d. h. einzelne Geschäftsvorfälle werden gespeichert [28]. Abb. 10 zeigt die unterschiedlichen
Eigenschaften der Data Sources im Vergleich mit einem ODS und einem DWH.
3.2.4 Information Delivery
Der Bereich Information Delivery beschäftigt sich mit der spezifischen Aufbereitung, Nutzung und Verteilung der
Daten. Hierbei kommen unterschiedliche Analysesysteme zum Einsatz, welche die Daten in ihre endgültige
Darstellungsform überführen. Mit Hilfe von Analysesystemen werden demnach Daten in einen
anwendungsorientierten Kontext überführt, spezifisch aufbereitet und präsentiert. Aufgrund dieser Maßnahmen
werden die Daten semantisch angereichert und erlangen verwendungs-spezifische Bedeutungen, die ihre
Interpretation als Informationen ermöglichen[29].
3.2.4.1 Free Data Research
Die Free Data Research (freie Datenrecherche) erlaubt den direkten Zugriff auf die Datenhaltung. Im Gegensatz
zu anderen Systemen der Information Delivery bedient sich der Benutzer somit einer eher techniknahen Sprache.
Im relationalen Kontext hat sich die Structured Query Language (SQL) als anerkannter Standard durchgesetzt
aber es existieren weitere Datenmanipulationssprachen verschiedener Hersteller, die einen umfangreichen, aber
proprietären Leistungsumfang besitzen[30].
3.2.3.3 Operational Data Store
16
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Anforderungen an die Datenmanipulationssprachen:
• Datenauswahl & Navigation
Unterstützt die Navigation über unterschiedliche Dimensionen oder Hierarchieebenen. Eine Hierarchie ist
die Granularitätsstufe einer Dimension. z.B. Dimension "Zeit", mit den Hierarchistufen "Tage, Woche,
Monat und Jahr".
• Verdichtungen
Verdichtungen bilden Summen, Durchschnittswerte oder die Nennung von Extrema-Werten.
• Belegungsfunktionen
Gestatten das Kopieren von Werten über Dimensions- bzw. Hierarchiebenen hinaus.
• Faktengenerierung
Die Faktengenerierung erlaubt das Berechnen eigener Kennzahlen.
• Zusammenfassung von Dimensionselementen
Erlaubt das Zusammenfassen von Datensätzen zu einer alternativen Dimension, welche durch ein
bestimmtes Merkmal kategorisiert werden können. Z.B.: Die alternative Dimension "Dieselfahrzeuge",
welche sich anhand des Treibstoffs von anderen Fahrzeugen abgrenzen lassen[31].
Freie Datenrecherchen fordern ein Höchstmaß an IT-Verständnis von den Benutzern. Dafür wird man in der
Regel mit hochperformanten Abfragen belohnt. Dennoch können falsch erstellte Abfragen, welche sich über ein
großes Datenvolumen strecken, den gesamten Betrieb des Systems nachhaltig stören. Die freien Recherchen
werden deshalb meist nur von Administratoren und Power-Usern eingesetzt[32].
3.2.4.2 Online Analytical Processing
3.2.4.1 Free Data Research
17
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Abb. 11: Cube im multidimensionalem Datenraum
Das Online Analytical Processing (OLAP) ist eine nach Edgar F. Codd und Mitautoren im Jahre 1993 definiertes
Ad-hoc-Analysesystem in multidimensionalen Datenräumen.[33] Der veröffentlichte Artikel sorgte für heftige
Diskussionen, aus denen rund 300 Regeln für das OLAP-Umfeld hervor gingen. Eine Konsolidierung dieser
Eigenschaften wurde 1995 von Pendse und Creeth mit der Reduzierung auf fünf Kerninhalte vorgenommen[34]:
• Fast (Geschwindigkeit): Das System soll reguläre Abfragen innerhalb von 5 Sekunden, komplexe
Abfragen in maximal 20 Sekunden beantworten.
• Analysis (Analyse): Das System soll eine intuitive Analyse mit der Möglichkeit von beliebigen
Berechnungen anbieten.
• Shared (Geteilte Nutzung): Es existiert eine effektive Zugangssteuerung und die Möglichkeit eines
Mehrbenutzerbetriebs.
• Multidimensional: Unabhängig von der zugrunde liegenden Datenbankstruktur ist eine konzeptionelle
multidimensionale Sicht umzusetzen.
• Information (Datenumfang): Die Skalierbarkeit der Anwendung ist auch bei großen Datenmengen
gegeben, so dass die Antwortzeiten von Auswertungen stabil bleiben[35].
Das Akronym FASMI steht für ?Fast Analysis of Shared Multidimensional Information?.
Unabhängig von der Anzahl der Dimensionen wird stets der Würfel (engl. Cube) als Metapher für
multidimensionale Datenräume gewählt. Die gebräuchliche Bezeichnung Hypercube deutet die unbeschränkte
Anzahl möglicher Dimensionen an. In der Praxis verwendet man auf Grund der betriebswirtschaftlichen
Anforderungen und sonst resultierenden Komplexität meist Dimensionen im einstelligen Bereich. Wie im Kapitel
der fachlichen Architektur bereits beschrieben, besteht ein Cube aus Measures, Facts und Dimensionen. Darüber
hinaus werden die Cubes in Hierarchisierungen geordnet (z.B. Dimension "Zeit", mit den Hierarchistufen "Tage,
Woche, Monat und Jahr").
Abb. 11 verdeutlicht einen Cube mit seinen Dimensionen Zeit (in der Hierarchie "Monat"), Artikel (weitere
Hierarchiestufe z.B. "Produktgruppe") und Geographie (in der Hierarchie "Region")[36].
3.2.4.2 Online Analytical Processing
18
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In Anlehnung an: Kemper (2006), Seite 96
Abb. 12: Cube-Rotation im multidimensionalem Datenraum
Operationen:
Üblicherweise werden verschiedene Klassen von Operationen differenziert, mit deren Hilfe spezifische
Auswertungen in multi-dimensionalen Datenräumen durchgeführt werden können. Auch hier wird zur
Erläuterung der grundsätzlichen Funktionsweise stets der dreidimensionale Datenraum gewählt, damit die
Operationen möglichst plastisch beschrieben werden können[37].
• Pivotierung/Rotation
Die Rotation erlaubt das Umschalten zweier Dimensionen:
• Roll-up & Drill-down
Roll-up erlaubt das Umschalten der o.g. Dimensionshierarchien. Die Dimension der Zeit lässt sich somit
von der Stufe "Monat" auf die Stufe "Quartal" umschalten. Die aggregierten Summen der Verkaufszahlen
errechnen sich dann auf den Zeitraum ganzer Quartale. Die Operation Drill-down schaltet von einer
höheren Hiercharchieebene herunter. Also z.B. von den Quartalszahlen zu den Monatssummen[38].
3.2.4.2 Online Analytical Processing
19
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In Anlehung an: Kemper (2006), Seite 100
Abb. 13: R-OLAP, M-OLAP und H-OLAP
OLAP Technologien:
Die OLAP Technologien werden in 3 Kategorien anhand der verwendeten serverseitigen Datenhaltung
unterschieden[39]:
• R-OLAP (Relational OLAP)
Greift auf relationale Datenhaltung mit Star- oder Snowflake-Schemen zu, wie sie meist im Core Data
Warehouse wiederzufinden sind und bereitet die angefragten Ergebnisdaten multidimensional auf.
• M-OLAP (Multidimensional OLAP)
Greift auf physisch multidimensional gespeicherte Daten zu, wie sie oft in Data Marts wiederzufinden
sind.
• H-OLAP (Hybrid OLAP)
Nutzt die Vorteile der relationalen Datenhaltung im C-DWH und die Vorteile der physischen
multidimensionalen Speicherungen der Data Marts zu. Wenn der Benutzer durch Drill-Down-Navigation
in detailliertere Datenbereiche vorstößt, wechselt er in die relationale Datenhaltung[40].
3.2.4.3 Data Mining
»Das Data-Mining stellt allgemein verwendbare, effiziente Methoden zur Verfügung, die autonom aus großen
Rohdatenmengen die bedeutsamsten und aussagekräftigsten Muster identifizieren und sie dem Anwender als
interessantes Wissen präsentieren.«[41] Üblicherweise wird der Begriff Data Mining domänenunabhängig für die
Mustererkennung in strukturierten Datenbeständen verwendet. Die Theorie beschreibt den Unterschied zu
herkömmlichen Analysen, mit den Fehlern einer initialen Hypothese. D.h. es werden Analysetechniken und
-methoden auf eine Datenbasis angewandt, ohne bereits vorab das Ziel der Analyse zu kennen. Erst nach der
Analyse und Interpretation gefundener Muster im Datenbestand wird klar, welche Information gewonnen wurde.
3.2.4.3 Data Mining
20
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
In der Praxis beschränken sich Data-Mining-Systeme allerdings auf die automatisierte Auswahl der
Analysemethode, die Datenanalyse und die Präsentation der Analyseergebnisse. Die Generierung von Hypothesen
und die Festlegung der zu analysierenden Datenbestände werden weiterhin den Systembenutzern zugeordnet[42].
Data-Mining nutzt folgende Methoden:
• Deskription
Das Ziel der Deskription ist die Beschreibung interessanter, aber noch nicht unmittelbar
handlungsrelevanter Strukturen auf Basis deskriptiver statistischer Methoden oder
Visualisierungsmethoden. Sie kommt vor allem im Rahmen der explorativen Datenanalyse zum Einsatz.
• Abweichungsanalyse
Die Abweichungsanalyse untersucht die Datenbestände auf auffällige abweichende oder atypische Werte,
welche z.B. ungewöhnlich hoch oder niedrig sind.
• Assoziation
Die Assoziation findet Abhängigkeiten, indem häufig gemeinsam auftretende Ereignisse analysiert
werden.
• Gruppenbildung
Die Gruppenbildung (oder auch Segmentierung) dient der Identifizierung von Clustern gleichartiger
Objekte auf Basis von Ähnlichkeitsmerkmalen. Die Objekte innerhalb eines Clusters sollten möglichst
ähnlich und die Objekte unterschiedlicher Cluster möglichst unterschiedlich sein. Die Eigenschaften eines
Clusters und die Merkmale, über die sich die Ähnlichkeit abgrenzen lässt, stehen im Vorfeld nicht fest.
• Klassifikation
Die Klassifikation bestimmter Datensätze wird erreicht, indem anhand von bestimmten Eigenschaften im
Rahmen gewisser Schwellwerte, Gemeinsamkeiten gefunden werden. Beispielsweise können
Kundensegmente anhand bestimmter Jahresumsätze gebildet werden. Die Klassen werden im Vorfeld
gebildet und stehen somit fest.
• Wirkungsprognose
Diese Methode versucht auf Basis existierender Daten auf ein unbekanntes Merkmal zu schließen. Sie
dient zur Planung bestimmter Forecasts. Z.B. Verkaufserwartungen bestimmter Produkte[43].
3.2.5 Visualization
3.2.5.1 Front-Ends
Die Bereitstellung der Reports und Analysen, welche auf Basis der relationalen Datenmodelle oder der
multidimensionalen OLAP-Cubes basieren, erfolgt meist über Frontends. Frontends sind Client-Anwendungen,
die als eigenständige Software oder Plug-Ins in Tabellenkalkulationsanwendugen die Datenbankabfragen oder
OLAP-Operationen in den C-DWH oder den Data Marts durchführen. Die Bedienung erfolgt intuitiv und
komfortabel auf einer grafischen Benutzeroberfläche und ermöglicht eine Aufbereitungen und Verteilung der
3.2.5 Visualization
21
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Daten[44].
Wesentliche Funktionen der Front-End-Anwendungen:
• Bereitstellung fertiger Reports (Abfragen)
• Erstellen, Speichern, Aufrufen und Verwalten individueller Benutzerreports
• Grafische Aufbereitung der Ergebnisse durch umfangreiche Formatierungsmöglichkeiten
• Grafische Aufbereitung der Ergebnisse in verschiedenen Grafiktypen und Diagrammen
• Export der Ergebnisse in Office Standardsoftware Formaten
• Integration der Reports in Portale
• Automatische Generierung und Verteilung von Reports [45]
3.2.5.2 Dashboards
Ein Dashboard (deutsch: Steuerpult) stellt den Anwendern eine Sammlung fertiger Reports auf Knopfdruck zur
Verfügung. Dashboards eignen sich hervorragend, um aggregierte Informationen auf Ebene des Topmanagements
auf einfache Weise übersichtlich darzustellen[46].
Die Manager sollen:
• jederzeit über die wichtigsten Kennzahlen informiert sein,
• Entwicklungen von operativen Geschäftsprozessen nachvollziehen,
• Abhängigkeiten (Wenn-Dann) erstellen können,
• über wichtige Ereignisse über Schwellwerte automatisch informiert werden,
• direkte Kontaktmöglichkeiten zu den Anbietern (Fachbereiche) der Informationen angeboten bekommen,
• spezielle Informationen einfach, schnell und aktuell selbst ermitteln können, um schnell auf plötzlich
auftretende Situationen zu reagieren[47].
3.2.5.3 Portale
Über Portlets lassen sich vordefinierte Reports in firmeneigenen Intranets ohne lokale Clientinstallationen
bereitstellen. So können operative Berichte in browserbasierenden Anwendungen direkt und
plattformübergreifend (OS) integriert werden [48]. Diese können so auch auf modern Tabletcomputern oder
Smartphones angezeigt werden.
3.3 Architekturvarianten
Je nach Anwendung, Performanceanforderungen, geografischer Standorte, zeitlichen Gegebenheiten oder
Datenvolumina kommen unterschiedliche Architekturvarianten zum Einsatz. Sie setzen sich meist mit den bereits
erklärten Komponenten zusammen.
Aus Sich der reinen Datenhaltung ergeben sich folgende Konzepte:
• Das zentrale Data Warehouse
• Das Distributed Data Warehouse
• Die Hub&Spoke Architekturen oder auch Large-Scale-Architektur
3.2.5.1 Front-Ends
22
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
3.3.1 Zentrales Data Warehouse
In Anlehnung an: Bachmann (2011), Seite 94
Abb. 14: Zentrales DWH
Das zentrale Data Warehouse ist die einfachste Architektur. Das Data Management besteht aus einer einzigen
zentralen relationalen Datenbank, welche von den Data Sources gleichermaßen genutzt wird.
Die Abb. 14 zeigt die schematische Architekturdarstellung. Es wurde auf die Darstellung der Data Integration,
Information Delivery und Visualization verzichtet[49].
Eigenschaften:
• Zentrale Verwaltung aller Daten in einer physischen Datenbank
• Historisierte und konsolidierte Datenbasis für das gesamte Unternehmen
• Je nach Unternehmensgröße sehr große Datenbanken und sehr aufwendige Modellierung
• Komplexe Administration und komplexes Performance Tuning
• Hoher Zeitaufwand [50]
3.3.2 Distributed Data Warehouse
In Anlehnung an: Bachmann (2011), Seite 95
Abb. 15: Distributed DWH
Die in Abb. 15 dargestellte Distributed Data Warehouse Architektur zeigt mehrere relationalen Datenbanken.
Auch hier wurde auf die Darstellung der Komponenten aus Data Integration, Information Delivery und
Visualization verzichtet[51].
Eigenschaften:
3.3.1 Zentrales Data Warehouse
23
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
• Aufspaltung einer logischen Datenbank in mehrere Teile, gemäß geeigneter Kriterien
• Verteilung auf physisch getrennte Server
• Historisierte und konsolidierte Datenbasis für das gesamte Unternehmen
• Problemstellung und Komplexität entspricht der zentralen Data Warehouse-Architektur
• Distributions-, Synchronisations- und Abfragemechanismen notwendig[52]
3.3.3 Hub&Spoke-Architektur
In Anlehnung an: Mehrwald (2007), Seite 604
Abb. 16: Replizierende Hub&Spoke Architektur
Hub&Spoke bedeutet, ein BI-System nicht nur logisch sondern auch physisch auf mehrere
Data-Warehouse-Systeme (z.T auch redundant) zu verteilen und dennoch nicht den Anspruch an die Zentralität
des entstehenden Gesamtsystems aufzugeben[53].
Eigenschaften:
• Generierung abteilungsbezogener Data Marts (Spokes) aus dem konsistenten Datenbestand (Hub)
• Beschränkung der Data Marts auf Unternehmensteile, z.B. auf Abteilungen, Bereiche, Produktsparten.
• Historisierte und konsolidierte Datenbasis für das gesamte Unternehmen
• Modularer Charakter durch Data Marts
• Vergleichsweise kurze Implementierungszeit für BI-Lösungen anhand einer ausgewählten Datenbasis
• Verwaltung großer Datenmengen oder umfangreicher Ladevorgänge
• Globale Verteilung der Anwender
• Globale Verteilung der Data Sources
• Aufbau der Architektur kann sowohl mit dem Data Warehouse als auch mit den Data Marts beginnen [54]
Je nach technischen bzw. organisatorischen Anforderungen gibt es zwei grundlegende Ausprägungen der
Hub&Spoke-Architektur:
• die replizierende Architektur
• die aggregierende Architektur
3.3.2 Distributed Data Warehouse
24
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Die replizierenden Architektur:
Die replizierenden Architekturen zielen darauf ab, Ressourcenengpässe bei der Datenanalyse zu beseitigen, die
entstehen können, weil zum Beispiel:
• das Information Delivery das System durch große Datenmengen oder viele Anwender besonders stark
belastet.
• aufgrund von Anbindungsproblemen
• Information Delivery und Data Integration zeitlich nicht voneinander getrennt werden können und sich
merklich behindern
• die Information Delivery durch spezifische Tools unterstützt werden soll, die jeweils ein eigenes
BI-System erfordern
Aus diesem Grund führt man die Daten in einem zentralen DWH (Hub) zusammen, bereitet sie auf und verteilt
sie an die umliegenden Systeme (Spokes). Die Abb. 16 verdeutlich diese Architektur. Es wurde wieder auf die
Darstellung der Komponenten aus Data Integration, Information Delivery und Visualization verzichtet.
Im Gegensatz zur Referenzarchitektur dienen die Spokes jedoch nicht ausschließlich dem Zweck, die Daten des
Hubs anwendungsspezifisch aufzubereiten. Wenn z.B. die gleiche Anwendung auf mehrere Spokes verteilt
wurde, können diese Spokes Daten auch identisch aufbereiten. Dieses Szenario ist in der Praxis vor allem dann
anzutreffen, wenn die Spokes zur Lastverteilung eingesetzt werden[55].
Die aggregierende Architektur:
In Anlehnung an: Mehrwald (2007), Seite 606
Abb. 17: Aggregierende Hub&Spoke Architektur
Bei den aggregierenden Hub&Spoke-Architekturen wird im Gegensatz zu replizierenden Architekturen die Data
Integration als Ressourcenengpass gesehen. Dies kann der Fall sein, weil
• die datenliefernden Quellsysteme geografisch getrennt sind (Anbindungsproblem).
• die Datenvolumina der liefernden Data Sources zu groß sind, um von einem System verarbeitet zu
werden
• Information Delivery und Data Integration zeitlich nicht voneinander getrennt werden können und sich
merklich behindern.
3.3.3 Hub&Spoke-Architektur
25
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Aus diesem Grund sammeln in den aggregierenden Hub&Spoke-Architekturen mehrere Spokes die Daten ein,
verarbeiten sie in der Data Integration und liefern dann an ein zentrales Data Warehouse (Hub). Die Abb. 17
verdeutlich diese Architektur. Es wurde wieder auf die Darstellung der Komponenten aus Data Integration,
Information Delivery und Visualization verzichtet.
Insbesondere, wenn derartige Architekturen aufgrund der geografischen Verteilung der Data Sources entstehen,
ist es üblich, dass auch auf den Spokes Information Delivery betrieben und an den Hub lediglich aggregierte
Daten geliefert werden (weil regionales Reporting detailliertere Informationen benötigt als globales Reporting)
[56].
4 Praktische Umsetzung
4.1 Grundphilosophien
In der Praxis werden BI-Systeme speziell an die Bedürfnisse des Unternehmens angepasst. Für das Data
Warehouse gibt es verschiedene Umsetzungsvarianten. Dabei spielen vor allem Zugriffszeit, die Aktualität des
Datenbestands und die Art der Daten eine gewichtige Rolle bei der Entscheidungsfindung.
4.1.1 DWH Umsetzungsvarianten
Die Umsetzungsvarianten haben maßgeblichen Einfluss auf Aktualität der Daten und Zugriffszeit.
4.1.1.1 Klassisches Data Warehousing
Bei der Umsetzung nach klassischem Data Warehousing werden die Daten in zeitlich wiederkehrenden
Abständen und gebündelt transformiert. Dies kann zum Beispiel täglich, wöchentlich oder monatlich sein. Die
Datenanalysesysteme nur lesend auf die Daten zugreifen ist eine hohe Datenkonsistenz gewährleistet. Typische
Anwendungsbeispiele für den Einsatz des klassischen Data Warehousing sind Planungs- und Kontrollinstrumente
mit kurz- bis mittelfristigem Entscheidungshorizont. Es sind bei dieser Umsetzungsvariante noch keine speziellen
Optimierungen bezüglich der Aktionszeit berücksichtigt und sie kann daher als Referenz für eine
Latenzzeitoptimierung genutzt werden[57].
4.1.1.2 Closed-Loop Data Warehousing
Beim Closed-Loop Data Warehousing werden die Ergebnisse der Analysesysteme direkt in die operativen
und/oder dispositiven Systeme zurückgeschrieben. Dadurch wird eine inhaltliche Ergänzung der Datenbestände
des Quellsystems erreicht, welche die weiteren Analysen beeinflussen können. Anwendungsgebiet für die
Closed-Loop Variante ist vor allem das Customer Relationship Management. Hier werden operative und
analytische CRM miteinander verbunden. Es wird z.B. möglich, Cross- oder Up-Selling Potenziale bei einem
Kundenkontakt direkt aufzuzeigen indem die Ergebnisse eines Kundensegments nach Interessengebiet in das
4 Praktische Umsetzung
26
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
operative Customer Relationship Management System eingespeist wird. Vorteile dieses Ansatzes ist die
Verringerung der Umsetzungslatenz durch bereits strukturierte Ergebnisse, die, wenn benötigt, direkt in die
Zielsysteme zurück geschrieben werden können. Es entfällt eine manuelle Anpassung der
Datenbankstrukturen[58].
4.1.1.3 Real-Time Data Warehousing
Beim Real-Time Data Warehousing wird der ETL-Prozess, der klassisch periodisch und batchorientiert ist, ganz
oder teilweise in Echtzeit durchgeführt. Die Definition dieser Echtzeit ist eine vernachlässigbar geringe Latenzzeit
(im Bereich zw. Millisekunden und Sekunden) zwischen dem erstmaligen Auftreten der Daten im operativen
System und der anschließenden Verfügbarkeit im Data Warehouse. Ein einfaches Kopieren ist zur Erreichung
dieses Ziels meist nicht ausreichend. Zumeist sind Transformationsprozesse und spezielle Optimierungen
erforderlich. Ein typisches Beispiel für den Einsatz von Real-Time Data Warehousing ist der Wertpapierhandel.
Hier ist es sehr wichtig, dass entscheidungsrelevante Informationen so schnell wie möglich zur Verfügung
stehen[59].
4.1.1.4 Active Data Warehousing
»Die Grundidee des Active Data Warehousing ist eine weitere Operationalisierung des Data Warehouse und
somit eine stärkere Unterstützung des Lower-Managements.« [60] In den meisten Fällen sind operative
Entscheidungssituationen besser strukturiert als ihre strategischen Gegenparts. Dadurch können in bestimmten
Anwendungsfällen bestimmte Aktionen teilweilse oder sogar vollständig automatisiert durchgeführt werden.
Entscheidungen die ständig erneut getroffen werden müssen, können somit automatisiert gelöst werden. [61] »Zur
Beschreibung dieses Sachverhalts dient das Event-Condition-Action-Modell (ECA model), das bereits seit
längerem in aktiven Datenbanken in Form von Auslösern (trigger) umgesetzt wird.« [62]
Eine Regel besteht aus drei Komponenten:
1. Am Anfang der Prozesse stehen Ereignisse (sog. events). Z.B. das Über- oder Unterschreiten von
Schwellenwerten oder Verfügbarkeiten.
2. Darauf folgend optionale Prüfungen, ob bestimmte Zustände bestehen. Sind diese Zustände nicht erreicht,
oder treffen nicht zu, so wird die Ausführung der Regel abgebrochen
3. Treffen die Zustände zu, so werden bestimmte Aktionen in die Wege geleitet. Darunter fällt z.B. die
Durchführung von Transaktionen oder der Aufruf von externen Programmen[63].
Um diese klassischen ECA-Regeln für multidimensionale Analyseregeln konkret umsetzen zu können, ist es
notwendig weitere Details zu bestimmen:
• Was ist die primäre Ebene der Dimsensionshierarchie auf die sich die Regel bezieht?
• Was sind die multidimensionalen Datenräume (Hypercubes), die für die Analyse verwendet werden?
• Welche Entscheidungsschritte, in Form von Wenn-dann-Regeln, beschreiben den Entscheidungsprozess?
• Welche weiteren Bedingungen müssen für die OLTP-Systeme erfüllt sein, damit automatisch
Änderungen an ihnen vorgenommen werden können? [64]
Active Data Warehousing unterstützt die Lösung komplexer Optimierungsprobleme. »Ein klassisches
Logistikproblem ist beispielsweise die verspätete Lieferung einer Fracht, die für einen Anschlusstransport
bestimmt ist. Es gilt nun abzuwägen, ob der Transport ohne diese Fracht startet oder auf sie wartet. In letzterem
Fall kann sich eine andere Frachtlieferung verspäten. Die ideale Entscheidung berücksichtigt die einzelnen
4.1.1.2 Closed-Loop Data Warehousing
27
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Liefertermine, sowie die vereinbarten Service Levels und den Wert der Kunden für das Unternehmen. Darüber
hinaus können noch alternative Routen, das aktuelle Wetter und weitere Faktoren eine Rolle spielen.«[65] Das
Active Data Warehousing beinhaltet das Closed-Loop Verfahren. Es ist jedoch erweitert um eine aktive
Entscheidungsgrundlage auf Basis von Analyseregeln[66].
4.1.2 DWH Archetypen
Archetypen sind Modellierungs- und Designansätze. Je nach Art der Daten und zugrundeliegender
Implementierung können mehrere dieser Archetypen in Kombination auftreten[67].
4.1.2.1 Archetyp Transaktionsorientiert
Der Archetyp "Transaktionsorientiert" ist eine starke Anlehnung an das Star-Schema Modell. Die Daten aus den
Quellsystemen (z.B. aus Buchungssystemen) sind in vordefinierte Fakten wie Mengen oder Umsätze eingeteilt.
Die Dimensionen sind z.B. Produkte, Zeitperioden oder Stammdaten zu Kostenstellen und -arten und so weiter.
Die Fakten werden zumeist mittels Addition über die Dimensionen aggregiert[68].
4.1.2.2 Archetyp Workfloworientiert
Beim Archetyp "Workfloworientiert" sind die Quellsysteme zumeist Workflow oder andere prozessunterstützende
Systeme. »Diese liefern Status-/ Ereignis-Records und deren Zeitstempel, die sich auf bestimmte Vorgänge
beziehen, z.B. die Abwicklung eines Auftrags. Aus den Statusübergängen werden Measures abgeleitet, zum
Beispiel die Anzahl offener Aufträge.«[69]
4.1.2.3 Archetyp Stammdatenorientiert
Beim Archetyp "Stammdatenorientiert" wird ganz oder teilweise auf Measures verzichtet. »DW-Lösungen
können auch (fast) ganz ohne Measures auskommen. Sollen nur Stammdaten (Kunden,Verträge,Produkte etc.)
verwaltet und für DW-Auswertungen bereitgestellt werden, ist es sinnvoll,die Daten von der normalisierten
Repräsentation im operativen System zu einer denormalisierten Darstellung für das DW zu transformieren.«[70]
Die Faktentabellen sind dann als sog. "factless fact tables" bezeichnet und definieren lediglich die Verknüpfung
zwischen den Dimensionen[71].
4.1.2.4 Archetyp Anwendungsspezifisch
Beim Archetyp "Anwendungsspezifisch" implementiert das DWH die gleichen Aggregationen wie auch in den
operativen Quellsystemen. Ein Anwendungsfall ist z.B. wenn die Quellsysteme der Deckungsbeitragsrechnung
oder der Bilanzierung dienen. Dass sind Spezialregeln wie z.B. die Soll-Haben-Steuerung auch im DWH
zwingend zu implementieren. »Kennzahldimensionen bilden Beziehungen zwischen diesen Measures ab.
Abgesehen von derartigen Anwendungsspezifika gibt es viele Parallelen zum klassischen transaktionsorientierten
DW.«[72]
4.1.1.4 Active Data Warehousing
28
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
4.2 Hersteller und Produkte
Neben den großen IT-Softwareherstellern IBM, Oracle und SAP bieten auch viele kleine und mittelständische
Unternehmen BI-Lösungen an. Dieses Kapitel bietet einen groben Überblick über die am Markt vorhandenen
Lösungen und deren Relevanz. Ebenfalls wird kurz auf das Thema Open Source im BI-Umfeld eingegangen.
4.2.1 Marktübersicht
Hersteller von BI-Lösungen
Actuate GmbH¹
Antares Informations-Systeme GmbH¹
Arcplan Information Services GmbH¹
Bissantz & Company GmbH¹
Board Deutschland GmbH¹
CP Corporate Planning AG¹
Cubeware GmbH¹
Evidanza GmbH¹
IBM Corporation
IDL Beratung für integrierte DV-Lösungen GmbH¹
Informatica GmbH¹
Information Builders Deutschland GmbH¹
Jaspersoft Corporation¹
Jedox AG¹
LucaNet AG¹
Microsoft
MicroStrategy Deutschland GmbH¹
MIK GmbH¹
Oracle Corporation
PmOne AG¹
Prevero AG¹
Prudsys AG¹
QlikTech GmbH¹
Rapid-I GmbH¹
SAP AG
SAS Institute GmbH¹
STAS GmbH¹
Talend GmbH¹
Teradata GmbH¹
Thinking Networks AG¹
Tonbeller AG¹
Winterheller Software GmbH¹
ZetVisions AG¹
4.2 Hersteller und Produkte
Internetadresse
www.actuate.com
www.antares-is.de
www.arcplan.de
www.bissantz.de
www.board.com
www.cp.ag
www.cubeware.de
www.evidanza.de
www.ibm.com
www.idl.eu
www.informatica.com
www.informationbuilders.de
www.jaspersoft.com
www.jedox.com
www.lucanet.com
www.microsoft.com
www.microstrategy.com
www.mik.de
www.oracle.com
www.pmone.de
www.prevero.com
www.prudsys.de
www.qlikview.de
www.rapid-i.com
www.sap.com
www.sas.de
www.stas.de
www.talend.com
www.teradata.com
www.thinking-networks.de
www.tonbeller.com
www.winterheller.com
www.zetvisions.de
29
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Tabelle 1 (Alle Angaben ohne Gewähr und Anspruch auf Vollständigkeit)
Der Großteil der aufgelisteten Anbieter von BI-Lösungen wurde aus der Lünendonk®-Marktstichprobe 2011[73]
übernommen (gekennzeichnet mit einer hochstehenden 1).
In dieser Marktstichprobe wurden Anbieter von BI-Lösungen ausgewählt, deren Umsatz größtenteils durch das
Anbieten und den Support/Weiterentwicklung von BI-Lösungen erzielt wird.
¹)[74]
4.2.2 Marktrelevanteste BI Lösungen
Das von Gartner jährlich veröffentlichte Magic Quadrant (Abb. 18) zeigt, dass besonders die großen Anbieter am
BI-Markt das größte Innovationspotential besitzen und die oberen Marktpositionen einnehmen. Dies bedeutet aber
nicht zwangsläufig, dass kleinere Anbieter keine vernünftigen Lösungen anbieten[75]. Vor allem Anbieter von
Open Source BI wie z.B Jaspersoft etablieren sich zunehmends am weltweiten BI Markt und bieten gute
Alternativen zur großen Konkurrenz.
In Anlehnung an: Sallam (2011)
Abb. 18: Magic Quadrant
4.2.3 Open Source im BI Umfeld
4.2.3.1 Entwicklung
Neben den großen Closed-Source Anbietern wie IBM, SAP und Oracle haben sich mittlerweile auch Anbieter von
Open-Source BI-Lösungen am Markt etabliert. Besonders zu erwähnen, vor allem aufgrund der hohen Qualität
ihrer Produkte, sind die Unternehmen Jedox, Jaspersoft und Pentaho. Dabei handelt es sich um die spezielle Form
des Commercial Open Source. Das heißt, der Anbieter bietet eine kostenfreie und beliebig nutzbare "Community
Version" als auch eine kostenpflichtige "Enterprise Version" an, die um diverse Features und Herstellersupport
erweitert ist[76]. Die ersten Sichtbaren Anfänge nahm das Thema Open Source Software für Business Intelligence
Anfang der 2000er Jahre. So wurde der Vorgänger des Produkts "RapidMiner" 2001 an der Technischen
Universität entwickelt. Die Firma Jedox wurde 2002 gegründet und 2008 trat die Firma Jaspersoft in den
deutschen Markt ein[77] Während Anbieter von Closed-Source BI-Software zumeist vollständig integrierte und
umfassende BI-Suiten anbieten sind die Open-Source Anbieter auf einzelne Teilbereiche spezialisiert, wobei sich
auch hier der Trend in Richtung des Angebots vollständiger Suiten entwickelt[78].
4.2.1 Marktübersicht
30
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
4.2.3.2 Vor- und Nachteile
Neben den klassischen Vor- und Nachteilen von Open Source Software gegenüber Closed-Source Software im
Allgemeinen (darauf wird in dieser Fallstudie nicht näher eingegangen) lassen sich speziell im BI-Umfeld,
insbesondere bei der Gegenüberstellung von Closed-Source BI gegenüber "commercial open source" BI, folgende
Vor- und Nachteile identifizieren:
Vorteile:
• Freie Verfügbarkeit der BI-Software
♦ Die Software ist frei Verfügbar und kann z.B. über das Internet als Download bezogen und
anschließend genutzt werden[79].
• Preisliche Attraktivität
♦ Die kommerzielle Version der Open-Source BI Software ist zumeist immer noch günstiger als die
Angebote von Anbietern rein proprietärer BI-Lösungen[80].
• Bessere Anpass- und Integrierbarkeit
♦ Die Software kann vom Unternehmen selbstbestimmt angepasst bzw. erweitert werden und bietet,
bedingt durch das mangelnde Komplettangebot, eine gute Integrierbarkeit in eine möglicherweise
bereits bestehende BI-Umgebung[81].
Nachteile:
• fehlendes Komplettangebot
♦ Im Open-Source Bereich gibt es noch keine vollständigen Suiten wie es im proprietären Bereich
bereits seit längerem der Fall ist. Ein Unternehmen kann daher nicht vollständig auf Open Source
aufbauen[82].
• unterschiedliche Aktivität der Open Source Community
♦ Open Source Software ist meist sehr erfolgreich wenn es eine große Community gibt, die die
Software unterstützt. Im Bereich BI ist die Aktivität der Communities recht unterschiedlich.
Dafür sind die Unternehmen sehr aktiv bei der Verbesserung ihrer Produkte. Dann ist es jedoch
erforderlich den kommerziellen Support und die kommerzielle Version zu nutzen. Bei zu starker
Eigenmodifikation der frei Verfügbaren Software sind Herstellerupdates eventuell nicht mehr auf
die eigene Version anwendbar[83].
• Know-How Bedarf im eigenen Unternehmen
♦ Bei der Verwendung von Open Source BI liegt, wenn keine kommerziellen Zusatzservices in
Anspruch genommen werden, die Verantwortung für Planung/Betrieb und Wartung beim
Unternehmen selbst. Dieser Kostenfaktor muss ebenfalls einkalkuliert werden[84].
4.2.3.3 Zukunft von Open Source im BI Umfeld
Open Source BI-Lösungen haben sich als ernsthafte Alternative im weltweiten BI-Markt entwickelt. Von der
Entwicklung von Lösungen in sehr speziellen Teilgebieten der BI lässt sich ein Trend in Richtung kompletter
BI-Suiten erkennen[85]. Zwar gibt es am Markt noch immer keine Open Source BI-Suite aus einer Hand, sehr
wohl ist es aber möglich unter Zusammenschaltung und Integration von Open Source BI-Lösungen mehrerer
Anbieter eine sehr leistungs- und umfangsreiche BI-Umgebung aufzubauen. Es bietet sich für das DWH z.B. eine
optimierte MySQL-Variante des Herstellers Greenplum an. Als ETL kann das Tool Octopus des Herstellers
Enhydra verwendet werden und als Analysetools eignet sich z.B. die Datenbank Palo des Herstellers Jedox[86].
Open Source Lösungen sind vor allem für mittelständische Unternehmen und die öffentliche Hand interessant.
Hohe Kosten für proprietäre Lösungen und der Bedarf nach hoher Individualisierbarkeit sind bei diesen
Bedarfsträgern oft Gründe gegen eine toolgestützte BI[87]. Neueste Analysen wie die in Kap. 4.2.2 vorgestellte
4.2.3.2 Vor- und Nachteile
31
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Analyse von Gartner zeigen, dass sich Anbieter frei Verfügbarer BI-Lösungen bereits am Markt etablieren
konnten und das Konzept aufgeht. Der Trend wird sich zukünftig fortsetzen.
4.3 Szenario: "Schoko GmbH"
Um nachvollziehen zu können, wie die in dieser Fallstudie vorgestellten BI-Architekturkonzepte in der Praxis
ineinander greifen und BI somit "erlebbar" machen, soll im Folgenden eine typische Systemimplementierung in
einer fiktiven Firma dargestellt werden.
4.3.1 Ausgangssituation
Die Schoko GmbH ist ein auf die Herstellung und Vermarktung von Schokoladenprodukten spezialisiertes
mittelständisches und ausschließlich in Deutschland tätiges Unternehmen. Hauptabnehmer sind Discounter und
Supermarktketten in ganz Deutschland, die die Produkte der Schoko GmbH in den Süßwarenbereichen
weiterverkaufen.
4.3.2 Motivation und Zielsetzung
Hinweisen der Vertriebsbelegschaft folgend, nach denen es starke regionale Unterschiede im Absatz der
verschiedenen von der Schoko GmbH feilgebotenen Produkte gibt, möchte das Management regional aggregierte
Auswertungen des Absatzes der letzten Jahre vorgelegt bekommen und beauftragt das Marketing mit dieser
Aufgabe. Die Verfügbarkeit der Daten innerhalb des Unternehmens stellt sich allerdings als völlig unzureichend
heraus, und so entscheidet man sich nach intensiver Diskussion mit dem Management für die Einführung eines
BI-Systems um diese und künftige Anfragen des Managements beantworten zu können.
4.3.3 Lösungskonzept
Nach einer intensiven Marktanalyse unter Zuhilfenahme externer IT-Berater wurde sich aus Kostengründen für
eine kommerzielle open source BI-Lösung entschieden. Die Anforderungen des Managements sind nicht
spezieller branchenspezifischer Natur und so ist auch der Funktionsumfang der open-source Lösung ausreichend.
Aufgrund fehlenden internen Know-How's wurde eine externe Firma mit der Einführung sowie dem
anschließenden Support der Software beauftragt. Da die Software in dem Unternehmen neu eingeführt wird, prüft
die externe Firma zunächst die vorhandenen operativen Systeme und schafft die notwendigen Schnittstellen für
die Befüllung des zentralen Datenspeichers, des DWH. Auf diese Weise konnten die operativen Systeme der
Bereiche Produktion, Marketing und Vertrieb erfolgreich an das DWH angebunden werden. Bei der Speicherung
der Daten entschied sich die externe Firma für eine R-OLAP Datenhaltung und zum Zwecke der periodischen
Beladung wurden die entsprechenden ETL-Programme implementiert und in den Einsatz übergeben. Erstmalig
sind die Kenndaten der einzelnen Bereiche der Schoko GmbH an einer zentralen Stelle gespeichert. Anschließend
implementiert und konfiguriert die externe Firma die Analysetools mit denen, auf den Daten des DWH
aufbauend, für den Endanwender grafisch Aussagekräftige Reports erstellt werden können und baut ein
Rechtekonzept auf, um den verschiedenen Bereichen und dem Management differenzierten Zugriff auf die
Analysetools zu gewähren und führt Schulungen durch.
4.2.3.3 Zukunft von Open Source im BI Umfeld
32
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
4.3.4 Entwicklung und Betrieb
Die Schoko GmbH ist mit dem Standardumfang und der Konfigurierbarkeit der ausgewählten BI-Lösung
zufrieden und hat keinen Bedarf an eigener Weiterentwicklung der Software. Es wurde ein Wartungsvertrag mit
einer externen Firma abgeschlossen und durch den Verzicht auf eigene Entwicklung bleibt die open-source
Lösung standard-upgrade fähig. Es wurde eine separierte Abteilung gegründet, die in Absprache mit den weiteren
Bereichen und der externen Firma die Entwicklung und Erweiterung der Analysen und Reports steuert und
vornimmt.
4.3.5 Abschließende Bemerkungen
Durch die Einführung der BI-Lösung konnte das Management herausfinden, dass weiße Schokolade im Westen
Deutschlands besonders beliebt ist. Die Einführung wird vom Management und der Belegschaft als ein Erfolg
wahrgenommen. Die Mitarbeiter, die vormals ohne BI-Unterstützung die Anfragen des Managements erfüllen
mussten bestätigen, dass sie wesentlich entlastet werden und in kürzerer Zeit qualitativ anspruchsvollere
Ergebnisse präsentieren können.
5 Fazit
Ziel der Business Intelligence ist es, durch integrierte IT Systeme die Menschen in den betriebswirtschaftlichen
Prozessen optimal bei ihren Entscheidungen zu unterstützen. Damit dieses Ziel effektiv erreicht werden kann,
bedarf es nicht nur einer individuellen Abstimmung auf das Unternehmen in allen Bereichen, sondern auch einer
Anpassung an die Unternehmen Strategien auf höchster Ebene. Im Bereich der modernen Business Intelligence
gibt es eine Vielzahl von individuell anpassbaren Konzepten, die sich gut wie nie zuvor an die Anforderungen
betriebswirtschaftlicher Gegebenheiten anpassen lassen. Dennoch scheitern viele BI-Projekte, da es keinen
Königsweg gibt, durch den sich die Potenziale mit dem bloßen Glauben an die Technik entfalten. Die
unterschiedlichen Vertreter der Fachseiten platzieren nach einer Art ?Botton Up? Prinzip Anforderungen der für
ihren Bereich relevanten Ziele. Dies kann zu einer falschen Richtung in der grundsätzlichen Konzeption der
BI-Systeme führen, welche die zukünftigen Anforderungen nahezu unbezahlbar machen können.
Die grundsätzlichen Anforderungen an die Business Intelligence müssen in Anlehnung an die langfristigen
unternehmerischen Strategien, durch das Topmanagement geplant, platziert und durch entsprechende
Zielvorgaben autorisiert werden. Für die erfolgreiche Umsetzung bedarf es einer Bündelung aller BI-relevanten
Themen und einer permanenten Kooperation zwischen IT und den Fachbereichen.
In dieser Fallstudie wurden zum einen die theoretischen Konzepte der modernen Business Intelligence beleuchtet
und zum andern eine Überführung dieser Konzepte in praktisches Anwenden unternommen. Es hat sich
herausgestellt, dass Business Intelligence ein sehr großes Thema ist was zu einer gewissen Unschärfe der
Begriffsdefinition führt. Der Begriff ist sehr weit gefasst und viele Konzepte und Begrifflichkeiten der BI sind
angepasst an die jeweilige Branche bzw. Nische, sodass hier ebenfalls eine Herausforderung bestand,
herauszuarbeiten welche Konzepte "BI-typisch" und welche "Nischen-speziell" waren. Es wurden die typischsten
Begrifflichkeiten und Funktionalitäten moderner BI-Systeme vorgestellt und in einem Kapitel zur praktischen
Anwendung demonstriert.
4.3.4 Entwicklung und Betrieb
33
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
6 Abbildungsverzeichnis
Abb. 1
Abb. 2
Abb. 3
Abb. 4
Abb. 5
Abb. 6
Abb. 7
Abb. 8
Abb. 9
Abb. 10
Abb. 11
Abb. 12
Abb. 13
Abb. 14
Abb. 15
Abb. 16
Abb. 17
Abb. 18
BI Framework
Auswertung
Fact
Fachlicher Stern
Fachlicher Cube
Fachliche Modellierung
BI Referenz Architektur
Harmonisierung
Datenstruktur nach Star-Schema
Eigenschaftsprofile von operativen, Operational-Data-Store- und Data-Warehouse-Systemen
Cube im multidimensionalem Datenraum
Cube-Rotation im multidimensionalem Datenraum
R-OLAP, M-OLAP und H-OLAP
Zentrales DWH
Distributed DWH
Replizierende Hub&Spoke Architektur
Aggregierende Hub&Spoke Architektur
Magic Quadrant
7 Tabellenverzeichnis
1 Marktübersicht - Tabelle
8 Fußnoten
1. ? Vgl. Luhn (1958), Passim
2. ? Vgl. Power (2007), Passim
3. ? Vgl. Zimmermann (2008), Passim
4. ? Vgl. Mehrwald (2007), Seite 50
5. ? Vgl. Mehrwald (2007), Seite 50 f.
6. ? Vgl. Mehrwald (2007), Seite 2
7. ? Vgl. Mehrwald (2007), Seite 47
8. ? "The Unified Modeling Language? - UML - is OMG's most-used specification, and the way the world
models not only application structure, behavior, and architecture, but also business process and data
structure." übersetzt von Tobias Wäschle, nach Object Management Group (OMG) http://www.uml.org
9. ? Vgl. Humm (2005), Seite 5
10. ? Vgl. Humm (2005), Seite 5
11. ? Zeh (2003), Seite 36
12. ? Kemper (2006), Seite 24
13. ? Vgl. Kemper (2006), Seite 26 f.
14. ? Vgl. Kemper (2006), Seite 27 f.
15. ? Vgl. Kemper (2006), Seite 31 f.
16. ? Vgl. Mehrwald (2007), Seite 51
6 Abbildungsverzeichnis
34
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
17. ? Vgl. Kemper (2006), Seite 61 ff.
18. ? Vgl. Mehrwald (2007), Seite 53 f.
19. ? Vgl. Kemper (2006), Seite 64 f.
20. ? Vgl. Mehrwald (2007), Seite 55 f.
21. ? Vgl. Kemper (2006), Seite 100
22. ? Vgl. Kemper (2006), Seite 32 f.
23. ? Vgl. Herden 2004, Seite 52 f.
24. ? Vgl. Kurz 1999, Seite 110 f.
25. ? Vgl. Kurz 1999, Seite 110 f.
26. ? Vgl. Humm (2005), Seite 9
27. ? Vgl. Kemper 2006, Seite 38 f.
28. ? Vgl. Inmon 1999, Seite 12 ff.
29. ? Vgl. Kemper (2006), Seite 79
30. ? Vgl. Kemper (2006), Seite 91-93
31. ? Vgl. Kemper (2006), Seite 91-93
32. ? Vgl. Kemper (2006), Seite 91-93
33. ? Vgl. Codd et al. 1993, S.87 ff.
34. ? Vgl. Kemper (2006), Seite 93-101
35. ? Vgl. Kemper (2006), Seite 93-101
36. ? Vgl. Kemper (2006), Seite 93-101
37. ? Vgl. Kemper (2006), Seite 93-101
38. ? Vgl. Kemper (2006), Seite 93-101
39. ? Vgl. Kemper (2006), Seite 93-101
40. ? Vgl. Kemper (2006), Seite 93-101
41. ? Bissantz (2000), Seite 380
42. ? Vgl. Kemper (2006), Seite 106-109
43. ? Vgl. Kemper (2006), 106-109
44. ? Vgl. Bachmann (2011), Seite 107 ff.
45. ? Vgl. Bachmann (2011), Seite 107 ff.
46. ? Vgl. Bachmann (2011), Seite 109 f.
47. ? Vgl. Bachmann (2011), Seite 109 f.
48. ? Vgl. Bachmann (2011), Seite 110
49. ? Vgl. Bachmann (2011), Seite 94
50. ? Vgl. Bachmann (2011), Seite 94
51. ? Vgl. Bachmann (2011), Seite 95
52. ? Vgl. Bachmann (2011), Seite 95
53. ? Vgl. Bachmann (2011), Seite 95 f.
54. ? Vgl. Bachmann (2011), Seite 95 f.
55. ? Vgl. Mehrwald (2007), Seite 601-605
56. ? Vgl. Mehrwald (2007), Seite 601-605
57. ? Vgl. Kemper (2006), Seite 86 f.
58. ? Vgl. Kemper (2006), Seite 87
59. ? Vgl. Kemper (2006), Seite 87 f.
60. ? Brobst (2001), Seite 41
61. ? Vgl. Kemper (2006), Seite 88 f.
62. ? Elmasri (2007), Seite 825
63. ? Vgl. Kemper (2006), Seite 88 f.
64. ? Vgl. Thalhammer (2001), Seite 248
65. ? Brobst (2001), Seite 41
66. ? Vgl. Kemper (2006), Seite 88 f.
67. ? Vgl. Humm (2005), Seite 11 f.
8 Fußnoten
35
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
68. ? Humm (2005), Seite 11
69. ? Humm (2005), Seite 11 f.
70. ? Humm (2005), Seite 12
71. ? Vgl. Humm (2005), Seite 12
72. ? Humm (2005), Seite 12
73. ? Vgl. Zillmann (2011) S.6
74. ? Vgl. Zillmann (2011) S.6
75. ? Vgl. Sallam (2011) S.1
76. ? Vgl. Güclü (2010), Passim
77. ? Vgl. Bange(2010), Passim
78. ? Vgl. Kleijn (2006), Passim
79. ? Vgl. Bange(2010), Passim
80. ? Vgl. Bange(2010), Passim
81. ? Vgl. Bange(2010), Passim
82. ? Vgl. Bange(2010), Passim
83. ? Vgl. Bange(2010), Passim
84. ? Vgl. Bange(2010), Passim
85. ? Vgl. Kleijn (2006), Passim
86. ? Vgl. Kleijn (2006), Passim
87. ? Vgl. Güclü (2010), Passim
9 Literatur- und Quellenverzeichnis
Bachmann
(2011)
Bachmann, R, Kemper, G: Raus aus der BI-Falle - Wie Business Intelligence zum Erfolg wird, mitp, Heide
Bange(2010)
Carsten Bange, Patrick Keller, 'Marktphänomen Open-Source-BI ? ernst zu nehmende Alternative zu traditi
http://www.beyenetwork.de/view/14758 (01.01.2012 18:16)
Bissantz
(2000)
Brobst (2001)
Codd (1993)
Elmasri
(2007)
Güclü (2010)
Herden
(2004)
Humm (2005)
Inmon (1999)
Kemper
(2006)
Kleijn (2006)
Kurz (1999)
Luhn (1958)
Bissantz, N., Hagedorn, J. und Mertens, P.: Data Mining, in: Mucksch, H. und Behme, W. Hrsg.,Das Data W
Brobst, S. and J. Rarey, P., "Active data warehouses: complementing OLAP with analysis rules", in: Data &
Codd, E.F., Codd, S.B. und Salley, C.T.: Beyond Decision Support, in: Computerworld, Vol. 27, 1993, Issu
Elmasri, R. und Navathe, S., Fundamentals of Database Systems, 5. Auflage, Boston, San Francisco et al. 2
Ilkem Güclü, Stefan Müller, 'Business Intelligence mit Open Source: Vergleich der BI-Lösungen Jaspersoft
http://t3n.de/magazin/vergleich-bi-losungen-jaspersoft-jedox-palo-pentaho-224644/ (01.01.2012 18:03)
Herden, O.: 'Basisdatenbank' in: Bauer, A. und Günzel, H. (Hrsg.), Data-Warehouse-Systeme: Architektur,
Humm, Bernhard & Wietek, Frank: 'Architektur von Data Warehouses und Business Intelligence Systemen
Inmon, W.H., Building the Operational Data Store, 2. Auflage, New York, Chichester et al. 1999
Kemper, H, Unger, C & Mehanna, W, Business intelligence - Grundlagen und praktische Anwendungen. Ei
Alexandra Kleijn, 'Business Intelligence mit Open Source', www.heise.de, World Wide Web
http://www.heise.de/open/artikel/Business-Intelligence-mit-Open-Source-221947.html (01.01.2012 18:17)
Kurz, A., Data Warehousing Enabling Technology, Bonn, 1999
Luhn, H.P.: 'A Business Intelligence System'. in: "Journal of Research and Development", 1958, von IBM (
Mehrwald, C, Datawarehousing mit SAP BW 7. BI in SAP NetWeaver 2004s ; Architektur, Konzeption, Im
9 Literatur- und Quellenverzeichnis
36
BI-Architektur_?_Konzepte_und_praktische_Umsetzung
Mehrwald
(2007)
Power, D.J. A Brief History of Decision Support Systems. DSSResources.COM, World Wide Web
http://DSSResources.COM/history/dsshistory.html, version 4.0, March 10, 2007. (01.01.2012 16:43)
Sallam, Richardson, Hagerty, Hostmann, 'Magic Quadrant for Business Intelligence Platforms', Gartner RA
Sallam (2011)
http://www.board.com/download/press/EN/Gartner_BI_MagicQuadrant_2011.pdf (01.01.2012 17:02)
Thalhammer
Thalhammer, T., Schrefl, M. und Mohania, M.: "Active data warehouses: complementing OLAP with analy
(2001)
von Maur
von Maur, E., Schelp, J. und Winter, R.: "Integrierte Infor-mationslogistik ? Stand und Entwicklungstenden
(2003)
Zeh (2003)
Zeh, Thomas: "Data Warehousing als Organisationskonzept des Datenmanagements", in: Informatik - Forsc
Zimmermann Zimmermann, M.: "Grundlagenserie Business Intelligence Business Intelligence (Teil 1)": Erster Einstieg. w
(2008)
http://www.tecchannel.de/server/sql/1738998/business_intelligence_teil_1_erster_einstieg/index.html (01.0
Zillmann, M., Lünendonk®-Marktstichprobe 2011, Lünendonk GmbH, www.luenendonk.de
Zillmann
http://luenendonk-shop.de/Luenendonk-Studien/Luenendonk-Marktsegment-und-Trendstudien/2011/Luene
(2011)
(14.01.2012 20:53)
Power (2007)
9 Literatur- und Quellenverzeichnis
37
Herunterladen