Frage 1: Stellen Sie operative Informationssysteme und analytische Informationssysteme gegenüber und erläutern Sie jeweils die Zielsetzung! Opertaive Informationssysteme: Dienen zur Abwicklung der Tagesgeschäfte. Die dahinter liegende Datenbank wird als Folge der andauernd stattfindenden Transaktionen ständig aktualisiert. Die Datenbank muss für den dauernden Zugriff schnelle Reaktionszeiten bieten. Die Datenbank hält aktuelle, detaillierte, primäre Daten. Die Daten sind normalerweise redundanzfrei gespeichert. Der Datenzugriff dient der alltäglichen Arbeit Zielsetzung: Abwicklung der sogenannten Critical Mission Applications ( = CMA bzw. Business Applications). Sicherstellung der Datenkonsistenz Unterstützung der Transaktionsabläufe Mekmale: Die Systeme sind branchenorientiert Sie dienen nicht der Unterstützung zur Entscheidungsfindung Flache, nicht hirachische Datenstruktur Eindimensionales Identifikationskriterium „kleine“ Datenmenge detaillierte Betrachtungsebene aktuelle, gegenwärtige Daten Datenmanipulation: zeilenbezogen, ständig aktualisierend Analytische Informationssysteme: Dienen zur Unterstützung bei der Entscheidungsfindung Dienen zur Unterstützung bei analysierenden Tätigkeiten Logisches Komplement zu den operativen Systemen Analyse-Orientierung Zeitbezogener „Schnappschuss“ von Daten Redundanz ist möglich, wird aber wohl strukturiert und kontrolliert. Daten werden nicht mehr verändert Zielsetzung: Speicherung historischer Daten ggf. mit Struktur- und Formatvereinheitlichung Unterstützung bei Analysetätigkeiten Unterstützung bei der Entscheidungsfindung Merkmale: Hohe Speicherkapazität Gegenstandsorientiert Historische Daten Auch zusammengefasste und abgeleitete Daten Keine Updates Daten bleiben unverändert, so wie sie gespeichert wurden Dient als Datenspeicher für Analyse und Entscheidungsfinung Frage 2: Definieren Sie ein Data Warehouse und erläutern Sie die Haupteigenschaften! Mit Dem Begriff Data Warehouse wird eine von den operationalen Systemen isolierte (getrennte) Datenbank beschrieben, die als unternehmensweite Datenbasis für die Managemnet-Unterstützung dient. Haupteigenschaften: Subject-oriented: Daten werden themenorientiert oder aufgabenbezogen zusammengeführt Ziel ist es, unternehmensbestimmende Sachverhalte aus Managementsicht darzustellen Integrated: die Struktur- und Formatvereinheitlichung der Daten aus den operativen Systemen konsistente Datenbasis im Data Warehouse Beseitigung mögliche Inkonsistenzen im Datenbestand, die durch die Datenhaltung in verschiedenen operativen Systemen entstanden Time-variant: den Daten aus den operativen Systemen werden Zeitmarken hinzugefügt Auswertungen, die Informationen über die Entwicklung des Unternehmens zur Erkennung von Trends liefern der abgebildete Zeithorizont kann in einem Data Warehouse je nach betrieblichen Anforderungen bis zu zehn Jahre betrag Daten über einen Zeitraum von zehn Jahren werden im Data Warehouse aufbewahrt Nonvolatile: keine Änderungen der gespeicherten Daten nach der fehlerfreien Übernahme aus den operativen Systemen alle erstellten Auswertungen und Analysen sind reproduzierbar, insofern die Daten nicht im Laufe der Zeit gelöscht bzw. verdichtet wurden. Frage 3: Beschreiben Sie die grundlegenden Bestandteile eines Data Warehouses! Input-Schicht: Hier werden die Daten aus den operativen Systemen (unternehmensintern oder –extern) übernommen. Im Normalfall geschieht dies mit Hilfe von Transformationsprogrammen, welche die Daten vorbereiten und verdichten. ODS (Operational Data Store): Datenspeicher für möglichst aktuelle Daten. Hier werden die Daten gespeichert, die zwischen zwei Übernahmen anfallen. Diese Daten brauchen nicht verdichtet werden. Meta-Daten: Sie beschreiben die im Data Warehouse gehlatenen Daten. Output-Schcht: Hier werden die Meta-Daten zur Nutzung bereitgestellt, hier setzen Datenanalyse Werkzeuge auf. Data Warehouse im engeren Sinn: Datenbank in der die Datenspeicherung der aus den verschiedenen Unternehmensbereichen gespeicherten Daten stattfindet. Die Daten können hier verdichtet sein. Frage 4: Nennen Sie die Anforderungen an das OLAP! Fassen Sie die Struktur zusammen! OPLAP = On Line Analytical Processing: Dynamische, multidimensionale Analyse von Daten mit dem Ziel der Aufdeckung neuer oder unerwarteter Beziehungen zwischen Variablen. Anforderungen an OLAP: Coddsche Regeln: 1. Multidimensionale konzeptionelle Sichtweise Betrachtung von (betriebwirtschaftlichen) Kenngrößen aus Sicht verschiedener Dimensionen 2. Transparenz bzgl. Zugriff auf Daten aus unterschiedlichen Quellen 3. Zugriffsmöglichkeit interne und externe Quellen 4. Gleichbleibende Antwortzeit bei der Berichterstellung Antwortzeit unabhängig von der Anzahl der Dimensionen und des Datenvolumens 5. Client-Server-Architektur Trennung von Speicherung, Verarbeitung, Präsentation offene Schnittstelle zum OLAP-Server 6. Generische Dimensionalität einheitliche Behandlung aller Dimensionen; aber -> spezielle Zeitdimensionen 7. Dynamische Behandlung dünn besetzter Matrizen Anpassung des physischen Schemas an die Dimensionalität und Datenverteilung (sparsity) 8. Mehrbenutzer-Unterstützung konkurrierende Zugriffe; Sicherheits- und Integritätsmechanisme; Zugriffsrechte 9. Uneingeschränkte kreuzdimensionale Operationen automatische Ableitung der Berechnungen, die sich aus den Hierarchiebeziehungen der Dimensionen ergeben (Aggregationen); Definition eigener Berechnungen 10. Intuitive Datenbearbeitung ergonomische, intuitive Datenbearbeitung, Navigation über Daten, Ausrichtung von Konsolidierungspfaden 11. Flexible Berichterstellung Erstellung von Berichten mit beliebiger Datenanordnung 12. Unbegrenzte Anzahl von Dimensionen und Ebenen keine Einschränkungen der Anzahl der unterstützten Dimensionen (häufig jedoch max. 5-8) FASMI ( = Fast Analysis of Shared Multidimensional Information) Schneller Zugriff, selbst bei aufwendigen Abfragen Datenanalyse soll mit Hilfe von statistischen Verfahren und Geschäftslogik durchführbar sein. OLAP-Datenbasis muss von mehreren Benutzern gleichzeitig gleichermaßen benutzbar sein. Alle von Benutzern angeforderten Daten sollen unabhängig von Quelle und Umfang vollständig bereitgestellt werden. Die konzeptionelle Sicht auf die Daten muss multidimensional sein: o Physische multidimensionale Datenstruktur o Virtuelle multidimensionale Datenstruktur auf relationaler Datenbasis Darstellung der Daten in Form von mehrdimensionalen Würfeln muss möglich sein, statt wie im relationalen Modell nur in zweidimensionalen Tabellen. Frage 5: Welche OLAP-Architekturen kennen Sie? ROLAP Relational On Line Analytical Processing relationale Datenspeicherung - Tabellenform MOLAP Multidimensional On Line Analytical Processing multidimensional Datenspeicherung, n-dimensionaler Würfel (n-dim data cube) HOLAP Hybrid On Line Analytical Processing Speicherung eines Teils des DWH’s in Form von Würfeln (Performance), bei miss-hit wird aus relationalen RDBMS ein neuer Würfel generiert. DOLAP Desktop On Line Analytical Processing Analysesoftware und Datenspeicherung erfolgt auf der Clientseite Frage 6: Skizzieren Sie den Prinzipiellen Aufbau einer ROLAP-Architektur! API Visualisierung durch multidimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP Funktionalität Operationale Datenbankschicht Applikationsschicht (Serverseite) Presentationschicht (Clientseite) Applikationsserver SQL Data Warehouse Metadaten multidimensional modelliertes DWH, basierend auf einem relationalen Datenbanksystem operationale Datenbestände, legacy systeme, externe Datenquellen, Benchmarking, Börsendienste, etc. Eine oder mehrere Relationale Datenbanken bilden die Datenbasis für die OLAPAnalyse. Multidimensionale Sichten werden durch tabellarische Aufbereitung der Daten mittels Standard-SQL-Abfragen generiert. Visualisierung durch multidimensionale Kreuztabellen, Reports, Top10 Ranking, Business Charts, etc. Dynamische Berichte mit OLAP-Funktionalität. Basieren auf relationalem Star- bzw. Snowflake-Shema mit Facts und Dimensions Vorberechnete Summarytables verbessern die Performance Multidimensionale Erweiterung ist mittels Zusatzprogrammen, wie MDX oder Oracle Express, möglich. Frage 7: Warum spricht man von der Andersartigkeit der DW-Rojekte? Welche Hauptmerkmale unterscheiden sie von anderen IT-Projekten? Kaum ein Projekt im IT-Bereich ist einem so starken Wandel und Risiken durch Konjunkturschwankungen und Änderungen der Hardwarevorraussetzungen unterworfen. Frühzeitige Überlegungen der Datenbankadministration und Performancesicherung sind wegen der Größe der Datenbasis nötig Viel Zeit wird für einen effizienten Datenimport benötigt Eine flexible Architektur ist nötig, da niemand weiß, wie der Informationsbedarf zu einem späteren Zeitpunkt ist. Das Data Warehouse muss so aufgebaut werden, dass es später verändert werden kann. Gefahr der Paralyse durch Analyse wegen der sich ständig ändernden Anforderungen. Anforderungen an ein Data Warehouse sind immer unvollständig, da sich der Informationsbedarf ständig ändert. Ein Data Warehouse ist breit angelegt und umfasst normalerweise große Datenmengen. Es werden große Summen in neuen Hardware investiert. Oftmals wird bei der Einführung eines Data Warehouses eine Überarbeitung der Geschäftsprozess nötigt. Trotz großer Datenmengen ist die Projektdauer mit 18 bis 24 Monaten recht kurz. Der entscheidende Prozess ist die „Business Requirement Definition“. Es werden sehr hohe Anforderungen an Tests und Qualitätssicherung gestellt.