1. Grundbegriffe

Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
Geschäftsprozess = Folge von Tätigkeiten (oder Vorgängen) mit folgenden Merkmalen:
 Bildet Basis für Wertschöpfung, Wertzuwachs, den das Unternehmen erzeugt
 hat Auslöser und Ergebnis
 Aktivitäten teilweise wiederholt oder alternativ
 mehrere Einheiten beteiligt
 Routineaufgaben, KEINE Einzelprojekte
Geschäftsprozessorientierung: Unternehmen konzentriert sich auf Kernprozesse
Geschäftsprozessoptimierung:
 Definition der Kernprozesse
 Zerlegung der Kernprozesse in Geschäftsvorgänge
 Ermittlung des Informationsbedarfs für die Kernprozesse
 Aufstellung von Alternativen zur Realisierung des Informatik-Bedarfs
1. Grundbegriffe
Daten
= Gesamtheit der verfügbaren Texte, Zahlen, Bilder, Statistiken,
Audiodateien...
Informationen
= Teilmenge der Daten, die für die eigene Unternehmung
ausgewählt, geordnet, gespeichert und verfügbar gemacht wird
Wissen
= von Menschen verstandene, verknüpfte und angewendete
Information
System
= konkretes oder ideelles Ganzes, dessen Teile strukturell,
dynamisch und funktional in einer Beziehung stehen
Informationssystem (IS) = sozio-technisches System, das menschliche und maschinelle
Komponenten als Aufgabenträger umfasst. Im Mittelpunkt steht
die Unterstützung bei der Erfüllung betrieblicher Aufgaben
ein integriertes IS ist ein IS, das als Zusammenfassung von
Teilsystemen aufgebaut ist, die als Ganzes einheitlich
zusammenwirken
Technologie
= Gesamtheit der technischen Kenntnisse, Fähigkeiten und
Möglichkeiten eines Gebietes
Technik
= Fertigkeit, Handwerk, Kenntnisse (konkrete Anwendung einer
Technologie)
Informationstechnologie = (IT) Gesamtheit an Hardware, Software und Kommunikationseinrichtungen (auch Standards: TCP/ IP...)D
Synonym: Informations- und Kommunikationstechnologie (IuK)
Management
= bewerkstelligen, leiten, führen
“... die Gesamtheit der Institutionen, Prozesse und Instrumente,
welche im Rahmen der Problemlösung durch einen
Seite 1 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
Personengemeinschaft der Willensbildung (Planung,
Entscheidung) und der Willensdurchsetzung (Ausführung,
Kontrolle) dient.“
Informationsmanagement = Führung der Ressource Information
strategisches, taktisches und operationelles Management der
Information, des Lebenszyklus von IS und der InformatikRessourcen (Informatikmanagement)
Management von Informationen:
-zielbestimmung legt fest, was mit den Informationen erreicht werden soll
-identifikation beschreibt, identifiziert Informationen
-akquisition: Beschaffung der Informationen (intern oder extern)
-speicherung: Festlegen der genauen Struktur der Daten und Dokumente zum
Speichern
-verarbeitung: Erstellung neuer Informationen aus vorhandenen
-übermittlung: welche Informationen werden wie an welche Personen
weitergegeben
-nutzung: wie werden die Informationen sinnvoll innerhalb der
Geschäftsprozesse genutzt
-bewertung: innerhalb welcher Zeiträume und aufgrund welcher Kriterien
werden Informationssysteme bewertet, Bestimmung der zu
verwendenden Messgrößen
-verbesserung: Festlegung neuer, bzw. Ergänzung bereits bestehender
Informationsziele
Informatikmanagement
= Management der eigentlichen Informatik-Ressourcen:
Informatikpersonal, Technische Ressourcen (Rechner, Software,
Netze...), Technik-Lieferanten
Informationsbedarf
= Gesamtheit aller Informationen, welche für die Führung des
Unternehmens erforderlich sind.
Objektiv: für die Aufgabenerfüllung benötigter Bedarf
Subjektiv: Bedürfnis aus Sicht einer Person
Kennzeichen des Informationsbedarfs:
Relevanz: Informationen können unterschiedlich relevant sein
Differenziertheit: entweder spezifische Teilaspekte oder nur globale
Zusammenhänge
Operationalität und Präzision: Qualität der Information
Zuverlässigkeit: Informationen sind desto unsicherer, je weiter sie in die Zukunft
hineinreichen
Aktualität: rechtzeitig oder verspätet eingetroffene Informationen  Wert für
Nachfrager größer oder geminderter
Exklusivität: stehen sie dem Nachfrager exklusiv zur Verfügung, steigert sich ihr
Wert
Informationsanalyse
= Pro Aufgabenstellung zu klären: Inhalt (welche Infos),
Häufigkeit, Form, Medium (Transport), Wertigkeit (wie wichtig
für Aufgabenerfüllung
Seite 2 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
Systematisierung nach Mertens/ Griese:
Unternehmensgesamtmodell
Planungs- und
Kontrollsysteme
vertikale Integration
Admin- und Dispositionssysteme
horizontale Integration
Horizontale Integration: Informationen auf der gleichen Ebene untereinander austauschen
(entlang des Geschäftsprozesses)
Vertikale Integration: Informationen zwischen den Ebenen austauschen (Fluss von unten nach
oben stärker, als umgekehrt)
 Verdichtung
Systematisierung nach Scheer:
Planungs- und Entscheidungssysteme
Analyse-Informationssysteme
Berichts- und Kontrollsysteme
wertorientierte Abrechnungssysteme
mengenorientierte operative Systeme
 Integration 
Systematisierung nach Koordinationsebene:
Individuell Kollektiv
individuell Arbeitsgruppe
Beispiel
Excel
Organisational
Unternehmen
Dokumenten-Management- PortfolioSystem
ManagementSystem
Interorganisational
über
Unternehmensgrenze
hinweg
Just-in-Time-System
(EDI)
Systematisierung nach Strukturierungsgrad:
gering
mittel
hoch
IS: keine
IS: zwingt die Einhaltung bestimmter IS steuert und kontrolliert
Arbeitsregeln Arbeitsregeln
vollständig die
Arbeitsregeln
Beispiel OLAP, Office OLTP, formularbasierte Systeme
Workflow-ManagementSysteme
Seite 3 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
2. Strategischer Erfolgsfaktor Information
Wert von Information:
indirekt: durch Zugang zu Information werden unternehmerische Entscheidungen
beeinflusst
direkt: Information als Gut
Problem: Information lässt sich erst bewerten, wenn man sie kennt
Informationsqualität hängt von Genauigkeit, Vollständigkeit und Verfügbarkeit ab
Information versus Wirtschaftsgut:
Materielles Wirtschaftsgut
Hohe Vervielfältigungskosten
Werteverlust durch Gebrauch
Individueller Besitz
Werteverlust durch Teilung
Identifikations- und Schutzmöglichkeit
schwierige Verbreitung
Preis/ Wert objektiv ermittelbar
Preisbildungsmechanismus bekannt
Bestandsbewertung möglich
Information
niedrige
Wertegewinn nach Verbrauch
vielfacher
Wertegewinn
Problem: Datenschutz und
Informationssicherheit
einfache
subjektiv bestimmbar
weitgehend unbekannt
problematisch
Informationsbeschaffung und –verarbeitung  Unternehmerische Entscheidungen
Chance für Unternehmen: Ungleichverteilung von Information als Wissenssubjekt
optimal gestaltete Informationsverarbeitung führt zu Kostensenkung
Seite 4 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
3. Bedeutung von Informationsmanagement
Magisches Dreieck:
Zeit
Qualität
Kosten
Folgende Entwicklungen sind für das Informationsmanagement entscheidend:
Ökonomische
 Produktivitätsparadoxon: empirisch gestützte These, die besagt, dass trotz steigender
Rechnerleistung, steigender Investitionen in IT und zunehmendem IT-Einsatz in
Unternehmen die Produktivität nicht entsprechend steigt. Das P. tritt auf
verschiedenen Ebenen auf (volks-, betriebswirtschaftlich)
 Erklärung dafür: Messgrößenproblem, Verzögerung bei Realisierung der Nutzeffekte,
Verteilung der Nutzeffekte, Missmanagement beim IT-Einsatz
ineffiziente Rechnerauslastung
fehlendes ingenieurmäßiges Vorgehen
IT-Kosten stark zunehmend
Organisatorische
 Dezentralisierung, Zentralisierung
 Prozessorientierung
 Flache Organisation (andere Informationsverteilung)
 Kooperationen, virtuelle Unternehmen
Technische
 Rechner – Benutzer: 1:n, n:1, 1:1
 Parallelrechnersysteme, Client/ Server, WWW, ...
Personelle
 Entstehung neuer Berufsbilder/ -felder
 neue Anforderungen an Mitarbeiter
 Ausbildung neuer Mitarbeiter
 soziologische, psychologische Einflüsse (verändertes Informationsverhalten...)
Fazit:
Informationsmanagement ist wichtig, da es für die meisten Unternehmen unabdingbar
ist, überall eingesetzt werden kann, Wettbewerbsvorteile schafft...
Seite 5 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
4. Informationsmanagement
Informationsbedarf
(objektiv)
B
A
Informationsangebot
C
Informationsnachfrage
(subjektiv)
A: objektiv benötigte Infos sind vorhanden, aber nicht nachgefragt
B: Infos, die nicht vorhanden sind
C: Überdeckung aller Bereiche  optimal
Ziele:
 Sachziel: Leistungspotential der IT für die Erreichung der Unternehmensziele durch
geeignete IS-Architektur realisieren
 Formziel Wirtschaftlichkeit (Effizienz): Sachziel soll so erreicht werden, dass bei
gegebenen Kosten der Nutzen maximiert oder bei gegebenem Nutzen Kosten
minimiert werden (Kosten-Nutzen-Verhältnis)
Effizienz: Wirtschaftlichkeit
 Formziel Wirksamkeit (Effektivität): durch IS-Architektur sollen Teilziele erreicht
werden, die auf Unternehmensziele ausgerichtet sind
Effektivität: Unternehmensziele sollen erreicht werden
Aufgaben:
 strategische: Planung und Steuerung der Informatik-Strategie und IS-Architektur
o Festlegen der Informatik-Strategie
o Planung und Steuerung der IS-Architektur
 Situationsanalyse
 Zielplanung
 Strategie-Entwicklung
 Maßnahmenplanung
o Ergebnis:
 Informatik-Strategie
 IS-Architektur
 taktische: Umsetzung der IS-Architektur
o Ergebnis: sich im Einsatz befindliche IS
 operative: Betrieb und Nutzung der IS
o Produktionsmanagement
o Problemmanagement
o Ergebnis: Betrieb und Nutzung der IS (inkl. IT-Infrastruktur)
 Querschnittsaufgaben:
o Controlling: Überprüfung und Förderung von Effektivität und Effizienz des ITEinsatzes im Unternehmen, Soll-Ist-Abweichung der IM-Formziele
o Qualitätsmanagement: Definition von Qualitätsanforderungen (-zielen) und
Gewährleistung der Erreichung
o Sicherheitsmanagement: Definition von Sicherheitszielen für IT-Einsatz
Seite 6 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
5. Datenmanagement
= alle Prozesse, die der Planung, Beschaffung, Verwaltung und Nutzung der
Unternehmensressource Daten dienen
= Organisationseinheiten, die für diese Prozesse verantwortlich sind
Entwicklung des Daten- und Informationsmanagement:
1. Funktionsorientierung
a. isolierte Anwendungen
b. Technologie und Automation
2. DB-Admin
a. Einsatz von DBMS
b. Integrationsanforderungen
3. DB-Modell
a. Datenstandardisierung
b. Prozess- und Qualitätsoptimierung
4. Datenmanagement
a. eigene Zuständigkeit für Daten
b. Daten als betriebliche Ressource
5. Informationsmanagement
a. Information als Unternehmensressource
b. Information als betriebliches Vermögen
6. Wissensmanagement
a. Verknüpfung von Informationen zu Wissen
b. Implizites und Explizites Wissen als Rohstoff
Seite 7 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
6. Unternehmensdatenmodell
= unternehmensweites Datenmodell
 Kategorisierung in Arten (Text, Bilder...)
 einheitliche Bezeichnung (Kunde = Partner ???)
 gleiche Datenformate
 Berechtigungskonzept
 Metadatenmanagement (Beschreibung der Daten)
Beispiel Bank: früher produktorientiert (Spartenorientiert), heute Kundenorientiert
Problem: Daten aus den verschiedenen Geschäftsfeldern sollen unter dem Aspekt „Kunde“
integriert werden
Integration von Daten – 2 Möglichkeiten:
1. Datenaustausch über Schnittstellen zwischen 2 Systemen
2. Nutzung gemeinsamer Datenbestände in verteilten oder zentralen Datenbanken
Datenaustausch über Schnittstellen:
Anwendungen brauchen das selbe semantische Verständnis.
Synonym: unterschiedliche Namen, aber gleiche Bedeutung (Schuldner, Debitor)
Homonym: gleicher Name mit unterschiedlicher Bedeutung (Bank...)
Daten müssen konsistent gemacht werden
viele Schnittstellen und Abgleichprogramme nötig, dadurch hoher Wartungsaufwand,
System wird unflexibler, wartungsunfreundlicher und teurer
+ geringerer Aufwand für die Entwicklung einer Schnittstelle
- großer Änderungsaufwand, verschiedene Formate...
- Konsistenzprobleme
- aufwendige Datenanalyse  Synonym, Homonym
Nutzung gemeinsamer Datenbestände:
Datenbestände müssen einmal konsistent und widerspruchsfrei modelliert werden
gemeinsame Datenarchitektur muss vorhanden sein
Sicherstellung der Konsistenz erfolgt durch das DBMS
+ geringer Änderungsaufwand
- aufwändige Modellbildung
Hauptrisiko: unternehmensweit gültige Modellierung
WICHTIG: Modellierung am GESCHÄFT und NICHT an der Organisation ausrichten
UDM: Unternehmensdatenmodell
 umfasst die zentralen Objekte der Geschäftstätigkeit
 hohes Abstraktionsniveau
UwDM: unternehmensweites Datenmodell
 detaillierte Beschreibung
 konzeptionelles Modell der Daten
 logisches Datenbank-Schema
Seite 8 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
Fazit: Sinnvoll ist die Verwendung von Branchenmodellen, da in kürzerer Zeit ein in die
Zukunft gerichtetes, den Ist-Zustand integrierendes Modell vorhanden ist.
Probleme beim unternehmensweiten Datenmodell:
 das Datenmodell spiegelt die Organisation zum Entstehungszeitpunkt der ersten
Teilsystem wider
 LÖSUNG: das GESCHÄFT muss modelliert werden, NICHT die Ablauf- und
Aufbauorganisation  die Architektur muss resistent gegen organisatorische
Änderungen sein
Erstellung:
top-down:
ignorieren der vorhandenen Strukturen, Entwicklung von Soll-Strukturen
bottom-up: Analyse der vorhandenen Datenstrukturen, Generalisierung...
Referenzmodell:
werden für einzelne Branchen entwickelt (hohe Qualität)
Bewertung dieser Ansätze:
UDM
Vorteile
Nachteile
unternehmensweite
schlechte Datenintegration
Top-Down
Normierung der
Geschäftsbegriffe
auf hohem
Abstraktionsniveau
normierte Begriffe,
Datenstrukturen
auf hohem
Abstraktionsniveau
wegen fehlender
Detaillierung
theoretisch exakt,
umfassendes,
detailliertes
Datenmodell
dokumentiert
existierende
Datenstrukturen
im Detail, deckt
Redundanzen
auf...
alle
Vorteile
des
alle
Nachteile
des
Topalle Vorteile des
Referenzmodell
Top-Down-UDM, Down-UDM, ersetzt keine
Top-Downwirkt als
eigenen
uwDM,
Qualitätssicherung Modellierungsüberlegungen, beschleunigt
für Entwicklung
andere unternehmensinterne Entwicklung des
eines eigenen
Terminologie
eigenen uwDM,
UDM
Qualitätssicherung
Bottom-Up
keine Datenintegration,
erklärt nicht das Geschäft,
sondern das IS, übernimmt
Schwächen des Ist-Systems
UwDM
Vorteile
Seite 9 von 20
Nachteile
sehr komplex und teuer,
meist schnell überholt
erklärt nicht das Geschäft,
übernimmt Schwächen des
Ist-Systems
alle Nachteile des TopDown-uwDM, ersetzt keine
eigenen
Modellierungsüberlegungen,
andere unternehmensinterne
Terminologie
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
7. Metadatenmanagement
Metadaten =
Daten über Daten
Datenformat
Bedeutung der Daten
Struktur
Beziehungen der Daten
Verantwortlichkeiten
Prozesse zur Datenveränderung (Verschlüsselung...)
betriebliche, fachliche   technische Metainformationen (Klassifikation)
Typen von Metadatenverwaltungs-Systemen:
 Data Dictionary System (DDS): Verwaltung von Datenelementen und –strukturen
 Datenbank Katalog: Verwaltung von Datenobjekten und Systeminformationen, die
vom DBMS während der Laufzeit aktiv benötigt werden + Zustand der Objekte
 Repository-Systeme: Weiterentwicklung des DDS, große, umfassende Metamodelle,
standardisierte, anpassbare Schnittstellen..., Integration von Metadaten aus
verschiedenen Systemen...
Vorgehen bei der Metadatenintegration:
1. Festlegung des unternehmensspezifischen Informationsmodells (wie sieht das IS aus,
Komponenten...)
2. Verwendung des Referenzmodells zur Evaluierung eines Repository-Systems
3. Definition des Metadatenflusses (wo entstehen welche Daten, wo gespeichert...)
4. Festlegung der Metadaten-Standards (Namenskonventionen, Versionsmanagement...)
5. Festlegung der Schnittstellenformate und Austauschprozesse
6. Integration des Gesamtsystems
Nutzen des Metadatenmanagements:
 Standardisierung (normierte Darstellung aller Modelle)
 Transparenz und Flexibilität
 Wiederverwendbarkeit (von Informationsobjekten...)
 Kosteneinsparungen...
 Qualitätsverbesserungen (bessere Analyse- und Admin-Möglichkeiten)
Open Information Model (OIM) von OMG besteht aus:
 Analysis/ Design Model
 Object/ Component Model
 Database/ Warehousing Model
 Business Engineering Model
 Knowledge Management Model
Seite 10 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
8. Erfolgreiche Datenmigration aus Altsystemen
z.B.: Migration von hierarchischen DBs in relationales DBs.
Gründe für Migration:
 mangelndes Know-How
 Pflege, Wartung, Erweiterung problematisch
 inadäquate Datenstrukturen
Vorgehen:
 Analyse des Ist-Systems
o konzeptionelle Datenarchitektur und Semantik der Daten (Stärken/ Schwächen
beachten, Ende: vollständiger Datenkatalog)
o Qualität der Dateninhalte (Homonyme, Codeüberladung, Feldmissbrauch...)
o Datenbanktechnologie
 Entwurf des Zielsystems
o Präsentation
o Verarbeitung
o Datenhaltung
o Architektur: Verteilung der Komponenten
Migrationsvarianten:
 Neuentwicklung / Standardsoftware und einmalige Migration
 Datenmigration und Programmkonversion (prozedurale Zugriffe umsetzen)
 Umsetzung von relationalen DB-Zugriffen auf bestehende Datenbestände
(SQL-Zugriffe auf prozedurale umsetzen)
 Umsetzung der prozeduralen DB-Zugriffe auf relationale Datenbanken
 Synchrone oder asynchrone Datenänderung auf Relationale DB
zeitweise parallel: Alt- und Neusystem, es wird Transaktionsmanager benötigt
 NEUER ANSATZ: Enterprise Application Integration (EAI)
Seite 11 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
9. Data Warehouse
60er: Executive Informations Systems (EIS): Versorgung von Entscheidern mittels statischer
Berichte, verdichtete Extrakte, Mainframe-basiert
80er: Management Information System (MIS): statische Berichtsgeneratoren,
Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, DrillDown), Client/ Server, GUI
1992: Einführung DW-Konzept durch Inmon: redundante Haltung von Daten, losgelöst vom
Quellsystem, Beschränkung der Daten auf Analysezwecke
1993: Definition des Begriffes OLAP durch Codd: dynamische, mehrdimensionale Analyse
5 Regeln: FASMI: Fast Analysis Shared Multidimensional Information
Große Datenbestände im Unternehmen, sehr heterogen
Wissen/ Information, in Daten vorhanden, ist nicht offensichtlich:
 zu viele Attribute
 keiner hat den Überblick
 Wechsel der personellen Zuständigkeiten (wichtige Detailinfos gehen verloren)
Ein Data Warehouse ist ein zentrales Datenlager, in dem in regelmäßigen Abständen von
allen operativen Systemen ein Schnappschluss des Datenbestandes
gesichert, verifiziert, gefiltert und geordnet wird. Daran sind viele
Programme beteiligt. Im Kern besteht es aus einer speziellen Datenbank,
die verschiedene heterogene Quellen zu einer unternehmensweiten Sicht
verbindet, so, dass ohne neuerliche Erhebung weitgehende Auswertungen
möglich sind.
Ein Data Warehouse ist eine themenbezogene, integrierte, zeitbezogene und dauerhafte
Sammlung von Informationen zu Entscheidungsunterstüztung des
Managements.
 integriert: Daten aus verschiedenen Systemen
 themenbezogen: NICHT Erfüllung einer Aufgabe, sondern Modellierung eines
Zusammenhangs der Themen (Subjekte: Kunde, Produkt...)
 zeitbezogen: Einlagerungszeitpunkt der Daten wird festgehalten
 dauerhaft: einmal eingelagerte Daten werden nicht modifiziert  Zeitreihenanalyse
Ein DW ist eine physische Datenbank, die eine integrierte Sicht auf beliebige Daten
ermöglicht. Daten werden NICHT modifiziert  Historie.
DW-Prozess:
dynamischer Vorgang, angefangen beim Datenbeschaffungsprozess
(ETL-Prozess: Extraktion, Transformation und Laden) über das
Speichern bis zur Analyse der Daten
Vorteile der Trennung von operativen und analytischen Systemen:
 Antwortzeitverhalten
 Langfristige Speicherung der Daten
 Zugriff auf Daten unabhängig von operativen Datenquellen
 Vereinheitlichung des Datenformats im DW
Seite 12 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
 Gewährleistung der Datenqualität im DW
Risiken:
durch Verknüpfung können Beziehungen entdeckt werden, die keine sind
Fehlerhafte Daten
Risiken bei Definition des DW-Datenmodells
Data Mart = DW einer „kleinen“ Abteilung
Startet mit ETL-Prozess (Extraktion, Transformation, Laden)
Abgrenzung OLTP (Online Transactional Processing) zu OLAP (-Analytical-)
Transaktional
Analytisch
Anfrage
Fokus
r/w, modifizieren, löschen
lesen, periodisch hinzufügen
Transaktionstyp/ -dauer
kurze r/w-Transaktion
lange Lesetransaktion
Anfragestruktur
einfach strukturiert
komplex
Datenvolumen einer Anfrage wenige Datensätze
viele Datenmodell
anfrageflexibel, prozess-/
analysebezogen,
funktionsorientiert
standardisiert
Daten
Datenquelle
meist eine
mehrere
Eigenschaften
 nicht abgeleitet
 abgeleitet/ konsolidiert
 zeitaktuell
 nicht zeitaktuell
 autonom
 integriert
 dynamisch
 stabil
Datenvolumen
MB – GB
GB – TB
Zugriffe
Einzeltupelzugriff
Tabellenzugriff
Anwender
Anwendertyp
Ein-/ Ausgabe durch
Manager, Controller, Analyst
Angestellte oder SW
Anwenderzahl
sehr viele
wenige
Antwortzeit
msek. – sek.
Sek. – Min.
Typische Anwendungen
Buchungssysteme
Analyse: Zusammenhänge,
Häufigkeiten...
Entstehung
Entwurfsziel
Anforderungen
Bedeutung
Einsatz
Datenzugriff
Tuning
Datenaufbewahrung
Aktualität
operationale Datenbanken
für bestimmte Applikation,
aus bestimmter Perspektive
hohe Performance
bekannt
alltägliche Geschäftsabläufe
operationales Geschäft
pro Aufruf wenige Zeilen
für häufige Zugriffe auf
kleine Datenmengen
solange es das Tagesgeschäft
erfordert
auf die Minute
Seite 13 von 20
Data Warehouse
mehrere Perspektiven
gleichzeitig
Flexibilität
vage
Entscheidungen des
Managements
Analysen, ad hoc Reports
große Datenmengen
für seltene Zugriffe auf große
Datenmengen
langfristig, Reporting und
Vergleiche über längere
Zeiträume
bestimmter Zeitpunkt in der
Informationsmanagement – Zusammenfassung
Verfügbarkeit
Marco Piroth (2003)
Vergangenheit
nicht so hoch
hoch
Anwendungsbereiche: Analysierbarkeit der Daten für
 BWL: Managemententscheidungen, Risikocontrolling, Kennzahlen...
 Wissenschaft: Klima-, Umweltforschung
 Technik: Wasseranalysen, Stoff-, Materialdatenbanken (Produktdaten)
 Informatik: Knowledgemanagement
 E-Commerce: Marketing, Vertrieb,... durch CRM, personalisierte Websites...
 Planungsorientierte Anwendungen
Anforderungen des Data Warehousing:
 Unabhängigkeit zwischen Datenquellen und Analysesystemen
 Dauerhafte Bereitstellung integrierter und abgeleiteter Daten
 Mehrfachverwendbarkeit der Daten
 Durchführung beliebiger Auswertungen
 individuelle Sichten (Zeithorizont, Struktur...)
 Erweiterbarkeit (neue Quellen)
 Automatisierung der Abläufe
 Eindeutigkeit der Datenstrukturen, Zugriffsberechtigungen und Prozesse
 Ausrichtung am Zweck: Analyse der Daten
Versorgung des DW mit Daten:
1. Anzapfen vorhandener Systeme und Extraktion der gewünschten Daten
2. strukturelle Transformation der Daten Feld für Feld in die DW-Datenstruktur
3. Laden der transformierten Daten in die DW-Datenbank
4. inhaltliche und formale Plausibilisierung der Daten
5. Erzeugung/ Transformation des zeitlichen Bezugs der Daten  Historie
6. Synchronisierung der Prozesse mit Prozessen der Datenquellen und des DW
Datennutzung:
 SQL-Zugriff
 Bereitstellung vorverdichteter Daten (Aggregation über Filiale und Region...)
 Bereitstellung von Zugriffssichten
 OLAP-Analyse-Werkzeuge
 Data-Mining-Werkzeuge
 Download-Service (als Excel-Tabellen...)
 Agenten ;-)
Die DW-Komponenten:
 Data Warehous Manager
o zentrale Komponente
o Initiirung, Steuerung und Überwachung der Prozesse
o Zugriff auf Metadaten aus dem Repository
 Datenquellen
o Lieferanten der Daten
 Monitore
o ein Monitor pro Quelle
o Entdeckung von Datenmanipulationen…
 Arbeitsbereich
Seite 14 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
o zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs
o temporärer Zwischenspeicher zur Integration
 Extraktionskomponente
o Übertragung der Daten von Quelle nach Arbeitsbereich
 Transformationskomponente
o Vorbereitung und Anpassung der Daten für das Laden
o Überführung der Daten in einheitliches Format
o Beseitigung von Verunreinigungen (Data Cleaning)
o Data Scrubbing (Daten schrubben)
o Data Auditing (Daten prüfen)
 Ladekomponente
o Übertragung der bereinigten Daten in Basisdatenbank
 Basisdatenbank
o Datenbasis für Analysen (keine KONKRETEN Analysen, keine Aggregation..)
o Versorgung des DW mit bereinigten Daten
o Daten sind noch nicht aggregiert (ins DW-Modell überführt)
o --> Vorteil: bei neuen Analyseideen kann ein neues Modell aus diesen Daten
entstehen
 Data Warehouse Datenbank
o Datenbank für Analysen
 Analysewerkzeuge
o Präsentation der Daten mit Navigations- und Analysemöglichkeiten
 Repository
o Speicherung der Metadaten des DW-Systems
 Metadaten-Manager
o Steuerung Metadatenverwaltung
o Zugriff, Anfrage, Navigation
o Versions-, Konfigurationsmanagement
Seite 15 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
10. Das multidimensionale Datenmodell
Zweck der Analyse: Berechnung von Kennzahlen „Measures“
Dimensionen: Attribute
Datenanalyse mit einem OLAP-Werkzeug – Möglichkeiten:
 Pivot/ Rotation  Würfel drehen
 Roll-up  Aggregation entlang Hierarchiepfad (Fil1, Fil2… = Stadt1…)
 Drill-down  Verfeinerung (Gegenteil von Roll-up)
 Drill-across  Wechsel zwischen 2 Würfeln, gleiche Dim, untersch. Kennzahlen
 Slice  Herausnehmen einer Teilscheibe (Dimension wird festgelegt)
 Dice  Herausnehmen Teilwürfel
 Drill Through  Durchgriff auf BasisDB
entweder: Direkte multidimensionale Speicherung
oder: Umsetzung des xD-Modells in relationale Datenbank
Das Star-Schema:
 Fakten – und Dimensionstabellen
 Fakten sind numerische Daten. Sie stellen die Kerndatenelemente ein meist
quantitativer Natur da und stehen im Mittelpunkt der Datenanalyse
z.B.: Verkaufstransaktionen, Telefonanrufe, Kontobewegungen...
 Die Dimensionen sind Geschäftsparameter, die jede Transaktion definieren. Sie stellen
die Attribute zu den Fakten dar
z.B.: Dimensionen zu Verkaufstransaktion: Kunde, Produkt, Ort, Zeit...
 Faktentabelle (mit Fakt1...Faktn und Dimensions-Fremdschlüssel 1-n) im Zentrum des
Sterns. Außenrum die Dimensionstabellen
 Eigenschaften:
o mehrere Dimensionstabellen beziehen sich auf genau eine Faktentabelle
o die Faktentabelle enthält die Attribute
o die Faktentabelle integriert m:n-Beziehungen implizit in einer einzigen Tabelle
und enthält deswegen viel Redundanz
o Dimensionstabellen nehmen symbolische und diskrete Attribute auf und
erlauben die Auswahl, Zusammenfassung und Navigation der Fakten
o jede Dimensionstabelle steht in einer 1:n-Beziehung zur Faktentabelle (jede
Zeile einer Dim.Tab. ist mehreren Zeilen der Faktentabelle zugeordnet)
o Fremdschlüssel in Faktentabelle = Primärschlüssel in Dimensionstabelle
 Vorteil: weniger Tabellen, schneller Zugriff
 Nachteil: aufwändige Änderungen
 abfrageeffizient, da erst kleine Dimensionstabellen abgefragt, dann – gefiltert – große
Faktentabelle abgefragt wird.
Faktentabelle
Dimensionstabelle
Millionen oder Milliarden von Zeilen
bis zu Millionen
Mehrere Fremdschlüssel
ein Primärschlüssel
Numerisch
Textbeschreibung
Nicht zu ändern
Häufig verändert
Das Snowflake-Schema:
Seite 16 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
 bei Star: Dimensionstabellen sind denormalisiert  Redundanz, geringe Performance
 Star repräsentiert nicht die Attributhierarchie der Dimensionen
 Snwoflake: Dimensionstabellen werden NORMALISIERT
 Verdichtungsebenen sind also in eigenen Tabellen hinterlegt
 Dimensionstabellen erhalten weitere Verknüpfungen zu Aggregationstabellen
 Vorteil: leichte Änderbarkeit
 Nachteil: viele Tabellen, aufwändiger Zugriff
 Viele Star-/ Snowflake-Schemata  Galaxy
Speicherung der OLAP-Daten:
 MOLAP  multidimensional
 ROLAP  relational
 HOLAP  hybride
 DOLAP  Desktop
Aggregatfunktionen in SQL: SUM, COUNT, MIN, MAX, AVG – gewichteter Durchschnitt
fehlt.
CUBE-Operator (Würfel) in Standard-SQL für komplexere Gruppierungsanfragen:
SELECT Produktfamilie, Region, Jahr
GROUPING (Produktfamilie)...
SUM (Verkäufe) AS Verkäufe
FROM...
GROUP BY CUBE (Produktfamilie, Region, Jahr)
CUBE erzeugt alle möglichen Gruppierungskombinationen (symmetrische Aggregation)
ROLLUP: Nicht alle Kombinationen erzeugen, nur entlang Klassifikationshierarchie (a’’)
Zugriff auf eingeschränkte Datenmengen – Anfragetypen:
 Bereichsanfrage: beide Dimensionen eingeschränkt (Rechteck)
 partielle Bereichsanfrage: eine Dimension eingeschränkt (Turm)
 partielle Match-Anfrage: eine Dimension auf einen Wert festgelegt (Linie)
 Punktabfrage: beide Dimensionen auf einen Wert festgelegt (Punkt)
 Zusammengesetze Anfrage: Zusammengesetzt aus verschiedenen oberen
 unregelmäßige Anfrage: wie Kraut und Rüben
 Nearest-Neighter-Anfrage: Datenmenge mit geringstem Abstand um einen Punkt
konzeptionelle Optimierungsmöglichkeiten für den Zugriff:
 Indexstrukturen: z.B.: Verwendung von B, B*-Bäumen, Bitmap-Indizes...
 Partitionierung: Tabelle aufsplitten in Teilrelationen (vertikal/ horizontal)
 „relationale Optimierung“ der Zugriffsoperationen (z.B.: CUBE, ROLLUP-Operator)
 Verwendung materialisierter Sichten: Vorabberechnung häufig abgefragter Anfragen,
die zusätzlich gespeichert werden:
+ schnelle Antwortzeiten
- erhöhter Speicherbedarf
- Änderung nötig bei Änderung der Basisdaten
Seite 17 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
11. Data Mining
= Anwendung effizienter Algorithmen, um verborgenes Wissen in Massendaten aufzuspüren.
= schürfen nach verborgenen Informationen
Sie erlauben komplexere Analysen. Die verwendeten Suchmethoden sind komplexe
Methoden aus den Bereichen KI und Statistik.
z.B.: Direct-Mailing-Kampagne  Vorhersage jener Adressaten, die
positiv auf die Kampagne reagieren.
Knowledge Discovery in Databases (KDD)
KDD = Prozess, der automatischen Extraktion von Wissen aus Datenbanken, das
 Gültig (im statistischen Sinn)
 bisher unbekannt
 potentiell nützlich ist.
KDD ist ein Prozess zur Identifikation und Verifikation von Mustern, DataMining stellt dabei
den Teilprozess des Suchens nach Mustern dar.
KDD ist ein iterativer und interaktiver Prozess:
1. Festlegung von Problembereich und Zielen
2. Datensammlung und –bereinigung
3. Auswahl und Parametrisierung der Analysefunktionen und –methoden
4. Data Mining
5. Bewertung und Interpretation der Ergebnisse
6. Nutzung des gefundenen Wissens
Anwendungsbeispiele:
 Kundensegmentierung für’s Marketing (Gruppierung von Kunden...)
 Warenkorbanalyse (Produkt-Platzierung...)
 Bestimmung der Kreditwürdigkeit von Kunden (Entscheidungsbaum-Klassifikator)
 Entdeckung von Kreditkartenmissbrauch
 Web Usage Mining
 Text Mining (inhaltliche Gruppierung von Weg-Dokumenten, emails...)
Klassen von Data Mining Anwendungen:
Klasse
Aufgabe
Vorhersage
zukünftige Werte aus
unabhängigen Variablen
berechnen
Clustering
Gruppen aufgrund
Ähnlichkeiten bilden
Anwendung
Bonitätsbeurteilung
Methodenbeispiele
Neuronale Netze,
Regression
Werbeadressen
einteilen
Neuronale Netze,
konventionelle
Clusteranalyse
Regelinduktion,
neuronale Netze
Statistische
Zusammenhangsanalyse
Suchalgorithmen
Klassifikation
Objekte Klassen zuordnen
Assoziation
Abhängigkeiten entdecken und Warenkorbanalyse
quantifizieren
Textmuster suchen
Information
Retrieval
Text Mining
Bonitätsbeurteilung
Seite 18 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
Komponenten eines DM-Systems:
 Steuerung
 Datenbanken
 Wissensbasis (Hintergrundwissen)
 Fokussierung
 Analysealgorithmen
 Bewertung (Filterfunktion)
 Präsentation
Anforderungen:
 Einbeziehung mehrerer Datenquellen
 Handhabung unterschiedlicher Datentypen
 effiziente Algorithmen
 interessante Ergebnisse
 Sicherheit (Daten fehlerhaft, unvollständig  Vertrauensintervalle, Fehlermaße)
 Visualisierung der Ergebnisse
 Datenschutz
Techniken des Data Mining:
 Clusteranalyse: Objekte aufgrund von Ähnlichkeiten in Klassen einteilen
(Segmentierung)
Ziele: automatische Identifikation einer endlichen Menge von Kategorien, Klassen
oder Gruppen (Cluster)
Objekte im gleichen Cluster: möglichst ähnlich
Objekte aus verschiedenen Clustern: möglichst unähnlich
Unterschiedliche Clustering-Ansätze:
o hierarchisch:
K-Means-Algorithmus:
 Initialisierung: wähle K Cluster-Mittelpunkte (means) aus Datenmenge
 Teile die restlichen Daten jeweils dem Cluster zu, zu dessen
Mittelpunkt sie den geringsten Abstand haben
 Berechne erneut die Cluster Mittelpunkte
 wiederhole ab Schritt 2, bis keine „Verbesserung“ möglich ist
  Problem: Wahl der Anfangsmittelpunkte
o partitionierend: ausgehend von vorgegebener Gruppierung wird solange
getauscht, bis einen gegebene Zielfunktion ihr Optimum erreicht
o überlappend: Elemente können mehreren Clustern angehören
o Fuzzy Clustering: meist 1 und 2 benutzt
 Klassifikation: Zuordnung von Objekten zu Klassen
weiteres Ziel: Generierung (Lernen) des expliziten Klassifikationswissens
(Klassifikationsmodell, z.B.: Klassifikationsregeln, Entscheidungsbaum)
Klassifikation: Klassen vorab bekannt
Clustering: Klassen werden erst gesucht
 Assoziationsregeln: Berücksichtigung von Dimensionshierarchien, quantitativen
Attributen, zeitlichen Beziehungen (Warenkorbanalyse)
Regeln: (Rumpf  Kopf [support, confidence])
31% der Warenkörbe, die Wein enthalten, enthalten auch Käse (wenn A => B)
Apriori-Algorithmus
 Regression: Ursache-Wirkungs-Zusammenhang (Entwicklung von Dax...)
Seite 19 von 20
Informationsmanagement – Zusammenfassung
Marco Piroth (2003)
 Abhängigkeitsentdeckung: Beziehungszusammenhänge (Warenkorbanalyse)
 Abweichungsentdeckung: (Kennzahlenanalyse beim Controlling)
 weitere Ansätze: genetische Algorithmen...
-
Seite 20 von 20