Informationsmanagement – Zusammenfassung Marco Piroth (2003) Geschäftsprozess = Folge von Tätigkeiten (oder Vorgängen) mit folgenden Merkmalen: Bildet Basis für Wertschöpfung, Wertzuwachs, den das Unternehmen erzeugt hat Auslöser und Ergebnis Aktivitäten teilweise wiederholt oder alternativ mehrere Einheiten beteiligt Routineaufgaben, KEINE Einzelprojekte Geschäftsprozessorientierung: Unternehmen konzentriert sich auf Kernprozesse Geschäftsprozessoptimierung: Definition der Kernprozesse Zerlegung der Kernprozesse in Geschäftsvorgänge Ermittlung des Informationsbedarfs für die Kernprozesse Aufstellung von Alternativen zur Realisierung des Informatik-Bedarfs 1. Grundbegriffe Daten = Gesamtheit der verfügbaren Texte, Zahlen, Bilder, Statistiken, Audiodateien... Informationen = Teilmenge der Daten, die für die eigene Unternehmung ausgewählt, geordnet, gespeichert und verfügbar gemacht wird Wissen = von Menschen verstandene, verknüpfte und angewendete Information System = konkretes oder ideelles Ganzes, dessen Teile strukturell, dynamisch und funktional in einer Beziehung stehen Informationssystem (IS) = sozio-technisches System, das menschliche und maschinelle Komponenten als Aufgabenträger umfasst. Im Mittelpunkt steht die Unterstützung bei der Erfüllung betrieblicher Aufgaben ein integriertes IS ist ein IS, das als Zusammenfassung von Teilsystemen aufgebaut ist, die als Ganzes einheitlich zusammenwirken Technologie = Gesamtheit der technischen Kenntnisse, Fähigkeiten und Möglichkeiten eines Gebietes Technik = Fertigkeit, Handwerk, Kenntnisse (konkrete Anwendung einer Technologie) Informationstechnologie = (IT) Gesamtheit an Hardware, Software und Kommunikationseinrichtungen (auch Standards: TCP/ IP...)D Synonym: Informations- und Kommunikationstechnologie (IuK) Management = bewerkstelligen, leiten, führen “... die Gesamtheit der Institutionen, Prozesse und Instrumente, welche im Rahmen der Problemlösung durch einen Seite 1 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Personengemeinschaft der Willensbildung (Planung, Entscheidung) und der Willensdurchsetzung (Ausführung, Kontrolle) dient.“ Informationsmanagement = Führung der Ressource Information strategisches, taktisches und operationelles Management der Information, des Lebenszyklus von IS und der InformatikRessourcen (Informatikmanagement) Management von Informationen: -zielbestimmung legt fest, was mit den Informationen erreicht werden soll -identifikation beschreibt, identifiziert Informationen -akquisition: Beschaffung der Informationen (intern oder extern) -speicherung: Festlegen der genauen Struktur der Daten und Dokumente zum Speichern -verarbeitung: Erstellung neuer Informationen aus vorhandenen -übermittlung: welche Informationen werden wie an welche Personen weitergegeben -nutzung: wie werden die Informationen sinnvoll innerhalb der Geschäftsprozesse genutzt -bewertung: innerhalb welcher Zeiträume und aufgrund welcher Kriterien werden Informationssysteme bewertet, Bestimmung der zu verwendenden Messgrößen -verbesserung: Festlegung neuer, bzw. Ergänzung bereits bestehender Informationsziele Informatikmanagement = Management der eigentlichen Informatik-Ressourcen: Informatikpersonal, Technische Ressourcen (Rechner, Software, Netze...), Technik-Lieferanten Informationsbedarf = Gesamtheit aller Informationen, welche für die Führung des Unternehmens erforderlich sind. Objektiv: für die Aufgabenerfüllung benötigter Bedarf Subjektiv: Bedürfnis aus Sicht einer Person Kennzeichen des Informationsbedarfs: Relevanz: Informationen können unterschiedlich relevant sein Differenziertheit: entweder spezifische Teilaspekte oder nur globale Zusammenhänge Operationalität und Präzision: Qualität der Information Zuverlässigkeit: Informationen sind desto unsicherer, je weiter sie in die Zukunft hineinreichen Aktualität: rechtzeitig oder verspätet eingetroffene Informationen Wert für Nachfrager größer oder geminderter Exklusivität: stehen sie dem Nachfrager exklusiv zur Verfügung, steigert sich ihr Wert Informationsanalyse = Pro Aufgabenstellung zu klären: Inhalt (welche Infos), Häufigkeit, Form, Medium (Transport), Wertigkeit (wie wichtig für Aufgabenerfüllung Seite 2 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Systematisierung nach Mertens/ Griese: Unternehmensgesamtmodell Planungs- und Kontrollsysteme vertikale Integration Admin- und Dispositionssysteme horizontale Integration Horizontale Integration: Informationen auf der gleichen Ebene untereinander austauschen (entlang des Geschäftsprozesses) Vertikale Integration: Informationen zwischen den Ebenen austauschen (Fluss von unten nach oben stärker, als umgekehrt) Verdichtung Systematisierung nach Scheer: Planungs- und Entscheidungssysteme Analyse-Informationssysteme Berichts- und Kontrollsysteme wertorientierte Abrechnungssysteme mengenorientierte operative Systeme Integration Systematisierung nach Koordinationsebene: Individuell Kollektiv individuell Arbeitsgruppe Beispiel Excel Organisational Unternehmen Dokumenten-Management- PortfolioSystem ManagementSystem Interorganisational über Unternehmensgrenze hinweg Just-in-Time-System (EDI) Systematisierung nach Strukturierungsgrad: gering mittel hoch IS: keine IS: zwingt die Einhaltung bestimmter IS steuert und kontrolliert Arbeitsregeln Arbeitsregeln vollständig die Arbeitsregeln Beispiel OLAP, Office OLTP, formularbasierte Systeme Workflow-ManagementSysteme Seite 3 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 2. Strategischer Erfolgsfaktor Information Wert von Information: indirekt: durch Zugang zu Information werden unternehmerische Entscheidungen beeinflusst direkt: Information als Gut Problem: Information lässt sich erst bewerten, wenn man sie kennt Informationsqualität hängt von Genauigkeit, Vollständigkeit und Verfügbarkeit ab Information versus Wirtschaftsgut: Materielles Wirtschaftsgut Hohe Vervielfältigungskosten Werteverlust durch Gebrauch Individueller Besitz Werteverlust durch Teilung Identifikations- und Schutzmöglichkeit schwierige Verbreitung Preis/ Wert objektiv ermittelbar Preisbildungsmechanismus bekannt Bestandsbewertung möglich Information niedrige Wertegewinn nach Verbrauch vielfacher Wertegewinn Problem: Datenschutz und Informationssicherheit einfache subjektiv bestimmbar weitgehend unbekannt problematisch Informationsbeschaffung und –verarbeitung Unternehmerische Entscheidungen Chance für Unternehmen: Ungleichverteilung von Information als Wissenssubjekt optimal gestaltete Informationsverarbeitung führt zu Kostensenkung Seite 4 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 3. Bedeutung von Informationsmanagement Magisches Dreieck: Zeit Qualität Kosten Folgende Entwicklungen sind für das Informationsmanagement entscheidend: Ökonomische Produktivitätsparadoxon: empirisch gestützte These, die besagt, dass trotz steigender Rechnerleistung, steigender Investitionen in IT und zunehmendem IT-Einsatz in Unternehmen die Produktivität nicht entsprechend steigt. Das P. tritt auf verschiedenen Ebenen auf (volks-, betriebswirtschaftlich) Erklärung dafür: Messgrößenproblem, Verzögerung bei Realisierung der Nutzeffekte, Verteilung der Nutzeffekte, Missmanagement beim IT-Einsatz ineffiziente Rechnerauslastung fehlendes ingenieurmäßiges Vorgehen IT-Kosten stark zunehmend Organisatorische Dezentralisierung, Zentralisierung Prozessorientierung Flache Organisation (andere Informationsverteilung) Kooperationen, virtuelle Unternehmen Technische Rechner – Benutzer: 1:n, n:1, 1:1 Parallelrechnersysteme, Client/ Server, WWW, ... Personelle Entstehung neuer Berufsbilder/ -felder neue Anforderungen an Mitarbeiter Ausbildung neuer Mitarbeiter soziologische, psychologische Einflüsse (verändertes Informationsverhalten...) Fazit: Informationsmanagement ist wichtig, da es für die meisten Unternehmen unabdingbar ist, überall eingesetzt werden kann, Wettbewerbsvorteile schafft... Seite 5 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 4. Informationsmanagement Informationsbedarf (objektiv) B A Informationsangebot C Informationsnachfrage (subjektiv) A: objektiv benötigte Infos sind vorhanden, aber nicht nachgefragt B: Infos, die nicht vorhanden sind C: Überdeckung aller Bereiche optimal Ziele: Sachziel: Leistungspotential der IT für die Erreichung der Unternehmensziele durch geeignete IS-Architektur realisieren Formziel Wirtschaftlichkeit (Effizienz): Sachziel soll so erreicht werden, dass bei gegebenen Kosten der Nutzen maximiert oder bei gegebenem Nutzen Kosten minimiert werden (Kosten-Nutzen-Verhältnis) Effizienz: Wirtschaftlichkeit Formziel Wirksamkeit (Effektivität): durch IS-Architektur sollen Teilziele erreicht werden, die auf Unternehmensziele ausgerichtet sind Effektivität: Unternehmensziele sollen erreicht werden Aufgaben: strategische: Planung und Steuerung der Informatik-Strategie und IS-Architektur o Festlegen der Informatik-Strategie o Planung und Steuerung der IS-Architektur Situationsanalyse Zielplanung Strategie-Entwicklung Maßnahmenplanung o Ergebnis: Informatik-Strategie IS-Architektur taktische: Umsetzung der IS-Architektur o Ergebnis: sich im Einsatz befindliche IS operative: Betrieb und Nutzung der IS o Produktionsmanagement o Problemmanagement o Ergebnis: Betrieb und Nutzung der IS (inkl. IT-Infrastruktur) Querschnittsaufgaben: o Controlling: Überprüfung und Förderung von Effektivität und Effizienz des ITEinsatzes im Unternehmen, Soll-Ist-Abweichung der IM-Formziele o Qualitätsmanagement: Definition von Qualitätsanforderungen (-zielen) und Gewährleistung der Erreichung o Sicherheitsmanagement: Definition von Sicherheitszielen für IT-Einsatz Seite 6 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 5. Datenmanagement = alle Prozesse, die der Planung, Beschaffung, Verwaltung und Nutzung der Unternehmensressource Daten dienen = Organisationseinheiten, die für diese Prozesse verantwortlich sind Entwicklung des Daten- und Informationsmanagement: 1. Funktionsorientierung a. isolierte Anwendungen b. Technologie und Automation 2. DB-Admin a. Einsatz von DBMS b. Integrationsanforderungen 3. DB-Modell a. Datenstandardisierung b. Prozess- und Qualitätsoptimierung 4. Datenmanagement a. eigene Zuständigkeit für Daten b. Daten als betriebliche Ressource 5. Informationsmanagement a. Information als Unternehmensressource b. Information als betriebliches Vermögen 6. Wissensmanagement a. Verknüpfung von Informationen zu Wissen b. Implizites und Explizites Wissen als Rohstoff Seite 7 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 6. Unternehmensdatenmodell = unternehmensweites Datenmodell Kategorisierung in Arten (Text, Bilder...) einheitliche Bezeichnung (Kunde = Partner ???) gleiche Datenformate Berechtigungskonzept Metadatenmanagement (Beschreibung der Daten) Beispiel Bank: früher produktorientiert (Spartenorientiert), heute Kundenorientiert Problem: Daten aus den verschiedenen Geschäftsfeldern sollen unter dem Aspekt „Kunde“ integriert werden Integration von Daten – 2 Möglichkeiten: 1. Datenaustausch über Schnittstellen zwischen 2 Systemen 2. Nutzung gemeinsamer Datenbestände in verteilten oder zentralen Datenbanken Datenaustausch über Schnittstellen: Anwendungen brauchen das selbe semantische Verständnis. Synonym: unterschiedliche Namen, aber gleiche Bedeutung (Schuldner, Debitor) Homonym: gleicher Name mit unterschiedlicher Bedeutung (Bank...) Daten müssen konsistent gemacht werden viele Schnittstellen und Abgleichprogramme nötig, dadurch hoher Wartungsaufwand, System wird unflexibler, wartungsunfreundlicher und teurer + geringerer Aufwand für die Entwicklung einer Schnittstelle - großer Änderungsaufwand, verschiedene Formate... - Konsistenzprobleme - aufwendige Datenanalyse Synonym, Homonym Nutzung gemeinsamer Datenbestände: Datenbestände müssen einmal konsistent und widerspruchsfrei modelliert werden gemeinsame Datenarchitektur muss vorhanden sein Sicherstellung der Konsistenz erfolgt durch das DBMS + geringer Änderungsaufwand - aufwändige Modellbildung Hauptrisiko: unternehmensweit gültige Modellierung WICHTIG: Modellierung am GESCHÄFT und NICHT an der Organisation ausrichten UDM: Unternehmensdatenmodell umfasst die zentralen Objekte der Geschäftstätigkeit hohes Abstraktionsniveau UwDM: unternehmensweites Datenmodell detaillierte Beschreibung konzeptionelles Modell der Daten logisches Datenbank-Schema Seite 8 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Fazit: Sinnvoll ist die Verwendung von Branchenmodellen, da in kürzerer Zeit ein in die Zukunft gerichtetes, den Ist-Zustand integrierendes Modell vorhanden ist. Probleme beim unternehmensweiten Datenmodell: das Datenmodell spiegelt die Organisation zum Entstehungszeitpunkt der ersten Teilsystem wider LÖSUNG: das GESCHÄFT muss modelliert werden, NICHT die Ablauf- und Aufbauorganisation die Architektur muss resistent gegen organisatorische Änderungen sein Erstellung: top-down: ignorieren der vorhandenen Strukturen, Entwicklung von Soll-Strukturen bottom-up: Analyse der vorhandenen Datenstrukturen, Generalisierung... Referenzmodell: werden für einzelne Branchen entwickelt (hohe Qualität) Bewertung dieser Ansätze: UDM Vorteile Nachteile unternehmensweite schlechte Datenintegration Top-Down Normierung der Geschäftsbegriffe auf hohem Abstraktionsniveau normierte Begriffe, Datenstrukturen auf hohem Abstraktionsniveau wegen fehlender Detaillierung theoretisch exakt, umfassendes, detailliertes Datenmodell dokumentiert existierende Datenstrukturen im Detail, deckt Redundanzen auf... alle Vorteile des alle Nachteile des Topalle Vorteile des Referenzmodell Top-Down-UDM, Down-UDM, ersetzt keine Top-Downwirkt als eigenen uwDM, Qualitätssicherung Modellierungsüberlegungen, beschleunigt für Entwicklung andere unternehmensinterne Entwicklung des eines eigenen Terminologie eigenen uwDM, UDM Qualitätssicherung Bottom-Up keine Datenintegration, erklärt nicht das Geschäft, sondern das IS, übernimmt Schwächen des Ist-Systems UwDM Vorteile Seite 9 von 20 Nachteile sehr komplex und teuer, meist schnell überholt erklärt nicht das Geschäft, übernimmt Schwächen des Ist-Systems alle Nachteile des TopDown-uwDM, ersetzt keine eigenen Modellierungsüberlegungen, andere unternehmensinterne Terminologie Informationsmanagement – Zusammenfassung Marco Piroth (2003) 7. Metadatenmanagement Metadaten = Daten über Daten Datenformat Bedeutung der Daten Struktur Beziehungen der Daten Verantwortlichkeiten Prozesse zur Datenveränderung (Verschlüsselung...) betriebliche, fachliche technische Metainformationen (Klassifikation) Typen von Metadatenverwaltungs-Systemen: Data Dictionary System (DDS): Verwaltung von Datenelementen und –strukturen Datenbank Katalog: Verwaltung von Datenobjekten und Systeminformationen, die vom DBMS während der Laufzeit aktiv benötigt werden + Zustand der Objekte Repository-Systeme: Weiterentwicklung des DDS, große, umfassende Metamodelle, standardisierte, anpassbare Schnittstellen..., Integration von Metadaten aus verschiedenen Systemen... Vorgehen bei der Metadatenintegration: 1. Festlegung des unternehmensspezifischen Informationsmodells (wie sieht das IS aus, Komponenten...) 2. Verwendung des Referenzmodells zur Evaluierung eines Repository-Systems 3. Definition des Metadatenflusses (wo entstehen welche Daten, wo gespeichert...) 4. Festlegung der Metadaten-Standards (Namenskonventionen, Versionsmanagement...) 5. Festlegung der Schnittstellenformate und Austauschprozesse 6. Integration des Gesamtsystems Nutzen des Metadatenmanagements: Standardisierung (normierte Darstellung aller Modelle) Transparenz und Flexibilität Wiederverwendbarkeit (von Informationsobjekten...) Kosteneinsparungen... Qualitätsverbesserungen (bessere Analyse- und Admin-Möglichkeiten) Open Information Model (OIM) von OMG besteht aus: Analysis/ Design Model Object/ Component Model Database/ Warehousing Model Business Engineering Model Knowledge Management Model Seite 10 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 8. Erfolgreiche Datenmigration aus Altsystemen z.B.: Migration von hierarchischen DBs in relationales DBs. Gründe für Migration: mangelndes Know-How Pflege, Wartung, Erweiterung problematisch inadäquate Datenstrukturen Vorgehen: Analyse des Ist-Systems o konzeptionelle Datenarchitektur und Semantik der Daten (Stärken/ Schwächen beachten, Ende: vollständiger Datenkatalog) o Qualität der Dateninhalte (Homonyme, Codeüberladung, Feldmissbrauch...) o Datenbanktechnologie Entwurf des Zielsystems o Präsentation o Verarbeitung o Datenhaltung o Architektur: Verteilung der Komponenten Migrationsvarianten: Neuentwicklung / Standardsoftware und einmalige Migration Datenmigration und Programmkonversion (prozedurale Zugriffe umsetzen) Umsetzung von relationalen DB-Zugriffen auf bestehende Datenbestände (SQL-Zugriffe auf prozedurale umsetzen) Umsetzung der prozeduralen DB-Zugriffe auf relationale Datenbanken Synchrone oder asynchrone Datenänderung auf Relationale DB zeitweise parallel: Alt- und Neusystem, es wird Transaktionsmanager benötigt NEUER ANSATZ: Enterprise Application Integration (EAI) Seite 11 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 9. Data Warehouse 60er: Executive Informations Systems (EIS): Versorgung von Entscheidern mittels statischer Berichte, verdichtete Extrakte, Mainframe-basiert 80er: Management Information System (MIS): statische Berichtsgeneratoren, Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, DrillDown), Client/ Server, GUI 1992: Einführung DW-Konzept durch Inmon: redundante Haltung von Daten, losgelöst vom Quellsystem, Beschränkung der Daten auf Analysezwecke 1993: Definition des Begriffes OLAP durch Codd: dynamische, mehrdimensionale Analyse 5 Regeln: FASMI: Fast Analysis Shared Multidimensional Information Große Datenbestände im Unternehmen, sehr heterogen Wissen/ Information, in Daten vorhanden, ist nicht offensichtlich: zu viele Attribute keiner hat den Überblick Wechsel der personellen Zuständigkeiten (wichtige Detailinfos gehen verloren) Ein Data Warehouse ist ein zentrales Datenlager, in dem in regelmäßigen Abständen von allen operativen Systemen ein Schnappschluss des Datenbestandes gesichert, verifiziert, gefiltert und geordnet wird. Daran sind viele Programme beteiligt. Im Kern besteht es aus einer speziellen Datenbank, die verschiedene heterogene Quellen zu einer unternehmensweiten Sicht verbindet, so, dass ohne neuerliche Erhebung weitgehende Auswertungen möglich sind. Ein Data Warehouse ist eine themenbezogene, integrierte, zeitbezogene und dauerhafte Sammlung von Informationen zu Entscheidungsunterstüztung des Managements. integriert: Daten aus verschiedenen Systemen themenbezogen: NICHT Erfüllung einer Aufgabe, sondern Modellierung eines Zusammenhangs der Themen (Subjekte: Kunde, Produkt...) zeitbezogen: Einlagerungszeitpunkt der Daten wird festgehalten dauerhaft: einmal eingelagerte Daten werden nicht modifiziert Zeitreihenanalyse Ein DW ist eine physische Datenbank, die eine integrierte Sicht auf beliebige Daten ermöglicht. Daten werden NICHT modifiziert Historie. DW-Prozess: dynamischer Vorgang, angefangen beim Datenbeschaffungsprozess (ETL-Prozess: Extraktion, Transformation und Laden) über das Speichern bis zur Analyse der Daten Vorteile der Trennung von operativen und analytischen Systemen: Antwortzeitverhalten Langfristige Speicherung der Daten Zugriff auf Daten unabhängig von operativen Datenquellen Vereinheitlichung des Datenformats im DW Seite 12 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Gewährleistung der Datenqualität im DW Risiken: durch Verknüpfung können Beziehungen entdeckt werden, die keine sind Fehlerhafte Daten Risiken bei Definition des DW-Datenmodells Data Mart = DW einer „kleinen“ Abteilung Startet mit ETL-Prozess (Extraktion, Transformation, Laden) Abgrenzung OLTP (Online Transactional Processing) zu OLAP (-Analytical-) Transaktional Analytisch Anfrage Fokus r/w, modifizieren, löschen lesen, periodisch hinzufügen Transaktionstyp/ -dauer kurze r/w-Transaktion lange Lesetransaktion Anfragestruktur einfach strukturiert komplex Datenvolumen einer Anfrage wenige Datensätze viele Datenmodell anfrageflexibel, prozess-/ analysebezogen, funktionsorientiert standardisiert Daten Datenquelle meist eine mehrere Eigenschaften nicht abgeleitet abgeleitet/ konsolidiert zeitaktuell nicht zeitaktuell autonom integriert dynamisch stabil Datenvolumen MB – GB GB – TB Zugriffe Einzeltupelzugriff Tabellenzugriff Anwender Anwendertyp Ein-/ Ausgabe durch Manager, Controller, Analyst Angestellte oder SW Anwenderzahl sehr viele wenige Antwortzeit msek. – sek. Sek. – Min. Typische Anwendungen Buchungssysteme Analyse: Zusammenhänge, Häufigkeiten... Entstehung Entwurfsziel Anforderungen Bedeutung Einsatz Datenzugriff Tuning Datenaufbewahrung Aktualität operationale Datenbanken für bestimmte Applikation, aus bestimmter Perspektive hohe Performance bekannt alltägliche Geschäftsabläufe operationales Geschäft pro Aufruf wenige Zeilen für häufige Zugriffe auf kleine Datenmengen solange es das Tagesgeschäft erfordert auf die Minute Seite 13 von 20 Data Warehouse mehrere Perspektiven gleichzeitig Flexibilität vage Entscheidungen des Managements Analysen, ad hoc Reports große Datenmengen für seltene Zugriffe auf große Datenmengen langfristig, Reporting und Vergleiche über längere Zeiträume bestimmter Zeitpunkt in der Informationsmanagement – Zusammenfassung Verfügbarkeit Marco Piroth (2003) Vergangenheit nicht so hoch hoch Anwendungsbereiche: Analysierbarkeit der Daten für BWL: Managemententscheidungen, Risikocontrolling, Kennzahlen... Wissenschaft: Klima-, Umweltforschung Technik: Wasseranalysen, Stoff-, Materialdatenbanken (Produktdaten) Informatik: Knowledgemanagement E-Commerce: Marketing, Vertrieb,... durch CRM, personalisierte Websites... Planungsorientierte Anwendungen Anforderungen des Data Warehousing: Unabhängigkeit zwischen Datenquellen und Analysesystemen Dauerhafte Bereitstellung integrierter und abgeleiteter Daten Mehrfachverwendbarkeit der Daten Durchführung beliebiger Auswertungen individuelle Sichten (Zeithorizont, Struktur...) Erweiterbarkeit (neue Quellen) Automatisierung der Abläufe Eindeutigkeit der Datenstrukturen, Zugriffsberechtigungen und Prozesse Ausrichtung am Zweck: Analyse der Daten Versorgung des DW mit Daten: 1. Anzapfen vorhandener Systeme und Extraktion der gewünschten Daten 2. strukturelle Transformation der Daten Feld für Feld in die DW-Datenstruktur 3. Laden der transformierten Daten in die DW-Datenbank 4. inhaltliche und formale Plausibilisierung der Daten 5. Erzeugung/ Transformation des zeitlichen Bezugs der Daten Historie 6. Synchronisierung der Prozesse mit Prozessen der Datenquellen und des DW Datennutzung: SQL-Zugriff Bereitstellung vorverdichteter Daten (Aggregation über Filiale und Region...) Bereitstellung von Zugriffssichten OLAP-Analyse-Werkzeuge Data-Mining-Werkzeuge Download-Service (als Excel-Tabellen...) Agenten ;-) Die DW-Komponenten: Data Warehous Manager o zentrale Komponente o Initiirung, Steuerung und Überwachung der Prozesse o Zugriff auf Metadaten aus dem Repository Datenquellen o Lieferanten der Daten Monitore o ein Monitor pro Quelle o Entdeckung von Datenmanipulationen… Arbeitsbereich Seite 14 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) o zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs o temporärer Zwischenspeicher zur Integration Extraktionskomponente o Übertragung der Daten von Quelle nach Arbeitsbereich Transformationskomponente o Vorbereitung und Anpassung der Daten für das Laden o Überführung der Daten in einheitliches Format o Beseitigung von Verunreinigungen (Data Cleaning) o Data Scrubbing (Daten schrubben) o Data Auditing (Daten prüfen) Ladekomponente o Übertragung der bereinigten Daten in Basisdatenbank Basisdatenbank o Datenbasis für Analysen (keine KONKRETEN Analysen, keine Aggregation..) o Versorgung des DW mit bereinigten Daten o Daten sind noch nicht aggregiert (ins DW-Modell überführt) o --> Vorteil: bei neuen Analyseideen kann ein neues Modell aus diesen Daten entstehen Data Warehouse Datenbank o Datenbank für Analysen Analysewerkzeuge o Präsentation der Daten mit Navigations- und Analysemöglichkeiten Repository o Speicherung der Metadaten des DW-Systems Metadaten-Manager o Steuerung Metadatenverwaltung o Zugriff, Anfrage, Navigation o Versions-, Konfigurationsmanagement Seite 15 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 10. Das multidimensionale Datenmodell Zweck der Analyse: Berechnung von Kennzahlen „Measures“ Dimensionen: Attribute Datenanalyse mit einem OLAP-Werkzeug – Möglichkeiten: Pivot/ Rotation Würfel drehen Roll-up Aggregation entlang Hierarchiepfad (Fil1, Fil2… = Stadt1…) Drill-down Verfeinerung (Gegenteil von Roll-up) Drill-across Wechsel zwischen 2 Würfeln, gleiche Dim, untersch. Kennzahlen Slice Herausnehmen einer Teilscheibe (Dimension wird festgelegt) Dice Herausnehmen Teilwürfel Drill Through Durchgriff auf BasisDB entweder: Direkte multidimensionale Speicherung oder: Umsetzung des xD-Modells in relationale Datenbank Das Star-Schema: Fakten – und Dimensionstabellen Fakten sind numerische Daten. Sie stellen die Kerndatenelemente ein meist quantitativer Natur da und stehen im Mittelpunkt der Datenanalyse z.B.: Verkaufstransaktionen, Telefonanrufe, Kontobewegungen... Die Dimensionen sind Geschäftsparameter, die jede Transaktion definieren. Sie stellen die Attribute zu den Fakten dar z.B.: Dimensionen zu Verkaufstransaktion: Kunde, Produkt, Ort, Zeit... Faktentabelle (mit Fakt1...Faktn und Dimensions-Fremdschlüssel 1-n) im Zentrum des Sterns. Außenrum die Dimensionstabellen Eigenschaften: o mehrere Dimensionstabellen beziehen sich auf genau eine Faktentabelle o die Faktentabelle enthält die Attribute o die Faktentabelle integriert m:n-Beziehungen implizit in einer einzigen Tabelle und enthält deswegen viel Redundanz o Dimensionstabellen nehmen symbolische und diskrete Attribute auf und erlauben die Auswahl, Zusammenfassung und Navigation der Fakten o jede Dimensionstabelle steht in einer 1:n-Beziehung zur Faktentabelle (jede Zeile einer Dim.Tab. ist mehreren Zeilen der Faktentabelle zugeordnet) o Fremdschlüssel in Faktentabelle = Primärschlüssel in Dimensionstabelle Vorteil: weniger Tabellen, schneller Zugriff Nachteil: aufwändige Änderungen abfrageeffizient, da erst kleine Dimensionstabellen abgefragt, dann – gefiltert – große Faktentabelle abgefragt wird. Faktentabelle Dimensionstabelle Millionen oder Milliarden von Zeilen bis zu Millionen Mehrere Fremdschlüssel ein Primärschlüssel Numerisch Textbeschreibung Nicht zu ändern Häufig verändert Das Snowflake-Schema: Seite 16 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) bei Star: Dimensionstabellen sind denormalisiert Redundanz, geringe Performance Star repräsentiert nicht die Attributhierarchie der Dimensionen Snwoflake: Dimensionstabellen werden NORMALISIERT Verdichtungsebenen sind also in eigenen Tabellen hinterlegt Dimensionstabellen erhalten weitere Verknüpfungen zu Aggregationstabellen Vorteil: leichte Änderbarkeit Nachteil: viele Tabellen, aufwändiger Zugriff Viele Star-/ Snowflake-Schemata Galaxy Speicherung der OLAP-Daten: MOLAP multidimensional ROLAP relational HOLAP hybride DOLAP Desktop Aggregatfunktionen in SQL: SUM, COUNT, MIN, MAX, AVG – gewichteter Durchschnitt fehlt. CUBE-Operator (Würfel) in Standard-SQL für komplexere Gruppierungsanfragen: SELECT Produktfamilie, Region, Jahr GROUPING (Produktfamilie)... SUM (Verkäufe) AS Verkäufe FROM... GROUP BY CUBE (Produktfamilie, Region, Jahr) CUBE erzeugt alle möglichen Gruppierungskombinationen (symmetrische Aggregation) ROLLUP: Nicht alle Kombinationen erzeugen, nur entlang Klassifikationshierarchie (a’’) Zugriff auf eingeschränkte Datenmengen – Anfragetypen: Bereichsanfrage: beide Dimensionen eingeschränkt (Rechteck) partielle Bereichsanfrage: eine Dimension eingeschränkt (Turm) partielle Match-Anfrage: eine Dimension auf einen Wert festgelegt (Linie) Punktabfrage: beide Dimensionen auf einen Wert festgelegt (Punkt) Zusammengesetze Anfrage: Zusammengesetzt aus verschiedenen oberen unregelmäßige Anfrage: wie Kraut und Rüben Nearest-Neighter-Anfrage: Datenmenge mit geringstem Abstand um einen Punkt konzeptionelle Optimierungsmöglichkeiten für den Zugriff: Indexstrukturen: z.B.: Verwendung von B, B*-Bäumen, Bitmap-Indizes... Partitionierung: Tabelle aufsplitten in Teilrelationen (vertikal/ horizontal) „relationale Optimierung“ der Zugriffsoperationen (z.B.: CUBE, ROLLUP-Operator) Verwendung materialisierter Sichten: Vorabberechnung häufig abgefragter Anfragen, die zusätzlich gespeichert werden: + schnelle Antwortzeiten - erhöhter Speicherbedarf - Änderung nötig bei Änderung der Basisdaten Seite 17 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) 11. Data Mining = Anwendung effizienter Algorithmen, um verborgenes Wissen in Massendaten aufzuspüren. = schürfen nach verborgenen Informationen Sie erlauben komplexere Analysen. Die verwendeten Suchmethoden sind komplexe Methoden aus den Bereichen KI und Statistik. z.B.: Direct-Mailing-Kampagne Vorhersage jener Adressaten, die positiv auf die Kampagne reagieren. Knowledge Discovery in Databases (KDD) KDD = Prozess, der automatischen Extraktion von Wissen aus Datenbanken, das Gültig (im statistischen Sinn) bisher unbekannt potentiell nützlich ist. KDD ist ein Prozess zur Identifikation und Verifikation von Mustern, DataMining stellt dabei den Teilprozess des Suchens nach Mustern dar. KDD ist ein iterativer und interaktiver Prozess: 1. Festlegung von Problembereich und Zielen 2. Datensammlung und –bereinigung 3. Auswahl und Parametrisierung der Analysefunktionen und –methoden 4. Data Mining 5. Bewertung und Interpretation der Ergebnisse 6. Nutzung des gefundenen Wissens Anwendungsbeispiele: Kundensegmentierung für’s Marketing (Gruppierung von Kunden...) Warenkorbanalyse (Produkt-Platzierung...) Bestimmung der Kreditwürdigkeit von Kunden (Entscheidungsbaum-Klassifikator) Entdeckung von Kreditkartenmissbrauch Web Usage Mining Text Mining (inhaltliche Gruppierung von Weg-Dokumenten, emails...) Klassen von Data Mining Anwendungen: Klasse Aufgabe Vorhersage zukünftige Werte aus unabhängigen Variablen berechnen Clustering Gruppen aufgrund Ähnlichkeiten bilden Anwendung Bonitätsbeurteilung Methodenbeispiele Neuronale Netze, Regression Werbeadressen einteilen Neuronale Netze, konventionelle Clusteranalyse Regelinduktion, neuronale Netze Statistische Zusammenhangsanalyse Suchalgorithmen Klassifikation Objekte Klassen zuordnen Assoziation Abhängigkeiten entdecken und Warenkorbanalyse quantifizieren Textmuster suchen Information Retrieval Text Mining Bonitätsbeurteilung Seite 18 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Komponenten eines DM-Systems: Steuerung Datenbanken Wissensbasis (Hintergrundwissen) Fokussierung Analysealgorithmen Bewertung (Filterfunktion) Präsentation Anforderungen: Einbeziehung mehrerer Datenquellen Handhabung unterschiedlicher Datentypen effiziente Algorithmen interessante Ergebnisse Sicherheit (Daten fehlerhaft, unvollständig Vertrauensintervalle, Fehlermaße) Visualisierung der Ergebnisse Datenschutz Techniken des Data Mining: Clusteranalyse: Objekte aufgrund von Ähnlichkeiten in Klassen einteilen (Segmentierung) Ziele: automatische Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) Objekte im gleichen Cluster: möglichst ähnlich Objekte aus verschiedenen Clustern: möglichst unähnlich Unterschiedliche Clustering-Ansätze: o hierarchisch: K-Means-Algorithmus: Initialisierung: wähle K Cluster-Mittelpunkte (means) aus Datenmenge Teile die restlichen Daten jeweils dem Cluster zu, zu dessen Mittelpunkt sie den geringsten Abstand haben Berechne erneut die Cluster Mittelpunkte wiederhole ab Schritt 2, bis keine „Verbesserung“ möglich ist Problem: Wahl der Anfangsmittelpunkte o partitionierend: ausgehend von vorgegebener Gruppierung wird solange getauscht, bis einen gegebene Zielfunktion ihr Optimum erreicht o überlappend: Elemente können mehreren Clustern angehören o Fuzzy Clustering: meist 1 und 2 benutzt Klassifikation: Zuordnung von Objekten zu Klassen weiteres Ziel: Generierung (Lernen) des expliziten Klassifikationswissens (Klassifikationsmodell, z.B.: Klassifikationsregeln, Entscheidungsbaum) Klassifikation: Klassen vorab bekannt Clustering: Klassen werden erst gesucht Assoziationsregeln: Berücksichtigung von Dimensionshierarchien, quantitativen Attributen, zeitlichen Beziehungen (Warenkorbanalyse) Regeln: (Rumpf Kopf [support, confidence]) 31% der Warenkörbe, die Wein enthalten, enthalten auch Käse (wenn A => B) Apriori-Algorithmus Regression: Ursache-Wirkungs-Zusammenhang (Entwicklung von Dax...) Seite 19 von 20 Informationsmanagement – Zusammenfassung Marco Piroth (2003) Abhängigkeitsentdeckung: Beziehungszusammenhänge (Warenkorbanalyse) Abweichungsentdeckung: (Kennzahlenanalyse beim Controlling) weitere Ansätze: genetische Algorithmen... - Seite 20 von 20