Business Intelligence Gastvortrag von Dr. Stefan Paul an der FH

Business Intelligence
Gastvortrag von Dr. Stefan Paul an der FH Koblenz
6. Mai 2013, 14:00 – 18:00 Uhr
zur Person:
 Jahrgang 1965
 1995 - 1999: Berater bei IDS Scheer
 2000 - heute: Selbständiger IT- und Unternehmensberater
Geschäftsführer der Citi GmbH, Zweibrücken
http://www.citi-gmbh.de/
 SAP Business Warehouse Berater „der ersten Stunde“
 IT-Projektleiter in BI-Projekten bei einem DAX-Unternehmen der chem. Industrie
 Mitglied der IT Governance für BI Projekte
„Dolmetscher zwischen Business und IT“
Seite 1
Inhalt
 Einführung: Big data!
 Business Intelligence
 Data Mining
Ziel ist es, das, was Sie in der „IT Architekturen“-Vorlesung über BI gelernt haben,
- zu vertiefen und zu ergänzen und
- anschaulich zu machen, wo die Herausforderungen in der Praxis liegen
Seite 2
Big Data
Seite 3
Was ist Big data?
 Volume
− das Datenvolumen nimmt immer
mehr zu
 Variety
− semi- und unstrukturierte Daten
gewinnen an Bedeutung
 Velocity
− Realtime bzw. near Realtime
Reporting ist gefordert
 Variability*
− Komplexität von Daten bzw.
Interpretationsoptionen nehmen zu
IBM characterizes Big data
by its volume, variety and velocity – or simply V3
(from “Understanding Big data” IBM eBook)
* Gartner und Forrester haben zu den 3 von IBM eingeführten „V“ eine 4.te Dimension hinzugefügt
Seite 4
Big data: Volume
Chart from Dr. Thomas Keil, SAS;
Original source: I D C - M U L T I M E
DIAWHITEPAPER
As the Economy Contracts, the Digital
Universe Expands, May 2009
 Das Datenvolumen nimmt exponentiell zu
 … was primär an der Zunahme der unstrukturierten Daten liegt
 90% der weltweiten Daten wurden in den letzten beiden Jahren erzeugt*
* Quelle: http://www-01.ibm.com/software/data/bigdata/
Seite 5
Big data: Variety
 Alle Arten von verfügbaren Daten sind relevant zur Entscheidungsfindung
strukturiert
Unternehmensintern
Unternehmensextern
Tabellenkalkulation
Web log-files
(click-stream)
Datenbanken
Smart devices
ERP
Sensordaten
CRM
BI
unstrukturiert*
…
RFID
…
Web Sites
Textdokumente
Intranet
Soziale Netzwerke
Folien/Präsentationen
Marktanalysen/
Meinungen
Emails
…
…
* genauer: un- bzw. semistrukturierte Daten, denn z. B. Emails sind semistrukturiert, da sie eine Absender/Adressat-Struktur besitzen
Seite 6
Strukturierte vs. unstrukturierte Daten
Unternehmensinterne vs. –externe Daten
?
 Neben strukturierten und unternehmensinternen Daten gewinnen in
Unternehmen immer mehr an Bedeutung:
− semi- bzw. unstrukturierte Daten
− unternehmensexterne Daten
Beispiele: bitte zuordnen!
Strukturiert vs.
Unternehmens-
unstrukturiert
intern vs. -extern
Report zum Umsatz pro Produkt, Kunde, Monat
Zusammenfassungen von Kundengesprächen
Geschäftsklima-Index
Markt-Analysen unabhängiger Institute
Kritik bzw. Zustimmung zu Produkten in sozialen Netzwerken
Seite 7
Strukturierte vs. unstrukturierte Daten
Unternehmensinterne vs. –externe Daten
 Neben strukturierten und unternehmensinternen Daten gewinnen in
Unternehmen immer mehr an Bedeutung:
− semi- bzw. unstrukturierte Daten
− unternehmensexterne Daten
Beispiele:
Strukturiert vs.
Unternehmens-
unstrukturiert
intern vs. -extern
Report zum Umsatz pro Produkt, Kunde, Monat
Strukturiert
Intern
Zusammenfassungen von Kundengesprächen
Unstrukturiert
Intern
Strukturiert
Extern
Markt-Analysen unabhängiger Institute
Unstrukturiert
Extern
Kritik bzw. Zustimmung zu Produkten in sozialen Netzwerken
Unstrukturiert
Extern
Geschäftsklima-Index
Seite 8
Big data: Velocity
 Immer mehr Realtime Reporting ist gefordert:
“Decision window small, compared with data and data requirement change rate” *
 “Velocity” steht für folgende Herausforderungen:
− Handling der immer schnelleren Produktion und Änderung von Daten
− Entscheidern benötigen Daten zeitnah (veraltete Daten bringen keinen
Wettbewerbsvorteil)
− Die Anforderungen, welche Daten benötigt werden und in welcher Art und
Weise sie präsentiert werden müssen, ändern sich schnell
* Quelle: Forrester “Expand your digital horizon with big data”
Seite 9
Big data für Unternehmen
 Wenn Unternehmen von Big data profitieren wollen, müssen sie sich z. B. mit
den folgenden Konzepten und den dazugehörigen Technologien beschäftigen:
− Business Intelligence
− Data Mining
− …
 Es ist gut, etwas über Business Intelligence und Data Mining zu lernen
Seite 10
Business Intelligence
1.
2.
3.
4.
5.
6.
7.
8.
Data Warehouse und BI
BI Architektur
OLAP
Close the loop
Typische BI Fragestellungen
Herausforderungen in BI Projekten
IT Trends und BI
Standardisierte vs. agile BI
Seite 11
1. Data Warehouse und BI
Seite 12
Business Intelligence stellt Entscheidungen
auf die Basis von Fakten
„Unter Business Intelligence (BI) versteht man alle Strategien, Prozesse und
Technologien, bei denen aus Daten Informationen und aus Informationen
erfolgskritisches Wissen gewonnen wird, so dass Entscheidungen auf Basis von
Fakten getroffen werden, die Aktionen zur Unternehmens- und Prozesssteuerung
auslösen“
Dr. Wolfgang Martin, 2009
Seite 13
Business Intelligence erhöht den Informationsgrad
Informationsgrad
mit Informationssystem
ohne
Zeit
Quelle: Marcus Reiser, Jan Holthuis
Seite 14
Business Intelligence sorgt dafür, dass Entscheidungen
besser getroffen werden
mit Informationssystem
Informationsgrad
ohne
Gewinn an
Sicherheit
Zeitpunkt der
Entscheidung
Quelle: Marcus Reiser, Jan Holthuis
Zeit
Seite 15
Business Intelligence sorgt dafür, dass Entscheidungen
schneller getroffen werden
mit Informationssystem
Informationsgrad
ohne
Für Entscheidung
notwendiger
Informationsgrad
Gewinn an Zeit
Zeit
Quelle: Marcus Reiser, Jan Holthuis
Seite 16
Unter Business Intelligence versteht man die Analyse von
Daten mit dem Ziel, die Entscheidungsfindung zu unterstützen
Präsentation zur Entscheidungsunterstützung
„Business Intelligence* (Geschäftsanalytik)
… bezeichnet Verfahren und Prozesse zur
systematischen Analyse (Sammlung,
Auswertung und Darstellung) von Daten in
elektronischer Form.
Datenbank
Ziel ist die Gewinnung von Erkenntnissen,
die in Hinsicht auf die Unternehmensziele
bessere operative oder strategische
Entscheidungen ermöglichen.“
Wikipedia
Daten aus
(operativen)
Vorsystemen
* Der englische Ausdruck „intelligence“ bedeutet in diesem
Kontext nicht „Intelligenz“, sondern die aus dem Sammeln und
Aufbereiten erworbener Informationen gewonnenen Erkenntnisse.
Seite 17
Quellsysteme
Analysetools
Data Warehouse
Business Intelligence
BI Architektur – Übersicht
Präsentation zur Entscheidungsunterstützung
DW
Datenbank
 In der Data-Warehouse-Datenbank
werden die Daten aus den (operativen)
Quellsystemen
− gesammelt
− aufbereitet bzw. verwaltet
− nachgelagerten Analysetools zur
Verfügung gestellt
Verwaltung
ETL: Extract,
Transform
& Load
 Entscheider im Unternehmen greifen über
Spreadsheets, Dashboards oder andere
Analysetools auf die Daten zu
Daten aus
(operativen)
Vorsystemen
 … und finden damit Hilfestellungen für
ihre Entscheidungsfindung
Wichtig: Eine BI Lösung ist kein Produkt
sondern ein Konzept, das unternehmensindividuell umgesetzt werden muss.
Seite 18
Data Warehouse Definition gemäß Bill Inmon
„A Data Warehouse is a subject oriented, integrated, non volatile and time variant
collection of data in support of management decisions.“
 Collection of data in support of management decisions
Datensammlung mit der Zielrichtung Entscheidungsunterstützung
 Subject oriented
Die im DW gespeicherten Daten orientieren sich an den Inhalten bzw. Themen
der Informationsbedarfe der Entscheider
 Integrated
Im DW werden Daten aus heterogenen unternehmensinternen und -externen
Vorsystemen in einer einheitlichen Datenbasis zusammenzuführt (wobei z. B.
unterschiedliche Formatierungen vereinheitlicht werden)
 Non volatile (nicht flüchtig)
Während in den operativen Systemen die Daten sehr häufig aktualisiert werden,
bleiben die einmal im DW gespeicherten Daten unverändert bzw. „eingefroren“
 Time variant
Um zeitliche Trends analysieren zu können, ist es wichtig, dass die Daten einen
Zeitraumbezug haben, also aus ihnen jeweils ersichtlich ist, auf welchen Zeitraum
Seite 19
in der Vergangenheit sie sich beziehen.
OLAP vs. OLTP
?
 Während die operativen, transaktionsorientierten Anwendungen
(Online Transaction Processing, OLTP) Prozesse wie die Auftragsbearbeitung,
das Bestellwesen oder die Finanzbuchhaltung unterstützen
 … besteht das Ziel von analytischen bzw. Data-Warehouse-basierten
Anwendungen (Online Analytical Processing, OLAP) darin, die Entscheider im
Unternehmen mit Informationen zu versorgen
Ziel
Anwender
OLTP
(operativ)
Leistungserbringung
OLAP
(analytisch)
Entscheidungsunterstützung
Sachbearbeiter
Entscheider
Detaillierung
Zeitbezug
Aktualisierung
Seite 20
OLAP vs. OLTP
 Während die operativen, transaktionsorientierten Anwendungen
(Online Transaction Processing, OLTP) Prozesse wie die Auftragsbearbeitung,
das Bestellwesen oder die Finanzbuchhaltung unterstützen
 … besteht das Ziel von analytischen bzw. Data-Warehouse-basierten
Anwendungen (Online Analytical Processing, OLAP) darin, die Entscheider im
Unternehmen mit Informationen zu versorgen
Ziel
Anwender
Detaillierung
Zeitbezug
Aktualisierung
OLTP
(operativ)
Leistungserbringung
OLAP
(analytisch)
Entscheidungsunterstützung
Sachbearbeiter
Entscheider
sehr granular
(Einzelbelege)
aktuell
(zeitpunktbezogen)
kontinuierlich, in Echtzeit
verdichtete Daten
historisch
(zeitraumbezogen)
turnusmäßige Fortschreibung
(oft vortagesaktuelle Daten)
Seite 21
2. BI Architektur
Seite 22
Quellsysteme
Analysetools
Data Warehouse
Business Intelligence
BI und Data Warehouse Architektur
Präsentation zur Entscheidungsunterstützung
Eine BI Architektur besitzt im Wesentlichen
die folgenden Komponenten:
 Analysetools
DW
Datenbank
Verwaltung
ETL: Extract,
Transform
& Load
 Data Warehouse mit
− den Extract, Transform & LoadFunktionalitäten (ETL)
− der Data-Warehouse-Datenbank
− den Verwaltungsfunktionalitäten
 Vor- bzw. Quellsysteme
Daten aus
(operativen)
Vorsystemen
(gehören im weiteren Sinne auch zur BI Architektur,
da sie die Basis für die BI Anwendungen sind)
Abgrenzung (vereinfacht): BI = DW + Analysetools
Seite 23
Quellsysteme
Vorsysteme (bzw. Quellsysteme)
Daten aus
(operativen)
Vorsystemen
 Den Schwerpunkt bilden operative,
unternehmensinterne OLTP-Anwendungen
 Immer mehr Relevanz bekommen aber
z. B. auch:
− externe Daten zu z. B. Währungskursen, Ölpreisentwicklung usw.
− externe Stammdaten wie z. B. die über
Wirtschaftsdienste verfügbare
Zuordnung von Kunden zu
Kundensegmenten (die den
Entscheidern helfen, ein Gesamtbild
der Marktsituation zu bekommen)
Seite 24
Quellsysteme
Data Warehouse
Extract, Transform & Load
DW
Datenbank
ETL: Extract,
Transform
& Load
Daten aus
(operativen)
Vorsystemen
Verwaltung
 Ziel von ETL ist es,
− Daten aus den Vorsystemen zu
extrahieren
− in eine einheitliche Datenbasis zu
transformiert
− Harmonisierung von Feldern aus
heterogenen Quellen (Struktur- und
Formatvereinheitlichungen)
− Daten-Qualitätskontrollen
− in die Data Warehouse-Datenbank
abzuspeichern, typischerweise in
täglichen Ladeprozeduren
 Je nach Anzahl und Heterogenität der
Vorsysteme kann ETL sehr komplex sein
Seite 25
ETL: Beispiele für Plausibilitätsprüfungen
 Datensätze werden als fehlerhaft markiert, wenn sie z. B.:
− keinen Eintrag bei Kunde und Material (Artikel) besitzen
− unlogische Datumsfelder besitzen
(z. B. kann ein Liefertermin nicht vor dem Termin liegen, an dem der dazugehörige Auftrag angelegt wurde)
− einen unrealistische hohen Warenwert besitzen
Auftrag 4711
angelegt am 1.1.2012
Artikel 0815
Kunde 1234
Liefertermin 10.1.2012
Warenwert 20 €

Auftrag 4712
angelegt am 1.1.2012
Artikel 0816
Kunde 3456
Liefertermin 10.1.2012
Warenwert 50 €

Auftrag 4713
angelegt am 1.1.2012
Artikel 0817
-
Liefertermin 10.1.2012
Warenwert 10 €

Auftrag 4714
angelegt am 1.1.2012
Artikel 0818
Kunde 5566
Liefertermin 1.12.2011
Warenwert 20 €

Auftrag 4715
angelegt am 1.1.2012
Artikel 0819
Kunde 3344
Liefertermin 10.1.2012
Warenwert 1.000.000 €

Auftrag 4711
angelegt am 1.1.2012
Artikel 0815
Kunde 1234
Liefertermin 10.1.2012
Warenwert 20 €
Auftrag 4712
angelegt am 1.1.2012
Artikel 0815
Kunde 3456
Liefertermin 10.1.2012
Warenwert 50 €
Auftrag 4713
angelegt am 1.1.2012
Artikel 0815
-
Liefertermin 10.1.2012
Warenwert 10 €
Auftrag 4714
angelegt am 1.1.2012
Artikel 0815
Kunde 5566
Liefertermin 1.12.2011
Warenwert 20 €
Auftrag 4715
angelegt am 1.1.2012
Artikel 0815
Kunde 3344
Liefertermin 10.1.2012
Warenwert 1.000.000 €
Seite 26
Quellsysteme
Data Warehouse
Data Warehouse Datenbank
DW
Datenbank
ETL: Extract,
Transform
& Load
Daten aus
(operativen)
Vorsystemen
Verwaltung
Vorteile einer separaten DWH Datenbank
(gegenüber Auswertungen direkt im OLTP):
 Entlastung der operativen Systeme von
umfangreichen Abfragen: Reports können
sehr aufwendig sein und massiv Systemressourcen binden  es besteht die Gefahr,
dass ein OLTP dadurch gebremst würde
 Für Abfragen optimierte Datenhaltung:
Einsatz spezieller, für Auswertungen
optimierte Datenbankmodelle (bewusst
redundante Datenhaltung, Aggregationen)
 Zusammenführung von Daten aus mehreren
Quellen: Oft müssen für aussagekräftige
Reports die Daten aus mehreren
Quellsystemen (aus verschiedenen
Regionen, Unternehmensbereichen,
Aufgabengebieten) kombiniert werden
Seite 27
Quellsysteme
Data Warehouse
Datenverwaltung im DWH
DW
Datenbank
ETL: Extract,
Transform
& Load
Daten aus
(operativen)
Vorsystemen
Verwaltung
 In der Data Warehouse Verwaltung werden
− Datenflüsse aus den Vorsystemen ins
DWH initiiert, gesteuert und überwacht
− historische Daten, die den relevanten
Betrachtungsbereich der Vergangenheit
überschritten haben, archiviert oder
gelöscht
− Zugriffsrechte verwaltet
− usw.
Seite 28
Quellsysteme
Analysetools
Data Warehouse
Business Intelligence
Analysetools
Präsentation zur Entscheidungsunterstützung
Dashboard
Spreadsheet
DW
Datenbank
ETL: Extract,
Transform
& Load
Daten aus
(operativen)
Vorsystemen
OLAP
Data Mining
Verwaltung
Zur Präsentation und Analyse der Daten
kommen unterschiedlichste Tools zum Einsatz:
 Dashboards: analog zu einer Instrumententafel werden Informationen kombiniert und
graphisch aufbereitet; Ziel ist es, möglichst
viel auf einen Blick zu überschauen
 Spreadsheets bzw. TabellenkalkulationsProgramme: am bekanntesten ist MS Excel
 OLAP Tools: hier stehen OLAP Navigationsmöglichkeiten im Vordergrund (oft als WEBoder Excel-basiertes Tool implementiert)
 Data Mining Tools: für die Suche nach
bisher unentdeckte und betriebswirtschaftlich relevante Muster in großen
Datenbeständen
Außerdem: Erzeugung elektronischer Listen
zur Datenverteilung an nachgelagerten
Anwendungen
Seite 29
3. OLAP
Seite 30
OLAP
 Typische BI Fragestellungen sind einfach strukturiert; sie sind „subject oriented“,
also auf die Subjekte bzw. Kategorien, in denen Entscheider denken, ausgerichtet
− Merkmale (= Dimensionen): Themen, nach denen man etwas analysiert
− Kennzahlen: quantitativen Informationen, die man auswerten möchte
 Typische Fragestellungen sind: Wie entwickeln sich bestimmte Kennzahlen
(Absatz, Umsatz, Preise usw.*) in Bezug auf bestimmte Merkmale
(Kunden, Produkte, Zeit usw.)?
 Visualisiert wird dieser Sachverhalt oft
mit einem Würfel (Cube):
− Merkmale sind die Kanten
(Dimensionen) des Würfels
− Kennzahlen stehen in Würfelzellen
Produkt
Umsatz
Umsatz:
x Mio €
A380
x Mio €
A350
Air France
Lufthansa
A320
* neben Kennzahlen wir Mengen, Werte und Preise sind auch
die Anzahl von Kundenbeschwerden oder die Anzahl an Tagen,
die eine Lieferung verspätet ist, typische BI-Kennzahlen
Qantas
2008
2009
2010
Zeit
Seite 31
OLAP-Navigation: Slice & Dice
Navigieren in den Daten entspricht dem Drehen, Wenden und Durchschneiden des
OLAP-Würfels: Slice bezeichnet dabei das Herausschneiden von Würfelscheiben
 … was bedeutet, dass man z. B. nur den Kunden Lufthansa herausschneidet:
Produkt
Produkt
Umsatz
x Mio €
A380
A350
Air France
Lufthansa
A320
Qantas
2008
2009
2009
46
A350
2010
47
Summe
120
Air France
Lufthansa
A320
2010
Zeit
Zeit
2008
Absatz
27
Umsatz
x Mio €
A380
Qantas
2008
Filter auf
Kunde = Lufthansa
2009
Zeit
2008
Absatz
10
2010
2009
17
Zeit
2010
16
Summe
43
Seite 32
OLAP-Navigation: Slice & Dice
Navigieren in den Daten entspricht dem Drehen, Wenden und Durchschneiden des
OLAP-Würfels: Dice bezeichnet dabei das Drehen des Blickwinkels
 … was bedeutet, dass man z. B. statt dem zeitlichen Verlauf die Produkte zeigt:
Produkt
Zeit
Umsatz
x Mio €
A380
A350
Air France
Lufthansa
A320
Qantas
2008
Zeit
Absatz
2009
2008
10
2010
2009
17
2010
16
Umsatz
x Mio €
2010
Zeit
Summe
43
Zeitlicher Trend 
Produktaufteilung
2009
Air France
Lufthansa
2008
Qantas
A320
A350
A380
Produkt
Absatz
A320
20
A350 A380 Summe
13
10
43
Produkt
Seite 33
OLAP-Navigation: Drill-down & Roll-up
Drill-down bedeutet, dass man die Daten detaillierter untersucht, also z. B.:
 statt dem Jahresverlauf die Absatzzahlen pro Quartal oder Monat anzeigt
 statt Lufthansa komplett zu sehen, die Standorte einzeln aufzuführen
Roll-up ist die Gegenbewegung zu drill-down (zurück auf höhere Aggregationsebenen)
Produkt
Produkt
Umsatz
x Mio €
A380
A380
A350
Air France
Lufthansa
A320
Qantas
2008
Zeit
Absatz
2009
2008
10
2010
2009
17
2010
16
Zeit
Summe
43
Jahresverlauf 
Quartalsverlauf
Umsatz
x Mio €
A350
Air France
Lufthansa
A320
Qantas
2010
2008
2009
Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4
Zeit
2008
2009
2010
Zeit (Jahr,
Summe
Quartal) 1 2 3 4 1 2 3 4 1 2 3 4
Absatz 2 2 4 2 5 4 3 5 4 4 4 4
43
Seite 34
Beispiel für Drill-Down, Slice & Dice
Beispiel-Werte sind
frei erfunden
Seite 35
Beispiel für Drill-Down, Slice & Dice
Beispiel-Werte sind
frei erfunden
Seite 36
Beispiel für Drill-Down, Slice & Dice
Beispiel-Werte sind
frei erfunden
Seite 37
Beispiel für Drill-Down, Slice & Dice
Beispiel-Werte sind
frei erfunden
Seite 38
Beispiel für Drill-Down, Slice & Dice
Beispiel-Werte sind
frei erfunden
Seite 39
OLAP Beispiel
?
 Wie sieht OLAP in einer realen Anwendung aus?
Seite 40
4. ”Close the loop“
Seite 41
Stammdaten
Quellsysteme
Analysetools
Data Warehouse
Business Intelligence
Stammdaten  Bewegungsdaten  Informationen
Präsentation zur Entscheidungsunterstützung
Informationen helfen dabei,
strategische und operative
Entscheidungen zu treffen …
DW
Datenbank
Verwaltung
Extract,
Transform
& Load
Daten aus
Vorsystemen
Material
Kunde,
Lieferant
etc.
Seite 42
Stammdaten
Quellsysteme
Analysetools
Data Warehouse
Business Intelligence
Stammdaten  Bewegungsdaten  Informationen
„Close the loop”
Präsentation zur Entscheidungsunterstützung
Informationen helfen dabei,
strategische und operative
Entscheidungen zu treffen …
DW
Datenbank
Verwaltung
Extract,
Transform
& Load
… und sie helfen bei der
Optimierung der Prozesse …
Daten aus
Vorsystemen
… und bei der Harmonisierung
der Stammdaten
Material
Kunde,
Lieferant
etc.
Seite 43
Close the loop
 Unter dem „closed loop“-Ansatz versteht man, dass die aus dem BI-Reporting
gewonnenen Erkenntnisse nicht nur dazu dienen, gute Entscheidungen im Blick
auf den Markt und den Verkauf der Produkte zu treffen
− sondern auch dazu, die Unternehmensprozesse kontinuierlich zu optimieren
− und Probleme im Bereich der Stammdaten zu analysieren und zu beheben
Beispiele:
 Prozessoptimierung: Wird z. B. festgestellt, dass Kunden regelmäßig zu spät
beliefert werden, können die Supply-Chain-Prozesse untersucht werden, um
festzustellen, wie man diese Prozesse optimieren muss, um die Lieferzuverlässigkeit zu verbessern
 Stammdatenharmonisierung: Stellt man im BI-Reporting fest, dass Produkte zu
zwei verschiedenen Kunden mit identischer Adresse geliefert werden, sollte man
hinterfragen, ob ein Stammdaten-Fehler vorliegt und es sich eigentlich um nur
einen Kunden handelt, der aber eventuell zu unterschiedlichen Zeiten von
unterschiedlichen Mitarbeitern zweimal angelegt wurde
Seite 44
5. Typische
BI Fragestellungen
Seite 45
Typische BI Fragestellungen
… und ihr möglicher Nutzen – Teil 1
Typische Fragen
 Wie haben sich Absatzmenge und Umsatzwert bezogen auf die verschiedenen
Produktbereiche in den letzten Monaten in den verschiedenen Regionen
entwickelt?
 Mit welchen Kunden mache ich den meisten Umsatz?
 Über welche Produkte erwirtschafte ich den höchsten Deckungsbeitrag?
Möglicher Nutzen
 Die für das Unternehmen besonders wichtigen Kunden werden identifiziert
(Kunden mit hohem Umsatz in lukrativen Geschäftsfeldern)
 diese Kunden können bei Produktionsengpässen bevorzugt bedient werden
 Bei einem Absatzrückgang in einer bestimmten Region oder in einem bestimmten
Produktsegment kann frühzeitig gegengesteuert werden (zum Beispiel durch
gezielte Werbemaßnahmen oder durch Preisreduktionen).
Seite 46
Typische BI Fragestellungen
… und ihr möglicher Nutzen – Teil 2
Typische Fragen
 Welche Rohstoffe bestellen wir monatlich in welchen Mengen bei unseren
wichtigsten Lieferanten?
Möglicher Nutzen
 Abhängigkeiten von Lieferanten können erkannt bzw. verhindert werden, so dass
man beim Ausfall eines Lieferanten ober bei Änderungen in dessen Preispolitik
zeitnah auf Alternativen zugreifen kann
Seite 47
Typische BI Fragestellungen
… und ihr möglicher Nutzen – Teil 3
Typische Fragen
 Wie zuverlässig ist meine Supply Chain in Bezug auf die pünktliche Ablieferung
der Waren beim Kunden?
 Wie viele Beschwerden von Kunden gehen pro Monat ein und worüber
beschweren sich die Kunden?
Möglicher Nutzen
 Verspätete Lieferungen, die zu Unzufriedenheit auf Kundenseite führen, sind
frühzeitig bekannt und es können Maßnahmen ergriffen werden, die
Lieferzuverlässigkeit zu verbessern – idealerweise bevor es zu
Kundenbeschwerden kommt.
Seite 48
Einige Aussagen zu Kennzahlen
 „Roughly right is better than precisely wrong“ Carveth Read
− Nicht über betriebswirtschaftlich irrelevante „Nachkommastellen“ diskutieren,
weil man dabei ev. die wichtigen Dinge (die großen Trends) übersieht!
− Gilt nicht für Auswertungen in der Finanzbuchhaltung (dort muss es exakt sein)
 Kennzahlen beeinflussen sich gegenseitig
− Wenn die Lagerreichweite sinkt ( reduzierte Lagerhaltungskosten,
weniger gebundenes Kapital)
− sinkt typischerweise auch die Lieferfähigkeit und Lieferzuverlässigkeit
(und damit auch die Kundenzufriedenheit)
 Welche Kennzahlen sind eigentlich wichtig? Beispiel:
− Absatz steigt  sehr gut, ich verkaufe mehr!
− Umsatz steigt  noch besser, denn ich verkaufe mehr teure Produkte!
− Deckungsbeitrag und Profit steigen  erst jetzt bin ich sicher, dass es gut läuft!
− Es bleibt die Frage, ob ich auch in den richtigen Märkten* wachse?
* bei zukunftsträchtigen Produkte und Kunden
Seite 49
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
Seite 50
BI scheint eine einfache Thematik zu sein
… trotzdem laufen viele BI Projekte schief
 BI scheint eine relativ
einfache Thematik zu sein:
Daten sammeln, verwalten
und präsentieren  That‘s it!
Präsentieren
Verwalten
Sammeln
 Trotzdem laufen viele BI Projekte schief:
“Gartner says more than 50 percent of Data Warehouse projects will have
limited acceptance or will be failures”
Gartner Press release 2005
 Wo liegt das Problem?
Seite 51
Wo liegen die Probleme bzw. Herausforderungen?
Phasen eines typischen BI Projektes
Projektstart
- Ziele*
- Sponsoren
- Team
Analyse der
fachlichen
Anforderungen
Toolauswahl
Prototyp
Entwicklung
Post
Go-Live
* welche "Entscheider" sollen bei der Verrichtung
welcher betriebswirtschaftlichen Aufgaben unterstützt werden
und welche Informationen benötigt man dazu?
 Einige Herausforderungen in BI Projekten werden näher betrachtet
Seite 52
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
− Rollenabgrenzung
− gemeinsame Sprache
− Kommunikation
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
Seite 53
Die Rollen/Aufgaben müssen
zwischen Facheinheit und IT klar abgegrenzt sein
 Wenn die Facheinheit Aufgaben der IT übernimmt und z.B. selbst programmiert
oder über Tabellen-Logiken entscheidet
- ... werden die Anwendungen oft nicht in das Support-Konzept eingebunden
 wer kümmert sich um die Pflege, Korrektur und Erweiterung der
Anwendung, um die Rückmeldung zu User-Anfragen, etc. ?
- ... sind die Anwendungen oft auf einzelne Einheiten
beschränkt, folgen also keinem zentralen Ansatz
 Synergien gehen verloren
 Wenn die IT Fach-Aufgaben übernimmt (z.B. Fachkonzept-Details festlegt) ...
- ... verstehen die Facheinheiten ev. die Details der Anwendung nicht
 die Anwendung findet keine Akzeptanz
Seite 54
Die Rollen/Aufgaben müssen
zwischen Facheinheit und IT klar abgegrenzt sein
 Konflikte in der Aufgabenverteilung zwischen Facheinheit und IT basieren oft
auf betrieblichen Rahmenbedingungen wie z.B.:
- Mitarbeiter sind überlastet
 jeder versucht Arbeit abzuschieben
- Mitarbeiter sorgen sich um ihre Aufgaben
 und verbitten sich Eingriffe in ihren
Kompetenz-Bereich
Seite 55
Gemeinsame Sprache: Mitarbeiter der Facheinheit
benötigen ein Grundverständnis zu IT-Themen
 Zum Beispiel sollten Facheinheiten Mitarbeiter einige Grundbegriffe der
Datenmodellierung verstehen, wie z.B.:
- Bewegungsdaten
Beleg 4711
bestellt am 1.1.2010
Artikel 0815
Warenempfänger 1234
10 KG
20 €
Seite 56
Gemeinsame Sprache: Mitarbeiter der Facheinheit
benötigen ein Grundverständnis zu IT-Themen
 Zum Beispiel sollten Facheinheiten Mitarbeiter einige Grundbegriffe der
Datenmodellierung verstehen, wie z.B.:
- Bewegungsdaten vs. Stammdaten
Beleg 4711
bestellt am 1.1.2010
Artikel 0815
Warenempfänger 1234
10 KG
20 €
Name: Müller GmbH
Ort: Bielefeld
Land: Deutschland
Branche: Automobile
werden regelmäßig
aktualisiert
(täglich, wöchentlich)
Seite 57
Gemeinsame Sprache: Mitarbeiter der Facheinheit
benötigen ein Grundverständnis zu IT-Themen
 Zum Beispiel sollten Facheinheiten Mitarbeiter einige Grundbegriffe der
Datenmodellierung verstehen, wie z.B.:
- Nummern-Ergänzungen (Compounding) zur Vermeidung von Kollisionen
Beleg 4711
bestellt am 1.1.2010
Artikel 0815
Warenempfänger 01/1234
10 KG
20 €
Name: Müller GmbH
Ort: Bielefeld
Beleg 4713
bestellt am 1.2.2010
Artikel 1111
Warenempfänger 02/1234
10 KG
20 €
Name: Smith Inc.
bei einer hinzugekauften Firma
aus GB werden die identischen
Kundennummern verwendet
 aber für andere Kunden
Ort: London
Seite 58
Gemeinsame Sprache: Mitarbeiter der Facheinheit
benötigen ein Grundverständnis zu IT-Themen
 Zum Beispiel sollten Facheinheiten Mitarbeiter verstehen,
- … dass es Performance-Restriktionen gibt
 man kann nicht beliebig viele Daten beliebig schnell bereitstellen!
viel
schnell
- … dass es in der IT Arbeit „Aufwandstreiber“ gibt
 Dinge, die relativ einfach klingen, können technisch sehr aufwändig sein!
Seite 59
Gemeinsame Sprache: Mitarbeiter der IT benötigen ein
Grundverständnis der Arbeit der Facheinheit
 Zum Beispiel sollten IT-Mitarbeiter ein Grundverständnis der Arbeit der
Facheinheit haben zu Themen wie:
- Prozess-Know-how: Wie sind Prozesse konzipiert bzw. implementiert, aus
denen das BI Tool die Daten bezieht?
- Was sind die wesentlichen Kennzahlen, die bereitgestellt werden sollen
- und wofür werden sie verwendet?
Seite 60
Gemeinsame Sprache: es geht um einen groben
Überblick und nicht um die Details
 Es kommt zu Frustration und Missverständnissen
- wenn die IT die Facheinheit mit IT-Ausdrücken überfordert
- wenn die Facheinheit die IT Kollegen nicht zumindest in die Grundzüge der
fachlichen Hintergründe der Anforderung einweiht
 Wo es nötig ist, muss jemand (Projektleitung, Berater, etc.) übersetzen!
Business – IT
IT – Business
Seite 61
Gemeinsame Sprache: es geht um einen groben
Überblick und nicht um die Details
 Facheinheit und IT müssen „ihre“ Themen so weit veranschaulichen und
vereinfachen, dass ein gemeinsames Gespräch und gemeinsame
Entscheidungen möglich werden
„Wahrheit und Klarheit sind komplementär!“
100% Klar
„das Programm ist fehlerhaft“
 ziemlich klar!
100% Wahr
„im Function Module XY führt
eine fehlende If-Anweisung dazu,
dass in ca. 10% aller Fälle ein falscher
Datums-Wert an das übergeordnete
Programm übergeben wird...“
 näher an der „Wahrheit“
Seite 62
Offene Kommunikation & gegenseitiges Vertrauen sind
essentiell für den Projekterfolg
 Es muss möglich sein, die Aussagen der jeweils anderen Einheit zu hinterfragen
 die Aussage „das versteht Du eh nicht“ hilft hier nicht weiter!
 Gleichzeitig muss es in der Zusammenarbeit eine Vertrauensbasis geben (nicht
jede Aussage, die unangenehm ist, sollte hinterfragt werden)
Zwei Beispiele:
Wenn die IT zur Umsetzung einer Anforderung
nur 2 technische Optionen sieht (mit Vor.- und
Nachteilen), ist es nicht hilfreich, wenn die
Facheinheit darauf drängt, dass nach einer
Option 3 (ohne Nachteile) gesucht wird
-
Wenn die Facheinheit eine technisch schwierig
zu ermittelnde Information zwingend für ihr
Reporting benötigt, ist es nicht hilfreich,
wenn die IT den betriebswirtschaftlichen
Mehrwert dieser Information in Frage stellt
Seite 63
Das Team: Zusammenfassung
 Die Rollen/Aufgaben müssen zwischen Facheinheit und IT klar abgegrenzt sein
 Facheinheit-Mitarbeiter benötigen ein Grundverständnis zu IT-Themen …
… und umgekehrt
 Die Kommunikation lebt davon, dass jeder einen groben Einblick in die Arbeit
der anderen Einheit hat  es geht nicht um die Details!
 Offene Kommunikation und gegenseitiges Vertrauen sind essentiell
 Man kann nur erfolgreich sein, wenn alle das gleiche Ziel verfolgen
Seite 64
6. Herausforderungen in BI Projekten
i. Das Team (Facheinheit und IT)
ii. Fachliche Anforderungen
− Unterschiedliche Sichten
− Implizite Logik
− Abgeleitete Merkmale
− Beschränkung auf das Wesentliche
− Datenqualität
iii. Tools
iv. Prototyp
v. Go Live und was dann?
Seite 65
Anforderungen – unterschiedliche Sichten
Beispiel 1: Die Facheinheit einer Brauerei möchte folgenden Bericht:
Absatzzahlen – pro Warengruppe – pro Land – pro Monat
Seite 66
Anforderungen – unterschiedliche Sichten
Beispiel 1: Die Facheinheit einer Brauerei möchte folgenden Bericht:
Absatzzahlen – pro Warengruppe – pro Land – pro Monat
 Hier müssen z.B. folgende Details geklärt werden:
- Absatzzahlen: Alle Absätze oder nur die Absätze mit „echten“ Kunden?
- pro Warengruppe: welche Artikel gehören zu dieser Warengruppe und:
ist die Gruppierung gemäß aktueller Sicht zu erstellen?
- pro Land: Land der Vertriebseinheit oder Land des Kunden?
- pro Monat: basierend auf welchem Datum?
Seite 67
Anforderungen – unterschiedliche Sichten
Beispiel 1: Die Facheinheit einer Brauerei möchte folgenden Bericht:
Absatzzahlen – pro Warengruppe – pro Land – pro Monat
 Dazu sagt der Vertriebschef
- alle Absätze – auch die Verkäufe an Händler, die zum Konzern gehören
- auch historische Daten sollen so gezeigt werden, als wäre die aktuelle
Waren-Gruppierung schon immer gültig gewesen
- bezogen auf das Land des Kunden, der die Ware geliefert bekommt
- basierend auf Auftragsanlagedatum
Seite 68
Anforderungen – unterschiedliche Sichten
Beispiel 1: Die Facheinheit einer Brauerei möchte folgenden Bericht:
Absatzzahlen – pro Warengruppe – pro Land – pro Monat
 Dazu sagt der Finanzchef
- nur Absätze mit „echten“ Kunden
- historische Daten sollen so gezeigt werden bzw. in Warengruppen
eingeordnet sein, wie sie zum Zeitpunkt der Belegerstellung gruppiert waren
- bezogen auf das Land des Kunden, der die Ware bezahlt
- basierend auf Rechnungsdatum
Seite 69
Anforderungen – unterschiedliche Sichten
Beispiel 1: Die Facheinheit einer Brauerei möchte folgenden Bericht:
Absatzzahlen – pro Warengruppe – pro Land – pro Monat
 jede Menge Klärungs- bzw. Detaillierungsbedarf
 unterschiedliche Antworten aus unterschiedlichen Abteilungen
Seite 70
Anforderungen – implizite Logik
Beispiel 2: Die Facheinheit eines Industriebetriebes möchte folgenden Bericht:
Lieferzuverlässigkeit – pro Transportart – pro Land – pro Monat
 Auch hier müssen die Merkmale Transportart, Land, Monat detailliert werden
 Zusätzlich muss hier geklärt werden:
- Basierend auf der Definition der Lieferzuverlässigkeit =
Anzahl pünktliche Lieferungen / Anzahl alle Lieferungen
 was ist „pünktlich“, welche Verspätung ist noch OK?
Im Verständnis der Facheinheit ist die Interpretation, ob eine Lieferung
pünktlich ist oder nicht, abhängig von der Transportart:
See: +/- 3 Tage Toleranz
LKW: 0 Tage Toleranz
Seite 71
Anforderungen – implizite Logik
„pünktlich“ ist abhängig von der Transportart
80
30
See: +/- 3 Tage Toleranz
15
15
10
10
1
4
5
5
- 3 Tage
LKW: 0 Tage Toleranz
Zugesagter
Eintreff-Termin
4
+ 3 Tage
Lieferzuverlässigkeit im See-Verkehr:
90 pünktliche Lieferungen
100 Lieferungen insgesamt
= 90 %
1
1
1
2
- 3 Tage
3
3
3
3
Zugesagter
Eintreff-Termin
2
1
1
+ 3 Tage
Lieferzuverlässigkeit im LKW-Verkehr:
80 pünktliche Lieferungen
100 Lieferungen insgesamt
= 80 %
Seite 72
Anforderungen – implizite Logik:
3 Implementierungs-Optionen
Abhängigkeit der Pünktlichkeit von der Transportart ist in Anwendung implementiert
80
30
See: +/- 3 Tage Toleranz
15
15
10
10
1
4
5
5
- 3 Tage
LKW: 0 Tage Toleranz
Zugesagter
Eintreff-Termin
+ 3 Tage
4
1
1
1
2
- 3 Tage
3
3
3
Zugesagter
Eintreff-Termin
3
2
1
1
+ 3 Tage
 Option 1: Die Anwendung berücksichtigt bei Berechnung der Lieferzuverlässigkeit
automatisch die unterschiedlichen Toleranzen  implizite Logik
 Zum Verständnis der Daten muss der User bedenken, dass diese Logik in die
Berechnung eingebaut ist
Seite 73
Anforderungen – implizite Logik:
3 Implementierungs-Optionen
Implementiert ist eine 0 Tage Toleranz für alle Transportarten
80
30
15
15
10
10
1
4
5
5
- 3 Tage
Zugesagter
Eintreff-Termin
+ 3 Tage
4
1
1
1
2
- 3 Tage
3
3
3
Zugesagter
Eintreff-Termin
3
2
1
1
+ 3 Tage
 Option 2: Toleranz wird für alle Transportarten auf „0 Tage“ gesetzt
 Zum Verständnis der Daten muss der User berücksichtigen, dass im SeeVerkehr eine geringere Pünktlichkeit zu erwarten ist
Seite 74
Anforderungen – implizite Logik:
3 Implementierungs-Optionen
Die Toleranz ist variabel (kann vom User individuell festgelegt werden)
80
30
15
15
10
10
1
4
5
5
- 3 Tage
Zugesagter
Eintreff-Termin
+ 3 Tage
4
1
1
1
2
- 3 Tage
3
3
3
Zugesagter
Eintreff-Termin
3
2
1
1
+ 3 Tage
 Option 3: der User kann die Toleranz selbst einstellen
 damit besteht z.B. die Möglichkeit, See-Transporte mit +/- 3 oder mit +/- 0
Tagen auszuwerten
Seite 75
Anforderungen – implizite Logik
 Implizite Logik (Option 1) hat Vorteile:
- Einheitliche, standardisierte und vergleichbare Interpretation der Daten
- User müssen sich um nichts kümmern
 Nachteile:
- Verlust an Flexibilität
- Mögliche Missverständnisse, wenn Regeln nicht bekannt sind
 Wieso wird ein 2 Tage verspäteter Transport manchmal als „pünktlich“ bewertet
und manchmal als „unpünktlich“?
 Implizite Logik kann sehr hilfreich sein …
 … funktionieren aber nur, wenn sie global anerkannt und verstanden ist
 Flexibilität darf nicht verloren gehen
 daher z.B. in globalen Standard-Berichten Logik einbauen, aber für Experten
die Option erhalten, diese Regeln auch auszuschalten bzw. selbst festzulegen
Seite 76
Anforderungen – abgeleitete Merkmale
Beispiel 3: Absatzmenge aller über eCommerce angelegten Aufträge
 Die Info „Auftrag wurde über eCommerce-Vertriebskanal angelegt“ ist nicht
global einheitlich über ein Feld erkennbar
 Abgeleitetes Merkmale „eCommerce-Kennzeichen“ mit Definition
- Quelle 1: Verkaufsbelegart = x1, x3 oder x7
- Quelle 2: Vorgängerbelegart des Auftrages = y1
 Aufgabe von abgeleiteten Merkmalen
1. Verdichten bzw. vereinfachen:
x1, x3, x7 = eCommerce
2. Harmonisieren:
eCommerce ist in Quelle 1
anders definiert als in Quelle 2
eCommerce ja / nein
Verkaufsbelegarten:
x1, x2, x3, x4, x5
x6, x7, x8, x9, x10
Vorgängerbelegart:
y1, y2,, y3, y4
Seite 77
Anforderungen – abgeleitete Merkmale
 Problemfelder bei abgeleiteten Merkmalen
- Neue Begrifflichkeiten müssen geschult und etabliert werden
- Information lässt sich nicht 1:1 im ERP-Quellsystem überprüfen
- Qualität der Information steht und fällt damit, dass Mapping-Tabellen aktuell
gehalten werden
- Wenn Zuordnungen geändert werden (z.B. weil alte Einträge fehlerhaft oder
unvollständig waren)  Umstellung der Historie-Daten notwendig
 Abgeleitete Merkmale können sehr hilfreich sein …
 … funktionieren aber nur, wenn sie global anerkannt und verstanden sind
(man sollte die Anwender nicht mit unnötig vielen Objekten überfordern)
 Flexibilität darf nicht verloren gehen  Experten unter den Usern sollten auch
die Basis-Merkmale sehen können
Seite 78
Anforderungen – Beschränkung auf das Wesentliche
Ich will ALLES
haben !!!
 Wenn man Kollegen aus der Facheinheit die Frage stellt, welche Merkmale z.B.
aus einem Auftragsdokument für das Reporting relevant sein könnten, bekommt
man oft die Antwort „ALLES könnte irgendwie irgendwann relevant sein“
 Was sind die wesentlichen Informationen (Merkmale und Kennzahlen)?
 Besser 80% der Anforderungen mit einer „Easy-to-use“ Anwendung abdecken
… als 99% der Anforderungen in einem Tool bereitstellen, das keiner nutzt,
weil es zu komplex bzw. unübersichtlich ist
Seite 79
Anforderungen – Beschränkung auf das Wesentliche
Seite 80
Anforderungen – Datenqualität
 Beim Laden von Daten werden oft Fehlerprüfungen bzw. Plausibilitätschecks
durchgeführt  Belege im Reporting werden nicht angezeigt weil z.B.:
- Kundennummern falsch ist
- Datumsfelder unlogisch ist (Lieferungsdatum zeitlich vor Auftragsanlage)
+ Das BI-System findet Fehler und hilft, diese zukünftig im ERP zu vermeiden
 Die fehlerhaften Belege werden z. B. in einem Monats-Umsatz-Report vermisst
(wo es z.B. dem Vertriebschefs völlig gleichgültig ist, ob es in den ERPBelegen Datumsfelder gibt, die nicht plausibel sind)
-
 Es muss abgewogen werden, was wichtiger ist: Fehler aufzudecken oder
Daten vollständig (und analog zum ERP) anzuzeigen
Seite 81
Anforderungen – Datenqualität
 Der korrekte Trend ist z.B. in Supply Chain Anwendungen oft wichtiger als die
korrekten Absolut-Werte
- Anwender ziehen ihre Schlüsse sehr oft über die Analyse des Trends
- … aber bei Finance & Controlling Anwendungen sieht man das anders
 Beim Beheben von Fehlern sollte man an die eventuell zu diesen Daten
getroffene Zielvereinbarungen denken und Korrekturen kommunizieren und
dann nur jeweils zum Monats-, Quartal- oder Jahreswechsel einbauen
 Hilfreich zur Verifizierung der Datenqualität einer Anwendung ist die Option,
im Reporting-Umfeld auch die Einzelbelege anzeigen zu können
Seite 82
Anforderungen – Datenqualität
Exkurs/Beispiel: Fabrikkalender vs. 7 Tage-Kalender
Überwachung der Pünktlichkeit basierend auf einer 7 Tage Woche
4 Tage zu spät
Di Mi Do Fr Sa So Mo Di Mi
Versprochener
Liefertermin
t
Tatsächlicher
Liefertermin
Alternativ: basierend auf 2 Fabrikkalendern (Ermittlung der Arbeitstage)
1 Arbeitstag zu spät
2 Arbeitstage zu spät
Tu We Th Fr Sa So Mo Tu We
Versprochener
Liefertermin
Tatsächlicher
Liefertermin
t
Tu We Th Fr Sa So Mo Tu We
Feiertag
Versprochener
Liefertermin
t
Tatsächlicher
Liefertermin
 gibt es einen analytischen Mehrwert durch die Fabrikkalender-Information?
Seite 83
Zusammenfassung:
Bei der Definition der fachlichen Anforderungen muss man …




Details diskutieren und bei Interessenskonflikten Kompromisse finden
Entscheidung treffen über den Einbau impliziter Logik & abgeleiteter Merkmale
Die für das Reporting wesentlichen Informationen finden
Eine Strategie zum Umgang mit Fehler bzw. Ungenauigkeiten finden
 Oft gibt es nicht die „eine“ richtige Lösung, die für alle passt
 Was kann man tun?  Optionen sind:
- Kompromisse finden
- Separate Anwendungen pro Anforderer bzw. Facheinheit bauen
- Anwendungen bzw. Datenmodelle so flexible wie möglich bauen
 Wichtig ist dabei aber immer auch „Keep it simple !!!“
Seite 84
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
Seite 85
Wichtiger als „schicke“ Frontend-Tools
sind z.B. eine klare Anforderungs-Definition und
ein schlüssiges IT Konzept
 Beim Start von BI Projekten wird oft über Frontend-Tools diskutiert
- Facheinheit-Mitarbeiter haben sich z.B. auf Messen oder im Internet
informiert und betrachten nun Tool und Anwendungs-Idee als Einheit
- Solche Diskussionen sind viel interessanter und „spaßiger“ als z.B. die
Anforderungs-Detailanalyse
Quelle: http://www.projectmanager.com/
images/showcase/dashboard.jpg
„Organizations tend to throw technology at BI
problems. You could have the right tool but it
could be doomed to failure because of …
(e.g.) an absence of executive support …”
Ian Bertram, Gartner global BI manager, 2009
 Lenkt bisweilen von den eigentlichen Problemen ab
 Oft gibt es Rahmenbedingungen (IT-Strategie, Know-how im Unternehmen, etc.)
und nur geringe Anzahl von Tools kommt überhaupt in Frage
Seite 86
Frontend Tool Beispiel: QlikView
Beispiel-Werte sind
frei erfunden
Seite 87
Frontend Tool Beispiel: QlikView
Beispiel-Werte sind
frei erfunden
Seite 88
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
Seite 89
Die zügige Erstellung eines ersten
Prototypen erleichtert die Projektarbeit
 Sobald die Anforderungen und Konzepte grob geklärt sind, hilft die Erstellung
eines ersten Prototypen in den Projektarbeit
- Man sieht, worüber man spricht  Missverständnisse werden ausgeräumt
- Man kann – falls nötig – jetzt noch gegensteuern
(ohne ganz viel Geld verloren zu haben)
- Man ist weg von der „grünen Wiese“
(für viele Kollegen ist es einfacher, etwas „Bestehendes“ anzupassen)
- Man bekommt ein Gefühl dafür, was technisch möglich ist
- Man erreicht einen ersten Projekterfolg
 Motivation für Projektmitarbeiter, Anforderer und Sponsoren
Deshalb gilt immer noch der Spruch: „Think big, start small!“
Seite 90
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
Seite 91
Nicht selten wird die Arbeit, die nach
dem Go Live ansteht, unterschätzt
 Nach dem Go Live
- …stellt man vielleicht fest, dass die „Welt“ nicht auf dieses Tool gewartet hat
 es wird weniger genutzt als erwartet
(ein „Geschenk“, das sich niemand gewünscht hat)
- ... bekommt man erstmals Feedback von
den „echten“ Anwendern und stellt dann fest,
dass man einiges überarbeiten muss
 Nach dem Go Live
- … braucht man einen „starken“ Application Owner, der
 das Change Management organisiert
 Marketing für die neue Anwendung betreibt
(Training organisiert, Vorträge hält, die Anwender informiert und überzeugt)
- … braucht man weiterhin zumindest einen Teil des Projektteams
 um eventuell erst jetzt erkennbare Fehler zu korrigieren
 dringende Änderungswünsche umzusetzen
Seite 92
6. Herausforderungen in BI Projekten
i.
ii.
iii.
iv.
v.
Das Team (Facheinheit und IT)
Fachliche Anforderungen
Tools
Prototyp
Go Live und was dann?
 Zusammenfassung
Seite 93
Business Intelligence Projekte in der Praxis:
Herausforderungen an Business und IT
 Business Intelligence … klingt einfach, ist es aber nicht!
 Herausforderungen in BI Projekten
- Team … muss sich „multikulturell“ (Business und IT) zusammen finden
und am gleichen Strick ziehen
- Fachliche Anforderungen … müssen im Detail diskutiert und verstanden
werden – und es müssen oft fachlich und IT-technisch Kompromisse
gefunden werden
- Tools … alleine lösen noch keine Probleme
- Prototyp … ist immer noch der beste Start
- Go Live und was dann? … beginnt manchmal die Arbeit erst so richtig
Seite 94
Business Intelligence Projekte in der Praxis:
Herausforderungen an Business und IT
Mögliche Gründe für das Scheitern von BI-Projekten sind z. B.:
 Mangelnde Datenqualität im DWH  Prüfungen im ETL-Prozess sehr wichtig!
 Die Datenqualität ist sehr gut, aber die Anwender verstehen das Tool nicht
(wg. unterschiedlichen Sichten auf die Daten, komplexen Ableitungs- und
Berechnungsregeln, etc.)
 Komplexität, wo immer möglich, vermeiden!
 Anwendungen so einfach und bedienerfreundlich wie möglich gestalten!
 Umfangreiche Trainings und schlüssige Dokumentationsunterlagen anbieten!
 Neben der Datenqualität ist wichtig für die Akzeptanz von BI-Anwendungen:
− Einheitliches Verständnis darüber etablieren, wie die Daten zu interpretieren
sind und welche Ableitungs- und Berechnungsregeln Verwendung finden
− Usability und Simplicity
Seite 95
7. IT Trends und BI
Seite 96
Wie geht’s weiter mit BI?
 Aktuell stellen 3 große IT-Trends einige der klassischen BI Konzepte in Frage:
Cloud
InMemory
Mobile
Seite 97
Wie geht’s weiter mit BI: InMemory
?
InMemory
 Braucht man im inMemory-Zeitalter noch eine separate DHW Datenbank?
Rückblick: Was waren noch einmal die Gründe für eine separate DWH Datenbank?
Seite 98
Wie geht’s weiter mit BI: InMemory
InMemory
 Braucht man im inMemory-Zeitalter noch eine separate DHW Datenbank?
 Gründe für eine separate DWH Datenbank:
1. Entlastung der operativen Systeme von umfangreichen Abfragen
2. Umsetzung einer für Abfragen optimierte Datenhaltung
3. Zusammenführung von Daten aus mehreren Quellen
 1. und 2. verlieren z. T. an Bedeutung, aber man wird nach wie vor BI
Architekturen benötigen*, um z. B.
− Daten aus verteilten Quellsystemen zusammenzuführen
− Impliziter Logiken, abgeleitete Merkmale usw. umzusetzen
* auch wenn diese zukünftig zum Teil anders aussehen werden
Seite 99
Wie geht’s weiter mit BI: Cloud, SaaS
Cloud
Software as a Service
 Wozu noch komplizierte BI Projekte durchführen, wenn man doch einfach die
Daten in eine Reporting-Cloud-Anwendung laden kann?
 Die Problematik der Diskussion fachlicher Anforderungen, bzw. der
Kommunikation zwischen Facheinheit und IT bleiben bestehen
 Viele große Unternehmen sind aktuell noch skeptisch gegenüber der Cloud
(z. B. wegen Bedenken bzgl. Datensicherheit)
 … aber für das Prototyping in BI Projekten ergeben sich hier ganz neue
Möglichkeiten
Seite 100
Wie geht’s weiter mit BI: Mobile
Mobile
 Sind Smartphones, Tabletts usw. nur eine wenig hilfreiche „Spielerei“?
 Braucht man nun nicht mehr denn je „einfache“ Anwendungen?
 Smartphones und Tabletts sind aus dem privaten Alltag nicht mehr
wegzudenken und werden auch in den Unternehmen immer wichtiger
 BI Tools müssen sich damit auseinandersetzen!
Seite 101
8. Standardisierte
versus agile BI
Seite 102
Herausforderung an IT-Architektur & Tools:
Gleichzeitig standardisiert und agil zu sein
„Wie handeln erfolgreiche Unternehmen?“
Auf diese Frage antwortet der BI Analyst Dr. Wolfgang Martin (2009):
Sie legen ihr Augenmerk auf den Kunden
Sie trennen sich von niedrigwertigen Aufgaben
Sie dezentralisieren Entscheidungsprozesse
Sie sind compliant
Sie denken und handeln durchgängig („end-to-end) und ermöglichen so die
Kollaboration mit Zulieferern, Partnern und Kunden
 Sie industrialisieren (standardisieren und automatisieren) Geschäftsprozesse
 Sie sind agil und damit in der Lage, jederzeit Strategie-Änderungen flexibel
und schnell umzusetzen
 Und schließlich entscheiden sie sich für Performance Management, getreu
dem Leitspruch „Man kann nur managen, was man auch messen kann“





Seite 103
Standardisierung und Agilität
 „Operational excellence“ also Industrialisierung (Automation und
Standardisierung) von Geschäftsprozessen bleibt wichtig
- beschleunigt und optimiert Geschäftsprozesse
- erhöht den Durchsatz
- verbessert die Qualität
 In Zeiten der Krise und des Wandels wird der Lebenszyklus von Strategien und
Prozessen immer kürzer  Agilität wird zusätzlich immer wichtiger
- Fähigkeit zur kontinuierlichen und schnellen Innovation und zur Anpassung
der eigenen Geschäftsmodelle und Prozesse an die Markt- und
Kundendynamik
Wolfgang Martin, 2009
 Standardisierung und Agilität erfordern zum Teil widersprüchliche Ansätze
 IT Architekturen und -Konzepte müssen beiden Ansprüchen gerecht zu werden
Seite 104
Standardisierung ist die Basis
 Unternehmensweit abgestimmte Regeln sorgen dafür, dass die ReportingLandschaft standardisiert/harmonisiert ist und bleibt, insb.:
1. „Single Point of Truth“ über ein Enterprise Data Warehouse (EDW)
für alle Reporting-relevanten Stamm- und Bewegungsdaten
2. „Extract once, deploy many“ zur Vermeidung redundanter Datenextraktionen
Reporting Anwendungen
...
Vertrieb &
Marketing
2b. … deploy many
Supply
Chain
Einkauf
EDW
...
1. Single Point of truth
Quellsysteme
2a. Extract once
Seite 105
… aber auch Flexibilität/Agilität ist notwendig
 Eine unternehmensweit standardisierte und EDW-basierte Architektur bringt viele
Vorteile, ist aber nicht sehr flexibel!
 Rahmen schaffen zur Umsetzung flexibler Anforderungen
- Separates Umfeld mit reduzierte Entwicklungsregeln (geringere Kosten,
kürzere Entwicklungszeiten, etc.)
 aber zu standardisierten Merkmalen und Kennzahlen abgrenzen
- Möglichkeit, Daten zu ergänzen (incl. Join mit den zentralen Daten),
ohne die IT-Abteilung involvieren zu müssen
 aber Know-how gefragt, damit Datenanbindung konsistent erfolgt
- Zusatz-Tools, z. B. zur Verwendung
innovativer Visualisierungskonzepte
 aber „Tool-Zoo“ vermeiden
Quelle: http://hammacher-datentechnik.com/Beispiellsungen.html#Zweig8
Seite 106
Kompromiss zwischen Standardisierung und Flexibilität
 Die Standards sind die Basis!  Unternehmensweit abgestimmte Regeln sorgen
dafür, dass die Reporting-Landschaft standardisiert ist und bleibt
- Enterprise Data Warehouse als „Single Point of Truth“
- „Extract once, deploy many“ zur Vermeidung redundanter Datenextraktionen
- Entwicklungsrichtlinien/Namenskonventionen zur Strukturierung der Arbeit
- Liste der im Unternehmen „erlaubten“ Tools zur Vermeidung eines „Tool-Zoos“
 Rahmen zur Umsetzung flexibler Anforderungen
- Stark reduzierte Entwicklungsregeln
- Option für Datenergänzungen ohne Involvement der IT-Abteilung
- Separate Tools für spezielle Zusatzfunktionen
 Beide „Welten“ müssen durch ein Regelwerk klar abgegrenzt werden
 Hierfür ist eine IT Governance notwendig!
Seite 107
Data Mining
1.
2.
3.
4.
5.
Was ist Data Mining?
Der Knowledge Discovery in Databases (KDD) Prozess
Clusterverfahren
Entscheidungsbaumverfahren
Assoziationsanalyseverfahren
Seite 108
1. Was ist Data Mining?
Seite 109
Data Mining
 “Data Mining is a problem-solving methodology that finds a logical or
mathematical description, eventually of a complex nature, of patterns and
regularities in a set of data.” Decker und Focardi
 Ziel von Data Mining:
− Muster entdecken in großen Datenbeständen
− und mit logischen oder mathematischen Modellen zu beschreiben
Seite 110
Data Mining
„… Das Rennen ums Weiße Haus
könnte im digitalen Raum entschieden
werden …“
Seite 111
Data Mining: Beispiele für Muster
 Regionale Zusammenhänge, z. B. wenn
in großen Städten Produkte stark verkauft
werden, während diese in ländlichen
Regionen keinen Absatz finden
 Wiederkehrende zeitliche Trends, z. B.
wenn die Verkaufszahlen bestimmter
Produkte immer am Monatsende absinken
 Cross-Selling, z. B.: Wer Babywindeln kauft,
kauf auch Bier
Seite 112
Data Mining
 Data Mining sucht Muster,
− die bisher nicht bekannt waren
− die betriebswirtschaftlich relevante Zusammenhänge beschreiben
 Damit kann man Vorhersagen über zukünftige Entwicklungen treffen
und sich Wettbewerbsvorteile erarbeiten
 diese Muster-Erkennung kann für ein Unternehmen sehr wertvoll sein;
daher der Begriff „Mining“ (Bergbau, Abbau, Gewinnung) und
die Assoziation mit dem Schürfen von Gold in Datenbergen
Seite 113
Data Mining versus OLAP
 OLAP-Analysetools geben Antworten 
auf Fragen, die vom Anwender gestellt
werden (wobei der Anwender durch die
Datenwürfeln navigiert)
Data Mining Tools suchen selbständig
nach Zusammenhängen und
entwickeln automatisiert Hypothesen,
die hilfreich sein könnten
1. Frage
2. Antwort
Muster
Seite 114
Data Mining versus OLAP
 OLAP-Analysetools blicken in die
Vergangenheit  man möchte zum
Beispiel verstehen, wie sich die
Absatzzahlen der verschiedenen
Produkte in den belieferten
Regionen entwickelt haben
Vergangenheit
• Was ist passiert?
 Reporting
• Warum ist es passiert?
 Analysen
HEUTE
 Data Mining Tools blicken auch nach
vorne  man versucht Datenmuster
zu entdecken, die für Vergangenheit
und Zukunft Gültigkeit haben
Zukunft
• Was wird passieren?
 Vorhersagen
• Welche Optionen haben wir?
 Simulationen
Zeit
Seite 115
2. Der KDD Prozess
Seite 116
Data Mining und Knowledge Discovery in Databases
 “Knowledge discovery in databases is the non-trivial process of identifying valid,
novel, potentially useful, and ultimately understandable patterns in data”
Fayyad, 1996
 Diese KDD Definition besagt,
− dass es um neue (novel), bisher nicht aufgefallene Muster geht
− dass diese Muster potentiell nützlich (potentially useful)
− und verständlich (understandable) sein sollten
 Vor allem aber weist sie darauf hin, dass KDD ein Prozess ist  Betrachtet man
diesen Prozess im Detail, sieht man dass er Data Mining als Analyseschritt enthält
Seite 117
KDD-Prozess
Startpunkt: Einsatzbereich und Zielsetzung
 Selektion
 Vorverarbeitung
 Transformation
 Anwendung der Data Mining Methoden
 Interpretation und Evaluierung der
Ergebnisse
!
Wissen
Interpretation /
Evaluierung
Muster
Date Mining
(Methodenanwendung)
Transformierte
Daten
Transformation
 Data Mining ist Teil des KDD-Prozesses
(beide Begriffe werden aber oft auch
synonym verwendet)
 KDD bzw. Data Mining ist mehr als die
Anwendung von Data-Mining-Methoden
auf den DWH-Datenbestand
Vorverarbeitete
Daten
Vorverarbeitung
Zieldaten
Auswahl / Selektion
Daten
Darstellung basiert auf Fayyad
Seite 118
KDD-Prozess: Selektion
Zieldaten
Auswahl / Selektion
Daten
 Die für die zu untersuchende Thematik relevanten Daten werden in Datenquellen
selektiert und in einen Zieldatenbestand (ev. DWH) übernommen
 Mögliche Datenquellen:
− OLTP Systeme
− DWH
− Unternehmensexterne Anwendungen oder Datenbanken
 Unterscheidung: Vertikale vs. horizontale Selektion (siehe nächste Folie)
Seite 119
KDD-Prozess: Vertikale vs. horizontale Selektion
 Vertikale Selektion: Auswahl einer Teilmenge der vorhandenen Datensätze; z. B.:
Nur die Absatzzahlen der letzten 3 Jahre, auch wenn im DWH 10 Jahre vorliegen
 Horizontale Selektion: Auswahl nur solcher Merkmale bzw. Attribute, die für die
Analysen von Interesse sind; z. B.: Name der Stadt ist nicht wichtig, wenn die PLZ
vorliegt (worüber man regionale Muster erkennen kann)
Zeitraum
Monat
Dez 12
Dez 12
Dez 12
Dez 12
Nov 12
Nov 12
Nov 12
Nov 12
Nov 12
Okt 12
...
Dez 09
Dez 09
Dez 09
Dez 09
Verkaufsort- Verkaufsort- KassenPLZ
Stadt
Nummer
67433
67433
67433
67433
67433
67433
67433
67433
67433
67433
...
67433
67433
67433
67433
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
Neustadt
...
Neustadt
Neustadt
Neustadt
Neustadt
1
1
1
1
2
2
2
2
2
3
...
1
1
1
1
ArtikelNummer
Menge
4711
4712
4713
4715
4711
4712
4713
4714
4715
4711
...
4711
4712
4713
4714
200
100
20
55
300
200
30
250
55
200
...
200
100
20
500
Wert
100,00 €
150,00 €
10,00 €
60,00 €
150,00 €
300,00 €
15,00 €
150,00 €
60,00 €
100,00 €
...
100,00 €
150,00 €
10,00 €
300,00 €
Seite 120
KDD-Prozess: Vorverarbeitung
Vorverarbeitete
Daten
Vorverarbeitung
Zieldaten
 Analyse und falls nötig Verbesserung der Datenqualität der selektierten Daten
 Probleme bereiten fehlende oder fehlerhafte Daten (letztere können über Plausibilitätsprüfungen entdeckt werden)  Optionen zur Korrektur bzw. Ergänzung:
− Löschen der Datensätze
Probleme: Wichtige Informationen gehen eventuell verloren und der Abgleich
zwischen KDD-Datenbestand und Quellsystemen ist nicht mehr möglich
− Manuelle Pflege der fehlenden Informationen
Problem: Hoher Aufwand, daher Kosten-Nutzen-Abwägung notwendig
− Automatisierte Herleitung der Informationen (Mittelwert-Bildung, Ermittlung des
wahrscheinlichsten Wertes, etc.)
Problem: Gibt es einen guten Algorithmus zur Ergänzung bzw. Korrektur?Seite 121
KDD-Prozess: Vorverarbeitung
 Beim Umgang mit fehlenden und fehlerhaften Daten sollte die Frage im
Mittelpunkt stehen, was man mit den Daten erreichen will?
Beispiel:
VerkaufsortPLZ
67433
67433
67433
67433
67433
KundenAlter
17
12
77
999
83
ArtikelNummer
4711
4712
4713
4715
4711
Wert
100,00 €
150,00 €
10,00 €
300,00 €
60,00 €
 Ist vor allem wichtig, den Gesamtumsatz korrekt auszuweisen,
− müssen Datensätze mit fehlenden und fehlerhaften Daten akzeptiert werden
− und falls möglich der fehlende Umsatz-Wert ermittelt werden*
 Geht es primär um die regionale Zuordnung,
− sollte man bei fehlender PLZ versuchen, diese nachträglich zu ermitteln
(manuell oder über einen Algorithmus)
− und falls dies nicht gelingt, den Datensatz löschen
* z. B. aus dem Verkaufspreis des gleichen Artikels an einen anderen Kunden
Seite 122
KDD-Prozess: Transformation
Transformierte
Daten
Transformation
Vorverarbeitete
Daten
 Die Transformation bringt die Daten in eine als Input für das Data-Mining-System
geeignete Form; z. B.:
− Datumsangaben sowie Mengen- und Wertfelder werden in eine Form
gebracht, die a.) einheitlich für alle Quellen ist und b.) von der Data-MiningAnwendung interpretiert werden kann
− Je nach Problemstellung wird die Komplexität der Daten reduziert, indem die
Daten z. B. klassifiziert oder aggregiert werden
Beispiel:
Verkaufsort- Kunden- ArtikelPLZ
Alter Nummer
67433
17
4711
67433
12
4712
67433
14
4713
Wert
100,00 €
150,00 €
10,00 €
VerkaufsortKundenArtikelPLZ (3-stellig) Alter (Cluster) Nummer
674
Jung
4711
674
Jung
4712
674
Jung
4713
Wert
100,00 €
150,00 €
10,00 €Seite
123
KDD-Prozess: Anwendung der Data Mining Methoden
Muster
Date Mining
(Methodenanwendung)
Transformierte
Daten
 Mit Data-Mining-Methoden versucht man, bisher nicht erkannte Datenmuster
aufzudecken und zu beschreiben
 Besonders wichtig bzw. weit verbreitet:
 Clusterverfahren: Objekte werden anhand ihrer Eigenschaften in Cluster mit
identischen Eigenschaften eingeteilt
 Entscheidungsbaumverfahren: Zu vorliegenden Clustern werden neue
Objekte zugeordnet und damit klassifiziert
 Verfahren der Assoziationsanalyse: Analyse von Abhängigkeitsmustern bzw.
von Wenn-dann-Regeln , z. B.: „Wer ein Fahrrad kauft, kauft er in 30% aller
Fälle innerhalb der folgenden 4 Wochen auch noch Fahrradtaschen“
Seite 124
KDD-Prozess: Interpretation und Evaluierung der Ergebnisse
!
Wissen
Interpretation /
Evaluierung
Muster
 Die mit KDD und Data Mining ermittelten Datenmuster sind nutzlos, wenn es nicht
gelingt, sie so zu interpretieren, dass das Unternehmen davon einen Nutzen hat
 Beispiele für KDD-Nutzen bzw. Erkenntnisse:
− Zeitliche Zusammenhang zwischen einem Ereignis (z. B.: Olympische Spiele)
und dem Anstieg der Absatzzahlen gewisser Produkte (z. B.: Laufschuhe)
 Wenn das Ereignis zum nächsten Mal ansteht, kann die Produktion im
Vorfeld erhöht und die steigende Nachfrage ohne Engpässe bedient werden
− Korrelation zwischen dem Absatz zweier Produkte (z. B.: Windeln und Bier)
 durch räumliche Nähe der Produkte (im Supermarktregal) wird dieses
Kundenverhalten unterstützt und der Absatz beider Produkte erhöht
Seite 125
KDD-Prozess
 Führt der KDD-Prozess nicht zum
Erfolg, kann auf jeden Teilschritt
zurückgesprungen werden, um
− z. B. durch Anpassung von
selektierten Daten oder DataMining-Verfahren einen neuen
Versuch zu unternehmen,
Muster mit betriebswirtschaftlichem Mehrwert zu finden
 Auch wenn oft primär über die Data
Mining Methoden gesprochen wird:
Der größte Aufwand im KDDProzess entfällt auf Selektion,
Vorverarbeitung und Transformation
!
Wissen
Interpretation /
Evaluierung
Muster
Date Mining
(Methodenanwendung)
Transformierte
Daten
Transformation
Vorverarbeitete
Daten
Vorverarbeitung
Zieldaten
Auswahl / Selektion
Daten
Darstellung basiert auf Fayyad
Seite 126
Data Warehouse versus KDD
 Ein DWH, in dem schon Plausibilitätsprüfungen und Formatvereinheitlichungen
durchgeführt sind, ist eine sehr gute Datenbasis für KDD
 KDD ist aber mehr als die Anwendung von Data-Mining-Methoden auf ein DWH:
− Für KDD wird z. T. der direkter Realtime-Zugriff auf operative Daten benötigt
− Im KDD-Prozess werden Daten z. T. maßgeschneidert so transformiert, dass
sie als Input für Data-Mining-Verfahren passen (diese Transformationen
wären in einem reinen OLAP-Reporting eventuell unsinnig)
Seite 127
3. Clusterverfahren
Seite 128
Clusterverfahren
 Clusterverfahren: Objekte werden (automatisiert) in Cluster mit identischen/
ähnlichen Eigenschaften eingeteilt
 Ziel ist, dass Objekte innerhalb einer gefundenen Gruppe (Cluster, Segment)
möglichst homogen sind, also möglichst ähnliche Eigenschaften besitzen
 … während Objekte aus unterschiedlichen Clustern möglichst unähnlich sein sollen
 Clusterverfahren werden z. B. eingesetzt, um Kunden bzw. Märkte zu segmentieren
 Diese Kundensegmente können dann maßgeschneidert auf ihre Eigenschaften
(ihre Interessen, ihr Kaufverhalten) hin angesprochen und beworben werden.
Haben Sie schon einmal darüber nachgedacht, warum sie im Baumarkt nach ihrer Postleitzahl gefragt werden
… und vielleicht notiert die freundliche Verkäuferin ja auch noch ihr Geschlecht und schätzt ihr Alter …
Seite 129
Vorgehen beim Clusterverfahren
 Zur Clusterung muss man 3 Festlegungen treffen:
1. Proximitätsmaß definieren: Quantifizierung der Ähnlichkeit zwischen zwei
Objekten
2. Fusionierungsalgorithmus auswählen: Objekte basierend auf ihrer Ähnlichkeit
in Cluster einteilen
3. Clusteranzahl wählen: Festlegen, bei welcher Clusteranzahl der Algorithmen
stoppen soll
Seite 130
Proximitätsmaß: nominale Objekteigenschaften
 Summe der Anzahl der übereinstimmenden Objekteigenschaften
zur Berechnung der Ähnlichkeit
 Summe der Anzahl der nicht übereinstimmenden Objekteigenschaften
zur Ermittlung der Distanz
 Pro Merkmal gibt es nur 0 oder 1 bzw. identisch oder nicht identisch.
Beispiel:
Geschlecht Geburtsland Alter (Kategorie) PLZ
Kunde 1 männlich
Deutschland
Alt
66482
weiblich
Deutschland
Mittel
22587
Kunde 2
0
1
0
0
Ähnlichkeit Summe: 1
1
0
1
1
Distanz Summe: 3
Seite 131
Proximitätsmaß: numerische Objekteigenschaften
 Zur Distanzbestimmung werden geometrische Formeln verwendet wie z. B.
− Euklidische Distanz
𝑑 𝑋𝑖 , 𝑋𝑗 =
x (2, 2)
𝑛
� 𝑋𝑖𝑖 − 𝑋𝑗𝑗
𝑘=1
2
x
(1, 1)
x (2, 2)
− Manhattan-Distanz
𝑛
𝑑 𝑋𝑖 , 𝑋𝑗 = � 𝑋𝑖𝑖 − 𝑋𝑗𝑗
𝑘=1
Beispiel:
Anzahl Artikel
Kunde 1
5
Kunde 2
10
25
5
Distanz = 2
Umsatz [€]
300
250
2500
50
Alter
70
35
1225
35
x
(1, 1)
Euklidische Distanz: √3750 = 61,2
Manhattan Distanz: 90
Seite 132
Proximitätsmaß
 Oft müssen sowohl nominale als auch numerische Objekteigenschaften
berücksichtigt werden
 Sind einzelne Eigenschaften besonders wichtig, können bei der Ermittlung der
Gesamt-Distanz Gewichtungsfaktoren verwendet werden
 Während in den hier vorgestellten Beispielen Distanzwerte für 2 Objekte
berechnet wurden, müssen zur Clusterbildung die Abstandswerte aller Objekte
des Datenbestands ermittelt werden
Seite 133
Agglomerative versus divisive Methoden
1
1, 2
2
3
1, 2, 3, 4, 5
3, 4
4
3, 4, 5
5
Agglomerative
Methode
Divisive
Methoden


0
1
2
3
4
4
3
2
1
0
Agglomerativ (Bottom-up): Jedes Objekt wird als Cluster interpretiert; dann werden die Abstände der
Cluster berechnet und jeweils die beiden Cluster mit dem geringsten Abstand zusammengeführt
Divisiv (Top-down): Alle Objekte befinden sich in einem einzigen Cluster; dann werden schrittweise
kleinere, möglichst homogene Cluster gebildet
Seite 134
Quelle: Chamoni, P.; Gluchowski, P.: Analytische Informationssysteme, Data Warehouse, On-Line Analytical Processing, Data Mining. Springer Verlag, 1999
3 Optionen zur Distanz-Ermittlung bei Clustern
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Complete Linkage:
größte Abstand zwischen zwei Objekten
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Single Linkage:
geringste Abstand zwischen zwei Objekten
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Average Linkage:
Abstand zwischen den Cluster-Schwerpunkten
x
Schwerpunkt des Clusters
x Einzelne Objekte
Zur Ermittlung der Distanz zwischen den beiden Punkten bzw. Schwerpunkten können dann wieder
geometrischen Formeln wie der Euklidischen Distanz oder der Manhattan Distanz verwendet werden
Seite 135
Clusteranzahl
 Festlegung bei wie vielen Clustern der Fusionierungsalgorithmus stoppen soll?
 Einerseits: Je größer die Anzahl der Cluster ist, desto höher kann man die
Anforderungen an die Homogenität eines einzelnen Clusters stellen
 Andererseits: Eine möglichst geringe Anzahl von Clustern fördert die
Handhabbarkeit und Aussagefähigkeit der Analyseergebnisse
Beispiel: Werden 3 Kundensegmente identifiziert, kann man diese individuell
anzusprechen/bewerben; je mehr Clustern es werden, desto aufwendiger wird es
Seite 136
Beispiel: Cluster für Objekte mit 2 Eigenschaften x, y
Agglomeratives Clusterverfahren / Euklidische Distanz / Average-Linkage / Stopp: 3 Cluster
?
y
1) Ausgangspunkt:
5 Objekte/Cluster
x
Seite 137
Beispiel: Cluster für Objekte mit 2 Eigenschaften x, y
Agglomeratives Clusterverfahren / Euklidische Distanz / Average-Linkage / Stopp: 3 Cluster
y
?
y
1) Ausgangspunkt:
5 Objekte/Cluster
x
2) Neues Cluster
x
Seite 138
Beispiel: Cluster für Objekte mit 2 Eigenschaften x, y
Agglomeratives Clusterverfahren / Euklidische Distanz / Average-Linkage / Stopp: 3 Cluster
y
y
1) Ausgangspunkt:
5 Objekte/Cluster
2) Neues Cluster
3) Neue Abstände
zum Schwerpunkt
x
x
y
y
y
y
5) Neue Abstände zum
Schwerpunkt
4) Neues Cluster
x
x
x
6) Stopp bei 3 Cluster
x
Seite 139
?
Beispiel für Kundensegmentierungs-Cluster
 Kunden mit zwei Objekteigenschaften: Anzahl (gekaufter) Artikel, Umsatz in €
 Einsatz des agglomerativen Clusterverfahrens
 Einsatz der Abstandsermittlung mittels Manhattan-Distanz und Single-Linkage
Kunden:
Kunde Anzahl Artikel Umsatzwert in €
K1
5
20
K2
10
15
K3
15
25
K4
10
30
K5
15
5
K6
15
35
K7
10
10
K8
25
30
K9
35
35
K10
30
30
mit Abstandsmatrix:
Kunde
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
K1
-
K2
K3
K4
K5
K6
K7
K8
K9
K10
-
-
-
-
-
-
-
-
-
Seite 140
Beispiel für Kundensegmentierungs-Cluster
 Kunden mit zwei Objekteigenschaften: Anzahl (gekaufter) Artikel, Umsatz in €
 Einsatz des agglomerativen Clusterverfahrens
 Einsatz der Abstandsermittlung mittels Manhattan-Distanz und Single-Linkage
Diagramm:
mit Abstandsmatrix:
Kunde
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
K1
-
K2 K3 K4
10 15 15
- 15 15
- 10
-
K5
25
15
20
30
-
K6
25
25
10
10
30
-
K7
15
5
20
20
10
30
-
K8
30
30
15
15
35
15
35
-
K9
45
45
30
30
50
20
50
15
-
K10
35
35
20
20
40
20
40
5
10
-
Seite 141
Beispiel für Kundensegmentierungs-Cluster
 Ausgangspunkt: 10 Objekte ( also 10 Cluster)
 Schritt 1: Kleinster Abstand zwischen Kunde 2 und 7 und Kunde 8 und 10
 noch 8 Cluster verbleiben
Diagramm:
mit Abstandsmatrix:
Kunde
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
K1
-
K2 K3 K4
10 15 15
- 15 15
- 10
-
K5
25
15
20
30
-
K6
25
25
10
10
30
-
K7
15
5
20
20
10
30
-
K8
30
30
15
15
35
15
35
-
K9
45
45
30
30
50
20
50
15
-
K10
35
35
20
20
40
20
40
5
10
-
Seite 142
Beispiel für Kundensegmentierungs-Cluster
 Ausgangspunkt: 8 Cluster
 Schritt 2: Kleinster Abstand (single linkage) zwischen einerseits Kunde 1 und
andererseits Kunde 2 vom Cluster aus K2 und K7, etc.
 Stopp bei 3 Clustern
Diagramm:
mit Abstandsmatrix:
Kunde
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
K1
-
K2 K3 K4
10 15 15
- 15 15
- 10
-
K5
25
15
20
30
-
K6
25
25
10
10
30
-
K7
15
5
20
20
10
30
-
K8
30
30
15
15
35
15
35
-
K9
45
45
30
30
50
20
50
15
-
K10
35
35
20
20
40
20
40
5
10
-
Seite 143
Anwendungsgebiete für Clusterverfahren
 Segmentierung von Kunden oder Märkten:
Kunden können dann maßgeschneidert auf ihre Interessen
und ihr Kaufverhalten hin angesprochen und beworben werden
 Gesundheitswesen:
Patienten können basierend auf Eigenschaften wie Alter,
Geschlecht, Cholesterinwerte, Blutdruck usw. in Risikogruppen
für bestimmte Krankheitsbilder eingeordnet werden
 Patienten aus unterschiedlichen Clustern können dann
spezifische Vorschläge zur Krankheitsprävention unterbreitet
werden
Seite 144
4. Entscheidungsbaumverfahren
Seite 145
Entscheidungsbaumverfahren
 Entscheidungsbaumverfahren werden eingesetzt, um neue Objekte in schon
vorhandene Cluster bzw. Segmente einzuordnen
 Für diese Zuordnung werden Klassifizierungsregeln generiert, die in einer
Baumstruktur dargestellt werden können:
Beispiel:
Einordnung neuer Kunden
in die Segmente „kreditwürdig“
bzw. „nicht kreditwürdig“
Schulden
> 20.000 €
ja
nein
Einkommen
> 50.000 €
ja
Kredit kann
erteilt werden!
Kredit kann
erteilt werden!
nein
Kredit sollte
nicht erteilt werden!
 Der Verwendung eines Entscheidungsbaumes ist meist einfach und intuitiv,
komplizierter ist dagegen die Entscheidungsbaumerstellung
Seite 146
Entscheidungsbaumerstellung – Ausgangspunkt
Ausgangspunkt sind die vorhandenen
Datenbestände mit:
 unabhängigen Attributen: Eigenschaften,
die man zur Entscheidungsbaumerstellung
heranziehen kann wie z. B.
− Schulden
− Einkommen
− Alter
− Arbeitslos oder nicht
− Selbständig oder angestellt
− …
 abhängigem Attribut: die Eigenschaft,
die man später für neue Daten (neue
Kunden) vorhersagen möchte, z. B.:
− „kreditwürdig“ vs. „nicht kreditwürdig“
Kunde
Schulden Einkommen Alter . . .
Meier
25.000 €
100.000 € 60
Neumeier
80.000 €
20.000 € 55
Altmeier
10.000 €
55.000 € 70
Müller
35.000 €
40.000 € 35
Neumüller 50.000 €
150.000 € 25
Altmüller
40.000 €
30.000 € 65
Mann
50.000 €
100.000 € 40
Neumann
10.000 €
20.000 € 20
Altmann
25.000 €
45.000 € 55
Schneider
50.000 €
55.000 € 60
Gärtner
100.000 €
55.000 € 55
Schmidt
50.000 €
25.000 € 45
Fritz
50.000 €
55.000 € 35
Friedrich
30.000 €
40.000 € 19
...
kreditwürdig
ja
nein
ja
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
Kundeneigenschaften
(unabhängige Attribute)
Information, ob sich die Kunden
als kreditwürdig erwiesen haben
(abhängiges Attribut)
Seite 147
Entscheidungsbaumerstellung – Vorgehensweise
 Aufteilung des Datenbestandes:
− Trainingsmenge
zur Erstellung des
EntscheidungsbaumModells
− Validierungsmenge
zum Test des Modells
Beispiel für Entscheidungsbaum
Kunde
Schulden Einkommen Alter . . .
Meier
25.000 €
100.000 € 60
Neumeier
80.000 €
20.000 € 55
Altmeier
10.000 €
55.000 € 70
Müller
35.000 €
40.000 € 35
Neumüller 50.000 €
150.000 € 25
Altmüller
40.000 €
30.000 € 65
Mann
50.000 €
100.000 € 40
Neumann
10.000 €
20.000 € 20
Altmann
25.000 €
45.000 € 55
...
Schneider
Gärtner
Schmidt
Fritz
Friedrich
...
50.000 €
100.000 €
50.000 €
50.000 €
30.000 €
55.000 €
55.000 €
25.000 €
55.000 €
40.000 €
60
55
45
35
19
Vorhersage
Korrekt
kreditwürdig Entsch.baum oder nicht?
ja
ja
korrekt
nein
nein
korrekt
ja
ja
korrekt
ja
ja
korrekt
ja
ja
korrekt
nein
nein
korrekt
ja
ja
korrekt
ja
ja
korrekt
ja
nein
falsch
ja
nein
ja
ja
ja
ja
ja
ja
ja
ja
korrekt
falsch
korrekt
korrekt
korrekt
Information aus den Bestandsdaten
Vorhersage des Entscheidungsbaum-Modells
Prüfung ob Vorhersage korrekt ist?
Seite 148
Entscheidungsbaumerstellung – Vorgehensweise
 Gelingt es mit der Trainingsmenge
ein Entscheidungsbaum-Modell zu
erstellen,
Kunde
Schulden Einkommen Alter . . .
Meier
25.000 €
100.000 € 60
Neumeier
80.000 €
20.000 € 55
Altmeier
10.000 €
55.000 € 70
Müller
35.000 €
40.000 € 35
Neumüller 50.000 €
150.000 € 25
Altmüller
40.000 €
30.000 € 65
Mann
50.000 €
100.000 € 40
Neumann
10.000 €
20.000 € 20
Altmann
25.000 €
45.000 € 55
...
 … das auch bei den Validierungsdaten möglichst oft das korrekte
Clustern ermittelt
Schneider
Gärtner
Schmidt
Fritz
Friedrich
...
 … kann davon ausgegangen
werden, dass auch die Zuordnung
neuer Datensätze weitgehend*
korrekte Vorhersagen liefert
Theobald
Willibald
Sommer
Winter
Herbst
* eine 100% korrekte Vorhersage wird meist nicht erreicht
50.000 €
100.000 €
50.000 €
50.000 €
30.000 €
Vorhersage
Korrekt
kreditwürdig Entsch.baum oder nicht?
ja
ja
korrekt
nein
nein
korrekt
ja
ja
korrekt
ja
ja
korrekt
ja
ja
korrekt
nein
nein
korrekt
ja
ja
korrekt
ja
ja
korrekt
ja
nein
falsch
55.000 €
55.000 €
25.000 €
55.000 €
40.000 €
60
55
45
35
19
ja
nein
ja
ja
ja
ja
ja
ja
ja
ja
korrekt
falsch
korrekt
korrekt
korrekt
40.000 €
45.000 €
25.000 €
55.000 €
40.000 €
60
45
55
35
19
???
???
???
???
???
nein
ja
nein
ja
ja
???
???
???
???
???
Neue Kunden:
70.000 €
60.000 €
50.000 €
30.000 €
10.000 €
Da das Modell vor der Anwendung auf neue Daten mit Validierungsdaten überprüft wird, spricht man von überwachtem Lernen
Seite 149
Entscheidungsbaumerstellung – Vorgehensweise
Wie kommt man zu einem guten Modell?
 Man sucht die Objekteigenschaften, die am besten geeignet sind, die Daten in
Teilmengen zu splitten, die möglichst homogen sind in Bezug auf das abhängige
Attribut (z. B.: möglichst ausschließlich kreditwürdig bzw. nicht kreditwürdig)
 Zur Ermittlung der geeigneten Unterscheidungswerte werden mathematische
Algorithmen eingesetzt:
− im Beispiel könnte statt 20.000 € ja auch 10.000 € oder 30.000 € als
Schuldengrenze festgelegt werden
− oder es könnte zunächst nach dem Einkommen und erst dann nach den
Schulden gesplittet werden (auch die Reihenfolge der Splitts ist wichtig)
 Weiterhin muss man festlegen, mit welchem Grad an Homogenität man
zufrieden ist
− Reicht z. B. eine Verteilung von 80:20, bedeutet dies, dass mindestens
80% der Daten jeder Teilmenge einer Ausprägung des abhängigen
Attributes (kreditwürdig oder nicht kreditwürdig) entsprechen müssen
Seite 150
Entscheidungsbaumerstellung – Vorgehensweise
Wie kommt man zu einem guten Modell?
 Beispiel: Ziel ist eine Homogenität von mindestens 80:20
Datensätze gesamt:
Kreditwürdig:
Nicht kreditwürdig
Schulden
> 20.000 €
ja
Datensätze gesamt:
Kreditwürdig:
Nicht kreditwürdig
Einkommen
> 50.000 €
ja
Datensätze gesamt:
Kreditwürdig:
Nicht kreditwürdig
300
275
25
92%
8%
Mindestwert für
Homogenität erreicht
1000
700
300
600
325
275
54%
46%
nein
Datensätze gesamt:
Kreditwürdig:
Nicht kreditwürdig
400
375
25
94%
6%
Mindestwert für
Homogenität erreicht
Mindestwert für
Homogenität nicht erreicht
nein
Datensätze gesamt:
Kreditwürdig:
Nicht kreditwürdig
300
50
250
17%
83%
Mindestwert für
Homogenität erreicht
Seite 151
Anwendungsgebiete für Entscheidungsbaumverfahren
 Bonitätsprüfung von Neukunden einer Bank (siehe vorne)
 Betrugserkennung bzw. -vorbeugung
bei Versicherungen
Seite 152
Übung 1 zum Entscheidungsbaum-Verfahren
?
 Nehmen wir an, dass der gesamte Datenbestand nur aus 14 Datensätzen besteht
 Was wäre dann das bessere Start-Splitt-Kriterium:
− Schulden < 20.000 € oder
− Einkommen > 50.000 €
Kunde
Schulden
Meier
25.000 €
Neumeier
80.000 €
Altmeier
10.000 €
Müller
35.000 €
Neumüller 50.000 €
Altmüller
40.000 €
Mann
50.000 €
Neumann
10.000 €
Altmann
25.000 €
Schneider
50.000 €
Gärtner
100.000 €
Schmidt
50.000 €
Fritz
50.000 €
Friedrich
30.000 €
Schulden
Einkommen
< 20.000 € Einkommen
> 50.000
nein
100.000 €
ja
nein
20.000 €
nein
ja
55.000 €
ja
nein
40.000 €
nein
nein
150.000 €
ja
nein
30.000 €
nein
nein
100.000 €
ja
ja
20.000 €
nein
nein
45.000 €
nein
nein
55.000 €
ja
nein
55.000 €
ja
nein
25.000 €
nein
nein
55.000 €
ja
nein
40.000 €
nein
kreditwürdig
ja
nein
ja
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
Seite 153
Übung 1 zum Entscheidungsbaum-Verfahren
 Nehmen wir an, dass der gesamte Datenbestand nur aus 14 Datensätzen besteht
 Was wäre dann das bessere Start-Splitt-Kriterium:
− Schulden < 20.000 € oder
− Einkommen > 50.000 €
 besser, da mehr Übereinstimmungen
Kunde
Schulden
Meier
25.000 €
Neumeier
80.000 €
Altmeier
10.000 €
Müller
35.000 €
Neumüller 50.000 €
Altmüller
40.000 €
Mann
50.000 €
Neumann
10.000 €
Altmann
25.000 €
Schneider
50.000 €
Gärtner
100.000 €
Schmidt
50.000 €
Fritz
50.000 €
Friedrich
30.000 €
Schulden
Einkommen
< 20.000 € Einkommen
> 50.000
nein
100.000 €
ja
nein
20.000 €
nein
ja
55.000 €
ja
nein
40.000 €
nein
nein
150.000 €
ja
nein
30.000 €
nein
nein
100.000 €
ja
ja
20.000 €
nein
nein
45.000 €
nein
nein
55.000 €
ja
nein
55.000 €
ja
nein
25.000 €
nein
nein
55.000 €
ja
nein
40.000 €
nein
Anzahl der Übereinstimmungen: 5
kreditwürdig
ja
nein
ja
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
8
Seite 154
Übung 2 zum Entscheidungsbaum-Verfahren
?
 Nehmen wir an, dass der gesamte Datenbestand nur aus 14 Datensätzen besteht
 Was wäre dann das bessere Start-Splitt-Kriterium:
− Schulden < 20.000 € oder
− Schulden < 30.000 €
Kunde
Schulden
Meier
25.000 €
Neumeier
80.000 €
Altmeier
10.000 €
Müller
35.000 €
Neumüller 50.000 €
Altmüller
40.000 €
Mann
50.000 €
Neumann
10.000 €
Altmann
25.000 €
Schneider
50.000 €
Gärtner
100.000 €
Schmidt
50.000 €
Fritz
50.000 €
Friedrich
30.000 €
Schulden
< 20.000 €
nein
nein
ja
nein
nein
nein
nein
ja
nein
nein
nein
nein
nein
nein
Schulden
< 30.000 €
ja
nein
ja
nein
nein
nein
nein
ja
ja
nein
nein
nein
nein
ja
kreditwürdig
ja
nein
ja
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
Seite 155
Übung 2 zum Entscheidungsbaum-Verfahren
 Nehmen wir an, dass der gesamte Datenbestand nur aus 14 Datensätzen besteht
 Was wäre dann das bessere Start-Splitt-Kriterium:
− Schulden < 20.000 € oder
− Schulden < 30.000 €
 besser, da mehr Übereinstimmungen
Kunde
Schulden
Meier
25.000 €
Neumeier
80.000 €
Altmeier
10.000 €
Müller
35.000 €
Neumüller 50.000 €
Altmüller
40.000 €
Mann
50.000 €
Neumann
10.000 €
Altmann
25.000 €
Schneider
50.000 €
Gärtner
100.000 €
Schmidt
50.000 €
Fritz
50.000 €
Friedrich
30.000 €
Schulden
< 20.000 €
nein
nein
ja
nein
nein
nein
nein
ja
nein
nein
nein
nein
nein
nein
Anzahl der Übereinstimmungen: 5
Schulden
< 30.000 €
ja
nein
ja
nein
nein
nein
nein
ja
ja
nein
nein
nein
nein
ja
kreditwürdig
ja
nein
ja
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
8
Seite 156
5. Assoziationsanalyseverfahren
Seite 157
Verfahren der Assoziationsanalyse
 Ziel ist die Identifikation von Zusammenhängen, die sich als Wenn-DannAussagen beschreiben lassen, z. B.:
− Wer die DVDs Fluch der Karibik 1 und
Fluch der Karibik 2 gekauft hat,
kauft oft auch Fluch der Karibik 3
− Wer Johannisbeerlikör kauft,
kauft oft auch Sekt dazu
− Wer Windeln kauft, kauf oft auch Bier
 Diese Beispiele sind Warenkorbanalysen: Durch die Auswertung von Kassenbondaten will man herausfinden, welche Waren zusammen gekauft werden Seite 158
Verfahren der Assoziationsanalyse –
Kennzahlen zur „Stärke“ von Assoziationsregeln
 Ausgangspunkt ist eine Wenn-Dann-Aussage, z. B.
„Wenn jemand Nudeln kauft, dann kauft er auch Wein“
mit Nudeln
mit Wein
mit Wein
alle Kassenbons
alle Kassenbons
entnommen aus Gabriel,
Data Warehouse &
Data Mining, 2011
mit Nudeln
Support
Support =
Anzahl der Datensätze, die die Regel unterstützen
Anzahl aller Datensätze
Konfidenz
Konfidenz =
Anzahl der Datensätze, die diese Regel unterstützen
Anzahl aller Datensätze, die den Prämissenteil* erfüllen
* im obigen Beispiel: die Anzahl der Geschäftsvorfälle,
bei denen Nudeln gekauft werden
Seite 159
Suche nach Assoziationen
 Wegen der großen Datenbestände (z. B. Kassenbons), verwendet man bei der
Suche nach relevanten Assoziationen Algorithmen, die die Liste der möglichen
Assoziationen eingrenzen, z. B. den A-priori-Algorithmus, der 2 Phasen hat:
1. Ermittlung aller gemeinsam auftretenden Ereignisse,
deren Support-Wert über einem Minimalwert liegt
 Eliminierung von Assoziationen, die nur selten vorkommen
2. Selektion derjenigen Assoziationen aus Phase 1,
deren Konfidenz-Wert über einem Minimalwert liegt
 Eliminierung von Assoziationen, die nur selten korrekt sind, d.h. wo nur in
wenigen Fällen aus der Wenn-Aussage (Prämisse) die Dann-Aussage folgt
---------------------------------------------------------------------------------------------------------------Bei der Wahl der Minimalwerte von Support und Konfidenz ist zu beachten:
 einerseits soll die Ergebnismenge nicht zu groß und damit unübersichtlich werden
 andererseits will man keine wichtigen Assoziationen übersehen
Seite 160
Anwendungsgebiete für Assoziationsanalyseverfahren
 Warenkorbanalyse: Wenn bestimmte Artikel häufig zusammen gekauft werden,
kann man sie gezielt zusammen anbieten und damit eventuell den Umsatz
beider Artikel steigern (Crossmarketing), z. B. durch:
− Gezielte Anordnung von Waren in benachbarten Supermarktregalen
− Webshop-Werbung: „Wer dies kauft, kauft oft auch jenes …“
− Oft werden dabei auch zeitliche Zusammenhänge entdeckt, z. B.:
Personen, die eine Kamera gekauft haben, haben oft in den folgenden 6
Monaten Interesse an Zusatzobjektiven oder größere Speicherkarten
 Ursachenforschung bei Plan-Ist-Abweichungen, z. B.:
− Absatz von Streusalz korreliert mit den Winter-Außentemperaturen und der
Niederschlagsmenge (Glatteisgefahr)
− Absatz von Bier korreliert mit Sport-Großereignissen wie einer Fußball-WM
 Gesundheitsweisen, z. B. Ermittlung von sich gut ergänzender
Behandlungsmethoden
 Systematische technische Fehler, z. B. Telekommunikation-Fehlroutings
 Kreditkartenmissbrauch (fraud detection)
Aus bestimmten zeitlichen Verhaltensmustern (z. B. kleine Testabbuchungen vor
Seite 161
größeren Abbuchen) kann man einen Kreditkartenmissbrauch vorhersagen
Das war‘s für heute!
Haben Sie noch Fragen zu diesen Themen?
Business Intelligence
1. Data Warehouse und BI
2. BI Architektur
3. OLAP
4. Close the loop
5. Typische BI Fragestellungen
6. Herausforderungen in BI Projekten
7. IT Trends und BI
8. Standardisierte vs. agile BI
Data Mining
1. Was ist Data Mining?
2. Der Knowledge Discovery in
Databases (KDD) Prozess
3. Clusterverfahren
4. Entscheidungsbaumverfahren
5. Assoziationsanalyseverfahren
Seite 162

Zugehörige Unterlagen

Scientific Data Management und Analyse

Business Intelligence Gastvortrag von Dr. Stefan Paul an der FH

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können