Informationsmanagement und Data Mining

Werbung
Institut für Wirtschaftsinformatik
Department Wirtschaftswissenschaften
Universität Hamburg
Prof. Dr. Stefan Voß
Informationsmanagement
und
Data Mining
Stefan
f Lessmann
Dr. Torsten Reiners
Sitzung:
1.2
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
01.11.07
08.11.07
15.11.07
22.11.07
29.11.07
06.12.07
13.12.07
Veranstaltungsablauf
INFOMAN
20.12.07
Vergleich / Bewertung von
(Klassifikations-)Modellen
INFOMAN
10 01 08
10.01.08
Datenvorverarbeitung
INFOMAN
17.01.08 Support Vektor Maschinen
Analytisches Customer
24.01.08
Relationship Management
Data Mining
Definition, Motivation,
Definition
Motivation
Einordnung, Ziele,
Modelle, Anwendungen
31.01.08
07.02.08
Fallbeispiel: Klassifikation
14.02.08
mit Entscheidungsbäumen
Beschreibendes
Data Mining
(insb. Segmentierung &
Assoziationsanalysen)
Zusammenfassung und
Wiederholung
Abschlussklausur
1
Sitzung:
1.3
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Was machen wir diese Woche?
„ Übungsaufgabe
„ Clustering (Hierarchisches Vorgehen)
„ Clustering (Partitionierendes Vorgehen)
„ Einkaufskorbanalyse
Sitzung:
1.4
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Tabelle mit Bankkunden
„ Beworben für einen Kredit
„ Klassifizierung mittels
Entscheidungsbaums
„ Anhand des Information
Gain bestimmen, welches
Attribut (Job ) oder
eigenes Haus als ersten
Entscheidungsknoten eigenen
Übungsaufgabe
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Job ?
Nein
Nein
Ja
Ja
Nein
Nein
Nein
Ja
Nein
Nein
Nein
Nein
Ja
Ja
Nein
Eigenes Haus ?
Nein
Nein
Nein
Ja
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Ja
Nein
Nein
Nein
Alter
Jung
Jung
Jung
Jung
Jung
Mittel
Mittel
Mittel
Mittel
Mittel
Alt
Alt
Alt
Alt
Alt
Kredit bewilligt?
Nein
Nein
Ja
Ja
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Nein
2
Sitzung:
1.5
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Übungsaufgabe
„ Lösung
‡ Bestimmung der Entropie
c
entropy ( D ) = −∑ P (c j ) log 2 P (c j )
j =1
entropy ( D) = −
9
9 6
6
log 2 − log 2
= 0.971
15
15 15
15
‡ Berechnung der Entropien
nach der Unterteilung
entropy A ( D ) = −∑
j =1
entropy Haus
( D) =
H
entropy Job ( D ) =
Dj
D
entropy ( D j )
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Job ?
Nein
Nein
Ja
Ja
Nein
Nein
Nein
Ja
Nein
Nein
Nein
Nein
Ja
Ja
Nein
Eigenes Haus ?
Nein
Nein
Nein
Ja
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Ja
Nein
Nein
Nein
Alter
Jung
Jung
Jung
Jung
g
Jung
Mittel
Mittel
Mittel
Mittel
Mittel
Alt
Alt
Alt
Alt
Alt
Kredit bewilligt?
Nein
Nein
Ja
Ja
Nein
Nein
Nein
Ja
Ja
Ja
Ja
Ja
Ja
Ja
Nein
6
9
3
3 6
6
( − log 2 1) + ( − log 2 − log 2 ) = 0 + 0,551 = 0,551
15
15 9
9 9
9
10
4
4
6
6
5
( − log 2
− log 2 ) + ( − log 2 1) = 0,647 + 0 = 0,647
15 10
10 10
10 15
‡ Information Gain
gain( D, A) = entropy( D) − entropy A ( D)
gain ( D, Haus ) = 0,971 − 0,551 = 0,42
gain( D, Job) = 0,971 − 0,647 = 0,324
Sitzung:
1.6
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Was machen wir diese Woche?
„ Übungsaufgabe
„ Clustering (Hierarchisches Vorgehen)
„ Clustering (Partitionierendes Vorgehen)
„ Einkaufskorbanalyse
3
Sitzung:
1.7
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Clustering
Clustering
exklusiv
nicht exklusiv
extrinsisch
hierarchisch
agglomerativ
intrinsisch
Partitionierung
teilend
seriell
polythetic
monothetic
Sitzung:
1.8
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
simultan
Dendrogramm
„ Die Ähnlichkeit zwischen zwei Objekten in einem
Dendrogramm wird durch die Höhe des nächsten
gemeinsamen internen Knoten repräsentiert
Terminal Branch
Anzahl Dendrogramme= (2n -3)!/[(2(n -2)) (n -2)!]
Root
Internal Branch
#Blätter
2
3
4
5
...
10
Internal Node
Leaf
AUSTRALIA
St. Helena &
Dependencies
ANGUILLA
South Georgia &
South Sandwich
Islands
U.K.
Serbia &
Montenegro
(Yugoslavia)
#Dendrogramme
1
3
15
105
…
34,459,425
FRANCE
NIGER
INDIA
IRELAND
BRAZIL
4
Sitzung:
1.9
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Hierarchisches Clustering: Beispiel
„ Aus dem Dendrogramm können verschiedene
„Informationen“ abgelesen werden
‡ Anzahl der Cluster durch klar abgegrenzte Teilbäume
‡ Ausreißer (Outlier) in isolierten Teilbäumen
Outlier
Sitzung:
1.10
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Was machen wir diese Woche?
„ Übungsaufgabe
„ Clustering (Hierarchisches Vorgehen)
„ Clustering (Partitionierendes Vorgehen)
„ Einkaufskorbanalyse
5
Sitzung:
1.11
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Partitionierendes Clustering
„ Zuordnung der Daten zu je einem der k nicht überlappenden Cluster
„ Anzahl k der Cluster wird durch den Anwender vorgegeben
„ Bewertung der Lösung und ggf. Verbesserung
‡ mittlerer quadratischer Fehler
Sitzung:
1.12
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
k-Means
1. Festlegung von der Anzahl k der Cluster
2. Initialisierung der Clustermittelpunkt (zufällig)
3. Zuordnung der Daten zu dem jeweils nächsten Mittelpunkt
4. Unter Annahme einer korrekten Zuordnung werden die
Mittelpunkte neu bestimmt
5 Wenn eine erneute Zuordnung zum gleichen Ergebnis führt,
5.
führt
dann Abbruch, ansonsten weiter in Schritt 3.
6
Sitzung:
1.13
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
K-Means, Schritt 1
Distanzmetrik: Euklidisch
5
4
k1
3
k2
2
1
k3
0
0
1
2
3
Sitzung:
1.14
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
4
5
K-Means, Schritt 2
Distanzmetrik: Euklidisch
5
4
k1
3
k2
2
1
k3
0
0
1
2
3
4
5
7
Sitzung:
1.15
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
K-Means, Schritt 3
Distanzmetrik: Euklidisch
5
4
k1
3
2
k3
k2
1
0
0
1
2
Sitzung:
1.16
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
3
4
5
K-Means, Schritt 4
Distanzmetrik: Euklidisch
5
4
k1
3
2
k3
k2
1
0
0
1
2
3
4
5
8
Sitzung:
1.17
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
K-Means, Schritt 5
Distanzmetrik: Euklidisch
k1
k2
Sitzung:
1.18
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
k3
Vor- und Nachteile von K-Means
„ Vorteile
‡ Relativ
effizient: O(tkn), mit n = # Objekte, k = #
Cluster, und t = # Iterationen.
Cluster
Iterationen I.d.R.,
I d R k, t << n.
‡ Terminiert in einem lokalen Optimum. Das globale
Optimum kann durch Hypridisierung mit anderen
Verfahren gefunden werden.
„ Nachteile
‡ Kann nur angewendet werden, wenn der Mittelwert
bestimmbar ist
ist. Was ist bei ordinalen Daten?
‡ k muss vorher spezifiziert werden
‡ Probleme mit Rauschen und Ausreißern
‡ Findet keine Cluster mit non-convex Formen
9
Sitzung:
1.19
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
K-Medoids Verfahren
„ Nutzung von repräsentativen Objekten (Medoids)
„ Medoid ist jenes Objekt in einem Cluster, dessen
d h h ittli h Unterschiedlichkeit
durchschnittliche
U t
hi dli hk it (dissimilarity)
(di i il it ) zu allen
ll
anderen Objekten minimal ist.
„ PAM (Partitioning Around Medoids, 1987)
‡ Ausgehend von einer bestehenden initialen Lösung werden pro Schitt
die Medoiden durch andere Nicht-Medoiden ausgetauscht, wenn das
Ergebnis insgesamt besser wird
‡
PAM works effectively for small data sets, but does not scale well for
large data sets
Sitzung:
1.20
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
k
nk
i =0
j
c = ∑∑ ( xi − x kj )
c=20
c=22
10
Sitzung:
1.21
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Maximum Likelihood Clustering
„ Bisherige Verfahren basieren auf der Euklidischen Distanz
„ Notwendigkeit, die Kovarianzmatrix der Cluster zu
berücksichtigen
„ Maximum Likelihood zur Schätzung vom Mittelwert μi und
der Kovarianzmatrix Σi für die Cluster i=1,…g.
‡ μi und Σi sind ausreichend zur Spezifikation der
Normalverteilung
multivariaten
‡ Cluster können als Stichprobe aus dieser gesehen werden, wobei
die Dichtefunktion und θi = (μi , Σi ) darstellt
‡ ωi ist die Wahrscheinlichkeit, Cluster i auszuwählen
f
¾ Dichtefunktion der Mixture Likelihood ist:
g
f M ( z ) = ∑ ωi f ( z , θ i )
mit
0 ≤ ω ≤1
∧
g
∑ω
i =1
i =1
i
=1
Sitzung:
1.22
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Für die Likelihood ergibt sind:
n
n
⎡g
⎤
L ( Z , θ ) = ∏ f M ( j ) = ∏ ⎢ ∑ ωi f ( z i , θ i ) ⎥
j =1
j =1 ⎣ i =1
⎦
„ Insgesamt:
g
min W = ∑ Wi
i =1
ni
Wi = ∑ ( zij − zi )( zij − zi )T
j =1
‡ homogene Cluster
„ Homogene Cluster-Struktur nicht gegeben
g
min W = ∑ ni log
i =1
Wi
ni
11
Sitzung:
1.23
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
EM-Algorithmus
• Initialisiere k Cluster mit Mittelpunkten
• Abwechselnde Duchführung der beiden Schritte
1. Schätzen:
S hät
G äß einer
Gemäß
i
W h h i li hk it
Wahrscheinlichkeitsverteilung
t il
Objekte zu den Clustern hinzufügen
2. Maximierung: Schätzen der Modellparameter
(Mittelwert, Kovarianzmatrix)
„ Schritte wiederholen, bis die Änderungen unter einem Schwellwert liegt
„
Sitzung:
1.24
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
12
Sitzung:
1.25
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Iteration 1: Zufällige Zuordnung der Clusterzentren
Sitzung:
1.26
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Iteration 2
Iteration 5
13
Sitzung:
1.27
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Iteration 25
Sitzung:
1.28
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Seed-Clustering
1. Ausgehend von einer Startlösung bzw. aktuellen Lösung
Mittelpunkte und Metriken der Cluster abschätzen
2 Objekte zu den Clustern hinzufügen,
2.
hinzufügen bis minimale Größe
erreicht wurde (unter Annahme der Metrik). Dies sind
Seeds für die Cluster
3. Neuberechnung der Mittelpunkte und Metriken (Walking)
4. Wiederholung bei 3, sofern kein Schwellenwert
unterschritten wird
5. „Wachsen“ der Seeds zu vollständigen Clustern mit einer
mindestgröße H.
6. Walking der Cluster
7. Solange kein Abbruchkriterium erreicht, weiter bei 1
14
Sitzung:
1.29
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Sitzung:
1.30
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Seed Clustering: Algorithmus
Wachsen und Reparieren
15
Sitzung:
1.31
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Nearest Neighbor Clustering
‡ Datenstrom wird betrachtet
‡ Daten sind nicht gegeben
gegeben, sondern werden kontinuierlich hinzugefügt
‡ Zuordnung zu bestehenden Clustern
‡ Threshold t bestimmt, ob Daten zu einem Cluster gehören oder nicht
‡ Threshold ist schwer zu bestimmen
‡ Algorithmus/Ergebnis hängt stark von der Reihenfolge ab
Sitzung:
1.32
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Bestimmung der Anzahl der Cluster
„ Generell ein schwieriges Problem
„ Folgendes Beispiel zeigt eine Möglichkeit
f = 873.0
f = 173.1
f = 133.6
16
Sitzung:
1.33
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ knee- oder elbow-finding
„ bei k=2 findet ein abrupter Knick statt und assoziiert insgesamt zwei
Cluster im Datensatz
1.00E+03
Zielfunktio
onswert
9.00E+02
8.00E+02
7.00E+02
6.00E+02
5.00E+02
4.00E+02
3.00E+02
2.00E+02
1.00E+02
0.00E+00
1
Sitzung:
1.34
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
2
3
k
4
5
6
Was machen wir diese Woche?
„ Übungsaufgabe
„ Clustering (Hierarchisches Vorgehen)
„ Clustering (Partitionierendes Vorgehen)
„ Einkaufskorbanalyse
17
Sitzung:
1.35
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Einkaufskorbanalayse
„ engl.: Market Basket Analysis
„ Verstehen von Kundenverhalten
„ Einkaufswagen
Ei k f
beinhaltet
b i h lt t mehrere
h
Produkte
P d kt
‡ Obst, Milch, Wein, Limo, ….
„ Fragestellungen:
‡ Wer Limo kauft, kauft auch Bananen? Abhängig von der Marke?
‡ Welche Produkte waren erwartet?
‡ Wie hängt der Inhalt vom Kunden (demographische Merkmale) ab?
‡ …
Sitzung:
1.36
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Aus der Analyse können Maßnahmen abgeleitet werden:
‡ Schaltung von Werbung
‡ Positionierung von Waren
‡ Zusammenhänge von Produkten
‡ Reduzierung von Produkten
‡ Verteilung von Gutscheinen
„ Verknüpfung mit Kundenkarten erhöht den Wert der Daten
„ Ziel der Analyse
‡ Ableitung von Assoziationsregeln (Association
rules)
‡ Produktrelationen
18
Sitzung:
1.37
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Ursprünglich aus Verkäufen stammend kann dieses auch auf
andere Bereiche angewendet werden
‡ Kreditkarteneinkäufe
‡ Produktselektion bei Telekommunikationsanbieter zur Bildung von
sogenannten Bundles
‡ Analyse der in Anspruch genommenen Bankdienstleistungen und
damit verbundene Angebote
‡ Mißbrauchserkennung von Versicherung durch Analyse von
Schadensmeldungen
‡ Patientendatenanalyse.
P ti t d t
l
V
Vergangenheitswerte
h it
t kö
können zu erwartende
t d
Probleme enthalten
„ Gefahr von falschen Assoziationsregeln, die sich aus
unvollständigen Daten und/oder Ausreißern ergeben
Sitzung:
1.38
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Aufbau der Daten
„ Drei abzugrenzende Datensätze (inkl. der Attribute)
‡ Kunden
‡ Einkäufe bzw
bzw. Bestellungen
‡ Produkt
„ Beobachtung des zeitlichen Verlaufs nur bei Kunden-ID
„ Kombination von Produkten zur Erkennung von Mustern
‡ Kunde kauft regelmäßig – über mehrere Einkäufe verteilte - Mehl,
Backpulver, Zucker, …
‡ Es handelt sich wahrscheinlich um jemand,
jemand der selber backt
‡ Mit höherer Wahrscheinlichkeit nicht in der Zielgruppe von
Fertigbackmischungen
„ Einfache Auswertung notwendig und sinnvoll
‡ Welcher Kundenanteil kauft ein bestimmtes Produkt
‡ Durchschnittliche Anzahl an Produkten pro Einkauf
19
Sitzung:
1.39
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Einfluss Marketing
„ Betrachtung auf Einkaufsebene
‡ Anzahl der Kunden gestiegen oder nur Aufstockung.
‡ Auswirkung
g auf andere Produkte
‡ Variation in der Bestellmenge
„ Clustering-Techniken zur Segmentierung der Daten
‡ Transformation der Daten hinsichtlich Aufträge (z.B. Aufteilung nach
Bestellungen und der gekauften Produkte)
‡ Clustering auf Kategorie-Ebene statt Produkt auf Grund der Größe
‡ Einschränkung bzgl. bestimmter Fragestellungen
Sitzung:
1.40
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
SubSampling
„ Assoziationsregeln können in drei Gruppen unterteilt werden:
‡ Actionable Rules: Die Regel ist einfach nachvollziehbar und umsetzbar
Wer Barbies kauft, kauft zu 60% auch einen von drei Schokoriegeln (Walmart)
‡ Trivial Rules: Regeln, die ohnehin bekannt sind. Meist sind diese
Regeln Ergebnis von vorgelagerten Marketing-Kampagnen
Wer Farbe kauft, kauf auch Pinsel. Oder Kohle und Anzünder
ABER: Abweichung kann auf Probleme hinweisen (Datenqualität,
Fehler in Prozessen).
‡ Inexplicable Rules: Regel ist nicht nachvollziehbar und nicht
umsetzbar.
Bei der Eröffnung eines Baumarkts werden Toilletenbürsten am meisten verkauft
20
Sitzung:
1.41
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Bier und Windeln
„ Ergebnis Ende der 80er bei der Analyse von Verkaufsdaten
„ Zusammenhang von Windeln und Bier wird aufgedeckt
‡ Reduzierung
R d i
der
d Wege
W
bei
b i Sportübertragungen
S tüb t
‡ Familienväter kaufen Bedarf fürs Wochenende ein
„ Auswirkung
‡ Bier und Windeln direkt zusammen positionieren
‡ Bier und Windeln auf gegenüberliegenden Seiten positionieren
‡ Teure Windeln in der Nähe vom Bier
„ Wirkliche
Wi kli h Reihenfolge
R ih f l der
d Geschichte:
G hi ht
‡ Der Zusammenhang war vorher bekannt, Verkaufsleiter hat es auf
einer Messe „erwähnt“
‡ Danach haben Analysten den Zusammenhang auch gefunden
„ Fazit: Testen von Hypothesen kann überzeugend sein und
zur Umsetzung von Assoziationsregeln führen.
Sitzung:
1.42
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Kunde
Beispiel
Artikel
1
4
1
1
1
2
1
2
1
1
0
1
1
1
0
0
2
1
0
3
1
1
0
0
1
2
2
3
4
5
„ Einfache Muster lassen sich bei unmittelbarer Gegenüberstellung ablesen
„ Wichtig ist die Güte der Assoziationsregel
‡ 2 von 5 Fälle haben Orangensaft und Soda (40%)
‡ Wenn Soda, dann auch Orangensaft (67%)
‡ Wenn Orangensaft, dann auch Soda (50%)
„ Erweiterung: n Artikel in Relation zu anderen Artikel(gruppen) setzen
21
Sitzung:
1.43
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Assoziationsregeln aufbauen
1. Bestimung der richtigen Artikelmenge
und deren Detaillierung
vs.
2. Wahrscheinlichkeiten
der Kombinationen bestimmen
Belag
%
p1
3 Regeln ableiten:
3.
p2
p3
Wenn Pilze, dann auch Salami
p4
…
Sitzung:
1.44
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Auswahl der Artikel und deren Detaillierung
„ Anstelle der einzelnen Artikel Gruppen bilden
‡ Pizza statt Salamipizza, Käsepizza, …
‡ Milch statt Unterteilung in unterschiedliche Typen wie 1.5%, 3%, …
„ dynamische Gruppenbildung (Massenartikel vs. Ladenhüter)
„ Nutzung von virtuellen Produkten zur Aggregation
‡
‡
möglichst nur, wenn diese zu einer „actionable rule“ führen können
Zusammenhänge können verfälscht werden
•
•
Wenn Cola und Diätprodukt -> Cola Light
Reguläre Cola und anderes Light-Produkt werden zu Cola Light
•
•
Wenn Cola und Diätprodukt -> Bretzeln
Regeln können echte Zusammenhänge „ausblenden
„ausblenden“
„ Bei gesonderten Fragestellung den Detaillierungsgrad erhöhen
‡ Bestimmung des Sortiments an Tiefkühlpizzen bedarf eine Betrachtung der einzelnen
Variationen
22
Sitzung:
1.45
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„ Verwendung von Hierarchien bzw.
Taxonomien
Tiefkühlessen
‡ Generalisierung vs. Spezialisierung
‡ Ausgehend
A
h d von Tiefkühlprodukte
Ti fkühl d kt kann
k
„ Welche Taxonomie/Hierarchie ist richtig?
Wichtigkeit (Marke vs.
vs Geschmacksrichtung)
„ Komplexität kann durch die Anzahl
explodieren !!!
Nachtisch
Eis
Gemüse
Früchte
Erbsen
Vanille
Fertiggericht
Detaillierung
unterschieden werden in
• Nachtisch, unterteilt in z.B. Speiseeis,
Früchte, …
• Gemüse
• Fertiggerichte
‡ Marken, Geschmack, Farbe, …
Sorbet
Spinat
Schoko
Gemischt
Erdbeer
…
Marke
Sitzung:
1.46
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Größe
Gewicht
Datenqualität
„ Datenqualität ist i.d.R. nicht sehr hoch
„ Daten werden im operativen Betrieb gewonnen
‡ Ausrichtung
g nicht in der Analyse
y
‡ Fehleranfällig
‡ Inkompatibilität durch verschiedene (IT)-Systeme
„ Anonymität
‡ Kundendaten sind nicht immer gegeben
‡ Ohne Zuordnung zur einer Identität (Kundenkarte, EC-Karte) können nur
Informationen wie Datum, Zeit, Kasse, Einkauf, besondere Umstände wie
Gutscheine gesammelt werden
‡ Eine Relation zwischen zwei anonymen Vorgängen kann i.d.R. nicht
hergestellt werden
23
Sitzung:
1.47
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Bewertung von Regeln
„ Konfidenz (confidence) besagt, wie wahrscheinlich es ist, dass A eintritt
wenn B auftritt (B -> A)
‡ 1 bzw. 100% bedeutet, dass A immer mit B auftritt
‡ C = Support(Tupel mit allen Produkten) / Support(Produkte der linken Seite)
„ Unterstützung (support) gibt #(Tupel der Produkte) / (Produkte gesamt)
Produkt(e)
Support
Brot
0,80
Butter
0,60
Milch
0,40
Bier
0,40
„ Konfidenz (Brot->Butter)
Support(Brot, Butter) /
Support (Brot) =.75
„ Konfidenz (Butter->Brot)
Support(Butter, Brot) /
Support (Butter) =1.0
Brot, Butter 0,60
Sitzung:
1.48
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Lift
„ Reichen Support und Konfidenz aus?
„ Lift besagt, wieviel besser eine Regel für die Vorhersage im
Vergleich zum (informierten) Raten (unter Nutzung von
Annahmen)
‡ lift = P(alle Produkte) / (P(Produkte linke Seite) *
P (Produkte rechte Seite) )
Produkt(e)
Support
Brot
0,80
Butter
0 60
0,60
Milch
0,40
Bier
0,40
Brot, Butter 0,60
‡ Regel: Brot und Butter -> Milch
‡
lift = 0,10 / (0,6 * 0,4) = 0,42
‡ >1: Besser Prognose statt Raten
‡ <1: Besser Raten als Prognose
Brot, Butter, 0,10
Milch
24
Sitzung:
1.49
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Sitzung:
1.50
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
„
„
„
„
Support für jeden Artikel
Support für jeweils zwei Artikel
Support für jeweils drei Artikel
…
Beispiel
Praktische Grenzen
Anzahl der Assoziationsregeln
⎡⎛ d ⎞ ⎛ d − k ⎞⎤
R = ∑ ⎢⎜ ⎟ × ∑ ⎜
⎟⎥
k
j
⎠⎦
⎣⎝ ⎠ ⎝
= 3 − 2 +1
d −1
d −k
k =1
j =1
d
d +1
„ Restaurant kann über 100 Artikel im Menü haben
‡ Kombinationen mit 3-Artikeln? 161,700 !
„ Supermarket hat mehr als 10,000 unterschiedliche Artikel
‡ 50 Millionen 2er Kombinationen
‡ 100 Billionen 3er Kombinationen
25
Sitzung:
1.51
Datum:
25.10.2007
Keywords: Clustering
Distanz
Hierarchisch
Partionierend
Fazit
„ Einfaches Vorgehen und Verfahren
„ Schwierigkeit liegt in der Größe/Komplexität
‡ Große
G ß T
Taxonomien
i
‡ Große Anzahl an Transaktionen
„ Betrachtung von Verkauf über Zeit
„ Abhängigkeiten zwischen Artikeln erkennen
„ Unterschiedliche Typen von Assoziationsregeln
‡ Triviale Regeln
‡ Unerklärbare Regeln
‡ Umsetzbare Regeln
26
Herunterladen