Institut für Wirtschaftsinformatik Department Wirtschaftswissenschaften Universität Hamburg Prof. Dr. Stefan Voß Informationsmanagement und Data Mining Stefan f Lessmann Dr. Torsten Reiners Sitzung: 1.2 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend 01.11.07 08.11.07 15.11.07 22.11.07 29.11.07 06.12.07 13.12.07 Veranstaltungsablauf INFOMAN 20.12.07 Vergleich / Bewertung von (Klassifikations-)Modellen INFOMAN 10 01 08 10.01.08 Datenvorverarbeitung INFOMAN 17.01.08 Support Vektor Maschinen Analytisches Customer 24.01.08 Relationship Management Data Mining Definition, Motivation, Definition Motivation Einordnung, Ziele, Modelle, Anwendungen 31.01.08 07.02.08 Fallbeispiel: Klassifikation 14.02.08 mit Entscheidungsbäumen Beschreibendes Data Mining (insb. Segmentierung & Assoziationsanalysen) Zusammenfassung und Wiederholung Abschlussklausur 1 Sitzung: 1.3 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Was machen wir diese Woche? Übungsaufgabe Clustering (Hierarchisches Vorgehen) Clustering (Partitionierendes Vorgehen) Einkaufskorbanalyse Sitzung: 1.4 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Tabelle mit Bankkunden Beworben für einen Kredit Klassifizierung mittels Entscheidungsbaums Anhand des Information Gain bestimmen, welches Attribut (Job ) oder eigenes Haus als ersten Entscheidungsknoten eigenen Übungsaufgabe Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Job ? Nein Nein Ja Ja Nein Nein Nein Ja Nein Nein Nein Nein Ja Ja Nein Eigenes Haus ? Nein Nein Nein Ja Nein Nein Nein Ja Ja Ja Ja Ja Nein Nein Nein Alter Jung Jung Jung Jung Jung Mittel Mittel Mittel Mittel Mittel Alt Alt Alt Alt Alt Kredit bewilligt? Nein Nein Ja Ja Nein Nein Nein Ja Ja Ja Ja Ja Ja Ja Nein 2 Sitzung: 1.5 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Übungsaufgabe Lösung Bestimmung der Entropie c entropy ( D ) = −∑ P (c j ) log 2 P (c j ) j =1 entropy ( D) = − 9 9 6 6 log 2 − log 2 = 0.971 15 15 15 15 Berechnung der Entropien nach der Unterteilung entropy A ( D ) = −∑ j =1 entropy Haus ( D) = H entropy Job ( D ) = Dj D entropy ( D j ) Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Job ? Nein Nein Ja Ja Nein Nein Nein Ja Nein Nein Nein Nein Ja Ja Nein Eigenes Haus ? Nein Nein Nein Ja Nein Nein Nein Ja Ja Ja Ja Ja Nein Nein Nein Alter Jung Jung Jung Jung g Jung Mittel Mittel Mittel Mittel Mittel Alt Alt Alt Alt Alt Kredit bewilligt? Nein Nein Ja Ja Nein Nein Nein Ja Ja Ja Ja Ja Ja Ja Nein 6 9 3 3 6 6 ( − log 2 1) + ( − log 2 − log 2 ) = 0 + 0,551 = 0,551 15 15 9 9 9 9 10 4 4 6 6 5 ( − log 2 − log 2 ) + ( − log 2 1) = 0,647 + 0 = 0,647 15 10 10 10 10 15 Information Gain gain( D, A) = entropy( D) − entropy A ( D) gain ( D, Haus ) = 0,971 − 0,551 = 0,42 gain( D, Job) = 0,971 − 0,647 = 0,324 Sitzung: 1.6 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Was machen wir diese Woche? Übungsaufgabe Clustering (Hierarchisches Vorgehen) Clustering (Partitionierendes Vorgehen) Einkaufskorbanalyse 3 Sitzung: 1.7 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Clustering Clustering exklusiv nicht exklusiv extrinsisch hierarchisch agglomerativ intrinsisch Partitionierung teilend seriell polythetic monothetic Sitzung: 1.8 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend simultan Dendrogramm Die Ähnlichkeit zwischen zwei Objekten in einem Dendrogramm wird durch die Höhe des nächsten gemeinsamen internen Knoten repräsentiert Terminal Branch Anzahl Dendrogramme= (2n -3)!/[(2(n -2)) (n -2)!] Root Internal Branch #Blätter 2 3 4 5 ... 10 Internal Node Leaf AUSTRALIA St. Helena & Dependencies ANGUILLA South Georgia & South Sandwich Islands U.K. Serbia & Montenegro (Yugoslavia) #Dendrogramme 1 3 15 105 … 34,459,425 FRANCE NIGER INDIA IRELAND BRAZIL 4 Sitzung: 1.9 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Hierarchisches Clustering: Beispiel Aus dem Dendrogramm können verschiedene „Informationen“ abgelesen werden Anzahl der Cluster durch klar abgegrenzte Teilbäume Ausreißer (Outlier) in isolierten Teilbäumen Outlier Sitzung: 1.10 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Was machen wir diese Woche? Übungsaufgabe Clustering (Hierarchisches Vorgehen) Clustering (Partitionierendes Vorgehen) Einkaufskorbanalyse 5 Sitzung: 1.11 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Partitionierendes Clustering Zuordnung der Daten zu je einem der k nicht überlappenden Cluster Anzahl k der Cluster wird durch den Anwender vorgegeben Bewertung der Lösung und ggf. Verbesserung mittlerer quadratischer Fehler Sitzung: 1.12 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend k-Means 1. Festlegung von der Anzahl k der Cluster 2. Initialisierung der Clustermittelpunkt (zufällig) 3. Zuordnung der Daten zu dem jeweils nächsten Mittelpunkt 4. Unter Annahme einer korrekten Zuordnung werden die Mittelpunkte neu bestimmt 5 Wenn eine erneute Zuordnung zum gleichen Ergebnis führt, 5. führt dann Abbruch, ansonsten weiter in Schritt 3. 6 Sitzung: 1.13 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend K-Means, Schritt 1 Distanzmetrik: Euklidisch 5 4 k1 3 k2 2 1 k3 0 0 1 2 3 Sitzung: 1.14 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend 4 5 K-Means, Schritt 2 Distanzmetrik: Euklidisch 5 4 k1 3 k2 2 1 k3 0 0 1 2 3 4 5 7 Sitzung: 1.15 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend K-Means, Schritt 3 Distanzmetrik: Euklidisch 5 4 k1 3 2 k3 k2 1 0 0 1 2 Sitzung: 1.16 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend 3 4 5 K-Means, Schritt 4 Distanzmetrik: Euklidisch 5 4 k1 3 2 k3 k2 1 0 0 1 2 3 4 5 8 Sitzung: 1.17 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend K-Means, Schritt 5 Distanzmetrik: Euklidisch k1 k2 Sitzung: 1.18 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend k3 Vor- und Nachteile von K-Means Vorteile Relativ effizient: O(tkn), mit n = # Objekte, k = # Cluster, und t = # Iterationen. Cluster Iterationen I.d.R., I d R k, t << n. Terminiert in einem lokalen Optimum. Das globale Optimum kann durch Hypridisierung mit anderen Verfahren gefunden werden. Nachteile Kann nur angewendet werden, wenn der Mittelwert bestimmbar ist ist. Was ist bei ordinalen Daten? k muss vorher spezifiziert werden Probleme mit Rauschen und Ausreißern Findet keine Cluster mit non-convex Formen 9 Sitzung: 1.19 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend K-Medoids Verfahren Nutzung von repräsentativen Objekten (Medoids) Medoid ist jenes Objekt in einem Cluster, dessen d h h ittli h Unterschiedlichkeit durchschnittliche U t hi dli hk it (dissimilarity) (di i il it ) zu allen ll anderen Objekten minimal ist. PAM (Partitioning Around Medoids, 1987) Ausgehend von einer bestehenden initialen Lösung werden pro Schitt die Medoiden durch andere Nicht-Medoiden ausgetauscht, wenn das Ergebnis insgesamt besser wird PAM works effectively for small data sets, but does not scale well for large data sets Sitzung: 1.20 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend k nk i =0 j c = ∑∑ ( xi − x kj ) c=20 c=22 10 Sitzung: 1.21 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Maximum Likelihood Clustering Bisherige Verfahren basieren auf der Euklidischen Distanz Notwendigkeit, die Kovarianzmatrix der Cluster zu berücksichtigen Maximum Likelihood zur Schätzung vom Mittelwert μi und der Kovarianzmatrix Σi für die Cluster i=1,…g. μi und Σi sind ausreichend zur Spezifikation der Normalverteilung multivariaten Cluster können als Stichprobe aus dieser gesehen werden, wobei die Dichtefunktion und θi = (μi , Σi ) darstellt ωi ist die Wahrscheinlichkeit, Cluster i auszuwählen f ¾ Dichtefunktion der Mixture Likelihood ist: g f M ( z ) = ∑ ωi f ( z , θ i ) mit 0 ≤ ω ≤1 ∧ g ∑ω i =1 i =1 i =1 Sitzung: 1.22 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Für die Likelihood ergibt sind: n n ⎡g ⎤ L ( Z , θ ) = ∏ f M ( j ) = ∏ ⎢ ∑ ωi f ( z i , θ i ) ⎥ j =1 j =1 ⎣ i =1 ⎦ Insgesamt: g min W = ∑ Wi i =1 ni Wi = ∑ ( zij − zi )( zij − zi )T j =1 homogene Cluster Homogene Cluster-Struktur nicht gegeben g min W = ∑ ni log i =1 Wi ni 11 Sitzung: 1.23 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend EM-Algorithmus • Initialisiere k Cluster mit Mittelpunkten • Abwechselnde Duchführung der beiden Schritte 1. Schätzen: S hät G äß einer Gemäß i W h h i li hk it Wahrscheinlichkeitsverteilung t il Objekte zu den Clustern hinzufügen 2. Maximierung: Schätzen der Modellparameter (Mittelwert, Kovarianzmatrix) Schritte wiederholen, bis die Änderungen unter einem Schwellwert liegt Sitzung: 1.24 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend 12 Sitzung: 1.25 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Iteration 1: Zufällige Zuordnung der Clusterzentren Sitzung: 1.26 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Iteration 2 Iteration 5 13 Sitzung: 1.27 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Iteration 25 Sitzung: 1.28 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Seed-Clustering 1. Ausgehend von einer Startlösung bzw. aktuellen Lösung Mittelpunkte und Metriken der Cluster abschätzen 2 Objekte zu den Clustern hinzufügen, 2. hinzufügen bis minimale Größe erreicht wurde (unter Annahme der Metrik). Dies sind Seeds für die Cluster 3. Neuberechnung der Mittelpunkte und Metriken (Walking) 4. Wiederholung bei 3, sofern kein Schwellenwert unterschritten wird 5. „Wachsen“ der Seeds zu vollständigen Clustern mit einer mindestgröße H. 6. Walking der Cluster 7. Solange kein Abbruchkriterium erreicht, weiter bei 1 14 Sitzung: 1.29 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Sitzung: 1.30 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Seed Clustering: Algorithmus Wachsen und Reparieren 15 Sitzung: 1.31 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Nearest Neighbor Clustering Datenstrom wird betrachtet Daten sind nicht gegeben gegeben, sondern werden kontinuierlich hinzugefügt Zuordnung zu bestehenden Clustern Threshold t bestimmt, ob Daten zu einem Cluster gehören oder nicht Threshold ist schwer zu bestimmen Algorithmus/Ergebnis hängt stark von der Reihenfolge ab Sitzung: 1.32 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Bestimmung der Anzahl der Cluster Generell ein schwieriges Problem Folgendes Beispiel zeigt eine Möglichkeit f = 873.0 f = 173.1 f = 133.6 16 Sitzung: 1.33 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend knee- oder elbow-finding bei k=2 findet ein abrupter Knick statt und assoziiert insgesamt zwei Cluster im Datensatz 1.00E+03 Zielfunktio onswert 9.00E+02 8.00E+02 7.00E+02 6.00E+02 5.00E+02 4.00E+02 3.00E+02 2.00E+02 1.00E+02 0.00E+00 1 Sitzung: 1.34 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend 2 3 k 4 5 6 Was machen wir diese Woche? Übungsaufgabe Clustering (Hierarchisches Vorgehen) Clustering (Partitionierendes Vorgehen) Einkaufskorbanalyse 17 Sitzung: 1.35 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Einkaufskorbanalayse engl.: Market Basket Analysis Verstehen von Kundenverhalten Einkaufswagen Ei k f beinhaltet b i h lt t mehrere h Produkte P d kt Obst, Milch, Wein, Limo, …. Fragestellungen: Wer Limo kauft, kauft auch Bananen? Abhängig von der Marke? Welche Produkte waren erwartet? Wie hängt der Inhalt vom Kunden (demographische Merkmale) ab? … Sitzung: 1.36 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Aus der Analyse können Maßnahmen abgeleitet werden: Schaltung von Werbung Positionierung von Waren Zusammenhänge von Produkten Reduzierung von Produkten Verteilung von Gutscheinen Verknüpfung mit Kundenkarten erhöht den Wert der Daten Ziel der Analyse Ableitung von Assoziationsregeln (Association rules) Produktrelationen 18 Sitzung: 1.37 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Ursprünglich aus Verkäufen stammend kann dieses auch auf andere Bereiche angewendet werden Kreditkarteneinkäufe Produktselektion bei Telekommunikationsanbieter zur Bildung von sogenannten Bundles Analyse der in Anspruch genommenen Bankdienstleistungen und damit verbundene Angebote Mißbrauchserkennung von Versicherung durch Analyse von Schadensmeldungen Patientendatenanalyse. P ti t d t l V Vergangenheitswerte h it t kö können zu erwartende t d Probleme enthalten Gefahr von falschen Assoziationsregeln, die sich aus unvollständigen Daten und/oder Ausreißern ergeben Sitzung: 1.38 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Aufbau der Daten Drei abzugrenzende Datensätze (inkl. der Attribute) Kunden Einkäufe bzw bzw. Bestellungen Produkt Beobachtung des zeitlichen Verlaufs nur bei Kunden-ID Kombination von Produkten zur Erkennung von Mustern Kunde kauft regelmäßig – über mehrere Einkäufe verteilte - Mehl, Backpulver, Zucker, … Es handelt sich wahrscheinlich um jemand, jemand der selber backt Mit höherer Wahrscheinlichkeit nicht in der Zielgruppe von Fertigbackmischungen Einfache Auswertung notwendig und sinnvoll Welcher Kundenanteil kauft ein bestimmtes Produkt Durchschnittliche Anzahl an Produkten pro Einkauf 19 Sitzung: 1.39 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Einfluss Marketing Betrachtung auf Einkaufsebene Anzahl der Kunden gestiegen oder nur Aufstockung. Auswirkung g auf andere Produkte Variation in der Bestellmenge Clustering-Techniken zur Segmentierung der Daten Transformation der Daten hinsichtlich Aufträge (z.B. Aufteilung nach Bestellungen und der gekauften Produkte) Clustering auf Kategorie-Ebene statt Produkt auf Grund der Größe Einschränkung bzgl. bestimmter Fragestellungen Sitzung: 1.40 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend SubSampling Assoziationsregeln können in drei Gruppen unterteilt werden: Actionable Rules: Die Regel ist einfach nachvollziehbar und umsetzbar Wer Barbies kauft, kauft zu 60% auch einen von drei Schokoriegeln (Walmart) Trivial Rules: Regeln, die ohnehin bekannt sind. Meist sind diese Regeln Ergebnis von vorgelagerten Marketing-Kampagnen Wer Farbe kauft, kauf auch Pinsel. Oder Kohle und Anzünder ABER: Abweichung kann auf Probleme hinweisen (Datenqualität, Fehler in Prozessen). Inexplicable Rules: Regel ist nicht nachvollziehbar und nicht umsetzbar. Bei der Eröffnung eines Baumarkts werden Toilletenbürsten am meisten verkauft 20 Sitzung: 1.41 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Bier und Windeln Ergebnis Ende der 80er bei der Analyse von Verkaufsdaten Zusammenhang von Windeln und Bier wird aufgedeckt Reduzierung R d i der d Wege W bei b i Sportübertragungen S tüb t Familienväter kaufen Bedarf fürs Wochenende ein Auswirkung Bier und Windeln direkt zusammen positionieren Bier und Windeln auf gegenüberliegenden Seiten positionieren Teure Windeln in der Nähe vom Bier Wirkliche Wi kli h Reihenfolge R ih f l der d Geschichte: G hi ht Der Zusammenhang war vorher bekannt, Verkaufsleiter hat es auf einer Messe „erwähnt“ Danach haben Analysten den Zusammenhang auch gefunden Fazit: Testen von Hypothesen kann überzeugend sein und zur Umsetzung von Assoziationsregeln führen. Sitzung: 1.42 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Kunde Beispiel Artikel 1 4 1 1 1 2 1 2 1 1 0 1 1 1 0 0 2 1 0 3 1 1 0 0 1 2 2 3 4 5 Einfache Muster lassen sich bei unmittelbarer Gegenüberstellung ablesen Wichtig ist die Güte der Assoziationsregel 2 von 5 Fälle haben Orangensaft und Soda (40%) Wenn Soda, dann auch Orangensaft (67%) Wenn Orangensaft, dann auch Soda (50%) Erweiterung: n Artikel in Relation zu anderen Artikel(gruppen) setzen 21 Sitzung: 1.43 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Assoziationsregeln aufbauen 1. Bestimung der richtigen Artikelmenge und deren Detaillierung vs. 2. Wahrscheinlichkeiten der Kombinationen bestimmen Belag % p1 3 Regeln ableiten: 3. p2 p3 Wenn Pilze, dann auch Salami p4 … Sitzung: 1.44 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Auswahl der Artikel und deren Detaillierung Anstelle der einzelnen Artikel Gruppen bilden Pizza statt Salamipizza, Käsepizza, … Milch statt Unterteilung in unterschiedliche Typen wie 1.5%, 3%, … dynamische Gruppenbildung (Massenartikel vs. Ladenhüter) Nutzung von virtuellen Produkten zur Aggregation möglichst nur, wenn diese zu einer „actionable rule“ führen können Zusammenhänge können verfälscht werden • • Wenn Cola und Diätprodukt -> Cola Light Reguläre Cola und anderes Light-Produkt werden zu Cola Light • • Wenn Cola und Diätprodukt -> Bretzeln Regeln können echte Zusammenhänge „ausblenden „ausblenden“ Bei gesonderten Fragestellung den Detaillierungsgrad erhöhen Bestimmung des Sortiments an Tiefkühlpizzen bedarf eine Betrachtung der einzelnen Variationen 22 Sitzung: 1.45 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Verwendung von Hierarchien bzw. Taxonomien Tiefkühlessen Generalisierung vs. Spezialisierung Ausgehend A h d von Tiefkühlprodukte Ti fkühl d kt kann k Welche Taxonomie/Hierarchie ist richtig? Wichtigkeit (Marke vs. vs Geschmacksrichtung) Komplexität kann durch die Anzahl explodieren !!! Nachtisch Eis Gemüse Früchte Erbsen Vanille Fertiggericht Detaillierung unterschieden werden in • Nachtisch, unterteilt in z.B. Speiseeis, Früchte, … • Gemüse • Fertiggerichte Marken, Geschmack, Farbe, … Sorbet Spinat Schoko Gemischt Erdbeer … Marke Sitzung: 1.46 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Größe Gewicht Datenqualität Datenqualität ist i.d.R. nicht sehr hoch Daten werden im operativen Betrieb gewonnen Ausrichtung g nicht in der Analyse y Fehleranfällig Inkompatibilität durch verschiedene (IT)-Systeme Anonymität Kundendaten sind nicht immer gegeben Ohne Zuordnung zur einer Identität (Kundenkarte, EC-Karte) können nur Informationen wie Datum, Zeit, Kasse, Einkauf, besondere Umstände wie Gutscheine gesammelt werden Eine Relation zwischen zwei anonymen Vorgängen kann i.d.R. nicht hergestellt werden 23 Sitzung: 1.47 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Bewertung von Regeln Konfidenz (confidence) besagt, wie wahrscheinlich es ist, dass A eintritt wenn B auftritt (B -> A) 1 bzw. 100% bedeutet, dass A immer mit B auftritt C = Support(Tupel mit allen Produkten) / Support(Produkte der linken Seite) Unterstützung (support) gibt #(Tupel der Produkte) / (Produkte gesamt) Produkt(e) Support Brot 0,80 Butter 0,60 Milch 0,40 Bier 0,40 Konfidenz (Brot->Butter) Support(Brot, Butter) / Support (Brot) =.75 Konfidenz (Butter->Brot) Support(Butter, Brot) / Support (Butter) =1.0 Brot, Butter 0,60 Sitzung: 1.48 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Lift Reichen Support und Konfidenz aus? Lift besagt, wieviel besser eine Regel für die Vorhersage im Vergleich zum (informierten) Raten (unter Nutzung von Annahmen) lift = P(alle Produkte) / (P(Produkte linke Seite) * P (Produkte rechte Seite) ) Produkt(e) Support Brot 0,80 Butter 0 60 0,60 Milch 0,40 Bier 0,40 Brot, Butter 0,60 Regel: Brot und Butter -> Milch lift = 0,10 / (0,6 * 0,4) = 0,42 >1: Besser Prognose statt Raten <1: Besser Raten als Prognose Brot, Butter, 0,10 Milch 24 Sitzung: 1.49 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Sitzung: 1.50 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Support für jeden Artikel Support für jeweils zwei Artikel Support für jeweils drei Artikel … Beispiel Praktische Grenzen Anzahl der Assoziationsregeln ⎡⎛ d ⎞ ⎛ d − k ⎞⎤ R = ∑ ⎢⎜ ⎟ × ∑ ⎜ ⎟⎥ k j ⎠⎦ ⎣⎝ ⎠ ⎝ = 3 − 2 +1 d −1 d −k k =1 j =1 d d +1 Restaurant kann über 100 Artikel im Menü haben Kombinationen mit 3-Artikeln? 161,700 ! Supermarket hat mehr als 10,000 unterschiedliche Artikel 50 Millionen 2er Kombinationen 100 Billionen 3er Kombinationen 25 Sitzung: 1.51 Datum: 25.10.2007 Keywords: Clustering Distanz Hierarchisch Partionierend Fazit Einfaches Vorgehen und Verfahren Schwierigkeit liegt in der Größe/Komplexität Große G ß T Taxonomien i Große Anzahl an Transaktionen Betrachtung von Verkauf über Zeit Abhängigkeiten zwischen Artikeln erkennen Unterschiedliche Typen von Assoziationsregeln Triviale Regeln Unerklärbare Regeln Umsetzbare Regeln 26