Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Beispiel Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen. Die effiziente Analyse und Interpretation von Daten werden dabei immer wichtiger. Datenbanken enthalten riesige Informationsmengen welche bislang unentdeckt und potenziell wichtig sind. Das Finden von Assoziationsregeln beschreibt die Suche nach Mustern in solch großen Datenbeständen mit Hilfe mathematisch-stochastischer Verfahren. Eine Assoziationsregel könnte wie folgt lauten: Kunden die Brot kaufen, werden mit einer Wahrscheinlichkeit von 60% auch Milch kaufen. Datenerhebung In Kooperation mit der Merseburger Firma brain-SCC GmbH entsteht eine Anwendung zum protokollieren des Nutzerverhaltens unterschiedlicher Webauftritte. Analyse Eine eigens entwickelte Java Anwendung ermöglicht die Verarbeitung der gesammelten Daten mit Hilfe verschiedener Algorithmen (Apriori, Fp-Growth). Parametrisierte Verarbeitung Kontakt Enrico Lüdecke (Dipl. Tech. Red.) Fachbereich Informatik und Kommunikationssysteme Geusaer Str. 06217 Merseburg Email: [email protected] Schematische Darstellung der Datensammlung Ausgabe der Regeln Ermittlung von Assoziationsregeln aus großen Datenmengen Enrico Lüdecke Hochschule Merseburg, 06217 Merseburg, [email protected] 1 Motivation Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam auftretenden Dingen [1]. Der bekannteste Anwendungsfall für die Assoziationsverfahren bildet die Warenkorbanalyse. Dabei wird das Kaufverhalten von Kunden analysiert, indem Beziehungen zwischen gemeinsam gekauften Artikeln verschiedener Warenkörbe gesucht werden. Die Entdeckung von Assoziationen bilden Entscheidungsgrundlagen für Werbestrategien und Produktplatzierungen. Ein Beispiel für eine Assoziationsregel lautet: "Kunden die Brot kaufen, werden mit einer Wahrscheinlichkeit von 60% auch Milch kaufen". 2 Ursprung Die Assoziationsanalyse ist ein typisches Data Mining Verfahren welches zum Gebiet der Wissensentdeckung in Datenbanken (engl. Knowledge Discovery in Databases, kurz KDD) zählt. Sie geht auf die Arbeiten der Forschungsgruppe um R. Agrawal zurück die Anfang der 1990er Jahre erste Algorithmen zur Assoziationsregel Findung entwickelten. Hierzu zählen der AIS Algorithmus (1993) sowie der Apriori Algorithmus [2] (1994) sowie dessen Varianten AprioriTid und AprioriHybrid. Das Ziel dieser Verfahren ist das Entdecken gültigen, neuartigen potenziell nützlichen und verständlichen Muster in Daten [3]. 3 Formale Beschreibung Es sei ܫൌ ሼ݅ଵ Ǣ݅ଶ Ǣ ǥ ݅ Ǣ ሽ die Menge aller vorkommenden Objekte (Items). Weiterhin sei ܦdie Menge aller Transaktionen. ܦൌ ሼܶଵ ǡ ܶଶ ǡ Ǥ Ǥ Ǥ ǡ ܶ ሽ . Eine Transaktion ܶ besteht aus einer Menge von items (itemset)., wobei gilt ܶ ܦ ك. Jede Transaktion sei anhand der ܶ ܦܫeindeutig identifizierbar. Des weiteren sei ܺ eine Menge für die geprüft wird ob ܺ ܶ ك. Die Anzahl der items in einem itemset beschreibt dessen Größe. Ein itemset der Größe ݇ wird als ݇ െ ݅ݐ݁ݏ݉݁ݐ bezeichnet. Die items jeder Transaktion sind lexikographisch geordnet [4]. Fachhochschule Schmalkalden 1 3.1 Support Die Anzahl der Transaktionen in �, die � enthalten, wird als absoluter Support dieses itemsets bezeichnet. ���������� � |�� � �|� � ��| |�| Eine Assoziationsregel ist eine Implikation der Form � � � mit der Prämisse (antecedent) � und der Konklusion (consequent) �, bei der gilt: � � �� � � � sowie � � �� � � . Der Support der Regel � � � gibt den s% Anteil der Transaktionen in �, die � � �� enthalten an. ��������� � �� � ��������� � ��� � |�� � �|� � �� � ��| |�| Der Support einer Regel beschreibt die Wahrscheinlichkeit der Regel in Bezugnahme auf die Gesamtzahl der Transaktionen. 3.2 Konfidenz Die Konfidenz c beschreibt den Prozentanteil der Transaktionen in D für die gilt: wenn sie X enthalten, diese auch Y enthalten. ����� �� � �� � |�� � �|� � �� � ��| |�� � �|� � ��| Regeln die sowohl Minimumsupport (min_sup) als auch Minimumkonfidenz (min_conf) erfüllen, werden als streng bezeichnet. Support und Konfidenzwerte werden üblicherweise im Intervall [1, 100] angegeben [5]. 4 Assoziationsanalyse Das Ernitteln von Assoziationsregeln kann in 2 Teilaufgaben gegliedert werden: 1. 2. Finden aller itemsets deren Support größer ist, als der Mindestsupport (häufige itemsets). Erzeugen der Assoziationsregeln aus den häufigen Itemsets, mit einer Konfidenz Größer der Mindestkonfidenz. Zusätzliche Maße können angewendet werden um Korelationen zwischen den assoziierten Items zu Finden (z.B. Lift, Conviction). 11. Nachwuchswissenschaftlerkonferenz 14. April 2010 2 4.1 Beispiel Anhand des Folgenden Beispiels soll eine Assoziationsanalyse eines einfachen Datensatzes demonstriert werden [1] .TID 1 2 3 4 5 6 itemsets Saft, Cola, Bier Saft, Cola, Wein Saft, Wasser Cola, Bier, Saft Saft, Cola, Bier, Wein Wasser Tabelle 2: Transacktionsdatenbank Regeln mit Support ≥ 50% Saft → Cola Cola→ Saft Cola → Bier Bier → Cola Transaktion 1, 2, 4, 5 1, 2, 4, 5 1, 4, 5 1, 4, 5 Tabelle 3: Assoziationsregeln mit min_supp 50% Item Transaktion Saft 1, 2, 3, 4 ,5 Cola 1, 2, 4, 5 Bier 1, 4, 5 Wein 2, 5 Wasser 3, 6 Tabelle 1: Zuordnungen Konfidenz 80% 100% 75% 100% Support 66% 66% 50% 50% Die Konfidenz einer Regel wird dadurch bestimmt, dass die Anzahl der Transaktionen, die die Regeln erfüllen, durch die Anzahl der Transaktionen geteilt wird, die nur den Regelrumpf abdecken. So erhält man z.B. für die Regel Cola → Bier: 5 ��1, 4, 5�� 3 � � �,�5 � �5� ��1, 2, 4, 5�� 4 Zusammenfassung Das Auffinden von Assoziationsregeln innerhalb großer Datenmengen und dem extrahieren von Wissen aus diesen Mustern birgt ein enormes Wirtschaftliches Potential. Wesentlich zum Erfolg dieser Verfahren trägt v.a. die Kalibrierung mit realen Daten bei. In Zusammenarbeit mit dem Kooperationspartner ist es möglich eine derartige Datenbasis zu schaffen. Die gängigen Algorithmen zur Analyse der Daten sind bereits seit einigen Jahren ausgereift. Dennoch stellen große Datenmengen nach wie vor ein Problem in Bezug auf Rechenzeit und Speicherbedarf dar. Ebenso bildet die verständliche Auswertung der Regeln ein weites Forschungsgebiet. Umfasst das Ergebnis einer Analyse beispielsweise mehrere hundert Regeln, so ist eine zusätzliche Unterstützung des Nutzers notwendig um die gewonnenen Ergebnisse auch interpretieren zu können. Fachhochschule Schmalkalden 3 Ein weiterer Forschungsansatz im Bereich der Assoziationsanalyse bilden stetige Variablen. Handelt es sich bei den auszuwertenden Daten um reelle Zahlen, müssen für die Verarbeitung mit den gängigen Assoziationsalgorithmen, Intervalle gebildet werden. Die Art und Weise der effizienten Intervallbildung ist in der gängigen Literatur bisher nicht beschrieben. Ein damit Verbundener Forschungsansatz beschäftigt sich mit der Assoziationsanalyse geografischer Werte. Dabei bilden Intervalle über Distanzen der Items zueinander die Grundlage für die Regelfindung. 6 Literatur [1] Bollinger, Toni: Assoziationsregeln – Analyse eines Data Mining Verfahrens. Informatik-Spektrum, 19:257 261, 1996. http://www.springerlink.com/content/katecd6pyyuevjfd/ (Letzter Zugriff 10.03.2010). [2] Agrawal, Rakesh; Srikant, Ramakrishnan: Fast Algorithms for Mining Association Rules, 1994, S. 5ff. [3] Beekmann, Frank: Stichporbenbasierte Assoziationsanalyse im Rahmen des Knowledge Discovery in Databases, 2003, S. 6f. [4] Petersohn, Helge: Data Mining - Verfahren, Prozesse, Anwendungsarchitektur, 2005, S. 102f. [5] Mühle, Jörg: Automatische Generierung von Assoziationsregeln, 2009, S.12. 11. Nachwuchswissenschaftlerkonferenz 14. April 2010 4