Ermittlung von Assoziationsregeln aus großen

Werbung
Ermittlung von
Assoziationsregeln
aus großen Datenmengen
Zielsetzung
Beispiel
Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien
zur Lösung betriebswirtschaftlicher Problemstellungen. Die effiziente Analyse und
Interpretation von Daten werden dabei immer wichtiger. Datenbanken enthalten
riesige Informationsmengen welche bislang unentdeckt und potenziell wichtig sind.
Das Finden von Assoziationsregeln beschreibt die Suche nach Mustern in solch
großen Datenbeständen mit Hilfe mathematisch-stochastischer Verfahren.
Eine Assoziationsregel könnte wie folgt lauten: Kunden die Brot kaufen, werden
mit einer Wahrscheinlichkeit von 60% auch Milch kaufen.
Datenerhebung
In Kooperation mit der Merseburger Firma brain-SCC GmbH
entsteht eine Anwendung zum
protokollieren des Nutzerverhaltens unterschiedlicher
Webauftritte.
Analyse
Eine eigens entwickelte Java
Anwendung ermöglicht die
Verarbeitung der gesammelten
Daten mit Hilfe verschiedener
Algorithmen (Apriori, Fp-Growth).
Parametrisierte Verarbeitung
Kontakt
Enrico Lüdecke (Dipl. Tech. Red.)
Fachbereich Informatik und Kommunikationssysteme
Geusaer Str. 06217 Merseburg
Email: [email protected]
Schematische Darstellung der Datensammlung
Ausgabe der Regeln
Ermittlung von Assoziationsregeln aus
großen Datenmengen
Enrico Lüdecke
Hochschule Merseburg, 06217 Merseburg, [email protected]
1
Motivation
Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam
auftretenden Dingen [1]. Der bekannteste Anwendungsfall für die
Assoziationsverfahren bildet die Warenkorbanalyse. Dabei wird das
Kaufverhalten von Kunden analysiert, indem Beziehungen zwischen
gemeinsam gekauften Artikeln verschiedener Warenkörbe gesucht werden. Die
Entdeckung von Assoziationen bilden Entscheidungsgrundlagen für
Werbestrategien und Produktplatzierungen. Ein Beispiel für eine
Assoziationsregel lautet: "Kunden die Brot kaufen, werden mit einer
Wahrscheinlichkeit von 60% auch Milch kaufen".
2
Ursprung
Die Assoziationsanalyse ist ein typisches Data Mining Verfahren welches zum
Gebiet der Wissensentdeckung in Datenbanken (engl. Knowledge Discovery in
Databases, kurz KDD) zählt. Sie geht auf die Arbeiten der Forschungsgruppe
um R. Agrawal zurück die Anfang der 1990er Jahre erste Algorithmen zur
Assoziationsregel Findung entwickelten. Hierzu zählen der AIS Algorithmus
(1993) sowie der Apriori Algorithmus [2] (1994) sowie dessen Varianten
AprioriTid und AprioriHybrid. Das Ziel dieser Verfahren ist das Entdecken
gültigen, neuartigen potenziell nützlichen und verständlichen Muster in Daten
[3].
3
Formale Beschreibung
Es sei ‫ ܫ‬ൌ ሼ݅ଵ Ǣ݅ଶ Ǣ ǥ ݅௠ Ǣ ሽ die Menge aller vorkommenden Objekte (Items).
Weiterhin sei ‫ ܦ‬die Menge aller Transaktionen. ‫ ܦ‬ൌ ሼܶଵ ǡ ܶଶ ǡ Ǥ Ǥ Ǥ ǡ ܶ௡ ሽ . Eine
Transaktion ܶ besteht aus einer Menge von items (itemset)., wobei gilt ܶ ‫ܦ ك‬.
Jede Transaktion sei anhand der ܶ‫ ܦܫ‬eindeutig identifizierbar. Des weiteren sei
ܺ eine Menge für die geprüft wird ob ܺ ‫ܶ ك‬. Die Anzahl der items in einem
itemset beschreibt dessen Größe. Ein itemset der Größe ݇ wird als ݇ െ ݅‫ݐ݁ݏ݉݁ݐ‬
bezeichnet. Die items jeder Transaktion sind lexikographisch geordnet [4].
Fachhochschule Schmalkalden 1
3.1
Support
Die Anzahl der Transaktionen in �, die � enthalten, wird als absoluter Support
dieses itemsets bezeichnet.
���������� �
|�� � �|� � ��|
|�|
Eine Assoziationsregel ist eine Implikation der Form � � � mit der Prämisse
(antecedent) � und der Konklusion (consequent) �, bei der gilt: � � �� � � �
sowie � � �� � � . Der Support der Regel � � � gibt den s% Anteil der
Transaktionen in �, die � � �� enthalten an.
��������� � �� � ��������� � ��� �
|�� � �|� � �� � ��|
|�|
Der Support einer Regel beschreibt die Wahrscheinlichkeit der Regel in
Bezugnahme auf die Gesamtzahl der Transaktionen.
3.2
Konfidenz
Die Konfidenz c beschreibt den Prozentanteil der Transaktionen in D für die
gilt: wenn sie X enthalten, diese auch Y enthalten.
����� �� � �� �
|�� � �|� � �� � ��|
|�� � �|� � ��|
Regeln die sowohl Minimumsupport (min_sup) als auch Minimumkonfidenz
(min_conf) erfüllen, werden als streng bezeichnet. Support und Konfidenzwerte
werden üblicherweise im Intervall [1, 100] angegeben [5].
4
Assoziationsanalyse
Das Ernitteln von Assoziationsregeln kann in 2 Teilaufgaben gegliedert
werden:
1.
2.
Finden aller itemsets deren Support größer ist, als der Mindestsupport
(häufige itemsets).
Erzeugen der Assoziationsregeln aus den häufigen Itemsets, mit einer
Konfidenz Größer der Mindestkonfidenz.
Zusätzliche Maße können angewendet werden um Korelationen zwischen den
assoziierten Items zu Finden (z.B. Lift, Conviction).
11. Nachwuchswissenschaftlerkonferenz 14. April 2010
2
4.1
Beispiel
Anhand des Folgenden Beispiels soll eine Assoziationsanalyse eines einfachen
Datensatzes demonstriert werden [1]
.TID
1
2
3
4
5
6
itemsets
Saft, Cola, Bier
Saft, Cola, Wein
Saft, Wasser
Cola, Bier, Saft
Saft, Cola, Bier, Wein
Wasser
Tabelle 2: Transacktionsdatenbank
Regeln mit Support ≥ 50%
Saft → Cola
Cola→ Saft
Cola → Bier
Bier → Cola
Transaktion
1, 2, 4, 5
1, 2, 4, 5
1, 4, 5
1, 4, 5
Tabelle 3: Assoziationsregeln mit min_supp 50%
Item
Transaktion
Saft
1, 2, 3, 4 ,5
Cola
1, 2, 4, 5
Bier
1, 4, 5
Wein
2, 5
Wasser
3, 6
Tabelle 1: Zuordnungen
Konfidenz
80%
100%
75%
100%
Support
66%
66%
50%
50%
Die Konfidenz einer Regel wird dadurch bestimmt, dass die Anzahl der
Transaktionen, die die Regeln erfüllen, durch die Anzahl der Transaktionen
geteilt wird, die nur den Regelrumpf abdecken. So erhält man z.B. für die Regel
Cola → Bier:
5
��1, 4, 5��
3
� � �,�5 � �5�
��1, 2, 4, 5�� 4
Zusammenfassung
Das Auffinden von Assoziationsregeln innerhalb großer Datenmengen und dem
extrahieren von Wissen aus diesen Mustern birgt ein enormes Wirtschaftliches
Potential. Wesentlich zum Erfolg dieser Verfahren trägt v.a. die Kalibrierung
mit realen Daten bei. In Zusammenarbeit mit dem Kooperationspartner ist es
möglich eine derartige Datenbasis zu schaffen.
Die gängigen Algorithmen zur Analyse der Daten sind bereits seit einigen
Jahren ausgereift. Dennoch stellen große Datenmengen nach wie vor ein
Problem in Bezug auf Rechenzeit und Speicherbedarf dar. Ebenso bildet die
verständliche Auswertung der Regeln ein weites Forschungsgebiet. Umfasst
das Ergebnis einer Analyse beispielsweise mehrere hundert Regeln, so ist eine
zusätzliche Unterstützung des Nutzers notwendig um die gewonnenen
Ergebnisse auch interpretieren zu können.
Fachhochschule Schmalkalden 3
Ein weiterer Forschungsansatz im Bereich der Assoziationsanalyse bilden
stetige Variablen. Handelt es sich bei den auszuwertenden Daten um reelle
Zahlen, müssen für die Verarbeitung mit den gängigen Assoziationsalgorithmen, Intervalle gebildet werden. Die Art und Weise der effizienten
Intervallbildung ist in der gängigen Literatur bisher nicht beschrieben.
Ein damit Verbundener Forschungsansatz beschäftigt sich mit der Assoziationsanalyse geografischer Werte. Dabei bilden Intervalle über Distanzen der Items
zueinander die Grundlage für die Regelfindung.
6
Literatur
[1]
Bollinger, Toni: Assoziationsregeln – Analyse eines Data Mining Verfahrens.
Informatik-Spektrum, 19:257 261, 1996.
http://www.springerlink.com/content/katecd6pyyuevjfd/
(Letzter Zugriff 10.03.2010).
[2]
Agrawal, Rakesh; Srikant, Ramakrishnan: Fast Algorithms for Mining
Association Rules, 1994, S. 5ff.
[3]
Beekmann, Frank: Stichporbenbasierte Assoziationsanalyse im Rahmen des
Knowledge Discovery in Databases, 2003, S. 6f.
[4]
Petersohn, Helge: Data Mining - Verfahren, Prozesse, Anwendungsarchitektur,
2005, S. 102f.
[5]
Mühle, Jörg: Automatische Generierung von Assoziationsregeln, 2009, S.12.
11. Nachwuchswissenschaftlerkonferenz 14. April 2010
4
Herunterladen