Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Werbung
Universität Ulm
Seminararbeit
zum Thema
Data Mining und Statistik:
Gemeinsamkeiten und
Unterschiede
vorgelegt von: Daniel Meschenmoser
betreut von:
Dr. Tomas Hrycej
Dr. Matthias Grabert
Ulm, im Februar 2004
,QKDOW
1. Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Gemeinsamkeiten von Data Mining und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3
3. Unterschiede zwischen Data Mining und Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4. Beispiel 1: Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
a. Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
b. Verallgemeinerung zu Korrelationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5. Beispiel 2: Multi – Layer – Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
a. Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
b. Lagrange – Multiplier – Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
c. Wald – Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
6. Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
2
(LQOHLWXQJ
Mit Data Mining und Statistik stehen sich zwei sehr verschiedene aber doch ähnliche
Disziplinen gegenüber. Das Data Mining ist noch relativ jung, basiert aber zu grossen Teilen
auf Statistik. In dieser Seminararbeit wird versucht, die Unterschiede und Gemeinsamkeiten
zwischen diesen beiden Gebieten hervorzuheben. Am Beispiel von Assoziationsregeln wird
erläutert, wie die Statistik Methoden des Data Mining verallgemeinern kann. An Neuronalen
Netzen wird gezeigt, wie die (oft heuristischen) Methoden des Data Mining durch bekannte
statistische Verfahren verbessert werden können.
*HPHLQVDPNHLWHQYRQ'DWD0LQLQJXQG6WDWLVWLN
Prinzipiell geht es sowohl im Data Mining als auch in der Statistik darum, Daten zu
analysieren. In der Statistik geschieht dies zum Beispiel mit Hilfe der linearen Regression; im
Data Mining zum Beispiel durch Neuronale Netze oder Assoziationsregeln.
Da die Grundgesamtheit aller Daten meist unbekannt ist, muss man meist mit einer (mehr
oder weniger zufälligen) Stichprobe Vorlieb nehmen. Im Data Mining existiert aber evtl. gar
keine Grundgesamtheit, da die Daten sich ständig verändern (man denke zum Beispiel an das
World Wide Web) und deshalb nur schwer eine Aussage über die Zufälligkeit einer
Stichprobe möglich ist.
Ein Ziel im Data Mining – wie auch in der Statistik – ist oft die Prognose unbekannter Werte
bzw. die Klassifikation von Objekten und das Abschätzen des dabei auftretenden Fehlers.
Damit sich dieser Fehler in akzeptablen Grenzen hält, ist es in beiden Gebieten unerlässlich,
die Daten gründlich vorzubereiten. Anderenfalls können verzerrte oder sogar falsche
Ergebnisse auftreten.
8QWHUVFKLHGH]ZLVFKHQ'DWD0LQLQJXQG6WDWLVWLN
Ein grundlegender Unterschied zwischen Data Mining und Statistik ist die Einordnung der
Disziplinen in andere Gebiete. Data Mining ist keineswegs ein Teilgebiet der Statistik, auch
wenn viele Methoden auf statistischen Verfahren beruhen. Ebenso sind Erkenntnissen des
Maschinellen Lernens und Datenbanktechnologien Grundlagen des Data Mining.
Ein weiterer Unterschied ist die Benutzung von Computern. Klassische statistische Methoden
wurden lange vor Erfindung des Computers entwickelt und sind deshalb auch von Hand
durchführbar. Data Mining ohne Computer hingegen wäre undenkbar.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
3
Nur durch Verwendung von Computern zur Erzeugung von Daten entstehen die gewaltigen
Datenmengen, die beim Data Mining untersucht werden. Deshalb müssen auch zur Analyse
dieser Daten Computer eingesetzt werden. Denn allein schon aufgrund der Menge der Daten
sind bekannte statistische Verfahren schnell überfordert und müssen weiterentwickelt werden.
Die Verwendung von Computern führt natürlich auch zu einer höheren Komplexität der
verwendeten Modelle. In der Statistik wird oft nur lineare Regression betrieben, da diese
ausreichend erforscht und leicht anzuwenden ist. Im Data Mining hingegen können zum
Beispiel durch Neuronale Netze sehr viel komplexere Zusammenhänge mit vertretbarem
Aufwand modelliert werden. Allerdings werden diese Modelle oft gar nicht oder nur
unzureichend theoretisch begründet. Es werden eher verschiedene Modelle ausprobiert und
falls eines vielversprechend erscheint, wird es einfach angewendet.
Später möchte ich am Beispiel der Neuronalen Netze aber zeigen, wie man dieses
Ausprobieren durch bekannte statistische Verfahren, nämlich 2 –Tests, ersetzen kann, um
fundierte Aussagen treffen zu können.
Mit Data Mining – Methoden ist es auch möglich, computergestützte Analysen mit nur
geringer Zeitverzögerung zu erhalten. Dies ist zum Beispiel wichtig, um Kreditkartenbetrug
zu erkennen, da kein Unternehmen bereit wäre, wochenlang auf die genau statistische
Analyse zu warten.
%HLVSLHO$VVR]LDWLRQVUHJHOQ
D 'HILQLWLRQ
Eine Assoziationsregel ist eine Aussage des Typs: „45 % der Kunden, die Weisswein kaufen,
kaufen auch Rotwein; insgesamt kaufen 20 % aller Kunden beide Artikel.“ Oder kurz: „Wenn
ein Kunde Weisswein kauft, kauft er wahrscheinlich auch Rotwein.“ Oder noch kürzer:
„Weisswein Rotwein“
Ein bekanntes Beispiel für die Anwendung von Assoziationsregeln ist die Warenkorbanalyse.
In der Warenkorbanalyse wird das Käuferverhalten von Kunden eines Supermarktes
untersucht. Ziel ist es, das Käuferverhalten zu strukturieren und für Marketingzwecke etc. zu
nutzen. Ein Problem dabei ist die grosse Zahl an Produkten und Kombinationsmöglichkeiten.
Deshalb ist es unumgänglich, aus der Vielzahl von Kombinationen diejenigen herauszufiltern,
die wichtig bzw. interessant erscheinen.
Dazu betrachtet man zwei Eigenschaften von Assoziationsregeln: den Support und die
Konfidenz. Der Support einer Regel ist ein Mass für die Häufigkeit der Produktkombination,
im obigen Beispiel beträgt der Support also 20 %.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
4
Die Konfidenz ist ein Schätzer der bedingten Wahrscheinlichkeit P ( Rotwein | Weisswein ),
im Beispiel beträgt die Konfidenz also 45 %.
Um Assoziationsregeln nicht nur zur Warenkorbanalyse sondern auch für andere
Untersuchungen verwenden zu können, ist eine allgemeine Definition nötig. Es werden
deshalb folgende Begriffe eingeführt:
-
, sei die Menge aller Items (Produkte)
' sei die Menge aller relevanten Teilmengen von ,
7 sei eine Transaktion, 7 , 7 ' (in der Warenkorbanalyse ist 7 ein bestimmter
Warenkorb)
Eine Transaktion 7 erfüllt eine Regel ;
; <
7.
< (mit ; <
, und ;
< = Ø), falls gilt:
Der Support einer Menge ; ist definiert durch:
VXSS;
Der Support einer Regel ;
{7
' ;
'
7}
< ist definiert durch:
VXSS ;
Die Konfidenz einer Regel ;
FRQI ;
< VXSS ; < {7
' ; <
'
7}
< ist definiert durch:
< =
VXS S ; < {7 ' ; < 7 }
=
{7 ' ; 7 }
VXS S ; Um mit Hilfe des Supports und der Konfidenz relevante Regeln zu finden, geht man
schrittweise vor: Zuerst überlegt man sich minimale Werte für Support (PLQVXSS) und
Konfidenz (PLQFRQI). Später gelten nur die Regeln als relevant, deren Werte für Support und
Konfidenz die Minimalwerte überschreiten, die also von ausreichend vielen Transaktionen
unterstützt werden. Es werden also alle Mengen ; < , mitVXSS ; < !PLQVXSS
gesucht und auf FRQI ;
< > PLQ FRQI überprüft. Alle so gefunden Regeln können als
wichtig angesehen werden, da durch Support und Konfidenz gewährleistet ist, dass die Regel
oft genug erfüllt wird, um zum Beispiel die Durchführung und Finanzierung einer
Marketingkampagne zu rechtfertigen.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
5
E 9HUDOOJHPHLQHUXQJ]X.RUUHODWLRQVUHJHOQ
Bei Verwendung von Assoziationsregeln ergibt sich ein Problem mit Aussagen des Typs:
„ Wenn ein Kunde Produkt a kauft, kauft er Produkt b wahrscheinlich nicht.“ Deshalb wird
das Konzept der Assoziationsregeln verallgemeinert zu Korrelationsregeln.
Eine Menge 0 = {L1 L
}
, heisst Korrelationsregel, falls zwei Elemente aus 0 korreliert
sind. Da die Korrelation nicht direkt untersucht werden kann, wird mit einem
2
– Unabhängigkeitstest auf Korrelation getestet.
Dazu definiert man 5 = {L1 L1 }× × {L L
} und einen Vektor U = U U
1
entspricht also gerade einer Transaktion 7.
5 . Ein Vektor U
Die Nullhypothese lautet: H0: alle Ereignisse aus 5 sind unabhängig.
Zur Überprüfung der Hypothese definiert man die Teststatistik = wie folgt:
(2(U )
)
==
([U ]
,
([U ]
2
wobei 2 (U ) die Anzahl der Versuche bezeichnet, bei denen das Ereignis U auftritt und ( [U ]
die erwartete Anzahl an Versuchen, bei denen das Ereignis U auftritt. 2 (U ) ist also ein
Schätzer für Q3 (U ) , wenn die Gesamtanzahl an Versuchen mit Q bezeichnet wird. ( [U ] kann
geschätzt werden durch:
( [U ] = Q · 1 2 (U1 ) · · 1 2 (U ) .
Die so erhaltene Teststatistik = ist asymptotisch 2 – verteilt mit einem Freiheitsgrad. Wenn
also die Nullhypothese erfüllt wäre und somit alle Ereignisse aus R unabhängig, dann hätte =
den Wert 0. Unterscheidet sich = hingegen signifikant von 0, so wird die Nullhypothese
verworfen. Als Schwellenwert benutzt man üblicherweise das 95 % – Quantil der
2
1
– Verteilung.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
6
%HLVSLHO0XOWL±/D\HU±3HUFHSWURQ
D (LQOHLWXQJ
Ein Multi – Layer – Perceptron ist ein vorwärtsgerichtetes Neuronales Netz bei dem die
Neuronen in Schichten angeordnet sind. Es gibt eine Schicht von Eingabeneuronen, beliebig
viele Schichten von verdeckten Neuronen und eine Schicht von Ausgabeneuronen (siehe
Abbildung).
MLP – Netzwerk (aus: U. Anders, Statistische Neuronale Netze, Verlag Vahlen, 1997)
Ein MLP – Netz ist also nichts anderes als eine Verallgemeinerung der linearen Regression,
denn durch ein MLP – Netz kann eine beliebige Funktion auf einem kompakten Intervall
beliebig genau approximiert werden, falls die Zahl der verdeckten Neuronen unbegrenzt ist.
Entscheidend für die Approximationsqualität ist die Netzwerkarchitektur. Diese wird
bestimmt durch die Anzahl der verdeckten Neuronen und die Verbindungen zwischen den
Neuronen.
Dabei hat die Anzahl an verdeckten Neuronen starken Einfluss auf die Art der zu
approximierenden Funktion. Ein linearer Zusammenhang zwischen erklärenden und zu
erklärenden Variablen kann bereits durch ein MLP – Netz ohne verdeckte Neuronen
modelliert werden. Je komplizierter die zu approximierende Funktion jedoch ist, desto mehr
verdeckte Neuronen sind nötig. Andererseits können zu viele verdeckte Neuronen bei der
Modellierung einer einfachen Funktion dazu führen, dass sich das Netz zu stark an die
Trainingsdaten anpasst, aber der Approximationsfehler bei unbekannten Daten sehr gross ist.
Die Anzahl der verdeckten Neuronen sollte deshalb unter Berücksichtigung des vermuteten
funktionalen Zusammenhangs zwischen erklärenden und zu erklärenden Variablen, der
Anzahl der zur Verfügung stehenden Beobachtungen und der relativen Stärke des Rauschens
in den Beobachtungen bestimmt werden.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
7
Von der Anzahl der Verbindungen zwischen den Neuronen schliesslich hängt der Aufwand
für das Trainieren des Netzes ab. Wenn bestimmte Verbindungen als irrelevant erkannt
werden, können sie aus dem Netz entfernt und der Lernaufwand somit reduziert werden.
Anschliessend möchte ich erläutern, wie statistische Verfahren benutzt werden können, um
die Netzwerkarchitektur optimal zu bestimmen. Die Netzwerkarchitektur ist optimal, wenn
gerade genug verdeckte Neuronen vorhanden sind, um die gewünschte Funktion zu
approximieren (d. h. Bias = 0) ohne jedoch auch das Rauschen in den Daten zu approximieren
(d. h. minimale Varianz). Aus praktischen Erwägungen kann es jedoch manchmal sinnvoll
sein, einen geringen Bias in Kauf zu nehmen, um die Varianz zu verringern.
Bei der Bestimmung der Netzwerkarchitektur beginnt man am besten mit einem linearen
Modell, d. h. einem Netzwerk ohne verdeckte Neuronen. Dieses wird schrittweise um
verdeckte Neuronen erweitert und mit Lagrange – Multiplier – Tests wird die optimale
Anzahl an verdeckten Neuronen ermittelt. Schliesslich wird mit Wald – Tests die Relevanz
einzelner Verbindungen überprüft.
Eine Voraussetzung für die Anwendung von statistischen Hypothesentests ist die
Identifikation der Parameter. Ein Parameter heisst identifiziert, wenn der wahre (unbekannte)
Wert des Parameters eindeutig ist. Davon wollen wir hier jedoch ausgehen. Falls die
Parameter identifiziert sind, sind sie auch konsistent, d. h. mit wachsender Zahl an
Beobachtungen konvergieren sie zum wahren Wert Z des Parameters. Ausserdem sind die
Parameterschätzer normalverteilt mit Erwartungswert Z und Kovarianzmatrix 1 & . Werden
die Parameter mit der Methode der kleinsten Quadrate geschätzt, so ist & = % Z0 mit
1
 ∂ ln / (Z ) ∂ ln / (Z ) ′ 


0  
% Z0 = ( 

 .
∂Z
∂Z





Ein konsistenter Schätzer für % Z0 ist gegeben durch
′
1
 ∂I (; , Zˆ ) ∂I (; , Zˆ )
%ˆ = ∑ εˆ 2 

,
Q =1  ∂Z  ∂Z 
wobei Q die Anzahl der Beobachtungen sei, Ö der Residuenvektor und I ( ; Z) die
Netzwerkfunktion.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
8
E /DJUDQJH±0XOWLSOLHU±7HVW
Mit LM – Tests kann die optimale Anzahl von verdeckten Neuronen in einem MLP – Netz
ermittelt werden. Voraussetzung dafür ist das Modell \ = ) ( [ ) + , wobei )(·) die wahre
Funktion bezeichnet.
mit ( [ ] = 0 , ( [
]=
stellt einen unabhängig und identisch normalverteilten Fehlerterm dar
2
, und ( [ ; ] = 0 . Die wahre Funktion sei bereits durch eine
Ö ) approximiert, dies kann am Anfang zum Beispiel eine lineare Funktion
Funktion I ( ; Z
sein.
Ö ) richtig
Die Frage, die mittels LM – Tests beantwortet werden soll, ist: Ist das Modell I ( ; Z
gewählt? Wenn ja, existiert mit Wahrscheinlichkeit 1 kein Approximationsfehler. Dies
entspricht der Nullhypothese:
+ 3 (( [\ ; ] = I (; Z0 )) = 1 für ein Z0
:,
wobei : die Menge aller Parametervektoren bezeichnet.
Im alternativen Fall ist das Modell nicht korrekt gewählt, d. h.:
+ 3 (( [\ ; ] = I ( ; Z)) < 1 für alle Z : .
Falls also die Nullhypothese abgelehnt wird, kann die Approximation der Funktion )(·)
verbessert werden, indem man das Netzwerk um 4 verdeckte Neuronen erweitert.
Die praktische Durchführung eines LM – Tests gestaltet sich folgendermassen:
Zuerst regressiert man \ auf I ( ; Z) und berechnet die Residuen Ö . Dann führt man eine
lineare Hilfsregression durch, um Ö durch ÖÖ zu schätzen und berechnet das sogenannte
unzentrierte Bestimmtheitsmass 5 2 als:
5 =
ÖÖ 2
=1
2
Ö2
.
Die Teststatistik Q5 2 LVWDV\PSWRWLVFK
2
=1
– verteilt mit 4 Freiheitsgraden. Entsprechend wird
die Nullhypothese verworfen, falls der Wert von Q5 2 grösser ist als das entsprechende
4XDQWLOGHU
2
– Verteilung mit 4 Freiheitsgraden.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
9
F :DOG±7HVW
Mit LM – Test lässt sich leicht die Relevanz eines Neurons (und damit die Relevanz aller
Verbindungen von oder zu diesem Neuron) testen. Um aber einzelne Verbindungen zwischen
den Neuronen auf Signifikanz zu testen, eignet sich der Wald – Test.
Voraussetzung für die Anwendung des Wald – Tests ist, dass keine verdeckten Neuronen
mehr vorhanden sind. Dies ist jedoch durch die vorherige Durchführung von LM – Tests
sichergestellt.
Die Wald – Teststatistik ist wie folgt definiert:
Ö U (5&Ö5 ) 5Z
Ö U
: = Q 5Z
(
)
1
(
)
Ö diejenigen aus, für die eine Hypothese
Der Vektor 5 wählt aus den geschätzten Gewichten Z
überprüft werden soll; r ist der Vektor der entsprechenden Restriktionen und 1 &Ö ist die
1
geschätzte Kovarianzmatrix der Parameter mit &Ö = %Ö und
′
ˆ) ∂I (; , Zˆ)
1
2  ∂I (; , Z
ˆ
ˆ
% = ∑ε 

.
Q =1  ∂Z  ∂Z 
Es gilt: : a
2
, wobei 4 die Anzahl der restringierten Parameter bezeichnet.
Falls eine Hypothese lediglich für ein einzelnes Gewicht überprüft werden soll, ergibt sich die
Wald – Teststatistik
:=
(ZÖ
U
Ö2
)
2
a
2
1
,
wobei sich die geschätzte Varianz Ö 2 auf der Hauptdiagonalen der Matrix 1 &Ö befindet.
Besondere Beachtung verdient das Testen der Signifikanz eines Eingabeneurons: + 5Z ,
wobei der Vektor R diejenigen Gewichte auswählt, die mit dem zu testenden Eingabeneuron
verbunden sind.
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
10
/LWHUDWXUYHU]HLFKQLV
•
D.J. Hand: „ Data Mining: Statistics and More?“ , The American Statistician, May
1998, Vol. 52, No. 2
•
D.J. Hand: „ Statistics and Data Mining: Intersecting Disciplines“ , SIGKDD
Explorations, June 1999
•
D. Michie, D.J. Spiegelhalter, C.C. Taylor (ed.): “ Machine Learning, Neural and
Statistical Classification”, 1994
•
J. Hipp: „ Association Rules“ , The RIC/AM Technology Book, DaimlerChrysler,
S. 141 – 154
•
S. Brin, R. Motwani, C. Silverstein: „ Beyond Market Baskets: Generalizing
Association Rules to Correlations“
•
T. Hrycej: „ Neural Networks“ , The RIC/AM Technology Book, DaimlerChrysler,
S. 55 – 92
•
U. Anders: „ Statistische Neuronale Netze“ , Verlag Vahlen, 1997
Data Mining und Statistik: Gemeinsamkeiten und Unterschiede
11
Herunterladen