Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Werbung
Data Mining und Statistik:
Gemeinsamkeiten und Unterschiede
Daniel Meschenmoser
Übersicht
Gemeinsamkeiten von Data Mining und Statistik
Unterschiede zwischen Data Mining und Statistik
Assoziationsregeln
Neuronale Netze
Zusammenfassung
Data Mining und Statistik
2
Gemeinsamkeiten von Data
Mining und Statistik
aus Daten Informationen gewinnen
Vorhersage künftiger Werte / Klassifizierung von
Objekten
Aussagen über Grundgesamtheit treffen, wenn nur
eine zufällige Stichprobe zur Verfügung steht
keine „sauberen“ Daten
Data Mining und Statistik
3
Unterschiede zwischen Data
Mining und Statistik
Anzahl der Beobachtungen
Art der Beobachtungen
theor. Begründung der Modelle
Verwendung von Computern
Komplexität der Zusammenhänge, die modelliert
werden können
Data Mining und Statistik
4
Assoziationsregeln (1)
Beispiel: „45 % der Kunden, die Weisswein
kaufen, kaufen auch Rotwein; insgesamt kaufen
20 % aller Kunden beide Artikel.“
kurz: Weisswein Rotwein
Support: Maß für die Häufigkeit der
Produktkombination
Konfidenz: Schätzer für die bedingte
Wahrscheinlichkeit P( Rotwein | Weisswein )
Support = 20 %
Konfidenz = 45 %
Data Mining und Statistik
5
Assoziationsregeln (2)
I = Menge aller Items
D = Menge aller relevanten Teilmengen von I
T = Transaktion, d. h. T I , T D
Support supp ( X Y ) =
{T D : X Y T }
D
{T D : X Y T }
Konfidenz conf ( X Y ) =
{T D : X T }
für X ,Y D; X Y = Ø
Data Mining und Statistik
6
Assoziationsregeln (3)
Vorgehensweise zum Finden von interessanten
Regeln:
1) Finde alle Mengen X I mit
supp( X ) > minsupp
2) Finde alle Mengen Y I mit
conf ( X Y ) > minconf
Sinnvolle Werte für minsupp und minconf ?
Data Mining und Statistik
7
Assoziationsregeln (4)
Problem mit Aussagen des Typs:
„Wenn ein Kunde Produkt a kauft, kauft er
Produkt b nicht.“
Lösung: Verallgemeinerung zu Korrelationsregeln
T = {i1 ,
,im } I heisst Korrelationsregel, falls zwei
Elemente aus T korreliert sind
mit
2
- Unabhängigkeitstest auf Korrelation testen
Data Mining und Statistik
8
Assoziationsregeln (5)
R = {i1 ,i1 }×
× {ik ,ik } , r = (r1 ,
, rk ) R
Nullhypothese H 0: alle Ereignisse aus R sind
unabhängig
Teststatistik T = (O (r ) E (r ))2
E (r )
r R
T ist asymptotisch
2
1
- verteilt
Data Mining und Statistik
9
Neuronale Netze (1)
Multi - Layer - Perceptron (MLP)
Data Mining und Statistik
10
Neuronale Netze (2)
Modellieren eines MLP - Netzes:
Vorbereiten der Daten
Netzwerkarchitektur festlegen, d. h.
– Anzahl der verdeckten Neuronen
– Verbindungen zwischen den Neuronen
Netzwerkparameter schätzen
Data Mining und Statistik
11
Neuronale Netze (3)
Vorbereiten der Daten:
Qualität der Daten prüfen
Aufteilung in
– Trainingsmenge
– Validierungsmenge
– Testmenge
Data Mining und Statistik
12
Neuronale Netze (4)
Netzwerkarchitektur festlegen:
mit linearem Modell beginnen
schrittweise um verdeckte Neuronen erweitern
mit LM -Tests die Relevanz der Neuronen testen
mit Wald - Tests die Relevanz einzelner
Verbindungen testen
Voraussetzung: Parameter identifiziert
Data Mining und Statistik
13
Neuronale Netze (5)
Lagrange - Multiplier - Test:
Voraussetzungen:
– y = F (X ) +
– Approximation durch f ( X , ŵ)
Frage: Ist das Modell f ( X , ŵ) richtig gewählt?
H 0 : P (E (y X ) = f (X , w0 )) = 1
H1 : P (E (y X ) = f ( X , w)) < 1 w
Data Mining und Statistik
14
Neuronale Netze (6)
Durchführung eines LM - Tests:
Regressiere y auf f(X,w) und berechne ˆ
Schätze ˆ durch ˆˆ
ˆˆ
Berechne die Teststatistik Ru2 =
t =1
n
nR ist asymptotisch
2
u
n
2
ˆ
t =1
2
t
2
t
- verteilt
Data Mining und Statistik
15
Neuronale Netze (7)
Wald - Test:
Voraussetzung: es existieren keine irrelevanten
verdeckten Neuronen
Nullhypothese H 0 : wk = sk
Teststatistik W =
(ŵ
sk
k
ˆ
2
ŵk
)
2
~
Data Mining und Statistik
2
1
16
Neuronale Netze (8)
Netzwerkparameter schätzen
Schätzen der Parameter (y
n
Minimierung von
t =1
t
)
f (X t , w)
2
Numerische Verfahren, z. B. Newton - Verfahren
oder Gradientenabstiegsverfahren
Data Mining und Statistik
17
Zusammenfassung
Ziele von Data Mining und Statistik oft gleich
grosse Unterschiede zwischen Data Mining und
Statistik
Statistische Methoden als Hilfsmittel im Data
Mining einsetzen, um Qualität des Data Mining zu
verbessern und um Entscheidungen
nachvollziehbar zu machen.
Data Mining und Statistik
18
Herunterladen