Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Daniel Meschenmoser Übersicht Gemeinsamkeiten von Data Mining und Statistik Unterschiede zwischen Data Mining und Statistik Assoziationsregeln Neuronale Netze Zusammenfassung Data Mining und Statistik 2 Gemeinsamkeiten von Data Mining und Statistik aus Daten Informationen gewinnen Vorhersage künftiger Werte / Klassifizierung von Objekten Aussagen über Grundgesamtheit treffen, wenn nur eine zufällige Stichprobe zur Verfügung steht keine „sauberen“ Daten Data Mining und Statistik 3 Unterschiede zwischen Data Mining und Statistik Anzahl der Beobachtungen Art der Beobachtungen theor. Begründung der Modelle Verwendung von Computern Komplexität der Zusammenhänge, die modelliert werden können Data Mining und Statistik 4 Assoziationsregeln (1) Beispiel: „45 % der Kunden, die Weisswein kaufen, kaufen auch Rotwein; insgesamt kaufen 20 % aller Kunden beide Artikel.“ kurz: Weisswein Rotwein Support: Maß für die Häufigkeit der Produktkombination Konfidenz: Schätzer für die bedingte Wahrscheinlichkeit P( Rotwein | Weisswein ) Support = 20 % Konfidenz = 45 % Data Mining und Statistik 5 Assoziationsregeln (2) I = Menge aller Items D = Menge aller relevanten Teilmengen von I T = Transaktion, d. h. T I , T D Support supp ( X Y ) = {T D : X Y T } D {T D : X Y T } Konfidenz conf ( X Y ) = {T D : X T } für X ,Y D; X Y = Ø Data Mining und Statistik 6 Assoziationsregeln (3) Vorgehensweise zum Finden von interessanten Regeln: 1) Finde alle Mengen X I mit supp( X ) > minsupp 2) Finde alle Mengen Y I mit conf ( X Y ) > minconf Sinnvolle Werte für minsupp und minconf ? Data Mining und Statistik 7 Assoziationsregeln (4) Problem mit Aussagen des Typs: „Wenn ein Kunde Produkt a kauft, kauft er Produkt b nicht.“ Lösung: Verallgemeinerung zu Korrelationsregeln T = {i1 , ,im } I heisst Korrelationsregel, falls zwei Elemente aus T korreliert sind mit 2 - Unabhängigkeitstest auf Korrelation testen Data Mining und Statistik 8 Assoziationsregeln (5) R = {i1 ,i1 }× × {ik ,ik } , r = (r1 , , rk ) R Nullhypothese H 0: alle Ereignisse aus R sind unabhängig Teststatistik T = (O (r ) E (r ))2 E (r ) r R T ist asymptotisch 2 1 - verteilt Data Mining und Statistik 9 Neuronale Netze (1) Multi - Layer - Perceptron (MLP) Data Mining und Statistik 10 Neuronale Netze (2) Modellieren eines MLP - Netzes: Vorbereiten der Daten Netzwerkarchitektur festlegen, d. h. – Anzahl der verdeckten Neuronen – Verbindungen zwischen den Neuronen Netzwerkparameter schätzen Data Mining und Statistik 11 Neuronale Netze (3) Vorbereiten der Daten: Qualität der Daten prüfen Aufteilung in – Trainingsmenge – Validierungsmenge – Testmenge Data Mining und Statistik 12 Neuronale Netze (4) Netzwerkarchitektur festlegen: mit linearem Modell beginnen schrittweise um verdeckte Neuronen erweitern mit LM -Tests die Relevanz der Neuronen testen mit Wald - Tests die Relevanz einzelner Verbindungen testen Voraussetzung: Parameter identifiziert Data Mining und Statistik 13 Neuronale Netze (5) Lagrange - Multiplier - Test: Voraussetzungen: – y = F (X ) + – Approximation durch f ( X , ŵ) Frage: Ist das Modell f ( X , ŵ) richtig gewählt? H 0 : P (E (y X ) = f (X , w0 )) = 1 H1 : P (E (y X ) = f ( X , w)) < 1 w Data Mining und Statistik 14 Neuronale Netze (6) Durchführung eines LM - Tests: Regressiere y auf f(X,w) und berechne ˆ Schätze ˆ durch ˆˆ ˆˆ Berechne die Teststatistik Ru2 = t =1 n nR ist asymptotisch 2 u n 2 ˆ t =1 2 t 2 t - verteilt Data Mining und Statistik 15 Neuronale Netze (7) Wald - Test: Voraussetzung: es existieren keine irrelevanten verdeckten Neuronen Nullhypothese H 0 : wk = sk Teststatistik W = (ŵ sk k ˆ 2 ŵk ) 2 ~ Data Mining und Statistik 2 1 16 Neuronale Netze (8) Netzwerkparameter schätzen Schätzen der Parameter (y n Minimierung von t =1 t ) f (X t , w) 2 Numerische Verfahren, z. B. Newton - Verfahren oder Gradientenabstiegsverfahren Data Mining und Statistik 17 Zusammenfassung Ziele von Data Mining und Statistik oft gleich grosse Unterschiede zwischen Data Mining und Statistik Statistische Methoden als Hilfsmittel im Data Mining einsetzen, um Qualität des Data Mining zu verbessern und um Entscheidungen nachvollziehbar zu machen. Data Mining und Statistik 18