Methoden der Abhängigkeitsanalyse Mike Hüftle 28. Juli 2006 Inhaltsverzeichnis 1 Einleitung 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 Korrelationsanalyse 2.1 Kovarianz und Korrelation . . . . . . . . . . . . . . . . 2.2 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . 2.3 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . 2.4 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Korrelationsmaße . . . . . . . . . . . . . . . . . . . . . 2.5.1 Nebenpfad: Weitere Korrelationsmaße . . . . . 2.5.2 Nebenpfad: Kendalls Tau . . . . . . . . . . . . 2.5.3 Nebenpfad: Diskordanz, Konkordanz und Ties 2.5.4 Nebenpfad: Spearman-Korrelation . . . . . . . 2.5.5 Nebenpfad: Bravais-Pearson-Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 6 7 8 8 9 9 12 12 3 Regressionsanalyse 3.1 Einleitung . . . . . . . . . . 3.2 Methodenbeschreibung I . . 3.2.1 Nebenpfad: Methode 3.3 Methodenbeschreibung II . 3.4 Tests . . . . . . . . . . . . . 3.5 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 15 16 17 18 19 4 Assoziationsregeln I 4.1 Allgemeines . . . . . . . . . 4.2 Konfidenz und Support . . 4.2.1 Nebenpfad: Beispiel 4.3 AIS . . . . . . . . . . . . . 4.4 Apriori . . . . . . . . . . . . 4.5 Partition . . . . . . . . . . . 4.6 PreSample und Eclat . . . . 4.7 FP-Growth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 21 23 24 25 26 27 . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Assoziationsregeln II 5.1 Taxonome Assoziationsregeln I 5.2 Taxonome Assoziationsregeln II 5.3 DBLearn und DBMiner . . . . 5.4 DBLearn und DBMiner . . . . 5.5 Quantitative Assoziationsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 30 31 32 6 Literatur und Methoden 33 6.1 Literatur zur Korrelations- und Regressionsanalyse . . . . . . . . 33 6.1 Literatur zur Assoziationsanalyse . . . . . . . . . . . . . . . . . . 33 6.1 Methodenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 34 2 1 Einleitung 1.1 Methoden der Abhängigkeitsanalyse Abhängige und unabhängige Merkmale Die Methoden der Abhängigkeitsanalyse entdecken und quantifizieren Abhängigkeiten in einer Datenmenge. Hierzu stehen statistische Methoden wie die Regressionsanalyse und und Methoden der künstlichen Intelligenz zur Verfügung. Es wird unterschieden, ob die Richtung des Einflusses, den ein Merkmal ausübt, bekannt ist oder nicht. Bei der Regressionsanalyse wird vorausgesetzt, dass bekannt ist, welches Merkmal oder welche Merkmale unabhängige Variablen sind (die beeinflussenden Merkmale) und welches Merkmal die abhängige Variable ist (das beeinflusste Merkmal). Methoden, die diese Unterscheidung in abhängige und unabhängige Merkmale nicht voraussetzen, sind die Korrelationsanalyse und die Assoziationsanalyse. WarenkorbanalyseEin klassisches Beispiel für die Abhängigkeitsanalyse ist die Warenkorbanalyse, die untersucht, ob es Zusammenhänge im Einkaufsverhalten bei der Produktauswahl von Kunden gibt (z.B. im Supermarkt). Diese Informationen können beispielsweise bei einer verkaufsfördernden Platzierung von Produkten hilfreich sein. 3 2 2.1 Lineare Zusammenhänge Kovarianz Korrelationsanalyse Kovarianz und Korrelation Kovarianz und Korrelation sind statistische Kenngrößen, die den linearen Zusammenhang zwischen zwei Merkmalen beschreiben. Die Kovarianz wird berechnet zu: cov(X, Y ) = E[(X − µx )(Y − µY )] (1) Die Kovarianz cov(X, Y ) hat in der praktischen Handhabung einen entscheidenden Nachteil: Sie ist abhängig vom Maßstab der Merkmale und der Streuung. Durch die Normierung der Kovarianz cov(X, Y ) mit dem Produkt der Standardabweichungen von X und Y werden die Maßstabs- bzw. Streuungsunterschiede zwischen den Merkmalen X und Y relativiert. Dies führt auf den Korrelationskoeffizienten. Korrelationskoeffizient Der Korrelationskoeffizient ist ein normiertes Maß für den linearen Zusammenhang zwischen den Zufallsgrößen X und Y : ρXY = E[(X − µX )(Y − µY )] ρX ρY (2) mit den Standardabweichungen und Mittelwerten ρX , ρY , µX , µY . Es gilt außerdem: ρXY = ρY X und −1 ≤ ρXY ≤ +1. Ist der Korrelationskoeffizient 0, so heißen die Merkmale unkorreliert. Empirische Kovarianz Die empirische Kovarianz macht die Berechnung der Kovarianz für beobachtete möglich. Für die Kombination der (xi , yi ) wird sie berechnet zu: n sxy = 1 X (xi − x̄)(yi − ȳ) n − 1 i=1 Es gilt sxy = syx . 4 (3) Empirischer Korrelationskoeffizient Durch die Normierung der empirischen Kovarianz mit den Standardabweichungen sx und sy ist der empirische Korrelationskoeffizient definiert: rxy = Pn (xi − x̄)(yi − ȳ) sxy = pPn i=1 Pn 2 2 sx · sy (x i=1 (yi − ȳ) i=1 i − x̄) (4) Es gilt rxy = ryx . Der empirische Korrelationskoeffizient ist ein Maß für die relative Stärke und Richtung des linearen Zusammenhangs zwischen den Merkmalen x und y. Er kann alle Werte zwischen -1 und +1 annehmen. Bei rxy < 0spricht man von negativer Korrelation und bei rxy > 0 von positiver Korrelation. 5 2.2 Korrelationsanalyse Die Korrelationsanalyse untersucht lineare statistische Zusammenhänge zwischen zwei oder mehr Merkmalen. Es wird analysiert, ob ein Zusammenhang besteht und wie stark dieser Zusammenhang ist. Bei zwei rationalskalierten Merkmalen x und y eines Datensatzes kann die Korrelation anhand einer Grafik erklärt werden. Es wird zwischen den folgenden Situationen unterschieden: • Es besteht ein positiver Zusammenhang zwischen den Merkmalen, d.h. je größer die Merkmalsausprägungen des einen Merkmals sind, desto größer sind die des anderen Merkmals. Der Korrelationskoeffizient rxy ist größer 0. • Es besteht ein negativer Zusammenhang, d.h. je größer die Ausprägungen des einen Merkmals sind, desto kleiner sind die des anderen Merkmals. Der Korrelationskoeffizient rxy ist kleiner 0. • Es besteht kein Zusammenhang zwischen den Merkmalen, d.h. die Ausprägung des einen Merkmals wirkt sich nicht auf die des anderen Merkmals aus. Die Merkmale sind unabhängig voneinander. Der Korrelationskoeffizient rxy ist gleich 0. • Es besteht ein nichtlinearer Zusammenhang. Dieser kann nicht mit der Korrelationsanalyse erklärt werden. 6 2.3 Stärke des Zusammenhangs Korrelationsanalyse Die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen kann aus dem Korrelationskoeffizienten bestimmt werden. Das Quadrat des Korrelationskoeffizienten ist der relative Anteil der Variabilität des Merkmals y, der durch Merkmal x erklärt werden kann. Ist z.B. rxy = 0.1, so ist 1% der Variabilität von y erklärt, bei rxy = 0.5 25% der Variabilität. Je kleiner der Korrelationskoeffizient ist, desto schwächer ist also der Zusammenhang zwischen x und y. Signifikanztest Die Entscheidung darüber, ob ein empirischer Korrelationskoeffizient einen statistisch gesicherten Zusammenhang nachweist, hängt vom Umfang der Stichprobe n ab. Deshalb ist die Überprüfung mit einem statistischen Test unbedingt zu empfehlen. Hierzu wird eine Testgröße berechnet, z.B. rxy · tr = √ √ n−2 2 1−rxy mit tr als Realisierung einer mit m = n − 2 Freiheitsgraden t-verteilten Zufallsgröße. Der p-Wert gibt die Wahrscheinlichkeit an, mit der die berechnete Korrelation zufällig entstanden ist: p − W ert = P (t1,n−2 < tr ) In der Regel gilt für p < 0, 05 die Korrelation als signifikant, d.h. nicht zufällig. Für die unterschiedlichen Korrelationskoeffizienten werden verschiedenen Testgrößen verwendet. 7 2.4 Anwendung Anwendungsvoraussetzungen Wesentliche Voraussetzungen für die Anwendung der Korrelationsanalyse sind: • Bei rationalskaliertenMerkmalen x und y müssen diese annähernd einer zweidimensionalen Normalverteilung genügen. • Der Zusammenhang muss linear sein. Dies kann grafisch anhand eines Scatter-Plots überprüft werden. • Die Daten sollten vor der Korrelationsanalyse von Ausreissernbereinigt werden, da diese die Berechnung des Korrelationskoeffizienten erheblich verzerren können. Interpretation der Korrelation Die Korrelationsanalyse trifft keine Aussage über einen kausalen Zusammenhang der Merkmale. Beispielsweise gibt es einen negativen Zusammenhang zwischen der abnehmenden Geburtenrate in Deutschland und dem Rückgang der Gletscher am Nordpol. Man spricht hier von der so genannten Konfudierung, d.h. beide Merkmale hängen nicht voneinander, sondern von einem gemeinsamen dritten Merkmal ab (hier der Zeit). Zur Interpretation des Korrelationkoeffizienten gehört immer ein Scatter-Plot anhand dessen die Annahme der Linearität überprüft werden kann. Außerdem werden so Untergruppen der Daten erkennbar, welche für sich genommen eine andere Korrelation aufweisen und es können Ausreisser identifiziert werden, welche die Korrelation verzerren. 8 2.5 Korrelationsmaße Es existiert eine Vielzahl unterschiedlicher Korrelationsmaße in Abhängigkeit von der Skalierung der analysierten Merkmale. Die Tabelle gibt einen Überblick über wichtige Korrelationsmaße. Dichotom Kategorisch Ordinal Rational Skalenniveau 2.5.1 PhiKoeffizient/ Tetrachorische Korrelation Kontingenz-} koeffizient C/ Cramers V Biseriale Rangkorrelation Kontingenz-} koeffizient C/ Cramers V Kendalls Tau/ SpearmanKorrelation BravaisPearson Punktbiseriale Korrelation Dichotom Kategorisch Ordinal Rational Nebenpfad: Weitere Korrelationsmaße Biseriale Rangkorrelation Die biseriale Rangkorrelation misst den Zusammenhang zwischen einem dichotomenund einem ordinalskaliertenMerkmal. Die Signifikanz dieser Statistik wird in der Regel mit dem Mann-Whitney-Test überprüft. Tetrachorische Korrelation Die Tetrachorische Korrelation misst den Zusammenhang zweier metrischerMerkmale, die künstlich dichotomisiert wurden (d.h. in je zwei Kategorien eingeteilt). PhiKoeffizient Der Phi-Koeffizient basiert auf der χ2 -Statistik und misst den Zusammenhang zwischen zwei dichotomenoder künstlich dichotomisierten Merkmalen (z.B. männlich-weiblich, Raucher-Nichtraucher). 9 2.5.2 Nebenpfad: Kendalls Tau Zur Bestimmung von Kendall’s Tau muss eine Ordnungsrelation der beiden untersuchten Merkmale x und y gebildet werden. Hierzu wird jedes Paar von Merkmalsausprägungen (xi , yi ) mit jedem anderen Paar (xk , yk ) verglichen. Es wird die Anzahl c der konkordanten und die Anzahl d der diskordanten Ties Tx in Merkmal x und Ty in Merkmal y Paarvergleiche sowie die der gezählt. 2.5.3 Konkordanz Diskordanz Ties Nebenpfad: Diskordanz, Konkordanz und Ties Als konkordant (übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk )) bezeichnet, die eine gleiche Ordnungsrelation in den Merkmalsauspträgungen von x und y besitzen, d.h. xi < xk ; yi < yk oder xi > xk ; yi > yk Als diskordant (nicht übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk ))bezeichnet, die eine gegenläufige Ordnungsrelation in den Merkmalsausprägungen besitzen, d.h.: xi < xk ; yi > yk oderxi > xk ; yi < yk Als Ties (Verknüpfungen) werden Beobachtungspaare ((xi , yi ), (xk , yk )) gezählt, die in einem der beiden Merkmale x,y oder in beiden Merkmalen die gleichen Merkmalswerte besitzen. Es gibt somit drei Typen von Ties: • Ties in x, aber nicht in y. Diese werden mit Tx bezeichnet. • Ties in y, aber nicht in x. Diese werden mit Ty bezeichnet. • Ties in x und y. Diese werden mit Txy bezeichnet. Kendall’s τa Wenn keine Ties in den Merkmalen vorkommen, so kann Kendall’s τa angewendet werden: τa = 2(c − d) n(n − 1) 10 (5) Kendall’s τb Kendall’s τb berücksichtigt Ties in den Merkmalen x und y, jedoch keine Ties in beiden Merkmalen gleichzeitig. Deshalb sollte Kendall’s τb nur dann angewendet, wenn es keine Ties τa gibt. Dieser Koeffizient findet insbesondere bei quadratischen nxn-Kontingenztabellen Anwendung. c−d τb = p (c + d + Tx )(c + d + Ty ) Kendall’s τc (6) Kendall’s τc berechnet sich zu: τc = 2m(c − d) (m − 1)n2 (7) wobei m das Minimum aus Zeilen- und Spaltenzahl der Kontingenztabelle ist. Kendall’s τc kann auch auf asymmetrische Kontingenztabellen angewendet werden. Beispiel 1 Bei der Evaluation des Lehrangebotes von Lehrstuhl C bewerten die Studenten eine Lehrveranstaltung nach zwei Merkmalen Vorlesungsinhalt“ und Didaktik ” ” des Dozenten“ mit Schulnoten von 1 bis 6. Es soll nun untersucht werden, ob die beiden Merkmale miteinander korrelieren. Student Inhalt Didaktik Es müssen S1 1 3 S2 1 3 S3 2 3 S4 3 1 S5 1 2 S6 3 2 S7 2 1 8! = 28 6!2! Paarvergleiche zwischen den Bewertungen der Studenten durchgeführt werden. Hieraus werden die Werte für c=12 konkordante und d=16 diskordante Paarvergleiche ermittelt. Kendall’s τa ergiebt sich somit zu: τa = 2(c − d) 2(12 − 16) = =≈ −0, 14 n(n − 1) 8·7 d.h. es besteht kein Zusammenhang zwischen den beiden Merkmalen. 11 (8) S8 4 2 Beispiel 2 Bei der Evaluation des Lehrangebotes von Lehrstuhl D ergiebt sich folgendes Bild: Student S1 S2 S3 S4 S5 S6 Inhalt 1 1 2 3 1 2 Didaktik 3 3 3 1 2 3 Aus den Bewertungen der Studenten ergeben sich die Werte für c=21 konkordante und d=7 diskordante Paarvergleiche ermittelt. Kendall’s τa ergiebt sich somit zu: τa = 2(c − d) 2(21 − 7) = = 0, 5 n(n − 1) 8·7 (9) d.h. es besteht ein positiver Zusammenhang zwischen den beiden Merkmalen. Mit einem Signifikanzniveau von α = 0, 05 wird nun mittels des t-Tests überprüft, ob der Wert von τa = 0, 5 statistisch signifikant ist. Die Teststatistik wird berechnet zu |c − d| − 1 T =q n(n−1)(2n+5) 18 = 13 = 1, 608 8, 08 (10) Für 1 − α = 0, 95 kann aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung der kritische Wert z0,95 = 1, 645 abgelesen werden. Da der berechnete t-Wert kleiner ist als der kritische Wert ist, so ist der berechnete positive Zusammenhang zwischen den Merkmalen nicht statistisch signifikant, d.h. der Zusammenhang könnte zufällig sein. Anwendung Kendall’s τ und die Spearman-Korrelation können beide bei der Korrelationsanalyse ordinalskalierter Merkmale eingesetzt werden. Kendall’s τ wird weniger häufig verwendet als die Spearman-Korrelation, da die Berechnung sehr viel aufwändiger ist. Der Vorteil von Kendall’s τ ist, dass die Verteilung dieser Statistik bessere Verteilungseigenschaften hat, als die der Spearman-Korrelation. Die Aussagen der beiden Statistiken sind in der Regel sehr ähnlich. 12 S7 1 4 S8 2 4 2.5.4 Nebenpfad: Spearman-Korrelation Korrelationskoeffizient Mit dem Rang-Korrelationskoeffizienten nach Spearman kann der Zusamnach menhang zwischen zwei ordinalskaliertenMerkmalen oder zwischen nichtSpearman normalverteilten rationalskalierten Merkmalen bestimmt werden. Der Koeffizient berechnet sich nach der folgenden Formel: Pn (R(xi ) − R̄(x))(R(yi ) − R̄(y)) (11) rs = qP i=1 Pn n 2 2 (R(y ) − R̄(y)) (R(x ) − R̄(x)) i i i=1 i=1 mit R(xi ) als Rangzahl (Ordinalwert) der i-ten Merkmalsausprägung von Merkmal x und R̄(x) als dem Mittelwert aller Rangzahlen des Merkmals x. Interpretation des Korrelationskoeffizienten Der Korrelationskoeffizient nach Spearman kann folgendermaßen interpretiert werden: • rs = −1: die Rangzahlen sind gegenläufig, d.h. steigen die Werte des Merkmals x, so fallen die y-Werte (z.B. Schüler, die in Mathematik eine gute Note haben in Deutsch schlechte Noten). • rs = +1: die Rangzahlen sind gleichläufig, d.h. wenn Merkmal x einen hohen Rangplatz hat, so hat auch y einen hohen Rangplatz (z.B.: Schüler, die in Mathematik eine gute Note haben , sind auch in Physik gut). • rs = 0: Es existiert kein Zusammenhang zwischen den Merkmalen. SpearmanKorrelation bei rationalskalierten Merkmalen Die Spearman-Korrelation wird auch bei rationalskalierten Merkmalen eingesetzt, um die Korrelation robust gegen Ausreisser zu machen. Hierzu wird für jedes Merkmal eine Ordinalskalierung gebildet, indem die Merkmalswerte geordnet und nummeriert werden: 1 für den niedrigsten Wert, 2 für den zweitniedrigsten usw. Wenn die Merkmale näherungsweise normalverteilt sind, so entspricht der Korrelationskoeffizient nach Spearman dem Koeffizienten von Bravais-Pearson. 2.5.5 Nebenpfad: Bravais-Pearson-Korrelation Die Bravais-Pearson-Korrelation beschreibt den linearen Zusammenhang zwischen zwei rationalskaliertenund normalverteilten Merkmalen x und y. 13 Auf diesem Koeffizienten basieren die meisten anderen, spezifischen Korrelationsmaße. Der Korrelationskoeffizient nach Bravais-Pearson wird folgendermaßen berechnet: Pn (xi − x̄)(yi − ȳ) cov(x, y) 1 = (12) r(x, y) = · i=1 n sx · sy sx · sy Je größer der Korrelationskoeffizient ist, desto stärker ist der Zusammenhang zwischen den Merkmalen. Ein Koeffizient von +1 steht für einen perfekt“ po” sitiven Zusammenhang, 0 bedeutet, dass kein linearer Zusammenhang besteht und ein Koeffizient von -1 steht für einen perfekt negativen Zusammenhang. 14 3 3.1 Abhängige und unabhängige Merkmale Regressionsanalyse Einleitung Die Regressionsanalyse ist eines der flexibelsten und am häufigsten eingesetzten statistischen Analyseverfahren. Sie analysiert Beziehungen zwischen einem abhängigenMerkmal und einem oder mehreren unabhängigen Merkmal(en). Sie dient insbesondere dem Erkennen von Zusammenhängen und der Prognose von Werten der abhängigen Merkmale. Beispielsweise können mit der Regressionsanalyse Zusammenhänge zwischen der Absatzmenge eines Produktes (abhängiges oder erklärtes Merkmal) und dessen Verkaufspreis (unabhängiges oder erklärendes Merkmal) untersucht werden. Skalierung der Merkmale Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden. 15 3.2 Allgemeines Vorgehen Methodenbeschreibung I Die Regressionsanalyse ermittelt in der Regel aus einer Stichprobe einen Zusammenhang in der Grundgesamtheit. Hierzu muss zuerst eine lineare oder nichtlineare Regressionsfunktion aufgestellt und dann die Gültigkeit dieser Funktion für die Grundgesamtheit nachgewiesen werden. Die Regressionsfunktion ist diejenige Funktion, welche den Gesamttrend aller Beobachtungen am besten wiedergibt. RegressionsmodellIm ersten Schritt der Regressionsanalyse wird das regressionsanalytische Modell aufgestellt. Hier muss anhand der vorliegenden Daten überprüft werden, ob sich ein lineares oder ein nichtlineares, ein einfaches oder multivariates Modell am besten zur Darstellung des realen Sachverhaltes eignet. Das Modell sollte die realen Beziehungen möglichst vollständig enthalten. Regressionsfunktion Im zweiten Schritt wird die Regressionsfunktion geschätzt. Die lineare Regressionsfunktion hat die allgemeine Form: Y = b0 + b1 X1 + b2 X2 + ... + bj Xj + e (13) mit Y als abhängigem Merkmal, b0 als konstantem Glied, bj als Regressionskoeffizient des j-ten unabhängigen Merkmals Xj und der Residualgröße e. Um eine möglichst gute Annäherung an die wirkliche Regressionsfunktion zu erhalten wird versucht, die Abweichungen der beobachteten Werte vom geschätzten Wert zu minimieren. Hierfür wird eines der wichtigsten statistischen Schätzverfahren, die Kleinste-Quadrate-Schätzung herangezogen. Die Regressionsfunktion ist somit diejenige Funktion, welche die Summe der quadrierten Abweichungen minimiert. Durch die Quadrierung werden größere Abweichungen stärker gewichtet und es wird vermieden, dass sich positive und negative Abweichungen kompensieren. Infoseite Residualgröße Die Residualgröße e berücksichtigt, dass in der Realität kaum ein reiner linearer Zusammenhang existiert, aufgrund von Mess- und Beobachtungsfehler sowie der Nichtberücksichtigung von relevanten unabhängigen Merkmalen. Die Residualgröße ist also die Abweichung des beobachteten Wertes vom (aufgrund der Regressionsgleichung) geschätzten Wert für das abhängige Merkmal. 16 3.2.1 Nebenpfad: Methode der kleinsten Quadrate RegressionsgeradeEine Regressionsgerade wird an die Werte der Stichprobe nach der Methode der kleinsten Quadrate (MKQ) angepasst. Die Koeffizienten a und b der Geradengleichung y=a+bx werden über die Gleichung min n X [yi − (a + bxi )]2 (14) i=1 bestimmt. D.h. die Summe der Quadrate der vertikalen Abweichungen der Beobachtungen von der Regressionsgeraden wird minimiert. Schätzung der Koeffizienten Die Schätzungen â und b̂ für die Koeffizienten a und b sowie ŝ2 für die Varianz σ 2 werden über eineP Nullstellenberechnung bestimmt: Pn (xi −x̄)(yi −ȳ) s 2 P â = ȳ − b̂ · x̄ b̂ = = rxy y ŝ2 = 1 2 i=1 (yi − ŷi ) mit den sx (xi −x̄) n−2 arithmetischen Mitteln x̄ und ȳ, den empirischen Standardabweichungen sx und sy sowie dem empirischen Korrelationskoeffizienten rxy . 17 3.3 Methodenbeschreibung II Multiple lineare Regression Für die Schätzung multipler linearer Regressionsgleichungen führt die Kleinste-Quadrate-Schätzung zu einem System von so genannten Normalgleichungen, dessen Lösung je nach Anzahl der unabhängigen Merkmale einen relativ hohen Rechenaufwand erfordert. Nichtlineare Regression Bei der Schätzung nichtlinearer Regressionsfunktionen wird häufig auch die Maximum-Likelihood-Methode angewendet, welche die Regressionskoeffizienten so ermittelt, dass sich für die Beobachtungen eine maximale Auftretenswahrscheinlichkeit ergibt. 18 3.4 Überprüfen der Regressionskoeffizienten Tests Im dritten Schritt der Regressionsanalyse wird die Regressionsfunktion global, d.h. als ganzes geprüft und die einzelnen Regressionskoeffizienten getestet, ob und wie gut sie zur Erklärung der abhängigen Merkmale beitragen. Wenn ein Merkmal keinen Beitrag leistet, so kann es aus der Regressionsfunktion entfernt werden. Es sollte immer zuerst ein Modell mit allen als relevant erkannten unabhängigen Merkmalen geschätzt werden. Dann können irrelevante Merkmale aus dem Modell entfernt werden. Bestimmtheitsmaß Das Bestimmtheitsmaß misst die Güte der Anpassung der Regressionsfunktion Residualgrößen. Jedoch an die empirischen Daten auf Grundlage der bietet ein gutes Bestimmtheitsmaß noch keine Gewährleistung dafür, dass die Regressionsfunktion auch für Grundgesamtheit gültige Ergebnisse liefert. F-Statistik Daher prüft die F-Statistik, ob das geschätzte Modell über die Stichprobe hinaus auch für die Grundgesamtheit gültig ist. In die Berechnung der F-Statistik geht neben der Streuungszerlegung auch der Umfang der Stichprobe mit ein. t-Test Wenn die globalen Gütemaße die Güte eines Regressionsmodells nachweisen können, dann werden die Regressionskoeffizienten mittels des t-Tests einzeln überprüft, ob sie für das Regressionsmodell von Bedeutung sind. Der t-Test vergleicht den empirisch berechneten mit dem theoretischen tWert der Student-Verteilung zur Überprüfung der Nullhypothese H0 : bj = 0. 19 3.5 Skalierung Anwendung Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden. Die Einteilung in abhängige und unabhängige Merkmale muss im Vorfeld der Analyse aufgrund sachlogischer Zusammenhänge durchgeführt werden. Anwendungsvoraussetzungen Es werden mehrere Annahmen an das Regressionsmodell vorausgesetzt: • Vollständigkeitsannahme: Alle relevanten Einflussgrößen wurden berücksichtigt. • Normalverteilung, Homoskedastizität: Es wird vorausgesetzt, dass für einen Wert x von X die Zufallsgröße Y normaverteilt ist mit dem Erwartungswert E : Y = a + bx und einer von x unabhängigen Streuung V arY = σ 2 . Dies bedeutet, dass die Residualgröße als Realisierung einer Zufallsgröße Ej interpretiert werden kann, die normalverteilt ist mit Erwartungswert 0 und Streuung σ 2 . Die Vorausetzung, dass die Streuung nicht von x abhängt bedeutet, dass an jeder Stelle x der Regressionsgeraden der Fehler der y-Werte von x unabhängig ist, d.h. an jeder Stelle x ist die gleiche Genauigkeit gegeben. Die Normalverteilungsannahme kann z.B. mit einem Histogramm oder einem Normal-Quantil-Plot überprüft werden. • Abwesenheit von Autokorrelation: Insbesondere bei Zeitreihendaten hängen die Residualgrößen benachbarter Beobachtungen voneinander ab - dies wird Autokorrelation genannt. Mit der Durbin-Watson-Statistik kann überprüft werden, ob Autokorrelation vorliegt. • Zwischen den unabhängigen Merkmalen besteht keine Abhängigkeit. • Bei linearen Modellen wird die Linearität vorausgesetzt. Um dies zu überprüfen werden partielle Residuenplots erstellt. Sind dort nichtlineare Zusammenhänge erkennbar muss das Regressionsmodell angepasst werden. Liegen diese Voraussetzungen nicht vor, so ist nicht sichergestellt, dass das Regressionsmodell den analysierten Zusammenhang korrekt abbildet. 20 4 4.1 Assoziationsregeln I Allgemeines Ziel der Assoziationsanalyse Ziel der Assoziationsanalyse ist es, für den Benutzer interessante Zusammenhänge in großen Datenbeständen zu finden. Cross-Selling Die der Assoziationsanalyse zu Grunde liegende Problemstellung tritt in der Praxis beispielsweise bei der Produktpräsentation im Supermarkt auf. Das so genannte Cross-Selling (wer Produkt A kauft, kauft auch B) bietet Anhaltspunkte für die Optimierung der Warenplatzierung. Die Assoziationsanalyse ist ein Hilfsmittel, um solche Cross-Selling-Zusammenhänge aus der Menge aller Transaktionen in einem Supermarkt zu finden. AssoziationsregelnEine Assoziationsregel besteht aus einer Kombination von Ereignissen mit einer Prämisse (enthält die unabhängigen Variablen) und einer Konklusion (abhängige Variablen). Ein Ereignis ist beispielsweise der Kauf von Produkt A. Als Transaktion bezeichnet man eine Menge von gemeinsam vorkommenden Ereignissen (z.B. ein Einkauf), aus denen Regeln abgeleitet werden können. 21 4.2 Konfidenz und Support Gütemaße für Assoziationsregeln Gütemaße für Assoziationsregeln sind die Kriterien Konfidenz und Support. Bei Algorithmen, die auf Basis dieser Kriterien arbeiten, wird auch vom SupportKonfidenz-Ansatz gesprochen. Support ist der relative Anteil der Transaktionen, die eine bestimmte Assoziationsregel abdeckt, an allen Transaktionen. Konfidenz ist der relative Anteil der Beziehungen, auf welche die Prämisse zutrifft, an allen Transaktionen auf welche die gesamte Regel zutrifft. Generieren von Assoziationsregeln Das Auffinden von Assoziationsregeln ist ein zweistufiger Prozess. Im ersten Schritt werden alle Ereigniskombinationen analysiert und diejenigen weiter untersucht, welche mindestens eine minimale Häufigkeit unter allen Kombinationen besitzen. Anschließend werden Assoziationsregeln generiert und interessante Regeln durch Anwendung der Kriterien Support und Konfidenz gefiltert. Ein Beispiel für das Generieren von Assoziationsregeln finden Sie hier. Verfahren zur Assoziationsanalyse Die Laufzeiten der Verfahren zur Assoziationsanalyse werden typischerweise vom ersten Schritt der Regelgenerierung dominiert (die Generierung der häufigen Ereigniskombinationen). Optimierungen des zweiten Schritts (der Ableitung der Regeln) sind kaum relevant. Im Rahmen des Support-Konfidenz-Ansatzes ist es daher üblich, das Assoziationsproblem auf die Generierung aller häufigen Ereigniskombinationen zu reduzieren. Zur Ermittlung der häufigen Ereigniskombinationen existieren verschiedene Strategien um die Menge aller möglichen Ereigniskombinationen zu durchsuchen und zur Bestimmung der Häufigkeit einer solchen Kombination. Die verschiedenen Verfahren zur Assoziationsanalyse kombinieren die Strategien in unterschiedlicher Weise miteinander, um häufige Kombinationen möglichst effizient zu finden. 4.2.1 Cross-SellingAnalyse Nebenpfad: Beispiel Angenommen ein Elektronik-Händler will das Kaufverhalten seiner Kunden analysieren. Während der Analyse wird unter anderem eine Beziehung zwischen dem Kauf von PCs und dem Kauf von Software entdeckt. Die entsprechende 22 Assoziationsregel lautet: Wenn ein PC gekauft wird, dann wird auch Software ” gekauft.“ Relevanz von Regeln Um die Relevanz dieser Regel zu überprüfen werden die Werte für Konfidenz (30%) und Support (20%) betrachtet. Ein Support von 20% bedeutet, dass in zwanzig Prozent aller Ereigniskombinationen (Einkäufe) ein PC und Software zusammen gekauft wurden. Und mit einem Konfidenzwert von 30% wird bei dreißig Prozent aller PC-Käufe auch Software gekauft. Interessante Regeln Um aus der Menge aller generierten Assoziationsregeln interessante Regeln herauszufiltern, werden meistens untere Grenzwerte für Support und Konfidenz festgelegt. Regeln, welche Support- bzw. Konfidenzwerte unterhalb dieser Grenzen aufweisen, werden aufgrund ihrer geringen Relevanz nicht betrachtet. 23 4.3 AIS AIS nach den Autoren AGRAWAL, IMIELINSKI und SWAMI benannt, war der erste veröffentlichte Algorithmus zur Generierung von Assoziationsregeln und wurde in [] zusammen mit den Assoziationsregeln eingeführt. Methodenbeschreibung AIS führt die Generierung der häufigen Ereigniskombinationen als Breitensuche durch, d.h. die während eines Durchganges überprüften Kombinationen haben immer die gleiche Anzahl an Ereignissen. Der Algorithmus beginnt mit den einelementigen Ereignismengen und überprüft deren Häufigkeit. Als Kandidaten für mögliche Regeln werden nur diejenigen Ereigniskombinationen ausgewählt, die eine minimale Häufigkeit aufweisen. Im nächsten Durchgang wird zu den bisherigen, häufigen Ereigniskombinationen ein neues Ereignis hinzugenommen und die Häufigkeit der so entstandenen Kombination überprüft. Diese Vorgehensweise wird so lange wiederholt, bis alle vorhandenen Ereigniskombinationen jeder Transaktion überprüft wurden oder bis keine Kombination mehr das Kriterium minimaler Häufigkeit erfüllt. 24 4.4 Apriori Methodenbeschreibung Der Algorithmus Apriori basiert ebenfalls auf einer Breitensuche, besitzt jedoch eine separate Kandidatengenerierung auf Grundlage der Abgeschlossenheitseigenschaft des Supports. Diese besagt, dass in einer häufigen, k-elementigen Ereignismenge auch alle Teilmengen mit weniger als k Elementen häufig sein müssen. Apriori generiert deshalb aus der Menge der häufigen (k−1)-Ereigniskombinationen die Menge der k-Ereigniskombinationen, deren sämtliche (k − 1)-Teilmengen häufig sind. Außerdem verwendet Apriori einen Hashbaum um die Häufigkeiten der Ereignismengen zu speichern und zu analysieren. Anwendung Nach [] zeichnet sich Apriori dadurch aus, dass er für nicht zu kleine minimale Supportwerte praktisch beliebig große Datenbanken analysieren kann. Die Laufzeit des Verfahrens ist mit der anderer Verfahren vergleichbar, lediglich für vergleichsweise geringe Werte für den minimalen Support ist Apriori anderen Verfahren bezüglich der Laufzeit unterlegen. 25 4.5 Partition Methodenbeschreibung Partition basiert auf der indirekten Häufigkeitsbestimmung einer Ereigniskombination durch Schneiden von Transaktionsmengen. Dies sei an einem Beispiel erläutert: Sollen im Suchraum die Häufigkeiten der Ereigniskombinationen {a, b} bestimmt werden, dann kann die Menge aller Transaktionen T {a, b, c} mit den Ereignissen {a, b, c} durch den Schnitt zweier Transaktionsmengen erzeugt werden, vorausgesetzt, diese Transaktionsmengen sind bereits bekannt: T {a, b, c} = T {a, b}? T {a, c}. Die Häufigkeit der Ereigniskombination {a, b, c} berechnet sich somit zu: support ({a, b, c}) = T{a,b} ∩ T{a,c} TD (15) mit TD als Menge aller Transaktionen der Datenbank. Zerlegung der Datenbank Für die Implementierung der Breitensuche mit indirekter Häufigkeitsbestimmung werden aus Effizienzgründen jeweils die Transaktionsmengen zu sämtlichen Ereigniskombinationen einer Ebene k gleichzeitig im Hauptspeicher benötigt. Um dies auch bei großen Datenbanken implementieren zu können, wird die Datenbank in Teilmengen zerlegt, die nacheinander separat bearbeitet werden. Für jede Ereigniskombination einer Teilmenge wird der Support bestimmt. Die abschließende Supportbestimmung wird über Schnittmengenbildung für jede Teilmenge durchgeführt und die Ergebnisse zu den globalen Supportwerten summiert. 26 4.6 PreSample PreSample und Eclat In [] wird ein als PreSample bezeichneter Algorithmus erläutert, welcher mit vielen anderen der vorgestellten Methoden kombiniert werden kann. PreSample verkleinert die zu durchsuchende Transaktionsmenge durch das Voranstellen einer Stichprobenziehung. Die Repräsentativität dieser Stichprobenziehung wird im Anschluss an die eigentliche Generierung der Assoziationsregeln (z.B. mit Apriori) überprüft. Ist diese nicht gewährleistet, so muss eine erneute Stichprobenziehung durchgeführt werden. Eclat Mit dem Algorithmus Eclat [] wurde die Generierung aller häufigen Ereigniskombinationen erstmals mittels einer Tiefensuche realisiert. Die Bestimmung der Supportwerte erfolgt indirekt durch Schneiden von Transaktionsmengen. Während des Absteigens im Suchraum ist es bei der Tiefensuche lediglich notwendig, die Transaktionsmengen der Ereigniskombinationen eines Suchpfades auf dem Weg von der Wurzel bis zu einem Blatt gleichzeitig im Hauptspeicher zu halten. Daher können auch für sehr große Datenbanken sämtliche, für die Schnitte benötigten, Transaktionsmengen im Hauptspeicher abgelegt werden, ohne beispielsweise die Transaktionsdatenbank aufteilen zu müssen. Die Laufzeiten von Eclat sind nach [] zumeist vergleichbar mit den von Apriori erreichten Laufzeiten. Der Hauptspeicherbedarf wächst wie der von FP-Growth ungefähr linear mit der Anzahl zugrunde liegender Transaktionen, die von [] gemessenen Werte liegen jedoch weit unter denen von FP-Growth. 27 4.7 FP-Growth Tiefensuche in einem FP-Baum Mit FP-Growth wird von [] der Ansatz von AIS wieder aufgegriffen. FP-Growth basiert jedoch auf einer Tiefensuche in einer als FP-Baum aufbereiteten Datenbasis. Grundlage der Suche bilden alle häufigen 1-Ereigniskombinationen. Ausgehend von jedem dieser Ereignisse wird der Suchraum durchlaufen, indem zu der jeweils aktuellen Ereigniskombination ein Ereignis hinzugenommen wird, welches mit der aktuellen Kombination in mindestens einer Transaktion enthalten ist. Der Suchpfad durchläuft also nur tatsächlich vorkommende Ereigniskombinationen. Häufigkeit von Ereigniskombinationen Für die Häufigkeitsbestimmung zählt FP-Growth das direkte Vorkommen von Ereigniskombinationen. Dazu greift der Algorithmus jeweils nicht auf die gesamte Datenbank zurück, sondern schränkt schrittweise die Datenbasis ein. Wird beispielsweise die Häufigkeit der Ereigniskombination {y, z} bestimmt, dann werden nur die Transaktionen betrachtet, die Ereignis z enthalten. Wird weiter rekursiv zu Ereigniskombination {x, y, z} abgestiegen, so werden lediglich die Transaktionen, die {y, z} enthalten, betrachtet etc. Dieses Vorgehen wird mit FP-Bäumen effizient implementiert. Laufzeit FP-Growth erreicht nach [] auf vielen der dort untersuchten Datensätze die mit Abstand kürzesten Laufzeiten. Für anspruchsvollere Datensätze mit einer großen Anzahl an häufigen Ereigniskombinationen nähern sich die Laufzeiten von FP-Growth allerdings zunehmend an die der anderen Verfahren an. Die Generierung häufiger Ereigniskombinationen mittels FP-Growth weist in den meisten Fällen einen sehr hohen Speicherbedarf auf. Für die Analyse sehr großer Datenbanken sieht [] FP-Growth als nicht geeignet an. 28 5 5.1 Assoziationsregeln II Taxonome Assoziationsregeln I Taxonome Assoziationsregeln nutzen den Sachverhalt, dass in vielen realen Anwendungen die einzelnen Ereignisse hierarchisch zu Ereignisgruppen zusammengefasst werden können. Beispielsweise werden Produkte zu Produktfamilien und diese wiederum zu Produktkategorien zusammengefasst. Hierdurch wird die Analyse von Regeln wie Wenn ein PC gekauft wird, dann wird auch ein Linux-Betriebssystem gekauft“ ” möglich. Hierarchieebenen Dies erleichtert für den Benutzer die Navigation durch die gesamte Menge der Ereignisse erheblich, da jede Hierarchieebene einen anderen Blickwinkel auf das Assoziationsproblem ermöglicht. Weiterhin sind differenzierte unter Grenzen für Support und Konfidenz für unterschiedliche Hierarchiestufen möglich. Dies ermöglicht eine feinere Differenzierung dieser Gütemaße. So können beispielsweise in unteren Hierarchieebenen die Grenzen für den Support verringert werden. 29 5.2 Generierung taxonomer Assoziationsregeln Taxonome Assoziationsregeln II Eine solche Taxonomie kann als gerichteter azyklischer Graph dargestellt werden. Um die Verfahren zur Generierung einfacher Assoziationsregeln (AIS, Apriori, Partition, PreSample, FP-Growth) auf taxonome Assoziationsregeln erweitern zu können, müssen die Algorithmen die auf den Ereignissen definierte Taxonomie mit in die Regelgenerierungeinbeziehen. Zu diesem Zweck genügt es, wenn zu jedem Ereignis sämtliche Vorfahren im Ereignis-Baum bekannt sind. Damit ist es möglich, jede Transaktion mit all den Ereignissen zu erweitern, die Vorfahr mindestens eines der bereits in der Transaktion enthaltenen Ereignisse sind. Anhand derart aufbereiteter Transaktionen werden dann mit einer der oben beschriebenen Methoden häufige Ereigniskombinationen erzeugt. Laufzeiten Die resultierenden Verfahren der Assoziationsanalyse, die Taxonomien benutzen, haben in der Regel kürzere Laufzeiten als vergleichbare Methoden ohne Taxonomien. 30 5.3 DBLearn und DBMiner Konzepthierarchien DBLearn (Database Learning System) [] und seine Weiterentwicklung DBMiner arbeiten mit relationalen Datenbankoperationen und verwenden Konzepthierarchien als Hintergrundwissen. Konzepthierarchien sind die hierarchische Anordnung von Merkmalen. Für ein Beispiel mit den Merkmalen Name“, Wohnort“, Beruf“, Einkommen“ könn” ” ” ” te das Merkmal Wohnort“ Aachen sein. Dann kann dies zu Nordrhein-Westfahlen ” oder der BRD verallgemeinert werden. Regeltypen Die Regeln werden generalisiert, indem das aus den Konzepthierarchien vorhandene Hintergrundwissen genutzt wird. Es werden drei Typen von Regeln unterschieden: • Charakteristische Regeln beschreiben Eigenschaften, die von allen Beispielen erfüllt werden. • Unterscheidungsregeln beschreiben Eigenschaften, welche eine Teilmenge von Beispielen von einer anderen Teilmenge unterscheidet. • Bei quantitativen Regeln wird angegeben, wie viele Beispiele durch sie beschrieben werden. Dies wird durch ein zusätzliches Attribut Vote“ ” realisiert, welches angibt, wie viele Beispiele eine Regel abdeckt. 31 5.4 DBLearn und DBMiner Generalisierung Bei DBLearn wird die gesamte Beispielmenge als erste, elementare Regel interpretiert wie beispielsweise WENN Wohnort = Aachen UND Beruf = Ingenieur ” DANN Gehalt ¿ 35.000“. Dann werden durch Generalisierung allgemeinere Regeln aufgebaut. Hierzu werden bestimmte Merkmalswerte in Beispielen wiederholt durch das generellere Merkmal der nächst höheren Konzeptebene ersetzt wie beispielsweise WENN Wohnort = NRW UND Beruf = Ingenieur DANN Gehalt ¿ 35.000. ” Ergeben sich hierdurch identische Beispiele, so werden diese zu Beispielkomplexen zusammengefasst und deren Wert von “Vote entsprechend der Anzahl ” der durch sie repräsentierten Beispiele erhöht. Diese Vorgehensweise wird nach bestimmten Vorschriften so lange wiederholt, bis die Anzahl der Beispielkomplexe unterhalb einer definierten Schwelle liegt. Nachteile von DBLearn Die mit dem Algorithmus bestimmten charakteristischen Regeln werden jedoch nur nach ihrer Komplexität ausgewählt, d.h. es wird die Auswahl weniger und unkomplizierter Regeln bevorzugt. Dies sagt jedoch nichts darüber aus, ob diese Regeln für den Anwender interessant sind. Auch gehen beim Aufstieg in der Konzepthierarchie viele Eigenschaften der Beispielmenge verloren. Welche Merkmale weiterverfolgt werden und welche nicht, hängt vom Wissen und den Vorstellungen des Anwenders ab. 32 5.5 Quantitative Merkmale Quantitative Assoziationsregeln Quantitative Assoziationsregeln können im Gegensatz zu einfachen Regeln wie AIS, Apriori oder FP-Growth nicht nur kategoriale sondern auch rationalskalierteMerkmale verarbeiten. Beispiel einer solchen Assoziationsregel ist die Beziehung Wenn das Geschlecht ” männlich ist und das Alter¿16, dann wird ein Rasierapparat gekauft“. IntervallskalierungRationalskalierte Merkmale (im vorherigen Beispiel das Alter) können in einem sehr breiten Wertebereich definiert sein. Deshalb werden diese Wertebereiche in Intervalle unterteilt, welche sich im Verlauf der Regelgenerierung und filterung verändern können. Ein Beispiel für einen quantitativen Algorithmus ist ARCS (Association Rule Clustering System), der von [] vorgestellt wurde. 33 6 6.1 Literatur und Methoden Literatur zur Korrelations- und Regressionsanalyse Literaturverzeichnis [] Clauß, G./Finze, F.-R., Partzsch, L.: Statistik für Soziologen, Pädagogen, Psychologen und Mediziner. 2. Aufl., Harri Deutsch, Frankfurt 1995. [] Draper, N.R./Smith, H.: Applied Regression Analysis. 2nd ed., Wiley, New York 1981. [] Fahrmeier, L./Hamerle, A.: Multivariate statistische Verfahren. De Gruyter, Berlin New York 1984. [] Förster, E./Rönz, B.: Methoden der Korrelations- und Regressionsanalyse. Die Wirtschaft, Berlin 1979. [] Schach, S./Schäfer, T.: Regressions- und Varianzanalyse. Springer, Berlin Heidelberg New York 1978. [] Seber, G.A.F./Wild, C.J.: Nonlinear regression. Wiley, New York 1989. [] Storm, R.: Wahrscheinlichkeitsrechnung Mathematische Statisitik und statistische Qualitätskontrolle. 10. Aufl., Fachbuchverlag, Leipzig Köln 1995. 6.1 Literatur zur Assoziationsanalyse Literaturverzeichnis Einführende Literatur Adriaans, P./Zantinge, D.: Data Mining. Addison-Wesley, Harlow 1996. Berry, M. J. A./Linoff, G.: Data Mining Techniques: For Marketing, Sales and Customer Support. Wiley Computer Publishing, New York 1997. Hand, D. J.: Construction and Assessment of Classification Rules. John Wiley & Sons, Sussex 1997. Hipp, J.: Wissensentdeckung in Datenbanken mit Assoziationsregeln. Tübingen, Fakultät für Informations- und Kognitionswissenschaften, 34 Dissertation, 2003. Klösgen, W./Zytkow, J. M. (Hrsg.): Handbook of Data Mining and Knowledge Discovery. Oxford University Press, Oxford 2002. Krahl, D./Windheuser, U./Zick, F.-K.: Data Mining: Einsatz in der Praxis. Addison Wesley, Bonn 1998. Weiterführende Literatur Agrawal, R./Imielinski, T./Swami, A.: Mining Association Rules between Sets of Items in Large Databases, in: Proceedings of the ACM SIGMOD International Conference on Management of Data (ACM SIGMOD ’93). Washington, 1993, pp. 207-216. Fu, Yongjian: Discovery of Multiple-Level Rules from Large Databases. Burnaby, Canada, Simon Fraser University, PhD Thesis, 1996. Han, J./Cai, Y./Cercone, N.: Knowledge Discovery in Databases: An Attribute-Oriented Approach, in: Yuan, L. (ed.): Proceedings of the 18th International Conference on Very Large Databases, Morgan Kaufmann, San Francisco 1992, pp. 547-559, auf URL: citeseer.nj.nec.com/han92knowledge.html. Han, J./Pei, J./Yin, Y.: Mining Frequent Patterns without Candidate Generation, in: Proceedings of the 2000 ACM-SIGMOD International Conference on Management of Data. Dallas, Texas, Mai 2000, pp. 1-12. Han, J./Kamber, M.: Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco 2001. Hong, T.-P./Kuo, C.-S./Chi, S.-C.: Mining Association Rules from Quantitative Data, in: Intelligent Data Analysis, Vol. 3, 1999, pp. 363-376. Lent, B./Swami, A./Widom, J.: Clustering Association Rules, in: Proceedings of the 1997 International Conference on Data Engineering (ICDE’97). Birmingham, April 1997, pp. 220-231. Park, J. S./Chen, M./ Yu, P. S.: An Effective Hash-Based Algorithm for Mining Association Rules, in: Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data. San Jose, California, Mai 1995, pp. 175-186. Toivonen, H.: Discovery of Frequent Patterns in Large Data Collections. University of Helsinki, Department of Computer Science, PhD Thesis, 1996. Wittmann, Thomas: Wissensentdeckung in Datenbanken mit adaptiven Regelsystemen. Jena, Wirtschaftswissenschaftliche Fakultät der Friedrich-Schiller-Universität, Dissertation, 1999. Zaki, M. J./Parthasarathy, S./Ogihara, M./Li, W.: New Algorithms for Fast Discovery of Association Rules. Forschungsbericht Nr. 651, Computer Science Department, University of Rochester, Rochester 1997. 6.1 Methodenverzeichnis Verzeichnis der erläuterten Methoden der Abhängigkeitsanalyse 35 AIS Apriori DBLearn DBMiner Eclat FP-Growth Kleinste-Quadrate-Schätzer Korrelationsanalyse Partition PreSample Regressionsanalyse t-Test 36