Methoden der Abhängigkeitsanalyse

Werbung
Methoden der Abhängigkeitsanalyse
Mike Hüftle
28. Juli 2006
Inhaltsverzeichnis
1 Einleitung
1.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2 Korrelationsanalyse
2.1 Kovarianz und Korrelation . . . . . . . . . . . . . . . .
2.2 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . .
2.3 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . .
2.4 Anwendung . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Korrelationsmaße . . . . . . . . . . . . . . . . . . . . .
2.5.1 Nebenpfad: Weitere Korrelationsmaße . . . . .
2.5.2 Nebenpfad: Kendalls Tau . . . . . . . . . . . .
2.5.3 Nebenpfad: Diskordanz, Konkordanz und Ties
2.5.4 Nebenpfad: Spearman-Korrelation . . . . . . .
2.5.5 Nebenpfad: Bravais-Pearson-Korrelation . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
7
8
8
9
9
12
12
3 Regressionsanalyse
3.1 Einleitung . . . . . . . . . .
3.2 Methodenbeschreibung I . .
3.2.1 Nebenpfad: Methode
3.3 Methodenbeschreibung II .
3.4 Tests . . . . . . . . . . . . .
3.5 Anwendung . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
der kleinsten Quadrate
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
16
17
18
19
4 Assoziationsregeln I
4.1 Allgemeines . . . . . . . . .
4.2 Konfidenz und Support . .
4.2.1 Nebenpfad: Beispiel
4.3 AIS . . . . . . . . . . . . .
4.4 Apriori . . . . . . . . . . . .
4.5 Partition . . . . . . . . . . .
4.6 PreSample und Eclat . . . .
4.7 FP-Growth . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
21
23
24
25
26
27
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Assoziationsregeln II
5.1 Taxonome Assoziationsregeln I
5.2 Taxonome Assoziationsregeln II
5.3 DBLearn und DBMiner . . . .
5.4 DBLearn und DBMiner . . . .
5.5 Quantitative Assoziationsregeln
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
29
30
31
32
6 Literatur und Methoden
33
6.1 Literatur zur Korrelations- und Regressionsanalyse . . . . . . . . 33
6.1 Literatur zur Assoziationsanalyse . . . . . . . . . . . . . . . . . . 33
6.1 Methodenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 34
2
1
Einleitung
1.1
Methoden der
Abhängigkeitsanalyse
Abhängige
und
unabhängige
Merkmale
Die Methoden der Abhängigkeitsanalyse entdecken und quantifizieren Abhängigkeiten in einer Datenmenge. Hierzu stehen statistische Methoden wie die Regressionsanalyse und und Methoden der künstlichen Intelligenz zur Verfügung.
Es wird unterschieden, ob die Richtung des Einflusses, den ein Merkmal
ausübt, bekannt ist oder nicht.
Bei der Regressionsanalyse wird vorausgesetzt, dass bekannt ist, welches
Merkmal oder welche Merkmale unabhängige Variablen sind (die beeinflussenden Merkmale) und welches Merkmal die abhängige Variable ist (das beeinflusste Merkmal).
Methoden, die diese Unterscheidung in abhängige und unabhängige Merkmale
nicht voraussetzen, sind die Korrelationsanalyse und die Assoziationsanalyse.
WarenkorbanalyseEin klassisches Beispiel für die Abhängigkeitsanalyse ist die Warenkorbanalyse,
die untersucht, ob es Zusammenhänge im Einkaufsverhalten bei der Produktauswahl von Kunden gibt (z.B. im Supermarkt).
Diese Informationen können beispielsweise bei einer verkaufsfördernden Platzierung von Produkten hilfreich sein.
3
2
2.1
Lineare Zusammenhänge
Kovarianz
Korrelationsanalyse
Kovarianz und Korrelation
Kovarianz und Korrelation sind statistische Kenngrößen, die den linearen Zusammenhang zwischen zwei Merkmalen beschreiben.
Die Kovarianz wird berechnet zu:
cov(X, Y ) = E[(X − µx )(Y − µY )]
(1)
Die Kovarianz cov(X, Y ) hat in der praktischen Handhabung einen entscheidenden Nachteil: Sie ist abhängig vom Maßstab der Merkmale und der
Streuung.
Durch die Normierung der Kovarianz cov(X, Y ) mit dem Produkt der Standardabweichungen von X und Y werden die Maßstabs- bzw. Streuungsunterschiede
zwischen den Merkmalen X und Y relativiert. Dies führt auf den Korrelationskoeffizienten.
Korrelationskoeffizient
Der Korrelationskoeffizient ist ein normiertes Maß für den linearen Zusammenhang zwischen den Zufallsgrößen X und Y :
ρXY =
E[(X − µX )(Y − µY )]
ρX ρY
(2)
mit den Standardabweichungen und Mittelwerten ρX , ρY , µX , µY . Es gilt
außerdem: ρXY = ρY X und −1 ≤ ρXY ≤ +1. Ist der Korrelationskoeffizient 0,
so heißen die Merkmale unkorreliert.
Empirische
Kovarianz
Die empirische Kovarianz macht die Berechnung der Kovarianz für beobachtete
möglich. Für die Kombination der (xi , yi ) wird sie berechnet zu:
n
sxy =
1 X
(xi − x̄)(yi − ȳ)
n − 1 i=1
Es gilt sxy = syx .
4
(3)
Empirischer
Korrelationskoeffizient
Durch die Normierung der empirischen Kovarianz mit den Standardabweichungen sx und sy ist der empirische Korrelationskoeffizient definiert:
rxy =
Pn
(xi − x̄)(yi − ȳ)
sxy
= pPn i=1
Pn
2
2
sx · sy
(x
i=1 (yi − ȳ)
i=1 i − x̄)
(4)
Es gilt rxy = ryx .
Der empirische Korrelationskoeffizient ist ein Maß für die relative Stärke
und Richtung des linearen Zusammenhangs zwischen den Merkmalen x
und y. Er kann alle Werte zwischen -1 und +1 annehmen.
Bei rxy < 0spricht man von negativer Korrelation und bei rxy > 0 von
positiver Korrelation.
5
2.2
Korrelationsanalyse
Die Korrelationsanalyse untersucht lineare statistische Zusammenhänge
zwischen zwei oder mehr Merkmalen. Es wird analysiert, ob ein Zusammenhang
besteht und wie stark dieser Zusammenhang ist.
Bei zwei rationalskalierten Merkmalen x und y eines Datensatzes kann die Korrelation anhand einer Grafik erklärt werden. Es wird zwischen den folgenden
Situationen unterschieden:
• Es besteht ein positiver Zusammenhang zwischen den Merkmalen,
d.h. je größer die Merkmalsausprägungen des einen Merkmals sind, desto größer sind die des anderen Merkmals. Der Korrelationskoeffizient rxy
ist größer 0.
• Es besteht ein negativer Zusammenhang, d.h. je größer die Ausprägungen des einen Merkmals sind, desto kleiner sind die des anderen Merkmals.
Der Korrelationskoeffizient rxy ist kleiner 0.
• Es besteht kein Zusammenhang zwischen den Merkmalen, d.h. die Ausprägung des einen Merkmals wirkt sich nicht auf die des anderen Merkmals
aus. Die Merkmale sind unabhängig voneinander. Der Korrelationskoeffizient rxy ist gleich 0.
• Es besteht ein nichtlinearer Zusammenhang. Dieser kann nicht mit
der Korrelationsanalyse erklärt werden.
6
2.3
Stärke des Zusammenhangs
Korrelationsanalyse
Die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen kann aus
dem Korrelationskoeffizienten bestimmt werden. Das Quadrat des Korrelationskoeffizienten ist der relative Anteil der Variabilität des Merkmals y, der
durch Merkmal x erklärt werden kann.
Ist z.B. rxy = 0.1, so ist 1% der Variabilität von y erklärt, bei rxy = 0.5 25%
der Variabilität. Je kleiner der Korrelationskoeffizient ist, desto schwächer ist
also der Zusammenhang zwischen x und y.
Signifikanztest
Die Entscheidung darüber, ob ein empirischer Korrelationskoeffizient einen statistisch gesicherten Zusammenhang nachweist, hängt vom Umfang der
Stichprobe n ab. Deshalb ist die Überprüfung mit einem statistischen Test unbedingt zu empfehlen.
Hierzu wird eine Testgröße berechnet, z.B.
rxy ·
tr = √
√
n−2
2
1−rxy
mit tr als Realisierung einer mit m = n − 2 Freiheitsgraden t-verteilten Zufallsgröße. Der p-Wert gibt die Wahrscheinlichkeit an, mit der die berechnete
Korrelation zufällig entstanden ist:
p − W ert = P (t1,n−2 < tr )
In der Regel gilt für p < 0, 05 die Korrelation als signifikant, d.h. nicht zufällig.
Für die unterschiedlichen Korrelationskoeffizienten werden verschiedenen Testgrößen verwendet.
7
2.4
Anwendung
Anwendungsvoraussetzungen
Wesentliche Voraussetzungen für die Anwendung der Korrelationsanalyse sind:
• Bei rationalskaliertenMerkmalen x und y müssen diese annähernd einer
zweidimensionalen Normalverteilung genügen.
• Der Zusammenhang muss linear sein. Dies kann grafisch anhand eines
Scatter-Plots überprüft werden.
• Die Daten sollten vor der Korrelationsanalyse von Ausreissernbereinigt
werden, da diese die Berechnung des Korrelationskoeffizienten erheblich
verzerren können.
Interpretation
der
Korrelation
Die Korrelationsanalyse trifft keine Aussage über einen kausalen Zusammenhang der Merkmale.
Beispielsweise gibt es einen negativen Zusammenhang zwischen der abnehmenden Geburtenrate in Deutschland und dem Rückgang der Gletscher am Nordpol. Man spricht hier von der so genannten Konfudierung, d.h. beide Merkmale
hängen nicht voneinander, sondern von einem gemeinsamen dritten Merkmal ab
(hier der Zeit).
Zur Interpretation des Korrelationkoeffizienten gehört immer ein Scatter-Plot
anhand dessen die Annahme der Linearität überprüft werden kann. Außerdem
werden so Untergruppen der Daten erkennbar, welche für sich genommen eine andere Korrelation aufweisen und es können Ausreisser identifiziert werden,
welche die Korrelation verzerren.
8
2.5
Korrelationsmaße
Es existiert eine Vielzahl unterschiedlicher Korrelationsmaße in Abhängigkeit
von der Skalierung der analysierten Merkmale.
Die Tabelle gibt einen Überblick über wichtige Korrelationsmaße.
Dichotom
Kategorisch
Ordinal
Rational
Skalenniveau
2.5.1
PhiKoeffizient/
Tetrachorische
Korrelation
Kontingenz-}
koeffizient C/
Cramers V
Biseriale
Rangkorrelation
Kontingenz-}
koeffizient C/
Cramers V
Kendalls
Tau/
SpearmanKorrelation
BravaisPearson
Punktbiseriale
Korrelation
Dichotom
Kategorisch
Ordinal
Rational
Nebenpfad: Weitere Korrelationsmaße
Biseriale
Rangkorrelation
Die biseriale Rangkorrelation misst den Zusammenhang zwischen einem
dichotomenund einem ordinalskaliertenMerkmal. Die Signifikanz dieser Statistik wird in der Regel mit dem Mann-Whitney-Test überprüft.
Tetrachorische
Korrelation
Die Tetrachorische Korrelation misst den Zusammenhang zweier metrischerMerkmale,
die künstlich dichotomisiert wurden (d.h. in je zwei Kategorien eingeteilt).
PhiKoeffizient
Der Phi-Koeffizient basiert auf der χ2 -Statistik und misst den Zusammenhang
zwischen zwei dichotomenoder künstlich dichotomisierten Merkmalen
(z.B. männlich-weiblich, Raucher-Nichtraucher).
9
2.5.2
Nebenpfad: Kendalls Tau
Zur Bestimmung von Kendall’s Tau muss eine Ordnungsrelation der beiden
untersuchten Merkmale x und y gebildet werden.
Hierzu wird jedes Paar von Merkmalsausprägungen (xi , yi ) mit jedem anderen
Paar (xk , yk ) verglichen.
Es wird die Anzahl c der konkordanten und die Anzahl d der diskordanten
Ties Tx in Merkmal x und Ty in Merkmal y
Paarvergleiche sowie die der
gezählt.
2.5.3
Konkordanz
Diskordanz
Ties
Nebenpfad: Diskordanz, Konkordanz und Ties
Als konkordant (übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk ))
bezeichnet, die eine gleiche Ordnungsrelation in den Merkmalsauspträgungen
von x und y besitzen, d.h.
xi < xk ; yi < yk oder xi > xk ; yi > yk
Als diskordant (nicht übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk ))bezeichnet,
die eine gegenläufige Ordnungsrelation in den Merkmalsausprägungen besitzen,
d.h.:
xi < xk ; yi > yk oderxi > xk ; yi < yk
Als Ties (Verknüpfungen) werden Beobachtungspaare ((xi , yi ), (xk , yk )) gezählt,
die in einem der beiden Merkmale x,y oder in beiden Merkmalen die gleichen
Merkmalswerte besitzen. Es gibt somit drei Typen von Ties:
• Ties in x, aber nicht in y. Diese werden mit Tx bezeichnet.
• Ties in y, aber nicht in x. Diese werden mit Ty bezeichnet.
• Ties in x und y. Diese werden mit Txy bezeichnet.
Kendall’s τa
Wenn keine Ties in den Merkmalen vorkommen, so kann Kendall’s τa angewendet werden:
τa =
2(c − d)
n(n − 1)
10
(5)
Kendall’s τb
Kendall’s τb berücksichtigt Ties in den Merkmalen x und y, jedoch keine
Ties in beiden Merkmalen gleichzeitig. Deshalb sollte Kendall’s τb nur dann angewendet, wenn es keine Ties τa gibt.
Dieser Koeffizient findet insbesondere bei quadratischen nxn-Kontingenztabellen
Anwendung.
c−d
τb = p
(c + d + Tx )(c + d + Ty )
Kendall’s τc
(6)
Kendall’s τc berechnet sich zu:
τc =
2m(c − d)
(m − 1)n2
(7)
wobei m das Minimum aus Zeilen- und Spaltenzahl der Kontingenztabelle ist.
Kendall’s τc kann auch auf asymmetrische Kontingenztabellen angewendet werden.
Beispiel 1
Bei der Evaluation des Lehrangebotes von Lehrstuhl C bewerten die Studenten
eine Lehrveranstaltung nach zwei Merkmalen Vorlesungsinhalt“ und Didaktik
”
”
des Dozenten“ mit Schulnoten von 1 bis 6. Es soll nun untersucht werden, ob
die beiden Merkmale miteinander korrelieren.
Student
Inhalt
Didaktik
Es müssen
S1
1
3
S2
1
3
S3
2
3
S4
3
1
S5
1
2
S6
3
2
S7
2
1
8!
= 28
6!2!
Paarvergleiche zwischen den Bewertungen der Studenten durchgeführt werden.
Hieraus werden die Werte für c=12 konkordante und d=16 diskordante Paarvergleiche ermittelt.
Kendall’s τa ergiebt sich somit zu:
τa =
2(c − d)
2(12 − 16)
=
=≈ −0, 14
n(n − 1)
8·7
d.h. es besteht kein Zusammenhang zwischen den beiden Merkmalen.
11
(8)
S8
4
2
Beispiel 2
Bei der Evaluation des Lehrangebotes von Lehrstuhl D ergiebt sich folgendes
Bild:
Student
S1
S2
S3
S4
S5
S6
Inhalt
1
1
2
3
1
2
Didaktik 3
3
3
1
2
3
Aus den Bewertungen der Studenten ergeben sich die Werte für c=21 konkordante und d=7 diskordante Paarvergleiche ermittelt.
Kendall’s τa ergiebt sich somit zu:
τa =
2(c − d)
2(21 − 7)
=
= 0, 5
n(n − 1)
8·7
(9)
d.h. es besteht ein positiver Zusammenhang zwischen den beiden Merkmalen.
Mit einem Signifikanzniveau von α = 0, 05 wird nun mittels des t-Tests überprüft, ob der Wert von τa = 0, 5 statistisch signifikant ist.
Die Teststatistik wird berechnet zu
|c − d| − 1
T =q
n(n−1)(2n+5)
18
=
13
= 1, 608
8, 08
(10)
Für 1 − α = 0, 95 kann aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung der kritische Wert z0,95 = 1, 645 abgelesen werden.
Da der berechnete t-Wert kleiner ist als der kritische Wert ist, so ist der berechnete positive Zusammenhang zwischen den Merkmalen nicht statistisch
signifikant, d.h. der Zusammenhang könnte zufällig sein.
Anwendung
Kendall’s τ und die Spearman-Korrelation können beide bei der Korrelationsanalyse ordinalskalierter Merkmale eingesetzt werden.
Kendall’s τ wird weniger häufig verwendet als die Spearman-Korrelation, da
die Berechnung sehr viel aufwändiger ist. Der Vorteil von Kendall’s τ ist,
dass die Verteilung dieser Statistik bessere Verteilungseigenschaften hat,
als die der Spearman-Korrelation. Die Aussagen der beiden Statistiken sind in
der Regel sehr ähnlich.
12
S7
1
4
S8
2
4
2.5.4
Nebenpfad: Spearman-Korrelation
Korrelationskoeffizient
Mit dem Rang-Korrelationskoeffizienten nach Spearman kann der Zusamnach menhang zwischen zwei ordinalskaliertenMerkmalen oder zwischen nichtSpearman normalverteilten rationalskalierten Merkmalen bestimmt werden. Der Koeffizient berechnet sich nach der folgenden Formel:
Pn
(R(xi ) − R̄(x))(R(yi ) − R̄(y))
(11)
rs = qP i=1
Pn
n
2
2
(R(y
)
−
R̄(y))
(R(x
)
−
R̄(x))
i
i
i=1
i=1
mit R(xi ) als Rangzahl (Ordinalwert) der i-ten Merkmalsausprägung von Merkmal x und R̄(x) als dem Mittelwert aller Rangzahlen des Merkmals x.
Interpretation
des
Korrelationskoeffizienten
Der Korrelationskoeffizient nach Spearman kann folgendermaßen interpretiert
werden:
• rs = −1: die Rangzahlen sind gegenläufig, d.h. steigen die Werte des
Merkmals x, so fallen die y-Werte (z.B. Schüler, die in Mathematik eine
gute Note haben in Deutsch schlechte Noten).
• rs = +1: die Rangzahlen sind gleichläufig, d.h. wenn Merkmal x einen
hohen Rangplatz hat, so hat auch y einen hohen Rangplatz (z.B.: Schüler,
die in Mathematik eine gute Note haben , sind auch in Physik gut).
• rs = 0: Es existiert kein Zusammenhang zwischen den Merkmalen.
SpearmanKorrelation
bei rationalskalierten
Merkmalen
Die Spearman-Korrelation wird auch bei rationalskalierten Merkmalen eingesetzt, um die Korrelation robust gegen Ausreisser zu machen. Hierzu wird für
jedes Merkmal eine Ordinalskalierung gebildet, indem die Merkmalswerte geordnet und nummeriert werden: 1 für den niedrigsten Wert, 2 für den zweitniedrigsten usw. Wenn die Merkmale näherungsweise normalverteilt sind, so
entspricht der Korrelationskoeffizient nach Spearman dem Koeffizienten von
Bravais-Pearson.
2.5.5
Nebenpfad: Bravais-Pearson-Korrelation
Die Bravais-Pearson-Korrelation beschreibt den linearen Zusammenhang zwischen zwei rationalskaliertenund normalverteilten Merkmalen x und y.
13
Auf diesem Koeffizienten basieren die meisten anderen, spezifischen Korrelationsmaße.
Der Korrelationskoeffizient nach Bravais-Pearson wird folgendermaßen berechnet:
Pn
(xi − x̄)(yi − ȳ)
cov(x, y)
1
=
(12)
r(x, y) = · i=1
n
sx · sy
sx · sy
Je größer der Korrelationskoeffizient ist, desto stärker ist der Zusammenhang
zwischen den Merkmalen. Ein Koeffizient von +1 steht für einen perfekt“ po”
sitiven Zusammenhang, 0 bedeutet, dass kein linearer Zusammenhang besteht
und ein Koeffizient von -1 steht für einen perfekt negativen Zusammenhang.
14
3
3.1
Abhängige
und
unabhängige
Merkmale
Regressionsanalyse
Einleitung
Die Regressionsanalyse ist eines der flexibelsten und am häufigsten eingesetzten statistischen Analyseverfahren. Sie analysiert Beziehungen zwischen einem
abhängigenMerkmal und einem oder mehreren unabhängigen Merkmal(en).
Sie dient insbesondere dem Erkennen von Zusammenhängen und der Prognose von Werten der abhängigen Merkmale. Beispielsweise können mit der
Regressionsanalyse Zusammenhänge zwischen der Absatzmenge eines Produktes
(abhängiges oder erklärtes Merkmal) und dessen Verkaufspreis (unabhängiges
oder erklärendes Merkmal) untersucht werden.
Skalierung der
Merkmale
Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige
Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische
Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden.
15
3.2
Allgemeines
Vorgehen
Methodenbeschreibung I
Die Regressionsanalyse ermittelt in der Regel aus einer Stichprobe einen Zusammenhang in der Grundgesamtheit. Hierzu muss zuerst eine lineare oder
nichtlineare Regressionsfunktion aufgestellt und dann die Gültigkeit dieser
Funktion für die Grundgesamtheit nachgewiesen werden. Die Regressionsfunktion ist diejenige Funktion, welche den Gesamttrend aller Beobachtungen am
besten wiedergibt.
RegressionsmodellIm ersten Schritt der Regressionsanalyse wird das regressionsanalytische
Modell aufgestellt. Hier muss anhand der vorliegenden Daten überprüft werden, ob sich ein lineares oder ein nichtlineares, ein einfaches oder multivariates Modell am besten zur Darstellung des realen Sachverhaltes eignet.
Das Modell sollte die realen Beziehungen möglichst vollständig enthalten.
Regressionsfunktion
Im zweiten Schritt wird die Regressionsfunktion geschätzt. Die lineare Regressionsfunktion hat die allgemeine Form:
Y = b0 + b1 X1 + b2 X2 + ... + bj Xj + e
(13)
mit Y als abhängigem Merkmal, b0 als konstantem Glied, bj als Regressionskoeffizient des j-ten unabhängigen Merkmals Xj und der
Residualgröße
e.
Um eine möglichst gute Annäherung an die wirkliche Regressionsfunktion zu
erhalten wird versucht, die Abweichungen der beobachteten Werte vom
geschätzten Wert zu minimieren. Hierfür wird eines der wichtigsten statistischen Schätzverfahren, die
Kleinste-Quadrate-Schätzung herangezogen.
Die Regressionsfunktion ist somit diejenige Funktion, welche die Summe der
quadrierten Abweichungen minimiert. Durch die Quadrierung werden größere
Abweichungen stärker gewichtet und es wird vermieden, dass sich positive und
negative Abweichungen kompensieren.
Infoseite
Residualgröße
Die Residualgröße e berücksichtigt, dass in der Realität kaum ein reiner linearer Zusammenhang existiert, aufgrund von Mess- und Beobachtungsfehler
sowie der Nichtberücksichtigung von relevanten unabhängigen Merkmalen. Die
Residualgröße ist also die Abweichung des beobachteten Wertes vom (aufgrund
der Regressionsgleichung) geschätzten Wert für das abhängige Merkmal.
16
3.2.1
Nebenpfad: Methode der kleinsten Quadrate
RegressionsgeradeEine Regressionsgerade wird an die Werte der Stichprobe nach der Methode
der kleinsten Quadrate (MKQ) angepasst.
Die Koeffizienten a und b der Geradengleichung y=a+bx werden über die Gleichung
min
n
X
[yi − (a + bxi )]2
(14)
i=1
bestimmt. D.h. die Summe der Quadrate der vertikalen Abweichungen der Beobachtungen von der Regressionsgeraden wird minimiert.
Schätzung der
Koeffizienten
Die Schätzungen â und b̂ für die Koeffizienten a und b sowie ŝ2 für die Varianz
σ 2 werden über eineP
Nullstellenberechnung bestimmt:
Pn
(xi −x̄)(yi −ȳ)
s
2
P
â = ȳ − b̂ · x̄ b̂ =
= rxy y ŝ2 = 1
2
i=1 (yi − ŷi ) mit den
sx
(xi −x̄)
n−2
arithmetischen Mitteln x̄ und ȳ, den empirischen Standardabweichungen sx und
sy sowie dem empirischen Korrelationskoeffizienten rxy .
17
3.3
Methodenbeschreibung II
Multiple
lineare
Regression
Für die Schätzung multipler linearer Regressionsgleichungen führt die
Kleinste-Quadrate-Schätzung zu einem System von so genannten Normalgleichungen, dessen Lösung je nach Anzahl der unabhängigen Merkmale einen relativ hohen Rechenaufwand erfordert.
Nichtlineare
Regression
Bei der Schätzung nichtlinearer Regressionsfunktionen wird häufig auch
die Maximum-Likelihood-Methode angewendet, welche die Regressionskoeffizienten so ermittelt, dass sich für die Beobachtungen eine maximale Auftretenswahrscheinlichkeit ergibt.
18
3.4
Überprüfen
der
Regressionskoeffizienten
Tests
Im dritten Schritt der Regressionsanalyse wird die Regressionsfunktion global,
d.h. als ganzes geprüft und die einzelnen Regressionskoeffizienten getestet,
ob und wie gut sie zur Erklärung der abhängigen Merkmale beitragen. Wenn ein
Merkmal keinen Beitrag leistet, so kann es aus der Regressionsfunktion entfernt
werden.
Es sollte immer zuerst ein Modell mit allen als relevant erkannten unabhängigen Merkmalen geschätzt werden. Dann können irrelevante Merkmale aus dem
Modell entfernt werden.
Bestimmtheitsmaß
Das Bestimmtheitsmaß misst die Güte der Anpassung der Regressionsfunktion
Residualgrößen. Jedoch
an die empirischen Daten auf Grundlage der
bietet ein gutes Bestimmtheitsmaß noch keine Gewährleistung dafür, dass die
Regressionsfunktion auch für Grundgesamtheit gültige Ergebnisse liefert.
F-Statistik
Daher prüft die F-Statistik, ob das geschätzte Modell über die Stichprobe hinaus
auch für die Grundgesamtheit gültig ist. In die Berechnung der F-Statistik
geht neben der Streuungszerlegung auch der Umfang der Stichprobe mit ein.
t-Test
Wenn die globalen Gütemaße die Güte eines Regressionsmodells nachweisen
können, dann werden die Regressionskoeffizienten mittels des t-Tests einzeln überprüft, ob sie für das Regressionsmodell von Bedeutung sind.
Der t-Test vergleicht den empirisch berechneten mit dem theoretischen tWert der Student-Verteilung zur Überprüfung der Nullhypothese H0 : bj =
0.
19
3.5
Skalierung
Anwendung
Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige
Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische
Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden.
Die Einteilung in abhängige und unabhängige Merkmale muss im Vorfeld
der Analyse aufgrund sachlogischer Zusammenhänge durchgeführt werden.
Anwendungsvoraussetzungen
Es werden mehrere Annahmen an das Regressionsmodell vorausgesetzt:
• Vollständigkeitsannahme: Alle relevanten Einflussgrößen wurden berücksichtigt.
• Normalverteilung, Homoskedastizität: Es wird vorausgesetzt, dass
für einen Wert x von X die Zufallsgröße Y normaverteilt ist mit dem Erwartungswert E : Y = a + bx und einer von x unabhängigen Streuung
V arY = σ 2 . Dies bedeutet, dass die Residualgröße als Realisierung einer Zufallsgröße Ej interpretiert werden kann, die normalverteilt ist mit
Erwartungswert 0 und Streuung σ 2 . Die Vorausetzung, dass die Streuung
nicht von x abhängt bedeutet, dass an jeder Stelle x der Regressionsgeraden der Fehler der y-Werte von x unabhängig ist, d.h. an jeder Stelle x
ist die gleiche Genauigkeit gegeben. Die Normalverteilungsannahme kann
z.B. mit einem Histogramm oder einem Normal-Quantil-Plot überprüft
werden.
• Abwesenheit von Autokorrelation: Insbesondere bei Zeitreihendaten
hängen die Residualgrößen benachbarter Beobachtungen voneinander ab
- dies wird Autokorrelation genannt. Mit der Durbin-Watson-Statistik
kann überprüft werden, ob Autokorrelation vorliegt.
• Zwischen den unabhängigen Merkmalen besteht keine Abhängigkeit.
• Bei linearen Modellen wird die Linearität vorausgesetzt. Um dies zu überprüfen werden partielle Residuenplots erstellt. Sind dort nichtlineare Zusammenhänge erkennbar muss das Regressionsmodell angepasst werden.
Liegen diese Voraussetzungen nicht vor, so ist nicht sichergestellt, dass das Regressionsmodell den analysierten Zusammenhang korrekt abbildet.
20
4
4.1
Assoziationsregeln I
Allgemeines
Ziel der
Assoziationsanalyse
Ziel der Assoziationsanalyse ist es, für den Benutzer interessante Zusammenhänge in großen Datenbeständen zu finden.
Cross-Selling
Die der Assoziationsanalyse zu Grunde liegende Problemstellung tritt in der
Praxis beispielsweise bei der Produktpräsentation im Supermarkt auf. Das
so genannte Cross-Selling (wer Produkt A kauft, kauft auch B) bietet Anhaltspunkte für die Optimierung der Warenplatzierung.
Die Assoziationsanalyse ist ein Hilfsmittel, um solche Cross-Selling-Zusammenhänge
aus der Menge aller Transaktionen in einem Supermarkt zu finden.
AssoziationsregelnEine Assoziationsregel besteht aus einer Kombination von Ereignissen mit einer Prämisse (enthält die unabhängigen Variablen) und einer Konklusion
(abhängige Variablen). Ein Ereignis ist beispielsweise der Kauf von Produkt
A. Als Transaktion bezeichnet man eine Menge von gemeinsam vorkommenden
Ereignissen (z.B. ein Einkauf), aus denen Regeln abgeleitet werden können.
21
4.2
Konfidenz und Support
Gütemaße für
Assoziationsregeln
Gütemaße für Assoziationsregeln sind die Kriterien Konfidenz und Support.
Bei Algorithmen, die auf Basis dieser Kriterien arbeiten, wird auch vom SupportKonfidenz-Ansatz gesprochen.
Support ist der relative Anteil der Transaktionen, die eine bestimmte Assoziationsregel abdeckt, an allen Transaktionen. Konfidenz ist der relative Anteil der
Beziehungen, auf welche die Prämisse zutrifft, an allen Transaktionen auf welche
die gesamte Regel zutrifft.
Generieren
von Assoziationsregeln
Das Auffinden von Assoziationsregeln ist ein zweistufiger Prozess.
Im ersten Schritt werden alle Ereigniskombinationen analysiert und diejenigen weiter untersucht, welche mindestens eine minimale Häufigkeit unter
allen Kombinationen besitzen.
Anschließend werden Assoziationsregeln generiert und interessante Regeln
durch Anwendung der Kriterien Support und Konfidenz gefiltert.
Ein Beispiel für das Generieren von Assoziationsregeln finden Sie hier.
Verfahren zur
Assoziationsanalyse
Die Laufzeiten der Verfahren zur Assoziationsanalyse werden typischerweise
vom ersten Schritt der Regelgenerierung dominiert (die Generierung der häufigen Ereigniskombinationen). Optimierungen des zweiten Schritts (der Ableitung
der Regeln) sind kaum relevant.
Im Rahmen des Support-Konfidenz-Ansatzes ist es daher üblich, das Assoziationsproblem auf die Generierung aller häufigen Ereigniskombinationen zu reduzieren. Zur Ermittlung der häufigen Ereigniskombinationen existieren
verschiedene Strategien um die Menge aller möglichen Ereigniskombinationen
zu durchsuchen und zur Bestimmung der Häufigkeit einer solchen Kombination.
Die verschiedenen Verfahren zur Assoziationsanalyse kombinieren die Strategien in unterschiedlicher Weise miteinander, um häufige Kombinationen möglichst
effizient zu finden.
4.2.1
Cross-SellingAnalyse
Nebenpfad: Beispiel
Angenommen ein Elektronik-Händler will das Kaufverhalten seiner Kunden analysieren.
Während der Analyse wird unter anderem eine Beziehung zwischen dem
Kauf von PCs und dem Kauf von Software entdeckt. Die entsprechende
22
Assoziationsregel lautet: Wenn ein PC gekauft wird, dann wird auch Software
”
gekauft.“
Relevanz von
Regeln
Um die Relevanz dieser Regel zu überprüfen werden die Werte für Konfidenz
(30%) und Support (20%) betrachtet. Ein Support von 20% bedeutet, dass in
zwanzig Prozent aller Ereigniskombinationen (Einkäufe) ein PC und Software
zusammen gekauft wurden. Und mit einem Konfidenzwert von 30% wird bei
dreißig Prozent aller PC-Käufe auch Software gekauft.
Interessante
Regeln
Um aus der Menge aller generierten Assoziationsregeln interessante Regeln herauszufiltern, werden meistens untere Grenzwerte für Support und Konfidenz festgelegt. Regeln, welche Support- bzw. Konfidenzwerte unterhalb dieser
Grenzen aufweisen, werden aufgrund ihrer geringen Relevanz nicht betrachtet.
23
4.3
AIS
AIS nach den Autoren AGRAWAL, IMIELINSKI und SWAMI benannt, war
der erste veröffentlichte Algorithmus zur Generierung von Assoziationsregeln
und wurde in [] zusammen mit den Assoziationsregeln eingeführt.
Methodenbeschreibung
AIS führt die Generierung der häufigen Ereigniskombinationen als Breitensuche
durch, d.h. die während eines Durchganges überprüften Kombinationen haben
immer die gleiche Anzahl an Ereignissen.
Der Algorithmus beginnt mit den einelementigen Ereignismengen und überprüft
deren Häufigkeit. Als Kandidaten für mögliche Regeln werden nur diejenigen
Ereigniskombinationen ausgewählt, die eine minimale Häufigkeit aufweisen.
Im nächsten Durchgang wird zu den bisherigen, häufigen Ereigniskombinationen ein neues Ereignis hinzugenommen und die Häufigkeit der so entstandenen
Kombination überprüft. Diese Vorgehensweise wird so lange wiederholt, bis alle
vorhandenen Ereigniskombinationen jeder Transaktion überprüft wurden oder
bis keine Kombination mehr das Kriterium minimaler Häufigkeit erfüllt.
24
4.4
Apriori
Methodenbeschreibung
Der Algorithmus Apriori basiert ebenfalls auf einer Breitensuche, besitzt jedoch
eine separate Kandidatengenerierung auf Grundlage der Abgeschlossenheitseigenschaft des Supports. Diese besagt, dass in einer häufigen, k-elementigen
Ereignismenge auch alle Teilmengen mit weniger als k Elementen häufig sein
müssen.
Apriori generiert deshalb aus der Menge der häufigen (k−1)-Ereigniskombinationen
die Menge der k-Ereigniskombinationen, deren sämtliche (k − 1)-Teilmengen
häufig sind.
Außerdem verwendet Apriori einen Hashbaum um die Häufigkeiten der Ereignismengen zu speichern und zu analysieren.
Anwendung
Nach [] zeichnet sich Apriori dadurch aus, dass er für nicht zu kleine minimale
Supportwerte praktisch beliebig große Datenbanken analysieren kann.
Die Laufzeit des Verfahrens ist mit der anderer Verfahren vergleichbar, lediglich
für vergleichsweise geringe Werte für den minimalen Support ist Apriori anderen
Verfahren bezüglich der Laufzeit unterlegen.
25
4.5
Partition
Methodenbeschreibung
Partition basiert auf der indirekten Häufigkeitsbestimmung einer Ereigniskombination durch Schneiden von Transaktionsmengen.
Dies sei an einem Beispiel erläutert:
Sollen im Suchraum die Häufigkeiten der Ereigniskombinationen {a, b} bestimmt
werden, dann kann die Menge aller Transaktionen T {a, b, c} mit den Ereignissen
{a, b, c} durch den Schnitt zweier Transaktionsmengen erzeugt werden, vorausgesetzt, diese Transaktionsmengen sind bereits bekannt: T {a, b, c} = T {a, b}?
T {a, c}. Die Häufigkeit der Ereigniskombination {a, b, c} berechnet sich somit
zu:
support ({a, b, c}) =
T{a,b} ∩ T{a,c}
TD
(15)
mit TD als Menge aller Transaktionen der Datenbank.
Zerlegung der
Datenbank
Für die Implementierung der Breitensuche mit indirekter Häufigkeitsbestimmung werden aus Effizienzgründen jeweils die Transaktionsmengen zu sämtlichen Ereigniskombinationen einer Ebene k gleichzeitig im Hauptspeicher benötigt.
Um dies auch bei großen Datenbanken implementieren zu können, wird die Datenbank in Teilmengen zerlegt, die nacheinander separat bearbeitet werden. Für jede Ereigniskombination einer Teilmenge wird der Support bestimmt.
Die abschließende Supportbestimmung wird über Schnittmengenbildung für jede
Teilmenge durchgeführt und die Ergebnisse zu den globalen Supportwerten
summiert.
26
4.6
PreSample
PreSample und Eclat
In [] wird ein als PreSample bezeichneter Algorithmus erläutert, welcher mit
vielen anderen der vorgestellten Methoden kombiniert werden kann. PreSample
verkleinert die zu durchsuchende Transaktionsmenge durch das Voranstellen
einer Stichprobenziehung.
Die Repräsentativität dieser Stichprobenziehung wird im Anschluss an die eigentliche Generierung der Assoziationsregeln (z.B. mit Apriori) überprüft. Ist
diese nicht gewährleistet, so muss eine erneute Stichprobenziehung durchgeführt
werden.
Eclat
Mit dem Algorithmus Eclat [] wurde die Generierung aller häufigen Ereigniskombinationen erstmals mittels einer Tiefensuche realisiert. Die Bestimmung
der Supportwerte erfolgt indirekt durch Schneiden von Transaktionsmengen.
Während des Absteigens im Suchraum ist es bei der Tiefensuche lediglich notwendig, die Transaktionsmengen der Ereigniskombinationen eines Suchpfades
auf dem Weg von der Wurzel bis zu einem Blatt gleichzeitig im Hauptspeicher
zu halten. Daher können auch für sehr große Datenbanken sämtliche, für die
Schnitte benötigten, Transaktionsmengen im Hauptspeicher abgelegt werden,
ohne beispielsweise die Transaktionsdatenbank aufteilen zu müssen.
Die Laufzeiten von Eclat sind nach [] zumeist vergleichbar mit den von Apriori
erreichten Laufzeiten. Der Hauptspeicherbedarf wächst wie der von FP-Growth
ungefähr linear mit der Anzahl zugrunde liegender Transaktionen, die von []
gemessenen Werte liegen jedoch weit unter denen von FP-Growth.
27
4.7
FP-Growth
Tiefensuche in
einem
FP-Baum
Mit FP-Growth wird von [] der Ansatz von AIS wieder aufgegriffen.
FP-Growth basiert jedoch auf einer Tiefensuche in einer als FP-Baum aufbereiteten Datenbasis. Grundlage der Suche bilden alle häufigen 1-Ereigniskombinationen.
Ausgehend von jedem dieser Ereignisse wird der Suchraum durchlaufen, indem
zu der jeweils aktuellen Ereigniskombination ein Ereignis hinzugenommen wird,
welches mit der aktuellen Kombination in mindestens einer Transaktion enthalten ist. Der Suchpfad durchläuft also nur tatsächlich vorkommende Ereigniskombinationen.
Häufigkeit von
Ereigniskombinationen
Für die Häufigkeitsbestimmung zählt FP-Growth das direkte Vorkommen
von Ereigniskombinationen. Dazu greift der Algorithmus jeweils nicht auf
die gesamte Datenbank zurück, sondern schränkt schrittweise die Datenbasis
ein.
Wird beispielsweise die Häufigkeit der Ereigniskombination {y, z} bestimmt,
dann werden nur die Transaktionen betrachtet, die Ereignis z enthalten. Wird
weiter rekursiv zu Ereigniskombination {x, y, z} abgestiegen, so werden lediglich
die Transaktionen, die {y, z} enthalten, betrachtet etc. Dieses Vorgehen wird mit
FP-Bäumen effizient implementiert.
Laufzeit
FP-Growth erreicht nach [] auf vielen der dort untersuchten Datensätze die mit
Abstand kürzesten Laufzeiten. Für anspruchsvollere Datensätze mit einer
großen Anzahl an häufigen Ereigniskombinationen nähern sich die Laufzeiten
von FP-Growth allerdings zunehmend an die der anderen Verfahren an. Die
Generierung häufiger Ereigniskombinationen mittels FP-Growth weist in den
meisten Fällen einen sehr hohen Speicherbedarf auf. Für die Analyse sehr
großer Datenbanken sieht [] FP-Growth als nicht geeignet an.
28
5
5.1
Assoziationsregeln II
Taxonome Assoziationsregeln I
Taxonome Assoziationsregeln nutzen den Sachverhalt, dass in vielen realen Anwendungen die einzelnen Ereignisse hierarchisch zu Ereignisgruppen zusammengefasst werden können.
Beispielsweise werden Produkte zu Produktfamilien und diese wiederum zu Produktkategorien zusammengefasst. Hierdurch wird die Analyse von Regeln wie
Wenn ein PC gekauft wird, dann wird auch ein Linux-Betriebssystem gekauft“
”
möglich.
Hierarchieebenen Dies erleichtert für den Benutzer die Navigation durch die gesamte Menge der
Ereignisse erheblich, da jede Hierarchieebene einen anderen Blickwinkel auf das
Assoziationsproblem ermöglicht. Weiterhin sind differenzierte unter Grenzen für Support und Konfidenz für unterschiedliche Hierarchiestufen möglich.
Dies ermöglicht eine feinere Differenzierung dieser Gütemaße.
So können beispielsweise in unteren Hierarchieebenen die Grenzen für den Support verringert werden.
29
5.2
Generierung
taxonomer
Assoziationsregeln
Taxonome Assoziationsregeln II
Eine solche Taxonomie kann als gerichteter azyklischer Graph dargestellt werden. Um die Verfahren zur Generierung einfacher Assoziationsregeln (AIS, Apriori, Partition, PreSample, FP-Growth) auf taxonome Assoziationsregeln erweitern zu können, müssen die Algorithmen die auf den Ereignissen definierte Taxonomie mit in die Regelgenerierungeinbeziehen.
Zu diesem Zweck genügt es, wenn zu jedem Ereignis sämtliche Vorfahren im
Ereignis-Baum bekannt sind. Damit ist es möglich, jede Transaktion mit all den
Ereignissen zu erweitern, die Vorfahr mindestens eines der bereits in der Transaktion enthaltenen Ereignisse sind. Anhand derart aufbereiteter Transaktionen
werden dann mit einer der oben beschriebenen Methoden häufige Ereigniskombinationen erzeugt.
Laufzeiten
Die resultierenden Verfahren der Assoziationsanalyse, die Taxonomien benutzen, haben in der Regel kürzere Laufzeiten als vergleichbare Methoden
ohne Taxonomien.
30
5.3
DBLearn und DBMiner
Konzepthierarchien
DBLearn (Database Learning System) [] und seine Weiterentwicklung DBMiner
arbeiten mit relationalen Datenbankoperationen und verwenden Konzepthierarchien als Hintergrundwissen.
Konzepthierarchien sind die hierarchische Anordnung von Merkmalen. Für ein
Beispiel mit den Merkmalen Name“, Wohnort“, Beruf“, Einkommen“ könn”
”
”
”
te das Merkmal Wohnort“ Aachen sein. Dann kann dies zu Nordrhein-Westfahlen
”
oder der BRD verallgemeinert werden.
Regeltypen
Die Regeln werden generalisiert, indem das aus den Konzepthierarchien vorhandene Hintergrundwissen genutzt wird. Es werden drei Typen von Regeln
unterschieden:
• Charakteristische Regeln beschreiben Eigenschaften, die von allen Beispielen erfüllt werden.
• Unterscheidungsregeln beschreiben Eigenschaften, welche eine Teilmenge von Beispielen von einer anderen Teilmenge unterscheidet.
• Bei quantitativen Regeln wird angegeben, wie viele Beispiele durch
sie beschrieben werden. Dies wird durch ein zusätzliches Attribut Vote“
”
realisiert, welches angibt, wie viele Beispiele eine Regel abdeckt.
31
5.4
DBLearn und DBMiner
Generalisierung Bei DBLearn wird die gesamte Beispielmenge als erste, elementare Regel interpretiert wie beispielsweise WENN Wohnort = Aachen UND Beruf = Ingenieur
”
DANN Gehalt ¿ 35.000“. Dann werden durch Generalisierung allgemeinere
Regeln aufgebaut.
Hierzu werden bestimmte Merkmalswerte in Beispielen wiederholt durch das
generellere Merkmal der nächst höheren Konzeptebene ersetzt wie beispielsweise WENN Wohnort = NRW UND Beruf = Ingenieur DANN Gehalt ¿ 35.000.
”
Ergeben sich hierdurch identische Beispiele, so werden diese zu Beispielkomplexen zusammengefasst und deren Wert von “Vote entsprechend der Anzahl
”
der durch sie repräsentierten Beispiele erhöht.
Diese Vorgehensweise wird nach bestimmten Vorschriften so lange wiederholt,
bis die Anzahl der Beispielkomplexe unterhalb einer definierten Schwelle liegt.
Nachteile von
DBLearn
Die mit dem Algorithmus bestimmten charakteristischen Regeln werden jedoch
nur nach ihrer Komplexität ausgewählt, d.h. es wird die Auswahl weniger
und unkomplizierter Regeln bevorzugt. Dies sagt jedoch nichts darüber aus, ob
diese Regeln für den Anwender interessant sind.
Auch gehen beim Aufstieg in der Konzepthierarchie viele Eigenschaften der
Beispielmenge verloren.
Welche Merkmale weiterverfolgt werden und welche nicht, hängt vom Wissen
und den Vorstellungen des Anwenders ab.
32
5.5
Quantitative
Merkmale
Quantitative Assoziationsregeln
Quantitative Assoziationsregeln können im Gegensatz zu einfachen Regeln wie
AIS, Apriori oder FP-Growth nicht nur kategoriale sondern auch rationalskalierteMerkmale verarbeiten.
Beispiel einer solchen Assoziationsregel ist die Beziehung Wenn das Geschlecht
”
männlich ist und das Alter¿16, dann wird ein Rasierapparat gekauft“.
IntervallskalierungRationalskalierte Merkmale (im vorherigen Beispiel das Alter) können in einem
sehr breiten Wertebereich definiert sein. Deshalb werden diese Wertebereiche
in Intervalle unterteilt, welche sich im Verlauf der Regelgenerierung und filterung verändern können. Ein Beispiel für einen quantitativen Algorithmus
ist ARCS (Association Rule Clustering System), der von [] vorgestellt wurde.
33
6
6.1
Literatur und Methoden
Literatur zur Korrelations- und Regressionsanalyse
Literaturverzeichnis
[]
Clauß, G./Finze, F.-R., Partzsch, L.: Statistik für Soziologen, Pädagogen,
Psychologen und Mediziner. 2. Aufl., Harri Deutsch, Frankfurt 1995.
[]
Draper, N.R./Smith, H.: Applied Regression Analysis. 2nd ed., Wiley,
New York 1981.
[]
Fahrmeier, L./Hamerle, A.: Multivariate statistische Verfahren. De
Gruyter, Berlin New York 1984.
[]
Förster, E./Rönz, B.: Methoden der Korrelations- und Regressionsanalyse. Die Wirtschaft, Berlin 1979.
[]
Schach, S./Schäfer, T.: Regressions- und Varianzanalyse. Springer, Berlin
Heidelberg New York 1978.
[]
Seber, G.A.F./Wild, C.J.: Nonlinear regression. Wiley, New York 1989.
[]
Storm, R.: Wahrscheinlichkeitsrechnung Mathematische Statisitik und
statistische Qualitätskontrolle. 10. Aufl., Fachbuchverlag, Leipzig Köln
1995.
6.1
Literatur zur Assoziationsanalyse
Literaturverzeichnis
Einführende Literatur
Adriaans, P./Zantinge, D.: Data Mining. Addison-Wesley, Harlow
1996.
Berry, M. J. A./Linoff, G.: Data Mining Techniques: For Marketing, Sales
and Customer Support. Wiley Computer Publishing, New York 1997.
Hand, D. J.: Construction and Assessment of Classification Rules. John
Wiley & Sons, Sussex 1997.
Hipp, J.: Wissensentdeckung in Datenbanken mit Assoziationsregeln.
Tübingen, Fakultät für Informations- und Kognitionswissenschaften,
34
Dissertation, 2003.
Klösgen, W./Zytkow, J. M. (Hrsg.): Handbook of Data Mining and
Knowledge Discovery. Oxford University Press, Oxford 2002.
Krahl, D./Windheuser, U./Zick, F.-K.: Data Mining: Einsatz in der
Praxis. Addison Wesley, Bonn 1998. Weiterführende Literatur
Agrawal, R./Imielinski, T./Swami, A.: Mining Association Rules
between Sets of Items in Large Databases, in: Proceedings of the ACM
SIGMOD International Conference on Management of Data (ACM
SIGMOD ’93). Washington, 1993, pp. 207-216.
Fu, Yongjian: Discovery of Multiple-Level Rules from Large Databases.
Burnaby, Canada, Simon Fraser University, PhD Thesis, 1996.
Han, J./Cai, Y./Cercone, N.: Knowledge Discovery in Databases:
An Attribute-Oriented Approach, in: Yuan, L. (ed.): Proceedings
of the 18th International Conference on Very Large Databases,
Morgan Kaufmann, San Francisco 1992, pp. 547-559, auf URL: citeseer.nj.nec.com/han92knowledge.html.
Han, J./Pei, J./Yin, Y.: Mining Frequent Patterns without Candidate
Generation, in: Proceedings of the 2000 ACM-SIGMOD International
Conference on Management of Data. Dallas, Texas, Mai 2000, pp. 1-12.
Han, J./Kamber, M.: Data Mining: Concepts and Techniques. Morgan
Kaufmann, San Francisco 2001.
Hong, T.-P./Kuo, C.-S./Chi, S.-C.: Mining Association Rules from Quantitative Data, in: Intelligent Data Analysis, Vol. 3, 1999, pp. 363-376.
Lent, B./Swami, A./Widom, J.: Clustering Association Rules, in: Proceedings of the 1997 International Conference on Data Engineering
(ICDE’97). Birmingham, April 1997, pp. 220-231.
Park, J. S./Chen, M./ Yu, P. S.: An Effective Hash-Based Algorithm for
Mining Association Rules, in: Proceedings of the 1995 ACM SIGMOD
International Conference on Management of Data. San Jose, California,
Mai 1995, pp. 175-186.
Toivonen, H.: Discovery of Frequent Patterns in Large Data Collections.
University of Helsinki, Department of Computer Science, PhD Thesis,
1996.
Wittmann, Thomas: Wissensentdeckung in Datenbanken mit adaptiven Regelsystemen. Jena, Wirtschaftswissenschaftliche Fakultät der
Friedrich-Schiller-Universität, Dissertation, 1999.
Zaki, M. J./Parthasarathy, S./Ogihara, M./Li, W.: New Algorithms
for Fast Discovery of Association Rules. Forschungsbericht Nr. 651,
Computer Science Department, University of Rochester, Rochester 1997.
6.1
Methodenverzeichnis
Verzeichnis der erläuterten Methoden der Abhängigkeitsanalyse
35
AIS
Apriori
DBLearn
DBMiner
Eclat
FP-Growth
Kleinste-Quadrate-Schätzer
Korrelationsanalyse
Partition
PreSample
Regressionsanalyse
t-Test
36
Herunterladen