Methoden der Abhängigkeitsanalyse

Methoden der Abhängigkeitsanalyse
Mike Hüftle
28. Juli 2006
Inhaltsverzeichnis
1 Einleitung
1.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2 Korrelationsanalyse
2.1 Kovarianz und Korrelation . . . . . . . . . . . . . . . .
2.2 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . .
2.3 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . .
2.4 Anwendung . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Korrelationsmaße . . . . . . . . . . . . . . . . . . . . .
2.5.1 Nebenpfad: Weitere Korrelationsmaße . . . . .
2.5.2 Nebenpfad: Kendalls Tau . . . . . . . . . . . .
2.5.3 Nebenpfad: Diskordanz, Konkordanz und Ties
2.5.4 Nebenpfad: Spearman-Korrelation . . . . . . .
2.5.5 Nebenpfad: Bravais-Pearson-Korrelation . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
6
7
8
8
9
9
12
12
3 Regressionsanalyse
3.1 Einleitung . . . . . . . . . .
3.2 Methodenbeschreibung I . .
3.2.1 Nebenpfad: Methode
3.3 Methodenbeschreibung II .
3.4 Tests . . . . . . . . . . . . .
3.5 Anwendung . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
der kleinsten Quadrate
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
15
16
17
18
19
4 Assoziationsregeln I
4.1 Allgemeines . . . . . . . . .
4.2 Konfidenz und Support . .
4.2.1 Nebenpfad: Beispiel
4.3 AIS . . . . . . . . . . . . .
4.4 Apriori . . . . . . . . . . . .
4.5 Partition . . . . . . . . . . .
4.6 PreSample und Eclat . . . .
4.7 FP-Growth . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
21
23
24
25
26
27
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Assoziationsregeln II
5.1 Taxonome Assoziationsregeln I
5.2 Taxonome Assoziationsregeln II
5.3 DBLearn und DBMiner . . . .
5.4 DBLearn und DBMiner . . . .
5.5 Quantitative Assoziationsregeln
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
29
30
31
32
6 Literatur und Methoden
33
6.1 Literatur zur Korrelations- und Regressionsanalyse . . . . . . . . 33
6.1 Literatur zur Assoziationsanalyse . . . . . . . . . . . . . . . . . . 33
6.1 Methodenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 34
2
1
Einleitung
1.1
Methoden der
Abhängigkeitsanalyse
Abhängige
und
unabhängige
Merkmale
Die Methoden der Abhängigkeitsanalyse entdecken und quantifizieren Abhängigkeiten in einer Datenmenge. Hierzu stehen statistische Methoden wie die Regressionsanalyse und und Methoden der künstlichen Intelligenz zur Verfügung.
Es wird unterschieden, ob die Richtung des Einflusses, den ein Merkmal
ausübt, bekannt ist oder nicht.
Bei der Regressionsanalyse wird vorausgesetzt, dass bekannt ist, welches
Merkmal oder welche Merkmale unabhängige Variablen sind (die beeinflussenden Merkmale) und welches Merkmal die abhängige Variable ist (das beeinflusste Merkmal).
Methoden, die diese Unterscheidung in abhängige und unabhängige Merkmale
nicht voraussetzen, sind die Korrelationsanalyse und die Assoziationsanalyse.
WarenkorbanalyseEin klassisches Beispiel für die Abhängigkeitsanalyse ist die Warenkorbanalyse,
die untersucht, ob es Zusammenhänge im Einkaufsverhalten bei der Produktauswahl von Kunden gibt (z.B. im Supermarkt).
Diese Informationen können beispielsweise bei einer verkaufsfördernden Platzierung von Produkten hilfreich sein.
3
2
2.1
Lineare Zusammenhänge
Kovarianz
Korrelationsanalyse
Kovarianz und Korrelation
Kovarianz und Korrelation sind statistische Kenngrößen, die den linearen Zusammenhang zwischen zwei Merkmalen beschreiben.
Die Kovarianz wird berechnet zu:
cov(X, Y ) = E[(X − µx )(Y − µY )]
(1)
Die Kovarianz cov(X, Y ) hat in der praktischen Handhabung einen entscheidenden Nachteil: Sie ist abhängig vom Maßstab der Merkmale und der
Streuung.
Durch die Normierung der Kovarianz cov(X, Y ) mit dem Produkt der Standardabweichungen von X und Y werden die Maßstabs- bzw. Streuungsunterschiede
zwischen den Merkmalen X und Y relativiert. Dies führt auf den Korrelationskoeffizienten.
Korrelationskoeffizient
Der Korrelationskoeffizient ist ein normiertes Maß für den linearen Zusammenhang zwischen den Zufallsgrößen X und Y :
ρXY =
E[(X − µX )(Y − µY )]
ρX ρY
(2)
mit den Standardabweichungen und Mittelwerten ρX , ρY , µX , µY . Es gilt
außerdem: ρXY = ρY X und −1 ≤ ρXY ≤ +1. Ist der Korrelationskoeffizient 0,
so heißen die Merkmale unkorreliert.
Empirische
Kovarianz
Die empirische Kovarianz macht die Berechnung der Kovarianz für beobachtete
möglich. Für die Kombination der (xi , yi ) wird sie berechnet zu:
n
sxy =
1 X
(xi − x̄)(yi − ȳ)
n − 1 i=1
Es gilt sxy = syx .
4
(3)
Empirischer
Korrelationskoeffizient
Durch die Normierung der empirischen Kovarianz mit den Standardabweichungen sx und sy ist der empirische Korrelationskoeffizient definiert:
rxy =
Pn
(xi − x̄)(yi − ȳ)
sxy
= pPn i=1
Pn
2
2
sx · sy
(x
i=1 (yi − ȳ)
i=1 i − x̄)
(4)
Es gilt rxy = ryx .
Der empirische Korrelationskoeffizient ist ein Maß für die relative Stärke
und Richtung des linearen Zusammenhangs zwischen den Merkmalen x
und y. Er kann alle Werte zwischen -1 und +1 annehmen.
Bei rxy < 0spricht man von negativer Korrelation und bei rxy > 0 von
positiver Korrelation.
5
2.2
Korrelationsanalyse
Die Korrelationsanalyse untersucht lineare statistische Zusammenhänge
zwischen zwei oder mehr Merkmalen. Es wird analysiert, ob ein Zusammenhang
besteht und wie stark dieser Zusammenhang ist.
Bei zwei rationalskalierten Merkmalen x und y eines Datensatzes kann die Korrelation anhand einer Grafik erklärt werden. Es wird zwischen den folgenden
Situationen unterschieden:
• Es besteht ein positiver Zusammenhang zwischen den Merkmalen,
d.h. je größer die Merkmalsausprägungen des einen Merkmals sind, desto größer sind die des anderen Merkmals. Der Korrelationskoeffizient rxy
ist größer 0.
• Es besteht ein negativer Zusammenhang, d.h. je größer die Ausprägungen des einen Merkmals sind, desto kleiner sind die des anderen Merkmals.
Der Korrelationskoeffizient rxy ist kleiner 0.
• Es besteht kein Zusammenhang zwischen den Merkmalen, d.h. die Ausprägung des einen Merkmals wirkt sich nicht auf die des anderen Merkmals
aus. Die Merkmale sind unabhängig voneinander. Der Korrelationskoeffizient rxy ist gleich 0.
• Es besteht ein nichtlinearer Zusammenhang. Dieser kann nicht mit
der Korrelationsanalyse erklärt werden.
6
2.3
Stärke des Zusammenhangs
Korrelationsanalyse
Die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen kann aus
dem Korrelationskoeffizienten bestimmt werden. Das Quadrat des Korrelationskoeffizienten ist der relative Anteil der Variabilität des Merkmals y, der
durch Merkmal x erklärt werden kann.
Ist z.B. rxy = 0.1, so ist 1% der Variabilität von y erklärt, bei rxy = 0.5 25%
der Variabilität. Je kleiner der Korrelationskoeffizient ist, desto schwächer ist
also der Zusammenhang zwischen x und y.
Signifikanztest
Die Entscheidung darüber, ob ein empirischer Korrelationskoeffizient einen statistisch gesicherten Zusammenhang nachweist, hängt vom Umfang der
Stichprobe n ab. Deshalb ist die Überprüfung mit einem statistischen Test unbedingt zu empfehlen.
Hierzu wird eine Testgröße berechnet, z.B.
rxy ·
tr = √
√
n−2
2
1−rxy
mit tr als Realisierung einer mit m = n − 2 Freiheitsgraden t-verteilten Zufallsgröße. Der p-Wert gibt die Wahrscheinlichkeit an, mit der die berechnete
Korrelation zufällig entstanden ist:
p − W ert = P (t1,n−2 < tr )
In der Regel gilt für p < 0, 05 die Korrelation als signifikant, d.h. nicht zufällig.
Für die unterschiedlichen Korrelationskoeffizienten werden verschiedenen Testgrößen verwendet.
7
2.4
Anwendung
Anwendungsvoraussetzungen
Wesentliche Voraussetzungen für die Anwendung der Korrelationsanalyse sind:
• Bei rationalskaliertenMerkmalen x und y müssen diese annähernd einer
zweidimensionalen Normalverteilung genügen.
• Der Zusammenhang muss linear sein. Dies kann grafisch anhand eines
Scatter-Plots überprüft werden.
• Die Daten sollten vor der Korrelationsanalyse von Ausreissernbereinigt
werden, da diese die Berechnung des Korrelationskoeffizienten erheblich
verzerren können.
Interpretation
der
Korrelation
Die Korrelationsanalyse trifft keine Aussage über einen kausalen Zusammenhang der Merkmale.
Beispielsweise gibt es einen negativen Zusammenhang zwischen der abnehmenden Geburtenrate in Deutschland und dem Rückgang der Gletscher am Nordpol. Man spricht hier von der so genannten Konfudierung, d.h. beide Merkmale
hängen nicht voneinander, sondern von einem gemeinsamen dritten Merkmal ab
(hier der Zeit).
Zur Interpretation des Korrelationkoeffizienten gehört immer ein Scatter-Plot
anhand dessen die Annahme der Linearität überprüft werden kann. Außerdem
werden so Untergruppen der Daten erkennbar, welche für sich genommen eine andere Korrelation aufweisen und es können Ausreisser identifiziert werden,
welche die Korrelation verzerren.
8
2.5
Korrelationsmaße
Es existiert eine Vielzahl unterschiedlicher Korrelationsmaße in Abhängigkeit
von der Skalierung der analysierten Merkmale.
Die Tabelle gibt einen Überblick über wichtige Korrelationsmaße.
Dichotom
Kategorisch
Ordinal
Rational
Skalenniveau
2.5.1
PhiKoeffizient/
Tetrachorische
Korrelation
Kontingenz-}
koeffizient C/
Cramers V
Biseriale
Rangkorrelation
Kontingenz-}
koeffizient C/
Cramers V
Kendalls
Tau/
SpearmanKorrelation
BravaisPearson
Punktbiseriale
Korrelation
Dichotom
Kategorisch
Ordinal
Rational
Nebenpfad: Weitere Korrelationsmaße
Biseriale
Rangkorrelation
Die biseriale Rangkorrelation misst den Zusammenhang zwischen einem
dichotomenund einem ordinalskaliertenMerkmal. Die Signifikanz dieser Statistik wird in der Regel mit dem Mann-Whitney-Test überprüft.
Tetrachorische
Korrelation
Die Tetrachorische Korrelation misst den Zusammenhang zweier metrischerMerkmale,
die künstlich dichotomisiert wurden (d.h. in je zwei Kategorien eingeteilt).
PhiKoeffizient
Der Phi-Koeffizient basiert auf der χ2 -Statistik und misst den Zusammenhang
zwischen zwei dichotomenoder künstlich dichotomisierten Merkmalen
(z.B. männlich-weiblich, Raucher-Nichtraucher).
9
2.5.2
Nebenpfad: Kendalls Tau
Zur Bestimmung von Kendall’s Tau muss eine Ordnungsrelation der beiden
untersuchten Merkmale x und y gebildet werden.
Hierzu wird jedes Paar von Merkmalsausprägungen (xi , yi ) mit jedem anderen
Paar (xk , yk ) verglichen.
Es wird die Anzahl c der konkordanten und die Anzahl d der diskordanten
Ties Tx in Merkmal x und Ty in Merkmal y
Paarvergleiche sowie die der
gezählt.
2.5.3
Konkordanz
Diskordanz
Ties
Nebenpfad: Diskordanz, Konkordanz und Ties
Als konkordant (übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk ))
bezeichnet, die eine gleiche Ordnungsrelation in den Merkmalsauspträgungen
von x und y besitzen, d.h.
xi < xk ; yi < yk oder xi > xk ; yi > yk
Als diskordant (nicht übereinstimmend) werden die Beobachtungspaare ((xi , yi ), (xk , yk ))bezeichnet,
die eine gegenläufige Ordnungsrelation in den Merkmalsausprägungen besitzen,
d.h.:
xi < xk ; yi > yk oderxi > xk ; yi < yk
Als Ties (Verknüpfungen) werden Beobachtungspaare ((xi , yi ), (xk , yk )) gezählt,
die in einem der beiden Merkmale x,y oder in beiden Merkmalen die gleichen
Merkmalswerte besitzen. Es gibt somit drei Typen von Ties:
• Ties in x, aber nicht in y. Diese werden mit Tx bezeichnet.
• Ties in y, aber nicht in x. Diese werden mit Ty bezeichnet.
• Ties in x und y. Diese werden mit Txy bezeichnet.
Kendall’s τa
Wenn keine Ties in den Merkmalen vorkommen, so kann Kendall’s τa angewendet werden:
τa =
2(c − d)
n(n − 1)
10
(5)
Kendall’s τb
Kendall’s τb berücksichtigt Ties in den Merkmalen x und y, jedoch keine
Ties in beiden Merkmalen gleichzeitig. Deshalb sollte Kendall’s τb nur dann angewendet, wenn es keine Ties τa gibt.
Dieser Koeffizient findet insbesondere bei quadratischen nxn-Kontingenztabellen
Anwendung.
c−d
τb = p
(c + d + Tx )(c + d + Ty )
Kendall’s τc
(6)
Kendall’s τc berechnet sich zu:
τc =
2m(c − d)
(m − 1)n2
(7)
wobei m das Minimum aus Zeilen- und Spaltenzahl der Kontingenztabelle ist.
Kendall’s τc kann auch auf asymmetrische Kontingenztabellen angewendet werden.
Beispiel 1
Bei der Evaluation des Lehrangebotes von Lehrstuhl C bewerten die Studenten
eine Lehrveranstaltung nach zwei Merkmalen Vorlesungsinhalt“ und Didaktik
”
”
des Dozenten“ mit Schulnoten von 1 bis 6. Es soll nun untersucht werden, ob
die beiden Merkmale miteinander korrelieren.
Student
Inhalt
Didaktik
Es müssen
S1
1
3
S2
1
3
S3
2
3
S4
3
1
S5
1
2
S6
3
2
S7
2
1
8!
= 28
6!2!
Paarvergleiche zwischen den Bewertungen der Studenten durchgeführt werden.
Hieraus werden die Werte für c=12 konkordante und d=16 diskordante Paarvergleiche ermittelt.
Kendall’s τa ergiebt sich somit zu:
τa =
2(c − d)
2(12 − 16)
=
=≈ −0, 14
n(n − 1)
8·7
d.h. es besteht kein Zusammenhang zwischen den beiden Merkmalen.
11
(8)
S8
4
2
Beispiel 2
Bei der Evaluation des Lehrangebotes von Lehrstuhl D ergiebt sich folgendes
Bild:
Student
S1
S2
S3
S4
S5
S6
Inhalt
1
1
2
3
1
2
Didaktik 3
3
3
1
2
3
Aus den Bewertungen der Studenten ergeben sich die Werte für c=21 konkordante und d=7 diskordante Paarvergleiche ermittelt.
Kendall’s τa ergiebt sich somit zu:
τa =
2(c − d)
2(21 − 7)
=
= 0, 5
n(n − 1)
8·7
(9)
d.h. es besteht ein positiver Zusammenhang zwischen den beiden Merkmalen.
Mit einem Signifikanzniveau von α = 0, 05 wird nun mittels des t-Tests überprüft, ob der Wert von τa = 0, 5 statistisch signifikant ist.
Die Teststatistik wird berechnet zu
|c − d| − 1
T =q
n(n−1)(2n+5)
18
=
13
= 1, 608
8, 08
(10)
Für 1 − α = 0, 95 kann aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung der kritische Wert z0,95 = 1, 645 abgelesen werden.
Da der berechnete t-Wert kleiner ist als der kritische Wert ist, so ist der berechnete positive Zusammenhang zwischen den Merkmalen nicht statistisch
signifikant, d.h. der Zusammenhang könnte zufällig sein.
Anwendung
Kendall’s τ und die Spearman-Korrelation können beide bei der Korrelationsanalyse ordinalskalierter Merkmale eingesetzt werden.
Kendall’s τ wird weniger häufig verwendet als die Spearman-Korrelation, da
die Berechnung sehr viel aufwändiger ist. Der Vorteil von Kendall’s τ ist,
dass die Verteilung dieser Statistik bessere Verteilungseigenschaften hat,
als die der Spearman-Korrelation. Die Aussagen der beiden Statistiken sind in
der Regel sehr ähnlich.
12
S7
1
4
S8
2
4
2.5.4
Nebenpfad: Spearman-Korrelation
Korrelationskoeffizient
Mit dem Rang-Korrelationskoeffizienten nach Spearman kann der Zusamnach menhang zwischen zwei ordinalskaliertenMerkmalen oder zwischen nichtSpearman normalverteilten rationalskalierten Merkmalen bestimmt werden. Der Koeffizient berechnet sich nach der folgenden Formel:
Pn
(R(xi ) − R̄(x))(R(yi ) − R̄(y))
(11)
rs = qP i=1
Pn
n
2
2
(R(y
)
−
R̄(y))
(R(x
)
−
R̄(x))
i
i
i=1
i=1
mit R(xi ) als Rangzahl (Ordinalwert) der i-ten Merkmalsausprägung von Merkmal x und R̄(x) als dem Mittelwert aller Rangzahlen des Merkmals x.
Interpretation
des
Korrelationskoeffizienten
Der Korrelationskoeffizient nach Spearman kann folgendermaßen interpretiert
werden:
• rs = −1: die Rangzahlen sind gegenläufig, d.h. steigen die Werte des
Merkmals x, so fallen die y-Werte (z.B. Schüler, die in Mathematik eine
gute Note haben in Deutsch schlechte Noten).
• rs = +1: die Rangzahlen sind gleichläufig, d.h. wenn Merkmal x einen
hohen Rangplatz hat, so hat auch y einen hohen Rangplatz (z.B.: Schüler,
die in Mathematik eine gute Note haben , sind auch in Physik gut).
• rs = 0: Es existiert kein Zusammenhang zwischen den Merkmalen.
SpearmanKorrelation
bei rationalskalierten
Merkmalen
Die Spearman-Korrelation wird auch bei rationalskalierten Merkmalen eingesetzt, um die Korrelation robust gegen Ausreisser zu machen. Hierzu wird für
jedes Merkmal eine Ordinalskalierung gebildet, indem die Merkmalswerte geordnet und nummeriert werden: 1 für den niedrigsten Wert, 2 für den zweitniedrigsten usw. Wenn die Merkmale näherungsweise normalverteilt sind, so
entspricht der Korrelationskoeffizient nach Spearman dem Koeffizienten von
Bravais-Pearson.
2.5.5
Nebenpfad: Bravais-Pearson-Korrelation
Die Bravais-Pearson-Korrelation beschreibt den linearen Zusammenhang zwischen zwei rationalskaliertenund normalverteilten Merkmalen x und y.
13
Auf diesem Koeffizienten basieren die meisten anderen, spezifischen Korrelationsmaße.
Der Korrelationskoeffizient nach Bravais-Pearson wird folgendermaßen berechnet:
Pn
(xi − x̄)(yi − ȳ)
cov(x, y)
1
=
(12)
r(x, y) = · i=1
n
sx · sy
sx · sy
Je größer der Korrelationskoeffizient ist, desto stärker ist der Zusammenhang
zwischen den Merkmalen. Ein Koeffizient von +1 steht für einen perfekt“ po”
sitiven Zusammenhang, 0 bedeutet, dass kein linearer Zusammenhang besteht
und ein Koeffizient von -1 steht für einen perfekt negativen Zusammenhang.
14
3
3.1
Abhängige
und
unabhängige
Merkmale
Regressionsanalyse
Einleitung
Die Regressionsanalyse ist eines der flexibelsten und am häufigsten eingesetzten statistischen Analyseverfahren. Sie analysiert Beziehungen zwischen einem
abhängigenMerkmal und einem oder mehreren unabhängigen Merkmal(en).
Sie dient insbesondere dem Erkennen von Zusammenhängen und der Prognose von Werten der abhängigen Merkmale. Beispielsweise können mit der
Regressionsanalyse Zusammenhänge zwischen der Absatzmenge eines Produktes
(abhängiges oder erklärtes Merkmal) und dessen Verkaufspreis (unabhängiges
oder erklärendes Merkmal) untersucht werden.
Skalierung der
Merkmale
Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige
Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische
Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden.
15
3.2
Allgemeines
Vorgehen
Methodenbeschreibung I
Die Regressionsanalyse ermittelt in der Regel aus einer Stichprobe einen Zusammenhang in der Grundgesamtheit. Hierzu muss zuerst eine lineare oder
nichtlineare Regressionsfunktion aufgestellt und dann die Gültigkeit dieser
Funktion für die Grundgesamtheit nachgewiesen werden. Die Regressionsfunktion ist diejenige Funktion, welche den Gesamttrend aller Beobachtungen am
besten wiedergibt.
RegressionsmodellIm ersten Schritt der Regressionsanalyse wird das regressionsanalytische
Modell aufgestellt. Hier muss anhand der vorliegenden Daten überprüft werden, ob sich ein lineares oder ein nichtlineares, ein einfaches oder multivariates Modell am besten zur Darstellung des realen Sachverhaltes eignet.
Das Modell sollte die realen Beziehungen möglichst vollständig enthalten.
Regressionsfunktion
Im zweiten Schritt wird die Regressionsfunktion geschätzt. Die lineare Regressionsfunktion hat die allgemeine Form:
Y = b0 + b1 X1 + b2 X2 + ... + bj Xj + e
(13)
mit Y als abhängigem Merkmal, b0 als konstantem Glied, bj als Regressionskoeffizient des j-ten unabhängigen Merkmals Xj und der
Residualgröße
e.
Um eine möglichst gute Annäherung an die wirkliche Regressionsfunktion zu
erhalten wird versucht, die Abweichungen der beobachteten Werte vom
geschätzten Wert zu minimieren. Hierfür wird eines der wichtigsten statistischen Schätzverfahren, die
Kleinste-Quadrate-Schätzung herangezogen.
Die Regressionsfunktion ist somit diejenige Funktion, welche die Summe der
quadrierten Abweichungen minimiert. Durch die Quadrierung werden größere
Abweichungen stärker gewichtet und es wird vermieden, dass sich positive und
negative Abweichungen kompensieren.
Infoseite
Residualgröße
Die Residualgröße e berücksichtigt, dass in der Realität kaum ein reiner linearer Zusammenhang existiert, aufgrund von Mess- und Beobachtungsfehler
sowie der Nichtberücksichtigung von relevanten unabhängigen Merkmalen. Die
Residualgröße ist also die Abweichung des beobachteten Wertes vom (aufgrund
der Regressionsgleichung) geschätzten Wert für das abhängige Merkmal.
16
3.2.1
Nebenpfad: Methode der kleinsten Quadrate
RegressionsgeradeEine Regressionsgerade wird an die Werte der Stichprobe nach der Methode
der kleinsten Quadrate (MKQ) angepasst.
Die Koeffizienten a und b der Geradengleichung y=a+bx werden über die Gleichung
min
n
X
[yi − (a + bxi )]2
(14)
i=1
bestimmt. D.h. die Summe der Quadrate der vertikalen Abweichungen der Beobachtungen von der Regressionsgeraden wird minimiert.
Schätzung der
Koeffizienten
Die Schätzungen â und b̂ für die Koeffizienten a und b sowie ŝ2 für die Varianz
σ 2 werden über eineP
Nullstellenberechnung bestimmt:
Pn
(xi −x̄)(yi −ȳ)
s
2
P
â = ȳ − b̂ · x̄ b̂ =
= rxy y ŝ2 = 1
2
i=1 (yi − ŷi ) mit den
sx
(xi −x̄)
n−2
arithmetischen Mitteln x̄ und ȳ, den empirischen Standardabweichungen sx und
sy sowie dem empirischen Korrelationskoeffizienten rxy .
17
3.3
Methodenbeschreibung II
Multiple
lineare
Regression
Für die Schätzung multipler linearer Regressionsgleichungen führt die
Kleinste-Quadrate-Schätzung zu einem System von so genannten Normalgleichungen, dessen Lösung je nach Anzahl der unabhängigen Merkmale einen relativ hohen Rechenaufwand erfordert.
Nichtlineare
Regression
Bei der Schätzung nichtlinearer Regressionsfunktionen wird häufig auch
die Maximum-Likelihood-Methode angewendet, welche die Regressionskoeffizienten so ermittelt, dass sich für die Beobachtungen eine maximale Auftretenswahrscheinlichkeit ergibt.
18
3.4
Überprüfen
der
Regressionskoeffizienten
Tests
Im dritten Schritt der Regressionsanalyse wird die Regressionsfunktion global,
d.h. als ganzes geprüft und die einzelnen Regressionskoeffizienten getestet,
ob und wie gut sie zur Erklärung der abhängigen Merkmale beitragen. Wenn ein
Merkmal keinen Beitrag leistet, so kann es aus der Regressionsfunktion entfernt
werden.
Es sollte immer zuerst ein Modell mit allen als relevant erkannten unabhängigen Merkmalen geschätzt werden. Dann können irrelevante Merkmale aus dem
Modell entfernt werden.
Bestimmtheitsmaß
Das Bestimmtheitsmaß misst die Güte der Anpassung der Regressionsfunktion
Residualgrößen. Jedoch
an die empirischen Daten auf Grundlage der
bietet ein gutes Bestimmtheitsmaß noch keine Gewährleistung dafür, dass die
Regressionsfunktion auch für Grundgesamtheit gültige Ergebnisse liefert.
F-Statistik
Daher prüft die F-Statistik, ob das geschätzte Modell über die Stichprobe hinaus
auch für die Grundgesamtheit gültig ist. In die Berechnung der F-Statistik
geht neben der Streuungszerlegung auch der Umfang der Stichprobe mit ein.
t-Test
Wenn die globalen Gütemaße die Güte eines Regressionsmodells nachweisen
können, dann werden die Regressionskoeffizienten mittels des t-Tests einzeln überprüft, ob sie für das Regressionsmodell von Bedeutung sind.
Der t-Test vergleicht den empirisch berechneten mit dem theoretischen tWert der Student-Verteilung zur Überprüfung der Nullhypothese H0 : bj =
0.
19
3.5
Skalierung
Anwendung
Die Regressionsanalyse erfordert, dass sowohl abhängige als auch unabhängige
Merkmale metrisch skaliert sind, wobei binäre Merkmale generell wie metrische
Merkmale behandelt werden können. Auch können nominal skalierte unabhängige Merkmale berücksichtigt werden, wenn diese binär zerlegt werden.
Die Einteilung in abhängige und unabhängige Merkmale muss im Vorfeld
der Analyse aufgrund sachlogischer Zusammenhänge durchgeführt werden.
Anwendungsvoraussetzungen
Es werden mehrere Annahmen an das Regressionsmodell vorausgesetzt:
• Vollständigkeitsannahme: Alle relevanten Einflussgrößen wurden berücksichtigt.
• Normalverteilung, Homoskedastizität: Es wird vorausgesetzt, dass
für einen Wert x von X die Zufallsgröße Y normaverteilt ist mit dem Erwartungswert E : Y = a + bx und einer von x unabhängigen Streuung
V arY = σ 2 . Dies bedeutet, dass die Residualgröße als Realisierung einer Zufallsgröße Ej interpretiert werden kann, die normalverteilt ist mit
Erwartungswert 0 und Streuung σ 2 . Die Vorausetzung, dass die Streuung
nicht von x abhängt bedeutet, dass an jeder Stelle x der Regressionsgeraden der Fehler der y-Werte von x unabhängig ist, d.h. an jeder Stelle x
ist die gleiche Genauigkeit gegeben. Die Normalverteilungsannahme kann
z.B. mit einem Histogramm oder einem Normal-Quantil-Plot überprüft
werden.
• Abwesenheit von Autokorrelation: Insbesondere bei Zeitreihendaten
hängen die Residualgrößen benachbarter Beobachtungen voneinander ab
- dies wird Autokorrelation genannt. Mit der Durbin-Watson-Statistik
kann überprüft werden, ob Autokorrelation vorliegt.
• Zwischen den unabhängigen Merkmalen besteht keine Abhängigkeit.
• Bei linearen Modellen wird die Linearität vorausgesetzt. Um dies zu überprüfen werden partielle Residuenplots erstellt. Sind dort nichtlineare Zusammenhänge erkennbar muss das Regressionsmodell angepasst werden.
Liegen diese Voraussetzungen nicht vor, so ist nicht sichergestellt, dass das Regressionsmodell den analysierten Zusammenhang korrekt abbildet.
20
4
4.1
Assoziationsregeln I
Allgemeines
Ziel der
Assoziationsanalyse
Ziel der Assoziationsanalyse ist es, für den Benutzer interessante Zusammenhänge in großen Datenbeständen zu finden.
Cross-Selling
Die der Assoziationsanalyse zu Grunde liegende Problemstellung tritt in der
Praxis beispielsweise bei der Produktpräsentation im Supermarkt auf. Das
so genannte Cross-Selling (wer Produkt A kauft, kauft auch B) bietet Anhaltspunkte für die Optimierung der Warenplatzierung.
Die Assoziationsanalyse ist ein Hilfsmittel, um solche Cross-Selling-Zusammenhänge
aus der Menge aller Transaktionen in einem Supermarkt zu finden.
AssoziationsregelnEine Assoziationsregel besteht aus einer Kombination von Ereignissen mit einer Prämisse (enthält die unabhängigen Variablen) und einer Konklusion
(abhängige Variablen). Ein Ereignis ist beispielsweise der Kauf von Produkt
A. Als Transaktion bezeichnet man eine Menge von gemeinsam vorkommenden
Ereignissen (z.B. ein Einkauf), aus denen Regeln abgeleitet werden können.
21
4.2
Konfidenz und Support
Gütemaße für
Assoziationsregeln
Gütemaße für Assoziationsregeln sind die Kriterien Konfidenz und Support.
Bei Algorithmen, die auf Basis dieser Kriterien arbeiten, wird auch vom SupportKonfidenz-Ansatz gesprochen.
Support ist der relative Anteil der Transaktionen, die eine bestimmte Assoziationsregel abdeckt, an allen Transaktionen. Konfidenz ist der relative Anteil der
Beziehungen, auf welche die Prämisse zutrifft, an allen Transaktionen auf welche
die gesamte Regel zutrifft.
Generieren
von Assoziationsregeln
Das Auffinden von Assoziationsregeln ist ein zweistufiger Prozess.
Im ersten Schritt werden alle Ereigniskombinationen analysiert und diejenigen weiter untersucht, welche mindestens eine minimale Häufigkeit unter
allen Kombinationen besitzen.
Anschließend werden Assoziationsregeln generiert und interessante Regeln
durch Anwendung der Kriterien Support und Konfidenz gefiltert.
Ein Beispiel für das Generieren von Assoziationsregeln finden Sie hier.
Verfahren zur
Assoziationsanalyse
Die Laufzeiten der Verfahren zur Assoziationsanalyse werden typischerweise
vom ersten Schritt der Regelgenerierung dominiert (die Generierung der häufigen Ereigniskombinationen). Optimierungen des zweiten Schritts (der Ableitung
der Regeln) sind kaum relevant.
Im Rahmen des Support-Konfidenz-Ansatzes ist es daher üblich, das Assoziationsproblem auf die Generierung aller häufigen Ereigniskombinationen zu reduzieren. Zur Ermittlung der häufigen Ereigniskombinationen existieren
verschiedene Strategien um die Menge aller möglichen Ereigniskombinationen
zu durchsuchen und zur Bestimmung der Häufigkeit einer solchen Kombination.
Die verschiedenen Verfahren zur Assoziationsanalyse kombinieren die Strategien in unterschiedlicher Weise miteinander, um häufige Kombinationen möglichst
effizient zu finden.
4.2.1
Cross-SellingAnalyse
Nebenpfad: Beispiel
Angenommen ein Elektronik-Händler will das Kaufverhalten seiner Kunden analysieren.
Während der Analyse wird unter anderem eine Beziehung zwischen dem
Kauf von PCs und dem Kauf von Software entdeckt. Die entsprechende
22
Assoziationsregel lautet: Wenn ein PC gekauft wird, dann wird auch Software
”
gekauft.“
Relevanz von
Regeln
Um die Relevanz dieser Regel zu überprüfen werden die Werte für Konfidenz
(30%) und Support (20%) betrachtet. Ein Support von 20% bedeutet, dass in
zwanzig Prozent aller Ereigniskombinationen (Einkäufe) ein PC und Software
zusammen gekauft wurden. Und mit einem Konfidenzwert von 30% wird bei
dreißig Prozent aller PC-Käufe auch Software gekauft.
Interessante
Regeln
Um aus der Menge aller generierten Assoziationsregeln interessante Regeln herauszufiltern, werden meistens untere Grenzwerte für Support und Konfidenz festgelegt. Regeln, welche Support- bzw. Konfidenzwerte unterhalb dieser
Grenzen aufweisen, werden aufgrund ihrer geringen Relevanz nicht betrachtet.
23
4.3
AIS
AIS nach den Autoren AGRAWAL, IMIELINSKI und SWAMI benannt, war
der erste veröffentlichte Algorithmus zur Generierung von Assoziationsregeln
und wurde in [] zusammen mit den Assoziationsregeln eingeführt.
Methodenbeschreibung
AIS führt die Generierung der häufigen Ereigniskombinationen als Breitensuche
durch, d.h. die während eines Durchganges überprüften Kombinationen haben
immer die gleiche Anzahl an Ereignissen.
Der Algorithmus beginnt mit den einelementigen Ereignismengen und überprüft
deren Häufigkeit. Als Kandidaten für mögliche Regeln werden nur diejenigen
Ereigniskombinationen ausgewählt, die eine minimale Häufigkeit aufweisen.
Im nächsten Durchgang wird zu den bisherigen, häufigen Ereigniskombinationen ein neues Ereignis hinzugenommen und die Häufigkeit der so entstandenen
Kombination überprüft. Diese Vorgehensweise wird so lange wiederholt, bis alle
vorhandenen Ereigniskombinationen jeder Transaktion überprüft wurden oder
bis keine Kombination mehr das Kriterium minimaler Häufigkeit erfüllt.
24
4.4
Apriori
Methodenbeschreibung
Der Algorithmus Apriori basiert ebenfalls auf einer Breitensuche, besitzt jedoch
eine separate Kandidatengenerierung auf Grundlage der Abgeschlossenheitseigenschaft des Supports. Diese besagt, dass in einer häufigen, k-elementigen
Ereignismenge auch alle Teilmengen mit weniger als k Elementen häufig sein
müssen.
Apriori generiert deshalb aus der Menge der häufigen (k−1)-Ereigniskombinationen
die Menge der k-Ereigniskombinationen, deren sämtliche (k − 1)-Teilmengen
häufig sind.
Außerdem verwendet Apriori einen Hashbaum um die Häufigkeiten der Ereignismengen zu speichern und zu analysieren.
Anwendung
Nach [] zeichnet sich Apriori dadurch aus, dass er für nicht zu kleine minimale
Supportwerte praktisch beliebig große Datenbanken analysieren kann.
Die Laufzeit des Verfahrens ist mit der anderer Verfahren vergleichbar, lediglich
für vergleichsweise geringe Werte für den minimalen Support ist Apriori anderen
Verfahren bezüglich der Laufzeit unterlegen.
25
4.5
Partition
Methodenbeschreibung
Partition basiert auf der indirekten Häufigkeitsbestimmung einer Ereigniskombination durch Schneiden von Transaktionsmengen.
Dies sei an einem Beispiel erläutert:
Sollen im Suchraum die Häufigkeiten der Ereigniskombinationen {a, b} bestimmt
werden, dann kann die Menge aller Transaktionen T {a, b, c} mit den Ereignissen
{a, b, c} durch den Schnitt zweier Transaktionsmengen erzeugt werden, vorausgesetzt, diese Transaktionsmengen sind bereits bekannt: T {a, b, c} = T {a, b}?
T {a, c}. Die Häufigkeit der Ereigniskombination {a, b, c} berechnet sich somit
zu:
support ({a, b, c}) =
T{a,b} ∩ T{a,c}
TD
(15)
mit TD als Menge aller Transaktionen der Datenbank.
Zerlegung der
Datenbank
Für die Implementierung der Breitensuche mit indirekter Häufigkeitsbestimmung werden aus Effizienzgründen jeweils die Transaktionsmengen zu sämtlichen Ereigniskombinationen einer Ebene k gleichzeitig im Hauptspeicher benötigt.
Um dies auch bei großen Datenbanken implementieren zu können, wird die Datenbank in Teilmengen zerlegt, die nacheinander separat bearbeitet werden. Für jede Ereigniskombination einer Teilmenge wird der Support bestimmt.
Die abschließende Supportbestimmung wird über Schnittmengenbildung für jede
Teilmenge durchgeführt und die Ergebnisse zu den globalen Supportwerten
summiert.
26
4.6
PreSample
PreSample und Eclat
In [] wird ein als PreSample bezeichneter Algorithmus erläutert, welcher mit
vielen anderen der vorgestellten Methoden kombiniert werden kann. PreSample
verkleinert die zu durchsuchende Transaktionsmenge durch das Voranstellen
einer Stichprobenziehung.
Die Repräsentativität dieser Stichprobenziehung wird im Anschluss an die eigentliche Generierung der Assoziationsregeln (z.B. mit Apriori) überprüft. Ist
diese nicht gewährleistet, so muss eine erneute Stichprobenziehung durchgeführt
werden.
Eclat
Mit dem Algorithmus Eclat [] wurde die Generierung aller häufigen Ereigniskombinationen erstmals mittels einer Tiefensuche realisiert. Die Bestimmung
der Supportwerte erfolgt indirekt durch Schneiden von Transaktionsmengen.
Während des Absteigens im Suchraum ist es bei der Tiefensuche lediglich notwendig, die Transaktionsmengen der Ereigniskombinationen eines Suchpfades
auf dem Weg von der Wurzel bis zu einem Blatt gleichzeitig im Hauptspeicher
zu halten. Daher können auch für sehr große Datenbanken sämtliche, für die
Schnitte benötigten, Transaktionsmengen im Hauptspeicher abgelegt werden,
ohne beispielsweise die Transaktionsdatenbank aufteilen zu müssen.
Die Laufzeiten von Eclat sind nach [] zumeist vergleichbar mit den von Apriori
erreichten Laufzeiten. Der Hauptspeicherbedarf wächst wie der von FP-Growth
ungefähr linear mit der Anzahl zugrunde liegender Transaktionen, die von []
gemessenen Werte liegen jedoch weit unter denen von FP-Growth.
27
4.7
FP-Growth
Tiefensuche in
einem
FP-Baum
Mit FP-Growth wird von [] der Ansatz von AIS wieder aufgegriffen.
FP-Growth basiert jedoch auf einer Tiefensuche in einer als FP-Baum aufbereiteten Datenbasis. Grundlage der Suche bilden alle häufigen 1-Ereigniskombinationen.
Ausgehend von jedem dieser Ereignisse wird der Suchraum durchlaufen, indem
zu der jeweils aktuellen Ereigniskombination ein Ereignis hinzugenommen wird,
welches mit der aktuellen Kombination in mindestens einer Transaktion enthalten ist. Der Suchpfad durchläuft also nur tatsächlich vorkommende Ereigniskombinationen.
Häufigkeit von
Ereigniskombinationen
Für die Häufigkeitsbestimmung zählt FP-Growth das direkte Vorkommen
von Ereigniskombinationen. Dazu greift der Algorithmus jeweils nicht auf
die gesamte Datenbank zurück, sondern schränkt schrittweise die Datenbasis
ein.
Wird beispielsweise die Häufigkeit der Ereigniskombination {y, z} bestimmt,
dann werden nur die Transaktionen betrachtet, die Ereignis z enthalten. Wird
weiter rekursiv zu Ereigniskombination {x, y, z} abgestiegen, so werden lediglich
die Transaktionen, die {y, z} enthalten, betrachtet etc. Dieses Vorgehen wird mit
FP-Bäumen effizient implementiert.
Laufzeit
FP-Growth erreicht nach [] auf vielen der dort untersuchten Datensätze die mit
Abstand kürzesten Laufzeiten. Für anspruchsvollere Datensätze mit einer
großen Anzahl an häufigen Ereigniskombinationen nähern sich die Laufzeiten
von FP-Growth allerdings zunehmend an die der anderen Verfahren an. Die
Generierung häufiger Ereigniskombinationen mittels FP-Growth weist in den
meisten Fällen einen sehr hohen Speicherbedarf auf. Für die Analyse sehr
großer Datenbanken sieht [] FP-Growth als nicht geeignet an.
28
5
5.1
Assoziationsregeln II
Taxonome Assoziationsregeln I
Taxonome Assoziationsregeln nutzen den Sachverhalt, dass in vielen realen Anwendungen die einzelnen Ereignisse hierarchisch zu Ereignisgruppen zusammengefasst werden können.
Beispielsweise werden Produkte zu Produktfamilien und diese wiederum zu Produktkategorien zusammengefasst. Hierdurch wird die Analyse von Regeln wie
Wenn ein PC gekauft wird, dann wird auch ein Linux-Betriebssystem gekauft“
”
möglich.
Hierarchieebenen Dies erleichtert für den Benutzer die Navigation durch die gesamte Menge der
Ereignisse erheblich, da jede Hierarchieebene einen anderen Blickwinkel auf das
Assoziationsproblem ermöglicht. Weiterhin sind differenzierte unter Grenzen für Support und Konfidenz für unterschiedliche Hierarchiestufen möglich.
Dies ermöglicht eine feinere Differenzierung dieser Gütemaße.
So können beispielsweise in unteren Hierarchieebenen die Grenzen für den Support verringert werden.
29
5.2
Generierung
taxonomer
Assoziationsregeln
Taxonome Assoziationsregeln II
Eine solche Taxonomie kann als gerichteter azyklischer Graph dargestellt werden. Um die Verfahren zur Generierung einfacher Assoziationsregeln (AIS, Apriori, Partition, PreSample, FP-Growth) auf taxonome Assoziationsregeln erweitern zu können, müssen die Algorithmen die auf den Ereignissen definierte Taxonomie mit in die Regelgenerierungeinbeziehen.
Zu diesem Zweck genügt es, wenn zu jedem Ereignis sämtliche Vorfahren im
Ereignis-Baum bekannt sind. Damit ist es möglich, jede Transaktion mit all den
Ereignissen zu erweitern, die Vorfahr mindestens eines der bereits in der Transaktion enthaltenen Ereignisse sind. Anhand derart aufbereiteter Transaktionen
werden dann mit einer der oben beschriebenen Methoden häufige Ereigniskombinationen erzeugt.
Laufzeiten
Die resultierenden Verfahren der Assoziationsanalyse, die Taxonomien benutzen, haben in der Regel kürzere Laufzeiten als vergleichbare Methoden
ohne Taxonomien.
30
5.3
DBLearn und DBMiner
Konzepthierarchien
DBLearn (Database Learning System) [] und seine Weiterentwicklung DBMiner
arbeiten mit relationalen Datenbankoperationen und verwenden Konzepthierarchien als Hintergrundwissen.
Konzepthierarchien sind die hierarchische Anordnung von Merkmalen. Für ein
Beispiel mit den Merkmalen Name“, Wohnort“, Beruf“, Einkommen“ könn”
”
”
”
te das Merkmal Wohnort“ Aachen sein. Dann kann dies zu Nordrhein-Westfahlen
”
oder der BRD verallgemeinert werden.
Regeltypen
Die Regeln werden generalisiert, indem das aus den Konzepthierarchien vorhandene Hintergrundwissen genutzt wird. Es werden drei Typen von Regeln
unterschieden:
• Charakteristische Regeln beschreiben Eigenschaften, die von allen Beispielen erfüllt werden.
• Unterscheidungsregeln beschreiben Eigenschaften, welche eine Teilmenge von Beispielen von einer anderen Teilmenge unterscheidet.
• Bei quantitativen Regeln wird angegeben, wie viele Beispiele durch
sie beschrieben werden. Dies wird durch ein zusätzliches Attribut Vote“
”
realisiert, welches angibt, wie viele Beispiele eine Regel abdeckt.
31
5.4
DBLearn und DBMiner
Generalisierung Bei DBLearn wird die gesamte Beispielmenge als erste, elementare Regel interpretiert wie beispielsweise WENN Wohnort = Aachen UND Beruf = Ingenieur
”
DANN Gehalt ¿ 35.000“. Dann werden durch Generalisierung allgemeinere
Regeln aufgebaut.
Hierzu werden bestimmte Merkmalswerte in Beispielen wiederholt durch das
generellere Merkmal der nächst höheren Konzeptebene ersetzt wie beispielsweise WENN Wohnort = NRW UND Beruf = Ingenieur DANN Gehalt ¿ 35.000.
”
Ergeben sich hierdurch identische Beispiele, so werden diese zu Beispielkomplexen zusammengefasst und deren Wert von “Vote entsprechend der Anzahl
”
der durch sie repräsentierten Beispiele erhöht.
Diese Vorgehensweise wird nach bestimmten Vorschriften so lange wiederholt,
bis die Anzahl der Beispielkomplexe unterhalb einer definierten Schwelle liegt.
Nachteile von
DBLearn
Die mit dem Algorithmus bestimmten charakteristischen Regeln werden jedoch
nur nach ihrer Komplexität ausgewählt, d.h. es wird die Auswahl weniger
und unkomplizierter Regeln bevorzugt. Dies sagt jedoch nichts darüber aus, ob
diese Regeln für den Anwender interessant sind.
Auch gehen beim Aufstieg in der Konzepthierarchie viele Eigenschaften der
Beispielmenge verloren.
Welche Merkmale weiterverfolgt werden und welche nicht, hängt vom Wissen
und den Vorstellungen des Anwenders ab.
32
5.5
Quantitative
Merkmale
Quantitative Assoziationsregeln
Quantitative Assoziationsregeln können im Gegensatz zu einfachen Regeln wie
AIS, Apriori oder FP-Growth nicht nur kategoriale sondern auch rationalskalierteMerkmale verarbeiten.
Beispiel einer solchen Assoziationsregel ist die Beziehung Wenn das Geschlecht
”
männlich ist und das Alter¿16, dann wird ein Rasierapparat gekauft“.
IntervallskalierungRationalskalierte Merkmale (im vorherigen Beispiel das Alter) können in einem
sehr breiten Wertebereich definiert sein. Deshalb werden diese Wertebereiche
in Intervalle unterteilt, welche sich im Verlauf der Regelgenerierung und filterung verändern können. Ein Beispiel für einen quantitativen Algorithmus
ist ARCS (Association Rule Clustering System), der von [] vorgestellt wurde.
33
6
6.1
Literatur und Methoden
Literatur zur Korrelations- und Regressionsanalyse
Literaturverzeichnis
[]
Clauß, G./Finze, F.-R., Partzsch, L.: Statistik für Soziologen, Pädagogen,
Psychologen und Mediziner. 2. Aufl., Harri Deutsch, Frankfurt 1995.
[]
Draper, N.R./Smith, H.: Applied Regression Analysis. 2nd ed., Wiley,
New York 1981.
[]
Fahrmeier, L./Hamerle, A.: Multivariate statistische Verfahren. De
Gruyter, Berlin New York 1984.
[]
Förster, E./Rönz, B.: Methoden der Korrelations- und Regressionsanalyse. Die Wirtschaft, Berlin 1979.
[]
Schach, S./Schäfer, T.: Regressions- und Varianzanalyse. Springer, Berlin
Heidelberg New York 1978.
[]
Seber, G.A.F./Wild, C.J.: Nonlinear regression. Wiley, New York 1989.
[]
Storm, R.: Wahrscheinlichkeitsrechnung Mathematische Statisitik und
statistische Qualitätskontrolle. 10. Aufl., Fachbuchverlag, Leipzig Köln
1995.
6.1
Literatur zur Assoziationsanalyse
Literaturverzeichnis
Einführende Literatur
Adriaans, P./Zantinge, D.: Data Mining. Addison-Wesley, Harlow
1996.
Berry, M. J. A./Linoff, G.: Data Mining Techniques: For Marketing, Sales
and Customer Support. Wiley Computer Publishing, New York 1997.
Hand, D. J.: Construction and Assessment of Classification Rules. John
Wiley & Sons, Sussex 1997.
Hipp, J.: Wissensentdeckung in Datenbanken mit Assoziationsregeln.
Tübingen, Fakultät für Informations- und Kognitionswissenschaften,
34
Dissertation, 2003.
Klösgen, W./Zytkow, J. M. (Hrsg.): Handbook of Data Mining and
Knowledge Discovery. Oxford University Press, Oxford 2002.
Krahl, D./Windheuser, U./Zick, F.-K.: Data Mining: Einsatz in der
Praxis. Addison Wesley, Bonn 1998. Weiterführende Literatur
Agrawal, R./Imielinski, T./Swami, A.: Mining Association Rules
between Sets of Items in Large Databases, in: Proceedings of the ACM
SIGMOD International Conference on Management of Data (ACM
SIGMOD ’93). Washington, 1993, pp. 207-216.
Fu, Yongjian: Discovery of Multiple-Level Rules from Large Databases.
Burnaby, Canada, Simon Fraser University, PhD Thesis, 1996.
Han, J./Cai, Y./Cercone, N.: Knowledge Discovery in Databases:
An Attribute-Oriented Approach, in: Yuan, L. (ed.): Proceedings
of the 18th International Conference on Very Large Databases,
Morgan Kaufmann, San Francisco 1992, pp. 547-559, auf URL: citeseer.nj.nec.com/han92knowledge.html.
Han, J./Pei, J./Yin, Y.: Mining Frequent Patterns without Candidate
Generation, in: Proceedings of the 2000 ACM-SIGMOD International
Conference on Management of Data. Dallas, Texas, Mai 2000, pp. 1-12.
Han, J./Kamber, M.: Data Mining: Concepts and Techniques. Morgan
Kaufmann, San Francisco 2001.
Hong, T.-P./Kuo, C.-S./Chi, S.-C.: Mining Association Rules from Quantitative Data, in: Intelligent Data Analysis, Vol. 3, 1999, pp. 363-376.
Lent, B./Swami, A./Widom, J.: Clustering Association Rules, in: Proceedings of the 1997 International Conference on Data Engineering
(ICDE’97). Birmingham, April 1997, pp. 220-231.
Park, J. S./Chen, M./ Yu, P. S.: An Effective Hash-Based Algorithm for
Mining Association Rules, in: Proceedings of the 1995 ACM SIGMOD
International Conference on Management of Data. San Jose, California,
Mai 1995, pp. 175-186.
Toivonen, H.: Discovery of Frequent Patterns in Large Data Collections.
University of Helsinki, Department of Computer Science, PhD Thesis,
1996.
Wittmann, Thomas: Wissensentdeckung in Datenbanken mit adaptiven Regelsystemen. Jena, Wirtschaftswissenschaftliche Fakultät der
Friedrich-Schiller-Universität, Dissertation, 1999.
Zaki, M. J./Parthasarathy, S./Ogihara, M./Li, W.: New Algorithms
for Fast Discovery of Association Rules. Forschungsbericht Nr. 651,
Computer Science Department, University of Rochester, Rochester 1997.
6.1
Methodenverzeichnis
Verzeichnis der erläuterten Methoden der Abhängigkeitsanalyse
35
AIS
Apriori
DBLearn
DBMiner
Eclat
FP-Growth
Kleinste-Quadrate-Schätzer
Korrelationsanalyse
Partition
PreSample
Regressionsanalyse
t-Test
36

Zugehörige Unterlagen

Blatt 12 - Ruhr-Universität Bochum

Methoden der Abhängigkeitsanalyse

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können