Data Mining

DataMining
Informationssysteme,Sommersemester 2017
LiteraturzuData-Mining
§ Pang-Ning Tan,MichaelSteinbach,Vipin Kuma.Introduction to Data
Minig.
EinpaarrelevanteKapitelsindfreiverfügbarunter
http://www-users.cs.umn.edu/kumar/dmbook/index
§ MohammedJ.Zaki,WagnerMeira Jr.DataMiningand Analysis.
http://www.dataminingbook.info
§ Jiawei Han,MichelineKamber.DataMining.Concepts and Techniques.
IS2017
Kapitel15- DataMining
2
Warenkorbanalyse
§ Objekte sind:Brot,Milch,Windeln,Bier,Eier
§ Transaktionen sind:1:{Brot,Milch},2:{Brot,Windeln,Bier,Eier},3:{Milch,
Windeln,Bier},4:{Brot,Milch,Windeln,Bier} und5:{Brot,Milch,
Windeln}
TID
Brot
Milch
1
1
1
2
1
3
Windeln
Bier
Eier
1
1
1
1
1
1
1
4
1
1
1
5
1
1
1
§ WelcheObjekte(Items)werdenhäufigzusammengekauft?
§ KönnenwirRegelnangebenderForm:KundendieWindelnkaufen,
kaufenauchmeistBier?
IS2017
Kapitel15- DataMining
3
DarstellungalsBinärmatrix
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
Itemsets
{Brot,Milch}
{Brot,Windeln,Bier,Eier}
{Milch,Windeln,Bier}
{Brot,Milch,Windeln,Bier}
{Brot,Milch,Windeln}
IS2017
Kapitel15- DataMining
4
Itemsets
§ EinItemset isteineMengevonObjekten
• EineTransaktion 𝑡𝑡 isteinItemset mitdazugehörigerTransaktions-ID,
𝑡𝑡 = (𝑡𝑡𝑡𝑡𝑡𝑡; 𝐼𝐼)wobei𝐼𝐼 dasItemset derTransaktionist
§ EineTransaktion𝑡𝑡 = (𝑡𝑡𝑡𝑡𝑡𝑡, 𝐼𝐼) enthälteinItemset 𝑋𝑋 falls𝑋𝑋 ⊆ 𝐼𝐼
§ DerSupportvonItemset 𝑋𝑋 ineinerDatenbank𝐷𝐷 istdieAnzahlder
Transaktionenin𝐷𝐷,die𝑋𝑋 enthalten:
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋, 𝐷𝐷) = | 𝑡𝑡 ∈ 𝐷𝐷 ∶ 𝑡𝑡𝑒𝑒𝑒𝑒𝑒𝑒𝑒ä𝑙𝑙𝑙𝑙𝑋𝑋 |
§ DierelativeHäufigkeitvonItemset XinDatenbankDistderSupport
relativzurGrößederDatenbank,𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋, 𝐷𝐷)/|𝐷𝐷|
§ EinItemset isthäufig(frequent),fallsdessenrelativeHäufigkeit über
einembestimmtenSchwellwertminfreq liegt.
§ AlternativkannmanaucheinenSchwellwertminsupp bzgl.desSupports
betrachten.
IS2017
Kapitel15- DataMining
5
Beispiel
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
§ Itemset {Brot,Milch} hatSupport3 undrelativeHäufigkeit3/5
§ Itemset {Brot,Milch,Eier} hatSupportundrelativeHäufigkeit0.
§ Fürminfreq =1/2habenwirdiefolgendenfrequent itemsets:
{Brot},{Milch},{Windeln},{Bier},{Brot,Milch},{Brot,Windeln},
{Milch,Windeln} und{Windeln,Bier}.
IS2017
Kapitel15- DataMining
6
AssoziationsregelnundKonfidenz
§ EineAssoziationsregel isteineRegelderForm𝑋𝑋 → 𝑌𝑌,wobei𝑋𝑋 und𝑌𝑌
disjunkteItemsets sind(d.h.𝑋𝑋 ∩ 𝑌𝑌 = ∅)
§ Idee:EineTransaktion,dieItemset 𝑋𝑋 enthält,enthält(vermutlich)auch
Itemset 𝑌𝑌
§ DerSupporteinerRegel𝑋𝑋 → 𝑌𝑌inDatenbank𝐷𝐷ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 → 𝑌𝑌, 𝐷𝐷 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ 𝑌𝑌, 𝐷𝐷
§ DieKonfidenzderRegel𝑋𝑋 → 𝑌𝑌inDatenbank𝐷𝐷 ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ 𝑌𝑌, 𝐷𝐷
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋 → 𝑌𝑌, 𝐷𝐷 =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋, 𝐷𝐷
MitanderenWorten:DieKonfidenzistdiebedingteWahrscheinlichkeit,
dasseineTransaktionYenthält,wennsieXenthält.
IS2017
Kapitel15- DataMining
7
Beispiel
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
{𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀} → {𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊}hatSupport2undKonfidenz2/3
{𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊} → {𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀}hatSupport2undKonfidenz1/2
{𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸} → {𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊, 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵}hatSupport1undKonfidenz1
IS2017
Kapitel15- DataMining
8
MöglicheItemset
§ WassindmöglicheItemset?
§ HieralleItemsets,fürdieItems
{a,b,c,d,e} inderDarstellung
alsVerband(Lattice).
a
/
b
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
9
EinnaiverAlgorithms
§ BetrachtejedesmöglicheItemset undtesteobeshäufigist.
§ WieberechnetmandenSupport?
ZählefürjedesItemset inwelchenTransaktionenesenthaltenist
§ BerechnendesSupportdauert𝑂𝑂(|𝐼𝐼|×|𝐷𝐷|)undesgibt2|O| mögliche
Itemsets,alsoimWorstcase:𝑂𝑂(|𝐼𝐼|× 𝐷𝐷 ×2|O| )
IS2017
Kapitel15- DataMining
10
DasApriori-Prinzip
§ FallseinItemset häufigist,sosind
alleTeilmengenebenfallshäufig.
§ Beispiel:Ist{c,d,e} häufig,so
sindauch{c},{d},{e},
a
b
{c,d},{c,e} und{d,e}
häufig.
/
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
11
DasApriori-Prinzip
§ Umgekehrt:falls{a,b}nichthäufigist(Englisch:infrequent),sosindauch
alleSupermengenvon{a,b}
/
nichthäufig.
a
b
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
12
Anti-Monotonie
§ Sei𝐼𝐼 eineMengevonItemsundsei𝐽𝐽 = 2𝐼𝐼 diePotenzmengevon𝐼𝐼.Ein
Maß𝑓𝑓 istmonoton (oderaufwärtsgeschlossen)falls
∀𝑋𝑋, 𝑌𝑌 ∈ 𝐽𝐽 ∶ 𝑋𝑋 ⊆ 𝑌𝑌 ⇒ 𝑓𝑓 𝑋𝑋 ≤ 𝑓𝑓 𝑌𝑌
§ ImGegensatz,𝑓𝑓 istanti-monoton (oderabwärtsgeschlossen)falls
∀𝑋𝑋, 𝑌𝑌 ∈ 𝐽𝐽 ∶ 𝑋𝑋 ⊆ 𝑌𝑌 ⇒ 𝑓𝑓 𝑌𝑌 ≤ 𝑓𝑓 𝑋𝑋
IstSupportmonotonoderanti-monoton?
§ Supportistanti-monoton:
FürItemsets 𝑋𝑋 und𝑌𝑌mit𝑋𝑋 ⊆ 𝑌𝑌 gilt𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ≥ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑌𝑌 .D.h.wenn
𝑋𝑋nichthäufigist(infrequent),dannsindauchalleObermengenvonX
nichthäufig.
IS2017
Kapitel15- DataMining
13
Beispiel
MinimumSupportSchwellwert=3
RotmarkierteItemsets sindunterSchwellwertundwerdeneliminiert.
Kandidaten 1-Itemsets
IS2017
Item
Count
Bier
3
Brot
4
Itemset
Count
Cola
2
{Bier,Brot}
2
Windeln
4
{Bier, Windeln}
3
Eier
2
{Bier, Milch}
2
Milch
4
{Brot,Windeln}
3
{Brot,Milch}
3
{Windeln,Milch}
4
Kandidaten 2-Itemsets
Kapitel15- DataMining
Kandidaten 3-Itemsets
Itemset
Count
{Brot,Windeln,
Milch}
3
14
DerApriori-Algorithms
DerApriori-AlgorithmusbenutztdieAnti-MonotoniedesSupport-Maßes,
umdieMengeanzubetrachtendenItemsets einzuschränken.
• ApriorigeneriertniemalseinKandidaten-Itemset,dasnicht-häufige
Teilmengenbesitzt.
IS2017
Kapitel15- DataMining
15
DerApriori-Algorithmus:Pseudocode
/*Notation:mit𝜎𝜎 bezeichnenwirdenSupporteinesItemsets */
1. 𝑘𝑘 = 1
2. 𝐹𝐹Z = {𝑖𝑖|𝑖𝑖 ∈ 𝐼𝐼 ∧ 𝜎𝜎({𝑖𝑖}) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚}
/*Häufige1-Itemsets*/
3. repeat
4.
𝑘𝑘 = 𝑘𝑘 + 1
/*generiereKandidaten*/
5.
𝐶𝐶Z = apriori-gen(𝐹𝐹Zhi )
6.
for each transaction 𝑡𝑡 ∈ 𝑇𝑇do
7.
𝐶𝐶k = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝐶𝐶Z , 𝑡𝑡)
/*BetrachteKandidatendieinTA*/
8.
for each candidate itemset 𝑐𝑐 ∈ 𝐶𝐶k do
9.
𝜎𝜎(𝑐𝑐) = 𝜎𝜎(𝑐𝑐) + 1
/*ErhöheSupport-Zähler*/
10.
endfor
11.
endfor
/*FindehäufigeItemsets*/
12. 𝐹𝐹Z = {𝑐𝑐|𝑐𝑐 ∈ 𝐶𝐶Z ∧ 𝜎𝜎(𝑐𝑐) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚}
13. until 𝐹𝐹Z = ∅
14. Result =⋃nn 𝐹𝐹Z
IS2017
Kapitel15- DataMining
16
DerApriori-Algorithmus:Pseudocode(2)
§ 𝐶𝐶Z istdieMengeder𝑘𝑘-Itemsets
§ 𝐹𝐹Z istdieMengederhäufigen𝑘𝑘-Itemsets
ZuerstwirdeinMalüberdieDatengelaufen,umdenSupportjedes
einzelnenItemszufinden(Schritt2).Dannkennenwiralso𝐹𝐹i .
DanachwerdeniterativneueKandidaten-𝑘𝑘-Itemset berechnet,basierend
aufdenhäufigen(𝑘𝑘 − 1)-Itemsets (Schritt5).DieMethodedafürnennt
man𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 − 𝑔𝑔𝑔𝑔𝑔𝑔(....)
NunwirdfürjedesKandidaten-Itemset derSupportberechnet,indemein
MalüberdieDaten(Transaktionen)gelaufenwird(Schritt6-10).
Anschließendwerdennicht-häufigeItemsets entfernt(Schritt12).
DerAlgorithmusterminiertsobald𝐹𝐹Z = ∅ (Schritt13).
IS2017
Kapitel15- DataMining
17
GenerierungundEliminierungvonKandidaten
1. GenerierungvonKandidaten
• Generiert𝑘𝑘-Itemsets (d.h.Itemsets derLänge𝑘𝑘)basierendaufden
Itemsets dervorherigenIteration(en).
2. EliminierungvonKandidaten
• FindeundeliminiereunnützeKandidaten- 𝑘𝑘-Itemsets.
IS2017
Kapitel15- DataMining
18
GenerierungvonKandidaten:Ziele
Ziele:
§ Vollständigkeit:Esmüssenallehäufigenk-Itemsets erzeugtwerden.
§ Effizienz:Essolltevermiedenwerden,unnützeItemsets zuerzeugen,d.h.
solchedieeinnicht-häufigesItemset enthalten.
§ EbensosolltenItemsets nichtmehrfachgeneriertwerden.
ErfüllendienachfolgendenAnsätzedieseZiele?
IS2017
Kapitel15- DataMining
19
GenerierungvonKandidaten:Brute-ForceAnsatz
§ Schritt1:GenerierealleKandidaten.Diessind
verschiedeneItems.
r
Z
vielefür𝑑𝑑
§ Schritt2:Dannentfernedienicht-häufigenItemsets.
VerbesserteVariante:BetrachtenurdieItemsaus𝐹𝐹i
IS2017
Kapitel15- DataMining
20
GenerierungvonKandidaten:„𝐹𝐹Zhi ×𝐹𝐹i “
§ Verknüpfediehäufigen(𝑘𝑘 − 1)-Itemsets mithäufigenItems.
§ DannentfernedienichthäufigenresultierendenItemsets.
§ Verbesserung:ErlaubenurErgänzungdurch1-Itemset,wenndies
lexikographischgrößeralsItemsdes(k-1)-Itemsets ist.
Itemset
Kandidaten 2-Itemsets
{Bier, Windeln}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
Eliminierung
nicht-häufiger Kandidaten
Itemset
{Brot,Windeln,Milch}
{Brot,Milch,Bier}
{Brot}
IS2017
{Bier,Windeln,Brot}
{Brot,Windeln,Milch}
{Bier}
{Milch}
Itemset
{Bier,Windeln,Milch}
Itemset
{Windeln}
Generierung von Kandidaten
Häufige 1-Itemsets
Kapitel15- DataMining
21
GenerierungvonKandidaten:„𝐹𝐹Zhi ×𝐹𝐹Zhi “
§ Verknüpfediehäufigen(𝑘𝑘 − 1)-Itemsets fallsdieseindenersten(k-2)
Itemsübereinstimmen.
§ BetrachtelexikographischeSortierungderItemsets.
§ D.h.,𝐴𝐴 = 𝑎𝑎i , 𝑎𝑎v , … 𝑎𝑎Zhi und𝐵𝐵 = 𝑏𝑏i , 𝑏𝑏v , … 𝑏𝑏Zhi könnenkombiniert
werden,falls𝑎𝑎x = 𝑏𝑏x (für𝑖𝑖 = 1, 2, … , 𝑘𝑘 − 2) und𝑎𝑎Zhi ≠ 𝑏𝑏Zhi
Itemset
Häufige 2-Itemsets
{Bier, Windeln}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
Generierung von Kandidaten
Itemset
{Bier, Windeln}
Eliminierung
nicht-häufiger Kandidaten
Itemset
Itemset
{Brot,Windeln,Milch}
{Brot,Windeln,Milch}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
IS2017
Häufige 2-Itemsets
Kapitel15- DataMining
22
Assoziationsregeln(Association Rules)
§ BasierendaufdenhäufigenItemsets könnenwirnun Assoziationsregeln
generieren.
§ Falls𝑍𝑍 einhäufigesItemset istund𝑋𝑋 ⊂ 𝑍𝑍isteineechteTeilmenge von𝑍𝑍,
dannhabenwireineRegel𝑋𝑋 → 𝑌𝑌,mit𝑌𝑌 = 𝑍𝑍\𝑋𝑋.
§ DieseRegelnsindhäufigda
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 → 𝑌𝑌) = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 ∪ 𝑌𝑌) = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑍𝑍)
IS2017
Kapitel15- DataMining
23
Assoziationsregeln:Konfidenz
§ FüreineRegel𝑋𝑋 → 𝑌𝑌 betrachtenwirdieKonfidenz,diewiefolgtdefiniert
ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ 𝑌𝑌
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋 → 𝑌𝑌 =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 § EineRegel𝑋𝑋 → 𝑌𝑌 mit𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋 → 𝑌𝑌) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚wirdalsconfident
bezeichnet.
§ IsteineRegel𝑋𝑋 → 𝑍𝑍 ∖ 𝑋𝑋nichtconfident,sokannkeineRegel
𝑊𝑊 → 𝑍𝑍 ∖ 𝑊𝑊mit𝑊𝑊 ⊆ 𝑋𝑋 confident sein.
IS2017
Kapitel15- DataMining
24
Assoziationsregeln:Berechnung
Input:MengeFvonhäufigenItemsets,minconf Schwellwert.
1. foreach 𝑍𝑍 ∈ 𝐹𝐹mit|𝑍𝑍| ≥ 2 do
2.
𝐴𝐴 = 𝑋𝑋 𝑋𝑋 ⊂ 𝑍𝑍, 𝑋𝑋 ≠ ∅}
3.
while 𝐴𝐴 ≠ ∅do
4.
𝑋𝑋 = größtesItemset aus𝐴𝐴
5.
𝐴𝐴 = 𝐴𝐴 ∖ 𝑋𝑋
6.
𝑐𝑐 = supp(𝑍𝑍)/supp(𝑋𝑋)
/*BerechnungKonfidenz*/
7.
if 𝑐𝑐 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚then
8.
print 𝑋𝑋 → 𝑌𝑌,supp(𝑍𝑍),𝑐𝑐 /*Ausgabe,wobei𝑌𝑌 = 𝑍𝑍 ∖ 𝑋𝑋*/
9.
else
10.
𝐴𝐴 = 𝐴𝐴 ∖ {𝑊𝑊|𝑊𝑊 ⊂ 𝑋𝑋}
11.
end
12.
end
13. end
IS2017
Kapitel15- DataMining
25
Beispiel:Daten
§ WirhabenfolgendeTransaktionen
1. {Brot,Milch},
2. {Brot,Windeln,Bier,Eier},
3. {Milch,Windeln,Bier},
4. {Brot,Milch,Windeln,Bier}
5. {Brot,Milch,Windeln}
§ Mitminfreq=0.05habenwirdiefolgendenhäufigenItemsets:
{Brot},{Milch},{Windeln},{Bier},{Brot,Milch},{Brot,Windeln},
{Brot,Bier},{Milch,Windeln},{Milch,Bier},{Windeln,Bier},
{Brot,Milch,Windeln},{Brot,Windeln,Bier},{Milch,Windeln,Bier}
§ Notation:AufderfolgendenFolieist𝐴𝐴(x) dieMenge𝐴𝐴 inIteration𝑖𝑖
IS2017
Kapitel15- DataMining
26
Beispiel
minfreq =0.05,minconf =0.5undfürZ={Milch,Windeln,Bier}
𝐴𝐴(~) = {{Milch},{Windeln},{Bier},{Milch,Windeln},{Milch,Bier},{Windeln,Bier}}
𝑋𝑋 = {Windeln,Bier}
Ausgabe:{Windeln,Bier}→ {Milch} 2 0.667
𝐴𝐴(i) = {{Milch},{Windeln},{Bier},{Milch,Windeln},{Milch,Bier}}
𝑋𝑋 = {Milch,Bier}
Ausgabe:{Milch,Bier}→ {Windeln} 2 1.0
𝐴𝐴(v) = {{Milch},{Windeln},{Bier},{Milch,Windeln}}
𝑋𝑋 ={Milch,Windeln}
Ausgabe:{Milch,Windeln}→ {Bier} 2 0.667
𝐴𝐴() = {{Milch},{Windeln},{Bier}}
𝑋𝑋 ={Milch}
Ausgabe:{Milch}→ {Windeln,Bier} 2 0.5
𝐴𝐴(Ä) = {{Windeln},{Bier}}
𝑋𝑋 ={Windeln}
Ausgabe:{Windeln}→ {Milch,Bier} 2 0.5
𝐴𝐴(Å) = {{Bier}}
𝑋𝑋 = {Bier}
Ausgabe:{Bier}→ {Milch,Windeln} 2 0.667
IS2017
Kapitel15- DataMining
27
ZusammenfassungItemsetmining
§ WarenkorbanalyseistklassischesBeispielfürData-Mining
§ DabeiwerdenTransaktionen bestehendausItemsaufhäufigzusammen
auftretendeItems sowienachAssoziationsregeln derForm„WerBrot
kaufkauftauchBier“durchsucht.
§ Apriori-AlgorithmusgeneriertItemsets bottom-up basierendauf
häufigenItemsets kleinererLänge.
§ Diesfunktioniertaufgrundder„Anti-Monotonie“desSupports.
§ AssoziationsregelnwerdenbasierendaufhäufigenItemsets berechnet.
IS2017
Kapitel15- DataMining
28
Clustering
GegebeneineMengevonObjekten.Ziel:FindeneinesgutenClusterings
(Gruppierung)derObjekteanhandihrerEigenschaften.Hier,anhandihrer
3DKoordinaten.
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
29
DasClustering-Problem(2)
§ GegebeneineMenge𝑈𝑈 vonObjektenundeineDistanzfunktion
𝑑𝑑: 𝑈𝑈×𝑈𝑈 → ℝÖ
§ GruppiereObjekteaus𝑈𝑈 inCluster(Teilmengen),sodassdieDistanz
zwischendenPunkteneinesClusterskleinistunddieDistanzzwischen
deneinzelnenClusterngroßist.
Inter-cluster
Distanzen
maximiert
Intra-cluster
Distanzen
minimiert
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
30
PartitionenundPrototypen
WirbetrachtenhierexklusivesClustering,d.h.einObjektistgenaueinem
Clusterzugeordnet:
§ DieMenge𝑈𝑈 istpartitioniertin𝑘𝑘
Cluster𝐶𝐶i , 𝐶𝐶v , … , 𝐶𝐶Z mit
n
Ü 𝐶𝐶x = 𝑈𝑈und𝐶𝐶x ∩ 𝐶𝐶â = ∅für𝑖𝑖 ≠ 𝑗𝑗
x
§ JedesCluster𝐶𝐶x wirdvoneinemsogenanntenPrototypen 𝜇𝜇x
repräsentiert(aka.Schwerpunkt/Centroid oderMitte/Durchschnitt)
• DieserPrototyp𝜇𝜇x mussnichtnotwendigerweiseeinesderObjekte
aus 𝐶𝐶x sein
§ DieQualitätdesClusterings wirddanninderRegelberechnetalsder
quadratischeFehlerzwischendenObjekteneinesClustersunddem
PrototypeneinesClusters(hierfür𝑑𝑑-dimensionaleDaten):
Z
IS2017
n
é é 𝑥𝑥â − 𝜇𝜇x
xîi êë ∈íì
v
v
Z
n
r
= é é é 𝑥𝑥âï − 𝜇𝜇xï
xîi êë ∈íì ïîi
Kapitel15- DataMining
v
31
Clusteringnicht(immer)eindeutig
Wie viele Cluster?
Sechs Cluster
Zwei Clusters
Vier Cluster
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
32
EinNaiver(Brute-Force)Ansatz
1. GeneriereallemöglichenClusterings,einsnachdemanderen
2. BerechnedenquadratischenFehler
3. WähledasClustermitdemkleinstenFehleraus
DieserAnsatzistleiderunbrauchbar:Esgibtvielzuvielemögliche
Clusterings,dieausprobiertwerdenmüssen.
§ Esgibt𝑘𝑘𝑛𝑛 Möglichkeiten𝑘𝑘 Clusterzuerzeugenbei𝑛𝑛 Objekten.Davon
könneneinigeClusterleersein.Alsofür50Objekteund3Clustergibtes
350 = 717897987691852588770249Möglichkeiten.
§ DieAnzahlderMöglichkeitendiese𝑛𝑛 Punktein𝑘𝑘 nichtleereCluster
aufzuteilenistdieStirling-ZahlderzweitenArt.
𝑆𝑆(50, 3) = 119649664052358811373730.
NurzurInfo,hierdieDefinitionderStirling-ZahlderzweitenArt:
Z
IS2017
𝑛𝑛
𝑘𝑘
1
â
𝑆𝑆 𝑛𝑛, 𝑘𝑘 =
= é(−1)
(𝑘𝑘 − 𝑗𝑗)ù
𝑘𝑘
𝑗𝑗
𝑘𝑘!
âî~
Kapitel15- DataMining
33
K-Means Clustering
§ JedesClusterwirddurcheinenMittelpunkt(Centroid)repräsentiert
§ EinObjektwirddemCentroid mitdergeringstenDistanzzugewiesen
§ Esgibt𝑘𝑘 Cluster.𝑘𝑘 isteinParameter.
Algorithmus:
1. Wählezufällig𝑘𝑘 ObjektealsinitialeCentroids aus.
2. repeat
3.
OrdneObjektedemjeweilsnächstgelegenenCentroid zu
4.
BerechnefürjedesClusterdenneuenCentroid.
5. until dieCentroide ändernsichnichtmehr
IS2017
Kapitel15- DataMining
34
K-Means:Beispiel
Wählezufällig𝑘𝑘 = 4Centroide ausundordneObjektezu
IS2017
Kapitel15- DataMining
35
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
36
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
37
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
38
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
39
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
40
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
41
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
42
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
43
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
44
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
45
K-Means:Beispiel
BerechneCentroid jedesClustersneu:Hatsich nichts geändert!
IS2017
Kapitel15- DataMining
46
K-Means-Clustering
§ DieinitialenCentroids werdennormalerweisezufälligausgewählt.
DadurchkönnenverschiedeneDurchläufeaufdengleichenDaten
unterschiedlicheClustererzeugen.
§ AlsCentroid benutztmantypischerweisedenMittelwert(Mean)der
ObjekteeinesClusters.
§ AlsDistanzmaßwirdz.B.dieEuklidischeDistanzbenutzt.
§ DerK-Means-Algorithmuskonvergiert
§ IndenerstenIterationensinddieÄnderungendesClusterings am
deutlichsten
§ Abbruchkriteriumauch:„BisnurnochsehrwenigeObjektedasCluster
wechseln“
§ Komplexitätist𝑂𝑂(𝑛𝑛×𝑘𝑘×𝐼𝐼×𝑑𝑑). 𝑛𝑛 =AnzahlObjekte,𝑘𝑘=AnzahlCluster,
𝐼𝐼=AnzahlIterationen,𝑑𝑑 =Dimensionalität derDaten.
IS2017
Kapitel15- DataMining
47

Zugehörige Unterlagen

Leiterin Kundenservice

Data Mining

Zugehörige Unterlagen

Produkte

Unterstützung

Data Mining

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können