Data Mining

Werbung
DataMining
Informationssysteme,Sommersemester 2017
LiteraturzuData-Mining
§ Pang-Ning Tan,MichaelSteinbach,Vipin Kuma.Introduction to Data
Minig.
EinpaarrelevanteKapitelsindfreiverfügbarunter
http://www-users.cs.umn.edu/kumar/dmbook/index
§ MohammedJ.Zaki,WagnerMeira Jr.DataMiningand Analysis.
http://www.dataminingbook.info
§ Jiawei Han,MichelineKamber.DataMining.Concepts and Techniques.
IS2017
Kapitel15- DataMining
2
Warenkorbanalyse
§ Objekte sind:Brot,Milch,Windeln,Bier,Eier
§ Transaktionen sind:1:{Brot,Milch},2:{Brot,Windeln,Bier,Eier},3:{Milch,
Windeln,Bier},4:{Brot,Milch,Windeln,Bier} und5:{Brot,Milch,
Windeln}
TID
Brot
Milch
1
1
1
2
1
3
Windeln
Bier
Eier
1
1
1
1
1
1
1
4
1
1
1
5
1
1
1
§ WelcheObjekte(Items)werdenhäufigzusammengekauft?
§ KönnenwirRegelnangebenderForm:KundendieWindelnkaufen,
kaufenauchmeistBier?
IS2017
Kapitel15- DataMining
3
DarstellungalsBinärmatrix
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
Itemsets
{Brot,Milch}
{Brot,Windeln,Bier,Eier}
{Milch,Windeln,Bier}
{Brot,Milch,Windeln,Bier}
{Brot,Milch,Windeln}
IS2017
Kapitel15- DataMining
4
Itemsets
§ EinItemset isteineMengevonObjekten
• EineTransaktion 𝑑𝑑 isteinItemset mitdazugehörigerTransaktions-ID,
𝑑𝑑 = (𝑑𝑑𝑑𝑑𝑑𝑑; 𝐼𝐼)wobei𝐼𝐼 dasItemset derTransaktionist
§ EineTransaktion𝑑𝑑 = (𝑑𝑑𝑑𝑑𝑑𝑑, 𝐼𝐼) enthälteinItemset 𝑋𝑋 falls𝑋𝑋 ⊆ 𝐼𝐼
§ DerSupportvonItemset 𝑋𝑋 ineinerDatenbank𝐷𝐷 istdieAnzahlder
Transaktionenin𝐷𝐷,die𝑋𝑋 enthalten:
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋, 𝐷𝐷) = | 𝑑𝑑 ∈ 𝐷𝐷 ∢ 𝑑𝑑𝑒𝑒𝑒𝑒𝑒𝑒𝑒ä𝑙𝑙𝑙𝑙𝑋𝑋 |
§ DierelativeHäufigkeitvonItemset XinDatenbankDistderSupport
relativzurGrößederDatenbank,𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋, 𝐷𝐷)/|𝐷𝐷|
§ EinItemset isthäufig(frequent),fallsdessenrelativeHäufigkeit über
einembestimmtenSchwellwertminfreq liegt.
§ AlternativkannmanaucheinenSchwellwertminsupp bzgl.desSupports
betrachten.
IS2017
Kapitel15- DataMining
5
Beispiel
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
§ Itemset {Brot,Milch} hatSupport3 undrelativeHäufigkeit3/5
§ Itemset {Brot,Milch,Eier} hatSupportundrelativeHäufigkeit0.
§ Fürminfreq =1/2habenwirdiefolgendenfrequent itemsets:
{Brot},{Milch},{Windeln},{Bier},{Brot,Milch},{Brot,Windeln},
{Milch,Windeln} und{Windeln,Bier}.
IS2017
Kapitel15- DataMining
6
AssoziationsregelnundKonfidenz
§ EineAssoziationsregel isteineRegelderForm𝑋𝑋 → π‘Œπ‘Œ,wobei𝑋𝑋 undπ‘Œπ‘Œ
disjunkteItemsets sind(d.h.𝑋𝑋 ∩ π‘Œπ‘Œ = ∅)
§ Idee:EineTransaktion,dieItemset 𝑋𝑋 enthält,enthält(vermutlich)auch
Itemset π‘Œπ‘Œ
§ DerSupporteinerRegel𝑋𝑋 → π‘Œπ‘ŒinDatenbank𝐷𝐷ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 → π‘Œπ‘Œ, 𝐷𝐷 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ π‘Œπ‘Œ, 𝐷𝐷
§ DieKonfidenzderRegel𝑋𝑋 → π‘Œπ‘ŒinDatenbank𝐷𝐷 ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ π‘Œπ‘Œ, 𝐷𝐷
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋 → π‘Œπ‘Œ, 𝐷𝐷 =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋, 𝐷𝐷
MitanderenWorten:DieKonfidenzistdiebedingteWahrscheinlichkeit,
dasseineTransaktionYenthält,wennsieXenthält.
IS2017
Kapitel15- DataMining
7
Beispiel
TID
Brot
Milch
Windeln
Bier
Eier
1
1
1
0
0
0
2
1
0
1
1
1
3
0
1
1
1
0
4
1
1
1
1
0
5
1
1
1
0
0
{𝐡𝐡𝐡𝐡𝐡𝐡𝐡𝐡, 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀} → {π‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Š}hatSupport2undKonfidenz2/3
{π‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Š} → {𝐡𝐡𝐡𝐡𝐡𝐡𝐡𝐡, 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀}hatSupport2undKonfidenz1/2
{𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸} → {𝐡𝐡𝐡𝐡𝐡𝐡𝐡𝐡, π‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Šπ‘Š, 𝐡𝐡𝐡𝐡𝐡𝐡𝐡𝐡}hatSupport1undKonfidenz1
IS2017
Kapitel15- DataMining
8
MöglicheItemset
§ WassindmöglicheItemset?
§ HieralleItemsets,fürdieItems
{a,b,c,d,e} inderDarstellung
alsVerband(Lattice).
a
/
b
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
9
EinnaiverAlgorithms
§ BetrachtejedesmöglicheItemset undtesteobeshäufigist.
§ WieberechnetmandenSupport?
ZählefürjedesItemset inwelchenTransaktionenesenthaltenist
§ BerechnendesSupportdauert𝑂𝑂(|𝐼𝐼|×|𝐷𝐷|)undesgibt2|O| mögliche
Itemsets,alsoimWorstcase:𝑂𝑂(|𝐼𝐼|× π·π· ×2|O| )
IS2017
Kapitel15- DataMining
10
DasApriori-Prinzip
§ FallseinItemset häufigist,sosind
alleTeilmengenebenfallshäufig.
§ Beispiel:Ist{c,d,e} häufig,so
sindauch{c},{d},{e},
a
b
{c,d},{c,e} und{d,e}
häufig.
/
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
11
DasApriori-Prinzip
§ Umgekehrt:falls{a,b}nichthäufigist(Englisch:infrequent),sosindauch
alleSupermengenvon{a,b}
/
nichthäufig.
a
b
c
d
e
ab
ac
ad
ae
bc
bd
be
cd
ce
de
abc
abd
abe
acd
ace
ade
bcd
bce
bde
cde
abcd
abce
abde
acde
bcde
abcde
IS2017
Kapitel15- DataMining
12
Anti-Monotonie
§ Sei𝐼𝐼 eineMengevonItemsundsei𝐽𝐽 = 2𝐼𝐼 diePotenzmengevon𝐼𝐼.Ein
Maß𝑓𝑓 istmonoton (oderaufwärtsgeschlossen)falls
∀𝑋𝑋, π‘Œπ‘Œ ∈ 𝐽𝐽 ∢ 𝑋𝑋 ⊆ π‘Œπ‘Œ ⇒ 𝑓𝑓 𝑋𝑋 ≤ 𝑓𝑓 π‘Œπ‘Œ
§ ImGegensatz,𝑓𝑓 istanti-monoton (oderabwärtsgeschlossen)falls
∀𝑋𝑋, π‘Œπ‘Œ ∈ 𝐽𝐽 ∢ 𝑋𝑋 ⊆ π‘Œπ‘Œ ⇒ 𝑓𝑓 π‘Œπ‘Œ ≤ 𝑓𝑓 𝑋𝑋
IstSupportmonotonoderanti-monoton?
§ Supportistanti-monoton:
FürItemsets 𝑋𝑋 undπ‘Œπ‘Œmit𝑋𝑋 ⊆ π‘Œπ‘Œ gilt𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ≥ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 π‘Œπ‘Œ .D.h.wenn
𝑋𝑋nichthäufigist(infrequent),dannsindauchalleObermengenvonX
nichthäufig.
IS2017
Kapitel15- DataMining
13
Beispiel
MinimumSupportSchwellwert=3
RotmarkierteItemsets sindunterSchwellwertundwerdeneliminiert.
Kandidaten 1-Itemsets
IS2017
Item
Count
Bier
3
Brot
4
Itemset
Count
Cola
2
{Bier,Brot}
2
Windeln
4
{Bier, Windeln}
3
Eier
2
{Bier, Milch}
2
Milch
4
{Brot,Windeln}
3
{Brot,Milch}
3
{Windeln,Milch}
4
Kandidaten 2-Itemsets
Kapitel15- DataMining
Kandidaten 3-Itemsets
Itemset
Count
{Brot,Windeln,
Milch}
3
14
DerApriori-Algorithms
DerApriori-AlgorithmusbenutztdieAnti-MonotoniedesSupport-Maßes,
umdieMengeanzubetrachtendenItemsets einzuschränken.
• ApriorigeneriertniemalseinKandidaten-Itemset,dasnicht-häufige
Teilmengenbesitzt.
IS2017
Kapitel15- DataMining
15
DerApriori-Algorithmus:Pseudocode
/*Notation:mit𝜎𝜎 bezeichnenwirdenSupporteinesItemsets */
1. π‘˜π‘˜ = 1
2. 𝐹𝐹Z = {𝑖𝑖|𝑖𝑖 ∈ 𝐼𝐼 ∧ 𝜎𝜎({𝑖𝑖}) ≥ π‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘š}
/*Häufige1-Itemsets*/
3. repeat
4.
π‘˜π‘˜ = π‘˜π‘˜ + 1
/*generiereKandidaten*/
5.
𝐢𝐢Z = apriori-gen(𝐹𝐹Zhi )
6.
for each transaction 𝑑𝑑 ∈ 𝑇𝑇do
7.
𝐢𝐢k = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝐢𝐢Z , 𝑑𝑑)
/*BetrachteKandidatendieinTA*/
8.
for each candidate itemset 𝑐𝑐 ∈ 𝐢𝐢k do
9.
𝜎𝜎(𝑐𝑐) = 𝜎𝜎(𝑐𝑐) + 1
/*ErhöheSupport-Zähler*/
10.
endfor
11.
endfor
/*FindehäufigeItemsets*/
12. 𝐹𝐹Z = {𝑐𝑐|𝑐𝑐 ∈ 𝐢𝐢Z ∧ 𝜎𝜎(𝑐𝑐) ≥ π‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘š}
13. until 𝐹𝐹Z = ∅
14. Result =⋃nn 𝐹𝐹Z
IS2017
Kapitel15- DataMining
16
DerApriori-Algorithmus:Pseudocode(2)
§ 𝐢𝐢Z istdieMengederπ‘˜π‘˜-Itemsets
§ 𝐹𝐹Z istdieMengederhäufigenπ‘˜π‘˜-Itemsets
ZuerstwirdeinMalüberdieDatengelaufen,umdenSupportjedes
einzelnenItemszufinden(Schritt2).Dannkennenwiralso𝐹𝐹i .
DanachwerdeniterativneueKandidaten-π‘˜π‘˜-Itemset berechnet,basierend
aufdenhäufigen(π‘˜π‘˜ − 1)-Itemsets (Schritt5).DieMethodedafürnennt
manπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Žπ‘Ž − 𝑔𝑔𝑔𝑔𝑔𝑔(....)
NunwirdfürjedesKandidaten-Itemset derSupportberechnet,indemein
MalüberdieDaten(Transaktionen)gelaufenwird(Schritt6-10).
Anschließendwerdennicht-häufigeItemsets entfernt(Schritt12).
DerAlgorithmusterminiertsobald𝐹𝐹Z = ∅ (Schritt13).
IS2017
Kapitel15- DataMining
17
GenerierungundEliminierungvonKandidaten
1. GenerierungvonKandidaten
• Generiertπ‘˜π‘˜-Itemsets (d.h.Itemsets derLängeπ‘˜π‘˜)basierendaufden
Itemsets dervorherigenIteration(en).
2. EliminierungvonKandidaten
• FindeundeliminiereunnützeKandidaten- π‘˜π‘˜-Itemsets.
IS2017
Kapitel15- DataMining
18
GenerierungvonKandidaten:Ziele
Ziele:
§ Vollständigkeit:Esmüssenallehäufigenk-Itemsets erzeugtwerden.
§ Effizienz:Essolltevermiedenwerden,unnützeItemsets zuerzeugen,d.h.
solchedieeinnicht-häufigesItemset enthalten.
§ EbensosolltenItemsets nichtmehrfachgeneriertwerden.
ErfüllendienachfolgendenAnsätzedieseZiele?
IS2017
Kapitel15- DataMining
19
GenerierungvonKandidaten:Brute-ForceAnsatz
§ Schritt1:GenerierealleKandidaten.Diessind
verschiedeneItems.
r
Z
vielefür𝑑𝑑
§ Schritt2:Dannentfernedienicht-häufigenItemsets.
VerbesserteVariante:BetrachtenurdieItemsaus𝐹𝐹i
IS2017
Kapitel15- DataMining
20
GenerierungvonKandidaten:„𝐹𝐹Zhi ×𝐹𝐹i “
§ Verknüpfediehäufigen(π‘˜π‘˜ − 1)-Itemsets mithäufigenItems.
§ DannentfernedienichthäufigenresultierendenItemsets.
§ Verbesserung:ErlaubenurErgänzungdurch1-Itemset,wenndies
lexikographischgrößeralsItemsdes(k-1)-Itemsets ist.
Itemset
Kandidaten 2-Itemsets
{Bier, Windeln}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
Eliminierung
nicht-häufiger Kandidaten
Itemset
{Brot,Windeln,Milch}
{Brot,Milch,Bier}
{Brot}
IS2017
{Bier,Windeln,Brot}
{Brot,Windeln,Milch}
{Bier}
{Milch}
Itemset
{Bier,Windeln,Milch}
Itemset
{Windeln}
Generierung von Kandidaten
Häufige 1-Itemsets
Kapitel15- DataMining
21
GenerierungvonKandidaten:„𝐹𝐹Zhi ×𝐹𝐹Zhi “
§ Verknüpfediehäufigen(π‘˜π‘˜ − 1)-Itemsets fallsdieseindenersten(k-2)
Itemsübereinstimmen.
§ BetrachtelexikographischeSortierungderItemsets.
§ D.h.,𝐴𝐴 = π‘Žπ‘Ži , π‘Žπ‘Žv , … π‘Žπ‘ŽZhi und𝐡𝐡 = 𝑏𝑏i , 𝑏𝑏v , … 𝑏𝑏Zhi könnenkombiniert
werden,fallsπ‘Žπ‘Žx = 𝑏𝑏x (für𝑖𝑖 = 1, 2, … , π‘˜π‘˜ − 2) undπ‘Žπ‘ŽZhi ≠ 𝑏𝑏Zhi
Itemset
Häufige 2-Itemsets
{Bier, Windeln}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
Generierung von Kandidaten
Itemset
{Bier, Windeln}
Eliminierung
nicht-häufiger Kandidaten
Itemset
Itemset
{Brot,Windeln,Milch}
{Brot,Windeln,Milch}
{Brot,Windeln}
{Brot,Milch}
{Windeln,Milch}
IS2017
Häufige 2-Itemsets
Kapitel15- DataMining
22
Assoziationsregeln(Association Rules)
§ BasierendaufdenhäufigenItemsets könnenwirnun Assoziationsregeln
generieren.
§ Falls𝑍𝑍 einhäufigesItemset istund𝑋𝑋 ⊂ 𝑍𝑍isteineechteTeilmenge von𝑍𝑍,
dannhabenwireineRegel𝑋𝑋 → π‘Œπ‘Œ,mitπ‘Œπ‘Œ = 𝑍𝑍\𝑋𝑋.
§ DieseRegelnsindhäufigda
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 → π‘Œπ‘Œ) = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑋𝑋 ∪ π‘Œπ‘Œ) = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑍𝑍)
IS2017
Kapitel15- DataMining
23
Assoziationsregeln:Konfidenz
§ FüreineRegel𝑋𝑋 → π‘Œπ‘Œ betrachtenwirdieKonfidenz,diewiefolgtdefiniert
ist
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 ∪ π‘Œπ‘Œ
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑋𝑋 → π‘Œπ‘Œ =
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑋𝑋 § EineRegel𝑋𝑋 → π‘Œπ‘Œ mit𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐(𝑋𝑋 → π‘Œπ‘Œ) ≥ π‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šwirdalsconfident
bezeichnet.
§ IsteineRegel𝑋𝑋 → 𝑍𝑍 βˆ– 𝑋𝑋nichtconfident,sokannkeineRegel
π‘Šπ‘Š → 𝑍𝑍 βˆ– π‘Šπ‘Šmitπ‘Šπ‘Š ⊆ 𝑋𝑋 confident sein.
IS2017
Kapitel15- DataMining
24
Assoziationsregeln:Berechnung
Input:MengeFvonhäufigenItemsets,minconf Schwellwert.
1. foreach 𝑍𝑍 ∈ 𝐹𝐹mit|𝑍𝑍| ≥ 2 do
2.
𝐴𝐴 = 𝑋𝑋 𝑋𝑋 ⊂ 𝑍𝑍, 𝑋𝑋 ≠ ∅}
3.
while 𝐴𝐴 ≠ ∅do
4.
𝑋𝑋 = größtesItemset aus𝐴𝐴
5.
𝐴𝐴 = 𝐴𝐴 βˆ– 𝑋𝑋
6.
𝑐𝑐 = supp(𝑍𝑍)/supp(𝑋𝑋)
/*BerechnungKonfidenz*/
7.
if 𝑐𝑐 ≥ π‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šπ‘šthen
8.
print 𝑋𝑋 → π‘Œπ‘Œ,supp(𝑍𝑍),𝑐𝑐 /*Ausgabe,wobeiπ‘Œπ‘Œ = 𝑍𝑍 βˆ– 𝑋𝑋*/
9.
else
10.
𝐴𝐴 = 𝐴𝐴 βˆ– {π‘Šπ‘Š|π‘Šπ‘Š ⊂ 𝑋𝑋}
11.
end
12.
end
13. end
IS2017
Kapitel15- DataMining
25
Beispiel:Daten
§ WirhabenfolgendeTransaktionen
1. {Brot,Milch},
2. {Brot,Windeln,Bier,Eier},
3. {Milch,Windeln,Bier},
4. {Brot,Milch,Windeln,Bier}
5. {Brot,Milch,Windeln}
§ Mitminfreq=0.05habenwirdiefolgendenhäufigenItemsets:
{Brot},{Milch},{Windeln},{Bier},{Brot,Milch},{Brot,Windeln},
{Brot,Bier},{Milch,Windeln},{Milch,Bier},{Windeln,Bier},
{Brot,Milch,Windeln},{Brot,Windeln,Bier},{Milch,Windeln,Bier}
§ Notation:AufderfolgendenFolieist𝐴𝐴(x) dieMenge𝐴𝐴 inIteration𝑖𝑖
IS2017
Kapitel15- DataMining
26
Beispiel
minfreq =0.05,minconf =0.5undfürZ={Milch,Windeln,Bier}
𝐴𝐴(~) = {{Milch},{Windeln},{Bier},{Milch,Windeln},{Milch,Bier},{Windeln,Bier}}
𝑋𝑋 = {Windeln,Bier}
Ausgabe:{Windeln,Bier}→ {Milch} 2 0.667
𝐴𝐴(i) = {{Milch},{Windeln},{Bier},{Milch,Windeln},{Milch,Bier}}
𝑋𝑋 = {Milch,Bier}
Ausgabe:{Milch,Bier}→ {Windeln} 2 1.0
𝐴𝐴(v) = {{Milch},{Windeln},{Bier},{Milch,Windeln}}
𝑋𝑋 ={Milch,Windeln}
Ausgabe:{Milch,Windeln}→ {Bier} 2 0.667
𝐴𝐴() = {{Milch},{Windeln},{Bier}}
𝑋𝑋 ={Milch}
Ausgabe:{Milch}→ {Windeln,Bier} 2 0.5
𝐴𝐴(Ä) = {{Windeln},{Bier}}
𝑋𝑋 ={Windeln}
Ausgabe:{Windeln}→ {Milch,Bier} 2 0.5
𝐴𝐴(Å) = {{Bier}}
𝑋𝑋 = {Bier}
Ausgabe:{Bier}→ {Milch,Windeln} 2 0.667
IS2017
Kapitel15- DataMining
27
ZusammenfassungItemsetmining
§ WarenkorbanalyseistklassischesBeispielfürData-Mining
§ DabeiwerdenTransaktionen bestehendausItemsaufhäufigzusammen
auftretendeItems sowienachAssoziationsregeln derForm„WerBrot
kaufkauftauchBier“durchsucht.
§ Apriori-AlgorithmusgeneriertItemsets bottom-up basierendauf
häufigenItemsets kleinererLänge.
§ Diesfunktioniertaufgrundder„Anti-Monotonie“desSupports.
§ AssoziationsregelnwerdenbasierendaufhäufigenItemsets berechnet.
IS2017
Kapitel15- DataMining
28
Clustering
GegebeneineMengevonObjekten.Ziel:FindeneinesgutenClusterings
(Gruppierung)derObjekteanhandihrerEigenschaften.Hier,anhandihrer
3DKoordinaten.
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
29
DasClustering-Problem(2)
§ GegebeneineMengeπ‘ˆπ‘ˆ vonObjektenundeineDistanzfunktion
𝑑𝑑: π‘ˆπ‘ˆ×π‘ˆπ‘ˆ → ℝÖ
§ GruppiereObjekteausπ‘ˆπ‘ˆ inCluster(Teilmengen),sodassdieDistanz
zwischendenPunkteneinesClusterskleinistunddieDistanzzwischen
deneinzelnenClusterngroßist.
Inter-cluster
Distanzen
maximiert
Intra-cluster
Distanzen
minimiert
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
30
PartitionenundPrototypen
WirbetrachtenhierexklusivesClustering,d.h.einObjektistgenaueinem
Clusterzugeordnet:
§ DieMengeπ‘ˆπ‘ˆ istpartitioniertinπ‘˜π‘˜
Cluster𝐢𝐢i , 𝐢𝐢v , … , 𝐢𝐢Z mit
n
Ü πΆπΆx = π‘ˆπ‘ˆund𝐢𝐢x ∩ 𝐢𝐢â = ∅für𝑖𝑖 ≠ 𝑗𝑗
x
§ JedesCluster𝐢𝐢x wirdvoneinemsogenanntenPrototypen πœ‡πœ‡x
repräsentiert(aka.Schwerpunkt/Centroid oderMitte/Durchschnitt)
• DieserPrototypπœ‡πœ‡x mussnichtnotwendigerweiseeinesderObjekte
aus 𝐢𝐢x sein
§ DieQualitätdesClusterings wirddanninderRegelberechnetalsder
quadratischeFehlerzwischendenObjekteneinesClustersunddem
PrototypeneinesClusters(hierfür𝑑𝑑-dimensionaleDaten):
Z
IS2017
n
é é π‘₯π‘₯â − πœ‡πœ‡x
xîi êë ∈íì
v
v
Z
n
r
= é é é π‘₯π‘₯âï − πœ‡πœ‡xï
xîi êë ∈íì ïîi
Kapitel15- DataMining
v
31
Clusteringnicht(immer)eindeutig
Wie viele Cluster?
Sechs Cluster
Zwei Clusters
Vier Cluster
Abbildung nach Tan, Steinbach, Kumar
IS2017
Kapitel15- DataMining
32
EinNaiver(Brute-Force)Ansatz
1. GeneriereallemöglichenClusterings,einsnachdemanderen
2. BerechnedenquadratischenFehler
3. WähledasClustermitdemkleinstenFehleraus
DieserAnsatzistleiderunbrauchbar:Esgibtvielzuvielemögliche
Clusterings,dieausprobiertwerdenmüssen.
§ Esgibtπ‘˜π‘˜π‘›π‘› Möglichkeitenπ‘˜π‘˜ Clusterzuerzeugenbei𝑛𝑛 Objekten.Davon
könneneinigeClusterleersein.Alsofür50Objekteund3Clustergibtes
350 = 717897987691852588770249Möglichkeiten.
§ DieAnzahlderMöglichkeitendiese𝑛𝑛 Punkteinπ‘˜π‘˜ nichtleereCluster
aufzuteilenistdieStirling-ZahlderzweitenArt.
𝑆𝑆(50, 3) = 119649664052358811373730.
NurzurInfo,hierdieDefinitionderStirling-ZahlderzweitenArt:
Z
IS2017
𝑛𝑛
π‘˜π‘˜
1
â
𝑆𝑆 𝑛𝑛, π‘˜π‘˜ =
= é(−1)
(π‘˜π‘˜ − 𝑗𝑗)ù
π‘˜π‘˜
𝑗𝑗
π‘˜π‘˜!
âî~
Kapitel15- DataMining
33
K-Means Clustering
§ JedesClusterwirddurcheinenMittelpunkt(Centroid)repräsentiert
§ EinObjektwirddemCentroid mitdergeringstenDistanzzugewiesen
§ Esgibtπ‘˜π‘˜ Cluster.π‘˜π‘˜ isteinParameter.
Algorithmus:
1. Wählezufälligπ‘˜π‘˜ ObjektealsinitialeCentroids aus.
2. repeat
3.
OrdneObjektedemjeweilsnächstgelegenenCentroid zu
4.
BerechnefürjedesClusterdenneuenCentroid.
5. until dieCentroide ändernsichnichtmehr
IS2017
Kapitel15- DataMining
34
K-Means:Beispiel
Wählezufälligπ‘˜π‘˜ = 4Centroide ausundordneObjektezu
IS2017
Kapitel15- DataMining
35
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
36
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
37
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
38
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
39
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
40
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
41
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
42
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
43
K-Means:Beispiel
BerechneCentroid jedesClustersneu
IS2017
Kapitel15- DataMining
44
K-Means:Beispiel
OrdneObjekteneuzu
IS2017
Kapitel15- DataMining
45
K-Means:Beispiel
BerechneCentroid jedesClustersneu:Hatsich nichts geändert!
IS2017
Kapitel15- DataMining
46
K-Means-Clustering
§ DieinitialenCentroids werdennormalerweisezufälligausgewählt.
DadurchkönnenverschiedeneDurchläufeaufdengleichenDaten
unterschiedlicheClustererzeugen.
§ AlsCentroid benutztmantypischerweisedenMittelwert(Mean)der
ObjekteeinesClusters.
§ AlsDistanzmaßwirdz.B.dieEuklidischeDistanzbenutzt.
§ DerK-Means-Algorithmuskonvergiert
§ IndenerstenIterationensinddieÄnderungendesClusterings am
deutlichsten
§ Abbruchkriteriumauch:„BisnurnochsehrwenigeObjektedasCluster
wechseln“
§ Komplexitätist𝑂𝑂(𝑛𝑛×π‘˜π‘˜×𝐼𝐼×𝑑𝑑). 𝑛𝑛 =AnzahlObjekte,π‘˜π‘˜=AnzahlCluster,
𝐼𝐼=AnzahlIterationen,𝑑𝑑 =Dimensionalität derDaten.
IS2017
Kapitel15- DataMining
47
ZugehΓΆrige Unterlagen
Herunterladen