Maschinelles Lernen und Data Mining WS 2002,3 119+1/182 Prof. Dr. Katharina Morik Data Cube ! ! " # $ % & ' (!& ! + , * !! ) *# ** ) $ * -. Dank an Hanna Köpcke! Maschinelles Lernen und Data Mining WS 2002,3 119+2/182 Prof. Dr. Katharina Morik On-line Analytical Processing (OLAP) , / ) # 2 3 2 ! . 2 5 * * 6* ) 3 0 * ! 4 2 ** ! ) # ) ** ** ) 1 Maschinelles Lernen und Data Mining WS 2002,3 119+3/182 Prof. Dr. Katharina Morik OLAP-Werkzeuge 2 # 2 () 2 ( # ! 2 #! * 7 ) 9 # 8 * * ) ) . 7 * %) ! * : ** . 7 ! % ) ** ! ; ) - < ! %) ! * ! ) ) #! * ** # 119+4/182 Maschinelles Lernen und Data Mining WS 2002,3 Beispiel: Autoverkäufe Modell Jahr Farbe Anzahl Opel Opel Opel Opel Opel Opel Opel Opel Opel Ford Ford Ford Ford Ford Ford Ford Ford Ford 1990 1990 1990 1991 1991 1991 1992 1992 1992 1990 1990 1990 1991 1991 1991 1992 1992 1992 rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau 5 87 62 54 95 49 31 54 71 64 62 63 52 9 55 27 62 39 Prof. Dr. Katharina Morik 119+5/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Aggregation in SQL 2 . / COUNT(), SUM(), MIN(), MAX(), AVG() Beispiel: SELECT AVG(Anzahl) FROM Autoverkäufe 2 9 *- ) = Beispiel: SELECT COUNT(DISTINCT Modell) FROM Autoverkäufe 2 . 8 = 2 ! ! GROUP BY Maschinelles Lernen und Data Mining WS 2002,3 119+6/182 Prof. Dr. Katharina Morik GROUP BY SELECT Modell, Jahr, SUM(Anzahl) FROM Autoverkäufe GROUP BY Modell, Jahr 2# 2@ ) 2# * > 7 ) !<1 ) * 7< && 7 ) * * > )8 ) - ) ? ! ! 3 . ! * 7< ) && = ! Maschinelles Lernen und Data Mining WS 2002,3 119+7/182 Prof. Dr. Katharina Morik Beispiel: GROUP BY Modell Jahr Farbe Anzahl Opel Opel Opel Opel Opel Opel Opel Opel Opel Ford Ford Ford Ford Ford Ford Ford Ford Ford 1990 1990 1990 1991 1991 1991 1992 1992 1992 1990 1990 1990 1991 1991 1991 1992 1992 1992 rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau 5 87 62 54 95 49 31 54 71 64 62 63 52 9 55 27 62 39 SELECT Modell, Jahr, SUM(Anzahl) FROM Autoverkäufe GROUP BY Modell, Jahr Modell Jahr Anzahl Opel 1990 154 Opel 1991 198 Opel 1992 156 Ford 1990 189 Ford 1991 116 Ford 1992 128 119+8/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Roll Up *- ) # * ) 2 5 ! ) ) *# * ) *A & 2 B ) *# * ) * A# # 7 *& / 9 .< 2 & ) 2 # 7 ) - 0 ) ) - @ ) - 3 2 ) 5 . *8 7 ) 8 * C ) *0 ) *C ) !@ C ) 3 * ) 7 ) 5 . *8 ) * 0 ) * )@ * * !! )) * ) 5 . *8 ) 0 ) - Maschinelles Lernen und Data Mining WS 2002,3 119+9/182 Prof. Dr. Katharina Morik GROUP BY: Roll Up Modell Jahr Farbe Opel 1990 rot weiß blau Anzahl nach Modell, Jahr, Farbe Anzahl nach Modell, Jahr Anzahl nach Modell 5 87 62 154 1991 rot weiß blau 54 95 49 198 1992 rot weiß blau 31 54 71 156 508 119+10/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Probleme mit GROUP BY: Roll Up 2 > * ) ! 7 ) DE %= F. - ** * . 2 # , ) & 7<- * ! ) , ) 2 ! ) * 4& 7 - * ) & 7 )) %= 2 # %= & <* ) 0 7 ) *& / ) & 3 ) ) ** , ) 5 . *8 ) 7 1 8 * !! ** * ) 3 ) 8 ) ) ) 8 9 ! ) 8 ) * * ) Maschinelles Lernen und Data Mining WS 2002,3 119+11/182 Prof. Dr. Katharina Morik GROUP BY: Roll Up mit ALL Modell Jahr Farbe Anzahl 8 ) > ! / Opel 1990 rot Opel 1990 weiß Opel 1990 blau Opel 1990 ALL Opel 1991 rot Opel 1991 weiß Opel 1991 blau Opel 1991 ALL Opel 1992 rot Opel 1992 weiß Opel 1992 blau 5 SELECT Modell, ALL, ALL, SUM(Anzahl) 87 FROM Autoverkäufe WHERE Modell = ‘Opel‘ 62 GROUP BY Modell 154 UNION 54 SELECT Modell, Jahr, ALL, SUM(Anzahl) FROM Autoverkäufe 95 WHERE Modell = ‘Opel‘ 49 GROUP BY Modell, Jahr 198 UNION SELECT Modell, Jahr, Farbe, SUM(Anzahl) 31 FROM Autoverkäufe 54 WHERE Modell = ‘Opel‘ 71 GROUP BY Modell, Jahr, Farbe Opel 1992 ALL 156 Opel ALL ALL 506 Maschinelles Lernen und Data Mining WS 2002,3 119+12/182 Prof. Dr. Katharina Morik Probleme mit GROUP BY: Roll Up 2 2 2 *& 5 7 - *) )! #! * & * *6!! *- / .< * ) - @ - * * ) - 3 & * Maschinelles Lernen und Data Mining WS 2002,3 119+13/182 Prof. Dr. Katharina Morik Kreuztabellen 6!! ) *- # Opel * ! )! * # 1990 1991 1992 Total (ALL) 5 54 31 90 weiß 87 95 54 236 blau 62 49 71 182 154 198 156 508 rot Total (ALL) # * ? 8 E !! ! 7 0 < * ) ) 8 )! * 87 ) ! ! ) * 8 . !! C ) *0 ) Maschinelles Lernen und Data Mining WS 2002,3 119+14/182 Prof. Dr. Katharina Morik Der CUBE-Operator Aggregation Summe * rot weiß blau rot weiß blau Summe Modell 8 & . ? *7 GROUP BY (mit Gesamtsumme) ? ? = 8 ! 8 ! ! ) . *Data Cube mit allen Aggregationen 6! Kreuztabelle Opel Ford Farbe HHIF Modell 90 91 92 & Jahr 19 19 19 Ford Opel od el l ) * M * * * * ) Jahr Farbe & Jahr Summe M Farbe %) ! * # G# # $ # ## $ # ## $ # ## $ *) D 6 $ ) l el d o & e rb a F Maschinelles Lernen und Data Mining WS 2002,3 119+15/182 Prof. Dr. Katharina Morik Der CUBE-Operator 2 *& 2 # 2 $ $ FROM Autoverkäufe GROUP BY CUBE Modell, Jahr, Farbe % & 8 > ) *<! < * !B ? ! ) > ) ) ) ) 8 ) & 7 ) * $ ) ? ) < ) ) * ) ) < ) $ *7 ) 2 # 2 2 ? / SELECT Modell, Jahr, Farbe, SUM(Anzahl) ) 8 8! * ) # $ % ∏D$ J F 119+16/182 Maschinelles Lernen und Data Mining WS 2002,3 Data Cube des Beispiels Modell Jahr Farbe Anzahl Opel Opel Opel Opel Opel Opel Opel Opel Opel Ford Ford Ford Ford Ford Ford Ford Ford Ford 1990 1990 1990 1991 1991 1991 1992 1992 1992 1990 1990 1990 1991 1991 1991 1992 1992 1992 rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau rot weiß blau 5 87 62 54 95 49 31 54 71 64 62 63 52 9 55 27 62 39 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+17/182 Prof. Dr. Katharina Morik Modell Jahr Farbe Anzahl Modell Jahr Farbe Anzahl Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Opel Ford Ford Ford Ford Ford Ford Ford Ford 1990 1990 1990 1990 1991 1991 1991 1991 1992 1992 1992 1992 ALL ALL ALL ALL 1990 1990 1990 1990 1991 1991 1991 1991 rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL 5 87 62 154 54 95 49 198 31 54 71 156 90 236 182 508 64 72 63 189 52 9 55 116 Ford Ford Ford Ford Ford Ford Ford Ford ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL ALL 1992 1992 1992 1992 ALL ALL ALL ALL 1990 1990 1990 1990 1991 1991 1991 1991 1992 1992 1992 1992 ALL ALL ALL ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL rot weiß blau ALL 27 62 39 128 143 133 157 433 69 149 125 343 106 104 104 314 58 116 110 284 233 369 339 941 119+18/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Implementationsalternativen 2 6* *- 0 * ) * * ! # $ / % * 7 8 % & & 8 ) 2 ? 0 * / %C ) , 7 ) ) *) ) %. 8 *< 8 & & 8 % *- 7 8 2 0 * 9 > ) *# $ / %= 9 , * ) *( ) , %) * , ! : < ;, %, ) %= * ) < % !/ = - , ) *# $ ! * K %, ) *# $ *& D F Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+19/182 Abhängigkeit von Sichten # < ≤ 2 ≤ * * 2 # 5 )) 2 5 . )7 ) L * ≤ 87 *- . 9 7 7 9 ) ! 4! * ) 7 )) < . * ) 7 )) * ) ? * ) 7 ) 7 ) ) 5 87 ) ) ! D 0 ) ) !) ** * < 9 ) 5 ** 8 * 9 ≤) ) )≤ ) ? - F D F ) ! ≤ 8 & ) !) / 119+20/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Auswahl von Sichten 2 & ! *& ! ) * ) ) B* 7 ) * / % # ) - *- , ) *7 ) * ! ! 7 ) %0 *- < . * * 8 9 ) ! * 7 ) * < 9 ) 8 ) 2 # * & ! *& ! * E %9 * < ) 2 L * . && 4 ! * B* / )6% ! * 2 # ) 6% ! *9 < *8 *- - / 0 . 8 ) ** ) ! ) * *+ M < DL 6 C ! ! H H +F Maschinelles Lernen und Data Mining WS 2002,3 119+21/182 Prof. Dr. Katharina Morik Der Greedy Algorithmus 2 5 )! & 2 ! / & . * A 8 2 *- < . .! * 2 E *7 0 9 ) E 8 ) - 9 98 ) 7 ) / 3 C ) - 7≤97 ) 7 D F ) * ) ** 7 ≤ D F 7 D9 FA A ! ) . * ) ! * C(v) - C(u), falls C(v) < C(u) 0 ansonsten 7≤9 7 $D9F 7 ) D9 F / ? * C ) ) 8 - - 9 Maschinelles Lernen und Data Mining WS 2002,3 119+22/182 Prof. Dr. Katharina Morik Der Greedy Algorithmus AN " ' + * - A .) =< ) A ∪ N9O )P P O 9∉ ∉ * ) ** D9 F! 4! * P Maschinelles Lernen und Data Mining WS 2002,3 119+23/182 Prof. Dr. Katharina Morik Beispiel Erste Wahl 100 a 50 b 20 d 30 c 75 f 40 e g h 1 10 Greedy Auswahl: b, d und f Zweite Wahl Dritte Wahl b 50 x 5 = 250 c 25 x 5 = 125 25 x 2 = 50 25 x 1 = 25 d 80 x 2 = 160 30 x 2 = 60 30 x 2 = 60 e 70 x 3 = 210 20 x 3 = 60 20 + 20 + 10 = 50 f 60 x 2 = 120 60 + 10 = 70 g 99 x 1 = 99 49 x 1 = 49 49 x 1 = 49 h 90 x 1 = 90 40 x 1 = 40 30 x 1 = 30 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+24/182 Was wissen Sie jetzt? 2 0B 2 - . 2 (!& ! 8 8 2 )6% 8 9 9 ) # * 8 ) $ *8 #! * 9 9 ! *8 *7 ) ! * 8 # $ * * 7 ) 9 * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+25/182 Lernen von Assoziationsregeln / 0 9 > * . 0 9 > ! ∈ QG R ) ! $ ! ∈ QG R ) 3 ) -) s (r , c) = C . ) < = ⊆ * . ! * 8 ! ! ? ) 8 3 !S 7 S ⊆ { t ∈ r X ∪ Y ∈ t} r ≥ s min ⊆ S ∩ { t ∈ r X ∪ Y ∈ t} conf (r , c ) = { t ∈ r X ∈ r} ANO ≥ conf min Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+26/182 Binäre Datenbanken 0 $ 0 9 9 C . > ) < = * . $ (# G G > $ * . ⊆ G G G " 119+27/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Warenkorbanalyse Aftershave 0 1 0 1 Bier 1 1 1 0 N * 9 O N O N * 9 O N$ &*O N O N$ &*O N$ &*O N * 9 O N * 9 O N $ &*O Chips EinkaufsID 1 1 0 2 1 3 0 4 *AT *AG *AU *AG *AG AU A V %% 8 * !! K Maschinelles Lernen und Data Mining WS 2002,3 119+28/182 Wieder ein Verband... N N N $O N O N $ #O #O N $ #O N $ #O $O N $O N #O N$ #O N N O N O NO N$O N#O #O Prof. Dr. Katharina Morik Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+29/182 Ordnungsrelation 2 L 2 2 * ) 0 ⊇ . ) * 0 * B1 * ) * ! > 0 ! 8 7 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+30/182 Assoziationsregeln L / ** 8 * * ). ( % 2 ( ) ? . * .B ! 2 * ) !! < 2 0 ** 8 * 8 * !! !! / < 9 . 2 2 D> * ) / * < 0 * . ) W * . F ) ** 8 * * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+31/182 Apriori Algorithmus D 7 0 . L ) * , 7 **! . C . D > 9 */ L < !* 2 = 0 < D %0 F 2 = 0 * D0 F 2 = S .J ) 2 0 .% . ) 9 8 .J # * * ) ? ) * 5 * 0 X * * - * * - ⊆S C . ! *Y ) . ! H H +F S ∪ * *F .A > ! ! D ! %0 * ! ? )) . F 7 ) Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+32/182 Beispiel N = < ) N N < $O N O N $ #O #O N $ #O N $O N $O N #O N$ #O N ON N $O $O N $O .J A .A #O L< * N $ #O N O N O N$O N#O . ? NO 0 )) $.J Maschinelles Lernen und Data Mining WS 2002,3 119+33/182 Beispiel * - 7 ) ? )) ! .J A' $#O N $ O N # O N $# O N $# O O "A N N .% ! * ! 9 8 / AN $# O ) . > ! 9 "K N $#O N $ O N # O N $# O N $# O Z C W # 7 ) ? ) ) $' "A NN $#O N $ O O AN $# O ) > ! 9 "K N $#O N $ O N # O N $# O N $# O Z # 7 ) - 8 !? )) W Prof. Dr. Katharina Morik Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+34/182 Kandidatengenerierung 8 .J %? )) D . F /A NO Forall /A N . .% * ) ** AN AN .% F9 Y.O Y. [ .% . Y.O . if .% ! > ! then .J /A .J ∪ N O Return .J D$.J .O - L< 9 . 9 . ? )) * ) ! *! Maschinelles Lernen und Data Mining WS 2002,3 119+35/182 Häufige Mengen L< %0 D *! F $ /A {i} .A i∈R /A D$ F ≠NO $.J /A 8 %? ) ) D$.J F .J /A ./A .J while . k Return Lj j =2 D .F Prof. Dr. Katharina Morik 119+36/182 Maschinelles Lernen und Data Mining WS 2002,3 APRIORI & D /A L < -/A Return - * *! %0 D - - ! F D *! F ! F Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+37/182 Prof. Dr. Katharina Morik Regelgenerierung *) = # ) ) AN AN ≥- 0 . * ) 7 < .% - AN .O - A N .% .O .% AN - < ? 7 ) . 7 ) * .O ≥ .% O -. A N O ≥- ) . O N ) . N .% N .% . ! ) ? 8 / O .O O - . 8* . Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+38/182 Implementierung 2 L * %> ) ! 2 C ) !? *& - ) < 4 ! ) ) 0 7 ) - ** A B *- *) ) L< ) . D C N#O B C C N #O N $ON #O N $#O N $#O N$#O #6 ! *- 119+39/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Was wissen Sie jetzt? 2 2 ** 8 * * ). ( % %0 ) L< . /= * > ! 2 0 8 < 0 ) !! 8 0 8 )) * 0 L< . * !% & !5 )) 0 2 0 ) /= > * - C ) 0 ) * < 2 0 *) ) ) !0 * > ! - 7 - 0 < < > * ! ) ! ! 7 * ) * 119+40/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Probleme von Apriori 2 (! *- !!* 3 * & 4& 7 7 !B > ! ) 7 ) ( ) 4** ) ) > * . *&< * # *) ) - *! )! ) = . 6* ! * * 2 & - 9 2 # * ) B- * ) ) 2 # * ) ) 7 ) ? ) & = *- . -.* = * 7 * $ . * ** ) ** )9 3 1 $ . * 8 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+41/182 Aktuelle Forschung 2 ? ) 2 ** 2 - * 2 L 2 # * ? & ! * * 7 < 8 8 : ? & <* * * && ! ) ? ## X )? ) 8 ) . 9 # * ) 5 ** ? ## ) ($#0 * ) !* *; . ) 9 9 - 119+42/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Kondensierte Repräsentationen * 8 ) # . ) * 2 ) . * 2 *) 7 .B ? ) * & 2 $ * ) !* 2 3 * * & ) ) 2 $ 9 & . 87 ) & <* *) *& < 0 - ! <* * 0 !* . ) & <* ) L< ) # * * ** 8 * - - ** 8 * ) . 8 * / / Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+43/182 In anderen Worten: = # < 5 1 = 2 2 ! ** L # 5 * ! * . ) *5 * * *) 8 8 . ) 8 8 ! . K 7 * !W * ) L 6& !* . ) * * 8 ! - *& ) * > ! - 8 7 *- Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+44/182 Untere Grenze ? 0 B1 8 L< 0 2 = 0 D %0 2 *) ) ? )) F < * * - * *! !<1 ) * > ) 8 W ! # . Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+45/182 Obere Grenze ? 0 B1 2 0 2 0 ) - C ) 0 *) ) /= ) ? * )) > < ! * * - ) * - * 0 * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+46/182 Beispiel L< {} A AB ABC 3 X -6 * )G B AC C AD BC ABD BD ACD ABCD < Dank an Jean-Francois Boulicaut! D BCD CD Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+47/182 Closed Item Sets $ G # G G G G G G 2 - * D F * ) ! 4! ) > ! 8 F9 * < 7 9 . !! 2 2 * - * ) !* ! - 7 7 9 > * . < 2 $ * ) * )/ $ $ $ . ! 9 $. . !! ' ! 9 $ ). ! 7 ! ) - * G D - !<1 D FA * ) $ $# !! - +! 9 - ) ! 9 $ P Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+48/182 Kondensierte Repräsentation und Ableitung $ * ) !* ** ) 2 * ) . !& . 2 = ! ) < - ! - ! ) < 0 2 3 (* / C ) 0 ! Z E ) * Z @ ) * ) = * ! ! 4! L< . ) - * ) ) & ! 7 S 9 L< < . . * W ! & <* !* *$ # 8 8 - ) 9 $ 9 9 / - ). $/ K < ) 9 $ 9 . !! S !! ) Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+49/182 Freie Mengen (free sets) 2 D? 0 ) * 8A F 87 *- 7 *. *! ¬∃X , Y S = X ∪ Y , Y ≠ { }, X 2 δ 0 * ! * δ% 87 *- 7 ) Y *. ! 2 # - * ) * ** )) - * ) 0 . ) - * ) * * *) 2 3 * %! # * . ! ) 0 ! 7 0 * W 0 *- 9 8 0 - Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+50/182 Beispiel $ G # G G G G G G 2 ! - 7 < NO # 2 $ * ) * )/ $ 2 $ - * * * * * 7 0 $ DNOFA$ D FA $ D FA $ D#FA $# D FA $ 9 / $ G $ * )) $# 119+51/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Arbeiten mit freien Mengen 2 3 D δF/ 0 S * δ% 7 *. * ! 87 *! ! 7 *δ 2 3 XD σF/ NS \ S ⊆ \S ∈ \V \ \ ≥ σO 2 3 X3 D σ, δF/ 3 X D σF ∩ 3 D δF 2 E 9 8 ) %D σ, δF/ NS \ S ⊆ S ∉3 X3 D σ, δF ∈ 3 X3 D σ, δF O ) ∀ ⊂ S * ) . 8 * 0 ) ) < ) * ) ) > ! < ) * ) 2 = *- < 8 ) L < . 0 * / ∃S ⊆ ) S * δ% - σZ < ) !! G * L < . 9 * !! ) . * 8 ! 5 . !! ) > ! S *L< . 9 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+52/182 Abschätzung D E - 3 FA ! X3 / ⊂ S 3 X3 S S S ⊂ ! . F\ ⊂ S OF A 3 ⊂ / ! DN D FAG ⊂ ⊂ ⊂ D ! < Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+53/182 MinEx 2 < 2 0 0 8 * 3 X3 D σ, δF 8 * !% & !L 9 )) 0 ! ! !! ) ) ) * ) 2 # > * * ) * - B1 0 ! *9 @ 0 ) ) %3 ) ) - 7 % - 3 * ) ) * 7 ) - * - X3 ! D ) * ) ) 0 σ, δF 9 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+54/182 Algorithmus (abstrakt) < # ** C . + σ )δ - 7 7 3 X3 D σ, δF * $G/AN NO O /AG While $ ≠ NO do 3 X3 /A NS \S ∈ $ S * σ% < $ /A NS \ S ⊆ ∀ ⊂ S ∈ 3 X3 ∪ ≤ $ /A J od 7. Output 3. " ' ∪ 3 X3 )) ) δ% O D σ, δF C ≤ O] Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+55/182 Pruning 2 ( ) % S N O S < ⊆ ]S 2 # * 8 ( ( ) 7 ) ) δZ* . ) 7 * ) *7 )9 7 ) Z* * ). % ! ? ) ) ! δ% ) 0 J % 3 ! 119+56/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Eigenschaften von MinEx 2 # 2 # 2 # 7 = 2 # ( ! * * !! 7< ) ** ( ( ) **) 5 7 ) 9 - * )* * ! * * 4& ) 0 ! * * ) 0 ) # . & 0 1 * 7 ) , ) > & δ !* δ 7 7 ) > & 8 9 ) && 9 ) && ! * && 4 ! ) * :7 ; * ) 4* * 7 9 G M . ! Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+57/182 Was wissen Sie jetzt? 2 * 87 0 0 < < & <* - < ) 7 0 * *) * & <* 7 ) Z # - * ) * ** ) ! 4! L< . 7 Z # * ** )0 *) ** 8 * ! . 2 = ) ! ) < 8 ! * 9 ! 0 !5 ! * .B ! ! *0 4 ) ) * ) * . ** 8 ) 2 # ! 8 ! * Maschinelles Lernen und Data Mining WS 2002,3 119+58/182 Prof. Dr. Katharina Morik Prinzipien für Regelbewertungen (D FAG 7 \ \ A D\ \ \ \ F V\ \ ) * ) < (D F* ! ! \ \ (D F < ! ! \ \ ) \ \ * / ( ^G 7 \ \ ^ D\ \ \ \ F V\ \ ) 7 & * 9! . * ([G 7 \ \ ^ D\ \ \ \ F V\ \ ) 7 9! . * * = 7 ** ) ** !! \ \≤ \ \≤ \ \ (! 7 \ \A \ \ ) \ \A \ \ (! 4 7 \ \A \ \A \ \ *.6% & HH Maschinelles Lernen und Data Mining WS 2002,3 119+59/182 Prof. Dr. Katharina Morik Konfidenz 2 # ? - ) 8 < ) 0 8& ) 7 . ) 7 2 # %$ * *%# ) . 9%! < . %# * % %5 > *<- - * *D. %# * % %5 *7 ) * 7 *7 * W 2 ! GGG *. *& I 'M $ . * *. $ . * ? ) > *<- - * . *. ) W DE ) ) * F * - % ! ! H GM ? !FAH 'M . 9%! < 9 ) ** # 8 ++M $ . *L< ) 8 +GM . W Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+60/182 Signifikanztest 2 - *0 1 ) *) 8& * / AB A→ B − r 2 # . 8) A→B − A B 1− A r ? 87 *- AB r 1− B r ) * / 119+61/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Sicherheitsmaß HHG = ** * * F D F ^ *D F FA D F Z *D FVD %*D FF D F [ *D F FA D F 2 = $3 D 2 = $3 D 2 * $3 D FA G # * *! 1 = ) ! . 8 ! 7 D 9 ) * ) 8& - *! 1 $3 D 7 ) F *! 1 ** 8 < * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+62/182 Was wissen Sie jetzt? 2 ) 8& . Z Z # Z # ) 7 / < = = 2 0 * * ) * ! G 7 7 ) 7 ) 7 ) 7 ) B ) 0 1 . / Z - *0 1 Z * * *- * 0 1 Z *! 1 ) ) 7 ) ! 0 7 ) 8& Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+63/182 Zeitphänomene Sequenzen Ereignisse Attribute Zeit t1 t2 ti tm tm+1 Maschinelles Lernen und Data Mining WS 2002,3 119+64/182 Prof. Dr. Katharina Morik Univariat - Multivariat Univariat - ein Attribut pro Zeit (Herzfrequenz) t1 t2 ti tm tm+1 Zeit Multivariat - k Attribute (Herzfrequenz, Atemfrequenz, Blutdruck) k 1 t1 t2 ti tm tm+1 Zeit 119+65/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Beispiele für Zeitreihen 2 0 **7 Z ( Z . Z = Z 9 * 9! ) 8 . * ) ! 8 ** Kontinuierliche Messung in z.B. Tagen, Stunden, Minuten, Sekunden Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+66/182 Beispiele für Ereignisse 2 # Z 5 Z Verkäufe . *) ** 5 D . *) . !! 8 ) F Monat Anzahl Verkäufer ... Juni 256 Meier ... ... ... ... ... Ereignisse mit Zeitangaben in Jahren, Monaten, Tagen 119+67/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Lernaufgaben 2 9 Z 5 * Z Z . > Z 3 ) 9 Z $ * = 8 2 0 9 Z 3 ) 8 * ) .J % ! > ) . D ! * F )* ) D, 6. . * ) = F ! ) ) 7 ) = D * 1 F / 3 ** < - 9 ) $ * 8 * !! !! ) = Maschinelles Lernen und Data Mining WS 2002,3 119+68/182 Prof. Dr. Katharina Morik Repräsentation der Eingabedaten Multivariat: il : Univariat: il : <t1, a11, ... , a1k> <t2, a21, ... , a2k> ... <ti, ai1, ... , aik> <t1, a1> <t2, a2> ... <ti, ai> Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+69/182 Lernaufgaben X 89 ** / (Menge von Ereignissen in partieller Ordnung) 3 ) < 2 = Q# * 8 QL B&& R 2 * &* ) X 8 ) R 87 *9 , %( )$* ) Q0 ) , 9 - R > Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+70/182 Repräsentation der Eingabedaten # 2 , * 87 *& / D 0B * * ). ) > & D, * = ) *F* 'FPD3 - . ) X 85 . 3 . / ) ) F D> ) ) I HFP D # * / (/> D( > > G > *F "F 119+71/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Wie finde ich die Ereignisse in Zeitreihen? 2 3 * * < Z 9 ) ) 2 ( . ! 6* 9 0 * Z *& / Z 5 / #6 ! *2 # *. * ) - 7 0 * ) , Q0 .V < $ * VH H R Q# * R 119+72/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Clustering Vorbereitung Zeitreihe s = (x1,...,xn) in Subsequenzen si = (xi,...,xi+w-1) aufteilen Schritt 2 Fenster der Bereite w = 3 119+73/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Clustering #* 8! 1 )D* *CF/ *& / . ) ** ? * ) ^ G/ * X 8 * ) ) $ * 87 *) (Σ(xi-yi)2)0,5 7 1) *) 0 $ $. @ ) *$ * 87 * X *- ) 87 *- * X < 8 6! ) 8 . D: & *;F 119+74/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Anwendung des Clustering # *- * A D4 4F. C 8 ! L 7 ) D:) *. * ;F ) * & * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+75/182 Regeln in diskreten Sequenzen 2 2 2 = Z D.A 0B 7 Z = Z 0D F Z ) 3 ! ! 8 - . / ) * !/ ) ) ) ( ( , !_. !B 6! ! A ` 9 *>F ) ) ↓D F 08 ) ) ) ) * , > ↑D FJ( * * , > - ) ) , →D F . 5 ( 0→ 119+76/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Beziehungen zwischen Ereignissen 2 5 @ ! *3 ( 9 8 Z && ) 2 *& / 7 ) * 9 ) / *9 ) < (A, StartA, EndeA) (B, StartB, EndeB) StartB<StartA, EndeA = EndeB, 119+77/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Beziehungen zwischen ZeitIntervallen lernen [Höppner] Darstellung der Beziehungen als Matrix: R1 R2 119+78/182 Maschinelles Lernen und Data Mining WS 2002,3 Regeln Die Regeln sind von der Form P → R Prämisse P Regel R Beispiel: A, B, C sind Verträge verschiedener Kategorien Prof. Dr. Katharina Morik 119+79/182 Maschinelles Lernen und Data Mining WS 2002,3 Prof. Dr. Katharina Morik Häufige Muster finden Muster muss im Fenster der Länge tmax beobachtbar sein Der maximale Abstand zwischen den Ereignissen eines Muster ist begrenzt 119+80/182 Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 Was bedeutet häufig? Als Maß für die Häufigkeit von Mustern dient der „Support“ Ein Muster wird als häufig erachtet, wenn es einen Support > suppmin hat A B A = o B io = Maschinelles Lernen und Data Mining WS 2002,3 119+81/182 Prof. Dr. Katharina Morik Anwendung von APRIORI 2 ! ) && %0 * 2 (! .% / Z 0 * ! * &&[* && ! Z *) 9 .%0 * 0 9 ? )) .J %0 * Z ! ) && ) ? )) ! <- * 2 = ) ) * *. < 0 * ! ) 7 ) .B 2 ) *) < 0 * Prof. Dr. Katharina Morik Maschinelles Lernen und Data Mining WS 2002,3 119+82/182 Was wissen Sie jetzt? 2 0 , 2 # . ) * X 8 * 89 & ! * 7 Z 3 * 7 ) Z # * %- * % * Z 0 ) 0 * 2 # * 89 3 ) ) !# * ) , * X * * ) -. 9 / *- 8 7 ) ) #* 8! 1 0 * 7 aufsteigend, absteigend 7 ) ** 8 * . L B&& Z 3 * 7 ) ) Z 0 8 8 *( Z L< !B - * ** 8 * ) / , 9 *X 8 7 ) ! )