Data Cube

Werbung
Maschinelles Lernen und Data Mining WS 2002,3
119+1/182
Prof. Dr. Katharina Morik
Data Cube
! !
" #
$
% &
' (!& !
+ , * !!
) *#
**
)
$
*
-.
Dank an Hanna Köpcke!
Maschinelles Lernen und Data Mining WS 2002,3
119+2/182
Prof. Dr. Katharina Morik
On-line Analytical Processing (OLAP)
,
/
)
#
2 3
2
!
.
2 5 *
*
6* )
3
0 *
!
4
2
**
!
)
#
)
**
**
)
1
Maschinelles Lernen und Data Mining WS 2002,3
119+3/182
Prof. Dr. Katharina Morik
OLAP-Werkzeuge
2 #
2 ()
2 (
#
!
2 #!
*
7 )
9
#
8
*
*
)
) .
7
* %) ! *
:
**
. 7
!
%
)
**
!
;
)
-
< !
%) ! *
! )
)
#!
*
**
#
119+4/182
Maschinelles Lernen und Data Mining WS 2002,3
Beispiel: Autoverkäufe
Modell
Jahr
Farbe
Anzahl
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
1990
1990
1990
1991
1991
1991
1992
1992
1992
1990
1990
1990
1991
1991
1991
1992
1992
1992
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
5
87
62
54
95
49
31
54
71
64
62
63
52
9
55
27
62
39
Prof. Dr. Katharina Morik
119+5/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Aggregation in SQL
2
.
/
COUNT(), SUM(), MIN(), MAX(), AVG()
Beispiel: SELECT AVG(Anzahl)
FROM Autoverkäufe
2
9 *- )
=
Beispiel: SELECT COUNT(DISTINCT Modell)
FROM Autoverkäufe
2
.
8
=
2
!
!
GROUP BY
Maschinelles Lernen und Data Mining WS 2002,3
119+6/182
Prof. Dr. Katharina Morik
GROUP BY
SELECT Modell, Jahr, SUM(Anzahl)
FROM Autoverkäufe
GROUP BY Modell, Jahr
2#
2@ )
2# *
>
7 ) !<1 )
* 7<
&& 7 )
*
*
>
)8
) - )
? !
!
3 .
!
* 7<
)
&&
=
!
Maschinelles Lernen und Data Mining WS 2002,3
119+7/182
Prof. Dr. Katharina Morik
Beispiel: GROUP BY
Modell
Jahr
Farbe
Anzahl
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
1990
1990
1990
1991
1991
1991
1992
1992
1992
1990
1990
1990
1991
1991
1991
1992
1992
1992
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
5
87
62
54
95
49
31
54
71
64
62
63
52
9
55
27
62
39
SELECT Modell, Jahr, SUM(Anzahl)
FROM Autoverkäufe
GROUP BY Modell, Jahr
Modell
Jahr
Anzahl
Opel
1990
154
Opel
1991
198
Opel
1992
156
Ford
1990
189
Ford
1991
116
Ford
1992
128
119+8/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Roll Up
*- ) #
*
)
2 5 ! )
) *#
*
) *A
&
2
B
) *#
*
) * A#
# 7
*& /
9 .<
2
&
)
2 #
7 )
- 0 )
)
- @
)
- 3
2 ) 5 .
*8
7 ) 8
*
C ) *0 )
*C ) !@
C ) 3
*
)
7 )
5 .
*8
) *
0 ) *
)@
*
* !!
))
*
) 5 .
*8
) 0 )
-
Maschinelles Lernen und Data Mining WS 2002,3
119+9/182
Prof. Dr. Katharina Morik
GROUP BY: Roll Up
Modell
Jahr
Farbe
Opel
1990
rot
weiß
blau
Anzahl nach Modell,
Jahr, Farbe
Anzahl nach
Modell, Jahr
Anzahl nach
Modell
5
87
62
154
1991
rot
weiß
blau
54
95
49
198
1992
rot
weiß
blau
31
54
71
156
508
119+10/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Probleme mit GROUP BY: Roll Up
2 >
*
) ! 7
)
DE %=
F.
- **
*
.
2 # ,
)
&
7<- * ! ) ,
)
2
! ) * 4&
7 - * )
&
7 ))
%=
2 #
%=
& <*
) 0
7 )
*& /
)
&
3
)
) **
,
) 5 .
*8
)
7 1
8 * !!
** * )
3 )
8
)
)
)
8 9
! )
8
) *
*
)
Maschinelles Lernen und Data Mining WS 2002,3
119+11/182
Prof. Dr. Katharina Morik
GROUP BY: Roll Up mit ALL
Modell Jahr
Farbe
Anzahl
8
)
>
!
/
Opel
1990
rot
Opel
1990
weiß
Opel
1990
blau
Opel
1990
ALL
Opel
1991
rot
Opel
1991
weiß
Opel
1991
blau
Opel
1991
ALL
Opel
1992
rot
Opel
1992
weiß
Opel
1992
blau
5 SELECT Modell, ALL, ALL, SUM(Anzahl)
87 FROM Autoverkäufe
WHERE Modell = ‘Opel‘
62 GROUP BY Modell
154 UNION
54 SELECT Modell, Jahr, ALL, SUM(Anzahl)
FROM Autoverkäufe
95 WHERE Modell = ‘Opel‘
49 GROUP BY Modell, Jahr
198 UNION
SELECT Modell, Jahr, Farbe, SUM(Anzahl)
31
FROM Autoverkäufe
54 WHERE Modell = ‘Opel‘
71 GROUP BY Modell, Jahr, Farbe
Opel
1992
ALL
156
Opel
ALL
ALL
506
Maschinelles Lernen und Data Mining WS 2002,3
119+12/182
Prof. Dr. Katharina Morik
Probleme mit GROUP BY: Roll Up
2
2
2
*&
5
7
-
*) )!
#! *
& * *6!!
*- /
.<
* ) - @
-
*
*
)
- 3
&
*
Maschinelles Lernen und Data Mining WS 2002,3
119+13/182
Prof. Dr. Katharina Morik
Kreuztabellen
6!!
)
*-
#
Opel
*
!
)!
*
#
1990
1991
1992
Total (ALL)
5
54
31
90
weiß
87
95
54
236
blau
62
49
71
182
154
198
156
508
rot
Total (ALL)
# * ?
8
E !! !
7
0
<
*
)
)
8
)! *
87 ) !
! )
*
8
. !!
C ) *0 )
Maschinelles Lernen und Data Mining WS 2002,3
119+14/182
Prof. Dr. Katharina Morik
Der CUBE-Operator
Aggregation
Summe
*
rot
weiß
blau
rot
weiß
blau
Summe
Modell
8 &
.
?
*7
GROUP BY
(mit Gesamtsumme)
?
?
=
8
!
8
!
!
)
.
*Data Cube mit
allen Aggregationen
6!
Kreuztabelle
Opel Ford Farbe
HHIF
Modell
90 91 92
& Jahr 19 19 19
Ford
Opel
od
el
l
)
*
M
*
*
*
*
)
Jahr
Farbe & Jahr
Summe
M
Farbe
%) ! *
# G# #
$
#
##
$
#
##
$
#
##
$
*)
D
6 $
)
l
el
d
o
&
e
rb
a
F
Maschinelles Lernen und Data Mining WS 2002,3
119+15/182
Prof. Dr. Katharina Morik
Der CUBE-Operator
2
*&
2 #
2
$ $
FROM Autoverkäufe
GROUP BY CUBE Modell, Jahr, Farbe
% &
8
>
) *<! <
*
!B ? !
) >
)
)
)
) 8
)
&
7 )
*
$ ) ? )
< )
)
* )
)
< )
$
*7
)
2 #
2
2
?
/ SELECT Modell, Jahr, Farbe, SUM(Anzahl)
)
8
8!
*
)
#
$
%
∏D$ J F
119+16/182
Maschinelles Lernen und Data Mining WS 2002,3
Data Cube des Beispiels
Modell
Jahr
Farbe
Anzahl
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
1990
1990
1990
1991
1991
1991
1992
1992
1992
1990
1990
1990
1991
1991
1991
1992
1992
1992
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
rot
weiß
blau
5
87
62
54
95
49
31
54
71
64
62
63
52
9
55
27
62
39
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+17/182
Prof. Dr. Katharina Morik
Modell
Jahr
Farbe
Anzahl
Modell
Jahr
Farbe
Anzahl
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Opel
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
1990
1990
1990
1990
1991
1991
1991
1991
1992
1992
1992
1992
ALL
ALL
ALL
ALL
1990
1990
1990
1990
1991
1991
1991
1991
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
5
87
62
154
54
95
49
198
31
54
71
156
90
236
182
508
64
72
63
189
52
9
55
116
Ford
Ford
Ford
Ford
Ford
Ford
Ford
Ford
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
ALL
1992
1992
1992
1992
ALL
ALL
ALL
ALL
1990
1990
1990
1990
1991
1991
1991
1991
1992
1992
1992
1992
ALL
ALL
ALL
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
rot
weiß
blau
ALL
27
62
39
128
143
133
157
433
69
149
125
343
106
104
104
314
58
116
110
284
233
369
339
941
119+18/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Implementationsalternativen
2
6* *- 0
*
) * * !
#
$
/
% *
7 8
%
& & 8 )
2 ?
0
*
/
%C ) ,
7 )
)
*)
)
%.
8 *< 8 & & 8
% *- 7 8
2 0
*
9 >
) *#
$
/
%=
9
,
* ) *(
)
,
%) * ,
! :
<
;,
%,
)
%=
* )
<
%
!/ = - ,
) *#
$
!
*
K
%,
) *#
$
*& D F
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+19/182
Abhängigkeit von Sichten
#
<
≤
2
≤ *
*
2 # 5
))
2
5
.
)7
)
L
*
≤ 87 *-
.
9
7
7
9
)
! 4! *
) 7 )) <
. *
) 7 ))
*
) ?
* )
7 )
7 )
)
5
87
)
)
!
D
0
)
) !)
**
*
<
9
) 5
** 8
*
9
≤)
) )≤ ) ?
-
F
D F
) !
≤
8 &
) !)
/
119+20/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Auswahl von Sichten
2
& !
*&
! ) *
)
)
B* 7 ) * /
% # ) - *- ,
)
*7
)
* ! !
7 )
%0
*- < . * *
8
9
)
!
*
7 ) *
<
9 )
8 )
2 # * & !
*&
! * E %9 * < )
2 L
* .
&& 4 !
* B*
/
)6%
! *
2 #
) 6%
! *9
< *8 *- - /
0 .
8
) ** )
! ) *
*+ M
<
DL
6
C
!
!
H H +F
Maschinelles Lernen und Data Mining WS 2002,3
119+21/182
Prof. Dr. Katharina Morik
Der Greedy Algorithmus
2
5
)!
& 2
! / & . *
A
8
2
*- < .
.!
*
2 E *7
0
9
) E 8 )
- 9
98
) 7
)
/
3 C )
- 7≤97 ) 7
D F
)
* ) ** 7 ≤
D F
7
D9
FA
A
!
)
. *
)
!
*
C(v) - C(u), falls C(v) < C(u)
0
ansonsten
7≤9
7
$D9F
7 )
D9 F
/
? *
C )
)
8 -
-
9
Maschinelles Lernen und Data Mining WS 2002,3
119+22/182
Prof. Dr. Katharina Morik
Der Greedy Algorithmus
AN
"
'
+
*
-
A
.)
=<
)
A ∪ N9O
)P
P
O
9∉
∉
* ) ** D9
F! 4!
* P
Maschinelles Lernen und Data Mining WS 2002,3
119+23/182
Prof. Dr. Katharina Morik
Beispiel
Erste Wahl
100
a
50 b
20 d
30
c 75
f 40
e
g
h
1
10
Greedy Auswahl: b, d und f
Zweite Wahl
Dritte Wahl
b
50 x 5 = 250
c
25 x 5 = 125
25 x 2 = 50
25 x 1 = 25
d
80 x 2 = 160
30 x 2 = 60
30 x 2 = 60
e
70 x 3 = 210
20 x 3 = 60
20 + 20 + 10 = 50
f
60 x 2 = 120
60 + 10 = 70
g
99 x 1 = 99
49 x 1 = 49
49 x 1 = 49
h
90 x 1 = 90
40 x 1 = 40
30 x 1 = 30
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+24/182
Was wissen Sie jetzt?
2 0B
2
- .
2 (!& !
8
8
2
)6%
8
9
9
)
#
*
8
)
$
*8
#! *
9 9
! *8
*7
) !
*
8
#
$
*
*
7 )
9
*
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+25/182
Lernen von Assoziationsregeln
/
0
9
>
* .
0
9 >
! ∈ QG R ) !
$
! ∈ QG R )
3 )
-)
s (r , c) =
C .
)
< =
⊆
* .
!
* 8
! !
?
) 8
3 !S
7
S ⊆
{ t ∈ r X ∪ Y ∈ t}
r
≥ s min
⊆
S ∩
{ t ∈ r X ∪ Y ∈ t}
conf (r , c ) =
{ t ∈ r X ∈ r}
ANO
≥ conf min
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+26/182
Binäre Datenbanken
0
$
0
9
9
C .
>
)
<
=
* .
$
(#
G
G
>
$
* .
⊆
G
G
G
"
119+27/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Warenkorbanalyse
Aftershave
0
1
0
1
Bier
1
1
1
0
N
* 9 O N
O
N
* 9 O N$ &*O
N
O
N$ &*O
N$ &*O N
* 9 O
N
* 9 O N
$ &*O
Chips EinkaufsID
1
1
0
2
1
3
0
4
*AT *AG
*AU *AG
*AG
AU
A V
%% 8 * !!
K
Maschinelles Lernen und Data Mining WS 2002,3
119+28/182
Wieder ein Verband...
N
N
N
$O N
O N
$ #O
#O N $ #O N
$ #O
$O N $O N #O N$ #O N
N O
N O
NO
N$O
N#O
#O
Prof. Dr. Katharina Morik
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+29/182
Ordnungsrelation
2 L
2
2
* )
0
⊇
.
)
*
0
*
B1
*
)
*
!
>
0
!
8
7
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+30/182
Assoziationsregeln
L / ** 8
*
* ).
( %
2 ( ) ? . *
.B
!
2
* ) !!
<
2 0
** 8
*
8 * !!
!!
/
< 9 .
2
2
D>
* )
/
* <
0
* .
)
W
*
.
F
)
** 8
*
*
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+31/182
Apriori Algorithmus
D
7
0
.
L ) * , 7 **! .
C .
D
> 9
*/ L <
!*
2 =
0
<
D
%0
F
2 =
0
*
D0
F
2 =
S
.J )
2
0
.%
. )
9
8
.J
# * * )
?
) *
5
*
0
X
*
*
-
*
*
-
⊆S
C .
! *Y )
. !
H H +F
S ∪
* *F
.A
>
!
!
D
!
%0
* !
?
))
.
F
7 )
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+32/182
Beispiel
N
=
<
)
N
N
<
$O N
O N
$ #O
#O N $ #O N
$O N $O N #O N$ #O N
ON
N
$O
$O N $O
.J A
.A
#O
L<
*
N
$ #O
N O
N O
N$O
N#O
.
?
NO
0
))
$.J
Maschinelles Lernen und Data Mining WS 2002,3
119+33/182
Beispiel
* - 7 ) ? ))
! .J A'
$#O N $ O N # O N $# O N $# O O
"A N N
.%
! * !
9
8 /
AN
$# O
)
.
> !
9
"K
N $#O N $ O N # O N $# O N $# O Z C W
#
7 ) ? ) ) $'
"A
NN
$#O N $ O O
AN
$# O
)
> !
9
"K
N $#O N $ O N # O N $# O N $# O Z
#
7 )
- 8 !? ))
W
Prof. Dr. Katharina Morik
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+34/182
Kandidatengenerierung
8
.J
%?
))
D
.
F
/A NO
Forall
/A N
.
.%
* ) **
AN
AN
.%
F9
Y.O Y. [
.%
.
Y.O
.
if
.% !
> !
then .J /A .J ∪ N O
Return .J
D$.J
.O
-
L<
9
.
9
.
?
))
* )
!
*!
Maschinelles Lernen und Data Mining WS 2002,3
119+35/182
Häufige Mengen
L<
%0
D
*! F
$ /A {i} .A
i∈R
/A
D$ F
≠NO
$.J /A 8
%? ) )
D$.J F
.J /A
./A .J
while
.
k
Return
Lj
j =2
D .F
Prof. Dr. Katharina Morik
119+36/182
Maschinelles Lernen und Data Mining WS 2002,3
APRIORI
&
D
/A L <
-/A
Return -
* *!
%0
D -
-
! F
D
*! F
! F
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+37/182
Prof. Dr. Katharina Morik
Regelgenerierung
*)
=
#
)
)
AN
AN
≥-
0
. *
)
7
<
.%
- AN
.O - A N
.%
.O
.%
AN
-
<
?
7 ) .
7 ) *
.O
≥
.%
O
-. A N O
≥-
)
.
O
N
)
.
N .%
N
.%
.
!
)
?
8 /
O .O O -
.
8* .
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+38/182
Implementierung
2 L * %>
)
!
2
C ) !?
*& -
)
< 4
! )
) 0
7 )
- **
A
B
*-
*)
) L<
)
.
D
C
N#O
B
C
C
N #O
N
$ON
#O
N $#O
N $#O
N$#O
#6
! *-
119+39/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Was wissen Sie jetzt?
2
2
** 8
*
* ).
( %
%0
) L<
. /=
*
> !
2 0
8
<
0
) !!
8
0
8
)) * 0
L<
.
*
!% &
!5
)) 0
2 0
)
/=
>
*
- C ) 0
) *
<
2 0
*) )
) !0
*
> !
- 7
-
0
<
<
>
*
!
)
!
!
7
*
)
*
119+40/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Probleme von Apriori
2 (! *- !!*
3
*
&
4&
7
7 !B > !
) 7 )
( )
4** ) ) >
* .
*&< *
#
*)
) - *!
)!
)
=
.
6* ! *
*
2
&
- 9
2 #
* ) B- *
) )
2 #
* )
) 7 ) ?
)
&
=
*- .
-.* =
* 7 *
$
. * **
)
**
)9
3 1
$
. *
8
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+41/182
Aktuelle Forschung
2 ? )
2
**
2
- *
2 L
2 #
*
?
& !
*
*
7
<
8
8 :
?
& <*
* * &&
!
)
? ##
X
)?
) 8
) . 9 #
*
) 5
**
? ## ) ($#0 * )
!* *;
.
)
9
9
-
119+42/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Kondensierte Repräsentationen
* 8 ) #
. ) *
2 ) .
*
2
*) 7
.B
? ) *
&
2 $ * )
!*
2 3
* *
&
) )
2 $ 9
&
. 87 )
& <*
*)
*&
<
0
- !
<*
*
0
!*
.
)
& <*
)
L<
) #
* *
** 8
*
-
-
** 8
*
)
.
8 *
/
/
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+43/182
In anderen Worten:
=
#
<
5
1
=
2
2
! **
L
#
5
*
! * .
) *5 *
*
*)
8
8 .
)
8
8
! . K
7
*
!W
* ) L 6&
!* .
) *
*
8
!
-
*&
)
*
>
!
-
8
7
*-
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+44/182
Untere Grenze
?
0
B1
8
L<
0
2 =
0
D
%0
2
*) )
? ))
F
<
*
*
-
*
*!
!<1 ) *
>
)
8 W
!
#
.
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+45/182
Obere Grenze
?
0
B1
2 0
2
0
)
- C ) 0
*)
)
/=
)
?
*
))
>
<
!
*
*
- )
*
- *
0
*
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+46/182
Beispiel
L<
{}
A
AB
ABC
3
X
-6
*
)G
B
AC
C
AD
BC
ABD
BD
ACD
ABCD
<
Dank an Jean-Francois Boulicaut!
D
BCD
CD
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+47/182
Closed Item Sets
$
G
#
G
G
G
G
G
G
2 - *
D F * ) ! 4!
) > !
8
F9
* <
7
9 . !!
2
2
*
- * )
!*
! - 7 7
9
>
* .
<
2 $ * ) * )/ $ $ $
.
!
9 $.
. !! ' ! 9
$ ).
!
7
!
)
- *
G
D
-
!<1
D FA
* )
$
$#
!!
- +! 9
- )
!
9
$
P
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+48/182
Kondensierte Repräsentation und
Ableitung
$ * )
!* ** )
2
* ) . !& .
2 =
! )
<
- !
- !
) <
0
2 3
(*
/
C ) 0
!
Z E
)
*
Z @ )
* )
=
* !
! 4!
L<
.
)
- * )
)
&
!
7
S 9
L<
<
.
.
*
W
!
& <*
!* *$
#
8 8
-
) 9
$
9
9
/
-
).
$/
K
< ) 9
$ 9 . !!
S
!! )
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+49/182
Freie Mengen
(free sets)
2
D?
0
)
*
8A F 87 *-
7
*.
*!
¬∃X , Y S = X ∪ Y , Y ≠ { }, X
2
δ
0
*
!
* δ%
87 *-
7
)
Y
*.
!
2 # - * ) * ** )) - *
)
0 .
) - * ) * * *)
2 3
*
%!
# *
.
! )
0
!
7
0
*
W
0
*-
9
8
0
-
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+50/182
Beispiel
$
G
#
G
G
G
G
G
G
2
! - 7
<
NO
#
2 $ * ) * )/ $
2 $
-
*
*
*
*
*
7
0
$
DNOFA$
D FA $
D FA $
D#FA $#
D FA $
9
/
$
G
$
* ))
$#
119+51/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Arbeiten mit freien Mengen
2 3
D δF/
0
S * δ%
7
*.
*
!
87 *!
! 7
*δ
2 3 XD σF/ NS \ S ⊆
\S ∈ \V \ \ ≥ σO
2 3 X3
D σ, δF/ 3 X D σF ∩ 3
D δF
2 E
9
8
) %D σ, δF/ NS \ S ⊆
S ∉3 X3
D σ, δF
∈ 3 X3
D σ, δF O
) ∀ ⊂ S
* ) . 8 *
0
)
)
<
)
* ) )
> !
<
)
* )
2 = *- < 8 ) L <
.
0
*
/
∃S ⊆
) S * δ%
- σZ <
)
!! G * L <
.
9
*
!! ) .
*
8
! 5 . !! )
> !
S *L<
.
9
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+52/182
Abschätzung
D
E -
3
FA
!
X3
/
⊂
S
3
X3
S
S
S
⊂
!
.
F\
⊂ S OF A
3
⊂
/
! DN D
FAG
⊂
⊂
⊂
D
!
<
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+53/182
MinEx
2
<
2
0
0
8 * 3 X3
D σ, δF 8 * !% &
!L
9
)) 0
!
!
!! )
)
)
* )
2 # > *
*
)
* -
B1
0
! *9
@
0
)
)
%3
)
)
-
7
%
- 3
* )
) *
7 )
- *
-
X3
!
D
) * )
) 0
σ, δF
9
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+54/182
Algorithmus (abstrakt)
<
#
**
C .
+
σ )δ
- 7 7
3 X3
D σ, δF *
$G/AN NO O
/AG
While $ ≠ NO do
3 X3
/A NS \S ∈ $ S * σ% <
$ /A NS \ S ⊆
∀ ⊂ S
∈ 3 X3
∪ ≤ $
/A J
od
7.
Output
3.
"
'
∪
3
X3
))
) δ%
O
D σ, δF C ≤ O]
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+55/182
Pruning
2 ( )
%
S
N O
S <
⊆ ]S
2 # *
8
(
(
)
7
)
)
δZ*
.
)
7
*
)
*7 )9 7 )
Z* * ).
%
!
? )
)
!
δ%
)
0
J %
3
!
119+56/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Eigenschaften von MinEx
2 #
2 #
2 #
7
=
2 #
(
! * * !!
7< )
**
( ( ) **) 5 7 )
9 - * )* *
! * * 4&
) 0
! * *
) 0
) #
. &
0 1 *
7 ) ,
) > &
δ !*
δ 7
7 ) > & 8
9 ) &&
9 ) &&
! * && 4 !
) * :7
;
*
)
4* *
7 9 G M
.
!
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+57/182
Was wissen Sie jetzt?
2
*
87
0
0
<
<
& <*
- <
)
7
0
*
*) *
& <*
7 )
Z # - * ) * ** ) ! 4!
L<
.
7
Z #
* ** )0
*)
** 8
*
! .
2 =
)
!
)
<
8
!
*
9
!
0
!5
!
*
.B
!
! *0
4
)
) *
)
*
.
** 8
)
2 #
!
8
!
*
Maschinelles Lernen und Data Mining WS 2002,3
119+58/182
Prof. Dr. Katharina Morik
Prinzipien für Regelbewertungen
(D
FAG 7
\
\ A D\ \ \ \ F V\ \
) * )
<
(D
F*
!
! \
\
(D
F < !
! \ \ ) \ \
* / ( ^G 7
\
\ ^ D\ \ \ \ F V\ \
)
7
& * 9!
.
*
([G 7
\
\ ^ D\ \ \ \ F V\ \
)
7
9!
.
*
*
= 7 **
) ** !! \
\≤ \ \≤ \ \
(! 7
\
\A \ \ ) \ \A \ \
(! 4 7
\
\A \ \A \ \
*.6%
&
HH
Maschinelles Lernen und Data Mining WS 2002,3
119+59/182
Prof. Dr. Katharina Morik
Konfidenz
2 #
?
-
)
8
<
)
0
8&
)
7
.
)
7
2 #
%$ * *%#
)
. 9%! <
. %# * % %5
> *<- - * *D. %# * % %5
*7 ) * 7
*7
* W
2
!
GGG
*.
*&
I 'M $
. *
*.
$
. *
?
)
> *<- - * .
*.
)
W DE
)
) * F
* - %
! ! H GM ?
!FAH 'M
. 9%! <
9 )
**
#
8 ++M
$
. *L<
)
8
+GM
.
W
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+60/182
Signifikanztest
2
-
*0 1 ) *)
8&
* /
AB
A→ B −
r
2 #
.
8)
A→B −
A B 1−
A
r
?
87 *-
AB
r
1−
B
r
)
* /
119+61/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Sicherheitsmaß
HHG
= ** * * F
D
F ^ *D F
FA D
F Z *D FVD %*D FF
D
F [ *D F
FA D
F
2 =
$3 D
2 =
$3 D
2
*
$3 D
FA G
# * *! 1
= ) !
. 8
! 7
D
9
)
*
)
8&
-
*! 1 $3 D
7
) F
*! 1
** 8
<
*
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+62/182
Was wissen Sie jetzt?
2
)
8&
.
Z
Z #
Z #
)
7
/
<
=
=
2
0
*
*
)
*
! G 7
7 )
7
)
7 )
7
)
B
)
0 1 .
/
Z
- *0 1
Z *
* *- * 0 1
Z
*! 1
)
)
7 )
!
0
7
)
8&
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+63/182
Zeitphänomene
Sequenzen
Ereignisse
Attribute
Zeit
t1
t2
ti
tm
tm+1
Maschinelles Lernen und Data Mining WS 2002,3
119+64/182
Prof. Dr. Katharina Morik
Univariat - Multivariat
Univariat - ein Attribut pro Zeit (Herzfrequenz)
t1
t2
ti
tm
tm+1
Zeit
Multivariat - k Attribute (Herzfrequenz, Atemfrequenz, Blutdruck)
k
1
t1
t2
ti
tm
tm+1
Zeit
119+65/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Beispiele für Zeitreihen
2 0 **7
Z (
Z .
Z =
Z
9
* 9! ) 8
. *
)
!
8 **
Kontinuierliche Messung in z.B. Tagen, Stunden, Minuten, Sekunden
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+66/182
Beispiele für Ereignisse
2 #
Z 5
Z
Verkäufe
.
*)
**
5
D
.
*)
. !!
8
)
F
Monat
Anzahl
Verkäufer
...
Juni
256
Meier
...
...
...
...
...
Ereignisse mit Zeitangaben in Jahren, Monaten, Tagen
119+67/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Lernaufgaben
2
9
Z 5
*
Z
Z
.
>
Z 3 ) 9
Z $ *
=
8
2 0
9
Z 3 ) 8 *
)
.J %
!
>
) .
D
!
*
F
)*
) D, 6.
. *
) =
F
!
) )
7 ) =
D * 1 F
/ 3 ** <
- 9
)
$ *
8 * !!
!!
) =
Maschinelles Lernen und Data Mining WS 2002,3
119+68/182
Prof. Dr. Katharina Morik
Repräsentation der Eingabedaten
Multivariat:
il :
Univariat:
il :
<t1, a11, ... , a1k>
<t2, a21, ... , a2k>
...
<ti, ai1, ... , aik>
<t1, a1>
<t2, a2>
...
<ti, ai>
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+69/182
Lernaufgaben
X
89
**
/
(Menge von Ereignissen in partieller
Ordnung)
3 )
<
2 =
Q# *
8
QL B&&
R
2
*
&* )
X
8
)
R
87 *9
,
%(
)$* )
Q0
) ,
9
-
R
>
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+70/182
Repräsentation der Eingabedaten
#
2
, *
87
*&
/
D
0B
* *
).
)
> & D, *
=
)
*F*
'FPD3
- .
)
X
85 .
3 .
/
)
) F
D>
)
) I HFP D
# *
/
(/>
D( > >
G
>
*F
"F
119+71/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Wie finde ich die Ereignisse in
Zeitreihen?
2 3 *
*
<
Z 9
) )
2 ( . !
6*
9
0 *
Z
*& /
Z 5
/ #6 ! *2 # *.
*
) -
7
0 *
) ,
Q0 .V
<
$ *
VH H R
Q# *
R
119+72/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Clustering Vorbereitung
Zeitreihe s = (x1,...,xn) in Subsequenzen si = (xi,...,xi+w-1) aufteilen
Schritt 2
Fenster der Bereite w = 3
119+73/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Clustering
#*
8! 1 )D* *CF/
*& / . ) **
? *
) ^ G/
* X
8 *
)
)
$ *
87 *) (Σ(xi-yi)2)0,5
7
1)
*) 0
$ $.
@ ) *$ *
87
* X
*-
) 87 *-
* X
<
8
6!
)
8
.
D:
& *;F
119+74/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Anwendung des Clustering
#
*-
* A D4
4F.
C 8 ! L
7 ) D:) *.
*
;F
)
*
& *
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+75/182
Regeln in diskreten Sequenzen
2
2
2
=
Z D.A
0B
7
Z =
Z 0D F
Z
)
3
!
!
8
- .
/
)
*
!/
)
)
)
( (
,
!_. !B 6!
! A ` 9 *>F
)
)
↓D F 08
)
)
)
)
*
,
>
↑D FJ(
*
*
,
>
-
)
)
,
→D F
.
5
( 0→
119+76/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Beziehungen zwischen
Ereignissen
2 5
@ ! *3
(
9
8
Z
&&
)
2
*& /
7
)
*
9
)
/
*9
)
<
(A, StartA, EndeA)
(B, StartB, EndeB)
StartB<StartA, EndeA = EndeB,
119+77/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Beziehungen zwischen ZeitIntervallen lernen [Höppner]
Darstellung der Beziehungen als Matrix:
R1
R2
119+78/182
Maschinelles Lernen und Data Mining WS 2002,3
Regeln
Die Regeln sind von der Form P → R
Prämisse P
Regel R
Beispiel: A, B, C sind Verträge verschiedener Kategorien
Prof. Dr. Katharina Morik
119+79/182
Maschinelles Lernen und Data Mining WS 2002,3
Prof. Dr. Katharina Morik
Häufige Muster finden
Muster muss im Fenster der Länge tmax beobachtbar sein
Der maximale Abstand zwischen den Ereignissen eines Muster ist begrenzt
119+80/182
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
Was bedeutet häufig?
Als Maß für die Häufigkeit von Mustern dient der „Support“
Ein Muster wird als häufig
erachtet, wenn es einen Support >
suppmin hat
A
B
A
=
o
B
io
=
Maschinelles Lernen und Data Mining WS 2002,3
119+81/182
Prof. Dr. Katharina Morik
Anwendung von APRIORI
2
!
)
&&
%0 *
2 (! .%
/
Z
0 *
! * &&[* && !
Z
*) 9
.%0 *
0
9
? ))
.J %0 *
Z
!
)
&&
) ? ))
! <- *
2 = )
) *
*.
<
0 *
!
) 7 ) .B
2
)
*)
<
0 *
Prof. Dr. Katharina Morik
Maschinelles Lernen und Data Mining WS 2002,3
119+82/182
Was wissen Sie jetzt?
2 0
,
2 #
.
)
* X
8
* 89
&
! *
7
Z 3 *
7 )
Z # *
%- *
%
*
Z 0 ) 0 *
2 #
* 89
3
)
) !# *
) ,
* X
*
*
) -.
9
/
*-
8 7 ) ) #*
8! 1
0 *
7 aufsteigend, absteigend
7 )
** 8
*
. L B&&
Z 3 *
7 )
)
Z 0
8 8
*(
Z L<
!B - *
** 8
*
)
/
,
9
*X
8
7
)
!
)
Herunterladen