Rough Sets -- Unexakte Mengen

Werbung
Seminar Algebra
Prof. Dr. B. Ganter
Rough Sets –
Unexakte Mengen
Francesco Kriegel
TU Dresden
Fakultät Mathematik
Institut Algebra
WS 2008 / 2009
5. November 2008
Inhaltsverzeichnis
Kapitel 1 Approximation
1.1 Approximationsraum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Allgemeiner Approximationsraum . . . . . . . . . . . . . . . . . . . . . . .
1
1
7
Kapitel 2 Information
9
2.1 Informationssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Redukt & Kern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Kapitel 3 Entscheidung
3.1 Entscheidungssystem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Redukt & Kern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Attributselektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Wertemengenreduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Primentscheidungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
17
18
20
22
23
28
-1
0
1 Approximation
1.1 Approximationsraum
Definition 1.1 (Approximationsraum)
Sei U eine endliche nicht-leere Menge. U heißt Universum (engl. universe) und die Elemente heißen Objekte (engl. object). Für eine Äquivalenzrelation ≈ auf U, die eine Ununterscheidbarkeit in U charakterisiert,
heißt
hU, ≈i
auch Approximationsraum (engl. approximation space). Für x ≈ y sagen
wir x und y sind ununterscheidbar (engl. indiscernible). Wir nennen ein
Element von U/ ≈, also eine Mengen [ x ] := [ x ]≈ , auch elementare Menge (engl. elementary set) und Vereinigungen von elementaren Mengen
heißen definierbare Mengen (engl. definable set).
Definition 1.2 (Approximation)
Für die Abbildung
·∗ :
℘(U ) → ℘(U )
X 7 → X∗ : = { x ∈ U | [ x ] ⊆ X }
heißt X∗ untere Approximation (engl. lower approximation) von X, für
·∗ :
℘(U ) → ℘(U )
X 7→ X ∗ := { x ∈ U | [ x ] ∩ X 6= ∅}
nennen wir X ∗ obere Approximation (engl. upper approximation) von X
und das Paar ( X∗ , X ∗ ) heißt nun Approximation (engl. approximation)
von X. Die Menge X ◦ := X ∗ − X∗ heißt Rand (engl. boundary) von X.
Die Abbildung 1.1 veranschaulicht diese Definition.
1
1 Approximation
'
$
X
X◦
X∗
&
%
U/ ≈
Abbildung 1.1: Approximation einer Menge X ⊆ U
Es gilt
X∗ =
[
[ x ] = { x ∈ U | ∀ y ≈ x : y ∈ X },
[ x ]⊆ X
die untere Approximation von X enthält also diejenigen Objekte, die sicher in X liegen (sicheres Objekt, engl. certain object). Die obere Approximation
[
X∗ =
[ x ] = { x ∈ U | ∃y ≈ x : y ∈ X }
[ x ]∩ X 6=∅
enthält die Objekte, die möglicherweise in X liegen (mögliches Objekt, engl.
possible object). Der Rand besteht aus allen Objekten, die weder sicher in
X noch sicher in − X sind (unentscheidbares Objekt, engl. undecidable
object).
Lemma 1.3 Für Mengen X, Y ⊆ U gelten:
(a) X∗ ⊆ X ⊆ X ∗
(h) X ⊆ Y ⇒ X∗ ⊆ Y∗
(b) ∅∗ = ∅ = ∅∗
(i) X ⊆ Y ⇒ X ∗ ⊆ Y ∗
(c) U∗ = U = U ∗
(j) (− X )∗ = − X ∗
(d) ( X ∩ Y )∗ = X∗ ∩ Y∗
(k) (− X )∗ = − X∗
(e) ( X ∪ Y )∗ ⊇ X∗ ∪ Y∗
(l) (− X )◦ = X ◦
(f) ( X ∩ Y )∗ ⊆ X ∗ ∩ Y ∗
(m) ( X∗ )∗ = X∗ = ( X∗ )∗
(g) ( X ∪ Y )∗ = X ∗ ∪ Y ∗
(n) ( X ∗ )∗ = X ∗ = ( X ∗ )∗
Beweis:
2
1.1 Approximationsraum
(a) Die untere Approximation X∗ ist eine Vereinigung von Teilmengen
von X, muss also selbst eine Teilmenge von X sein. Die obere Approximation X ∗ ist die Vereinigung von allen (elementaren) Mengen, die
mit X einen nicht-leeren Durchschnitt haben, und daher muss sie X
enthalten.
(b) Da elementare Mengen stets nicht-leer sind, ist die untere Approximation der leeren Menge stets die leere Vereinigung, also die leere
Menge. Andererseits gibt es keine Menge, die mit der leeren Menge
einen nicht-leeren Durchschnitt hat, also ist auch die obere Approximation der leeren Menge die leere Menge.
(c) Die Menge der elementaren Menge ist eine Partition von U, daher ist
deren Vereinigung U die untere Approximation von U. Die obere Approximation von U ist ebenso die Vereinigung von allen elementaren
Mengen, denn keine von ihnen hat mit U einen leeren Durchschnitt.
(d) Die untere Approximation des Schnitts X ∩ Y ist die Vereinigung derjenigen elementaren Mengen, die in beiden Mengen enthalten sind.
Dies ist nichts anderes als der Schnitt der beiden Vereinigungen der
elementaren Mengen, die in X bzw. in Y enthalten sind.
(e) Möglicherweise gibt es eine elementare Menge, die zwar in der Vereinigung X ∪ Y enthalten ist, jedoch nicht in X oder Y. Daher gilt hier
nicht die Gleichheit, sondern nur ⊇.
(f) Möglicherweise gibt es eine elementare Menge, die mit dem Schnitt
X ∩ Y einen leeren Durchschnitt hat, jedoch nicht mit X oder Y. Somit
haben wir hier lediglich ein Enthaltensein ⊆.
(g) Die obere Approximation der Vereinigung X ∪ Y ist die Vereinigung
aller elementaren Mengen, die Elemente mit X oder mit Y gemeinsam
haben, also die Vereinigung der Vereinigungen derjenigen elementaren Mengen, die mit X bzw. mit Y einen nicht-leeren Durchschnitt
haben.
(h) Ist X eine Teilmenge von Y, dann gibt es möglicherweise mehr elementare Mengen, die in Y enthalten sind, also ist die untere Approximation von X in der unteren Approximation von Y enthalten.
(i) Ist X eine Teilmenge von Y, dann gibt es möglicherweise mehr elementare Mengen, die Elemente mit Y gemeinsam haben, also ist die
obere Approximation von X in der oberen Approximation von Y enthalten.
(j) Die untere Approximation von − X ist die Vereinigung von allen elementaren Mengen, die im Komplement von X liegen, d.h. die mit X
einen leeren Durchschnitt haben. Das ist gleich dem Komplement der
Vereinigung der elementaren Mengen, die mit X einen nicht-leeren
Durchschnitt haben. Formal: [ x ] ⊆ − X ⇔ ¬([ x ] ∩ X 6= ∅).
3
1 Approximation
(k) Die obere Approximation von − X ist die Vereinigung von den elementaren Mengen, die mit dem Komplement von X einen nicht-leeren
Durchschnitt haben, also das Komplement der Vereinigung derjenigen elementaren Mengen, die im Komplement von X liegen. Formal:
[ x ] ∩ − X 6= ∅ ⇔ ¬([ x ] ⊆ X ).
(l) Der Rand des Komplements von X ist die Vereinigung der elementaren Mengen, die mit − X einen nicht-leeren Durchschnitt haben,
aber nicht in − X enthalten sind, das sind aber gerade die elementaren Mengen, die mit X einen nicht-leeren Durchschnitt haben und
nicht in X enthalten sind. Formal: [ x ] ∩ − X 6= ∅ ∧ ¬([ x ] ⊆ X ) ⇔
¬([ x ] ⊆ X ) ∧ [ x ] ∩ X 6= ∅.
(m) Die untere Approximation ist eine Vereinigung von elementaren Mengen, daher gilt hier Gleichheit, vgl. (a).
(n) Die obere Approximation ist eine Vereinigung von elementaren Mengen, damit gilt hier Gleichheit, vgl. (a).
Nach obigen Lemma ist die Abbildung, die einer Menge ihre untere Approximation zuordnet, ein Kernoperator und dual ist die Abbildung, die
einer Menge ihre obere Approximation zuordnet, ein Hüllenoperator. Die
Menge der unteren bzw. oberen Approximationen bildet also einen vollständigen Verband. Genauer gilt nun: Die Menge aller Approximationen
{( X∗ , X ∗ ) | X ⊆ U } = {( X, Y ) | ∃ Z ⊆ U : Z∗ = X ∧ Z ∗ = Y },
geordnet durch die komponentenweise Teilmengenrelation
( X∗ , X ∗ ) ⊆ (Y∗ , Y ∗ ) :⇔ X∗ ⊆ Y∗ ∧ X ∗ ⊆ Y ∗ ,
ist ein vollständiger Verband. Für eine Menge von Approximationen {( Xt , Yt ) | t ∈
T } sind das Infimum und das Supremum gegeben durch
^
( Xt , Yt ) = ((
t∈ T
\
\
Xt ) ∗ ,
t∈ T
und
_
t∈ T
( Xt , Yt ) = (
[
t∈ T
Xt , (
Yt )
t∈ T
[
Yt )∗ ).
t∈ T
Diese Konstruktion führt uns zum Verband der Raumengenabstraktionen, für weiterführende Informationen siehe [4].
4
1.1 Approximationsraum
Definition 1.4 (unexakte Menge)
Eine Menge X ⊆ U heißt exakt (engl. crisp set), falls ihr Rand X ◦ leer
ist. Andernfalls heißt X unexakt (engl. rough set). Eine unexakte Menge
X heißt
(i) unexakt definierbar (engl. roughly definable), falls X∗ 6= ∅ und
X ∗ 6= U,
(ii) unten undefinierbar (engl. internally indefiniable), falls X∗ = ∅
und X ∗ 6= U,
(iii) oben undefinierbar (engl. externally indefinable), falls X∗ 6= ∅ und
X ∗ = U,
(iv) undefinierbar (engl. totally indefinable), falls X∗ = ∅ und X ∗ = U.
Exakte Mengen sind genau die die definierbaren Mengen, d.h. Vereinigungen von elementaren Mengen. Für eine unexakt definierbare Menge
X gibt es mindestens ein Element das sicher zu X gehört und ein Element das sicher zu − X gehört. Für eine unten undefinierbare Menge X
können wir für keinen Gegenstand entscheiden, ob dieser sicher zu X gehört, jedoch gibt es einen Gegenstand, der sicher zu − X gehört. Dual für
oben undefinierbare Mengen. Entsprechend ist es für eine undefinierbare
Menge X unmöglich zu entscheiden, ob ein Gegenstand sicher in X bzw.
in − X liegt. Die reellwertige Abbildung
α:
℘(U ) → R
| X∗ |
|X◦ |
X 7→
= 1− ∗
∗
|X |
|X |
misst die Approximationsgenauigkeit (engl. accuracy of approximation) von
X. Offensichtlich gilt stets 0 ≤ α( X ) ≤ 1 und X ist exakt genau dann,
wenn α( X ) = 1 ist, bzw. unexakt genau für α( X ) < 1.
|X◦ |
Eine andere Möglichkeit ist α( X ) := 1 − |U | .
Definition 1.5 (unexakte Enthaltenseinsfunktion)
Die unexakte Enthaltenseinsfunktion (engl. rough membership function)
ist definiert als Abbildung
U × ℘(U ) → R
µ:
( x, X ) 7→
|[ x ] ∩ X |
|[ x ]|
5
1 Approximation
Der Wert µ( x, X ) kann interpretiert werden als bedingte Wahrscheinlichkeit, dass x zu X gehört.
Lemma 1.6 Es gelten für alle x ∈ U und X ⊆ U
(a) µ( x, X ) = 1 ⇔ x ∈ X∗
(b) µ( x, X ) = 0 ⇔ x ∈ − X ∗
(c) 0 < µ( x, X ) < 1 ⇔ x ∈ X ◦
(d) µ( x, − X ) = 1 − µ( x, X )
(e) µ( x, X ∪ Y ) ≥ µ( x, X ) ∨ µ( x, Y )
(f) µ( x, X ∩ Y ) ≤ µ( x, X ) ∧ µ( x, Y )
Beweis:
(a) 1 = µ( x, X ) =
|[ x ]∩ X |
|[ x ]|
⇔ [ x ] ∩ X = [ x ] ⇔ [ x ] ⊆ X ⇔ x ∈ X∗
(b) 0 = µ( x, X ) =
|[ x ]∩ X |
|[ x ]|
⇔ [ x ] ∩ X = ∅ ⇔ ¬( x ∈ X ∗ ) ⇔ x ∈ − X ∗
(c) 0 < µ( x, X ) < 1 ⇔ x ∈
/ X∗ ∧ x 6 ∈ − X ∗ ⇔ x ∈ X ◦
|[ x ]∩− X |
|[ x ]|
(d) µ( x, − X ) =
= 1 − µ( x, X )
=
|[ x ]\ X |
|[ x ]|
=
|[ x ]−([ x ]∩ X )|
|[ x ]|
= 1−
|[ x ]∩ X |
|[ x ]|
(e) [ x ] ∩ ( X ∪ Y ) = ([ x ] ∩ X ) ∪ ([ x ] ∩ Y )
⇒ |[ x ] ∩ ( X ∪ Y )| ≥ |[ x ] ∩ X | ∨ |[ x ] ∩ Y |
⇒ µ( x, X ∪ Y ) ≥ µ( x, X ) ∨ µ( x, Y )
(f) [ x ] ∩ ( X ∩ Y ) = ([ x ] ∩ X ) ∩ ([ x ] ∩ Y )
⇒ |[ x ] ∩ ( X ∩ Y )| ≤ |[ x ] ∩ X | ∧ |[ x ] ∩ Y |
⇒ µ( x, X ∩ Y ) ≤ µ( x, X ) ∧ µ( x, Y ))
6
1.2 Allgemeiner Approximationsraum
1.2 Allgemeiner Approximationsraum
Definition 1.7 (allgemeiner Approximationsraum)
Ein allgemeiner Approximationsraum (engl. generalized approximation
space) ist ein Tupel hU, N, νi. Dabei ist N : U → ℘(U ) eine Abbildung,
N ( x ) heißt Nachbarschaft (engl. neighborhood) von x, und ν : ℘(U ) ×
℘(U ) → R ist eine Abbildung, sie heißt Inklusionsfunktion (engl. inclusion function). ν( X, Y ) misst den Grad der Inklusion von X in Y. Die
untere Approximation einer Menge X ⊆ U definieren wir nun als
X∗ : = { x ∈ U | ν ( N ( x ), X ) = 1}
und die obere Approximation als
X ∗ : = { x ∈ U | ν ( N ( x ), X ) > 0}.
Für einen Approximationsraum hU, ≈i ist beispielsweise N : x 7→ [ x ]≈
eine Nachbarschaftsfunktion, und analog ist für ein Informationssystem
hU, Ai stets N : x 7→ [ x ] B für B ⊆ A eine geeignete Nachbarschaftsfunktion.
Sei F eine Menge von Formeln, und für ϕ ∈ F bezeichne k ϕk die Menge aller Objekte, für die ϕ gilt bzw.
wahr ist. Wir setzen F ( x ) := { ϕ ∈
S
F | x ∈ k ϕk}, dann ist N : x 7→ ϕ∈F (x) k ϕk eine entsprechende Nachbarschaftsfunktion.
Eine geeignete Inklusionsfunktion ist stets
( | X ∩Y |
( X 6= ∅)
|X|
ν : ( X, Y ) 7→
,
1
( X = ∅)
denn dann gilt ν( X, Y ) = 1 ⇔ X ⊆ Y und ν( X, Y ) > 0 ⇔ X ∩ Y 6= ∅.
Noch allgemeiner kann N : U → ℘(℘(U )) eine Abbildung sein, die jedem
Objekt eine Menge von Nachbarschaften zuordnet. Die untere Approximation ist dann
X∗ := { x ∈ U | ∃Y ∈ N ( x ) : ν(Y, X ) = 1}
und
X ∗ := { x ∈ U | ∀Y ∈ N ( x ) : ν(Y, X ) > 0}
ist die obere Approximation von X ⊆ U.
Ein Beispiel für eine solche Abbildung N : U → ℘(℘(U )) findet man für
7
1 Approximation
eine Topologie τ auf U als Abbildung, die jedem Objekt x die Menge aller Umgebungen von x bezüglich τ zuordnet, also N = U : x → { X | X ⊆
U ∧ ∃O ∈ τ : x ∈ O ⊆ X }. Im topologischen Fall ist die untere Approximation gerade das Innere von X und die obere Approximation ergibt den
Abschluss von X. Insbesondere sind also genau diejenigen Teilmengen
des Universums unexakt, die weder offen noch abgeschlossen bezüglich
der Topologie sind.
8
2 Information
2.1 Informationssystem
Definition 2.1 (Informationssystem)
Seien U und A endliche nicht-leere Mengen sowie V := {Va | a ∈ A}
eine Menge von endlichen nicht-leeren Mengen. U heißt Universum
(engl. universe) und die Elemente heißen Objekte (engl. object), die Elemente von A heißen Attribute (engl. attribute) und sind Abbildungen
A : U → Va , die Elemente von Va heißen Werte (engl. value) zum Attribut a. Dann heißt
hU, Ai
Informationssystem (engl. information system).
Bemerkung: Eine Teilmenge B ⊆ A erzeugt eine binäre Relation ≈ B auf
U, genannt B-Ununterscheidbarkeitsrelation (engl. indiscernibility relation),
vermöge
x ≈ B y :⇔ a( x ) = a(y) ∀ a ∈ B.
Offensichtlich ist ≈ B eine Äquivalenzrelation und wir schreiben auch
U/B := U/ ≈ B und [ x ] B := [ x ]≈B . Für ein Informationssystem hU, Ai
ist hU, ≈ B i für alle Teilmengen B von A ein Approximationsraum. Umgekehrt ist für einen Approximationsraum hU, ≈i nun hU, { x 7→ [ x ]≈ }i
ein Informationssystem. Daher sind die im vorigen Abschnitt definierte
Begriffe auch in Informationssystemen verfügbar. Für die Approximationen von hU, ≈ B i schreiben wir XB und X B .
Jedes Informationssystem hU, Ai ist ein mehrwertiger Kontext hU, A, V, I i
mit ( x, a, v) ∈ I :⇔ a( x ) = v. Umgekehrt ist jeder mehrwertige Kontext
h G, M, W, I i Informationssystem h G, Mi mit m( g) = w :⇔ ( g, m, w) ∈ I.
S
Für ein Objekt x ∈ U bezeichnen wir die Menge SigB ( x ) := {( a, a( x )) | a ∈
B} auch als B-Signatur (engl. signature) von x, dann sind zwei Objekt genau dann B-ununterscheidbar, wenn ihre B-Signaturen übereinstimmen,
d.h. es gilt x ≈ B y ⇔ SigB ( x ) = SigB (y) für alle x, y ∈ U.
9
2 Information
2.2 Redukt & Kern
In diesem Abschnitt schreiben wir ≈ für die A-Ununterscheidbarkeitsrelation.
Definition 2.2 (Redukt, Kern)
Für ein Informationssystem hU, Ai heißt eine Attributmenge B ⊆ A
Redukt (engl. reduct) von A, wenn B die gleiche Ununterscheidbarkeit
erzeugt wie A, also falls ≈ B = ≈ gilt. Falls B minimal bezüglich der
Teilmengeninklusion ist, so heißt B Primredukt. Für die Menge aller Redukte von A schreiben wir auch Red( A) und analog PRed( A) für die
Menge der Primredukte. Den Durchschnitt aller Redukte
Ker( A) :=
\
Red( A)
nennen wir Kern (engl. core).
T
T
Es gilt Ker( A) =
Red( A) =
PRed( A). Im Folgenden zeigen wir
eine allgemeine Möglichkeit zur Bestimmung der Redukte eines Informationssystems. Dafür definieren wir die Unterscheidbarkeitsmatrix (engl.
discernibility matrix) als Matrix, die in Zeile x ∈ U und Spalte y ∈ U die
Menge aller Attribute aus A hat, bezüglich derer sich x und y unterscheiden. Wir setzen also
A xy := { a ∈ A | a( x ) 6= a(y)}
und damit Mat( A) := ( A xy ) x,y∈U ∈ ℘( A)U ×U . Diese Matrix ist symmetrisch, denn es gilt stets A xy = Ayx , und für alle ununterscheidbaren
Objekte x ≈ y gilt A xy = ∅, also sind insbesondere alle Einträge A xx der
Hauptdiagonale ∅.
Die Potenzmengenalgebra ℘( A) ist isomorph zur booleschen Algebra
{0, 1} A vermöge der Abbildung B 7→ B0 := ( a0 ) a∈ A mit a0 = 1 für a ∈ B
und a0 = 0 sonst bzw. ( a0 ) a∈ A 7→ { a ∈ A | a0 = 1}. Insbesondere ist
A0 = (1) a∈ A und ∅0 = (0) a∈ A .
Definition 2.3 (Unterscheidbarkeitsfunktion)
Die boolesche Funktion
{0, 1} A → {0, 1}
f A : ( a0 )
a∈ A 7 →
^
_
a0
x 6≈y a∈ A xy
heißt Unterscheidbarkeitsfunktion (engl. discernibility function).
10
2.2 Redukt & Kern
Es ist leicht zu sehen, dass f A ( A0 ) = 1 gilt, denn für jedes unterscheidbare
Paar von Objekten muss es ein Attribut geben, dass sie
unterscheidet.
Für
V
W
B0 ⊆ B gilt f A ( B00 ) ≤ f A ( B0 ). Der boolesche Term x6≈y a∈ Axy a0 ist in
konjunktiver Normalform.
Bemerkung: Haben wir eine totale Striktordnung < der Objekte in U
gegeben, dann setzen wir ≺ := < ∩ 6≈ und können damit den booleschen
Term auf seine halbe Länge kürzen zu
f A (( a0 ) a∈ A ) =
^
a0 ,
_
x ≺y a∈ A xy
denn es gilt stets A xy = Ayx .
Lemma 2.4 B ist Redukt von A genau dann, wenn f A ( B0 ) = 1 gilt.
Beweis: Es gilt stets ≈ ⊆ ≈ B wegen B ⊆ A. Weiter haben wir
B ∈ Red( A) ⇐⇒ 6≈ ⊆ 6≈ B
⇐⇒ ∀ x 6≈ y ∃ a ∈ A xy : a ∈ B
⇐⇒ ∀ x 6≈ y ∃ a ∈ A xy : a0 = 1
^
⇐⇒
a0 = 1
_
x 6≈y a∈ A xy
⇐⇒ f A ( B0 ) = 1
für jede Attributmenge B ⊆ A.
Eine Attributmenge B ist ein Primredukt von A genau dann, wenn f A ( B0 ) =
1 und für alle echten Teilmengen B0 B stets f A ( B00 ) = 0 ist.
Das folgende Lemma zeigt, dass wir jeden booleschen Term in konjunktiver Normalform auch in disjunktiver Normalform darstellen können.
Lemma 2.5 Es gilt
^ _
xiji =
i ∈ I ji ∈ Ji
j∈
_
^
×
∈
Ji i ∈ I
i I
×
xiji ,
dabei ist
i ∈ I Ji : = { j : I →
i ∈ I Ji | ∀i ∈ I : ji ∈ Ji } das kartesische
Produkt. Ein Element j ∈
i ∈ I Ji ist eine Auswahlfunktion, die jedem
i ∈ I ein Element der Menge Ji zuordnet.
S
×
11
2 Information
Beweis: Es gelten folgende äquivalente Umformungen:
^ _
xiji = 1 ⇐⇒ ∀i ∈ I ∃ ji ∈ Ji : xiji = 1
i ∈ I ji ∈ Ji
⇐⇒ ∃ j ∈
× J ∀i ∈ I : x
i
i∈ I
⇐⇒
j∈
_
^
×
∈
Ji i ∈ I
i I
iji
=1
xiji = 1
Definition 2.6 (Implikant)
Ein Literal ist eine Variable xi oder eine negierte Variable ¬ xi . Ein Konjunktionsterm k von Literalen bzw. eine boolesche Funktion
{0, 1} I → {0, 1}
k : ( x ) 7→
i i∈ I
^
yi
i∈ J
mit J ⊆ I und yi ∈ { xi , ¬ xi } heißt Implikant (engl. implicant) der Funktion f : {0, 1} I → {0, 1}, falls für alle x ∈ {0, 1} I aus k( x ) = 1 stets
f ( x ) = 1 folgt. Wir sagen auch k impliziert f und schreiben k ⇒ f . Ein
Implikant heißt Primimplikant von f , wenn es keinen Implikanten h 6= k
von f gibt, der von k impliziert wird, d.h. falls @h 6= k : k ⇒ h ⇒ f . Wir
legen fest, dass Imp( f ) die Menge aller Implikanten von f ist und entsprechend ist PImp( f ) die Menge der Primimplikanten.
Ein Implikant ist Primimplikant, wenn der Konjunktionsterm eine minimale Anzahl von Literalen enthält, d.h. falls aus dem Konjunktionsterm
kein Literal entfernt werden kann, ohne dass er seine Eigenschaft Implikant zu sein, verliert. In der disjunktiven Normalform sind alle Konjunktionsterme Implikanten und wir können jede boolesche Funktion als Disjunktion ihrer (Prim-)implikanten darstellen. Es gibt verschiedene Verfahren zur Bestimmung der (Prim-)implikanten einer booleschen Funktion. Hier sind einige Beispiele:
• Algebraische Verfahren: Anwendung der Rechengesetze von Booleschen
Algebren, Nelson-Verfahren
• Graphische Verfahren: Karnaugh-Veitch-Diagramme
• Tabellarische Verfahren: Quine-McCluskey-Verfahren, Konsensus-Verfahren
12
2.2 Redukt & Kern
Lemma 2.7 Die Menge der Implikanten von f A ist genau die Menge der
booleschen Funktionen
{0, 1} A → {0, 1}
0
β : ( a0 )
a∈ A 7 →
^
β0xy
x 6≈y
für Abbildungen β ∈
×x6≈y Axy .
Beweis: Nach Lemma 2.5 folgt
f A ( B0 ) =
^
a0 =
_
x 6≈y a∈ A xy
_
β∈
×
A
6≈
x y
also
β∈
×
A
6≈
x y
Für β ∈
xy
β0xy ,
x 6≈y
β0 .
_
fA =
^
xy
×x6≈y Axy gilt stets β0 (B0 ) ≤ f A (B0 ) für B ⊆ A, also β0 ⇒ f A .
Für B0 ⊆ B gilt β0 ( B00 ) ≤ β0 ( B0 ). Für einen Primimplikant β0 hat die zugehörige Abbildung β (die nicht notwendig eindeutig ist) ein minimales
Bild imβ, d.h. es gibt keinen Implikanten β00 von f A mit imβ 0 imβ.
Lemma 2.8 Es gilt β0 ( B0 ) = 1 genau dann, wenn β ∈
×( Axy ∩ B).
x 6≈y
Beweis: Wir wissen, dass β0 ( B0 ) = 1 genau dann gilt, wenn für alle
unterscheidbaren Objekte x 6≈ y stets β0xy = 1 ist. Das ist äquivalent dazu,
dass jedes Attribut β xy in A xy ∩ B liegt.
Insbesondere gilt also für β0 ( B0 ) = 1 stets imβ ⊆ B.
Satz 2.9 Für jeden Implikant β0 von f A ist das Bild imβ ein Redukt von
A. Falls β0 ein Primimplikant ist, so ist imβ ein Primredukt.
×
0
Beweis: Für jede Abbildung β ∈
x 6≈y A xy gilt f A ((imβ ) ) = 1 und
damit ist imβ ein Redukt nach Lemma 2.4. Falls β0 ein Primimplikant ist,
dann gibt es keinen Implikant β00 von f A mit imβ 0
imβ, d.h. für alle
B0
imβ gibt es keinen Implikant β00 von f A mit β00 ( B00 ) = 1. Also gilt
für alle B0
imβ immer f A ( B00 ) = 0 und somit existiert kein Redukt B0
mit B0 imβ.
13
2 Information
Falls B ein Primredukt von A ist, dann gilt für einen Implikant β0 von f A
mit β0 ( B0 ) = 1 immer imβ = B. Da nach obigen Satz imβ stets ein Redukt
ist, würde imβ B im Widerspruch zur Minimalität von B stehen.
Satz 2.10 Ein B ist Redukt von A genau dann, wenn ein Implikant β0 von
f A mit imβ ⊆ B existiert. Weiter ist B ein Primredukt von A genau dann,
wenn ein Primimplikant β0 von f A mit imβ = B existiert.
Beweis: Eine Attributmenge B ⊆ A ist nach Lemma 2.4 genau dann
ein Redukt, wenn f A ( B0 ) = 1 ist. Nach Lemma 2.7 ist das genau dann der
Fall, wenn es eine Abbildung β ∈
x 6≈y A xy gibt, die jedem unterscheidbaren Objektpaar x 6≈ y ein Attribut β xy zuordnet, das sie unterscheidet,
sodass β0 ( B0 ) = 1 ist. Das ist nach Lemma 2.8 äquivalent dazu, dass β0
ein Implikant von f A mit β ∈
x 6≈y ( A xy ∩ B ) ist.
×
×
2.4
B ∈ Red( A) ⇐⇒ f ( B0 ) = 1
2.7
⇐⇒ ∃ β ∈
×A
xy :
β0 ( B0 ) = 1
x 6≈y
2.8
⇐⇒ ∃ β0 ∈ Imp( f A ) : imβ ⊆ B
Weiter ist B genau dann ein Primredukt, wenn B ein Redukt ist und es
kein Redukt B0
B gibt. Das ist nach dem ersten Teil äquivalent dazu,
dass ein Implikant β0 von f A mit imβ ⊆ B existiert und es keinen Implikant β00 von f A mit imβ 0 B gibt. Weil B ein Primredukt ist, gilt imβ = B
und damit ist β0 ein Primimplikant von f A .
B ∈ PRed( A) ⇐⇒ B ∈ Red( A) ∧ ∀ B0
B : B0 6∈ Red( A)
0
⇐⇒ ∃ β ∈ Imp( f A ) : imβ ⊆ B ∧ 6 ∃ β00 ∈ Imp( f A ) : imβ 0
0
⇐⇒ ∃ β ∈ PImp( f A ) : imβ = B
Umgekehrt sei β0 Primimplikant von f A , dann ist β0 insbesondere ein Implikant von f A und es gibt keinen Implikant β00 von f A mit imβ 0 imβ =
B.
Korollar 2.11 Jeder Implikant von f A bestimmt vermöge der Abbildung
ρ:
Imp( f A ) → Red( A)
β0 7→ imβ
ein Redukt von A und jeder Primimplikant erzeugt ein Primredukt. Die
Zuordnung ρ ist surjektiv, die Menge der Implikanten bestimmt also die
Menge der Redukte vollständig. Weiter ist ρ(PImp( f A )) = PRed( A).
14
B
2.2 Redukt & Kern
Definition 2.12 (Reduktion)
Für ein Redukt B von A ist hU/B, Bi mit a([ x ] B ) := a( x ) für alle a ∈
B, x ∈ U ein Informationssystem und heißt B-Reduktion von hU, Ai.
In einer Reduktion werden ununterscheidbare Objekte in Mengen zusammengefasst und die Anzahl der Attribute reduziert.
Bemerkung: Wir können die Primredukte von A ermitteln, indem wir
die Primimplikanten von f A suchen. Dies kann formal dadurch geschehen, dass wir den Term
^ _
a0
x 6≈y a∈ A xy
in eine minimale disjunktive Normalform
_^
a0
umformen, indem die Rechengesetze in Booleschen Algebren (z.B. Distributivgesetz, Absorptionsgesetz,
etc.) so oft wie möglich angewandt werV
den. Die Konjunktionsterme a0 definieren dann alle Primimplikanten.
Beispiel: Gegeben sei ein Informationssystem hU, Ai mit den Objekten
U = {Auto1, Auto2, Auto3} und den Attributen A = {Motor, Farbe, Türen},
deren Werte in der folgenden Tabelle notiert sind.
Auto1
Auto2
Auto3
Motor
Otto
Otto
Diesel
Farbe
grün
gelb
blau
Türen
vier
zwei
vier
Es ergibt sich die Unterscheidbarkeitsmatrix
Auto1
Auto2
Auto3
Auto1
∅
{Farbe, Türen}
{Motor, Farbe}
Auto2
{Farbe, Türen}
∅
{Motor, Farbe, Türen}
Auto3
{Motor, Farbe}
{Motor, Farbe, Türen}
∅
und damit haben wir für Auto1 ≺ Auto2 ≺ Auto3 nun die Unterscheidbarkeitsfunktion
f A = (Farbe0 ∨ Türen0 ) ∧ (Motor0 ∨ Farbe0 ) ∧ (Motor0 ∨ Farbe0 ∨ Türen0 )
= (Farbe0 ∨ Türen0 ) ∧ (Farbe0 ∨ Motor0 )
= Farbe0 ∨ (Motor0 ∧ Türen0 )
15
2 Information
mit den Primimplikanten Farbe0 und Motor0 ∧ Türen0 . Damit haben wir
also die beiden Primredukte {Farbe} und {Motor, Türen}. Die {Farbe}Reduktion ergibt sich zu
{Auto1}
{Auto2}
{Auto3}
Farbe
grün
gelb
blau
×
Bemerkung: Sei | 6≈ | > | A| und A6≈ :=
x 6 ≈ y A = { β : 6 ≈ → A }.
6
≈
Wir definieren auf A eine Quasiordnung vermöge β 1 v β 2 :⇔ β 1 (6≈
) ⊆ β 2 (6≈) und dann ist ≡ := v ∩ w eine Äquivalenzrelation, nach
der wir A6≈ faktorisieren zu der geordneten Menge h A6≈ / ≡, vi. Dann ist
h A6≈ / ≡ ∪{∅}, vi mit ∀ X ∈ A6≈ / ≡ : ∅ v X ein vollständiger
Verband.
W
Das Supremum ist gegeben durch ∅ ∨ [ β]≡ = [ β]≡ und i∈ I [ β i ]≡ = [ β]≡
S
V
mit βT(6≈) = i∈ I β i (6≈) und
das Infimum ist T i∈ I [ β i ]≡ = [ β]≡ für β(6≈
V
) = i∈ I β i (6≈) 6= ∅ und i∈ I [ β i ]≡ = ∅ für i∈ I β i (6≈) = ∅. Die Menge der β aller Implikanten β0 von f A faktorisiert nach ≡ bildet einen zu
einem vollständigen Supremumunterhalbverband des eben definierten
vollständigen Verbands isomorphen Supremumhalbverband. Die Menge
der β aller Primimplikanten β0 faktorisiert nach ≡ bildet eine maximale
Antikette.
Analog ist die Potenzmenge von A mit der Teilmengeninklusion ein vollständiger Verband, in dem die Menge der Redukte von A einen vollständigen Supremumunterhalbverband bildet. Die Menge der Primredukte
von A ist eine maximale Antikette. Diese Strukturen sind isomorph zu
den obigen.
16
3 Entscheidung
3.1 Entscheidungssystem
Definition 3.1 (Entscheidungssystem)
Sei hU, Ai ein Informationssystem mit einer Partition {C, D } der Attributmenge A, die Attribute aus C heißen Bedingungen (engl. condition)
und die aus D bezeichnen wir als Entscheidungen (engl. decision).
hU, C, D i
heißt Entscheidungssystem (engl. decision system).
Definition 3.2 (Formel)
Sei B ⊆ C ] D. Ein Ausdruck der Form a = v mit a ∈ B, v ∈ Va
wird als Deskriptor (engl. descriptor) oder Selektor (engl. selector) über
B und V bezeichnet. Die Menge F ( B, V ) von Formeln über B und V
wird nun induktiv aufgebaut: Jeder Deskriptor über B und V ist eine
Formel über B und V. Für zwei Formeln über B und V sind auch deren
Konjunktion, Disjunktion und Negation stets Formeln über B und V.
Formal legen wir also fest:
(i)
(ii)
(iii)
(iv)
a ∈ B, v ∈ Va ⇒ ( a = v) ∈ F ( B, V )
ϕ, ψ ∈ F ( B, V ) ⇒ ( ϕ ∧ ψ) ∈ F ( B, V )
ϕ, ψ ∈ F ( B, V ) ⇒ ( ϕ ∨ ψ) ∈ F ( B, V )
ϕ ∈ F ( B, V ) ⇒ (¬ ϕ) ∈ F ( B, V )
Mit k ϕk beschreiben wir die Bedeutung der Formel ϕ als Menge derjenigen Objekte, die die Eigenschaft ϕ haben, d.h. für die ϕ wahr ist.
Diese Mengen werden entsprechend dem Aufbau der Menge der Formeln auch induktiv aufgebaut:
(i)
(ii)
(iii)
(iv)
k a = v k : = { x ∈ U | a ( x ) = v } = a −1 ( v )
k ϕ ∧ ψk := k ϕk ∩ kψk
k ϕ ∨ ψk := k ϕk ∪ kψk
k¬ ϕk := −k ϕk
17
3 Entscheidung
Die Elemente von F (C, V ) heißenVBedingungsformeln. Jedes Objekt x ∈ U
gehört zu der Bedingungsklasse k c∈C c = c( x )k. Die Menge aller Bedingungsklassen bildet eine Partition von U, nämlich U/C. Ein Objekt y ∈ U
V
gehört zu der Bedingungsklasse k c∈CVc = c( x )k genau dann, wenn x
und y C-ununterscheidbar sind, d.h. k c∈C c = c( x )k = [ x ]C . Analog
heißen Formeln ausVF ( D, V ) Entscheidungsformeln. Die Menge aller Entscheidungsklassen
k d∈ D d = d( x )k ist die
Partition U/D von U. Es gilt
V
V
y ∈ k d∈ D d = d( x )k ⇔ x ≈ D y, also k d∈ D d = d( x )k = [ x ] D .
3.2 Konsistenz
Definition 3.3 (Entscheidungsregel)
Für Formeln ϕ ∈ F (C, V ) und ψ ∈ F ( D, V ) heißt
ϕ⇒ψ
Entscheidungsregel (engl. decision rule). Wir nennen ϕ Vorgänger (engl.
predecessor) und ψ Nachfolger (engl. successor) der Entscheidungsregel
ϕ ⇒ ψ Eine Entscheidungsregel ϕ ⇒ ψ heißt wahr, wenn ψ wahr ist
für alle Objekte, für die bereits ϕ wahr ist, d.h. falls k ϕk ⊆ kψk gilt.
Oft werden Entscheidungsregeln auch als wenn-dann-Regeln (engl. if then
rules) bezeichnet. Jedes Objekt x ∈ U bestimmt eine Entscheidungsregel
!
!
^
c = c( x )
c∈C
^
⇒
d = d( x ) .
d∈ D
Diese ist wahr genau dann, wenn [ x ]C ⊆ [ x ] D gilt, d.h. wenn für jedes
Objekt y ∈ U, für das x, y ununterscheidbar bezüglich C sind, stets x, y
auch D-ununterscheidbar sind.
Definition 3.4 (Konsistenz)
Wir definieren die sogenannte Entscheidungsfunktion
×V )
x 7→ {v ∈ × V | ∃y ∈ U : y ≈
U → ℘(
δCD :
d
d∈ D
d
C
x ∧ ∀ d ∈ D : d ( y ) = v d }.
d∈ D
Das Entscheidungssystem hU, C, D i heißt konsistent, wenn δCD ( x ) für
alle x ∈ U einelementig ist; andernfalls heißt hU, C, D i inkonsistent.
18
3.2 Konsistenz
Ein konsistentes Entscheidungssystem heißt auch deterministisch.
Lemma 3.5 hU, C, D i ist konsistent
genau dann,
wenn für jedes Objekt
V
V
x ∈ U die Entscheidungsregel c∈C c = c( x ) ⇒ d∈ D d = d( x ) wahr ist.
Beweis: hU, C, D i ist konsistent genau dann, wenn
δCD ( x ) = {v ∈
× V | ∃y ∈ U : y ≈
d
C
x ∧ ∀d ∈ D : d(y) = vd }
d∈ D
für alle Objekte x ∈ U einelementig ist. Da x und x stets C-ununterscheidbar
sind, gilt (d( x ))d∈ D ∈ δCD ( x ). Damit ist also δCD ( x ) für alle x ∈ U einelementig genau dann, wenn für jedes Objekt y ∈ U, für das x, y Cununterscheidbar sind, stets x, y auch D-ununterscheidbar sind.
Ein Entscheidungssystem hU, C, D i ist nach obigem Lemma konsistent
genau dann, wenn ≈C ⊆ ≈ D gilt, also wenn die Partition U/C feiner als
U/D ist.
Wenn die Entscheidungen in D vollständig von den Bedingungen in C
abhängen, d.h. wenn die Werte der Bedingungen in C die Werte der Entscheidungen in D eindeutig bestimmen, dann schreiben wir auch
C ⇒ D.
Also hängt D vollständig von C ab, wenn es einen funktionalen Zusammenhang zwischen den Werten der Elemente von C und D gibt. Formal
definieren wir nun die (partielle) Abhängigkeit.
Definition 3.6 (partielle Abhängigkeit)
Wir setzen
Pos(C, D ) :=
[
XC
X ∈U/D
als den positiven Bereich der Partition U/D bezüglich C. Nun heißt D
abhängig von C zum Grad k, falls
k = γ(C, D ) :=
|Pos(C, D )|
|U |
gilt, und wir schreiben dafür auch
C ⇒k D.
Für k = 1 ist D vollständig abhängig von C, symbolisch auch schlichtweg
C ⇒ D geschrieben. Für k < 1 nennen wir D partiell abhängig von C
zum Grad k.
19
3 Entscheidung
Der positive Bereich ist die Vereinigung aller unteren C-Approximationen
von D-elementaren Mengen, daher enthält Pos(C, D ) alle Objekte, die
bezüglich C sichere Objekte von Klassen der Partition U/D sind. Es ist
S
Pos(C, D ) = x∈U ([ x ] D )C .
Lemma 3.7 Ein Entscheidungssystem hU, C, D i ist konsistent genau dann,
wenn C ⇒ D gilt.
Beweis: Sei hU, C, D i konsistent. Für x ∈ U gilt x ∈ [ x ]C und [ x ]C ⊆
[ x ] D . Damit liegt x auch in der Vereinigung derjenigen C-elementaren
Mengen, die in [ x ] D als Teilmenge enthalten sind. Diese Vereinigung ist
nichts anderes als ([ x ] D )C und [ x ] D ∈ U/D, also liegt x im positiven
Bereich Pos(C, D ). Umgekehrt sei nun Pos(C, D ) = U. Angenommen,
hU, C, D i wäre nicht konsistent, es gäbe also ein Objekt x ∈ U mit [ x ]C 6⊆
[ x ] D , dann läge x jedoch nicht in Pos(C, D ). Widerspruch!
3.3 Redukt & Kern
Definition 3.8 (Redukt, Kern)
Eine Attributmenge B ⊆ C heißt D-(Prim-)Redukt oder entscheidungsabhängiges (Prim-)Redukt (engl. decision-relative reduct) von C, falls B
eine (minimale) Teilmenge von C mit γ( B, D ) = γ(C, D ) oder δBD = δCD
ist. Für die Menge aller D-Redukte von C schreiben wir auch Red(C, D )
und analog PRed(C, D ) für die Menge der Primredukte. Den Durchschnitt aller D-Redukte von C
Ker(C, D ) :=
\
Red(C, D )
bezeichnen wir auch als den D-Kern (engl. core) von C.
Der D-Kern von C ist in allen D-Redukten von C enthalten, also enthält er
die „wichtigen“ Bedingungen, deren Entfernen stets eine Verkleinerung
des positiven Bereichs, also eine Verminderung des Klassifikationsvermögens, bewirken.
Zur Bestimmung von entscheidungsabhängigen Redukten gehen wir ähnlich wie bei der Bestimmung der Redukte von Informationssystemen vor.
Dazu sei hU, C, D i ein konsistentes Entscheidungssystem und Mat(C ) sei
die Unterscheidbarkeitsmatrix von hU, C i. Wir konstruieren eine entscheidungsabhängige Unterscheidbarkeitsmatrix (engl. decision-relative discerni-
20
3.3 Redukt & Kern
D)
bility matrix) Mat(C, D ) := (Cxy
x,y∈U mit
(
∅
( x ≈ D y)
D
Cxy
:=
Cxy ( x 6≈ D y).
Analog definieren wir wieder eine entscheidungsabhängige Unterscheidbarkeitsfunktion (engl. decision-relative discernibility function) vermöge
f CD ((c0 )c∈C ) :=
c0
^
_
x 6 ≈C y
x 6≈ D y
D
c∈Cxy
und erhalten die Menge der entscheidungsabhängigen (Prim-)redukte
aus den (Prim-)implikanten der Funktion f CD .
Beispiel: Wir erweitern das vorige Beispiel eines Informationssystems
zu einem Entscheidungssystem hU, C, D i mit den Objekten U = {Auto1,
Auto2, Auto3}, den Bedingungen C = {Motor, Farbe, Türen} und einer
Entscheidung D = {Fahren}.
Auto1
Auto2
Auto3
Motor
Otto
Otto
Diesel
Farbe
grün
gelb
blau
Türen
vier
zwei
vier
Fahren
nein
nein
ja
Es ergibt sich die entscheidungsabhängige Unterscheidbarkeitsmatrix
Auto1
Auto2
Auto3
Auto1
∅
∅
{Motor, Farbe}
Auto2
∅
∅
{Motor, Farbe, Türen}
Auto3
{Motor, Farbe}
{Motor, Farbe, Türen}
∅
und damit haben wir für Auto1 ≺ Auto2 ≺ Auto3 nun die entscheidungsabhängige Unterscheidbarkeitsfunktion
f CD = (Motor0 ∨ Farbe0 ) ∧ (Motor0 ∨ Farbe0 ∨ Türen0 )
= Motor0 ∨ Farbe0
mit den Primimplikanten Motor0 und Farbe0 . Damit haben wir also die
beiden entscheidungsabhängigen Primredukte {Motor} und {Farbe}. Die
{Motor}-Reduktion ergibt sich zu
{Auto1, Auto2}
{Auto3}
Motor
Otto
Diesel
Fahren
nein
ja
21
3 Entscheidung
3.4 Attributselektion
In vielen Fällen sind die Attribute in Entscheidungssystemen redundant,
das heißt wir können Attribute entfernen, ohne dabei das Klassifikationsvermögen zu verringern. Das Attributauswahlproblem (engl. attribute
selection problem) ist das Problem der Auswahl einer ausreichenden Attributmenge, während die unwichtigen Attribute entfernt werden. Dazu
eignet sich zuallererst natürlich der Kern eines Entscheidungssystems,
denn die Attribute im Kern liegen in allen Redukten, und sind somit zur
Aufrechterhaltung der maximalen Klassifikationsfähigkeit unbedingt nötig. Es kann allerdings vorkommen, dass der Kern leer ist.
Um das Attributauswahlproblem zu lösen, benötigen wir den Begriff eines approximativen Redukts. Für ein konsistentes Entscheidungssystem
hU, C, {d}i heißt jede Bedingungsmenge B ⊆ C approximatives Redukt von
C (engl. approximate reduct). Die Abbildung
{d}
εC :
℘(C ) → R
γ(C, {d}) − γ( B, {d})
γ( B, {d})
B 7→
= 1−
γ(C, {d})
γ(C, {d})
misst den Fehler der Reduktapproximation. Der Reduktapproximationsfehler gibt an, wie gut die Bedingungen aus B die Bedingungen aus C
{d}
unter Berücksichtigung der Entscheidung d annähern. Der Fehler ε C ( B)
{d}
liegt stets im reellen Interval [0, 1], wobei ε C ( B) = 0 genau dann gilt,
wenn B ein Redukt ist.
Ausgehend vom Kern können wir nun eine endliche Folge ( Bn )kn=0 minimaler Länge von Attributmengen Bn mit B0 := Ker(C, {d}) und Bn+1 :=
Bn ∪ {c} für c 6∈ Bn finden, in der der Reduktapproximationsfehler immer
kleiner wird, und schließlich 0 erreicht.
{d}
{d}
{d}
1 ≥ ε C ( B0 ) > ε C ( B1 ) > · · · > ε C ( Bk ) = 0
Dann ist Bk ein geeignetes Primredukt.
Betrachten wir das Attributauswahlproblem von der anderen Seite. Dazu nehmen wir die Menge C aller Entscheidungen und reduzieren diese schrittweise. Dazu benötigen wir den Begriff der Attributsignifikanz,
der die “Wichtigkeit„ von Attributen angibt, indem der Effekt des Attributentfernens gemessen wird. Die Attributsignifikanz einer Bedingung c ∈
22
3.5 Wertemengenreduktion
{d}
C eines Entscheidungssystems hU, C, {d}i ist definiert als Wert σC ({c})
der Abbildung
{d}
σC :
℘(C ) → R
γ(C − B, {d})
γ(C, {d}) − γ(C − B, {d})
= 1−
.
B 7→
γ(C, {d})
γ(C, {d})
{d}
Der Koeffizient σC ( B) gibt den Klassifikationsfehler an, der nach dem
{d}
Entfernen der Bedingungen aus C auftritt. Der Wert σC ( B) liegt im Intervall [0, 1] und ist 0, wenn kein Fehler auftritt.
Nun können wir eine endliche Folge ( Bn )kn=0 maximaler Länge von Attributmengen Bn mit B0 := C und Bn+1 := Bn − {c} für c ∈ Bn finden, in
der die Attributsignifikanz der entfernten Bedingungen stets 0 ist.
{d}
{d}
{d}
σB0 ( B0 − B1 ) = σB1 ( B1 − B2 ) = · · · = σB
k −1
( Bk−1 − Bk ) = 0
Dann ist Bk ein geeignetes Primredukt.
3.5 Wertemengenreduktion
In einem Entscheidungssystem mit einer großen Anzahl an Werten für
die einzelnen Attribute wird es selten der Fall sein, dass die Signatur eines neuen Objekts mit der Signatur eines vorhandenen Objekts genau
übereinstimmt, d.h. die beiden Objekte als ununterscheidbar erkannt werden. Um also ein gutes Klassifikationsvermögen zu erreichen, ist er nötig
die Anzahl der möglichen Werten für die einzelnen Attribute zu verringern. Dieses Problem nennen wir auch das Wertemengenreduktionsproblem
(engl. value set reduction problem). Es gibt mindestens zwei Methoden
zur Lösung dieses Problems. Einerseits kann für reellwertige Attribute
eine Diskretisierung der Wertemenge vorgenommen werden, d.h. einem
Intervalle wird eine endliche Menge mit Zahlen aus dem Intervall zugeordnet. Das Verfahren wird hier nicht vorgestellt; der interessierte Leser findet es in [3]. Andererseits ist es auch für Attribute mit Symbolen
als Werte möglich, die Mächtigkeit der Wertemengen zu verringern. Die
Gruppierung von symbolischen Attributwerten (engl. symbolic attribute value grouping) ist ein geeignetes Verfahren und soll nun vorgestellt werden.
Sei hU, C, {d}i ein Entscheidungssystem. Für ein Attribut c ∈ C heißt eine
Funktion gc : Vc → {1, . . . , m} mit m ≤ |Vc | Gruppierungsfunktion (engl.
23
3 Entscheidung
clustering function) für Vc . Der Rang (engl. rank) von gc ist definiert als
rang( gc ) := | gc (Vc )|. Der Rang von gc ist die Anzahl der verschiedenen
Werte von gc , also insbesondere höchstens m. Für eine Menge B ⊆ C heißt
eine Menge { gc | c ∈ B} von Gruppierungsfunktionen B-konsistent, wenn
(∀c ∈ B : gc (c( x )) = gc (c(y))) =⇒ x ≈ B y ∨ x ≈{d} y
gilt. Eine Menge von Gruppierungsfunktionen ist also B-konsistent, wenn
je zwei Objekte, die bezüglich der Werte der Gruppierungsfunktionen für
alle Attribute aus B ununterscheidbar sind, auch bezüglich den Attributen aus B oder der Entscheidung d ununterscheidbar sind.
Nun betrachten wir das (engl. symbolic value partition grouping problem): Für ein gegebenes Entscheidungssystem hU, C, {d}i und eine Menge B ⊆ C suchen wir eine B-konsistente Menge { gc | c ∈ B} von Gruppierungsfunktionen gc , sodass die Summe der Ränge ∑c∈ B rang( gc ) minimal
ist. Um dieses Problem zu lösen, sind die folgenden Schritte möglich.
(1) Definiere eine Menge von booleschen Variablen
S := {cw
v | c ∈ B ∧ v, w ∈ Vc ∧ v <c w }
Dabei ist <c eine beliebige lineare Ordnung auf der entsprechenden
Wertemenge Vc .
(2) Konstruiere eine Matrix M := ( Mxy ) x,y∈U mit
Mxy := {cw
v ∈ S | v = c ( x ) ∧ w = c ( y ) ∧ d ( x ) 6 = d ( y )}
(3) Konstruiere aus der Matrix M die boolesche Funktion
^
_
x,y∈U
Mxy 6=∅
cw
v ∈ Mxy
cw
v.
Falls die Entscheidung d nur zwei Werte hat, die angenommen werden, dann lässt sich die Matrix auch reduziert darstellen, indem die
Objekte, die auf den einen Wert abgebildet werden, als Zeilen gewählt
werden, und die Objekte, die den anderen Wert haben, wählt man
entsprechend als Spalten.
(4) Bestimme den kürzesten Primimplikanten β0 .
24
3.5 Wertemengenreduktion
(5) Konstruiere für jedes Attribut c ∈ B den ungerichteten Graphen Γc :=
hVcΓ , EcΓ i mit der Knotenmenge VcΓ := Vc und der Kantenmenge
EcΓ := {(v, w) | cvw ∈ imβ}.
(6) Suche eine minimale Knotenfärbung von Γc . Die Färbung definiert
eine Partition von VcΓ , indem die Knoten entsprechend ihrer Farbe
in Klassen eingeteilt werden. Den Klassen der Partition werden aufeinanderfolgende natürliche Zahlen i zugeordnet. Die Gruppierungsfunktion für das Attribut c ∈ B ergibt sich nun vermöge gc (v) = i,
wenn v in der i-ten Klasse der Partition von Vc liegt.
Definition 3.9 (Reduktion)
Jede Menge g = { gc | c ∈ B} von Gruppierungsfunktionen erzeugt
ein reduziertes Entscheidungssystem hU, C g , {d}i mit C g := {c g | c ∈
B} und c g ( x ) := gc (c( x )) für x ∈ U. Wir nennen hU, C g , {d}i die gReduktion von hU, C, {d}i.
Beispiel: Betrachten wir nocheinmal das Entscheidungssystem aus dem
vorigen Beispiel. Es ergeben sich folgende Schritte:
(1) Wir haben die booleschen Variablen
gelb
blau
blau
vier
S = {MotorDiesel
Otto , Farbegrün , Farbegrün , Farbegelb , Türenzwei }.
(2) Damit ergibt sich die Matrix
Auto1
Auto2
Auto3
Auto1
∅
∅
{MotorDiesel
Otto ,
Farbeblau
grün }
Auto2
∅
∅
{MotorDiesel
Otto ,
Farbeblau
gelb ,
Türenvier
zwei }
Auto3
∅
∅
∅
und diese können wir reduzieren zu
Auto3
Auto1
{MotorDiesel
Otto ,
Farbeblau
grün }
Auto2
{MotorDiesel
Otto ,
Farbeblau
gelb ,
Türenvier
zwei }
25
3 Entscheidung
(3) Aus der Matrix lesen wir die boolesche Funktion ab:
blau
Diesel
blau
vier
(MotorDiesel
Otto ∨ Farbegrün ) ∧ (MotorOtto ∨ Farbegelb ∨ Türenzwei )
(4) Diese hat den kürzesten Primimplikanten:
MotorDiesel
Otto
(5) Damit haben wir für das Attribut Motor den Graphen
ΓMotor :
Otto •
• Diesel
und es ergeben sich gMotor (Otto) = 1 und gMotor (Diesel) = 2. Die
übrigen Graphen sind kantenfrei, also ist gFarbe = 1 und gTüren = 1.
(6) Die g-Reduktion ergibt sich nun zu:
Auto1
Auto2
Auto3
Motorg
1
1
2
Farbeg
1
1
1
Türeng
1
1
1
Fahren
nein
nein
ja
Beispiel: Gegeben sei folgendes Entscheidungssystem
hU, C, {d}i
x1
x2
x3
x4
x5
a
♥
♠
♣
♦
♦
b
M
M
O
M
O
d
0
0
1
1
1
mit den linearen Ordnungen ♦ < ♥ < ♠ < ♣ und M< O.
(1) Wir führen die booleschen Variablen ein:
♠ ♣ ♠ ♣ ♣ O
S = { a♥
♦ , a♦ , a♦ , a♥ , a♥ , a♠ , bM }
26
3.5 Wertemengenreduktion
(2) Die Matrix M ergibt sich zu
M
x1
x2
x1
∅
∅
x2
x3
x4
∅
∅
{ a♥
♦}
∅
∅
{ a♠
♦}
{ a♥
♦}
x5
{ a♠
♦}
x3
♣ O
{ a♥ , bM }
O
{ a♣
♠ , bM }
x4
x5
∅
∅
∅
∅
∅
∅
∅
∅
O}
{bM
O}
{bM
∅
∅
∅
Ändern wir nun die lineare Ordnung der Werte von a zu
♥<♠<♣<♦
und entsprechend die booleschen Variablen zu
♣ ♦ ♣ ♦ ♦ O
S = { a♠
♥ , a♥ , a♥ , a♠ , a♠ , a♣ , bM },
dann können wir die Matrix reduzieren zu
M
x1
x2
x3
♣ O
{ a♥ , bM }
O
{ a♣
♠ , bM }
x4
{ a♦
♥}
{ a♦
♠}
x5
♦ O
{ a♥ , bM }
O
{ a♦
♠ , bM }
(3) Damit ergibt sich die boolesche Funktion
♦
♦
♣
♦
♦
O
O
O
O
( a♣
♥ ∨ bM ) ∧ a♥ ∧ ( a♥ ∨ bM ) ∧ ( a♠ ∨ bM ) ∧ a♠ ∧ ( a♠ ∨ bM ).
(4) Diese hat den kürzesten Primimplikanten
♦
O
a♦
♥ ∧ a♠ ∧ bM .
(5) Es ergeben sich folgende Graphen
Γa :
♣•
•♠
♥•
•♦
Γb :
•O
•M
und damit ergeben sich die Gruppierungsfunktionen ga (♦) = 1 und
ga (♥) = ga (♠) = ga (♣) = 2 sowie gb (M) = 1 und gb (O) = 2.
27
3 Entscheidung
(6) Die g-Reduktion ist also
hU, C, {d}i
x1
x2
x3
x4
x5
ag
2
2
2
1
1
bg
1
1
2
1
2
d
0
0
1
1
1
3.6 Primentscheidungsregeln
Definition 3.10 (Primentscheidungsregel)
Eine Entscheidungsregel ϕ ⇒ ψ heißt Primentscheidungsregel (engl. minimal decision rule), wenn sie wahr ist und jedes Entfernen eines Deskriptors in ϕ bewirkt, dass sie falsch wird.
Eine minimale Entscheidungsregel hat als Vorgänger eine minimale Konjunktion von Deskriptoren und diese sind unbedingt nötig, um den Wert
der Entscheidung d eindeutig und korrekt zu bestimmen.
(1) Definiere für jedes Objekt x ∈ U aus der entsprechenden Zeile in der
entscheidungsabhängigigen Matrix Mat(C, D ) die boolesche Funktion
^ _
f x ((c0 )c∈C ) :=
c0 .
D
x 6≈C y c∈Cxy
x 6≈ D y
(2) Bestimme für jede Funktion f x die Primimplikanten.
(3) Konstruiere für jeden Primimplikanten β0 die Entscheidungsregel


^

a∈imβ
28
a = a( x ) ⇒ (d = d( x )) .
Literaturverzeichnis
[1] Zdzislaw Pawlak and Andrzej Skowron. Rudiments of rough sets.
Institute of Mathematics, Warsaw University, Banacha 2, 02-097 Warsaw,
Poland, Information Sciences 177 (2007):3–27, 2006.
[2] Zdzislaw Pawlak and Andrzej Skowron. Rough sets: Some extensions. Institute of Mathematics, Warsaw University, Banacha 2, 02-097
Warsaw, Poland, Information Sciences 177 (2007):28–40, 2006.
[3] Zdzislaw Pawlak and Andrzej Skowron. Rough sets and boolean reasoning. Institute of Mathematics, Warsaw University, Banacha 2, 02-097
Warsaw, Poland, Information Sciences 177 (2007):41–73, 2006.
[4] Bernhard Ganter. Lattices of rough set abstractions as p-products.
Institut für Algebra, Dresden University of Technology, D-01062 Dresden,
2007.
29
Literaturverzeichnis
30
Index
Abhängigkeit, 19
allgemeiner Approximationsraum,
7
Approximation, 1
obere, 1
untere, 1
Approximationsgenauigkeit, 5
Approximationsraum, 1
Attribut, 9
Attributauswahlproblem, 22
Bedingung, 17
Bedingungsformel, 18
Bedingungsklasse, 18
definierbare Menge, 1
Deskriptor, 17
Determiniertheit, 18
elementare Menge, 1
Entscheidung, 17
Entscheidungsformel, 18
Entscheidungsklasse, 18
Entscheidungsregel, 18
Entscheidungssystem, 17
exakte Menge, 5
Formel, 17
Gruppierungsfunktion, 23
Implikant, 12
Informationssystem, 9
Inklusionsfunktion, 7
Kern, 10, 20
Konsistenz, 18, 24
mögliches Objekt, 2
Nachbarschaft, 7
Nachfolger, 18
oben undefinierbare Menge, 5
obere Approximation, 1
Objekt, 1, 9
partielle Abhängigkeit, 19
Primentscheidungsregel, 28
Primimplikant, 12
Primredukt, 10
Rand, 1
Rang, 24
Redukt, 10, 20
Reduktion, 15, 25
Selektor, 17
sicheres Objekt, 2
Signatur, 9
undefinierbare Menge, 5
unexakt definierbare Menge, 5
unexakte Enthaltenseinsfunktion,
5
unexakte Menge, 5
Universum, 1, 9
unten undefinierbare Menge, 5
untere Approximation, 1
31
Index
Unterscheidbarkeitsfunktion, 10
Unterscheidbarkeitsmatrix, 10
ununterscheidbar, 1
Ununterscheidbarkeitsrelation, 9
Vorgänger, 18
wahr, 18
Wert, 9
Wertemengenreduktionsproblem,
23
32
Herunterladen