Seminar Algebra Prof. Dr. B. Ganter Rough Sets – Unexakte Mengen Francesco Kriegel TU Dresden Fakultät Mathematik Institut Algebra WS 2008 / 2009 5. November 2008 Inhaltsverzeichnis Kapitel 1 Approximation 1.1 Approximationsraum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Allgemeiner Approximationsraum . . . . . . . . . . . . . . . . . . . . . . . 1 1 7 Kapitel 2 Information 9 2.1 Informationssystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Redukt & Kern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Kapitel 3 Entscheidung 3.1 Entscheidungssystem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Redukt & Kern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Attributselektion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Wertemengenreduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Primentscheidungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 20 22 23 28 -1 0 1 Approximation 1.1 Approximationsraum Definition 1.1 (Approximationsraum) Sei U eine endliche nicht-leere Menge. U heißt Universum (engl. universe) und die Elemente heißen Objekte (engl. object). Für eine Äquivalenzrelation ≈ auf U, die eine Ununterscheidbarkeit in U charakterisiert, heißt hU, ≈i auch Approximationsraum (engl. approximation space). Für x ≈ y sagen wir x und y sind ununterscheidbar (engl. indiscernible). Wir nennen ein Element von U/ ≈, also eine Mengen [ x ] := [ x ]≈ , auch elementare Menge (engl. elementary set) und Vereinigungen von elementaren Mengen heißen definierbare Mengen (engl. definable set). Definition 1.2 (Approximation) Für die Abbildung ·∗ : ℘(U ) → ℘(U ) X 7 → X∗ : = { x ∈ U | [ x ] ⊆ X } heißt X∗ untere Approximation (engl. lower approximation) von X, für ·∗ : ℘(U ) → ℘(U ) X 7→ X ∗ := { x ∈ U | [ x ] ∩ X 6= ∅} nennen wir X ∗ obere Approximation (engl. upper approximation) von X und das Paar ( X∗ , X ∗ ) heißt nun Approximation (engl. approximation) von X. Die Menge X ◦ := X ∗ − X∗ heißt Rand (engl. boundary) von X. Die Abbildung 1.1 veranschaulicht diese Definition. 1 1 Approximation ' $ X X◦ X∗ & % U/ ≈ Abbildung 1.1: Approximation einer Menge X ⊆ U Es gilt X∗ = [ [ x ] = { x ∈ U | ∀ y ≈ x : y ∈ X }, [ x ]⊆ X die untere Approximation von X enthält also diejenigen Objekte, die sicher in X liegen (sicheres Objekt, engl. certain object). Die obere Approximation [ X∗ = [ x ] = { x ∈ U | ∃y ≈ x : y ∈ X } [ x ]∩ X 6=∅ enthält die Objekte, die möglicherweise in X liegen (mögliches Objekt, engl. possible object). Der Rand besteht aus allen Objekten, die weder sicher in X noch sicher in − X sind (unentscheidbares Objekt, engl. undecidable object). Lemma 1.3 Für Mengen X, Y ⊆ U gelten: (a) X∗ ⊆ X ⊆ X ∗ (h) X ⊆ Y ⇒ X∗ ⊆ Y∗ (b) ∅∗ = ∅ = ∅∗ (i) X ⊆ Y ⇒ X ∗ ⊆ Y ∗ (c) U∗ = U = U ∗ (j) (− X )∗ = − X ∗ (d) ( X ∩ Y )∗ = X∗ ∩ Y∗ (k) (− X )∗ = − X∗ (e) ( X ∪ Y )∗ ⊇ X∗ ∪ Y∗ (l) (− X )◦ = X ◦ (f) ( X ∩ Y )∗ ⊆ X ∗ ∩ Y ∗ (m) ( X∗ )∗ = X∗ = ( X∗ )∗ (g) ( X ∪ Y )∗ = X ∗ ∪ Y ∗ (n) ( X ∗ )∗ = X ∗ = ( X ∗ )∗ Beweis: 2 1.1 Approximationsraum (a) Die untere Approximation X∗ ist eine Vereinigung von Teilmengen von X, muss also selbst eine Teilmenge von X sein. Die obere Approximation X ∗ ist die Vereinigung von allen (elementaren) Mengen, die mit X einen nicht-leeren Durchschnitt haben, und daher muss sie X enthalten. (b) Da elementare Mengen stets nicht-leer sind, ist die untere Approximation der leeren Menge stets die leere Vereinigung, also die leere Menge. Andererseits gibt es keine Menge, die mit der leeren Menge einen nicht-leeren Durchschnitt hat, also ist auch die obere Approximation der leeren Menge die leere Menge. (c) Die Menge der elementaren Menge ist eine Partition von U, daher ist deren Vereinigung U die untere Approximation von U. Die obere Approximation von U ist ebenso die Vereinigung von allen elementaren Mengen, denn keine von ihnen hat mit U einen leeren Durchschnitt. (d) Die untere Approximation des Schnitts X ∩ Y ist die Vereinigung derjenigen elementaren Mengen, die in beiden Mengen enthalten sind. Dies ist nichts anderes als der Schnitt der beiden Vereinigungen der elementaren Mengen, die in X bzw. in Y enthalten sind. (e) Möglicherweise gibt es eine elementare Menge, die zwar in der Vereinigung X ∪ Y enthalten ist, jedoch nicht in X oder Y. Daher gilt hier nicht die Gleichheit, sondern nur ⊇. (f) Möglicherweise gibt es eine elementare Menge, die mit dem Schnitt X ∩ Y einen leeren Durchschnitt hat, jedoch nicht mit X oder Y. Somit haben wir hier lediglich ein Enthaltensein ⊆. (g) Die obere Approximation der Vereinigung X ∪ Y ist die Vereinigung aller elementaren Mengen, die Elemente mit X oder mit Y gemeinsam haben, also die Vereinigung der Vereinigungen derjenigen elementaren Mengen, die mit X bzw. mit Y einen nicht-leeren Durchschnitt haben. (h) Ist X eine Teilmenge von Y, dann gibt es möglicherweise mehr elementare Mengen, die in Y enthalten sind, also ist die untere Approximation von X in der unteren Approximation von Y enthalten. (i) Ist X eine Teilmenge von Y, dann gibt es möglicherweise mehr elementare Mengen, die Elemente mit Y gemeinsam haben, also ist die obere Approximation von X in der oberen Approximation von Y enthalten. (j) Die untere Approximation von − X ist die Vereinigung von allen elementaren Mengen, die im Komplement von X liegen, d.h. die mit X einen leeren Durchschnitt haben. Das ist gleich dem Komplement der Vereinigung der elementaren Mengen, die mit X einen nicht-leeren Durchschnitt haben. Formal: [ x ] ⊆ − X ⇔ ¬([ x ] ∩ X 6= ∅). 3 1 Approximation (k) Die obere Approximation von − X ist die Vereinigung von den elementaren Mengen, die mit dem Komplement von X einen nicht-leeren Durchschnitt haben, also das Komplement der Vereinigung derjenigen elementaren Mengen, die im Komplement von X liegen. Formal: [ x ] ∩ − X 6= ∅ ⇔ ¬([ x ] ⊆ X ). (l) Der Rand des Komplements von X ist die Vereinigung der elementaren Mengen, die mit − X einen nicht-leeren Durchschnitt haben, aber nicht in − X enthalten sind, das sind aber gerade die elementaren Mengen, die mit X einen nicht-leeren Durchschnitt haben und nicht in X enthalten sind. Formal: [ x ] ∩ − X 6= ∅ ∧ ¬([ x ] ⊆ X ) ⇔ ¬([ x ] ⊆ X ) ∧ [ x ] ∩ X 6= ∅. (m) Die untere Approximation ist eine Vereinigung von elementaren Mengen, daher gilt hier Gleichheit, vgl. (a). (n) Die obere Approximation ist eine Vereinigung von elementaren Mengen, damit gilt hier Gleichheit, vgl. (a). Nach obigen Lemma ist die Abbildung, die einer Menge ihre untere Approximation zuordnet, ein Kernoperator und dual ist die Abbildung, die einer Menge ihre obere Approximation zuordnet, ein Hüllenoperator. Die Menge der unteren bzw. oberen Approximationen bildet also einen vollständigen Verband. Genauer gilt nun: Die Menge aller Approximationen {( X∗ , X ∗ ) | X ⊆ U } = {( X, Y ) | ∃ Z ⊆ U : Z∗ = X ∧ Z ∗ = Y }, geordnet durch die komponentenweise Teilmengenrelation ( X∗ , X ∗ ) ⊆ (Y∗ , Y ∗ ) :⇔ X∗ ⊆ Y∗ ∧ X ∗ ⊆ Y ∗ , ist ein vollständiger Verband. Für eine Menge von Approximationen {( Xt , Yt ) | t ∈ T } sind das Infimum und das Supremum gegeben durch ^ ( Xt , Yt ) = (( t∈ T \ \ Xt ) ∗ , t∈ T und _ t∈ T ( Xt , Yt ) = ( [ t∈ T Xt , ( Yt ) t∈ T [ Yt )∗ ). t∈ T Diese Konstruktion führt uns zum Verband der Raumengenabstraktionen, für weiterführende Informationen siehe [4]. 4 1.1 Approximationsraum Definition 1.4 (unexakte Menge) Eine Menge X ⊆ U heißt exakt (engl. crisp set), falls ihr Rand X ◦ leer ist. Andernfalls heißt X unexakt (engl. rough set). Eine unexakte Menge X heißt (i) unexakt definierbar (engl. roughly definable), falls X∗ 6= ∅ und X ∗ 6= U, (ii) unten undefinierbar (engl. internally indefiniable), falls X∗ = ∅ und X ∗ 6= U, (iii) oben undefinierbar (engl. externally indefinable), falls X∗ 6= ∅ und X ∗ = U, (iv) undefinierbar (engl. totally indefinable), falls X∗ = ∅ und X ∗ = U. Exakte Mengen sind genau die die definierbaren Mengen, d.h. Vereinigungen von elementaren Mengen. Für eine unexakt definierbare Menge X gibt es mindestens ein Element das sicher zu X gehört und ein Element das sicher zu − X gehört. Für eine unten undefinierbare Menge X können wir für keinen Gegenstand entscheiden, ob dieser sicher zu X gehört, jedoch gibt es einen Gegenstand, der sicher zu − X gehört. Dual für oben undefinierbare Mengen. Entsprechend ist es für eine undefinierbare Menge X unmöglich zu entscheiden, ob ein Gegenstand sicher in X bzw. in − X liegt. Die reellwertige Abbildung α: ℘(U ) → R | X∗ | |X◦ | X 7→ = 1− ∗ ∗ |X | |X | misst die Approximationsgenauigkeit (engl. accuracy of approximation) von X. Offensichtlich gilt stets 0 ≤ α( X ) ≤ 1 und X ist exakt genau dann, wenn α( X ) = 1 ist, bzw. unexakt genau für α( X ) < 1. |X◦ | Eine andere Möglichkeit ist α( X ) := 1 − |U | . Definition 1.5 (unexakte Enthaltenseinsfunktion) Die unexakte Enthaltenseinsfunktion (engl. rough membership function) ist definiert als Abbildung U × ℘(U ) → R µ: ( x, X ) 7→ |[ x ] ∩ X | |[ x ]| 5 1 Approximation Der Wert µ( x, X ) kann interpretiert werden als bedingte Wahrscheinlichkeit, dass x zu X gehört. Lemma 1.6 Es gelten für alle x ∈ U und X ⊆ U (a) µ( x, X ) = 1 ⇔ x ∈ X∗ (b) µ( x, X ) = 0 ⇔ x ∈ − X ∗ (c) 0 < µ( x, X ) < 1 ⇔ x ∈ X ◦ (d) µ( x, − X ) = 1 − µ( x, X ) (e) µ( x, X ∪ Y ) ≥ µ( x, X ) ∨ µ( x, Y ) (f) µ( x, X ∩ Y ) ≤ µ( x, X ) ∧ µ( x, Y ) Beweis: (a) 1 = µ( x, X ) = |[ x ]∩ X | |[ x ]| ⇔ [ x ] ∩ X = [ x ] ⇔ [ x ] ⊆ X ⇔ x ∈ X∗ (b) 0 = µ( x, X ) = |[ x ]∩ X | |[ x ]| ⇔ [ x ] ∩ X = ∅ ⇔ ¬( x ∈ X ∗ ) ⇔ x ∈ − X ∗ (c) 0 < µ( x, X ) < 1 ⇔ x ∈ / X∗ ∧ x 6 ∈ − X ∗ ⇔ x ∈ X ◦ |[ x ]∩− X | |[ x ]| (d) µ( x, − X ) = = 1 − µ( x, X ) = |[ x ]\ X | |[ x ]| = |[ x ]−([ x ]∩ X )| |[ x ]| = 1− |[ x ]∩ X | |[ x ]| (e) [ x ] ∩ ( X ∪ Y ) = ([ x ] ∩ X ) ∪ ([ x ] ∩ Y ) ⇒ |[ x ] ∩ ( X ∪ Y )| ≥ |[ x ] ∩ X | ∨ |[ x ] ∩ Y | ⇒ µ( x, X ∪ Y ) ≥ µ( x, X ) ∨ µ( x, Y ) (f) [ x ] ∩ ( X ∩ Y ) = ([ x ] ∩ X ) ∩ ([ x ] ∩ Y ) ⇒ |[ x ] ∩ ( X ∩ Y )| ≤ |[ x ] ∩ X | ∧ |[ x ] ∩ Y | ⇒ µ( x, X ∩ Y ) ≤ µ( x, X ) ∧ µ( x, Y )) 6 1.2 Allgemeiner Approximationsraum 1.2 Allgemeiner Approximationsraum Definition 1.7 (allgemeiner Approximationsraum) Ein allgemeiner Approximationsraum (engl. generalized approximation space) ist ein Tupel hU, N, νi. Dabei ist N : U → ℘(U ) eine Abbildung, N ( x ) heißt Nachbarschaft (engl. neighborhood) von x, und ν : ℘(U ) × ℘(U ) → R ist eine Abbildung, sie heißt Inklusionsfunktion (engl. inclusion function). ν( X, Y ) misst den Grad der Inklusion von X in Y. Die untere Approximation einer Menge X ⊆ U definieren wir nun als X∗ : = { x ∈ U | ν ( N ( x ), X ) = 1} und die obere Approximation als X ∗ : = { x ∈ U | ν ( N ( x ), X ) > 0}. Für einen Approximationsraum hU, ≈i ist beispielsweise N : x 7→ [ x ]≈ eine Nachbarschaftsfunktion, und analog ist für ein Informationssystem hU, Ai stets N : x 7→ [ x ] B für B ⊆ A eine geeignete Nachbarschaftsfunktion. Sei F eine Menge von Formeln, und für ϕ ∈ F bezeichne k ϕk die Menge aller Objekte, für die ϕ gilt bzw. wahr ist. Wir setzen F ( x ) := { ϕ ∈ S F | x ∈ k ϕk}, dann ist N : x 7→ ϕ∈F (x) k ϕk eine entsprechende Nachbarschaftsfunktion. Eine geeignete Inklusionsfunktion ist stets ( | X ∩Y | ( X 6= ∅) |X| ν : ( X, Y ) 7→ , 1 ( X = ∅) denn dann gilt ν( X, Y ) = 1 ⇔ X ⊆ Y und ν( X, Y ) > 0 ⇔ X ∩ Y 6= ∅. Noch allgemeiner kann N : U → ℘(℘(U )) eine Abbildung sein, die jedem Objekt eine Menge von Nachbarschaften zuordnet. Die untere Approximation ist dann X∗ := { x ∈ U | ∃Y ∈ N ( x ) : ν(Y, X ) = 1} und X ∗ := { x ∈ U | ∀Y ∈ N ( x ) : ν(Y, X ) > 0} ist die obere Approximation von X ⊆ U. Ein Beispiel für eine solche Abbildung N : U → ℘(℘(U )) findet man für 7 1 Approximation eine Topologie τ auf U als Abbildung, die jedem Objekt x die Menge aller Umgebungen von x bezüglich τ zuordnet, also N = U : x → { X | X ⊆ U ∧ ∃O ∈ τ : x ∈ O ⊆ X }. Im topologischen Fall ist die untere Approximation gerade das Innere von X und die obere Approximation ergibt den Abschluss von X. Insbesondere sind also genau diejenigen Teilmengen des Universums unexakt, die weder offen noch abgeschlossen bezüglich der Topologie sind. 8 2 Information 2.1 Informationssystem Definition 2.1 (Informationssystem) Seien U und A endliche nicht-leere Mengen sowie V := {Va | a ∈ A} eine Menge von endlichen nicht-leeren Mengen. U heißt Universum (engl. universe) und die Elemente heißen Objekte (engl. object), die Elemente von A heißen Attribute (engl. attribute) und sind Abbildungen A : U → Va , die Elemente von Va heißen Werte (engl. value) zum Attribut a. Dann heißt hU, Ai Informationssystem (engl. information system). Bemerkung: Eine Teilmenge B ⊆ A erzeugt eine binäre Relation ≈ B auf U, genannt B-Ununterscheidbarkeitsrelation (engl. indiscernibility relation), vermöge x ≈ B y :⇔ a( x ) = a(y) ∀ a ∈ B. Offensichtlich ist ≈ B eine Äquivalenzrelation und wir schreiben auch U/B := U/ ≈ B und [ x ] B := [ x ]≈B . Für ein Informationssystem hU, Ai ist hU, ≈ B i für alle Teilmengen B von A ein Approximationsraum. Umgekehrt ist für einen Approximationsraum hU, ≈i nun hU, { x 7→ [ x ]≈ }i ein Informationssystem. Daher sind die im vorigen Abschnitt definierte Begriffe auch in Informationssystemen verfügbar. Für die Approximationen von hU, ≈ B i schreiben wir XB und X B . Jedes Informationssystem hU, Ai ist ein mehrwertiger Kontext hU, A, V, I i mit ( x, a, v) ∈ I :⇔ a( x ) = v. Umgekehrt ist jeder mehrwertige Kontext h G, M, W, I i Informationssystem h G, Mi mit m( g) = w :⇔ ( g, m, w) ∈ I. S Für ein Objekt x ∈ U bezeichnen wir die Menge SigB ( x ) := {( a, a( x )) | a ∈ B} auch als B-Signatur (engl. signature) von x, dann sind zwei Objekt genau dann B-ununterscheidbar, wenn ihre B-Signaturen übereinstimmen, d.h. es gilt x ≈ B y ⇔ SigB ( x ) = SigB (y) für alle x, y ∈ U. 9 2 Information 2.2 Redukt & Kern In diesem Abschnitt schreiben wir ≈ für die A-Ununterscheidbarkeitsrelation. Definition 2.2 (Redukt, Kern) Für ein Informationssystem hU, Ai heißt eine Attributmenge B ⊆ A Redukt (engl. reduct) von A, wenn B die gleiche Ununterscheidbarkeit erzeugt wie A, also falls ≈ B = ≈ gilt. Falls B minimal bezüglich der Teilmengeninklusion ist, so heißt B Primredukt. Für die Menge aller Redukte von A schreiben wir auch Red( A) und analog PRed( A) für die Menge der Primredukte. Den Durchschnitt aller Redukte Ker( A) := \ Red( A) nennen wir Kern (engl. core). T T Es gilt Ker( A) = Red( A) = PRed( A). Im Folgenden zeigen wir eine allgemeine Möglichkeit zur Bestimmung der Redukte eines Informationssystems. Dafür definieren wir die Unterscheidbarkeitsmatrix (engl. discernibility matrix) als Matrix, die in Zeile x ∈ U und Spalte y ∈ U die Menge aller Attribute aus A hat, bezüglich derer sich x und y unterscheiden. Wir setzen also A xy := { a ∈ A | a( x ) 6= a(y)} und damit Mat( A) := ( A xy ) x,y∈U ∈ ℘( A)U ×U . Diese Matrix ist symmetrisch, denn es gilt stets A xy = Ayx , und für alle ununterscheidbaren Objekte x ≈ y gilt A xy = ∅, also sind insbesondere alle Einträge A xx der Hauptdiagonale ∅. Die Potenzmengenalgebra ℘( A) ist isomorph zur booleschen Algebra {0, 1} A vermöge der Abbildung B 7→ B0 := ( a0 ) a∈ A mit a0 = 1 für a ∈ B und a0 = 0 sonst bzw. ( a0 ) a∈ A 7→ { a ∈ A | a0 = 1}. Insbesondere ist A0 = (1) a∈ A und ∅0 = (0) a∈ A . Definition 2.3 (Unterscheidbarkeitsfunktion) Die boolesche Funktion {0, 1} A → {0, 1} f A : ( a0 ) a∈ A 7 → ^ _ a0 x 6≈y a∈ A xy heißt Unterscheidbarkeitsfunktion (engl. discernibility function). 10 2.2 Redukt & Kern Es ist leicht zu sehen, dass f A ( A0 ) = 1 gilt, denn für jedes unterscheidbare Paar von Objekten muss es ein Attribut geben, dass sie unterscheidet. Für V W B0 ⊆ B gilt f A ( B00 ) ≤ f A ( B0 ). Der boolesche Term x6≈y a∈ Axy a0 ist in konjunktiver Normalform. Bemerkung: Haben wir eine totale Striktordnung < der Objekte in U gegeben, dann setzen wir ≺ := < ∩ 6≈ und können damit den booleschen Term auf seine halbe Länge kürzen zu f A (( a0 ) a∈ A ) = ^ a0 , _ x ≺y a∈ A xy denn es gilt stets A xy = Ayx . Lemma 2.4 B ist Redukt von A genau dann, wenn f A ( B0 ) = 1 gilt. Beweis: Es gilt stets ≈ ⊆ ≈ B wegen B ⊆ A. Weiter haben wir B ∈ Red( A) ⇐⇒ 6≈ ⊆ 6≈ B ⇐⇒ ∀ x 6≈ y ∃ a ∈ A xy : a ∈ B ⇐⇒ ∀ x 6≈ y ∃ a ∈ A xy : a0 = 1 ^ ⇐⇒ a0 = 1 _ x 6≈y a∈ A xy ⇐⇒ f A ( B0 ) = 1 für jede Attributmenge B ⊆ A. Eine Attributmenge B ist ein Primredukt von A genau dann, wenn f A ( B0 ) = 1 und für alle echten Teilmengen B0 B stets f A ( B00 ) = 0 ist. Das folgende Lemma zeigt, dass wir jeden booleschen Term in konjunktiver Normalform auch in disjunktiver Normalform darstellen können. Lemma 2.5 Es gilt ^ _ xiji = i ∈ I ji ∈ Ji j∈ _ ^ × ∈ Ji i ∈ I i I × xiji , dabei ist i ∈ I Ji : = { j : I → i ∈ I Ji | ∀i ∈ I : ji ∈ Ji } das kartesische Produkt. Ein Element j ∈ i ∈ I Ji ist eine Auswahlfunktion, die jedem i ∈ I ein Element der Menge Ji zuordnet. S × 11 2 Information Beweis: Es gelten folgende äquivalente Umformungen: ^ _ xiji = 1 ⇐⇒ ∀i ∈ I ∃ ji ∈ Ji : xiji = 1 i ∈ I ji ∈ Ji ⇐⇒ ∃ j ∈ × J ∀i ∈ I : x i i∈ I ⇐⇒ j∈ _ ^ × ∈ Ji i ∈ I i I iji =1 xiji = 1 Definition 2.6 (Implikant) Ein Literal ist eine Variable xi oder eine negierte Variable ¬ xi . Ein Konjunktionsterm k von Literalen bzw. eine boolesche Funktion {0, 1} I → {0, 1} k : ( x ) 7→ i i∈ I ^ yi i∈ J mit J ⊆ I und yi ∈ { xi , ¬ xi } heißt Implikant (engl. implicant) der Funktion f : {0, 1} I → {0, 1}, falls für alle x ∈ {0, 1} I aus k( x ) = 1 stets f ( x ) = 1 folgt. Wir sagen auch k impliziert f und schreiben k ⇒ f . Ein Implikant heißt Primimplikant von f , wenn es keinen Implikanten h 6= k von f gibt, der von k impliziert wird, d.h. falls @h 6= k : k ⇒ h ⇒ f . Wir legen fest, dass Imp( f ) die Menge aller Implikanten von f ist und entsprechend ist PImp( f ) die Menge der Primimplikanten. Ein Implikant ist Primimplikant, wenn der Konjunktionsterm eine minimale Anzahl von Literalen enthält, d.h. falls aus dem Konjunktionsterm kein Literal entfernt werden kann, ohne dass er seine Eigenschaft Implikant zu sein, verliert. In der disjunktiven Normalform sind alle Konjunktionsterme Implikanten und wir können jede boolesche Funktion als Disjunktion ihrer (Prim-)implikanten darstellen. Es gibt verschiedene Verfahren zur Bestimmung der (Prim-)implikanten einer booleschen Funktion. Hier sind einige Beispiele: • Algebraische Verfahren: Anwendung der Rechengesetze von Booleschen Algebren, Nelson-Verfahren • Graphische Verfahren: Karnaugh-Veitch-Diagramme • Tabellarische Verfahren: Quine-McCluskey-Verfahren, Konsensus-Verfahren 12 2.2 Redukt & Kern Lemma 2.7 Die Menge der Implikanten von f A ist genau die Menge der booleschen Funktionen {0, 1} A → {0, 1} 0 β : ( a0 ) a∈ A 7 → ^ β0xy x 6≈y für Abbildungen β ∈ ×x6≈y Axy . Beweis: Nach Lemma 2.5 folgt f A ( B0 ) = ^ a0 = _ x 6≈y a∈ A xy _ β∈ × A 6≈ x y also β∈ × A 6≈ x y Für β ∈ xy β0xy , x 6≈y β0 . _ fA = ^ xy ×x6≈y Axy gilt stets β0 (B0 ) ≤ f A (B0 ) für B ⊆ A, also β0 ⇒ f A . Für B0 ⊆ B gilt β0 ( B00 ) ≤ β0 ( B0 ). Für einen Primimplikant β0 hat die zugehörige Abbildung β (die nicht notwendig eindeutig ist) ein minimales Bild imβ, d.h. es gibt keinen Implikanten β00 von f A mit imβ 0 imβ. Lemma 2.8 Es gilt β0 ( B0 ) = 1 genau dann, wenn β ∈ ×( Axy ∩ B). x 6≈y Beweis: Wir wissen, dass β0 ( B0 ) = 1 genau dann gilt, wenn für alle unterscheidbaren Objekte x 6≈ y stets β0xy = 1 ist. Das ist äquivalent dazu, dass jedes Attribut β xy in A xy ∩ B liegt. Insbesondere gilt also für β0 ( B0 ) = 1 stets imβ ⊆ B. Satz 2.9 Für jeden Implikant β0 von f A ist das Bild imβ ein Redukt von A. Falls β0 ein Primimplikant ist, so ist imβ ein Primredukt. × 0 Beweis: Für jede Abbildung β ∈ x 6≈y A xy gilt f A ((imβ ) ) = 1 und damit ist imβ ein Redukt nach Lemma 2.4. Falls β0 ein Primimplikant ist, dann gibt es keinen Implikant β00 von f A mit imβ 0 imβ, d.h. für alle B0 imβ gibt es keinen Implikant β00 von f A mit β00 ( B00 ) = 1. Also gilt für alle B0 imβ immer f A ( B00 ) = 0 und somit existiert kein Redukt B0 mit B0 imβ. 13 2 Information Falls B ein Primredukt von A ist, dann gilt für einen Implikant β0 von f A mit β0 ( B0 ) = 1 immer imβ = B. Da nach obigen Satz imβ stets ein Redukt ist, würde imβ B im Widerspruch zur Minimalität von B stehen. Satz 2.10 Ein B ist Redukt von A genau dann, wenn ein Implikant β0 von f A mit imβ ⊆ B existiert. Weiter ist B ein Primredukt von A genau dann, wenn ein Primimplikant β0 von f A mit imβ = B existiert. Beweis: Eine Attributmenge B ⊆ A ist nach Lemma 2.4 genau dann ein Redukt, wenn f A ( B0 ) = 1 ist. Nach Lemma 2.7 ist das genau dann der Fall, wenn es eine Abbildung β ∈ x 6≈y A xy gibt, die jedem unterscheidbaren Objektpaar x 6≈ y ein Attribut β xy zuordnet, das sie unterscheidet, sodass β0 ( B0 ) = 1 ist. Das ist nach Lemma 2.8 äquivalent dazu, dass β0 ein Implikant von f A mit β ∈ x 6≈y ( A xy ∩ B ) ist. × × 2.4 B ∈ Red( A) ⇐⇒ f ( B0 ) = 1 2.7 ⇐⇒ ∃ β ∈ ×A xy : β0 ( B0 ) = 1 x 6≈y 2.8 ⇐⇒ ∃ β0 ∈ Imp( f A ) : imβ ⊆ B Weiter ist B genau dann ein Primredukt, wenn B ein Redukt ist und es kein Redukt B0 B gibt. Das ist nach dem ersten Teil äquivalent dazu, dass ein Implikant β0 von f A mit imβ ⊆ B existiert und es keinen Implikant β00 von f A mit imβ 0 B gibt. Weil B ein Primredukt ist, gilt imβ = B und damit ist β0 ein Primimplikant von f A . B ∈ PRed( A) ⇐⇒ B ∈ Red( A) ∧ ∀ B0 B : B0 6∈ Red( A) 0 ⇐⇒ ∃ β ∈ Imp( f A ) : imβ ⊆ B ∧ 6 ∃ β00 ∈ Imp( f A ) : imβ 0 0 ⇐⇒ ∃ β ∈ PImp( f A ) : imβ = B Umgekehrt sei β0 Primimplikant von f A , dann ist β0 insbesondere ein Implikant von f A und es gibt keinen Implikant β00 von f A mit imβ 0 imβ = B. Korollar 2.11 Jeder Implikant von f A bestimmt vermöge der Abbildung ρ: Imp( f A ) → Red( A) β0 7→ imβ ein Redukt von A und jeder Primimplikant erzeugt ein Primredukt. Die Zuordnung ρ ist surjektiv, die Menge der Implikanten bestimmt also die Menge der Redukte vollständig. Weiter ist ρ(PImp( f A )) = PRed( A). 14 B 2.2 Redukt & Kern Definition 2.12 (Reduktion) Für ein Redukt B von A ist hU/B, Bi mit a([ x ] B ) := a( x ) für alle a ∈ B, x ∈ U ein Informationssystem und heißt B-Reduktion von hU, Ai. In einer Reduktion werden ununterscheidbare Objekte in Mengen zusammengefasst und die Anzahl der Attribute reduziert. Bemerkung: Wir können die Primredukte von A ermitteln, indem wir die Primimplikanten von f A suchen. Dies kann formal dadurch geschehen, dass wir den Term ^ _ a0 x 6≈y a∈ A xy in eine minimale disjunktive Normalform _^ a0 umformen, indem die Rechengesetze in Booleschen Algebren (z.B. Distributivgesetz, Absorptionsgesetz, etc.) so oft wie möglich angewandt werV den. Die Konjunktionsterme a0 definieren dann alle Primimplikanten. Beispiel: Gegeben sei ein Informationssystem hU, Ai mit den Objekten U = {Auto1, Auto2, Auto3} und den Attributen A = {Motor, Farbe, Türen}, deren Werte in der folgenden Tabelle notiert sind. Auto1 Auto2 Auto3 Motor Otto Otto Diesel Farbe grün gelb blau Türen vier zwei vier Es ergibt sich die Unterscheidbarkeitsmatrix Auto1 Auto2 Auto3 Auto1 ∅ {Farbe, Türen} {Motor, Farbe} Auto2 {Farbe, Türen} ∅ {Motor, Farbe, Türen} Auto3 {Motor, Farbe} {Motor, Farbe, Türen} ∅ und damit haben wir für Auto1 ≺ Auto2 ≺ Auto3 nun die Unterscheidbarkeitsfunktion f A = (Farbe0 ∨ Türen0 ) ∧ (Motor0 ∨ Farbe0 ) ∧ (Motor0 ∨ Farbe0 ∨ Türen0 ) = (Farbe0 ∨ Türen0 ) ∧ (Farbe0 ∨ Motor0 ) = Farbe0 ∨ (Motor0 ∧ Türen0 ) 15 2 Information mit den Primimplikanten Farbe0 und Motor0 ∧ Türen0 . Damit haben wir also die beiden Primredukte {Farbe} und {Motor, Türen}. Die {Farbe}Reduktion ergibt sich zu {Auto1} {Auto2} {Auto3} Farbe grün gelb blau × Bemerkung: Sei | 6≈ | > | A| und A6≈ := x 6 ≈ y A = { β : 6 ≈ → A }. 6 ≈ Wir definieren auf A eine Quasiordnung vermöge β 1 v β 2 :⇔ β 1 (6≈ ) ⊆ β 2 (6≈) und dann ist ≡ := v ∩ w eine Äquivalenzrelation, nach der wir A6≈ faktorisieren zu der geordneten Menge h A6≈ / ≡, vi. Dann ist h A6≈ / ≡ ∪{∅}, vi mit ∀ X ∈ A6≈ / ≡ : ∅ v X ein vollständiger Verband. W Das Supremum ist gegeben durch ∅ ∨ [ β]≡ = [ β]≡ und i∈ I [ β i ]≡ = [ β]≡ S V mit βT(6≈) = i∈ I β i (6≈) und das Infimum ist T i∈ I [ β i ]≡ = [ β]≡ für β(6≈ V ) = i∈ I β i (6≈) 6= ∅ und i∈ I [ β i ]≡ = ∅ für i∈ I β i (6≈) = ∅. Die Menge der β aller Implikanten β0 von f A faktorisiert nach ≡ bildet einen zu einem vollständigen Supremumunterhalbverband des eben definierten vollständigen Verbands isomorphen Supremumhalbverband. Die Menge der β aller Primimplikanten β0 faktorisiert nach ≡ bildet eine maximale Antikette. Analog ist die Potenzmenge von A mit der Teilmengeninklusion ein vollständiger Verband, in dem die Menge der Redukte von A einen vollständigen Supremumunterhalbverband bildet. Die Menge der Primredukte von A ist eine maximale Antikette. Diese Strukturen sind isomorph zu den obigen. 16 3 Entscheidung 3.1 Entscheidungssystem Definition 3.1 (Entscheidungssystem) Sei hU, Ai ein Informationssystem mit einer Partition {C, D } der Attributmenge A, die Attribute aus C heißen Bedingungen (engl. condition) und die aus D bezeichnen wir als Entscheidungen (engl. decision). hU, C, D i heißt Entscheidungssystem (engl. decision system). Definition 3.2 (Formel) Sei B ⊆ C ] D. Ein Ausdruck der Form a = v mit a ∈ B, v ∈ Va wird als Deskriptor (engl. descriptor) oder Selektor (engl. selector) über B und V bezeichnet. Die Menge F ( B, V ) von Formeln über B und V wird nun induktiv aufgebaut: Jeder Deskriptor über B und V ist eine Formel über B und V. Für zwei Formeln über B und V sind auch deren Konjunktion, Disjunktion und Negation stets Formeln über B und V. Formal legen wir also fest: (i) (ii) (iii) (iv) a ∈ B, v ∈ Va ⇒ ( a = v) ∈ F ( B, V ) ϕ, ψ ∈ F ( B, V ) ⇒ ( ϕ ∧ ψ) ∈ F ( B, V ) ϕ, ψ ∈ F ( B, V ) ⇒ ( ϕ ∨ ψ) ∈ F ( B, V ) ϕ ∈ F ( B, V ) ⇒ (¬ ϕ) ∈ F ( B, V ) Mit k ϕk beschreiben wir die Bedeutung der Formel ϕ als Menge derjenigen Objekte, die die Eigenschaft ϕ haben, d.h. für die ϕ wahr ist. Diese Mengen werden entsprechend dem Aufbau der Menge der Formeln auch induktiv aufgebaut: (i) (ii) (iii) (iv) k a = v k : = { x ∈ U | a ( x ) = v } = a −1 ( v ) k ϕ ∧ ψk := k ϕk ∩ kψk k ϕ ∨ ψk := k ϕk ∪ kψk k¬ ϕk := −k ϕk 17 3 Entscheidung Die Elemente von F (C, V ) heißenVBedingungsformeln. Jedes Objekt x ∈ U gehört zu der Bedingungsklasse k c∈C c = c( x )k. Die Menge aller Bedingungsklassen bildet eine Partition von U, nämlich U/C. Ein Objekt y ∈ U V gehört zu der Bedingungsklasse k c∈CVc = c( x )k genau dann, wenn x und y C-ununterscheidbar sind, d.h. k c∈C c = c( x )k = [ x ]C . Analog heißen Formeln ausVF ( D, V ) Entscheidungsformeln. Die Menge aller Entscheidungsklassen k d∈ D d = d( x )k ist die Partition U/D von U. Es gilt V V y ∈ k d∈ D d = d( x )k ⇔ x ≈ D y, also k d∈ D d = d( x )k = [ x ] D . 3.2 Konsistenz Definition 3.3 (Entscheidungsregel) Für Formeln ϕ ∈ F (C, V ) und ψ ∈ F ( D, V ) heißt ϕ⇒ψ Entscheidungsregel (engl. decision rule). Wir nennen ϕ Vorgänger (engl. predecessor) und ψ Nachfolger (engl. successor) der Entscheidungsregel ϕ ⇒ ψ Eine Entscheidungsregel ϕ ⇒ ψ heißt wahr, wenn ψ wahr ist für alle Objekte, für die bereits ϕ wahr ist, d.h. falls k ϕk ⊆ kψk gilt. Oft werden Entscheidungsregeln auch als wenn-dann-Regeln (engl. if then rules) bezeichnet. Jedes Objekt x ∈ U bestimmt eine Entscheidungsregel ! ! ^ c = c( x ) c∈C ^ ⇒ d = d( x ) . d∈ D Diese ist wahr genau dann, wenn [ x ]C ⊆ [ x ] D gilt, d.h. wenn für jedes Objekt y ∈ U, für das x, y ununterscheidbar bezüglich C sind, stets x, y auch D-ununterscheidbar sind. Definition 3.4 (Konsistenz) Wir definieren die sogenannte Entscheidungsfunktion ×V ) x 7→ {v ∈ × V | ∃y ∈ U : y ≈ U → ℘( δCD : d d∈ D d C x ∧ ∀ d ∈ D : d ( y ) = v d }. d∈ D Das Entscheidungssystem hU, C, D i heißt konsistent, wenn δCD ( x ) für alle x ∈ U einelementig ist; andernfalls heißt hU, C, D i inkonsistent. 18 3.2 Konsistenz Ein konsistentes Entscheidungssystem heißt auch deterministisch. Lemma 3.5 hU, C, D i ist konsistent genau dann, wenn für jedes Objekt V V x ∈ U die Entscheidungsregel c∈C c = c( x ) ⇒ d∈ D d = d( x ) wahr ist. Beweis: hU, C, D i ist konsistent genau dann, wenn δCD ( x ) = {v ∈ × V | ∃y ∈ U : y ≈ d C x ∧ ∀d ∈ D : d(y) = vd } d∈ D für alle Objekte x ∈ U einelementig ist. Da x und x stets C-ununterscheidbar sind, gilt (d( x ))d∈ D ∈ δCD ( x ). Damit ist also δCD ( x ) für alle x ∈ U einelementig genau dann, wenn für jedes Objekt y ∈ U, für das x, y Cununterscheidbar sind, stets x, y auch D-ununterscheidbar sind. Ein Entscheidungssystem hU, C, D i ist nach obigem Lemma konsistent genau dann, wenn ≈C ⊆ ≈ D gilt, also wenn die Partition U/C feiner als U/D ist. Wenn die Entscheidungen in D vollständig von den Bedingungen in C abhängen, d.h. wenn die Werte der Bedingungen in C die Werte der Entscheidungen in D eindeutig bestimmen, dann schreiben wir auch C ⇒ D. Also hängt D vollständig von C ab, wenn es einen funktionalen Zusammenhang zwischen den Werten der Elemente von C und D gibt. Formal definieren wir nun die (partielle) Abhängigkeit. Definition 3.6 (partielle Abhängigkeit) Wir setzen Pos(C, D ) := [ XC X ∈U/D als den positiven Bereich der Partition U/D bezüglich C. Nun heißt D abhängig von C zum Grad k, falls k = γ(C, D ) := |Pos(C, D )| |U | gilt, und wir schreiben dafür auch C ⇒k D. Für k = 1 ist D vollständig abhängig von C, symbolisch auch schlichtweg C ⇒ D geschrieben. Für k < 1 nennen wir D partiell abhängig von C zum Grad k. 19 3 Entscheidung Der positive Bereich ist die Vereinigung aller unteren C-Approximationen von D-elementaren Mengen, daher enthält Pos(C, D ) alle Objekte, die bezüglich C sichere Objekte von Klassen der Partition U/D sind. Es ist S Pos(C, D ) = x∈U ([ x ] D )C . Lemma 3.7 Ein Entscheidungssystem hU, C, D i ist konsistent genau dann, wenn C ⇒ D gilt. Beweis: Sei hU, C, D i konsistent. Für x ∈ U gilt x ∈ [ x ]C und [ x ]C ⊆ [ x ] D . Damit liegt x auch in der Vereinigung derjenigen C-elementaren Mengen, die in [ x ] D als Teilmenge enthalten sind. Diese Vereinigung ist nichts anderes als ([ x ] D )C und [ x ] D ∈ U/D, also liegt x im positiven Bereich Pos(C, D ). Umgekehrt sei nun Pos(C, D ) = U. Angenommen, hU, C, D i wäre nicht konsistent, es gäbe also ein Objekt x ∈ U mit [ x ]C 6⊆ [ x ] D , dann läge x jedoch nicht in Pos(C, D ). Widerspruch! 3.3 Redukt & Kern Definition 3.8 (Redukt, Kern) Eine Attributmenge B ⊆ C heißt D-(Prim-)Redukt oder entscheidungsabhängiges (Prim-)Redukt (engl. decision-relative reduct) von C, falls B eine (minimale) Teilmenge von C mit γ( B, D ) = γ(C, D ) oder δBD = δCD ist. Für die Menge aller D-Redukte von C schreiben wir auch Red(C, D ) und analog PRed(C, D ) für die Menge der Primredukte. Den Durchschnitt aller D-Redukte von C Ker(C, D ) := \ Red(C, D ) bezeichnen wir auch als den D-Kern (engl. core) von C. Der D-Kern von C ist in allen D-Redukten von C enthalten, also enthält er die „wichtigen“ Bedingungen, deren Entfernen stets eine Verkleinerung des positiven Bereichs, also eine Verminderung des Klassifikationsvermögens, bewirken. Zur Bestimmung von entscheidungsabhängigen Redukten gehen wir ähnlich wie bei der Bestimmung der Redukte von Informationssystemen vor. Dazu sei hU, C, D i ein konsistentes Entscheidungssystem und Mat(C ) sei die Unterscheidbarkeitsmatrix von hU, C i. Wir konstruieren eine entscheidungsabhängige Unterscheidbarkeitsmatrix (engl. decision-relative discerni- 20 3.3 Redukt & Kern D) bility matrix) Mat(C, D ) := (Cxy x,y∈U mit ( ∅ ( x ≈ D y) D Cxy := Cxy ( x 6≈ D y). Analog definieren wir wieder eine entscheidungsabhängige Unterscheidbarkeitsfunktion (engl. decision-relative discernibility function) vermöge f CD ((c0 )c∈C ) := c0 ^ _ x 6 ≈C y x 6≈ D y D c∈Cxy und erhalten die Menge der entscheidungsabhängigen (Prim-)redukte aus den (Prim-)implikanten der Funktion f CD . Beispiel: Wir erweitern das vorige Beispiel eines Informationssystems zu einem Entscheidungssystem hU, C, D i mit den Objekten U = {Auto1, Auto2, Auto3}, den Bedingungen C = {Motor, Farbe, Türen} und einer Entscheidung D = {Fahren}. Auto1 Auto2 Auto3 Motor Otto Otto Diesel Farbe grün gelb blau Türen vier zwei vier Fahren nein nein ja Es ergibt sich die entscheidungsabhängige Unterscheidbarkeitsmatrix Auto1 Auto2 Auto3 Auto1 ∅ ∅ {Motor, Farbe} Auto2 ∅ ∅ {Motor, Farbe, Türen} Auto3 {Motor, Farbe} {Motor, Farbe, Türen} ∅ und damit haben wir für Auto1 ≺ Auto2 ≺ Auto3 nun die entscheidungsabhängige Unterscheidbarkeitsfunktion f CD = (Motor0 ∨ Farbe0 ) ∧ (Motor0 ∨ Farbe0 ∨ Türen0 ) = Motor0 ∨ Farbe0 mit den Primimplikanten Motor0 und Farbe0 . Damit haben wir also die beiden entscheidungsabhängigen Primredukte {Motor} und {Farbe}. Die {Motor}-Reduktion ergibt sich zu {Auto1, Auto2} {Auto3} Motor Otto Diesel Fahren nein ja 21 3 Entscheidung 3.4 Attributselektion In vielen Fällen sind die Attribute in Entscheidungssystemen redundant, das heißt wir können Attribute entfernen, ohne dabei das Klassifikationsvermögen zu verringern. Das Attributauswahlproblem (engl. attribute selection problem) ist das Problem der Auswahl einer ausreichenden Attributmenge, während die unwichtigen Attribute entfernt werden. Dazu eignet sich zuallererst natürlich der Kern eines Entscheidungssystems, denn die Attribute im Kern liegen in allen Redukten, und sind somit zur Aufrechterhaltung der maximalen Klassifikationsfähigkeit unbedingt nötig. Es kann allerdings vorkommen, dass der Kern leer ist. Um das Attributauswahlproblem zu lösen, benötigen wir den Begriff eines approximativen Redukts. Für ein konsistentes Entscheidungssystem hU, C, {d}i heißt jede Bedingungsmenge B ⊆ C approximatives Redukt von C (engl. approximate reduct). Die Abbildung {d} εC : ℘(C ) → R γ(C, {d}) − γ( B, {d}) γ( B, {d}) B 7→ = 1− γ(C, {d}) γ(C, {d}) misst den Fehler der Reduktapproximation. Der Reduktapproximationsfehler gibt an, wie gut die Bedingungen aus B die Bedingungen aus C {d} unter Berücksichtigung der Entscheidung d annähern. Der Fehler ε C ( B) {d} liegt stets im reellen Interval [0, 1], wobei ε C ( B) = 0 genau dann gilt, wenn B ein Redukt ist. Ausgehend vom Kern können wir nun eine endliche Folge ( Bn )kn=0 minimaler Länge von Attributmengen Bn mit B0 := Ker(C, {d}) und Bn+1 := Bn ∪ {c} für c 6∈ Bn finden, in der der Reduktapproximationsfehler immer kleiner wird, und schließlich 0 erreicht. {d} {d} {d} 1 ≥ ε C ( B0 ) > ε C ( B1 ) > · · · > ε C ( Bk ) = 0 Dann ist Bk ein geeignetes Primredukt. Betrachten wir das Attributauswahlproblem von der anderen Seite. Dazu nehmen wir die Menge C aller Entscheidungen und reduzieren diese schrittweise. Dazu benötigen wir den Begriff der Attributsignifikanz, der die “Wichtigkeit„ von Attributen angibt, indem der Effekt des Attributentfernens gemessen wird. Die Attributsignifikanz einer Bedingung c ∈ 22 3.5 Wertemengenreduktion {d} C eines Entscheidungssystems hU, C, {d}i ist definiert als Wert σC ({c}) der Abbildung {d} σC : ℘(C ) → R γ(C − B, {d}) γ(C, {d}) − γ(C − B, {d}) = 1− . B 7→ γ(C, {d}) γ(C, {d}) {d} Der Koeffizient σC ( B) gibt den Klassifikationsfehler an, der nach dem {d} Entfernen der Bedingungen aus C auftritt. Der Wert σC ( B) liegt im Intervall [0, 1] und ist 0, wenn kein Fehler auftritt. Nun können wir eine endliche Folge ( Bn )kn=0 maximaler Länge von Attributmengen Bn mit B0 := C und Bn+1 := Bn − {c} für c ∈ Bn finden, in der die Attributsignifikanz der entfernten Bedingungen stets 0 ist. {d} {d} {d} σB0 ( B0 − B1 ) = σB1 ( B1 − B2 ) = · · · = σB k −1 ( Bk−1 − Bk ) = 0 Dann ist Bk ein geeignetes Primredukt. 3.5 Wertemengenreduktion In einem Entscheidungssystem mit einer großen Anzahl an Werten für die einzelnen Attribute wird es selten der Fall sein, dass die Signatur eines neuen Objekts mit der Signatur eines vorhandenen Objekts genau übereinstimmt, d.h. die beiden Objekte als ununterscheidbar erkannt werden. Um also ein gutes Klassifikationsvermögen zu erreichen, ist er nötig die Anzahl der möglichen Werten für die einzelnen Attribute zu verringern. Dieses Problem nennen wir auch das Wertemengenreduktionsproblem (engl. value set reduction problem). Es gibt mindestens zwei Methoden zur Lösung dieses Problems. Einerseits kann für reellwertige Attribute eine Diskretisierung der Wertemenge vorgenommen werden, d.h. einem Intervalle wird eine endliche Menge mit Zahlen aus dem Intervall zugeordnet. Das Verfahren wird hier nicht vorgestellt; der interessierte Leser findet es in [3]. Andererseits ist es auch für Attribute mit Symbolen als Werte möglich, die Mächtigkeit der Wertemengen zu verringern. Die Gruppierung von symbolischen Attributwerten (engl. symbolic attribute value grouping) ist ein geeignetes Verfahren und soll nun vorgestellt werden. Sei hU, C, {d}i ein Entscheidungssystem. Für ein Attribut c ∈ C heißt eine Funktion gc : Vc → {1, . . . , m} mit m ≤ |Vc | Gruppierungsfunktion (engl. 23 3 Entscheidung clustering function) für Vc . Der Rang (engl. rank) von gc ist definiert als rang( gc ) := | gc (Vc )|. Der Rang von gc ist die Anzahl der verschiedenen Werte von gc , also insbesondere höchstens m. Für eine Menge B ⊆ C heißt eine Menge { gc | c ∈ B} von Gruppierungsfunktionen B-konsistent, wenn (∀c ∈ B : gc (c( x )) = gc (c(y))) =⇒ x ≈ B y ∨ x ≈{d} y gilt. Eine Menge von Gruppierungsfunktionen ist also B-konsistent, wenn je zwei Objekte, die bezüglich der Werte der Gruppierungsfunktionen für alle Attribute aus B ununterscheidbar sind, auch bezüglich den Attributen aus B oder der Entscheidung d ununterscheidbar sind. Nun betrachten wir das (engl. symbolic value partition grouping problem): Für ein gegebenes Entscheidungssystem hU, C, {d}i und eine Menge B ⊆ C suchen wir eine B-konsistente Menge { gc | c ∈ B} von Gruppierungsfunktionen gc , sodass die Summe der Ränge ∑c∈ B rang( gc ) minimal ist. Um dieses Problem zu lösen, sind die folgenden Schritte möglich. (1) Definiere eine Menge von booleschen Variablen S := {cw v | c ∈ B ∧ v, w ∈ Vc ∧ v <c w } Dabei ist <c eine beliebige lineare Ordnung auf der entsprechenden Wertemenge Vc . (2) Konstruiere eine Matrix M := ( Mxy ) x,y∈U mit Mxy := {cw v ∈ S | v = c ( x ) ∧ w = c ( y ) ∧ d ( x ) 6 = d ( y )} (3) Konstruiere aus der Matrix M die boolesche Funktion ^ _ x,y∈U Mxy 6=∅ cw v ∈ Mxy cw v. Falls die Entscheidung d nur zwei Werte hat, die angenommen werden, dann lässt sich die Matrix auch reduziert darstellen, indem die Objekte, die auf den einen Wert abgebildet werden, als Zeilen gewählt werden, und die Objekte, die den anderen Wert haben, wählt man entsprechend als Spalten. (4) Bestimme den kürzesten Primimplikanten β0 . 24 3.5 Wertemengenreduktion (5) Konstruiere für jedes Attribut c ∈ B den ungerichteten Graphen Γc := hVcΓ , EcΓ i mit der Knotenmenge VcΓ := Vc und der Kantenmenge EcΓ := {(v, w) | cvw ∈ imβ}. (6) Suche eine minimale Knotenfärbung von Γc . Die Färbung definiert eine Partition von VcΓ , indem die Knoten entsprechend ihrer Farbe in Klassen eingeteilt werden. Den Klassen der Partition werden aufeinanderfolgende natürliche Zahlen i zugeordnet. Die Gruppierungsfunktion für das Attribut c ∈ B ergibt sich nun vermöge gc (v) = i, wenn v in der i-ten Klasse der Partition von Vc liegt. Definition 3.9 (Reduktion) Jede Menge g = { gc | c ∈ B} von Gruppierungsfunktionen erzeugt ein reduziertes Entscheidungssystem hU, C g , {d}i mit C g := {c g | c ∈ B} und c g ( x ) := gc (c( x )) für x ∈ U. Wir nennen hU, C g , {d}i die gReduktion von hU, C, {d}i. Beispiel: Betrachten wir nocheinmal das Entscheidungssystem aus dem vorigen Beispiel. Es ergeben sich folgende Schritte: (1) Wir haben die booleschen Variablen gelb blau blau vier S = {MotorDiesel Otto , Farbegrün , Farbegrün , Farbegelb , Türenzwei }. (2) Damit ergibt sich die Matrix Auto1 Auto2 Auto3 Auto1 ∅ ∅ {MotorDiesel Otto , Farbeblau grün } Auto2 ∅ ∅ {MotorDiesel Otto , Farbeblau gelb , Türenvier zwei } Auto3 ∅ ∅ ∅ und diese können wir reduzieren zu Auto3 Auto1 {MotorDiesel Otto , Farbeblau grün } Auto2 {MotorDiesel Otto , Farbeblau gelb , Türenvier zwei } 25 3 Entscheidung (3) Aus der Matrix lesen wir die boolesche Funktion ab: blau Diesel blau vier (MotorDiesel Otto ∨ Farbegrün ) ∧ (MotorOtto ∨ Farbegelb ∨ Türenzwei ) (4) Diese hat den kürzesten Primimplikanten: MotorDiesel Otto (5) Damit haben wir für das Attribut Motor den Graphen ΓMotor : Otto • • Diesel und es ergeben sich gMotor (Otto) = 1 und gMotor (Diesel) = 2. Die übrigen Graphen sind kantenfrei, also ist gFarbe = 1 und gTüren = 1. (6) Die g-Reduktion ergibt sich nun zu: Auto1 Auto2 Auto3 Motorg 1 1 2 Farbeg 1 1 1 Türeng 1 1 1 Fahren nein nein ja Beispiel: Gegeben sei folgendes Entscheidungssystem hU, C, {d}i x1 x2 x3 x4 x5 a ♥ ♠ ♣ ♦ ♦ b M M O M O d 0 0 1 1 1 mit den linearen Ordnungen ♦ < ♥ < ♠ < ♣ und M< O. (1) Wir führen die booleschen Variablen ein: ♠ ♣ ♠ ♣ ♣ O S = { a♥ ♦ , a♦ , a♦ , a♥ , a♥ , a♠ , bM } 26 3.5 Wertemengenreduktion (2) Die Matrix M ergibt sich zu M x1 x2 x1 ∅ ∅ x2 x3 x4 ∅ ∅ { a♥ ♦} ∅ ∅ { a♠ ♦} { a♥ ♦} x5 { a♠ ♦} x3 ♣ O { a♥ , bM } O { a♣ ♠ , bM } x4 x5 ∅ ∅ ∅ ∅ ∅ ∅ ∅ ∅ O} {bM O} {bM ∅ ∅ ∅ Ändern wir nun die lineare Ordnung der Werte von a zu ♥<♠<♣<♦ und entsprechend die booleschen Variablen zu ♣ ♦ ♣ ♦ ♦ O S = { a♠ ♥ , a♥ , a♥ , a♠ , a♠ , a♣ , bM }, dann können wir die Matrix reduzieren zu M x1 x2 x3 ♣ O { a♥ , bM } O { a♣ ♠ , bM } x4 { a♦ ♥} { a♦ ♠} x5 ♦ O { a♥ , bM } O { a♦ ♠ , bM } (3) Damit ergibt sich die boolesche Funktion ♦ ♦ ♣ ♦ ♦ O O O O ( a♣ ♥ ∨ bM ) ∧ a♥ ∧ ( a♥ ∨ bM ) ∧ ( a♠ ∨ bM ) ∧ a♠ ∧ ( a♠ ∨ bM ). (4) Diese hat den kürzesten Primimplikanten ♦ O a♦ ♥ ∧ a♠ ∧ bM . (5) Es ergeben sich folgende Graphen Γa : ♣• •♠ ♥• •♦ Γb : •O •M und damit ergeben sich die Gruppierungsfunktionen ga (♦) = 1 und ga (♥) = ga (♠) = ga (♣) = 2 sowie gb (M) = 1 und gb (O) = 2. 27 3 Entscheidung (6) Die g-Reduktion ist also hU, C, {d}i x1 x2 x3 x4 x5 ag 2 2 2 1 1 bg 1 1 2 1 2 d 0 0 1 1 1 3.6 Primentscheidungsregeln Definition 3.10 (Primentscheidungsregel) Eine Entscheidungsregel ϕ ⇒ ψ heißt Primentscheidungsregel (engl. minimal decision rule), wenn sie wahr ist und jedes Entfernen eines Deskriptors in ϕ bewirkt, dass sie falsch wird. Eine minimale Entscheidungsregel hat als Vorgänger eine minimale Konjunktion von Deskriptoren und diese sind unbedingt nötig, um den Wert der Entscheidung d eindeutig und korrekt zu bestimmen. (1) Definiere für jedes Objekt x ∈ U aus der entsprechenden Zeile in der entscheidungsabhängigigen Matrix Mat(C, D ) die boolesche Funktion ^ _ f x ((c0 )c∈C ) := c0 . D x 6≈C y c∈Cxy x 6≈ D y (2) Bestimme für jede Funktion f x die Primimplikanten. (3) Konstruiere für jeden Primimplikanten β0 die Entscheidungsregel ^ a∈imβ 28 a = a( x ) ⇒ (d = d( x )) . Literaturverzeichnis [1] Zdzislaw Pawlak and Andrzej Skowron. Rudiments of rough sets. Institute of Mathematics, Warsaw University, Banacha 2, 02-097 Warsaw, Poland, Information Sciences 177 (2007):3–27, 2006. [2] Zdzislaw Pawlak and Andrzej Skowron. Rough sets: Some extensions. Institute of Mathematics, Warsaw University, Banacha 2, 02-097 Warsaw, Poland, Information Sciences 177 (2007):28–40, 2006. [3] Zdzislaw Pawlak and Andrzej Skowron. Rough sets and boolean reasoning. Institute of Mathematics, Warsaw University, Banacha 2, 02-097 Warsaw, Poland, Information Sciences 177 (2007):41–73, 2006. [4] Bernhard Ganter. Lattices of rough set abstractions as p-products. Institut für Algebra, Dresden University of Technology, D-01062 Dresden, 2007. 29 Literaturverzeichnis 30 Index Abhängigkeit, 19 allgemeiner Approximationsraum, 7 Approximation, 1 obere, 1 untere, 1 Approximationsgenauigkeit, 5 Approximationsraum, 1 Attribut, 9 Attributauswahlproblem, 22 Bedingung, 17 Bedingungsformel, 18 Bedingungsklasse, 18 definierbare Menge, 1 Deskriptor, 17 Determiniertheit, 18 elementare Menge, 1 Entscheidung, 17 Entscheidungsformel, 18 Entscheidungsklasse, 18 Entscheidungsregel, 18 Entscheidungssystem, 17 exakte Menge, 5 Formel, 17 Gruppierungsfunktion, 23 Implikant, 12 Informationssystem, 9 Inklusionsfunktion, 7 Kern, 10, 20 Konsistenz, 18, 24 mögliches Objekt, 2 Nachbarschaft, 7 Nachfolger, 18 oben undefinierbare Menge, 5 obere Approximation, 1 Objekt, 1, 9 partielle Abhängigkeit, 19 Primentscheidungsregel, 28 Primimplikant, 12 Primredukt, 10 Rand, 1 Rang, 24 Redukt, 10, 20 Reduktion, 15, 25 Selektor, 17 sicheres Objekt, 2 Signatur, 9 undefinierbare Menge, 5 unexakt definierbare Menge, 5 unexakte Enthaltenseinsfunktion, 5 unexakte Menge, 5 Universum, 1, 9 unten undefinierbare Menge, 5 untere Approximation, 1 31 Index Unterscheidbarkeitsfunktion, 10 Unterscheidbarkeitsmatrix, 10 ununterscheidbar, 1 Ununterscheidbarkeitsrelation, 9 Vorgänger, 18 wahr, 18 Wert, 9 Wertemengenreduktionsproblem, 23 32