Einf ¨uhrung in die Wissensverarbeitung und Data Mining

Werbung
Einführung in die Wissensverarbeitung und
Data Mining
Peter Becker
FH Bonn-Rhein-Sieg
Fachbereich Angewandte Informatik
!"$#
Vorlesung Wintersemester 2001/02
1. Einführung
Vorbemerkungen
1 Einführung
% Vorbemerkungen
% Wissen
% Wissensverarbeitung
% Wissensmanagement
% Data Mining
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1
1. Einführung
Vorbemerkungen
Allgemeines zur Vorlesung
% Es gibt eine Homepage zur Vorlesung:
&('*))+++,-./"0&/&!10#)23
,45)6+5678:9
:;!:)
% Die Vorlesung wird folienbasiert gehalten.
% Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der
Vorlesung zur Verfügung.
% Format: PDF, zwei- und vierseitig
% Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen.
% Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
2
Vorbemerkungen
Übungen
% In die Vorlesung integriert
% Das erste Übungsblatt gibt es am zweiten Vorlesungstermin.
% Bearbeitungszeit: abhängig von den Aufgaben, i.d.R. eine oder zwei
Wochen
% Theorie- und Programmieraufgaben
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3
1. Einführung
Vorbemerkungen
TB, LN, Prüfung
% TB: Anwesenheit, ein paar Übungsaufgaben demonstrieren
% LN: Übungsaufgaben ++, (Richtlinie 50% der zu vergebenden Punkte)
% Prüfung Diplom: Zusammen mit dem Stoff aus dem 6. Semester für
“Ausgewählte Kapitel ...”
% Prüfungsform: mündlich (Witt/Becker)
% Prüfungstermine: 7.2.2001 und 3.4.2001
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
4
Vorbemerkungen
Literatur
C. Beierle, G. Kern-Isberner, Methoden wissensbasierter Systeme,
Vieweg, 2000.
J. Heinsohn, R. Socher-Ambrosius, Wissensverarbeitung: Eine Einführung,
Spektrum Akademischer Verlag, 1999.
K. W. Tracy, P. Bouthoorn, Object-oriented Artificial Intelligence Using
C++, Computer Science Press, 1997.
E. Rich, Artificial Intelligence, McGraw-Hill, 1983.
M. R. Genesereth, N. J. Nilsson, Logische Grundlagen der Künstlichen
Intelligenz, Vieweg, 1989.
T. A. Runkler, Information Mining, Vieweg, 2000.
M. Ester, J. Sander, Knowledge Discovery in Databases, Springer,
2000.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
5
1. Einführung
Vorbemerkungen
Inhalt (geplant)
1. Einführung
2. Intelligente Suchverfahren
3. Aussagen- und Prädikatenlogik
4. Regelsysteme und Regelinterpreter
5. Induktion von Regeln
6. Clusteranalyse
7. Probabilistische Netze
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
6
1. Einführung
Wissen
Daten, Information, Wissen
Auswirkungen von
1 Euro = 0.96 Dollar
auf Zinsen und
Aktienkurse
Devisenkurs
1 Euro = 0.96 Dollar
Wissen
Ergebnis
eines
Lernvorgangs
Information
Kontext
0.96
Daten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
7
1. Einführung
Wissen
Wissen: Versuche einer Definition
% Knowledge is organized information applicable to problem solving.
(Woolf)
% Knowledge is information that has been organized and analyzed to
make it understandable and applicable to problem solving or decision
making. (Turban)
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
8
Wissen
Wissen, Kennen, Können
Umgangssprachlich bezeichnet man das Ergebnis eines Lernvorgangs
als
% wissen, wenn es sich um sprachlich-begriffliche Fähigkeiten handelt,
% kennen, wenn es sich um sinnliche Wahrnehmung handelt,
% können, wenn es sich um motorische Fähigkeiten handelt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
9
1. Einführung
Wissen
Arten von Wissen
explizit
implizit
Ableitung
präzise
unsicher
Wissen
Art
unvollständig
vage
Repräsentation
Kontollstrategie
Regeln
Fakten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
10
Wissensverarbeitung
Wissensebenen
% kognitive Ebene (z.B. Erfahrung von Experten, Arbeitsanweisungen)
% Repräsentationsebene (z.B. Aussagenlogik, Prädikatenlogik)
% Implementierungsebene (z.B. Prolog-Statements)
☞ Bei der Wissensverarbeitung und der Künstlichen Intelligenz stehen
die Repräsentationsebene und die Implementierungsebene im Vordergrund (Schließen der KI-Lücke).
☞ Beim Wissensmanagement stehen die kognitive Ebene und die Repräsentationsebene im Vordergrund.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
11
1. Einführung
Wissensverarbeitung
Daten- vs. Wissensverarbeitung
Algorithmische Problembeschreibung
Daten
Software−
Entwickler
Programm
Anwendungsspezifisches Wissen
Wissen
(Fakten
und
Regeln)
Wissens−
ingenieur
Inferenz−
maschine
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
12
Wissensmanagement
Wissensmanagement
Versuch von Definitionen:
% Wissensmanagement ist ein ganzheitliches, integratives Konzept,
das psychologische, organisatorische und informationstechnologische Faktoren beinhaltet, um die effektive Erschließung und den
Transfer von Wissen zu gewährleisten.
(Wilkens, 1997)
% Sammlung von Techniken, um Wissen in einem Unternehmen effizienter zu erfassen, zu organisieren und zugänglich zu machen.
(Reimann et al., 2000)
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
13
1. Einführung
Wissensmanagement
Aufgaben des Wissensmanagements
Wissensmanagement
Knowledge management
Wissenserschließung
Wissensverteilung
Knowledge Capture
Knowledge Dissemination
Data Warehouse
Knowlede Discovery
Data Mining
Dokumentenanalyse
Multimedia Discovery
XML und KM
WWW und KM
Information Retrieval
Wissensportale
Wissenslandkarten
Dokumenten−Management
Workflow Management
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1. Einführung
14
Wissensmanagement
Data Warehouse, Online Analytical Processing und
Knowledge Discovery in Databases
KDD
OLAP
strukturelle Analysen
Assoziationsregeln
1
1,2
Multidimensionale Sichten
Analysen, Kalkulationen
1,2,3,4,5
2
3,4,5
3
4
5
Data Warehouse
Informationsspeicherung
Informationsverdichtung
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
15
1. Einführung
Data Mining
Knowledge Discovery in Databases
Wissensentdeckung in Datenbanken ist
% ein nichttrivialer Prozeß,
% um Beziehungsmuster in den Daten zu entdecken,
% die für einen großen Teil des Datenbestandes gültige,
% bislang unbekannte,
% potentiell nützliche und
% leicht verständliche Zusammenhänge zum Ausdruck bringen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
16
1. Einführung
Data Mining
Prozeß des Knowledge Discovery in Databases
Wissen
Rohdaten
Selektion
Vorverar−
beitung
Transfor−
mation
Data
Mining
Interpre−
tation
Cluster−Analyse
Klassifikation
Mustersuche
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
17
1. Einführung
Data Mining
Cluster-Analyse: Technik des Data Mining
Gegeben sei eine Menge von Punkten im IR < .
Wie kann man die Häufungen algorithmisch erkennen?
☞ Berechnung eines minimal spannenden Baums und
☞ Elimination zu langer Kanten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
18
Einführung
2 Suchverfahren
% Sehr viele Probleme der Wissensverarbeitung lassen sich auf ein
Suchproblem zurückführen.
% Die Eigenschaften und Lösungsverfahren von Suchproblemen sind
daher von grundlegender Bedeutung für die Wissensverarbeitung.
% Suchverfahren sind ein klassisches Kapitel innerhalb der Wissensverarbeitung
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
19
2. Suchverfahren
Einführung
Färbeproblem
B
C
D
E
A
Beispiel 2.1. Die angegebene Landkarte mit den Ländern A, B, C, D
und E ist so mit den Farben rot, blau, gelb und orange zu färben, daß
keine zwei benachbarten Länder die gleiche Farbe haben.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
20
Einführung
Färbeproblem (2)
% Ein naives generate-and-test Verfahren würde => mögliche Farbkonstellationen prüfen.
% Allgemein sind ?A@ Farbkonstellationen zu prüfen, mit ?
der Farben und EFBGC Anzahl der Länder.
BDC Anzahl
☞ Ineffizient!
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
21
[b,g,o,r,g]
23
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
22
Die Schritte im Laufe der Problemlösung lassen sich durch Zustandsübergangsoperatoren
beschreiben.
H
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
[b,g,r,o,g]
E −> g
[b,g,o,r,−]
H
E −> g
[b,g,r,o,−]
H
Ziel ist es, eine komplette zulässige Färbung zu
erreichen.
XI
D −> r
Die Problemlösung startet mit der leeren
Färbung .
QRDS
K
D −> o
[b,g,o,−,−]
H
Nach der Zuordnung
man direkt abbrechen.
kann
So kann man Zwischenzustände bei der Problemlösung durch Teilfärbungen beschreiben, etwa
H
TO
[b,g,r,−,−]
[o,−,−,−,−]
IJ
IJ
C −> o
[g,−,−,−,−]
Einführung
Es scheint sinnvoller zu sein, die Länder der Reihe nach zu färben.
Färbeproblem (3)
TO
C −> r
[b,o,−,−,−]
[r,−,−,−,−]
A −> g
2. Suchverfahren
QRDS
K
P
NM O
KL
[b,g,−,−,−]
B −> g
B −> o
[b,−,−,−,−]
A −> r
A −> b
A −> o
[−,−,−,−,−,]
Suchbaum
Einführung
U
RW
KV
[b,r,−,−,−]
B −> r
2. Suchverfahren
H
XQ
XT
RDQ S
K
P
2. Suchverfahren
Einführung
Suchbaum (2)
% Die Lösung des Färbeproblems läßt sich als Suchbaum darstellen.
% Die Knoten des Suchbaums entsprechen den Zuständen (zulässige
Teilfärbungen).
% Die Kanten entsprechen den Operatoren.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
24
2. Suchverfahren
Einführung
Routenproblem
B
E
A
Ziel
F
Start
C
D
Beispiel 2.2. Gegeben ist eine Karte mit Städten und Straßen, die die
Städte miteinander verbinden.
Gesucht ist eine Route von einem Startort zu einem Zielort.
Suchbaum: Tafel ✎.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
25
Zustandsraum
Zustandsraum
Ein Zustand stellt das Wissen zu einem bestimmten Zeitpunkt der Lösungsfindung dar.
Für Suchproblem läßt sich das Wissen repräsentieren durch:
2. Suchverfahren
Der Zustandsraum ist die Menge aller Zustände.
H
Zustandsübergangsoperatoren beschreiben, wie
ausgehend von einem Zustand andere Zustände
des Zustandsraums erreicht werden können.
H
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Der Startzustand ist der Zustand, der zu Beginn
der Lösungsfindung vorliegt. Er läßt sich explizit
angeben.
H
2. Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
H
26
Die Menge der Zielzustände charakterisiert die
Lösungen des Problems. Zielzustände lassen
sich in der Regel nur implizit angeben, z.B. über
ein Testprädikat.
H
Zustandsraum
Zustandsraum und Suchbaum
% Die Knoten eines Suchbaums stellen die Zustände dar.
% Die Kanten entsprechen den Zustandsübergangsoperatoren.
% Die Wurzel entspricht dem Startzustand.
% Die Zielknoten sind die Zielzustände.
% Die Berechnung der Nachfolger eines Knotens Y wird als Expansion
des Knotens Y bezeichnet.
27
2. Suchverfahren
Zustandsraum
Zustandsraum und Suchbaum (2)
% Der Zustandsraum beschreibt nur, wie man prinzipiell zu einer
Lösung gelangen kann,
% aber nicht, wie man effizient zu dieser kommt.
% Ganz wesentlich für eine effiziente Problemsösung sind:
☞ das Verfahren, das festlegt, in welcher Reihenfolge die Zustände
untersucht bzw. expandiert werden sowie
☞ die Bewertung der einzelnen Zustände.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
28
Uninformierte Suchverfahren
Uninformierte Suchverfahren
% Suchverfahren, die über die Beschreibung des Zustandsraums hinaus keine Zusatzinformation benutzen, heißen uninformierte Suchverfahren.
% Insbesondere findet keine Bewertung der einzelnen Zustände statt.
% Dementsprechend unterscheiden sich die Verfahren im wesentlichen
darin, in welcher Reihenfolge die Zustände expandiert werden.
% Die wichtigsten Vertreter der uninformierten Suchverfahren sind die
Breitensuche und die Tiefensuche.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
29
2. Suchverfahren
Uninformierte Suchverfahren
Uninformierte Suchverfahren (2)
Z Ausgehend von der Wurzel des Suchbaums (Startzustand) werden
die Knoten sukzessive expandiert.
Z Später wird man von den Nachfolgern des expandierten Knotens
weiterarbeiten, solange bis man einen Zielknoten gefunden hat.
Z Die Liste der Knoten, die gerade in Bearbeitung sind, heißt Agenda
(open list).
Z Knoten der Agenda sind generiert, aber noch nicht expandiert.
Z Expandierte Knoten werden auch als closed bezeichnet.
_`
\^]
[
_`
\^]
[
31
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
[
\]
_`
\^]
Breiten- und Tiefensuche unterscheiden sich
darin, wo die Nachfolger in die Agenda eingefügt
werden.
_`
30
Ist
kein Zielzustand, so wird
expandiert,
werden in die Agend.h. alle Nachfolger von
da eingefügt.
[
_`
\^]
Wenn
ein Zielzustand ist, hat man eine
Lösung gefunden.
[
In einer beliebigen Iteration wird der erste Knoten
aus der Agenda genommen.
[
Zu Beginn der Suche besteht die Agenda aus
dem Startzustand.
Breitensuche und Tiefensuche laufen nach dem
gleichen Schema ab.
Uninformierte Suchverfahren (3)
2. Suchverfahren
Uninformierte Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
Uninformierte Suchverfahren
Tiefensuche
☞ Bei der Tiefensuche werden die Nachfolger eines expandierten Knotens abced an den Anfang der Agenda eingefügt.
Z Die Agenda entspricht einem Kellerspeicher (Stack).
Z Liefert ein Knoten, der kein Zielknoten ist, keine neuen Knoten, so
wird die Suche fortgesetzt an dem nächstgelegenen Knoten, für den
noch nicht alle Nachfolger expandiert wurden.
Z Dies entspricht einem Backtracking.
33
A
B
E
K
F
C
G
Agenda
(A)
(B,C,D)
(E,F,C,D)
(K,F,C,D)
(F,C,D)
(C,D)
(G,H,D)
Schritt
1
2
3
4
5
6
7
G
K
F
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
I
D
H
\]
C
B
A
E
2. Suchverfahren
32
_`
Tiefensuche (2)
Uninformierte Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
Uninformierte Suchverfahren
Breitensuche
☞ Bei der Breitensuche werden die Nachfolger eines expandierten
Knotens ab/cfd an das Ende der Agenda eingefügt.
Z Die Agenda entspricht einer Warteschlange (Queue).
35
Schritt
1
2
3
4
5
6
7
G
K
F
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Agenda
(A)
(B,C,D)
(C,D,E,F)
(D,E,F,G,H)
(E,F,G,H,I)
(F,G,H,I,K)
(G,H,I,K)
H
A
B
C
D
E
F
G
I
D
C
B
E
2. Suchverfahren
34
_`
\]
A
Breitensuche (2)
Uninformierte Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
Uninformierte Suchverfahren
Algorithmen
Algorithmus 2.1. [Tiefensuche]
g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~
i
&€‚ƒ„ g…h:jk†lnˆq ‡ rt|Š‰:‹
oDq Œtx u3rgihjkmln|e~
a b/cfd
a
Entferne a b/cfd aus der Agenda;
6Ž
€„6
d ist
gihjakmbceld n‘istoDq“Zielknoten
’”n•3–7Œ7{—^hj/ xr ab/|}cf˜™
g…h:Ljösung;
k†ln5~ STOP;
abced
„ ‰
Problem hat keine Lösung; STOP;
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
36
Uninformierte Suchverfahren
Algorithmus 2.2. [Breitensuche]
g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~
i
&€‚ƒ„ g…h:jk†lnˆq ‡ rt|Š‰:‹
oDq Œtx u3rgihjkmln|e~
ab/cfd
a
Entferne a b/cfd aus der Agenda;
6Ž
€„6
gihjakmbceld n‘istoDq“Zielknoten
g…h:jk†lnš˜™ ’ˆn•/–7aŒ5b/{cfd—›hist
jxrLösung;
|f~ STOP;
ab/cfd
„ ‰
Problem hat keine Lösung; STOP;
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
37
Uninformierte Suchverfahren
39
Beispiele
c
h
g
f
l
k
e
n
m
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Tafel ✎.
a
b
j
d
i
nach
38
mit
Uninformierte Suchverfahren
Beispiel 2.3. Suche einen Weg von
Tiefensuche bzw. Breitensuche.
2. Suchverfahren
œ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Tafel ✎.
Die Krüge sollen so umgefüllt werden, daß der 9Liter-Krug sechs Liter und der 4-Liter-Krug drei Liter
enthält.
Der 9-Liter-Krug ist gefüllt, die anderen sind leer.
Auf den Krügen sind keine Litermarkierungen angebracht.
Beispiel 2.4. Ein Weinhändler hat drei Krüge,
einen von 9 Liter, einen von 7 Liter und einen von
4 Liter Inhalt.
2. Suchverfahren

2. Suchverfahren
Uninformierte Suchverfahren
Eigenschaften von Suchverfahren
Definition 2.1. Ein Suchverfahren heißt vollständig, wenn für jeden
Suchbaum jeder Knoten expandiert werden könnte, solange noch kein
Zielknoten gefunden wurde.
Z Ein vollständiges Suchverfahren ist fair in dem Sinne, daß jeder Knoten die Chance hat, expandiert zu werden.
Z Ein vollständiges Sucherfahren findet auch bei unendlichen
Suchbäumen stets eine Lösung, falls eine existiert.
Z Breitensuche ist vollständig.
Z Tiefensuche ist nur bei endlichen Suchbäumen vollständig.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
40
Uninformierte Suchverfahren
Eigenschaften von Suchverfahren (2)
Definition 2.2. Für ein uninformiertes Suchverfahren heißt eine
Lösung optimal, wenn sie unter allen Lösungen die geringste Tiefe im
Suchbaum aufweist.
Breitensuche findet eine optimale Lösung (falls existent), Tiefensuche
nicht.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
41
2. Suchverfahren
Uninformierte Suchverfahren
Eigenschaften von Suchverfahren (3)
Komplexitäten:
Z Für Breiten- und Tiefensuche ist der ungünstigste Fall, daß die
Lösung in der “äußersten rechten Ecke” des Suchbaums liegt.
Z q†ž
Zeitkomplexität Ÿ
des Zielknotens.
r¡ d |
¢q
u£q
, mit
Verzweigungsrate und
Tiefe
Z Bei der Tiefensuche enthält die Agenda die Knoten des aktuellen
q†ž
¡r ¤uz|
Platzkomplexität Ÿ
.
Suchpfades sowie deren Nachfolger
Z Bei der Breitensuche kann die Agenda eine komplette Ebene des
q ž
†
¡r d |
Platzkomplexität Ÿ
.
Suchbaums enthalten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
42
Informierte Suchverfahren
Informierte Suchverfahren
Z Für größere Suchbäume sind Breiten- und Tiefesuche nicht effizient
genug.
Z Vielversprechender sind Ansätze, bei denen Problemwissen zur
Steuerung des Suchprozesses eingesetzt wird.
Z Dies kann dadurch geschehen, daß die Zustände (Knoten) danach
bewertet werden, wie erfolgversprechend sie sind.
Z Man schätzt beispielsweise für jeden Knoten, wie nahe er an einem
Zielknoten liegt.
Z Solch eine Bewertung nennt man heuristische Funktion.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
43
2. Suchverfahren
Informierte Suchverfahren
Heuristische Funktion
Definition 2.3. Eine Funktion, die jedem Zustand (Knoten)
a eines Zu–¥r |
standsraums (Suchbaums) eine nichtnegative Zahl a zuordnet,
–¥r |"q ¦ heißt
heuristische Funktion. Für einen Zielzustand a gilt dabei a
.
Ein Suchverfahren, das eine heuristische Funktion zur Auswahl der zu
expandierenden Zustände einsetzt, heißt informiertes Suchverfahren
oder auch heuristisches Suchverfahren.
®
« \¬
ª
¨*°
[
45
.
®
±
µ²
±²
´²
±²
³²
³²
±²
®
«\
ª
¨*°
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
.
«\
ª
¨*©
¶·
Hier:
«­\¬
ª
¨*©
[
®
Summe der Entfernungen aller Plättchen von der Zielposition.
®
¯
Hier:
stand
Startzustand
Mögliche heuristische Funktionen:
6
8
2
4
1
3
44
Anzahl der Plättchen, die nicht an der
richtigen Stelle liegen.
Endzu3
4
5
2
1
8
7
§
5
6
7
Beispiel 2.5. [Schiebepuzzle]
Heuristische Funktion (2)
2. Suchverfahren
Informierte Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
Informierte Suchverfahren
Heuristische Funktion (3)
–m¸"q ¹
–º»q ¼
2
7
8
1
6
–m¸q ¹
–º¾q ¿
3 ½
4
5
8
2
7
1
6
–m¸1q ¹
–ºiq“À
3 ½
4
5
8
2
7
1
6
–m¸1q ¹
–ºiq ¹
3 ½
4
5
8
7
1
2
6
3
4
5
Á
1
8
7
2
–m¸"6q ¦
–º»q ¦
3
4
Â
5
1
8
7
2
6
–m¸q Ã
–º¾q Ã
3
4
Â
5
8
7
1
2
6
–m¸1q Ä
–ºiq Ä
3
4
5
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
46
Informierte Suchverfahren
Heuristische Funktion (3)
Z Die heuristische Funktion –º differenziert stärker als –m¸ , d.h.
Z –º kann Zustände unterscheiden, die von –Ÿ gleich bewertet werden.
Z Eine heuristische Funktion ist um so brauchbarer, je mehr Zustände
sie unterschiedlich bewertet.
Z Eine heuristische Funktion, die alle Zustände gleich bewertet, ist unbrauchbar.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
47
2. Suchverfahren
Informierte Suchverfahren
Bestensuche
Z Bei der Bestensuche erfolgt die Expansion eines Knotens auf Basis
der heuristischen Funktion.
Z Hierzu werden in der Agenda die Knoten zusammen mit ihrer Bewertung abgelegt.
Z Es wird nun jeweils der Knoten der Agenda expandiert, der die geringste Bewertung aufweist.
Z Die Agenda hat also die Form einer Prioritätswarteschlange (priority
queue).
Z Ansonsten ist die Bestensuche analog zur Tiefen- und Breitensuche.
K:−
A
B
C
G
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
G:0
F:8
E:7
Schritt
1
2
3
4
H:2
Agenda
A:9
B:4, C:5, D:6
C:5, D:6, E:7, F:8
G:0, H:2, D:6, E:7, F:8
I:−
_`
\^]
C:5
B:4
A:9
Bestensuche (2)
D:6
Informierte Suchverfahren
2. Suchverfahren
48
49
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
Informierte Suchverfahren
Algorithmus zur Bestensuche
Algorithmus 2.3. [Bestensuche]
g hjkmlnpoDq rtsvuwnx6uzykm{u*jk}|f~
i
&€‚ƒ„ g…h:jk†lnˆq ‡ rt|Š‰:‹
oDq Œtx u3rgihjkmln|e~
ab/cfd
a
Entferne ab/cfd aus der Agenda;
6Ž
€„6
gihjakmbceld n‘istoDq Zielknoten
jtkƌǂjÈh:jk" r­g…h:jk†ab/lcfn5d ÉÊist
’ˆnL•/ösung;
–7Œ5{—^h:jxSTOP;
r
|z|f~
a
/
b
f
c
d
„ ‰
Problem hat keine Lösung; STOP;
Beispiel 2.6. Suchbaum für Beispiel 2.5 mit Bestensuche. Tafel ✎
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2. Suchverfahren
50
Informierte Suchverfahren
Eigenschaften der Bestensuche
–
Definition
kÌËͦ 2.4. Eine heuristische Funktion –¥heißt
r |1ÎÍfair
k gdw. es zu jenur endlich viele Knoten a gibt mit a
.
dem
Z Fairness entspricht der Vollständigkeit bei uninformierten Suchverfahren.
Z Ist eine heuristische Funktion fair, so wird ein Zielknoten gefunden,
falls ein solcher existiert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
51
Die Kosten
Informierte Suchverfahren
aÐ a
aÒ eine Folge von Zuständen
Definition
¸ 2.5. Es sei Ï
und aÓÕÔ sei durch Anwendung eines Zustandsübergangsoperators auf
aÓ erreichbar.
q
r
Beim Übergang von aÓ nach aÓ^Ô
an.
[
2. Suchverfahren
É ¸fÉ/Ñ/Ñ/Ñ3É
¸
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
fallen Kosten in Höhe von
C
D
Ziel
yÅr
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
52
Bestensuche wählt A,B,D, obwohl A,C,D kürzer ist.
Start
A
Beispiel 2.7. Routenproblem: Man finde einen
kürzesten Weg von A nach B. Die heuristische
Funktion sei als die Luftlinienentfernung zum Zielknoten definiert.
B
Wird die Güte einer Lösung charakterisiert durch
diese Operatorkosten, so findet die Bestensuche
allgemein keine optimale Lösung.
Die Bestensuche vernachlässigt die “Kosten” bei
der Anwendnung der Operatoren.
Bestensuche und Optimalität
2. Suchverfahren
[
Informierte Suchverfahren
Bewertung von Lösungen
|
É
¸z|
aÓ a Ó^Ô
yÅr |
Ï der Zustandsfolge seien definiert durch:
¸
Ò3Ö
yÅr |(oDq
ymr É
¸z|
Ï
aÓ aÓÕÔ
ÓÕ׆Ð
53
Zulässiger Schätzer
Informierte Suchverfahren
à
¨
«\
ª¨
\
«\
ª
¨á
[
die Luftlinienentfernung beim Routenproblem.
[
[
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
55
Bei kombinatorischen Optimierungsproblemen
werden als zulässige Schätzer häufig effizient
lösbare Relaxationen des Problems verwendet.
Beispiel: minimaler Spannbaum als Relaxation
für die Berechnung eines minimalen Hamiltonschen Weges.
Problem: Finde (falls möglich) eine Zustandsfolge Ï vom Startzustand
aÐ in einen Zielzustand ß , die minimale Kosten aufweist, d.h.
|
die heuristischen Funktionen aus Beispiel 2.3 für
das Schiebepuzzle und
ymr Ø "
| q – Ø r
Ï
aÐ
ymr Ø "
| q Ù›Ú ÛfÜ3h
Ï
oDq
oDq
Beispiel 2.8. Zulässige Schätzer sind:
h Ør |
a
–‚Ør |
a
Definition 2.6. Eine heuristische Funktion heißt
zulässiger Schätzer bzw. zulässig gdw.
für alle Zustände des Zustandsraums.
2. Suchverfahren
2. Suchverfahren
Informierte Suchverfahren
Für einen Zustand a sei:
ٛÚÛfÜyÅr | Ý
Ï Ï ist Weg vom Startzustand nach aÞ
ٛÚÛfÜyÅr |Ý
Ï Ï ist Weg von a zu einem Zielzustand Þ
Ø
bzw.
Ø r /| Ý
ß ß ist Zielzustand Þ .
54
Informierte Suchverfahren
Der A*-Algorithmus
Der A*-Algorithmus basiert auf:
2. Suchverfahren
ªâ
1. einer Bewertung
für die Zustände, wobei
die bisher geringsten Kosten zur Erreichung
des Zustands angibt,
«\
«\
ªâ
2. einer (üblicherweise zulässigen) heuristischen
zur Schätzung der Restkosten und
Funktion
\
«²\
ªâ
«\
ªã
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
®
2. Suchverfahren
«\
ªã
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
56
☞ Es wird der Knoten der Agenda expandiert, der
die geringste Bewertung
aufweist.
Steuerung der Suche bei A*:
, die
3. einer Bewertungsfunktion
zur Auswahl des zu expandierenden Zustandes
dient.
«\
ª¨
«\
ª¨
Informierte Suchverfahren
Der A*-Algorithmus (2)
Folgende Punkte sind beim A*-Algorithmus zu berücksichtigen:
Z Durch eine Verringerung von hÅr a | für einen Zustand a kann auch eine
r |
Verringerung von ä a auftreten.
Z Dies kann im allgemeinen auch für schon expandierte Knoten der
Fall sein!
Z Deshalb werden schon expandierte Knoten in einer speziellen Liste
Closed verwaltet.
Z Bewertungen sind dementsprechend anzupassen.
57
2. Suchverfahren
Füge
ý
ûü
ûü
ûü
59
Informierte Suchverfahren
Der A*-Algorithmus (3)
Algorithmus 2.4. [A*]
2. Suchverfahren
ýþ ÿ
ý^þ
«­í
æ
í ø
ð
ñ
ë é æì µ í ® ï ® «ª ÷
é œê « ¬ « ö œ ®
ª è é æ æ ç
® é é æ
â
œç ¬ ë æì ë æì å
ϐ ϐ
æâ é é ðñõô
å ªè é â ªè é î ó ò
«­œí
ç
æâ
å
ª
ùú
éê
\
_`
\]
®
¬ _`
\^]
_`
ý ý
\^] ÿ
üû
ýÕþ
ûü ü
ý
ý
ý
ýþ
"!
!
ý
ÿ
$
'&
%
ýþ ÿ
ý^þ
ÿ
(
#
#
)
ý
ý
+
ûü
ý
-
%
$
ý
ý
(
ýþ ÿ
ý^þ ÿ ý
ý^þ
ÿ
,&
ýþ ý
ÿ
ýþ
ÿ
&
%
$
#
#
!
!
)
ý
ûü
ý
ý
aus Closed;
"(
Entferne
*
58
ý
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
"(
in die Agenda mit Bewertung
Füge
ein;
Entferne
aus der Agenda;
Füge
in Closed ein;
ist Zielknoten
ist Lösung; STOP;
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Problem hat keine Lösung; STOP;
in die Agenda ein;
Informierte Suchverfahren
ÿ
A*-Anwendungsbeispiel
Informierte Suchverfahren
9
9
9
61
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
9
– Für eine Tour muß man jede Stadt mindestens
einmal Anfahren bzw. sie verlassen.
– Summe der Zeilenminima der Entfernungsmatrix plus Summe der Spaltenminima einer reduzierten Matrix ist ein zulässiger Schätzer.
Schätzung:
.
Den bisher besten Weg zu einem Knoten erhält man also, in dem
man von sukzessive den Verweisen
folgt.
0213/54
enthaltene Kanten
Für einen Knoten
besten Weg an.
gibt
Zielzustand:
/
.
/
Zustandsübergang: Ein- bzw. Ausschluß einer
Kante
Zustand: Menge von Kanten, die enthalten bzw.
ausgeschlossen sind
Asymetrisches Traveling Salesman Problem:
2. Suchverfahren
2. Suchverfahren
Informierte Suchverfahren
Der A*-Algorithmus (4)
den Vorgängerknoten auf dem bisher
/
061874
.
Alternativ kann man an jedem Knoten den kompletten bisher optimalen Pfad speichern.
.
Der notwendige Speicherplatzverbrauch für die Pfade ist dann aber
quadratisch in der Länge des Suchpfades.
60
;
<
&
;
&
&
:
<
:
: 113
0
0
6
6
12
63
4
45
39
28
3
17
90
46
88
2
3
3
93
77
80
88
18
4
13
42
36
33
46
:
:
0
29
32
3
0
1
83
21
85
2
0
3
75
58
58
48
0
4
2
30
12
0
35
5
33
21
16
56
5
30
17
0
49
92
89
6
9
16
28
7
25
6
6
12
12
0
0
62
Informierte Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
1
2
3
4
5
6
1
Reduzierte Matrix:
Erste Abschätzung: 81
1
2
3
4
5
6
1
Entfernungsmatrix:
2. Suchverfahren
:
:
:
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
0
5
30
17
0
;
:
1
21
=
4
2
30
&
2
0
=
: 81
und mit
5
30
17
0
49
;
:
0
29
3
<
1
:
und ohne
0
4
2
30
12
:
1
2
3
5
:
1
83
21
:
:
Mit
&
:
Mit
;
0
29
32
3
1
2
3
4
5
&
2
0
: 129
Informierte Suchverfahren
:
1
;
: 18 + 63 = 81
<
Mit Kante
Ohne Kante
2. Suchverfahren
:
:
:
:
:
64
&
;
&
1
3
5
&
<
;
&
;
&
: 114
, ohne
, ohne
@
&
&
&
&
&
<
?
&
;
=
;
;
&
=
&
<
&
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
2
;
Mit
&
Mit
;
&
<
&
&
>
@
&
?
&
?
;
=
&
&
&
<
;
&
=
&
&
<
;
&
Mit
:
?
Mit
5
28
0
&
<
?
=
&
>
&
&
=
&
?
;
Mit
&
<
&
&
=
&
;
0
20
&
=
@
&
&
?
&
>
;
:
4
0
&
&
>
;
=
:
&
?
Mit
&
;
&
?
&
, ohne
&
Mit
&
?
?
@
>
&
, ohne
&
>
&
?
=
?
&
>
?
<
=
0
: 84
?
&
@
: 84
: 101
=
&
>
Mit
&
, ohne
@
?
: 127
: 103
>
2. Suchverfahren
: 104
: 104
Informierte Suchverfahren
2. Suchverfahren
Informierte Suchverfahren
A* und andere Suchverfahren
Bemerkung 2.1. Der A*-Algorithmus enthält die folgenden Algorithmen als Spezialfälle:
.
Für
ACBED
und
.
Für
AIG
erhält man die Bestensuche.
.
Für
AIG
.
Für
und
erhält man die Tiefensuche, wenn man Wiederbelebungen verbietet (Übergang von Closed in die Agenda).
AKG
D
J
und
LMJ
erhält man den Dijkstra-Algorithmus.
FHG
FHG
D
D
FNG
erhält man die Breitensuche.
D
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
65
V
V
V
.
.
F
ausgehend von
den.
Eigenschaften von A*
Informierte Suchverfahren
021"W\4
es existiere , so daß für die Kosten
einem Zustandsübergang stets
gilt und
ý
%
ý
P
Q
ý
ý
%
&
O
9
R
O
&
9
die minimalen Kosten ergeben sich durch
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
T
XY1ZW[4
U
2. Suchverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
66
Bemerkung 2.2. Unter den gegebenen Voraussetzungen endet die Suche u.U. in einem nicht optimalen Zielzustand.
Beweis. Tafel ✎.
Dann terminiert A* nach endlich vielen Schritten
mit dem Erreichen eines Zielzustandes.
es gibt einen erreichbaren Zielzustand.
bei
Jeder Zustand besitzt nur endlich viele Nachfolgerzustände,
Satz 2.1. [Terminierung, Fairness] Es gelte:
2. Suchverfahren
9
P
S
Informierte Suchverfahren
Eigenschaften von A* (2)
Satz 2.2. [Optimalität] Es gelte:
Gegeben sind die Voraussetzungen von Satz 2.1 und
ist zulässig.
Dann ist der Zielknoten , mit dem A* terminiert, ein optimaler Zielknoten,
W
und
kann eine optimale Zustandsfolge ermittelt wer-
67
2. Suchverfahren
Beweis. Tafel ✎.
Informierte Suchverfahren
]
Korollar 2.3. Gegeben seien die Voraussetzungen von Satz 2.2. Der
gefundene optimale Zielknoten sei . Dann wurden während des Laufs
expandiert.
von A* nur Zustände mit
W
/
^_1`/a4cbdXe1ZW\4
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
68
2. Suchverfahren
Informierte Suchverfahren
Wahl guter Schätzer
.
Die Eigenschaften der heuristischen Funktion haben einen wesentlichen Einfluß auf die Performanz der Suche mit A*.
.
Eine zulässige heuristische Funktion ist um so besser, je näher sie
dem Optimalwert zur Erreichung eines Zielzustandes kommt.
Definition 2.7. Für zwei zulässige Schätzer
.
F
f
.
f
besser informiert als
F
/
F
gdw.
Fh13/54cijF
nicht schlechter informiert als
gilt.
F
gdw.
f 13/a4
F
und
heißt:
für alle Zustände
Fh13/54kbjF
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Fgf
f 13/a4
/
gilt.
für alle Zustände
69
2. Suchverfahren
Informierte Suchverfahren
Wahl guter Schätzer (2)
Satz 2.4. Es gelte:
.
Gegeben sind die Voraussetzungen von Satz 2.2,
.ml
l
bzw.
seien A*-Algorithmen, die zulässige Schätzer
verwenden und
.
f
V
F
f
F
bzw.
f
F
sei besser informiert als .
F
Dann wird jeder Zustand , der von
expandiert.
/
Beweis. Tafel ✎.
l
f
expandiert wird, auch von
l
]
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
70
2. Suchverfahren
Informierte Suchverfahren
Monotone Schätzer
Definition 2.8. Gegeben sei eine nichtnegative Kostenfunktion . Eine
heuristische Funktion heißt monotoner Schätzer gdw. gilt:
A
F
.
.
Fh1ZW\4on
D
für alle Zielzustände .
Für alle Zustände
/
W
und alle Nachfolger
Fh13/54kbjAY13/rqs/
/pf
von
f 4utvFh13/
/
gilt:
f 4
Beispiel 2.9. Alle Schätzer aus Beispiel 2.8 sind auch monotone
Schätzer.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
71
*
w
P
ý
*
ý
T
T
3. Suchverfahren
72
U
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
P
Es gibt keine Wiederbelebung von Zuständen,
d.h. ein Knoten, der expandiert wurde, wird nie
mehr selektiert.
auch ein zulässiger Schätzer.
T
ý
Beweis. Tafel ✎.
9
Ist der Knoten durch Expansion des Knotens
entstanden, so gilt
.
Dann ist
sei ein monotoner Schätzer.
Gegeben sind die Voraussetzungen von Satz 2.1
und
Satz 2.5. Es gelte:
Monotone Schätzer (2)
Informierte Suchverfahren
2. Suchverfahren
9
ý
Informierte Suchverfahren
Zusammenfassung des Kapitels
.
Zustandsraum: Zustände, Zustandsübergänge, Startzustand, Zielzustände
.
Systematische Suche im Zustandsraum: Breitensuche, Tiefensuche
.
Heuristische Funktionen: Schätzung der Entfernung zum Ziel
.
Bestensuche garantiert keine Optimalität
.
A*: Operatorkosten plus heuristischer Funktion
.
A* liefert optimale Lösungen bzgl. Operatorkosten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
73
Zielrichtungen der Inferenz
Inferenz
und Regeln
gegeben. Was
Es ist Fakten
kann daraus gefolgert werden? Beispiel: Wenn
es regnet, dann ist die Straße naß. Was kann aus
der Tatsache, daß es regnet, gefolgert werden?
Prognosen, logische Ableitungen erstellen
3. Logik
9
x
y
9
y
x
9
9
y
x
z
Programmverifikation
automatisches Beweisen
Logikprogrammierung, deduktive Datenbanken
Inferenz in Expertensystemen
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
9
75
9
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
9
Können aus den Fakten
und den Regeln
die Hypothesen
hergeleitet werden? Beipiel:
Wenn es regnet, dann ist die Straße naß. Es regnet. Ist die Straße dann naß?
Hypothesen prüfen
Herleitung (Inferenz) von neuem Wissen auf Basis der Kalküls.
Repräsentation von Wissen durch Formeln eines
adäquaten Logikkalküls
Inferenz
74
Anwendungsgebiete der Logik in der Wissensverarbeitung:
9
mit Hilfe der Regeln
Wie läßt sich ein Fakt
erklären? Beispiel: Die Straße ist naß. Wie kann
das sein?
Erklärungen finden
3 Logik
Gegenstand der Logik:
3. Logik
9
Arten der Inferenz
Inferenz
9
3. Logik
.
Qualifikationsproblem
.
unpräzise Angaben
.
probabilistische Aussagen und Regeln
.
räumlich-zeitliches Wissen
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
9
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
76
Zum Starten eines Autos ist eine aufgeladene
Batterie notwendig. Unser Auto läßt sich nicht
starten. Wir schließen, daß die Batterie leer ist.
Abduktion
Wir haben wiederholt beobachtet, daß ein Auto
nicht startet und die Batterie leer ist. Wir haben
noch nie beobachtet, daß ein Auto mit leerer Batterie gestartet werden konnte. Wir schließen daraus, daß ein Auto, das eine leere Batterie hat,
nicht gestartet werden kann.
Induktion
Zum Starten eines Autos ist eine aufgeladene
Batterie notwendig. Bei unserem Auto ist die Batterie leer. Wir schließen, daß wir unser Auto nicht
starten können.
Deduktion
3. Logik
9
Inferenz
Weitere Aspekte bei der Wissensverarbeitung mit
Logik
77
3. Logik
Aussagenlogik
Signatur
Am Beispiel der Aussagenlogik erklären wir schrittweise wichtige Elemente eines logischen Systems.
.
Zunächst benötigt ein logisches System ein Vokabular,
.
d.h. eine Menge von Namen, die Dinge der realen Welt beschreiben
können.
.
Eine derartige Menge von Namen wird als Signatur bezeichnet und
üblicherweise durch gekennzeichnet.
{
.
Den Namen ist i.d.R. eine gewisse Stelligkeit zugeordnet.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
78
3. Logik
Aussagenlogik
Aussagenlogische Signatur
Definition 3.1. Eine aussagenlogische Signatur ist eine Menge von
(nullstelligen) Bezeichnern, den Aussagenvariablen.
{
Beispiel 3.1. Die Menge
{}|u~€n
ƒ‚…„‡†\ˆg‰‹Š5Œ…ŠŽqƒ‰[p†\‘[„5’\“…q”‰[p†[•\–Œ…Š—‰5†…™˜š’œ›ža
„ ‚Ÿ‰a [¡
ist eine aussagenlogische Signatur, die drei Aussagenvariablen zur
Verfügung stellt.
Im folgenden benutzen wir üblicherweise Großbuchstaben als Aussagenvariablen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
79
3. Logik
Aussagenlogik
Formeln
.
Formeln ermöglichen es, Dinge der repräsentierten Welt auszudrücken.
.
Formeln entsprechen einer gewissen Syntax (sie sind wohlgeformt).
.
Diese Syntax legt eine Wissensrepräsentationssprache fest.
.
Formeln sind üblicherweise rekursiv aufgebaut.
.
Die atomaren Formeln ergeben sich aus der Signatur.
.
Mit logischen Verknüpfungsoperatoren (den Junktoren) werden aus
atomaren Formeln schrittweise komplexere Formeln aufgebaut.
¤
3. Logik
¢
£
¦
¥
¨
§
¥
81
80
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¢
Falls
und
aussagenlogische Formeln sind,
dann sind auch die folgenden Konstrukte aussagenlogische Formeln:
Die Elemente der Menge
sind aussagenlogische Formeln, die sogenannten atomaren Formeln.
Definition 3.2. Für eine aussagenlogische Signaist die Menge
der aussagenlogitur
schen Formeln wie folgt definiert:
Aussagenlogische Formeln
Aussagenlogik
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¬
¨
¨
¨
¯
¬
°
§
°
§­
©«ª
©
§®
©
§
©
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¬
¬
¨
82
Bemerkung 3.1. Zur Vereinfachung der Schreibweise verzichten wir i.d.R. auf die Klammerung und
benutzen statt dessen die folgenden Bindungsprioritäten:
.
Negation
Konjunktion
Disjunktion
Implikation
Äquivalenz
Aussagenlogik
¬
§
¯
©
±
±
®
±
­
3. Logik
ª±
3. Logik
Aussagenlogik
²
-Interpretation
³
Die Syntax einer Logik legt ausschließlich deren äußere Form fest,
sie sagt aber nichts über die Bedeutung der Formeln aus.
³
Benötigt wird eine Verbindung zwischen den syntaktischen Elementen der Logik und den Objekten der zu repräsentierenden Welt.
³
Diese Verbindung wird durch eine sogenannte
gestellt.
³
Eine -Interpretation einer Signatur ist die Zuordnung von den Elementen der Signatur (Namen) zu den Elementen der zu repräsentierenden Welt.
´
-Interpretation her-
´
´
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
83
Erfüllungsrelation
Aussagenlogik
¥
¬
©
¦
À
É
ÇÓ
¾Ô
§ Ò
bereit.
º"»
¯
¦¹¸
¬
¦
©
¥
Æ
¦
Ä,Å
¥
Ë
Õ
¦
¥
µ
¥
µ
¦
§
»
Ë
¾
©
µ
¥
Ë
¿Ð
¬
Æ ÁÏ
Å
Ê
¬
Í
É
¼Å
È
Ê
ÇÈÉ
Ì ¾
É
Î ¾
½
Æ
Æ
Æ
¼
© È
µ
Á
© È
µ
Á
À ÁÂ
¿
¼
»
Ë
¬
½ÈÑ
¼
¥
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
eine mögliche Belegung.
84
Beispiel 3.2. Für die Signatur aus Beispiel 3.1 ist
definiert durch
für .
bezeichnet die Menge der Belegungen
µ·¶
½,¾
¼
85
½,¾
±
¼
½,¾
¼
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¼
Eine Erfüllungsrelation definiert hierzu im wesentlichen die Semantik der Junktoren.
¿
sie ordnet einer Interpretation und einer Formel
einen Wahrheitswert zu.
ÀÁÂ
Eine Abbildung
heißt
aussagenlogische Interpretation oder Belegung
für .
½
Durch solch eine Erfüllungsrelation ist definiert,
ob eine Formel in einer -Interpretation wahr
ist oder nicht, d.h.
Dieses stellt uns eine Erfüllungsrelation
Aussagenlogik
eine aussagenlogische
Belegung
Definition 3.3. Es sei
Signatur.
3. Logik
¦
Wir benötigen eine Ausdehnung der Semantik
.
auf alle Formeln
Die Interpretation liefert uns nur einen Wahrheitswert für die atomaren Formeln.
3. Logik
¥
Ã
½
86
¬
¨
¯
¿
µ
É
¬
¾Ô
¨
¦
¬
©
©
¬
§
©
©
§ Ò
¿
»
»
»
§­
©
»
µ
¬
¬
µ
¨
§
¿
©
¿
µ
©
Æ
»
»
µ
Ë
Õ
¦
¨
Ä Å
¬
§
¦
©
¿
¿
»
µ
»
µ Ò
Für
3. Logik
§
É
¿
µ
Ë
À
»
ÇÓ
¬
É
¾Ô
»
©
¾Ô
±
Ç Ó
¦
¿
µ
»
©«ª
µ
½,¾
¼
¬
¿
À
§
¿
§®
§
¦
¨ Ò
¬
¿
¬
»
gelte:
©
»
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
À
Ç Ó
»
§
und
©
¦
gdw.
(nichtDefinition 3.4. Es seien
atomare) aussagenlogische Formeln. Durch die folgenden Wahrheitstafel wird eine -Interpretation
von auf die Menge
ausgedehnt:
¬
Semantik der Aussagenlogik
Aussagenlogik
µ
3. Logik
Aussagenlogik
Modell
Definition 3.5. Es seien
so sagen wir
³
“ erfüllt
³
bezeichnen
Ö
؃ٗڟÛ3´ÝÜ
und
Þ
. Gilt
×àߏá‹â‡ãåä[æ—Û3´ÝÜ
Öèç é
als -Modell für
Ö
´
ØðÙ\ڞÛ3´ÝÜ
Þ
.
bezeichnet die Menge aller -Modelle für
´
Þ
.
von Formeln gelte
gdw.
Für eine Menge
für alle
. ist dann ein Modell für die Formelmenge .
ñ
Þ
,
Þ
” und
Þ
ê
á‹ë[ìíÛZÞîÜcï
ÖN×
×ôñ
ò
ߜáŽâ–ã…ä\æ—Û3´ÝÜ
Ö
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Öóç é
ñ
Öóç é
Þ
ñ
87
Erfüllbarkeit
Aussagenlogik
§
¥
ö
÷šú5Ú[þ\â–ø…ä—÷5څú™ÿšÙ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¥
¥
¥
©
¬
¦
À
Ç Ó
É
¾Ô
89
÷[úpÚ\û[â
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Ú\ßg÷‹ä5ø…äŽâîù
Die Begriffe werden in analoger Weise für Formelverwendet.
mengen
õ…ö
falsifizierbar gdw. es eine Interpretation gibt, die
kein Modell für die Formel ist.
Ù[üýù
Ö
allgemeingültig (Tautologie) gdw. jede Interpretation ein Modell für die Formel ist.
Beispiel 3.3. Die Interpretation
Formel
unerfüllbar (Kontradiktion) gdw. es kein Modell
für die Formel gibt.
÷[úpÚ\û[â
erfüllbar gdw. es ein Modell für die Formel gibt.
heißt
Ö
Definition 3.6. Eine Formel
Dagegen ist
“Kräht der Hahn auf dem Mist, ändert sich das
Wetter oder es bleibt wie es ist”
Besonders interessant sind Formeln, die für alle Interpretationen wahr bzw. falsch sind.
3. Logik
3. Logik
Aussagenlogik
Modell (2)
aus Beispiel 3.2 ist ein Modell für die
ö
Ù\ü
kein Modell für die Formel
ö5õ
÷
Beweis mit Wahrheitstafeln ✎.
88
Semantische Folgerung
Aussagenlogik
¥
§
§
©
§­
¥
¥
¨®
ª
¯
¬
©
¬
©
¯
©
§
©
¥
¦
À
É
Ç Ó
¾Ô
Ã
º
§
±
¥
Ë
§
­
­
¬
¯
¨
©
§­
¥
§
±
§
¥
¨
¬ ­
¨
¬
¬
§
¥
¨
¨
Õ
¥
©
§®
¯
¯
§
©«ª
¬ ­
¨
¯
©
§
©
¥
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
©
91
¨
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ª
Resolutionsregel
§
Ë
Damit können wir die Erfüllungsrelation
auf
eine Beziehung zwischen Formeln und Formelmengen ausdehnen.
¯
Oder-Introduktion
¨
¨
Unser übliches Verständnis von Folgerung läßt
sich so ausdrücken: Ist eine Formel
immer
dann wahr, wenn alle Formeln aus wahr sind,
dann folgt aus .
¬
.
¬
Und-Elimination
¯
entspricht
Modus Tollens
Modus Ponens
¯
Eine solche Menge
der Konjunktion
Tautologie
Beispiel 3.4. Wichtige Tautologien sind:
3. Logik
¬
Wir können eine Wissensbasis als eine Menge
betrachten.
In einem wissensbasierten System wollen wir
Fakten aus anderen Fakten und Regeln herleiten.
3. Logik
90
Aussagenlogik
¬
§
±
.
§
¥
¥
¨
¥
±
§
92
gdw.
Ë
Õ
¨
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¨ Ò
Ë
Õ
gelte
Ç Ó
¨
Für Formelmengen
für alle
gilt.
¾Ô
Ë
Õ
Wir sagen auch “ folgt logisch aus
folgt semantisch ”.
É
¨
§
In diesem Fall schreiben wir
À
Für eine Formelmenge
gelte
gdw. jedes Modell für auch ein Modell für G ist.
§
©
Definition 3.7. Es seien
genlogische Formeln.
Semantische Folgerung (2)
3. Logik
¦
” bzw. “aus
G heißt semantische Folgerung von
gdw. jedes Modell für F auch ein Modell für G ist.
aussa-
Aussagenlogik
¬
Ë
Õ
¨ Ò
¨
¥
¥
3. Logik
Aussagenlogik
Semantische Folgerung (3)
Beispiel 3.5. Gegeben sei die Formelmenge
õ…ö
ñ
ö
Ú\ßg÷‹ä5
ö ø…äŽâ
÷[ö úpÚ\û[â
õ…
é
ñ
Ù\ü
÷šú5Ú[û\â
Ù\ü
ö5õ
÷šú5Ú[þ\â–øgä÷pÚåúðÿ[Ù
Ú\ßg÷‹ä5ø…äŽâ
÷
ö5õ
Kann aus
ñ
çé
ñ
die Aussage
ö5õ
?
÷šú5Ú[þ\â–ø…ä—÷pÚåúðÿ[Ù
gefolgert werden, d.h. gilt
÷[úpÚ\þ[âŽøgä÷pÚåúðÿ[Ù
÷
÷
Ja! Beweis mit Wahrheitstafeln ✎.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
93
3. Logik
Aussagenlogik
Semantische Folgerung (4)
Beispiel 3.6. Wir wollen uns ein Haustier anschaffen und machen folgende Überlegungen:
1. Es sollte nur ein Hund ( ), eine Katze ( ) oder ein Hamster ( sein.
)
2. Besitzer wertvoller Möbel ( ) sollten keine Katze anschaffen, da diese die Möbel zerkratzen würde.
3. Ein Hund erfordert ein freistehendes Haus ( ), damit sich kein Nachbar durch das Bellen gestört fühlt.
Þ
Wir vermuten: Für einen Besitzer wertvoller Möbel ohne freistehendes
Haus kommt nur ein Hamster in Frage.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
94
Aussagenlogik
Beweis mit Wahrheitstafeln ✎.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
95
3. Logik
Aussagenlogik
Semantische Folgerung (5)
Satz 3.1. Es seien !
aussagenlogische Formeln. Dann gilt:
Þ
ist Tautologie gdw. "
³
Þ
³
íÞ
çé
Þ
çé
³
Þ
gdw.
Þ
ù
gdw. $#%"&
Þ
ist unerfüllbar.
ist Tautologie.
ist unerfüllbar.
Bemerkung 3.2. Die Äquivalenzen können auf Formelmengen %('
ausgedehnt werden.
ñ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
96
Aussagenlogik
Kalkül
³
Schon das kleine Beispiel 3.6 verdeutlichte, daß Inferenz auf Basis
der Definition der semantischen Folgerung ineffizient ist.
Allgemein müssen für eine Formelmenge
mit ) verschiedenen
Aussagevariablen *,+ Belegungen getestet werden.
³
ñ
³
Daher benutzt man für die maschinelle Inferenz Techniken, die allein
auf der Syntax der Formeln beruhen.
³
Statt alle möglichen Belegungen zu testen, sucht man nach einer
Folge von syntaktischen Umformungen, die die Hypothese zu beweisen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
97
§
±
§
Aussagenlogik
Dies besagt, daß aus den Formeln (der syntaktischen Form)
(Bedingungen) eine Formel der Form
(Schlussfolgerung) abgeleitet
werden kann.
3. Logik
±
§
So können aus den Tautologien von Beispiel 3.4
Inferenzregeln gebildet werden. Aus dem Modus
Ponens ergibt sich die Inferenzregel:
¥
§
¨
¯
¨
§
§
±
§
§
¥
99
¥
¥
±
-
§
§
§
±
±
Sie werden in der folgenden Form notiert:
98
Die Inferenzregeln sind Vorschriften, nach denen
aus Formeln andere Formeln abgeleitet werden
können.
eine Menge von elementaren Widersprüchen
(negativer Kalkül).
Die Axiome sind entweder eine Menge von elementaren Tautologien (positiver Kalkül) oder
±
±
§
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¥
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¥
±
Ist eine Formel
aus den Formeln
durch eine Folge von Anwendungen der Inferenzregeln ableitbar, so schreibt man
Kalkül (2)
Aussagenlogik
Ein Kalkül besteht aus einer Menge von logischen Axiomen und Inferenzregeln.
3. Logik
¥
§
§
Eigenschaften von Kalkülen
Aussagenlogik
ö
¥
Ù\ü
0
K÷šú5Ú[þ\â–ø…ä—÷5څú™ÿšÙ
¨
§
¨
Ë
Õ
§
¨
-
§
Ú[߅÷Žäaøg
ö ä‹âMù
÷[úpÚ\û[â
.
ƒ÷[úpÚ\û[â
Ù\üýù
÷šú5Ú[þ\â–ø…ä—÷pÚåúðÿ[Ù
¥
÷[úpÚ[û\â
ö
ö
÷šú5Ú[þ\
ä—÷5څúðÿ[Ù
ö â–ø…
õ
ä
§
/
¨
¨
§
¨
Õ
Ë
§
¥
ä
3
§
101
ñ
õgö
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
-
¨
Õ
§
3
¨
ª
§­
¨
Ë
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ñ
impliziert
Beispiel 3.7. Gegeben sei die Formelmenge
der Inferenzregel Modus Ponens leiten wir ab:
Ein Kalkül ist widerlegungsvollständig gdw. aus
allen semantischen Folgerungen eine unerfüllbare Formel abgeleitet werden kann, d.h. für Formeln und gilt:
Ú[߅÷Žäaøgä‹â
impliziert
õgö
Ein Kalkül ist vollständig gdw. alle semantischen
Folgerungen auch syntaktisch abgeleitet werden
können, d.h. für Formeln und gilt:
÷šú5Ú[û\â
impliziert
Also gilt:
Ein Kalkül ist korrekt gdw. alle syntaktischen Ableitungen auch semantische Folgerungen sind,
d.h. für Formeln und gilt:
3. Logik
3. Logik
Aussagenlogik
Kalkül (3)
aus Beispiel 3.5. Mit
ö
Ù[ü
Ù\ü
Nochmals angewandt ergibt sich:
õ
÷
/
÷
ö5õ
12 .
÷
100
3. Logik
Aussagenlogik
Semantische Äquivalenz
Beispiel 3.8. Syntaktisch unterschiedliche Formel können identische
Wahrheitswerte haben. Man betrachte die Formeln " 546 und " 5#
"7 :
ÛZÞ
:
Þ
;
:
;
;
" 8; 49
:
:
:
:
;
}ÛZÞ
:
Ü
Þ
" 8; #%"&
:
:
:
Ü
íÞ
Definition 3.8. Zwei aussagenlogische Formeln !
heißen semantisch äquivalent gdw. <
für jede Belegung
gilt.
Þ
֞Û
×
é
֞ÛZÞ
ߜáŽâ–ã…ä\æ—Û3´ÝÜ
Ü
ØðÙ\ڟÛ3´ÝÜ
Wenn
Þ
und
semantisch äquivalent sind, schreiben wir hierfür
¬ ­
¨
¬ ®
¨
§®
ª
ª
¬
§
¬
> @>
§
¨
ª
§®
ª
©
§­
ª
©
>
§
¯
§
§
§
¨®
¨­
§
§­
§­
§®
©
©
¬ ®
¨
¬ ­
¨
§®
>
§
¬
>
§­
¨
¨
§­
©
§­
§­
©
§®
©
©
> ?> ?> > > > >
¨
§®
©
ª
¬
§®
©
ª
>
¨
§
§®
§
?>
§
ª
§­
¨
¬
¨
¨
ª
¨
§®
¬
¬
¬
¬
§­
¨­
©
§®
.
103
Distributivität
Absorption
Assoziativität
¬
¨
=
102
Kommutativität
Implikation
DeMorgan
Dop. Negation
Idempotenz
Semantische Äquivalenz (2)
Lemma 3.2. Wichtige semantische Äquivalenzen
sind:
3. Logik
Aussagenlogik
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Þ
¨®
©
§­
¨®
©
§®
¨­
©
§­
§®
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Ö
MÜ
×
3. Logik
Aussagenlogik
Normalformen
Für die maschinelle Inferenz ist die Darstellung einer Formel in einer
standardisierten und möglichst einfachen Form wichtig.
Definition 3.9.
³
Eine Formel
ist ein Literal gdw. eine atomare Formel oder die
Negation einer atomaren Formel ist.
³
Eine Formel ist in konjunktiver Normalform (KNF) gdw.
junktion von Disjunktionen von Literalen ist, d.h.
Þ
Þ
Þ
Þ
eine KonÞ
BADC(E?CF4HGIGJG/46ACKEMLON F#PGJGJG/# BARQE?CS4PGJGJG/46ATQEULWV
é
Û
Û
Ü
Û
‡Ü
Ü
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
104
3. Logik
³
Aussagenlogik
Eine Formel ist in disjunktiver Normalform DNF gdw.
junktion von Konjunktionen von Literalen ist, d.h.
Þ
Þ
é
Û
BA C(E?C #HGIGJG/#6A CKEML N F4PGJGJG/4 BA QE?C #PGJGJG/#6A QEUL V
Û
Ü
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Û
eine DisÞ
Ü
Ü
105
3. Logik
Aussagenlogik
Normalformen
Beispiel 3.9. Die Formeln
849"7546 F#YX und " $#9
ÛZÞ
Ü
íÞ
sind in KNF.
Die Formeln
<" 8#Z S4 <"[
Û
Þ
MÜ
#%"RX
Û
und $4%"&
2Ü
Þ
sind in DNF.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
106
3. Logik
Aussagenlogik
Transformation in Normalform
Umformungsregeln für KNF/DNF-Transformation:
Schritt 1
Þ
\
" 849
ù
ù
" "
]
Schritt 2
" 8#9
" 849
Schritt 3 (KNF) $4 <^#Z
$#9 F46
Schritt 3 (DNF) $# <^4Z
$49 F#6
Þ
\
íÞ
ù
Ü
}ÛZÞ
Ü
\
}ÛZÞ
Þ
ù
Þ
ù
ÛZÞ
Þ
\
Ü
ù
ÛZÞ
\
Ü
Û
Ü
" 84%"&
" 8#%"&
84% F# 846
84Z F# _846
8#% F4 86
# 8#Z F4 _8#6
Þ
\
Û
ÛZÞ
Þ
ù
Ü
ÛZÞ
ÛZÞ
\
Ü
ù
ÛZÞ
\
ù
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ÛZÞ
Ü
Ü
Ü
Û
Ü
ÛZÞ
Û
Ü
Ü
Ü
107
3. Logik
Aussagenlogik
Klauselform
Für die maschinelle Inferenz benutzt man eine Mengendarstellung der
KNF, die sogenannte Klauselform.
Definition 3.10.
Eine Klausel ist eine Menge von Literalen `ACaJGJGJGJbATQdc , die der Disjunktion A C 4PGJGJG/4eA Q entspricht.
³
Die Klausel `,c ist die leere Klausel. Sie wird in der
: Form f geschriehg ( (i ).
ben und entspricht dem Wahrheitswert
³
ö
õ
æ\ú
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
108
3. Logik
³
Aussagenlogik
Die Klauselform einer Formel
Þ
é
in KNF mit
Þ
BA C(E?C 4HGIGJG/46A CKEML N F#PGJGJG/# BA QE?C 4PGJGJG/46A QEUL V
Û
Û
Ü
Û
‡Ü
Ü
ist die Menge
Þ
é
`,` jA C(E?C IGkGIGJKA C(EML NlcmIGJGJGJa`A QE?C kGIGJGJ(A QEML V c,c
\Û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
109
Resolution (2)
Aussagenlogik
Definition 3.11. Seien
eine atomare Formel mit
Dann heißt die Klausel mit
Für die maschinelle Inferenz benutzt man Resolution in Verbindung mit Klauselform.
3. Logik
r
o
q
o
±
r
ª
o
Ò
n
Ã
¬
oq
111
n
ª
p
¬
Ã
º
s
r
s
n
t
º
o
Ë
), gehe ich ins
.
Hieraus folgt, daß ich ins Kino oder ins
Schwimmbad gehe, also
¯
¥
Ò
r
ª
©
o
q
o
q
©
o
o
Õ
Ã
vxw
®
Ë
p
¯
n
o
ª
±
¯
º
n
¥
¯
§
¨
ª
¯
§
u
±
¨®
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
110
Als Inferenzregel geschrieben lautet die Resolution
wie folgt:
p
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
¥
p
Ein Resolutionsschritt wird wie folgt dargestellt:
n
.
¯
Wenn es nicht regnet (
Schwimmbad ( ), also
Wenn es regnet ( ), gehe ich ins Kino ( ), also
.
o
ª
und
Resolution
Aussagenlogik
Beispiel 3.10. Resolution basiert auf folgendem
Schema:
3. Logik
n
n
Resolvente von
Klauseln und sei
und
.
r
o
vxy
3. Logik
Aussagenlogik
Resolution (3)
Beispiel 3.11. Modus Ponens und Modus Tollens können als Spezialfall der Resolution dargestellt werden:
zk|~}
z†{S|…‚„}
z/{€}
zƒ‚„{S|…}
z/}
z/{S|~}
Die Resolvente zweier widersprüchlicher Klauseln ist die leere Klausel:
zk|~}
z†{S|~}
‡
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
112
3. Logik
Aussagenlogik
Resolution (4)
Beispiel 3.12. Herleitung der Aussage aus Beispiel 3.6 mit der ResoˆK‘’W
‰ ŠB“€
ˆb‰‹Š_ŒŠ<Ž
lutiosregel:
ˆb“Š_ŒŠ<Ž
ˆ(‘”~Š<‘Œ–
ˆ(‘”~Š_“.Š•Ž
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
113
Resolution (6)
Aussagenlogik
Ÿ ¥
Satz 3.3. Es sei eine Klauselmenge und es sei. Für eine Resolvente von
und
en
gilt
.
3. Logik
ž
¥
¤
Ÿ £ ¦ ž §
Ÿ
¢¡
Ÿ£
genau dann erfüllbar, wenn
ž
Insbesondere ist
erfüllbar ist.
ž¨
ž
©
ª¥
«
Dies nutzt man im Resolutionskalkül aus. Um zu
zeigen, daß eine Klauselmenge unerfüllbar ist,
bildet man solange Resolventen und fügt sie der
Klauselmenge hinzu, bis irgendwann eine Menge
entsteht, die die leere Klausel enthält.
«
ž
¬ž
ž
¬ž
«
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
115
Diese Klauselmenge
ist unerfüllbar, also muß
auch die ursprüngliche Klauselmenge unerfüllbar sein.
— D.h., man beweist ˜
Satz 3.3 sagt aus, daß durch die Hinzunahme
von Resolventen die Erfüllbarkeitseigenschaft einer Klauselmenge nicht beeinträchtigt wird.
3. Logik
Aussagenlogik
Resolution (5)
— Das letzte Beispiel zeigt den direkten Beweis einer Formel mit Hilfe
der Resolutionsregeln.
— Beim Resolutionskalkül führt man stattdessen einen Widerspruchsbeweis.
™ š › , in dem man zeigt, daß ˜5œ6&› unerfüllbar
ist (vgl. Satz 3.1).
— Dies bedeutet, man leitet aus den Klauseln von ˜ vereinigt mit den
Klauseln, die sich aus &› ergeben, die leere Klausel ab.
114
3. Logik
Aussagenlogik
Resolution (7)
Beispiel 3.13. Herleitung der Aussage aus Beispiel 3.6 mit dem Resolutionskalkül:
Klauselmenge ­
der Voraussetzungen:
®,®¯±°(²³°„´
µm°a®
´¶° ·
² µm°a® ¯Y° µ,µ


˜

Klauselmenge ¸ der negierten zu beweisenden Aussage:
®,®¹´
µm°„®
[˜
µm°a®
»º
µ,µ
Es gilt, aus ­$¼6¸ die leere Klausel abzuleiten.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
ˆb‰‹Š<ŒŠ<Ž
ˆ(‘Ž
116
ˆK‘‰‹ŠB“€
ˆ(‘“€
ˆ(‰‹Š_Œ–
Aussagenlogik
ˆ(‘‰D
ˆ(Œ–
ˆ(‘”~Š•‘Œ–
ˆ(‘”Z
ˆ(”Z
½
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
117
3. Logik
Aussagenlogik
Eigenschaften der Resolution
Satz 3.4. Eine Klauselmenge ˜ ist unerfüllbar genau dann, wenn die
leere Klausel ¾ mit einer endlichen Anzahl von Resolutionsschritten aus
˜ abgeleitet werden kann.
Bemerkung 3.3. Aus Satz 3.4 folgt die Korrektheit und (Widerlegungs)Vollständigkeit des Resolutionskalküls:
— Die leere Klausel kann nur dann abgeleitet werden, wenn die ursprüngliche Klauselmenge unerfüllbar ist šÀ¿ Korrektheit
— Das Resolutionskalkül findet für jede unerfüllbare Klauselmenge eine
Widerlegung, d.h. die leere Klausel wird abgeleitet šÀ¿ Vollständigkeit
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
118
Aussagenlogik
Eigenschaften der Resolution (2)
— Im Fall der Aussagenlogik ist es entscheidbar, ob die leere Klausel
abgeleitet werden kann.
— Für Á Aussagenvariablen gibt es höchstens ÂÄà verschiedene Klauseln, die aus diesen Aussagenvariablen gebildet werden können.
— Der Prozess der Resolventenbildung ist also endlich, d.h. irgendwann können keine neuen Resolventen mehr gebildet werden.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
119
3. Logik
Aussagenlogik
Lemma 3.5. Es sei ˜
eine Klauselmenge. ˜ÆÅ sei eine Klauselmenge,
— die durch sukzessive Resolventenbildung aus ˜ entstanden ist.
— ˜ Å enthalte nicht die leere Klausel und
— aus ˜ÆÅ kann keine neue Resolvente erzeugt werden.
Dann ist ˜ Å und somit auch ˜
erfüllbar.
Beweis. Tafel ✎. ¾
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
120
Aussagenlogik
Fazit zur Aussagenlogik
— Eine Signatur legt die Variablen der Sprache fest.
— Aus den Variablen entsteht durch Festlegung einer Syntax eine Wissensrepräsentationssprache (Menge der Formeln).
— Eine Interpretation gibt den Variablen eine Bedeutung.
— Die Erfüllungsrelation dehnt diese Bedeutung auf alle Formeln aus
— Über die Erfüllungsrelation wird der Begriff der semantischen Folgerung festgelegt.
— Ein Kalkül stellt die Äquivalenz zwischen semantischer Folgerung
und syntaktischen Operationen her.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
121
3. Logik
Prädikatenlogik
Prädikatenlogik
In der Aussagenlogik ist es nicht möglich, Aussagen über ganze Klassen von Objekten zu machen, so daß Schlußfolgerungen für individuelle
Objekte möglich sind.
Es sei gegeben:
Martin ist ein Informatiker. Peter ist ein Informatiker.
Jeder Informatiker kann programmieren.
Wir wollen folgern:
Martin kann programmieren. Peter kann programmieren.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
122
Prädikatenlogik
Prädikatenlogische Signatur
Mit der Prädikatenlogik (1. Stufe) wollen wir Sachverhalte beschreiben,
die folgendes enthalten können.
— Objekte, z.B. Personen oder Sachen
— Funktionen auf den Objekten, z.B. Größe, Gewicht, Hochzeitstag
— Eigenschaften von Objekten
— Beziehungen zwischen Objekten
— Aussagen über Objekte, auch quantifizierende
Wie in der Aussagenlogik brauchen wir dazu zunächst einen Vorrat an
Bezeichnern.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
123
3. Logik
Prädikatenlogik
Prädikatenlogische Signatur (2)
Definition 3.12. Eine (PL1-)Signatur Ç^š
ÈjÉËÊhÌÎÍ
°lÏÐÑ,ÒmÓ
besteht aus
— einer Menge ÉËÊhÌÎÍ von Funktionssymbolen und
— einer Menge ϒÐÑËÒ von Prädikatensymbolen.
Jedes Symbol ÔÆÕ%É,ÊmÌ2ÍW¼
ÏÐÑ,Ò
hat eine feste Stelligkeit Ö5× .
Ein Funktionssymbol mit der Stelligkeit × heißt Konstante.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
124
Prädikatenlogik
PL1-Terme
Funktionssymbole dienen zur Beschreibung von funktionalen Eigenschaften der Objekte. In Verbindung mit Variablen zur Darstellung von
Objekte werden Terme gebildet.
Definition
Es sei ­ eine Menge von Variablensymbolen
°lÏÐÑ,Òm3.13.
Ó
ÑËйÚdÛ undÓ Çؚ
ÈjÉËÊhÌÎÍ
ȕ­ der
sei eine PL1-Signatur. Dann ist die Menge Ù
(PL1-)Terme wie folgt definiert:
1. Jedes Variablensymbol ÜYÕH­
ist ein PL1-Term.
2. Jedes nullstellige Funktionssymbol aus ÝÞÕ±ÉËÊhÌÎÍ ist ein PL1-Term.
3. Ist°JJã ß ãJãJ° Õ
á„â
á
(Á Ö à ) und sind
É,ÊmÌ2Í ein Á -stelliges Funktionssymbol
áäâ °JãJãIãk° á Ó
à PL1-Terme, so ist auch ߀È
à ein PL1-Term.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
125
PL1-Formeln (2)
Prädikatenlogik
eine Menge von VariaDefinition 3.15. Es sei
blensymbolen und
sei eine PL1der PL1Signatur. Dann ist die Menge
Formeln wie folgt definiert:
3. Logik
òå
å
ç èêé
æ§
ž
2. Ist
ñ
íî
¤ ö
ó õ
ž
ž
ž
ž ¡
¡
¡
ž
¡
÷ ¢ ø¡ø
ø
¡
å
¤
÷/ù
÷ç ¢ø¡ø
ó
ð
ô
ž
ø
¡
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
eine atomare Formel.
126
ein -stelliges Prädikatensymbol mit
und gilt
, so ist auch
ô
ò
127
æ
òå
ž
ž ¡
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
å
ç
Pl1-Formeln.
æ§
, dann sind auch
ç èêé
ú ðîû ü
¤
/÷ ù
eine PL1-Formel und
ð
ïí î
ìë ¡
1. Jedes nullstellige Prädikatensymbol
eine atomare Formel.
ist
eine Menge von VariaDefinition 3.14. Es sei
blensymbolen und
sei eine PL1Signatur. Dann ist die Menge der atomaren Formeln
über und wie folgt definiert:
òñ
3. Ist
ist eine PL1-
PL1-Formeln
Prädikatenlogik
Auf Basis der Terme können wir nun die Formeln
der Prädikatenlogik definieren.
3. Logik
ð
ïí î
¤
ó
PL1-Formeln.
æ
PL1-Formeln, dann sind auch
und
å
und
1. Jede atomare Formel über
Formel.
ð ü
ïí î îû
ìë ¡ þè ý
ÿð
2. Sind
òñ
ç
å
ñ
3. Logik
Prädikatenlogik
PL1-Formeln (3)
Beispiel 3.14. Den anfangs dargestellten Sachverhalt könnten wir
durch folgende Formeln ausdrücken.
ІÚ.ÑËÐ
á Ó
Ì
†Ð Ú.ÑËÐ ÈBº Ó Á
á
Ì È
" Ï Ð ÐÚhÚ&,ÑËÐÑ
Ð¹Ú ! .ÑËÐ Ó#
Ó
Ü Ì
ÈxÜ
% $
ÌÈjÜ
Die Frage, ob Martin und Peter programmieren können, würde dann als
PL1-Formel lauten:
%$
ÐÚhÚ&,ÑËÐÑ
Ì ÈBº
á' Ó ’Ï Ð ÐÚmÚ(ËÑ,ÐÑ
á Ó
Á œ
! $
Ì È) *
æ
,
-
«
ô
ô
ì
.- ë
è¤ é
/
,
-
ù -
,
ò1/ 0
«
ç.
129
ei-
ñ
ð
íî
¤
ó
jedem -stelligen Prädikatensymbol
zuordnet.
ne -stellige Relation
ð -¡
ïí î ç ,
ìë ¡
+§
ç èêé
æ§
128
sowie einer Abbildung , die jedem -stelligen
eine -stellige FunktiFunktionssymbol
zuordnet und
on
ò.
einer nichtleeren Menge
, der Trägermenge
(Grundbereich, Universum),
eine PL1besteht
òñ
Definition 3.16. Es sei
Signatur. Eine -Interpretation
aus:
Bisher haben wir wieder nur die syntaktische Struktur von Formeln festgelegt. Wir müssen nun die
Funktion-, Prädikaten- und Variablensymbole mit einer Bedeutng belegen.
3. Logik
Interpretation
Prädikatenlogik
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
,
ù -
ò2 ó
ç.
ô
«
ô
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ÏÐ
å
-
,
å
30
+§
-
,
å
30
æ
òå
ç
ú ðîû ü
3 òå
ç
+
÷
54
ú ðîû ü
08
-76
å
¤
ò
ç3
§
54 §
8
-76
ò5
130
ist die wie
:
-
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
+
§
ç,
ò 8
-76
5÷ ù
4
¡
ø
8 ø¡ø
-6
5÷ 4ç
ò/
ç.
für
ç,
-¡
,
unter
-¡
ò.
in
ò.
÷
Die Termauswertung von
folgt definierte Funktion
3
¤
Definition 3.18. Gegeben sein ein Term
, eine -Interpretation
und ei.
ne Variablenbelegung
eine Definition 3.17. Es sei
Interpretation und
eine Menge von Variablensymbolen. Dann ist eine Variablenbelegung eine
.
Funktion
Es sind noch nicht alle sprachlichen Symbole der
PL mit einer Bedeutung belegt, es fehlen noch die
Variablen.
Termauswertung
Prädikatenlogik
3. Logik
æ
8
-76
÷ ù
¡
ø
ø
ç / ÷ ¡ø
3. Logik
4
Prädikatenlogik
PL1-Semantik
°A@ Ó
Definition 3.19. Es sei 9;: È=<?> > eine Ç -Interpretation, B eine Menge von Variablensymbolen und CEDFB G(H I
< > eine Variablenbelegung.
CKJMLON;DB
G&H
<?> bezeichne die Modifikation von C an der Stelle P zu Q ,
d.h:
V
S für PX:Y
W S
CKJML7NRTS7U#:
Q für PZ:YS
Dann ist der Wahrheitswert einer Formel [ \E]^`_abcdeRfBU in 9 unter C
(geschrieben g h[ji ik>mlon ) wie folgt definiert:
p Für eine atomare Formel qKRkSsrut*v*v*v*tSxwU gilt:
g g qKRkS r t*v*v*v*tS w U=i i >mlon :YyF_%z{b|D~}
ROg gS r i >mlon tmvvmv*t€g gS w i i >*ln U‚\
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
@
> Rƒq&U
131
3. Logik
p Für [X„|…|t7[X†|…|t7[ H
Prädikatenlogik
… und ‡ˆ[ gelten die selben Regeln wie in der
Aussagenlogik.
p Für eine Formel ‰ŠP[ gilt:
g ‹‰&P[ji ik>mlonŒ:YyF_%z{b|D}
für jedes QŒ\Ž<?> gilt g gh[ji k>mlonx’‘“:”y_!z{b
p Für eine Formel •FP[ gilt:
g –•P[ji ik>*lnŒ:Yy_!z b—D}
es gibt ein Q˜\Ž<?> mit g go[™i ik>mlonšxf‘›:YyF_%z{b
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
132
Prädikatenlogik
Variablenbindungen
Definition 3.20. Tritt eine Variable P in einer Formel [ in einer Teilformel der Form ‰&P&… oder •P&… auf, so ist P eine gebundene Variable.
Tritt P in einer Formel ohne umgebenden Quantor auf, so ist P eine freie
Variable.
Eine PL1-Formel [
auftritt.
heißt geschlossen gdw. in [
keine freie Variable
Wenn Pœrut*vmvvmtPw die in einer Formel [ frei auftretenden Variablen sind,
dann heißt die Formel ‰&Pœr&vvmvž‰&Pwš[ der Allabschluss von [ .
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
133
3. Logik
Prädikatenlogik
Variablenbindungen (2)
Beispiel 3.15. Es sei P eine Variable und Q eine Konstante.
p P nur frei: Ÿ˜R1P&U?H
ŒR1P&U
p P nur gebunden (Allabschluss): ‰ŠP¡ŸŒR1P&U#H
˜R¢P(U
p P sowohl frei als auch gebunden: Ÿ˜R¢P(Uœ†£R¤•P¥ ˜R1P&UU
p P nur gebunden (Allabschluss): ‰ŠP—RŸŒR1P&Uœ†ŽR¤•FP¦ ŒR1P&UUU
p Grundformel: Ÿ˜R1QU?H
ŒRQU
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
134
Prädikatenlogik
PL1-Semantik (2)
p Hat eine PL1-Signatur § -stellige Prädikatensymbole, so ist ihr Wahrheitswert unabhängig von einer Variablenbelegung.
p Der Wahrheitswert einer geschlossenen Formel ist ebenfalls undabhängig von einer Variablenbelegung.
p Um dies auch bei einer beliebigen Formel zu erreichen, werden alle
frei auftretenden Variablen wie allquantifizierte Variablen behandelt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
135
3. Logik
Prädikatenlogik
@
Definition 3.21. Es sei ¨ : R=<?>€t >mU eine ¨ -Interpretation und [
]« ^`_abc!d©RfBªU sei eine PL1-Formel. Dann ist der Wahrheitswert von [
(geschrieben g h[ji iT¬ ) gegeben durch die Funktion
g ­i i ¬ D`]^`_abc d RfBªU®G(H
\
in
¯y_!z bFtO°±FcF²`bš³
mit
g o[™i k¬µ´Yy_!z b—D}
g o[™i ik¬mlon¶´·yF_%z{b für jede Variablenbelegung C
136
137
¼
º
und
heiDefinition 3.22. Zwei PL1-Formeln
ßen semantisch äquivalent gdw. für alle
Interpretationen und alle Variablenbelegungen
gilt:
ʹ
¸
»
¾
ÎÍ
¸ ¸ ¸Ë ¸Ì ¸ ¸ ½ Æ
Ä Ä É É ÅƒÆ È Æ ¸
È Æ ƒÅ Æ ÅƒÆ È Æ ÅƒÍ È Í ÅƒÍ
Â
¾¹ ¿ Á
½
ʹ
Ã
Â
¾À¸ ¿7Á
½
–¸ Ç –¸ Ç Ê ¹ Ç
ÅƒÆ È Æ Å Æ
Ä Ä É
ʸ Ë
ŃÆ
É
¾
ÎÍ
½¸ Æ
ÈÍ
É
Ê ¹ Ç –¸ Ç –¸ Ç –¸ Ç –¸ Ç
È Æ ÅƒÍ È Í ÅƒÆ È Æ
É ÅÆ ÈÆ
ʸ Ì
ÈÆ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Äquivalenzen für PL1-Formeln
¹
Lemma 3.6.
3. Logik
Prädikatenlogik
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Skolemisierung
Prädikatenlogik
Skolemisierung dient der Elimination von Existenzquantoren. Wir betrachten eine Pränexform:
3. Logik
Ê
Ò
Í ÒÒ
É ¸ ÔÒ
Ò
ÍÈ Ò
Å ÆÓ
Ô
ÅƒÆ ÑhÒ
ÒÒ
Ö
Õ
aus der Pränexform.
ÈÍ
2. Ersetze in der verbleibenden Formel
.
Stellen durch
1. Streiche
ÈÍ
Ê
ÉÕ Æ Ñ Ò
Ô
Í
Ê
Ê ÒÒ
Ò
ÆÓ Ô
ÒÔÒ
ÆÓ
ÉÕ Æ Ñ Ò
Ô
ÒÔÒ
É ¸ ÔÒ
ÒÒ
ÅƒÆ Ó
ÅƒÆ Ñ ÒÒ
Ò
Die Funktion heißt Skolemfunktion bzw. für
Skolemkonstante.
×
Ö
Õ
139
Ã
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
und
.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
138
4. Die Quantoren werden ganz nach außen geschoben.
3. Die Negation wird ganz nach innen gezogen, so
daß sie nur noch unmittelbar vor Atomen auftritt.
2. Beseitigung der Junktoren
1. Umbennung von Variablen derart, daß keine Variable sowohl frei als auch gebunden auftritt und
hinter allen vorkommenden Quantoren stehen
verschiedene Variablen.
Mit folgenden Schritten kann jede PL1-Formel in eine äquivalente Formel in VNF überführt werden:
Eine Pränexform, die als Junktor nur noch Konjunktion, Disjunktion und Negation enthält, wobei die
Negation nur unmittelbar vor Atomen auftritt, heißt
vereinigungstechnische Normalform (VNF).
Ï
Wir erhalten somit
an allen
Zum Ersatz von
wählen wir ein neues Funktionszeichen der Stelligkeit und führen folgende Operation aus:
Normalformen
Prädikatenlogik
Definition 3.23. Eine Formel , in der alle Quantoren außen stehen, heißt Pränexform.
3. Logik
¸
Ð
3. Logik
Prädikatenlogik
Normalformen (2)
5. Alle Existenzquantoren werden durch Skolemisierung entfernt.
6. Jetzt können alle Allquantoren entfernt werden.
7. Mit Hilfe der de Morganschen Regeln können disjunktive Normalform
DNF bzw. konjunktive Normalform KNF analog zur Aussagenlogik
erzeugt werden.
Ebenfalls analog zur Aussagenlogik kann eine PL1-Formel in KNF in
Klauselform dargestellt werden.
ä
Æ
für
für
É
Æ
Ê
ދßàá â
Ï
ã
ØsÝ
Ê
É ÆÛ
Æ
Ã
Ê
É ÆÛ
Durch
ÛÜ
æÃ
ÉkæÛ
Û
Ê ÔÒÒ
É ç Û Ñ ÒÔ
ÉÕ
Ã
Þ ßàá â
ÊÊ
Ü
ç€è
Û
ÉÕ ç Ñ Ò
ÉÛÔ
ÒÔÒ
ÊÚ
É
Þ ßàá â
141
Û
ê
Îç Ó
ÆÓ
Îç Ñ Ò
Ô
é ÆÑ
ÒÔÒ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Û
É ç€Û è
É
an.
ä
Ú
ÊÊ
geben wir in der Form
ÊÚ
å
Ý
ÊÚ
erhält man eine Abbildung
.
Ø
Ø
Ï
Eine Substitution
Ú
Ú
ØÙ
140
wird der Definitionsbereich von zunächst auf
ausgedehnt. Durch
für Konstanten und die
rekursive Anwendung von in der Form
Definition 3.24. Es sei
eine endliche Teilmenge von Variablensymbolen von . Dann ist eine
eine Substitution.
Abbildung
3. Logik
Substitution
Für die maschinelle Inferenz mit PL wird noch
ein Mechanismus zur Instanziierung von Variablen
benötigt.
Prädikatenlogik
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
Prädikatenlogik
Unifikation
Die Unifikation ist eine Substitution, bei der Terme gleichgemacht werden.
Definition 3.25. Eine Substitution ë heißt Unifikator der Terme ì und S
gdw. ë?Rfì€UI´ ë?RkSU gilt. ì und S sind dann unifizierbar.
Beispiel 3.16. Sind Pít7ît7ï Variablensymbole und QtOð€tñt Konstanten, so
sind die Terme òKR1PítAðuU und òKRQt7ñ*U nicht unifizierbar.
Die Terme òKR1PítAðuU und òKRQtOðuU sind unifizierbar mit ëó´
¯­P(ôQ ³ .
Die Substitutionen ë ´ ¯­P&ô%ð€tîô!Qt7ïFô­õ(RQtOQUA³ und ö ´ ¯­P&ô%ðMtOïô­õ÷RQtxîUA³
sind Unifikatoren für die Terme òˆR1Pítõ÷R1QŠtîUU und òKR’ð€t7ïU .
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
142
Prädikatenlogik
Allgemeinster Unifikator
Definition 3.26. Eine Sustitution ë heißt allgemeinster Unifikator für
die Terme ì und S gdw.
p ë ist Unifikator von ì und S und
p Für jeden Unifikator ø von ì und S existiert eine Substitution ù , so daß
øZ´·ùú›ë gilt.
Bemerkung 3.4. Es gibt einen Algorithmus, der für zwei Terme ì und
S entscheidet, ob sie unifizierbar sind und gegebenenfalls einen allgemeinsten Unifikator berechnet.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
143
Allgemeinster Unifikator (2)
Prädikatenlogik
êé
Û
Regel
(d)
(c)
(c)
(b)
Ã
und Konstanten, so sind sie unifizierbar
gleich ist.
û
ç
û
ç
û
(b) Ist eine Variable und eine Konstante, so sind
und unifizierbar. Man erweitere hierzu um
.
(a) Sind
gdw.
Gegeben seien zwei Terme und . Die Berechung
des allgemeinsten Unifikators geschieht wie folgt:
als allgemeinsten Unifikator
Man startet mit
und wendet sukzessive die folgenden Regeln an:
3. Logik
ç
û
ç
ê
û é
ò R1PítAýíR1îUÀtîUÿòKRTõ÷RïUÀt7ï{tQU
ˆ
P&ÿuõ÷RïUÀtAýíR1îUÿ­ï{tîÿ­Q
ýíR1îUÿ­ï{tîÿ­Q
îÿQ
ç
Ungelöste Unifikationen
ë
eine Variable und ein Term der Form
, so sind sie unifizierbar gdw. nicht
.
in vorkommt. Man erweitere hierzu um
Îç û
(c) Ist
Û
Îç û
û é
Û
ç
Ê
û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ç è
ÉÕ ç Ñ Ò ç
Ô
ÒÔÒ
(d) Sind und zusammengesetzte Terme, so sind
,
sie unifizierbar gdw.
und wenn jeweils und unifizierbar sind. Man erweitere um die Substitutionen,
die sich aus der Unifikation der und ergeben.
ê
Ê
ûè
ç
Ê
û
3. Logik
çü
ÒÔ
ûÉ Ñ ÒÒ û ü
Õ Ô
Ã
û
çü
ûü
Û
ç è
ÉÕ ç Ñ Ò
ÒÔÒ
Ô
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
144
Ã
ç
Prädikatenlogik
Allgemeinster Unifikator (3)
Beispiel 3.17. Es seien PítîtOï Variablensymbole.
Sind die Terme òKR1PítAýíR1îUÀtîU und òˆRTõ(RïFUstOïþt7QU unifizierbar?
¯`³
`¯ ³
¯­P&ô­õ÷R1ïFUA³
¯­P&ô­õ÷R’ýíR1îUxUÀtOïFô`ýíR1îUA³
¯­P&ô­õ÷R’ýíRQUUÀtOïFô`ýíR1QUstîô!Q{³
145
3. Logik
Prädikatenlogik
Resolution in PL1
Bemerkung 3.5. Die Begriffe Klausel, Klauselform und Literal werden
in PL1 analog zur Aussagenlogik definiert.
Bemerkung 3.6. Wir dehnen die Unifikation auf atomare PL1-Formeln
aus.
Zwei atomare Formeln ŸŒRfì`rÀtmvvmv*tAìwU und ŸŒRkSÀrÀt*vmvv*t'S'wU sind unifizierbar
gdw. ì und S für ´ `t*v*v*vmt unifizierbar sind.
Ñ
147
Ñ
ä
å
Ó
ÒÔ
ÒÒ
Ñ
Û
Ô
É
Êê Ó
Ô Ò
Ò
ä ÑÒ
Ô
Ä
Ä
é
Ó
ÒÔ
ÒÒ
Ñ
é Ô
å
ÉÉ Ñ
Û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ê
hat die folgende Form:
146
ÊÊ
(c)
Ô
, ein ne(b) Es gibt positive Literale
gatives Literal
und einen allgemeinsten
.
Unifikator von
Ñ
und
Ñ
(a)
Resolution in PL1 (2)
3. Logik
Definition 3.27. Es seien
PL1-Klauseln.
und
Die Klausel heißt PL1-Resolvente von
gdw. folgendes gilt:
Prädikatenlogik
haben keine gemeinsamen Variablen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
Prädikatenlogik
Resolution in PL1 (3)
Beispiel 3.18. Darstellung der Resolution für PL1:
J lkl N lkl J l "!#$&% l'(kl ! 'Kl % )+* J€L7N l L xl % L7N l' L N l kl ! N l Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
148
3. Logik
Logikprogrammierung
Logikprogrammierung
Das Idealbild der Logikprogrammierung:
Algorithmus
=
Logik
↑
“Was?”
↑
reine Problemspezifikation
Aufgabe des Programmierers
+
Kontrolle
↑
“Wie?”
↑
System
Die vollständige Trennung von Logik und Kontrolle ist in den heutigen
Sprachen zur Logikprogrammierung aus Effizienzgründen noch nicht
realisiert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
149
3. Logik
Logikprogrammierung
Hornklauseln
Für viele Anwendungen reichen drei Arten logischer Formeln aus:
(a) Formeln
der
Form ,.-0/ 121213/ ,$4
5
798
8
,.-:;1<1;12: ,$4=:>6@? , die Regeln darstellen.
6
bzw. als Klausel
7
(b) Ein Faktum wir durch eine einelementige Klausel ,A? ausgedrückt.
(c) Eine Anfrage der Form “Folgt , - / 121;1B/ , 4 aus den Fakten
und
Regeln?”
wird als Klausel in negierter Form geschrieben:
798
8
,.-:;1<1;12: ,$4C? .
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
150
Logikprogrammierung
Definition 3.28. Eine Hornklausel ist eine Klausel mit höchstens einem positiven Literal.
D
Eine Klausel der Form (a) heißt Regel,
D
eine Klausel der Form (b) heißt Faktum und
D
eine Klausel der Form (c) heißt Zielklausel.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
151
3. Logik
Logikprogrammierung
Prolog-Notation von Hornklauseln
In der Programmiersprache P ROLOG werden Hornklauseln wie folgt geschrieben:
(a) Regeln in der Form: E
FGIHKJKLHNMOL#PQPRPSLHSTUP
(b) Fakten in der Form: H.P
(c) Zielklauseln in der Form: FGSHKJKLHNMOLNPRPQPVLHSTUP
Das positive Literal einer Regel heißt Kopf.
Definition 3.29. Ein logisches Programm ist eine endliche Menge von
Regeln und Fakten.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
152
Logikprogrammierung
Prolog
Beispiel 3.19. Ein Logikprogramm zur Berechnung von Pfaden in einem Graphen:
WNXNYVZ[\ ^L ]K_
WNXNYVZ[\ L h=_
` Y b
T adc
Y
` Tbadc
` Y Tbadc
` Y Tbadc
FG0` Y b
T adc [ \ eL ]f_gP
FG0` Y b
T adc [ \ eL ]f_iL WCX#YSZ$[ ]jLhd_gP
[>Y ^L kK_gP
>[ Y L lQ_gP
[ kmL Z _gP
[ liL Z _gP
Anfrage:
FG
WNXNYVZ$[>Y L Z _
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
153
3. Logik
Logikprogrammierung
Auswertung von Logikprogrammen
D
D
Für Logikprogramme wird eine spezielle und effizientere Form der
Resolution verwendet, die sogenannte SLD-Resolution (Linear Resolution with Selection Function for Definite Clauses).
D
Hierzu wird jeweils das erste Literal der Zielklausel mit einem Regelkopf oder einem Faktum resolviert.
D
Hieraus ergibt sich eine neue Zielklausel, für die das gleiche Prinzip
angewendet wird.
Scheitert irgendwann die Resolvierung, findet ein Backtracking statt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
154
3. Logik
Logikprogrammierung
Beispiel 3.20.
:− Pfad(a,d)
{X/a, Y/d}
:− Kante(a,d)
{X/a, Z/d}
:− Kante(a,Y), Pfad(Y,d)
{Y/b}
fail
:− Pfad(b,d)
{X/b, Y/d}
:− Kante(b,d)
OK
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
155
3. Logik
Logikprogrammierung
Crashkurs Prolog
Beispiel 3.21. Gesucht sind alle dreistellgen Zahlen, die durch 5 und
6 teilbar sind und bei der Division durch 9 den Rest 3 liefern.
ndo XRX cVp [ h=_
FGrqsctqQkscVp [ hLdu^vOL<JfLM$LwLxyLzOL{OL|L}$L~Vs_€P
 cN‚2ƒKl2„#aCc…h Y „s† [ h Y „‡†b_
FG
X X cVp
ndo R
h Y „s† o
v o ‚Žh
v o ‚Žh
w o ‚Žh
[ˆ _iL n=o Q
X X cSp [ d
X X cSp [‰ _iL
n o Q
h _iL =
‹ ‰ L
‚ JvQv Š ˆ ‹ t
J v ŠŒh 
Y „‡†qs Z $
z L
Y „‡†qs Z $
{ L
Y „‡†qs Z ‘
~ P
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
156
Logikprogrammierung
Prolog-Grundlagen
D
Konstanten und Prädikate beginnen in Prolog mit einem Kleinbuchstaben.
D
Variablen beginnen mit einem Großbuchstaben.
D
In Anfragen sind Variablen existenzquantifiziert.
’
GŒ“ Y aCcSp [\ L”T o †#‚Q_gP
bedeutet: Existiert ein X, so daß X Vater von Nils ist?
D
In Fakten sind Variablen allquantifiziert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
157
3. Logik
D
Logikprogrammierung
Anfrage in Prolog bedeutet: Exsistiert eine Variablenbelegung, so
daß ... gilt?
D
Bei der Lösungssuche werden Variablenbelegungen generiert.
D
Hierbei wird die Unifikation durchgeführt.
a cVp ^[ W •
c aCcSpL^T o †b‚Q_€P
Fakt: “ Y d
’
a cVp [\ L^T o †b‚b_€P
Anfrage: G0“ Y d
Unifikation: \
–ŒW c9aCcSp
Mit dieser Unifikation kann die Anfrage bewiesen werden.
D
’
a cVp [\ L—T o †#‚Q_iL˜“ Y aCcSp [\ L™† Y pd‚Q_gP
Unifikationen werden übernommen: GŒ“ Y d
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
158
Logikprogrammierung
Beispiel 3.22. Lösung des Färbeproblems aus Kapitel 2:
X#Y cVpVkRƒQT  [š L›‘LœyLejL ‰ _
X#Y
X Y
#
X Y
#
X Y
#
p9ksc
p9ksc
p9ksc
p9ksc
FG
XNY V
X Y pVk=c [ ›‡_žL #
X Y p9ksc [ =
p k=c [š _iL N
œ _iL
X Y V
N
[
X
N
Y
[
‰
p k=c ‡_iL
pVk=c
_žL
š ŸS–R– ›‘L š V
Ÿ –Q– œyL š V
Ÿ –Q– ‘L š ŸV–Q– ‰ L
› ŸS–R– œyL¡› ŸS–R– ‘L
– ‰ L
œ ŸS–R– jL¢œ ŸV–QI
 ŸS–R– ‰ P
[ #
p 9a‡_gP
[ ks† Y ƒ(_€P
[  cb†k(_€P
[ Vp Y T  cC_€P
’
Anfrage: G
X#Y cVp9kQƒRT  [š L›yLœLyL ‰ _€P
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
159
3. Logik
Logikprogrammierung
Arithmetik und Unifikation
D
D
Der Operator = steht für die Unifikation. X = Y bedeutet: Können X
und Y unifiziert werden.
D
Der Operator == steht für die Identität.
is/2 wertet einen arithmetischen Ausdruch aus und unifiziert das Ergebnis mit einer Variablen.
’
\
\
’
G
G
–
¤ c#‚
\
z
o ‚rx
‹
JiP
o ‚rx
‹
JKL˜]
o ‚
J
‹
xyL \
–Q–
]£P
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
160
Logikprogrammierung
Datentypen in Prolog
Integer und Float ( -1, 1, -8.23)
D
Zeichenketten ¥>„=cb†R†Rr¦dSpN† Z ¥
D
D
Atome: Bezeichner beginnend mit einem Kleinbuchstaben ( p#9a‘L™† Y p=‚ ).
D
Konstanten sind Zahlen, Zeichenketten oder Atome.
D
Atomare Terme: Konstanten oder Variablen
D
Terme: einfache Terme oder Strukturen ( §Vƒ YSZ p Y a [ vOL¨v$L©JKLJI_ )
D
Listen: u"JKLM$LpNc Z L§Vƒ YSZ p Y a [ vOLªv$LJfLJI_«
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
161
3. Logik
Logikprogrammierung
Listen in Prolog
Mit dem Relistoperator kann eine Liste aufgeteilt werden:
’
u Y L kmLl«
– Y
G
\
–
]
’
\
G
–
u \+¬ ]NjP
u­kmL®l•
u Y L kmLliL Z L"cV
– uliL Z L™cV
–
u Y Lk ¬ \ j
 P
Es gibt eine Fülle von vordefinierten Prädikaten für Listen, z.B. append/3:
YtWQW «
Z [ u L°¯yL¡¯‡_€P
c T YtWQW «
Z [ u+
ˆ ¬± yL”¯‘L u ˆ+¬³² =_
c T FG
Y«WRW ctT Z$[± L¯yL ² _€P
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
162
3. Logik
Logikprogrammierung
Steuerung der Abarbeitung
X#Y ` [´ L¡H Y `
X#Y ` [ vOL<JV_gP
_
FG
´ J o ‚ ´ G JfL
XNY ` [´ f
J L¡H Y ž
` JS_žL
Y
Y
o
H `
‚rH `iŽ
J Š ´ P
Die Anfrage X#Y ` [ |L \ _ führt zu einem Fehler.
Prolog läuft in einen unendlichen Rekursionszyklus, weil die erste Regel
immer wieder anwendbar ist.
Grund: unvollständige Spezifikation
Abhilfe: Erweiterung der Regel: o Tbadc  cVp [ ´ i
_ L ´
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
µ
JfL ´ J
o ‚
PQPRP
163
3. Logik
Logikprogrammierung
Mit dem Cut wird Backtracking verhindert.
Sei eine Klausel der folgenden Struktur gegeben:
ˆ
¶9L š JKL#PQPRPVL š q+P
FGI›KJKL#PQPRPVL¡›VT.L
Sind ›(JfLNPRPQPVL¡›VT erfüllt, so werden alle eventuell noch anwendbaren
Regeln zum Beweis für ›(JfLNPRPQPVL¡›VT und ˆ abgeschnitten.
X X V
ndo R
c p [ =
h _ F GrqsctqQkscVp [ h L u^vOL<JfLMOLwyLx‘Lz$L{$L|yL}yL~…=_€P
Q
X
X
n Y „s† [ h Y „‡#
=
n
o
† _ F G
cSp [ d
h _iL n=o XQX cSp [‰ _iL¡h Y „s† o ‚ Jtv ŠIh
‹ ‰ P
`dc o Tsc W p o q n Y „‡† [ d
h _ F G n Y s
„ † [ ± _iLªcNl2„#aCcSp ± c o †…cVp [± L˜hd_gP
c#l<„badcVp ± c o R
† cVp [± L h=_ F G ± µ K
J L ± · h$L™v o 0
‚ hŽq‡ Z ± P
W p o q n Y s
„ † [ =
h _
W p o q n Y s
[
„ † =
h _
FG0`dc o s
T c W p o q n Y „‡† [ hd_žLC¶9L X#Y o †$P
FGh µ i
J P
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
164
Logikprogrammierung
Prolog genutzt Negation as failure, d.h. eine negierte Anfrage ist wahr,
wenn sie nicht bewiesen werden kann.
not/1 liefert keine Variablenbelegung und entspricht somit nicht der logischen Negation.
Die Verwendung des Cut im letzten Beispiel entsprach genau der Negation in Prolog.
X X V
ndo R
c p [ =
h _ F GrqsctqQkscVp [ h L u^vOL<JfLMOLwyLx‘Lz$L{$L|yL}yL~…=_€P
Q
X
X
n Y „s† [ h Y „‡#
=
n
o
† _ F G
cSp [ d
h _iL n=o XQX cSp [‰ _iL¡h Y „s† o ‚ Jtv ŠIh
‹ ‰ P
`dc o Tsc W p o q n Y „‡† [ d
h _ F G n Y s
„ † [ ± _iLªcNl2„#aCcSp ± c o †…cVp [± L˜hd_gP
c#l<„badcVp ± c o R
† cVp [± L h=_ F G ± µ K
J L ± · h$L™v o 0
‚ hŽq‡ Z ± P
W p o q n Y „s† [ h=_
FGh
µ
JKL ŸV‹
`=c o T=c W p o q n Y „‡† [ hd_gP
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
165
3. Logik
Logikprogrammierung
Zusammenfassung des Kapitels
Ein logisches System besteht aus:
D
D
Signatur ¸
Syntax aufbauend auf ¸ (Menge der Formeln), wodurch die Wissensrepräsentationssprache festgelegt ist.
D
¸ -Interpretation, die für die Elemente aus ¸
D
Erfüllungsrelation ¹ º , die die Semantik von Formeln festlegt.
eine Semantik festlegt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3. Logik
D
166
Logikprogrammierung
D
Klauselform zur kanonischen Darstellung von Formeln
Kalkül zur Durchführung der maschinellen Inferenz (Vollständigkeit,
Korrektheit)
Resolution als Inferenzverfahren in Aussagen- und Prädikatenlogik
D
Unifikation in der Prädikatenlogik
D
D
Logikprogramm: eingeschränkte Prädikatenlogik und angepaßtes
Resolutionsverfahren
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
167
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
4 Induktion von Regeln
D
D
Gegeben sei eine Menge von Objekten, die durch Attribut/WertPaare beschrieben sind.
D
Jedes Objekt kann einer Klasse zugeordnet werden.
Ein Entscheidungsbaum liefert eine Entscheidung für die Frage, welcher Klasse ein betreffendes Objekt zuzuordnen ist.
Beispiel 4.1. Gegeben seien die Beschreibungen von Bankkunden.
Die Bankkunden können in die beiden Klassen “kreditwürdig” und “nicht
kreditwürdig” eingeteilt werden. Ein Entscheidungsbaum soll eine Entscheidung liefern, ob ein Kunde kreditwürdig ist oder nicht.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
168
Lernen von Entscheidungsbäumen
Entscheidungsbaum
Ein Entscheidungsbaum ist ein Baum mit den folgenden Eigenschaften:
Ein Blatt repräsentiert eine der Klassen.
D
Ein innerer Knoten repräsentiert ein Attribut.
D
D
Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens.
☞ Geht man von nur zwei Klassen aus, repräsentiert der Entscheidungsbaum eine boolsche Funktion.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
169
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Klassifikation mit Entscheidungsbäumen
Ein neues Objekt wird mit Hilfe eines Entscheidungsbaums klassifiziert,
D
D
indem man ausgehend von der Wurzel jeweils die den Knoten zugeordneten Attribute überprüft und
D
so lange den Kanten folgt, die mit den Attributwerten des Objekts
markiert sind,
D
bis man einen Blattknoten erreicht.
Der dem Blattknoten zugeordnete Wert entspricht der Klasse, der
das Objekt zugeordnet wird.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
170
Lernen von Entscheidungsbäumen
Beispiel 4.2. Ein Entscheidungsbaum zur Risikoabschätzung für eine
KFZ-Versicherung:
Autotyp
= LKW
<> LKW
Risikoklasse = niedrig
Alter
> 60
Risikoklasse = niedrig
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
<= 60
Risikoklasse = hoch
171
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Entscheidungsbäume und Regeln
D
D
Entscheidungsbäume repräsentieren Regeln in kompakter Form.
Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer logischen Formel in der Form einer if-then-Regel.
Beispiel 4.3. Der Entscheidungsbaum aus Beispiel 4.2 entspricht den
folgenden Regeln:
if Autotyp º LKW then Risikoklasse = niedrig,
if Autotyp º » LKW and Alter ¼ 60 then Risikoklasse = niedrig,
if Autotyp º » LKW and Alter ½ 60 then Risikoklasse hoch.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
172
Lernen von Entscheidungsbäumen
Problem der Generierung von Entscheidungsbäumen
D
D
Ziel ist es, aus einer Menge von Beispielen (der sogenannten Trainingsmenge) einen Entscheidungsbaum zu generieren.
D
Ein Beispiel der Trainingsmenge besteht aus einer Menge von
Attribut/Wert-Paaren zusammen mit der Klassifikation.
D
Aus dieser Trainingsmenge ist ein Entscheidungsbaum aufzubauen,
der die Beispiele richtig klassifiziert.
Für so einen generierten Entscheidungsbaum hofft man, daß dieser
auch Beispiele, die nicht aus der Trainingsmenge stammen, mit hoher Wahrscheinlichkeit richtig klassifiziert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
173
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Beispiel 4.4. Trainingsmenge für den Baum aus Beispiel 4.2:
ID
1
2
3
4
5
Alter
23
18
43
68
32
Autotyp
Familie
Sport
Sport
Familie
LKW
Risikoklasse
hoch
hoch
hoch
niedrig
niedrig
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
174
Lernen von Entscheidungsbäumen
Naiver Ansatz der Generierung:
Man entscheidet streng sequentiell anhand der Attribute.
D
Jeder Baumebene ist ein Attribut zugeordnet.
D
D
Der Baum wird dann konstruiert, in dem für jedes Beispiel ein Pfad
erzeugt wird. Tafel ✎.
☞ Keine sinnvolle Generalisierung auf andere Fälle
☞ Overfitting
☞ Entscheidungsbaum mit vielen Knoten
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
175
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Beispiel 4.5. Zwei Entscheidungsbäume für die Trainingsmenge aus
Beispiel 4.4:
Alter
Autotyp
> 60
< 30
= LKW
<> LKW
>= 30 and <= 60
Risikoklasse = niedrig
Risikoklasse = hoch
Alter
> 60
Risikoklasse = niedrig
<= 60
Autotyp
<> LKW
Risikoklasse = niedrig
= LKW
Risikoklasse = hoch
Risikoklasse = hoch
Risikoklasse = niedrig
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
176
Lernen von Entscheidungsbäumen
Ziel der Generierung ist es, einen Baum aufzubauen,
D
D
der die Beispiele der gegebenen Trainingsmenge korrekt klassifiziert
und
der möglichst kompakt ist.
☞ Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist.
Occam’s Razor (William of Occam, 1285–1349):
One should not increase, beyond what is necessary, the number
of entities required to explain anything.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
177
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Prinzip der Generierung
Man teste das “wichtigste” Attribut zuerst!
D
Die Wichtigkeit hängt von der Differenzierung der Beispielmenge ab.
D
D
D
Die Beispielmenge wird gemäß der Attributwerte des ausgewählten
Attributs auf die Söhne verteilt.
Man setze dieses Prinzip in jedem Unterbaum für die diesem Unterbaum zugeordnete Beispielmenge fort.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
178
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Trainingsmenge zum Thema “Kinobesuch”:
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Attr.
+
o
o
o
+
o
o
o
+
o
+
o
o
Preis
$$
$
$
$
$
$$
$
$
$
$
$
$
$$
$
$
Loge
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
nein
ja
ja
ja
Wetter
o
o
o
o
+
+
+
o
o
+
-
Warten
ja
nein
ja
ja
nein
nein
nein
ja
nein
nein
ja
ja
ja
ja
nein
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Bes.
+
o
o
o
o
+
o
o
o
o
+
o
o
+
o
Kat.
AC
KO
DR
SF
DR
SF
KO
AC
KO
KO
DR
AC
SF
DR
AC
Land
int
int
int
int
int
int
nat
int
nat
int
int
nat
int
int
int
Res.
ja
nein
nein
nein
nein
ja
nein
nein
nein
nein
nein
nein
nein
ja
nein
Gr.
F
P
F
a
P
F
F
F
F
P
P
a
a
F
P
179
Kino?
ja
ja
nein
nein
ja
ja
ja
ja
nein
nein
ja
nein
nein
nein
ja
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Attributauswahl für das Kinoproblem:
ja: 1, 2, 5, 6, 7, 8, 11, 15
nein: 3, 4, 9, 10, 12, 13, 14
Gruppe
P
F
a
ja: 1, 6, 7, 8
nein: 3, 9, 14
ja: −
nein: 4, 12, 13
ja: 2, 5, 11, 15
nein: 10
ja: 1, 2, 5, 6, 7, 8, 11, 15
nein: 3, 4, 9, 10, 12, 13, 14
Kategorie
DR
ja: 5, 11
nein: 3, 14
AC
ja: 1, 8, 15
nein: 12
SF
KO
ja: 2, 7
nein: 9, 10
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
ja: 6
nein: 4, 13
180
Lernen von Entscheidungsbäumen
Bei der rekursiven Konstruktion können die folgenden Situationen auftreten:
1. Alle Beispiele zu einem Knoten haben die gleiche Klassifikation.
Dann wird der Knoten mit der entsprechenden Klasse markiert und
die Rekursion beendet.
2. Die Menge der Beispiele zu einem Knoten ist leer. In diesem Fall
kann man eine Default-Klassifikation angeben. Man wählt zum Beispiel die Klasse, die unter den Beispielen des Vaters am häufigsten
vorkommt.
3. Falls Beispiele mit unterschiedlicher Klassifikation existieren und es
Attribute gibt, die noch nicht in den Vorgängerknoten verwendet wurden, dann wähle aus diesen Attributen ein Attribut ¾ gemäß seiner
Wichtigkeit aus.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
181
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Generiere für jeden möglichen Attributwert einen Nachfolgerknoten
und verteile die Beispiele auf die Nachfolger gemäß ihres Attributwerts.
Setze das Verfahren für jeden Nachfolger fort.
4. Falls Beispiele mit unterschiedlicher Klassifikation existieren, es aber
kein noch nicht verwendetes Attribut gibt, dann ist die Trainingsmenge inkonsistent.
Inkonsistent bedeutet hier, daß keine funktionale Abhängigkeit der
Klassifikation von den Attributen existiert.
Beispiel 4.6. Kinoproblem: Als Grad für die Wichtigkeit eines Attributs
nehme man die Anzahl der Beispiele, die damit endgültig klassifiziert
werden. Tafel ✎.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
182
Lernen von Entscheidungsbäumen
Algorithmus zur Konstruktion
Algorithmus 4.1. [Entscheidungsbaum-Konstruktion]
W N
p #lSc Z N
ƒ pNc Entscheidungsbaum( ¿À:ÁÂ:Äà )
o X ¿ º Æ
Å aS„sctT
markiere à mit einer Default-Klasse;
p#c9aSƒCp9T
cQ†#‚Vc o XÈLJÉUÊ ¿ ˅ÌÎÍ­¾NÏtÏtÐQÑ ÉÒ º Ó£a…„=c«T
markiere à mit Ó ;
p#c9aSƒCp9T
cQ†#‚Vc o X Á ºaS„sctT
cVpQp#Sp
cQ†#‚Vc
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
183
4. Induktion von Regeln
X Sp
ctT Z
Lernen von Entscheidungsbäumen
c Y 2l „A¾ Ê Á Z 
X Sp c Y l2„ mögliche Partition Ô von ¾ Z 
o X Ѿ‡:Ô Ò besser als ÕÐ«Ï É aS„sctT
ÕÐ«Ï É ËÖº Ѿ‡:"Ô Ò
ctT Z
ctT Z
Sei ÕÐtÏ É º Ѿ‡:Ô Ò ;
Seien Ô.-:;1<1;12:Ô$4 die Teilmengen von Ô ;
X SpØ×mËÖº
ctT Z
ctT Z
ÙÚaCÆÛ Z 
Ì”Ü als Sohn von à ;
erzeuge
7 ÉÝÊ Knoten
É
¿ Ü ËÖº
¿A¹ fällt in Ô Ü ?
7
Entscheidungsbaum( ¿(Ü:ÁŽÞ ¾s?…:"Ì”Ü )
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
184
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Partitionen für Attribute
Typen von Partitionen fuer nominale Attribute
Attribut
=a1
=a2
Attribut
=a3
in A1
Attribut
<a1
<=a2
in A2
Attribut
<=a3
<a
>= a
Typen von Partitiionen fuer numerische Attribute
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
185
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Attributauswahl
D
D
Die auf Algorithmus 4.1 basierenden Verfahren heißen Top-Down Induction of Decision Trees (TDIDT). Durch den schrittweisen Aufbau
des Entscheidungsbaums wird die dadurch repräsentierte Hypothese schrittweise spezialisiert.
D
Der Kern eines TDIDT-Verfahrens ist die Attributauswahl.
D
Das Ziel bei der Attributauswahl ist es, den Baum möglichst klein
zu halten. Ein ideales Attribut würde die verbleibende Beispielmenge
exakt auf verschiedene Klassen aufteilen.
Der ID3-Algorithmus formalisiert diese Idee durch die Berücksichtigung des Informationsgehaltes der Attribute.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
186
Lernen von Entscheidungsbäumen
Informationsgehalt und Informationsgewinn
Die mit einem Ereignis verbundene Information wird logarithmisch aus
dessen Wahrscheinlichkeit berechnet.
Den mittleren Informationsgehalt ßrÑÔ Ò einer Wahrscheinlichkeitsverteilung Ô über einer endlichen Menge à bezeichnet man als die Entropie
von Ô :
ßáÑÔ Ò º
â ã‡äSåÀԗÑçæ Ò#èêéSëbì Ԕѳæ Ò
Wir stellen uns vor, daß in einer beliebigen Trainigsmenge jedes Beispiel die gleiche Wahrscheinlichkeit hat.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
187
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Demnach ist der Informationsgehalt íKÑî Ò einer Beispielmenge î
positiven und Û negativen Beispielen (genau zwei Klassen)
í(Ñî Ò ËÖº
ß
ð
ï
Û
ïAñáÛ+ò ïAñáÛyó
º
ï
ï
èéSë ì
ï@ñrÛ
ïAñrÛ
â
â
mit ï
Û
Û
èêéSë ì
bit
ïAñáÛ
ïAñáÛ
Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt.
Dazu stellen wir fest, wieviel Information wir nach dem Test eines Attributs ô noch benötigen.
Jedes Attribut ô teilt die Trainingsmenge õ in ö disjunkte Teilmenge
õø÷ù2ú2ý ú2ú2ùõÈû auf, wobei ö die Anzahl der verschiedenen Werte
üý
÷ù;ú<ú2ú2ù ûtþ ist, die ô annehmen kann.
Teilmenge õÀÿ habe ‡ÿ positive und ž
ÿ negative Beispiele.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
188
Lernen von Entscheidungsbäumen
Der mittlere Informationsgehalt von õ ÿ ist also
ü
õÀÿþ
‡ÿ
žÿ
þ bit
‡ÿC
ñ žÿ>ò ‡ÿCñžÿ
ü
Der mittlere Informationsgehalt der Antowrt, nachdem wir Attribut ô getestet haben ist:
ü
õ ô bekannt þ
û
ÿ
÷
ü
ô
ý
ÿ­þ
ü
û
‡ÿCñiÿ
ÿ÷ Añ
õBÿ­þ
ü
sÿ
iÿ
þ bit
‡ÿC
ñ iÿ>ò ‡ÿCñžÿ
ü
Um den Informationsgewinn Nô ôNþ von Attribut ô zu quantifizieren, bilden wir die Differenz der ursprünglichen Information (vor dem Test von
ô ) und der Restinformation (nach dem Test von ô ):
Nô
ü
ôNþ
ü
õ@þ
ü
õ ô bekannt þ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
189
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Der ID3-Algorithmus
Algorithmus 4.2. [ID3] Der ID3-Algorithmus ist eine Spezialisierung
von Algorithmus 4.1, bei der die Relation
“besser” für die Attributausü
wahl auf dem Informationsgewinn #ô ôNþ basiert.
ü
ô ôNþ maxiID3 wählt als nächstes Attribut ô dasjenige aus, bei dem N
mal ist.
Beispiel 4.7. Für die Wurzel des Kinoproblems haben wir
ü
#ô
Gruppe þ
ü
õ@þ
ü
õ Gruppe bekannt þ
"$#
&
%
ú! %'& ü)(#+*-,# þ/. %'& ü0(& * & þ1. %', & % * þ)2
ü
4ú 35 (
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
190
Nô
ü
Kategorie þ
Lernen von Entscheidungsbäumen
ü
õ@þ
ú46
ú (
,
ü
"
õ Kategorie bekannt þ
(
'% & ü
%
, * þ/. '% ( & ( (
ü
% %
* /þ . %'( & 3 3
ü
% %
* /þ . %', & 3 3
ü
Beispiel 4.8. Man berechne Nô ôNþ für alle Attribute und zeige damit,
daß das Attribut Gruppe bei Anwendung von ID3 auf das Kinoproblem
als Attribut für den Wurzelknoten selektiert würde. Tafel ✎.
Man berechne den Entscheidungsbaum gemäß ID3 für das Kinoproblem. Tafel ✎.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
191
ü
% 3
* þ2
, ,
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Bemerkung 4.1.
7
7
In der vorangegangenen Darstellung gingen wir stets von einer Beispielmenge mit zwei Klassen aus. Dies entspricht einer BernoulliVerteilung.
7
Dies Konzept wird mit Hilfe der Entropie auf ö Klassen verallgemeinert.
Der Informationsgehalt einer Beispielmenge õ mit ö Klassen ”
8 ÿ und
û
‡ÿ Beispielen in Klasse 8—ÿ (9: ; ÿ
÷ ‡ÿ ) ist dann:
ü
õ@þ<:=
ü
÷ù;ú<ú;ú2ù>Kûþ?
û
ÿ
÷
‡ÿA@CBDEsÿ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
192
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Beispiel 4.9. Gegeben sei die folgende Beispielmenge zur Klassifikation von Tieren:
ID
Größe
Beine
Tier
1
0.1
0
F
2
0.2
2
V
ü
õ Beine
ü
õ Beine
3
1.8
2
M
4
0.2
4
K
5
2.1
4
P
6
1.7
2
M
7
0.1
4
K
% @CBDE %
þ
F ÷ @CBDGE F ÷ IFH C@ BDJEFH
ü
õ Beine ( þ ÷ @CBDGE ÷ E @CBDJE E
H
H H
H
%
ü
ü
(
Nô Beine þ? õ@þ ú4 %% , , 3…þ
8
1.6
2
M
ú4
bit
ú4 % %
,
ú4 %
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
%
,
bit
bit
% Kú 3 % %
,
bit
193
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Der C4.5-Algorithmus
7
ü
7
Der (absolute) Informationsgewinn #ô ôNþ hat den Nachteil, daß dieser Attribute mit zahlreichen Werten bevorzugt.
Dies kann im Extremfall zu unsinnigen Ergebnissen führen.
Beispiel 4.10.
7
7
Bei einer medizinischen Diagnose werde als eines der Attribute die
PIN eines Patienten benutzt.
Dieses Attribut habe soviele Werte, wie es Patienten in der Datei gibt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
194
4. Induktion von Regeln
7
Lernen von Entscheidungsbäumen
7
Das Attribut partitioniert die Beispielmenge daher in Teilmengen, die
aus genau einem Patienten bestehen.
Die bedingte mittlere Information ist also
ü
õ PIN bekannt þ?
û
ÿ÷
ü
*%?
þ und damit ist der Informationsgewinn maximal.
7
Für die Diagnose ist die PIN dagegen nutzlos.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
195
4. Induktion von Regeln
Lernen von Entscheidungsbäumen
Algorithmus 4.3. Der C4.5-Algorithmus ist eine Spezialisierung von
Algorithmus 4.1, bei der die Relation “besser” für die Attributauswahl
auf
ü
dem sogenannten normierten Informationsgewinn #ôML9ôON)QP ôNþ basiert.
ü
ô ôNþ ü
N
Nô+LVôONRQP ôNþ? S
UTV>N)1WXP ôNþ
ü
Hierbei ist S YTV>N)1WYP ôNþ die Entropie des Attributs ô . Es sei õ
die Kardinalität der
es gebe L verschiedene Werteý für
ý
ü Beispielmenge,
ÿþ sei die relative Häufigkeit von Attributwert ÿ .
Attribut ô und ôZ
ü
S YTV>NRWYP
ü
ôNþ[
ü
ôNþ
\
ÿ$÷
ü
ô
ý
ÿþJ@CBD
E
ü
ô
ý
ÿþ
ü
ô+L9ôON)QP ôNþ
C4.5 wählt als nächstes Attribut ô dasjenige aus, bei dem #
maximal ist.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
196
Generieren von Assoziationsregeln
Assoziationsregeln
7
7
Assoziationsregeln beschreiben gewisse Zusammenhänge und Regelmäßigkeiten zwischen verschiedenen Dingen, z.B. den Artikeln
eines Warenhauses.
7
Die Zusammenhänge sind allgemeiner Art und nicht notwendigerweise kausal bedingt.
7
Man unterstellt aber, daß implizite strukturelle Abhängigkeiten vorliegen. Diese möchte man erkennen.
Typischer Anwendungsbereich: Verkaufsdatenanalyse
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
197
4. Induktion von Regeln
Generieren von Assoziationsregeln
Itemmenge, Transaktion und Datenbasis
Definition 4.1. Die Dinge, deren Beziehungen zueinander analysiert
werden sollen, werden als Items bezeichnet. Es sei ] ^'÷ù;ú<ú;ú2ù_Q`ba
eine endliche Menge von Items.
Eine Teilmenge c d ] heißt Itemmenge. Eine ö -Itemmenge ist eine
Itemmenge mit ö Elementen.
Eine Transaktion
Die Datenbasis
Nedf]
ist eine Itemmenge.
g ^Ah=÷ù;ú<ú;ú2ùihj!a
ist eine Menge von Transaktionen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
198
Generieren von Assoziationsregeln
Support
Definition 4.2. Es sei c dk] eine Itemmenge. Der Support von
der Anteil aller Transaktionen aus g , die c enthalten:
c
ist
K^oN<p$g q c dkNraG
S-l YPmLAN ü ®
c þn:
sgt
Beispiel 4.11. Bei der Verkaufsdatenanalyse eines Supermarktes
sind Items die Artikel aus dem Sortiment.
Die Transaktionen entsprechen den Einkäufen von Kunden.
Die Datenbasis besteht aus den Einkäufen der Kunden eines bestimmten Zeitraums.
Der Support der Itemmenge ^Au QTwvyx+a ist dann der Anteil der Einkäufe,
bei denen u.a. Milch gekauft wurde.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
199
4. Induktion von Regeln
Generieren von Assoziationsregeln
Assoziationsregel
Definition 4.3. Gegeben seien zwei disjunkte Itemmengen ™
c ù_z , also
c™ù_z df] und c {z | .
Eine Assoziationsregel hat die Form
c } z
Eine Transaktion erfüllt die Regel c }
enthält alle Items der Assoziationsregel.
Der Support von
c } z
z
.
gdw.
c ~z d N
ist der Support der Itemmenge
gilt, d.h.
N
c ~z
ü
S-l YP€L€N ü c } z <
þ oS l OYP€L€N c ~zAþ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
200
Generieren von Assoziationsregeln
Konfidenz
Definition 4.4. Gegeben seiü die Assoziationsregel c }
denz von c } z v‚P€1WYQhƒ-Mvyƒ c } zAþ ist definiert durch
ü
v‚P€1WYQhƒ-Mvyƒ c } zAþ
z
. Die Konfi-
K^oN<p$gt„c ~z d…NraG
K^oN<p$gt†c dkN‡a
S-l OUPmLAN ü c } A
z þ
S-l OUPmLAN ü c®þ
Bemerkung 4.2. Die Konfidenz ist eine bedingte Häufigkeit bzw. bedingte Wahrscheinlichkeit.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
201
4. Induktion von Regeln
Generieren von Assoziationsregeln
Beispiel 4.12.
Transaktion
1
2
3
4
5
6
Items
Brot, Kaffee, Milch, Kuchen
Kaffee, Milch, Kuchen
Brot, Butter, Kaffee, Milch
Milch, Kuchen
Brot, Kuchen
Brot
S-l YPmLAN ü ^
Kaffee, Milch a•þ
S-l OYP€LAN ü ^ Kaffee, Kuchen, Milch a•þ
S-l OUPmLAN ü ^ Milch, Kaffee a6} ^ Kuchen a•þ
ü
v‚Pm1WUQhJƒoŠv‚ƒ ^ Milch, Kaffee a6} ^ Kuchen a•þ
ú & & ‰ ˆ
ú ˆ
ú ,, ,, ˆ
ú4,,# , ,# ˆ
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
202
Generieren von Assoziationsregeln
Suche nach Assoziationsregeln
7
Support und Konfidenz sind Parameter mit denen die Relevanz einer
Regel beurteilt wird.
7
Beide Maßzahlen sollten möglichst groß sein.
7
Finde alle Assoziationsregeln, die in der betrachteten Datenbasis
– einen Support ‹IŒ S-l O und
– eine Konfidenz ‹IŒMv‚P€W haben.
Die Werte Œ$
S-l und
ŒMv‚Pm1W
sind dabei benutzerdefiniert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
203
4. Induktion von Regeln
Generieren von Assoziationsregeln
Das Problem wird in zwei Teilprobleme zerlegt:
7
7
Finde alle Itemmengen, deren Support ‹ Œ S-l ist. Diese Itemmengen heißen häufige Itemmengen (frequent itemsets).
Finde in jeder häufigen Itemmenge
JŽ
mit
ŽU‘ und mit Konfidenz
}
alle Assoziationsregeln
eJŽ
‹’ŒMv‚P€W
.
Die wesentliche Schwierigkeit besteht in der Lösung des ersten Teilproblems.
Enthält die Menge ] insgesamt Items, so sind prinzipiell
gen auf ihren Support hin zu untersuchen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
3`
Itemmen-
204
4. Induktion von Regeln
Generieren von Assoziationsregeln
Apriori-Algorithmus
Der sogenannte Apriori-Algorithmus nutzt folgendes bei der Suche nach
häufigen Itemmengen aus:
E
mit ÷ d E gilt
S-l OUPmLAN ü E þ<“ S-l YPmLAN ü Für zwei Itemmengen ÷ ù
÷þ
Somit folgt:
7
7
Alle Teilmengen einer häufigen Itemmenge sind ebenfalls häufige
Itemmengen.
Alle Obermengen einer nicht häufigen Itemmenge sind ebenfalls
nicht häufig.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
205
4. Induktion von Regeln
Generieren von Assoziationsregeln
Grober Ablauf des Apriori-Algorithmus:
7
Der Apriori-Algorithmus bestimmt zunächst die einelementigen häufigen Itemmengen.
%
7
7
In jedem weiteren Durchlauf werden die Obermengen mit ö”.
Elementen von häufigen ö -Itemmengen darauf untersucht, ob sie ebenfalls häufig sind.
7
Die Obermengen der häufigen ö -Itemmengen werden mit dem Algorithmus •–G—™˜5š—b˜€›GœA ermittelt.
Werden keine häufigen ö.
Algorithmus ab.
%
-Itemmengen mehr gefunden, bricht der
☞ Voraussetzung: Itemmengen sind lexikographisch geordnet.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
206
Generieren von Assoziationsregeln
Algorithmus 4.4. [Apriori-Algorithmus]
ž
÷:
^
%
häufige -Itemmengen
a
ö : 3

ŸO ˜¡‰œ ž ûA¢g÷ £ |6¤Gš
üž
¥
û¦:=•5–§—b˜š5—™˜€›GœA
û€¢€÷þ
¨ š— ©¡¡ Transaktionen
N<pg ¤Jš
¥<ª
¥
p û«v¬d­N‡a
¥eª
¨ š— : ©¡^A¡vKandidaten
vp % ¤Jš
v úv‚P l ®N[ •v úv‚P l ®N.
•
œA§¤
¥
žœA§¤
û ^Av¬p
û «v•ú4v¯P l XNe‹ °gt€±oŒ oS l OŠa
%
ö: ö¦.
œA§¤
ž
—Jœ³²´§—³Z~ û û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
207
4. Induktion von Regeln
Generieren von Assoziationsregeln
Algorithmus 4.5. [AprioriGen]
¥
¨ šû¦— : © ¡‰| ¡n€ù¶µ·p ž û€¢€÷ mit ¸£ µ!¤Jš
˜ ¨ ¹{
™
µ
öº3»©A§¤[ ^€ƒS÷ù2ú2ú2ú2ù¶ƒ«û€¢ E iù ƒ‡¼a6©AG¤”µ¦ ^€ƒS÷ù;ú<ú;ú<ù¶ƒ«ûA¢ E ¶ù ƒ'½-a¾² œA
¥
¥
û û ~¿^€ƒ ÷ ù2ú2ú2ú2ù¶ƒ û€¢ E ùiƒ ¼ ùiƒ ½ a
¨œA§š¤— ©¡‰¡!vp ¥ û¾¤Jš
¨ š— ©¡¡ ü öº % þ -Teilmengen S von v¤Jš
ž
˜ ¨ SÁ¥ p À ûAg¢ ¥ ÷²  œ€
û”
û
^AvAa
œA§¤
œA§¤
¥
—Jœ³²´§—³ û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
Beispiel 4.13.
Transaktion
1
2
3
4
Generieren von Assoziationsregeln
Œ oS l O ( ‰ˆ
Items
ACD
BCE
ABCE
BE
®}
208
¥
Itemm.
^ Aa
^ Ba
^ Ca
^ Da
^ Ea
ž
÷
Support
50%
75%
75%
25%
75%
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Itemm.
^ Aa
^ Ba
^ Ca
^ Ea
÷
Support
50%
75%
75%
75%
209
¥ E
¥ E
4. Induktion von Regeln
Itemm.
^ A,B a
^ A,C a
^ A,E a
^ B,C a
^ B,E a
^ C,E a
Itemm.
^ B,C,E a
Support
¥
®}
H
Support
®}
Itemm.
^ A,B a
^ A,C a
^ A,E a
^ B,C a
^ B,E a
^ C,E a
Itemm.
^ B,C,E a
¥
Generieren von Assoziationsregeln
Support
25%
50%
25%
50%
75%
50%
H
Support
50%
ž E
Itemm.
^ A,C a
^ B,C a
^ B,E a
^ C,E a
Support
50%
50%
75%
50%
ž
Itemm.
^ B,C,E a
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
H
Support
50%
210
Generieren von Assoziationsregeln
Unterstützung der Teilmengenoperation
7
7
Im Apriori- und im AprioriGen-Algorithmus werden sehr häufig Teilmengen überprüft.
7
Um diese Tests effizient durchführen zu können, werden die Kandidatenmengen in einem Hash-Baum verwaltet.
Struktur eines Hash-Baums:
– Innerer Knoten: Hashtabelle bezüglich Hashfunktion x ; Buckets
der Hashtabelle verweisen auf die Sohnknoten.
– Blattknoten: enthält Liste von Itemmengen
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
211
4. Induktion von Regeln
7
Generieren von Assoziationsregeln
c '^ ÷ù;ú<ú2ú;ù¶eû³a :
Innerer Knoten auf Ebene h : Anwendung der Hashfunktion x auf
QÂ
Das Ergebnis von x legt den Zweig fest, der weiter verfolgt wird.
Suchen einer Itemmenge
–
–
– Blatt: Suche in der Liste der Itemmengen
7
c ^'÷ù2ú2ú2ú2ù0eû5a :
Zunächst erfolgt eine Suche für c bis zu einem Blatt, in das die
Einfügen einer Itemmenge
–
Itemmenge eingefügt werden soll.
– Ist in dem Blatt Platz für eine weitere Itemmenge vorhanden, dann
wird c dort eingefügt.
– Kann das Blatt keine Itemmenge mehr aufnehmen, dann wird es
zu einem inneren Knoten und die Einträge werden gemäß x auf
neue Blätter verteilt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
Generieren von Assoziationsregeln
Kapazität der Blätter = 3
0 1 2
h(K) = K mod 3
0 1 2
0 1 2
{3,6,7}
212
0 1 2
0 1 2
{3,5,7}
{7,9,12}
{1,4,11}
{7,8,9}
{2,3,8}
{3,5,11}
{1,6,11}
{1,7,9}
{1,8,11}
{5,6,7}
0 1 2
{2,5,6}
{2,5,7}
{5,8,11}
{3,4,15}
{3,7,11}
{3,4,11}
{2,4,6}
{2,4,7}
{2,7,9}
{5,7,10}
{3,4,8}
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
213
4. Induktion von Regeln
Generieren von Assoziationsregeln
Suchen aller Itemmengen
erfüllt werden:
c
, die von einer Transaktion
Nn ^yN÷ù;ú<ú;ú2ù0N)j6a
7
Wurzel: Für jedes NÿpÃN wird x Nÿþ bestimmt und in den resultierenden Söhnen wird weitergesucht.
7
Innerer
Knoten: Hat man den Knoten durch x
ü
x NQÄ;þ für jedes NQÄ mit ÅÇÆI bestimmt.
ü
ü
Nÿþ
erreicht, dann wird
Auf die so resultierenden Söhne wird das Verfahren in gleicher Weise
fortgesetzt, bis ein Blatt erreicht wird.
7
Blatt: Prüfung, welche der in dem Blatt enthaltenen Itemmengen die
Transaktion N erfüllen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
Generieren von Assoziationsregeln
t = {1, 3, 7, 9, 12}
{3,4,15}
0 1 2
h(K) = K mod 3
0 1 2
0 1 2
{3,6,7}
214
0 1 2
0 1 2
{3,5,7}
{7,9,12}
{1,4,11}
{7,8,9}
{2,3,8}
{3,5,11}
{1,6,11}
{1,7,9}
{1,8,11}
{5,6,7}
0 1 2
{2,5,7}
{5,8,11}
{3,7,11}
{2,4,6}
{2,4,7}
{3,4,11}
{3,4,8}
{2,7,9}
{5,7,10}
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
{2,5,6}
215
4. Induktion von Regeln
Generieren von Assoziationsregeln
Bestimmung der Assoziationsregeln
Nach der Bestimmung der häufigen Itemmengen müssen noch die Assoziationsregeln mit einer Konfidenz ‹IŒMv‚P€W bestimmt werden. Diese werden aus den häufigen Itemmengen generiert.
c ù_z
Gegeben seien Itemmengen ™
mit
z ‘ c
. Dann gilt:
üü

v‚P€WUQhƒ-Šv‚ƒ c z þÈü} ü z  þn‹’Ž ŒMv‚P€Ž W
ŠÉ v‚P€WUQhƒ-Šv‚ƒ c z þ?} z þn‹’ŒMv‚P€W
für alle
z Ž d’z
Bei der Regelgenerierung nutzt man wiederum die Umkehrung aus.
Ž
Man beginnt mit einer möglichst kleinen Menge z und schließt alle
Ž
Obermengen von z aus, falls gilt:
üü
v‚P€1WYQhƒ-Mvyƒ c

Ž
Ž
z þ?} z <
þ ʒŒŠv¯Pm1W
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
7
216
Generieren von Assoziationsregeln
7
Man erzeugt aus einer häufigen Itemmenge c zunächst alle Assoziationsregeln mit einelementiger Konklusion (rechter Seite).
7
Alle Regeln mit Konfidenz
‹’ŒMv‚P€W
werden ausgegeben.
7
Sei Zj die Menge der Konklusionen häufiger
Itemmengen mit
ü
Elementen. Wir setzen ËjÌ÷e Í?ULmQPmLmqÎσ- Ëj þ .
Œ
x™jÌ÷<pÐZj[Ì$÷ überprüft man nun, ob
üü

v‚P€WUQhƒ-Mvyƒ c x™jÌ ÷þ?} ™x j[Ì÷þn‹’Œ$Mv‚P€1W
Für alle Konklusionen
gilt. Falls ja, dann wird die Regel ausgegeben, ansonsten wird
aus j[Ì÷ entfernt.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
x™jÌ÷
217
4. Induktion von Regeln
Generieren von Assoziationsregeln
Warenkorbanalyse
Beispiel 4.14. [Warenkorbanalyse]
ID
A
B
C
D
E
F
G
H
J
K
L
Artikel
Seife
Shampoo
Haarspülung
Duschgel
Zahnpasta
Zahnbürste
Haarfärbung
Haargel
Deodorant
Parfüm
Kosmetikartikel
N÷
x
x
NE
x
x
x
x
NH
NF
x
x
x
x
x
N_Ó
x
x
x
x
x
x
N)Ô
N)Õ
x
x
x
x
x
x
x
x
x
x
x
x
N0Ò
x
x
x
x
x
N_Ñ
N÷×Ö
x
x
x
x
x
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
x
x
x
x
x
x
x
x
support
0.4
0.8
0.6
0.6
0.4
0.2
0.3
0.1
0.6
0.2
0.5
218
Generieren von Assoziationsregeln
#
Wir setzen: Œ oS l O
ú ( ù_ŒMv‚P€WØ
ú
¥
ž
ž
÷Ù ^^A͔…
a ùy^AÚÇRa ù‚^ Ra ù‚^AÛtRa ù‚t^ õZRa ù‚^³ÜÝRa ùy^ aa
¥ E
Tafel ✎.
¥
¥
¥ ž
ž E
ž
^^A˜
Ú ù Ra ù‚^A˜
Ú ù_ÛtRa ù¯^A˜
Ú ùrÜÝRa ù‚^A˜
Ú ù …a ù‚^ ù¯ÜÝaRù‚^ ù aa
¥
vor¥ Teilmengencheck:
¥
¥ ž
¥
ž
ž
ž
H
^^A˜
Ú ù ù_ÛtRa ù¯^A˜
Ú ù ù¯Ü݅a ùy^AÚ ù ù Ra ùy^'˜
Ú ù¶¨
Û ù¯ÜÝaRù‚^AÚ ù_ۙù aRù‚^Aژù¯Üdù aRù‚^ ù¯Üdù aa
¥
¥
¥ ž
a
ù‚^A˜
Ú
ù ù aa
nach Teilmengencheck: ^^AÚ ù ùrÜÝR
H
¥
¥ ž
ž
^
A
^
Ú
˜
ù ù¯ÜÝR
a
ù‚^AÚ ù ù aa
H
¥ F ž F
|
4. Induktion von Regeln
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
219
4. Induktion von Regeln
ž E
. Wir
Generieren von Assoziationsregeln
Für die Generierung
wir mit
¥ ¥ der Assoziationsregeln
¥
ž
ž beginnen
erhalten: Ú }
ù
} ژù0Û } ژù } Ú ù }
¥
ž
ergeben
ùrÜÝ#Aa ß aus
ß (Konfidenz in Klammern):
¥ % ß ¥ sich die Regeln
¥
%
H
Ú } Ü<Þ ú4 ùiÚËÜà}
Þ ú ù Ü} ÚØÞ ú und °÷Ù ^^AÚáaRù¯^ aa
#'ß
ü
¥
¥
E ÍٙL³QP€L³qÎσ- °÷þn ^^Aژù aa , aber Ü9} Ú Þ ú4 erfüllt nicht das
Aus
¥ ^AÚ ù
Konfidenzkriterium.
¥ ž
ß die
¥ sich
¥ ž Regeln:% ß
ž ù #Aa ß ergeben
ž
Ú }
Þ ú4 ù¶Ú }
Þ ú4 ù
} ÚØÞ ú
¥
¥ ß
ž
Þ ú4
Mit E ^^Aژù aa ergibt sich } Ú
Aus
¥ ^Aژù
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
4. Induktion von Regeln
220
Generieren von Assoziationsregeln
Regel
Shampoo
Haarspülung
Duschgel
Kosmetik
Kosmetik
Shampoo, Deodorant
Haarspülung, Deodorant
Shampoo, Kosmetik
Haarspülung, Kosmetik
Kosmetik
}
}
}
}
}
}
}
}
}
}
Haarspülung
Shampoo
Shampoo
Shampoo
Haarspülung
Haarspülung
Shampoo
Haarspülung
Shampoo
Shampoo, Haarspülung
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
Support
0.6
0.6
0.5
0.5
0.4
0.4
0.4
0.4
0.4
0.4
Konfidenz
0.75
1.00
0.83
1.00
0.80
1.00
1.00
0.80
1.00
0.80
221
4. Induktion von Regeln
Generieren von Assoziationsregeln
Zusammenfassung
7
Entscheidungsbäume
–
–
–
–
7
Aufbau einer Klassifikationshierarchie für eine Trainingsmenge
top-down, rekursives Verfahren
Wesentlich ist die Attributauswahl
ID3-Algorithmus: Attributauswahl auf Basis der Entropie
Assoziationsregeln
–
–
–
–
Wesentlich: Berechnung häufiger Itemmengen
Apriori-Algorithmus zur Berechnung häufiger Itemmengen
Unterstützung des Apriori-Algorithmus durch Hash-Trees
Aus den häufigen Itemmengen werden unter Einsatz von AprioriGen die Assoziationsregeln generiert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
5. Clusteranalyse
222
Vorbemerkungen
5 Clusteranalyse
7
7
Bei der Generierung von Entscheidungsbäumen im vorigen Kapitel
wurde von Datensätzen ausgegangen, die als einen Attributwert eine
Klassenzugehörigkeit enthalten.
7
In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht
verfügbar oder zu aufwendig zu bestimmen.
7
Unter Umständen ist noch nicht einmal bekannt, welche Klassen es
gibt und wie sie charakterisiert werden könnten.
Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
223
5. Clusteranalyse
Vorbemerkungen
‘ ã†ä ¼
Eine Zerlegung einer Datenmenge g ^'â ÷ù<ú;ú2ú2ù_âY`ba
in seine
Clusterstruktur ist definiert als eine Zerlegung von g in ö disjunkte Teilmengen Û°÷ù<ú;ú2ú2ù¶Û”û mit
g
Û ÿ £
3
Û3ÿb{Û·Ä Û
÷ Î
~ ú;ú2ú€~Û û
å % ù2ú2ú2ú2ù>ö
| für ùQŹ % ù<ú;ú2ú2ù>öKù0æ
£ Å
|
für
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
5. Clusteranalyse
224
Vorbemerkungen
Die Cluster Û ÿ sind genau dann eine gute Repräsentation der Clusterstruktur von g , falls
7
7
alle Datensätze innerhalb der Cluster einen geringen Abstand und
alle Datensätze in verschiedenen Clustern einen großen Abstand
voneinander haben.
Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h.
7
kleiner Abstand bedeutet ähnliche Objekte und
7
großer Abstand bedeutet unähnliche Objekte.
Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
225
5. Clusteranalyse
Vorbemerkungen
Metrik
Definition 5.1. Es sei u eine Menge. Eine Funktion h
heißt Metrik gdw. die folgenden Bedingungen erfüllt sind:
1.
ü
h â€ù0çNþ<‹ â ù_çáp¿u
für alle €
2.
ü
h â€ù0çNþ? genau dann, wenn
3.
h â€ù0çNþ? h çfù_âKþ
4.
h â€ù_èbþn“Ih â€ù_çCþ/.éh çfù¶èbþ
ü
ü
ü
Das Tupel
ü
ü
u ¶ù h#þ
+}
ã†ä
.
für alle €
â ù_çápÐu
ü
u
⍠ç
.
.
für alle g
â ù_ç‡ù¶èZpÐu
.
heißt metrischer Raum.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
5. Clusteranalyse
226
Vorbemerkungen
Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen):
7
7
euklidische Norm:
ü
ü
h â€ù0çCþ? ê ; ¼ ÿ÷ â ÿ ¸
ç ÿþE
Anzahl verschiedener Attributwerte:
ü
ë â‡ÿù_çVÿþ? ì %
7
Für Mengen
c
und
z
ü
ü
h â€ù¶çNþ ; ¼ ÿ÷Jë ‡â ÿ^ù_çVÿþ
mit
falls â‡ÿM=çVÿ
sonst
ü
:
h c¨ù¶zAþ
„c ~zA „c {z
„c ~z
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
227
5. Clusteranalyse
SAHN-Clustering
Hierarchische agglomerative Verfahren
7
Hierarchische Clusteranalyseverfahren liefern einen Hierarchie von
Clustern.
7
Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster.
7
Agglomerative Verfahren bauen dabei die Clusterstruktur bottom-up
auf, d.h. zunächst betrachtet man die Datenmenge g als Cluster.
7
Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup die Hierarchie.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
5. Clusteranalyse
228
SAHN-Clustering
Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN)
1. Setze í9:
2.
3.
^^'â ¯÷ aRù;ú<ú;ú2ù‚^'âY`baa und ö:= .
ü¥
ü¥
¥
¥
¥
¥
ÿù Ä2þ? îïñðž÷iò
ò û h
ž
ù
Bestimme ÿ und Ä mit h
ü¥
¥
_\ óõô „ó \€ö ô
\ ô
ÿ^ù 2Ä þ<ÆIh‰¢
Œ ôâ gehe zu 4.
Falls h
ü  ¥
ü¥
¥
¥
í9: í ^ ÿ^ù ÄA•a þ/~ ÿ§~ 2Ä þ und ö ö· %
%
öÇ
Falls
þ
gehe zu 4. Sonst weiter mit 2.
4. Ausgabe von ö und í .
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
229
5. Clusteranalyse
7
ü
¥
¥
SAHN-Clustering
In dem Algorithmus wird ein Abstandsmaß h
ÿù Ä;þ für Cluster
verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.Typischerweise benutzt man:
– Minimalabstand (Single Linkage):
¥
ü
h
¥
ü
Ä2þ ÷5øOù™îú ïñð øOùJü h â€ù¶çNþ
ó„û
ÿ^ù
– Maximalabstand (Complete Linkage):
h
¥
ü
ÿ^ù
¥
ü
Ä2þ ÷5øOùîËú ý€þ øOù ü h â€ù¶çNþ
ó„û
– mittlerer Abstand (Average Linkage):
h
ü
¥
ÿ^ù
¥
Ä2þÈ
¥
%
¥
0ÿ ñ OÄ ÷ øù™ú Oø ùJü
ó„û
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
ü
h â€ù_çNþ
230
5. Clusteranalyse
SAHN-Clustering
7
Der Parameter h‰Œ¢ôâ legt fest, bis zu welchem Abstand Cluster verschmolzen werden.
7
Schritt 3 bedeutet: Die einzelnen Cluster ÿ^ù Ä werden aus der Clusterstruktur
entfernt und ein neues Cluster
¥
¥ mit den Datensätzen aus
ÿ vereinigt mit den Datensätzen aus Ä wird in die Clusterstruktur
eingefügt.
7
¥
¥
Bei Benutzung des Minimalabstabstandes für die Distanz zwischen
Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus
von Kruskal zur Berechnung von Minimalgerüsten.
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
231
5. Clusteranalyse
SAHN-Clustering
Dendogramm
7
Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten
Dendogramm visualisiert werden.
7
Die Höhe von Verbidungslinien entspricht dem Abstand zwischen
Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn
man hŒ¢ôâ variiert.
b
a
g
f
e
c
e
g
f
a
b
c
d
d
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
232
5. Clusteranalyse
c-Means
c-Means Verfahren
7
Cluster können auch durch ihre Zentren 9ÿ ÿ charakterisiert werden.
7
Die Zuordnung der einzelnen Datensätze â ÿ zu den ö Clustern kann
dann¥ mit der Nächste-Nachbar-Regel erfolgen, d.h. âKû gehört zu Cluster ÿ genau dann, wenn gilt:
ü
7
ü
h â û ù_ÿ ÿ þ? ‡Ä îZ÷ ïñð û h â û ù0ÿ Ä
ó ó
þ
Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der
Datensätze des Clusters:
ÿ9ÿŠ
%
¥
âKû
ÿ ÷ ¯øOù™ú
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
233
5. Clusteranalyse
c-Means
Algorithmus 5.2. Gegeben Datenmenge g , eine gewünschte Clusteranzahl ö , eine maximale Anzahl von Iterationen N)Œ¢ôâ .
ÿ ÷ù2ú2ú2ú;ù¶ÿSû .
1. Initialisiere Prototypen b
2. Ordne die Datensätze â‡ÿ gemäß der Nächste-Nachbar-Regel
den ö
¥
¥
Zentren zu. So entstehen neue Cluster ÷ ù;ú<ú;ú2ù û .
3.
NIN1. %
. Falls N?IN)Œ¢ôâ gehe zu 4.
Berechne die Zentren Vÿ ÿ von
¥
ÿ neu.
4. Ausgabe der Clusterstruktur und der Zentren #
ÿ ÷ù2ú2ú2ú2ù0ÿ…û .
Wissensverarbeitung und Data Mining — FH Bonn-Rhein-Sieg, WS 01/02
234
Herunterladen