Lernen aus Beispielen

Werbung
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
ww
ww.is.uni-fran
nkfurt.de
Einführung in die Methoden der
Künstlichen Intelligenz
Vorlesung 6 - Entscheidungsbaumlernen
5 Mai 2009
5.
Ingo J. Timm, René Schumann
ww
ww.is.uni-fran
nkfurt.de
Lernen aus Beispielen
Agenten können ihr Verhalten durch
Erfahrung verbessern
1
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Übersicht
1.
2.
3.
4.
Generelles Modell vom lernenden Agenten
Induktionslernen
Entscheidungsbaumlernen
Lernen von generellen logischen
Beschreibungen
5. Zusammenfassung
3
3
Generelles Modell vom lernenden
Agenten
Generelles Modell
4
2
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Vier konzeptuelle Komponenten
1. Lernelement
ƒ
ƒ
ƒ
Verantwortlich für
Verbesserungen
Hat Wissen über das
Lernelement und nimmt
zusätzlich ein feedback auf, wie
sich der Agent in der Umgebung
verhält und bestimmt dann, wie
das Performance Element
verändert werden soll, damit sich
die Leistung in Zukunft
verbessert.
Design hängt vom Performance
Element ab.
2.
Performance Element
ƒ
ƒ
3.
Verantwortlich für externe
Aktionen.
Nimmt Wahrnehmungen auf und
entscheidet, welche Aktionen
durchgeführt werden. (Æ früher
unser ganzer Agent)
Kritik
ƒ
ƒ
ƒ
Teilt dem Agenten mit, wie
gut/schlecht er ist (feedback).
Fester Performance-Standard
(Wissen, was gut und was nicht
gut ist).
Performance Standard
außerhalb des Agenten
Generelles Modell
5
Vier konzeptuelle Komponenten
4. Problemgenerator
ƒ
ƒ
Verantwortlich für neue
Akti
Aktionen,
di
die zu neuen
informativen Erfahrungen
führen.
Bsp.: kurzfristig suboptimale
statt optimale Aktionen, um
langfristig davon zu
profitieren.
Generelles Modell
6
3
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Beispiel
ƒ
Taxifahren
ƒ
Performance Element: Aktionen
des Taxis (Bremsen,
Beschleunigen, Hupen,…)
Lernelement: Formuliert Ziele,
z.B. bessere Regel zwischen
Bremsen und Beschleunigen,
Geographische Verhältnisse
lernen (Baustellen,…)
Kritik: Beobachtungen der Welt,
die dem Lernelement gegeben
werden (z.B. Spurwechsel am
Arc de Triomphe)
Problem generator: versuche
beim nächsten Mal die A1/A24,
statt die A27/A2, um nach Berlin
zu fahren.
ƒ
ƒ
ƒ
ƒ Lernelemente
ƒ Es existiert eine Vielzahl von
Lernelementen. Um sie zu
verstehen, schauen wir uns
an, wie der Kontext, in dem
sie arbeiten ihr Design
beeinflußt. Das Design eines
Lernelementes beeinhaltet
vier wichtige Punkte:
1 Komponenten des
1.
Performance Elementes
2. Repräsentation
3. Feedback
4. A priori Wissen
Generelles Modell
7
Design von Lernelementen
1. Komponenten des Performance Elementes
ƒ
Viele Wege, um ein Performance Element eines Agenten zu
bauen. Die folgenden Informationen könnten enthalten sein:
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
Direktes Mapping von Bedingungen zu Aktionen
Informationen über das Ergebnis der Aktionen
Utility Informationen, wie die Welt aussehen soll
...
Jede dieser Komponenten kann gelernt werden, solange ein
feedback vorhanden ist.
In einem gewissen Sinn kann der Performance Standard als
die Definition von unterscheidbaren Wahrnehmungen
angesehen werden. Diese werden als direktes Feedback auf
die Qualität des Verhaltens des Agenten interpretiert.
Generelles Modell
8
4
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Design von Lernelementen
2. Repräsentation der Komponenten
ƒ
Jede dieser Komponenten kann mit jeder
Repräsentationsform, die wir bisher gelernt haben dargestellt
werden.
ƒ
Deterministische Beschreibungen wie linear gewichtete
Utility Funktionen bei Spielen
Aussagenlogik/FOL bei logischen Agenten
Wahrscheinlichkeitstheoretische Beschreibungen wie BeliefNetze
ƒ
ƒ
ƒ
Für alle Formen gibt es Lernalgorithmen, sie unterscheiden
sich in ihrer Form für jede Repräsentation, die globale Idee
bleibt aber immer die gleiche
Generelles Modell
9
Design von Lernelementen
3. Verfügbares Feedback
ƒ
Für manche Komponenten (z. B. Vorhersage eines Ergebnisses
für eine Aktion) ist ein Feedback nur in Form eines korrekten
Ergebnisses vorhanden.
ƒ
ƒ
ƒ
ƒ
ƒ
Bsp.: Bremsen mit 30km/h Æ Stop in 10m.
Die Wahrnehmung nach dieser Aktion kann allerdings 15m sein.
Jede Situation, in der wir sowohl die Inputs als auch die Outputs
kennen, wird überwachtes Lernen genannt.
Bei einem condition-action Agenten bekommt der Agent eine
Form von Bewertung für seine Aktion (z.
(z B.
B Strafzettel für zu
starkes Bremsen und deshalb ein Unfall), aber keine korrekte
Aktion (z. B. dosiertes Bremsen). Dieses wird reinforcement
learning genannt. Der Strafzettel wäre in diesem Fall das
reinforcement.
Lernen ohne Idee über den korrekten Output wird unüberwachtes
Lernen gennant.
Generelles Modell
10
5
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Design von Lernelementen
4. A priori Wissen
ƒ
ƒ
ƒ
Häufig kein Wissen beim Lernen vorhanden
Vorwissen hilft beim Lernen
Zusammenbringen aller Komponenten
ƒ
Alle Komponenten des Performance Elements können als
mathematische Funktion beschrieben werden.
ƒ
ƒ
ƒ
ƒ
Funktion des aktuellen Weltzustandes zu einem nächsten Zustand
Ein Ziel kann als Boolscher Wert angegeben werden
...
Das Wichtige ist: Lernen kann als Lernen einer
Funktionsrepräsentation angesehen werden.
Generelles Modell
11
Induktionslernen
ƒ Beim überwachten Lernen ist
das Lernelement das korrekte
Ergebnis (Funktion der
Inputwerte). Es verändert die
Repräsentation dieser
Funktion und versucht, die
Informationen, die über das
Feedback kommen, zu
matchen.
ƒ Reine induktive Inferenz (oder
Induktion) heisst: Gegeben ist
eine Menge von Beispielen
von f. Liefere eine Funktion h,
die f approximiert.
ƒ Die Funktion h nennt man
auch Hypothese.
ƒ Formal: Ein Beispiel ist ein
Paar x,f(x), bei dem x der
Input und f(x) der Output der
Funktion nach Anwenden auf
x ist.
Induktionslernen
12
6
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Beispiel
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
a) x,y Wertepaare im Raum y = f(x), Aufgabe: finde h(x), die den Punkten angepasst ist.
b) stückweise lineare Funktion h.
c) etwas kompliziertere Funktion h. Beide stimmen mit den Punkten überein, unterscheiden
sich aber in den y-Werten zu einem gegebenen x.
d) ignoriert einen Punkt, passt zu den anderen aber mit einer simplen Funktion
F ist unbekannt und ohne zusätzliches Wissen, können wir nicht entscheiden, ob b), c) oder
d) die beste Lösung ist.
Jede Bevorzugung einer Lösung über eine andere nennt man bias.
Induktionslernen
13
Reflex-Agent
ƒ Einfacher Reflex-Agent, der von einem Lehrer beobachtet worden ist. Die
globale Variable examples wird geupdatet. Sie enthält eine Liste mit
perceptions und actions.
Induktionslernen
14
7
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Varianten
ƒ Varianten dieses Schemas:
ƒ Inkrementelles Lernen: Jedes Mal, wenn ein neues Beispiel
zum Datensatz hinzugefügt wird, wird auch gelernt.
ƒ Zwei Ansätze zum Lernen von logischen Aussagen:
ƒ Entscheidungsbäume: strikte Repräsentation von logischen
Aussagen, speziell für Lernen entwickelt
ƒ Versionsraum:
V i
genereller
ll als
l E
Entscheidungsbäume,
t h id
bä
aber
b hä
häufig
fi
nicht effizient genug.
ƒ (Neuronale Netze): Repräsentation von nicht linearen
numerischen Funktionen
ƒ (Belief-Netze)
Induktionslernen
15
Bemerkungen
ƒ Die Wahl der Repräsentation ist sehr wichtig
ƒ Repräsentation entscheidet häufig, ob Problem generell lösbar
ƒ Tradeoff
ƒ Wie beim Schliessen ist beim Lernen ein Trade-Off zwischen
Ausdrucksmächtigkeit und Effizienz vorhanden
Induktionslernen
16
8
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Entscheidungsbaumlernen
ƒ Einfach und sehr erfolgreich
ƒ Entscheidungsbäume
E t h id
bä
als
l P
Performance
f
El
Elementt
ƒ Ein Entscheidungsbaum bekommt als Input einen Satz von
Eigenschaften und liefert als Output eine ja/nein Entscheidung
(Boolsche Funktionen). Andere Funktionen können aber auch
repräsentiert werden.
ƒ Ein interner Knoten korrespondiert zu einem Test des Wertes von einer
der Eigenschaften und die Kanten sind mit den möglichen Werten
dieser Knoten benannt. Jeder Endknoten (Blatt) liefert den Boolschen
Wert. (Bsp.: Warten im Restaurant)
ƒ Zielprädikat WillWait, wir wollen die Definition dafür lernen
ƒ Wir benötigen Attribute, die uns helfen, die Entscheidung zu fällen:
ƒ Alternativen, Bar, Anzahl der Gäste, Wochenende, Preis, Wetter,
Reservierungen, Typ, ...
Entscheidungsbaumlernen
17
Beispiel
∀r Patrons (r , Full ) ∧ WaitEstimate(r ,10 − 30) ∧ Hungry (r , N ) ⇒ WillWait (r )
Entscheidungsbaumlernen
18
9
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Ausdrucksmächtigkeit von Entscheidungsbäumen
ƒ
ƒ
Entscheidungsbäume können als
Konjunktionen von individuellen
Implikationen angesehen werden.
Sie sind aber limitiert für ein
Objekt.
Sie sind in der Klasse
“Aussagenlogische Sprachen” voll
ausdrucksfähig, d. h. jede
Boolsche Funktion kann als
Entscheidungsbaum
g
dargestellt
g
werden.
ƒ z. B. jede Reihe in einer
Wahrheitstabelle ist ein Pfad im
Baum.
ƒ
ƒ
ƒ
ƒ
Komplexität: exponentiell
Parity Function und MajorityParity-Function
Majority
Function sind Beispiele dafür, daß
Entscheidungsbäume
exponentiell groß sind.
Mit anderen Worten:
Entscheidungsbäume sind gut für
manche Funktionen und nicht gut
für andere.
Es gibt keine Repräsentation,
Repräsentation die
gut für alle Funktionen ist!!!
Entscheidungsbaumlernen
19
Entscheidungsbauminduktion…
ƒ …aus Beispielen
ƒ
ƒ
ƒ
ƒ
Ein Beispiel besteht aus Werten von Attributen und einem Ziel.
Der Wert des Zieles ist die Klassifikation des Beispieles.
Wenn das Ziel TRUE ist, positives Bsp, sonst negatives Bsp.
Kompletter Satz mit Beispielen ist derTrainings Set.
Entscheidungsbaumlernen
20
10
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Entscheidungsbauminduktion aus Beispielen
ƒ
ƒ
ƒ
Dieser triviale Baum erinnert sich
an seine Beobachtungen,
Beobachtungen er ist
nicht in der Lage, Pattern
herauszuziehen und diese dann
für Vorhersagen zu nutzen.
Wir suchen nach einem Muster,
daß eine große Anzahl von
Beispielen abdeckt und das in
einer kurzen und knappen Form.
Diese Strategie des generellen
Prinzips von Induktionslernen wird
auch Ockham’s razor genannt.
Entscheidungsbaumlernen
ƒ
ƒ
ƒ
ƒ
Die wahrscheinlichste Hypothese
ist die einfachste
einfachste, die mit allen
Beobachtungen konsistent ist.
Idee hinter Decision-TreeLearning: Teste das wichtigste
Attribut zuerst.
Wichtig meint hier: das Attribut,
das den größten Unterschied zur
Klassifikation eines Beispieles
beiträgt
beiträgt.
Ziel: möglichst wenige Tests,
korrekte Klassifikation
21
Beispiel
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
12 Trainingsbeispiele
Positiv/negativ
Klassifikation
Entscheidung, welches
Attribut zuerst
(a) zeigt, das Patrons
wichtig ist, weil für None
und Some eindeutig sind
(b) zeigt, das Type kein
gutes Attribut ist, weil vier
Optionen mit jeweils
pos./neg. Werten
Wir checken jedes Attribut
g und
auf diesem Weg
entscheiden uns für das
beste
(c) jetzt wird gesplittet.
Jede Option ist ein neuer
Baum mit weniger
Beispielen und einem
Attribut weniger
Entscheidungsbaumlernen
22
11
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Beispiel
ƒ
ƒ
ƒ
ƒ
ƒ
4 Fälle sind für dieses rekursive
Problem zu beachten:
1) wenn pos. und neg. Bsp.
vorhanden, dann wähle bestes
Attribut zum Splitten (c)
2) wenn alle übrig gebliebenen
Bsp. positiv (oder negativ),
dann fertig (c)
3) wenn keine Beispiele mehr
vorhanden sind Æ Bsp. wurde
nicht beobachtet, return default,
z.B. Majority
4) wenn keine Attribute mehr,
aber pos. und neg. Bsp. Æ
Problem. Gleiche Daten haben
unterschiedliche Klassen. Nicht
korrekte Daten Æ NOISE,
Rückgabe: z. B. Majority
Entscheidungsbaumlernen
23
Entscheidungsbaumalgorithmus
Entscheidungsbaumlernen
24
12
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Ergebnis aus Restaurantbeispiel
ƒ
Entscheidungsbaumlernen
Entscheidungsbaum aus
Beispiel
25
Ergebnis
ƒ
Baum nach Algorithmus, Raining und Reservations sind nicht notwendig, um
zu einer Entscheidung zu kommen, die Klassifikationen werden auch ohne sie
richtig erstellt.
ƒ
Außerdem: Der Algorithmus hat eine Regularität entdeckt: Thai on Weekends
Entscheidungsbaumlernen
26
13
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Problemfall
ƒ
Problem: kein Fall, wo das Restaurant voll ist, und das Warten zwischen 0 und
10min ist.
wenn Hungry false ist, würde der Baum nicht warten, aber der Gast würde. Die
Frage ist: wie inkorrekt ist der Baum, wenn er zwar konsistente Daten induziert,
die aber nicht immer korrekt sind?
Entscheidungsbaumlernen
27
Bemerkungen
ƒ Bewertung der Performanz bei Lernalgorithmen
ƒ
ƒ
ƒ
ƒ
ƒ
Große Mengen Daten
Trainings- und Testset (disjunkt)
Lernalgorithmus auf Trainingsset anwenden (Generieren von h).
Messen der korrekt erzeugten Beispiele im Testset (h angewendet).
Wiederholen der letzten vier Schritte für unterschiedliche Größen von
Trainings- und Testset (Zufallszahlen verwenden).
ƒ D
Das E
Ergebnis
b i iistt di
die mittlere
ittl
Vorhersagequalität
V h
lität in
i F
Form einer
i
Funktion der Größe des Trainingssets. Wenn man dieses in einer
Graphik darstellt, erhält man die Lernkurve.
Entscheidungsbaumlernen
28
14
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Lernkurve
ƒ Lernkurve für unser Restaurantbeispiel
ƒ Happy Graph, weil beim Entscheidungsbaumlernen die Kurve steigt
ƒ Qualität der Vorhersage nimmt zu, je größer der Trainingsset ist
Entscheidungsbaumlernen
29
Lernen von generellen logischen Beschreibungen
ƒ Lernen von generellen logischen Repräsentationen
ƒ Genereller
G
ll R
Rahmen
h
fü
für L
Lernalgorithmen
l ith
mit
it d
dem Hi
Hintergrund,
t
d d
daß
ß
induktives Lernen als ein Prozeß der Suche einer guten Hypothese
im Raum verstanden werden kann (Hypothesenraum).
ƒ Hypothesen
ƒ Start mit Zielprädikat Q (WillWait). Q ist unär. Wir suchen einen
äquivalenten logischen Ausdruck, den wir für die Klassifikation
verwenden können.
ƒ Jede Hypothese
Hypothese, die wir finden ergibt einen solchen Ausdruck
Ausdruck. Wir
nennen das Kandidatendefinition des Zielprädikates.
ƒ Wenn Ci eine solche Def. ist, ist jede Hi ein Ausdruck der Form
∀x Q(x) ⇔ Ci(x)
Lernen logischer Beschreibungen
30
15
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Lernen von generellen logischen Beschreibungen
ƒ Der Entscheidungsbaum von vorhin würde dann so aussehen:
∀r WillWait (r ) ⇔ Patrons ( r , Some ) ∨
Patrons ( r , Full ) ∧ ¬Hungry ( r ) ∧ Type(r , French ) ∨
Patrons ( r , Full ) ∧ ¬Hungry ( r ) ∧ Type(r ,Thai ) ∧ Fri / Sat (r ) ∨
Patrons ( r , Full
P
F ll ) ∧ ¬Hungry
H
( r ) ∧ Type
T
(r , Burger
B
)
ƒ Der Hypothesenraum Hr besteht also aus allen Hypothesen, die der
Lernalgorithmus finden kann.
H = {H1,…,Hn}, Am Anfang nimmt der Lernalgorithmus an, daß eine
der Hyothesen wahr ist:
ƒ Jede Hypothese behauptet, daß ein bestimmter Satz von Beispielen
Beispiele für das Zielprädikat sind. Dieses nennt man Erweiterung
des Prädikates.
ƒ Zwei Hypothesen mit unterschiedlichen Erweiterungen sind deshalb
logisch inkonsistent.
Lernen logischer Beschreibungen
31
Beispiele
ƒ Logisch gesehen ist ein Beispiel ein Objekt, zu dem ein Zielprädikat
passt oder auch nicht.
ƒ Xi ist das i-te Beispiel, Di(Xi) ist eine logische Beschreibung dafür.
ƒ Die Klassifikation ist g
gegeben
g
durch eine Aussage
g Q(X
( i) wenn das
Beispiel positiv ist und ¬Q(Xi), wenn es negativ ist.
– Bsp.: Alternate(X1) ^ ¬Bar(X1) ^ ¬Fri/Sat(X1) ^ Hungry(X1) ...
und die Klassifikation WillWait(X1)
Lernen logischer Beschreibungen
32
16
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Beispiele
ƒ
ƒ
ƒ
Der komplette Trainingsset ist eine Konjunktion aller dieser Aussagen.
Eine Hypothese passt zu diesen Beispielen dann und nur dann, wenn sie
logisch konsistent zum Trainingsset ist.
Konsistenz
ƒ W
Was heißt
h ißt Inkonsistenz?
I k
i t
?
ƒ Ein Beispiel kann falsch negativ sein, d. h. die Hypothese sagt, es wäre negativ,
es ist aber positiv (Neues Bsp. #13)
Patrons(X13,Full) Wait(X13,0-10) ¬Hungry(X13) ,…, WillWait(X13 )
wäre falsch negativ für die Hypothese Hr
ƒ Aus Hr und der Beispielbeschreibung kann man sowohl WillWait(X13 )
als auch ¬WillWait(X13 ) deduzieren.
ƒ Es gibt dementsprechend auch falsch positive Beispiele.
ƒ
Wenn ein Beispiel falsch positiv oder falsch negativ für eine Hypothese ist,
sind sie logisch inkonsistent zueinander.
Lernen logischer Beschreibungen
33
Beispiele
ƒ
Annahme: Beispiel ist ok Æ dann kann die Hypothese verworfen werden.
ƒ Logisch gesehen ist das genau das, was die Resolutionsregel macht, wo die
Disjunktionen von Hypothesen zu Klauseln korrespondiert und das Beispiel zu
Literalen korrespondiert
ƒ
Ein einfaches logisches Schlußfolgerungssystem ist in der Lage, von
Beispielen zu lernen (prinzipiell), weil es Hypothesen verwerfen kann.
ƒ I1 ist ein Beispiel und der Hypothesenraum ist H1 v H2 v H3 v H4. Wenn I1 mit H2
und H3 inkonsistent ist, kann das System den neuen Hypothesenraum H1 v H4
deduzieren.
ƒ
ƒ
ƒ
Man kann deshalb sagen, daß induktives Lernen logisch gesehen ein
Prozeß ist, der graduell Hypothesen eliminiert, die inkonsistent mit den
Beispielen sind.
Weil der Hypothesenraum am Anfang SEHR groß sein kann, sollte man
keinen Resolutionsbeweiser benutzen.
Im folgenden betrachten wir zwei Ansätze, die weniger Arbeit machen.
Lernen logischer Beschreibungen
34
17
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Current-best-hypothesis Suche
(Stuart Mill,1943)
ƒ
ƒ
Die Idee: einzelne Hypothese lange behalten, sie nachjustieren, wenn
neue Beispiele kommen, so daß Konsistenz gewahrt wird.
Annahme Hr ist ok
Annahme,
ok, bis ein falsch negatives Beispiel kommt
kommt.
a)
b)
c)
Konsistente Hypothese
Falsch negativ
Generalisierung
d)
e)
Falsch positiv
Spezialisierung
Lernen logischer Beschreibungen
35
Current-best-hypothesis Suche
Bemerkungen
ƒ Bei Generalisierung und Spezialisierung auf Konsistenz
checken.
ƒ Algorithmus und Varianten davon sind in vielen machine
learning Systemen integriert. Bei großen Mengen von
Daten gibt es Probleme:
ƒ alle Beispiele
p
auf Konsistenz p
prüfen ist teuer
ƒ Heuristiken sind schwer zu finden und Backtracking dauert lange.
Lernen logischer Beschreibungen
36
18
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Least-commitment Suche
ƒ Current Best Hypothesis:
ƒ wir müssen eine Hypothese auswählen (nach bestem Gewissen),
auch wenn wir noch nicht alle erforderlichen Daten haben. Was
tun? Æ Alle Hypothesen behalten,
behalten die konsistent mit den Daten
bis dato sind.
ƒ Annahme: Hypothesenraum ist H1 v H2 v H3 ... v Hn.
ƒ Inkonsistente Hypothesen werden eliminiert. Übrig
gebliebene Hypothesen enthalten Lösung.
ƒ Diese Hypothesen nennt man Versionsraum und der
Lernalgorithmus dazu version space learning algorithm (auch
candidate elimination algorithm).
ƒ Algorithmus findet einen Subset von Hypothesen, die mit
den Beispielen konsistent sind.
Lernen logischer Beschreibungen
37
Least-commitment Suche
ƒ Inkrementelles Verfahren, kein Rückschritt, betrachtet keine
alten Beispiele, deswegen least commitment
ƒ Problem: Hypothesenraum ist riesig
riesig. Wie können wir diese
Disjunktionen überhaupt zu Papier bringen?
ƒ Analogie hilft:
ƒ Reelle Zahlen zwischen 1 und 2
ƒ [1,2] Intervalle, die nur die Grenzen definieren helfen bei diesem
Problem. Es funktioniert, weil wir eine Reihenfolge im Intervall
haben.
ƒ Wir haben aber auch eine Reihenfolge im Hypothesenraum:
Generalisierung/Spezialisierung (partial ordering). Jede Grenze ist
eine Menge von Hypothesen (kein Punkt) Æ boundary set.
ƒ G-set ist der generellste und S-set der speziellste boundary set.
Alles dazwischen ist garantiert konsistent.
Lernen logischer Beschreibungen
38
19
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Least-commitment Suche
ƒ Der aktuelle Versionsraum ist ein Satz von Hypothesen, der mit allen
Beispielen konsistent ist. Er wird durch den S-set und den G-set
repräsentiert.
ƒ Der S-set beeinhaltet nur konsistente Hypothesen und es gibt keine
konsistenten Hypothesen, die noch spezieller sind.
ƒ Der G-set beeinhaltet nur konsistente Hypothesen und es gibt keine
konsistenten Hypothesen, die noch genereller sind.
ƒ G-set wird am Anfang auf TRUE, S-set auf FALSE gesetzt.
ƒ 1) Jede konsistente Hypothese ist spezifischer als eine der generellen und
genereller als eine der spezifischen.
ƒ 2) Jede Hypothese, die spezifischer als die aus dem G-set und genereller
als die aus dem S-set ist, ist konsistent.
Lernen logischer Beschreibungen
39
Least-commitment Suche
G-set wird am Anfang auf
TRUE (Hypothese, die alles
enthält), S-set auf FALSE
(Hypothese, dessen
E
Erweiterung
it
l
leer
i t) gesetzt;
ist)
t t
vor allen Beispielen.
Eigenschaften:
1) Jede konsistente Hypothese
ist spezifischer als eine der
generellen und genereller als
eine
i der
d spezifischen.
ifi h
2) Jede Hypothese, die
spezifischer als die aus dem
G-set und genereller als die aus
dem S-set ist, ist konsistent.
Lernen logischer Beschreibungen
40
20
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Least-commitment Suche
Erweiterungen des G- und S-sets. Kein Bsp. liegt dazwischen.
Lernen logischer Beschreibungen
41
Least-commitment
ƒ Was passiert bei einem Update?
ƒ Wenn falsch positiv oder falsch negativ:
ƒ Falsch positiv für Si, d. h. Si ist zu generell, keine konsistenten
Spezialisierungen für Si (s. Def.) Æ verwerfen.
ƒ Falsch
F l h negativ
ti fü
für Si d.
d h
h. Si ist
i t zu speziell
i ll Æ ersetzen
t
durch
d h alle
ll seine
i
Generalisierungen.
ƒ Falsch positiv für Gi, d. h. Gi ist zu generell, Æ ersetzen durch alle
seine Spezialisierungen.
ƒ Falsch negativ für Gi , d. h. Gi ist zu speziell, keine konsistenten
Generalisierungen für Gi (s. Def.) Æ verwerfen.
ƒ Dieses wird für jede Instanz neu durchgeführt, bis eines von drei
Di
Dingen
passiert:
i t
ƒ Genau ein Konzept ist über im Versionsraum Æ return als unique
Hypothese.
ƒ Versionsraum kollabiert, S oder G sind leer Æ keine konsistenten
Beispiele.
ƒ Keine Beispiele mehr, aber mehr als eine Hypothese im
Versionsraum.
Lernen logischer Beschreibungen
42
21
Einführung in die Methoden der
Künstlichen Intelligenz
SoSe 2009
Diskussion
(von Current-Best und Least-commitment)
ƒ
Zwei Probleme mit Versionsraum:
ƒ Er wird kollabieren, wenn Rauschen in den Daten
ƒ Wenn nicht limitierte Disjunktionen im Hypothesenraum zugelassen sind, beinhaltet
der S-set immer eine einzige sehr spezifische Hypothese Æ die Disjunktion der
B
Beschreibung
h ib
d
der positiven
iti
B
Beispiele,
i i l di
die bi
bis d
dato
t gesehen
h wurden.
d
D
Der G
G-sett
enthält demnach die Negation der Disjunktionen der Beschreibungen der negativen
Beispiele.
ƒ
ƒ
Rauschen ist noch nicht befriedigend gelöst.
Problem der Disjunktionen kann durch eine Generalisierungshierarchie gelöst
werden.
ƒ LongWait(x) statt WaitEstimate(x,30-60) v WaitEstimate(x,>60)
ƒ
ƒ
Meta-Dendral und Lex sind zwei Bespiele für Systeme, die den Versionsraum
einsetzen.
Versionsraum-Methoden sind eher unpraktikabel für reale Anwendungen
(Rauschen), geben aber einen guten Einblick in die logische Struktur des
Hypothesenraumes.
Lernen logischer Beschreibungen
43
Zusammenfassung
ƒ Lernen kann als Lernen einer Funktion angesehen werden. Wir haben
uns auf Induktion konzentriert (Lernen von Input/Output Paaren):
ƒ Lernen in intelligenten Agenten ist wichtig, um mit unbekannten
Umgebungen fertig zu werden.
ƒ Lernen kann in ein Performance Element (verantw. für die Selektion von
Aktionen) und ein Lernelement (verantw. für die Modifikation des
Performance Elements) unterschieden werden.
ƒ Die Schwierigkeit beim Lernen ist von der Repräsentation abhängig.
Funktionen können als logische Aussagen, Polynome, Belief-Netze,
Neuronale Netze u. a. repräsentiert werden.
ƒ Entscheidungsbäume sind effizient, um deterministische Boolsche
Funktionen zu lernen.
ƒ Ockham’s razor bedeutet, die einfachste Hypothese zu nehmen, die die
b b ht t B
beobachteten
Beispiele
i i l matcht.
t ht
ƒ Performance von Lernalgorithmen kann mittels Lernkurven gemessen
werden
ƒ Zwei generelle Ansätze für das Lernen logischer Theorie. Der current-bestAnsatz wartet und justiert eine Hypothese, der version space-Ansatz wartet
die Repräsentation aller konsistenten Hypothesen. Beide sind anfällig für
Rauschen.
44
22
Herunterladen