Einführung III: Maschinelles Lernen im Information Retrieval

Werbung
Thomas Mandl
Innovative Information
Retrieval Verfahren
Hauptseminar
Wintersemester 2004/2005
Letzte Sitzung
• Grundlagen Heterogenität
– Ursachen
– Beispiele
– Lösungsansätze
• Visualisierung
– 2D-Karten
heute
• Maschinelles Lernen im IR (v.a.
neuronale Netze)
• Visualisierung
– Überblick
– Boolesche Logik
Ausblick
• Qualität (PageRank et al.)
• Multimedia-Retrieval
Überblick: Neuronale
Netze
• Grundlagen
• Nicht überwacht lernende Netze
• Überwacht lernende Netze
1
Ausgangssituation
Neuronale Netze
• Serielle Computer arbeiten sehr schnell
• Das menschliche Gehirn ist für viele
Aufgaben überlegen
• -> Parallelverarbeitung
• Neuronale Netze stehen im Kontext der
Vagheitsmodellierung
• werden eingesetzt, wenn ein
Gegenstandsbereich nicht durch Regeln
oder Fuzzy Regeln erfaßt werden kann
• z.B. bei komplexen Diagnosen oder
komplexen Klassifikationsproblemen
wie Handschriftenerkennung
Kognitiver Prozess
Formales
Computer-Modell
Kognitiver
Such-Prozeß
Formales
Computer-Modell
Nicht-adäquate
Modellierung
• Mögliche Lösung ?
Kognitiver
Prozess
Vages
Computer-Modell
• Vage Methoden der
Informationsverarbeitung (z.B.
probabilistische Modelle)
2
What is Soft-Computing?
"Soft computing differs from conventional (hard)
computing in that, unlike hard computing, it is
tolerant of imprecision, uncertainty and partial truth.
In effect, the role model for soft computing is the
human mind. The guiding principle of soft
computing is: Exploit the tolerance for imprecision,
uncertainty and partial truth to achieve tractability,
robustness and low solution cost.“ (Zadeh 1994)
Ausgangssituation: neuronale
Netze
What is Soft-Computing?
• „At this juncture, the principal
constituents of soft computing (SC) are
fuzzy logic (FL), neural network theory
(NN) and probabilistic reasoning (PR),
with the latter subsuming belief
networks, genetic algorithms, chaos
theory and parts of learning theory.“
(Zadeh 1994)
Nervenzelle
• Vorbild menschliches Gehirn
• Aufbau aus zahlreichen einfachen
Prozessoren
• Neuronen senden Signale über
Synapsen an andere Neuronen
• Bedeutung entsteht durch
Zusammenspiel vieler einzelner
Prozesse
Ausgangssituation
• Überschreiten die ankommenden
Signale einen bestimmten
Schwellenwert, so wird ein Neuron aktiv
und sendet wieder Signale weiter
• Die Durchlässigkeit der Synapsen
verändert sich (Lernen)
Konnektionismus
• These der „klassischen“ Künstlichen Intelligenz
(KI):
• Physical Symbol System: Denken ist
Symbolverarbeitung (Newell/Simon 1976)
• Smolensky 1988: „subsymbolic paradigma“
• Neuronen implementieren Vorgänge auf tieferer
Ebene als der symbolischen
• Neuronale Netze realisieren "intuitive processor“
• -> intuitives Wissen kann besser von neuronalen
Netzen modelliert werden
3
Grundprinzip neuronaler
Netze
• "Die Informationsverarbeitung geschieht
durch eine große Anzahl von relativ
einfachen Prozessoren, die in einem dichten
Netzwerk miteinander verbunden sind. Diese
Prozessoren (auch Units genannt) arbeiten
lokal, jeder für sich allein, und kommunizieren
mit anderen Units nur via Signale, die sie
über die Verbindungen senden. " (Dorffner
1991: 16)
Grundprinzip neuronaler
Netze
• Aktivität der Neuronen entspricht dem
Kurzzeitgedächtnis
• Gewichte der Verbindungen entsprechen
dem Langzeitgedächtnis
Neuron (Unit)
Grundprinzip neuronaler
Netze
• Neuronen werden senden und empfangen
flüchtige Aktivität
• Verbindungen ändern langsam ihre
Gewichte (= Durchlässigkeit)
• Veränderung der Gewichte entspricht dem
Lernen
• Gewichte sind Parameter des Modells
Bestandteile neuronaler Netze
• Eine Menge von Prozessoren (Neuronen)
– Ausbreitungsfunktion
– Aktivierungsfunktion
– Ausgabefunktion (oft Identitätsfunktion)
• Vernetzung
• Lernregel
• Schnittstelle zur Umgebung
Berechnung des Inputs
• Meistens ist der Input das Produkt von
Aktivierung und Gewicht
Neuron i
Schema einer Unit: (cf. Dorffner 1991: 17)
an: Aktivierung der Unit n
oi: Output der Unit i
w : Gewicht einer Verbindung
net-inputn: Gesamter Input in Unit n
Gewicht wik
Neuron k
• Inputk = wik ai
• bei mehreren Input-Verbindungen wird
die Summe gebildet:
• Inputk = Σ wik ai
4
Aktivierungsfunktion
• Schwellwertfunktion:
sobald ein bestimmter Schwellwert
überschritten ist, wird das Neuron
aktiviert, ansonsten nicht
• Sinnvoller sind häufig stetig steigende,
ableitbare und nicht lineare Funktionen
Schwellwertfunktion
1
Aktivierung
x
Aktivierungsfunktion
Logistische Aktivierungsfunktion
F (x) = 1 / (1+e -x/g)
Abschnittsweise lineare Aktivierungsfunktion
1
1
Aktivierung
Aktivierung
Input
Input
Spreading-ActivationNetzwerk für IR
Überblick: Neuronale
Netze
• Grundlagen
• Nicht überwacht lernende Netze
• Überwacht lernende Netze
Dokument-Schicht (Objekt-Schicht)
Dok 1
Dok 2
Netze
Dok 3
neuronal
Dok 4
LAN
Dok 5
Kabel
Dok 6
Server
Term-Schicht (Eigenschafts-Schicht)
Dok 7
Dok 8
Client
nicht alle
Verbindungen sind
eingezeichnet
5
Initialisierung der Gewichte
Query: Aktivierung einer Unit
Dokument-Schicht
Dok 1
Dok 2
Dok 3
Netze
neuronal
Dok 4
Dokument-Schicht
Dok 5
LAN
Kabel
Dok 6
Server
Dok 7
Dok 8
Dok 1
Client
Dok 2
network
Dok 3
connection
Dok 4
LAN
Dok 5
TCP/IP
Dok 6
Dok 7
Server
Dok 8
Client
Term-Schicht
Term-Schicht
Nutzer
Aktivierungsausbreitung:
Term-Erweiterung
Document-Layer
Aktivierungsausbreitung
Document-Layer
Doc 1
Doc 2
network
Doc 3
connection
Doc 4
LAN
Doc 5
TCP/IP
Doc 6
Doc 7
server
Doc 8
Doc 1
Doc 2
network
client
Relevance Feedback
connection
Doc 4
LAN
Doc 5
pos
itiv
network
TCP/IP
Doc 6
server
Doc 7
Doc 8
client
Spreading-ActivationNetzwerke für IR
Document-Layer
Doc 3
LAN
Doc 5
User
User
Doc 2
connection
Doc 4
Term-Layer
Term-Layer
Doc 1
Doc 3
Doc 6
tiv
ga
e
TCP/IP n
server
Doc 7
client
Term-Layer
Doc 8
• Günstigen Moment für Ende der
Aktivierung finden
• Integration von in-layer Verbindungen
möglich (z.B. für synonyme Terme)
• Integration weiterer Layer möglich (z.B.
Autoren)
• intuitive Modellerweiterung: relevance
feedback
User
6
Spreading-Activation-Netzwerke
für IR: Bewertung
Spreading-Activation-Netzwerke
für IR: Bewertung
• Sehr intuitives IR Modell
(Termerweiterung als inhärente
Eigenschaft)
• in empirischen Untersuchungen mit
Massendaten evaluiert
• Term-Dokument-Matrix entspricht der
Verbindungs-Matrix
• Spreading-Activation-Netzwerke lediglich
eine Umsetzung des Vektorraum-Modells
• von außen gesteuertes Lernen kaum möglich
• Erfolgreiche Systeme nutzen Flexibilität kaum
aus (z.B. nur maximal zwei
Aktivierungsschritte)
Lernen
• Einfachste Lernregel bei neuronalen Netzen:
– „use it or lose it“
– häufig benutzte Verbindungen werden gestärkt
– formal ausgedrückt: Delta-Regel
wij = wij + ∆wij
∆wij = ε aktj akti
Änderung des Verbindungsgewichts ist abhängig
von der Aktivierung der verbundenen Neuronen
Überblick: Neuronale
Netze
• Grundlagen
• Nicht überwacht lernende Netze
• Überwacht lernende Netze
Das Perceptron
Das Perceptron
Vernetzung und Lernregel an
einem einfachen Beispiel
•
•
•
•
Zwei Schichten
Input- und Output-Schicht
Verbindungen nur in eine Richtung
Beispiel:
l
Output
i
j
Input
7
Lernregeln
• Hebb‘sches Lernen
Lernregel für das Perceptron
• Delta-Regel
– häufig benutzte Verbindungen werden
gestärkt
– ∆wij = η Outputi Aktivierungj
– η
Lernrate
– ∆wij = η Outputi (teacherj - Aktivierungj)
– teacher
gewünschte Aktivierung
• Delta-Regel
l
Output
– ∆wij = η Outputi (teacherj - Aktivierungj)
– teacher
gewünschte Aktivierung
i
Ablauf des Lernens
•
•
•
•
Input
Berechnen des Outputs
Vergleich Output mit gewünschtem Output
Einstellen der Verbindungen, um das Ziel
besser zu erreichen
l
i
Output
j
j
Input
Perceptron
• Lernfähig
• Kann aber nur bestimmte formale Klassen
von Funktionen lernen
(Linear separierbare Probleme)
• lernt zwar z.B. Boolesches AND und OR,
aber nicht XOR (entweder oder, exklusives
oder)
• dies reicht für viele reale Probleme nicht aus
Input
Wichtig
• XOR ist ein Beispiel, das an sich keine
praktische Relevanz hat
• grafische Darstellungen sind immer 2- oder 3dimensional
• reale Anwendungen sind immer
vieldimensional und nicht anschaulich!
• Lineare Separierbarkeit in
mehrdimensionalen Räumen ist nicht
anschaulich darstellbar
Historischer Abriß
• Blüte neuronaler Netze in 60er Jahren
• Hauptmodell: Perzeptron
• Minsky/Papert 1969: Perceptrons
– beschreiben Schwächen des Peceptrons
– kann formal viele Probleme nicht lösen
• kaum weitere Forschungstätigkeit
• Mitte 80er Jahre: eine Lernregel für mehrschichtige
Perzeptronen wird entdeckt
– Backpropagation Lernregel
– Rumelhart/McClelland 1986
• Anfang 90er: Boom neuronaler Netze
8
Backpropagation
Backpropagation (BP) oder
Multilayer-Perceptron
• A
ktiv
i e ru
ngs
a
u sb
reitu
ng
Beispiel für ein BP Netz
Die am meisten benutzte
Netzarchitektur als Erweiterung
des Perceptrons
• Lösung des Perceptron-Problems:
Einführung von weiteren Schichten
• Diese Schichten sind weder Input noch
Output
• Versteckte Schichten
• Formal können damit mehr Funktionen
gelernt werden, z.B. auch XOR
• Problem: Eine Lernregel für versteckte
Schichten muß gefunden werden
• V
erbi
ndu
ng
sric
htun
g
Backpropagation: Aufbau
• Ausgangsschicht
•
Schichten in der Regel voll verknüpft
(nicht alle Verbindungen sind
eingezeichnet)
• Versteckte Schicht
•
Gewichte der Verbindungen sind die
veränderbaren Parameter (zufällige
Initialisierung)
• Eingangsschicht
Backpropagation: Lernen
• Ausgangsschicht
Backpropagation: Beispiel
Diagnose
Kreditwürdigkeit
(Wahrscheinlichkeit, mit der ein
Kredit zurückgezahlt wird)
0,9
• Backpropagation
lernt eine Abbildung
vom Input auf den
Output
• Eingangsschicht
• Kunden-Daten
• Als Trainingdaten
dienen Kunden, bei
denen bekannt ist, ob
sie zurückgezahlt haben
• Netz findet die Funktion
Kunden-Daten
-> Kreditwürdigkeit
• bei neuen Kunden sind
nur die Kunden-Daten
bekannt
• Das Netz erstellt eine
Prognose zur
Kreditwürdigkeit
9
Ursachen der Heterogenität
• A
ktiv
i e ru
ngs
a
u sb
reitu
ng
Backpropagation: Beispiel
• Der für dieses Beispiel gewünschte
Output (= Teacher)
• Berechnung des Fehlers
0,9
• Verändern
• Das Netz errechnet
der
die Aktivierung der
Gewichte
0,6
Ausgangs-Schicht
• Unterschiedliche Inhaltserschließung
• Unterschiedliche Eigenschaften der
Text-Dokumente (Qualität, Länge,
Sprache ...)
• Heterogene Objekte (Multimedia)
• Input wird angelegt
• Das Netz lernt bei jedem Schritt ein Beispiel
Heterogenitätsbehandlung
?
Wie kann eine
Beziehung zwischen
zwei heterogenen
Repräsentationen
hergestellt werden?
Wie kann eine
Repräsentation in die
andere überführt
werden?
Transformations-Netzwerk
Heterogenitätsbehandlung
• Traditionelle, exakte Ansätze wie auf
Thesauri basierende Konkordanzen
• Statistische Ansätze basierend auf
Kookkurrenzen und Assoziationen
• Transformations-Netzwerk basierend
auf Backpropagation (cf. Crestani/v.
Rijsbergen 1997)
Backpropagation
Repräsentation II
• Vorteile:
Output Layer
Backpropagation
Netzwerk
Hidden Layer
– keine expliziten Regeln nötig, ab wann ein
Kunde einen Kredit erhält
– ganzheitliche Betrachtung des Falls (alle
Parameter tragen zum Ergebnis bei)
• Nachteile:
Input Layer
– eine nachträgliche Begründung ist nicht
möglich
Repräsentation I
10
Backpropagation
• Versteckte Schicht
• Neuronen haben keine symbolische
Bedeutung/Entsprechung
• Sie repräsentieren komplexe
Kombinationen und Zusammenhänge
zwischen den interpretierbaren Knoten
Backpropagation Lernregel
• Beim Lernen werden zahlreiche
Beispiele präsentiert
• Diese werden in zahlreichen
Durchläufen (epochs) präsentiert
Backpropagation Lernregel
• Verallgemeinerte Delta-Regel
• Delta-Regel muß die versteckte Schicht
„überspringen“
• Für die Input-Schicht steht kein Fehlersignal
mehr zur Verfügung
• Daher muß das Fehlersignal gemittelt werden
• Mathematisch erfordert dies die Ableitung der
Aktivierungsfunktion
Konvergenz
• Erfolgreiches Lernen: Minimierung des
Fehlers
• sinkt der Fehler stetig, so spricht man
von Konvergenz
• Dann hat das Netz die präsentierten
Beispiele richtig gelernt
Generalisierbarkeit
Trainings- und Testmenge
• Die Leistungsfähigkeit eines Netzes
zeigt sich jedoch erst an unbekannten
Beispielen
• kann ein Netz auch neue Muster, die
nicht in der Trainingsmenge waren
„richtig“ zuordnen, dann generalisiert es
• Um zu prüfen, wie gut ein Netz
generalisiert, wird beim Lernen eine
Testmenge mit unbekannten Beispielen
genutzt
• Der Fehler in der Testmenge ist ein
besserer Maßstab für die Qualität
11
Kreditwürdigkeit
Pflanzenwachtstum
Lernen als Näherung
x
Zwei Möglichkeiten
• Modell finden
• Formel ableiten: ?
x
x
x
x
x
x
Kundenparameter
anzunähernde Funktion (unbekannt)
bekannte Punkte der Funktion (Messungen)
x
• Kein Modell zu finden
• modellfreie Modellierung:
solange Formeln ausprobieren, bis der
Fehler minimal ist
• Ausgangssituation
Kreditwürdigkeit
Pflanzenwachtstum
Lernen als Näherung
x
Qualität der Näherung
x
x
Näherung
x
x
x
x
Kundenparameter
anzunähernde Funktion (unbekannt)
x
bekannte Punkte der Funktion (Messungen)
• Modellfreie Näherung hat eine Funktion gefunden,
die durch alle Meßpunkte läuft
• in anderen Fällen hat die Näherung verschiedene
Qualität
Kreditwürdigkeit
Pflanzenwachtstum
Vorsicht
Trainings- und Testmenge
x
x
x
x
Näherung
x
x
x
x
x
Kundenparameter
anzunähernde Funktion (unbekannt)
x
• Einige Meßpunkte werden nicht für die Näherung
benutzt
• mit ihnen wird die Qualität der Funktion bewertet
bekannte Punkte der Funktion (Messungen)
• Um zu prüfen, wie gut ein Netz
generalisiert, wird beim Lernen eine
Testmenge mit unbekannten Beispielen
genutzt
• Der Fehler in der Testmenge ist der
Maßstab für die Qualität
• Grafik ist zweidimensional
• Funktion ist eindimensional
• Die Realität ist immer vieldimensional
12
Typischer Lernverlauf
Overlearning
• Der Fehler in der Trainingsmenge konvergiert
mit steigender Epochenzahl.
• Der Testfehler sinkt nur bis zu einem
bestimmten Zeitpunkt und steigt dann wieder
• Durch längeres Training sinkt also die
Generalisierungsfähigkeit.
• Bei längerer Lernzeit spezialisiert sich das
Netz immer mehr auf die Eigenheiten in den
Trainingsfällen.
• Das Training sollte daher bei einem Minimum
in der Testmenge beendet werden
• Übergeneralisierung (Overlearning)
Lernen als Fehlerminimierung
Lernen als Fehlerminimierung
• Wunsch: geringsten möglichen Fehler
erreichen
• Globales Minimum
• Problem: Zahlreiche lokale Minima
ziehen den Lernalgorithmus an
• Der Lernalgorithmus minimiert den
Fehler zwischen Output und teaching
oder target Output
• Fehlermaße:
Lernen als Fehlerminimierung
Fehlerfunktion: Lokale Minima
•
Aus Mitchell 1997: Machine Learning
– Summe der Fehlerquadrate (SSE)
– Durchschnittlicher SSE pro Muster
– Durchschnittlicher SSE pro Output Unit
(Klasse)
• Der Fehler als Funktion der
Verbindungsgewichte
13
Lokale Minima
• In der Praxis bleibt der Algorithmus häufig in
einem lokalen Minimum
• Dies ist unproblematisch, wenn das lokale
Minimum nahe am globalen Minimum liegt
• Maßnahmen gegen lokale Minima
– verschiedene Ausgangsstadien
– Momentum
– stochastische Elemente im Lernverfahren
Literatur
• Andreas Scherer (1997): Neuronale
Netze.
Sehr leicht lesbare Einführung.
In Bibliothek vorhanden
14
Herunterladen