Thomas Mandl Innovative Information Retrieval Verfahren Hauptseminar Wintersemester 2004/2005 Letzte Sitzung • Grundlagen Heterogenität – Ursachen – Beispiele – Lösungsansätze • Visualisierung – 2D-Karten heute • Maschinelles Lernen im IR (v.a. neuronale Netze) • Visualisierung – Überblick – Boolesche Logik Ausblick • Qualität (PageRank et al.) • Multimedia-Retrieval Überblick: Neuronale Netze • Grundlagen • Nicht überwacht lernende Netze • Überwacht lernende Netze 1 Ausgangssituation Neuronale Netze • Serielle Computer arbeiten sehr schnell • Das menschliche Gehirn ist für viele Aufgaben überlegen • -> Parallelverarbeitung • Neuronale Netze stehen im Kontext der Vagheitsmodellierung • werden eingesetzt, wenn ein Gegenstandsbereich nicht durch Regeln oder Fuzzy Regeln erfaßt werden kann • z.B. bei komplexen Diagnosen oder komplexen Klassifikationsproblemen wie Handschriftenerkennung Kognitiver Prozess Formales Computer-Modell Kognitiver Such-Prozeß Formales Computer-Modell Nicht-adäquate Modellierung • Mögliche Lösung ? Kognitiver Prozess Vages Computer-Modell • Vage Methoden der Informationsverarbeitung (z.B. probabilistische Modelle) 2 What is Soft-Computing? "Soft computing differs from conventional (hard) computing in that, unlike hard computing, it is tolerant of imprecision, uncertainty and partial truth. In effect, the role model for soft computing is the human mind. The guiding principle of soft computing is: Exploit the tolerance for imprecision, uncertainty and partial truth to achieve tractability, robustness and low solution cost.“ (Zadeh 1994) Ausgangssituation: neuronale Netze What is Soft-Computing? • „At this juncture, the principal constituents of soft computing (SC) are fuzzy logic (FL), neural network theory (NN) and probabilistic reasoning (PR), with the latter subsuming belief networks, genetic algorithms, chaos theory and parts of learning theory.“ (Zadeh 1994) Nervenzelle • Vorbild menschliches Gehirn • Aufbau aus zahlreichen einfachen Prozessoren • Neuronen senden Signale über Synapsen an andere Neuronen • Bedeutung entsteht durch Zusammenspiel vieler einzelner Prozesse Ausgangssituation • Überschreiten die ankommenden Signale einen bestimmten Schwellenwert, so wird ein Neuron aktiv und sendet wieder Signale weiter • Die Durchlässigkeit der Synapsen verändert sich (Lernen) Konnektionismus • These der „klassischen“ Künstlichen Intelligenz (KI): • Physical Symbol System: Denken ist Symbolverarbeitung (Newell/Simon 1976) • Smolensky 1988: „subsymbolic paradigma“ • Neuronen implementieren Vorgänge auf tieferer Ebene als der symbolischen • Neuronale Netze realisieren "intuitive processor“ • -> intuitives Wissen kann besser von neuronalen Netzen modelliert werden 3 Grundprinzip neuronaler Netze • "Die Informationsverarbeitung geschieht durch eine große Anzahl von relativ einfachen Prozessoren, die in einem dichten Netzwerk miteinander verbunden sind. Diese Prozessoren (auch Units genannt) arbeiten lokal, jeder für sich allein, und kommunizieren mit anderen Units nur via Signale, die sie über die Verbindungen senden. " (Dorffner 1991: 16) Grundprinzip neuronaler Netze • Aktivität der Neuronen entspricht dem Kurzzeitgedächtnis • Gewichte der Verbindungen entsprechen dem Langzeitgedächtnis Neuron (Unit) Grundprinzip neuronaler Netze • Neuronen werden senden und empfangen flüchtige Aktivität • Verbindungen ändern langsam ihre Gewichte (= Durchlässigkeit) • Veränderung der Gewichte entspricht dem Lernen • Gewichte sind Parameter des Modells Bestandteile neuronaler Netze • Eine Menge von Prozessoren (Neuronen) – Ausbreitungsfunktion – Aktivierungsfunktion – Ausgabefunktion (oft Identitätsfunktion) • Vernetzung • Lernregel • Schnittstelle zur Umgebung Berechnung des Inputs • Meistens ist der Input das Produkt von Aktivierung und Gewicht Neuron i Schema einer Unit: (cf. Dorffner 1991: 17) an: Aktivierung der Unit n oi: Output der Unit i w : Gewicht einer Verbindung net-inputn: Gesamter Input in Unit n Gewicht wik Neuron k • Inputk = wik ai • bei mehreren Input-Verbindungen wird die Summe gebildet: • Inputk = Σ wik ai 4 Aktivierungsfunktion • Schwellwertfunktion: sobald ein bestimmter Schwellwert überschritten ist, wird das Neuron aktiviert, ansonsten nicht • Sinnvoller sind häufig stetig steigende, ableitbare und nicht lineare Funktionen Schwellwertfunktion 1 Aktivierung x Aktivierungsfunktion Logistische Aktivierungsfunktion F (x) = 1 / (1+e -x/g) Abschnittsweise lineare Aktivierungsfunktion 1 1 Aktivierung Aktivierung Input Input Spreading-ActivationNetzwerk für IR Überblick: Neuronale Netze • Grundlagen • Nicht überwacht lernende Netze • Überwacht lernende Netze Dokument-Schicht (Objekt-Schicht) Dok 1 Dok 2 Netze Dok 3 neuronal Dok 4 LAN Dok 5 Kabel Dok 6 Server Term-Schicht (Eigenschafts-Schicht) Dok 7 Dok 8 Client nicht alle Verbindungen sind eingezeichnet 5 Initialisierung der Gewichte Query: Aktivierung einer Unit Dokument-Schicht Dok 1 Dok 2 Dok 3 Netze neuronal Dok 4 Dokument-Schicht Dok 5 LAN Kabel Dok 6 Server Dok 7 Dok 8 Dok 1 Client Dok 2 network Dok 3 connection Dok 4 LAN Dok 5 TCP/IP Dok 6 Dok 7 Server Dok 8 Client Term-Schicht Term-Schicht Nutzer Aktivierungsausbreitung: Term-Erweiterung Document-Layer Aktivierungsausbreitung Document-Layer Doc 1 Doc 2 network Doc 3 connection Doc 4 LAN Doc 5 TCP/IP Doc 6 Doc 7 server Doc 8 Doc 1 Doc 2 network client Relevance Feedback connection Doc 4 LAN Doc 5 pos itiv network TCP/IP Doc 6 server Doc 7 Doc 8 client Spreading-ActivationNetzwerke für IR Document-Layer Doc 3 LAN Doc 5 User User Doc 2 connection Doc 4 Term-Layer Term-Layer Doc 1 Doc 3 Doc 6 tiv ga e TCP/IP n server Doc 7 client Term-Layer Doc 8 • Günstigen Moment für Ende der Aktivierung finden • Integration von in-layer Verbindungen möglich (z.B. für synonyme Terme) • Integration weiterer Layer möglich (z.B. Autoren) • intuitive Modellerweiterung: relevance feedback User 6 Spreading-Activation-Netzwerke für IR: Bewertung Spreading-Activation-Netzwerke für IR: Bewertung • Sehr intuitives IR Modell (Termerweiterung als inhärente Eigenschaft) • in empirischen Untersuchungen mit Massendaten evaluiert • Term-Dokument-Matrix entspricht der Verbindungs-Matrix • Spreading-Activation-Netzwerke lediglich eine Umsetzung des Vektorraum-Modells • von außen gesteuertes Lernen kaum möglich • Erfolgreiche Systeme nutzen Flexibilität kaum aus (z.B. nur maximal zwei Aktivierungsschritte) Lernen • Einfachste Lernregel bei neuronalen Netzen: – „use it or lose it“ – häufig benutzte Verbindungen werden gestärkt – formal ausgedrückt: Delta-Regel wij = wij + ∆wij ∆wij = ε aktj akti Änderung des Verbindungsgewichts ist abhängig von der Aktivierung der verbundenen Neuronen Überblick: Neuronale Netze • Grundlagen • Nicht überwacht lernende Netze • Überwacht lernende Netze Das Perceptron Das Perceptron Vernetzung und Lernregel an einem einfachen Beispiel • • • • Zwei Schichten Input- und Output-Schicht Verbindungen nur in eine Richtung Beispiel: l Output i j Input 7 Lernregeln • Hebb‘sches Lernen Lernregel für das Perceptron • Delta-Regel – häufig benutzte Verbindungen werden gestärkt – ∆wij = η Outputi Aktivierungj – η Lernrate – ∆wij = η Outputi (teacherj - Aktivierungj) – teacher gewünschte Aktivierung • Delta-Regel l Output – ∆wij = η Outputi (teacherj - Aktivierungj) – teacher gewünschte Aktivierung i Ablauf des Lernens • • • • Input Berechnen des Outputs Vergleich Output mit gewünschtem Output Einstellen der Verbindungen, um das Ziel besser zu erreichen l i Output j j Input Perceptron • Lernfähig • Kann aber nur bestimmte formale Klassen von Funktionen lernen (Linear separierbare Probleme) • lernt zwar z.B. Boolesches AND und OR, aber nicht XOR (entweder oder, exklusives oder) • dies reicht für viele reale Probleme nicht aus Input Wichtig • XOR ist ein Beispiel, das an sich keine praktische Relevanz hat • grafische Darstellungen sind immer 2- oder 3dimensional • reale Anwendungen sind immer vieldimensional und nicht anschaulich! • Lineare Separierbarkeit in mehrdimensionalen Räumen ist nicht anschaulich darstellbar Historischer Abriß • Blüte neuronaler Netze in 60er Jahren • Hauptmodell: Perzeptron • Minsky/Papert 1969: Perceptrons – beschreiben Schwächen des Peceptrons – kann formal viele Probleme nicht lösen • kaum weitere Forschungstätigkeit • Mitte 80er Jahre: eine Lernregel für mehrschichtige Perzeptronen wird entdeckt – Backpropagation Lernregel – Rumelhart/McClelland 1986 • Anfang 90er: Boom neuronaler Netze 8 Backpropagation Backpropagation (BP) oder Multilayer-Perceptron • A ktiv i e ru ngs a u sb reitu ng Beispiel für ein BP Netz Die am meisten benutzte Netzarchitektur als Erweiterung des Perceptrons • Lösung des Perceptron-Problems: Einführung von weiteren Schichten • Diese Schichten sind weder Input noch Output • Versteckte Schichten • Formal können damit mehr Funktionen gelernt werden, z.B. auch XOR • Problem: Eine Lernregel für versteckte Schichten muß gefunden werden • V erbi ndu ng sric htun g Backpropagation: Aufbau • Ausgangsschicht • Schichten in der Regel voll verknüpft (nicht alle Verbindungen sind eingezeichnet) • Versteckte Schicht • Gewichte der Verbindungen sind die veränderbaren Parameter (zufällige Initialisierung) • Eingangsschicht Backpropagation: Lernen • Ausgangsschicht Backpropagation: Beispiel Diagnose Kreditwürdigkeit (Wahrscheinlichkeit, mit der ein Kredit zurückgezahlt wird) 0,9 • Backpropagation lernt eine Abbildung vom Input auf den Output • Eingangsschicht • Kunden-Daten • Als Trainingdaten dienen Kunden, bei denen bekannt ist, ob sie zurückgezahlt haben • Netz findet die Funktion Kunden-Daten -> Kreditwürdigkeit • bei neuen Kunden sind nur die Kunden-Daten bekannt • Das Netz erstellt eine Prognose zur Kreditwürdigkeit 9 Ursachen der Heterogenität • A ktiv i e ru ngs a u sb reitu ng Backpropagation: Beispiel • Der für dieses Beispiel gewünschte Output (= Teacher) • Berechnung des Fehlers 0,9 • Verändern • Das Netz errechnet der die Aktivierung der Gewichte 0,6 Ausgangs-Schicht • Unterschiedliche Inhaltserschließung • Unterschiedliche Eigenschaften der Text-Dokumente (Qualität, Länge, Sprache ...) • Heterogene Objekte (Multimedia) • Input wird angelegt • Das Netz lernt bei jedem Schritt ein Beispiel Heterogenitätsbehandlung ? Wie kann eine Beziehung zwischen zwei heterogenen Repräsentationen hergestellt werden? Wie kann eine Repräsentation in die andere überführt werden? Transformations-Netzwerk Heterogenitätsbehandlung • Traditionelle, exakte Ansätze wie auf Thesauri basierende Konkordanzen • Statistische Ansätze basierend auf Kookkurrenzen und Assoziationen • Transformations-Netzwerk basierend auf Backpropagation (cf. Crestani/v. Rijsbergen 1997) Backpropagation Repräsentation II • Vorteile: Output Layer Backpropagation Netzwerk Hidden Layer – keine expliziten Regeln nötig, ab wann ein Kunde einen Kredit erhält – ganzheitliche Betrachtung des Falls (alle Parameter tragen zum Ergebnis bei) • Nachteile: Input Layer – eine nachträgliche Begründung ist nicht möglich Repräsentation I 10 Backpropagation • Versteckte Schicht • Neuronen haben keine symbolische Bedeutung/Entsprechung • Sie repräsentieren komplexe Kombinationen und Zusammenhänge zwischen den interpretierbaren Knoten Backpropagation Lernregel • Beim Lernen werden zahlreiche Beispiele präsentiert • Diese werden in zahlreichen Durchläufen (epochs) präsentiert Backpropagation Lernregel • Verallgemeinerte Delta-Regel • Delta-Regel muß die versteckte Schicht „überspringen“ • Für die Input-Schicht steht kein Fehlersignal mehr zur Verfügung • Daher muß das Fehlersignal gemittelt werden • Mathematisch erfordert dies die Ableitung der Aktivierungsfunktion Konvergenz • Erfolgreiches Lernen: Minimierung des Fehlers • sinkt der Fehler stetig, so spricht man von Konvergenz • Dann hat das Netz die präsentierten Beispiele richtig gelernt Generalisierbarkeit Trainings- und Testmenge • Die Leistungsfähigkeit eines Netzes zeigt sich jedoch erst an unbekannten Beispielen • kann ein Netz auch neue Muster, die nicht in der Trainingsmenge waren „richtig“ zuordnen, dann generalisiert es • Um zu prüfen, wie gut ein Netz generalisiert, wird beim Lernen eine Testmenge mit unbekannten Beispielen genutzt • Der Fehler in der Testmenge ist ein besserer Maßstab für die Qualität 11 Kreditwürdigkeit Pflanzenwachtstum Lernen als Näherung x Zwei Möglichkeiten • Modell finden • Formel ableiten: ? x x x x x x Kundenparameter anzunähernde Funktion (unbekannt) bekannte Punkte der Funktion (Messungen) x • Kein Modell zu finden • modellfreie Modellierung: solange Formeln ausprobieren, bis der Fehler minimal ist • Ausgangssituation Kreditwürdigkeit Pflanzenwachtstum Lernen als Näherung x Qualität der Näherung x x Näherung x x x x Kundenparameter anzunähernde Funktion (unbekannt) x bekannte Punkte der Funktion (Messungen) • Modellfreie Näherung hat eine Funktion gefunden, die durch alle Meßpunkte läuft • in anderen Fällen hat die Näherung verschiedene Qualität Kreditwürdigkeit Pflanzenwachtstum Vorsicht Trainings- und Testmenge x x x x Näherung x x x x x Kundenparameter anzunähernde Funktion (unbekannt) x • Einige Meßpunkte werden nicht für die Näherung benutzt • mit ihnen wird die Qualität der Funktion bewertet bekannte Punkte der Funktion (Messungen) • Um zu prüfen, wie gut ein Netz generalisiert, wird beim Lernen eine Testmenge mit unbekannten Beispielen genutzt • Der Fehler in der Testmenge ist der Maßstab für die Qualität • Grafik ist zweidimensional • Funktion ist eindimensional • Die Realität ist immer vieldimensional 12 Typischer Lernverlauf Overlearning • Der Fehler in der Trainingsmenge konvergiert mit steigender Epochenzahl. • Der Testfehler sinkt nur bis zu einem bestimmten Zeitpunkt und steigt dann wieder • Durch längeres Training sinkt also die Generalisierungsfähigkeit. • Bei längerer Lernzeit spezialisiert sich das Netz immer mehr auf die Eigenheiten in den Trainingsfällen. • Das Training sollte daher bei einem Minimum in der Testmenge beendet werden • Übergeneralisierung (Overlearning) Lernen als Fehlerminimierung Lernen als Fehlerminimierung • Wunsch: geringsten möglichen Fehler erreichen • Globales Minimum • Problem: Zahlreiche lokale Minima ziehen den Lernalgorithmus an • Der Lernalgorithmus minimiert den Fehler zwischen Output und teaching oder target Output • Fehlermaße: Lernen als Fehlerminimierung Fehlerfunktion: Lokale Minima • Aus Mitchell 1997: Machine Learning – Summe der Fehlerquadrate (SSE) – Durchschnittlicher SSE pro Muster – Durchschnittlicher SSE pro Output Unit (Klasse) • Der Fehler als Funktion der Verbindungsgewichte 13 Lokale Minima • In der Praxis bleibt der Algorithmus häufig in einem lokalen Minimum • Dies ist unproblematisch, wenn das lokale Minimum nahe am globalen Minimum liegt • Maßnahmen gegen lokale Minima – verschiedene Ausgangsstadien – Momentum – stochastische Elemente im Lernverfahren Literatur • Andreas Scherer (1997): Neuronale Netze. Sehr leicht lesbare Einführung. In Bibliothek vorhanden 14