Merkmalskombinatorik in einer Erweiterung des Hopeld-Systems von Christoph Schulz, Westfälische Wilhelmsuniversität in Münster 15.08.2003 Inhaltsverzeichnis 1 Einleitung 3 2 Dierenzierung und Kombinatorik 7 3 Hopeld-Netze und Begrisbildung 11 1.1 1.2 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 Anmerkung zur Terminologie . . . . . . . . . . . . . . . . . . . . Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Übersicht über die Kapitel . . . . . . . . . . . . . . . . . . Dierenzierung in biologischen Systemen . . . . . . . . . . . . . . Merkmalsextraktion im Neuronalen Netz . . . . . . . . . . . . . . Zusammenhang mit anderen Arbeiten zu Hopeldnetzen . . . . . Crosstalk eines Musters . . Cohen-Grossberg-Theorem Lokalität einer Lernregel . Fixpunkte des Systems . . Begrisbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Merkmalsextraktion in der Agentensimulation 5 5 6 7 8 9 12 13 14 14 18 20 5 Bestärkendes Lernen und seine Anwendung auf das vorliegende Lernproblem 22 5.1 Erweiterungen der Hebb'schen Lernregel 5.1.1 Lernregel 1 (selektives Lernen) . . 5.1.2 Lernregel 2 (RL 1) . . . . . . . . 5.1.3 Lernregel 3 (RL 2) . . . . . . . . 5.1.4 Zusammenfassende Betrachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 24 24 26 26 6 Kombinationen von zwei Merkmalen 28 7 Kombinationen von 3 Merkmalen 45 6.1 6.2 7.1 Begrisausprägungen . . . . . . . . . . . . . . . . . . . . . . . . . Fixpunkte mit 2 Merkmalen, Rauschlevel =0 . . . . . . . . . . . . 6.2.1 Fixpunkte, Rauschlevel 6= 0 . . . . . . . . . . . . . . . . . Erwartete Zustände für Rauschlevel = 0 . . . . . . . . . . . . . . 1 28 29 34 45 8 Bestärkendes Lernen, mehrere Merkmale und Begrie 49 9 Zusammenfassung und Ausblick 54 10 Anhang- Details zu Rechnungen 10.1 10.2 10.3 10.4 Kombinationen zweier Merkmale, Rauschlevel 6= 0 . . . . . Herleitung von Gleichung (6.13) aus Abkopplungskriterium Fixpunktbedingung bei zwei Begrien; Assoziativnetz . . . Übersicht über verwendete Abkürzungen . . . . . . . . . . 2 . . . . . . . . . . . . . . . . 56 56 60 61 64 Kapitel 1 Einleitung Künstliche Neuronale Netze sind Systeme, die sich in ihrer Architektur am biologischen Vorbild des zentralen Nervensystems orientieren. Sie bestehen aus der Verschaltung von Elementen, die aus einer Vereinfachung der biologischen Neuronen hervorgehen und ebenfalls als Neuronen bezeichnet werden. Diese zeigen ein einfaches Antwortverhalten auf eingehende Signale, die entweder von anderen Neuronen oder von Messinstrumenten, die äuÿere Daten aufnehmen, stammen. Die Antwort der Neuronen kann wiederum als Eingabe für andere Neuronen dienen. Das gesamte Neuronen-Netzwerk zeigt dann ein Verhalten, welches verschiedene Probleme der Informationsverarbeitung lösen und auch ein Modellsystem für zugrundeliegende biologische Systeme abgeben kann. Neuronale Netze sind aber nicht nur für Informationstechniker und Biologen, sondern auch für Physiker interessant. Sie stellen ein Beispiel für kooperierende Vielteilchensysteme dar, die mathematischer Behandlung zugänglich sind. Das Hopeldnetz, von dem hier zunächst ausgegangen wird, ist als Modell für Spin-Gläser vom Physiker John Hopeld entwickelt worden. Von Spin-Gläsern war bereits bekannt, dass sie Assoziierungs- und Optimierungsprobleme lösen können. Das Modell von Hopeld ist mathematisch so gehalten, dass es durch statistische Methoden beschreibbar ist, die auch in anderen Vielteilchensystemen Anwendung nden. Die Behandlung in Form eines Vielteilchensystems kann man als physikalischen Zugang zu Neuronalen Netzen betrachten; dieser Zugang wird auch in der vorliegenden Arbeit gewählt. Was den Inhalt der Arbeit betrit, so besteht die vom Netz zu bewältigende Aufgabe darin, dass Merkmalskombinatorik möglich sein soll. Eine erste, einfache Denition für diesen Begri lautet so: Das Neuronale Netze bekommt Information in Form von Vektoren übermittelt, die man als Menge von Bildpunkten interpretieren kann. Das Netz soll nun aufgrund der Konfrontation mit verschiedenen Vektoren lernen, Merkmale zu extrahieren. Die Merkmale sind dabei Anteile der Gesamtinformation, die im Vektor kodiert vorliegt. Treten diese Informationsanteile in unabhängigen Kombinationen zueinander auf, soll das Netz lernen, sie auch unabhängig voneinander zu verarbeiten. Gibt es hingegen Abhängigkeiten, so soll das Netz diese nutzen, um die Leistungsfähigkeit der Informationsverarbei3 tung zu steigern. Die Fähigkeit der Informationsverarbeitung macht Neuronale Netze als Baustein zur Modellierung künstlicher Intelligenz interessant. Insbesondere Kombinatorik von Begrien und Merkmalen ist ein wichtiger Aspekt bei der Erschaung künstlicher intelligenter Systeme. Ist der erste Schritt, Merkmale zu erkennen und getrennt zu verarbeiten, einmal getan, kann man diese Fähigkeit zur aktiven Verknüpfung von Merkmalen und Begrien nutzen. Der Hauptgrund dafür, unabhängige Elemente durch Kombinieren zu komplexeren Gebilden zusammenzusetzen, besteht in der Ökonomie dieser Vorgehensweise. So sind durch Zusammenschalten von Elementarbegrien oder Merkmalen aus verschiedenen Kategorien durch eine Vielzahl möglicher Kombinationen die Erkennung und Speicherung vieler Begrie möglich, ohne dass für diese Begrie eigene Symbole (bzw. Neuronencluster für deren Representation) genommen werden müssen. Auch können neue Begrie durch bislang nicht verwendete Kombinationen aus bereits vorhandenen Basismerkmalen gebildet werden. Ein Beispiel für die Nutzung der Kombinatorik aus der klassischen KI-Forschung, die nicht mit Neuronen, sondern mit abstrakten Symbolen zur Informationsrepräsentation arbeitet, ist die Beschreibung der menschlichen Sprache durch Grammatiken. Durch diese Art der Beschreibung haben die KI-Forscher zu erklären versucht, dass der Mensch vorher nie gehörte Sätze auf Anhieb versteht [3]. Das Gehirn greift also auf Elemente, die es schon kennt, zurück und verknüpft diese lediglich neu. Der Nachteil der klassischen, symbolischen Erklärungsweise der Intelligenz besteht jedoch darin, dass diese Symbole dem System durch einen Lehrer übergeben werden müssen und in keinem erkennbaren Zusammenhang mit den aufgenommenen physikalischen Rohdaten stehen (s. [18]). Diese Daten könnten zum Beispiel in Form von Bildinformationen einer Kamera, die an einem Roboter angebracht ist, bestehen. Ansätze aus dem Bereich des Konnektionismus (=Neuronale Netze bilden das Modell zur Erklärung von Intelligenz), die die kombinatorischen Aspekte der klassischen KI nachzubilden versuchen (s. z. B. [3]), kommen zumeinst ebenfalls nicht ohne Lernen mit Lehrer aus. In dieser Arbeit wird vom Hopeldnetz ausgegangen und dieses anschlieÿend erweitert. Das Hopeldnetz ist eine rekurrente Netzwerkarchitektur, bei der alle Neuronen untereinander verbunden sind. Das Netz hat dadurch beispielsweise die Möglichkeit, ein gestörtes Bild, das vorher vom Netz gelernt wurde, zu rekonstruieren. Es gibt bei neuronalen Netzen drei Formen von Lernen: Zu einer Eingabe in das Netz existiert eine eindeutige gewünschte Ausgabe oder eine Rückmeldung über den Grad der Richtigkeit der erfolgten Ausgabe oder aber überhaupt keine Form von Steuerung, so dass es dem Netz komplett selbst überlassen bleibt, welche Ausgabe es der Eingabe zuordnet. Lernen mit Anpassung der Ausgabe an eine gewünschte Sollausgabe kommt in dieser Arbeit nicht vor. Statt dessen wird die Anpassung des Netzes an die Anforderungen der Trainingsmenge, also der Menge der vom Netz zu lernenden Muster, betrachtet. Inwiefern Merkmalskombinatorik bei einer bestimmten Gestaltung der Trainingsmenge grundsätzlich möglich ist, wird zunächst als Grundphänomen untersucht, gleichzeitig steht die Arbeit 4 aber auch zwischen zwei weiteren Arbeiten im Rahmen eines Gesamtprojekts, dessen Ziel die erfolgreiche Kooperation von Agenten in einer künstlichen Umgebung darstellt. Aufgebaut wird auf dem Phänomen der Begrisbildung, das man in Hopeldnetzen darstellen kann. Mit Begrisbildung ist diesem Zusammenhang eine Form der Informationsreduktion gemeint, indem mehrere ähnliche, gelernte Muster zugunsten eines Grundmusters, von dem sich die Einzelmuster ableiten, vergessen werden. Der sich anschlieÿende Schritt ist die Kombinatorik von Begrien, die auch als Eigenschaften oder Merkmale gedeutet werden können. Um sich die Vorteile der Kombinatorik zunutze machen zu können, muss das neuronale Netz aber erst einmal die Fähigkeit zur Merkmalsextraktion besitzen, d.h. verschiedene Merkmale eines Objektes getrennt und ungestört voneinander verarbeiten können. Dies kann gelingen, wenn man die Lernregeln so deniert, dass ein Netz für einzelne Merkmale zuständige Teilnetze ausbildet, die sich gegenseitig nicht stören, die teilnetzübergreifenden Neuronenverbindungen also vernachlässigbar klein werden. Da die Ausbildung von solchen Teilnetzen nicht ohne Nachteile ist, wird hier eine Vorgehensweise gewählt, bei der die Ausbildung der Netzstruktur von der jeweiligen Trainingsmenge abhängig ist. Das Netz entscheidet sozusagen eigenständig, ob sich die Abkopplung eines Netzes lohnt oder nicht. 1.1 Anmerkung zur Terminologie Obwohl der Lernvorgang des Hopeldnetzes durch eine einzige, feststehende Lernregel gesteuert wird, spricht man von einer überwachten Form des Lernens. Wenn das Netz als Autoassoziativspeicher (ein Muster wird abgebildet auf sich selbst) betrieben wird, kann man dies als sinnvoll ansehen, da die Information über die Zielausgabe bereits in der Eingabe vorhanden ist. Sobald aber das Ziel der Begrisbildung verfolgt wird, die eine Informationsreduktion darstellt, kann man vom unüberwachten Lernen sprechen, denn die Begrie, die sich aus den Trainingsbeispielen des Netzes ergeben, werdem dem Netz zu keiner Zeit explizit übergeben. 1.2 Gliederung der Arbeit Die gedankliche Grundstruktur der Arbeit ist folgende: Es wird vom HopeldSystem ausgegangen. Diesem werden Trainingsmuster präsentiert, die sich durch Kombinationen von Merkmalen ergeben. Zunächst wird das Netz, wie es das Standard-Modell vorschreibt, nach getrennten Phasen betrieben. An die Trainingsphase (das Netz lernt die Muster) schlieÿt sich die Testphase an (dem Netz werden weitere Muster präsentiert und es wird überprüft, ob diese korrekt verarbeitet werden). Bei diesem Betrieb des Netzes erreicht man eine Grenze bzgl. 5 Verrauschungsgrad und Ausgewogenheit der Repräsentation der Trainingsmuster, die das Netz an der Aufgabe, alle Merkmale zu erkennen, scheitern lassen. Die Erweiterung des Systems wird in der Weise betrieben, dass Test- und Trainingsphase vermischt und Elemente des bestärkenden Lernens, das einen Rückgabewert zur Ausgabe des Netzes liefert, hinzugenommen werden. Überdies wird die Lernregel für das Hopeldnetz erweitert, um zusätzliche Leistungsverbesserungen zu erzielen. Die neuen Lernregeln verstärken dabei das Ziel, im Falle nichtredundanter Merkmale unabhängige Teilnetze durch Training auszubilden. Man kann also die Ausbildung von Teilnetzen, oder anders formuliert: die Minimierung der Wechselwirkungen zwischen diesen Teilnetzen als Mittel zum eigentlichen Ziel der Merkmalskombinatorik ansehen. Neben der Aufgabe, voneinander unabhängige Merkmale zu verarbeiten, wird die Leistungsfähigkeit von Netzen verglichen, die redundante Merkmale getrennt bzw. assoziativ verarbeiten. Die Arbeit baut im Wesentlichen auf [12] auf. Ansonsten ist die Arbeit grundlegend und basiert hauptsächlich auf den mathematischen Prinzipien der Beschreibung von Hopeldnetzen. Es gibt keine weitere Arbeit, die die Aspekte von Merkmalskombinatorik, Hopeldnetz und Bestärkendem Lernen miteinander kombiniert. 1.2.1 Übersicht über die Kapitel Kapitel 2: Da sich das Konzept der Neuronalen Netze an Prinzipien der Informationsverarbeitung des Nervensystems anlehnt, ist die Fragestellung interessant, ob die Ausbildung von Teilnetzen auch in der Gehirnentwicklung eine Rolle spielt, insbesondere ob diese Struktur genetisch vorprogrammiert oder die Folge einer erfahrungsabhängigen Ausbildung ist. Die Denition des Problems in Bezug auf das Hopeldnetz und ein Überblick über sonstige Untersuchungen, die auf Basis dieser Archtitektur gemacht wurden, folgen. Kapitel 3 gibt die Denition des Hopeldnetzes und beschreibt den Mean-Field-Formalismus. Auÿerdem wird das Phänomen der Begrisbildung beschrieben, auf dem diese Arbeit aufbaut. Damit endet der einleitende/ reproduktive Teil der Arbeit (abgesehen vom ersten Teil des Kapitels 5). Kapitel 4 Die hier theoretisch beschriebenen Möglichkeiten der Begrisbildung und Merkmalskombinatorik nden im weiteren Verlauf des Programmierprojektes unserer Arbeitsgruppe Anwendung in einer Simulation, die in diesem Kapitel beschrieben wird. Kapitel 5 geht kurz auf die für die Problemstellung wichtigen Aspekte des Reinforcement Learning ein. Drei verschiedene Lernregelerweiterungen, die im Kapitel 8 Anwendung nden, werden beschrieben. Kapitel 6 und 7 behandeln das unbeschränkte Hebb'sche Lernen und seine Grenzen bei der Klassizierung von Merkmalskombinationen. Kapitel 8 vollzieht den Übergang zum Reinforcement Learning, welches bei ungleichmäÿig verteilten Trainingsmengen benötigt wird, um den Klassikationserfolg zu erhöhen. 6 Kapitel 2 Dierenzierung und Kombinatorik 2.1 Dierenzierung in biologischen Systemen Orientiert man sich am biologischen Vorbild, ndet man schnell Hinweise, dass die dierenzierte Verarbeitung von Informationen Vorteile erbringt. Mit Dierenzierung ist hier die Entwicklung von Nervenzellen in der Weise zu verstehen, dass sie spezielle Aufgaben der Informationsverarbeitung wahrnehmen können. Beispielsweise reagiert eine Zelle der Retina nur auf Reize aus einem begrenzten Ausschnitt des Gesichtsfeldes. Dabei gibt es genetisch vorgegebene Präferenzen für die Ausbildung von Verbindungen zwischen Nervenzellen, allerdings reicht die genetische Information für eine genaue Verschaltung der entsprechenden Teilbereiche des Gehirns nicht aus. Dieser Mangel muss durch Lernen ausgeglichen werden[15]. Es ist dadurch aber auch der Vorteil der Anpassungsfähigkeit gegeben, indem spezialisierte Zellen für Merkmale entstehen können, deren Unterscheidung in einer speziellen Umwelt wichtig sind. Im Gehirn von Säugetieren läuft die (genetisch bestimmte) a-priori-Ausbildung der Neuronenverbindungen so ab, dass nicht etwa weniger, wie intuitiv anzunehmen, sondern im Vergleich mit der als abgeschlossen zu betrachtenden Lernphase zu viele Verbindungen ausgebildet werden. Welche dieser zu zahlreichen Verbindungen wieder verkümmern, hängt von der Erfahrung während der Lernphase ab, der damit eine entscheidene Bedeutung zukommt[15]. Es wurden Versuche an jungen Katzen unternommen, bei denen die Dierenzierung der Zellen, die visuelle Informationen verarbeiten, unterdrückt wurden. Die Versuchstiere hatten dadurch einen erheblichen Nachteil bei der Aufgabe, unterschiedlich orientierte Konturen zu erkennen, weil sich die auf die bestimmte Orientierungsrichtung spezialisierten Zellen nicht ausbilden konnten ([16], [8]). Dass dabei nicht nur die Konfrontation mit den Mustern, sondern gerade auch die Interaktion mit der Umgebung wichtig ist, die einen (senso-motorischen) Rekopplungsmechanismus ermöglicht , zeigen weitere Untersuchungen, welche die Erfahrungen von Katzen nach reinem passiven Lernen und Interaktion mit der Umgebung gestalteten und bei den nur passiv lernenden Tie7 ren ebenfalls Funktionsstörungen erzielten [6]. Dass das Prinzip der Dierenzierung im allgemeinen Sinne wichtig ist, legen beispielsweise Aktivitätsmessungen der Gehirne von Menschen nahe, die in verschiedenen Bereichen unterschiedlich gute Begabungen zeigen. Während die für die betrachtete Teilleistung besser abschneidenden Probanden eine geringe Aktivität in eng umrissenen Bereichen des Gehirn zeigten, spielt sich die Hirnaktivität weniger begabter Testpersonen über weite Hirnareale ab. Der gesamte Energieverbrauch ist bei diesen höher, die Aufgabe wird mit mehr Mühe bewältigt und die Leistung wird weniger schnell erbracht. Eine Deutung dieses Experiments ist, dass die unbegabten Probanden für die gegebene Aufgabe unspezialisierte Zellen rekrutieren müssen, während die Begabten auf gut trainierte Teilnetze zurückgreifen können [14]. Dies Beispiel zeigt ebenfalls, dass zu viele Verbindungen zwischen Neuronenverbänden, denen unterschiedliche Aufgaben zukommen, Nachteile einbringen kann. Im Fall der Ausbildung von orientierungsspezischen Zellen im visuellen System gibt es mindestens zwei Gründe für die zu zahlreichen Verschaltungen. Zum einen wäre der Aufwand einer genetischen Kodierung der Feinverschaltung zueinander gehöriger Zellen, z.B. im seitlichen Kniehöcker und in der Sehrinde, die etwa auf gleiche Orientierungen reagieren, zu hoch dieser Weg würde von der Natur auch nicht beschritten werden, wenn es mittels Adaption durch Erfahrung einfacher geht. Zum anderen ist das biologische System exibler und kann die ausgebildete neuronale Struktur auf die Erfahrungsumgebung anpassen. 2.2 Merkmalsextraktion im Neuronalen Netz Die wesentliche Aussage des vorangegangen Abschnitts besteht darin, dass sich in biologischen Systemen die Netzstruktur durch Erfahrung entscheidend verändert. Dieser Gedanke soll für das vorliegende Problem übernommen werden. Die theoretisch zugängliche Information, welche Neuronen welche Merkmale kodieren, soll in dieser Arbeit nicht im Sinne einer Vorverschaltung ausgenutzt werden, die unterschiedliche Merkmale von vornherein in gesonderten Teilnetzen verarbeitet. Statt dessen sind am Beginn des Trainings keine Neuronen vor anderen ausgezeichnet, insbesondere gibt es keine Nachbahrschaftsbeziehungen zwischen den Neuronen. Diese Behandlung hat Vorteile: 1. Man kann für das gesamte Netz eine einzige Lernregel denieren. 2. Die Separation ndet nicht statt, wenn die Merkmale redundant (also nur in festen Kombinationen) auftreten, was für die Klassikationsfähigkeit des Netzes vorteilhaft sein könnte. In diesem Fall assoziieren die Merkmale, und ein Merkmalspaar ist damit nur eine Verlängerung der Darstellung durch ein einzelnes Merkmal. Die Nicht-Abkopplung des Teilnetzes ist damit auch ein Kriterium zur Aundung von unabhängig auftretenden Merkmalen, was 8 zum Beispiel für eine eziente sprachliche Kodierung der Information dienen könnte. 3. Das Netz ist exibler einsetzbar und würde seine Fähigkeiten auch dort zeigen können, wo Informationen über die Anzahl unabhängiger Merkmale nicht einfach zugänglich ist. Das Hopeldnetz kann z.B. Teil einer komplexeren Archtitektur sein kann, die auch Vektorquantisierer einschlieÿt. Diese werden benutzt, um den Merkmalsraum zu verkleinern. Welche Merkmale allerdings von Bedeutung sind, in welcher Kombination diese auftreten können und in welchen Neuronen der Ausgabeschicht diese kodiert werden, ist nicht unbedingt bekannt. Eine Selbstorganisation des Netzes bzw. eine Strukturierung, die durch reinforcement learning unterstützt ist, kann dem Abhilfe schaen. Ungeachtet der prinzipiellen Flexibilität konzentriert sich diese Arbeit auf das Ziel der Abkopplung von merkmalskodierenden Netzen. Dieses spezielle Ziel ist allerdings eine Folge der Beschaenheit der Trainingsmengen, die eine solche Struktur erfordern. Alle verwendeten Methoden halten für Netze in anderem Trainingsumfeld die oben beschriebenen Möglichkeiten oen. 2.3 Zusammenhang mit anderen Arbeiten zu Hopeldnetzen Die Zahl der Arbeiten zu dieser Netzarchitektur ist seit dem Artikel von John Hopeld [9] auf eine groÿe Zahl angewachsen. Im Vordergrund dieser Arbeiten steht zumeist eine Erhöhung der Speicherkapazität, Vergröÿerung der Einzugsbereiche für das assoziative Ansteuern von Zielmustern und ähnliche Optimierungen des ursprünglichen Modells. Als Beispiel dafür sei hier [10] genannt. Ebenso befassen sich die Arbeiten von Löwe mit der Erhöhung der Speicherkapazität, wenn die Korrelation der Datenseiten Markov-Prozessen unterliegt, was besonders bei Zeitreihen häug auftritt[13]. Für die Erhöhung der Speicherkapazität kann auch eine Veränderung der Eingabefunktion selbst sorgen [5], die das Zielmuster exponentiell statt linear gegenüber den anderen Mustern begünstigt. Die oentsichtlichen Nachteile einiger der erwähnten Verfahren zur Speichervergröÿerung, beispielsweise Nicht-Lokalität (die Methode der Pseudo-Inversen beispielsweise beinhaltet die Evaluierung des gesamten Netzes zur Berechnung des Gewichtes zwischen zwei Neuronen; diese Nicht-Lokalität macht Hardware-Implementationen schwieriger und verringert die biologische Plausibilität), können umgangen werden. So gibt es auch lokale Verfahren, die die Pseudo-Inverse berechnen können [4]. Auch Merkmalskombinatorik kann die Speicherezienz erhöhen, da die Speichergröÿe selbst in optimierten Netzen bestenfalls linear mit der Netzgröÿe wächst, während jene im Falle unabhängiger Einzelnetze exponentiell ansteigt. Andererseits geht die Zielsetzung in eine andere Richtung, nämlich in die einer Erhöhung 9 der Rekonstruktionsfähigkeit einzelner erlernter Muster trotz deren Korrelation. Da parallel zur Merkmalskombinatorik auch Begrisbildung (im nächsten Kapitel deniert) stattndet und diese auf Informationsreduktion basiert, die unter dem Standard-Hopeld-Modell stattndet, ohne dass ein äuÿerer Lehrer den Begri vorgibt, wird auch zum Zweck der Merkmalskombinatorik möglichst nahe bei dem ursprünglichen Modell verblieben. Das Ziel der Merkmalsextraktion scheint im Widerspruch zur Verwendung eines einschichtigen rekurrenten Netzes, wie es das Hopeldnetz darstellt, zu stehen, da die Aundung von Merkmalen normalerweise zur Informationsreduktion betrieben wird, etwa um die Information anschlieÿend ezienter zu übermitteln. Es ist allerdings zur Modellierung von künstlicher Intelligenz interessanter, die Information aktiv und in vollem Umfang im Netz zu halten, anstatt sie an wenige klassizierende Neuronen zu deligieren, da die Information in diesen Neuronen dann immer noch interpretiert werden muss. Neben der oben erwähnten Anwendung von Hopeldnetzen als Assoziativspeicher gibt es die der Optimierungsprobleme, deren bekannteste das Travelling-Salesman-Problem und das Min- (bzw. Max-) Cut-Problem sind ([11], [17]). Das Min-Cut-Problem stellt die Aufgabe, ein Netz in zwei Bereiche aufzuteilen, wobei die Verbindungsstärke, die zwischen Neuronen verschiedener Bereiche verlaufen, minimal werden soll. Das Problem wird durch die Relaxation der Energiefunktion des Netzes gelöst. Wenn in beiden Bereichen gleich viele Neuronen liegen sollen, schreibt die Nebenbedingung konstante globale Aktivität vor, und die Energiefunktion des Netzes erhält einen Bestrafungsterm, der bei NichtErfüllung der Nebenbedingung den Funktionswert erhöht. Sind die Vorzeichen der Verbindungen alle positiv (kann bei den meisten Problemen so deniert werden), so liefern zwei Neuronen mit unterschiedlich vorgezeichneter Aktivität die gröÿten Beiträge zur Energiefunktion; aus diesem Grund versucht das Netz, während der Relaxation möglichst groÿe Gruppen von Neuronen mit hohen Verbindungsgewichten zusammenzufassen. In dieser Hinsicht kann man wieder Vergleiche zur Zielsetzung dieser Arbeit ziehen, deren Ziel (bei unabhängigen Merkmalen) eine Minimierung der Wechselwirkung zwischen Teilnetzen ist. Der entscheidende Unterschied besteht allerdings darin, dass das Optimierungsproblem kein adaptives ist, d.h. die Verbindungsgewichte des Netzes, das die Lösung des Problems nden soll, sind festgelegt. Der Prozess der Optimierung bezieht sich auf das Aunden des günstigsten energetischen Zustandes des Netzes, nicht jedoch auf eine optimale Gewichtekonguration. 10 Kapitel 3 Hopeld-Netze und Begrisbildung Ein Hopeldnetz ist eine rekurrente Netzwerkarchitektur, bei der alle Neuronen prinzipiell miteinander verbunden sein können (wie stark diese Verbindungen dann tatsächlich sind, wird durch das Training bestimmt). Die notwendigen Bedingungen, die an die Gewichte gestellt werden, sind die folgenden: wii = 0 wij = wji (3.1) (3.2) Dabei bedeuten die w's die Gewichte der Neuronenverbindungen. Die am häugsten verwendete Lernregel, die den obigen beiden Bedingungen unterliegt, ist eine spezielle Form der Hebb'schen Regel: wij = 1/N p X ξiµ ξjµ (3.3) µ=1 wobei ξiµ das Eingabemuster bezeichnet. Der Erregungszutand (oder kurz Zustand) S eines Neurons nimmt im Standard-Hopeld-Modell die Zustände 1 oder -1 an. N bezeichnet die Anzahl der Neuronen des Netzes. Die Eingabefunktion ist wie bei vielen Anwendungen neuronaler Netze: hi (Sj ) = N X wij Sj (3.4) j Als Aktivierungs- wird die die Signumfunktion benutzt. Diese bestimmt den Zustand Si des aktualisierten Neurons: Si = sgn(hi ) (3.5) In ähnlichen Architekturen werden sigmoide Funktionen als Aktivierungsfunktion verwendet, allerdings bilden diese auf kontinuierliche Werte ab, die nach dem Ising-Modell und damit für das Standard-Hopeld-Modell nicht möglich sind. 11 Abbildung 3.1: Schema der Architektur des Hopeldnetzes, hier ein Beispiel mit 4 Neuronen (Bild nach [20]) 3.1 Crosstalk eines Musters In manchen Fällen ist es für die Vorhersage des Netzverhaltens praktisch, die Formeln (3.3) und (3.4) zu kombinieren und dadurch die Netzeingabe nach Beiträgen der Trainingsmuster zu ordnen: N N X P X X ν ν ξjµ ξiµ Sj ) hi = 1/N ( ξj ξi Sj + j j (3.6) µ6=ν Mittels dieser Betrachtungsweise ist es beispielsweise leicht einzusehen, warum einzelne Zufallsmuster Fixpunkte des Systems darstellen. Da binäre Zufallsmuster bei groÿer Neuronenzahl relativ zueinander nahe der Orthogonalität liegen, ist der Beitrag des zweiten Summanden, des sogenannten Crosstalk-Terms) nahe bei Null. Erst bei überladenem Netz läuft der Hauptbeitrag des ersten Summanden Gefahr, an irgendeiner Stelle i des Netzes in seinem Vorzeichen (entscheidet über den Funktionswert der Signum-Funktion) vom Störterm geändert zu werden. Die Fixpunktbedingung lautet, dass bei Eingabe des Musters ξiν gilt: sgn(hνi (ξiν )) = ξiν ∀ i 12 (3.7) Unter Verwendung von (3.6): hνi (ξiν ) = ξiν + 1 XX µ µ ν ξ ξ ξ N j µ6=ν i j j (3.8) Um ein vorzeichenunabhängiges Kriterium für die Fixpunkteigenschaft eines Musters zu erhalten, multipliziert man den Crosstalk-Term mit −ξiν ; die Bedingung lautet dann, dass für alle Bits des Musters gilt: Ciν ≡ −ξiν 1 XX µ µ ν ξ ξ ξ <1 N j µ6=ν i j j (3.9) 3.2 Cohen-Grossberg-Theorem Alle in der Arbeit benutzten Lernregeln erfüllen das folgende, wichtige Theorem: Theorem 1 Rekurrente Netze sind stabil, wenn die Gewichtsmatrix W = (wij ) symmetrisch ist mit Nullen in der Hauptdiagonalen. (nachzulesen z.B. in [20]) Der Begri der Stabilität bezieht sich hier auf die Dynamik des Netzes, d.h. nach endlich vielen Schritten ändert beliebig oft wiederholtes Anwenden von (3.5) den Zustand des Netzes nicht mehr. Die Strukturbedingung ist dabei oensichtlich für das Hopeldnetz erfüllt, wenn dieses unter der Hebb'schen Lernregel betrieben wird. Die Bedingung, die durch das Theorem gegeben wird, ist hinreichend, nicht notwendig. Es gibt auch Anwendungen, in denen vom Hopeld-System gesprochen wird, die aber gegen das SymmetriePrinzip verstoÿen. Dennoch können auch solche Netze stabile Zustände liefern, wenn sie als Musterspeicher benutzt werden(z.B. [10]). Aber auch unter Wahrung der Symmetriebedingung ist weiterhin erforderlich, dass die Dynamik des Netzes asynchron funktioniert. Das bedeutet, dass pro Zeitschritt höchstens ein (zufällig gewähltes) Neuron aktualisiert, d.h. Netzeingabe und Aktivierung für dieses Neuron berechnet wird. Im Gegensatz dazu legt das synchrone Verfahren für jedes Neuron dasselbe Eingabemuster zugrunde und berechnet dann die neuronspezische Eingabe (3.4). Man kann unter Aktualisierung des gesamten Netzes in einem Zeitschritt Oszillationen zwischen zwei energetisch gleichwertigen Zuständen am einfachsten beobachten, wenn man ein einzelnes Muster anti-hebb'sch lernt (wij = −ξi ξj anstatt wij = ξi ξj ) und dann die Dynamik des Netzes mit dem Muster selbst als Eingabe startet. Der Netzzustand oszilliert dann zwischen dem Muster und seinem Inversen. In asynchron aktualisierten Netzes ist so etwas ausgeschlossen. Eine weitere Einschränkung des Theorems besteht darin, dass sich die Aussage für t → ∞ nur auf deterministische Netze beziehen kann. In stochastischen Netzen, in denen eine sogenannte Pseudotemperatur einen ordnungsstörenden Parameter modelliert, ist stets möglich, dass eine genügend groÿe Anzahl von Neuronen ihren Aktivierungszustand invertieren, so dass das Netz in 13 einen Attraktor läuft, der einem anderen Zustand zugeordnet ist. Für diese Netze lautet die Aussage des Theorems dann: für eine hinreichend groÿe Zeit stabil. Diese Arbeit geht zunächst von der Hebb'schen Lernregel aus und beachtet auch unter Erweiterung der Lernregel unter Berücksichtigung von Elementen des Bestärkenden Lernens die Symmetrie-Bedingung, so dass chaotische und periodische Lösungen der Dynamik ausgeschlossen sind. 3.3 Lokalität einer Lernregel Lokalität einer Lernregel ist ein Kriterium, dass besonders in bezug auf Hardwareimplementierung von neuronalen Netzen und zum Zwecke der Modellierung biologischer Netzwerke erfüllt sein sollte. Es besagt, dass die Veränderung der Gewichte zwischen zwei Neuronen nur von ihren Aktivierungszuständen und nicht von denen anderer Neuronen abhängig sein sollte. Die Hebb'sche Lernregel ist ein Beispiel für eine lokale Lernregel. 3.4 Fixpunkte des Systems Die theoretische Behandlung neuronaler Netze wird erleichtert, wenn man sich Erkenntnisse aus anderen Bereichen der Physik, in denen auch Systeme mit vielen Elementen behandelt werden, zunutze machen kann. Die Nutzung der Methoden der statistischen Mechanik bedingt die Existenz einer Energiefunktion, die im Falle symmetrischer Verbindungsgewichte (wij = wji ) für das Hopeld-System formuliert werden kann: N 1X Hα = − wij Si Sj (3.10) 2 i,j α bezeichnet dabei eine spezielle Konguration der Zustände Si = ±1, für die es (in binären Netzen) dann 2N verschiedene Möglichkeiten gibt. Dass die Symmetrie der Gewichtsverbindungen die Bedingung für einen Gradientenabstieg der Dynamik entlang einer Energiefunktion ist, kann man sich einfach plausibel machen. Wird ein einzelnes Neuron aktualisiert und ändert es dabei sein Vorzeichen, ändert sich auch der Wert der Energiefunktion. Da bei der Berechnung der Eingabe (3.4) nur die auf das Neuron hin verlaufenden Verbindungen, nicht aber die vom Neuron ausgehenden, berücksichtigt werden, kann man nicht davon ausgehen, dass die Beiträge zur Energiefunktion, die durch die Wechselwirkung von zwei Neuronen entlang dieser ausgehenden Verbindungen bestehen, nicht einen stärkeren Beitrag im Sinne einer Energieerhöhung leisten. Bei Gewichtssymmetrie geht die Information über die Stärke der abgehenden Verbindungen dagegen nicht verloren. Gleichung (3.10) beschreibt die Energie des Netzes nach den mikroskopischen Gröÿen Si . Da das Neuronale Netz als Vielteilchensystem beschrieben werden 14 soll, muss man makroskopische Gröÿen angeben können, die ebenso die Energie beschreiben. Mit der Wahl von 1 X µ mµ = ξ Si (3.11) N i i als Ordnungsparameter, die den Überlapp des Systemzustandes mit dem abgespeicherten Muster mit Nummer µ beschreiben, läÿt sich die Hamilton-Funktion ebenfalls formulieren: P 1 X µ 2 H=− N (m ) . (3.12) 2 µ=1 (siehe z. B. [2]) Es werden nun kurz die Mean-Field-Gleichungen für diese Ordnungsparameter hergeleitet. Mit ihnen kann man die erwarteten Fixpunkte des Systems berechnen. Der Formalismus geht dabei von der stochastischen Variante der Hopeld-Netze, die als Boltzmann-Maschinen bezeichnet werden, aus. Da man in stochastischen Systemen ordnungsstörende Parameter braucht, werden die Pseudo-Temperatur T und β = 1/T eingeführt. Im Fall binärer Aktivierungswerte kann die Wahrscheinlichkeit für die Zustände 1 bzw. -1 so ausgedrückt werden: 1 P (Si = ±1) = (3.13) 1 + exp(∓2βhi ) Der Parameter β regelt dabei die Steilheit des Anstiegs der Funktion im Ursprung. Läuft β → ∞, geht das System in das deterministische über, das damit ein Grenzfall des stochastischen Modells darstellt. Den Übergang β → ∞ kann man nach Aufstellen der Gleichungen für die Ordnungsparameter vollziehen, um die erwarteten Zustände des Netzes zu berechnen. Die Herleitung aller folgenden Gleichungen einschlieÿlich (3.29) kann auch in [1] oder [7] nachgelesen werden, die Gleichungen werden deshalb nicht einzeln zitiert. Für die Herleitung der Mean-Field-Gleichungen wird zunächst eine Boltzmann-Verteilung der möglichen Zustände α angenommen: 1 −Hα exp( ) Z kB T X −Hα )(Z = Zustandssumme) Z = exp( kB T α pα = (3.14) (3.15) Die freie Energie ergibt sich durch Bildung des natürlichen Logarithmus aus der Zustandssumme: F = −T ln Z Aus der freien Energie als thermodynamischem Potential ergeben sich durch die entsprechenden partiellen Ableitungen die interessanten Messgröÿen wie etwa die durchschnittliche Korrelation zweier Neuronenzustände durch die Ableitung 15 nach dem Gewichtsfaktor zwischen den beiden Neuronen. Die Summe über alle möglichen Kombinationen, in [7] als Spur bezeichnet, stellt das Hauptproblem bei der Berechnung der Zustandssumme dar. Für den Fall, dass die Neuronenzahl und die Zahl der rekonstruierbaren Muster auf unterschiedlichen Mengenskalen liegen, benutzt man zur Berechnung ein Hilfsintegral und die Sattelpunkt-Methode. Man geht bei dem Verfahren von folgender Darstellung der Energiefunktion aus: P X X µ 1 XX H=− N ( Si ξiµ )2 + P/2 − hµ ξi Si 2 µ µ i i (3.16) Dies ergibt eingesetzt in (3.15), wenn T rS die Summe über alle möglichen Zustände von Si bezeichnet: Z = eβP/2 T rS exp( X X µ β XX ( Si ξiµ )2 + β hµ ξi Si ) 2N µ i µ i (3.17) Die quadratischen Anteile im Exponenten machen die Berechnung der Spur schwierig. Über die Identität: Z ∞ p 2 2 dxe−ax ±bx = π/aeb /4a (3.18) −∞ können diese auf Kosten der Einführung eines Integrals über P (=Anzahl der Muster) Hilfsgröÿen eliminiert werden. Über einige Umformungen erhält Z die Gestalt: Z βN P/2 ~ Z=( ) dme ~ βN f (β,m) (3.19) 2π Hier tauchen die Vektoren m ~ zunächst als mathematische Hilfsgröÿen auf. Weiter unten wird dann klar, dass eine Identizierung mit dem Muster-Überlapp möglich ist. Das Integral kann nun über die Sattel-Punkt-Methode ausgewertet werden. Dieses Verfahren beruht auf einer Taylor-Entwicklung der Funktion g(x) an der R −Kg(x) Stelle des Minimums in Integralen der Form dxe , wobei nach dem quadratischen Glied der Entwicklung abgebrochen wird. Die Genauigkeit der Näherung wird durch die Gröÿe des Parameters K bestimmt; im vorliegenden Fall rechtfertigen ein groÿes N (Netzgröÿe) und groÿes β (Kehrwert der Pseudo-Temperatur) die Näherung. Damit kann im Limes groÿer Neuronenzahlen (bei endlicher Musterzahl) die freie Energie pro Neuron so dargestellt werden: F/N = − 1 log Z = β min f (β, m) ~ m ~ N (3.20) Die Sattel-Punkte ndet man über: 0= 1 X µ df µ = m − ξ tanh[β(m ~ + ~h)ξi ] dmµ N i i 16 (3.21) Das Scharmittel (3.21) über alle Neuronen wird jetzt als Zeitmittel (oder MeanField-Gleichung) hingeschrieben: mµ = hhξ µ tanh[β(m ~ + ~h)ξ]ii (3.22) Ebenso gibt es eine Mean-Field-Gleichung für die freie Energie: 1 2 f= m ~ − β −1 hhln(2 cosh[β(m ~ + ~h)ξ])ii 2 (3.23) Um Lösungsansätze für die selbstkonsistente Gleichung (3.22) angeben zu können, muss jetzt die Hilfsgröÿe m ~ identiziert werden. Leitet man in (3.15) Z nach hµ ab, wobei der Ausdruck für die Energiefunktion (3.16) eingesetzt werden muss, erhält man: X dF −1 d ln Z = −β = − hhSi iiξiµ (3.24) µ µ dh dh i Weitere Ausdrücke für die partielle Ableitung der freien Energie nach hµ liefern (3.20) und (3.21): dF df ~ = −N mµ = N = −N hhξ µ tanh[β(m ~ + ~h)ξ]ii (3.25) µ µ dh h Damit ist es jetzt möglich, die ursprünglich nur als mathematische Hilfsgröÿen eingeführten Vektoren m ~ als die wichtige Gröÿe des mittleren Überlapps des Systemzustandes mit den abgespeicherten Mustern zu identizieren: 1 X µ mµ = ξ hhSi ii (3.26) N i i Nun kann man die zu mathematischen Ableitungszwecken eingeführten äuÿeren Feldgroÿen hµ gleich Null setzen (da äuÿere Felder die Iteration eines Hopeldnetzes nicht beeinussen sollen) und erhält dann die Gleichung, die als Kriterium zur Aundung stabiler Zustände dient: ~ mµ = hhξ µ tanh(β m ~ ξ)ii (3.27) Lösungsansätze, die stabile Zustände des Netzes beschreiben sollen, müssen diese Gleichung im Sinne einer Selbstkonsistenz erfüllen. Im Falle mehrerer abgespeicherter, unkorrelierter Einzelmuster, deren Anzahl unterhalb der Speichergrenze liegt, haben die wichtigsten Lösungen die Form: m ~ = (0, 0, ..., mµ , ..., 0), {z } | (3.28) m6=0 an der Stelle µ was bedeutet, dass nur der Überlapp mit dem Zielmuster mit der Nummer µ von der Gröÿe m ist, während die anderen den Überlapp 0 mit dem System haben. Der Ansatz für m ~ , eingesetzt in (3.22) ergibt: mµ = hhξ µ tanh βmξ i ii = hhξ µ ξ i ii tanh(βm) = δµi tanh(βm) 17 Der letzte Umformungsschritt ergibt sich durch die Unkorreliertheit der Muster, wenn Zufallsmuster verwendet werden. Man kann anhand der Mean-FieldGleichung also zeigen, dass die Lösung die angegebene Form hat und ein ausgezeichnetes, stabiles Zielmuster existiert. Natürlich muÿ die übriggebliebene skalare Gleichung: m = tanh(βm), (3.29) die die Stärke des Überlapps mit dem Zielmuster angibt, noch gelöst werden. Durch den Einuss des Parameters β wird der Überlapp stets etwas unterhalb von 1 liegen, hier spiegelt sich der ordnungsstörende Einuss der Temperatur in stochastischen Netzen wieder. 3.5 Begrisbildung Man kann im Hopeldnetz eine Form von Begrisbildung erreichen, indem man eine Reihe von Beispielsvektoren ableitet, die gegenüber einem zugehörigen Begrisvektor an zufällig gewählten Stellen Verrauschungen zeigen und damit unvollkommene Abbilder ihres Begris darstellen. Das Hopeldnetz kann die Zugehörigkeit zu einem Begri erkennen und zeigt bei Eingabe eines Beispielmusters den zugehörigen Begri. Dieser Prozess wird ermöglicht durch die Ähnlichkeit der Beispiele, die zu einer schnellen Speicherüberlastung des Netzes führt. Der Punkt der Speicherüberlastung des Netzes ist erreicht, wenn aufgrund der zu hohen Anzahl der Trainingsmuster diese nicht mehr vom Netz rekonstruiert werden können. Im Falle der Ableitung von Beispielen aus einem Begri kommt es dann automatisch zu der gewünschten Informationsreduktion, bei der die Begrie übrigbleiben. Das Netz abstrahiert die Begrie aus den Beispielen (siehe Abbildung). Näheres zur Begrisbildung kann man in [12] nachlesen. Die Begrie X sind in allen folgenden Messungen durch Zufallsmuster repräsentiert, die mit gleicher Wahrscheinlichkeit an jeder Stelle 1 oder -1 zeigen. Die Trainingsmuster (=Beispiele) werden erzeugt durch die Anwendung der Verrauschungsmatrizen, die auf der Diagonale mit der Wahscheinlichkeit d eine -1 zeigen, was zu einer Invertierung der entsprechenden Stelle im Begrisvektor führt: ξiµβ = Riµβ Xiβ (3.30) µ = Beispielsindex, β = Begrisindex, i = Neuronenindex. Als wichtigstes Ergebnis aus [12] ist festzuhalten, dass es eine untere Grenze für die Anzahl der Trainingsmuster gibt, die in Form der Beispiele ins Netz eingespeist werden müssen. Bei geringer Verrauschung werden drei Beispiele benötigt, um bei Eingabe eines Beispiels den Begri zu erhalten. Bei steigendem Rauschlevel erhöht sich die Anzahl benötigten Trainingsbeispiele. Werden die Begrie selbst als Zufallsmuster erzeugt, beeinussen diese sich gegenseitig nicht, wenn ihre Anzahl unterhalb der Speichergrenze für Zufallsmuster liegt. 18 Abbildung 3.2: Beispiel für eine Begrisbildung. Liegt die Menge der Beispielsmuster für einen Begri über der vom Rauschlevel abhängigen Grenze, werden die Beispiele mit dem zugehörigen Begri assoziiert 19 Kapitel 4 Merkmalsextraktion in der Agentensimulation Die folgenden Messungen, insbesondere die Messungen zum Bestärkenden Lernen, sind vom Konzept her nicht zu verstehen, wenn nicht kurz die Anwendung, der sie letztlich dienen sollen, erläutert wird. Das Anwendungsszenario ist dabei das folgende: Agenten Einheiten, die z.B. in Form von Robotern realisiert werden können bewegen sich in einer Umgebung, in der sie auf Objekte treffen. Jedem Agenten wird ein Neuronales Netz zugeordnet, das die Erfahrung des Agenten in seiner Umgebung abspeichert. Die Objekte werden dargestellt durch Muster und sollen die Eigenschaften haben, unterschiedliche Rückgabewerte (Belohnungs- bzw. Bestrafungswerte), abhängig von ihrer Klassizierung, zu erteilen. Die Klassizierbarkeit der Objekte beruht darauf, dass ihre Muster von gemeinsamen Begrien abgeleitet sind und das Hopeld-Netz in diesem Fall automatisch eine Begrisbildung vollzieht. Nach einer Vorphase, in der die Objekte bzw. Muster nach der Hebb'schen Regel einfach gelernt werden, gehen die Agenten in einen Zustand über, in dem die nächsten angetroenen Muster gleichzeitig Trainings- und Testmuster sind, wobei abhängig von Erfolg oder Nicht-Erfolg der Klassizierung aufgrund des bisherigen Wissens ein Belohnungswert bzw. Bestrafungswert an den Agenten zurückgegeben wird. Die Idee dieser Vorgehensweise ist, dass sich an die richtige Klassizierung eine passende Reaktion der Agenten anschlieÿt, während die falsche Einordnung eine unpassende Reaktion nach sich zieht, die bestraft wird. Der Vorteil, in ein solches System Neuronale Netze einzubinden, anstatt komplett auf der symbolischen Ebene zu programmieren, besteht darin, dass über die automatisch auftretenden Eekte von Begrisbildung und Kombinatorik den Agenten keine wohldenierte Repräsentation der Umgebung mitgegeben werden muss; dies geschieht im Netz durch das Training. Gelingt die Klassizierung (Begrisbildung) der Objekte inklusive der Merkmalskombinatorik, so können die sich daran anschlieÿenden Aktionen auf der symbolischen Ebene programmiert verarbeitet werden. Die Sinnhaftigkeit des Verhaltens der Agenten beruht stufenweise auf den Fähig20 keiten Begrisbildung Begris- bzw. Merkmalskombinatorik Kommunikation mit Hilfe der Begrie Ein beispielhafter Ablauf könnte so aussehen: Eine Anzahl von Agenten wird in eine Umgebung entlassen. Jeder Agent erkundet sein Umfeld zunächst unabhängig von den anderen. Er beginnt, zu verschiedenen Objekten nach visuellen Kriterien Begrie zu bilden. Das ermöglicht ihm, etwa zwischen Objekten, denen er ausweichen muss und solchen, die er beiseite schieben kann, zu unterscheiden. Nimmt er Messdaten verschiedener physikalischer Herkunft auf, kann er anschlieÿend dazu übergehen, Merkmale an Objekten festzustellen, die die jeweilige Bedeutung nuancieren können. Der Agent könnte beispielsweise rot als Gefahr zu interpretieren lernen. Es ist denkbar, dass die Agenten selbst diese Farbe haben, da es aufgrund der Bewegung beider Beteiligten einer Begegnung zu einem Unfall kommen kann. Ob die Messdaten unterschiedlicher Herkunft als unabhängige Merkmale von Objekten festgestellt werden, hängt von der Art der Erfahrung, nämlich der Kombinatorik des Auftretens der Merkmale selbst ab. Ein Erkundungsroboter, der Eisengehalt und Magnetisierbarkeit von Gesteinsproben misst, würde keine Unabhängigkeit dieser Merkmale entdecken, sondern sie miteinander assoziieren. Existieren aber unabhängige Merkmale, wird die Kommunikation der Agenten um entscheidende Möglichkeiten erweitert, wie man am nächsten Schritt der Entwicklung sieht. Die Agenten sollen jetzt ihre Erfahrungen austauschen können, um den Wissenschatz anderer Agenten aufzustocken. Dank der Begrisbildung ist es möglich, dass die Kategorie eines Objektes übermittelt werden kann, ohne dass das Beispiel selbst dem anderen Agenten bekannt sein oder beschrieben werden muss. Entscheidend ist nur die Bedeutung des Objektes, die der Agent aufgrund seiner Primärerfahrung mit den einzelnen Beispielen kennt. Die Merkmalskombinatorik bietet darüber hinaus die Möglichkeit, Wissen um ein Objekt zu übermitteln, dessen einzelne Merkmale einem anderen Agenten bekannt sind. Obwohl die Kombination bei diesem noch nicht auftrat, kann er unter Umständen mit dem übermittelten Wissen etwas anfangen. Voraussetzung für ein Gelingen der Kommunikation ist natürlich, dass die sprachlichen Etikette eines Begris übereinstimmen, damit die Agenten nicht aneinander vorbeireden. Das Neuronale Netz selbst stellt in diesem Kontext somit das Basiselement- das Objektwissen- der Agenten dar. Alle weiteren Aufsätze, seien es explizite Steuerelemente oder weitere Netzschichten, können auf diese Basis aufgesetzt werden. 21 Kapitel 5 Bestärkendes Lernen und seine Anwendung auf das vorliegende Lernproblem Beim Bestärkenden Lernen handelt es sich um einen Sammelbegri für verschiedene Lernverfahren, die zwischen dem überwachten und unüberwachten Lernen stehen. Vom unüberwachten Lernen spricht man, wenn auÿer den Trainingsmustern selbst dem Netz keinerlei Information dargeboten werden. Überwachtes Lernen besagt, dass zu einem gegebenen Trainingsmuster die Information über eine gewünschte Sollausgabe vorliegt und die Ausgabe des Netzes dieser angeglichen wird. Dies wird bei mehrstugen Netzen meist über ein Gradientenabstiegsverfahren erreicht. Auch bei der Verwendung des Hopeldnetzes als Autoassioziativspeicher wird von überwachtem Lernen gesprochen, da die Information über die Sollausgabe in der Eingabe, also dem zu speichernden Muster selbst, liegt. Dieser Sonderfall des überwachten Lernens wird als selbstüberwacht bezeichnet. Da das Ziel der einfachen Autoassoziation im Rahmen der Begrisbildung aufgegeben wird, muss diese Kategorisierung des Hopeldnetzes aber nicht beibehalten werden. Den verschiedenen Formen, Bestärkendes Lernen umzusetzen, ist gemein, dass der Agent eine Rückmeldung über seine Aktion (bzw. Ausgabe) erhält, die in einem Zahlenwert besteht. Ein positiver Wert belohnt das Netz für seine Entscheidung, während ein negativer Rückgabewert eine Anpassung des Verhaltens erfordert. Im Modell des Bestärkenden Lernens gehört zum Begri des Agenten die (im Allgemeinen begrenzte Information) über die Umgebung und seine bisherige Erfahrung, die er bei zukünftigen Entscheidungen zugrunde legt. Die Umgebung ist das gesamte Komplement, das das Modell auszeichnet bei Hardware-Implementationen sogar die Sensorik, über die der Agent die Information über die Umgebung erhält (siehe hierzu [19]).Zu wesentlichen Fallunterscheidungen, die beim Bestärkenden Lernen zu beachten sind, gehören: • stationäre/ nicht-stationäre Umgebung 22 Zustand s(t) Agent Reward r(t) r(t+1) Aktion a(t) Umgebung s(t+1) Abbildung 5.1: Schema des Zusammenspiels von Agent und Umgebung beim Bestärkenden Lernen (Bild nach [19]) • stochastische/deterministische Vergabe der Rückgabewerte • markov'sche/nicht-markov'sche Umgebung (Zustand und Aktion zur Zeit t beeinussen den Zustand zur Zeit t + 1) In den folgenden Betrachtungen besteht die Lernaufgabe für das Netz im Lernen von Begrien mit Merkmalskombinationen und in deren korrekter Klassikation. Die Umgebung kann beschrieben werden als eine rein stochastische ohne Gedächtnis (keine Übergangswahrscheinlichkeiten von einer Lernsituation zur nächsten, also ein nicht-markov'sches System). Sie ist insofern stationär, als die Klassikationsziele sich mit der Zeit nicht verändern; der Reward für eine Netzausgabe erfolgt deterministisch. 5.1 Erweiterungen der Hebb'schen Lernregel Um die Abkopplung der Netze, die Nebenmerkmale kombinieren, durch Bestärkendes Lernen voranzutreiben, wird das ursprüngliche Hopeld-System jetzt erweitert. Man muss an dieser Stelle erwähnen, dass nicht nur die veränderte Lernregel das System verändert, sondern auch die Vermischung von Lern- und Testphase, die das Bestärkende Lernen notwendigerweise mit sich bringt, bei dieser Architektur unüblich sind. Um das Ziel der Merkmalskombinatorik über eine Ausbildung von merkmalsverarbeitenden Teilnetzen näherzukommen, werden drei unterschiedliche Erweiterungen vorgestellt und miteinander verglichen. Kapitel 3 behandelt die Theorie zu Netzen, die mit der Hebb'schen Lernregel trainiert wurden. Nach der Manipulierung der Lernregel ist der Formalismus in jener Form nicht mehr anwendbar. Um trotzdem einen Anhaltspunkt für Erweiterungen der 23 Hebb'schen Lernregel zu gewinnen, die es dem Netz ermöglichen, verschiedene Merkmale zu erkennen, kann man von folgender Überlegung ausgehen: Ist die Verbindungsstärke der Gewichte innerhalb des Teilnetzes gröÿer als die der Verbindungen zwischen den Netzen, so wird der Zustand des Teilnetzes allein durch die Ähnlichkeit der Eingabe mit dem Merkmal, nicht jedoch durch den Zustand auÿerhalb des Teilnetzes bestimmt. Sei w1 das durchschnittliche Verbindungsgewicht innerhalb des kleineren Teilnetzes, w2 das durchschnittliche Verbindungsgewicht zwischen dem Teilnetz und dem Restnetz, dann muss gelten: w1 gN > w2 (1 − g)N (5.1) Eine einfache Rechnung zeigt, dass dieses Kriterium, angewandt auf den entsprechenden Fall, dem in Abschnitt 6.2 gefundenen entspricht (siehe Anhang, Rechnung 2). Die beiden Lernregeln RL1 und RL2 , die im Folgenden vorgestellt werden, gehen von dieser Überlegung aus und forcieren die Schwächung der Verbindungen zischen den Netzteilen. 5.1.1 Lernregel 1 (selektives Lernen) Bei einer Vermischung von Test- und Trainingsphase besteht das prinzipielle Problem, dass Verbindungen über alle Grenzen wachsen können. Eine einfache und für unsere Zwecke zugleich sinnvolle Möglichkeit besteht darin, nur dann Muster nachzutrainieren (über die einfache Hebb'sche Regel: wij = ξi ξj ), wenn die Klassikation nicht erfolgreich war. Im Kontext der Agentensimulation würde ein solches Vorgehen dazu führen, dass der Agent automatisch die ungleich gestalteten Trainingsmusterverhältnisse für sich korrigiert, d.h. Netztrennung ermöglich und zugleich das Problem des unbegrenzten Lernens löst. 5.1.2 Lernregel 2 (RL 1) Trit der Agent, der in der Umgebung auf ein Objekt stöÿt, eine falsche Klassikationsentscheidung, an die sich eine falsche Reaktion oder gar keine Reaktion (wenn das Objekt nicht bekannt ist) knüpft, so gibt es zwei Grundtypen von Fehlern. 1. der dem Objekt zugrundeliegende Begri wurde noch nicht gebildet 2. die Merkmale eines Objektes werden nicht unabhängig voneinander verarbeitet Das Hebb'sche Lernen eines Musters fördert bei ungleichmäÿig in der Trainingsmenge auftretenden Begrisausprägungen die Unabhängigkeit der Merkmale nicht stark genug. Zu diesem Ergebnis kommen die Rechnungen und Messungen des 24 nächsten Kapitels. Die Erweiterung der Lernregel soll deshalb den Prozess der Abkopplung durch eine nach dem Hebb'schen Lernen ablaufende zusätzliche Lernphase unterstützen. In die Lernregel ieÿt der Rückgabewert der Umgebung mit ein, wobei die Wirkung um so stärker ist, je gröÿer der Betrag des Bestrafungsterms. Für die Neuronen, die von dieser Erweiterung betroen sein sollen, muss gelten, dass diese vermutlich verschiedene Merkmale kodieren. Als Kriterium dafür gilt der Vergleich des Zustandes zweier Neuronen vor und nach der Netziteration. Ändert das eine der beiden Neuronen sein Vorzeichen, das andere nicht, so ist die Bedingung erfüllt und (5.3) wird angewandt. Mathematisch lässt sich die Bedingung so formulieren (t= Zeitpunkt vor, t+1 = Zeitpunkt nach der Iteration): Si (t) = Si (t + 1) ∨ Si (t) 6= Si (t + 1) ∧ Sj (t) 6= Sj (t + 1) ∧ Sj (t) = Sj (t + 1) = wahr → Bedingung erfüllt (5.2) Die zusätzliche Gewichteänderung beträgt dann: ∆wij = |wij |f (r) (5.3) Die Funktion f (r) soll eine monoton steigende Funktion mit dem Wertebereich zwischen (-1) und 1 sein, was dazu führt, dass die betragsmäÿige Schwächung bereits vorhandener Verbindungen mit dem Betrag der Bestrafung ausgeprägter wird. Werden, wie in Kapitel 8, die Nebenmerkmale nicht verrauscht, so ist der Rückgabewert im Falle einer Bestrafung (-1). Die Funktion kann dann im einfachsten Fall durch eine Konstante α umgesetzt werden, die zwischen 0 und 1 liegt: ∆wij = |wij | r α (5.4) Dieser Regel liegt die Vermutung zugrunde, dass der Grund der Fehlklassizierung in nicht funktionstüchtiger Merkmalskombinatorik liegt. Da besonders in der Anfangsphase die Begrie noch nicht gebildet wurden, ist es sinnvoll, eine kurze Phase rein Hebb'schen Lernens voranzustellen. Auch darf die Funktion f (r) nicht zu steil bzw die Konstante α nicht zu groÿ sein, da auch die Verbindungen zu Neuronen, die Verrauschungen unterliegen, in Mitleidenschaft gezogen werden. Die Länge der rein Hebb'schen Lernphase und die Gröÿe des Lernparameters sind für jede Messung Gegenstand von Optimierungsmessungen. Diese werden so durchgeführt, dass die beiden Parameter für die jeweilige Trainingsmenge durchgefahren werden und die Kombination mit der höchsten Klassikationsfähigkeit ausgewählt wird. Sind die Begrie mit Hilfe der Hebb'schen Lernregel erst einmal gebildet, kann man davon ausgehen, dass durch den Einuss der Lernregel die Begrie selbst nicht gestört werden, da sich das Vorzeichen der Verbindungen wegen der Einschränkung auf den Wertebereich von (-1) bis 1 nicht ändert. Die Eigenschaften der Lernregel sind: 25 • Sie ist lokal • Sie erfordert (auÿer den Verbindungen) selbst keinerlei Gedächtnis, d.h. um sie umzusetzen benötigt man keinen zusätzlichen Speicheraufwand 5.1.3 Lernregel 3 (RL 2) Eine weitere Möglichkeit, die Trennung der Netze herbeizuführen, besteht darin, Verbindungen zwischen Neuronen Misstrauenswerte zuzuweisen. Der Wert einer Verbindung soll erhöht werden, wenn von einem Neuronenpaar ein Neuron seinen Wert während der Iteration verändert hat, das andere hingegen nicht. Dadurch kann dem Netz die Information geliefert werden, welcher Neuronencluster des Gesamtnetzes ein Merkmal kodiert. Bei einer Iteration verändern einige Neuronen ihren Aktivierungszustand, während die Klassikation vorgenommen wird. Bei diesem Prozess ist es dem Netz nicht möglich, zwischen einer Korrektur eines verrauschten Bits und einer durch das gröÿere Teilnetz forcierten Umstülpung des Sekundärmerkmals zu unterscheiden. Zwar sind die verrauschten Stellen zufällig verteilt und die nebenmerkmalkodierenden nebeneinanderliegend, aber dieses rein optische Kriterium besteht für das Netz nicht, da es keine ausgezeichneten Nachbahrschaftsverhältnisse gibt. Verbindungen vom Haupt- zum Nebennetz können aber anhand der Misstrauenswerte identiziert werden, da Inkrementierungen dieser Verbindungen wesentlich häuger auftreten als jener, die zwischen verrauschten und unverrauschten Neuronen bestehen. Überschreiten die Werte einen Schwellwert, kann das Netz dann optional zur herkömmlichen Iteration die Verbindungen mit hohen Misstrauenswerten drosseln und anhand des neuen Rückgabewertes erkennen, ob das Vorgehen zu einer erfolgreichen Klassikation geführt hat. Wenn dies der Fall ist, hat sich die dieser Vorgehensweise implizite Vermutung, dass ein Nebenmerkmal in einem Teilbereich des Musters kodiert liegt, bestätigt und die Trennung des entsprechenden Teilnetzes kann vollzogen werden. 5.1.4 Zusammenfassende Betrachtung Die Lernregeln werden in Richtung ihrer Nummerierung komplizierter und aufwendiger umzusetzen. Ist man an einem möglichst einfachen Betrieb interessiert, wird man sich für die Lernregel 1 entscheiden, da zum Hebb'schen Lernalgorithmus hier nur die Auswertung des Rückgabe-Signals hinzukommt. Die Probleme des Bestärkenden Lernens zeichnen sich allerdings dadurch aus, dass man an einem optimierten Lernverhalten des Agenten interessiert ist [19]. Deshalb sind auch die anderen beiden Lernverfahren zu prüfen. Es wird sich herausstellen, dass sie die Leistungsfähigkeit des Netzes teilweise nur leicht, teilweise entscheidend verbessert. Kombinatorik von komplexen Begrien, die in verschiedenen Netzen 26 mehrfach als Zufallsmuster auftreten, ist, wie sich herausstellen wird, nur mit Hilfe der beiden letzten Lernregeln möglich. 27 Kapitel 6 Kombinationen von zwei Merkmalen 6.1 Begrisausprägungen Mit dieser Bezeichnung sind Zusammenfassungen von Objekten gemeint, die sich bezüglich einer Haupteigenschaft gleichen (repräsentiert durch den Groÿteil der Neuronen), aber bezüglich weiterer Eigenschaften unterscheiden, für deren Repräsentation weniger Neuronen aufgewendet werden. Um die Mittelwert-Gleichung für den Überlapp-Vektor (3.22) anwenden zu können, stellt man die Muster als Ableitungen von einem Hauptmuster dar. Dieses Hauptmuster stellt einen Begri mit einer typischerweise auftauchenden Merkmalskombination dar; allerdings sollen die Merkmale in der Trainingsmenge in unterschiedlichen Kombinationen auftreten. Um ein Beispiel zu geben: Das Merkmal der äuÿeren Form (Kontur) eines Objekts hat einen umfangreichen Informationsgehalt. Dementsprechend wird für die Darstellung dieses Merkmals im neuronalen Netz eine groÿe Zahl von Neuronen benutzt. Ein Objekt mit feststehender Form soll jetzt in Farbstufen zwischen zwei extremen Farbwerten vorkommen. Bei gleichem Hauptmerkmal, also bei gleicher äuÿerer Form sollen die beiden Farbwerte für gegensätzlichen Reward stehen. Ein anschauliches Beispiel ist eine Beere, die unreif (grün) unbekömmlich und reif (rot) bekömmlich ist. Die Zwischenstufen ergeben entsprechende Reifegrade, was sich im Rückgabewert niederschlagen kann. Eine naheliegende Umsetzung dieser Überlegungen besteht darin, den einen Extremwert des Nebenmerkmals Farbe durch ein Zufallsmuster darzustellen und den anderen Extremwert durch das entsprechende inverse Muster; dadurch entspricht die Summe der Abstände eines Zwischenwertes zu den Extrema dem Abstand der Extremwerte zueinander. Das Hauptmerkmal ist diesem Fall also die Beere (Beerenform), das Nebenmerkmal die Farbe. Die zwei möglichen Begrisausprägungen sind die rote und die grüne Beere. Mathematisch lässt sich das Konzept durch einen Begrisvektor umsetzen, aus dem sich die Beispielsvektoren durch Multiplikation mit einer Matrix 28 Abbildung 6.1: Zwei Ausprägungen eines Begris, der in 90% der Neuronen (unterer Teil des Musters) kodiert ist, während das Nebenmerkmal mit seinen beiden möglichen Werten (10-bit Zufallsvektor und sein Inverses) in den restlichen 10% der Neuronen residiert ergeben, die auf der Diagonalen eine (−1), wo gegenüber dem Begri mit typischer Merkmalskombination eine Invertierung erwünscht ist, ansonsten einsen und auÿerhalb der Diagonalen nur nullen besitzt: ξ = Ra X (6.1) Anhand des Mean-Field-Formalismus kann nun gezeigt werden, unter welchen Voraussetzungen zwei Begrisausprägungen mit identischem Hauptmerkmal Fixpunkte der Dynamik sein können, wenn unter der normalen Hebb'schen Lernregel gelernt wurde. 6.2 Fixpunkte mit 2 Merkmalen, Rauschlevel =0 Zunächst wird der Fall der Kombination zweier unverrauschter Merkmale betrachtet. Wenn das das Nebenmerkmal repräsentierende Teilnetz einen Anteil von 10 % vom Gesamtnetz einnimmt, sollen sowohl: m ~ = (1, 1, ..., 1, 0.8, 0.8, ..., 0.8) {z } | {z } | P 1 viele als auch: (6.2) P 2 viele ~ ∗ = (0.8, 0.8, ..., 0.8, 1, 1, ..., 1) m | {z } | {z } P 1 viele 29 P 2 viele (6.3) mögliche Lösungen des Systems sein. P 1 ist dabei die Anzahl der Trainingsbeispiele für die erste Merkmalskombination, P 2 die Anzahl der Beispiele für die Ausprägung, die gegenüber der ersten ein invertiertes Nebenmerkmal zeigt. Die Nummer der Muster entspricht nicht unbedingt der Stelle ihres Auftretens im Training, sondern sie sind nach Zugehörigkeit zu den beiden Ausprägungstypen umsortiert. Für P 1 und P 2 gilt dabei: P = P1 + P2 = Menge der Trainingsvektoren Setzt man diesen Ansatz in (3.22) ein, ergibt sich: 1 P X m = hhξ tanh(β( mν ξ ν + µ P X µ ν=1 ∗ ∗ mν ξ ν ))ii (6.4) ν ∗ =P 1 +1 Wegen der Äquivalenz der Trainingsmuster innerhalb einer Merkmalsausprägung kann man dies schreiben als: mµ = hhξ µ tanh(β(P 1 m1 ξ 1 + (P − P 1 )m2 ξ P 1 +1 (6.5) ))ii Der Überlapp m1 steht gleichzeitig für den Überlapp aller anderen Muster ν mit 1 < ν < P 1 , während m2 für die Muster bis zur Nummer P steht. Von den beiden (äquivalent zu behandelnden) Rechnungen für m1 und m2 wird jetzt die für m1 weitergeführt. Wegen ξi1 ξi1 = 1 gilt: m1 = hhξ µ=1 tanh(β(P 1 m1 ξ 1 + (P − P 1 )m2 ξ 1 ξ 1 ξ P = hhξ µ=1 ξ 1 tanh(β(P 1 m1 + (P − P 1 )m2 ξ 1 ξ | {z } 1 +1 P 1 +1 ))ii ))ii (6.6) (6.7) =1 = hhtanh(β(P 1 m1 + (P − P 1 )m2 ξ 1 ξ P 1 +1 ))ii (6.8) Für das in der Simulation verwendete deterministische Netz führt man jetzt den Grenzübergang β → ∞ durch. Die Tanh-Funktion wird dadurch zur SignumFunktion, die nur die beiden Ausgaben 1 und -1 kennt. Da eine Mittelwertgleichung zu lösen ist, kann diese jetzt einfach nach der Form: m = P(Arg > 0)(1) + P(Arg < 0)(−1) = 2P(Arg > 0) − 1 aufgestellt werden. Mit ξ 1 ξ P 1 +1 = R1 RP 1 +1 (6.9) : m1 = P((P 1 m1 + (P − P 1 )m2 R1 RP 1 +1 ) > 0) − P(... < 0) (6.10) Im betrachteten Fall ist: P((Ri1 RiP 1 +1 ) > 0) = 0.9 30 (6.11) Dies ist gleichzeitig die Wahrscheinlichkeit für (Argtanh > 0), falls gilt: P 1 m1 − (P − P 1 )m2 < 0. (6.12) Ansonsten gilt immer P(Arg > 0) = 1. Aus (6.12) folgt umgeformt: P1 < m2 2 P . m1 (6.13) (Dies ist die allgemeine Gleichung für beliebige Teilnetzgröÿen g ; die nachfolgenden Terme gelten für g=0.1) Setzt man (wie in 6.2) m1 = 1 und m2 = 0.8, d.h. wird als Zielmuster die erste Merkmalsausprägung angesteuert, so darf die Ungleichung nicht erfüllt sein, da sonst die selbstkonsistene Gleichung (6.10) nicht erfüllt ist (für m1 = 1 muss P(Arg > 0) = 1 sein) : 0.8 P 1 ≮! P 2 (6.14) 1 Im umgekehrten Fall muss die Ungleichung erfüllt sein, da sich für m1 ein Überlapp < 1 ergeben soll, wenn die zweite Ausprägung angesteuert wird: P 1 <! 1 2 P 0.8 (6.15) Symmetrische Bedingungen für P 2 ergeben sich aus den Rechnungen zur selbstkonstistenten Gleichung für m2 , allerdings auch schon durch Umformung der vorigen beiden Ungleichungen. Als Resultat ergibt für den erlaubten Quotienten der Mengen der Beispielmuster für die beiden Ausprägungen, für die eine Separation in Teilnetze noch gelingt: P1 < 1.25 P2 P1 P2 oder : 2 ∧ 1 > 0.8 P P 0.8 < (6.16) (6.17) Ergebnis: Die Abkopplung eines Teilnetzes, die vier verschiedene stabile Zustände ermöglicht (zwei Teilmuster und ihre Inversen), gelingt schon mit der normalen Hebb'schen Lernregel für das Hopeldnetz, wenn die Trainingsmenge der errechneten Bedingung (6.13) unterliegt, die allerdings für den Rauschlevel Null gilt. Eine Erhöhung des Rauschlevels erschwert die Abkopplung. Wie man an (6.13) sieht, ist die Separation auch vom Verhältnis m2 /m1 abhängig. Geht dies Verhältnis gegen 1, muÿ auch das Verhältnis P 1 /P 2 gegen 1 gehen. Die Erklärung dafür ist, dass im Verhältnis der Überlapp-Werte die Information über die Gröÿe des abgekoppelten Netzes liegt. Je kleiner das Verhältnis m2 /m1 , desto geringer ist der Gröÿenunterschied der beiden Teilnetze. Die Trainingsmengen müssen bei einem kleinem Teilnetz dann ausgewogener sein, damit sich die positiven und negativen 31 1.05 50 Neuronen 100 Neuronen 200 Neuronen 400 Neuronen Verhältnis P1/P2 1 0.95 0.9 0.85 0.8 0 50 100 150 Trainingsmusteranzahl 200 250 Abbildung 6.2: Aufgetragen ist der Grenzwert des Mengenverhältnisses der Trainingsmengen P 1 und P 2 , bei dem ein Erkennen der Ausprägung mit weniger Trainingsvektoren noch möglich ist. D.h., dass bei dem Übergang eines weiteren Elements aus P1 nach P2 die Merkmalskombinatorik versagt und nur noch die stärkere Kombination erkannt wird Verbindungen zwischen den Teilnetzen annähernd aufheben können. Nur so kann der Einuss der Verbindungen innerhalb des kleinen Netz gegen den Einuss der äuÿeren Neuronen überwiegen. Bei der Rechnung ist noch darauf hinzuweisen, dass die Kodierung des Nebenmerkmals an einer festen Stelle im Schritt (6.11) durch eine Flipwahrscheinlichkeit angegeben wird, obwohl die Störung nicht zufällig ist. Für das Hopeldnetz, in dem Nachbahrschaftsverhältnisse keine Rolle spielen, besteht allerdings kein Unterschied, welche Neuronen das Nebenmerkmal kodieren, solange sich die Störung für alle Trainingsmuster der zweiten Art gleich auswirkt. In der Simulation soll jetzt überprüft werden, ob die theoretischen Vorhersagen über die Grenzen der Netzseparationsfähigkeit unter der einfachen Hebb'schen Lernregel für das Hopeldnetz zutreen. Man sieht in Abbildung (6.2), dass der theoretische Schwellwert von 0.8 (g = 0.1) für das Mengenverhältnis der Beispielmuster für die beiden Ausprägungen eher mit einem Netz mit mehr Neuronen erreicht wird. Dies liegt 32 2 0.5 1 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 durchschnittliche Verbindungsstärke Verhältnis P1/P2 1 0 0.5 Anteil am Gesamtnetz (g) Abbildung 6.3: Gemessener und theoretischer Verlauf der Schwelle für das Mengenverhältnis im Falle variabler Neuronenzahl, die für die Representation des sekundären Merkmals verwendet wird (Netz mit 100 Neuronen). Auf der rechten y-Achse ist für dieselben Werte von g die betragsmäÿig durchschnittliche Verbindungsstärke zwischen den Teilnetzen aufgetragen daran, dass die Eigenrückkopplung eines Neurons im Hopeldnetz ausgeschaltet wird, was in der Mean-Field-Theorie keine Berücksichtigung ndet. Dem kleinen Teilnetz steht dadurch ein Neuron weniger zur Verfügung, um den Einuss des äuÿeren Netzes zu kompensieren, und dieser Eekt fällt bei steigender Gröÿe des Gesamtnetzes weniger ins Gewicht. Abbildung (6.3) zeigt, wie die Schwelle des Mengenverhälnisses für eine erfolgreiche Klassikation beider Begrisausprägungen mit steigender Neuronenzahl für die Representation des Sekundärmerkmals gegen null läuft. Dass die Klassikation der selteneren Ausprägung während des Verlaufes des Parameters g bei so unausgewogenen Mengenverhältnissen erfolgreich ist, liegt nicht daran, dass die Abkopplung des Teilnetzes schneller abläuft (wie man am 2. Graphen im Diagramm sieht), sondern daran, dass man sich bei steigendem Wert für g dem Fall von orthogonalen Mustern nähert, bei denen sogar bei anzahlmäÿig ungleichmä33 ÿigem Training das eine Muster das andere Muster nicht stört. (Man kann dazu wieder die Betrachtung des Cross-Talk-Terms aus dem 3. Kapitel heranziehen). Somit ist die Bemerkung möglich, dass im Fall kleiner Teilnetze die Klassikation vom Phänomen der Abkopplung abhängt, da die Korrelation der Eingabe mit den Trainingsmustern der zahlenmäÿig stark repräsentierten Merkmalskombination hoch ist und deshalb die Beträge für die Netzeingabe auch von den Nicht-Zielmustern groÿ sind. Dieser Einuss kann nur durch schwache Zwischenteilnetzverbindungen gemindert werden. Im Falle zweier groÿer Teilnetze ist dagegen die Korrelation zwischen Eingabe und Trainingsmenge der Nicht-Zielmuster klein, weswegen diese Muster im gesamten Netz nur einen kleinen Einuss zeigen und das zahlenmäÿig schwächer trainierte Muster der 2. Merkmalsausprägung zum Zuge kommt. Das Abknicken der Graphen in (6.2) und (6.3) an einigen Stellen des gemessenen Ergebnisses liegt daran, dass die rationalen Zahlen, die sich in der Theorie für die Schwellwerte ergeben, im Falle der zwei ganzen Zahlen P 1 und P 2 , deren Summe immer die Anzahl der Trainingsmuster ergibt, durch deren Verhältnis unterschiedlich genau getroen wird. In der Messreihe von Diagramm 3 ist ∆g = 0, 01, damit ergeben sich Dierenzen der theoretischen Werte der Verhältnisse von 0, 02. Bei drei beispielhaften Werten für P 1 und P 2 sieht man, dass manche Zahlenverhältnisse in der Messung übersprungen werden, was zum Abknicken des Graphen führt: P 1 P 2 Verh. Schwelle 112 138 0,812 >0.80 113 137 0,825 >0.82 114 136 0.838 ≯ 0.84 115 135 0.852 >0.84 6.2.1 Fixpunkte, Rauschlevel 6= 0 Kommen Verrauschungen hinzu, wird die Netzabkopplung weiter erschwert. Auf das Netz kommt neben der Separation noch die Aufgabe der Begrisbildung hinzu. Die Aufgabe zur Errechnung des notwendigen Trainingsmusterverhältnisses besteht im Aufstellen eines Ansatzes zur Lösung der Mean-Field-Gleichung (3.22). Dazu benötigt man den erwarteten Überlappwert für Beispiele der angesteuerten Begrisausprägung und den der Beispiele der gegenteiligen Ausprägung. Zur Erzeugung der Trainingsmuster tritt nun gegenüber Gleichung (6.1) ein weiterer Faktor hinzu. Die Matrix R hat ebenfalls nur auf der Diagonalen Einträge vom Betrag 1, allerdings stellen die negativen Einträge hier zufällig verteilte Störungen dar, die die Abweichungen von Beispielen gegenüber ihrem Begri modellieren sollen. Die Wahrscheinlichkeit dafür, dass eine Stelle ihr Vorzeichen invertiert, ist gleich d: ξ = RRa X (6.18) 34 Für den Überlapp der Beispiele mit dem zugehörigen Begri, der durch den Netzzustand dargestellt wird, gilt: 1 ma = 1 X ξi Si = (1 − 2d) N i (6.19) Nun gilt für die Beispiele der anderen Begrisausprägung: 1 X ξi Si N i 1 X 2 1 = Ri Ria Xi Ria Xi N i 1 X 2 = Ri Ria N i 2 ma = (6.20) 1 Der letzte Umformungsschritt ergibt sich dadurch, dass Ria = 1 für alle i gesetzt werden kann, da eine der möglichen Begrisausprägungen ja schon im Begri selbst vorliegt. Bezeichnet g den Faktor, um den sich die Gröÿen von Teilnetz und Gesamtnetz unterscheiden, ergibt der Ausdruck (6.20): 2 ma = (1 − 2d)(1 − 2g) (6.21) i Mit ma ≡ mi hat der Überlapp-Vektor für einen Fixpunkt also die erwartete Form von: m ~ = (m1 , ..., m1 , m2 , ..., m2 ) (6.22) = (1 − 2d, 1 − 2d, ..., 1 − 2d, (1 − 2d)(1 − 2g), ..., (1 − 2d)(1 − 2g))(6.23) (6.22) und (3.22) ergeben zusammen: mµ = hhξ µ tanh(β P X mν ξ ν )ii ν=0 1 µ 1 = hhξ tanh(β(m P X ν 2 ξ +m ν=0 P X ξ ν ))ii ν=P 1 +1 Die Rechnung wird ohne Beschränkung der Allgemeinheit für µ = 1 weitergeführt. Nach dem Umformungsschema von (6.6- 6.8) und durch Ersetzung der Mustervektoren durch die Flipoperatoren ergibt sich: 1 1 1 1 m = hhtanh(β(m + m P X 1 i R R +m i=2 2 P X i=P 1 +1 35 1 2 R1 Ri Ra Ra ))ii (6.24) Um jetzt wieder die Mittelwertgleichung nach Schema (6.9) zu lösen, muss man 1 2 die Fälle (Ra Ra ) = ±1, R1 = ±1 betrachten, die unabhängig voneinander auftreten können. 1/βArgtanh ≡ Arg 0 nimmt nach der Fallunterscheidung die Form an: P1 P X X 0 i Arg = m1 ± m1 R ± m2 Ri (6.25) i=2 a1 i=P 1 +1 a2 Mit P(R R = 1) = (1 − g) nimmt die Mittelwertgleichung nach dem Grenzübergang ins deterministische Netz folgende Form an: ³ 1 2 1 m = 2 (1 − g)(1 − d)P(Arg 0 > 0|Ra Ra = 1, R1 = 1) 1 2 1 2 +g(1 − d)P(Arg 0 > 0|Ra Ra = −1, R1 = 1) +(1 − g)dP(Arg 0 > 0|Ra Ra = 1, R1 = −1) ´ 1 2 +gdP(Arg 0 > 0|Ra Ra = −1, R1 = −1) − 1 (6.26) P Die Summe i Ri ist binomialverteilt. Sei n2 die Zahl der Erfolge (Einsen) in der P P 1 i Summe Pi=P 1 +1 Rd und n1 die in der Summe Pi=2 Ri , so folgt (exemplarisch 1 2 für den Fall Ra a = 1, R1 = 1): Arg 0 > 0 P1 P X m2 X i i ↔ R > −1 − R m1 1 i=2 1 ↔n > P − i=P +1 m2 (2n2 − P2 ) m1 2 (6.27) Die Wahrscheinlichkeit für n2 Erfolge im 3. Summanden von Arg 0 ist dabei PnIII = 2 ¡P 2 ¢ n2 P 2 −n2 II (1−d) d , die Wahrscheinlichkeit für das Erfülltsein von (6.27) ist Pn = n2 ¡P 1 −1¢ P 1 P1 m (1 − d)n dP −n . Damit ergibt sich sich für P(Arg 0 > n>P 1 − 2 (2n2 −P 2 )/2 n 0|R a1 a2 m1 1 = 1, Rd = 1) in (6.26): 2 P(Arg > 0|R a1 a2 1 = 1, R = 1) = P X PnIII PnII 2 (6.28) n2 =0 Entsprechende Terme können nun für die anderen drei Summanden hergeleitet werden. Auÿerdem muss eine (vollkommen analoge) Rechnung für m2 durchgeführt werden. Dann können die Ansätze für m1 und m2 auf Selbstkonsistenz überprüft werden. Es kann im Falle eines Rauschlevels 6= 0 (und das ist der Betriebsfall, der in der Agentensimulation genommen wird) nicht mehr nach Verhältnissen P 1 /P 2 aufgelöst werden. Als Startpunkt für das iterative Lösen von (6.26) nimmt man den Ansatz (6.23). In Abbildung (6.4) sieht man die Vorhersage durch die Mean-Field-Gleichungen verglichen mit dem Messergebnis. 36 1.05 1 0.95 0.9 Überlapp 0.85 0.8 0.75 0.7 − − Iterative Rechnung Messung 0.65 0.6 0.55 0.75 0.8 0.85 0.9 0.95 1 Trainingsmusterverhältnis 1.05 1.1 1.15 Abbildung 6.4: Vergleich zwischen dem durchschnittlichen Überlapp von Zielmuster zum Netzzustand, wie er von der Mean-Field-Gleichung vorhergesagt bzw. sich durch den Mittelwert von 100 Messungen ergibt) In Abbildung (6.5) ist das Ergebnis der Simulation aufgetragen, bei der wiederrum ein Netz mit 2 Begrisausprägungen unter unterschiedlichen Rauschleveln gespeist wurde. Aufgetragen ist der Hamming-Abstand (Summe aller sich unterscheidenden Bits) zwischen Zielmuster (Begrisausprägung zu allen zugehörigen Beispielen) und Netzausgabe gegen unterschiedliche Verhältnisse, in denen die beiden Merkmalskombinationen auftreten. Man sieht, dass sich der sichere Klassikationserfolg schon bei kleinem Rauschlevel (d=0,02) vom Schwellwert für Rauschlevel null unterscheidet. Die Trainingsmusteranzahl bei diesem Versuch ist 250. Das bedeutet, dass mangelnde Begrisbildungsfähigkeit für die Misserfolge in der Klassikation nicht verantwortlich sein kann. Vielmehr scheint es so sein, dass der Einuss des Rauschens die Abkopplungsfähigkeit des Netzes stark behindert. Das nächste Diagramm (6.6), in dem 4 Ergebnisse von zufällig gewählten Einzelversuchen aufgetragen sind, bestätigt dies. In diesem Diagramm sind die Ergebnisse, die zur Mittelung der Messung von Abbildung (6.5) beigetragen haben, dargestellt. 37 10 d=0.08 Hamming−Abstand der Ausgabe zum Zielmuster 9 d=0.1 8 7 d=0.06 6 5 d=0.04 4 d=0 3 2 1 0 0.7 d=0.02 0.75 0.8 0.85 0.9 Mengenverhältnis der Beispiele 0.95 1 Abbildung 6.5: Hamming-Abstand der Ausgabe zum Zielmuster bei Mengenverhältnissen der Trainingsbeispiele < 1. Die angesteuerte Begrisausprägung ist mit ihren Trainingsbeispielen benachteiligt; das Mengenverhältnis, das die Zielausprägung als stabilen Zustand erlaubt, verschiebt sich mit steigendem Rauschlevel in Richtung 1 Man erkennt, dass die Sprünge in der Hammingdistanz in der überwiegenden Anzahl eine Weite von 10 Bits haben. Dies ist genau der Abstand, der dadurch entsteht, dass das von Netz das falsche Nebenmerkmal dargestellt wird. Hamming-Abstände von 1 oder anderen Werten < 10 kommen dagegen nur sehr vereinzelt durch zufälliges, mehrfaches Verrauschen einer Pixelstelle in den Beispielen gegenüber dem Begri vor. In diesem Kapitel, dass die Untersuchungen zu Kombinationen zweier Merkmale beinhaltet, sollen jetzt noch drei Messungen folgen, die den Fall fester Kombinationen beleuchten. Abbildung (6.7) zeigt das Ergebnis zu einer Messung, bei der im gröÿeren Anteil des Netzes (wie bei der vorigen Messung) das Hauptmerkmal gespeichert wird. Es werden diesmal zwei zufällig erzeugte, das bedeutet ungefähr orthogonale, Hauptmerkmale verwendet. Hauptmerkmal 1 kombiert mit dem Nebenmerkmal, Hauptmerkmal 2 mit dem zugehörigen Inversen. Zu bei38 Hammingabstand von Zielmuster und Ausgabe 10 10 8 8 6 6 4 4 2 2 0 0.7 0.8 0.9 0 0.7 1 10 10 8 8 6 6 4 4 2 2 0 0.7 0.8 0.9 0 0.7 1 0.8 0.9 1 0.8 0.9 1 Mengenverhältnisse der Trainingsbeispiele Abbildung 6.6: Messergebnisse der Einzelmessung (gemitteltes Ergebnis zeigt Abbildung 4). Man sieht, dass die Hamming-Abstände, die ein nicht erfolgreiches Klassizieren anzeigen, nicht durch die nicht erfolgte Begrisbildung, sondern durch eine erfolglose Abkopplung eines Teilnetzes bedingt sind (Sprung von Hamming-Distanz zehn auf null!) den Typen von Gesamtmustern werden Trainingsbeispiele durch Verrauschung erzeugt. Dadurch, dass bei dieser Trainingsmenge feste Kombinationen zwischen Haupt- und Nebenmerkmalen auftreten, die nicht beliebig kombinieren (beispielsweise Hauptmerkmal 1 mit dem Inversen des Nebenmerkmals), treten die Merkmale nicht unabhängig voneinander auf; damit sind die Merkmale redundant und werden miteinander assoziiert. Die durchschnittliche Stärke der Verbindungen zwischen zwei Teilnetzen geht damit nicht gegen null. Abbildung (6.7) zeigt die durchschnittlichen richtigen Klassikationsergebnisse nach dem Lernen einer Anzahl von Mustern, die auf der x-Achse aufgetragen ist. Als richtige Klassikation werden diejenigen gewertet, die exakt den zugehörigen Begri des Trainingsmusters zeigen. Die punktierten Graphen zeigen die Klassikation eines Netzes, das die Merkmale in von vornherein getrennten Teilnetzen verarbeitet, während der durchgängige Graph ein Netz beschreibt, das durch reines Hebb'sches Lernen bestimmt wird und dadurch Assoziationen zwischen den Teilnetzen aufbauen kann. 39 100 90 Gesamtnetz getrennte Netze korrekte Klassifizierung in % 80 d=0,1 70 60 d=0,2 50 40 30 d=0.3 20 10 0 0 10 20 30 40 50 60 Anzahl Trainingsmuster 70 80 90 100 Abbildung 6.7: Empndlichkeit der Klassikationsfähigkeit bei einem Netz, bei dem unüberwacht zwei Merkmale assoziieren, während bei einem zweiten Netz die Merkmalskombinatorik durch eine von vorneherein vorgenommene Netztrennung berücksichtigt wurde. Unterliegen beide Merkmale demselbem Rauschlevel, ist keine Netzarchitektur der anderen sonderlich überlegen Man kann bei dieser Messung keinen wesentlichen Unterschied zwischen beiden Netztypen erkennen. Die sich anschlieÿende Abbildung (6.8) zeigt ein Ergebnis, das intuitiv nicht einfach vorherzusehen ist. Bei der zugrundeliegenden Messung wird nur das Hauptmerkmal mit einem festen Rauschlevel gestört, während das Nebenmerkmal unangetastet bleibt und sich damit mit dem zugehörigen Teil des Begries deckt. Als Netzeingang wurden Testmuster gewählt, deren Rauschlevel dem der bisher gelernten Trainingsmuster entspricht. Gezählt wurde wieder die hunderprotzentig richtige Klassikation zu den Begrien. Dieser Fall wird am Ende dieses Kapitels auch rechnerisch behandelt. Abbildung (6.9) führt dieselbe Messung wie die (6.8) zugrunde liegende durch, mit dem Unterschied, das auch die Nebenmerkmale Zufallsmuster sind. In diesem Fall sieht man die bessere Klassikationsleistung des Assoziativnetzes, die man auch erwartet, da die Information über die Merkmalskombination über mehr Neuronen verteilt ist und 40 Abbildung 6.8: Ein von vorneherein getrenntes Netz bildet schneller Begrie als ein Netz, dass zwei Merkmale fest miteinander kombiniert, wenn die Nebenmerkmale invers zueinander gewählt werden die Neuronen der beiden Teilbereiche des Netzes ihre jeweiligen Partnermuster assoziieren können. Wie in Kapitel 2 erwähnt, erhöht eine a-priori-Zerstückelung des Gesamtnetzes in Teilnetze die Anzahl möglicher Attraktoren, da die Merkmale, durch die Abtrennung unabhängig voneinander, beliebig kombinieren können und die entsprechenden Attraktoren automatisch ausbilden. Dies ist trivial und muss hier nicht nachgewiesen werden. Was die Schnelligkeit der Begrisbildung angeht, so hängt diese von der Art der Nebenmerkmale ab: bei der Repräsentation durch Muster und ihre Inversen als die beiden Extremwerte des Merkmals geschieht die Begrisbildung im getrennten Netze schneller, bei der Wahl von Zufallsmustern bildet das Assoziativnetz die Begrie schneller. Der Fall der inversen Nebenmerkmale soll jetzt noch analytisch untersucht werden, da dieses Ergebnis überraschend ist. In den nachfolgenden Rechnungen gilt für Beispiele der beiden 41 100 Wahrscheinlichkeit richtiger Klassifikation 90 d=0,1 getrennte Netze Assoziativnetz 80 70 d=0,2 60 50 d=0,3 40 30 20 10 0 0 10 20 30 40 50 60 Trainingsmusteranzahl 70 80 90 100 Abbildung 6.9: Im Fall zufälliger Muster, die die Nebenmerkmale repräsentieren, bildet das Assoziativnetz die Begrie schneller als das getrennte Netz verwendeten Begristypen: 1 1 1 2 2 2 ξib = Ri Ria Xib = Ri Xib ξib = Ri Ria Xib = Ri Xib Ra = 1 ist hier stets erfüllt, da die Merkmale in diesem Versuch nicht in unterschiedlichen Kombinationen auftreten können. Um jetzt die Begrisbildungsqualitäten der beiden Netze miteinander zu vergleichen, prüft man die Fixpunktbedin1 gung für das Begrismuster (beispielshaft für (b = b1 ), Riµb bedeutet Rauschma- 42 trix für Trainingsmuster µ, das ein Repräsentant von Begri b1 ist): X 1 1 Xib ? = sgn( wij Xjb ) (6.29) j = ≡ 1 X µb1 µb1 b1 R Rj Xi + N jµ i 1 X µb2 µb2 b2 b2 b1 R Rj Xi Xj Xj N jµ i (6.30) 1 hbi Für die Fixpunkteigenschaft eines Begries reicht es aus, wenn der gesamte Ein1 gabeterm für alle Neuronen i dasselbe Vorzeichen hat, d.h. die Eingabe, mit Xib malgenommen, einen Wert > 0 ergibt: 1 X dµ dµ b1 E1i ≡ R R N jµ i j 1 X µb2 µb2 b2 b2 b1 b1 b1 E2i ≡ R Rj Xi Xj Xj Xi N jµ i 1 1 b b P(Bit i stabil) = P(E1i + E2i > 0) (6.31) Im folgenden sei P die Gesamtzahl der Trainingsmuster, die gleichmäÿig auf beide Begrie (jeweils P/2) verteilt sei. a bezeichne die Gröÿe (1 − 2d), mit d = Rauschwahrscheinlichkeit an einer Stelle. Für die zweite Messung (d=0 für die ersten 10 Neuronen) genügt es für das getrennte Netz, die Stabilitätswahrscheinlichkeit der letzten 90 Neuronen zu betrachten, da das Nebenmerkmal sofort gelernt wird und nie einen Fehler verursacht. Für das verbleibende 90-NeuronenNetz gelten folgende Erwartungswerte E und Varianzen σ 2 der zwei Terme in (6.31): P 2 a 2 P P (N − 1) 2 P 4 b1 σ 2 (E1i ) = + a − a 2N 2N 2 b1 E(E21 ) = 0 P (P − 2) 4 P b1 + a σ 2 (E2i ) = 2N 4N 1 b E(E1i ) = 1 (6.32) (6.33) (6.34) (6.35) 1 b b P(Bit i stabil) = P(E2i + E1i )>0 Z ∞ P 2 2 1 2 b1 2 b1 = √ q e−(x− 2 a ) /(2(σ (E1i )+σ (E2i )) b1 b1 2π σ 2 (E1i ) + σ 2 (E2i ) 0 (6.36) 43 Für das merkmalsassoziierende Netz ergibt sich: 1 b E(E1i ) = 1 b σ 2 (E1i ) = − 1 b ) = E(E21 1 b σ 2 (E2i ) = P(Bit i stabil) = = P a(g + a(1 − g)) (6.37) 2 P 2 (1 − g) P (1 − g) (g + ) + P ag(1 − g) + a2 ((1 − g)2 − − g2) 2 N 2 N P P a3 g(1 − g) − (1 − g)2 a4 (6.38) 2 0 (6.39) P 2 (1 − g) (P − 2) 2 2 (P − 2) (g + + g a + (1 − g)a2 ) (6.40) 2 N 2 2N b1 b1 P(E2i + E1i )>0 Z ∞ 1 b1 )+σ 2 (E b1 )) −(x− P2 a(g+a(1−g)))2 /(2(σ 2 (E1i 2i q e √ b1 b1 2 2 2π σ (E1i ) + σ (E2i ) 0 (6.41) Zu den Berechnungen von µ und σ für diesen Fall siehe Anhang. Die Auswertung der Integrale (6.36) und (6.41) ergibt die Wahrscheinlichkeit der Bit-Stabilität eines Neurons bei Eingabe des Begris. Die Ergebnisse für N = 100, d = 0.2 und verschiedene Werte der Trainingsmusteranzahl sind an der folgenden Tabelle abzulesen. Man sieht, dass die Bit-Stabilität im getrennten Netz höher als im Assoziativnetz ist. Dies stützt das Ergebnis der Messung zu Abbildung (6.8). P getr. Netz Assoziativnetz 20 0.899 0.887 30 0.94 0.924 40 0.963 0.946 50 0.977 0.96 60 0.985 0.969 44 Kapitel 7 Kombinationen von 3 Merkmalen 7.1 Erwartete Zustände für Rauschlevel = 0 Wie im Fall zweier Merkmale wird zur Vereinfachung der Rechnung ein Hauptmerkmal betrachtet, das nun aber mit zwei Nebenmerkmalen kombiniert werden kann, die jeweils in zwei extremen Kongurationen (dargestellt durch ein Zufallsmuster und sein Inverses) vorkommen. Somit werden 4 Muster betrachtet, schematisch dargestellt in Abb. (7.1) Entsprechend der Abbildung besteht die i Trainingsmenge aus 4 verschiedenen Mustern, mit Ra seien die entsprechenden Erzeugungsmatrizen bezeichnet, mit P i die Anzahl der Trainingsmuster dieses Typs. Für die Rechnung soll m1 in Abhängigkeit von P 1 dargestellt werden. Gleichung (3.22) nimmt für diesen Fall folgende Form an (dargestellt für m1 ): 1 2 1 3 1 4 m1 = hhtanh(β(m1 P 1 + m2 P 2 Ra Ra + m3 P 3 Ra Ra + m4 P 4 Ra Ra ))ii (7.1) Wird der Überlapp von Netzzustand und Zielmuster in Abhängigkeit von P 1 gemessen, so kann man feststellen, dass das Hauptmerkmal durch die restliche Trainingsmenge jeweils zweimal mit dem invertierten und einmal mit dem nichtinvertierten Zustand des Nebenmerkmals assoziiert wird. Da der mögliche Fixpunkt mit m1 = 1 (Muster 1 dient als Eingabe) überprüft wird, ist zu erwarten, dass die beiden Nebenmerkmale in ihre Inversen umschlagen, solange P 1 zu klein ist. Das mit mehr Neuronen kodierte Nebenmerkmal 2 sollte nach dem Ergebnis für 2 Merkmale früher stabil als sein das kleinere Nebenmerkmal. Die durch g1 , g2 bestimmten Teilnetzgröÿen seien auf 0.1 bzw. 0.2 festgesetzt. Um dann m1 = P(Arg > 0) − P(Arg < 0) lösen zu können, bietet es sich an, nach verschiedenen Verbundwahrscheinlichkeiten zu trennen. 45 Abbildung 7.1: Beispiele für 4 Begrisauspraegungen, wobei das erste Nebenmerkmal in den ersten 10, das zweite Nebenmerkmal in den Neuronen 11-30 und das Hauptmerkmal in den letzten 70 Neuronen kodiert ist Mit P = 0.1 tritt dabei auf: 1 2 1 2 1 3 1 4 (7.2) 1 4 (7.3) 1 4 (7.4) Ria Ria = −1 ∧ Ria Ria = 1 ∧ Ria Ria = −1 Mit P = 0.2: Mit P = 0.7: 1 3 Ria Ria = 1 ∧ Ria Ria = −1 ∧ Ria Ria = −1 1 2 1 3 Ria Ria = 1 ∧ Ria Ria = 1 ∧ Ria Ria = 1 46 + + - + + - - HM HM HM HM Abbildung 7.2: Schema der drei Musterbereiche des Netzes: die ersten 10 Neuronen kodieren Nebenmerkmal 1, die folgenden 20 Nebenmerkmal 2, der Rest des Netzes kodiert das Hauptmerkmal. Bei Mustertyp 2 ist das kleinere Nebenmerkmal gegenüber Mustertyp 1 invertiert, bei Mustertyp 3 das zweite Nebenmal und bei Nummer 4 beide Die aus der Bedingungen (Arg>0) abgeleiteten zugehörigen Ungleichungen für P 1 lauten: m2 P 2 − m3 P 3 + m4 P 4 m1 2 2 −m P + m3 P 3 + m4 P 4 P1 > m1 2 2 −m P − m3 P 3 − m4 P 4 P1 > m1 P1 > (7.5) (7.6) (7.7) Wie erwartet gibt es drei Bereiche, in denen Arg>0 erfüllt ist. Die letzte Ungleichung ist z.B. für alle P 1 erfüllt. Die Auswertung ergibt für P 2 , P 3 und P 4 = 50: P 1 m1 >0 0.4 >10 0.8 >30 1 Ergebnis dieser Rechnung: Der Übergang von zwei auf drei Merkmale ist kein qualitativ neues Problem, unter weiterer Erhöhung der Merkmalszahl sind keine weiteren Schwierigkeiten zu erwarten. Auÿerdem bestätigt sich das intuitiv erwartete Ergebnis, dass zur Erkennung der Ausprägungen eines Merkmals das zugehörige Teilnetz umso robuster gegen Unterrepräsentation in der Trainingsmenge ist, je gröÿer es ist. Im folgenden Kapitel wird eine Messung mit drei Merkmalen und Rauschlevel 6= 0 durchgeführt, wobei das Hebb'sche Training direkt mit den erweiterten Methoden verglichen wird. Gegenüber der entsprechenden Messung mit 2 Merkmalen ist wieder kein wesentlicher Unterschied festzustellen (vgl. nächstes Kapitel). 47 1.1 1 Überlapp mit Zielmuster 0.9 0.8 0.7 0.6 0.5 0.4 0 5 10 15 20 25 30 Länge von P1 35 40 45 50 Abbildung 7.3: Messung mit Eingabe, die drei Merkmale kodiert. Von den 4 1 betrachteten Beispielmuster werden 3 festgehalten und das Beispiel für Ra wird von null bis 50 durchgefahren. Man sieht am Überlapp-Wert von 0.8, dass das zweite Nebenmerkmal, das mit mehr Neuronen kodiert wird, schneller stabil wird als das kleinere Nebenmerkmal.) 48 Kapitel 8 Bestärkendes Lernen, mehrere Merkmale und Begrie Die Ergebnisse aus Kapitel 6 zeigen, dass Merkmalskombinationen, die ungleichmäÿig in der Trainingsmenge verteilt sind, nicht richtig verarbeitet werden, wenn die gesamte Trainingsmenge gelernt wird. Auf den Fall der Agentensimulation übertragen bedeutet das, dass ein einem Agenten zugeordnetes Netz nicht jedes Muster, auf das der Agent stöÿt, lernen sollte. Für die Begrisbildung gilt zwar: je mehr Trainingsbeispiele, desto besser (man muss natürlich dafür sorgen, dass die Netzverbindungen nicht ins Unermessliche steigen, falls sich positive und negative Beiträge von verschiedenen Begrien nicht kompensieren); für die Merkmalskombinatorik schadet diese Vorgehensweise, wie man gesehen hat. In den folgenden Messungen wird das Verfahren, dass das Netz alle Testmuster anschlieÿend als Trainingsmuster lernen lässt, als unbegrenztes Lernen bezeichnet, während die anderen Lernverfahren wie in Kapitel 5 deniert bezeichnet werden. In den folgenden Messungen soll überprüft werden, ob die Überlegungen zum Bestärkenden Lernen für die Merkmalskombinatorik dienlich sind. Die erste Messung, die unter Verwendung derselben Trainingsmengen den Vergleich von 4 unterschiedlich trainierten Netzen ermöglicht, behandelt den Fall eines Hauptbegris, gepaart mit zwei möglichen Werten von Nebenmerkmalen. Das Häugkeitsverhältnis, mit dem die Nebenmerkmale in der Trainingsmenge auftauchen, wird bei der Messung ungleichmäÿig gewählt. Mit einem Verhältnis 0.8 zu 0.2 für die beiden Merkmalskombinationen bei einem Rauschlevel von 0.1 liegt man deutlich jenseits der anhand Abbildung (6.4) ersichtlichen Grenze für richtiges Klassizieren, sofern man sich auf die Hebb'sche Regel bezieht. Demgemäÿ muÿ die Lernregel, die alle vorkommenden Muster lernt, scheitern. Abbildung (8.1) zeigt, dass die Wahrscheinlichkeit richtiger Klassizierung der Beispiele zu ihren Begrien gegen 80% läuft. Die Deutung dieses Verhaltens des Netzes ist, dass seine Ausgabe stets den Begri gepaart mit dem dominanteren Nebenmerkmal zeigt. Die anderen drei Lernmethoden sind die in Kapitel 5 beschriebenen. 49 100 90 Klassifkikationswahrscheinlichkeit 80 70 unbegrenztes Lernen selektives Lernen RL1 RL2 60 50 40 30 20 10 0 0 10 20 30 40 Trainingsmusteranzahl 50 60 70 Abbildung 8.1: Die vier verschiedenen Lernmethoden verglichen für den Fall zweier Merkmale, mit Rauschlevel 0,1. RL1 erzielt ein etwas besseres Klassikationsergebnis als RL2 und das selektive Lernen Die beiden Methoden RL1 und RL2 sind bei dieser und ebenso bei den folgenden Messungen jeweils experimentell optimiert worden. Für RL1 ist die Grenze des Übergangs vom Hebb'schen Lernen zu der Lernregel, die den Zusatzterm (5.2) berücksichtigt, auszumessen. Auÿerdem ist der Parameter Alpha, der die Stärke der Abschwächung zwischen den Teilnetzen bestimmt, festzulegen. Für RL2 ist der Schwellwert, den die Miÿtrauenswerte der Netzverbindungen bei einer Abtrennung des Teilnetzes überschreiten, zu bestimmen. Wird bei RL1 von Anfang an der Zusatzterm verwendet bzw. wird bei RL2 die Schwelle zu niedrig angesetzt, wird der Prozess der Begrisbildung nicht ermöglicht. Die beiden Lernmethoden erzielen dann nicht das gewünschte Ergebnis. Der Grund hierfür ist darin zu suchen, dass die Verbindungsabschwächungen, die die Kombinatorik der Merkmale erleichtern sollen, auch dann jedesmal greifen, wenn die Beispiele gegenüber dem Begri Verrauschungen zeigen, die während der Iteration korrigiert werden. 50 100 Klassifikationswahrscheinlichkeit 90 80 70 unbegrenztes Lernen selektives Lernen RL1 RL2 60 50 40 0 10 20 30 40 50 60 70 80 90 100 Trainingsmusteranzahl Abbildung 8.2: Begri mit drei Merkmalen, Rauschlevel=0,1 Für das Netz besteht zwischen diesen Neuronen und solchen, die ein Nebenmerkmal kodieren, die durch den Einuss des äuÿeren ihren Wert verändern, kein Unterschied. Zu dem Zeitpunkt, da die Begrie noch nicht gelernt sind, schlagen die Testmuster zu bereits erlernten Trainingsmustern (also anderen Beispielen desselben Begris) anstatt zum Begri selbst um. Die Anzahl der Bitänderungen während der Iteration, die für die Lernregeln RL1 und RL2 eigentlich unerwünscht sind, ist also am Anfang der Trainingsphase hoch. Die experimentelle Optimierung ergibt für die Messung, die Abbild (8.1) zugrundeliegt, folgende Parameterkonstellation: Schwelle des Übergangs vom Hebb'schen zum Lernen mit Zusatzterm für RL1: nach 5 Testmustern; Alpha=0.2; für RL2: Miÿtrauensschwelle=4. Man sieht am Diagramm, dass sich die optimale Methode, RL1, erst zu einem Zeitpunkt des Trainings nach oben absetzen kann, der kurz nach der Abweichung des unbegrenzten Hebb'schen Lernens von der Schar nach unten hin liegt. Das heiÿt, dass RL1 erst nach dem Lernen der Begrie aus der aktiven Netzabkopplung Vorteile empfangen kann. Die folgende Messung zeigt drei Merkmale. Es ist hier, wie auch aus den 51 100 Klassifikationswahrscheinlichkeit 90 80 70 unbegrenztes Lernen selektives Lernen RL1 RL2 60 50 40 30 0 10 20 30 40 50 60 70 80 90 100 Trainingsmusteranzahl Abbildung 8.3: Drei Hauptmerkmale kombiniert mit 2 möglichen Nebenmerkmalen, d=0,1. RL2 erzielt das beste Ergebnis mit einer Miÿtrauensschwelle von 12 Betrachtungen des Kapitels über drei Merkmale schon zu erwarten war, keine wesentliche Änderung eingetreten: das letztlich erfolgreiche Klassizieren hängt von dem Zeitpunkt ab, an dem sich das kleinste Teilnetz (hier mit g=0,1) als eigenständiges Netz durchsetzen kann. Als optimale Parameterkonstellation ergibt sich experimentell: RL1 = wie bei vorheriger Messung, RL2: Schwelle=6. Die dritte Messung mit Reinforcement-Learning betrit einen Fall, wie er in der Agentensimulation vorkommen kann. Im Hauptnetz sollen 3 Begrie gelernt werden, in der Test-/Trainingsmenge benden sich also 3 verschiedene Typen von Beispielmustern. Sie kombinieren mit einem zweiwertigen Nebenmerkmal. Interessant ist an der Messung, dass das selektive Hebb'sche Lernen wieder nur sehr knapp unter der optimalen Lernmethode (in diesem Fall RL2 mit Schwelle= 12) liegt. Dadurch, dass in dieser Messung im Gegensatz zu den vorherigen nicht ein Pixel des Hauptmusters mit ungefähr gleich vielen unterschiedlich vorgezeichneten Pixeln der Nebennetze kombiniert, ist es nicht so leicht einzusehen, warum 52 100 90 Klassifikationswahrscheinlichkeit 80 70 unbegrenztes Lernen selektives Lernen RL1 RL2 60 50 40 30 20 10 0 0 10 20 30 40 Trainingsmusteranzahl 50 60 70 Abbildung 8.4: Im Falle zufällig erzeugter Nebenmerkmale streben die beiden Lernverfahren unbegrenztes Lernen und selektives Lernen gegen eine suboptimale Asymptotik, während RL1 und RL2 gegen eine 100%ige Klassikationsfähigkeit streben die Merkmalskombinatorik funktioniert. Der Grund dafür liegt wie in Messung zu Abbildung (6.3) darin, dass der Beitrag der anderen beiden Muster, die nahe der Orthogonalität zum angesteuerten Muster liegen, klein ist. Damit können die wesentlichen Trainingsbeiträge wiederrum auf die Muster, die zu einem Hauptbegri gehören, reduziert werden, und man gelangt wieder zu dem Fall von einem Hauptbegri. Die Lage ändert sich, wenn das Konzept der Nebenmerkmale in der Weise erweitert wird, dass auch diese jetzt zufällig erzeugt werden können, also nicht mehr nur zweiwertig mit Zwischenstufen sind. In der letzten Messung kombinieren zwei zufällig erzeugte Hauptbegrie mit drei zufällig erzeugten Nebenmerkmalen. Wie man am Messergebnis sieht, braucht man in diesem Fall tatsächlich eine der beiden erweiterten RL-Methoden, um einen Klassikationserfolg mit der Asymptotik nahe 100% zu erreichen. Die Parameterkombination für diesen Fall ist: RL1: Übergangsschwelle = 6; Alpha=0.3; RL2: Misstrauensschwelle=8. 53 Kapitel 9 Zusammenfassung und Ausblick Die Ausgangsfragestellung der Arbeit war, inwiefern auf dem standardmäÿigen Hopeld-System Merkmalskombinatorik betrieben und wie das System erweitert werden kann, wenn es bzgl. dieser Aufgabe an seine Grenzen stöÿt. Das erste wichtige Ergebnis ist, dass Merkmalskombinatorik gelingt, wenn bestimmte Bedingungen sowohl von merkmalskodierenden Mustern (Rauschlevel nicht zu hoch, inverse Nebenmerkmale) als auch von der Trainingsmenge erfüllt werden (möglichst ausgewogenes Verhältnis aller Begrisausprägungen). Es hat sich gezeigt, dass der Übergang von der Kombination zweier zur Kombination dreier das Problem nicht wesentlich kompliziert. Ein weiteres Ergebnis, das mit dem standardmäÿigen Betrieb des Hopeld-Systems erreicht wurde, besagt, dass die Fähigkeit zur Begrisbildung von der Art der gewählten Repräsentation der Nebenmerkmale abhängt. Im Falle redundanter Nebenmerkmale hat ein Netz, das die Merkmale assoziiert, bei der Wahl von Zufallsmusters als Nebenmerkmale Vorteile, bei zueinander inversen Mustern hingegen Nachteile gegenüber einem Netz, das die Merkmale durch von eine von auÿen herbeigeführte Trennung getrennt verarbeitet. Um im Fall unabhängiger Merkmale die Unabhängigkeit in der Verarbeitung zu gewährleisten, wurde das Hopeld-System erweitert, indem Ansätze aus dem Bestärkenden Lernen übernommen wurden, die die Trennung von Netzteilen, die unterschiedlichen Merkmalen zuzuordnen sind, begünstigen. Es zeigt sich anhand von Messungen, dass die Erweiterungen des ursprünglichen Systems die Leistungsfähigkeit in der Erkennung unterschiedlicher Begrisausprägungen verbessern und zum Teil sogar erst ermöglichen. Es ist mit den Ergebnissen dieser Arbeit also möglich, den nächsten Schritt, die Kommunikiation Neuronaler Netze mit Hilfe von Begrisausprägungen, zu gehen. Ein Ansatzpunkt für weitere Verbesserungen des vorgestellten Lernsystems besteht darin, die Richtungen der Abhängigkeiten zwischen den verschiedenen Merkmalen zu berücksichtigen, eine Trennung der Verbindungen von Teilnetz A nach B also nur dann herbeizuführen, wenn die Implikation Merkmal in A führt zu zugeordnetem Merkmal B ungültig ist, nicht aber schon in dem Fall, dass dieses Kriterium in Gegenrichtung gilt. Diese Verbesserung würde es einem erlauben, die Vorteile von assoziierten 54 Merkmalen auszunutzen. 55 Kapitel 10 Anhang- Details zu Rechnungen 10.1 Kombinationen zweier Merkmale, Rauschlevel 6= 0 Um einen Ansatz für den erwarteten Überlapp-Vektor zu gewinnen, müssen für die beiden Fälle a1 und a2 die Erwartungswerte für den Überlapp berechnet 1 werden, wobei ma ≡ m1 die Überlappwerte für die angesteuerte Ausprägung bezeichnet (Ausprägung 1 wird also auf Fixpunkteigenschaft überprüft). Der Netzzustand S zeige die Begrisausprägung 1, dann gilt: m1 = 1 X 1 ξ Si N i i = P(ξi1 ist gegenüber Si invertiert) − P(Vorzeichen von ξi1 und Si sind gleich) = (1 − d) − d = (1 − 2d) (10.1) Für die zweite Kombination ergibt sich entsprechend: m2 = 1 X 2 ξ Si N i i 2 2 = P(Ri = 1 ∧ Ria = 1) + P(Ri = (−1) ∧ Ria = (−1)) 2 2 −P(Ri = 1 ∧ Ria = (−1)) − P(Ri = (−1) ∧ Ria = 1) = (1 − d)(1 − g) + dg + (1 − d)g + d(1 − g) = (1 − 2d)(1 − 2g) (10.2) Für den betrachteten Fall lautet die Gleichung (3.22): 1 µ µ m = hhξ tanh(m 1 P X ν=1 56 ν ξ +m 2 P X P 1 +1 ξ ν ii (10.3) Weiterführung der Rechnung für µ = 1 und Erweiterung der vorigen Gleichung mit (ξ 1 ξ 1 ) = 1 ergibt: 1 1 1 1 m = hhtanh(m + m P X ν 1 P X 2 ξ ξ +m ν=2 ξ ν ξ 1 ii (10.4) P 1 +1 Ersetzung der ξ ν nach dem Schema ξ µ = Rµ Ra X : 1 m 1 1 = hhtanh(m + m 1 P X 1 a1 ν a1 R R XR R X + m 2 ν=2 = hhtanh(m + m 1 X 1 2 R1 Ra XR2 Ra Xii P 1 +1 P1 1 P X 1 ν 2 R R +m ν=2 P X 1 2 R1 Ra R2 Ra ii (10.5) P 1 +1 1 2 Man macht jetzt eine Fallunterscheidung nach (R1 = ±1) und nach (Ra Ra = ±1), womit sich vier Hauptterme für die Mittelwertgleichung nach dem Schema 1 2 m1 = 2(PArg > 0) − 1 (siehe 6.9) ergeben. Mit P(Ra Ra = 1) = (1 − g) , P P 1 P(R1 = 1) = (1 − d) und Arg 0 = m1 ± m1 Pi=2 Ri ± m2 Pi=P 1 +1 Ri erhält man: ³ 1 2 m1 = 2 (1 − g)(1 − d)P(Arg 0 > 0|Ra Ra = 1, R1 = 1) 1 2 1 2 +g(1 − d)P(Arg 0 > 0|Ra Ra = −1, R1 = 1) +(1 − g)dP(Arg 0 > 0|Ra Ra = 1, R1 = −1) ´ 1 2 +gdP(Arg 0 > 0|Ra Ra = −1, R1 = −1) − 1 1 (10.6) 2 Auswertung des 1. Summanden: Aus R1 > 0 und Ra Ra > 0 folgt: 0 1 P(Arg > 0| + 1, +1) = P(m + m 1 P X ν=2 1 2 R +m P X R2 > 0) ν=P 1 +1 P1 P X m2 X 1 = P( R > −1 − R2 ) m1 1 ν=2 (10.7) ν=P +1 P Bei n2 Einsen wird die Summe rechts vom Ungleichheitszeichen zu Pν=P 1 +1 R2 = ¡ 2¢ 2n2 − P 2 . Dies geschieht mit einer Wahrscheinlichkeit von PnIII = Pn2 (1 − 2 2 d)n2 dP −n2 . Bei n1 Einsen in der Summe links vom Ungleichheitszeichen nimmt P 1 1 diese den Wert: Pν=2 Rd = 2n1 − P 1 − 1 an. Mit Hilfe dieser Gleichungen kann 57 (10.3) so hingeschrieben werden: P(Arg 0 > 0| + 1, +1) = P(n > (P 1 − m2 (2n2 − P2 ))/2 m1 µ 2¶ P X P 2 = (1 − d)n2 dP −n2 · n2 n2 =0 1 −1 µ 1 ¶ PX P −1 1 (1 − d)n dP −n n 2 1 m2 2 n1 >P − m (2n2 −P ) 1 (10.8) Die Berechnung der Terme der anderen 3 Summanden aus (10.6) läuft analog und sie lauten: 2. Summand: µ 2¶ P X P 2 P(Arg > 0| − 1, +1) = (1 − d)n2 dP −n2 · n2 n2 =0 1 −1 µ ¶ PX P1 − 1 1 (1 − d)n dP −n n n >s∗ 2 0 (10.9) 1 (Mit s∗ = P 1 + 3. Summand: m2 (2n2 m1 − P 2 )) µ 2¶ P X P 2 2 0 P(Arg > 0| + 1, −1) = (1 − d)n2 dP −n · n2 n2 =0 ∗ ¶ nX 1 <s µ P1 − 1 1 (1 − d)n dP −n n n =0 2 (10.10) 1 m (Mit s∗ = 1 + 4. Summand: P 1 + m2 (P 2 −2n2 ) 1 2 ) µ 2¶ P X P 2 0 P(Arg > 0| − 1, −1) = (1 − d)n2 dP 2 −n2 · n2 ∗ ¶ nX 1 <s µ P1 − 1 1 (1 − d)n dP −n n n =0 n2 =0 (10.11) 1 m ∗ P 1 − m2 (P 2 −2n2 ) 1 (Mit s = 1 + ) 2 Diese 4 Ausdrücke für die Wahrscheinlichkeiten müssen jetzt in (10.6) eingesetzt 58 werden. Es fehlt noch die Berechnung der Werte für m2 , diese läuft analog zu der für m1 ab. Anschlieÿend muss die Gleichung (10.6) mit Hilfe von MatLab o.ä. Programmen iterativ auf Selbstkonsistenz überprüft werden. Die Ergebnisse für 3 verschiedene Rauschlevel sind in Abbildung (6.4) aufgetragen. 59 10.2 Herleitung von Gleichung (6.13) aus Abkopplungskriterium Die betragsmäÿig durchschnittliche Verbindugsstärke w1 innerhalb des kleineren Netzes ist für den Fall von zwei Merkmalen, einem Hauptmerkmal und Rauschlevel = 0 gleich der Anzahl aller Trainingsvektoren geteilt durch N. Entsprechend ist w2 gleich der Dierenz der Trainingsteilmengen durch N. w1 gN > w2 (1 − g)N 1 1 1 2 (P + P 2 )(gN − 1) > (P − P 1 )N (1 − g) N N (10.12) (10.13) Für den Vergleich mit der Rechnung, die auf der Gleichung für die erwarteten Überlapp-Werte basiert, wird (gN − 1) ungefähr gleich (gN ) gesetzt, da die ausgeschaltete Eigenrückkopplung nicht berücksichtigt wird: 1 1 (P + P 2 )gN > (P 2 − P 1 )(1 − g) N (10.14) Weitere einfache Umformungen ergeben dann: P 2 (1 − 2g) < P 1 (10.15) (6.13) lautet (bei Vertauschung der gleichwertigen Rollen von P 1 und P 2 ): P2 m2 < P1 m1 (10.16) Da P 1 gröÿer als ein Minimalwert sein muss, bedeutet dies, dass ein dieser Menge zugehöriges Muster das Zielmuster darstellt, d.h. m1 = 1. Das bedeutet für den erwarteten Überlapp von m2 = (1−2d), und man kommt zur Darstellung (10.15). 60 10.3 Fixpunktbedingung bei zwei Begrien; Assoziativnetz Berechnet werden sollen Erwartungswert bzw. Varianz von den Termen: 1 X dµ dµ 1 X dµ dµ b2 b1 b1 b2 R R , R R X X X X N j,µ i j N j,µ i j j j i i | {z } | {z } 1 (10.17) 1 b E1i b E2i (für den Index i (nicht j!)soll gelten: es werden nur Neuronen mit i> g N, also nur die Neuronen im der Verrauschung unterworfenen Teilnetz betrachtet. Im kleineren, nicht verrauschten Netz treten keine Fehler auf, also muss die Fixpunktbedingung auch nicht berechnet werden). b1 Zunächst der Mittelwert von E1i : die erste Aufspaltung der Summen betrit die nach den zwei Teilnetzen: 1 b E(E1i ) = E( gN −1 N 1 X X dµ dµ 1 X X dµ dµ Ri Rj ) + E( R R ) N j=0 µ N j=gN µ i j (10.18) b Der erste Summand von E(E1i ) ist wegen (Rjdµ = 1): 1 gN −1 X dµ 1 X dµ X 1 E( Ri 1) = E( gN Ri ) N µ N µ j=0 = E(g = g P (1 − 2d)) 2 P (1 − 2d) 2 (10.19) 2. Summand. N N N X 1 X dµ X dµ 1 P P X dµ dµ E( R R ) = Rj − d R ) E( (1 − d) N µ i j=gN j N 2 2 j=gN j j=gN 1 P P E( (1 − d)N (1 − g)(1 − 2d) − dN (1 − g)(1 − 2d)) N 2 2 P (1 − g)(1 − 2d)2 (10.20) = 2 = insgesamt (mit a ≡ 1 − 2d): 1 b E(E1i )= P a(g + a(1 − g)) 2 61 (10.21) 1 b Der Mittelwert von E2i ist wegen der Unabhängigkeit der Xi und Xj von den b1 b1 : anderen Faktoren in E2i und wegen E(X) = 0 gleich null. Varianz von E1i gN −1 N 1 X µ µ 1 2 X X µ µ X µ µ σ ( R R ) = σ ( ( Ri Rj + Ri Rj )) N jµ i j N2 µ j=0 j=gn 2 N X 1 2 X µ (R (gN + σ ( Rjµ )) i N2 µ j=gN = (10.22) (10.23) Im Argument von σ 2 gibt es zwischen den Summanden bzgl. µ keine Abhängigkeiten: N X 1 X 2 µ b1 σ 2 (E1i )= 2 σ (Ri (gN + Rjµ )) (10.24) N µ j=gN Die weitere Rechnung der Varianz geschieht mit Hilfe der Formel σ 2 (A) = E(A2 )− E 2 (A) (hier bezieht sich σ 2 auf die Terme innerhalb der Summe über µ): E((Riµ (gN + N X Rjµ ))2 ) 2 2 = E(g N + 2gN j=gN N X j=gN 2 2 Rjµ + N X Rjµ Rkµ ) (10.25) j,k 2 = g N + 2gN (1 − g)a + N (1 − g) + a2 (N 2 (1 − g)2 − N (1 − g)) (E(Riµ (gN + N X Rjµ ))2 = (gN a + (1 − g)N a2 )2 (10.26) (10.27) j=gN = g 2 N 2 a2 + 2g(1 − g)N 2 a3 + (1 − g)2 N 2 a4 (10.28) Durch Subtraktion von E 2 (A) von E(A2 ) und Multiplikation mit (P/2 1/N 2 ) b1 ergibt sich dann die Varianz von E1i : 1 b σ 2 (E1i ) = P (1 − g) P 2 (1 − g) (g + ) + P ag(1 − g) + a2 ((1 − g)2 − − g2) 2 N 2 N P −P a3 g(1 − g) − (1 − g)2 a4 (10.29) 2 1 b Berechnung der Varianz von E2i : 1 b σ 2 (E2i )= gN −1 N 1 2 X X µ µ b1 b1 b2 b2 X X µ µ b1 b1 b2 b2 σ ( R R X X X X + Ri Rj Xi Xj Xi Xj ) i j i j i j N2 µ µ j=gn j=0 (10.30) 62 Mit Rjµ Xjb Xjb = (−1) für j = 0...gN − 1: 1 σ 2 2 b1 (E2i ) N X 1 2 b1 b2 X µ 1 2 = 2 σ (Xi Xi Ri ((−gN ) + Rjµ Xjb Xjb )) N µ j=gN (10.31) Es wird wieder die Formel σ 2 (A) = E(A2 ) − E 2 (A) angewandt: N N X X µ X 2 1 µ b1 b2 ν Rjµ Xjb Xjb )) E(Arg ) = E( Ri ((−gN ) + Rj Xj Xj )Ri ((−gN ) + 2 µ,ν j=gN j=gN (10.32) Auswertung des Falls µ = ν : N N X X X 1 1 2 2 2 2 b1 b2 E( (g N − 2gN Xj Xj + Rj Rk Xjb Xkb Xjb Xkb ) (10.33) µ 2 X 2 = g N − 2gN +( X j=gN j,k 1 2 E(Xjb Xjb ) X 1) + E( j k=j b1 b1 b2 b2 (10.34) E(Rj Rk Xj Xk Xj Xk ) j,k6=j = g2N 2 + P (1 − g)N 2 (10.35) Die Auswertung des Falls µ 6= ν : E( X Riµ Riν g 2 N 2 ) − 2Riµ gN N X 1 1 2 2 E(Rjµ Rjν Xjb Xjb Xjb Xjb ) + j=gN = 1 2 E(Rjν Xjb Xjb ) − 2Riν gN j=gN µ,ν6=µ + N X N X 1 2 E(Rjµ Xjb Xjb ) j=gN X 1 1 2 2 E(Rjµ Rkν Xjb Xkb Xjb Xkb ) (10.36) j,k6=j P (P − 2) 2 2 2 P (P − 2) g N a + (1 − g)N a2 4 4 (10.37) Wegen der statistischen Unabhängigkeit der einzelnen Faktoren X und E(X) = 0 sind der 2., 3. und 5. Summand gleich null. Mit (E(Arg))2 = 0 und Multiplikation b1 mit 1/N 2 ergibt sich σ 2 (E2i ) zu: 1 b σ 2 (E2i )= P 2 (1 − g) (P − 2) 2 2 (P − 2) (g + + g a + (1 − g)a2 ) 2 N 2 2N 63 (10.38) 10.4 Übersicht über verwendete Abkürzungen Buchstabe N bezeichnete Gröÿe Anzahl der Neuronen F H P Pi freie Energie des Netzes Energiefunktion des Netzes gesamte Trainingsmenge des Netzes Teil der Trainingsmenge S Zustand eines Neurons X Begri Ra Merkmalsmatrix R Verrauschungsmatrix Z a Zustandssumme Hilfsgröÿe: a = (1 − 2d) ai d Index der Begrisausprägung Rauschlevel g Anteil d. Teilnetzes am Gesamtnetz hi Netzeingabe für Neuron i 64 Erklärung Neuronenanzahl des gesamten Netzes alle Trainingsmuster Menge der Trainingsmuster für eine spezielle Ausprägung eines Begriffes kann Werte 1 oder -1 annehmen Hauptmerkmal + typische(s) Nebenmerkmal(e) beschreibt die Art der Merkmalskombination beschreibt die Verrauschung eines Beispiels gegenüber dem Begri Hilfsgröÿe, die sich rechnerisch häug ergibt Wahrscheinlichkeit der Invertierung eines einzelnen Musterbits bei g = 0.1 und einer Gesamtnetzgröÿe von N = 100 umfasst das Teilnetz 10 Neuronen Buchstabe m ~ bezeichnete Gröÿe Überlapp-Vektor wij Verbindungsgewicht β µ ξ Kehrwert der Pseudotemperatur T Index für Begrisausprägung Mustervektor 65 Erklärung Beschreibt Überlapp zwischen den Trainingsmustern und dem Netzzustand Gewicht zwischen Neuronen i und j bei den durchgeführten Messungen stellt dieser ein Beispiel für einen Begri dar Abbildungsverzeichnis 3.1 3.2 Schema der Architektur des Hopeldnetzes mit 4 Neuronen . . . . Beispiel für eine Begrisbildung . . . . . . . . . . . . . . . . . . . 12 19 5.1 Schema des Zusammenspiels von Agent und Umgebung beim Bestärkenden Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.1 6.2 Beispiel für zwei Ausprägungen eines Begris . . . . . . . . . . . . Schwelle des Mengenverhältnisses P 1 und P 2 für unterschiedlich groÿe Netze aufgetragen gegen die Gesamtmenge der Trainingsmuster, g=0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gemessener und theoretischer Verlauf der Schwelle für das Mengenverhältnis im Falle variabler Neuronenzahl, die für die Representation des sekundären Merkmals verwendet wird (Netz mit 100 Neuronen), durchschnittliches Verbindungsgewicht . . . . . . . . . Vergleich zwischen Mean-Field und Messung bzgl. Überlapp des Netzzustandes zum typischem Trainingsmuster, 100 Neuronen, g=0,8, verschiedene Rauschlevel . . . . . . . . . . . . . . . . . . . . . . . Hamming-Abstände zwischen Ausgabe und Zielmuster für verschiedene Rauschlevel, zwei Merkmale, 100 Neuronen, g=0,8 . . . . . . Ergebnisse von Einzelmessungen zu Abbildung (6.5) . . . . . . . . Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung beider Merkmale, inverse Nebenmerkmale . . . . . . . . . Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung des Hauptmerkmals, inverse Nebenmerkmale . . . . . . . . Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung des Hauptmerkmals, Zufallsmuster als Nebenmerkmale . . 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.1 7.2 7.3 Messung zur Kombination von drei Merkmalen, Rauschlevel =0, g1 = 0, 1 , g2 = 0, 2 . . . . . . . . . . . . . . . . . . . . . . . . . . Schema der Trainingsmusterverteilung für Messung 7.3 . . . . . . Messung mit drei Merkmalen, d=0, 100 Neuronen, g1=0,1, g2=0,2 66 29 32 33 37 38 39 40 41 42 46 47 48 8.1 8.2 8.3 8.4 1. Messung zum Bestärkenden Lernen, ein Begri, zwei Merkmale, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1: Übergangsschwelle= 5, α = 0, 2; RL2: Misstrauensschwelle= 4 . . 2. Messung zum Bestärkenden Lernen, ein Begri, drei Merkmale, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1: Übergangsschwelle= 5, α = 0, 2; RL2: Misstrauensschwelle= 6 . . 3. Messung zum Bestärkenden Lernen, drei Begrie, zwei Merkmale, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1: Übergangsschwelle= 15, α = 0, 3; RL2: Misstrauensschwelle= 12 . 4. Messung zum Bestärkenden Lernen, zwei Begrie, 2. Merkmal kann 3 Werte annehmen, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1: Übergangsschwelle= 6, α = 0, 2; RL2: Misstrauensschwelle= 8 . . . . . . . . . . . . . . . . . . . . . . . . 67 50 51 52 53 Literaturverzeichnis [1] Amit, D.J., H. Gutfreund, H. Sompolinsky Statistical mechanics of neural networks near saturation Annals of Physicis 173:30-67 (1987) [2] Bovier, A., Gayrard, V. Statistical mechanics of neural networks: The Hopeld model and the Kac-Hopeld model Markov Proc. Rel. Fields 3, 392-422 (1997) [3] Brousse, O. Generativity and systematicity in neural network combinatorial learning Ph. D. thesis, University of Colorado, Boulder, CO. (1993) [4] Davey, N., Hunt A comparative analysis of high performance associative memory models Proc. of 2nd Intern. ICSC Symposium of Neural Computation (NC' 2000) [5] Hancock, E. R., Pelillo, M. A bayesian interpretation for the exponential correlation associative memory Technical Report Series on Computer Science CS-97-7 (1997) [6] Held, Richard Plasticity in Sensory-motor Systems, Scientic American 111965 [7] Hertz, J., A. Krogh und R.G. Palmer Introduction to the theory of neural computation Addison-Wesley [8] Hirsch, H. V. B. and Spinelli, D. N. Visual experience modies distribution of horinzontally and vertically oriented receptive elds, Science 168 869-870 (1970) [9] Hopeld, J. J. Neural Networks and physical systems with emergent collective computational abbilities Proceedings of the National Academy of Sciences, 79:255-2558 (1982) [10] Imada, A., K. Araki Evolution of a Hopeld associative memory by the Breeder Genetic Algorith Proc. of the Seventh Int. Conf. of Genetic Algorithms, p. 784-791 (1997) 68 [11] Jünger, M. , Rinaldi G. Relaxation of Max-Cut-Problem and computation of spin-glass ground states P.Kischka (ed.) , Proc SOR 1997 (1997) [12] Krüger, Guido Begrisbildung in Hopeld-Netzen Diplomarbeit an der WWU Münster (2003) [13] Löwe, Matthias On the storage capacity of Hopeld models with weakly correlated patterns Ann. Apl. Probab. 8, 1216- 1250 (1998) [14] Neubauer, A. C. Jäten im Gehirn Gehirn und Geist Nr .2 44-46 (2002) [15] Shatz, Carla J. Das sich entwickelnde Gehirn, Spektrum der Wissenschaft 11- 1992 [16] Singer Hirnentwicklung und Umwelt, Spektrum der Wissenschaft 3- 1985 [17] Smith, Kate A. Neural networks for combinatorial optimization: A review of more than a decade of research INFORMS Journal on computing (1999) [18] Stader, J. Applying Neural Networks AIAI - IR- 11, 1992 [19] Sutton, R.S., A. G. Barto Reinforcement Learning- An Introduction MIT Press Cambridge, Massachusetts (1998) [20] Zell, A. Simulation neuronaler Netze Addison-Wesley (1994) 69