Merkmalskombinatorik in einer Erweiterung des Hop

Werbung
Merkmalskombinatorik in einer Erweiterung des
Hopeld-Systems
von Christoph Schulz, Westfälische Wilhelmsuniversität in Münster
15.08.2003
Inhaltsverzeichnis
1 Einleitung
3
2 Dierenzierung und Kombinatorik
7
3 Hopeld-Netze und Begrisbildung
11
1.1
1.2
2.1
2.2
2.3
3.1
3.2
3.3
3.4
3.5
Anmerkung zur Terminologie . . . . . . . . . . . . . . . . . . . .
Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Übersicht über die Kapitel . . . . . . . . . . . . . . . . . .
Dierenzierung in biologischen Systemen . . . . . . . . . . . . . .
Merkmalsextraktion im Neuronalen Netz . . . . . . . . . . . . . .
Zusammenhang mit anderen Arbeiten zu Hopeldnetzen . . . . .
Crosstalk eines Musters . .
Cohen-Grossberg-Theorem
Lokalität einer Lernregel .
Fixpunkte des Systems . .
Begrisbildung . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Merkmalsextraktion in der Agentensimulation
5
5
6
7
8
9
12
13
14
14
18
20
5 Bestärkendes Lernen und seine Anwendung auf das vorliegende
Lernproblem
22
5.1
Erweiterungen der Hebb'schen Lernregel
5.1.1 Lernregel 1 (selektives Lernen) . .
5.1.2 Lernregel 2 (RL 1) . . . . . . . .
5.1.3 Lernregel 3 (RL 2) . . . . . . . .
5.1.4 Zusammenfassende Betrachtung .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
24
24
26
26
6 Kombinationen von zwei Merkmalen
28
7 Kombinationen von 3 Merkmalen
45
6.1
6.2
7.1
Begrisausprägungen . . . . . . . . . . . . . . . . . . . . . . . . .
Fixpunkte mit 2 Merkmalen, Rauschlevel =0 . . . . . . . . . . . .
6.2.1 Fixpunkte, Rauschlevel 6= 0 . . . . . . . . . . . . . . . . .
Erwartete Zustände für Rauschlevel = 0 . . . . . . . . . . . . . .
1
28
29
34
45
8 Bestärkendes Lernen, mehrere Merkmale und Begrie
49
9 Zusammenfassung und Ausblick
54
10 Anhang- Details zu Rechnungen
10.1
10.2
10.3
10.4
Kombinationen zweier Merkmale, Rauschlevel 6= 0 . . . . .
Herleitung von Gleichung (6.13) aus Abkopplungskriterium
Fixpunktbedingung bei zwei Begrien; Assoziativnetz . . .
Übersicht über verwendete Abkürzungen . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
56
56
60
61
64
Kapitel 1
Einleitung
Künstliche Neuronale Netze sind Systeme, die sich in ihrer Architektur am biologischen Vorbild des zentralen Nervensystems orientieren. Sie bestehen aus der
Verschaltung von Elementen, die aus einer Vereinfachung der biologischen Neuronen hervorgehen und ebenfalls als Neuronen bezeichnet werden. Diese zeigen
ein einfaches Antwortverhalten auf eingehende Signale, die entweder von anderen Neuronen oder von Messinstrumenten, die äuÿere Daten aufnehmen, stammen. Die Antwort der Neuronen kann wiederum als Eingabe für andere Neuronen
dienen. Das gesamte Neuronen-Netzwerk zeigt dann ein Verhalten, welches verschiedene Probleme der Informationsverarbeitung lösen und auch ein Modellsystem für zugrundeliegende biologische Systeme abgeben kann. Neuronale Netze
sind aber nicht nur für Informationstechniker und Biologen, sondern auch für
Physiker interessant. Sie stellen ein Beispiel für kooperierende Vielteilchensysteme dar, die mathematischer Behandlung zugänglich sind. Das Hopeldnetz, von
dem hier zunächst ausgegangen wird, ist als Modell für Spin-Gläser vom Physiker
John Hopeld entwickelt worden. Von Spin-Gläsern war bereits bekannt, dass sie
Assoziierungs- und Optimierungsprobleme lösen können. Das Modell von Hopeld
ist mathematisch so gehalten, dass es durch statistische Methoden beschreibbar
ist, die auch in anderen Vielteilchensystemen Anwendung nden. Die Behandlung
in Form eines Vielteilchensystems kann man als physikalischen Zugang zu Neuronalen Netzen betrachten; dieser Zugang wird auch in der vorliegenden Arbeit
gewählt. Was den Inhalt der Arbeit betrit, so besteht die vom Netz zu bewältigende Aufgabe darin, dass Merkmalskombinatorik möglich sein soll. Eine erste,
einfache Denition für diesen Begri lautet so: Das Neuronale Netze bekommt Information in Form von Vektoren übermittelt, die man als Menge von Bildpunkten
interpretieren kann. Das Netz soll nun aufgrund der Konfrontation mit verschiedenen Vektoren lernen, Merkmale zu extrahieren. Die Merkmale sind dabei Anteile
der Gesamtinformation, die im Vektor kodiert vorliegt. Treten diese Informationsanteile in unabhängigen Kombinationen zueinander auf, soll das Netz lernen, sie
auch unabhängig voneinander zu verarbeiten. Gibt es hingegen Abhängigkeiten,
so soll das Netz diese nutzen, um die Leistungsfähigkeit der Informationsverarbei3
tung zu steigern. Die Fähigkeit der Informationsverarbeitung macht Neuronale
Netze als Baustein zur Modellierung künstlicher Intelligenz interessant. Insbesondere Kombinatorik von Begrien und Merkmalen ist ein wichtiger Aspekt bei der
Erschaung künstlicher intelligenter Systeme. Ist der erste Schritt, Merkmale zu
erkennen und getrennt zu verarbeiten, einmal getan, kann man diese Fähigkeit
zur aktiven Verknüpfung von Merkmalen und Begrien nutzen. Der Hauptgrund
dafür, unabhängige Elemente durch Kombinieren zu komplexeren Gebilden zusammenzusetzen, besteht in der Ökonomie dieser Vorgehensweise. So sind durch
Zusammenschalten von Elementarbegrien oder Merkmalen aus verschiedenen
Kategorien durch eine Vielzahl möglicher Kombinationen die Erkennung und
Speicherung vieler Begrie möglich, ohne dass für diese Begrie eigene Symbole (bzw. Neuronencluster für deren Representation) genommen werden müssen.
Auch können neue Begrie durch bislang nicht verwendete Kombinationen aus
bereits vorhandenen Basismerkmalen gebildet werden. Ein Beispiel für die Nutzung der Kombinatorik aus der klassischen KI-Forschung, die nicht mit Neuronen,
sondern mit abstrakten Symbolen zur Informationsrepräsentation arbeitet, ist die
Beschreibung der menschlichen Sprache durch Grammatiken. Durch diese Art der
Beschreibung haben die KI-Forscher zu erklären versucht, dass der Mensch vorher
nie gehörte Sätze auf Anhieb versteht [3]. Das Gehirn greift also auf Elemente,
die es schon kennt, zurück und verknüpft diese lediglich neu. Der Nachteil der
klassischen, symbolischen Erklärungsweise der Intelligenz besteht jedoch darin,
dass diese Symbole dem System durch einen Lehrer übergeben werden müssen
und in keinem erkennbaren Zusammenhang mit den aufgenommenen physikalischen Rohdaten stehen (s. [18]). Diese Daten könnten zum Beispiel in Form von
Bildinformationen einer Kamera, die an einem Roboter angebracht ist, bestehen. Ansätze aus dem Bereich des Konnektionismus (=Neuronale Netze bilden
das Modell zur Erklärung von Intelligenz), die die kombinatorischen Aspekte der
klassischen KI nachzubilden versuchen (s. z. B. [3]), kommen zumeinst ebenfalls
nicht ohne Lernen mit Lehrer aus.
In dieser Arbeit wird vom Hopeldnetz ausgegangen und dieses anschlieÿend
erweitert. Das Hopeldnetz ist eine rekurrente Netzwerkarchitektur, bei der alle
Neuronen untereinander verbunden sind. Das Netz hat dadurch beispielsweise die
Möglichkeit, ein gestörtes Bild, das vorher vom Netz gelernt wurde, zu rekonstruieren. Es gibt bei neuronalen Netzen drei Formen von Lernen: Zu einer Eingabe
in das Netz existiert eine eindeutige gewünschte Ausgabe oder eine Rückmeldung
über den Grad der Richtigkeit der erfolgten Ausgabe oder aber überhaupt keine
Form von Steuerung, so dass es dem Netz komplett selbst überlassen bleibt, welche Ausgabe es der Eingabe zuordnet. Lernen mit Anpassung der Ausgabe an eine
gewünschte Sollausgabe kommt in dieser Arbeit nicht vor. Statt dessen wird die
Anpassung des Netzes an die Anforderungen der Trainingsmenge, also der Menge
der vom Netz zu lernenden Muster, betrachtet. Inwiefern Merkmalskombinatorik bei einer bestimmten Gestaltung der Trainingsmenge grundsätzlich möglich
ist, wird zunächst als Grundphänomen untersucht, gleichzeitig steht die Arbeit
4
aber auch zwischen zwei weiteren Arbeiten im Rahmen eines Gesamtprojekts,
dessen Ziel die erfolgreiche Kooperation von Agenten in einer künstlichen Umgebung darstellt. Aufgebaut wird auf dem Phänomen der Begrisbildung, das
man in Hopeldnetzen darstellen kann. Mit Begrisbildung ist diesem Zusammenhang eine Form der Informationsreduktion gemeint, indem mehrere ähnliche,
gelernte Muster zugunsten eines Grundmusters, von dem sich die Einzelmuster
ableiten, vergessen werden. Der sich anschlieÿende Schritt ist die Kombinatorik
von Begrien, die auch als Eigenschaften oder Merkmale gedeutet werden können. Um sich die Vorteile der Kombinatorik zunutze machen zu können, muss
das neuronale Netz aber erst einmal die Fähigkeit zur Merkmalsextraktion besitzen, d.h. verschiedene Merkmale eines Objektes getrennt und ungestört voneinander verarbeiten können. Dies kann gelingen, wenn man die Lernregeln so
deniert, dass ein Netz für einzelne Merkmale zuständige Teilnetze ausbildet, die
sich gegenseitig nicht stören, die teilnetzübergreifenden Neuronenverbindungen
also vernachlässigbar klein werden. Da die Ausbildung von solchen Teilnetzen
nicht ohne Nachteile ist, wird hier eine Vorgehensweise gewählt, bei der die Ausbildung der Netzstruktur von der jeweiligen Trainingsmenge abhängig ist. Das
Netz entscheidet sozusagen eigenständig, ob sich die Abkopplung eines Netzes
lohnt oder nicht.
1.1 Anmerkung zur Terminologie
Obwohl der Lernvorgang des Hopeldnetzes durch eine einzige, feststehende Lernregel gesteuert wird, spricht man von einer überwachten Form des Lernens. Wenn
das Netz als Autoassoziativspeicher (ein Muster wird abgebildet auf sich selbst)
betrieben wird, kann man dies als sinnvoll ansehen, da die Information über die
Zielausgabe bereits in der Eingabe vorhanden ist. Sobald aber das Ziel der Begrisbildung verfolgt wird, die eine Informationsreduktion darstellt, kann man
vom unüberwachten Lernen sprechen, denn die Begrie, die sich aus den Trainingsbeispielen des Netzes ergeben, werdem dem Netz zu keiner Zeit explizit
übergeben.
1.2 Gliederung der Arbeit
Die gedankliche Grundstruktur der Arbeit ist folgende: Es wird vom HopeldSystem ausgegangen. Diesem werden Trainingsmuster präsentiert, die sich durch
Kombinationen von Merkmalen ergeben. Zunächst wird das Netz, wie es das
Standard-Modell vorschreibt, nach getrennten Phasen betrieben. An die Trainingsphase (das Netz lernt die Muster) schlieÿt sich die Testphase an (dem Netz
werden weitere Muster präsentiert und es wird überprüft, ob diese korrekt verarbeitet werden). Bei diesem Betrieb des Netzes erreicht man eine Grenze bzgl.
5
Verrauschungsgrad und Ausgewogenheit der Repräsentation der Trainingsmuster,
die das Netz an der Aufgabe, alle Merkmale zu erkennen, scheitern lassen. Die
Erweiterung des Systems wird in der Weise betrieben, dass Test- und Trainingsphase vermischt und Elemente des bestärkenden Lernens, das einen Rückgabewert zur Ausgabe des Netzes liefert, hinzugenommen werden. Überdies wird die
Lernregel für das Hopeldnetz erweitert, um zusätzliche Leistungsverbesserungen zu erzielen. Die neuen Lernregeln verstärken dabei das Ziel, im Falle nichtredundanter Merkmale unabhängige Teilnetze durch Training auszubilden. Man
kann also die Ausbildung von Teilnetzen, oder anders formuliert: die Minimierung
der Wechselwirkungen zwischen diesen Teilnetzen als Mittel zum eigentlichen Ziel
der Merkmalskombinatorik ansehen. Neben der Aufgabe, voneinander unabhängige Merkmale zu verarbeiten, wird die Leistungsfähigkeit von Netzen verglichen,
die redundante Merkmale getrennt bzw. assoziativ verarbeiten. Die Arbeit baut
im Wesentlichen auf [12] auf. Ansonsten ist die Arbeit grundlegend und basiert
hauptsächlich auf den mathematischen Prinzipien der Beschreibung von Hopeldnetzen. Es gibt keine weitere Arbeit, die die Aspekte von Merkmalskombinatorik,
Hopeldnetz und Bestärkendem Lernen miteinander kombiniert.
1.2.1 Übersicht über die Kapitel
Kapitel 2: Da sich das Konzept der Neuronalen Netze an Prinzipien der Informationsverarbeitung des Nervensystems anlehnt, ist die Fragestellung interessant, ob
die Ausbildung von Teilnetzen auch in der Gehirnentwicklung eine Rolle spielt,
insbesondere ob diese Struktur genetisch vorprogrammiert oder die Folge einer
erfahrungsabhängigen Ausbildung ist. Die Denition des Problems in Bezug auf
das Hopeldnetz und ein Überblick über sonstige Untersuchungen, die auf Basis dieser Archtitektur gemacht wurden, folgen. Kapitel 3 gibt die Denition des
Hopeldnetzes und beschreibt den Mean-Field-Formalismus. Auÿerdem wird das
Phänomen der Begrisbildung beschrieben, auf dem diese Arbeit aufbaut. Damit
endet der einleitende/ reproduktive Teil der Arbeit (abgesehen vom ersten Teil
des Kapitels 5). Kapitel 4 Die hier theoretisch beschriebenen Möglichkeiten der
Begrisbildung und Merkmalskombinatorik nden im weiteren Verlauf des Programmierprojektes unserer Arbeitsgruppe Anwendung in einer Simulation, die in
diesem Kapitel beschrieben wird. Kapitel 5 geht kurz auf die für die Problemstellung wichtigen Aspekte des Reinforcement Learning ein. Drei verschiedene
Lernregelerweiterungen, die im Kapitel 8 Anwendung nden, werden beschrieben. Kapitel 6 und 7 behandeln das unbeschränkte Hebb'sche Lernen und seine
Grenzen bei der Klassizierung von Merkmalskombinationen. Kapitel 8 vollzieht
den Übergang zum Reinforcement Learning, welches bei ungleichmäÿig verteilten
Trainingsmengen benötigt wird, um den Klassikationserfolg zu erhöhen.
6
Kapitel 2
Dierenzierung und Kombinatorik
2.1 Dierenzierung in biologischen Systemen
Orientiert man sich am biologischen Vorbild, ndet man schnell Hinweise, dass
die dierenzierte Verarbeitung von Informationen Vorteile erbringt. Mit Dierenzierung ist hier die Entwicklung von Nervenzellen in der Weise zu verstehen,
dass sie spezielle Aufgaben der Informationsverarbeitung wahrnehmen können.
Beispielsweise reagiert eine Zelle der Retina nur auf Reize aus einem begrenzten
Ausschnitt des Gesichtsfeldes. Dabei gibt es genetisch vorgegebene Präferenzen
für die Ausbildung von Verbindungen zwischen Nervenzellen, allerdings reicht
die genetische Information für eine genaue Verschaltung der entsprechenden Teilbereiche des Gehirns nicht aus. Dieser Mangel muss durch Lernen ausgeglichen
werden[15]. Es ist dadurch aber auch der Vorteil der Anpassungsfähigkeit gegeben, indem spezialisierte Zellen für Merkmale entstehen können, deren Unterscheidung in einer speziellen Umwelt wichtig sind. Im Gehirn von Säugetieren
läuft die (genetisch bestimmte) a-priori-Ausbildung der Neuronenverbindungen
so ab, dass nicht etwa weniger, wie intuitiv anzunehmen, sondern im Vergleich
mit der als abgeschlossen zu betrachtenden Lernphase zu viele Verbindungen ausgebildet werden. Welche dieser zu zahlreichen Verbindungen wieder verkümmern,
hängt von der Erfahrung während der Lernphase ab, der damit eine entscheidene
Bedeutung zukommt[15]. Es wurden Versuche an jungen Katzen unternommen,
bei denen die Dierenzierung der Zellen, die visuelle Informationen verarbeiten,
unterdrückt wurden. Die Versuchstiere hatten dadurch einen erheblichen Nachteil bei der Aufgabe, unterschiedlich orientierte Konturen zu erkennen, weil sich
die auf die bestimmte Orientierungsrichtung spezialisierten Zellen nicht ausbilden konnten ([16], [8]). Dass dabei nicht nur die Konfrontation mit den Mustern,
sondern gerade auch die Interaktion mit der Umgebung wichtig ist, die einen
(senso-motorischen) Rekopplungsmechanismus ermöglicht , zeigen weitere Untersuchungen, welche die Erfahrungen von Katzen nach reinem passiven Lernen und
Interaktion mit der Umgebung gestalteten und bei den nur passiv lernenden Tie7
ren ebenfalls Funktionsstörungen erzielten [6]. Dass das Prinzip der Dierenzierung im allgemeinen Sinne wichtig ist, legen beispielsweise Aktivitätsmessungen
der Gehirne von Menschen nahe, die in verschiedenen Bereichen unterschiedlich
gute Begabungen zeigen. Während die für die betrachtete Teilleistung besser
abschneidenden Probanden eine geringe Aktivität in eng umrissenen Bereichen
des Gehirn zeigten, spielt sich die Hirnaktivität weniger begabter Testpersonen
über weite Hirnareale ab. Der gesamte Energieverbrauch ist bei diesen höher, die
Aufgabe wird mit mehr Mühe bewältigt und die Leistung wird weniger schnell
erbracht. Eine Deutung dieses Experiments ist, dass die unbegabten Probanden
für die gegebene Aufgabe unspezialisierte Zellen rekrutieren müssen, während
die Begabten auf gut trainierte Teilnetze zurückgreifen können [14]. Dies Beispiel zeigt ebenfalls, dass zu viele Verbindungen zwischen Neuronenverbänden,
denen unterschiedliche Aufgaben zukommen, Nachteile einbringen kann. Im Fall
der Ausbildung von orientierungsspezischen Zellen im visuellen System gibt es
mindestens zwei Gründe für die zu zahlreichen Verschaltungen. Zum einen wäre
der Aufwand einer genetischen Kodierung der Feinverschaltung zueinander gehöriger Zellen, z.B. im seitlichen Kniehöcker und in der Sehrinde, die etwa auf
gleiche Orientierungen reagieren, zu hoch dieser Weg würde von der Natur auch
nicht beschritten werden, wenn es mittels Adaption durch Erfahrung einfacher
geht. Zum anderen ist das biologische System exibler und kann die ausgebildete
neuronale Struktur auf die Erfahrungsumgebung anpassen.
2.2 Merkmalsextraktion im Neuronalen Netz
Die wesentliche Aussage des vorangegangen Abschnitts besteht darin, dass sich
in biologischen Systemen die Netzstruktur durch Erfahrung entscheidend verändert. Dieser Gedanke soll für das vorliegende Problem übernommen werden. Die
theoretisch zugängliche Information, welche Neuronen welche Merkmale kodieren,
soll in dieser Arbeit nicht im Sinne einer Vorverschaltung ausgenutzt werden, die
unterschiedliche Merkmale von vornherein in gesonderten Teilnetzen verarbeitet.
Statt dessen sind am Beginn des Trainings keine Neuronen vor anderen ausgezeichnet, insbesondere gibt es keine Nachbahrschaftsbeziehungen zwischen den
Neuronen. Diese Behandlung hat Vorteile:
1. Man kann für das gesamte Netz eine einzige Lernregel denieren.
2. Die Separation ndet nicht statt, wenn die Merkmale redundant (also nur
in festen Kombinationen) auftreten, was für die Klassikationsfähigkeit des
Netzes vorteilhaft sein könnte. In diesem Fall assoziieren die Merkmale, und
ein Merkmalspaar ist damit nur eine Verlängerung der Darstellung durch
ein einzelnes Merkmal. Die Nicht-Abkopplung des Teilnetzes ist damit auch
ein Kriterium zur Aundung von unabhängig auftretenden Merkmalen, was
8
zum Beispiel für eine eziente sprachliche Kodierung der Information dienen
könnte.
3. Das Netz ist exibler einsetzbar und würde seine Fähigkeiten auch dort zeigen können, wo Informationen über die Anzahl unabhängiger Merkmale nicht
einfach zugänglich ist. Das Hopeldnetz kann z.B. Teil einer komplexeren
Archtitektur sein kann, die auch Vektorquantisierer einschlieÿt. Diese werden
benutzt, um den Merkmalsraum zu verkleinern. Welche Merkmale allerdings
von Bedeutung sind, in welcher Kombination diese auftreten können und in
welchen Neuronen der Ausgabeschicht diese kodiert werden, ist nicht unbedingt bekannt. Eine Selbstorganisation des Netzes bzw. eine Strukturierung,
die durch reinforcement learning unterstützt ist, kann dem Abhilfe schaen.
Ungeachtet der prinzipiellen Flexibilität konzentriert sich diese Arbeit auf das Ziel
der Abkopplung von merkmalskodierenden Netzen. Dieses spezielle Ziel ist allerdings eine Folge der Beschaenheit der Trainingsmengen, die eine solche Struktur
erfordern. Alle verwendeten Methoden halten für Netze in anderem Trainingsumfeld die oben beschriebenen Möglichkeiten oen.
2.3 Zusammenhang mit anderen Arbeiten zu Hopeldnetzen
Die Zahl der Arbeiten zu dieser Netzarchitektur ist seit dem Artikel von John
Hopeld [9] auf eine groÿe Zahl angewachsen. Im Vordergrund dieser Arbeiten
steht zumeist eine Erhöhung der Speicherkapazität, Vergröÿerung der Einzugsbereiche für das assoziative Ansteuern von Zielmustern und ähnliche Optimierungen
des ursprünglichen Modells. Als Beispiel dafür sei hier [10] genannt. Ebenso befassen sich die Arbeiten von Löwe mit der Erhöhung der Speicherkapazität, wenn
die Korrelation der Datenseiten Markov-Prozessen unterliegt, was besonders bei
Zeitreihen häug auftritt[13]. Für die Erhöhung der Speicherkapazität kann auch
eine Veränderung der Eingabefunktion selbst sorgen [5], die das Zielmuster exponentiell statt linear gegenüber den anderen Mustern begünstigt. Die oentsichtlichen Nachteile einiger der erwähnten Verfahren zur Speichervergröÿerung, beispielsweise Nicht-Lokalität (die Methode der Pseudo-Inversen beispielsweise beinhaltet die Evaluierung des gesamten Netzes zur Berechnung des Gewichtes zwischen zwei Neuronen; diese Nicht-Lokalität macht Hardware-Implementationen
schwieriger und verringert die biologische Plausibilität), können umgangen werden. So gibt es auch lokale Verfahren, die die Pseudo-Inverse berechnen können [4].
Auch Merkmalskombinatorik kann die Speicherezienz erhöhen, da die Speichergröÿe selbst in optimierten Netzen bestenfalls linear mit der Netzgröÿe wächst,
während jene im Falle unabhängiger Einzelnetze exponentiell ansteigt. Andererseits geht die Zielsetzung in eine andere Richtung, nämlich in die einer Erhöhung
9
der Rekonstruktionsfähigkeit einzelner erlernter Muster trotz deren Korrelation.
Da parallel zur Merkmalskombinatorik auch Begrisbildung (im nächsten Kapitel deniert) stattndet und diese auf Informationsreduktion basiert, die unter dem Standard-Hopeld-Modell stattndet, ohne dass ein äuÿerer Lehrer den
Begri vorgibt, wird auch zum Zweck der Merkmalskombinatorik möglichst nahe bei dem ursprünglichen Modell verblieben. Das Ziel der Merkmalsextraktion
scheint im Widerspruch zur Verwendung eines einschichtigen rekurrenten Netzes,
wie es das Hopeldnetz darstellt, zu stehen, da die Aundung von Merkmalen
normalerweise zur Informationsreduktion betrieben wird, etwa um die Information anschlieÿend ezienter zu übermitteln. Es ist allerdings zur Modellierung
von künstlicher Intelligenz interessanter, die Information aktiv und in vollem
Umfang im Netz zu halten, anstatt sie an wenige klassizierende Neuronen zu
deligieren, da die Information in diesen Neuronen dann immer noch interpretiert
werden muss. Neben der oben erwähnten Anwendung von Hopeldnetzen als Assoziativspeicher gibt es die der Optimierungsprobleme, deren bekannteste das
Travelling-Salesman-Problem und das Min- (bzw. Max-) Cut-Problem sind
([11], [17]). Das Min-Cut-Problem stellt die Aufgabe, ein Netz in zwei Bereiche
aufzuteilen, wobei die Verbindungsstärke, die zwischen Neuronen verschiedener
Bereiche verlaufen, minimal werden soll. Das Problem wird durch die Relaxation
der Energiefunktion des Netzes gelöst. Wenn in beiden Bereichen gleich viele Neuronen liegen sollen, schreibt die Nebenbedingung konstante globale Aktivität vor,
und die Energiefunktion des Netzes erhält einen Bestrafungsterm, der bei NichtErfüllung der Nebenbedingung den Funktionswert erhöht. Sind die Vorzeichen der
Verbindungen alle positiv (kann bei den meisten Problemen so deniert werden),
so liefern zwei Neuronen mit unterschiedlich vorgezeichneter Aktivität die gröÿten Beiträge zur Energiefunktion; aus diesem Grund versucht das Netz, während
der Relaxation möglichst groÿe Gruppen von Neuronen mit hohen Verbindungsgewichten zusammenzufassen. In dieser Hinsicht kann man wieder Vergleiche zur
Zielsetzung dieser Arbeit ziehen, deren Ziel (bei unabhängigen Merkmalen) eine
Minimierung der Wechselwirkung zwischen Teilnetzen ist. Der entscheidende Unterschied besteht allerdings darin, dass das Optimierungsproblem kein adaptives
ist, d.h. die Verbindungsgewichte des Netzes, das die Lösung des Problems nden
soll, sind festgelegt. Der Prozess der Optimierung bezieht sich auf das Aunden des günstigsten energetischen Zustandes des Netzes, nicht jedoch auf eine
optimale Gewichtekonguration.
10
Kapitel 3
Hopeld-Netze und Begrisbildung
Ein Hopeldnetz ist eine rekurrente Netzwerkarchitektur, bei der alle Neuronen
prinzipiell miteinander verbunden sein können (wie stark diese Verbindungen
dann tatsächlich sind, wird durch das Training bestimmt). Die notwendigen Bedingungen, die an die Gewichte gestellt werden, sind die folgenden:
wii = 0
wij = wji
(3.1)
(3.2)
Dabei bedeuten die w's die Gewichte der Neuronenverbindungen. Die am häugsten verwendete Lernregel, die den obigen beiden Bedingungen unterliegt, ist
eine spezielle Form der Hebb'schen Regel:
wij = 1/N
p
X
ξiµ ξjµ
(3.3)
µ=1
wobei ξiµ das Eingabemuster bezeichnet. Der Erregungszutand (oder kurz Zustand) S eines Neurons nimmt im Standard-Hopeld-Modell die Zustände 1 oder
-1 an. N bezeichnet die Anzahl der Neuronen des Netzes. Die Eingabefunktion
ist wie bei vielen Anwendungen neuronaler Netze:
hi (Sj ) =
N
X
wij Sj
(3.4)
j
Als Aktivierungs- wird die die Signumfunktion benutzt. Diese bestimmt den Zustand Si des aktualisierten Neurons:
Si = sgn(hi )
(3.5)
In ähnlichen Architekturen werden sigmoide Funktionen als Aktivierungsfunktion
verwendet, allerdings bilden diese auf kontinuierliche Werte ab, die nach dem
Ising-Modell und damit für das Standard-Hopeld-Modell nicht möglich sind.
11
Abbildung 3.1: Schema der Architektur des Hopeldnetzes, hier ein Beispiel mit
4 Neuronen (Bild nach [20])
3.1 Crosstalk eines Musters
In manchen Fällen ist es für die Vorhersage des Netzverhaltens praktisch, die Formeln (3.3) und (3.4) zu kombinieren und dadurch die Netzeingabe nach Beiträgen
der Trainingsmuster zu ordnen:
N
N X
P
X
X
ν ν
ξjµ ξiµ Sj )
hi = 1/N (
ξj ξi Sj +
j
j
(3.6)
µ6=ν
Mittels dieser Betrachtungsweise ist es beispielsweise leicht einzusehen, warum
einzelne Zufallsmuster Fixpunkte des Systems darstellen. Da binäre Zufallsmuster
bei groÿer Neuronenzahl relativ zueinander nahe der Orthogonalität liegen, ist
der Beitrag des zweiten Summanden, des sogenannten Crosstalk-Terms) nahe bei
Null. Erst bei überladenem Netz läuft der Hauptbeitrag des ersten Summanden
Gefahr, an irgendeiner Stelle i des Netzes in seinem Vorzeichen (entscheidet über
den Funktionswert der Signum-Funktion) vom Störterm geändert zu werden. Die
Fixpunktbedingung lautet, dass bei Eingabe des Musters ξiν gilt:
sgn(hνi (ξiν )) = ξiν ∀ i
12
(3.7)
Unter Verwendung von (3.6):
hνi (ξiν ) = ξiν +
1 XX µ µ ν
ξ ξ ξ
N j µ6=ν i j j
(3.8)
Um ein vorzeichenunabhängiges Kriterium für die Fixpunkteigenschaft eines Musters zu erhalten, multipliziert man den Crosstalk-Term mit −ξiν ; die Bedingung
lautet dann, dass für alle Bits des Musters gilt:
Ciν ≡ −ξiν
1 XX µ µ ν
ξ ξ ξ <1
N j µ6=ν i j j
(3.9)
3.2 Cohen-Grossberg-Theorem
Alle in der Arbeit benutzten Lernregeln erfüllen das folgende, wichtige Theorem:
Theorem 1 Rekurrente Netze sind stabil, wenn die Gewichtsmatrix W = (wij )
symmetrisch ist mit Nullen in der Hauptdiagonalen.
(nachzulesen z.B. in [20]) Der Begri der Stabilität bezieht sich hier auf die
Dynamik des Netzes, d.h. nach endlich vielen Schritten ändert beliebig oft wiederholtes Anwenden von (3.5) den Zustand des Netzes nicht mehr. Die Strukturbedingung ist dabei oensichtlich für das Hopeldnetz erfüllt, wenn dieses unter
der Hebb'schen Lernregel betrieben wird. Die Bedingung, die durch das Theorem gegeben wird, ist hinreichend, nicht notwendig. Es gibt auch Anwendungen,
in denen vom Hopeld-System gesprochen wird, die aber gegen das SymmetriePrinzip verstoÿen. Dennoch können auch solche Netze stabile Zustände liefern,
wenn sie als Musterspeicher benutzt werden(z.B. [10]). Aber auch unter Wahrung
der Symmetriebedingung ist weiterhin erforderlich, dass die Dynamik des Netzes
asynchron funktioniert. Das bedeutet, dass pro Zeitschritt höchstens ein (zufällig
gewähltes) Neuron aktualisiert, d.h. Netzeingabe und Aktivierung für dieses Neuron berechnet wird. Im Gegensatz dazu legt das synchrone Verfahren für jedes
Neuron dasselbe Eingabemuster zugrunde und berechnet dann die neuronspezische Eingabe (3.4). Man kann unter Aktualisierung des gesamten Netzes in
einem Zeitschritt Oszillationen zwischen zwei energetisch gleichwertigen Zuständen am einfachsten beobachten, wenn man ein einzelnes Muster anti-hebb'sch
lernt (wij = −ξi ξj anstatt wij = ξi ξj ) und dann die Dynamik des Netzes mit
dem Muster selbst als Eingabe startet. Der Netzzustand oszilliert dann zwischen
dem Muster und seinem Inversen. In asynchron aktualisierten Netzes ist so etwas ausgeschlossen. Eine weitere Einschränkung des Theorems besteht darin,
dass sich die Aussage für t → ∞ nur auf deterministische Netze beziehen kann.
In stochastischen Netzen, in denen eine sogenannte Pseudotemperatur einen ordnungsstörenden Parameter modelliert, ist stets möglich, dass eine genügend groÿe
Anzahl von Neuronen ihren Aktivierungszustand invertieren, so dass das Netz in
13
einen Attraktor läuft, der einem anderen Zustand zugeordnet ist. Für diese Netze lautet die Aussage des Theorems dann: für eine hinreichend groÿe Zeit stabil.
Diese Arbeit geht zunächst von der Hebb'schen Lernregel aus und beachtet auch
unter Erweiterung der Lernregel unter Berücksichtigung von Elementen des Bestärkenden Lernens die Symmetrie-Bedingung, so dass chaotische und periodische
Lösungen der Dynamik ausgeschlossen sind.
3.3 Lokalität einer Lernregel
Lokalität einer Lernregel ist ein Kriterium, dass besonders in bezug auf Hardwareimplementierung von neuronalen Netzen und zum Zwecke der Modellierung
biologischer Netzwerke erfüllt sein sollte. Es besagt, dass die Veränderung der Gewichte zwischen zwei Neuronen nur von ihren Aktivierungszuständen und nicht
von denen anderer Neuronen abhängig sein sollte. Die Hebb'sche Lernregel ist ein
Beispiel für eine lokale Lernregel.
3.4 Fixpunkte des Systems
Die theoretische Behandlung neuronaler Netze wird erleichtert, wenn man sich
Erkenntnisse aus anderen Bereichen der Physik, in denen auch Systeme mit vielen
Elementen behandelt werden, zunutze machen kann. Die Nutzung der Methoden
der statistischen Mechanik bedingt die Existenz einer Energiefunktion, die im
Falle symmetrischer Verbindungsgewichte (wij = wji ) für das Hopeld-System
formuliert werden kann:
N
1X
Hα = −
wij Si Sj
(3.10)
2 i,j
α bezeichnet dabei eine spezielle Konguration der Zustände Si = ±1, für die
es (in binären Netzen) dann 2N verschiedene Möglichkeiten gibt. Dass die Symmetrie der Gewichtsverbindungen die Bedingung für einen Gradientenabstieg der
Dynamik entlang einer Energiefunktion ist, kann man sich einfach plausibel machen. Wird ein einzelnes Neuron aktualisiert und ändert es dabei sein Vorzeichen,
ändert sich auch der Wert der Energiefunktion. Da bei der Berechnung der Eingabe (3.4) nur die auf das Neuron hin verlaufenden Verbindungen, nicht aber die
vom Neuron ausgehenden, berücksichtigt werden, kann man nicht davon ausgehen, dass die Beiträge zur Energiefunktion, die durch die Wechselwirkung von
zwei Neuronen entlang dieser ausgehenden Verbindungen bestehen, nicht einen
stärkeren Beitrag im Sinne einer Energieerhöhung leisten. Bei Gewichtssymmetrie geht die Information über die Stärke der abgehenden Verbindungen dagegen
nicht verloren.
Gleichung (3.10) beschreibt die Energie des Netzes nach den mikroskopischen
Gröÿen Si . Da das Neuronale Netz als Vielteilchensystem beschrieben werden
14
soll, muss man makroskopische Gröÿen angeben können, die ebenso die Energie
beschreiben. Mit der Wahl von
1 X µ
mµ =
ξ Si
(3.11)
N i i
als Ordnungsparameter, die den Überlapp des Systemzustandes mit dem abgespeicherten Muster mit Nummer µ beschreiben, läÿt sich die Hamilton-Funktion
ebenfalls formulieren:
P
1 X µ 2
H=− N
(m ) .
(3.12)
2 µ=1
(siehe z. B. [2]) Es werden nun kurz die Mean-Field-Gleichungen für diese Ordnungsparameter hergeleitet. Mit ihnen kann man die erwarteten Fixpunkte des
Systems berechnen. Der Formalismus geht dabei von der stochastischen Variante der Hopeld-Netze, die als Boltzmann-Maschinen bezeichnet werden, aus. Da
man in stochastischen Systemen ordnungsstörende Parameter braucht, werden
die Pseudo-Temperatur T und β = 1/T eingeführt. Im Fall binärer Aktivierungswerte kann die Wahrscheinlichkeit für die Zustände 1 bzw. -1 so ausgedrückt
werden:
1
P (Si = ±1) =
(3.13)
1 + exp(∓2βhi )
Der Parameter β regelt dabei die Steilheit des Anstiegs der Funktion im Ursprung. Läuft β → ∞, geht das System in das deterministische über, das damit
ein Grenzfall des stochastischen Modells darstellt. Den Übergang β → ∞ kann
man nach Aufstellen der Gleichungen für die Ordnungsparameter vollziehen, um
die erwarteten Zustände des Netzes zu berechnen. Die Herleitung aller folgenden Gleichungen einschlieÿlich (3.29) kann auch in [1] oder [7] nachgelesen werden, die Gleichungen werden deshalb nicht einzeln zitiert. Für die Herleitung der
Mean-Field-Gleichungen wird zunächst eine Boltzmann-Verteilung der möglichen
Zustände α angenommen:
1
−Hα
exp(
)
Z
kB T
X
−Hα
)(Z = Zustandssumme)
Z =
exp(
kB T
α
pα =
(3.14)
(3.15)
Die freie Energie ergibt sich durch Bildung des natürlichen Logarithmus aus der
Zustandssumme:
F = −T ln Z
Aus der freien Energie als thermodynamischem Potential ergeben sich durch
die entsprechenden partiellen Ableitungen die interessanten Messgröÿen wie etwa
die durchschnittliche Korrelation zweier Neuronenzustände durch die Ableitung
15
nach dem Gewichtsfaktor zwischen den beiden Neuronen. Die Summe über alle
möglichen Kombinationen, in [7] als Spur bezeichnet, stellt das Hauptproblem bei
der Berechnung der Zustandssumme dar. Für den Fall, dass die Neuronenzahl und
die Zahl der rekonstruierbaren Muster auf unterschiedlichen Mengenskalen liegen,
benutzt man zur Berechnung ein Hilfsintegral und die Sattelpunkt-Methode. Man
geht bei dem Verfahren von folgender Darstellung der Energiefunktion aus:
P
X X µ
1 XX
H=− N
(
Si ξiµ )2 + P/2 −
hµ
ξi Si
2
µ
µ
i
i
(3.16)
Dies ergibt eingesetzt in (3.15), wenn T rS die Summe über alle möglichen Zustände von Si bezeichnet:
Z = eβP/2 T rS exp(
X X µ
β XX
(
Si ξiµ )2 + β
hµ
ξi Si )
2N µ i
µ
i
(3.17)
Die quadratischen Anteile im Exponenten machen die Berechnung der Spur schwierig. Über die Identität:
Z ∞
p
2
2
dxe−ax ±bx = π/aeb /4a
(3.18)
−∞
können diese auf Kosten der Einführung eines Integrals über P (=Anzahl der
Muster) Hilfsgröÿen eliminiert werden. Über einige Umformungen erhält Z die
Gestalt:
Z
βN P/2
~
Z=(
)
dme
~ βN f (β,m)
(3.19)
2π
Hier tauchen die Vektoren m
~ zunächst als mathematische Hilfsgröÿen auf. Weiter
unten wird dann klar, dass eine Identizierung mit dem Muster-Überlapp möglich
ist. Das Integral kann nun über die Sattel-Punkt-Methode ausgewertet werden.
Dieses Verfahren beruht auf einer Taylor-Entwicklung
der Funktion g(x) an der
R
−Kg(x)
Stelle des Minimums in Integralen der Form dxe
, wobei nach dem quadratischen Glied der Entwicklung abgebrochen wird. Die Genauigkeit der Näherung
wird durch die Gröÿe des Parameters K bestimmt; im vorliegenden Fall rechtfertigen ein groÿes N (Netzgröÿe) und groÿes β (Kehrwert der Pseudo-Temperatur)
die Näherung. Damit kann im Limes groÿer Neuronenzahlen (bei endlicher Musterzahl) die freie Energie pro Neuron so dargestellt werden:
F/N = −
1
log Z = β min f (β, m)
~
m
~
N
(3.20)
Die Sattel-Punkte ndet man über:
0=
1 X µ
df
µ
=
m
−
ξ tanh[β(m
~ + ~h)ξi ]
dmµ
N i i
16
(3.21)
Das Scharmittel (3.21) über alle Neuronen wird jetzt als Zeitmittel (oder MeanField-Gleichung) hingeschrieben:
mµ = hhξ µ tanh[β(m
~ + ~h)ξ]ii
(3.22)
Ebenso gibt es eine Mean-Field-Gleichung für die freie Energie:
1 2
f= m
~ − β −1 hhln(2 cosh[β(m
~ + ~h)ξ])ii
2
(3.23)
Um Lösungsansätze für die selbstkonsistente Gleichung (3.22) angeben zu können,
muss jetzt die Hilfsgröÿe m
~ identiziert werden. Leitet man in (3.15) Z nach hµ
ab, wobei der Ausdruck für die Energiefunktion (3.16) eingesetzt werden muss,
erhält man:
X
dF
−1 d ln Z
=
−β
=
−
hhSi iiξiµ
(3.24)
µ
µ
dh
dh
i
Weitere Ausdrücke für die partielle Ableitung der freien Energie nach hµ liefern
(3.20) und (3.21):
dF
df
~ = −N mµ
=
N
= −N hhξ µ tanh[β(m
~ + ~h)ξ]ii
(3.25)
µ
µ
dh
h
Damit ist es jetzt möglich, die ursprünglich nur als mathematische Hilfsgröÿen
eingeführten Vektoren m
~ als die wichtige Gröÿe des mittleren Überlapps des
Systemzustandes mit den abgespeicherten Mustern zu identizieren:
1 X µ
mµ =
ξ hhSi ii
(3.26)
N i i
Nun kann man die zu mathematischen Ableitungszwecken eingeführten äuÿeren
Feldgroÿen hµ gleich Null setzen (da äuÿere Felder die Iteration eines Hopeldnetzes nicht beeinussen sollen) und erhält dann die Gleichung, die als Kriterium
zur Aundung stabiler Zustände dient:
~
mµ = hhξ µ tanh(β m
~ ξ)ii
(3.27)
Lösungsansätze, die stabile Zustände des Netzes beschreiben sollen, müssen diese
Gleichung im Sinne einer Selbstkonsistenz erfüllen. Im Falle mehrerer abgespeicherter, unkorrelierter Einzelmuster, deren Anzahl unterhalb der Speichergrenze
liegt, haben die wichtigsten Lösungen die Form:
m
~ = (0, 0, ..., mµ , ..., 0),
{z
}
|
(3.28)
m6=0 an der Stelle µ
was bedeutet, dass nur der Überlapp mit dem Zielmuster mit der Nummer µ von
der Gröÿe m ist, während die anderen den Überlapp 0 mit dem System haben.
Der Ansatz für m
~ , eingesetzt in (3.22) ergibt:
mµ = hhξ µ tanh βmξ i ii = hhξ µ ξ i ii tanh(βm) = δµi tanh(βm)
17
Der letzte Umformungsschritt ergibt sich durch die Unkorreliertheit der Muster, wenn Zufallsmuster verwendet werden. Man kann anhand der Mean-FieldGleichung also zeigen, dass die Lösung die angegebene Form hat und ein ausgezeichnetes, stabiles Zielmuster existiert. Natürlich muÿ die übriggebliebene skalare Gleichung:
m = tanh(βm),
(3.29)
die die Stärke des Überlapps mit dem Zielmuster angibt, noch gelöst werden.
Durch den Einuss des Parameters β wird der Überlapp stets etwas unterhalb
von 1 liegen, hier spiegelt sich der ordnungsstörende Einuss der Temperatur in
stochastischen Netzen wieder.
3.5 Begrisbildung
Man kann im Hopeldnetz eine Form von Begrisbildung erreichen, indem man
eine Reihe von Beispielsvektoren ableitet, die gegenüber einem zugehörigen Begrisvektor an zufällig gewählten Stellen Verrauschungen zeigen und damit unvollkommene Abbilder ihres Begris darstellen. Das Hopeldnetz kann die Zugehörigkeit zu einem Begri erkennen und zeigt bei Eingabe eines Beispielmusters
den zugehörigen Begri. Dieser Prozess wird ermöglicht durch die Ähnlichkeit
der Beispiele, die zu einer schnellen Speicherüberlastung des Netzes führt. Der
Punkt der Speicherüberlastung des Netzes ist erreicht, wenn aufgrund der zu
hohen Anzahl der Trainingsmuster diese nicht mehr vom Netz rekonstruiert werden können. Im Falle der Ableitung von Beispielen aus einem Begri kommt es
dann automatisch zu der gewünschten Informationsreduktion, bei der die Begrie
übrigbleiben. Das Netz abstrahiert die Begrie aus den Beispielen (siehe Abbildung). Näheres zur Begrisbildung kann man in [12] nachlesen.
Die Begrie X sind in allen folgenden Messungen durch Zufallsmuster repräsentiert, die mit gleicher Wahrscheinlichkeit an jeder Stelle 1 oder -1 zeigen. Die
Trainingsmuster (=Beispiele) werden erzeugt durch die Anwendung der Verrauschungsmatrizen, die auf der Diagonale mit der Wahscheinlichkeit d eine -1 zeigen,
was zu einer Invertierung der entsprechenden Stelle im Begrisvektor führt:
ξiµβ = Riµβ Xiβ
(3.30)
µ = Beispielsindex, β = Begrisindex, i = Neuronenindex. Als wichtigstes Ergebnis aus [12] ist festzuhalten, dass es eine untere Grenze für die Anzahl der
Trainingsmuster gibt, die in Form der Beispiele ins Netz eingespeist werden müssen. Bei geringer Verrauschung werden drei Beispiele benötigt, um bei Eingabe
eines Beispiels den Begri zu erhalten. Bei steigendem Rauschlevel erhöht sich die
Anzahl benötigten Trainingsbeispiele. Werden die Begrie selbst als Zufallsmuster erzeugt, beeinussen diese sich gegenseitig nicht, wenn ihre Anzahl unterhalb
der Speichergrenze für Zufallsmuster liegt.
18
Abbildung 3.2: Beispiel für eine Begrisbildung. Liegt die Menge der Beispielsmuster für einen Begri über der vom Rauschlevel abhängigen Grenze, werden
die Beispiele mit dem zugehörigen Begri assoziiert
19
Kapitel 4
Merkmalsextraktion in der
Agentensimulation
Die folgenden Messungen, insbesondere die Messungen zum Bestärkenden Lernen, sind vom Konzept her nicht zu verstehen, wenn nicht kurz die Anwendung,
der sie letztlich dienen sollen, erläutert wird. Das Anwendungsszenario ist dabei das folgende: Agenten Einheiten, die z.B. in Form von Robotern realisiert
werden können bewegen sich in einer Umgebung, in der sie auf Objekte treffen. Jedem Agenten wird ein Neuronales Netz zugeordnet, das die Erfahrung
des Agenten in seiner Umgebung abspeichert. Die Objekte werden dargestellt
durch Muster und sollen die Eigenschaften haben, unterschiedliche Rückgabewerte (Belohnungs- bzw. Bestrafungswerte), abhängig von ihrer Klassizierung, zu
erteilen. Die Klassizierbarkeit der Objekte beruht darauf, dass ihre Muster von
gemeinsamen Begrien abgeleitet sind und das Hopeld-Netz in diesem Fall automatisch eine Begrisbildung vollzieht. Nach einer Vorphase, in der die Objekte
bzw. Muster nach der Hebb'schen Regel einfach gelernt werden, gehen die Agenten in einen Zustand über, in dem die nächsten angetroenen Muster gleichzeitig
Trainings- und Testmuster sind, wobei abhängig von Erfolg oder Nicht-Erfolg der
Klassizierung aufgrund des bisherigen Wissens ein Belohnungswert bzw. Bestrafungswert an den Agenten zurückgegeben wird. Die Idee dieser Vorgehensweise
ist, dass sich an die richtige Klassizierung eine passende Reaktion der Agenten
anschlieÿt, während die falsche Einordnung eine unpassende Reaktion nach sich
zieht, die bestraft wird. Der Vorteil, in ein solches System Neuronale Netze einzubinden, anstatt komplett auf der symbolischen Ebene zu programmieren, besteht
darin, dass über die automatisch auftretenden Eekte von Begrisbildung und
Kombinatorik den Agenten keine wohldenierte Repräsentation der Umgebung
mitgegeben werden muss; dies geschieht im Netz durch das Training. Gelingt
die Klassizierung (Begrisbildung) der Objekte inklusive der Merkmalskombinatorik, so können die sich daran anschlieÿenden Aktionen auf der symbolischen
Ebene programmiert verarbeitet werden.
Die Sinnhaftigkeit des Verhaltens der Agenten beruht stufenweise auf den Fähig20
keiten
Begrisbildung
Begris- bzw. Merkmalskombinatorik
Kommunikation mit Hilfe der Begrie
Ein beispielhafter Ablauf könnte so aussehen: Eine Anzahl von Agenten wird
in eine Umgebung entlassen. Jeder Agent erkundet sein Umfeld zunächst unabhängig von den anderen. Er beginnt, zu verschiedenen Objekten nach visuellen
Kriterien Begrie zu bilden. Das ermöglicht ihm, etwa zwischen Objekten, denen
er ausweichen muss und solchen, die er beiseite schieben kann, zu unterscheiden.
Nimmt er Messdaten verschiedener physikalischer Herkunft auf, kann er anschlieÿend dazu übergehen, Merkmale an Objekten festzustellen, die die jeweilige Bedeutung nuancieren können. Der Agent könnte beispielsweise rot als Gefahr zu
interpretieren lernen. Es ist denkbar, dass die Agenten selbst diese Farbe haben,
da es aufgrund der Bewegung beider Beteiligten einer Begegnung zu einem Unfall kommen kann. Ob die Messdaten unterschiedlicher Herkunft als unabhängige
Merkmale von Objekten festgestellt werden, hängt von der Art der Erfahrung,
nämlich der Kombinatorik des Auftretens der Merkmale selbst ab. Ein Erkundungsroboter, der Eisengehalt und Magnetisierbarkeit von Gesteinsproben misst,
würde keine Unabhängigkeit dieser Merkmale entdecken, sondern sie miteinander assoziieren. Existieren aber unabhängige Merkmale, wird die Kommunikation
der Agenten um entscheidende Möglichkeiten erweitert, wie man am nächsten
Schritt der Entwicklung sieht. Die Agenten sollen jetzt ihre Erfahrungen austauschen können, um den Wissenschatz anderer Agenten aufzustocken. Dank der
Begrisbildung ist es möglich, dass die Kategorie eines Objektes übermittelt werden kann, ohne dass das Beispiel selbst dem anderen Agenten bekannt sein oder
beschrieben werden muss. Entscheidend ist nur die Bedeutung des Objektes, die
der Agent aufgrund seiner Primärerfahrung mit den einzelnen Beispielen kennt.
Die Merkmalskombinatorik bietet darüber hinaus die Möglichkeit, Wissen um
ein Objekt zu übermitteln, dessen einzelne Merkmale einem anderen Agenten
bekannt sind. Obwohl die Kombination bei diesem noch nicht auftrat, kann er
unter Umständen mit dem übermittelten Wissen etwas anfangen. Voraussetzung
für ein Gelingen der Kommunikation ist natürlich, dass die sprachlichen Etikette
eines Begris übereinstimmen, damit die Agenten nicht aneinander vorbeireden.
Das Neuronale Netz selbst stellt in diesem Kontext somit das Basiselement- das
Objektwissen- der Agenten dar. Alle weiteren Aufsätze, seien es explizite Steuerelemente oder weitere Netzschichten, können auf diese Basis aufgesetzt werden.
21
Kapitel 5
Bestärkendes Lernen und seine
Anwendung auf das vorliegende
Lernproblem
Beim Bestärkenden Lernen handelt es sich um einen Sammelbegri für verschiedene Lernverfahren, die zwischen dem überwachten und unüberwachten Lernen
stehen. Vom unüberwachten Lernen spricht man, wenn auÿer den Trainingsmustern selbst dem Netz keinerlei Information dargeboten werden. Überwachtes Lernen besagt, dass zu einem gegebenen Trainingsmuster die Information über eine
gewünschte Sollausgabe vorliegt und die Ausgabe des Netzes dieser angeglichen
wird. Dies wird bei mehrstugen Netzen meist über ein Gradientenabstiegsverfahren erreicht. Auch bei der Verwendung des Hopeldnetzes als Autoassioziativspeicher wird von überwachtem Lernen gesprochen, da die Information über
die Sollausgabe in der Eingabe, also dem zu speichernden Muster selbst, liegt.
Dieser Sonderfall des überwachten Lernens wird als selbstüberwacht bezeichnet. Da das Ziel der einfachen Autoassoziation im Rahmen der Begrisbildung
aufgegeben wird, muss diese Kategorisierung des Hopeldnetzes aber nicht beibehalten werden. Den verschiedenen Formen, Bestärkendes Lernen umzusetzen,
ist gemein, dass der Agent eine Rückmeldung über seine Aktion (bzw. Ausgabe) erhält, die in einem Zahlenwert besteht. Ein positiver Wert belohnt das Netz
für seine Entscheidung, während ein negativer Rückgabewert eine Anpassung des
Verhaltens erfordert. Im Modell des Bestärkenden Lernens gehört zum Begri
des Agenten die (im Allgemeinen begrenzte Information) über die Umgebung
und seine bisherige Erfahrung, die er bei zukünftigen Entscheidungen zugrunde
legt. Die Umgebung ist das gesamte Komplement, das das Modell auszeichnet
bei Hardware-Implementationen sogar die Sensorik, über die der Agent die
Information über die Umgebung erhält (siehe hierzu [19]).Zu wesentlichen Fallunterscheidungen, die beim Bestärkenden Lernen zu beachten sind, gehören:
• stationäre/ nicht-stationäre Umgebung
22
Zustand s(t)
Agent
Reward r(t)
r(t+1)
Aktion a(t)
Umgebung
s(t+1)
Abbildung 5.1: Schema des Zusammenspiels von Agent und Umgebung beim
Bestärkenden Lernen (Bild nach [19])
• stochastische/deterministische Vergabe der Rückgabewerte
• markov'sche/nicht-markov'sche Umgebung (Zustand und Aktion zur Zeit t
beeinussen den Zustand zur Zeit t + 1)
In den folgenden Betrachtungen besteht die Lernaufgabe für das Netz im Lernen
von Begrien mit Merkmalskombinationen und in deren korrekter Klassikation.
Die Umgebung kann beschrieben werden als eine rein stochastische ohne Gedächtnis (keine Übergangswahrscheinlichkeiten von einer Lernsituation zur nächsten,
also ein nicht-markov'sches System). Sie ist insofern stationär, als die Klassikationsziele sich mit der Zeit nicht verändern; der Reward für eine Netzausgabe
erfolgt deterministisch.
5.1 Erweiterungen der Hebb'schen Lernregel
Um die Abkopplung der Netze, die Nebenmerkmale kombinieren, durch Bestärkendes Lernen voranzutreiben, wird das ursprüngliche Hopeld-System jetzt erweitert. Man muss an dieser Stelle erwähnen, dass nicht nur die veränderte Lernregel das System verändert, sondern auch die Vermischung von Lern- und Testphase, die das Bestärkende Lernen notwendigerweise mit sich bringt, bei dieser
Architektur unüblich sind. Um das Ziel der Merkmalskombinatorik über eine Ausbildung von merkmalsverarbeitenden Teilnetzen näherzukommen, werden drei
unterschiedliche Erweiterungen vorgestellt und miteinander verglichen. Kapitel
3 behandelt die Theorie zu Netzen, die mit der Hebb'schen Lernregel trainiert
wurden. Nach der Manipulierung der Lernregel ist der Formalismus in jener Form
nicht mehr anwendbar. Um trotzdem einen Anhaltspunkt für Erweiterungen der
23
Hebb'schen Lernregel zu gewinnen, die es dem Netz ermöglichen, verschiedene
Merkmale zu erkennen, kann man von folgender Überlegung ausgehen: Ist die
Verbindungsstärke der Gewichte innerhalb des Teilnetzes gröÿer als die der Verbindungen zwischen den Netzen, so wird der Zustand des Teilnetzes allein durch
die Ähnlichkeit der Eingabe mit dem Merkmal, nicht jedoch durch den Zustand
auÿerhalb des Teilnetzes bestimmt. Sei w1 das durchschnittliche Verbindungsgewicht innerhalb des kleineren Teilnetzes, w2 das durchschnittliche Verbindungsgewicht zwischen dem Teilnetz und dem Restnetz, dann muss gelten:
w1 gN > w2 (1 − g)N
(5.1)
Eine einfache Rechnung zeigt, dass dieses Kriterium, angewandt auf den entsprechenden Fall, dem in Abschnitt 6.2 gefundenen entspricht (siehe Anhang,
Rechnung 2). Die beiden Lernregeln RL1 und RL2 , die im Folgenden vorgestellt werden, gehen von dieser Überlegung aus und forcieren die Schwächung der
Verbindungen zischen den Netzteilen.
5.1.1 Lernregel 1 (selektives Lernen)
Bei einer Vermischung von Test- und Trainingsphase besteht das prinzipielle Problem, dass Verbindungen über alle Grenzen wachsen können. Eine einfache und
für unsere Zwecke zugleich sinnvolle Möglichkeit besteht darin, nur dann Muster nachzutrainieren (über die einfache Hebb'sche Regel: wij = ξi ξj ), wenn die
Klassikation nicht erfolgreich war. Im Kontext der Agentensimulation würde ein
solches Vorgehen dazu führen, dass der Agent automatisch die ungleich gestalteten Trainingsmusterverhältnisse für sich korrigiert, d.h. Netztrennung ermöglich
und zugleich das Problem des unbegrenzten Lernens löst.
5.1.2 Lernregel 2 (RL 1)
Trit der Agent, der in der Umgebung auf ein Objekt stöÿt, eine falsche Klassikationsentscheidung, an die sich eine falsche Reaktion oder gar keine Reaktion
(wenn das Objekt nicht bekannt ist) knüpft, so gibt es zwei Grundtypen von
Fehlern.
1. der dem Objekt zugrundeliegende Begri wurde noch nicht gebildet
2. die Merkmale eines Objektes werden nicht unabhängig voneinander verarbeitet
Das Hebb'sche Lernen eines Musters fördert bei ungleichmäÿig in der Trainingsmenge auftretenden Begrisausprägungen die Unabhängigkeit der Merkmale nicht
stark genug. Zu diesem Ergebnis kommen die Rechnungen und Messungen des
24
nächsten Kapitels. Die Erweiterung der Lernregel soll deshalb den Prozess der Abkopplung durch eine nach dem Hebb'schen Lernen ablaufende zusätzliche Lernphase unterstützen. In die Lernregel ieÿt der Rückgabewert der Umgebung mit
ein, wobei die Wirkung um so stärker ist, je gröÿer der Betrag des Bestrafungsterms. Für die Neuronen, die von dieser Erweiterung betroen sein sollen, muss
gelten, dass diese vermutlich verschiedene Merkmale kodieren. Als Kriterium dafür gilt der Vergleich des Zustandes zweier Neuronen vor und nach der Netziteration. Ändert das eine der beiden Neuronen sein Vorzeichen, das andere nicht,
so ist die Bedingung erfüllt und (5.3) wird angewandt. Mathematisch lässt sich
die Bedingung so formulieren (t= Zeitpunkt vor, t+1 = Zeitpunkt nach der Iteration):
Si (t) = Si (t + 1)
∨ Si (t) 6= Si (t + 1)
∧ Sj (t) 6= Sj (t + 1)
∧ Sj (t) = Sj (t + 1)
= wahr → Bedingung erfüllt
(5.2)
Die zusätzliche Gewichteänderung beträgt dann:
∆wij = |wij |f (r)
(5.3)
Die Funktion f (r) soll eine monoton steigende Funktion mit dem Wertebereich
zwischen (-1) und 1 sein, was dazu führt, dass die betragsmäÿige Schwächung
bereits vorhandener Verbindungen mit dem Betrag der Bestrafung ausgeprägter
wird. Werden, wie in Kapitel 8, die Nebenmerkmale nicht verrauscht, so ist der
Rückgabewert im Falle einer Bestrafung (-1). Die Funktion kann dann im einfachsten Fall durch eine Konstante α umgesetzt werden, die zwischen 0 und 1
liegt:
∆wij = |wij | r α
(5.4)
Dieser Regel liegt die Vermutung zugrunde, dass der Grund der Fehlklassizierung in nicht funktionstüchtiger Merkmalskombinatorik liegt. Da besonders in der
Anfangsphase die Begrie noch nicht gebildet wurden, ist es sinnvoll, eine kurze
Phase rein Hebb'schen Lernens voranzustellen. Auch darf die Funktion f (r) nicht
zu steil bzw die Konstante α nicht zu groÿ sein, da auch die Verbindungen zu
Neuronen, die Verrauschungen unterliegen, in Mitleidenschaft gezogen werden.
Die Länge der rein Hebb'schen Lernphase und die Gröÿe des Lernparameters
sind für jede Messung Gegenstand von Optimierungsmessungen. Diese werden so
durchgeführt, dass die beiden Parameter für die jeweilige Trainingsmenge durchgefahren werden und die Kombination mit der höchsten Klassikationsfähigkeit
ausgewählt wird. Sind die Begrie mit Hilfe der Hebb'schen Lernregel erst einmal
gebildet, kann man davon ausgehen, dass durch den Einuss der Lernregel die
Begrie selbst nicht gestört werden, da sich das Vorzeichen der Verbindungen
wegen der Einschränkung auf den Wertebereich von (-1) bis 1 nicht ändert. Die
Eigenschaften der Lernregel sind:
25
• Sie ist lokal
• Sie erfordert (auÿer den Verbindungen) selbst keinerlei Gedächtnis, d.h. um
sie umzusetzen benötigt man keinen zusätzlichen Speicheraufwand
5.1.3 Lernregel 3 (RL 2)
Eine weitere Möglichkeit, die Trennung der Netze herbeizuführen, besteht darin,
Verbindungen zwischen Neuronen Misstrauenswerte zuzuweisen. Der Wert einer
Verbindung soll erhöht werden, wenn von einem Neuronenpaar ein Neuron seinen
Wert während der Iteration verändert hat, das andere hingegen nicht. Dadurch
kann dem Netz die Information geliefert werden, welcher Neuronencluster des
Gesamtnetzes ein Merkmal kodiert. Bei einer Iteration verändern einige Neuronen ihren Aktivierungszustand, während die Klassikation vorgenommen wird.
Bei diesem Prozess ist es dem Netz nicht möglich, zwischen einer Korrektur eines
verrauschten Bits und einer durch das gröÿere Teilnetz forcierten Umstülpung des
Sekundärmerkmals zu unterscheiden. Zwar sind die verrauschten Stellen zufällig verteilt und die nebenmerkmalkodierenden nebeneinanderliegend, aber dieses
rein optische Kriterium besteht für das Netz nicht, da es keine ausgezeichneten Nachbahrschaftsverhältnisse gibt. Verbindungen vom Haupt- zum Nebennetz
können aber anhand der Misstrauenswerte identiziert werden, da Inkrementierungen dieser Verbindungen wesentlich häuger auftreten als jener, die zwischen
verrauschten und unverrauschten Neuronen bestehen. Überschreiten die Werte
einen Schwellwert, kann das Netz dann optional zur herkömmlichen Iteration
die Verbindungen mit hohen Misstrauenswerten drosseln und anhand des neuen
Rückgabewertes erkennen, ob das Vorgehen zu einer erfolgreichen Klassikation
geführt hat. Wenn dies der Fall ist, hat sich die dieser Vorgehensweise implizite
Vermutung, dass ein Nebenmerkmal in einem Teilbereich des Musters kodiert
liegt, bestätigt und die Trennung des entsprechenden Teilnetzes kann vollzogen
werden.
5.1.4 Zusammenfassende Betrachtung
Die Lernregeln werden in Richtung ihrer Nummerierung komplizierter und aufwendiger umzusetzen. Ist man an einem möglichst einfachen Betrieb interessiert,
wird man sich für die Lernregel 1 entscheiden, da zum Hebb'schen Lernalgorithmus hier nur die Auswertung des Rückgabe-Signals hinzukommt. Die Probleme
des Bestärkenden Lernens zeichnen sich allerdings dadurch aus, dass man an
einem optimierten Lernverhalten des Agenten interessiert ist [19]. Deshalb sind
auch die anderen beiden Lernverfahren zu prüfen. Es wird sich herausstellen, dass
sie die Leistungsfähigkeit des Netzes teilweise nur leicht, teilweise entscheidend
verbessert. Kombinatorik von komplexen Begrien, die in verschiedenen Netzen
26
mehrfach als Zufallsmuster auftreten, ist, wie sich herausstellen wird, nur mit
Hilfe der beiden letzten Lernregeln möglich.
27
Kapitel 6
Kombinationen von zwei
Merkmalen
6.1 Begrisausprägungen
Mit dieser Bezeichnung sind Zusammenfassungen von Objekten gemeint, die sich
bezüglich einer Haupteigenschaft gleichen (repräsentiert durch den Groÿteil der
Neuronen), aber bezüglich weiterer Eigenschaften unterscheiden, für deren Repräsentation weniger Neuronen aufgewendet werden. Um die Mittelwert-Gleichung
für den Überlapp-Vektor (3.22) anwenden zu können, stellt man die Muster als
Ableitungen von einem Hauptmuster dar. Dieses Hauptmuster stellt einen Begri
mit einer typischerweise auftauchenden Merkmalskombination dar; allerdings sollen die Merkmale in der Trainingsmenge in unterschiedlichen Kombinationen auftreten. Um ein Beispiel zu geben: Das Merkmal der äuÿeren Form (Kontur) eines
Objekts hat einen umfangreichen Informationsgehalt. Dementsprechend wird für
die Darstellung dieses Merkmals im neuronalen Netz eine groÿe Zahl von Neuronen benutzt. Ein Objekt mit feststehender Form soll jetzt in Farbstufen zwischen
zwei extremen Farbwerten vorkommen. Bei gleichem Hauptmerkmal, also bei gleicher äuÿerer Form sollen die beiden Farbwerte für gegensätzlichen Reward stehen.
Ein anschauliches Beispiel ist eine Beere, die unreif (grün) unbekömmlich und reif
(rot) bekömmlich ist. Die Zwischenstufen ergeben entsprechende Reifegrade, was
sich im Rückgabewert niederschlagen kann. Eine naheliegende Umsetzung dieser
Überlegungen besteht darin, den einen Extremwert des Nebenmerkmals Farbe
durch ein Zufallsmuster darzustellen und den anderen Extremwert durch das
entsprechende inverse Muster; dadurch entspricht die Summe der Abstände eines
Zwischenwertes zu den Extrema dem Abstand der Extremwerte zueinander. Das
Hauptmerkmal ist diesem Fall also die Beere (Beerenform), das Nebenmerkmal
die Farbe. Die zwei möglichen Begrisausprägungen sind die rote und die grüne
Beere. Mathematisch lässt sich das Konzept durch einen Begrisvektor umsetzen, aus dem sich die Beispielsvektoren durch Multiplikation mit einer Matrix
28
Abbildung 6.1: Zwei Ausprägungen eines Begris, der in 90% der Neuronen (unterer Teil des Musters) kodiert ist, während das Nebenmerkmal mit seinen beiden
möglichen Werten (10-bit Zufallsvektor und sein Inverses) in den restlichen 10%
der Neuronen residiert
ergeben, die auf der Diagonalen eine (−1), wo gegenüber dem Begri mit typischer Merkmalskombination eine Invertierung erwünscht ist, ansonsten einsen
und auÿerhalb der Diagonalen nur nullen besitzt:
ξ = Ra X
(6.1)
Anhand des Mean-Field-Formalismus kann nun gezeigt werden, unter welchen
Voraussetzungen zwei Begrisausprägungen mit identischem Hauptmerkmal Fixpunkte der Dynamik sein können, wenn unter der normalen Hebb'schen Lernregel
gelernt wurde.
6.2 Fixpunkte mit 2 Merkmalen, Rauschlevel =0
Zunächst wird der Fall der Kombination zweier unverrauschter Merkmale betrachtet. Wenn das das Nebenmerkmal repräsentierende Teilnetz einen Anteil
von 10 % vom Gesamtnetz einnimmt, sollen sowohl:
m
~ = (1, 1, ..., 1, 0.8, 0.8, ..., 0.8)
{z
}
| {z } |
P 1 viele
als auch:
(6.2)
P 2 viele
~ ∗ = (0.8, 0.8, ..., 0.8, 1, 1, ..., 1)
m
|
{z
} | {z }
P 1 viele
29
P 2 viele
(6.3)
mögliche Lösungen des Systems sein. P 1 ist dabei die Anzahl der Trainingsbeispiele für die erste Merkmalskombination, P 2 die Anzahl der Beispiele für die
Ausprägung, die gegenüber der ersten ein invertiertes Nebenmerkmal zeigt. Die
Nummer der Muster entspricht nicht unbedingt der Stelle ihres Auftretens im
Training, sondern sie sind nach Zugehörigkeit zu den beiden Ausprägungstypen
umsortiert. Für P 1 und P 2 gilt dabei:
P = P1 + P2
= Menge der Trainingsvektoren
Setzt man diesen Ansatz in (3.22) ein, ergibt sich:
1
P
X
m = hhξ tanh(β(
mν ξ ν +
µ
P
X
µ
ν=1
∗
∗
mν ξ ν ))ii
(6.4)
ν ∗ =P 1 +1
Wegen der Äquivalenz der Trainingsmuster innerhalb einer Merkmalsausprägung
kann man dies schreiben als:
mµ = hhξ µ tanh(β(P 1 m1 ξ 1 + (P − P 1 )m2 ξ P
1 +1
(6.5)
))ii
Der Überlapp m1 steht gleichzeitig für den Überlapp aller anderen Muster ν mit
1 < ν < P 1 , während m2 für die Muster bis zur Nummer P steht. Von den beiden
(äquivalent zu behandelnden) Rechnungen für m1 und m2 wird jetzt die für m1
weitergeführt. Wegen ξi1 ξi1 = 1 gilt:
m1 = hhξ µ=1 tanh(β(P 1 m1 ξ 1 + (P − P 1 )m2 ξ 1 ξ 1 ξ P
= hhξ µ=1 ξ 1 tanh(β(P 1 m1 + (P − P 1 )m2 ξ 1 ξ
| {z }
1 +1
P 1 +1
))ii
))ii
(6.6)
(6.7)
=1
= hhtanh(β(P 1 m1 + (P − P 1 )m2 ξ 1 ξ P
1 +1
))ii
(6.8)
Für das in der Simulation verwendete deterministische Netz führt man jetzt den
Grenzübergang β → ∞ durch. Die Tanh-Funktion wird dadurch zur SignumFunktion, die nur die beiden Ausgaben 1 und -1 kennt. Da eine Mittelwertgleichung zu lösen ist, kann diese jetzt einfach nach der Form:
m = P(Arg > 0)(1) + P(Arg < 0)(−1)
= 2P(Arg > 0) − 1
aufgestellt werden. Mit ξ 1 ξ P
1 +1
= R1 RP
1 +1
(6.9)
:
m1 = P((P 1 m1 + (P − P 1 )m2 R1 RP
1 +1
) > 0) − P(... < 0)
(6.10)
Im betrachteten Fall ist:
P((Ri1 RiP
1 +1
) > 0) = 0.9
30
(6.11)
Dies ist gleichzeitig die Wahrscheinlichkeit für (Argtanh > 0), falls gilt:
P 1 m1 − (P − P 1 )m2 < 0.
(6.12)
Ansonsten gilt immer P(Arg > 0) = 1. Aus (6.12) folgt umgeformt:
P1 <
m2 2
P .
m1
(6.13)
(Dies ist die allgemeine Gleichung für beliebige Teilnetzgröÿen g ; die nachfolgenden Terme gelten für g=0.1)
Setzt man (wie in 6.2) m1 = 1 und m2 = 0.8, d.h. wird als Zielmuster die erste
Merkmalsausprägung angesteuert, so darf die Ungleichung nicht erfüllt sein, da
sonst die selbstkonsistene Gleichung (6.10) nicht erfüllt ist (für m1 = 1 muss
P(Arg > 0) = 1 sein) :
0.8
P 1 ≮! P 2
(6.14)
1
Im umgekehrten Fall muss die Ungleichung erfüllt sein, da sich für m1 ein Überlapp < 1 ergeben soll, wenn die zweite Ausprägung angesteuert wird:
P 1 <!
1 2
P
0.8
(6.15)
Symmetrische Bedingungen für P 2 ergeben sich aus den Rechnungen zur selbstkonstistenten Gleichung für m2 , allerdings auch schon durch Umformung der vorigen beiden Ungleichungen. Als Resultat ergibt für den erlaubten Quotienten der
Mengen der Beispielmuster für die beiden Ausprägungen, für die eine Separation
in Teilnetze noch gelingt:
P1
< 1.25
P2
P1 P2
oder : 2 ∧ 1 > 0.8
P
P
0.8 <
(6.16)
(6.17)
Ergebnis: Die Abkopplung eines Teilnetzes, die vier verschiedene stabile Zustände
ermöglicht (zwei Teilmuster und ihre Inversen), gelingt schon mit der normalen
Hebb'schen Lernregel für das Hopeldnetz, wenn die Trainingsmenge der errechneten Bedingung (6.13) unterliegt, die allerdings für den Rauschlevel Null gilt.
Eine Erhöhung des Rauschlevels erschwert die Abkopplung. Wie man an (6.13)
sieht, ist die Separation auch vom Verhältnis m2 /m1 abhängig. Geht dies Verhältnis gegen 1, muÿ auch das Verhältnis P 1 /P 2 gegen 1 gehen. Die Erklärung
dafür ist, dass im Verhältnis der Überlapp-Werte die Information über die Gröÿe
des abgekoppelten Netzes liegt. Je kleiner das Verhältnis m2 /m1 , desto geringer
ist der Gröÿenunterschied der beiden Teilnetze. Die Trainingsmengen müssen bei
einem kleinem Teilnetz dann ausgewogener sein, damit sich die positiven und
negativen
31
1.05
50 Neuronen
100 Neuronen
200 Neuronen
400 Neuronen
Verhältnis P1/P2
1
0.95
0.9
0.85
0.8
0
50
100
150
Trainingsmusteranzahl
200
250
Abbildung 6.2: Aufgetragen ist der Grenzwert des Mengenverhältnisses der Trainingsmengen P 1 und P 2 , bei dem ein Erkennen der Ausprägung mit weniger
Trainingsvektoren noch möglich ist. D.h., dass bei dem Übergang eines weiteren
Elements aus P1 nach P2 die Merkmalskombinatorik versagt und nur noch die
stärkere Kombination erkannt wird
Verbindungen zwischen den Teilnetzen annähernd aufheben können. Nur so
kann der Einuss der Verbindungen innerhalb des kleinen Netz gegen den Einuss
der äuÿeren Neuronen überwiegen.
Bei der Rechnung ist noch darauf hinzuweisen, dass die Kodierung des Nebenmerkmals an einer festen Stelle im Schritt (6.11) durch eine Flipwahrscheinlichkeit
angegeben wird, obwohl die Störung nicht zufällig ist. Für das Hopeldnetz, in
dem Nachbahrschaftsverhältnisse keine Rolle spielen, besteht allerdings kein Unterschied, welche Neuronen das Nebenmerkmal kodieren, solange sich die Störung
für alle Trainingsmuster der zweiten Art gleich auswirkt. In der Simulation soll
jetzt überprüft werden, ob die theoretischen Vorhersagen über die Grenzen der
Netzseparationsfähigkeit unter der einfachen Hebb'schen Lernregel für das Hopeldnetz zutreen. Man sieht in Abbildung (6.2), dass der theoretische Schwellwert von 0.8 (g = 0.1) für das Mengenverhältnis der Beispielmuster für die beiden
Ausprägungen eher mit einem Netz mit mehr Neuronen erreicht wird. Dies liegt
32
2
0.5
1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
durchschnittliche Verbindungsstärke
Verhältnis P1/P2
1
0
0.5
Anteil am Gesamtnetz (g)
Abbildung 6.3: Gemessener und theoretischer Verlauf der Schwelle für das Mengenverhältnis im Falle variabler Neuronenzahl, die für die Representation des
sekundären Merkmals verwendet wird (Netz mit 100 Neuronen). Auf der rechten
y-Achse ist für dieselben Werte von g die betragsmäÿig durchschnittliche Verbindungsstärke zwischen den Teilnetzen aufgetragen
daran, dass die Eigenrückkopplung eines Neurons im Hopeldnetz ausgeschaltet
wird, was in der Mean-Field-Theorie keine Berücksichtigung ndet. Dem kleinen
Teilnetz steht dadurch ein Neuron weniger zur Verfügung, um den Einuss des
äuÿeren Netzes zu kompensieren, und dieser Eekt fällt bei steigender Gröÿe des
Gesamtnetzes weniger ins Gewicht.
Abbildung (6.3) zeigt, wie die Schwelle des Mengenverhälnisses für eine erfolgreiche Klassikation beider Begrisausprägungen mit steigender Neuronenzahl
für die Representation des Sekundärmerkmals gegen null läuft. Dass die Klassikation der selteneren Ausprägung während des Verlaufes des Parameters g bei so
unausgewogenen Mengenverhältnissen erfolgreich ist, liegt nicht daran, dass die
Abkopplung des Teilnetzes schneller abläuft (wie man am 2. Graphen im Diagramm sieht), sondern daran, dass man sich bei steigendem Wert für g dem Fall
von orthogonalen Mustern nähert, bei denen sogar bei anzahlmäÿig ungleichmä33
ÿigem Training das eine Muster das andere Muster nicht stört. (Man kann dazu
wieder die Betrachtung des Cross-Talk-Terms aus dem 3. Kapitel heranziehen).
Somit ist die Bemerkung möglich, dass im Fall kleiner Teilnetze die Klassikation vom Phänomen der Abkopplung abhängt, da die Korrelation der Eingabe
mit den Trainingsmustern der zahlenmäÿig stark repräsentierten Merkmalskombination hoch ist und deshalb die Beträge für die Netzeingabe auch von den
Nicht-Zielmustern groÿ sind. Dieser Einuss kann nur durch schwache Zwischenteilnetzverbindungen gemindert werden. Im Falle zweier groÿer Teilnetze ist dagegen die Korrelation zwischen Eingabe und Trainingsmenge der Nicht-Zielmuster
klein, weswegen diese Muster im gesamten Netz nur einen kleinen Einuss zeigen
und das zahlenmäÿig schwächer trainierte Muster der 2. Merkmalsausprägung
zum Zuge kommt. Das Abknicken der Graphen in (6.2) und (6.3) an einigen Stellen des gemessenen Ergebnisses liegt daran, dass die rationalen Zahlen, die sich
in der Theorie für die Schwellwerte ergeben, im Falle der zwei ganzen Zahlen P 1
und P 2 , deren Summe immer die Anzahl der Trainingsmuster ergibt, durch deren
Verhältnis unterschiedlich genau getroen wird. In der Messreihe von Diagramm
3 ist ∆g = 0, 01, damit ergeben sich Dierenzen der theoretischen Werte der
Verhältnisse von 0, 02. Bei drei beispielhaften Werten für P 1 und P 2 sieht man,
dass manche Zahlenverhältnisse in der Messung übersprungen werden, was zum
Abknicken des Graphen führt:
P 1 P 2 Verh. Schwelle
112 138 0,812
>0.80
113 137 0,825
>0.82
114 136 0.838 ≯ 0.84
115 135 0.852
>0.84
6.2.1 Fixpunkte, Rauschlevel 6= 0
Kommen Verrauschungen hinzu, wird die Netzabkopplung weiter erschwert. Auf
das Netz kommt neben der Separation noch die Aufgabe der Begrisbildung hinzu. Die Aufgabe zur Errechnung des notwendigen Trainingsmusterverhältnisses
besteht im Aufstellen eines Ansatzes zur Lösung der Mean-Field-Gleichung (3.22).
Dazu benötigt man den erwarteten Überlappwert für Beispiele der angesteuerten Begrisausprägung und den der Beispiele der gegenteiligen Ausprägung. Zur
Erzeugung der Trainingsmuster tritt nun gegenüber Gleichung (6.1) ein weiterer
Faktor hinzu. Die Matrix R hat ebenfalls nur auf der Diagonalen Einträge vom
Betrag 1, allerdings stellen die negativen Einträge hier zufällig verteilte Störungen dar, die die Abweichungen von Beispielen gegenüber ihrem Begri modellieren
sollen. Die Wahrscheinlichkeit dafür, dass eine Stelle ihr Vorzeichen invertiert, ist
gleich d:
ξ = RRa X
(6.18)
34
Für den Überlapp der Beispiele mit dem zugehörigen Begri, der durch den Netzzustand dargestellt wird, gilt:
1
ma =
1 X
ξi Si = (1 − 2d)
N i
(6.19)
Nun gilt für die Beispiele der anderen Begrisausprägung:
1 X
ξi Si
N i
1 X
2
1
=
Ri Ria Xi Ria Xi
N i
1 X
2
=
Ri Ria
N i
2
ma
=
(6.20)
1
Der letzte Umformungsschritt ergibt sich dadurch, dass Ria = 1 für alle i gesetzt
werden kann, da eine der möglichen Begrisausprägungen ja schon im Begri
selbst vorliegt.
Bezeichnet g den Faktor, um den sich die Gröÿen von Teilnetz und Gesamtnetz
unterscheiden, ergibt der Ausdruck (6.20):
2
ma = (1 − 2d)(1 − 2g)
(6.21)
i
Mit ma ≡ mi hat der Überlapp-Vektor für einen Fixpunkt also die erwartete
Form von:
m
~ = (m1 , ..., m1 , m2 , ..., m2 )
(6.22)
= (1 − 2d, 1 − 2d, ..., 1 − 2d, (1 − 2d)(1 − 2g), ..., (1 − 2d)(1 − 2g))(6.23)
(6.22) und (3.22) ergeben zusammen:
mµ = hhξ µ tanh(β
P
X
mν ξ ν )ii
ν=0
1
µ
1
= hhξ tanh(β(m
P
X
ν
2
ξ +m
ν=0
P
X
ξ ν ))ii
ν=P 1 +1
Die Rechnung wird ohne Beschränkung der Allgemeinheit für µ = 1 weitergeführt. Nach dem Umformungsschema von (6.6- 6.8) und durch Ersetzung der
Mustervektoren durch die Flipoperatoren ergibt sich:
1
1
1
1
m = hhtanh(β(m + m
P
X
1
i
R R +m
i=2
2
P
X
i=P 1 +1
35
1
2
R1 Ri Ra Ra ))ii
(6.24)
Um jetzt wieder die Mittelwertgleichung nach Schema (6.9) zu lösen, muss man
1
2
die Fälle (Ra Ra ) = ±1, R1 = ±1 betrachten, die unabhängig voneinander auftreten können. 1/βArgtanh ≡ Arg 0 nimmt nach der Fallunterscheidung die Form
an:
P1
P
X
X
0
i
Arg = m1 ± m1
R ± m2
Ri
(6.25)
i=2
a1
i=P 1 +1
a2
Mit P(R R = 1) = (1 − g) nimmt die Mittelwertgleichung nach dem Grenzübergang ins deterministische Netz folgende Form an:
³
1
2
1
m = 2 (1 − g)(1 − d)P(Arg 0 > 0|Ra Ra = 1, R1 = 1)
1
2
1
2
+g(1 − d)P(Arg 0 > 0|Ra Ra = −1, R1 = 1)
+(1 − g)dP(Arg 0 > 0|Ra Ra = 1, R1 = −1)
´
1
2
+gdP(Arg 0 > 0|Ra Ra = −1, R1 = −1) − 1
(6.26)
P
Die Summe i Ri ist binomialverteilt. Sei n2 die Zahl der Erfolge (Einsen) in der
P
P 1
i
Summe Pi=P 1 +1 Rd und n1 die in der Summe Pi=2 Ri , so folgt (exemplarisch
1 2
für den Fall Ra a = 1, R1 = 1):
Arg 0 > 0
P1
P
X
m2 X i
i
↔
R > −1 −
R
m1
1
i=2
1
↔n >
P −
i=P +1
m2
(2n2 − P2 )
m1
2
(6.27)
Die Wahrscheinlichkeit für n2 Erfolge im 3. Summanden von Arg 0 ist dabei PnIII
=
2
¡P 2 ¢
n2 P 2 −n2
II
(1−d) d
, die Wahrscheinlichkeit für das Erfülltsein von (6.27) ist Pn =
n2
¡P 1 −1¢
P
1
P1
m
(1 − d)n dP −n . Damit ergibt sich sich für P(Arg 0 >
n>P 1 − 2 (2n2 −P 2 )/2
n
0|R
a1 a2
m1
1
= 1, Rd = 1) in (6.26):
2
P(Arg > 0|R
a1 a2
1
= 1, R = 1) =
P
X
PnIII
PnII
2
(6.28)
n2 =0
Entsprechende Terme können nun für die anderen drei Summanden hergeleitet
werden. Auÿerdem muss eine (vollkommen analoge) Rechnung für m2 durchgeführt werden. Dann können die Ansätze für m1 und m2 auf Selbstkonsistenz
überprüft werden. Es kann im Falle eines Rauschlevels 6= 0 (und das ist der
Betriebsfall, der in der Agentensimulation genommen wird) nicht mehr nach Verhältnissen P 1 /P 2 aufgelöst werden. Als Startpunkt für das iterative Lösen von
(6.26) nimmt man den Ansatz (6.23). In Abbildung (6.4) sieht man die Vorhersage
durch die Mean-Field-Gleichungen verglichen mit dem Messergebnis.
36
1.05
1
0.95
0.9
Überlapp
0.85
0.8
0.75
0.7
− − Iterative Rechnung
Messung
0.65
0.6
0.55
0.75
0.8
0.85
0.9
0.95
1
Trainingsmusterverhältnis
1.05
1.1
1.15
Abbildung 6.4: Vergleich zwischen dem durchschnittlichen Überlapp von Zielmuster zum Netzzustand, wie er von der Mean-Field-Gleichung vorhergesagt bzw.
sich durch den Mittelwert von 100 Messungen ergibt)
In Abbildung (6.5) ist das Ergebnis der Simulation aufgetragen, bei der wiederrum ein Netz mit 2 Begrisausprägungen unter unterschiedlichen Rauschleveln gespeist wurde. Aufgetragen ist der Hamming-Abstand (Summe aller sich
unterscheidenden Bits) zwischen Zielmuster (Begrisausprägung zu allen zugehörigen Beispielen) und Netzausgabe gegen unterschiedliche Verhältnisse, in denen
die beiden Merkmalskombinationen auftreten. Man sieht, dass sich der sichere Klassikationserfolg schon bei kleinem Rauschlevel (d=0,02) vom Schwellwert
für Rauschlevel null unterscheidet. Die Trainingsmusteranzahl bei diesem Versuch
ist 250. Das bedeutet, dass mangelnde Begrisbildungsfähigkeit für die Misserfolge in der Klassikation nicht verantwortlich sein kann. Vielmehr scheint es so
sein, dass der Einuss des Rauschens die Abkopplungsfähigkeit des Netzes stark
behindert. Das nächste Diagramm (6.6), in dem 4 Ergebnisse von zufällig gewählten Einzelversuchen aufgetragen sind, bestätigt dies. In diesem Diagramm sind
die Ergebnisse, die zur Mittelung der Messung von Abbildung (6.5) beigetragen
haben, dargestellt.
37
10
d=0.08
Hamming−Abstand der Ausgabe zum Zielmuster
9
d=0.1
8
7
d=0.06
6
5
d=0.04
4
d=0
3
2
1
0
0.7
d=0.02
0.75
0.8
0.85
0.9
Mengenverhältnis der Beispiele
0.95
1
Abbildung 6.5: Hamming-Abstand der Ausgabe zum Zielmuster bei Mengenverhältnissen der Trainingsbeispiele < 1. Die angesteuerte Begrisausprägung ist mit
ihren Trainingsbeispielen benachteiligt; das Mengenverhältnis, das die Zielausprägung als stabilen Zustand erlaubt, verschiebt sich mit steigendem Rauschlevel in
Richtung 1
Man erkennt, dass die Sprünge in der Hammingdistanz in der überwiegenden Anzahl eine Weite von 10 Bits haben. Dies ist genau der Abstand, der dadurch entsteht, dass das von Netz das falsche Nebenmerkmal dargestellt wird.
Hamming-Abstände von 1 oder anderen Werten < 10 kommen dagegen nur sehr
vereinzelt durch zufälliges, mehrfaches Verrauschen einer Pixelstelle in den Beispielen gegenüber dem Begri vor.
In diesem Kapitel, dass die Untersuchungen zu Kombinationen zweier Merkmale beinhaltet, sollen jetzt noch drei Messungen folgen, die den Fall fester Kombinationen beleuchten. Abbildung (6.7) zeigt das Ergebnis zu einer Messung, bei
der im gröÿeren Anteil des Netzes (wie bei der vorigen Messung) das Hauptmerkmal gespeichert wird. Es werden diesmal zwei zufällig erzeugte, das bedeutet ungefähr orthogonale, Hauptmerkmale verwendet. Hauptmerkmal 1 kombiert mit
dem Nebenmerkmal, Hauptmerkmal 2 mit dem zugehörigen Inversen. Zu bei38
Hammingabstand von Zielmuster und Ausgabe
10
10
8
8
6
6
4
4
2
2
0
0.7
0.8
0.9
0
0.7
1
10
10
8
8
6
6
4
4
2
2
0
0.7
0.8
0.9
0
0.7
1
0.8
0.9
1
0.8
0.9
1
Mengenverhältnisse der Trainingsbeispiele
Abbildung 6.6: Messergebnisse der Einzelmessung (gemitteltes Ergebnis zeigt
Abbildung 4). Man sieht, dass die Hamming-Abstände, die ein nicht erfolgreiches Klassizieren anzeigen, nicht durch die nicht erfolgte Begrisbildung, sondern durch eine erfolglose Abkopplung eines Teilnetzes bedingt sind (Sprung von
Hamming-Distanz zehn auf null!)
den Typen von Gesamtmustern werden Trainingsbeispiele durch Verrauschung
erzeugt. Dadurch, dass bei dieser Trainingsmenge feste Kombinationen zwischen
Haupt- und Nebenmerkmalen auftreten, die nicht beliebig kombinieren (beispielsweise Hauptmerkmal 1 mit dem Inversen des Nebenmerkmals), treten die Merkmale nicht unabhängig voneinander auf; damit sind die Merkmale redundant und
werden miteinander assoziiert. Die durchschnittliche Stärke der Verbindungen
zwischen zwei Teilnetzen geht damit nicht gegen null. Abbildung (6.7) zeigt die
durchschnittlichen richtigen Klassikationsergebnisse nach dem Lernen einer Anzahl von Mustern, die auf der x-Achse aufgetragen ist. Als richtige Klassikation
werden diejenigen gewertet, die exakt den zugehörigen Begri des Trainingsmusters zeigen. Die punktierten Graphen zeigen die Klassikation eines Netzes, das
die Merkmale in von vornherein getrennten Teilnetzen verarbeitet, während der
durchgängige Graph ein Netz beschreibt, das durch reines Hebb'sches Lernen bestimmt wird und dadurch Assoziationen zwischen den Teilnetzen aufbauen kann.
39
100
90
Gesamtnetz
getrennte Netze
korrekte Klassifizierung in %
80
d=0,1
70
60
d=0,2
50
40
30
d=0.3
20
10
0
0
10
20
30
40
50
60
Anzahl Trainingsmuster
70
80
90
100
Abbildung 6.7: Empndlichkeit der Klassikationsfähigkeit bei einem Netz, bei
dem unüberwacht zwei Merkmale assoziieren, während bei einem zweiten Netz die
Merkmalskombinatorik durch eine von vorneherein vorgenommene Netztrennung
berücksichtigt wurde. Unterliegen beide Merkmale demselbem Rauschlevel, ist
keine Netzarchitektur der anderen sonderlich überlegen
Man kann bei dieser Messung keinen wesentlichen Unterschied zwischen beiden Netztypen erkennen. Die sich anschlieÿende Abbildung (6.8) zeigt ein Ergebnis, das intuitiv nicht einfach vorherzusehen ist. Bei der zugrundeliegenden
Messung wird nur das Hauptmerkmal mit einem festen Rauschlevel gestört, während das Nebenmerkmal unangetastet bleibt und sich damit mit dem zugehörigen Teil des Begries deckt. Als Netzeingang wurden Testmuster gewählt, deren
Rauschlevel dem der bisher gelernten Trainingsmuster entspricht. Gezählt wurde
wieder die hunderprotzentig richtige Klassikation zu den Begrien. Dieser Fall
wird am Ende dieses Kapitels auch rechnerisch behandelt. Abbildung (6.9) führt
dieselbe Messung wie die (6.8) zugrunde liegende durch, mit dem Unterschied, das
auch die Nebenmerkmale Zufallsmuster sind. In diesem Fall sieht man die bessere Klassikationsleistung des Assoziativnetzes, die man auch erwartet, da die
Information über die Merkmalskombination über mehr Neuronen verteilt ist und
40
Abbildung 6.8: Ein von vorneherein getrenntes Netz bildet schneller Begrie als
ein Netz, dass zwei Merkmale fest miteinander kombiniert, wenn die Nebenmerkmale invers zueinander gewählt werden
die Neuronen der beiden Teilbereiche des Netzes ihre jeweiligen Partnermuster
assoziieren können.
Wie in Kapitel 2 erwähnt, erhöht eine a-priori-Zerstückelung des Gesamtnetzes in Teilnetze die Anzahl möglicher Attraktoren, da die Merkmale, durch die
Abtrennung unabhängig voneinander, beliebig kombinieren können und die entsprechenden Attraktoren automatisch ausbilden. Dies ist trivial und muss hier
nicht nachgewiesen werden. Was die Schnelligkeit der Begrisbildung angeht, so
hängt diese von der Art der Nebenmerkmale ab: bei der Repräsentation durch
Muster und ihre Inversen als die beiden Extremwerte des Merkmals geschieht
die Begrisbildung im getrennten Netze schneller, bei der Wahl von Zufallsmustern bildet das Assoziativnetz die Begrie schneller. Der Fall der inversen Nebenmerkmale soll jetzt noch analytisch untersucht werden, da dieses Ergebnis
überraschend ist. In den nachfolgenden Rechnungen gilt für Beispiele der beiden
41
100
Wahrscheinlichkeit richtiger Klassifikation
90
d=0,1
getrennte Netze
Assoziativnetz
80
70
d=0,2
60
50
d=0,3
40
30
20
10
0
0
10
20
30
40
50
60
Trainingsmusteranzahl
70
80
90
100
Abbildung 6.9: Im Fall zufälliger Muster, die die Nebenmerkmale repräsentieren,
bildet das Assoziativnetz die Begrie schneller als das getrennte Netz
verwendeten Begristypen:
1
1
1
2
2
2
ξib = Ri Ria Xib = Ri Xib
ξib = Ri Ria Xib = Ri Xib
Ra = 1 ist hier stets erfüllt, da die Merkmale in diesem Versuch nicht in unterschiedlichen Kombinationen auftreten können. Um jetzt die Begrisbildungsqualitäten der beiden Netze miteinander zu vergleichen, prüft man die Fixpunktbedin1
gung für das Begrismuster (beispielshaft für (b = b1 ), Riµb bedeutet Rauschma-
42
trix für Trainingsmuster µ, das ein Repräsentant von Begri b1 ist):
X
1
1
Xib ? = sgn(
wij Xjb )
(6.29)
j
=
≡
1 X µb1 µb1 b1
R Rj Xi +
N jµ i
1 X µb2 µb2 b2 b2 b1
R Rj Xi Xj Xj
N jµ i
(6.30)
1
hbi
Für die Fixpunkteigenschaft eines Begries reicht es aus, wenn der gesamte Ein1
gabeterm für alle Neuronen i dasselbe Vorzeichen hat, d.h. die Eingabe, mit Xib
malgenommen, einen Wert > 0 ergibt:
1 X dµ dµ
b1
E1i
≡
R R
N jµ i j
1 X µb2 µb2 b2 b2 b1 b1
b1
E2i
≡
R Rj Xi Xj Xj Xi
N jµ i
1
1
b
b
P(Bit i stabil) = P(E1i
+ E2i
> 0)
(6.31)
Im folgenden sei P die Gesamtzahl der Trainingsmuster, die gleichmäÿig auf
beide Begrie (jeweils P/2) verteilt sei. a bezeichne die Gröÿe (1 − 2d), mit d =
Rauschwahrscheinlichkeit an einer Stelle. Für die zweite Messung (d=0 für die
ersten 10 Neuronen) genügt es für das getrennte Netz, die Stabilitätswahrscheinlichkeit der letzten 90 Neuronen zu betrachten, da das Nebenmerkmal sofort
gelernt wird und nie einen Fehler verursacht. Für das verbleibende 90-NeuronenNetz gelten folgende Erwartungswerte E und Varianzen σ 2 der zwei Terme in
(6.31):
P 2
a
2
P
P (N − 1) 2 P 4
b1
σ 2 (E1i
) =
+
a − a
2N
2N
2
b1
E(E21
) = 0
P (P − 2) 4
P
b1
+
a
σ 2 (E2i
) =
2N
4N
1
b
E(E1i
) =
1
(6.32)
(6.33)
(6.34)
(6.35)
1
b
b
P(Bit i stabil) = P(E2i
+ E1i
)>0
Z ∞
P 2 2
1
2
b1
2
b1
= √ q
e−(x− 2 a ) /(2(σ (E1i )+σ (E2i ))
b1
b1
2π σ 2 (E1i
) + σ 2 (E2i
) 0
(6.36)
43
Für das merkmalsassoziierende Netz ergibt sich:
1
b
E(E1i
) =
1
b
σ 2 (E1i
) =
−
1
b
) =
E(E21
1
b
σ 2 (E2i
) =
P(Bit i stabil) =
=
P
a(g + a(1 − g))
(6.37)
2
P 2 (1 − g)
P
(1 − g)
(g +
) + P ag(1 − g) + a2 ((1 − g)2 −
− g2)
2
N
2
N
P
P a3 g(1 − g) − (1 − g)2 a4
(6.38)
2
0
(6.39)
P 2 (1 − g) (P − 2) 2 2 (P − 2)
(g +
+
g a +
(1 − g)a2 )
(6.40)
2
N
2
2N
b1
b1
P(E2i
+ E1i
)>0
Z ∞
1
b1 )+σ 2 (E b1 ))
−(x− P2 a(g+a(1−g)))2 /(2(σ 2 (E1i
2i
q
e
√
b1
b1
2
2
2π σ (E1i ) + σ (E2i ) 0
(6.41)
Zu den Berechnungen von µ und σ für diesen Fall siehe Anhang.
Die Auswertung der Integrale (6.36) und (6.41) ergibt die Wahrscheinlichkeit der
Bit-Stabilität eines Neurons bei Eingabe des Begris. Die Ergebnisse für N = 100,
d = 0.2 und verschiedene Werte der Trainingsmusteranzahl sind an der folgenden
Tabelle abzulesen. Man sieht, dass die Bit-Stabilität im getrennten Netz höher
als im Assoziativnetz ist. Dies stützt das Ergebnis der Messung zu Abbildung
(6.8).
P getr. Netz Assoziativnetz
20
0.899
0.887
30
0.94
0.924
40
0.963
0.946
50
0.977
0.96
60
0.985
0.969
44
Kapitel 7
Kombinationen von 3 Merkmalen
7.1 Erwartete Zustände für Rauschlevel = 0
Wie im Fall zweier Merkmale wird zur Vereinfachung der Rechnung ein Hauptmerkmal betrachtet, das nun aber mit zwei Nebenmerkmalen kombiniert werden
kann, die jeweils in zwei extremen Kongurationen (dargestellt durch ein Zufallsmuster und sein Inverses) vorkommen. Somit werden 4 Muster betrachtet,
schematisch dargestellt in Abb. (7.1) Entsprechend der Abbildung besteht die
i
Trainingsmenge aus 4 verschiedenen Mustern, mit Ra seien die entsprechenden
Erzeugungsmatrizen bezeichnet, mit P i die Anzahl der Trainingsmuster dieses
Typs. Für die Rechnung soll m1 in Abhängigkeit von P 1 dargestellt werden.
Gleichung (3.22) nimmt für diesen Fall folgende Form an (dargestellt für m1 ):
1
2
1
3
1
4
m1 = hhtanh(β(m1 P 1 + m2 P 2 Ra Ra + m3 P 3 Ra Ra + m4 P 4 Ra Ra ))ii (7.1)
Wird der Überlapp von Netzzustand und Zielmuster in Abhängigkeit von P 1
gemessen, so kann man feststellen, dass das Hauptmerkmal durch die restliche
Trainingsmenge jeweils zweimal mit dem invertierten und einmal mit dem nichtinvertierten Zustand des Nebenmerkmals assoziiert wird. Da der mögliche Fixpunkt mit m1 = 1 (Muster 1 dient als Eingabe) überprüft wird, ist zu erwarten,
dass die beiden Nebenmerkmale in ihre Inversen umschlagen, solange P 1 zu klein
ist. Das mit mehr Neuronen kodierte Nebenmerkmal 2 sollte nach dem Ergebnis
für 2 Merkmale früher stabil als sein das kleinere Nebenmerkmal. Die durch g1 , g2
bestimmten Teilnetzgröÿen seien auf 0.1 bzw. 0.2 festgesetzt. Um dann
m1 = P(Arg > 0) − P(Arg < 0)
lösen zu können, bietet es sich an, nach verschiedenen Verbundwahrscheinlichkeiten zu trennen.
45
Abbildung 7.1: Beispiele für 4 Begrisauspraegungen, wobei das erste Nebenmerkmal in den ersten 10, das zweite Nebenmerkmal in den Neuronen 11-30 und
das Hauptmerkmal in den letzten 70 Neuronen kodiert ist
Mit P = 0.1 tritt dabei auf:
1
2
1
2
1
3
1
4
(7.2)
1
4
(7.3)
1
4
(7.4)
Ria Ria = −1 ∧ Ria Ria = 1 ∧ Ria Ria = −1
Mit P = 0.2:
Mit P = 0.7:
1
3
Ria Ria = 1 ∧ Ria Ria = −1 ∧ Ria Ria = −1
1
2
1
3
Ria Ria = 1 ∧ Ria Ria = 1 ∧ Ria Ria = 1
46
+
+
-
+
+
-
-
HM
HM
HM
HM
Abbildung 7.2: Schema der drei Musterbereiche des Netzes: die ersten 10 Neuronen kodieren Nebenmerkmal 1, die folgenden 20 Nebenmerkmal 2, der Rest des
Netzes kodiert das Hauptmerkmal. Bei Mustertyp 2 ist das kleinere Nebenmerkmal gegenüber Mustertyp 1 invertiert, bei Mustertyp 3 das zweite Nebenmal und
bei Nummer 4 beide
Die aus der Bedingungen (Arg>0) abgeleiteten zugehörigen Ungleichungen für
P 1 lauten:
m2 P 2 − m3 P 3 + m4 P 4
m1
2 2
−m P + m3 P 3 + m4 P 4
P1 >
m1
2 2
−m P − m3 P 3 − m4 P 4
P1 >
m1
P1 >
(7.5)
(7.6)
(7.7)
Wie erwartet gibt es drei Bereiche, in denen Arg>0 erfüllt ist. Die letzte Ungleichung ist z.B. für alle P 1 erfüllt. Die Auswertung ergibt für P 2 , P 3 und P 4 = 50:
P 1 m1
>0 0.4
>10 0.8
>30 1
Ergebnis dieser Rechnung: Der Übergang von zwei auf drei Merkmale ist kein
qualitativ neues Problem, unter weiterer Erhöhung der Merkmalszahl sind keine weiteren Schwierigkeiten zu erwarten. Auÿerdem bestätigt sich das intuitiv
erwartete Ergebnis, dass zur Erkennung der Ausprägungen eines Merkmals das
zugehörige Teilnetz umso robuster gegen Unterrepräsentation in der Trainingsmenge ist, je gröÿer es ist. Im folgenden Kapitel wird eine Messung mit drei Merkmalen und Rauschlevel 6= 0 durchgeführt, wobei das Hebb'sche Training direkt
mit den erweiterten Methoden verglichen wird. Gegenüber der entsprechenden
Messung mit 2 Merkmalen ist wieder kein wesentlicher Unterschied festzustellen
(vgl. nächstes Kapitel).
47
1.1
1
Überlapp mit Zielmuster
0.9
0.8
0.7
0.6
0.5
0.4
0
5
10
15
20
25
30
Länge von P1
35
40
45
50
Abbildung 7.3: Messung mit Eingabe, die drei Merkmale kodiert. Von den 4
1
betrachteten Beispielmuster werden 3 festgehalten und das Beispiel für Ra wird
von null bis 50 durchgefahren. Man sieht am Überlapp-Wert von 0.8, dass das
zweite Nebenmerkmal, das mit mehr Neuronen kodiert wird, schneller stabil wird
als das kleinere Nebenmerkmal.)
48
Kapitel 8
Bestärkendes Lernen, mehrere
Merkmale und Begrie
Die Ergebnisse aus Kapitel 6 zeigen, dass Merkmalskombinationen, die ungleichmäÿig in der Trainingsmenge verteilt sind, nicht richtig verarbeitet werden, wenn
die gesamte Trainingsmenge gelernt wird. Auf den Fall der Agentensimulation
übertragen bedeutet das, dass ein einem Agenten zugeordnetes Netz nicht jedes Muster, auf das der Agent stöÿt, lernen sollte. Für die Begrisbildung gilt
zwar: je mehr Trainingsbeispiele, desto besser (man muss natürlich dafür sorgen, dass die Netzverbindungen nicht ins Unermessliche steigen, falls sich positive und negative Beiträge von verschiedenen Begrien nicht kompensieren); für
die Merkmalskombinatorik schadet diese Vorgehensweise, wie man gesehen hat.
In den folgenden Messungen wird das Verfahren, dass das Netz alle Testmuster
anschlieÿend als Trainingsmuster lernen lässt, als unbegrenztes Lernen bezeichnet, während die anderen Lernverfahren wie in Kapitel 5 deniert bezeichnet
werden. In den folgenden Messungen soll überprüft werden, ob die Überlegungen
zum Bestärkenden Lernen für die Merkmalskombinatorik dienlich sind. Die erste
Messung, die unter Verwendung derselben Trainingsmengen den Vergleich von 4
unterschiedlich trainierten Netzen ermöglicht, behandelt den Fall eines Hauptbegris, gepaart mit zwei möglichen Werten von Nebenmerkmalen. Das Häugkeitsverhältnis, mit dem die Nebenmerkmale in der Trainingsmenge auftauchen,
wird bei der Messung ungleichmäÿig gewählt. Mit einem Verhältnis 0.8 zu 0.2
für die beiden Merkmalskombinationen bei einem Rauschlevel von 0.1 liegt man
deutlich jenseits der anhand Abbildung (6.4) ersichtlichen Grenze für richtiges
Klassizieren, sofern man sich auf die Hebb'sche Regel bezieht. Demgemäÿ muÿ
die Lernregel, die alle vorkommenden Muster lernt, scheitern. Abbildung (8.1)
zeigt, dass die Wahrscheinlichkeit richtiger Klassizierung der Beispiele zu ihren
Begrien gegen 80% läuft. Die Deutung dieses Verhaltens des Netzes ist, dass
seine Ausgabe stets den Begri gepaart mit dem dominanteren Nebenmerkmal
zeigt. Die anderen drei Lernmethoden sind die in Kapitel 5 beschriebenen.
49
100
90
Klassifkikationswahrscheinlichkeit
80
70
unbegrenztes Lernen
selektives Lernen
RL1
RL2
60
50
40
30
20
10
0
0
10
20
30
40
Trainingsmusteranzahl
50
60
70
Abbildung 8.1: Die vier verschiedenen Lernmethoden verglichen für den Fall zweier Merkmale, mit Rauschlevel 0,1. RL1 erzielt ein etwas besseres Klassikationsergebnis als RL2 und das selektive Lernen
Die beiden Methoden RL1 und RL2 sind bei dieser und ebenso bei den folgenden Messungen jeweils experimentell optimiert worden. Für RL1 ist die Grenze
des Übergangs vom Hebb'schen Lernen zu der Lernregel, die den Zusatzterm (5.2)
berücksichtigt, auszumessen. Auÿerdem ist der Parameter Alpha, der die Stärke
der Abschwächung zwischen den Teilnetzen bestimmt, festzulegen. Für RL2 ist
der Schwellwert, den die Miÿtrauenswerte der Netzverbindungen bei einer Abtrennung des Teilnetzes überschreiten, zu bestimmen. Wird bei RL1 von Anfang
an der Zusatzterm verwendet bzw. wird bei RL2 die Schwelle zu niedrig angesetzt,
wird der Prozess der Begrisbildung nicht ermöglicht. Die beiden Lernmethoden
erzielen dann nicht das gewünschte Ergebnis. Der Grund hierfür ist darin zu suchen, dass die Verbindungsabschwächungen, die die Kombinatorik der Merkmale
erleichtern sollen, auch dann jedesmal greifen, wenn die Beispiele gegenüber dem
Begri Verrauschungen zeigen, die während der Iteration korrigiert werden.
50
100
Klassifikationswahrscheinlichkeit
90
80
70
unbegrenztes Lernen
selektives Lernen
RL1
RL2
60
50
40
0
10
20
30
40
50
60
70
80
90
100
Trainingsmusteranzahl
Abbildung 8.2: Begri mit drei Merkmalen, Rauschlevel=0,1
Für das Netz besteht zwischen diesen Neuronen und solchen, die ein Nebenmerkmal kodieren, die durch den Einuss des äuÿeren ihren Wert verändern, kein
Unterschied. Zu dem Zeitpunkt, da die Begrie noch nicht gelernt sind, schlagen
die Testmuster zu bereits erlernten Trainingsmustern (also anderen Beispielen
desselben Begris) anstatt zum Begri selbst um. Die Anzahl der Bitänderungen während der Iteration, die für die Lernregeln RL1 und RL2 eigentlich unerwünscht sind, ist also am Anfang der Trainingsphase hoch. Die experimentelle
Optimierung ergibt für die Messung, die Abbild (8.1) zugrundeliegt, folgende Parameterkonstellation: Schwelle des Übergangs vom Hebb'schen zum Lernen mit
Zusatzterm für RL1: nach 5 Testmustern; Alpha=0.2; für RL2: Miÿtrauensschwelle=4.
Man sieht am Diagramm, dass sich die optimale Methode, RL1, erst zu einem
Zeitpunkt des Trainings nach oben absetzen kann, der kurz nach der Abweichung
des unbegrenzten Hebb'schen Lernens von der Schar nach unten hin liegt. Das
heiÿt, dass RL1 erst nach dem Lernen der Begrie aus der aktiven Netzabkopplung Vorteile empfangen kann.
Die folgende Messung zeigt drei Merkmale. Es ist hier, wie auch aus den
51
100
Klassifikationswahrscheinlichkeit
90
80
70
unbegrenztes Lernen
selektives Lernen
RL1
RL2
60
50
40
30
0
10
20
30
40
50
60
70
80
90
100
Trainingsmusteranzahl
Abbildung 8.3: Drei Hauptmerkmale kombiniert mit 2 möglichen Nebenmerkmalen, d=0,1. RL2 erzielt das beste Ergebnis mit einer Miÿtrauensschwelle von
12
Betrachtungen des Kapitels über drei Merkmale schon zu erwarten war, keine
wesentliche Änderung eingetreten: das letztlich erfolgreiche Klassizieren hängt
von dem Zeitpunkt ab, an dem sich das kleinste Teilnetz (hier mit g=0,1) als
eigenständiges Netz durchsetzen kann. Als optimale Parameterkonstellation ergibt sich experimentell: RL1 = wie bei vorheriger Messung, RL2: Schwelle=6.
Die dritte Messung mit Reinforcement-Learning betrit einen Fall, wie er in der
Agentensimulation vorkommen kann. Im Hauptnetz sollen 3 Begrie gelernt werden, in der Test-/Trainingsmenge benden sich also 3 verschiedene Typen von
Beispielmustern. Sie kombinieren mit einem zweiwertigen Nebenmerkmal. Interessant ist an der Messung, dass das selektive Hebb'sche Lernen wieder nur sehr
knapp unter der optimalen Lernmethode (in diesem Fall RL2 mit Schwelle= 12)
liegt. Dadurch, dass in dieser Messung im Gegensatz zu den vorherigen nicht ein
Pixel des Hauptmusters mit ungefähr gleich vielen unterschiedlich vorgezeichneten Pixeln der Nebennetze kombiniert, ist es nicht so leicht einzusehen, warum
52
100
90
Klassifikationswahrscheinlichkeit
80
70
unbegrenztes Lernen
selektives Lernen
RL1
RL2
60
50
40
30
20
10
0
0
10
20
30
40
Trainingsmusteranzahl
50
60
70
Abbildung 8.4: Im Falle zufällig erzeugter Nebenmerkmale streben die beiden
Lernverfahren unbegrenztes Lernen und selektives Lernen gegen eine suboptimale
Asymptotik, während RL1 und RL2 gegen eine 100%ige Klassikationsfähigkeit
streben
die Merkmalskombinatorik funktioniert. Der Grund dafür liegt wie in Messung
zu Abbildung (6.3) darin, dass der Beitrag der anderen beiden Muster, die nahe
der Orthogonalität zum angesteuerten Muster liegen, klein ist. Damit können die
wesentlichen Trainingsbeiträge wiederrum auf die Muster, die zu einem Hauptbegri gehören, reduziert werden, und man gelangt wieder zu dem Fall von einem
Hauptbegri. Die Lage ändert sich, wenn das Konzept der Nebenmerkmale in
der Weise erweitert wird, dass auch diese jetzt zufällig erzeugt werden können,
also nicht mehr nur zweiwertig mit Zwischenstufen sind. In der letzten Messung
kombinieren zwei zufällig erzeugte Hauptbegrie mit drei zufällig erzeugten Nebenmerkmalen. Wie man am Messergebnis sieht, braucht man in diesem Fall
tatsächlich eine der beiden erweiterten RL-Methoden, um einen Klassikationserfolg mit der Asymptotik nahe 100% zu erreichen. Die Parameterkombination
für diesen Fall ist: RL1: Übergangsschwelle = 6; Alpha=0.3; RL2: Misstrauensschwelle=8.
53
Kapitel 9
Zusammenfassung und Ausblick
Die Ausgangsfragestellung der Arbeit war, inwiefern auf dem standardmäÿigen
Hopeld-System Merkmalskombinatorik betrieben und wie das System erweitert werden kann, wenn es bzgl. dieser Aufgabe an seine Grenzen stöÿt. Das
erste wichtige Ergebnis ist, dass Merkmalskombinatorik gelingt, wenn bestimmte Bedingungen sowohl von merkmalskodierenden Mustern (Rauschlevel nicht zu
hoch, inverse Nebenmerkmale) als auch von der Trainingsmenge erfüllt werden
(möglichst ausgewogenes Verhältnis aller Begrisausprägungen). Es hat sich gezeigt, dass der Übergang von der Kombination zweier zur Kombination dreier
das Problem nicht wesentlich kompliziert. Ein weiteres Ergebnis, das mit dem
standardmäÿigen Betrieb des Hopeld-Systems erreicht wurde, besagt, dass die
Fähigkeit zur Begrisbildung von der Art der gewählten Repräsentation der Nebenmerkmale abhängt. Im Falle redundanter Nebenmerkmale hat ein Netz, das
die Merkmale assoziiert, bei der Wahl von Zufallsmusters als Nebenmerkmale Vorteile, bei zueinander inversen Mustern hingegen Nachteile gegenüber einem Netz,
das die Merkmale durch von eine von auÿen herbeigeführte Trennung getrennt
verarbeitet. Um im Fall unabhängiger Merkmale die Unabhängigkeit in der Verarbeitung zu gewährleisten, wurde das Hopeld-System erweitert, indem Ansätze
aus dem Bestärkenden Lernen übernommen wurden, die die Trennung von Netzteilen, die unterschiedlichen Merkmalen zuzuordnen sind, begünstigen. Es zeigt
sich anhand von Messungen, dass die Erweiterungen des ursprünglichen Systems
die Leistungsfähigkeit in der Erkennung unterschiedlicher Begrisausprägungen
verbessern und zum Teil sogar erst ermöglichen. Es ist mit den Ergebnissen dieser Arbeit also möglich, den nächsten Schritt, die Kommunikiation Neuronaler
Netze mit Hilfe von Begrisausprägungen, zu gehen. Ein Ansatzpunkt für weitere
Verbesserungen des vorgestellten Lernsystems besteht darin, die Richtungen der
Abhängigkeiten zwischen den verschiedenen Merkmalen zu berücksichtigen, eine
Trennung der Verbindungen von Teilnetz A nach B also nur dann herbeizuführen, wenn die Implikation Merkmal in A führt zu zugeordnetem Merkmal B ungültig ist, nicht aber schon in dem Fall, dass dieses Kriterium in Gegenrichtung
gilt. Diese Verbesserung würde es einem erlauben, die Vorteile von assoziierten
54
Merkmalen auszunutzen.
55
Kapitel 10
Anhang- Details zu Rechnungen
10.1 Kombinationen zweier Merkmale, Rauschlevel 6= 0
Um einen Ansatz für den erwarteten Überlapp-Vektor zu gewinnen, müssen für
die beiden Fälle a1 und a2 die Erwartungswerte für den Überlapp berechnet
1
werden, wobei ma ≡ m1 die Überlappwerte für die angesteuerte Ausprägung bezeichnet (Ausprägung 1 wird also auf Fixpunkteigenschaft überprüft). Der Netzzustand S zeige die Begrisausprägung 1, dann gilt:
m1 =
1 X 1
ξ Si
N i i
= P(ξi1 ist gegenüber Si invertiert) − P(Vorzeichen von ξi1 und Si sind gleich)
= (1 − d) − d
= (1 − 2d)
(10.1)
Für die zweite Kombination ergibt sich entsprechend:
m2 =
1 X 2
ξ Si
N i i
2
2
= P(Ri = 1 ∧ Ria = 1) + P(Ri = (−1) ∧ Ria = (−1))
2
2
−P(Ri = 1 ∧ Ria = (−1)) − P(Ri = (−1) ∧ Ria = 1)
= (1 − d)(1 − g) + dg + (1 − d)g + d(1 − g)
= (1 − 2d)(1 − 2g)
(10.2)
Für den betrachteten Fall lautet die Gleichung (3.22):
1
µ
µ
m = hhξ tanh(m
1
P
X
ν=1
56
ν
ξ +m
2
P
X
P 1 +1
ξ ν ii
(10.3)
Weiterführung der Rechnung für µ = 1 und Erweiterung der vorigen Gleichung
mit (ξ 1 ξ 1 ) = 1 ergibt:
1
1
1
1
m = hhtanh(m + m
P
X
ν 1
P
X
2
ξ ξ +m
ν=2
ξ ν ξ 1 ii
(10.4)
P 1 +1
Ersetzung der ξ ν nach dem Schema ξ µ = Rµ Ra X :
1
m
1
1
= hhtanh(m + m
1
P
X
1
a1
ν
a1
R R XR R X + m
2
ν=2
= hhtanh(m + m
1
X
1
2
R1 Ra XR2 Ra Xii
P 1 +1
P1
1
P
X
1
ν
2
R R +m
ν=2
P
X
1
2
R1 Ra R2 Ra ii
(10.5)
P 1 +1
1
2
Man macht jetzt eine Fallunterscheidung nach (R1 = ±1) und nach (Ra Ra =
±1), womit sich vier Hauptterme für die Mittelwertgleichung nach dem Schema
1
2
m1 = 2(PArg > 0) − 1 (siehe 6.9) ergeben. Mit P(Ra Ra = 1) = (1 − g) ,
P
P
1
P(R1 = 1) = (1 − d) und Arg 0 = m1 ± m1 Pi=2 Ri ± m2 Pi=P 1 +1 Ri erhält man:
³
1
2
m1 = 2 (1 − g)(1 − d)P(Arg 0 > 0|Ra Ra = 1, R1 = 1)
1
2
1
2
+g(1 − d)P(Arg 0 > 0|Ra Ra = −1, R1 = 1)
+(1 − g)dP(Arg 0 > 0|Ra Ra = 1, R1 = −1)
´
1
2
+gdP(Arg 0 > 0|Ra Ra = −1, R1 = −1) − 1
1
(10.6)
2
Auswertung des 1. Summanden: Aus R1 > 0 und Ra Ra > 0 folgt:
0
1
P(Arg > 0| + 1, +1) = P(m + m
1
P
X
ν=2
1
2
R +m
P
X
R2 > 0)
ν=P 1 +1
P1
P
X
m2 X
1
= P(
R > −1 −
R2 )
m1
1
ν=2
(10.7)
ν=P +1
P
Bei n2 Einsen wird die Summe rechts vom Ungleichheitszeichen zu Pν=P 1 +1 R2 =
¡ 2¢
2n2 − P 2 . Dies geschieht mit einer Wahrscheinlichkeit von PnIII
= Pn2 (1 −
2
2
d)n2 dP −n2 . Bei n1 Einsen in der Summe links vom Ungleichheitszeichen nimmt
P 1
1
diese den Wert: Pν=2 Rd = 2n1 − P 1 − 1 an. Mit Hilfe dieser Gleichungen kann
57
(10.3) so hingeschrieben werden:
P(Arg 0 > 0| + 1, +1) = P(n > (P 1 −
m2
(2n2 − P2 ))/2
m1
µ 2¶
P
X
P
2
=
(1 − d)n2 dP −n2 ·
n2
n2 =0
1 −1
µ 1
¶
PX
P −1
1
(1 − d)n dP −n
n
2
1 m2
2
n1 >P − m (2n2 −P )
1
(10.8)
Die Berechnung der Terme der anderen 3 Summanden aus (10.6) läuft analog
und sie lauten:
2. Summand:
µ 2¶
P
X
P
2
P(Arg > 0| − 1, +1) =
(1 − d)n2 dP −n2 ·
n2
n2 =0
1 −1 µ
¶
PX
P1 − 1
1
(1 − d)n dP −n
n
n >s∗
2
0
(10.9)
1
(Mit s∗ = P 1 +
3. Summand:
m2
(2n2
m1
− P 2 ))
µ 2¶
P
X
P
2
2
0
P(Arg > 0| + 1, −1) =
(1 − d)n2 dP −n ·
n2
n2 =0
∗
¶
nX
1 <s µ
P1 − 1
1
(1 − d)n dP −n
n
n =0
2
(10.10)
1
m
(Mit s∗ = 1 +
4. Summand:
P 1 + m2 (P 2 −2n2 )
1
2
)
µ 2¶
P
X
P
2
0
P(Arg > 0| − 1, −1) =
(1 − d)n2 dP
2 −n2
·
n2
∗
¶
nX
1 <s µ
P1 − 1
1
(1 − d)n dP −n
n
n =0
n2 =0
(10.11)
1
m
∗
P 1 − m2 (P 2 −2n2 )
1
(Mit s = 1 +
)
2
Diese 4 Ausdrücke für die Wahrscheinlichkeiten müssen jetzt in (10.6) eingesetzt
58
werden. Es fehlt noch die Berechnung der Werte für m2 , diese läuft analog zu der
für m1 ab. Anschlieÿend muss die Gleichung (10.6) mit Hilfe von MatLab o.ä.
Programmen iterativ auf Selbstkonsistenz überprüft werden. Die Ergebnisse für
3 verschiedene Rauschlevel sind in Abbildung (6.4) aufgetragen.
59
10.2 Herleitung von Gleichung (6.13) aus Abkopplungskriterium
Die betragsmäÿig durchschnittliche Verbindugsstärke w1 innerhalb des kleineren
Netzes ist für den Fall von zwei Merkmalen, einem Hauptmerkmal und Rauschlevel = 0 gleich der Anzahl aller Trainingsvektoren geteilt durch N. Entsprechend
ist w2 gleich der Dierenz der Trainingsteilmengen durch N.
w1 gN > w2 (1 − g)N
1 1
1 2
(P + P 2 )(gN − 1) >
(P − P 1 )N (1 − g)
N
N
(10.12)
(10.13)
Für den Vergleich mit der Rechnung, die auf der Gleichung für die erwarteten
Überlapp-Werte basiert, wird (gN − 1) ungefähr gleich (gN ) gesetzt, da die ausgeschaltete Eigenrückkopplung nicht berücksichtigt wird:
1 1
(P + P 2 )gN > (P 2 − P 1 )(1 − g)
N
(10.14)
Weitere einfache Umformungen ergeben dann:
P 2 (1 − 2g) < P 1
(10.15)
(6.13) lautet (bei Vertauschung der gleichwertigen Rollen von P 1 und P 2 ):
P2
m2
< P1
m1
(10.16)
Da P 1 gröÿer als ein Minimalwert sein muss, bedeutet dies, dass ein dieser Menge
zugehöriges Muster das Zielmuster darstellt, d.h. m1 = 1. Das bedeutet für den
erwarteten Überlapp von m2 = (1−2d), und man kommt zur Darstellung (10.15).
60
10.3 Fixpunktbedingung bei zwei Begrien; Assoziativnetz
Berechnet werden sollen Erwartungswert bzw. Varianz von den Termen:
1 X dµ dµ 1 X dµ dµ b2 b1 b1 b2
R R ,
R R X X X X
N j,µ i j N j,µ i j j j i i
|
{z
} |
{z
}
1
(10.17)
1
b
E1i
b
E2i
(für den Index i (nicht j!)soll gelten: es werden nur Neuronen mit i> g N, also
nur die Neuronen im der Verrauschung unterworfenen Teilnetz betrachtet. Im
kleineren, nicht verrauschten Netz treten keine Fehler auf, also muss die Fixpunktbedingung auch nicht berechnet werden).
b1
Zunächst der Mittelwert von E1i
: die erste Aufspaltung der Summen betrit
die nach den zwei Teilnetzen:
1
b
E(E1i
) = E(
gN −1
N
1 X X dµ dµ
1 X X dµ dµ
Ri Rj ) + E(
R R )
N j=0 µ
N j=gN µ i j
(10.18)
b
Der erste Summand von E(E1i
) ist wegen (Rjdµ = 1):
1
gN −1
X dµ
1 X dµ X
1
E(
Ri
1) = E( gN
Ri )
N µ
N
µ
j=0
= E(g
= g
P
(1 − 2d))
2
P
(1 − 2d)
2
(10.19)
2. Summand.
N
N
N
X
1 X dµ X dµ
1 P
P X dµ
dµ
E(
R
R ) =
Rj − d
R )
E( (1 − d)
N µ i j=gN j
N 2
2 j=gN j
j=gN
1 P
P
E( (1 − d)N (1 − g)(1 − 2d) − dN (1 − g)(1 − 2d))
N 2
2
P
(1 − g)(1 − 2d)2
(10.20)
=
2
=
insgesamt (mit a ≡ 1 − 2d):
1
b
E(E1i
)=
P
a(g + a(1 − g))
2
61
(10.21)
1
b
Der Mittelwert von E2i
ist wegen der Unabhängigkeit der Xi und Xj von den
b1
b1
:
anderen Faktoren in E2i
und wegen E(X) = 0 gleich null. Varianz von E1i
gN −1
N
1 X µ µ
1 2 X X µ µ X µ µ
σ (
R R ) =
σ ( (
Ri Rj +
Ri Rj ))
N jµ i j
N2
µ
j=0
j=gn
2
N
X
1 2 X µ
(R
(gN
+
σ
(
Rjµ ))
i
N2
µ
j=gN
=
(10.22)
(10.23)
Im Argument von σ 2 gibt es zwischen den Summanden bzgl. µ keine Abhängigkeiten:
N
X
1 X 2 µ
b1
σ 2 (E1i
)= 2
σ (Ri (gN +
Rjµ ))
(10.24)
N µ
j=gN
Die weitere Rechnung der Varianz geschieht mit Hilfe der Formel σ 2 (A) = E(A2 )−
E 2 (A) (hier bezieht sich σ 2 auf die Terme innerhalb der Summe über µ):
E((Riµ (gN
+
N
X
Rjµ ))2 )
2
2
= E(g N + 2gN
j=gN
N
X
j=gN
2
2
Rjµ
+
N
X
Rjµ Rkµ ) (10.25)
j,k
2
= g N + 2gN (1 − g)a + N (1 − g)
+ a2 (N 2 (1 − g)2 − N (1 − g))
(E(Riµ (gN +
N
X
Rjµ ))2 = (gN a + (1 − g)N a2 )2
(10.26)
(10.27)
j=gN
= g 2 N 2 a2 + 2g(1 − g)N 2 a3
+ (1 − g)2 N 2 a4
(10.28)
Durch Subtraktion von E 2 (A) von E(A2 ) und Multiplikation mit (P/2 1/N 2 )
b1
ergibt sich dann die Varianz von E1i
:
1
b
σ 2 (E1i
) =
P
(1 − g)
P 2 (1 − g)
(g +
) + P ag(1 − g) + a2 ((1 − g)2 −
− g2)
2
N
2
N
P
−P a3 g(1 − g) − (1 − g)2 a4
(10.29)
2
1
b
Berechnung der Varianz von E2i
:
1
b
σ 2 (E2i
)=
gN −1
N
1 2 X X µ µ b1 b1 b2 b2 X X µ µ b1 b1 b2 b2
σ
(
R
R
X
X
X
X
+
Ri Rj Xi Xj Xi Xj )
i
j
i
j
i j
N2
µ
µ j=gn
j=0
(10.30)
62
Mit Rjµ Xjb Xjb = (−1) für j = 0...gN − 1:
1
σ
2
2
b1
(E2i
)
N
X
1 2 b1 b2 X µ
1
2
= 2 σ (Xi Xi
Ri ((−gN ) +
Rjµ Xjb Xjb ))
N
µ
j=gN
(10.31)
Es wird wieder die Formel σ 2 (A) = E(A2 ) − E 2 (A) angewandt:
N
N
X
X µ
X
2
1
µ b1 b2
ν
Rjµ Xjb Xjb ))
E(Arg ) = E(
Ri ((−gN ) +
Rj Xj Xj )Ri ((−gN ) +
2
µ,ν
j=gN
j=gN
(10.32)
Auswertung des Falls µ = ν :
N
N
X
X
X
1
1
2
2
2 2
b1 b2
E( (g N − 2gN
Xj Xj +
Rj Rk Xjb Xkb Xjb Xkb ) (10.33)
µ
2
X
2
= g N − 2gN
+(
X
j=gN
j,k
1
2
E(Xjb Xjb )
X
1)
+ E(
j
k=j
b1
b1
b2
b2
(10.34)
E(Rj Rk Xj Xk Xj Xk )
j,k6=j
= g2N 2 +
P
(1 − g)N
2
(10.35)
Die Auswertung des Falls µ 6= ν :
E(
X
Riµ Riν g 2 N 2 )
−
2Riµ gN
N
X
1
1
2
2
E(Rjµ Rjν Xjb Xjb Xjb Xjb ) +
j=gN
=
1
2
E(Rjν Xjb Xjb )
−
2Riν gN
j=gN
µ,ν6=µ
+
N
X
N
X
1
2
E(Rjµ Xjb Xjb )
j=gN
X
1
1
2
2
E(Rjµ Rkν Xjb Xkb Xjb Xkb )
(10.36)
j,k6=j
P (P − 2) 2 2 2 P (P − 2)
g N a +
(1 − g)N a2
4
4
(10.37)
Wegen der statistischen Unabhängigkeit der einzelnen Faktoren X und E(X) = 0
sind der 2., 3. und 5. Summand gleich null. Mit (E(Arg))2 = 0 und Multiplikation
b1
mit 1/N 2 ergibt sich σ 2 (E2i
) zu:
1
b
σ 2 (E2i
)=
P 2 (1 − g) (P − 2) 2 2 (P − 2)
(g +
+
g a +
(1 − g)a2 )
2
N
2
2N
63
(10.38)
10.4 Übersicht über verwendete Abkürzungen
Buchstabe
N
bezeichnete Gröÿe
Anzahl der Neuronen
F
H
P
Pi
freie Energie des Netzes
Energiefunktion des Netzes
gesamte Trainingsmenge des Netzes
Teil der Trainingsmenge
S
Zustand eines Neurons
X
Begri
Ra
Merkmalsmatrix
R
Verrauschungsmatrix
Z
a
Zustandssumme
Hilfsgröÿe: a = (1 − 2d)
ai
d
Index der Begrisausprägung
Rauschlevel
g
Anteil d. Teilnetzes am Gesamtnetz
hi
Netzeingabe für Neuron i
64
Erklärung
Neuronenanzahl des gesamten Netzes
alle Trainingsmuster
Menge der Trainingsmuster für eine spezielle
Ausprägung eines Begriffes
kann Werte 1 oder -1 annehmen
Hauptmerkmal + typische(s)
Nebenmerkmal(e)
beschreibt die Art der
Merkmalskombination
beschreibt die Verrauschung eines Beispiels gegenüber dem Begri
Hilfsgröÿe, die sich rechnerisch häug ergibt
Wahrscheinlichkeit
der Invertierung eines
einzelnen Musterbits
bei g = 0.1 und einer Gesamtnetzgröÿe von N =
100 umfasst das Teilnetz
10 Neuronen
Buchstabe
m
~
bezeichnete Gröÿe
Überlapp-Vektor
wij
Verbindungsgewicht
β
µ
ξ
Kehrwert der Pseudotemperatur T
Index für Begrisausprägung
Mustervektor
65
Erklärung
Beschreibt Überlapp zwischen den Trainingsmustern und dem Netzzustand
Gewicht zwischen Neuronen i und j
bei den durchgeführten
Messungen stellt dieser
ein Beispiel für einen Begri dar
Abbildungsverzeichnis
3.1
3.2
Schema der Architektur des Hopeldnetzes mit 4 Neuronen . . . .
Beispiel für eine Begrisbildung . . . . . . . . . . . . . . . . . . .
12
19
5.1
Schema des Zusammenspiels von Agent und Umgebung beim Bestärkenden Lernen . . . . . . . . . . . . . . . . . . . . . . . . . .
23
6.1
6.2
Beispiel für zwei Ausprägungen eines Begris . . . . . . . . . . . .
Schwelle des Mengenverhältnisses P 1 und P 2 für unterschiedlich
groÿe Netze aufgetragen gegen die Gesamtmenge der Trainingsmuster, g=0.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gemessener und theoretischer Verlauf der Schwelle für das Mengenverhältnis im Falle variabler Neuronenzahl, die für die Representation des sekundären Merkmals verwendet wird (Netz mit 100
Neuronen), durchschnittliches Verbindungsgewicht . . . . . . . . .
Vergleich zwischen Mean-Field und Messung bzgl. Überlapp des
Netzzustandes zum typischem Trainingsmuster, 100 Neuronen, g=0,8,
verschiedene Rauschlevel . . . . . . . . . . . . . . . . . . . . . . .
Hamming-Abstände zwischen Ausgabe und Zielmuster für verschiedene Rauschlevel, zwei Merkmale, 100 Neuronen, g=0,8 . . . . . .
Ergebnisse von Einzelmessungen zu Abbildung (6.5) . . . . . . . .
Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung beider Merkmale, inverse Nebenmerkmale . . . . . . . . .
Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung des Hauptmerkmals, inverse Nebenmerkmale . . . . . . . .
Vergleich zischen Assoziativnetz und getrenntem Netz bei Verrauschung des Hauptmerkmals, Zufallsmuster als Nebenmerkmale . .
6.3
6.4
6.5
6.6
6.7
6.8
6.9
7.1
7.2
7.3
Messung zur Kombination von drei Merkmalen, Rauschlevel =0,
g1 = 0, 1 , g2 = 0, 2 . . . . . . . . . . . . . . . . . . . . . . . . . .
Schema der Trainingsmusterverteilung für Messung 7.3 . . . . . .
Messung mit drei Merkmalen, d=0, 100 Neuronen, g1=0,1, g2=0,2
66
29
32
33
37
38
39
40
41
42
46
47
48
8.1
8.2
8.3
8.4
1. Messung zum Bestärkenden Lernen, ein Begri, zwei Merkmale, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1:
Übergangsschwelle= 5, α = 0, 2; RL2: Misstrauensschwelle= 4 . .
2. Messung zum Bestärkenden Lernen, ein Begri, drei Merkmale,
d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1:
Übergangsschwelle= 5, α = 0, 2; RL2: Misstrauensschwelle= 6 . .
3. Messung zum Bestärkenden Lernen, drei Begrie, zwei Merkmale, d=0,1, 100 Neuronen; Parameter der RL-Methoden: RL1:
Übergangsschwelle= 15, α = 0, 3; RL2: Misstrauensschwelle= 12 .
4. Messung zum Bestärkenden Lernen, zwei Begrie, 2. Merkmal kann 3 Werte annehmen, d=0,1, 100 Neuronen; Parameter
der RL-Methoden: RL1: Übergangsschwelle= 6, α = 0, 2; RL2:
Misstrauensschwelle= 8 . . . . . . . . . . . . . . . . . . . . . . . .
67
50
51
52
53
Literaturverzeichnis
[1] Amit, D.J., H. Gutfreund, H. Sompolinsky Statistical mechanics of neural
networks near saturation Annals of Physicis 173:30-67 (1987)
[2] Bovier, A., Gayrard, V. Statistical mechanics of neural networks: The Hopeld model and the Kac-Hopeld model Markov Proc. Rel. Fields 3, 392-422
(1997)
[3] Brousse, O. Generativity and systematicity in neural network combinatorial
learning Ph. D. thesis, University of Colorado, Boulder, CO. (1993)
[4] Davey, N., Hunt A comparative analysis of high performance associative memory models Proc. of 2nd Intern. ICSC Symposium of Neural Computation
(NC' 2000)
[5] Hancock, E. R., Pelillo, M. A bayesian interpretation for the exponential
correlation associative memory Technical Report Series on Computer Science
CS-97-7 (1997)
[6] Held, Richard Plasticity in Sensory-motor Systems, Scientic American 111965
[7] Hertz, J., A. Krogh und R.G. Palmer Introduction to the theory of neural
computation Addison-Wesley
[8] Hirsch, H. V. B. and Spinelli, D. N. Visual experience modies distribution
of horinzontally and vertically oriented receptive elds, Science 168 869-870
(1970)
[9] Hopeld, J. J. Neural Networks and physical systems with emergent collective
computational abbilities Proceedings of the National Academy of Sciences,
79:255-2558 (1982)
[10] Imada, A., K. Araki Evolution of a Hopeld associative memory by the Breeder Genetic Algorith Proc. of the Seventh Int. Conf. of Genetic Algorithms,
p. 784-791 (1997)
68
[11] Jünger, M. , Rinaldi G. Relaxation of Max-Cut-Problem and computation of
spin-glass ground states P.Kischka (ed.) , Proc SOR 1997 (1997)
[12] Krüger, Guido Begrisbildung in Hopeld-Netzen Diplomarbeit an der
WWU Münster (2003)
[13] Löwe, Matthias On the storage capacity of Hopeld models with weakly correlated patterns Ann. Apl. Probab. 8, 1216- 1250 (1998)
[14] Neubauer, A. C. Jäten im Gehirn Gehirn und Geist Nr .2 44-46 (2002)
[15] Shatz, Carla J. Das sich entwickelnde Gehirn, Spektrum der Wissenschaft
11- 1992
[16] Singer Hirnentwicklung und Umwelt, Spektrum der Wissenschaft 3- 1985
[17] Smith, Kate A. Neural networks for combinatorial optimization: A review of
more than a decade of research INFORMS Journal on computing (1999)
[18] Stader, J. Applying Neural Networks AIAI - IR- 11, 1992
[19] Sutton, R.S., A. G. Barto Reinforcement Learning- An Introduction MIT
Press Cambridge, Massachusetts (1998)
[20] Zell, A. Simulation neuronaler Netze Addison-Wesley (1994)
69
Herunterladen