Einführung in die Physikalische Optimierung verfasst von Markus Zizler Mai 2007 Fakultät für Physik Universität Regensburg Prof. Dr. Ingo Morgenstern Inhaltsverzeichnis 1 Grundlagen der Spinglasphysik 1.1 Magnetismus . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Theoretische/Experimentelle Ergebnisse . . . . . . . . . 1.2.1 RKKY-Wechselwirkung . . . . . . . . . . . . . . 1.2.2 Frustration . . . . . . . . . . . . . . . . . . . . . 1.2.3 Phasenübergang . . . . . . . . . . . . . . . . . . 1.2.4 Suszeptibilität, Wärmekapaziät, Magnetisierung 1.3 Mathematische Spinglasmodelle . . . . . . . . . . . . . . 1.3.1 Ising Modell . . . . . . . . . . . . . . . . . . . . . 1.3.2 Heisenberg Modell . . . . . . . . . . . . . . . . . 1.3.3 XY-Modell . . . . . . . . . . . . . . . . . . . . . 1.3.4 Edward-Anderson Modell . . . . . . . . . . . . . 1.3.5 ±J-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 4 4 6 7 7 10 10 11 12 12 13 2 Monte-Carlo-Methoden 14 2.1 Statistische Physik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Simple Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3 Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 Physikalische Optimierungsalgorithmen 3.1 Grundlagen . . . . . . . . . . . . . . . . . 3.1.1 Nebenbedingungen . . . . . . . . . 3.1.2 Konfigurations- und Lösungsraum 3.1.3 Move und Nachbarschaft . . . . . . 3.2 Energielandschaft . . . . . . . . . . . . . . 3.3 Algorithmen . . . . . . . . . . . . . . . . . 3.3.1 Random Walk und Greedy . . . . 3.3.2 Simulated Annealing - SA . . . . . 3.3.3 Threshold Accepting - TA . . . . . 3.3.4 Great Deluge Algorithm - GDA . . 3.4 Sonstiges . . . . . . . . . . . . . . . . . . Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 22 22 22 24 24 25 26 28 29 32 1 Kapitel 1 Grundlagen der Spinglasphysik Die Geschichte der Physik war bis Anfang der 70er dadurch gekennzeichnet, dass man sich auf geordnete Systeme konzentrierte. Ungeordnete Systeme wurden fast vollständig vernachlässigt. Man untersuchte ideale Strukturen (z.B. perfekte Kristalle), weil man dazu leichter Theorien zur Beschreibung der physikalischen Eigenschaften entwickeln konnte. Da solch ideale Strukturen in der Realität kaum vorkommen und im Labor nur bedingt herstellbar sind, hat man begonnen, auch ungeordnete Systeme zu erforschen. So untersuchte man etwa die Auswirkungen von Verunreinigungen auf die physikalischen Eigenschaften von Kristallen. Dazu wurden in geringer Konzentration magnetische Atome in ein nicht-magnetisches Wirtsmaterial eingebracht, um die magnetische Wechselwirkung (WW) zu untersuchen. Beispielsweise kann man Eisenatome in einem Goldkristall betrachten (Au1−x F ex , x: Konzentration). Bei einer Eisenkonzentration im Goldkristall zwischen 1% und 12% wurde das in diesem Kapitel erklärte, charakteristische Verhalten von Spingläsern beobachtet. Die abstrakten Ursachen für dieses Verhalten sind auch in ökonomischen Systemen zu finden; daher haben Spingläser eine große Bedeutung bei der Optimierung diverser ökonomischer Problemstellungen. Das Wort Spinglas hängt einerseits zusammen mit dem sog. Spin aus der Quantenmechanik, der für magnetische Effekte verantwortlich ist. Zum anderen weist der Begriff Glas auf ein ungeordnetes System hin: Gewöhnliches Fensterglas etwa zeigt keine geordnete Kristallstruktur wie z.B. Diamant; die Atome sind unregelmäßig angeordnet. Die Eigenschaften von Spingläsern beruhen auf Konkurrenz und Zufälligkeit der magnetischen Wechselwirkungen. Um das Phänomen der Spinglasphase besser zu verstehen, werden zunächst einige Grundlagen zu den Systembestandteilen erläutert. Anschließend werden experimentelle Ergebnisse von Untersuchungen an Spingläsern und die grundlegenden Effekte der Systemdynamik beschrieben. Den Abschluß dieses Kapitels bilden mehrere Modellierungsvarianten für Spingläser, die für ComputerSimulationen entwickelt wurden; die Simulationen bilden dann den Ausgangspunkt für die physikalischen Optimierungsverfahren. 2 KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 1.1 3 Magnetismus Die einfachste Theorie des Magnetismus geht davon aus, dass sich bestimmte Atome wie Stabmagneten verhalten. Sie erzeugen einerseits Magnetfelder, andererseits werden sie auch von äußeren Magnetfeldern beeinflußt; die Atome wechselwirken also miteinander. Richtung und Stärke der magnetischen Effekte lassen sich durch das sog. magnetische Moment oder den Spin beschreiben; der Spin wird erzeugt durch die geladenen Teilchen aus denen ein Atom zusammengesetzt ist. Bringt man nun ein Material mit magnetischen Atomen in ein äußeres Magnetfeld, so werden sich die Spins in einer bestimmten Richtung orientieren. In einigen Stoffen können auch starke interne Effekte zu einer solchen Ausrichtung führen. Bei einem dieser internen Effekte drehen sich alle Spins in die gleiche Richtung. Diese Orientierung ist insbesondere für die starken magnetischen Eigenschaften von Eisen verantwortlich; den Effekt bezeichnet man daher als Ferro-Magnetismus. Er wird bewirkt durch die Austausch-WW der Metallatome, die durch den Überlapp der Elektronenhüllen unmittelbar benachbarter magnetischer Atome hervorgerufen wird. Ein Abbildung 1.1: Schematische Darstellung eines Ferromagneten anderer interner Effekt ist der Anti-Ferromagnetismus: Die Spins sind hier antiparallel ausgerichtet, d.h. benachbarte Spins richten sich jeweils in die entgegengesetzte Richtung aus. Der Grund hierfür liegt wiederum in dem speziellen Überlapp der Elektronenhüllen. Die magnetische Gesamtenergie eines Ferromagneten hat genau dann ein Abbildung 1.2: Schematische Darstellung eines Anti-Ferromagneten Minimum, wenn alle Spins in die gleiche Richtung zeigen. Man muß also Energie aufwenden, um einen Spin in die entgegengesetzte Richtung zu klappen. Durch Zufuhr von Wärme-Energie wird die Ordnung des Systems beeinflußt. Übersteigt die Temperatur den Curie-Punkt, so ändert sich die Richtung der einzelnen Spins aufgrund der ther- KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 4 mischen Bewegung. Die ferro-magnetische Ordnung des Systems verschwindet und das Material wird paramagnetisch. Man spricht bei dieser radikalen Änderung der Stoffeigenschaften, die hauptsächlich von magnetischem Verhalten geprägt sind, von einem Phasenübergang. Die Spins sind statistisch in alle Richtungen verteilt; die Magnetisierung des Systems verschwindet. Spingläser zeichnen sich nun dadurch aus, dass Abbildung 1.3: Schematische Darstellung eines Paramagneten sie sowohl ferromagnetische als auch anti-ferromagnetische WWen besitzen, die miteinander konkurrieren [St93]. Es handelt sich dabei um eine neue Art der magnetischen Ordnung. Das Spinglasverhalten wurde mittlerweile in einer Vielzahl von Metallen, Halbleitern und Isolatoren gefunden. 1.2 1.2.1 Theoretische/Experimentelle Ergebnisse RKKY-Wechselwirkung Der Spinglaszustand unterscheidet sich intrinsisch von herkömmlichen magnetischen Systemen. Bekannte Beispiele für metallische Spingläser sind Kupfer mit einer Manganbeimischung (Cux M n1−x ) und mit Eisen verunreinigtes Gold (Au1−x F ex ). Ein häufig untersuchtes, isolierendes Spinglas ist Europiumsulfid (EuS), das mit nichtmagnetischen Strontium-Ionen (Sr) magnetisch verdünnt ist (Eux Sr1−x S); EuS selbst ist ferromagnetisch. Es existieren jedoch zwei miteinander konkurrierende WWen: die negative Kopplung zwischen benachbarten Eu-Ionen und die positive Kopplung zwischen übernächsten Nachbarn, die dem Betrag nach halb so groß ist. Neben der Temperatur bestimmt dann vor allem die Konzentration x das magnetische Verhalten. Die Abbildung 1.4 zeigt ein Phasendiagramm mit einem direkten Übergang von der paramagnetischen Phase in die Spinglas-Phase, und zwar bei einer Konzentration x der Eu2+ -Ionen zwischen 13% und 51%. Je nach Mischungsparameter x und Temperatur T findet man eine ferromagnetische Phase (FM), eine paramagnetische Phase (PM) und eine Spinglas-Phase (SG). Für x-Werte zwischen 51% und 65% kommt es bei Erniedrigung der Temperatur zunächst zu einem Übergang von der paramagnetischen in die ferromagnetische Phase. Infolge der konkurrierenden WW ist die ferromagnetische Ordnung dabei zwar stark gestört, die Ausbildung des Spinglas-Zustandes tritt aber erst bei tieferen Temperaturen ein [Ko93]. Eine theoretische Erklärung für das Entstehen der positiven und negativen magnetischen Kopplungen liefert die RKKY-WW, benannt nach Rudermann, Kittel, Kasuya KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 5 Abbildung 1.4: Magnetisches Phasendiagramm von Eux Sr1−x S und Yosida. Diese Austausch-WW beruht auf einer ”Polarisation” der Leitungselektronen durch die magnetischen Momente der Atome. Diese Polarisation ist eine Ausrichtung des Spins der Leitungselektronen; alle geladenen Teilchen, und damit auch die Elektronen, besitzen ein solches magnetisches Moment. Die polarisierten Leitungselektronen wiederum beeinflussen die magnetischen Momente der Atome, und so kommt es zu einer WW zwischen den Atomen selbst. Für die Stärke der Kopplung Jij gilt: Jij ∝ cos(2k~F · r~ij ) 3 rij (1.1) Dabei ist k~F der Fermi-Wellenvektor. Für positive Werte Jij (r) ist die WW ferromagnetisch, für negative Werte ist sie antiferromagnetisch. Die RKKY-WW hat eine lange Reichweite über mehrere Atome hinweg und zeigt oszillatorisches Verhalten, d.h. je nach Abstand der Atome kommt es zu einer ferromagnetischen oder anti-ferromagnetischen Kopplung der Spins (Abb. 1.5). Es handelt sich also um eine konkurrierende WW, die bei einer statistischen Verteilung der Atome im Kristall zur Ausbildung von Spinglaseffekten führen kann. Das Atom mit nicht verschwindendem magnetischen Moment sitzt im Mittelpunkt von konzentrischen Kugelschalen abnehmender WW-stärke (Abbildung 2.6). Ferro- und antiferromagnetisches Verhalten wechselt von Schale zu Schale; die Stärke der jeweiligen WW nimmt mit zunehmendem Radius ab. KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 6 Ein Spinglas kann entstehen, wenn Atome und Leitungselektronen wechselwirken. Die Elektronen übertragen die WW zwischen den Atomen, deren Spins unter dem Einfluß anderer Atome und der umgebenden Elektronen umklappen können. Abbildung 1.5: Schematischer Plot der abstandsabhängigen RKKY-WW. 1.2.2 Frustration In einem Spinglas wird damit etwa die eine Hälfte der Atompaare ferromagnetisch, die andere Hälfte antiferromagnetisch wechselwirken. Aufgrund dieses dualen Verhaltens ist es möglich, dass ein Atom seinen Spin nicht so orientieren kann, dass seine WWen mit allen anderen magnetischen Atomen abgesättigt werden. Zur Beschreibung dieses Effekts kann man sich beispielsweise eine Plaquette von vier magnetischen Atomen in gleichem Abstand voneinander vorstellen (Abbildung 1.6). Die WWen sind betragsmäßig gleich, je nach Atompaar aber positiv oder negativ. Bei einer ungeraden Zahl von positiven (negativen) Kopplungen in der Plaquette können nun nicht alle WWen gleichzeitig abgesättigt werden. Jede denkbare Anordnung der Spins wird zumindest eine der Kopplungen nicht befriedigen, das System ist frustriert. Aus diesem Frustrationseffekt ergibt sich unmittelbar, dass es für solche Systeme mehrere tiefliegende Energiezustände geben kann, d.h. verschiedene Anordnungen der Spins mit gleicher minimaler Energie; man spricht in diesem Zusammenhang von Entartung der Energiezustände. Solche Effekte sind auch charakteristisch für kombinatorische Optimierungsprobleme; durch die Interpretation der Kosten als Energie erhält man mehrere gleichwertige Systemzustände. KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 7 Abbildung 1.6: Schematische Darstellung der Frustration: -J bedeutet eine antiferromagnetische und +J eine ferromagnetische WW der Spins 1.2.3 Phasenübergang Durch die Entartung der niedrigsten Energieniveaus stellt sich die Frage, ob das Spinglas ein neuer Zustand der Materie ist, oder ob es sich nur um einen äußerst trägen Paramagneten handelt. Bei einem wirklichen Phasenübergang hält der Endzustand eine charakteristische Ordnung aufrecht, solange die Temperatur unverändert bleibt. Das Spinglas könnte eine deutlich abgegrenzte Phase sein, deren magnetische Ordnung bei tiefen Temperaturen erhalten bleibt. Es könnte sich beim Spinglas aber auch um einen Paramagneten handeln, dessen dynamisches Verhalten soweit verlangsamt ist, dass es sich nur scheinbar um eine statische Phase handelt. Könnte man beobachten, dass ein oder mehrere Spins ihre Orientierung bei tiefen Temperaturen ändern, dann wäre das ein Beweis für paramagnetisches Verhalten. Dazu müsste man das Spinglas aber über einen sehr langen Zeitraum beobachten. 1.2.4 Suszeptibilität, Wärmekapaziät, Magnetisierung Im Labor kann man allerdings nach Hinweisen auf einen Phasenübergang suchen, der sich durch eine plötzliche Änderung der magnetischen und thermodynamischen Eigenschaften des Spinglases bei einer kritischen Temperatur äußert. Diese Spinglas-Phase zeigt sich in vielen Experimenten, z.B. bei Messungen der Wechselfeldsuszeptibilität χac . Sie gibt Aufschluß über die Reaktion des Spinsystems auf ein sehr schwaches, äußeres magnetisches Wechselfeld. Abbildung 1.7 zeigt, dass χac eine sehr scharfe Spitze bei der Einfriertemperatur Tf hat. Dieser Peak wird aber schon durch kleine Zusatzfelder abgerundet; außerdem ist KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 8 Abbildung 1.7: Magnetische Wechselfeldsuszeptibilität von Eux Sr1−x S er abhängig von der Frequenz und von der Konzentration der verwendeten Materialien. Bei Spingläsern findet man also bei einer Temperatur Tf eine Spitze in der Suszeptibilität χ, was auf einen Phasenübergang hindeutet. Die Wärmekapazität C hingegen hat ein breites Maximum bei einer Temperatur, die über Tf liegt. Was geschieht also bei der Temperatur Tf ? Man vermutete zunächst einen Phasenübergang in eine antiferromagnetische Ordnung. Eine plötzlich auftretende Ordnung müßte sich jedoch in der spezifischen Wärme zeigen. Dem widerspricht aber die Tatsache, dass die spezifischen Wärme bei Tf streng monoton ansteigt und erst oberhalb von Tf ein breites Maximum ausbildet. Zudem zeigen Neutronen-Streuexperimente, dass sich keine periodische Ordnung bildet. Man sieht also weder eine homogene Magnetisierung, noch eine antiferromagnetische Struktur. Eine weitere wichtige Eigenschaft ist der Einfluß der Beobachtungszeit auf die Einfriertemperatur der Spingläser. Beobachtet man Eux Sr1−x S sehr lange, so kann sich Tf um 20 % ändern. Dies zeigt, dass ein Spinglas nie zur Ruhe kommt. Es beinhaltet ein sehr großes Spektrum von Relaxationszeiten, von der mikroskopischen Zeit 10−12 s, der Umklappzeit eines einzelnen Spins, bis hin zu vielen Jahren. Dieses Verhalten findet man auch bei anderen ungeordneten Systemen, wie z.B. Gläsern, Polymeren oder Keramiken. Unterhalb von Tf gibt es viele, in etwa gleichwertige Spinkonfigurationen. Die experimentelle Durchführung bestimmt die eingenommenen Zustände. Um den Mechanismus der langsamen Reaktion von Spingläsern auf Felder oder andere Störungen zu verstehen, wurden Messungen der Magnetisierung gemacht. Im thermischen Gleichgewicht ist die mittlere Magnetisierung M = 0. Kühlt man die Pro- KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 9 Abbildung 1.8: Wärmekapazität und Suszeptibilität für verschiedene Magnetfeldstärken be ohne magnetisches Feld ab (Zero Field Cooling), schaltet man dann ein äußeres Feld ein und kurz danach wieder aus, dann bleibt die Probe magnetisiert (IRM). Das gleiche passiert, wenn man die Probe in einem Magnetfeld abkühlt (Field Cooling) und erst nach dem Abkühlen das Feld abschaltet (TRM). Die Magnetisierung klingt nur sehr langsam wieder ab. Diese remanente Magnetisierung hängt ab von dem vorher angelegten Feld, der Temperatur, der Anschaltzeit und der Abkühlrate. Ihre Existenz zeigt, dass das Spinglas viele stabile Zustände hat. Das ist wohl der wichtigste Unterschied zwischen den ungeordneten Materialien und den reinen Kristallen. Die remanente Magnetisierung ist in Abbildung 1.9 links dargestellt; die Computersimulation rechts davon macht die gute Übereinstimmung zwischen Experiment und theoretischen Modellen deutlich. Überblick Die aufgezählten Phänomene werden mit den Frustrationseffekten im Spinglas verständlich. Bei der Vielzahl von Materialien mit spinglasähnlichem Verhalten zeigt sich, dass vor allem zwei Effekte entscheidend sind: Unordnung und Konkurrenz der positiven und negativen Kopplungen. Dadurch entsteht die Frustration, die eine hochgradige energetische Entartung des Systems bewirkt. Um nun die Eigenschaften von Spingläsern verstehen zu können, wurden vereinfachte Modelle entwickelt, die sich auf die wesentlichen Mechanismen konzentrieren. Auf diese Weise erhält man ein stark idealisiertes Bild von einem Spinglas, das aber trotzdem alle entscheidenden physikalischen Aspekte beinhaltet. KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 10 Abbildung 1.9: Remanente Magnetisierung für eine AuFe-Legierung(links) und eine Computersimulation(rechts) 1.3 Mathematische Spinglasmodelle Die theoretische Beschreibung von Phasenübergängen ist mit großen Schwierigkeiten verbunden. Physikalisch und mathematisch exakte Modelle sind meist nur mit einem großen numerischen Aufwand zu bewältigen. Deshalb wurden vereinfachende Modelle entwickelt, die sich auf die wesentlichen physikalischen Eigenschaften der Materialien beschränken. Vereinfachungen sind aber nur dann zulässig, wenn die charakteristischen physikalischen Eigenschaften des Spinglases nicht verändert werden. Man versucht also abstrakte Modelle zu entwickeln, die zwar möglichst einfach sind, den physikalischen Inhalt jedoch nicht verlieren. Die Verifikation dieser Modelle erfolgt dann durch Vergleich der theoretischen Ergebnisse aus den Simulationen mit dem Experiment. 1.3.1 Ising Modell Spingläser lassen sich mathematisch vereinfacht im Ising-Modell darstellen. Dabei betrachtet man N Plätze in einem 1-, 2- oder 3-dimensionalen Gitter, wobei jedem Gitterpunkt i ein Spin si zugeordnet ist. In diesem Modell hat jeder Spin nur zwei Einstellungsmöglichkeiten: si = +1 für Spin nach oben und si = −1 für Spin nach unten. Aus den Einstellungsmöglichkeiten der Spins folgt dann, dass es bei N Spins 2N Zustände im Phasenraum Γ geben kann. Jede Konfiguration σ ∈ Γ des Gitters läßt sich eindeutig durch den Satz von Variablen σ = s1 , s2 , . . . , sN bestimmen. Folgende Hamilton-Funktion H beschreibt magnetische Systeme im Ising-Modell, wobei die Notation hi, ji bedeutet, daß nur über unmittelbar benachbarte Spinpaare summiert KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK wird. 11 N H=− Hierbei ist: X hi,ji X 1 Jij si sj − gS µB B0 si ~ (1.2) i=1 Jij :Austausch-WW zwischen den Spins si und sj B0 :externes Magnetfeld gS : Lande-Faktor µB :Bohrsches Magneton ~: Plancksches Wirkungsquantum Meist werden die auftretenden Konstanten gS , µB und ~ gleich 1 gesetzt. Man wählt dann B0 so, dass das magnetische Moment pro Spin 1 ist. Es ergibt sich: H=− X hi,ji Jij si sj − B0 N X si (1.3) i=1 Der erste Term beschreibt die Summe der Austauschenergien je zweier Spins si und sj . Der B0 enthaltende Term berücksichtigt die WW der Spins mit einem externen Magnetfeld. Die WW versucht alle Spins gleich auszurichten. Ist die Austausch-WW positiv, dann sind die Spins im Grundzustand parallel orientiert; es ergibt sich eine ferromagnetische Spinstruktur. Bei einer negativen Kopplung Jij erhält man i.Allg. eine antiferromagnetische Spinstruktur. Das Ising-Modell wurde für den eindimensionalen Fall mit Jij = J für nächste Nachbarn (J=0 sonst) von Ising selbst im Jahre 1925 exakt analytisch gelöst. Onsager konnte 1944 - ohne äußeres Magnetfeld - den zweidimensionalen Fall analytisch behandeln, Yang 1952 mit B0 6= 0. Es gibt jedoch keine analytische Lösung für das 3-dimensionale Ising Modell. Die Kopplungskonstanten Jij sind im Allgemeinen theoretisch nur sehr schlecht abzuschätzen. Es ist deshalb zweckmäßig, sie als Parameter aufzufassen, die den experimentellen Ergebnissen angepaßt werden. 1.3.2 Heisenberg Modell Heisenberg entwickelte 1928 auf der von Ising geschaffenen Basis ein verbessertes 3-dim. Modell. Dieses Modell konnte von den zu diesem Zeitpunkt großen Weiterentwicklungen der Quantenmechanik profitieren. Für isotrope Ferromagneten gilt der Hamiltonian: H=− X hi,ji Jij s~i · s~j − Bz N X szi (1.4) i=1 Dabei ist Jij =±J und außerdem gilt |~ si | = 1 und |s~j | = 1. Im Unterschied zum Ising Modell werden hier die Spins als Vektoren betrachtet, die im Raum eine beliebige Richtung einnehmen können. Das Heisenberg-Modell ist sehr allgemein formuliert und enthält das Ising-Modell als 1-dim. Spezialfall. KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 1.3.3 12 XY-Modell Beim XY-Modell handelt es sich um den 2-dim. Fall des Heisenberg-Modells. Sein Hamiltonian lautet: H=− X hi,ji Jij (sxi sxj + syi syj ) − Bx wobei gilt: Man kann s~i als µ (sxi 2 sin Φi cos Φi + N X sxi (1.5) =1 (1.6) i=1 2 syi ) ¶ darstellen und daher mit dem Additionstheorem sin(Φi ) · sin(Φj ) + cos(Φi ) · cos(Φj ) = cos(Φi − Φj ) schreiben: H=− X hi,ji Jij cos(Φi − Φj ) − B N X cos(Φi ) (1.7) (1.8) i=1 Φi , Φj sind die Phasen der Spins; Φi − Φj ist deren Phasendifferenz. Der Spin kann sich in diesem Modell in der xy-Ebene drehen und behält dabei seinen konstanten Betrag von 1 bei. 1.3.4 Edward-Anderson Modell Dieses Modell ist am besten untersucht und beruht ebenfalls auf dem Hamiltonian des Ising-Modells. Die Spins sitzen dabei an den Ecken eines kubischen, 3-dimensionalen Gitters; es handelt sich um Ising-Spins, die nur zwei Einstellmöglichkeiten haben. Die Reichweite der WW ist auf die jeweils nächsten Nachbarn beschränkt. Die grundlegenden Merkmale der Unordnung und Konkurrenz werden über eine geeignete, statistische Verteilung P (Jij ) der Kopplungen eingeführt. Die Stärke der Kopplung Jij hängt wie bei der RKKY-WW vom Abstand der Spins ab, verschwindet jedoch beim EA-Modell bereits bei den übernächsten Nachbarn. Die Verteilung P (Jij ) der Jij entspricht dabei einer Gaußverteilung mit der Standardabweichung ∆ und dem Erwartungswert Null: ! à Jij2 1 P (Jij ) = √ (1.9) exp − 2 2∆ 2π∆ Im EA-Modell wird die site-disorder, also die räumlich zufällige Verteilung der magnetischen Atome mit RKKY-WW, durch eine statistische Verteilung der Kopplungskonstanten Jij (bond-disorder) ersetzt. Die ferro- und antiferromagnetischen WW sind jedoch gleichverteilt. Mit diesem Modell ist es nun möglich, die grundlegende physikalische Fragestellung nach dem Grundzustand des Systems zu untersuchen: wie müssen sich die einzelnen KAPITEL 1. GRUNDLAGEN DER SPINGLASPHYSIK 13 Spins orientieren, damit sich das Spinglas in einem Zustand minimaler Energie befindet? Diese Suche nach dem Grundzustand wird aber durch Frustrationseffekte erschwert. Da die Gesamtenergie von der Anzahl der nicht-abgesättigten Bindungen abhängt, lautet die konkrete Aufgabe: wähle aus der Menge aller möglichen Spineinstellungen diejenige aus, bei der möglichst viele Bindungen abgesättigt werden. 1.3.5 ±J-Modell Toulouse et al. fanden heraus, dass das Verhalten von Spingläsern hauptsächlich durch Frustrationseffekte und damit durch das Vorzeichen von Jij gekennzeichnet ist. Sie entwickelten das sog. ±J-Modell. Auch hierbei sind nur die WWen zwischen den nächsten Nachbarn berücksichtigt. Die Stärke der Austausch-WW Jij ist mit 50%iger Wahrscheinlichkeit jeweils +J und -J. Der Hamilton-Operator kann somit dargestellt werden als: X X si (1.10) H=− Jij si sj − B0 hi,ji i Obwohl dies eine sehr starke Abstraktion von den komplizierten physikalischen Gegebenheiten darstellt, enthält dieses Modell doch die wesentlichen Eigenschaften der Spingläser. Insbesondere zeigen sich Phänomene wie das Einfrieren des Systems in ungeordneten Grundzuständen. Kapitel 2 Monte-Carlo-Methoden 2.1 Statistische Physik In der klassischen Physik können mit Hilfe der Newtonschen Bewegungsgleichungen Probleme mit begrenzter Teilchenzahl exakt beschrieben werden. Kennt man zu einem bestimmten Zeitpunkt t0 alle physikalischen Größen, die den Zustand des Systems bestimmen, so läßt sich der Systemzustand zu allen späteren Zeitpunkten t eindeutig vorhersagen. Bei komplizierten Vielteilchensystemen ist das jedoch nicht mehr möglich; man geht dann dazu über, mit statistischen Größen zu rechnen. Die Auswertung der statistischen Mittelwerte ermöglicht dann Aussagen über das makroskopische Verhalten des Systems. Aufgrund der großen Anzahl von Konfigurationen kommen auch bei der physikalischen Optimierung die Methoden der statistischen Physik zum Einsatz. Die in diesem Zusammenhang betrachteten Systeme können im Allgemeinen als kanonische Ensembles aufgefasst werden. Das sind abgeschlossene Systeme, die sich in thermischem Kontakt mit einem umgebenden Wärmebad befinden. Dabei kann Energie ausgetauscht werden, jedoch keine Teilchen. Befindet sich ein solches System im thermischen Gleichgewicht - d.h. die Temperatur T des Systems ist gleich der Temperatur des Wärmereservoirs - dann kann die Wahrscheinlichkeitsverteilung eines beliebigen Zustands durch die Boltzmann-Verteilung [No02] ¶ µ H(σ) 1 (2.1) Pequ (σ) = exp − Z kB T beschrieben werden. Dabei ist kB die Boltzmann-Konstante und Z die Zustandssumme, die in der statistischen Physik eine zentrale Rolle spielt und bei der Berechnung vieler Größen als Normierungsfaktor auftritt. Die Zustandssumme ist gegeben durch: X Z= exp(−βH(σ)) (2.2) σ∈Γ wobei H die Hamiltonfunktion und β = kB1T ist. Den Mittelwert oder thermischen Erwartungswert einer Observablen A eines diskreten Systems berechnet man sodann 14 15 KAPITEL 2. MONTE-CARLO-METHODEN folgendermaßen: hAi = X σ∈Γ A(σ)Pequ (σ) = ³ ´ H(σ) A(σ)exp − σ∈Γ kB T ³ ´ P H(σ) exp − σ∈Γ kB T P (2.3) Für A = H erhält man den Erwartungswert des Hamiltonians. Dieser läßt sich auch über die logarithmische Ableitung der Zustandssumme ausdrücken: − ∂ 1 X ∂ lnZ = − exp(−βH(σ)) ∂β Z ∂β σ∈Γ 1 X H(σ)exp(−βH(σ)) = Z σ∈Γ = hHi (2.4) Daraus läßt sich die Wärmekapazität ableiten: C = = dhHi dT à !2 X X 1 1 1 H2 (σ)exp(−βH(σ)) − H(σ)exp(−βH(σ)) kB T 2 Z Z σ∈Γ = = ¤ 1 £ 2 hH i − hHi2 2 kB T 1 V ar(H) kB T 2 σ∈Γ (2.5) Aus dem Zusammenhang der Wärmekapazität mit der Varianz V ar(H) ergibt sich auch die Bedeutung dieser Größe für die Simulation: betrachtet man C(T ), so sieht man, in welchem Temperaturbereich sich die größten Umordnungen ergeben. Dabei muß sich das System bei jeder Temperatur im thermischen Gleichgewicht befinden, sonst wäre die Boltzmann-Verteilung nicht verwendbar. Das Gleichgewicht stellt sich allerdings erst nach Einschwingvorgängen ein, was auch bei der Simulation berücksichtigt werden muß. Systeme im thermischen Gleichgewicht werden in der Statistischen Physik numerisch mit Hilfe von Monte-Carlo-Methoden untersucht. Damit bezeichnet man allgemein Algorithmen, die Zufallszahlen verwenden, um Mittelwerte in statistischen Systemen zu berechnen. Wie lassen sich aber nun die theoretisch hergeleiteten Observablen konkret berechnen? Bei einer exakten Berechnung müßte man über sämtliche Zustände summieren, die das System annehmen kann. In der Praxis ist es jedoch schwierig, alle möglichen Konfigurationen zu berücksichtigen. Daher macht man folgendes: die thermischen Erwartungswerte werden unter Verwendung einer nur begrenzten Anzahl von Konfigurationen bestimmt, und zwar so, dass sie den tatsächlichen Werten möglichst nahe kommen. Zwei Verfahren wurden in diesem Zusammenhang entwickelt, das Simple Sampling und das Importance Sampling. KAPITEL 2. MONTE-CARLO-METHODEN 2.2 16 Simple Sampling Die grundlegende Idee des Simple Samplings [BH02] ist es, die exakten Gleichungen für thermodynamische Erwartungswerte durch eine Summe zu ersetzen, in der nicht über alle möglichen Zustände σ1 , . . . , σG summiert wird. Stattdessen summiert man über eine statistische Auswahl charakteristischer Punkte σ1 , . . . , σM , M ≤ G, des Phasenraums. Als Erwartungswert erhält man also für eine Observable: PM A(σi )Pequ (σi ) Ā = i=1 (2.6) PM i=1 Pequ (σi ) Die Punkte σi werden dabei zufällig aus dem gesamten Phasenraum ausgewählt. Im Grenzfall gilt: lim Ā(σ) = hA(σ)i (2.7) M →G Da die einzelnen Konfigurationen mittels gleichverteilter Zufallszahlen bestimmt werden, wird dieses Verfahren Simple Sampling genannt. In der Praxis liefert diese Methode nur für sehr kleine Systeme oder bei sehr hohen Temperaturen gute Ergebnisse, da die Punkte des Phasenraums gleichmäßig ausgewählt werden. Die Verteilungsfunktion einer makroskopischen Variablen ist jedoch stark um ihren Mittelwert zentriert. Deshalb trägt bei jeder Temperatur nur ein sehr kleines Gebiet des Phasenraums signifikant zum thermischen Mittelwert einer Observablen bei. Betrachtet man die Verteilungsfunktion PT (E) der Variablen E so sieht man, dass diese bei der Temperatur T einen Peak bei ET mit einer Halbwertsbreite proportional zu √1N hat. N ist dabei die Zahl der Freiheitsgrade. Außerhalb von kritischen Temperaturbereichen verhält sich die Verteilung dann nach [BH02]: µ ¶ (E − hEiT )2 PT (E) ∝ exp −N (2.8) 2CT 2 Mit sinkender Temperatur nimmt ET ab und damit ändert sich auch die Verteilung. Das zufällige Herausgreifen von Lösungen aus dem Phasenraum beim Simple Sampling richtet sich jedoch nicht nach der Verteilung bei niedrigen Temperaturen, sondern entspricht der Wahrscheinlichkeitsverteilung P∞ (E), also derjenigen, die für unendlich hohe Temperaturen gilt. Die linke Kurve von Abb. 2.1 beschreibt die Verteilung der Energie im kanonischen Ensemble bei tiefen Temperaturen. Die rechte Kurve zeigt die durch Simple Sampling erzeugte Verteilung entsprechend einer unendlich hohen Temperatur mit hHi = 0. Die Verteilung PT (E) ist bei den Energien, die im physikalischen Modell bei tiefen Temperaturen mit hoher Wahrscheinlichkeit auftreten und für das Systemverhalten in diesem Bereich wichtig sind, wegen des exponentiellen Abfalls nur sehr schmal. Beim Simple Sampling werden daher bei tiefen Temperaturen fast ausschließlich physikalisch unwichtige Konfigurationen erzeugt. Daraus ergibt sich eine stark fehlerhafte Berechnung der physikalischen Größen. Diese Nachteile können jedoch mit dem ImportanceSampling von Metropolis vermieden werden. 17 KAPITEL 2. MONTE-CARLO-METHODEN Abbildung 2.1: Wahrscheinlichkeitsverteilung der Energie E 2.3 Importance Sampling Wie beim Simple Sampling wird auch hier eine Auswahl σ1 , . . . , σM aller möglichen Zustände σ1 , . . . , σG betrachtet. Die Punkte σ1 , . . . , σM werden aber nicht gleichmäßig, sondern mit einer bestimmten Wahrscheinlichkeit P (σi ) ausgewählt. Für die Observablen folgt dann: Ā = PM i=1 A(σi )Pequ (σi )/P (σi ) PM i=1 Pequ (σi )/P (σi ) M 1 X = A(σi ) M (2.9) i=1 D.h. der Mittelwert der Observablen A(σ) soll dem arithmetischen Mittel entsprechen. Diese Methode heißt Importance Sampling. Metropolis et al. forderten, aufeinanderfolgende Zustände σi nicht unabhängig voneinander zu generieren; vielmehr soll ein Zustand σi+1 aus einem vorhergehenden Zustand σi mittels einer geeigneten Übergangswahrscheinlichkeit W (σi → σi+1 ) erzeugt werden. Man spricht von einem sog. Markov-Prozess. Die Übergangswahrscheinlichkeit soll dabei so gewählt werden, dass für lim(M → G) die Verteilungsfunktion der Zustände P (σi ) der Gleichgewichtsverteilung Pequ (σ) entspricht. Eine wichtige, aber i.Allg. nicht notwendige Bedingung hierfür ist das Prinzip von Detailed Balance: Pequ (σi )W (σi → σi0 ) = Pequ (σi0 )W (σi0 → σi ) (2.10) Wenn man Gl. 2.1 in Gl. 2.10 einsetzt und umstellt, sieht man, dass die Rate der Übergangswahrscheinlichkeit nur von der Energieänderung ∆H = H(σi0 ) − H(σi ) abhängt: ¶ µ W (σi → σi0 ) ∆H (2.11) = exp − W (σi0 → σi ) kB T 18 KAPITEL 2. MONTE-CARLO-METHODEN Durch diese Gleichung ist die Übergangswahrscheinlichkeit W (σi → σi0 ) jedoch noch nicht vollständig bestimmt. Meist wählt man: · µ ¶¸ ∆H 1 W (σi → σi0 ) = 1 − tanh 2 2kB T ³ ´ exp − k∆H BT ³ ´ = (2.12) 1 + exp − k∆H BT Oder alternativ: W (σi → σi0 ) = ( ´ ³ exp − k∆H BT 1 : für ∆H > 0 : sonst (2.13) Gleichung 2.12 zeigt die Glauber-Funktion, Gl. 2.13 die Metropolis-Funktion. Es wird also eine Folge von Zuständen σi → σi0 → σi00 mit diesen Übergangswahrscheinlichkeiten erzeugt. Es bleibt zu zeigen, dass die daraus resultierende Wahrscheinlichkeitsverteilung P(σi ) gegen Pequ (σi ) konvergiert. Dies kann mit Hilfe des Zentralen Grenzwertsatzes der Wahrscheinlichkeitstheorie gezeigt werden; für den vollständigen Beweis wird auf die einschlägige Literatur verwiesen. Simulation des ±J-Modells Im Folgenden wird erläutert, wie sich das ±J-Modell mit Hilfe des Single-Spin-Flip Algorithmus simulieren läßt. Dazu sei ein Gitter der Größe L×L×L mit periodischen Randbedingungen gegeben. Jeder Gitterplatz i ist durch einen Spin si besetzt; die Anfangskonfiguration ist beliebig. Die WW Jij zwischen zwei benachbarten Spins wird zufällig mit +J oder -J vorbesetzt und bleibt in der Simulation konstant. Man geht nun folgendermaßen vor: 1. Auswahl eines Gitterpunktes i mit Spin si . 2. Berechnung der Energieänderung, wenn sich der Spin von si nach -si dreht. 3. Berechnung der Übergangswahrscheinlichkeit W für diesen Spinflip. 4. Auswahl einer Zufallszahl Z zwischen Null und Eins mit dem Zufallszahlengenerator. 5. Drehung des Spins für Z<W; keine Drehung für Z≥W. 6. Berechnung der interessierenden Grössen: Energie, Wärmekapazität, Magnetisierung, Suszeptibilität. Da sich die aufeinanderfolgenden Konfigurationen nur durch einen einzelnen Spin-Flip unterscheiden, sind die physikalischen Eigenschaften sehr stark korreliert. Zudem ist die Berechnung der thermischen Erwartungswerte relativ rechenintensiv. Daher sollten KAPITEL 2. MONTE-CARLO-METHODEN 19 die Erwartungswerte nur von Zeit zu Zeit berechnet werden. Dies läßt sich so interpretieren, dass die anfänglichen Zustände kein thermisches Gleichgewicht darstellen. So müssen zunächst einmal viele neue Konfigurationen erzeugt werden bis das System im thermischen Gleichgewicht ist, und dann die einzelnen Grössen gemessen werden können Kapitel 3 Physikalische Optimierungsalgorithmen 3.1 Grundlagen Grundsätzlich kann ein Optimierungsproblem wie folgt beschrieben werden [DD91]: Maximiere (oder minimiere) K= H(x) unter den Nebenbedingungen ≤0 gi (x) =0 mit i=1,. . . ,n und x ∈ Γ (3.1) ≥0 Dabei ist H(x) die Ziel- oder Kostenfunktion, die maximiert werden soll. Sie ist eine Abbildung aus der Menge der zulässigen Lösungen (Konfigurationen) x, dem sogenannten Lösungsraum (Konfigurationsraum) Γ, in die Menge der reellen Zahlen: H : Γ −→ R σ −→ H(x) (3.2) Da bei den zu behandelnden Problemen die Gesamtkosten des Systems minimiert werden sollen, betrachtet man i.Allg. nur Minimierungsprobleme. Ein Maximierungsproblem kann durch Multiplikation der Zielfunktion mit dem Faktor -1 erzeugt werden. 20 KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 21 Ein kombinatorisches Optimierungsproblem lautet wie ein Optimierungsproblem [Iba87]: Minimiere H(σ) unter der Bedingung ≤0 =0 mit i=1, . . . ,n und σ ∈ Γ (3.3) gi (σ) ≥0 H(σ) ist wiederum als Zielfunktion eine Abbildung aus der Menge der zulässigen Lösungen σ in die reellen Zahlen, wobei Γ diesmal endlich oder abzählbar unendlich groß ist und aus diskreten Elementen besteht: H : Γ −→ R σ −→ H(σ) (3.4) Des Weiteren gibt es noch kontinuierliche Optimierungsprobleme. In diesem Fall ist der Konfigurationsraum Γ nicht diskret. 3.1.1 Nebenbedingungen Eine häufig auftretende Schwierigkeit bei kombinatorischen Optimierungsproblemen sind die Nebenbedingungen. Grundsätzlich gibt es 2 Möglichkeiten deren Einhaltung zu erreichen: Die erste Möglichkeit besteht darin, Lösungen zu verbieten, die die Nebenbedingungen nicht einhalten. Dabei zerfällt der Suchraum aber in kleine Inseln, die das dort gestrandete System nicht wieder verlassen kann; das Optimum wird damit verfehlt, sofern nicht zufällig gerade diese Insel das Optimum darstellt. Zweitens kann man dem Problem dadurch begegnen, dass man eine Verletzung der Nebenbedingungen prinzipiell zulässt, die Nichteinhaltung aber in Form von virtuellen Kosten, sog. Penalties bestraft. Eine Penalty-Funktion HP ist eine Abbildung HP mit σ ∈ Γ und HP (σ) = λ · g(σ) ½ : Γ −→ R+ σ −→ HP (σ) =0 >0 σ erfüllt Nebenbedingung sonst (3.5) (3.6) λ ∈ R ist dabei ein noch festzulegender Parameter. Für jede Nebenbedingung lässt sich so eine Funktion definieren, die als Zusatzterm in die Zielfunktion aufgenommen wird. Durch die Wahl der λ kann man nun die Einhaltung der Nebenbedingungen mehr oder weniger stark fordern. Eine zulässige Lösung liegt dann vor, wenn alle Nebenbedingungen eingehalten werden. Man kann dabei zwischen harten und weichen Penalties unterscheiden. Bei den harten Penalties müssen die Nebenbedingungen in jedem Fall eingehalten werden; weiche Penalties lassen auch leichte Verletzungen der Nebenbedingungen als gültige Lösung zu. Zum Beispiel kann man bei einem Tourenplanungsproblem mit mehreren Lastwagen eine kleine Überladung einzelner LKWs zulassen. KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 3.1.2 22 Konfigurations- und Lösungsraum Eine Konfiguration ist eine mögliche Lösung des Problems, die aber nicht notwendigerweise alle Nebenbedingungen einhalten muß. Sie stellt ein Element des Konfigurationsraums dar. Die Menge aller Konfigurationen bildet den Konfigurationsraum. Aufgrund der vielen Freiheitsgrade des Systems spricht man von einem hochdimensionalen Raum. Die Menge umfaßt auch Elemente, die ein Problem nicht lösen, weil sie die Nebenbedingungen nicht erfüllen. Als Lösungsraum bezeichnet man die Menge aller zulässigen Kombinationen der festzulegenden Systemparameter. Jedes Element der Menge löst das Problem und genügt den Nebenbedingungen. Der Lösungsraum ist ein Unterraum des Konfigurationsraums; seine Elemente unterscheiden sich lediglich in deren Qualität. 3.1.3 Move und Nachbarschaft Ein wichtiger Grundbegriff für die Optimierung ist der sog. (elementare) Move [Nu93]. Das ist eine Abbildung d aus einer Untermenge des Konfigurationsraums Γd in den Konfigurationsraum Γ: d : Γd −→ Γ σ −→ d(σ) (3.7) Γd nennt man auch Domäne eines Moves. D bezeichnet die Menge aller Moves; die Vereinigungsmenge der Domänen aller Moves ergibt den gesamten Lösungsraum: [ Γd = Γ (3.8) d∈D Zwei Konfigurationen σ, σ 0 ∈ Γ sind genau dann benachbart, wenn ein Move d ∈ D existiert mit: σ 0 = d(σ) (3.9) Unter der Nachbarschaft ND (σ) versteht man die Vereinigungsmenge aller Nachbarn von σ, also alle Konfigurationen σ 0 , die durch einen Move d ∈ D aus der Konfiguration σ hervorgehen: [ N = d(σ) (3.10) d∈D,σ∈Γd 3.2 Energielandschaft Mit Hilfe der Nachbarschaft kann nun auch der Begriff des lokalen und globalen Minimums bzw. Maximums bestimmt werden: Eine Lösung σmin ∈ Γ heißt globales Minimum, wenn für alle Lösungen σ im Lösungsraum Γ gilt: H(σmin ) ≤ H(σ) ∀ σ∈Γ (3.11) KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 23 σmax ∈ Γ heißt globales Maximum, wenn für alle Lösungen σ im Lösungsraum Γ gilt: H(σmax ) ≥ H(σ) ∀ σ∈Γ (3.12) Eine Lösung σ ∈ Γ ist ein lokales Minimum, wenn für alle Lösungen σ 0 in der Nachbarschaft N (σ) gilt: H(σmin ) ≤ H(σ 0 ) ∀ σ0 ∈ N (3.13) σmax ∈ Γ heißt lokales Maximum, wenn für alle Lösungen σ 0 der Nachbarschaft gilt: H(σmax ) ≥ H(σ 0 ) ∀ σ0 ∈ N (3.14) Die Struktur des Konfigurationsraums ist unabhängig von der Nachbarschaftsstruktur. Ordnet man die verschiedenen Konfigurationen nach der durch die Moves definierten Nachbarschaftsstruktur N , so ergibt sich der Suchraum. Durch diesen Suchraum bewegt man sich nun schrittweise während der Optimierung. Je größer die Variantenvielfalt der Moves, d.h. je mehr Moves in D enthalten sind, desto mehr Wege gibt es zwischen zwei Punkten im Suchraum und desto einfacher ist es, auf dem Weg zum globalen Optimum lokale Optima zu verlassen. Anschaulich bewegt man sich während der Optimierung von Punkt zu Punkt dieses Suchraums. Ordnet man jedem dieser Punkte die entsprechende Energie H(σ) zu, erhält man die sog. Hügel-Täler-Landschaft [Mo87] als Anschauung der Energielandschaft; dabei ist zu beachten, dass nur eine Dimension des im Allgemeinen hochdimensionalen Phasenraums dargestellt wird. Bei einer kleinen Anzahl von verschiedenen Abbildung 3.1: 2-dim Schnitt durch die Energielandschaft Moves ist es verständlich, dass häufiger lokale Minima und seltener das globale Minimum gefunden wird. Eine große Variantenvielfalt an Moves ermöglicht es, leichter eine Energiebarriere zu umgehen; das System bleibt also nicht im lokalen Minimum stecken. KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 24 Um den Suchraum mit guten Resultaten in kurzer Zeit zu durchwandern, bedient man sich verschiedener Heuristiken. Diese unterscheiden sich hauptsächlich in der Wahl der Übergangswahrscheinlichkeit, oder anders ausgedrückt, der Akzeptanzregel für die Annahme einer neu erzeugten Konfiguration. Das grundsätzliche Vorgehen läßt sich folgendermaßen beschreiben: 1. Beginne mit einer hinreichend hohen Starttemperatur T und einer beliebigen Startkonfiguration σ ∈ Γ. 2. Führe bis zum Abbruchkriterium folgende Schritte aus: Wiederhole (a) k-mal, um das System dem thermischen Gleichgewicht anzunähern. Führe die Schritte (a)-(b) N-mal durch. (a) Wiederhole folgende Schritte s-mal: • Anwendung eines Moves auf die aktuelle Konfiguration σ ∈ Γ und Erzeugung einer neuen Konfiguration σ 0 ∈ Γ. • Berechnung von ∆H = H(σ 0 ) − H(σ). • Akzeptieren der Systemänderung, wenn sie das gewählte Kriterium erfüllt. Verwerfen der Änderung, falls das Kriterium verletzt wird. (b) Messung der gewünschten physikalischen Größen. (c) Absenkung der Systemtemperatur gemäß Abkühlschema. 3. Wenn das Abbruchkriterium erfüllt ist, wird die letzte akzeptierte Konfiguration als Lösung ausgegeben. 3.3 3.3.1 Algorithmen Random Walk und Greedy Die einfachste Akzeptanzregel ist der Random Walk (RW). Hier wird jeder Übergang σ → σ 0 angenommen, unabhängig von der Beschaffenheit von σ 0 : p(σ → σ 0 ) = 1 (3.15) Das entspricht dem lim(T → ∞). Der RW kann zwar jede theoretisch mögliche Konfiguration leicht erreichen, der Weg durch die Energielandschaft ist jedoch rein zufällig. Deshalb wird der RW meist nur dann angewendet, wenn die Energielandschaft eine glatte Struktur hat. Darüber hinaus erfüllt der RW nicht die Bedingung von Detailed Balance. Eine genaue Umkehrung der Vor-und Nachteile erhält man beim Greedy-Algorithmus. Hier werden nur Moves akzeptiert, die zu einer gleich guten oder besseren Konfiguration führen. Die Übergangswahrscheinlichkeit ist gegeben durch: p(σ → σ 0 ) = Θ(−∆H) (3.16) KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 25 Θ(x) ist die Heaviside Stufenfunktion und ∆H = H(σi0 ) − H(σi ). Der Greedy bewegt sich zielstrebig auf das nächstgelegene lokale Minimum zu. Darin liegt aber auch das Problem: es kommt häufig dazu, dass der Greedy in einem lokalen Minimum gefangen bleibt, ohne von dem weiter entfernten globalen Minimum zu wissen. Der Greedy Algorithmus wird daher hauptsächlich für Systeme mit Energielandschaften benutzt, die entweder sehr wenige lokale Minima aufweisen, oder die Energiedifferenzen zwischen den lokalen Minima und dem globalen Minimum sehr gering sind. Die Energielandschaften sind jedoch in der Regel nicht bekannt und liegen meist zwischen den Extremen. Man versucht daher die Vorteile der beiden Algorithmen zu kombinieren: die Energielandschaft wird einerseits möglichst sorgfältig durchwandert, indem man die Energien der aktuellen und der neuen Konfigurationen vergleicht, andererseits nimmt man zeitweise Verschlechterungen der aktuellen Konfiguration in Kauf, weil man nur so das globale Minimum finden kann. 3.3.2 Simulated Annealing - SA Beim Verfahren SA [KGV83] wird ein zu optimierendes System mit einer intrinsischen Systemtemperatur betrachtet. Diese Temperatur wird von anfänglich hohen Werten, bei denen das Systen eine große innere Freiheit besitzt, nach einem vorgegebenen Abkühlplan auf einen sehr niedrigen Wert abgesenkt. Die Freiheiten des Systems bei der Bewegung durch den Phasenraum werden also im zeitlichen Verlauf sukzessive eingeschränkt. Man wählt dabei als Übergangswahrscheinlichkeit zwischen zwei aufeinanderfolgenden Zuständen σ und σ 0 die Metropolis Funktion ´ ³ ( : für ∆H > 0 exp − k∆H BT (3.17) W (σi → σi0 ) = 1 : sonst Dieser Optimierungs-Algorithmus wird als Simulated Annealing bezeichnet. ∆H ist dabei die Energieänderung, die sich aus einem Übergang von Zustand σ nach σ 0 ergibt. Üblicherweise wird kB in der Simulation gleich Eins gesetzt. T hat dann die Bedeutung eines Kontrollparameters in den Einheiten von H. SA ist der klassische OptimierungsAlgorithmus in der Physik, um Zustände niedriger Energie bei komplexen Systemen zu finden, für die es keine analytischen Lösungswege gibt. Der Name des Verfahrens stammt aus der Metallurgie: beim Ausglühen wird ein Metall lange erhitzt und dann langsam abgekühlt. Mit zunehmender Abkühlung sinkt die Bewegungsfreiheit der Atome im Kristallgitter. Kühlt man sehr langsam ab, so bleibt das System im thermischen Gleichgewicht und die Atome können sich bei tiefen Temperaturen noch im Grundzustand anordnen. Kühlt man jedoch zu schnell ab, so bilden sich polykristalline oder amorphe Strukturen mit höherer Energie. SA erfüllt die Bedingung der Ergodizität: Nach P. und T. Ehrenfest (1911)[No02] ist ein System dann ergodisch, wenn die an die Hyperfläche H = const. gebundene Phasenraumtrajektorie im Lauf der Zeit jedem Punkt beliebig nahe kommt. Für den Fall eines diskreten Phasenraums muß die Trajektorie jeden Punkt erreichen können. Anschaulich ist die Phasenraumtrajektorie sozusagen der “Weg“ des Systems durch den Phasenraum. Wichtig wird die Ergodizität für die Berechnung der Erwartungswerte KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 26 von Observablen. Bei ergodischen Systemen gilt die Gleichheit von Schar- und Zeitmittel. Allerdings ist die Ergodizität bei glasartigen Systemen nicht erfüllt: es kommt hier auf die Meßzeit τ an; das System muß in der Zeit τ ins Gleichgewicht kommen. SA ist ein sehr leistungsfähiges Verfahren, um kombinatorische Optimierungsprobleme zu behandeln. Dieser Algorithmus kann auch für viele N P -vollständige Probleme angewandt werden. N P-vollständig sind Probleme, für die kein deterministischer Algorithmus existiert, der das Problem in einer Zeit t< N x optimal löst. Dabei ist N die Systemgröße und der Exponent x eine obere Abschätzung für den Rechenzeitbedarf. Vollständig heißt dabei, dass alle Probleme dieser Klasse durch eine polynomiale Abbildung ineinander überführt werden können. 3.3.3 Threshold Accepting - TA Das Toleranzschwellenverfahren Threshold Accepting (TA) [DS90] ist ein Optimierungsalgorithmus, mit formaler Ähnlichkeit zu Simulated Annealing. Die Übergangswahrscheinlichkeit einer Konfiguration σi zu einer anderen σi0 wird jedoch nicht durch die Metropolisfunktion bestimmt. Vielmehr soll gelten: ½ 1 : für ∆H ≤ T h (3.18) W (σi → σi0 ) = Θ(T h − ∆H) = 0 : sonst Dabei ist Θ die Stufenfunktion und T h wird als Threshold oder Toleranzschwelle bezeichnet. T h ist eine Art Kontrollparameter oder Pseudotemperatur. Während des Optimierungsprozesses wird dieser Schwellenwert von einem hohen Anfangswert schrittweise auf Null abgesenkt. Dieses Verfahren garantiert, dass eine neue Konfiguration σi0 niemals angenommen wird, falls sich die vorhergehende Lösung σi stark verschlechtern würde. Demgegenüber können bei SA mit einer gewissen Wahrscheinlichkeit auch diese Lösungen akzeptiert werden. Dadurch ist beim TA-Verfahren die Bedingung der Ergodizität verletzt, da nicht jeder Punkt im Phasenraum erreicht werden kann; ein thermisches Gleichgewicht wird sich dann nicht mehr einstellen. Threshold Accepting ist deshalb ein Nichtgleichgewichts-Algorithmus und stellt somit kein physikalisches Verfahren dar. Auch das Prinzip von Detailed Balance wird nicht erfüllt. In Abbildung 3.3 links sind a und c zwei benachbarte Konfigurationen; a kann von der energetisch höher liegenden Konfiguration c aus problemlos erreicht werden. Sobald sich das System jedoch im Zustand a befindet, kann c ohne Zwischenstufen nicht mehr erreicht werden, wenn der Threshold zu klein ist. Die Ergodizität ist verletzt. In Abbildung 3.3 rechts sind a, b, c paarweise benachbarte Konfigurationen. Während es nun ohne weiteres möglich ist, von Zustand c den energetisch tieferliegenden Zustand a zu erreichen, ist die Umkehrung wegen des zu kleinen Thresholds nicht möglich; c kann nur über die Konfiguration b erreicht werden. Ein spezielles Problem von Threshold Accepting sind die sog. Golfholes: ist eine Konfiguration σ∗ ausschließlich von Nachbarn σi umgeben, für welche gilt: H(σi ) − H(σ∗) > T h, KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 27 Abbildung 3.2: Verletzung der Ergodizität (links) und Verletzung von Detailed Balance (rechts). dann können diese Konfigurationen von σ∗ aus nicht mehr erreicht werden. Manche Energielandschaften weisen verhältnismäßig schmale, tiefe lokale Minima auf. Befindet sich das System in einem solchen Golfhole und ist der Threshold entsprechend klein, so bleibt das System in diesem lokalen Minimum gefangen (Abbildung ??). Während bei SA das Golfhole in endlicher Zeit wieder verlassen wird, bleibt bei TA das System in dem lokalen Minimum gefangen. Aus diesem Grund ist es bei Threshold Accepting günstiger, mehrere kürzere Optimierungsläufe durchzuführen, deren Ergebnisse dann verglichen werden können. Weil der TA-Algorithmus unphysikalisch ist, haben die berechneten Abbildung 3.3: Verletzung der Ergodizität (links) und Verletzung von Detailed Balance (rechts). Größen keine physikalische Bedeutung im engeren Sinne. Da die Größen jedoch in den bekannten Relationen zueinander stehen und wesentliche Aussagen über das System KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 28 erlauben, werden sie daher weiterhin unter den bekannten Bedeutungen geführt. TA kann als Näherung von SA betrachtet werden, wenn man die Flächen unter den Kurven für die Übergangswahrscheinlichkeit gleichsetzt. Die Stufenfunktion von TA tritt an die Stelle der exponentiellen Kurve bei SA. Beim Übergang von einem ungeordneten, energiereichen in einen geordneten, energiearmen Zustand kann man daher davon ausgehen, dass T und T h die gleiche Größenordnung besitzen. Trotz der Nachteile hat sich Threshold Accepting etabliert. Der Vorteil nämlich ist, dass bei der Berechnung der Übergangswahrscheinlichkeit nur T h mit ∆H verglichen wird, während bei SA jeweils die rechenintensive Exponentialfunktion berechnet werden muss. In der Praxis werden daher viele kürzere Optimierungsläufe mit TA durchgeführt; meist erhält man mehrere gute Lösungen ohne allzu großen Rechenaufwand. 3.3.4 Great Deluge Algorithm - GDA Ein anderes sehr einfaches und erfolgreiches Optimierungsverfahren ist der SintflutAlgorithmus (Great Deluge Algorithm). Man führt einen Random Walk durch einen Teil ΓS des Phasenraums Γ durch [Nu93]. Jede Konfiguration σi ∈ ΓS ist dadurch gekennzeichnet, dass die Energie von σi unter einem gewissen Niveau TS liegt. Die Übergangswahrscheinlichkeit von σi ∈ ΓS zu σj ∈ Γ ist durch die Heaviside-Stufenfunktion gegeben: ½ 1 : für H(σj ) ≤ TS W (σi → σj ) = (3.19) 0 : sonst Jede Konfiguration σi mit geringerer Energie als das Niveau TS wird mit gleicher Wahrscheinlichkeit akzeptiert. TS bezeichnet man als Water-Level oder wieder als Pseudotemperatur. Durch ein langsames Absenken des Wasserstands TS wird das System gezwungen, eine energetisch günstigere Konfiguration anzunehmen. Abbildung 3.4: Sintflut-Algorithmus KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 29 Wie beim Threshold Accepting besteht somit die Gefahr, dass sich das System in einem lokalen Minimum festsetzt; die Bedingung der Ergodizität ist verletzt, da nicht mehr alle Punkte des Phasenraums erreicht werden können. Somit kann sich kein thermodynamisches Gleichgewicht einstellen (Abbildung 3.4); das Sintflut-Verfahren ist ein Nichtgleichgewichts-Algorithmus. Detailed Balance wird allerdings erfüllt, denn zu einem gegebenen T sind alle Konfigurationen unter dem Niveau TS gleich wahrscheinlich. Der Algorithmus ist benannt nach der Sintflut im Alten Testament. Dreht man nämlich die Problemstellung um und sucht das Maximum des Phasenraums, dann läßt sich TS als Wasserstand interpretieren, der wie bei einer Sintflut ständig steigt. Problematisch dabei ist die Inselbildung in der Energielandschaft bei zunehmendem Wasserstand; möglicherweise befindet man sich nicht auf dem höchsten Berg, sondern auf einem wesentlich kleineren. Bei hochdimensionalen Problemen gibt es aber zu einem Zustand σi sehr viele Nachbarn, und man kann in viele Richtungen vor dem Wasser zurückweichen. Dies erklärt, warum das Sintflut-Verfahren bei vielen komplexen Optimierungsverfahren nahezu optimale Ergebnisse liefert. 3.4 Sonstiges Abkühlverfahren Für Simulated Annealing wurden Abkühlschemata entwickelt, die bei unendlich langer Rechenzeit ein globales Optimum garantieren, wenn man die Temperatur folgendermaßen berechnet: a (3.20) Tk = b + log(k) Dabei sind a und b positive, systemabhängige Konstanten und k ist die Anzahl der bereits durchgeführten Iterationen (Temperaturschritte). Der Nachteil dieses Verfahrens ist, dass die Rechenzeit größer ist als die vollständige Aufzählung sämtlicher Konfigurationen. Ein anderes Problem ist, dass nicht sicher ist, ob man wirklich ein globales Optimum gefunden hat. Diese Abkühlstrategie ist also in der Praxis nicht verwendbar; stattdessen bedient man sich empirischer Abkühlkurven, die deutlich schneller gegen T=0 konvergieren. An erster Stelle der empirischen Verfahren ist die Lineare Abkühlung zu nennen. Dabei wird die Temperatur bei jedem Schritt um einen konstanten Betrag ∆T verringert: Tk = Tstart − k∆T mit 0.01 ≤ ∆T ≤ 0.5 (3.21) Tstart ist die Anfangstemperatur, die bei jedem Optimierungslauf speziell bestimmt werden muß. Es ist zu beachten, dass Tk niemals kleiner als Null werden darf; der Lauf ist also ggf. vorher abzubrechen. Bei der logarithmischen oder exponentiellen Abkühlung wird die Anfangstemperatur durch wiederholte Multiplikation mit einem Faktor α gesenkt: Tk = αk Tstart mit 0.8 ≤ α ≤ 0.999 (3.22) KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 30 Die Auswahl eines Abkühlverfahrens hängt vom Optimierungsproblem ab. Idealerweise führt man vorab einen Testlauf durch, um den groben Verlauf der physikalischen Kenngrößen abzuschätzen. Besonders aus der spezifischen Wärme läßt sich gut ableiten, wie sich das System verhält. Bei schnellem Einfrieren des Systems verwendet man das lineare Abkühlverfahren, während bei länger andauernden Umordnungen das logarithmische Verfahren besser ist. Start- und Endtemperaturen Die Wahl der Ausgangstemperatur ist sehr wichtig für den Verlauf der Optimierungsaufgaben. Wählt man die Starttemperatur zu hoch, dann wird Rechenzeit zu Beginn des Laufes vergeudet. Wählt man sie zu niedrig, dann ergeben sich häufig schlechte Lösungen. Die Anfangstemperatur direkt anzugeben ist äußerst schwierig, weil sie vom jeweiligen Optimierungsproblem abhängt. Eine geeignete Start-Temperatur für SA läßt sich folgendermaßen finden: Bei der Temperatur Tstart soll sich das System nahezu ungehindert im Phasenraum bewegen können. Zu Beginn sollen also auch Übergänge akzeptiert werden, die die Energie des Systems erhöhen. Die Akzeptanzrate Pacc für diese Übergänge kann man sich frei vorgeben. Dann führt man einen Random Walk durch den Phasenraum durch und misst die Anzahl n der Übergänge, die die Energie des Systems jeweils erhöhen. Die Anzahl der akzeptierten Übergänge bei SA läßt sich wiefolgt nähern: ¶ µ ∆H̄+ (3.23) nacc ≈ n · exp − Tstart wobei ∆H̄+ der Mittelwert der Energieänderung der Energie-erhöhenden Übergänge ist. Die Akzeptanzrate Pacc wird durch ¶ µ ∆H̄+ nacc (3.24) ≈ exp − Pacc = n Tstart gegeben. Daraus folgt: Tstart ≈ − ∆H̄+ lnPacc (3.25) Die Akzeptanzrate wird meistens zwischen 80% und 90% gewählt. Natürlich ist dies nur eine sehr grobe Abschätzung für Tstart ; die Größenordnung der Temperatur läßt sich mit dieser Methode aber recht schnell ermitteln. Eine ähnliche Überlegung läßt sich auch für Threshold Accepting und Great Deluge anstellen: Tstart ≈ ∆H̄+ TSstart ≈ Hmax Threshold Accepting (3.26) Sintflut-Verfahren (3.27) Die Endtemperatur Tend soll so bestimmt werden, dass das System möglichst vollständig eingefroren ist, die Akzeptanzrate aller Übergänge also gegen Null strebt. Bei entarteten Systemen können jedoch Übergänge auftreten, die keine Energieänderung KAPITEL 3. PHYSIKALISCHE OPTIMIERUNGSALGORITHMEN 31 bewirken. Diese dürfen dann in die Berechnung der Akzeptanzrate nicht mit einbezogen werden. Vorteilhaft ist es auch, am Ende eines Laufes mehrere Schritte bei T=0 durchzuführen. Ist die Akzeptanzrate aller nicht-trivialen Übergänge über einen längeren Zeitraum gleich Null, so wird der Optimierungslauf abgeschlossen. Natürlich läßt sich nicht mit Sicherheit sagen, ob ein globales Optimum erreicht worden ist; das Auffinden eines lokalen Optimums ist dagegen sehr wahrscheinlich. Besonders bei Systemen mit sehr breiten Energietälern im Bereich des globalen Minimums besteht jedoch die Möglichkeit, dass die Akzeptanzrate noch deutlich über Null liegt, obwohl sich die Energie nicht mehr verringert. In diesem Fall ist es vorzuziehen, die Hamiltonfunktion selbst als Kriterium für die Nähe des Systems zum Optimum zu verwenden und das System als eingefroren zu betrachten, sobald sich die Energie über eine Reihe von Temperaturschritten nicht mehr ändert. Literaturverzeichnis [BH02] K. Binder, D.W. Heermann: Monte Carlo Simulation in Statistical Physics, Springer Verlag, Berlin-Heidelberg, 2002 [Br98] J. Britze: Anwendung von Methoden der Statistischen Physik auf Optimierungsprobleme der Materialplanung, Universität Regensburg, Diplomarbeit, 1998 [DS90] G. Dueck, T. Scheuer: Threshold Accepting: A General Purpose Optimization Algorithm Appearing Superior to Simulated Annealing, J.Comp.Phys. 90, 161, 1990 [FH91] K.H. Fischer, J.A. Hertz: Spin glasses, Cambridge University Press, Cambridge, 1991 [Ge97] U. Gebauer: Anwendung und Vergleich physikalischer und herkömmlicher Optimierungsverfahren im Bereich der Materialbeschaffung, Universität Regensburg, Diplomarbeit, 1997 [GM85] S.B. Gelfand, S.K. Mitter: Analysis of Simulated Annealing for Optimization, Proc.24 Conf. on Decision and Control, 779, 1985 [HR02] A.K. Hartmann, H. Rieger: Optimization Algorithms in Physics, Wiley-VCH Verlag, Berlin 2002 [KGV83] S. Kirkpatrick, C.D. Gelatt Jr., M.P. Vecchi: Optimization by Simulated Annealing, Science 220, 671, 1983 [Ko93] K. Kopitzki: Einführung in die Festkörperphysik, Teubner Studienbücher Physik, Stuttgart, 1993 [KR96] W. Kinzel, G. Reents: Physik per Computer, Spektrum Akademischer Verlag, Heidelberg, 1996 [Li03] M. Lichtinger: Optimierung von Portfolios mit Methoden der Spinglasphysik, Universität Regensburg, Dissertation, 2003 [Mo87] I. Morgenstern: Spin glasses, Optimization and Neural Networks in J.L. van Hemmen und I.Morgenstern (Hrsg.): Heidelberg Colloquium on Glassy Dynamics, Springer Verlag, Berlin-Heidelberg, 1987 32 LITERATURVERZEICHNIS 33 [MS00] R.V. Mantegna, H.E. Stanley: Introduction to Econophysics: Correlation and Complexity in Finance, Cambridge University Press, 2000 [My93] J.A. Mydosh: Spin Glasses, Taylor & Francis, London, 1993 [Ni00] B. Niedermeier: Risikomanagement an der Börse mit physikalischen Optimierungsverfahren, Universität Regensburg, Diplomarbeit, 2000 [No02] W. Nolting: Grundkurs Theoretische Physik, Band 6, Statistische Physik, Springer Verlag, Berlin-Heidelberg, 2002 [Sch99] J. Schneider: Effiziente parallelisierbare physikalische Optimierungsverfahren, Universität Regensburg, Dissertation, 1999 [St93] D. Stein: Spingläser, aus ”Chaos und Fraktale”, Spektrum der Wissenschaft, Spektrum Verlag, Heidelberg, 1993 [Vor89] Vorlesungsskripten: Computersimulation in der Physik, 20.IFF-Ferienkurs, Kernforschungsanlage Jülich, 1989