Gegenseitiges geschachteltes Modellieren in der Interaktion mit einem künstlichen Agenten Diplomarbeit an der Technischen Fakultät der Universität Bielefeld 30 märz 2007 Rustam Tagiew Betreuer/Prüfer: Prof. Dr. Ipke Wachsmuth Dipl-Inform. Christian Becker Prof. Dr. Gerhard Jäger Universität Bielefeld Technische Fakultät AG Wissensbasierte Systeme Universitätsstr. 25 33612 Bielefeld INHALTSVERZEICHNIS Inhaltsverzeichnis 1 Einleitung 1.1 Entwurfsbeschreibung . . . . . . . . . . . . . . . . . . . . . . 1.2 Beteiligte Disziplinen, Begriffsklärung . . . . . . . . . . . . . . 1.3 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Stand der Forschung 2.1 Theorien und empirische Ergebnisse . . . . . . 2.1.1 Epistemische Logik . . . . . . . . . . . 2.1.2 Spieltheorie . . . . . . . . . . . . . . . 2.1.3 Psychologie und Verhaltensspieltheorie 2.1.4 Zusammenfassung . . . . . . . . . . . . 2.2 Künstliche Intelligenz . . . . . . . . . . . . . . 2.2.1 Allgemeine Diskussion . . . . . . . . . 2.2.2 Spezielle Beispiele . . . . . . . . . . . . 2.2.3 Zusammenfassung . . . . . . . . . . . . 1 1 5 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 8 11 16 22 23 23 26 28 3 Konzipierung und Analyse 3.1 Wahl des einfachen Interaktionsszenarios . . . . . . . . . . 3.2 Spielstruktur und Berechnung des Nash-Gleichgewichtes . 3.3 Detektion der Verhaltensstrategien und MNM-Algorithmus 3.4 Wahl des zweiten Interaktionsszenarios . . . . . . . . . . . 3.5 Erforderliche Programmkomponente . . . . . . . . . . . . . . . . . . . . . . . 29 29 34 39 46 50 . . . . . . . 51 51 53 53 55 56 57 57 4 Programm 4.1 Programmstruktur . . . . . . . . . . . . . . . 4.2 Hauptbenutzeroberfläche . . . . . . . . . . . . 4.2.1 Menü . . . . . . . . . . . . . . . . . . 4.2.2 ”Spieltisch” . . . . . . . . . . . . . . . 4.3 MNM-Algorithmus . . . . . . . . . . . . . . . 4.4 Spielbaumtraversierung . . . . . . . . . . . . . 4.5 Einbindung der Java-Simplex-Implementation i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INHALTSVERZEICHNIS 4.6 Netzwerkspielverwaltung . . . . . . . . . . . . . . . . . . . . . 59 5 Ausblick 62 6 Fazit 64 Abbildungsverzeichnis 65 Tabellenverzeichnis 67 Literaturverzeichnis 68 A 73 B 74 C 78 D CD-Inhalt 83 ii KAPITEL 1. EINLEITUNG Kapitel 1 Einleitung 1.1 Entwurfsbeschreibung In dieser Arbeit geht es darum, gegenseitiges Modellieren als ein menschliches Denkmuster maschinell ausführbar zu machen. Dieses Ziel gehört in das Forschungsfeld der Künstlichen Intelligenz, denn in dieser Disziplin wird die Intelligenz durch Nachbauen erforscht. Das Modellieren bezieht sich dabei allein auf das Abbilden der mentalen Vorgänge im Geist des anderen Individuums, wie das folgende konstruierte, an die Krimi-Literatur erinnernde Beispiel zeigt: ..... . N. wusste, dass er gestern von B. in der Stadt A. gesehen wurde, und B. fragte N. heute danach, was N. gestern gemacht hatte. Daraus schloss N., dass B. nicht wusste, dass N. wusste, dass er gestern von B. in der Stadt A. gesehen wurde. N. erzählte B., dass er in der Stadt D. war, was B. akzeptierte, weil er nicht wollte, dass N. erfahren würde, dass B. wusste, dass N. gestern in der Stadt A. war. ..... Als Einstieg kann man sich die in diesem Beispiel erwähnten N. und B. nicht nur als Menschen vorstellen. In der künstlichen Intelligenz verwendet man den Begriff Agent1 für eine handelnde Einheit [Russell und Norvig, 1995, S. 4]. Diese beiden auch als künstliche Agenten vorstellbare Wesen handeln, verfolgen Ziele und entwickeln Modelle voneinander. Abbildung 1.1 zeigt den prinzipiellen Aufbau eines zielbasierten und modellbasierten Agenten, der 1 von 1 lat. agere handeln 1.1. ENTWURFSBESCHREIBUNG Abbildung 1.1: Modell- und zielbasierter Agent [Russell und Norvig, 1995, s.50] N. und B. darstellen kann. Dabei können die mentalen Zustände der anderen Agenten als ein Teil des Welt- bzw. Umgebungsmodells verstanden werden. Da zwei oder mehrere agentenmodellierende Agenten miteinander interagieren können, haben die Modelle unter Umständen einen geschachtelten Aufbau, so dass auch ”das eigene Modell im Geist des Anderen”-Modell bzw. verschachteltere Modelle repräsentiert werden können. Auch wenn die Agenten orthogonale Ziele verfolgen und miteinander nicht direkt interagieren, können sie allein durch Beobachtung der anderen zum Wissensgewinn gelangen, wie das folgende in der Literatur oft erwähnte Beispiel zeigt. Muddy Children Puzzle [nach Fagin u.a., 1995]: Es gibt n Kinder (Abb. 1.2), die alle intelligent, ehrlich, hörend, sehend und aufmerksam sind. Dass sie diese Eigenschaften haben, gehört zum gemeinsamen Wissen2 der Kinder. D. h., es weiß jedes Kind und jedes Kind weiß, dass jedes Kind es weiß usw.. Jedes Kind bekommt nach dem gemeinsamen Spielen mit einer bestimmten Wahrscheinlichkeit ein schmutziges Gesicht, das es selbst nicht sehen kann und kein Kind sagt dem anderen, ob sein Gesicht schmutzig oder sauber ist. Einer der Eltern sagt, wenn mindestens eines der Kinder schmutzig geworden ist, dass 2 Das Konzept des gemeinsamen Wissens wird im Abschnitt 2.1.1 genau formalisiert. 2 KAPITEL 1. EINLEITUNG Abbildung 1.2: Muddy Children Puzzle [Meyer und Hoek, 1995] mindestens ein Kind schmutzig geworden sei und vortreten solle. Die Kinder, die sicher sind, dass sie schmutzig sind, treten vor und alle anderen bleiben stehen. Der beaufsichtigende Erwachsene muss bei k schmutzigen Kindern die Aufforderung ϕ1 = ”Mindestens einer von euch ist schmutzig. Schmutzige vortreten!” k-mal wiederholen, damit alle schmutzigen Kinder vortreten, was sich über Induktion beweisen lässt. Im Falle k = 1 sieht das Kind mit schmutzigem Gesicht, dass alle anderen sauber sind und tritt vor. Die anderen Kinder bleiben stehen, weil sie schon ein schmutziges Kind sehen. Im Falle k = 2 bleiben zuerst alle stehen, weil jedes von ihnen mindestens ein schmutziges Kind sehen kann. Jedes der schmutzigen Kinder sieht dabei, dass das einzige schmutzige Kind, das es sieht, stehen bleibt, also muss dieses Kind ein anderes schmutziges Kind sehen. Die sauberen Kinder sehen zwei schmutzige Kinder, die stehen geblieben sind, weil sie einander sehen können. Also treten bei der zweiten Aufforderung alle schmutzigen Kinder vor, und die sauberen Kinder bleiben stehen. Man kann für k = 3 genauso schlussfolgern, dass die Aufforderung dreimal wiederholt werden muss. Die Wiederholung der Aufforderung bringt die Kinder dazu, ihren aktuellen Wissenstand durch ihre Handlungen mitzuteilen. Diese Mitteilungen werden dann zum gemeinsamen Wissen der Kinder. Da die Voraussetzungen in diesem Puzzle sehr speziell sind, birgt eine Lösung dieses Puzzles mit Hilfe eines Logikinterpreters [Bern, 2004] noch keine ausreichenden theoretischen Konzepte in sich, die auf die meisten Situationen angewendet werden könnten. Man erkennt, dass bei einer beliebig hohen Schachtelungstiefe eine derartige Schlussfolgerung weder von Menschen 3 1.1. ENTWURFSBESCHREIBUNG noch von Maschinen umsetzbar ist, weil deren Kapazitäten begrenzt sind [Fagin u.a., 1995]. Was aber in dieser Arbeit beabsichtigt wird, ist das Modellieren eines Agenten, der in eine Interaktion involviert ist. Es geht nicht um die Analyse einer Situation, in der perfekte Agenten interagieren. Auch wenn die Kapazität ausreichen würde, stellt sich dennoch die Frage nach der Rentabiltät. In Situationen wie bei kompitetiven Gesellschaftsspielen für zwei Spieler bringt das Modellieren des anderen Spielers bzw. Agenten keine Verbesserung mit sich, weil nach der Analyse dieser Spiele, die jeder Spieler für sich macht, für beide Spieler eine optimale Strategie angegeben werden kann [Holler und Illing, 2000, S. 62], von der keiner der Spieler, wäre er am Gewinnen interessiert, abweichen würde. Speziell bei Papier-Stein-Schere, wo die Vorhersage des gegnerischen Verhaltens sich anscheinend lohnt, ist es für jeden Spieler optimal, zufällig zwischen den Handgesten zu wählen, denn zufälliges Wählen erlaubt keine nutzbare Vorhersage über seine nächste Handgeste. Das Interaktionszenario, bei dem agentenmodellierende künstliche Agenten demonstriert werden können, muss also diese Aspekte berücksichtigen. Das gegenseitige Modellieren erfordert gleichzeitig mehrere Individuen. Die vermutlich einzig bekannten intelligenten Wesen, die diese Art von Denkmustern entwickeln, sind wir Menschen. Das wirft die Frage auf, ob man beim Nachbauen allein künstliche Agenten interagieren lässt, oder Menschen mit einbezieht. Dazu gibt es in der KI zwei Ansichten bzw. Thesen darüber, was die Forschung bezwecken sollte: das Nachbauen menschlicher Intelligenz und das Bauen ”idealer” Intelligenz [Russell und Norvig, 1995, S. 2]. Man kann auf Grund jeder dieser Thesen argumentieren, dass das Einbeziehen von Menschen erwünscht ist. Setzt man den Schwerpunkt auf die Simulation des menschlichen Denkens und Verhaltens, so sind Menschen als evaluierende Interaktionspartner für die Simulation dieser Art von Denkmustern - wie beim Turing-Test - unentbehrlich. Setzt man aber den Schwerpunkt auf die Entwicklung idealer Intelligenz, so ist es wichtig zu klären, ob sich die ideale Intelligenz auch in der realen Welt, d. h. in der Interaktion mit ”nicht idealen” echten Menschen, bewährt. Die Einbeziehung echter Menschen, worauf in dieser Arbeit der Schwerpunkt gesetzt wird, kann also aus der Sicht der beiden Thesen eine Wissenslücke fühlen. Fraglich ist aber, ob das gegenseitige Modellieren von Mensch und Maschine wegen verschiedener Funktionsweisen und Fähigkeiten in jeder Situation vorstellbar ist. Die Hauptaufgabe dieser Arbeit besteht daher im intelligenten Auswählen und in der Implementation eines geeigneten Interaktionsszenarios. Diese Diskussion wird im Kapitel 3 direkt fortgesetzt, wo zwei Szenarien vorgeschlagen werden. Das erste Szenario verwendet ein kompetitives Gesellschaftsspiel mit simultanen Zügen, bei dem die optimale Strategie aufwändig berechnet werden muss. 4 KAPITEL 1. EINLEITUNG Sie ist deshalb für Menschen schwer anwendbar. Die Spielregeln für das Spiel stammen aus dem kommerziellen Gesellschaftsspiel Pico 2 [Mathäus und Nestel, 1997]. Der Computergegner spielt dabei eine relativ gut abschneidende deterministische Strategie, die durchschaut und ausgenutzt werden kann. Er ersetzt sie dann durch eine Gegenstrategie zur Gegenstrategie des Gegners, d. h. des Menschen, sobald die Sicherheit in der gegnerischen Antizipation der eigenen Strategie einen bestimmten Pegel übersteigt. Das zweite Szenario verwendet ein vom Verfasser dieser Arbeit vorgeschlagenes übertragbares Konzept für ein Spiel mit vier Spielern, das keine optimale Lösung garantiert und Anreiz für das gegenseitige Modellieren schafft. Die vier Spieler sind dabei in zwei Fraktionen à zwei Spieler unterteilt. Spieler in einer Fraktion können nur gemeinsam einen identischen Betrag gewinnen oder verlieren; jede Fraktion gewinnt nur so viel, wie die andere Fraktion verliert. Alle vier Spieler können nicht miteinander kommunizieren. Dabei haben die Spieler jeder Fraktion einen Anreiz dazu, miteinander zu kooperieren und zwar so, dass die Art und Weise der Kooperation von den Spielern der anderen Fraktion nicht durchschaut wird. Dieses Konzept kann auf Pico 2 übertragen werden. Das dadurch entstandene Pico 2 mit vier Spielern wurde als ein Netzwerkspiel implementiert und ist für empirische Studien verwendbar. 1.2 Beteiligte Disziplinen, Begriffsklärung Mit dem Thema, das in dieser Arbeit als gegenseitiges geschachteltes Modellieren3 bezeichnet wird, beschäftigen sich Forscher aus Psychologie, Logik, Spieltheorie, Linguistik und Künstliche Intelligenz. In Bezug auf MNM werden verschiedene Fachbegriffe verwendet, die u. a. untereinander Korrespondenzen aufweisen. Für das Modell des anderen Agenten steht in der Psychologie der englischsprachige Begriff Theory of Mind oder kurz ToM [Mol u.a., 2005]. ToM kann mit einer Ordnung versehen werden [Hedden und Zhang, 2002]. ToM erster Ordnung bedeutet, sich das Denken und die Wünsche einer anderen Person vorzustellen, ToM n-ter Ordnung bedeutet, sich das ToM (n−1)-ter Ordnung aus der Sicht der anderen Person vorzustellen. Somit korrespondiert ToM höherer Ordnung mit MNM. In der mathematischen Logik und auch Philosophie bezeichnet man als epis3 Ab diesem Punkt wird dafür die englischsprachige Abkürzung MNM= b ”Mutual Nested Modeling” verwendet. 5 1.2. BETEILIGTE DISZIPLINEN, BEGRIFFSKLÄRUNG temische Logik4 [Wooldridge, 2002] das Schlussfolgern über das Wissen, das zwischen mehreren Agenten verteilt ist. Es bedarf erweiterter Formalismen, um nicht nur Wissen sondern auch Wünsche und Intentionen in dieser Logik darstellen zu können [Hoek und Wooldridge, 2003]. Ein wichtiger Begriff, den man nicht umgehen kann, wenn man das Handeln eines Agenten als Konsequenz aus seinem Wissen und seinen Zielen definiert, ist die Rationalität. Ein rationaler Agent macht immer das, was ihn seines Wissens nach dem Erreichen seiner Ziele näher bringt [Russell und Norvig, 1995, s. 4] bzw. ihm den bestmöglichen Gewinn bringt. Situationen, in denen mehrere Agenten interagieren und deren Zielerreichung von den Handlungen anderer Agenten abhängt, werden als strategische Spiele bezeichnet [Holler und Illing, 2000]. Die Spieltheorie ist die Disziplin, die sich mit Analyse der strategischen Spiele beschäftigt und zum Ziel hat, für jedes Spiel herauszufinden, wie sich rationale Spieler verhalten würden bzw. sollten. Das wiederholte Betrachten des Spiels aus der Sicht verschiedener Spieler wird als iterierte Analyse5 bezeichnet. Es gibt aber auch Arbeiten, z. B. die Integration epistemischer Logik in die Spieltheorie (vgl. [Otterloo u.a., 2004; Bacharach, 1997]), die die einzelnen Disziplinen miteinander verbinden sollen. Relevant für diese Arbeit sind empirische Arbeiten [z.B. Kareev, 1992; Hedden und Zhang, 2002; Stahl und Wilson, 1994], die das menschliche Verhalten in verschiedenen Spielen untersuchen. Die theoretische Auswertung der Daten dieser Experimente wird mit dem Begriff Verhaltensspieltheorie6 [F.Camerer, 2003] gemeint, denn die Daten zeigen ein anderes Verhalten von Individuen, als die konventionelle Spieltheorie es für rationale Spieler vorhersagt. Von der Grundlagenforschung in Logik, Spieltheorie und Psychologie profitieren wiederum Linguistik und KI. In der KI stellen vor allem die Logikinterpreter das Hauptfeld der Forschung, obwohl es auch andere Richtungen [Gmytrasiewicz und Durfee, 1992; Brazier und Treur, 1999] gibt, die auch eigene Begriffe wie rekursiv oder reflektiv verwenden. Bei der Begriffsfestlegung wird in dieser Arbeit die Tatsache berücksichtigt, dass ein künstlicher Agent die mentalen Vorgänge des Menschen nur annähernd simulieren bzw. modellieren kann. Deshalb wird anstatt Iteration oder Rekursion der Begriff Schachtelung verwendet, da er nicht die prinzipielle Gleichheit der unterschiedlich aufgebauten Interaktionspartner suggeriert. 4 epistemic logic analysis 6 behavioral game theory 5 iterated 6 KAPITEL 1. EINLEITUNG 1.3 Überblick Kurzbeschreibung der folgenden Kapitel und Abschnitte: • Kapitel 2 : Stand der Forschung. – Abschnitt 2.1: Hier werden die relevantesten Arbeiten aus verschiedenen Disziplinen außer der Künstlichen Intelligenz dargestellt und zusammengefasst. Die Darstellung der theoretischen Grundlagen in diesem Abschnitt ist aber sehr knapp, um nicht die Rahmen der Diplomarbeit zu sprengen. – Abschnitt 2.2: Dieser Abschnitt stellt den bisherigen Stand der Forschung in der KI in Bezug auf MNM dar. • Kapitel 3: Das ist der Hauptteil der Arbeit. Er beschäftigt sich unter Verwendung der Erkenntnisse aus der interdisziplinär angelegten Recherche mit der Konzipierung des Programms – Abschnitte 3.1, 3.2 und 3.3: Diese Abschnitte beschäftigen sich mit der Konzipierung und Analyse des ersten Interaktionsszenarios. – Abschnitt 3.4: Hier wird das zweite Interaktionsszenario konzipiert und beschrieben. – Abschnitt 3.5: Dieser Abschnitt fasst den Kapitel zusammen und listet Anforderungen an das Programm auf. • Kapitel 4: Dieser Kapitel beschreibt das Programm. • Kapitel 5: In diesem Kapitel werden weitere Meilensteine in der Realisierung von MNM mit Maschinen aufgelistet. • Kapitel 6: Fazit. 7 Kapitel 2 Stand der Forschung 2.1 2.1.1 Theorien und empirische Ergebnisse Epistemische Logik Die epistemische Logik ist eine Logik über das Wissen und wird auf der Basis der Modallogik aufgebaut [Wooldridge, 2002, s. 267f]. Dieser Ansatz wurde 1962 von Jaakko Hintikka vorgeschlagen und ein Jahr darauf von Saul Kripke ausreichend formalisiert1. Die Modallogik ist die Aussagenlogik, die um die Operatoren ” ”2 (es ist bekannt, dass) und ”⋄”(es ist möglich, dass) erweitert wurde. Formeln der Modallogik sind: 1. alle Formeln der Aussagenlogik und 2. φ, ⋄φ, φ ∧ ψ, φ ∨ ψ, ¬φ, wenn φ und ψ schon Formeln der Modallogik sind. Epistemische Logik entsteht, wenn diese Operatoren indiziert werden, wobei die Indezies die Nummern der Agenten darstellen. Zum Beispiel bedeutet ” 2 ⋄1 φ”, dass Agent 2 weiß, dass Agent 1 ”φ” für möglich hält. Die Semantik der epistemischen Logik ist eine Beziehung |= zwischen dem Tupple (M, w) (Abb. 2.1) und einer Formel. M ist dabei die Kripke-Struktur, die einen Graph aus den für die Agenten vorstellbaren Welten darstellt, und w ist die Welt, in der sich die Agenten tatsächlich befinden sollen. Jede Kante des Graphen gehört einem bestimmten Agenten und drückt aus, dass dieser Agent in jeder der beiden mit ihr verbundenen Welten die andere Welt für möglich hält. Am Beispiel des Muddy Children Puzzle aus der Einleitung kann man sich bei 1 Nach [Hoek und Verbrugge, 2002] schrieb als erster G.H von Wright 1953 über epistemische Logik 2 Statt wird auch K verwendet 8 KAPITEL 2. STAND DER FORSCHUNG M = (W, π, K 1 , . . ., Kn ) W Menge der Welten bzw. Zustände π : W × Φ → {true, f alse} Wahrheitsfunktion Ki : {W ×W } Binäre Relationen zwischen den Welten w Referenzwelt bzw. aktueller Zustand (M, w) |= ϕ wenn und nur wenn π(w, ϕ) (M, w) |= ¬ϕ wenn und nur wenn ¬((M, w) |= ϕ) V V (M, w) |= ϕ ψ wenn und nur wenn ((M, w) |= ϕ) ((M, w) |= ψ) W W (M, w) |= ϕ ψ wenn und nur wenn ((M, w) |= ϕ) ((M, w) |= ψ) (M, w) |= i ϕ wenn und nur wenn ∀w′ (((w, w′) ∈ Ki ) → ((M, w′) |= ϕ)) V (M, w) |= ⋄i ϕ wenn und nur wenn ∃w′ (((w, w′) ∈ Ki ) ((M, w′) |= ϕ)) Abbildung 2.1: Definition von Kripke-Struktur und Semantik der epistemischen Logik [Fagin u.a., 1995] Abbildung 2.2: Kripke-Struktur [Hoek und Verbrugge, 2002] von muddy children puzzle drei Kindern eine Kripke-Struktur (Tabelle 2.2) aus acht Welten vorstellen. Jede dieser Welten wird durch ein Tripple (p1 , p2 , p3 ) bezeichnet, wo pi = 1 gilt, wenn Kind i schmutzig ist und sonst 0. Mit Hilfe der epistemischen Logik lässt sich das Konzept des gemeinsamen Wissens CG formalisieren, dass sich vom Allgemeinwissen EG unterscheidet. Gemeinsames Wissen eines bestimmten Faktums bedeutet, dass alle dieses Faktum wissen, und alle wissen, dass alle dieses Faktum wissen und so weiter (Abb. 2.3). Um die epistemische Logik um die Ziele bzw. Wünsche der Agenten zu erweitern, bedarf es erweiterter Formalismen. Die bestbekannten Formalismen in diesem Bereich sind [Hoek und Wooldridge, 2003]: Intentionslogik [Cohen und Levesque, 1990a,b], BDI-Logik und und KARO-Netzwerk. Bei allen diesen Ansätzen werden für jeden Agenten mehrere Modaloperatoren 9 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE (M, w) |= EG1 φ wenn, und nur wenn (M, w) |= i φ (M, w) |= EGk+1 φ wenn, und nur wenn (M, w) |= i EGk φ (M, w) |= CG φ wenn, und nur wenn (M, w) |= EGk φ ∀i ∈ G ∀i ∈ G ∀k ∈ {1, 2, . . .} Abbildung 2.3: Gemeinsames Wissen [Fagin u.a., 1995] eingeführt. Bei dem bestverstandenen und weitverbreitetsten Ansatz BDI3 von Rao und Georgeff bedarf es pro Agent genau drei Operatoren: ”Bel” (überzeugt sein), ”Intend”(Absicht haben) und ”Des”(sich wünschen). Der BDI-Ansatz basiert auf den Arbeiten des Philosophen Michael Bratman und wurde erfolgreich implementiert. Die bekannteste Implementation der BDILogik ist PRS4 . 3 belief-desire-intention 4 Procedural Reasoning System 10 KAPITEL 2. STAND DER FORSCHUNG 2.1.2 Spieltheorie Die Spieltheorie ist, wie schon in der Einleitung erwähnt, eine Theorie über rationales Verhalten bei Interaktion mehrerer Subjekte. Sie wurde erst 1944 von John von Neumann und Oskar Morgenstern durch die Veröffentlichung des Buches ”The Theory of Games and Economic Behavior”[K.Berninghaus u.a., 2006] eingeführt. Seitdem steigt die Zahl der Disziplinen, in denen die Spieltheorie Anwendungen gefunden hat: Wirtschaftswissenschaften, Soziologie, Psychologie, Künstliche Intelligenz und Biologie. Es wird zwischen kooperativer und nicht kooperativer Spieltheorie unterschieden. Die kooperative Spieltheorie befasst sich im Unterschied zu nicht kooperativer Spieltheorie mit Spielen, bei denen Spieler bindende Absprachen treffen können. In dieser Arbeit wird ausschließlich die nicht kooperative Spieltheorie betrachtet, wobei ”nicht kooperativ” nicht bedeutet, dass keine Kooperation zwischen den Spielern stattfindet. Ein Spiel in der Spieltheorie ist der Aufbau einer strategischen Situation, dargestellt in Normalform oder in extensiver Form, wobei jedes Spiel in erstere Form überführt werden kann. Ein Spiel in Normalform mit z.B. zwei Spielern ist eine Bimatrix (sehe Tab. 2.1), wo jedes Element eine Auszahlung für jeden Spieler enthält. Nach der Konvention sind die Zeilen der Bimatrix den Handlungsalternativen, die später als Strategien bezeichnet werden, des ersten Spielers und die Spalten den Handlungsalternativen des zweiten Spielers zugeordnet. Die beiden Spieler wählen ihre Strategien s1i 5 und s2j simultan und unabhängig voneinander aus und erhalten die Auszahlungen u1 (s1i , s2j )6 und u2 (s1i , s2j ). Eine Strategie dominiert eine andere Strategie, wenn sie für alle Strategien anderer Spieler eine höhere Auszahlung bringt. Ein rationaler Spieler würde nie eine dominierte Strategie spielen. Dadurch kann man die Ausgangsmatrix verkleinern, indem man die dominierten Spalten und Zeilen eliminiert und in der so entstandenen Matrix dieses Vorgehen so lange wiederholt, bis sich keine weiteren Spalten oder Zeilen eliminieren lassen. Ein Spieler kann nicht nur eine pure Strategie, sondern auch eine gemischte Strategie verwenden. Diese stellt die eine Wahrscheinlichkeitsverteilung über die Strategien dar, nach der der Spieler mit Hilfe eines Zufallsgenerators eine der Strategien auswählt. Ein Standardlösungskonzept für Spiele ist das Nash-Gleichgewicht7 . Das Nash-Gleichgewicht ist ein Tuple aus puren bzw. gemischten Strategien aller Spieler, wobei das einseitige Abweichen eines Spielers von seiner Strategie für ihn keine Erhöhung seiner Auszahlung 5 sSpielernummer Strategienummer 6u Spielernummer 7 John Nash 1951 11 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE mit sich bringt. Nash-Gleichgewichte existieren für alle Spiele Γ(N, S, u), die folgende Bedingungen erfüllen: 1) der Strategieraum Si ⊂ ℜm ist kompakta und konvexb für alle Spieler i ∈ N; 2) für alle i ∈ N gilt: ui ist stetig und begrenzt in s ∈ S und quasi-konkav in si . [Holler und Illing, 2000, S. 62] a abgeschlossen b alle und begrenzt Mischungen aus Strategien sind erlaubt Spieler 2 Daraus lässt sich ableiten, dass es speziell in endlichen Spielen immer ein Nash-Gleichgewicht gibt, wenn nicht in puren, dann in gemischten Strategien. In dem hier erwähnten GD-Spiel (Tab. 2.1) ist (s12 , s22 ) das einzige NashGleichgewicht, obwohl es für beide Spieler besser gewesen wäre, (s11 , s21 ) zu wählen. Solches Nash-Gleichgewicht heißt nicht pareto-optimal. Ein Spiel in extensiver Form ist ein Spiel mit einer festgelegten Zugreihen- s21 Spieler 1\ s11 s12 s22 3 3 4 1 1 4 2 2 Tabelle 2.1: Gefangenendilemma [Genesereth u.a., 1988] folge, so dass ein in der Künstlichen Intelligenz wohl bekannter Spielbaum entsteht [Russell und Norvig, 1995, S. 161f]. Jedes Blatt dieses Baumes liegt am Ende eines Pfades, der eine Folge von Zügen darstellt, und enthält eine Auszahlung für jeden Spieler. Mit der Annahme des gemeinsamen Wissens der Rationalität aller Spieler CG (Rational(1) ∧ . . . ∧ Rational(n)) kann man mit Hilfe der Rückwärtsinduktion für jeden Spieler eine Verhaltensstrategie bestimmen, nach der er in jedem Knoten eine bestimmte Aktion wählt. Das Centipede-Spiel [Osborne und Rubinstein, 1994]8 ist ein gutes Beispiel (Abb. 2.4) für dieses Vorgehen. Der dort dargestellte Spielbaum ist von links nach rechts zu lesen. In jedem Knoten hat ein Spieler die Wahl zwischen zwei 8 Tausendfüsser 12 KAPITEL 2. STAND DER FORSCHUNG Abbildung 2.4: 6-Stufen-Centipede-spiel [Hoek und Verbrugge, 2002] Zügen, ”r” und ”d” oder ”R” und ”D”. Die Knoten des Spielbaumes sind mit römischen Zahlen beschriftet, die die Nummern der Spieler darstellen, die sich in diesen Knoten entscheiden. Die Blätter sind mit Auszahlungen für beide Spieler versehen. Beginnend mit dem letzten Knoten werden die Auszahlungsvorhersagen (rote Schrift) sukzessive unter Annahme der Rationalität des jeweiligen Spielers getroffen. Im vorvorletzten Knoten z.B. entscheidet sich Spieler II für ”D”, weil er weiß, dass der Spieler I rational ist ( II Rational(I) folgt aus CG (Rational(I) ∧ Rational(II))), und sich deswegen für ”d” entscheiden wird, was aber eine kleinere Auszahlung für Spieler II bedeutet. Wenn die Züge eines der Spieler unsichtbar für den anderen sind, z.B. bei simultanen Entscheidungen, spricht man von Spielen bei imperfekter Information [Osborne und Rubinstein, 1994]. Die Unsichtbarkeit früherer Züge führt dazu, dass man sich gleichzeitig in mehreren Knoten zu befinden glaubt. Diese Menge von Knoten wird in der Spieltheorie als Informationsmenge bezeichnet. Dann gibt es noch die Spiele bei unvollständiger Information, d. h. Unkenntnis der Auszahlungsfunktion bzw. Strategiemenge des anderen Spielers. Spiele bei unvollständiger Information können aber in Spiele bei imperfekter Information überführt werden, indem man am Anfang des Spiels einen verdeckten Zug der Natur9 einbaut, der den Typ des Spiels bzw. des Spielers festlegt. Die Lösung eines solchen Spieles liegt darin, den mutmaßlichen Typ des Spieles Ti gegeben die Spielbeobachtung D mit Hilfe des Bayes-theorems P(Ti | D) = P(D | Ti )P(Ti ) n ∑k=1 (P(D | Tk )P(Tk )) neu zu berechnen [F.Camerer, 2003]. Das schon erwähnte Muddy Children Puzzle lässt sich auch als ein Spiel in extensiver Form bei imperfekter Information darstellen [F.Camerer, 2003, S. 236-239]. Dazu bedarf es einer Auszahlungsmatrix, die die Ehrlichkeit der 9 Zusätzlicher 13 zufällig agierender Spieler 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE Kind\ stehen (rechter Zweig) vortreten (linker Zweig) schmutzig(1) sauber(0) 0 0 1 − 8 Natur Kinder rationalisiert und der Natur, die den Zustand der Kinder zufällig mit einer bestimmten Wahrscheinlichkeit festlegt (Abbildung 2.5). Hier wird aus Platzgründen nur der Fall für zwei Kinder betrachtet. Die gestrichelten Linien auf dem Graph zeigen die Informationsmenge eines Kindes entsprechend ihrer Farbe. Wenn beide Kinder rational sind, so können sie sich nach der ersten Aufforderung nur in Knoten 2,8 oder 11 befinden. Wenn die Annahme des gemeinsamen Wissens der Rationalität gilt, wissen die Kinder von ihrer Rationalität und entscheiden sich bei der zweiten Aufforderung im Knoten 8 für ”vortreten”. Die Spieltheorie gibt also nur vor, wie sich ein rationaler Spieler verhalten schwarz - Natur, grün - erstes Kind, blau - zweites Kind Abbildung 2.5: ”Schmutzige Gesichter” soll, d. h. nach welchen Kriterien er eine Strategie auswählen soll. Das Auswählen einer Strategie ist aber mit einer aufwändigen Berechnung verbunden. In Spielen bei perfekter Information bedarf es dafür einfacher Spielbaumdurchsuchung, während in Spielen bei imperfekter Information, wo das NashGleichgewicht unter Umständen in gemischten Strategien liegt, bedarf es der 14 Spieler 2 KAPITEL 2. STAND DER FORSCHUNG Spieler 1\ Papier Papier 0 Stein −1 Schere 1 Stein Schere 1 −1 0 1 −1 0 Tabelle 2.2: Papier-Stein-Schere Lösung von Ungleichungssystemen. Für Zwei-Personen-Nullsummenspiele ohne Nash-Gleichgewicht in puren Strategien, wie z.B. Papier-Stein-Schere (Tab. 2.2) sieht für den Zeilenspieler das zu lösende Problem so aus [entsprechend R.Singleton und F.Tyndall, 1974, S. 95]: argmax p1 ,...,pm (min(∑i ai1 pi , . . ., ∑i ain pi )) ∑i pi = 1, ∀i : pi ≥ 0 pi - Wahrscheinlichkeit für Aktionen des Zeilenspielers ai j - Auszahlungen Es lässt sich als lineares Programm formulieren und mit Hilfe des SimplexAlgorithmus lösen [siehe dazu Owen, 1970]. Für die Berechnung optimaler Strategien in einem Spiel bedarf es grundsätzlich ausreichender Rechenkapazitäten, die bei größeren Spielen für alle bekannten Spieler einfach nicht verfügbar sind. Denn ”...bereits beim Schachspiel reichen die Fähigkeiten selbst des besten Spieltheoretikers nicht aus, auch nur angeben zu können, ob der Spieler mit den weißen oder mit den schwarzen Figuren bei rationalem Verhalten gewinnen wird...”[K.Berninghaus u.a., 2006, S. 162] Als Abhilfe wird in der künstlichen Intelligenz Approximation benutzt. Anstatt den ganzen Baum zu erforschen, wird [Russell und Norvig, 1995, S. 171f] ab einer bestimmten Tiefe die Güte eines Knotens geschätzt. Diese Schätzung weicht aber von der tatsächlichen Güte ab. Es macht dann auch für jeden Spieler Sinn, die gegnerische Schätzungsheuristik zu modellieren und deren Makel auszunutzen. 15 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE Abbildung 2.6: ToM von einem Roboter [Ono und Imai, 2000] 2.1.3 Psychologie und Verhaltensspieltheorie In der Psychologie hat sich, wie schon im Abschnitt 1.2 erwähnt, der Begriff ToM als Bezeichnung für das mentale Modell des Geistes, z.B. eines anderen Menschen durchgesetzt. Um ToM wissenschaftlich zu untersuchen, bedarf es empirischer Studien. Dass Menschen ToM nicht nur von Menschen, sondern auch von künstlichen Wesen wie z.B. Roboter aufbauen können, wurde in Bezug auf Sprachverstehen in [Ono und Imai, 2000] untersucht. Bei dem auf der Abbildung 2.6 dargestellten Setup wurde ein Sprachgenerator verwendet, der in seiner Wiedergabequalität soweit verschlechtert wurde, bis die vom ihm gemachten Aussagen von Menschen kaum verstanden wurden. Dann wurde die Aussage ”Move the trash can out of my way” ausgewählt, die nur drei von sieben Menschen verstehen konnten. Diese Aussage wurde danach anderen zehn Menschen, der Kontrollgruppe, von einem Laptop vorgespielt, ohne dass deren Aufmerksamkeit auf den Roboter gelenkt wurde, der im gleichen Raum vor einen Mülleimer fuhr und stehen blieb. Weitere zehn Menschen, die Versuchsgruppe, bekamen die Aussage direkt vom Roboter vorgespielt. In der Versuchsgruppe haben acht Personen die Aussage verstanden und entsprechend gehandelt, von der Kontrollgruppe aber haben nur drei sie verstanden und nur einer von denen hat entsprechend gehandelt. Dieses Experiment ist ein Argument zur Vorstellung, dass die Menschen erst durch die Antizipation der Ziele einer Maschine die Bedeutung ihrer Signale besser verstehen können und dass wiederum diese Antizipation überhaupt möglich ist. Die Interaktionen zwischen Menschen, bei denen ToM gebraucht wird, entwickeln sich oft nicht entsprechend den Vorhersagen aus der Spieltheorie. Ein Centipede-Spiel ist z.B. trivial mit Rückwärtsinduktion zu lösen, wenn man von dem gemeinsamen Wissen der Rationalität der beiden Spieler ausgeht. Ein Experiment mit einem 3-Stufen-Centipede-Spiel (Abb. 2.7) [Hedden und Zhang, 2002] zeigt, dass die Menschen von dieser Annahme generell nicht ausgehen. 16 KAPITEL 2. STAND DER FORSCHUNG Abbildung 2.7: Spielstruktur von [Hedden und Zhang, 2002] Dieses Spiel besteht aus vier Zellen. Die Spieler dürfen nacheinander beginnend mit dem ersten Spieler in der Ausgangszelle bleiben oder in die nächste Zelle ziehen. Ein Spiel ist beendet, wenn einer der Spieler bleibt oder die vierte Zelle erreicht wird. Bei dem ersten Teil des Experiments haben 35 weibliche plus 35 männliche Studenten teilgenommen, wobei in der Rolle von Spieler II immer ein computerisierter Gegner und in der von Spieler I ein Mensch auftraten. Den Versuchspersonen wurde mitgeteilt, dass sie gegen menschliche Spieler spielen würden. Die Variablen Ai , Bi ,Ci , Di sind Auszahlungen für Spieler i, einander ungleich und können mit natürlichen Zahlen von 1 bis 4 belegt werden. Es ergeben sich dadurch 144 verschiedene Möglichkeiten der Variablenbelegung bzw. Auszahlungsstrukturen. Bei dem ersten Zug des ersten Spielers ist für den ersten Spieler wichtig zu wissen, ob der zweite Spieler ziehen wird. Für den zweiten Spieler ist es wiederum wichtig zu wissen, ob der erste Spieler beim letzten Zug ziehen wird. Deshalb muss der erste Spieler für seine Entscheidung aus der Sicht des zweiten Spielers denken, d. h. ToM zweiter Ordnung haben, falls der zweite Spieler ToM erster Ordnung hat. Aus ToM zweiter Ordnung lässt sich die Vorgehensvorschrift angeben (Abb. 2.8), die abhängig von der Variablenbelegung vorgibt, ob er ziehen sollte oder nicht. Man kann sich aber auch vorstellen, dass der zweite Spieler sich nicht in die Sichtweise des ersten Spielers versetzt, sondern nur bei CII < BII zieht. Diese Strategie des zweiten Spielers wurde in diesem Paper myopic10 benannt. Wenn der zweite Spieler die Strategie myopic benutzt, dann muss der erste Spieler die Strategie erster Ordnung (Abb. 2.9) benutzen. Es gibt aber Auszahlungsstrukturen, bei denen der zweite Spieler, abgesehen davon, welche der beiden Strategien er benutzt, die gleiche Aktion ausführt. Diese Auszahlungstrukturen werden für das Training der menschlichen Versuchspersonen eingesetzt, um sie mit dem Spiel vertraut zu machen. Danach mussten die 10 kurzsichtig 17 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE Abbildung 2.8: Zweite Ordnung [Hedden und Zhang, 2002] Abbildung 2.9: Erste Ordnung [Hedden und Zhang, 2002] Menschen 16 Partien gegen den als Computer spielen und dabei Vorhersagen treffen, ob der Gegner ziehen wird oder nicht. Anhand derer Vorhersagen und Aktionen in diesen Partien wurden Rückschlüsse darauf gemacht, gegen welche Strategie (myopic oder predictive=”ToM b 1-order”) sie glaubten gespielt zu haben. Die 16 Partien wurden in 4 Sets zusammengefasst, über die ein Mittelwert berechnet wurde. Der Computer spielte eine feste kurzsichtige oder vorausschauende Strategie. Der Graph 2.10 zeigt, dass einerseits die Menschen vorerst die Strategie des Computers mehrheitlich für myopic gehalten haben, aber dann mit jeder weiteren Partie langsam immer mehr zur korrekten Einschätzung des Gegners kamen. Ein weiterer Aspekt, der in diesem Experiment sichtbar geworden ist, zeigt, dass Menschen unabhängig von der Strategie des Gegners Fehler machten und eigene Vorhersage nicht optimal in eine Aktion umsetzten. Diese so genannten Rationalitätfehler lagen im Durchschnitt bei 10,5%. Am Beispiel des Beauty-Kontest-Spiels11 kann man gut sehen, wie Men- 18 KAPITEL 2. STAND DER FORSCHUNG Abbildung 2.10: ToM-Drift [Hedden und Zhang, 2002] schen sich auf der Basis von Modellen anderer Menschen entscheiden, anstatt das Nash-Gleichgewicht zu wählen, das leicht zu bestimmen wäre. Bei einer Version dieses Spiels müssen mehrere teilnehmende Spieler simultan Zahlen zwischen 0 und 100 aufsagen. Es gewinnt derjenige Spieler einen festen Betrag, dessen Zahl am nächsten zu 70% des Durchschnittes liegt. Gewinnen gleichzeitig mehrere Spieler, dann teilen sie sich den Gewinn. Wenn dann ein gemeinsames Wissen der Rationalität aller Spieler vorliegt, sollten alle die 0 aufsagen. Stattdessen bekommt man beim wiederholten Spielen die auf Abbildung 2.11 dargestellte Graphik. Die Erklärung für solches Verhalten ist, dass jeder Spieler versucht den Mittelwert voraussagen, bevor er die 70% dieses Mittelwerts als neuen Mittelwert festlegt, weil er denkt, dass alle anderen Spieler auch den Mittelwert vorauszusagen versuchen und ungefähr bei der gleichen Voraussage landen. Und diese Überlegung kann jeder Spieler so lange iterieren, bis er sicher ist, er ”schlau genug” und nicht ”zu schlau” denkt. Nach jedem Spiel sinkt aber der Mittelwert und landet irgendwann auf dem Nash-Gleichgewicht bei 0. Hier zeigt sich, dass Menschen sich nicht so verhalten, wie die Spieltheorie es für rationale Spieler vorhersagt. Untersuchungen in verschiedenen Spielen haben ergeben, dass Menschen beim Spielen eine Reihe von unterschiedlich begründeten Abweichungen demonstrieren. Colin F.Camerer, der Erfinder des Begriffs Verhaltensspieltheorie, drückt die Schlussfolgerung daraus folgendermaßen aus: 11 nach Keynes’s ”General Theory of Employment, Interest, and Money” [F.Camerer, 2003, s. 210] 19 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE Abbildung 2.11: Beauty-Contest-Spiel [F.Camerer, 2003] ”...If the data confirm game theory, you might say, the subjects must have understood; if the data disconfirm, the subjects must have not understood. Resist this conclusion. The games are usualy simple, and most experimenters carefully control for understanding ... . Furthermore, by inferring subject understanding from data, there is no way to falsify the theory. ...” [F.Camerer, 2003, s. 22] Eine weitere Abweichung menschlicher Spieler von idealen Spielern ist die Verwendung von gemischten Strategien, denn die Menschen können die gemischten Strategien in grösseren Spielen nicht exakt bestimmen. Den Untersuchungen [F.Camerer, 2003, S. 121ff] zufolge verfehlen die Menschen die optimalen Wahrscheinlichkeiten bei übersichtlichen Spielen um einige Prozentpunkte (Abb. 2.12 links). Bei sehr kleinen Wahrscheinlichkeiten ergeben sich dabei große prozentuale Abweichungen. Ausser der Einschätzung der Wahrscheinlichkeiten muss noch eine Zufallsfolge produziert werden, mit Hilfe derrer die Strategien beim wiederholten Spielen für andere Spieler unvorhersagbar ausgewählt werden müssen. Die Produktion von Zufallsfolgen 20 KAPITEL 2. STAND DER FORSCHUNG Abbildung 2.12: Verwendung gemischter Strategien [F.Camerer, 2003; Kareev, 1992] ist aber nicht trivial. Die Experimente von [Kareev, 1992] zeigen, dass bei den von Menschen produzierten Zufallsfolgen die Wiederholungen seltener vorkommen, als es bei einem echten Zufallsgenerator zu erwarten wäre. Ferner ist der Graph der Wahrscheinlichkeitsdichte der menschlichen Zufallsfolgen viel ”spitzer” als die theoretisch zu erwartende Gauss-Verteilung (Abb. 2.12 rechts; gekennzeichnete Kurve ist Gauss-Verteilung). Man kann sich vorstellen, dass ein Computerprogramm, das auf einen Gegner eingestellt ist, der Wiederholungen meidet und kurzzeitig den Erwartungswert ausgleicht, bei einem Spiel wie ”Papier-Stein-Schere” gegen Menschen auf Dauer gewinnen wird. 21 2.1. THEORIEN UND EMPIRISCHE ERGEBNISSE 2.1.4 Zusammenfassung Als Zusammenfassung der theoretischen und empirischen Literatur, die für das Thema dieser Arbeit relevant sind, lassen sich folgende Aussagen treffen: 1. Menschen können der Maschine durchaus Wünsche zuschreiben. Es ist aber nicht geklärt, wie sich ToM einer Maschine von ToM eines Menschen unterscheidet. 2. In Situationen, in denen das geschachtelte Modellieren intuitiv von Nutzen ist, wie Muddy Children Puzzle, lässt sich das Wissen der anderen Agenten mit Hilfe epistemischer Logik herleiten, vorausgesetzt es gibt ein gemeinsames Wissen über die ”Intelligenz” aller beteiligten Agenten. Man kann aber den etwas schwer definierbaren Begriff der ”Intelligenz” durch eine Kombination aus Rationalität und ausreichender Verarbeitungskapazität ersetzen, wenn man diese Situation als ein Spiel in extensiver Form betrachtet. 3. Menschen machen mit einer bestimmten Wahrscheinlichkeit Rationalitätsfehler. Interagiert ein Mensch mit anderen Subjekten, so kann er bzw. sie Annahmen in der Art wie i (¬Rational( j)) oder l i (¬Rational( j)) oder generell kG (¬Rational(i)) bilden. Das gemeinsame Wissen der Rationalität kann also in der Interaktion mit Menschen nicht garantiert werden. 4. Die Berechnung der optimalen Strategien ist bei aufwändigen Spielen wie z.B. Schach weder von Menschen noch von Maschinen durchführbar, so dass sie gezwungen sind, abschätzende Heuristiken anzuwenden. 5. Berechnung und Verwendung von gemischten Strategien in grosseren Spielen ist für menschliche Spieler problematisch, weil sie weder die Wahrscheinlichkeiten exakt berechnen, noch die Zufallsfolgen zufällig genug produzieren können. 6. Die Punkte 3-5 machen deutlich, dass Menschen in einigen Situationen vom Nash-Gleichgewicht abweichen. Die mit Menschen interagierenden Agenten, ob Menschen oder nicht, müssen sich eher mit dem Modellieren der anderen Agenten befassen, als mit der Berechnung des Nash-Gleichgewichts. 22 KAPITEL 2. STAND DER FORSCHUNG Abbildung 2.13: ”Suchmuster” und Max [Wachsmuth und Lessmann, 2002] 2.2 2.2.1 Künstliche Intelligenz Allgemeine Diskussion Abbildung 2.13 (links) stellt graphisch dar, welche Art von Programmen nötig wären, um den Stand der bisherigen KI-Forschung in Bezug auf das Thema dieser Arbeit darzustellen. Auf diesem Bild sind ein Mensch und ein künstlicher Agent dargestellt, von denen jeder ein Modell (Denkblase) des anderen bildet und es dabei zum Aufbau geschachtelter Modelle kommt. Der tatsächliche Aufbau der Maschine kann dabei sehr primitiv sein - auch wenn man die Maschine als einen endlichen Automaten betrachten würde, könnte sie dann, um geschachtelt modellieren zu können, jedes vorstellbare geschachtelte Modell des menschlichen Gegenübers als einen Zustand in ihrem Zustandsübergangsgraphen repräsentieren. Gleichzeitig muss aber auch der Mensch ein geschachteltes Modell der Maschine bilden können, weshalb die Maschine über eine Interaktionsmöglichkeit mit einem Menschen verfügen muss. Nach bisheriger Recherche konnte ein solches Setup nicht gefunden werden. Daher werden in diesem Kapitel nur prinzipiell ähnliche Arbeiten betrachtet. Eine Ähnlichkeit könnte man den unzähligen natursprachlichen Dialogsystemen wie z.B. ELIZA unterstellen [Weizenbaum, 1966], denn sie alle täuschen eine Kommunikation mit einem Menschen vor (sogenannter Eliza-Effekt) und: 23 2.2. KÜNSTLICHE INTELLIGENZ ”In der Kommunikation zwischen Menschen schreiben wir uns gegenseitig ein solches Innenleben zu (intentionale Zustände). Wir gehen davon aus, dass der andere so wie wir Absichten, Überzeugungen, Wünsche und Ziele hat ... ”[Wachsmuth, 2005]. Diese Vortäuschung verleitet den mit einem solchen System interagierenden Menschen dazu, sich vorzustellen oder sich so zu verhalten, als würde er sich vorstellen, dass das System dem Gesprächspartner ein ”Innenleben” zuschreibt oder dass er glaubt, dass man ihm ein ”Innenleben” zuschreibt usw.. Nur leider funktionieren solche Systeme ohne innere Repräsentation geschachtelter Modelle. Dass ein Mensch ein geschachteltes Modell des Systems entwickelt, das System dagegen nicht, geschieht anscheinend, weil die Wissensdatenbank, die Reaktionen des Systems festlegt, von Konstrukteuren entwickelt wird, die ein Modell des mentalen Inneren eines durchschnittlichen Menschen in ihrer Vorstellung haben bzw. aus der Literatur oder sonstigen Quellen entnehmen und anhand dieses Modells das Verhalten des Systems festlegen. Der in AG ”Wissensbasierte Systeme” entwickelte verkörperte konversationelle Agent12 Max (Abbildung 2.13 ganz rechts, im blauen Overall) wurde und wird im Laufe der Zeit mit vielen Features fortwährend aufgerüstet [z.B. Becker und Wachsmuth, 2006; Kopp und Wachsmuth, 2004], die eine Kommunikation ähnlich der zwischenmenschlichen13 mit ihm ermöglicht [Kopp u.a., 2005]. Max verfügt über eine reaktive und eine deliberative Komponente. Die reaktive Komponente legt die sofortigen Reaktionen fest, während die deliberative Komponente langfristiges Planen ermöglicht, für die bei Max die BDI-Architektur verwendet [Wachsmuth und Lessmann, 2002] wird. Max verfügt über eine Planbibliothek hierarchisch aufgebauter Pläne, die für die Auswahl der Intention (Intention) entsprechend des aktuellen Wissens (Beliefs) und Wünschens (Desires) verwendet wird. ”Intentionale Zustände seines Dialogpartners repräsentiert Max bislang nicht... ”[Wachsmuth, 2005], geschweige denn geschachtelte Modelle zu bilden, außer dass das Turn-Taking-Modell implementiert wurde [Lessmann u.a., 2004]. Das Turn-Taking-Modell ist in einfacher Betrachtung ein Zustandsübergangsgraph, dessen jeder Zustand einen Kompromiss zwischen Wünschen von Max und der mit ihm interagierenden Person bezüglich der Sprecherrolle darstellt. Ein anderes Beispiel sind die Passwortknacker, die strukturierte Buchstabenfolgen als erstes ausprobieren, weil die Menschen dazu neigen, sich struk12 Embodied conversational agent Gesten und Mimik 13 kontextabhängige 24 KAPITEL 2. STAND DER FORSCHUNG turierte Buchstabenfolgen besser zu merken. In einen Passwortknacker ist sozusagen ein festes Modell eines Menschen eingebaut. Mittlerweile wissen aber viele Menschen von der Funktionsweise der Passwortknacker, d. h. sie haben von denen ein Modell und versuchen, weniger ”menschliche” Passwörter zu erfinden. Standardrichtung ist aber, die epistemische Logik als ein Modell für gegenseitiges Modellieren mit ihren vielen Unterarten einzusetzen. Es gibt eine ganze Reihe von Logikinterpretern (LWB, Molog usw.), die zu Muddy Children Puzzle ähnliche logische Puzzles lösen können [Bern, 2004]. Die Lösung liegt darin, das Puzzle in logischen Formeln zu modellieren und den Wissensstand der Agenten nach jeder Iteration zu beweisen. Um solche Puzzles auf Interaktion zwischen Menschen und Computer zu übertragen, bedarf es einer Modellierung der mentalen Auffassungsfähigkeit sowie der begrenzten Verarbeitungskapazität des Menschen. Die Modellierung der resourcebegrenzten Logik ist relativ schwierig und zur Zeit Gegenstand der Forschung. Mit mentaler Auffassungsfähigkeit sieht es noch schwieriger aus, denn Experimente zeigten, dass selbst ein Zwei-Personen-Puzzle nicht von der Mehrheit der Versuchspersonen gelöst werden konnte [F.Camerer, 2003, S. 236-239]. 25 2.2. KÜNSTLICHE INTELLIGENZ 2.2.2 Spezielle Beispiele Rekursive Modellierungsmethode Abbildung 2.14: RMM [Gmytrasiewicz und Durfee, 1992] In [Gmytrasiewicz, 1995] findet sich eine auf Interaktion zwischen Menschen und Maschinen übertragbare Formalisierung der Spiele bei unvollständiger Information. Die dort vorgestellte RMM14 setzt begrenzte Resourcen voraus und besteht darin, dass ein Agent in einer Interaktion mit anderen Agenten einen Baum erstellt, der das Wissen über andere Agenten beinhaltet (Abb. 2.14, links). Ein Knoten in diesem Baum ist eine Sicht eines Agenten auf die aktuelle Situation und Kanten sind dem Ausdruck ”hält mit Wahrscheinlichkeit p für möglich, dass” äquivalent. Die Knoten und die Kanten in diesem Baum korrespondieren mit Welten und Relationen der KripkeStruktur. Der Unterschied dabei ist, dass es hier eine Wahrscheinlichkeitsverteilung über die Möglichkeiten sowie eine Pfadlängenbegrenzung gibt. In der auf Abbildung 2.14 (rechts), dargestellten Situation erledigen zwei Roboter, R1 und R2, Aufgaben und bekommen Auszahlungen, die gleich der Summe aller erledigten Aufgaben minus Fahrtkosten sind. Der Wurzelknoten des hier dargestellten RMM-Baumes stellt die Auszahlungen des Roboters R1 abhängig von den Aktionen der beiden Spieler dar. Der nächst tiefere Knoten ist das von Roboter R1 vermutete Wurzelknoten des Roboters R2 usw.. Um die optimale Aktion aus so einem Modell zu berechnen, sind zuerst die Blattknoten zu lösen. Die dort ermittelten optimalen Aktionen werden - gewichtet mit der Kantenwichtung - in den nächst höheren Knoten propagiert. Sind bei einem Knoten von allen seinen ausgehenden Kanten die optimalen Aktionen 14 Recursive Modeling Method 26 KAPITEL 2. STAND DER FORSCHUNG zurückpropagiert worden, so wird auch dieser Knoten gelöst und die optimalen Aktionen werden zurückpropagiert. RMM hat u. a. in einem Algorithmus zur Lösung von Persuit Task Anwendung gefunden [Vidal und Durfee, 1995]. Persuit Task ist eine kooperative Aufgabe, bei der mehrere ”Raubtiere” ein sich zufällig bewegendes ”Beutetier” möglichst schnell umkreisen müssen und dabei nicht kommunizieren können. Der auf RMM basierte Algorithmus LR-RMM15 benutzt einen RMM-Baum und vergrößert ihn nur so lange, wie der Auszahlungszuwachs minus Rechenkosten größer als ein bestimmter Wert ist. Der Evaluation zurfolge schneidet LR-RMM besser als andere im Vergleich evaluierte Heuristiken ab. Verbalisierung des geschachtelten Modellierens In [Brazier und Treur, 1999] wurde ein mögliches Modell eines reflexiven Agenten vorgestellt, der über eigenes Wissen, den eigenen Schlussfolgerungsprozess und den Schlussfolgerungsprozess anderer Agenten schlussfolgern kann. Das Modell besteht aus mehreren Komponenten, die verschiedene Aufgaben erledigen und miteinander kommunizieren können. Dieses Modell wurde für die Verbalisierung des Schlussfolgerungsprozesses beim Lösen einer simplen Variante von Wise Men’s Puzzle verwendet. Dieses Puzzle ist im Grunde eine Abwandlung vom Muddy Children Puzzle und wird im Paper folgendermaßen beschrieben: ”This puzzle is about two wise men, A and B, each of which is wearing a hat. Each hat is either black or white but at least one of the hats is white. Each wise man can only observe the colour of the other wise man’s hat. Both wise men are able to reason logically and they know this from each other.” Das implementierte Modell verbalisiert die Lösung des Puzzles aus der Sicht des weisen Mannes B gegeben die Aussage des weisen Mannes A darüber, ob er (Mann A) die Farbe seines Hutes schon kennt. Dabei werden Komponenten des Systems so eingestellt, dass sie durch ihre Kommunikation eine interne Schleife bilden, die Hypothesen nacheinander beweist bzw. widerlegt. Diesem Ansatz ist nur16 die Idee der Verbalisierung für die Arbeit zu entnehmen. Denn wenn ein System geschachtelte Modelle verbalisieren kann, dann 15 Limited Rationality RMM vorgestellte Modell wurde durch empirische Untersuchung an einer einzigen Person für ”weitgehend psychologisch plausibel” erklärt. 16 Das 27 2.2. KÜNSTLICHE INTELLIGENZ muss es diese Modelle auch repräsentieren können. Ferner kann man sich vorstellen, den Vergleich zwischen der sprachlichen Ausgabe des Systems und der Meinung der mit dem System interagierenden Person als Bewertungsgrundlage zu benutzen. 2.2.3 Zusammenfassung Wie die Recherche zeigte, wurde das in dieser Arbeit vorgeschlagene Thema in der KI noch nie direkt in Angriff genommen. Noch nicht Stand der Forschung ist ein Setup, bei dem ein mit einem Menschen interagierender künstlicher Agent anhand des beobachteten Verhalten des Menschen dynamisch ein geschachteltes Modell des Gegenübers aufbaut. Als eine Erklärung dafür kann man erwähnen, dass dieses Vorhaben wegen der umfangreichen Theorie (sehe Abschnitt 2.1) relativ viel Einarbeitungszeit erfordert. Das Ziel dieser Arbeit ist genau diese Forschungslücke in der KI zu schliessen. 28 KAPITEL 3. KONZIPIERUNG UND ANALYSE Kapitel 3 Konzipierung und Analyse 3.1 Wahl des einfachen Interaktionsszenarios In der Entwurfsbeschreibung (Abschnitt 1.1) wurde gleich am Anfang ein Beispiel einer plausiblen realen Situation gezeigt, wo Individuen einander geschachtelt modellieren. Zu einer solchen Situation kann man sich im Grunde ein äquivalentes Spiel ausdenken und dann die optimale Strategie bestimmen. Trotzdem wird das Auswählen einer Strategie in einer solchen alltäglichen Situation bei Menschen oft ohne die Verwendung irgendwelcher mathematischer Konzepte z. B. aus der Spieltheorie gemacht. Auch die Spieltheoretiker können nicht jede reale Situation auf ein Spiel mit bekannter Lösungsstrategie zurückführen, denn sonst wäre die Spieltheorie eine Wissenschaft ohne jegliches Potential. Es wäre in zukünftigen Arbeiten interessant, herauszufinden, ob das alltägliche, verhaltensbestimmende Denken eines Menschen immer mathematisch formalisierbar ist. Wenn aber ToM eines Menschen nicht immer mathematisch formalisierbar ist, dann könnte ein künstlicher Agent einen Menschen nie exakt modellieren, denn ein künstlicher Agent kann nur mathematisch formalisierbare Modelle aufbauen. Aber wenn ein Mensch eine Vorstellung von den Vorgängen im Kopf des anderen hat, dann ist diese Vorstellung wahrscheinlich strukturiert, und wenn das so ist, dann ist geschachteltes Modellieren in der Interaktion zwischen Menschen und künstlichen Agenten möglich. Wenn man also ein Interaktionsszenario auswählen will, bei dem ein künstlicher Agent einen Menschen modellieren soll, dann muss dieses Szenario den Menschen zur Wahl einer formalisierbaren Strategie verleiten. Anders gesagt: Der interagierende Mensch sollte daran interessiert sein, eine strukturierte Denk- und Verhaltensweise zu entwickeln. Die Struktur einer realen Situation würde sich ein Mensch wahrscheinlich anders vorstellen, als sie tatsächlich ist. Das würde die Modellierung dieses 29 3.1. WAHL DES EINFACHEN INTERAKTIONSSZENARIOS Menschen komplizierter oder vielleicht sogar unmöglich machen. Das heißt, als MNM-Interaktionsszenario würde nur eine relativ leicht verständliche Situation in Frage kommen. Gewinnorientierte Gesellschaftsspiele passen relativ gut in dieses Muster. Anstatt ein Spiel zu konstruieren, ist es besser, eines aus den schon lange bekannten bzw. erfolgreich vermarkteten Spielen auszuwählen. Denn so ist es sichergestellt, dass das Spiel menschlichen Spielern genügend Unterhaltung bietet. Der Unterhaltungsfaktor ist wichtig, damit sich die menschlichen Spieler mit der Struktur des Spiels intensiv beschäftigen. Als einfachstes MNMInteraktionsszenario kann man sich ein wiederholtes Spiel mit zwei Spielern, einem Menschen und einem künstlichen Agenten, vorstellen. Die Auswahlkriterien kann man folgendermaßen zusammenfassen: 1. Es muss einen Anreiz für das Modellieren des anderen geben. 2. Es darf keine Zufallszüge geben, denn man müsste dann die Risikoaffinität bzw. -aversion des Menschen berücksichtigen, was das Interaktionsszenario unnötig verkomplizieren würde [Russell und Norvig, 1995, S. 592]. 3. Es darf nicht zu kompliziert, wie Schach, und nicht zu einfach, wie Papier-Stein-Schere, sein. Das ist wichtig um Frustration und Langweile auszuschliessen. Die Zwei-Personen-Gesellschaftsspiele teilen sich hauptsächlich in zwei Gruppen: das gemeinsame Puzzle-Lösen und die Nullsummenspiele. Alle ZweiPersonen-Nullsummenspiele, unter Annahme des gemeinsamen Wissens über die Rationalität der beiden Spieler, haben ein Nash-Gleichgewicht und daher keinen Anreiz für das Modellieren des anderen. Beim gemeinsamen PuzzleLösen lässt sich das Nash-Gleichgewicht auch berechnen, obwohl die beiden Spieler es nicht sofort berechnen können und daher von ”Puzzle” sprechen. Dadurch scheinen die Auswahlkriterien vorerst inkonsistent zu sein. Aber wie der Abschnitt 2.1.4 gezeigt hat, weichen Menschen vom NashGleichgewicht ab. Speziell in Zwei-Personen-Nullsummenspielen spielen Menschen nicht optimal. Dadurch kann man sich zwei Möglichkeiten vorstellen, bei denen die beiden Spieler ihr Verhalten in Abhängigkeit vom Verhalten des anderen ändern: • Der künstliche Agent modelliert den Menschen und versucht seine Makel auszunutzen, worauf Mensch als Antwort sein Verhalten ändert. Das geänderte Verhalten würde aber neue Makel aufweisen, die von dem künstlichen Agenten ausgenutzt werden könnten. 30 KAPITEL 3. KONZIPIERUNG UND ANALYSE • Der künstliche Agent weicht vom Nash-Gleichgewicht ab und wartet darauf, bis der Mensch es merkt und ausnutzt. Danach nutzt der künstliche Agent das geänderte menschliche Verhalten aus und wartet darauf, bis der Mensch es merkt und ausnutzt, usw.. Das erste Szenario scheidet aus, weil erstens das intuitive menschliche Spielen schwer modellierbar ist und zweitens werden hier keine tief geschachtelten Modelle aufgebaut. Beim zweiten Szenario aber agiert der künstliche Agent nicht rational. Es bedarf einer Auszahlungsstruktur, die das Verhalten des künstlichen Agenten rationalisiert, wie sie auf Tabelle 3.1 dargestellt ist. Eine solche Auszahlungsstruktur wird als fiktives Spiel1 bezeichnet [Owen, 1970, S. 32f]. Die Matrix des fiktiven Spiels stellt ein wiederholtes Zwei-PersonenNullsummenspiel dar, bei dem der menschlicher Spieler gewinnen will und der künstliche Agent am Aufbau tief geschachtelter Modelle interessiert ist. Der künstliche Agent erfährt nicht während des Spielens, welche Strategie der Mensch tatsächlich spielt, sondern er muss sie anhand der Beobachtungen feststellen und kann daher seine Auszahlungen nur abschätzen. Die Auszahlungen des menschlichen Spielers dagegen stellen die Bilanz zwischen Siegen und Niederlagen dar, die allen Spielern sichtbar ist. Wie man auf der Matrix sehen kann, besitzt jeder Spieler eine unendliche Anzahl von Strategien und jede Strategie entspricht einem Modell des Gegners. Man sieht, dass der menschliche Spieler immer dann die höchste Auszahlung bekommt, wenn er den Gegner richtig modelliert und die niedrigste Auszahlung, wenn der Gegner ihn richtig modelliert. Als Beispiel nehmen wir an, dass der künstliche Agent ein Modell der 2-Ordnung hat, d. h., dass er weiß, das der Mensch ein Modell der 1-Ordnung von ihm hat. Hat der Mensch tatsächlich ein Modell der 1-Ordnung vom künstlichen Agenten, dann liegt der künstliche Agent richtig und ”durchschaut” den Menschen. Spiele bei denen sich das Durchschauen einer deterministischen bzw. puren Strategie lohnt, sind Spiele bei imperfekter Information, d. h. mit simultanen bzw. verdeckten Zügen. Ein sehr guter Kandidat für so ein Spiel, ist Pico 2 für zwei Spieler (Abb. 3.1). Die Regeln für dieses Spiel sind relativ einfach: 1 Superspiel 31 oder Metaspiel auch möglich a intuitive ≤0 ↓ c ≈0 1 → a -1 ≈0 ...... c ↓ ≈0 c 3-order c ≈0 b 1-order ... 4-order Human\ 2-order Machine deterministic 0-order 3.1. WAHL DES EINFACHEN INTERAKTIONSSZENARIOS b 1 a → -1 . . .. . . ↓ ...... .. . .. . .. . .. . .. . .. . .. . ...... ... a>b>c Tabelle 3.1: Fiktives Spiel ”Basic Pico 2 is a game for two players. ... There are 11 cards with numbers 4,5,6,7,8,9,10,11,12,13,16 . Cards are shuffled and dealed, every player gets 5. One extra card is out of the game, but known, it is shown face up between the two players hands. You secretly choose one of your cards ..., the [oponent] chooses one of his. Both cards are revealed, the higher card wins , unless it’s to high: The higher card looses, if it’s more than twice as high as the lower card. The winning card scores and is kept face up, the loosing card goes back to it’s players hand. Play continues until one player has only one card left. Then another round is played with reversed hands. The player with the most red dots after two rounds wins. ...” [Mathäus und Nestel, 1997] Hinzu kommt, dass die Beschreibung des Spielkonzepts durch den Autor thematisch sehr nah am Konzept dieser Arbeit ist: 32 KAPITEL 3. KONZIPIERUNG UND ANALYSE Abbildung 3.1: Pico 2 ”... cause Pico (and Pico 2) is essentially based on bluff and the ability to anticipate the others action, this doesn’t quite be the thing against a computer :-) ...”[Mathäus und Nestel, 1997] Außerdem hat Pico 2 eine wissenschaftliche Vorgeschichte. Pico 2 wurde von einem in 1993-94 in Newsgroups angekündigten Programmierwettbewerb inspiriert, bei dem eine Version des GD-Spiels, das INCA2 Modell, möglichst optimal gelöst werde musste [Prechelt, 1994, 1996]. Die Regeln von INCA ähneln aber stark den Regeln des Silverman-Spiels3 , die von David Silverman in der Mitte der 70-er Jahre entwickelt wurden [A.Heuer und Leopold-Wildburger, 1995]. Pico 2 kann man auch als ein äußerst reduziertes Silverman-Spiel bezeichnen. 2 iterated numerous choise action Game 3 Silverman’s 33 3.2. SPIELSTRUKTUR UND BERECHNUNG DES NASH-GLEICHGEWICHTES 3.2 Spielstruktur und Berechnung des NashGleichgewichtes In diesem Abschnitt wird die Struktur des Spiels formalisiert. Es handelt sich um ein Zwei-Personen-Nullsummenspiel bei imperfekter Information in extensiver Form. In einer Runde4 dieses Spiels gewinnt derjenige, der eine höhere Punktzahl erreicht. Die Runde besteht aus zwei Phasen5 . Die beiden Phasen unterscheiden sich dadurch, dass die Spieler ihre Kartensätze vertauschen. Die Punkte werden in zwei Phasen gesammelt und dann summiert. Folglich ist das Ziel jedes Spielers x in jeder Phase die Differenz zwischen gegnerischen (des Spieler x) und eigenen Punkten di f f (x) = (Punkte(x) − Punkte(y)) zu maximieren, wobei di f f (x) = −di f f (y) gilt. In jeder Phase bekommt jeder Spieler fünf Karten. Da es insgesamt 11 Karten gibt, gibt es 2772 Möglichkeiten, die Karten auf die Spieler zu verteilen. Diese Zahl berechnet sich aus dem Produkt der Zahl der Möglichkeiten, 5 Karten für den ersten Spieler aus den ursprünglichen 11 auszuwählen und der Zahl der Möglichkeiten, 6 56 Karten für den zweiten Spieler aus den restlichen 6 auszuwählen ( 11 5 ∗ 5 ) , wobei die Hälfte der 2772 Kartensätze spiegelverkehrt ist. Zwei spiegelverkehrte Kartensätze unterscheiden sich nur dadurch, dass die beiden Phasen vertauscht sind. Zwei spiegelverkehrte Kartensätze ergeben Spiele, deren optimale Lösung identisch ist. Die spiegelverkehrten Kartensätze werden aber trotzdem unterschieden, weil es während des Spiels zu unterschiedlichen Lerneffekten kommen kann, die die Lösung des Spiels aus der Sicht jedes einzelnen Spielers verändern. Von den Handkarten kann jede Karte jeder Zeit benutzt werden, soweit sie nicht abgelegt ist. Falls eine Karte cx abgelegt wird, bekommt ihr Besitzer x eine Punktzahl Wichtung(cx ) entsprechend der Wichtung der Karte (Tabelle 3.2). Die Karten werden simultan gezogen. Die Ablegeregel lässt sich am besten c 4 Wichtung(c) 1 5 2 6 2 7 8 2 3 9 3 10 3 11 12 3 3 13 3 16 4 Tabelle 3.2: Kartenwichtung in Pseudo-Code definieren (Abb. 3.2). Eine Phase wird abgeschlossen, wenn einer der Spieler nur noch eine Karte auf der Hand hat. Eine Phase lässt sich als ein Spielbaum mit imperfekter Information darstellen. Dieser Spielbaum 4 der Spielverlauf zwischen Spielstart und Siegerbestimmung ”Hinrunde” und die ”Rückrunde” aus der authentischen Spielbeschreibung 6 Kombination ohne Wiederholung [Bronstein u.a., 2001, S. 767] 5 die 34 KAPITEL 3. KONZIPIERUNG UND ANALYSE y := gegner(x); if (cx ∗ 2 < cy or (cx > cy and cx ≤ cy ∗ 2)) then Punkte(x) := Punkte(x) +Wichtung(cx ); Abbildung 3.2: Ablegeregel Abbildung 3.3: Kurzsichtige Auszahlungsmatrix ist gemeinsames Wissen der Spieler, weil die restliche Karte und die abgelegten Karten offengelegt werden und dadurch jeder Spieler weiß, welche Karten der Gegner auf der Hand hält. Dadurch kann man vor jedem Zug eine Matrix kurzsichtiger Auszahlungen für jede Kartenkombination aufstellen (Abb. 3.3). Die Auszahlungen in dieser Matrix sind entsprechend der Konvention in der Spieltheorie aus der Sicht des Zeilenspielers dargestellt und geben die sofortige Auswirkung auf die Differenz des ersten Spielers di f f (x) an, die er zu maximieren und der Spaltenspieler zu minimieren versucht. Außer der sofortigen Auszahlung bewirkt eine Kartenkombination gleichzeitig die Auswahl eines Pfades im Spielbaum. Jeder Pfad besitzt einen Erwartungswert. Der Erwartungswert eines Pfades wird zum jeweiligen Eintrag der kurzsichtigen Auszahlungsmatrix aufaddiert und ergibt sich dadurch die vorausschauende Auszahlungsmatrix. Der Erwartungswert eines Pfades selbst berechnet sich aus dem Erwartungswert der vorausschauenden Matrix des ersten Knotens, das heißt, der Auszahlung im Nash-Gleichgewicht. Die Blattknoten des Spielbaumes sind Situationen, in denen einer der Spieler nur noch eine Karte besitzt; sie werden mit Erwartungswert 0 belegt. Nachdem die Struktur des Spieles geklärt worden ist, wenden wir uns der Berechnung des Nash-Gleichgewichts zu. In diesem Spiel existiert ein NashGleichgewicht und das Spielen der vom Nash-Gleichgewicht vorgeschlagenen Strategien garantiert jedem Spieler, im Durchschnitt mindestens ein Unentschieden zu erreichen, weil die beiden Phasen einander ausgleichen. Die Berechnung des Nash-Gleichgewicht besteht darin, in jeder vorausschauenden 35 3.2. SPIELSTRUKTUR UND BERECHNUNG DES NASH-GLEICHGEWICHTES Abbildung 3.4: Spielbaum einer Phase Matrix ein Nash-Gleichgewicht entweder in puren oder in gemischten Strategien zu suchen. Das Suchen des Nash-Gleichgewichts in puren Strategien ist trivial. Man vergleicht einfach den maximalsten der minimalsten Einträge jeder Zeile mit dem minimalsten der maximalsten Einträge jeder Spalte der Auszahlungsmatrix. Wenn die beiden gleich sind, hat man ein NashGleichgewicht in puren Strategien gefunden [R.Singleton und F.Tyndall, 1974]. Natürlich haben die meisten Matrizen kein Nash-Gleichgewicht in puren Strategien. Eine Evaluation aller Kartensätze, bei der die Erwartungswerte der Pfade durchgehend mit Maximin(bzw. Minimax)-Regel berechnet wurden, hat ergeben, dass nur bei 318 aus 2772 (Tabelle 3.3) möglichen Kartensätzen das Spielen optimaler Strategie ohne Verwendung gemischter Strategien möglich ist. Beim Kartensatz h4 · 5 · 6 · 7 · 8ih9 · 10 · 11 · 12 · 13i z.B. legt der erste Spieler zuerst die Karte 4 ab, dann legt der zweite Spieler die Karten 9 und 10 ab, wonach der erste Spieler die Karte 5 ablegt und anschließend legt der zweite Spieler die Karten 11 und 13 ab und beendet mit 12 : 3. Aber es gibt auch Kartensätze, die Spiele erzeugen, bei denen die Differenz zwischen Minimax und Maximin besonders groß ist. Solche Spiele ähneln vom Spielprinzip her ”Papier-Stein-Schere”. Die Berechnung der gemischten Strategien erfolgt mit Hilfe des SimplexAlgorithmus [Owen, 1970, S. 39f]. Um den Aufwand beim Simplex-Verfahren 36 KAPITEL 3. KONZIPIERUNG UND ANALYSE Minimax − Maximin 0 1 Anz. der Kartensätze 318 82 2 3 4 5 6 7 8 9 10 162 110 164 356 430 608 380 152 10 Tabelle 3.3: Kartensätze a00 .. . A= ... ...... ... a0(n−1) .. . a(m−1)0 . . . a(m−1)(n−1) −(a00 ∗ x0 + .. . ... ...... ... +a(m−1)0 ∗ x(m−1) ) .. . +µ ≤ 0 +µ ≤ 0 −(a0(n−1) ∗ x0 + . . . +a(m−1)(n−1) ∗ x(m−1) ) +µ ≤ 0 x0 + ... +x(m−1) = 1 x0 ≥ 0 ... ≥ 0 x(m−1) Maximamize ≥ 0 µ Abbildung 3.5: Lineares Programm zur Auszahlungsmatrix A zu minimieren, werden aus der ursprünglichen Matrix iteriert schwachdominierte Spalten und Zeilen so lange entfernt, bis es keine mehr gibt. Die auf diese Weise verkleinerte Auszahlungsmatrix A (A des ersten Spielers ist −At des zweiten Spielers) wird danach in Form eines linearen Programms (Abb. 3.5) aufgeschrieben (µ-Erwartungswert, xi -Wahrscheinlichkeiten des ersten Spielers). Der Simplex-Algorithmus liefert wegen der Dualität7 [Owen, 1970, S. 41f] immer gleichzeitig die optimalen Wahrscheinlichkeiten für beide Spieler. Die Verwendung gemischter Strategien auf Einphasenbäumen birgt aber in sich ein Problem in Bezug auf die spezielle Siegerbestimmung dieses Spiels. Die gemischte Strategie maximiert den Erwartungswert der Punktzahldifferenz, aber die Siegbedingung ist, dass diese Zahl einfach positiv ist. So kann z.B. ein niedrigerer immer noch positiver Erwartungswert mit kleinerer Streuung besser sein, als ein höherer Erwartungswert mit höherer Streuung. Exakte 7 In dieser Arbeit wird nicht auf alle Einzelheiten der Lösung linearer Programme eingegangen, denn es würde deren Umfang sprengen. Interessierte Leser sollten dafür einschlägige Literatur nutzen. 37 3.2. SPIELSTRUKTUR UND BERECHNUNG DES NASH-GLEICHGEWICHTES ci \ c j 8 10 12 13 16 P(c j ) 4 0.211 −0.029 −0.029 −0.029 −0.029 0.067 5 0.211 0.233 −0.108 −0.108 −0.108 0.362 6 0.211 0.233 0.097 −0.274 −0.274 0.287 7 0.211 0.233 0.097 0.473 −0.547 0.055 11 −0.648 −0.648 0.097 0.473 0.718 0.228 P(ci ) 0.18 0.19 0.283 0.093 0.254 Tabelle 3.4: Beispiel zum Spielanfang Lösung erhält man nur durch die Lösung eines aus beiden Phasen zusammengesetzten Spielbaumes, bei dem die Punkte vorwärts und die Siegwahrscheinlichkeiten rückwärts propagiert werden, was erheblich mehr Rechenaufwand als die Lösung eines Ein-Phasen-Baumes braucht. Dieser Algorithmus arbeitet auch wie die Lösung einer Phase auf einem Baum mit Matrizen als Knoten für jeden simultanen Zug, aber die Einträge dieser Matrizen variieren zwischen −1 und 1 und geben die Siegwahrscheinlichkeit an. Die Einträge dieser Matrizen sind gleich den Erwartungswerten der entsprechenden Teilbäume. Der Wert eines Blattes ist eine Zahl aus der Menge {−1, 0, 1} und ist entsprechend der dort erreichten Punktzahldifferenz gesetzt. Die Tabelle 3.4 stellt beispielsweise dar, mit welchen Wahrscheinlichkeiten für jede Karte zwei rationale Spieler das Spiel zum Kartensatz h4 · 5 · 6 · 7 · 11ih8 · 10 · 12 · 13 · 16i anfangen sollen. 38 KAPITEL 3. KONZIPIERUNG UND ANALYSE 3.3 Detektion der Verhaltensstrategien und MNM-Algorithmus Alle möglichen Verhaltensstrategien, die man in diesem Spiel verwenden könnte, wenn man den großen Aufwand der exakten Berechnung des NashGleichgewichtes umgehen will, teilen sich in zwei Gruppen: die kurzsichtigen und die vorausschauenden. Die kurzsichtigen Strategien nehmen nur die sofortige Auszahlung wahr, während die vorausschauenden den ganzen Spielbaum traversieren und die Erwartungswerte zum Wurzelknoten zurückpropagieren. Man kann sich auch eine Mischung aus diesen beiden Gruppen vorstellen, bei der der Spielbaum begrenzt bzw. gewichtet traversiert wird. Messungen8 haben ergeben, dass kurzsichtige Summenmaximierung (MSM9 ) in Vergleich zur Nash-Strategie auf allen Kartensätzen im Schnitt nur um ≈ 16, 5% 10 , während das zufällige Spielen um ≈ 67% schlechter ist. Daraus kann man folgern, dass sogar das vollständige Vorausschauen in diesem Spiel nur wenig Vorteile bringt. Zu dieser Erkenntnis würden wahrscheinlich auch menschliche Pico-Spieler kommen und sich nur wenig auf das Vorausschauen wenig konzentrieren. Die Summenmaximierung, als eine gängige Verhaltensstrategie menschlicher Spieler, ist empirisch selbst bei den relativ kleinen 3 × 3-Matrizen mit 24% nachgewiesen worden [Stahl und Wilson, 1994]. Die Summenmaximierung wird auch als eine Antwortstrategie auf einen irrationalen zufälligen Spieler verstanden. Diese Strategie hat aber einen entscheidenden Fehler - sie kann durchschaut und ausgenutzt werden. Tatsächlich erzielt die kurzsichtige Bestantwortstrategie (MBR11 ) auf MSM bei Pico nahezu hundertprozentige Gewinnwahrscheinlichkeit gegen MSM. Bestantwortstrategie auf Summenmaximierung wurde von 49% der Versuchspersonen angewendet und nur 27% nutzten Nash-Strategie. Zusammengefasst eignet sich MSM gut dafür, einer deterministischen Verhaltensstrategie zu Grunde gelegt zu werden, die der künstliche Agent im fiktiven Spiel (Abb. 3.1) spielen sollte. Die daraus entwickelte Verhaltensstrategie DMSM12 lässt sich als folgender verbaler Algorithmus beschreiben: 1. Nimm alle Zeilen mit maximaler Summe aus der kurzsichtigen Auszahlungsmatrix A und füge sie zur Strategiemenge F zusammen. 8 2*2772 Runden sum maximalisation 10 Di f f erenz der Siege ∗ 100% Anzahl der Spiele 11 myopic best response 12 deterministic MSM 9 myopic 39 3.3. DETEKTION DER VERHALTENSSTRATEGIEN UND MNM-ALGORITHMUS 2. Nimm alle Karten mit maximalem Minimum aus der Strategiemenge F und füge sie zur Strategiemenge S zusammen.13 3. Sortiere S aufsteigend nach der Kartennummer. 4. Spiele die erste Karte aus Strategiemenge S. Wenn DMSM die vom künstlichen Agenten verwendete 0-Ordnung-Strategie im fiktiven Spiel ist, dann ist die sie durchschauende, vom Menschen zu benutzende 1-Ordnung-Strategie die kurzsichtige Bestanwortstrategie MBR(·), weil die Motivation für die Benutzung einer vorausschauenden Bestanwortstrategie wegen sehr geringer Verbesserung fehlt. Nun zur Definition von MBR(DMSM): 1. Benenne die von DMSM ausgewählte Spalte in der kurzsichtigen Auszahlungsmatrix A als v. 2. Nimm alle Zeilen, die die beste Antwort auf v darstellen, und füge sie zur Strategiemenge F zusammen. 3. Spiele irgendeine Karte aus F. Verhaltensstrategien höher grader Ordnung DMBR(MBR(·))14, die vom künstlichen Agenten verwendet werden, müssen auch deterministisch sein, um eigene Durchschaubarkeit zu garantieren. Sie lassen sich folgendermaßen definieren: 1. Nimm alle Spalten, die von MBR in der kurzsichtigen Auszahlungsmatrix A gespielt werden können und füge sie zur reduzierten Matrix R zusammen. 2. Benutze DMSM auf R. Und die Verhaltensstrategien höher ungerader Ordnung MBR(DMBR(·)) sind entsprechend der 1-Ordnung-Strategie definiert. Aus der Auszahlungmatrix des fiktiven Spiels (Abb. 3.1) lässt sich ein Zustandsübergangsgraph (Abb. 3.6) für den künstlichen Agenten ableiten. Im initialen Zustand werden nur die Wahrscheinlichkeiten für drei Verhaltensstrategien des Gegners errechnet, die zusammen 100% ergeben: die zufällige, 13 risikoscheu 14 deteministic MBR 40 KAPITEL 3. KONZIPIERUNG UND ANALYSE Abbildung 3.6: Zustandsübergangsgraph im fiktiven Spiel die MSM und die 1-Ordnung-Strategie. Jede nicht formalisierbare Verhaltensstrategie des Menschen im fiktiven Spiel wird als eine Linearkombination aus MSM und der zufälligen modelliert. Man kann sich auch vorstellen, dass der menschliche Spieler sich auf Grund besonderer Begabung entsprechend der exakten Nash-Strategie verhält und dadurch eine theoretisch höhere Auszahlung erhalten kann, als ein DMSM-nutzender künstlicher Agent. Praktisch aber macht jeder Mensch mit einer bestimmten Wahrscheinlichkeit Fehler. Dadurch würde ein Mensch kaum eine höhere Gewinnwahrscheinlichkeit erreichen. Außerdem ist die 1-Ordnung-Strategie viel profitabler und einfacher zu bestimmen. Aus dem initialen Zustand geht der künstliche Agent in den nächsten, d. h. zweiten Zustand über, wenn die Wahrscheinlichkeit für die 1-OrdnungStrategie P(1 − Ordnung) den Pegel p0 übersteigt. Im zweiten Zustand wird die 2-Ordnung-Strategie verwendet. Generell geht der künstliche Agent aus dem Zustand n bei P((1 + 2 ∗ n) − Ordnung) > p0 in den Zustand n + 1 über, für alle n von 0 bis unendlich. Da die Benutzung der Verhaltensstategien höher Ordnung für menschliche Spieler mit höherem Aufwand verbunden ist, werden sie irgendwann wieder eine intuitive Verhaltensstrategie verwenden. Daher muss der künstliche Agent vom Zustand n, n > 0, in den Zustand 0 übergehen, wenn die Summe der beiden, in diesem Zustand zu erwartenden Verhaltensstrategien unter den Pegel p1 rutscht. 41 3.3. DETEKTION DER VERHALTENSSTRATEGIEN UND MNM-ALGORITHMUS Abbildung 3.7: Rekursives Modell des künstlichen Agenten im fiktiven Spiel Der künstliche Agent lässt sich auch mit Hilfe der RMM beschreiben (Abb. 3.7). Der Wurzelknoten des hier dargestellten rekursiven Modells, sowie jeder ungefühlte schwarzer Kreis, stellt DMBR-Strategie dar, wobei DMSM = DMBR(ZK) = DMBR(Nash) = DMBR(MSM) und MSM = MBR(ZK) gelten. Die ungefühlten roten Kreise symbolisieren dagegen die MBR-Strategie; der einzige gefühlte Knoten symbolisiert die Nash-Strategie. In jedem Zustand des Zustandsübergangsgraphen entspricht der künstliche Agent einem begrenzten Ausschnitt aus dem allgemeinen rekursiven Modell. Die Wahrscheinlichkeiten für einzelne zu erkennende Verhaltensstrategien werden nach dem Bayes-Theorem berechnet, bei der deren a-priori-Wahrscheinlichkeiten gleich sind und die sich daher wegkürzen lassen: P(Stra | Data) = P(Data | Stra ) h ∑k=1 P(Data | Strk ) h − anzahl der Strategien Die Wahrscheinlichkeiten P(Data | Stra ) werden auf einer endlichen Liste von zuletzt beobachteten Verhaltensbeispielen berechnet: g P(Data | Stra ) = ∏ pa j (3.1) j=1 g − Ged ächtnisgrösse. pa j −Wahrscheinlichkeit f ür Beobachtung 42 KAPITEL 3. KONZIPIERUNG UND ANALYSE im Beispiel j von der Strategie a produziert zu sein. Jedes Verhaltensbeispiel ist eine kurzsichtige Auszahlungsmatrix, bei der der künstliche Agent die Beobachtung macht, dass der menschliche Spieler aus l möglichen Karten die Karte ci auswählt. Würde ein menschlicher Spieler z.B. zufällig entscheiden, dann wäre die Wahrscheinlichkeit für jede einzelne Karte 1l . Entscheidet der menschliche Spieler aber nicht zufällig, sondern nach einer bestimmten Verhaltensstrategie, so gibt es m Karten, die er spielen würde, und n = l − m Karten, die er meiden würde. Hinzu kommt noch, dass der Mensch mit einer bestimmten Wahrscheinlichkeit Fehler macht, d. h. manchmal falsche Karten auswählt. Um die Fehlerwahrscheinlichkeiten für alle m und n Werte zu berechnen, wird hier QRE15 [F.Camerer, 2003, S. 33] verwendet: eλ ∑s−i P(s−i )ui (si ,s−i ) P(si ) = λ ∑ P(s )u (s ,s ) ∑sk e s−i −i i k −i Da der künstliche Agent deterministisch ist und keine Fehler macht, gibt es nur eine Strategie s−i mit 100%-prozentiger Wahrscheinlichkeit. Das führt zur Vereinfachung: eλui (si ,s−i ) P(si ) = ∑sk eλui (sk ,s−i ) Nun setzt man für Auszahlung 0, wenn man einen Fehler macht, und 1, wenn die richtige Karte gespielt wird und erhählt die Wahrscheinlichkeit eines falschen Zuges: 1 e0 P(si ) = n 0 m λ = n + meλ ∑1 e + ∑1 e und die Wahrscheinlichkeit eines richtigen Zuges: P(si ) = eλ eλ = λ n + meλ ∑n1 e0 + ∑m 1 e Nehmen wir jetzt an, der menschliche Spieler macht bei zwei auszuwählenden Aktionen mit 5%16 einen Fehler. Das würde ergeben: eλ = 0.95 1 + eλ 15 quantal 16 response equilibrium die menschliche Fehlerquote bewegt sich so zwischen 0% und 10%, wie es verschiedene Studien zeigen 43 3.3. DETEKTION DER VERHALTENSSTRATEGIEN UND MNM-ALGORITHMUS l\m 2 3 4 5 1 19 20 ≈ 0.95 19 21 ≈ 0.905 19 22 ≈ 0.864 19 23 ≈ 0.826 2 19 39 19 40 19 41 3 ≈ 0.487 ≈ 0.475 ≈ 0.463 19 58 19 59 4 ≈ 0.328 ≈ 0.322 19 77 ≈ 0.247 Tabelle 3.5: Wahrscheinlichkeiten für einen der richtigen Züge l\m 2 3 4 5 1 2 3 1 20 ≈ 0.05 1 21 ≈ 0.0476 1 22 ≈ 0.0455 1 23 ≈ 0.0435 1 39 ≈ 0.0256 1 40 ≈ 0.025 1 41 ≈ 0.0244 1 58 ≈ 0.0172 1 59 ≈ 0.017 4 1 77 ≈ 0.013 Tabelle 3.6: Wahrscheinlichkeiten für einen der falschen Züge Durch Auflösung nach eλ erhält man: eλ = 0.95 0.05 = 19 Mit Hilfe dieses Wertes kann man die entgültigen Formeln für die Warscheinlichkeit der Auswahl eines Zuges angeben, gegeben die Menge der richtigen Züge R(Stra ) in Anhängigkeit von der Strategie Stra : 19 , f alls si ∈ R(Stra ) P(si |R(Stra )) = n + m1 ∗ 19 , f alls ¬(si ∈ R(Stra )) n + m ∗ 19 (3.2) Mit Hilfe von Gleichungen 3.2 lassen sich die Tabellen 3.5 und 3.6 aufstellen, die die Wahrscheinlichkeiten modellieren, mit denen eine Karte von einem Menschen gewählt wird, falls sie seiner gespielten Strategie entspricht oder seiner gespielten Strategie nicht entspricht. Die Gleichungen 3.1 und 3.2 kann man folgendermaßen in Beziehung setzen: pa j = P(si |R(Stra )) (3.3) si ist die im Verhaltensbeispiel j gewählte Karte Das Hauptziel des künstlichen Agenten im fiktiven Spiel ist die Erkennung dessen, ob er vom menschlichen Spieler durchschaut wird. Dafür eignen sich 44 KAPITEL 3. KONZIPIERUNG UND ANALYSE l\m 1 2 1.9% 3 9.3% 4 26.7% 5 42.7% 2 3 4 0.7% 3.9% 13.4% 0.3% 0.6% 0.1% gesamt 1.9% 10% 30.8% 57.2% Tabelle 3.7: Verteilung auswertbarer Fälle aber nicht alle kurzsichtigen Matrizen; sie werden deswegen nicht in die Beobachtungsliste aufgenommen. Hier sind die Ausschlusskriterien mit Begründungen: 1. m = l : Die von DMBR ausgewählte Zeile ist gleich in allen Spalten. 2. Dominante Spalten : Das Wählen oder nicht Wählen dieser Spalten zeigt nur die allgemeine Rationalität und nicht die Antizipation der gegnerischen Handlung. 3. Kombination der Zeile und Spalte ist ein Nash-Gleichgewicht : Das Wählen dieser Spalte kann nicht nur als die Antizipation der gegnerischen Handlung, sondern auch als gegnerische Antipazipation der eigenen Handlung interpritiert werden. Eine Evaluation17 hat ergeben, dass pro Runde im Schnitt ≈ 6.3 auswertbare Fälle vorkommen. Die Tabelle 3.7 gibt eine Verteilung dieser Fälle nach l und m an. Die Variable g, die die Gedächtnisgrösse festlegt, darf nicht zu groß sein, denn dann wäre der künstliche Agent wegen der Gleichgewichtung der Beobachtungen zu träge; und nicht zu klein, denn dann wäre er anfällig für Fehleinschätzungen. Nach Evaluation mit computersimulierten menschlichen Gegnern hat sich der Wert 9 für den initialen Zustand und der Wert 11 für andere Zustände als sinnvoll erwiesen. Genauso, mit Hilfe deiser Evaluation, sind auch die Werte für p0 und p1 auf 0, 96 und 0, 0005 gesetzt worden. Diese Werte könnten natürlich auch analytisch bestimmt werden, was aber relativ aufwändig. Dem hier beschriebenen Aufbau des künstlichen Agenten im fiktiven Spiel (kann auch als MNM-Algorithmus bezeichnet werden) wird keine Optimalität unterstellt. Künftige Arbeiten werden eventuell basierend auf empirischen Studien einen besseren Aufbau vorschlagen. 17 10 ∗ 2772 45 Runden, zufällig gegen DMSM 3.4. WAHL DES ZWEITEN INTERAKTIONSSZENARIOS 3.4 Wahl des zweiten Interaktionsszenarios Spieler 1\ 0 1 0 Spieler 1\ 1 0 0 1 1 1 1 Spieler 2 Spieler 2 Das erste Interaktionsszenario bedurfte eines fiktiven Spiels, um den Aufbau geschachtelter Modelle für den künstlichen Agenten zu rationalisieren. Deswegen sollte ein in diesem Abschnitt beschriebenes Spielkonzept eingeführt werden, das den Entwurf von Spielstrukturen möglich macht, bei denen der Aufbau geschachtelter Modelle rational ist. Es gibt zwei Verhaltensmuster, Kooperation und Konkurrenz, die bei der Interaktion mehrerer Individuen betrachtet werden. Die Abbildung 3.8 zeigt zwei einfache Spiele, die für Kooperation (links) und Konkurrenz (rechts) stehen, bei denen das Nash-Gleichgewicht in gemischten Strategien liegt. In der Kooperationsituation müssen sich die beiden Spieler möglichst vorhersagbar und in der Konkurrenzssituation möglichst unvorhersagbar verhalten. Das vorhersagbare Verhalten baut sich am besten auf Grund einer bestimmten Konvention auf. Bevor aber eine solche Konvention erfunden wird, haben die beiden Spieler Interesse daran, das Verhalten des Gegenübers zu modellieren. Ist aber Konvention eingeführt, müssen sie es nicht mehr machen. Nehmen wir aber an, dass mehrere Spieler interagieren, und jeder Spieler einen festen Partner und einen festen Gegner hat. Dadurch ist jeder Spieler daran interessiert, seinem Partner gegenüber vorhersagbar und seinem Gegner gegenüber unvorhersagbar zu verhalten. Voraussetzung dafür ist, dass der Partner und der Gegner sich voneinander in ihren Fähigkeiten irgendwie unterscheiden, sonst wäre das Verhalten des Spielers entweder den beiden gegenüber vorhersagbar oder den beiden gegenüber unvorhersagbar. Um in solcher Situation ein optimales Verhalten zu wählen, muss jeder Spieler seinen Partner und seinen Gegner modellieren. Da aber alle Spieler das tun wollen, wird es zum Aufbau geschachtelter Modelle kommen. Die kleinste Zahl der Spieler in einem Spiel, wo jeder Spieler einen Gegner 0 0 0 1 0 1 −1 1 −1 1 −1 1 1 −1 Tabelle 3.8: Kooperation und Konkurrenz und einen Partner hat, ist 4, denn bei 3 wäre mindestens einer der Spieler 46 KAPITEL 3. KONZIPIERUNG UND ANALYSE seines Partners Gegner. Die vier Spieler (1,2,3,4) sind in zwei Partnerpaare18 bzw. Fraktionen, I (1,3) und II (2,4), unterteilt (siehe Abb. 3.8). Spieler in einer Fraktion können nur gemeinsam einen identischen Betrag gewinnen oder verlieren und jede Fraktion gewinnt nur so viel, wie die andere Fraktion verliert. Außer den Fraktionen sind die Spieler in zwei Gegnerpaare, α (1,2) und β (3,4), unterteilt. Jedes Gegnerpaar spielt ein Nullsummenspiel ohne Nash-Gleichgewicht in puren Strategien, wie z.B. Matching-Pennies (Abb. 3.8 rechts). Wenn beide Spieler in einer Fraktion die gleichen Strategien spielen, so verlieren sie einen Betrag b, außer wenn die Spieler anderer Fraktion auch die gleichen Strategien spielen, denn dann bekommt jeder Spieler als Auszahlung 0. In sonstigen Fällen gewinnt jede Fraktion die Summe der Gewinne der beiden Spieler aus den jeweiligen Gegnerpaaren. Zusätzliche Bedingung Abbildung 3.8: Spielkonzept ist, dass kein Spieler mit einem anderen kommunizieren darf. Sonst könnte jeder Spieler die mentalen Eigenschaften seines Partners verändern, indem er ihm seine Verhaltensstrategie mitteilt. Das Spiel wird wiederholt gespielt und es besteht das gemeinsame Wissen der Ungleichheit der Fähigkeiten aller Spieler. Die Abbildung 3.9 zeigt beispielsweise die Übertragung dieses Konzeptes auf Matching-Pennies und Papier-Stein-Schere. Wenn alle Spieler zwar unterschiedliche aber nicht begrenzte Fähigkeiten haben, dann haben solche Spiele kein garantiertes Nash-Gleichgewicht. Bei Matching-Pennies kann eine denkbare Strategie des Spielers sein, eine für den Gegner zufällig aussehende und für den Partner deterministische Bitfolge zu produzieren, denn das würde ihn besser stellen als rein zufälliges Spielen. Da die Fähigkeiten eines Spielers unbegrenzt sind, hat jeder Spieler eine unendliche Teilmenge aller möglichen Bitfolgenproduktionsregeln zur Verfügung. Hat man aber eine unendliche 18 Ähnlich 47 wie bei den Spielen bridge und Doppelkopf 3.4. WAHL DES ZWEITEN INTERAKTIONSSZENARIOS I(s1 s3 )\II(s2 s4 ) 00,11 01 10 00,11 0 −b 01 2 −2 b 10 −2 2 Mit z. B. b = 1 1 3 2 4 I(s s )\II(s s ) 11,22,33 12 13 21 23 31 11,22,33 0 −b 12 0 1 0 2 −2 13 −1 0 2 1 0 21 0 −2 0 −1 1 b 23 −2 −1 1 0 2 31 2 0 −1 −2 0 32 1 2 −2 0 −1 Mit z. B. b = 2 32 −1 −2 2 0 1 0 Tabelle 3.9: Übertragung auf Matching-Pennies und Papier-Stein-Schere Strategiemenge zur Verfügung, so kann nach dem allgemeinen Existenzsatz kein Nash-Gleichgewicht garantiert werden (siehe Abschnitt 2.1.2). Um dieses Spielkonzept zum Aufbau eines Interaktionsszenarios zu verwenden, bei dem Menschen mit Maschinen interagieren können, kann ein Gesellschaftsspiel wie z.B. Pico 2 genommen werden, auf das es sich übertragen lässt. Die Annahme, dass die Spieler ein gemeinsames Wissen ihrer geistiger Verschiedenheit haben, würde unter Menschen ohne weiteres gelten. Durch Übertragung dieses Spielkonzeptes auf Pico 2 entsteht ein neues Gesellschaftsspiel, das als Pico 4 getauft werden kann. Die Regeln für Pico 4 lauten folgendermaßen: • Es spielen insgesamt 4 Spieler in zwei Fraktionen à 2 Spieler. • Die Spieler in einer Fraktion bekommen identische Kartensätze und nach Ablauf einer Phase, tauschen sie sie mit der anderen Fraktion aus. • Das Spielziel besteht in der Maximierung der Punktzahl der eigenen Fraktion, die sich aus Summe der Punktzahl beider Spieler zusammensetzt. • Eine Phase wird beendet, wenn einer der vier Spieler nur noch eine Karte auf der Hand hat. 48 KAPITEL 3. KONZIPIERUNG UND ANALYSE • Wenn beide Spieler in einer Fraktion die gleiche Karte werfen, so gewinnen die Karten der anderen Fraktion und dürfen abgelegt werden, wenn sie auch nicht gleich sind, denn sonst kann kein Spieler seine Karte ablegen. Ansonsten gilt die Ablegeregel aus dem ursprünglichen Pico 2. Für die Spielerplatzbelegungen (Spieler1, Spieler2, Spieler3, Spieler4) gilt folgende Äquivalenzregel: (a, b, c, d)=(b, b a, d, c)=(c, b d, a, b)=(d, b c, b, a). Dadurch ergeben sich insgesamt fünf unterscheidbare Spielerplätzebelegungen, bei denen Menschen (M) und künstliche Agenten (K) beteiligt sind: (M, M, M, K), (M, M, K, K), (M, K, M, K), (M, K, K, M) und (M, K, K, K). Von der Gültigkeit dieser Äquivalenz kann man sich leicht überzeugen, wenn man die Abbildung 3.8 dreht bzw. spiegelt. Die Programmierung eines künstlichen Agenten, der in Pico 4 gegenüber Menschen gut abschneiden würde, ist nicht ohne empirische Studien möglich. Es liegen aber keine empirische Studien in diesem Bereich vor, weil dieses Spielkonzept erst in dieser Arbeit vorgeschlagen wurde. Deshalb ist die hier vorgeschlagene Vorgehensweise die Implementierung eines Netzwerkspiels für Pico 4, das das Verhalten der Menschen in diesem Spiel protokolliert. Ferner ist außer der empirischen Studien mit bezahlten Versuchspersonen die Implementierung eines Online-Portals vorstellbar, bei dem an den Brettspielen interessierte Nutzer des Internets sich anmelden und gegeneinander spielen können. Diese Vorgehensweise ist kostengünstiger und würde eine vielgrößere Datenmenge liefern. Nachteilig ist dabei die geringe Glaubwürdigkeit bzw. Qualität der Daten, denn die Online-Spieler könnten an etwas anderem als dem fairen Gewinnen interessiert sein. 49 3.5. ERFORDERLICHE PROGRAMMKOMPONENTE 3.5 Erforderliche Programmkomponente Bevor man zur Beschreibung des entstandenen Programms übergeht, werden hier als eine Zusammenfassung dieses Kapitels die erforderlichen Programmkomponenten aufgelistet: Benutzeroberfläche −→ Die Benutzeroberfläche ist notwendig, damit die menschlichen Spieler mit dem Programm interagieren können. Sie soll eine angemesse Darstellung des Spieles beinhalten. Spielverwaltung mit Evaluationsmöglichkeit −→ Zudem ist eine Programmkomponente erforderlich, die für die Einhaltung der Spielregeln sorgt. Weiter muss es eine Möglichkeit geben, die Computerspieler gegeneinander zur Evaluationszwecken mehrere Runden spielen zu lassen. Implementation des MNM-Algorithmus −→ Unter mehreren computerisierten Verhaltensstrategien sollte der MNMAlgorithmus implementiert werden. Dieser Algorithmus ist in dieser Arbeit die bedeutendste Komponente des Programms. Netzwerkspiel −→ Die Möglichkeit zur Durchführung eines Netzwerkspiels ist aus zwei Gründen erforderlich: Erstens stellt sie eine einfache Möglichkeit zur Verbindung mit anderen Pragrammen dar, zweitens lassen sich so empirische Studien durchführen. 50 KAPITEL 4. PROGRAMM Kapitel 4 Programm 4.1 Programmstruktur Für die Implementierung wurde die Programmiersprache Java verwendet. Die Plattformunabhängigkeit dieser Sprache sowie die Möglichkeit des Ausführens im Browser, macht diese Programmiersprache für die Durchführung empirischer Studien mit Internetnutzern sehr vorteilhaft. Das entstandene Programm1 beinhaltet die Implementierung beider Szenarien. Es ist in folgende Packetstruktur unterteilt: >picocardgamepack −→> helpful −→> load −→> payoff −→−→> jcyw Das UML-Diagramm im Anhang A zeigt die Beziehungen zwischen den Klassen im Packet picocardgamepack. Die Klasse GameAdmin wickelt die Spielverwaltung ab und ist mit der Klasse GameMainGUI wechselseitig referenziert. Die Klasse GameAdmin beinhaltet außerdem die Instanzen der Klassen mit dem gemeinsamen Interface Player. Alle Spieler werden durch Klassen realisiert, die von den Klassen PlayerComputer oder PlayerHuman abstammen, die wiederum das Inferface Player vererben. Die Züge der Player-Klassen, die von PlayerHuman abstammen, werden entweder von der lokalen GUI oder vom Netzwerk gesetzt. Die Player-Klassen aber, die vom PlayerComputer abstammen, berechnen ihre Züge selbst unter Benutzung der Klassen aus dem Packet payoff. 1 60 51 Klassen und über 7000 Zeilen 4.1. PROGRAMMSTRUKTUR Das Packet payoff (Abb. 4.1) beinhaltet Klassen, die für die Berechnung der Verhaltensstrategien zuständig sind. Alle Klassen, die von A abstammen, stellen Matrizen der simultanen Züge dar. Die Klasse A beinhaltet außerdem viele statische Methoden, die von verschiedenen Klassen benutzt werden. Der Unterschied zwischen AInt und ADouble ist, dass die Einträge der Matrizen in diesen Klassen entsprechend int oder double sind. Das UML-Diagramm 4.2 stellt dar, welche Computerspieler welche Klassen aus dem Packet payoff instanzieren. Das Packet load beinhaltet Klassen, die für das Laden von Bildern und Kartensatzmengen zuständig sind. Das Packet helpful beinhaltet einige hilfreiche Klassen. Abbildung 4.1: Packet payoff Abbildung 4.2: Beziehungen zwischen payoff-Klassen und Player-Klassen 52 KAPITEL 4. PROGRAMM 4.2 Hauptbenutzeroberfläche Die Hauptbenutzeroberfläche (Abb. 4.3) besteht aus einem Menü und einem ”Spieltisch”, der für zwei und vier Spieler benutztbar ist. Abbildung 4.3: Hauptbenutzeroberfläche 4.2.1 Menü • Variant : Variante von Pico – Two players : Pico 2 – Four players : Pico 4 • Game : – New : Initialisiere ein neues Spiel. – Next turn : Beende nächsten Zug (wenn kein menschlicher Spieler vorhanden ist). – Eval a round : Spiele eine Runde zu Ende (- // -). – Eval 100 rounds : Spiele 100 Runden(- // -). – Eval all sets : Spiele alle Spiele zu Kartensätzen aus der ausgewählten (- // -). – Reset wins : Setze den Spielstand zurück und initialisiere ein neues Spiel. 53 4.2. HAUPTBENUTZEROBERFLÄCHE – MNM options : Setze die Parameter p0, p1 und Gedächtnisgrössen für den initialen Zustand und alle anderen Zustände. – Exit : Beenden • 1-4 : Die Zahlen 1 bis 4 stehen für die Spielerplätze. Bei jedem Wechsel wird eine neue Instanz eines bestimmten Spielertyps hergestellt und ein neues Spiel initialisiert. – Local GUI : PlayerLocalGUI. – Remote : PlayerServerClient. – Random : PlayerRandom. – Pure Strategie : PlayerPureSt, benutzt Maximin. – Nash : PlayerNash, benutzt Nash-Gleichgewicht. – Anti pure strategie : PlayerAntiPS, spielt optimal, wenn der Gegner Maximin spielt. – Myopic sum maximalisation : PlayerMSM, kurzsichtige Summenmaximierung. – noisy 1-order myopic : Playerorder1, verrauschte MBR(MSM). – noisy 3-order myopic : Playerorder2, verrauschte MBR(DMBR(MBR(MSM))). – MNM algorithm : PlayerMNM fm, MNM-Algorithmus. – MNM algorithm (+Nash) : PlayerMNM fom, wie PlayerMNM fm, nur mit Erkennung optimaler Strategie. • Cardssets : Art der Kartensätze (Anzahl) – All possible (2772) : Alle. – With sattle point (318) : Mit optimaler purer Strategie. – Without sattle point (2454) : Ohne optimale pure Strategie. – 10p (10) : Mit Minimax − Maximin = 10 – 10p eq (2) : Mit Minimax − Maximin = 10, aber mit ausgeglichenen Phasen. • Network : Netzwerkmenü. – Start & connect own server : Starte einen Server und verbinde diesen Client mit ihm. – Disconnect & kill own server : Trenne diesen Client vom Server und beende ihn. 54 KAPITEL 4. PROGRAMM – Connect a server : Verbinde diese Client mit einem Server. – Disconnect : Beende die Verbindung. – Monitor : Zeige den Serverzustand – Propose a thread of games : Schlage eine Spielsitzung vor. – Take back the proposal : Nimm den Vorschlag zurück. – Withdraw the enrollment : Melde diesen Client aus einer Spielsitzung ab. – Start the thread : Starte die Spielsitzung. – Retreat from the thread : Beende die Spielsitzung. • ?: – Game tree 1/2 : Zeige die Auszahlungsmatrix ”1 vs 2”. – Game tree 3/4 : Zeige die Auszahlungsmatrix ”1 vs 2”. – Output : Zeige das Ausgabefenster (Abb. 4.4). Abbildung 4.4: Ausgabefenster 4.2.2 ”Spieltisch” Der ”Spieltisch” besteht aus Karten der Spieler und dem Spielstand. Jeder Spieler hat eine Reihe Handkarten und einen Stapel abgelegter Karten rechts davon. Die nicht teilnehmende Karte befindet sich in der Mitte des ”Spieltisches”. Die Spieler sind durchnummeriert mit Zahlen - 1, 2, 3, 4 - und befinden sich entsprechend ihrer Nummer: oben, unten, links, rechts. Auf dem ”Spieltisch” wird die Phase des Spiels durch die Zahlen 1 oder 2 angezeigt. Der Spielstand wird durch die Anzeige Score für Punkte und Wins für Anzahl 55 4.3. MNM-ALGORITHMUS der Siege (fällt bei vier Spielern weg) und gespielter Spiele (in Klammern). Die Karten werden bei lokalen menschlichen Spielern durch einen Mausklick ausgewählt. Ausgewählte Karten werden verschoben dargestellt. 4.3 MNM-Algorithmus Der Computerspieler, der sich wie der im Abschnitt 3.3 beschriebene künstlicher Agent verhält, ist in der Klasse PlayerMNM fm implementiert. Die Klasse Data implementiert das Gedächtnis, auf dem die Wahrscheinlichkeiten für Verhaltensstrategien des menschlichen Spielers berechnet werden. Die genaue Implementierung des MNM-Algorithmus ist relativ trivial. Anhand der im Anhang B aufgeführten Ausgaben des MNM-Algorithmus kann man sich seine Funktionsweise veranschaulichen. Die Ausgaben haben folgende Bedeutung: • Beispiel: [0.25 [0.864 [0.025 [0.0 0.2 0.463 0.024 0.0 0.333 0.905 0.048 0.0 0.25 0.045 0.864 0.0 0.25 0.045 0.045 0.0 0.2 0.463 0.826 0.0 0.333 0.905 0.026 0.0 0.25 0.864 0.864 0.0 0.2 0.826 0.043 0.0 ] ] ] ] Beschreibung: Das Gedächtnis wird in Form einer Matrix ausgegeben. Jede Zeile dieser Matrix entspricht im Zustand n einer bestimmten Verhaltenstrategie des menschlichen Gegenspielers in der Reihenfolge: zufällig, (n+1)-Ordnung, MSM und (n−1)-Ordnung (im Zustand 0 auf 0.0 gesetzt). Jede Spalte stellt ein Beobachtungsbeispiel dar (links=neu b und rechts=alt). b • Beispiel: Player2> Player2> Player2> Player2> You You You You play play play play with with with with probality probality probality probality 0.0 % Random 0.0 % 3-order. 0.25 % MSM 99.74 % 1-order Beschreibung: Ausgabe der Wahrscheinlichkeiten der gespielten Verhaltensstrategie des Gegners. • Beispiel: 56 KAPITEL 4. PROGRAMM Player2> Player2> Player2> Player2> Player2> Player2> The card proposed by DMSM is: 13. Your responds: 5 My respond: 10 Your responds: 12 My respond: 13 So, I prefer card 13. Beschreibung: Berechnung der Strategie. In diesem Beispiel ist es DMBR(MBR(DMBR(MBR(DMSM)))). • Beispiel: Player2> So I decide to switch to 2-order. Beschreibung: Zustandsübergang. 4.4 Spielbaumtraversierung Die Traversierung des Spielbaumes kann sehr viel Rechenaufwand in Anspruch nehmen, wenn man keine intelligente Methoden anwendet, um ihn zu begrenzen. Aus jedem Knoten können n1 ∗ n2 Pfade befolgt werden, wobei n1 die Anzahl der Handkarten des ersten Spieler und n2 die Anzahl der Handkarten des zweiten Spielers angeben. Aus n1 ∗ n2 Pfaden können aber nur höchstens n1 + n2 Pfade unterschieden werden, von denen jeder Pfad einer abgelegten Karte aus n1 + n2 Karten entspricht. Zweitens kann man den Rechenaufwand noch mehr begrenzen, wenn die wiederholten Zustände gespeichert werden. Die Spielbaumtraversierung wird statische durch Methoden in Klasse CalcTree aus dem Packet payoff implementiert. 4.5 Einbindung der Java-Simplex-Implementation Die Implementierung des Simplex-Algorithmus ist nicht trivial und gute Implementationen sind kommerziell. Für Berechnung der gemischten Gleichgewichte bei Pico reicht aber die im Netz frei verfügbare Java-Simlex-Implementation [Wisniewski und Wei, 2004]. Die Funktionsweise der Lösung einer Auszahlungsmatrix lässt sich am besten an einem Beispielproblem beschreiben. Die Matrix 8 2 3 10 57 4.5. EINBINDUNG DER JAVA-SIMPLEX-IMPLEMENTATION −→ Abbildung 4.5: Lösung einer Auszahlungsmatrix [Wisniewski und Wei, 2004] ist z. B. zu lösen. Dafür muss sie entsprechend der Abbildung 3.5 in ein lineares Programm umgewandelt und in die Benutzteroberfläche der JavaSimplex-Implementation eingegeben werden (Abb. 4.5, oben). Nach einigen Iterationen wird das Problem gelöst und es wird die auf Abbildung 4.5 (unten) dargestellte Ausgabe angezeigt. Daraus kann die Lösung für beide Spieler entlesen werden: 8 2 0.538 3 10 0.462 0.615 0.385 mit dem Erwartungswert 5.692. Man muss aber wegen der Spezifikation der Java-Simplex-Implementation darauf achten, dass der voraussichtliche Erwartungswert der zu lösenden Matrix positiv sein muss. Das erreicht man, indem von der Matrix ihr kleinster negativer Betrag substrahiert und nach der Lösung dem Erwartungswert hinzuaddiert wird. 58 KAPITEL 4. PROGRAMM Die Klasse Simplex aus dem Packet payoff wandelt eine Auszahlungsmatrix in ein lineares Programm und gibt die Lösung in geeigneter Form aus. Dazu ist aber das Packet jcyw notwendig, das aus zwei Klassen, RevisitedSimplex und Matrix, besteht. Diese beide Klassen wurden der Java-SimplexImplementation entnommen. 4.6 Netzwerkspielverwaltung Das Spielen über ein Netzwerk wird mit Hilfe eines Servers ermöglicht. Der Server wird mit Hilfe der Klassen PicoServer, ServerThread und PicoTypeOnServer implementiert. PicoServer ist dabei die Hauptklasse, die nach Angabe einer Portnummer startbar ist. PicoServer besitzt eine Liste von Instanzen der Klasse ServerThread, die paralelle Threads darstellen. Jede Instanz der der Klasse ServerThread verwaltet einen Dialog mit einem Client. Die Instanzen der Klasse PicoTypeOnServer repräsentieren einzelne Spielsitzungen. Der Server übernimmt nur die Verwaltung der Kommunikation und Zuordnung zu Spielsitzungen. Die Spielverwaltung an sich wird aber von dem Client übernommen, der die Spielsitzung vorgeschlagen hat (Abb. 4.6 rechts). Die Clients, die die Spielverwaltung nicht übernehmen, werden ferngesteuert. Als Client kann ein aufgerufenes Pico-Programm auftreten. Dabei kann ein Abbildung 4.6: Netzwerkspielverwaltung Client in verschiedene Zustände übergehen. Der Zustandsübergangsgraph eines Clients zeigt die Abbildung 4.6 links. Die Zustände haben folgende Bedeutung: 59 4.6. NETZWERKSPIELVERWALTUNG Disconnected : Nicht mit dem Server verbunden. Connected : Verbunden mit dem Server. Dabei erhält der Client einen Loginnamen. Proposed : Client hat eine Spielsitzung auf dem Server vorgeschlagen und erwartet Anmeldungen weiterer Clients. Enrolled : Client ist in einer vorgeschlagenen Spielsitzung angemeldet. Can start : Client hat eine Spielsitzung auf dem Server vorgeschlagen und kann es starten, weil es genügend andere Clients angemeldet haben. Started : Client hat die Verwaltung einer laufende Spielsitzung übernommen (die Spielvewaltung wird nicht auf dem Server sondern auf einem Client abgewickelt, der die Spielsitzung vorgeschlagen hat). Playing : Client nimmt an einer laufenden Spielsitzung teil. Die Abbildung 4.7 zeigt den Netzwerkdialog, der aus dem Menü ”Network” aufgerufen werden kann, wenn eine Verbindung zum Server besteht. Im rechten Bereich des Netzwerkdialogs sieht man die Liste der an den Server angeschlossenen Clients. Im linken Bereich gibt es eine Liste vorgeschlagener bzw. laufender Spielsitzungen. Der untere Bereich ist für das Chatten2 vorgesehen. Jeder Eintrag in der Liste der Spielsitzungen enthält den Loginnamen des vorschlagenden Clients (oben), die Bezeichnung der Kartensatzmenge und die besetzbaren bzw. schon besetzten Plätze. Ein nicht besetzter Platz ist durch einen Knopf mit Aufschrift ”enroll” gekennzeichnet. Beim Drücken eines ”Enroll”-Knopfs wird der Client für das jeweilige Spiel angemeldet. Ein anmeldender Client kann nur in einer Spielsitzung einen Spieler bereitstellen. Ein vorschlagender Client dagegen kann keine (bei Beobachtung) oder beliebig viele (wenn Computerspieler erforderlich sind) Spieler in einer Spielsitzung bereitstellen. Im Anhang C ist eine Liste der Befehle und Serverausgaben aufgeführt. 2 noch nicht implementiert 60 KAPITEL 4. PROGRAMM Abbildung 4.7: Netzwerkdialog 61 Kapitel 5 Ausblick Die weiterführende Forschung kann man in folgende Kategorien unterteilen: • Gestaltung emprischer Studien: Im Abschitt 3.4 wurde schon erwähnt, dass für das zweite Interaktionsszenario keine empirisch begründete Programmierung des künstlichen Agenten angegeben werden kann. Daher ist es wünschenswert empirische Studien durchzuführen. Es wurde im genannten Abschnitt vorgeschlagen, die empirische Studien mit Internutzern durchzuführen. Die Implementierung solcher Möglichkeit ist aus technischer Sicht schon durch eine geringfügige Modifikation des in dieser Arbeit entstandenen Programms möglich. Die grosse Schwierigkeit solcher Studien ist aber die Verhinderung destruktiver und regelumgehender Verhaltensweisen der Onlinespieler. Solches Verhalten kann durch intelligenten Einsatz der zur Verfügung stehenden technischen Möglichkeiten in Grenzen gehalten werden. Außer des zweiten Interaktionsszenarios kann auch das erste Interaktionsszenario mit menschlichen Spielern evaluiert werden. Das könnte womöglich zur Verbesserung des dort vorgeschlagenen MNM-Algorithmus führen. • Kombination mit humanoiden Agenten: Die zweite Richtung ist die Verwendung in Verbindung mit virtuellen Personen wie z. B. Max (siehe Abschnitt 2.2.1). In [Becker u.a., 2005] wurde die Auswirkung der computersimulierten emotionalen Verhaltensweisen (nicht verbale Signale) von Max auf den emotionalen Zustand einer mit ihm interagierenden Personen untersucht. Die Aussage, die dabei bestätigt wurde, ist, dass die computersimulierten Emotionen des humanoiden Agenten für Menschen glaubwürdig waren. Man kann sich vorstellen, dass eine Ausgabe der computersimulierten Emotionen 62 KAPITEL 5. AUSBLICK eines künstlichen Agenten, z.B. einer wahr gewordenen Aussage des Verhaltens der mit ihm interagierenden Person, sein Modell im Geist dieser Person signifikant verändern würde. Die emotionssimulierende Verhaltensweisen des humanoiden Agenten können auch als eine nicht verbale Ausgabemöglichkeit für das Modell des Menschen benutzt werden. • Multimodale Konversation als Spiel: Drittens kann man anstatt der Gesellschaftsspiele realistischere Interaktionsszenarien verwenden. Man kann z.B. eine multimodale Konversation, die in der AG ”Wissensbasierte Systeme” als ein Interaktionsszenario verwendet wurde, als ein Spiel in extensiver Form modellieren. Diese Modellierungsmöglichkeit macht es möglich, ein Konversationsszenario zu erfinden, bei dem die Modellierung des anderen bzw. ToM wichtig ist. 63 Kapitel 6 Fazit Das Ziel dieser Arbeit war menschliche Denkmuster, wie sie durch Satzfragmente wie ”... Ich (will|weiß), dass er (will|weiß), dass ich ...” ausgedrückt werden können, auf Computer in der Interaktion mit Menschen zu übertragen. Dieses Ziel wurde im Abschnitt 1.1 aus einer intuitiven Vorstellung zu einem klaren Forschungsziel herausgearbeitet. Wie im Abschnitt 1.2 angedeutet und im Abschnitt 2.1 dargestellt wurde, musste ein grosser Umfang an theoretischen und empirischen Erkenntnissen aus mehreren Disziplinen - epistemische Logik, Spieltheorie und Psychologie - analysiert werden, um dieses Forschungsziel in Angriff zu nehmen. Dabei wurden Begriffe wie ”Gemeinsames Wissen” und ”Nash-Gleichgewicht” erklärt. Aus empirischen Untersuchungen mehrerer Quellen wurde deutlich, dass Menschen sich nicht wie rationale Agenten verhalten. Im Abschnitt 2.2 wurde gezeigt, dass es in KI noch kein solches Forschungsziel gestellt wurde. Dennoch wurde in Kapitel 3 und 4 ein konkretes Interaktionsszenario auf der Basis eines Gesellschaftsspieles konzipiert und implementiert werden. Und es wurde ein weitergehendes Konzept eines Spieles entwickelt, das für den Aufbau realitätsnaher Szenarien verwendet werden kann. Zusätzlich sind im Kapitel 5 drei vielversprechende Weiterentwicklungsmöglichkeiten aufgelistet worden. 64 ABBILDUNGSVERZEICHNIS Abbildungsverzeichnis 65 1.1 1.2 Modell- und zielbasierter Agent [Russell und Norvig, 1995] . . Muddy Children Puzzle [Meyer und Hoek, 1995] . . . . . . . . 2 3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 Kripke-Struktur und Semantik d. epist. L. [Fagin u.a., 1995] . K.-Str. v. muddy child. p. [Hoek und Verbrugge, 2002] . . . . Gemeinsames Wissen [Fagin u.a., 1995] . . . . . . . . . . . . . 6-Stufen-Centipede-spiel [Hoek und Verbrugge, 2002] . . . . . ”Schmutzige Gesichter” . . . . . . . . . . . . . . . . . . . . . . ToM von einem Roboter [Ono und Imai, 2000] . . . . . . . . . Spielstruktur von [Hedden und Zhang, 2002] . . . . . . . . . . Zweite Ordnung [Hedden und Zhang, 2002] . . . . . . . . . . . Erste Ordnung [Hedden und Zhang, 2002] . . . . . . . . . . . ToM-Drift [Hedden und Zhang, 2002] . . . . . . . . . . . . . . Beauty-Contest-Spiel [F.Camerer, 2003] . . . . . . . . . . . . . Verwendung gem. Strategien [F.Camerer, 2003; Kareev, 1992] ”Suchmuster” und Max [Wachsmuth und Lessmann, 2002] . . . RMM [Gmytrasiewicz und Durfee, 1992] . . . . . . . . . . . . 9 9 10 13 14 16 17 18 18 19 20 21 23 26 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Pico 2 . . . . . . . . . . . . . . . . . . . . . . Ablegeregel . . . . . . . . . . . . . . . . . . . Kurzsichtige Auszahlungsmatrix . . . . . . . . Spielbaum einer Phase . . . . . . . . . . . . . Lineares Programm zur Auszahlungsmatrix A Zustandsübergangsgraph im fiktiven Spiel . . Rekursives Modell des künstlichen Agenten im Spielkonzept . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 35 35 36 37 41 42 47 4.1 4.2 4.3 4.4 Packet payoff . . . . . . . . . . . . . . . . . . . . . . . . Beziehungen zwischen payoff-Klassen und Player-Klassen Hauptbenutzeroberfläche . . . . . . . . . . . . . . . . . . Ausgabefenster . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 52 53 55 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fiktiven Spiel . . . . . . . . . . . . . . . . ABBILDUNGSVERZEICHNIS 4.5 4.6 4.7 Lösung einer Auszahlungsmatrix [Wisniewski und Wei, 2004] . 58 Netzwerkspielverwaltung . . . . . . . . . . . . . . . . . . . . . 59 Netzwerkdialog . . . . . . . . . . . . . . . . . . . . . . . . . . 61 66 TABELLENVERZEICHNIS Tabellenverzeichnis 67 2.1 2.2 Gefangenendilemma [Genesereth u.a., 1988] . . . . . . . . . . 12 Papier-Stein-Schere . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Fiktives Spiel . . . . . . . . . . . . . . . . . . . . . . . . . . Kartenwichtung . . . . . . . . . . . . . . . . . . . . . . . . . Kartensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . Beispiel zum Spielanfang . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeiten für einen der richtigen Züge . . . . . . Wahrscheinlichkeiten für einen der falschen Züge . . . . . . . Verteilung auswertbarer Fälle . . . . . . . . . . . . . . . . . Kooperation und Konkurrenz . . . . . . . . . . . . . . . . . Übertragung auf Matching-Pennies und Papier-Stein-Schere . . . . . . . . . 32 34 37 38 44 44 45 46 48 LITERATURVERZEICHNIS Literaturverzeichnis A.Heuer, G. und Leopold-Wildburger, U. (1995). Springer-Verlag, Berlin, Heidelberg, New York. Silverman’s Game. Bacharach, M. O. L. (1997). The Epistemic Structure of a Theory of a Game. Kluwer Academic Publishers. Becker, C., Prendinger, H., Ishizuka, M., und Wachsmuth, I. (2005). Evaluating affective feedback of the 3d agent max in a competitive cards game. In [Tao u.a., 2005], pages 466–473. Becker, C. und Wachsmuth, I. (2006). Modeling primary and secondary emotions for a believable communication agent. unpublished. Bern, U. (2004). Multi-agent modelling in the Logics Workbench. <http://tcw2.ppsw.rug.nl/mas/LOK/lwb/>. Brazier, F. M. T. und Treur, J. (1999). Compositional modelling of reflective agents. Int. J. Hum.-Comput. Stud., 50(5):407–431. Bronstein, I., Semendijajew, K., Musiol, G., und Mühlig, H. (2001). Taschenbuch der Mathematik. Verlag Harri Deutsch, Thun und Frankurt am Main. Cohen, P. R. und Levesque, H. J. (1990a). Intention is choice with commitment. Artif. Intell., 42(2-3):213–261. Cohen, P. R. und Levesque, H. J. (1990b). Performatives in a rationally based speech act theory. In Proceedings of the 28th annual meeting on Association for Computational Linguistics, pages 79–88, Morristown, NJ, USA. Association for Computational Linguistics. Fagin, R., Halpern, J., Moses, Y., und Vardi, M. (1995). Reasoning about Knowledge. The MIT Press, Cambridge, Massachusetts, London, England. 68 LITERATURVERZEICHNIS F.Camerer, C. (2003). Behavioral Game Theory. Princeton University Press, New Jersey. Genesereth, M. R., Ginsberg, M. L., und Rosenschein, J. S. (1988). Cooperation without communication. Distributed Artificial Intelligence, pages 220–226. Gmytrasiewicz, P. J. (1995). On reasoning about other agents. [Wooldridge u.a., 1996], pages 143–155. In Gmytrasiewicz, P. J. und Durfee, E. H. (1992). A logic of knowledge and belief for recursive modeling: A preliminary report. In AAAI, pages 628– 634. Gmytrasiewicz, P. J. und Durfee, E. H. (1993). Reasoning about Other Agents: Philosophy, Theory, and Implementation. <citeseer.ist.psu.edu/37797.html>. Gmytrasiewicz, P. J. und Durfee, E. H. (1995). A rigorous, operational formalization of recursive modeling. In [Lesser und Gasser, 1995], pages 125–132. Hedden, T. und Zhang, J. (2002). What do you think I think you think?: Strategic reasoning in matrix games. Cognition, 85(1):1–36. Herrmann, C., Pauen, M., Rieger, J., und Schicktanz, S., editors (2005). Bewusstsein: Philosophie, Neurowissenschaften, Ethik, München. Wilhelm Fink Verlag (UTB). Hoek, W. v. d. und Verbrugge, R. (2002). Epistemic logic: A survey. In [Petrosjan und Mazalov, 2002], pages 53–94. Hoek, W. v. d. und Wooldridge, M. (2003). Towards a logic of rational agency. Logic Journal of the IGPL, 11(2):135–159. Holler, M. J. und Illing, G. (1996,2000). Einführung in die Spieltheorie. Springer. Kareev, Y. (1992). Not that bad after all: Generation of random sequences. Journal of Experimental Psychology: Human Percetion and Performance, 18(4):1189–1194. K.Berninghaus, S., Ehrhart, K.-M., und Güth, W. (2004,2006). Strategische Spiele. Springer, Berlin, Heidelberg. 69 LITERATURVERZEICHNIS Kopp, S., Gesellensetter, L., Krämer, N., und Wachsmuth, I. (2005). A conversational agent as museum guide – design and evaluation of a real-world application. In Panayiotopoulos und others (Eds.), editors, Intelligent Virtual Agents, LNAI 3661, pages 329–343, Berlin. Springer. Kopp, S. und Wachsmuth, I. (2004). Synthesizing multimodal utterances for conversational agents. Computer Animation and Virtual Worlds, 15(1):39– 52. Lesser, V. R. und Gasser, L., editors (1995). Proceedings of the First International Conference on Multiagent Systems, June 12-14, 1995, San Francisco, California, USA. The MIT Press. Lessmann, N., Kranstedt, A., und Wachsmuth, I. (2004). Towards a cognitively motivated processing of turn-taking signals for the embodied conversational agent max. In AAMAS 2004 Workshop Proceedings: ”Embodied Conversational Agents: Balanced Perception and Action”. Levesque, H. J. (2000). The Logic of Knowledge Bases. The MIT Press, Cambridge, Massachusetts, London, England. Mathäus, D. und Nestel, F. (1997). Doris and Frank’s game Pico/Pico2. <http://doris-frank.de/GamesPico de.html>. Meyer, J.-J. C. und Hoek, W. v. d. (1995). Epistemic Logic for AI and Computer Science. Cambridge University Press. Mol, L., Verbrugge, R., und Hendriks, P. (2005). Learning to reason about other people’s minds. In Hall, L. und Heylen, D., editors, Proceedings of the Joint Symposium on Virtual Social Agents, pages 191–198. The Society for the Study of Artificial Intelligence and the Simulation of Behaviour (AISB), Hatfield. Noh, S. und Gmytrasiewicz, P. J. (1999). Towards flexible multi-agent decision-making under time pressure. In IJCAI ’99: Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, pages 492–499, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. Noh, S. und Gmytrasiewicz, P. J. (2005). Flexible multi-agent decision making under time pressure. IEEE Transactions on Systems, Man, and Cybernetics, Part A, 35(5):697–707. Ono, T. und Imai, M. (2000). Reading a robot’s mind: A model of utterance understanding based on the theory of mind mechanism. In Proceedings of 70 LITERATURVERZEICHNIS the Seventeenth National Conference on Artificial Intelligence and Twelfth Conference on Innovative Applications of Artificial Intelligence, pages 142– 148. AAAI Press / The MIT Press. Osborne, M. und Rubinstein, A. (1994). A Course in Game Theory. MIT Press. Otterloo, S. v., Hoek, W. v. d., und Wooldridge, M. (2004). Preferences in game logics. In AAMAS ’04: Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems, pages 152–159, Washington, DC, USA. IEEE Computer Society. Owen, G. (1970). Spieltheorie. Springer-Verlag, Berlin. Petrosjan, L. und Mazalov, V., editors (2002). Nova Science Publishers, New York. Prechelt, L. (1994). A motivating example problem for teaching adaptive systems design. SIGCSE Bull., 26(4):25–34. Prechelt, L. (1996). Inca: A multi-choice model of cooperation under restricted communication. BioSystems, 37(1-2):127–134. R.Singleton, R. und F.Tyndall, W. (1974). Games and Programs. W. H. Freeman and Company, San Francisco. Russell, S. und Norvig, P. (2003,1995). Artificial Intelligence: a modern approach. Pearson Education, Inc., Upper Saddle River, New Jersey, USA. Stahl, D. O. und Wilson, P. W. (1994). Experimental evidence on players’ models of other players. Journal of Economic Behavior and Organisation, 25:309–327. Department of Economics, University of Texas, Austin, TX 78712, USA. Stulp, F. und Verbrugge, R. (2002). A knowledge-based algorithm for the internet transmission control protocol (tcp) (extended version). Bulletin of Economic Research, 54(1):69–94. Blackwell Publishers Ltd, Oxford, UK and Boston, USA. Tao, J., Tan, T., und Picard, R., editors (2005). The First International Conference on Affective Computing and Intelligent Interaction, LNCS 3784, Beijing, China. Springer. Vidal, J. M. und Durfee, E. H. (1995). Recursive agent modeling using limited rationality. In [Lesser und Gasser, 1995], pages 376–383. 71 LITERATURVERZEICHNIS Voorbraak, F. (1992). Generalized kripke models for epistemic logic. In TARK ’92: Proceedings of the 4th conference on Theoretical aspects of reasoning about knowledge, pages 214–228, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. Wachsmuth, I. (2005). ”ich, Max”- Kommunikation mit künstlicher Intelligenz. In [Herrmann u.a., 2005], pages 329–354. Wachsmuth, I. und Lessmann, N. (2002). Eine kognitiv motivierte Architektur für einen anthropomorphen Künstlichen Kommunikator. In Tagungsbeiträge ”Human Centered Robotic Systems 2002”, Karlsruhe, Dezember 2002, pages 141–148. Weizenbaum, J. (1966). Eliza - a computer program for the study of natural language communication between man and machine. Commun. ACM, 9(1):36–45. Wisniewski, T. J. und Wei, Y. (1996, 2004). The Simplex Java Applet. <http://www-fp.mcs.anl.gov/otc/GUIDE/Casestudies/simplex/applet /SimplexTool.html>. Wooldridge, M., Müller, J. P., und Tambe, M., editors (1996). Intelligent Agents II, Agent Theories, Architectures, and Languages, IJCAI ’95, Workshop (ATAL), Montreal, Canada, August 19-20, 1995, Proceedings, volume 1037 of Lecture Notes in Computer Science. Springer. Wooldridge, M. J. (2002). Multi-agent systems : an introduction. Wiley, Chichester. 72 ANHANG A. Anhang A 73 Anhang B Beispielausgaben des MNM-Algorithmus Beispielausgabe 1. Beschreibung: Die initiale Ausgabe in der Spielsitzung ”Random vs MNMAlgorithmus”. Das Gedächtnis ist noch leer. Player2> Player2> Player2> Player2> Player1> Player1> Player2> [] [] [] [] Player2> Player2> My strategy in initial state is DMSM. Ready to recognize Random, MSM and (2*n+1)-order (n from N). Memory size in initial state is 9. Memory size in other states is 11. I use pseudorandom generator. So, I prefer card 10. My actual memory is not full yet: The card proposed by DMSM is: 6. So, I prefer card 6. Beispielausgabe 2 Beschreibung: Eine der Ausgaben am Anfang der Spielsitzung ”Random vs MNM-Algorithmus”. Das Gedächtnis ist noch nicht voll. Player1> I use pseudorandom generator. Player1> So, I prefer card 8. Player2> My actual memory is not full yet: [0.25 0.25 0.2 0.25 0.25 0.2 [0.045 0.045 0.826 0.025 0.045 0.463 [0.045 0.864 0.826 0.045 0.045 0.043 [0.0 0.0 0.0 0.0 0.0 0.0 ] ] ] ] 74 ANHANG B. Player2> The card proposed by DMSM is: 11. Player2> So, I prefer card 11. Beispielausgabe 3 Beschreibung: Eine der Ausgaben im Laufe der Spielsitzung ”Random vs MNM-Algorithmus”. Das Gedächtnis ist jetzt voll und es können Wahrscheinlichkeiten für Verhaltensstrategien des Gegners angegeben werden. Player1> I use pseudorandom generator. Player1> So, I prefer card 9. Player2> My actual memory is now full: [0.333 0.333 0.25 0.25 0.25 0.2 0.25 [0.905 0.048 0.475 0.045 0.045 0.463 0.045 [0.905 0.048 0.475 0.025 0.045 0.463 0.045 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 Player2> You play with probality 99.15 % Random Player2> You play with probality 0.43 % 1-order. Player2> You play with probality 0.42 % MSM Player2> The card proposed by DMSM is: 11. Player2> So, I prefer card 11. 0.25 0.045 0.864 0.0 0.2 0.463 0.043 0.0 ] ] ] ] Beispielausgabe 4 Beschreibung: Die Ausgabe im Laufe der Spielsitzung ”Noisy 1-order vs MNM-Algorithmus”im Augenblick des Zustandswechsels des künstlichen Agenten. Player1> I have calculated a myopic payoff matrix. Player1> So, I prefer card 11. Player2> My actual memory is now full: [0.25 0.2 0.333 0.25 0.25 0.2 0.333 0.25 0.2 [0.864 0.463 0.905 0.045 0.045 0.463 0.905 0.864 0.826 [0.025 0.024 0.048 0.864 0.045 0.826 0.026 0.864 0.043 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Player2> You play with probality 1.53 % Random Player2> You play with probality 98.47 % 1-order. Player2> You play with probality 0.0 % MSM Player2> So I decide to switch to 2-order. Player2> The card proposed by DMSM is: 16. Player2> Your responds: 8 11 12 Player2> My respond: 16 Player2> So, I prefer card 16. ] ] ] ] Beispielausgabe 5 Beschreibung: Die Ausgabe im Laufe der Spielsitzung ”Noisy 1-order vs MNM-Algorithmus” direkt nach dem Zustandswechsel des künstlichen Agen- 75 ten. Nach jedem Zustandswechsel muss das Gedächtnis neu aufgebaut werden. Player1> Player1> Player2> [] [] [] [] Player2> Player2> Player2> Player2> I have calculated a myopic payoff matrix. So, I prefer card 8. My actual memory is not full yet: The card proposed by DMSM is: 4. Your responds: 8 My respond: 9 So, I prefer card 9. Beispielausgabe 6 Beschreibung: Eine der Ausgaben im Laufe der Spielsitzung ”Noisy 1-order vs MNM-Algorithmus” nach dem Zustandswechsel des künstlichen Agenten. Das Gedächtnis ist jetzt voll und es können Wahrscheinlichkeiten für Verhaltensstrategien des Gegners angegeben werden. Player1> I have calculated a myopic payoff matrix. Player1> So, I prefer card 16. Player2> My actual memory is now full: [0.2 0.2 0.25 0.25 0.2 0.2 0.25 0.2 0.2 [0.017 0.024 0.045 0.025 0.463 0.017 0.025 0.024 0.024 [0.826 0.826 0.864 0.864 0.826 0.043 0.864 0.826 0.826 [0.826 0.826 0.864 0.864 0.024 0.463 0.864 0.826 0.826 Player2> You play with probality 0.0 % Random Player2> You play with probality 0.0 % 3-order. Player2> You play with probality 0.25 % MSM Player2> You play with probality 99.74 % 1-order Player2> The card proposed by DMSM is: 12. Player2> Your responds: 16 Player2> My respond: 9 Player2> So, I prefer card 9. 0.333 0.026 0.026 0.905 0.333 0.026 0.026 0.905 ] ] ] ] Beispielausgabe 7 Beschreibung: Die Ausgabe im Laufe der Spielsitzung ”Random vs MNMAlgorithmus” nach der Spielsitzung ”Noisy 1-order vs MNM-Algorithmus” im Augenblick des Zustandswechsels des künstlichen Agenten. Player1> I use pseudorandom generator. Player1> So, I prefer card 16. Player2> My actual memory is now full: 76 ANHANG B. [0.333 0.25 0.2 0.2 0.333 0.25 0.2 0.2 [0.487 0.045 0.043 0.043 0.905 0.475 0.322 0.017 [0.048 0.045 0.043 0.043 0.048 0.045 0.043 0.043 [0.048 0.025 0.024 0.463 0.048 0.045 0.043 0.043 Player2> You play with probality 99.95 % Random. Player2> You play with probality 0.0 % 3-order. Player2> You play with probality 0.01 % MSM. Player2> You play with probality 0.03 % 1-order. Player2> So I decide to switch to 0-order. Player2> The card proposed by DMSM is: 5. Player2> So, I prefer card 5. 0.2 0.043 0.826 0.826 0.2 0.013 0.826 0.826 0.2 0.013 0.826 0.826 ] ] ] ] Beispielausgabe 8 Beschreibung: Die Ausgabe im Laufe der Spielsitzung ”Noisy 3-order vs MNM-Algorithmus”nach der Spielsitzung ”Noisy 1-order vs MNM-Algorithmus” im Augenblick des Zustandswechsels des künstlichen Agenten. Player1> I have calculated a myopic payoff matrix. Player1> So, I prefer card 12. Player2> My actual memory is now full: [0.2 0.5 0.333 0.25 0.2 0.2 0.5 0.333 0.25 [0.463 0.95 0.905 0.864 0.463 0.024 0.95 0.905 0.475 [0.463 0.95 0.048 0.864 0.043 0.043 0.05 0.905 0.045 [0.043 0.05 0.048 0.045 0.043 0.043 0.05 0.048 0.045 Player2> You play with probality 3.63 % Random. Player2> You play with probality 96.22 % 3-order. Player2> You play with probality 0.15 % MSM. Player2> You play with probality 0.0 % 1-order. Player2> So I decide to switch to 4-order. Player2> The card proposed by DMSM is: 13. Player2> Your responds: 5 Player2> My respond: 10 Player2> Your responds: 12 Player2> My respond: 13 Player2> So, I prefer card 13. 77 0.25 0.025 0.864 0.864 0.2 0.463 0.463 0.024 ] ] ] ] Anhang C Syntax der Netzwerkbefehle in EBNF < L >::= < B >::= < P >::= < PT >::= < Ph >::= < D >::= < DN >::= < Cd >::= < I >::= < 5xI >::= < C >::= < S >::= < Str >::= < lCd0 >::= < lCd1 >::= .. . ”Leerzeichen” 0|1 0|1|2|3 2|4 1|2 1| . . . |9 0| < D > 4|5|6|7|8|9|10|11|12|13|16 < D > {< DN >}|− < D > {< DN >} < I >< L >< I >< L >< I >< L >< I >< L >< I > < DN > |A| . . . |z| |(|) {< C >} {< C > | < L >} : : Cd : < llCd0 >::= < llCd1 >::= .. . .1. < lCd0 > . .2. < lCd1 > . < llCdn >::= < llCdnHS >::= < llCdn2 >::= < llCdn24 >::= < llB2 >::= < llB4 >::= < llS2 >::= < llS4 >::= < g >::= < gc >::= < llCd0 > | < llCd1 > | . . . < llCdn >< L >< llCdn > < llCdnHS >< L >< llCdnHS > < llCdn2 > | < llCdn2 >< L >< llCdn2 > :< B >:< B >: :< B >:< B >:< B >:< B >: :< S >:< S >: :< S >:< S >:< S >:< S >: .2. < llB2 > . < S > .|.4. < llB4 > . < S > . . < S > (.2. < llS2 > . < S > .|.4. < llS4 > . < S > .) Position Spielerzahl Phase Spielstand Kartenliste Hand- und Stapelkarten 78 ANHANG C. Befehlsliste ’Von Client zu Server’: Nr. Befehl Argumente Beschreibung Serverausgabe [Beispiel] 0 <S> Die erste Eingabe wird als gewünschter Loginprefix interpietiert. Der Login ergibt sich aus < S > und der Nummer der Verbindung. Falls < S > weder die erste Eingabe noch ein gültiger Befehl ist, so wird die Verbindung beendet. 1 end Beende die Verbindung. 2 getList Sende die Liste der angeschlossen Clients zurück. 1 3 getGames Sende die Liste aller Spielsitzungen zurück. 2 4 game < g > Schlage eine Spielsitzung vor. game .4.:1:0:0:0:.All possible (2772). bedeutet Pico 4, erster Spieler ist eigener (1) und die sonstigen Plätze sind frei (0). Es werden alle Kartensätze verwendet. 5 gameremove Nimm das vorgeschlagene Spiel zurück oder beende die laufende Spielsitzung, an der man teilnimmt. 6 gameenroll < S > < P > Melde den Client bei der vom Client < S > vorgeschlagenen Spielsitzung auf die Position < P > an. 7 gamewithraw Melde den Client aus der noch nicht angefangenen Spielsitzung ab (Ausser Spielverwalter). Befehlsliste ’Von Client zu Server’: Nr. Befehl Argumente Beschreibung [Beispiel] 8 gamescreen < PT > < Ph > < llCdn24 > < Cd > < 5xI > Starte die Spielsitzung als Spielverwalter, wenn sie noch nicht gestartet ist. Sende allen mitspielenden Clients außer sich die Serverausgabe 3 zu. gamescreen 2 2 .5.:16:8:7:10:9:. .0.:. .5.:13:12:11:6:4:. .0.:. 5 4 1 12 0 1 Es spielen zwei Spieler. Phase ist 2. Der erste Spieler hat Handkarten: 16 8 7 10 9 und der zweite: 13 12 Beide Spieler haben 0 Stapelkarten. Die herausgenommene Karte ist 5 und Spielstand 1 : 0. Der Punktestand ist 4 : 12. Es wurde bisher 1 Spiel gespielt. Öffne die gewählen Karten. 9 openscreen Sende allen anderen mitspielenden Clients die Serverausgabe 4 zu. Öffne alle Karten. 10 openscreenrest Sende allen anderen mitspielenden Clients sich die Serverausgabe 5 zu. 11 ownturnmade < P > < Cd > Teile den Zug eines der eigenen Spieler (bei eigene Spielverwaltung). Sende allen anderen mitspielenden Clients die Serverausgabe 6 zu. 12 turnmade < Cd > Teile eigenen Zug mit (bei fremde Spielverwaltung). Sende allen anderen mitspielenden Clients außer des Spielverwalters die Serverausgabe 6 zu. Sende dem Spielverwalter die Serverausgabe 7 zu. Serverausgabe (3) 11 6 4. (4) (5) (6) (6,7) ANHANG C. Ausgabeliste ’Von Server zu Client’: Nr. Serverausgabe Argumente Beschreibung [Beispiel] 0 Wellcome < I > Die erste Ausgabe. < I > ist die Nummer des Verbindung. 1 Connections < I > Liste der angeschlossenen Clients. < I > - Anzahl der Clients. Wird von < I > Ausgaben der Nummer 11 gefolgt. 2 Games < I > Liste aller Spielsitzungen. < I > - Anzahl der Spielsitzungen. Wird von < I > Ausgaben der Nummer 12 gefolgt. 3 screenupdate < PT > < Ph > < llCdn24 > < Cd > < 5xI > < P > Aktueller Spielzustand (siehe Befehl 4). < P > - Eigene Position. screenupdate 2 1 .5.:6:8:5:11:12:. .0.:. .5.:13:9:16:10:4:. .0.:. 7 0 0 0 0 0 0 Öffne die gewählten Karten. 4 screenopen Öffne alle Karten. 5 screenopenrest Ausgabeliste ’Von Server zu Client’: Nr. Serverausgabe Argumente Beschreibung [Beispiel] 6 playerhasturn < P > < Cd > < P > Kartenwahl eines anderen Spielers (nicht für Spielverwalter). Erstes < P > - Position des anderen. < C > - Karte des anderen. Zweites < P > - Eigene Position. 8 ownplayerhasturn < P > < Cd > Kartenwahl eines Netzwerkspielers (nur für den Spielverwalter). < P > - Position. < C > - Karte. 11 Connectionname < S > Angeschlossener Client. < S > - Login des Clients. 12 Gamename < gc > Eine Spielesitzung. Gamename .Jerry0.2.:enroll:Jerry0:.All possible (2772). enroll bedeutet, dass der Platz noch leer ist. Jerry0 ist Spielverwalter und hat einen eigenen Spieler auf der zweiten Position. ANHANG D. CD-INHALT Anhang D CD-Inhalt Programm/ picocardgamepack/ Quellcode pics/ Bilder javadoc/ Html-Dokumentation zum Quellcode pico.jar Jar-Archiv des Gesamtprogramms server.jar Jar-Archiv des Servers pico.bat Startet das Programm server.sh Startet den Server auf Port 8877 cardset.txt Klassifizierte Kartensätze (notwendig für das Programm) Literatur Digital verfügbare Literatur diproot.pdf Diplomarbeit digital 83 Versicherung −→ Versicherung gemäß Paragraph 20, Absatz 9 der Diplomprüfungsordnung für den Studiengang Naturwissenschaftliche Informatik an der Technischen Fakultät der Universität Bielefeld vom 1. April 2003. −→ Hiermit versichere ich, dass ich die vorliegende Diplomarbeit selbständig erarbeitet und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt sowie Zitate kenntlich gemacht habe. −→ Bielefeld, den Rustam Tagiew Danksagung An dieser Stelle will ich Allen danken, die mir geholfen haben. Erstmal will ich allen Betreurern dafür danken, dass sie mich immer wieder mein Vorhaben gelobt haben. Das war sehr motivierend! Christian danke ich, dass er soviel Zeit für mich finden konnte und durch seine Anmerkungen die Qualität meiner Arbeit erheblich verbessert hat. Dann will ich Nadine dafür danken, daß sie mit ihrem früheren Vorschlag voll ist Schwarze getroffen hat. Ipke und Gerhard sei gedankt, dass sie mir soviele fachspezifische Tips gegeben haben. Ich finde es ganz toll, dass Dorothea sich bereit erklärt hat, meine Arbeit Korrektur zu lesen. Aber am meisten danke ich meinen Eltern - ohne die Unterstützung zu Hause wäre ich nie soweit gekommen.