Grundlagen der Spieltheorie Spieltheorie untersucht das strategische Verhalten von Akteuren (Spielern) in Situationen, in denen der Nutzen einer gewählten Aktion (Strategie) von den gewählten Aktionen (Strategien) der anderen Akteure abhängt. Typische Fragestellungen: Wie lassen sich solche Situationen abstrakt beschreiben? => abstrakte Spiele Welches Verhalten der Spieler kann als „rational“ bezeichnet werden? => Kombinationen von Strategien, die bestimmte Bedingungen erfüllen Spieltheorie ist im Grenzbereich von Ökonomie, Mathematik und Informatik angesiedelt. 1. Spiele in Normalform (strategische Spiele) Def.: Ein Spiel in Normalform ist ein Tripel G = (P, (Si)i P, (ui)i P). Hierbei ist P die Menge der Spieler (wir nehmen o.B.d.A. an: P = {1, …, n}) Si ist die Menge der Strategien von Spieler i ui: S1 x … x Sn -> R ist eine Nutzenfunktion (payoff function), die den Wert eines Strategieprofils für Spieler i beschreibt. Strategieprofile: Elemente von S1 x … x Sn (ordnen jedem Spieler eine Strategie zu). Spiele dieser Art lassen sich als n-dimensionale Tabellen repräsentieren, Einträge sind Vektoren (u1(P), …, un(P)) und repräsentieren den Nutzen eines gewählten Strategieprofils P für alle Spieler. Beispiele: 1\2 H T H 1,-1 -1,1 T -1,1 1,-1 Matching Pennies Beide Spieler wählen simultan eine Seite einer Münze. Wenn beide Kopf oder beide Zahl haben, kriegt Spieler 1 alles, sonst Spieler 2. 1\2 Opera Movie Opera 2,1 0,0 Movie 0,0 1,2 Battle of Sexes Anna (1) und Peter (2) wollen gemeinsam ausgehen. Sie steht mehr auf Oper, er mehr auf Kino, aber beide wollen auf jeden Fall zusammen sein. 1\2 C D C 2,2 4,0 D 0,4 3,3 Prisoners’ Dilemma Zwei Diebe werden ertappt, aber die Polizei kann ihnen den Diebstahl nur teilweise nachweisen. Wenn beide gestehen (confess), bekommt jeder 2 Jahre. Wenn beide leugen (deny) bekommt jeder 1 Jahr. Wenn einer gesteht, der andere leugnet, dann geht der andere für 4 Jahre in den Knast, der gesteht kommt frei. Dominanz: betrachte folgendes Spiel: 1\2 U D L 2,3 1,0 R 5,0 4,3 Welche Strategie sollte 1 wählen ? Was immer 2 tut, U ist besser für 1 als D. Def.: Sei sk eine Strategie von Spieler k in einem n-Personen-Spiel. Eine Strategie sk’ von Spieler k dominiert sk gdw. sk’ für jede Kombination von Strategien der anderen Spieler einen höheren Nutzen für k erbringt als Strategie sk. Wahl einer dominierten Strategie wird üblicher Weise als irrational betrachtet. Prisoners’ Dilemma: für jeden Dieb wird deny dominiert von confess. Deshalb geht die (nichtkooperative) Spieltheorie davon aus, dass C,C gewählt wird, obwohl D,D beiden höheren Nutzen bringen würde!! Iterative Elimination von dominierten Strategien: 1\2 A B X 3,3 0,0 Y 0,5 1,1 Z 0,4 1,2 X wird dominiert von Y und eliminiert. In der verbleibenden Tabelle wird A dominiert von B. Jetzt dominiert Z Y. Die nach iterativer Elimination dominierter Strategien verbleibenden Strategieprofile heißen rationalisierbar. Def.: Seien p und p’ Strategieprofile. p ist mindestens so effizient wie p’ (p p’), wenn für alle Spieler k gilt: uk(p) uk(p’). p ist strikt effizienter als p’, wenn p p’ und nicht p’ p. p heißt Pareto-optimal, wenn es kein Strategieprofil gibt, das strikt effizienter als p ist. Zu beachten: Profile aus rationalisierbaren Strategien sind nicht notwendiger Weise Paretooptimal (siehe obiges Beispiel). Entspricht rationalisierbar „rational“? Oft gibt es sehr viele rationalisierbare Profile. Z.B sind im Battle of Sexes Spiel alle Strategieprofile rationalisierbar: 1\2 Opera Movie Opera 2,1 0,0 Movie 0,0 1,2 Battle of Sexes Iterative Elimination eliminiert gar nichts. (Opera,Opera) und (Movie,Movie) „irgendwie“ besser. Was haben diese Profile, was die anderen nicht haben? Def. : Sei p = (s1, ..., sk-1, sk+1, …, sn) ein Strategieprofil für die Spieler außer k. sk heißt beste Antwort (best response) von k auf p, wenn es kein sk’ gibt mit uk(s1, ..., sk-1, sk’ ,sk+1, …, sn) > uk(s1, ..., sk-1, sk ,sk+1, …, sn). Def.: Sei p = (s1, ..., sn) ein Strategieprofil für alle Spieler. p ist ein Nash-Gleichgewicht, wenn für alle Spieler j gilt: sj ist beste Antwort auf die Strategien der übrigen Spieler in p. Intuitiv: in einem Nash-Gleichgewicht gibt es keine Möglichkeit für einen einzelnen Spieler, seinen Gewinn dadurch zu erhöhen, dass er (alleine) seine Strategie ändert. Battle of Sexes: (Opera,Opera), (Movie,Movie) Nash-Gleichgewichte Prisoners’ Dilemma: CC Nash-Gleichgewicht, denn DC ist nicht besser für Spieler 1, und CD ist nicht besser für Spieler 2. Anmerkung 1: nicht jedes Spiel hat ein Nash-Gleichgewicht. Beispiel: Matching Pennies HH -> HT (besser für 2) -> TT (besser für 1) -> TH (besser für 2) -> HH (besser für 1) Anmerkung 2: Die Spieltheorie untersucht auch so genannte gemischte Strategien. Hierbei kann ein Spieler die verfügbaren (reinen) Strategien mit gewisser Wahrscheinlichkeit spielen. 2. Spiele in extensiver Form weniger abstrakt: berücksichtigen Spielverläufe (Folgen von Aktionen) und die jeweiligen Informationszustände der Spieler: Menge von Spielern P Menge von Aktionen A Menge von Zuständen N, entsprechen legalen Folgen von Aktionen. Ein Zustand ist entweder Terminalzustand oder Entscheidungszustand Äquivalenzrelation auf Zuständen (äquivalente sind nicht unterscheidbar), Äquivalenzklassen heißen Informationsmengen Zuordnung eines Spielers und legaler Aktionen zu jeder Informationsmenge Nutzenfunktion ui definiert Nutzen von Spieler i für jedes Strategieprofil Strategieprofil: Strategie für jeden Spieler; Strategie für i: legale Aktion für jede Informationsmenge von i. Alle früheren Definitionen anwendbar, da sie nur von Strategie und Nutzen abhängen, die auch für extensive Spiele definiert sind. Lässt sich als Baum repräsentieren: Beispiel strategische Form des Spiels: Zu beachten: eine Strategie eines Spielers besteht aus einer Aktion für jede Informationsmenge dieses Spielers, die in dem Spiel vorkommt. LL heißt also nicht: Spieler I spielt erst L, dann noch mal L (was nicht geht), sondern: falls seine Informationsmenge {4} ist, spielt I L, falls sie {7} ist, spielt er L. In dieser Matrix ist (LL, RL) ein Nash-Gleichgewicht. Das ist etwas verwunderlich, denn wenn Spieler I Knoten 7 erreicht, würde er nicht L spielen, da R einen höheren Gewinn bringt. Die Analyse der Nash-Gleichgewichte erfasst das nicht, denn dieser Effekt tritt off the path of play ein. Da Spieler I am Knoten 4 L wählt, wird 7 nicht erreicht. Einige neue Begriffe sind deshalb von Bedeutung Teilspiel: Spiel, das durch den Baum unter einem Knoten repräsentiert wird Baum muss information set complete sein, d.h. alle Knoten enthalten, die zu einer Informationsmenge eines seiner Knoten gehören. Teilspiel-perfektes Nash Gleichgewicht: Strategieprofil, das ein Nash Gleichgewicht für jedes Teilspiel spezifiziert. Im obigen Beispiel ist (LL, RL) nicht Teilspiel-perfekt, denn für das Teilspiel unter Knoten 7 ist R besser für Spieler I.