Analyse von verallgemeinerten Roulette-Modellen mit zwei Akteuren DIPLOMARBEIT zur Erlangung des akademischen Grades Diplom-Wirtschaftsmathematiker FRIEDRICH-SCHILLER-UNIVERSITÄT JENA Fakultät für Mathematik und Informatik eingereicht von Tim Lucke genannt Schönberg geb. am 19.09.1985 in Wolgast Betreuer: Prof. Dr. Ingo Althöfer Jena, 11. Mai 2010 Inhaltsverzeichnis 1 Einleitung 4 2 Das Ein-Personen-Modell 6 2.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Optimale Strategien 7 2.3 Numerische Methoden zur Berechnung der Siegwahrscheinlichkei- 2.4 . . . . . . . . . . . . . . . . . . . . . . . . . ten und Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Das Verfahren der monotonen Iterationen . . . . . . . . . . . . . . 15 3 Theoretische Betrachtung des Zwei-Personen-Modells 3.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Numerische Methoden zur Berechnung der Siegwahrscheinlichkei- 3.3 18 18 ten und Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Beispiel für N = 7 . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell 25 4.1 Optimale Strategien . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Betrachtung der optimalen Bank-Strategie für verändertes p . . . 30 4.3 Erwartete Anspielhäufigkeiten der Bank . . . . . . . . . . . . . . 32 4.4 Die optimalen Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . 36 4.5 Güte der Guthaben . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.6 Modellerweiterungen mit Zufallseinflüssen . . . . . . . . . . . . . 42 4.6.1 Zufällige Zugreihenfolge . . . . . . . . . . . . . . . . . . . 43 4.6.2 Zufällige Bank-Strategie . . . . . . . . . . . . . . . . . . . 47 5 Diskussion und Ausblick 51 2 Zusammenfassung Die Roulette-Variante Rot und Schwarz“ mit einem Akteur ist seit dem Buch ” How to Gamble If You Must: Inequalities for Stochastic Processes“ von Lester ” E. Dubins und Leonard J. Savage bekannt. Dabei möchte ein Spieler mit einem Startbetrag i einen vorgegebenen Zielbetrag N erreichen, wobei er nur auf Rot oder Schwarz setzen darf. Es ergeben sich zwei Extreme als optimale Strategien, je nach dem, ob der Spieler in jedem einzelnen Roulette-Spiel im Vorteil oder im Nachteil ist. Ist er im Nachteil setzt der Spieler alles, was er derzeit besitzt bzw. gerade soviel, wie er zum Gewinnen benötigt. Ist er dagegen im Vorteil setzt er jedes mal nur genau eine Geldeinheit. In einer Erweiterung des klassischen Modells darf die Spielbank selbst in jeder zweiten Roulette-Partie den Einsatz, den der Spieler setzen muss, bestimmen. Damit versucht sie, den Spieler mit möglichst hoher Wahrscheinlichkeit zu ruinieren. Es ergibt sich, dass der Spieler in nachteiligen Situationen weiterhin bold spielen sollte. Die Bank muss jedoch ein von vielen möglichen komplizierten Strategie verwenden. Damit kann sie, abhängig vom Startguthaben i des Spielers, ihren erwarteten Gewinn teilweise deutlich erhöhen. Weiterhin werden zwei Modelle betrachtet, in denen der Zufall eine größere Rolle spielt. Im ersten dieser Modelle wird in jedem Zug der Akteur zufällig bestimmt. Daraufhin wird die Bank eine andere Strategie spielen. Im zweiten Modell spielt die Bank eine zufällige Strategie. Nur in diesem letzten Modell kommt der BoldStrategie keine besondere Bedeutung zu. 1 Einleitung Roulette diente in der Vergangenheit schon oft als Gegenstand analytischer Untersuchungen (Dubins, Savage (1965); Freedman (1967); Gilat, Sudderth (1977); Ross (1983); Siegrist (2008)). Dies liegt sicherlich zum einen am hohen Bekanntheitsgrad des Spiels. Andererseits ist Roulette für mathematische Betrachtungen gut geeignet, da sich zumindest einige Teilbereiche, zum Beispiel die Spielvariante Rot und Schwarz“, einfach modellieren und analysieren lassen. Die Ergebnisse ” des Modells mit einem Akteur besitzen zudem, wenn auch nur eingeschränkte, Relevanz für das reale Roulette-Spiel. In der vorliegenden Arbeit soll ein erweitertes Modell im Vordergrund stehen, in dem zwei Akteure beteiligt sind. Der zusätzliche Akteur, dargestellt durch die Spielbank selbst, agiert als Konterpart zum Spieler. Diese neuartige, bisher nicht untersuchte Variante ist zwar nur von untergeordneter Bedeutung für die Praxis. Jedoch ergeben sich vom mathematischen Standpunkt aus durchaus interessante Ergebnisse bezüglich der optimalen Strategien der Akteure und der Wirkung des zusätzlichen Akteurs auf die Siegwahrscheinlichkeiten des Spielers. Durch den zweiten Akteur wird allerdings die analytische Betrachtung wesentlich erschwert. Daher stehen in dieser Arbeit experimentelle Untersuchungen im Vordergrund. Kapitel 2 behandelt ein schon seit längerem bekanntes Roulette-Modell mit einem Akteur, dem Spieler. Nach der Einführung des Modells werden die optimalen Strategien des Spielers untersucht. Weiterhin wird auf das zugrunde liegende numerische Verfahren zur iterativen Berechnung einer Näherungslösung für die optimalen Siegwahrscheinlichkeiten des Spielers eingegangen. Aus diesen Wahrscheinlichkeiten können zudem die optimalen Strategien gewonnen werden. Dieses Verfahren 4 1 Einleitung wird ebenfalls im darauf folgenden Kapitel für das Zwei-Personen-Modell verwendet. Im Kapitel 3 geht es um eine bisher nicht untersuchte Roulette-Variante mit zwei Akteuren. Der zweite Spieler, die Spielbank, darf hier in einem Teil der Runden den Einsatz des Spielers bestimmen. Sie versucht damit, den Spieler mit möglichst hoher Wahrscheinlichkeit zu ruinieren. Zunächst wird das veränderte Modell vorgestellt. Es folgt eine Anpassung des numerischen Verfahrens aus Kapitel 2 an dieses Modell. Es ist damit möglich, die Strategien der beiden Akteure in Abhängigkeit voneinander zu bestimmen. Im Anschluss daran wird ein Beispiel für das Zielguthaben N = 7 des Spielers analytisch durchleuchtet, wobei sich ein Teil der Ergebnisse auf beliebige Zielgrößen N übertragen lässt. Kapitel 4 befasst sich mit den experimentellen Ergebnissen zum Zwei-PersonenModell. Dabei kommt das in Kapitel 3 vorgestellt Näherungsverfahren zum Einsatz. Es stehen vor allem die optimalen Strategien beider Akteure sowie die Siegwahrscheinlichkeiten des Spielers im Vordergrund. Von Interesse ist dabei, ob sich in diesem Modell die optimalen Strategien für allgemeine Modell-Parameter bestimmen lassen. Anschließend werden zwei Modell-Varianten mit höherem Zufallseinfluss betrachtet. Bei der ersten der beiden Varianten wird die Zugreihenfolge der beiden Akteure zufällig gemäß Gleichverteilung anhand eines Parameters w bestimmt. Untersucht werden in dieser Variante die optimalen Strategien der Akteure, sowie die Siegwahrscheinlichkeiten es Spielers. Die zweite Modell-Variante befasst sich mit zufälligen Bank-Strategien und der optimalen Reaktion des Spielers darauf. 5 2 Das Ein-Personen-Modell In diesem Abschnitt soll es um ein Roulette-Modell gehen, welches in der Literatur ( Dubins, Savage (1965), S. 83ff) schon in der Vergangenheit untersucht wurde. ” In dieser Arbeit wird die diskrete Variante des Modells verwendet. Bekannt ist es unter der Bezeichung red and black“ (bzw. Rot und Schwarz). ” 2.1 Das Modell Das diskrete Ein-Personen-Roulette-Modell unterliegt folgenden Regeln: • Es spielt ein Akteur (im Folgenden als Spieler bezeichnet) mit Startkapital i ∈ N. • Verwendet wird ein idealer Roulette-Kessel mit 18 roten Fächern, 18 schwarzen Fächern und einem Null-Fach. • Der Spieler darf nicht mehr setzen, als er derzeit besitzt. • Der Spieler darf nur auf Rot oder Schwarz setzen. Fällt die gwählte Farbe, bekommt er den doppelten Einsatz ausgezahlt, fällt die andere Farbe oder die Null so ist der Einsatz verloren. Die Gewinnwahrscheinlichkeit für ein einzelnes Roulette-Spiel ist damit p = 18 . 37 • Das Spiel endet, wenn der Spieler entweder kein Geld mehr besitzt (Niederlage) oder wenn er einen vorher festgelegten Zielbetrag N ∈ N, mit N > i, erreicht oder überschreitet (Sieg). 6 2 Das Ein-Personen-Modell Das Ziel des Spielers ist es, die Wahrscheinlichkeit, N zu erreichen oder zu überschreiten, zu maximieren. Dabei ist es für ihn irrelevant, ob er das Spiel mit Guthaben N beendet oder mit N + c, c ∈ N. Da das Modell zu einer Markovkette führt, ist es irrelevant, ob der Spieler mit Guthaben i beginnt oder zu irgendeinem Zeitpunkt dieses Guthaben erreicht. Daher wird i im Folgenden immer das aktuelle Guthaben bezeichnen. Der Ursprung des Modells gibt eine Gewinnwahrscheinlichkeit für eine einzelne Roulette-Runde von p = 18 37 vor. Für mathematische Betrachtungen wird von diesem Wert an einigen Stellen der Arbeit abstrahiert. Die experimentelle Betrachtung wurde allerdings maßgeblich für das hier vorgestellte p vorgenommen. 2.2 Optimale Strategien Definition 2.1 Eine stationäre Strategie s : {1, 2, . . . , N − 1} → {1, 2, . . . , N − 1} ist eine Funktion, die jedem derzeitigen Guthaben des Spielers einen Einsatz zuweist. Die Strategien heißen stationär, weil unabhängig vom vorherigen Spielverlauf bei jedem Guthaben immer derselbe Einsatz gewählt wird. Um optimale Strategien zu finden, ist es ausreichend, nur stationäre Strategien zu betrachten, da es sich bei der zu lösenden Aufgabe um ein nichtlineares Gleichungssystem handelt. Im Folgenden werden stationäre Strategien einfach als Strategien bezeichnet. Da nur nach Sieg oder Niederlage unterschieden wird, nicht aber nach dem erzielten Endguthaben, können nur solche Strategien optimal sein, bei denen das Guthaben N nicht überschritten wird. Betrachtet man dies als zusätzliche Restriktion, so ergibt sich eine symmetrische Spielsituation bezüglich der Geldbeträge 0 und N (wenn man von p absieht). Die Siegwahrscheinlichkeit bei p zu maximieren entspricht damit genau der Aufgabe, die Siegwahrscheinlichkeit bei 1 − p zu minimieren. Der maximal mögliche Einsatz ist also min{i, N − i}. Versucht der Spieler in einer nachteiligen Situation, also für p < 21 , seine Siegwahrscheinlichkeit zu maximieren, so ist bekannt, dass er bold (deutsch: gewagt, kühn; siehe 7 2 Das Ein-Personen-Modell Dubins, Savage (1965), S.87-89) spielen sollte. Das bedeutet, er setzt sein gesamN , und den Einsatz N − i, 2 ≥ N2 . Die Bold-Strategie ist tes Vermögen i, solange i < also so viel wie er zum Gewinnen benötigt, falls i für p < 1 2 immer opti- mal und führt sehr schnell zum Spielende (siehe Abschnitt 4.1). Abhängig von N kann es entweder nur eine oder mehrere optimale Strategien geben (Dubins, Savage (1965), S. 90-92): 1. Für ungerade N ist ausschließlich die Bold-Strategie optimal. 2. Es gelte: 2 | N und N 4 < i < 3N 4 N 2 ist ungerade. Dann sind für alle Guthaben i, zusätzlich zu Punkt 1 alle diejenigen Einsätze optimal, die das Vermögen bei entweder Sieg oder Niederlage der Runde auf 3. Es gelte: 4 | N und N 8 < i < 3N 8 N 4 bringen. ist ungerade. Dann sind für alle Guthaben i, zusätzlich zu Punkt 2 alle diejenigen Einsätze optimal, die das Vermögen bei entweder Sieg oder Niederlage der Runde auf bzw. für alle Guthaben i, 5N <i< 8 3N 4 N 2 7N , 8 N 4 bringen die Einsätze, die das Guthaben auf bringen, usw. Kyle Siegrist (2008) spricht hierbei von Bold-Strategien höherer Ordnung. Diese Begriffsbildung kommt daher, dass die zusätzlichen Strategien die gleiche Form wie die Bold-Strategie besitzen und sich lediglich die Bezugspunkte ändern. BoldStrategien zweiter Ordnung beziehen sich zum Beispiel entweder auf die Guthaben 0 und N 2 oder auf N 2 und N , statt wie die einfache Bold-Strategie auf 0 und N . Abbildung 2.2.1 zeigt ein Strategie-Diagramm für den Spieler bei N = 248. Ein Punkt im Diagramm bedeutet, dass für das entsprechende Guthaben der angezeigte Einsatz optimal ist. Die Punkte auf der Abszisse sind durch die Programmierung entstanden und haben für die Strategie keine Bedeutung. Um eine optimale Strategie zu erhalten, muss der Spieler für jedes Guthaben i einen lokal optimalen Einsatz wählen. Die Entscheidung für Guthaben i ist dabei unabhängig von den Entscheidungen für alle anderen Guthaben j, j ∈ {1, 2, . . . , N }j 6= i. Man erkennt in dieser Abbildung insgesamt drei (= log2 (8)) Verzweigungsstufen“ ” (gekennzeichnet durch die Zahlen 1 bis 3), da 248 durch 8, aber nicht durch 16 teilbar ist. Es kann nicht mehr als log2 N − 1 solcher Verzweigungsstufen geben. 8 2 Das Ein-Personen-Modell Führt man dieses Schema bspw. für N = 2k , k ∈ N, k ≥ 2, weiter, so ist der minimale optimale Einsatz bei Guthaben und 3N 4 durch N 4 N 2 gegeben durch N , 2 bei Guthaben N 4 und so weiter. Der minimale optimale Einsatz bei ungeraden Guthaben i und Zielguthaben N = 2k , k ∈ N, k ≥ 2, ist damit 1. Abbildung 2.2.1: Lokal optimale Einsätze im Ein-Personen-Modell für N = 248 Es stellt sich die Frage, welche Strategie der Spieler verfolgen sollte, wenn er einen Vorteil hat, also p > 1 2 ist. Die Strategie s(i) = 1, für alle i ∈ {1, 2, . . . , N − 1}, wird im Folgenden als Einzelschritt-Strategie bezeichnet (Sie wird in der Literatur häufig als timid play“ bezeichnet (Freedman (1967)). Einen Beweis zur ” Optimalität führte bereits David A. Freedman (1967). Satz 2.2 Die Einzelschritt-Strategie ist die einzige Strategie, die die Siegwahrscheinlichkeiten des Spielers bei einem Spiel mit Vorteil, also für p > 12 , maximiert. Beweis. Die Aussage ist durch die Symmetrie äquivalent zur Aussage: Die Einzelschritt-Strategie ist die einzige Strategie, die die Siegwahrscheinlichkeiten des Spielers für p < 1 2 minimiert. 9 2 Das Ein-Personen-Modell Im Folgenden werden zunächst die konkreten Siegwahrscheinlichkeiten des Spielers bei Start mit Guthaben i und Einzelschritt-Strategie berechnet. Bezeichne x1i die Wahrscheinlichkeit, mit der Einzelschritt-Strategie mit Startguthaben i den Zielbetrag N zu erreichen. Es sei p < 21 . Dann gilt: x1i = p · x1i+1 + (1 − p) · x1i−1 mit (2.1) x10 = 0 und x1N = 1. Es handelt sich bei (2.1) um eine homogene lineare Differenzengleichung 2. Ordnung mit konstanten Koeffizienten. Sie lässt sich durch den Ansatz x1i = λi lösen. Die charakteristische Gleichung lautet: λ = p · λ2 + (1 − p). (2.2) Aus der quadratischen Gleichung 2.2 ergeben sich die beiden Lösungen: λ1 = 1 und 1−p p i 1−p 1 ⇒ xi = a +b p λ2 = Im Weiteren sei q := p . 1−p Aus den beiden Randbedingungen ergibt sich dann: x10 = a · q 0 + b = 0 ⇒ a = −b; x1N = a · (q −N − 1) = 1 ⇒ a = (q −N − 1)−1 = qN 1 − qN ⇒ x1i = q N −i − q N . 1 − qN 10 2 Das Ein-Personen-Modell Mit p < 1 2 folgt q < 1, womit alle x1i > 0 sind. Nun muss gezeigt werden, dass für jedes beliebige derzeitige Guthaben i ∈ {1, 2, . . . , N } jeder Einsatz größer als 1 zu einer echten Verbesserung für den Spieler führt. Bezeichne xki die Wahrscheinlichkeit, den Zielbetrag N mit Startguthaben i zu erreichen, wenn s(i) = k und s(l) = 1 für alle l ∈ {1, 2, . . . , i−1, i+1, . . . , N −2, N −1}. Es sei i ∈ {2, . . . , N −2} und 2 ≤ k ≤ min{i, N − i} beliebig. Dann ist: xki q N −i−k − q N q N −i+k − q N =p· + (1 − p) · 1 − qN 1 − qN = q N −i · (p · q −k + (1 − p) · q k ) − q N . 1 − qN Damit ist xki steigend in der Funktion p·q −k +(1−p)·q k . Für k = 1 (EinzelschrittStrategie) ergibt sich: p · q −1 + (1 − p) · q 1 = (1 − p) + p = 1. Für k ≥ 2 ergibt sich: (1 − p)2k−1 + p2k−1 . (p · (1 − p))k−1 p · q −k + (1 − p) · q k = Eine getrennte Betrachtung von Zähler und Nenner ergibt dann: (1 − p)2k−1 + p2k−1 ≥ (p · (1 − p))k−1 < 1 22k−2 1 4k−1 für k ≥ 1 = 1 22k−2 (2.3) für k ≥ 2. Die Ungleichung (2.3) ergibt sich dabei wie folgt: 1 p= : 2 1 22k−1 + 1 22k−1 = 1 22k−2 p = 0: 12k−1 + 0 = 1 d ((1 − p)2k−1 + p2k−1 ) = −(2k − 1) · (1 − p)2k−2 + (2k − 1) · p2k−2 dp < 0 für p < 1 2 ⇒ (1 − p)2k−1 + p2k−1 ≥ 11 1 22k−2 1 für p < . 2 2 Das Ein-Personen-Modell Es ergibt sich damit: (1 − p)2k−1 + p2k−1 2−2k+2 > = 1. (p · (1 − p))k−1 2−2k+2 (2.4) Damit ist gezeigt, dass jede Strategie, bei der der Spieler nur bei einem Guthaben i von der Einzelschritt-Strategie abweicht, zu einer echten Verbesserung gegenüber der Einzelschritt-Strategie führt. Durch vollständige Induktion in der Anzahl j der geänderten Einsätze ergibt sich die Aussage des Satzes: 1. Induktions-Anfang: Die Gültigkeit für j = 1 wurde bereits durch (2.4) gezeigt. 2. Induktions-Annahme: Die Aussage gelte für j = m. 3. Induktions-Schritt: j = m + 1: Bisher gilt für alle i und alle derzeitigen xi : xi ≥ x1i . Der Einsatz bei Guthaben l wird auf kl , kl ≤ min{l, N − l} geändert. Es gilt: xkl l = p · xl+kl + (1 − p) · xl−kl ≥ p · x1l+kl + (1 − p) · x1l−kl (2.5) > p · x1l+1 + (1 − p) · x1l−1 (2.6) Der Schritt von (2.5) zu (2.6) gelingt durch Verwendung von (2.4). Damit ist jede beliebige Strategie besser als die Einzelschritt-Strategie (ausgenommen diese selbst) und der Satz bewiesen. Der Spezialfall p = 1 2 soll nun betrachtet werden. Hierbei handelt es sich um einen einfachen Random Walk mit diskreter Zeit und Absorption bei 0 und N (Kemeny, Snell (1963))). In diesem Fall hängen die Siegwahrscheinlichkeiten nicht von der gewählten Strategie ab: Satz 2.3 Die Siegwahrscheinlichkeiten xi des Spielers bei p = von der gewählten Strategie zu xi = i N 1 2 ergeben sich unabhängig für alle i ∈ {1, 2, . . . , N }. 12 2 Das Ein-Personen-Modell Beweis. Es genügt zu zeigen, dass für alle i ∈ {1, 2, . . . , N } und für alle ki ∈ {1, 2, . . . , min{i, N − i}} die obigen Wahrscheinlichkeiten folgende Gleichung erfüllen: xki i = p · xi+ki + (1 − p) · xi−k . Durch Einsetzen erhält man: 1 i+k 1 i−k · + · 2 N 2 N i = . N xki i = 2.3 Numerische Methoden zur Berechnung der Siegwahrscheinlichkeiten und Strategien Um die optimalen Siegwahrscheinlichkeiten des Spielers im Ein-Personen-Modell für alle Startguthaben i ∈ {1, 2, . . . , N } für ein vorgegebenes N und p zu berechnen, muss im Allgemeinen folgendes nichtlineares Gleichungssystem gelöst werden: x0 = 0 x1 = p · x2 + (1 − p) · x0 x2 = max{p · x4 + (1 − p) · x0 , p · x3 + (1 − p) · x1 } x3 = max{p · x6 + (1 − p) · x0 , p · x5 + (1 − p) · x1 , p · x4 + (1 − p) · x2 } .. . .. . xi = max{p · xi+min{i,N −i} + (1 − p) · xi−min{i,N −i} , . . . , p · xi+1 + (1 − p) · xi−1 } .. . .. . xN −2 = max{p · xN + (1 − p) · xN −4 , p · xN −1 + (1 − p) · xN −3 } xN −1 = p · xN + (1 − p) · xN −2 13 2 Das Ein-Personen-Modell xN = 1. Das Gleichungssystem kann in Vektorschreibweise geschrieben werden: x = max{G1 x} (2.7) G1 u.d.Nb.: G1 zulässig G1 ist genau dann zulässig, wenn: • In jeder Zeile i, i ∈ {1, 2, . . . , N } ist gi,i−ki = 1 − p und gi,i+ki = p, mit 1 ≤ ki ≤ min{i, N − i} beliebig. • Es gilt g0,0 = gN,N = 1. • Für alle anderen Einträge von G1 gilt gi,j = 0. Zusätzlich müssen x0 = 0 und xN = 1 gesetzt werden. Um die optimale Strategie s∗1 zu berechnen, müssen zunächst die optimalen Wahrscheinlichkeiten berechnet werden. Aus diesen kann man dann wie folgt eine optimale Strategie berechnen: s∗1 (i) = arg max{p · xi+ki + (1 − p) · xi−ki } ki für alle i ∈ {1, . . . , N − 1}, wobei 1 ≤ ki ≤ min{i − 1, N − i + 1}. Dabei muss s∗1 nicht eindeutig sein. Zur Untersuchung der optimalen Wahrscheinlichkeiten und Strategien wurde in der vorliegenden Arbeit ein iteratives Näherungsverfahren verwendet, welches unter dem Begriff Monotone Iterationen“ bekannt ist (Althöfer (2007)). Dies ist ” möglich, da jede beliebige Strategie-Matrix die Bedingungen für monotone Iterationen erfüllt. Auf das Verfahren wird im nächsten Abschnitt näher eingegangen. (0) (0) (0) Als Startvektor diente der Vektor x(0) = (x0 , x1 , . . . , xN )T = (0, 0, . . . , 0, 1). Die Näherung wird bestimmt, indem in der t−ten Iteration für alle i ∈ {1, . . . , N − 1} folgende Rechnung ausgeführt wird: (t) (t−1) (t−1) xi = max{p · xi+ki + (1 − p) · xi−ki }, ki 14 (2.8) 2 Das Ein-Personen-Modell 1 ≤ ki ≤ min{i, N − i}. Aufgrund der Eigenschaften des Startvektors und der (t) Strategie-Matrizen müssen die Folgen {xi }∞ t=0 konvergieren. Dies und die Eindeutigkeit der Lösung wird vom Verfahren gewährleistet. Zur Bestimmung der optimalen Strategien sind etwa 2 · blog2 (N + 1)c Iterationen nötig, was experimentell ermittelt wurde. 2.4 Das Verfahren der monotonen Iterationen Im Folgenden soll bewiesen werden, dass das Verfahren der monotonen Iterationen in den hier betrachteten Fällen konvergiert, da jede beliebige Strategie-Matrix die Voraussetzungen für monotone Iterationen erfüllt. Zusätzlich wird gezeigt, dass die Lösung der Gleichungssysteme, hier dargestellt durch die optimalen Siegwahrscheinlichkeiten des Spielers, eindeutig sind (Althöfer (2007)). Im Satz und dem anschließenden Beweis wird die gleiche Notation verwendet wie im vorherigen Abschnitt. Satz 2.4 P −1 Sei das betrachtete Gleichungssystem gegeben durch xi = N j=1 aij xj + bi für alle PN −1 i ∈ {1, 2, . . . , N −1}, wobei alle aij , bi > 0. Es gelte j=1 aij < 1. Dann hat dieses Gleichungssystem eine eindeutige Lösung und wird vom Iterationsverfahren (2.8) (0) gefunden, wenn mit xi = 0, für alle i ∈ {1, 2, . . . , N − 1} begonnen wird. Offensichtlich hat x0 aus dem Modell auf dieses Gleichungssystem keinen Einfluss. Der Umstand, dass xN = 1 ist, führt zu positiven bi . Zu beachten ist, dass die aij P −1 im Allgemeinen nicht p oder 1 − p entsprechen. Die Vorraussetzung N j=1 aij < 1 wird erfüllt, da für jedes xi , i ∈ {1, 2, . . . , N −1} ein Teil der Wahrscheinlichkeiten auf x0 und xN entfällt. Beweis. Zur Konvergenz: Es werden im Folgenden zwei Eigenschaften gezeigt: die Monotonie des Verfahrens und die Beschränktheit der Werte xi . (t) (t+1) Monotonie: Für alle t ≥ 0 und alle i ∈ {1, 2, . . . , N − 1} gilt xi ≤ xi lässt sich durch Induktion in t zeigen: 15 . Dies 2 Das Ein-Personen-Modell (0) (1) 1. Induktions-Anfang: Für alle i ∈ {1, 2, . . . , N − 1} gilt: xi = 0 ≤ xi = bi . (t) (t+1) 2. Induktions-Voraussetzung: Sei xi ≤ xi (t+1) 3. Induktions-Schritt: Zu zeigen ist xi (t+1) xi = N −1 X für festes t. (t+2) ≤ xi . (t) aij xi + bi j=1 (t+2) xi = N −1 X (t+1) aij xi + bi j=1 (t+2) xi − (t+1) xi = N −1 X (t+1) aij (xi (t) − xi ) ≥ 0 j=1 Damit ist die Monotonie gezeigt. Beschränktheit: Sei N −1 X A = max{ i aij } < 1 und j=1 B = max{bi } < ∞. i Wir betrachten die Größe y = Ay + B. Es gilt y = nun gezeigt, dass (t) xi ≤ B , 1−A B . 1−A Durch Induktion wird für alle i ∈ {1, 2, . . . , N − 1} und alle t ≥ 0. (0) 1. Induktions-Anfang: Für t = 0 gilt xi = 0 ≤ B . 1−A 2. Induktions-Voraussetzung: Für festes t und alle i ∈ {1, 2, . . . , N − 1} gelte (t) xi ≤ B . 1−A 3. Induktions-Schritt: Es gilt: (t+1) xi = N −1 X (t) aij xi + bi j=1 N −1 X B · aij + B ≤ 1 − A j=1 16 2 Das Ein-Personen-Modell ≤ BA +B 1−A = B . 1−A (t) Damit ergibt sich, dass für alle i ∈ {1, 2, . . . , N − 1} die Folge {xi }∞ t=0 monoton wächst und beschränkt ist, also konvergiert. Der Limes der Folge für t → ∞ ist die Lösung des Gleichungssystems, da für alle i ∈ {1, 2, . . . , N − 1} gilt: ! N −1 X (t+1) (t) lim xi = lim aij xj + bi . t→∞ Also ist x∗i = PN −1 j=1 t→∞ j=1 aij x∗i + bi die gesuchte Lösung. Zur Eindeutigkeit: Man nehme an, es existieren zwei Vektoren x und x̂ mit x 6= x̂, die Lösungen des Gleichungssystems sind. Der Index i kann so gewählt, bzw. die beiden betrachteten Vektoren so bezeichnet werden, dass ohne Beschränkung der Allgemeinheit xi − x̂i > 0 und xi − x̂i > xj − xˆj , j 6= i, j ∈ {1, 2, ..., N − 1} ist. Dann gilt: xi = N −1 X aij xj + bi j=1 x̂i = N −1 X aij x̂j + bi j=1 ⇒ xi − x̂i = N −1 X aij (xj − x̂j ) j=1 ≤ N −1 X aij (xi − x̂i ) j=1 = (xi − x̂i ) N −1 X aij < (xi − x̂i ). j=1 Es ergibt sich ein Widerspruch. Die Lösung des Gleichungssystems x ist damit eindeutig bestimmt und die Aussage des Satzes bewiesen. 17 3 Theoretische Betrachtung des Zwei-Personen-Modells 3.1 Das Modell In diesem Abschnitt geht es um ein abgewandeltes Roulette-Modell, in dem auch die Spielbank Einfluss auf das Spielgeschehen hat. 1. Es spielen zwei Akteure, bezeichnet als Spieler und Bank. 2. Der Spieler beginnt mit Startkapital i ∈ N. Die Bank besitzt ein unbegrenztes Kapital, spielt aber ebenfalls mit dem Kapital des Spielers. Es handelt sich um ein Nullsummenspiel. 3. Gespielt wird mit einem idealen Roulette-Kessel (wie im Ein-PersonenModell). 4. Es darf nur auf Rot oder Schwarz gesetzt werden. Damit ist p = 18 . 37 5. Spieler und Bank ziehen abwechselnd. Ein Zug besteht darin, in der nächsten Roulette-Runde den zu setzenden Betrag festzulegen. Es beginnt der Spieler. 6. Das Spiel endet, wenn das Kapital des Spielers verspielt ist (Sieg für die Bank) oder er einen vorher festgelegten Betrag N ∈ N, N > i erreicht oder überschreitet (Sieg für den Spieler). 7. Die Bank darf nicht mehr setzen, als der Spieler noch bis zum Zielbetrag N benötigt. Damit wird die Symmetrie aufrechterhalten. 18 3 Theoretische Betrachtung des Zwei-Personen-Modells Das Ziel des Spielers ist wieder, seine Siegwahrscheinlichkeit zu maximieren. Die Bank als Gegenspieler möchte nun diesem Ziel entgegenwirken. Es stellt sich die Frage, welche Strategien der Spieler und welche die Bank spielen sollte. In diesem Modell genügt es, den Fall p < 1 2 zu betrachten. Wie für das Ein- Personen-Modell gezeigt wurde, ist im Fall p = 1 2 die Wahl der Strategie (hier für beide Akteure) irrelevant, während Spieler und Bank ihre Strategien im Fall p> 1 2 im Vergleich zum hier betrachteten Szenario einfach tauschen müssten. 3.2 Numerische Methoden zur Berechnung der Siegwahrscheinlichkeiten und Strategien Beim Zwei-Personen-Spiel muss das Gleichungssystem aus Abschnitt 2.3 erweitert werden. Bezeichne y = (y0 , y1 , . . . , yN )T die Siegwahrscheinlichkeiten des Spielers (die Siegwahrscheinlichkeiten beziehen sich immer auf den Spieler), wenn die Bank am Zug ist, während x = (x0 , x1 , . . . , xN )T weiterhin seine Siegwahrscheinlichkeiten bezeichnet, wenn er selbst am Zug ist. Das Gleichungssystem hat dann folgende Form: x0 = 0 x1 = p · y2 + (1 − p) · y0 x2 = max{p · y4 + (1 − p) · y0 , p · y3 + (1 − p) · y1 } .. . .. . xi = max{p · yi+min{i,N −i} + (1 − p) · yi−min{i,N −i} , . . . , p · yi+1 + (1 − p) · yi−1 } .. . .. . xN −2 = max{p · yN + (1 − p) · yN −4 , p · yN −1 + (1 − p) · yN −3 } xN −1 = p · yN + (1 − p) · yN −2 xN = 1 19 3 Theoretische Betrachtung des Zwei-Personen-Modells y0 = 0 y1 = p · x2 + (1 − p) · x0 y2 = min{p · x4 + (1 − p) · x0 , p · x3 + (1 − p) · x1 } .. . .. . yi = min{p · xi+min{i,N −i} + (1 − p) · xi−min{i,N −i} , . . . , p · xi+1 + (1 − p) · xi−1 } .. . .. . yN −2 = min{p · xN + (1 − p) · xN −4 , p · xN −1 + (1 − p) · xN −3 } yN −1 = p · xN + (1 − p) · xN −2 yN = 1. (3.1) Auch dieses System kann in Vektorschreibweise geschrieben werden: x = max{Gy} G y = min{Hx} H u.d.Nb.: G und H zulässig G und H sind hier den gleichen Beschränkungen unterworfen wie die Matrix G1 im Gleichungssystem (2.7) auf Seite 14. Es muss zusätzlich x0 = y0 = 0 und xN = yN = 1 gesetzt werden. Das optimale Strategie-Paar (s*,b*), s* für die Spieler-Strategie und b* für die Bank-Strategie, berechnet sich auf analoge Weise zum Ein-Personen-Modell: s∗ (i) = arg max{p · yi+ki + (1 − p) · yi−k } ki b∗ (i) = arg min{p · xi+ki + (1 − p) · xi−k } ki für alle i ∈ {1, . . . , N − 1}, mit 1 ≤ ki ≤ min{i − 1, N − i + 1}. Die Strategien s∗ und b∗ müssen nicht eindeutig bestimmt sein. 20 3 Theoretische Betrachtung des Zwei-Personen-Modells Da sich die analytische Berechnung der konkreten Wahrscheinlichkeiten als schwierig erweist, wurden im Folgenden monotone Iterationen zur Bestimmung von Näherungslösungen verwendet (siehe Abschnitt 2.4). Dies ist möglich, da mit den Strategie-Matrizen G und H auch die Matrizen GH und HG die Voraussetzungen für monotone Iterationen erfüllen. Sei der Startvektor des Verfahrens 0 0 T T y 0 = (y00 , y10 , . . . , yN −1 , yN ) = (0, 0, . . . , 0, 1) . Die Näherung wird dann auf fol- gende Weise bestimmt: im (t+1)-ten Schritt werden jeweils für alle i die optimalen xi bzw. yi bestimmt: t t xt+1 = max{p · yi+k + (1 − p) · yi−k } und i i i ki yit+1 = max{p · xti+ki + (1 − p) · xti−ki }, ki mit 1 ≤ ki ≤ min{i, N − i}. Aufgrund des verwendeten Verfahrens konvergieren (t) (t) ∞ die Folgen {xi }∞ t=0 und {yi }t=0 für alle i ∈ {1, 2, . . . , N }. Die Siegwahrschein- lichkeiten xi und yi sind für alle i ∈ {1, 2, . . . , N − 1} eindeutig. 3.3 Beispiel für N = 7 In diesem Abschnitt soll der Fall N = 7 betrachtet werden. An diesem Beispiel wird die Optimalität der durch das numerische Verfahren erhaltenen Strategien gezeigt. Außerdem wird deutlich, warum die errechneten Strategie-Paare (eine Spieler-Strategie und i.A. ein Satz von zugehörigen Bank-Strategien) als einzige die Optimalitätsbedingungen erfüllen können. Letzteres lässt sich auch auf den Fall für beliebiges N übertragen. Satz 3.1 Möchte der Spieler das Kapital N = 7 erreichen, so ist für ihn die Strategie s∗ = (s(1), . . . , s(6)) = (1, 2, 3, 3, 2, 1) und für die Bank die Strategie b∗ = (b(1), . . . , b(6)) = (1, 1, 2, 2, 1, 1) für die jeweiligen Ziele optimal. Es gibt kein anderes Strategie-Paar mit dieser Eigenschaft. Beweis. Sei q := 1 − p. Die Siegwahrscheinlichkeiten des Spielers während des Spieler-Zuges, bezeichnet mit x = (x0 , x1 , . . . , x7 ), bzw. während des Bank-Zuges, 21 3 Theoretische Betrachtung des Zwei-Personen-Modells bezeichnet mit y = (y0 , y1 , . . . , y7 ), für allgemeines p sind: p4 (1 + q 2 ) x1 = 2 (p + q)2 − p3 q 3 x0 = 0, x2 = p3 (1 + q 2 ) , (p2 + q)2 − p3 q 3 x3 = p2 (1 + q 2 )(p2 + q) (p2 + q)2 − p3 q 3 x4 = p(p2 + q)2 + p4 q , (p2 + q)2 − p3 q 3 x5 = p(p2 + q) + p4 q 2 (p2 + q)2 − p3 q 3 x6 = p(1 + q 2 )(p2 + q) , (p2 + q)2 − p3 q 3 x7 = 1. und y0 = 0, y1 = p4 (1 + q 2 ) (p2 + q)2 − p3 q 3 y2 = p3 (1 + q 2 ) , (p2 + q)2 − p3 q 3 y3 = p 2 − p3 q 3 (p2 + q)2 − p3 q 3 y4 = p2 (1 + q 2 ) , (p2 + q)2 − p3 q 3 y5 = p(p2 + q) + p4 q 2 (p2 + q)2 − p3 q 3 y6 = p(1 + q 2 )(p2 + q) , (p2 + q)2 − p3 q 3 y7 = 1. Man sieht, dass x1 = y1 , x2 = y2 , x5 = y5 und x6 = y6 ist. Um zu zeigen, dass es sich hierbei um die einzigen optimalen Strategien handelt, muss gezeigt werden, dass keiner der beiden Akteure sich verbessert, wenn er von seiner Strategie abweicht. Im Folgenden sei x0i = xi · [(p2 + q)2 − p3 q 3 ] und yi0 = yi · [(p2 + q)2 − p3 q 3 ], i ∈ {1, 2, . . . , 7} (Es wird lediglich der Nenner weggelassen, da dieser überall gleich und positiv ist.). Weiterhin bezeichne x0ji die Siegwahrscheinlichkeit des Spielers, wenn s(i) = j ist und beide Akteure ansonsten weiter optimal spielen. Analog dazu bezeichne yi0j die Siegwahrscheinlichkeit der Bank, wenn b(i) = j und bei ansonsten optimalem Spiel beider Akteure. x0i und yi0 bezeichnen die Siegwahrscheinlichkeiten bei optimalem Spiel in allen Guthaben. Zur Optimalität von s∗ : 0 0 3 x01 2 = p · y3 + q · y1 = p (1 + pq) 22 3 Theoretische Betrachtung des Zwei-Personen-Modells 1 für p ∈ (0, ) 2 3 x02 − x01 2 = p q(1 − 2p) > 0 0 0 2 4 x01 3 = p · y4 + q · y2 = p (1 − q ) 1 für p ∈ (0, ) 2 2 2 x03 − x01 3 = p q(1 − 2p)(1 + q ) > 0 2 3 0 0 x02 3 = p · y5 + q · y1 = p (1 − pq ) 1 für p ∈ (0, ) 2 2 x03 − x02 3 = p q(1 − 2p) > 0 2 3 4 5 6 0 0 x01 4 = p · y5 + q · y3 = 2p − 3p + 5p − 5p + 2p 1 für p ∈ (0, ) 2 2 2 x04 − x01 4 = pq (1 − 2p)(1 + p ) > 0 0 0 2 2 x02 4 = p · y6 + q · y2 = p (1 + q ) 1 für p ∈ (0, ) 2 2 x04 − x02 4 = pq (1 − 2p) > 0 0 0 2 3 4 5 6 x01 5 = p · y6 + q · y4 = 4p − 8p + 8p − 4p + p 1 für p ∈ (0, ). 2 Bei optimalem Einsatz müssen die Siegwahrscheinlichkeiten xi am höchsten sein, 3 x05 − x01 5 = pq (1 − 2p) > 0 was hier gegeben ist. Damit sind alle Einsätze des Spielers lokal optimal und die Strategie s∗ ist als solche ebenfalls optimal. Zur Optimalität von b∗ : y202 = p · x04 = p2 (p + q 3 ) 1 für p ∈ (0, ) 2 y202 − y20 = p2 q 2 (1 − 2p) > 0 y301 = p · x04 + q · x02 = p2 (1 − p2 q 2 ) 1 für p ∈ (0, ) 2 y301 − y30 = p3 q 2 (1 − 2p) > 0 y303 = p · x06 = p2 (1 − p2 + q 4 ) 1 für p ∈ (0, ) 2 y303 − y30 = p2 q(1 − 2p) > 0 y401 = p · x05 + q · x03 = 3p2 − 7p3 + 10p4 − 7p5 + 1p6 23 3 Theoretische Betrachtung des Zwei-Personen-Modells 1 für p ∈ (0, ) 2 y401 − y40 = p2 q 3 (1 − 2p) > 0 y403 = p · x07 + q · x01 = p(p + q 3 ) 1 für p ∈ (0, ) 2 y403 − y40 = pq 2 (1 − 2p) > 0 y502 = p · x07 + q · x03 = p(q + p2 + pq 4 ) 1 für p ∈ (0, ). 2 y502 − y50 = p2 q 2 (1 − 2p) > 0 Auch hier ergibt sich die Optimalität von b∗ . Mit der Eindeutigkeit der optimalen Siegwahrscheinlichkeiten (siehe Abschnitt 2.4) ist bewiesen, dass nur b∗ und s∗ optimal sein können. 24 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell 4.1 Optimale Strategien Da schon im Ein-Personen-Modell eine optimale Strategie (die Bold-Strategie) und die schlechtest mögliche Strategie (die Einzelschritt-Strategie) bekannt sind, könnte man zunächst annehmen, dass diese beiden Strategien auch im ZweiPersonen-Modell wieder auftauchen werden. Tatsächlich ergaben Simulationen, dass die optimale Strategie für den Spieler vermutlich ausschließlich die Bold-Strategie darstellt. Es wurde experimentell bisher für kein N eine andere optimale Strategie festgestellt. Getestet wurden alle N ∈ {4, 5, ..., 500} und N = 2k , k = 9, ..., 13 . Im Gegensatz zu den Beobachtungen im Ein-Personen-Modell scheint es demnach keine Zielbeträge N zu geben, für die auch andere Strategien als die Bold-Strategie optimal sind. Dies liegt sehr wahrscheinlich daran, dass diese Strategie im Zwei-Personen-Modell durch eine geringe durchschnittliche Spieldauer einen Vorteil erhält, was dazu führt, dass die Bank nur wenige Möglichkeiten besitzt, das Spiel überhaupt zu beeinflussen. Dass die Bold-Strategie hier auftaucht, ist keinesfalls trivial. Gegen zufälliges stationäres Spiel der Bank, d.h. für jedes Guthaben i wird der Einsatz der Bank b(i) ∈ {1, . . . , min{i, N − i}} gemäß Gleichverteilung bestimmt, ist die BoldStrategie beispielsweise im Allgemeinen nicht optimal (siehe Abbildungen 4.6.7 und 4.6.8 auf Seite 49). 25 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Die durchschnittliche Spieldauer t1i (in Abhängigkeit vom Startvermögen i) im Ein-Personen-Spiel beträgt beim Spiel mit Bold-Strategie: j ∞ X 19 37 1 ti ≤ = 37 18 j=0 Dies resultiert daraus, dass die Wahrscheinlichkeit, das Spiel zu beenden, immer mindestens 19 . 37 18 37 beträgt. Die Wahrscheinlichkeit, dass es weitergeht ist also maximal Bezeichne t2i die Anzahl der Spielzüge der Bank im Zwei-Personen-Spiel gegen einen Spieler mit Bold-Strategie und Startkapital i. Dann gilt: j ∞ X 18 37 2 ti ≤ = < 2. 37 19 j=0 Man sieht, dass die Bank durchschnittlich weniger als zwei Züge zur Verfügung hat, um das Spiel des Spielers zu stören. Es muss für die Bank eine Strategie gefunden werden, die in durchschnittlich etwa zwei Zügen einen möglichst großen Einfluss auf das Ergebnis des Spiels hat. Die Einzelschritt-Strategie ist damit als Strategie für die Bank sehr wenig geeignet. Da es die langsamste denkbare Strategie ist, es gibt keine Strategie, die, für sich genommen, mehr Runden bis zum Spielende benötigt (Freedman (1967)), verschwindet ihr Einfluss gegen die Bold-Strategie fast völlig. Die folgenden vier Strategie-Diagramme (Abbildungen 4.1.1 bis 4.1.4) zeigen alle möglichen optimalen Strategien der Bank für N = 250, N = 256, N = 4096 und N = 4099. In den letzten beiden Darstellungen mit N = 4096 und N = 4099 sind zwar einzelne Punkte nicht mehr erkennbar, allerdings vermitteln sie einen sehr guten Eindruck von der Form der Strategie für größere N. Es lassen sich einige Gemeinsamkeiten feststellen: 1. Es gibt für größere N eine Vielzahl von optimalen Bank-Strategien (siehe Tabelle 4.1). 2. Es bilden sich in der Grafik vier rautenförmige Strukturen, von denen bei geradem N die am weitesten links gelegene Struktur exakt die gleiche Form besitzt wie die am weitesten rechts gelegene. Bei ungeraden N sind die Rauten weniger deutlich ausgeprägt, bei N = 256 sind die linke und die rechte Raute nur etwa zur Hälfte vorhanden. 26 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.1.1: Optimale Einsätze der Bank bei N = 250 Abbildung 4.1.2: Optimale Einsätze der Bank bei N = 256 27 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.1.3: Optimale Einsätze der Bank bei N = 4096 Abbildung 4.1.4: Optimale Einsätze der Bank bei N = 4099 28 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell 3. Die Einsätze schwanken um zwei bestimmte Niveaus; das höhere Niveau liegt bei N , 4 das niedrigere bei N . 12 Ist N durch 4 bzw. 12 teilbar, so liegen die Niveaus exakt bei diesen Werten. Ist N nicht durch 4 bzw. 12 teilbar, so liegen die Niveaus auf einem oder beiden gerundeten Werten. 4. Das höhere Niveau (die mittleren zwei Rauten)erstrecket sich über etwa 1 3 der N Guthaben. Bei N = 250 liegt dieses Niveau bei 85 bis 167, es umfasst damit 83 Guthaben. 5. Der höchste Einsatz liegt knapp unter N . 3 6. Die Bank spielt nur für die Guthaben 1 und N − 1 den gleichen Einsatz wie der Spieler. 7. Es bilden sich bestimmte Einsatzlinien“ (mit Anstieg 1 oder -1) im Dia” gramm heraus, also Einsätze für aufeinanderfolgende Guthaben, die bei einem bestimmten Einzelspielausgang (Sieg für Anstieg -1 bzw. Niederlage für Anstieg 1) alle zum gleichen Vermögen führen. Insgesamt liefert der rot gefärbte Bereich in Abbildung 4.2.1 und die Vergrößerung des rechten Teils davon in Abbildung 4.2.2 einen guten Anhaltspunkt für die Lage der optimalen Einsätze. Der linke Teil des roten Bereiches in Abbildung 4.2.1 besitzt eine analoge Form zum rechten Teil. Durchschnittliche Zahl optimaler Maximale Zahl optimaler N Einsätze je Guthaben Einsätze je Guthaben 128 1,26 2 256 1,29 4 512 1,44 6 1024 1,55 10 2048 2,38 25 4096 2,58 42 8192 4,09 80 Tabelle 4.1: Anzahl optimaler Einsätze für verschiedene Zielguthaben 29 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell 18 37 Es sollte beachtet werden, dass für p = mittleren Rauten nicht genau bei näher p an 1 2 N 2 die Trennlinie zwischen den zwei liegt, sondern etwas rechts davon. Um so liegt, um so näher liegt auch die Trennlinie an N . 2 Für kleiner werdendes p verschiebt sie sich nach rechts. 4.2 Betrachtung der optimalen Bank-Strategie für verändertes p Die Abbildung 4.2.1 zeigt die optimalen Strategien der Bank für p = 1 2 − 10−4 und N = 432, berechnet mit verschiedenen Genauigkeiten a. Die Genauigkeit a bestimmt, welche Einsätze, abgesehen vom tatsächlich numerisch gefundenen optimalen Einsatz, als optimal angesehen werden. Sei xki , i ∈ {2, 3, . . . , N − 2} die Siegwahrscheinlichkeit für Guthaben i beim optimalen Einsatz k. Für einen konkreten Wert a werden alle Einsätze j als optimal angesehen, für die gilt: xki − xji ≤ a, j ∈ {1, 2, . . . , min{i, N − i}}. Damit bewirkt ein niedriger Wert für a eine hohe Genauigkeit. Die Differenz d := 1 2 − p ist im betrachteten Fall −4 d = 10 . Der Vergleich der Differenz d mit der Genauigkeit a führt experimentell zu folgenden Ergebnissen: 1. Gilt a ≥ d, so werden alle Einsätze als optimal angegeben. Dies entspricht der gelben Fläche in der Abbildung. 2. Ist a ≈ d2 , so ergeben sich in der Abbildung die rot gezeichneten Rauten als optimale Einsatz-Bereiche. Abbildung 4.2.2 zeigt eine Vergrößerung der am Rand befindlichen Formen. 3. Ein Wert a d2 führt zur Abbildung der tatsächlich optimalen Strategien. Das heißt, dass in diesem Fall nur tatsächlich optimale Einsätze angezeigt werden. Für d > 10−3 führt die obige Betrachtung aufgrund der niedrigen Genauigkeit nicht genau zu den angegebenen Ergebnissen. Nimmt man trotzdem die Korrektheit der Vermutung für beliebige p < 30 1 2 an, so ergibt sich bei p = 18 37 für d: 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell d= 1 2 − 18 37 = 1 . 74 Wählt man die Einsätze der Bank innerhalb der roten Rauten in Abbildung 4.2.1, so ergibt sich eine absolute Genauigkeit von schätzungsweise 1 2 1 a = 74 ≈ 5500 . Dies entspricht einer Abweichung der Siegwahrscheinlichkeiten des Spielers während des Bank-Zuges yi vom optimalen Wert von weniger als 0,02 Prozent-Punkten, für jedes i ∈ {1, 2, . . . , N − 1}. Bemerkenswert ist, dass die Übergänge zwischen den verschieden gefärbten Bereichen der Abbildung 4.2.1 jeweils sehr scharf sind. Der Rote Bereich beginnt sich erst für etwa a > 10−6 leicht zu vergrößern, während zwischen a = 10−9 und a = 10−10 fast alle Guthaben wegfallen, die nicht tatsächlich optimal sind. Abbildung 4.2.1: Optimale Bank-Strategien bei N = 432 und d = 10−4 . Die Genauigkeiten für a sind: a1 = 10−4 (gelb), a2 = 10−8 (rot) und a3 = 10−13 (schwarz). 31 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.2.2: Ausschnitt: optimale Bank-Strategien bei N = 432, d = 10−4 und a = 10−8 4.3 Erwartete Anspielhäufigkeiten der Bank In diesem Abschnitt wird die Frage behandelt, welche Guthaben die Bank mit ihren Strategien häufig und welche sie nicht anspielt. Die Bank spielt ein Guthaben j dann an, wenn während des Bank-Zuges i + k = j oder i − k = j gilt, wobei i das derzeitige Guthaben und k ein zu i optimaler Bank-Einsatz ist. Die Grafiken 4.3.1 bis 4.3.4 zeigen, wie häufig die Bank-Strategie zu welchen Guthaben für N = 192, N = 250, N = 275 und N = 300 führt. Die Höhe der Balken ergibt sich als erwartete Anspielhäufigkeit“ des Guthabens i, wenn für jedes Guthaben ” j = 1, ..., N − 1 genau einmal zufällig, gemäß Gleichverteilung auf allen optimalen Einsätzen und Sieg mit p bzw. Niederlage mit 1 − p, gespielt werden würde. Aus den obigen Beobachtungen und den Grafiken lassen sich damit verschiedene Vermutungen ableiten, die im Weiteren genauer erläutert werden sollen. 32 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.3.1: Erwartete Anspielhäufigkeiten der Guthaben bei zufälligem Spiel für jedes Guthaben bei N = 192 Abbildung 4.3.2: Erwartete Anspielhäufigkeiten der Guthaben bei zufälligem Spiel für jedes Guthaben bei N = 250 33 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.3.3: Erwartete Anspielhäufigkeiten der Guthaben bei zufälligem Spiel für jedes Guthaben bei N = 275 Abbildung 4.3.4: Erwartete Anspielhäufigkeiten der Guthaben bei zufälligem Spiel für jedes Guthaben bei N = 300 34 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Zielstellung und Einflussnahme der Bank Aufgrund der gegensätzlichen Zielstellung der Bank zu der des Spielers ist anzunehmen, dass die Bank-Strategie sich möglichst stark von der Spieler-Strategie unterscheiden sollte. Diese Annahme bestätigt sich nur teilweise. Die Bank spielt einerseits für jedes Guthaben, wenn möglich, anders als der Spieler. Einzige Ausnahmen sind die Guthaben 1 und N −1, bei denen keine Wahlmöglichkeit besteht. Andererseits möchte die Bank in den wenigen Zügen, die ihr durchschnittlich zur Verfügung stehen (siehe Abschnitt 4.1), das Spiel effektiv beeinflussen. Dieser Umstand führt dazu, dass die optimalen Bank-Einsätze nicht zu niedrig ausfallen dürfen und der Unterschied zu den optimalen Spieler-Einsätzen nicht maximal ist. Die Bank-Einsätze stellen somit einen Kompromiss zwischen einer gegensätzlichen Strategie zur Spieler-Strategie und einer starken Einflussnahme in kurzer Zeit dar. Vorteilhafte und nachteilige Guthaben Bestimmte Guthaben scheinen für den Spieler besonders schlecht zu sein, so dass sie von der Bank möglichst häufig angespielt werden. Das manifestiert sich zum Beispiel in den oben angesprochenen 45-Grad-Linien im Strategie-Diagramm der Bank. In den Abbildungen 4.3.1 bis 4.3.4 finden sich eine Vielzahl von Guthaben, die besonders häufig angespielt werden, was darauf schließen lässt, dass der Spieler mit den entsprechenden Ausgangsbudgets für seinen Zug einem Nachteil gegenüber anderen Guthaben ausgesetzt ist. Auch hier zeigt sich das Phänomen bei geraden N am deutlichsten, insbesondere bei durch 6 bzw. durch 12 teilbaren Zielguthaben N . Dabei treten u.a. die Guthaben i = j·N , 12 j = 1, . . . , 5, 8, . . . , 11, auffällig häufig auf. Auch bei ungeraden N sind diese Zusammenhänge zu erkennen, allerdings weit weniger deutlich. Für N = 275 sieht man z.B. einen Wert von etwa 15 für i = 229 ≈ 8 bei i = 252 ≈ j·N ,j 48 11N . 12 10N 12 k bzw. den zweithöchsten Wert von etwa Ist N = 2 · 3, mit k ≥ 6, so werden die Guthaben ∈ {1, 2, ..., 47} relativ zu den umliegenden Guthaben am häufigsten an- gespielt. Ausnahmen bilden diejenigen Guthaben, die, wie im nächsten Absatz beschrieben, überhaupt nicht angespielt werden. 35 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Es gibt ebenfalls eine Vielzahl von Guthaben, welche die Bank überhaupt nicht anspielt. Dieses Verhalten lässt darauf schließen, dass der Spieler bei solchen Guthaben einen signifikanten Vorteil gegenüber anderen (benachbarten) Guthaben hätte und die Bank versucht, ihm ebendiesen Vorteil zu verwehren. In jedem untersuchten Fall gab es fünf signifikante Bereiche ( Lücken“), in denen gehäuft nicht ” angespielte Guthaben auftraten. Die größte dieser Lücken liegt um das Guthaben N . 2 Fast symmetrisch ausgehend davon erstreckt sich der Bereich über d N6 e aller N Guthaben. Mit Verringerung von p verschiebt sich dieser Bereich, wie auch die anderen vier, nach rechts. Die anderen vier Lücken beginnen, mit kleinen positiven Abweichungen, bei N 2N 4N , 6 , 6 6 und 5N . 6 Abhängig von den Eigenschaften von N er- strecken sich diese Bereiche dann gewöhnlich über etwa 3N 200 bis 6N . 200 In Einzelfällen kann es aber auch zu wesentlich größeren oder kleineren Lücken kommen. Zum Beispiel hat bei N = 183 die größte der vier Lücken eine Länge von zehn, was etwa 11N 200 entspricht. Bei N = 108 haben alle Lücken Länge eins, während es bei N = 60 keine solchen Lücken gibt. Ist N durch 6 teilbar, so scheinen die Lücken immer gleich groß zu sein. Für allgemeines N gilt diese Eigenschaft allerdings nicht. 4.4 Die optimalen Wahrscheinlichkeiten Es stellt sich nun die Frage, inwiefern das Spiel der Bank einen Einfluss auf die Siegwahrscheinlichkeiten des Spielers besitzt. Die Abbildung 4.4.1 zeigt die Siegwahrscheinlichkeiten des Spielers im Ein-Personen-Spiel (gelbe Linie) im Vergleich zu der Siegwahrscheinlichkeit des Spielers im Zwei-Personen-Spiel, wenn die Bank am Zug ist (gestrichelte grüne Linie) für N = 250. Zum Vergleich wurde zusätzlich die Linie der Siegwahrscheinlichkeiten bei fairem Spiel (schwarz) eingezeichnet. Die sich ergebende Differenz der Ein-Personen-Siegwahrscheinlichkeiten und der Zwei-PersonenSiegwahrscheinlichkeiten für N = 250 ist in der Grafik 4.4.2 zu sehen. Der Verringerung der Siegwahrscheinlichkeit ist bei durch 4 teilbaren N für das Guthaben i = N 2 mit etwa 1,35 Prozent-Punkten am größten. Sowohl der Ort des Minimums als auch die Höhe ergaben sich experimentell unabhängig 36 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.4.1: Siegwahrscheinlichkeiten des Spielers im Ein-Personen-Spiel (gelb) bzw. im Zwei-Personen-Spiel (grün gestrichelt) für N = 250 von N (N ≥ 4). Für gerade und nicht durch 4 teilbare Guthaben N liegt das Minimum ebenfalls bei N , 2 bei ungeraden N bei d N2 e mit jeweils weniger als 1,35 Prozent-Punkten. Die Abweichungen vom maximalen Verlust bei b N2 c sind allerdings gering. Ein Beispiel für ungerades N ist in Abbildung 4.4.3 zu sehen. Beginnend bei etwa 0,5 Prozent-Punkten bei N = 5 nähert sich die maximale Abweichung mit steigendem N ebenfalls dem Wert bei geradem N an. Zum Beispiel beträgt die Abweichung für N = 101 schon ca. 1,25 Prozent-Punkte. Für gerades, nicht durch 4 teilbares N konvergiert die Abweichung wesentlich schneller gegen den für durch 4 teilbares N genannten Wert. Ebenso sind die zwei lokalen Minima bei etwa 0,66 Prozent-Punkten und bei 3N 4 N 4 mit mit etwa 0,7 Prozent-Punkten auffällig. Die Ausprägung der lokalen Minima (falls vorhanden) nimmt dann jeweils weiter ab für ≈ (2j+1)N ,j 8 = 0, 1, 2, 3, ≈ (2j+1)N ,j 16 = 0, 1, ..., 6, 7, usw. Solange N durch 2, 4, 8, 16, . . . teilbar ist, liegen die lokalen Minima exakt an diesen Stellen. Für größere N bilden sich immer mehr lokale Extrema. Im Fall von N = 250 sind für (2j+1)N ,j 32 = 0, 1, 2, 5, 6, 7, 8, 9, 10, 13, 14, 15, noch lokale Minima zu erkennen. 37 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.4.2: Abweichungen der Siegwahrscheinlichkeit des Spielers im ZweiPersonen-Spiel für N = 250 wenn der Spieler (rot) bzw. die Bank (grün gestrichelt) am Zug ist Auf den ersten Blick scheint die Bank keinen großen Einfluss auf das Spiel zu besitzen. Dies ändert sich allerdings, wenn man die Abweichung im Verhältnis zu dem gewöhnlichen (im Roulette herrschenden) Hausvorteil der Bank betrachtet. Der Hausvorteil der Bank im Roulette ist der erwartete prozentuale Verlust des Einsatzes des Spielers bei einmaligem Roulette-Spiel. Er beträgt im vorliegenden Modell 1 37 ≈ 2, 7%. Bei geradem N und derzeitigem Guthaben i = 1 man den Hausvorteil etwa verdoppeln ( 37 + 2 · 1, 35% ≈ 2 ). 37 N 2 würde Die Abbildung 4.4.4 zeigt die prozentuale Erhöhung des Gesamt-Hausvorteils für jedes Guthaben für den Zielbetrag N = 250. Die rote Linie ist zu verwenden, wenn der Spieler am Zug ist, die grüne, wenn die Bank am Zug ist. Der Gesamt-Hausvorteil bezieht sich hier nicht auf ein einziges Roulette-Spiel, sondern auf das Spiel als Ganzes, bis entweder 0 oder N erreicht ist. Da die Erhöhung des Gesamt-Hausvorteils gleichbedeutend mit der Erhöhung des erwarteten Gewinns der Bank ist, stellt sich der Unterschied für die Bank damit als durchaus relevant dar. 38 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.4.3: Abweichungen der Siegwahrscheinlichkeit des Spielers im ZweiPersonen-Spiel für N = 275 wenn der Spieler (rot) bzw. die Bank (grün gestrichelt) am Zug ist 4.5 Güte der Guthaben Es ist offensichtlich, dass mit höherem Startguthaben eine höhere Siegwahrscheinlichkeit verbunden ist. Allerdings steigt die Siegwahrscheinlichkeit nicht linear mit dem Guthaben, was angesichts des Nachteils für den Spieler auch verständlich ist. Aber selbst unter Berücksichtigung dieser Zusammenhänge wären einige aufgetretene Phänomene nicht ohne Weiteres erklärbar. Daraus resultiert die Annahme, dass jedes Guthaben eine Güte besitzen muss, die sich durch das Modell implizit ergibt. Um diese Güte sichtbar zu machen, wird eine Funktion eingeführt, welche die genannten Modelleigenarten ebenfalls berücksichtigt, aber sonst möglichst glatt ist. Motiviert surch das Ein-Personen-Modell sei die Funktion gegeben durch N r(i) := plog2 ( i ) für i = 1, . . . , N −1. Bei entsprechendem N ist r(i) bei N N N , , ,... 2 4 8 identisch mit den tatsächlichen Siegwahrscheinlichkeiten an diesen Stellen. 39 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.4.4: Erhöhung des Gesamt-Hausvorteils der Bank bei optimalem Spiel beider Akteure für N = 250 (rot: Spieler, grün gestrichelt: Bank) Definition 4.1 Als Güte G(i) eines Guthabens i bezeichnen wir den Quotienten G(i) := xi . r(i) Die Güte des Guthabens 0 sei G(0) = 1. Die Güte G(i), i ∈ {0, 1, 2, . . . , N } ist damit immer größer oder gleich 0. Aus der Abbildung 4.5.1 für die Güte im Ein-Personen-Spiel lässt sich ablesen, dass die Güte immer kleiner oder gleich eins ist. Die Definition von G(0) = 1 ist der Tatsache geschuldet, dass es mit dem Guthaben 0 keine höhere Siegwahrscheinlichkeit als x0 = y0 = 0 geben kann. Die maximale Abweichung von weniger als 1,2% erscheint zwar gering, deckt sich jedoch mit den vorherigen Daten. Die Güte ist lokal maximal für die Guthaben N ,k 2k ≥ 1. Ist N durch 2j+1 teilbar, mit 2 ≤ j ∈ N, so ist der Bereich zwischen zwei dieser Maxima bei Werten für gerade Guthaben zwischen N 2j−1 und N 2j N . 2j und identisch mit den Dies liegt zum einen an der Eigenschaft der Bold-Strategie, dass xi = p · x2i für i ≤ 40 N 2j+1 N 2 und zum anderen an 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell N der verwendeten Funktion r(i) = plog2 i . Für r(i) gilt: r(i) = plog2 N i N = plog2 2i +1 N = p · plog2 2i = p · r(2i). Damit gilt xi r(i) = x2i r(2i) für die genannten Guthaben N . Abbildung 4.5.1: Güte der Guthaben im Ein-Personen-Modell für N = 250 Die Güte im Zwei-Personen-Spiel unterscheidet sich stark von derjenigen im EinPersonen-Spiel. Die Abbildung 4.5.2 zeigt den Verlauf der Güte-Kurven sowohl für den Spieler-Zug (rot) als auch für den Bank-Zug (grün gestrichelt) für N = 250. Diejenigen Guthaben, welche die Bank mit ihrer Strategie nie anspielt, sind hier hellblau hinterlegt. Auffällig ist zunächst, dass sich die Güte nicht im gesamten Spektrum i ∈ {0, . . . , N } in einem ebenso engen Bereich bewegt wie es im EinPersonen-Spiel zu beobachten war. Statt dessen fällt die Güte bei niedrigeren Guthaben relativ stark ab und erreicht Werte unter 0,94. Besonders bei hohen Zielbeträgen N , verglichen mit dem Startkapital i, ist der Einfluss der Bank bemerkbar. 41 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Auffällig ist ebenfalls, dass die Güte im Bereich um N 2 während des Spieler-Zuges zwar sehr hoch ist, der Spieler, außer in seinem ersten Zug, aber niemals ein entsprechendes Guthaben erreichen wird, da die Bank solche Guthaben nie anspielt. Man erkennt hier eindeutig einen Zusammenhang zwischen der Gütekurve des Spielers (welche für diese Betrachtung als einzige relevant ist) und den nicht angespielten Bereichen. Allerdings sind auch in Bereichen, die von der Bank angespielt werden, zum Teil Maxima oder kleinere Sprünge in der Gütekurve zu finden. Es lässt sich damit nicht einfach von der Güte auf die angespielten Bereiche schließen, geschweige denn von den angespielten Bereichen auf die Güte. Es bleibt zu bedenken, dass für die Bank häufig nicht die Möglichkeit besteht, alle für den Spieler günstigen Guthaben zu vermeiden. Abbildung 4.5.2: Güte der Guthaben im Zwei-Personen-Modell während des Spieler-Zuges (rot) bzw. während des Bank-Zuges (grün gestrichelt) für N = 250 4.6 Modellerweiterungen mit Zufallseinflüssen Das Modell soll nun durch zusätzliche Zufallskomponenten modifiziert werden. Dabei gibt es verschiedene Möglichkeiten, die zu unterschiedlichen Ergebnissen 42 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell führen. 4.6.1 Zufällige Zugreihenfolge In diesem Abschnitt sollen die Akteure nicht strikt abwechselnd agieren, sondern es wird in jedem Zug zufällig gemäß der Verteilung (w, 1 − w) (w: Spieler; 1 − w: Bank) derjenige Akteur ermittelt, der den Einsatz bestimmen darf. Dadurch ändert sich das Gleichungssystem aus Abschnitt 3.2. Es werden zusätzlich die Variablen zi , i ∈ {0, 1, 2, . . . , N } benötigt. Die zi geben die erwarteten Siegwahrscheinlichkeiten des nächsten Zuges mit derzeitigem Guthaben i an, bevor der Akteur ausgewürfelt wird. Die Variablen xi und yi , i = 1, . . . , N − 1 sind dann simultan unter Verwendung der zi zu optimieren: xi = max{p · zi+ki + (1 − p) · zi−ki } ki yi = min{p · zi+li + (1 − p) · zi−li } li zi = w · xi + (1 − w) · yi . Wie in den Grafiken 4.6.1 bis 4.6.4 zu sehen ist, spielt der Spieler auch in diesem Fall bold, während die Bank weiterhin eine kompliziertere Strategie spielen muss. Auffällig ist, dass nun die Bank-Strategie fast eindeutig ist. Ausnahmen bilden für manche N die Guthaben N 2 bzw. b N2 c und d N2 e. Im einfachsten Fall agieren die Akteure gemäß Gleichverteilung, also mit (w, 1 − w) = ( 21 , 12 ). Der maximale Einsatz der Bank beträgt in diesem Fall N . 4 Dies gilt auch dann, wenn w > 1 2 ist. Allerdings steigen die Einsätze der Bank für fast alle Guthaben i tendenziell mit steigendem w, unter Berücksichtigung des Maximaleinsatzes von N . 4 Ist w < 21 , so liegen die optimalen Einsätze im Allgemeinen unter denen bei w = 12 . Auch die maximalen optimalen Einsätze sinken mit w unter N . 4 Da die Einzelschritt- Strategie optimal für die Bank wäre, wenn der Spieler nicht mitspielen dürfte (siehe Abschnitt 2.2), sollte diese den Grenzwert der Bank-Strategie für w → 0 bilden. 43 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.6.1: Optimale Strategien des Spielers (rot) und der Bank (blau) bei zufälliger Zugreihenfolge mit w = 1 2 und N = 217 Abbildung 4.6.2: Optimale Strategien des Spielers (rot) und der Bank (blau) bei zufälliger Zugreihenfolge mit w = 44 1 2 und N = 256 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.6.3: Optimale Strategien des Spielers (rot) und der Bank (blau) bei zufälliger Zugreihenfolge mit w = 1 10 und N = 256 Abbildung 4.6.4: Optimale Strategien des Spielers (rot) und der Bank (blau) bei zufälliger Zugreihenfolge mit w = 45 9 10 und N = 256 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Von Interesse ist in diesem Szenario, inwiefern sich die Siegwahrscheinlichkeiten des Spielers von denen im ursprünglichen Zwei-Personen-Modell unterscheiden. Für w = 1 2 sollten sich intuitiv keine großen Unterschiede ergeben. Dies bestätigt sich insofern, als dass die absoluten Differenzen der Wahrscheinlichkeiten klein sind. Die höchsten Abweichungen finden sich bei den Guthaben N 4 und 3N 4 und liegen bei N = 256 unter 0,4 Prozent-Punkten während des Spieler-Zuges. Die Anordnung der Abweichungen hat ist jedoch auffällig. In Grafik 4.6.5 ist ein Ausschnitt der Kurven für N = 256 zu sehen. Die dunkelblaue Linie gibt die Siegwahrscheinlichkeiten des Spielers an, wenn er selbst am Zug ist, während die die dunkelgrüne gestrichelte Linie seine Siegwahrscheinlichkeiten, wenn die Bank am Zug ist, zeigt. Die jeweiligen helleren Linien (blau bzw. grün gestrichelt ) entspringen dem ursprünglichen Modell. Der Unterschied von Spieler-ZugWahrscheinlichkeiten und Bank-Zug-Wahrscheinlichkeiten ist in diesem Modell meist wesentlich ausgeprägter als im Modell mit deterministischer Zugreihenfolge. Allerdings gibt es auch Guthaben, für welche die Differenz der Wahrscheinlichkeiten etwas geringer ist, als im urpsrünglichen Modell. Dies ist zum Beispiel bei N = 256, w = 1 2 und Guthaben i = Der Spieler hat bei w = 1 2 N 2 der Fall. für die meisten Guthaben i eine erhöhte Siegwahrschein- lichkeit gegenüber dem ursprünglichen Modell, wenn er am Zug ist, während seine Siegahrscheinlichkeit für fast jedes Guthaben i unter die des ursprünglichen Modells fällt, wenn die Bank am Zug ist. Dies liegt vermutlich daran, dass Spieler und Bank nach ihrem Zug mit Wahrscheinlichkeit w (Spieler) bzw. 1 − w (Bank) die Möglichkeit haben, ihre Ziele direkt weiter zu verfolgen, um die Wahrscheinlichkeiten in ihrem Sinne zu verbessern. Im Ursprungsmodell war das nicht möglich. Ist w > 1 , 2 so steigen auch die Siegwahrscheinlichkeiten, wobei die Kurven für Spieler-Züge und Bank-Züge näher zusammenrücken. Maximal können die Wahrscheinlichkeiten des Ein-Personen-Spiels erreicht werden. Für w < 1 2 sinken die Siegwahrscheinlichkeiten des Spielers. Dies geschieht allerdings recht langsam in w, wie in der Abbildung 4.6.6 für w = 1 10 zu erkennen ist. Hierbei wird die Differenz zwischen Spieler-Zug-Wahrscheinlichkeiten und Bank-Zug-Wahrscheinlichkeiten tendenziell größer. 46 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.6.5: Ausschnitt: Unterschiede der optimale Siegwahrscheinlichkeiten für w = 1 2 und N = 256, wenn der Spieler (durchgezogene Lini- en) bzw. die Bank (gestrichelte Linien) am Zug ist (ursprüngl. Modell: helle Linien) 4.6.2 Zufällige Bank-Strategie Ein zweite Möglichkeit, den Zufallseinfluss zu erhöhen und gleichzeitig die Aufgabe der Bank stark zu vereinfachen, wäre, sie statt einer optimalen Strategie eine zufällige Strategie spielen zu lassen. Der Spieler soll darauf weiterhin optimal reagieren. Es gibt dazu zwei Möglichkeiten: 1. Man ermittelt zu Beginn des Spiels eine zufällige Strategie, die dann im gesamten weiteren Verlauf als stationäre Strategie gespielt wird. 2. Man ermittelt in jedem Zug der Bank eine zufällige Strategie und spielt dementsprechend. Die zweite Möglichkeit wird hier nicht weiter betrachtet, da diese Spielweise nicht einer stationäre Strategie für die Bank entspricht. Die Fragen nach dem Erfolg 47 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.6.6: Ausschnitt: Unterschiede der optimale Siegwahrscheinlichkeiten für w = 1 10 und N = 256, wenn der Spieler (durchgezogene Lini- en) bzw. die Bank (gestrichelte Linien) am Zug ist (ursprüngl. Modell: helle Linien) der zufälligen stationären Strategie und nach der optimalen Spieler-Strategie sollen nun im Vordergrund stehen. Der Einsatz der Bank bei Guthaben i wird vor Spielbeginn gemäß Gleichverteilung in {1, 2, . . . , min{i, N − i}}. Die Abbildungen 4.6.7 bis 4.6.8 zeigen mögliche optimale Spieler-Strategien für N = 250. Auf die Darstellung der zugehörigen Bank-Strategie wurde aus Gründen der Übersichtlichkeit verzichtet (Es handelt sich um völlig zufällige Strategien). Man sieht, dass die Spieler-Strategie für einige Guthaben von der Bold-Strategie abweicht. Sie bleibt dennoch im Allgemeinen eindeutig. Auffällig ist, dass die optimalen Einsätze entweder nahe bei min{i, N − i} liegen (also nahe am BoldEinsatz) oder recht niedrig ausfallen. Dazwischen gibt es oft keine oder nur wenige optimale Einsätze. Außerdem sind in manchen Fällen ähnliche Linien wie im EinPersonen-Modell zu erkennen. Hier führen sie meist auf die Guthaben N 4 und 3N 4 (bzw. den nächsten gerundeten Wert). Andere Werte, zu denen sich solche Linien bilden sind j·N ,k 2k ∈ {1, 3, 4, . . . , log2 N } und j ∈ {1, 2k−1 }. Interessanterweise ist 48 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell Abbildung 4.6.7: Optimale Strategien des Spielers bei zufälligem stationären Spiel der Bank für N = 250 Abbildung 4.6.8: Optimale Strategien des Spielers bei zufälligem stationären Spiel der Bank für N = 250 49 4 Experimentelle Ergebnisse zum Zwei-Personen-Modell dieses Phänomen nicht den gleichen Beschränkungen unterworfen wie im EinPersonen-Modell (siehe Seite 8). Auch bei ungeraden N können solche Linien vorkommen. Die Häufigkeit und Ausprägung der Linien scheint allerdings von N abzuhängen (z.B. besonders häufig bei N = 2k , k ∈ N). Abbildung 4.6.9: Abweichungen der Siegwahrscheinlichkeit des Spielers für N = 250 bei zufälligem stationären Spiel der Bank, wenn diese am Zug ist Es bleibt die Frage, welchen Einfluss die Bank mit einer zufälligen Spielweise auf die Siegwahrscheinlichkeiten des Spielers hat. Dies ist exemplarisch in Abbildung 4.6.9 zu sehen. Ein Vergleich mit Abbildung 4.4.2 (Seite 38) ergibt, dass die Auswirkungen hier wesentlich geringer sind als mit der optimalen Strategie. Trotzdem kann die Bank für einen großen Anteil der Guthaben die Siegwahrscheinlichkeiten des Spielers erheblich mindern. In günstigen Fällen erreicht die zufällige BankStrategie etwa 60 bis 70% des Effektes der optimalen Bank-Strategie. Für manche Guthaben hat die Strategie der Bank allerdings kaum Auswirkungen auf die Siegwahrscheinlichkeiten des Spielers 50 5 Diskussion und Ausblick In der vorliegenden Arbeit wurden zwei Arten von Roulette-Modellen betrachtet. Der erste Teil in Kapitel 2 befasste sich mit der klassischen Roulette-Variante “Rot und Schwarz“. Die Zielstellung des Spielers ist die Optimierung der Wahrscheinlichkeit, den vorgegebenen Zielbetrag N zu erreichen. Dazu muss eine optimale Strategie für jede mögliche Wahrscheinlichkeit p, ein einzelnes Roulette-Spiel zu gewinnen, ermittelt werden. Es ergab sich für p < 1 , 2 dass der Spieler optimal spielt, wenn er das Minimum aus seinem derzeitigen Guthaben i und dem noch zum Sieg fehlenden Betrag N −i setzt. Diese Strategie ist als Bold-Strategie ( bold ” strategy“ in Dubins, Savage (1965), S.84) bekannt. Je nach Zielbetrag N ergeben sich zum Teil weitere optimale Strategien, die als Bold-Strategien bezüglich anderer Guthabensgrenzen angesehen werden können. Siegrist (2008, S.22 ff.) spricht von Bold-Strategien höherer Ordnung ( second order bold strategy“, third order ” ” bold strategy“, . . . , nth order bold strategy“). ” Für p > 1 2 stellte sich heraus, dass die Strategie mit dem minimal möglichen Einsatz von einer Geldeinheit in jedem Guthaben optimal ist. Sie wurde als Einzelschritt-Strategie bezeichnet und ist in der Literatur als timid play“ bekannt ” (Freedman (1967), S.1281). Aus Symmetriegründen minimiert die EinzelschrittStrategie die Siegwahrscheinlichkeiten des Spielers für p < 12 . Für p = 1 2 ist jede beliebige Strategie optimal. Grundsätzlich ließ sich aus diesen Ergebnissen nicht ableiten, dass für p < 1 2 hohe Einsätze gut und niedrige Einsätze schlecht sind. Die genauen Verhältnisse hängen stark von den Entscheidungen bei allen anderen Guthaben ab. Alle in Kapitel 2 vorgestellten Ergebnisse waren bereits bekannt (siehe zum Beispiel Dubins, Savage (1965); Freedman (1967); Gilat, Sudderth (1977); Ross (1983); Siegrist (2008)). Die optimalen Siegwahrscheinlichkeiten lie- 51 5 Diskussion und Ausblick ßen sich durch ein nichtlineares Gleichungssystem berechnen. Die Siegwahrscheinlichkeiten, als Lösung dieses Gleichungssystems, ließen sich mit dem Verfahren der monotonen Iterationen berechnen. Dieses Verfahren bildete die Grundlage der experimentellen Betrachtungen in den weiteren Kapiteln. In Kapitel 3 wurde das Modell Rot und Schwarz“ für zwei Akteure theoretisch ” betrachtet. Die optimalen Siegwahrscheinlichkeiten ließen sich auch hier mithilfe eines nichtlinearen Gleichungssystems berechnen. Für das Zwei-Personen-Modell wurde ebenfalls das Verfahren der monotonen Iterationen eingesetzt. Es ergab sich die Existenz und Eindeutigkeit einer Lösung für das nichtlineare Gleichungssystem. Dieses Richtigkeit der numerischen Lösung wurde für den Fall N = 7 bewiesen. Aus den optimalen Siegwahrscheinlichkeiten konnten die optimalen Strategien berechnet werden. Sie mussten im Allgemeinen nicht eindeutig bestimmt sein. Kapitel 4 beschäftigte sich experimentell mit dem Zwei-Personen-Modell. Zunächst wurden die optimalen Strategien beider Akteure ermittelt. Es stellte sich heraus, dass der Spieler die Bold-Strategie verwendet, um seine Siegwahrscheinlichkeiten zu maximieren. Dies wurde für alle Werte von N zwischen 4 und 500 getestet. Vermutlich ist die Bold-Strategie so gut, weil sie das Spiel in sehr kurzer Zeit beendet (siehe Abschnitt 4.1). Sie ist damit schwierig durch eine andere Strategie seitens der Bank zu stören, so dass sich weiterhin gute Siegwahrscheinlichkeiten für den Spieler ergeben. Die Einzelschritt-Strategie hingegen kann für die Bank nicht optimal sein, da sie das Spiel in den wenigen der Bank zur Verfügung stehenden Zügen kaum beeinflusst. Stattdessen spielt die Bank eine von vielen für sie optimalen Strategien, von denen jede einzelne recht kompliziert erscheint. Die Höhe der optimalen Einsätze liegt dabei deutlich von den extremalen Einsätzen Eins bzw. min{i, N − i} entfernt. Allerdings zeigt die Menge aller optimalen Strategien für jeden untersuchten Zielbetrag N deutliche Strukturen. Anhand dieser Strukturen könnte eine approximative Bestimmung guter Strategien möglich sein. Aus diesem Grund wurden für Werte von p nahe bei 1 2 die optimalen Strategien mit reduzierter Rechengenau- igkeit bestimmt (siehe Abschnitt 4.2). Es kristallisierte sich eine Rautenstruktur 52 5 Diskussion und Ausblick heraus, die, solange Einsätze innerhalb der Rauten gewählt werden, eine sehr gute Approximation für optimale Strategien ermöglichen könnte. Sollten die experimentellen Beobachtungen allgemein zutreffen, könnte die Kenntnis der exakten Positionen der Rauten im verwendeten Modell mit p = Bank-Strategien führen, die um weniger als 1 5000 18 37 zur Konstruktion von von den optimalen Siegwahr- scheinlichkeiten während des Bank-Zuges abweichen. Das Spielen von Einsätzen innerhalb der Rauten könnte so als Heuristik für die Bank dienen. Weiterhin wurde untersucht, welche Guthaben die Bank anspielt, das heißt, welche Guthaben der Spieler in seiner Runde potentiell zur Verfügung haben kann (abgesehen von der ersten Runde, in der jedes Guthaben möglich ist). Vor allem solche Guthaben, mit denen der Spieler häufig oder nie seinen Zug beginnen kann, waren von Interesse. Für allgemeines N ergeben sich maßgeblich fünf Bereiche, welche die Bank nie anspielt. Andererseits stellte sich heraus, dass bestimmte Guthaben von der Bank verhältnismäßig häufig angespielt werden. Es folgte die Betrachtung der Güte der Guthaben. Zu diesem Zweck wurde die relative Höhe der Siegwahrscheinlichkeit mit der Höhe des derzeitigen Guthabens i verglichen und grafisch veranschaulicht (Abbildungen 4.5.1 und 4.5.2). Es ergab sich ein Zusammenhang zwischen der Güte der Guthaben im Spieler-Zug und den häufig bzw. gar nicht angespielten Guthaben der Bank. Guthaben, deren Güte im Spieler-Zug, relativ zu benachbarten Guthaben, besonders hoch war, wurden kaum oder gar nicht angespielt. Guthaben mit relativ geringer Güte, gemessen an umliegenden Guthaben, wurden häufiger von der Bank angespielt. Die Vermutung, auch aus diesem Zusammenhang Strategie-Richtlinien für die Bank ableiten zu können, erwies sich nur als bedingt richtig. Es ergab sich zwar ein Zusammenhang zwischen der Güte und den Anspielhäufigkeiten. Dieser gilt jedoch nicht für alle Guthaben oder ist nicht deutlich genug ausgeprägt. Das liegt vermutlich daran, dass die Bank eingeschränkte Handlungsmöglichkeiten besitzt und gezwungen ist, Guthaben anzuspielen, die sie gern vermeiden würde. Die Betrachtung der optimalen Siegwahrscheinlichkeiten im Zwei-Personen-Modell ergab, dass die Bank ihren erwarteten Gewinn während ihrer Züge bei optimalem Spiel um etwa 20 bis 100 Prozent gegenüber dem Ein-Personen-Modell stei- 53 5 Diskussion und Ausblick gern kann. Dies verdeutlicht, dass die Bank-Strategie einen beachtlichen Einfluss auf das Spielgeschehen haben kann. Allerdings zeigte die maximale Abweichung der Siegwahrscheinlichkeiten von denen im Ein-Personen-Modell in Höhe von etwa 1,35 Prozent-Punkten, dass der Effekt der Bank-Strategie erst dann deutlich zutage tritt, wenn das Spiel häufig gespielt werden würde. Für einen einzelnen Spieler in einem einzigen Spiel ist der Unterschied von eher geringer Bedeutung. Der folgende Abschnitt beschäftigte sich mit einem Modell, in dem die Zugreihenfolge zufällig ermittelt wird. Der Spieler darf hier in jedem Zug mit Wahrscheinlichkeit w, die Bank mit 1 − w setzen. Wieder erwies sich die Bold-Strategie unabhängig von w als optimale Strategie für den Spieler. Die Bank muss auch in diesem Modell eine komplizierte Strategie spielen. Diese ist eindeutig bis auf eine Entscheidungsmöglichkeit zwischen zwei möglichen Einsätzen für d N2 e und b N2 c für manche Zielguthaben N . Für w ≥ satz der Bank für kein Guthaben i über w = 1 2 unter N 4 N . 4 1 2 N 2 bzw. liegt der optimale Ein- Viele derjenigen Einsätze, die bei liegen, steigen tendenziell mit w. Für 1 2 − w > ε > 0, für geeignetes ε, liegen die Einsätze der Bank für jedes Guthaben i unter N . 4 Die optimalen Einsätze für alle Guthaben sinken tendenziell mit w. Die Siegwahrscheinlichkeiten unterschieden sich insofern von denen des ursprünglichen ZweiPersonen-Modells, als dass die Differenz von Spieler-Zug-Wahrscheinlichkeiten und Bank-Zug-Wahrscheinlichkeiten in diesem Modell zumeist größer war. Die Siegwahrscheinlichkeiten liegen tendenziell höher bei w > w< 1 2 und niedriger bei 1 . 2 In der letzten Modell-Variante spielt die Bank eine zufällige, aber stationäre Strategie auf allen zulässigen Einsätzen. Der Spieler reagiert mit einer optimalen Strategie darauf, die im Allgemeinen nicht durch die Bold-Strategie gegeben ist. Die optimale Spieler-Strategie war jedoch weiterhin eindeutig und der Bold-Strategie ähnlich. Es tauchen hierbei ähnliche Linien wie bei den optimalen Strategien im Ein-Spieler-Modell auf (siehe Abbildung 2.2.1), jedoch ohne Beschränkungen bezüglich der Teilbarkeit von N . Die Bank kann mit zufälligen Strategien für einzelne Guthaben bis über 70 Prozent des optimalen Effektes auf die Siegwahrscheinlichkeiten des Spielers erzielen. Die tatsächlichen Auswirkungen für einzelne Guthaben sind jedoch unvorhersehbar und wenig verlässlich. 54 5 Diskussion und Ausblick Die experimentelle Analyse des Zwei-Personen-Modelles kommt damit zu folgenden Ergebnissen bezüglich der optimalen Strategien und Siegwahrscheinlichkeiten: Der Spieler sollte, wenn möglich, die Bold-Strategie verwenden. Selbst bei zufälligem Spiel der Bank wird er dabei eine der bestmöglichen Strategien spielen. Die Bank wird, außer durch numerische Verfahren, keine Möglichkeit haben, tatsächlich optimal zu spielen. Sie kann aber eine sehr gute Strategie erzeugen, indem sie innerhalb des in der Arbeit beschriebenen Rautenmusters spielt. Damit kann sie ihren erwarteten Gewinn deutlich erhöhen. Für zukünftige Arbeiten zu diesem Thema bleibt eine Reihe von Ansatzpunkten, die weitere Analysen zulassen. Es könnte zum einen der Versuch unternommen werden, die Optimalität der Bold-Strategie für den Spieler unter gewissen Voraussetzungen an die Bank-Strategie theoretissch herzuleiten, insbesondere auch für das Modell mit zufälliger Zugreihenfolge. Auf der anderen Seite wäre die exakte Lokalisation der Rautenmuster in den Bank-Strategien für beliebige Zielguthaben N und beliebige Werte für p von Interesse. Zusätzlich wäre eine analytische Abschätzung der Güte solcher Rauten-Strategien“ sinnvoll. Da in dieser Arbeit ” 18 meist der Wert 37 für p verwendet wurde, könnte auch eine umfassende Analyse des Einflusses der Größe p auf die optimalen Bank-Strategien und Siegwahrscheinlichkeiten des Spielers interessant sein, Letzteres vor allem in Hinblick auf die Grenzwerte p → 1 2 bzw. p → 0. 55 Referenzen 1. Althöfer, Ingo (2007): Vorlesung Lineare Optimierung“, Friedrich-Schil” ler-Universität Jena. 2. Cull, Paul/ Flahive, Mary/ Robson, Robby (2005): Difference Equa” tions: From Rabbits To Chaos“, Springer-Verlag. 3. Dubins, Lester E./ Savage, Leonard J. (1965): How To Gamble If ” You Must: Inequalities for Stochastic Processes“, McGraw-Hill, S.83ff. 4. Freedman, David A. (1967): Timid Play is Optimal“ in The Annals of ” Mathematical Statistics, Vol.38, No.4, S.1281-1283. 5. Gilat, David/ Sudderth, William (1977): Timid Play when Large Bets ” are Profitable“, The Annals of Probability“, Vol.5, No.4, S.573-576. ” 6. Kemeny, John G./ Snell, J. Laurie (1963):“Finite Markov Chains“, D. Van Nostrand Company, Inc., S.149ff. 7. Ross, M. Sheldon (1983):“Introduction to Stochastic Dynamic Programming“, Academic Press, S.77-78. 8. Siegrist, Kyle (2008): How to Gamble if You Must“, ” http://www.maa.org/joma/Volume8/Siegrist/RedBlack.pdf, abgerufen am 10.05.2010. 56 Eigenständigkeitserklärung Ich versichere hiermit, dass ich die vorstehende Arbeit mit dem Titel Analyse von ” verallgemeinerten Roulette-Modellen mit zwei Akteuren“ selbstständig verfasst und keine anderen als die angegebenen Hilfsmittel verwendet habe. Die Stellen, die ich anderen Werken dem Wort oder Sinn nach entnommen habe, wurden in jedem einzelnen Fall durch Angabe der Quelle, einschließlich elektronischer Medien, kenntlich gemacht. 57