Denise Pachernegg Optimales Stoppen von stochastischen Prozessen Diplomarbeit Technische Mathematik Studienzweig Operations Research, Statistik und Finanzmathematik Verfasst am Institut für Statistik der Technischen Universität Graz bei o. Univ.-Prof. Dr. István Berkes Graz, Dezember 2003 Ich versichere, diese Arbeit selbständig verfasst, andere als angegebene Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu haben. Denise Pachernegg Inhaltsverzeichnis 1 Das Secretary Problem 3 1.1 Wahl des besten Objekts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Eine alternative Methode ohne Rückwärtsinduktion . . . . . . . . . . . . . 7 1.3 Eine bessere Aproximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Wahl des zweitbesten Objekts . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Wahl des drittbesten Objekts . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6 Minimierung des erwarteten Ranges . . . . . . . . . . . . . . . . . . . . . . 14 1.7 Wahl des Objekts mit absolutem Rang k . . . . . . . . . . . . . . . . . . . 29 1.8 Modifizierte Anordnungen der Objekte . . . . . . . . . . . . . . . . . . . . 29 1.9 Nicht kooperative Spiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.10 Lösung mit Hilfe von minimax-Strategien . . . . . . . . . . . . . . . . . . . 33 2 Modifikation durch Kenntnis der Verteilung 38 2.1 Das Problem von Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2 Eine Modifikation des Problems von Cayley . . . . . . . . . . . . . . . . . 44 2.2.1 45 Eine alternative Methode . . . . . . . . . . . . . . . . . . . . . . . . 3 Unendliche Stoppprobleme 49 3.1 Allgemeine Formulierung des Problems . . . . . . . . . . . . . . . . . . . . 49 3.2 Existenz einer optimalen Stoppregel . . . . . . . . . . . . . . . . . . . . . . 51 3.3 Sampling without recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4 Sampling with recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.5 Das Durchschnittproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 i INHALTSVERZEICHNIS ii 4 Lösung mit Hilfe von Markov-Ketten 73 5 Optimales Stoppen von Markov-Ketten 81 5.1 Exzessive Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.2 Der Wert des Spiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.3 Die optimale Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.4 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 6 Optimales Stoppen durch Martingal-Methoden 93 6.1 Stoppzeiten für Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.2 Gleichmäßig integrierbare Folgen von Zufallsvariablen . . . . . . . . . . . . 97 6.3 Reguläre Supermartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.4 6.3.1 Das Quizproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.3.2 Das Parkproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.3.3 Das Parkproblem mit Umkehrmöglichkeit . . . . . . . . . . . . . . . 104 Supermartingale und allgemeine Stoppprobleme . . . . . . . . . . . . . . . 106 6.4.1 Das Münzproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.4.2 Ein modifiziertes Parkproblem . . . . . . . . . . . . . . . . . . . . . 110 Vorwort Oft steht man vor der Situation, einen zufälligen Prozess zu beobachten, ohne ihn selbst beeinflussen zu können, um dann zu einem selbstgewählten Zeitpunkt eine einmalige und unumkehrbare Entscheidung zu treffen, die dann mit bestimmten Kosten oder Gewinnen verbunden ist. Das Problem besteht nun darin, diese Entscheidung so zu treffen, dass der Gewinn für den Entscheidungsträger maximiert beziehungsweise sein Verlust minimiert wird. Das erste solche Problem wurde 1874 von Arthur Cayley formuliert und gelöst. Die intensive Forschung auf diesem Gebiet startete jedoch erst 1955 nach der Formulierung des sogenannten Secretary Problems“ durch Gleason. Gleason selbst hatte das Problem jedoch ” von jemand anderem gehört. 1960 erschien in der Februarausgabe des Scientific American in der Kolumne von Martin Gardner’s Mathematical Games ein einfaches Problem, das als Secretary Problem einen großen Bekanntheitsgrad erlangte. Ab diesem Zeitpunkt wurde es auf unterschiedliche Art und Weise in verschiedene Richtungen weiterentwickelt und modifiziert. Kapitel 1 befasst sich sowohl mit diesem Problem in seiner ursprünglichsten Form als auch mit einigen modifizierten Fragestellungen, die teilweise einem spieltheoretischen Ansatz folgen. Die fundamentale dabei in Verwendung tretende Methode stellt die Theorie der Backward Induction“ bzw. der dynamischen Programmierung dar, die in den meisten ” Fällen zu einer nichtlinearen Differenzen- bzw. Differentialgleichung führt. Dennis V. Lindley war der erste, der das anfangs erwähnte Problem in [Lin61] in einem wissenschaftlichen Journal veröffentlichte. In weiterer Folge waren es vor allem Chow, Dynkin, Gilbert, Moriguti, Mosteller, Robbins und Samuels, die sich mit den modifizierten Weiterentwicklungen dieses Problems befassten. Dem damit in Verbindung stehenden Problem der asymptotisch optimalen Strategien und der Minimierung des erwarteten Ranges widmeten sich Chow, Moriguti, Robbins und Samuels in [CMRS64]. Die Lösung des ursprünglichen Problems von Cayley, die durch Kenntnis der zugrunde liegenden Verteilung erreicht wird, wird in Kapitel 2 studiert. In obig aufgezählten Fällen ist die Existenz einer optimalen Stoppregel jedenfalls gesichert. Für den unendlichen Fall wird dies in Kapitel 3 für einige spezielle Probleme sowie für allgemeine Aufgabenstellungen nachgewiesen. In Kapitel 4 wird nochmals das ursprünglich gestellte Secretary Problem“ aufgegriffen ” und auf alternative Art mit Hilfe von Markov-Ketten gelöst. Exzessive Funktionen im Falle eines zugrundeliegenden Markovprozesses in Kapitel 5, Martingale und das damit in 1 INHALTSVERZEICHNIS 2 Verbindung stehende Konzept der dominierenden Supermartingale in Kapitel 6 stellen ein wichtiges Hilfsmittel dar, um die rund um die Thematik des optimalen Stoppens auftretenden Aufgabenstellungen auf eine effizientere Art und Weise zu lösen. Sehr herzlich bedanken möchte ich mich bei Herrn Prof. Dr. István Berkes, dessen intensive und gewissenhafte Betreuung mir zuteil wurde. Ganz besonders möchte ich mich bei Elmar Teufl für seine große Hilfe und Unterstützung bedanken. Ebenso gilt mein Dank all jenen, die auf verschiedene Weise zum Entstehen dieser Arbeit beigetragen haben. Letztendlich möchte ich meiner Mutter danken, deren Unterstützung immer meine treibende Kraft war. Graz, 12. Dezember 2003 Denise Pachernegg Kapitel 1 Das Secretary Problem 1.1 Wahl des besten Objekts Das erste Mal erschien in den späten 50er Jahren ein einfaches Problem unter dem Namen secretary problem“, marriage problem“ oder dowry problem“ in der Literatur, das ” ” ” sich mittlerweile zu einem klassischen Problem des optimalen Stoppens konstituiert hat. In relativ kurzen Zeitabständen wurden zahlreiche Variationen des ursprünglichen Problems behandelt. Zu Beginn soll dieses Problem in seiner allgemeinen und ursprünglichen Form formuliert werden: Es ist ein Sekretärinnenposten zu besetzen. Es existieren n Bewerberinnen. Die Bewerberinnen werden nacheinander in zufälliger Reihenfolge interviewt, wobei nichts über die Verteilung der Bewerberinnen bekannt ist. Bei jeder der Bewerberinnen steht man vor der Wahl, ob sie den Posten erhält oder ob sie abgelehnt wird. Diese Entscheidung muss jedoch sofort gefällt werden, bevor die nächste in der Reihe betrachtet wird. Es wird vorausgesetzt, dass die Bewerberinnen gemäß steigender Präferenz (von am besten geeigneten bis zur am schlechtesten geeigneten) geordnet werden können. Die jeweilige Entscheidung, ob eine Bewerberin den Posten erhält oder abgelehnt wird, darf nur auf den relativen Rängen der bisher befragten Bewerberinnen basieren. Falls man sich vor der Präsentation der letzten Bewerberin nicht für eine vorhergehende entschieden hat, so muss man die letzte wählen. Es ist weiters nicht zulässig, sich für eine bereits schon im Vorfeld abgelehnte Bewerberin nachträglich zu entscheiden. 3 KAPITEL 1. DAS SECRETARY PROBLEM 4 Man ist nur dann zufrieden, wenn man sich wirklich für die beste entscheiden hat. In weiterer Folge soll nun die Verallgemeinerung des obig formulierten Problems auf Objekte betrachtet werden. Falls man obige Voraussetzungen als Spiel formuliert, so besteht ein Gewinn genau in der Wahl des absolut besten Objekts. Sei X1 , . . . Xn eine zufällige Permutation von 1, . . . , n, so gilt P (X1 = i1 , . . . , Xn = in ) = 1 n! für alle Permutationen (i1 , . . . , in ). In diesem Modell wird nun der absolute Rang des r-ten Objekts unter allen Objekten mit Xr bezeichnet. Im r-ten Schritt kann man jedoch den relativen Rang Yr := 1 + |{i | i < r, Xi < Xr }| für r = 1, . . . , n beobachten. Hierbei hängt es nicht davon ab, welche Objekte in den ersten r Schritten betrachtet werden, sondern jedes r-Tupel von relativen Rängen ist gleich wahrscheinlich. Infolgedessen ist Yr auf {1, . . . , r} gleichverteilt. Da die relativen Ränge der ersten r Objekte keine Information über die Ränge der noch verbleibenden Objekte zur Verfügung stellen, gilt demnach: Y1 , . . . , Y r und Xr+1 , . . . , Xn sind unabhängig. Diese Eigenschaft kann man unter dem Begriff der Markov-Eigenschaft zusammenfassen, das heißt die Zukunft hängt nicht von der Vergangenheit, sondern nur von der Gegenwart ab. Für diese Interpretationsweise sei auf Kapitel 6 verwiesen. Nun soll dieses Problem als Spiel veranschaulicht werden. Die Intention eines Spielers ist also, das für ihn beste Objekt unter allen n Objekten zu wählen. In jedem Schritt muss er eine Entscheidung fällen: Entscheidet er sich für das aktuelle Objekt, so beendet er das Spiel in diesem Schritt. Ein Gewinn des Spiels bedeutet, dass der Spieler auch wirklich das beste Objekt bezüglich seiner Rangordnung gewählt hat. Da man jedoch für ein fixes n nur endlich viele Möglichkeiten zur Verfügung hat, muss eine optimale Strategie existieren, die man zu finden bestrebt ist. Zu diesem Zweck wird die Idee der Rückwärtsinduktion verwendet: Sei Vk die maximale Wahrscheinlichkeit unter allen Strategien mit wenigstens k Schritten für k = 1, . . . , n. Befindet man sich nun im n-ten Schritt, so muss das n-te Objekt gewählt werden. Also gilt Vn = 1/n. Definition 1.1. Das i-te Objekt heißt Kandidat, falls Yi = 1 gilt. Die Wahrscheinlichkeit, dass das k-te Objekt ein Kandidat ist, wird mit Pk := P (Yk = 1). bezeichnet. KAPITEL 1. DAS SECRETARY PROBLEM 5 Man kann sich leicht davon überzeugen, dass Pk = k/n gilt. Dazu kann man sich die relativen Ränge auf einer Zahlengerade veranschaulichen, wobei die Ränge in absteigender Reihenfolge angeordnet sind. Wenn man sich im k-ten Schritt befindet, so sollte das (k +1)te Objekt nicht rechts von k stehen, um einen Gewinn zu ermöglichen. Definition 1.2. Ein Intervall Ik wird als gut“ bezeichnet, falls für ein Objekt Xk im k-ten ” Schritt Xk ∈ Ik gilt und dadurch noch ein Gewinn möglich ist. Es stehen also k + 1 Intervalle im k-ten Schritt zur Verfügung, von denen jedoch nur k gut“ sind. Durch Iteration ergibt sich also: ” k k+1 n−1 k Pk = · · ... · = . k+1 k+2 n n Nun kann Vk rekursiv wie folgt dargestellt werden: k−1 1 k Vk = Vk+1 + max , Vk+1 . k k n Diese Darstellung lässt sich folgendermaßen rechtfertigen: Man unterscheidet nun 2 Fälle, die im k-ten Schritt auftreten können: 1. Das k-te Objekt ist kein Kandidat (dies passiert mit Wahrscheinlichkeit (k − 1)/k), dann muss man auf jeden Fall weitergehen, um noch gewinnen zu können. 2. Das k-te Objekt ist ein Kandidat (dies tritt mit Wahrscheinlichkeit 1/k auf), dann kann sowohl weitergegangen als auch gestoppt werden. Falls man im k-ten Schritt stoppt, so gibt Pk die Wahrscheinlichkeit an, dass es sich bei dem k-ten Objekt auch wirklich um das beste handelt. Nun kann man folgende Werte rekursiv berechnen: n−2 1 1 n−1 1 · + max , Vn−1 = n−1 n n−1 n n 1 1 n−2 + = n n−1 n−2 n−3 1 n−2 n−2 1 1 · Vn−1 + max , + Vn−2 = n−2 n−2 n n n−1 n−2 =:S 1 1 1 n−3 + + = n n−1 n−2 n−3 KAPITEL 1. DAS SECRETARY PROBLEM 6 für n ≥ 2, da in diesem Fall S < 1 gilt. Für den allgemeineren Fall gilt nun l−1 1 1 + ... + . Vl = n l−1 n−1 Nun kann man schon erkennen, dass für die Berechnung von Vl das Augenmerk auf n−1 1 k=l k gelegt werden muss. Solange diese Summe einen Wert kleiner 1 annimmt, wird das Maximum vom ersten Term angenommen. Man unterscheidet hierbei also 2 Fälle: 1. Für 2. Für l n ≥ Vl+1 gilt nun l n < Vl+1 erhält man n−1 l−1 1 Vl = . n k=l−1 k Vl = Man will nun den Index l−1 1 Vl+1 + Vl+1 = Vl+1 . l l n−1 1 s∗ := max n ≥ 1 >1 k k=l für große n approximieren. Es gilt nun für beliebiges m ≥ 2 m+1 m 1 1 1 log(m + 1) − log(m) = dx < < dx = log(m) − log(m − 1). x m m m−1 x Durch Aufsummierung von m = l, . . . , n − 1 erhält man log(n) − log(l) < 1 1 + ... + < log(n − 1) − log(l − 1). l n−1 Der Parameter s∗ erfüllt deshalb 1 1 1 1 + ... + ≤1< ∗ + ... + . ∗ s n−1 s −1 n−1 (1.1) Demnach gilt log(n) − log(s∗ ) < 1 < log(n − 1) − log(s∗ − 2). Daraus leitet man nun eine untere und obere Schranke von s∗ ab. Es gilt n < s∗ log(n) − 1 < log(s∗ ) ⇒ e n 1 ∗ ∗ log(s − 2) < log(n − 1) − 1 ⇒ s < + 2 − e e (1.2) (1.3) KAPITEL 1. DAS SECRETARY PROBLEM 7 Aus (1.2) und (1.3) ergibt sich nun ∗ s ∈ I := n n 1 , +2− e e e . Das Intervall I enthält maximal zwei ganze Zahlen, da |I| = 2 − s∗ ∈ n 1 1 2− , + e e n 1 e 1 e ≈ 1.632. Weiters gilt . Folglich erhält man s∗ n 1 lim = ⇒ s∗ ≈ . n→∞ n e e Also besteht eine optimale Strategie darin, die ersten s∗ Objekte zu verwerfen und im Anschluss daran das erste Objekt, das besser als alle vorigen ist, zu wählen. Die Erfolgswahrscheinlichkeit dieser Strategie ist durch 1 s∗ 1 + ... + P (n) := n s∗ n−1 gegeben. Mit Hilfe von (1.1) folgt nun für den Grenzwert der Gewinnwahrscheinlichkeiten s∗ 1 1 1 + ... + lim P (n) = lim = ≈ 0.368. ∗ n→∞ n→∞ n s n−1 e Infolgedessen besteht eine optimale Strategie des oben angeführten Problems darin, bei den ersten ne Objekten nicht zu stoppen und in weiterer Folge den danach ersten Kandidaten zu wählen. Aus dieser Strategie resultiert daher eine asymptotische Gewinnwahrscheinlichkeit von 1e . In Tabelle 1.1 wird die Gewinnwahrscheinlichkeit P (n) für einige Werte von n dargestellt. 1.2 Eine alternative Methode ohne Rückwärtsinduktion Das Secretary Problem soll nun ohne die Verwendung der Rückwärtsinduktion gelöst werden. Das i-te Objekt wird gewählt, falls P (Gewinnen mit Wahl des i-ten Objekts) > P (Gewinnen mit Weitergehen) (1.4) für den i-ten Schritt gilt, wobei man P (Gewinnen mit Stoppen nach l Schritten) = nl erhält. Da die linke Seite von (1.4) eine streng monoton wachsende Funktion in i darstellt und die rechte Seite von (1.4) einer monoton fallenden Funktion in i entspricht, existiert jedenfalls ein Schnittpunkt bezüglich dessen die optimale Strategie gewählt werden kann. KAPITEL 1. DAS SECRETARY PROBLEM n 5 10 15 20 25 30 35 40 45 50 55 60 65 s∗ 3 4 6 8 10 12 14 16 17 19 21 23 25 P (n) 0.43333 0.39869 0.38941 0.38421 0.38092 0.37865 0.37700 0.37493 0.37493 0.37428 0.37371 0.37321 0.37278 n s∗ 70 27 75 28 80 30 85 32 90 34 95 36 100 38 200 74 300 111 400 148 500 185 1000 369 ∞ n/e 8 P (n) 0.37239 0.37210 0.37186 0.37163 0.37142 0.37122 0.37104 0.36946 0.36894 0.36867 0.36851 0.36820 0.36788 Tabelle 1.1: Die Größen s∗ und P (n) für einige Werte von n Daraus folgt, dass eine optimale Strategie nun darin besteht, nach den ersten betrachteten l Objekten den nächsten Kandidaten auszuwählen. Die Wahrscheinlichkeit, dass man mit dieser Strategie gewinnt, soll nun maximiert werden. Man betrachtet nun zwei unabhängige Ereignisse: Die Wahrscheinlichkeit, dass sich das beste Objekt der ersten k − 1 Objekte l . Diese letzte Beobachtung zusammen unter den ersten l Objekten befindet, beträgt k−1 1 mit P (Xk = 1) = n ergibt die Gewinnwahrscheinlichkeit P (k) im k-ten Schritt: P (k) = l 1 · k−1 n für k = l + 1, . . . , n. Durch Aufsummieren obigen Ausdrucks erhält man die tatsächliche Gewinnwahrscheinlichkeit P (l, n), wenn man nach den ersten l Objekten den ersten auftretenden Kandidaten auswählt: n 1 l 1 l · = P (l, n) = k−1 n n k=l k k=l+1 für l = 1, . . . , n − 1. Gilt im l-ten Schritt l l 1 > , n k=l k n n−1 so sollte man jedenfalls weitergehen. Ist l 1 l ≤ n k=l k n n−1 n−1 KAPITEL 1. DAS SECRETARY PROBLEM 9 erfüllt, so sollte man im l-ten Schritt stoppen. Offensichtlich hat diese Methode auf dasselbe Ergebnis wie in Abschnitt 1.1 geführt. 1.3 Eine bessere Aproximation Gilbert und Mosteller haben in [GM66] gezeigt, dass noch eine Verbesserung des Index s∗ = [ ne ] gefunden werden kann. Dieser Index entspricht dem kleinsten s, für das die Ungleichung n−1 s 1 s > n n k=s k erfüllt ist. Dazu benötigt man zuerst folgende schon erhaltene Ungleichung 1 1 1 1 1 1 1 + + ... + <1< + + + ... + . s s+1 n−1 s−1 s s+1 n−1 Für die Fälle n = 2, s = 1 und s = 2 ist obige Ungleichung nicht richtig, in diesen Fällen tritt Gleichheit auf. Es ist weiters bekannt, dass beliebige Teilsummen der harmonischen Reihe mit Ausnahme der ersten Partialsumme sich nicht genau zu 1 aufaddieren. Man kann nun die Voraussetzungen obiger Ungleichung verwenden, um die Schranken von s∗ aufgrund folgender Approximationen festzusetzen: n− 1 n−1 2 1 n − 12 1 1≤ < dx = log j s − 32 s− 32 x j=s−1 n n−1 1 1 1 1 1 1≥ > dx + − j 2 s n s x j=s e> n 1(1− 1 ) e2 s n s Nun ergibt sich n− 12 e n− e 1 2 + + 3 2 und aus der zweiten −1 n − 12 n 1 1 1 1 n 1 3 > − 1+ − > 1+ + . s 2 s n s 2 e 2 n Aus der ersten Ungleichung folgt s < n− 1 3e − 1 − ≤ s∗ ≤ 2 2(2n + 3e − 1) e wobei s∗ nun in ein Intervall der Länge 1+ 1.79 n + 1.79 1 2 3 + , 2 KAPITEL 1. DAS SECRETARY PROBLEM n 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 200 300 400 500 I1 (1.83940, 3.47152) (3.67880, 5.31091) (5.51820, 7.15031) (7.35759, 8.98971) (9.19699, 10.8291) (11.0364, 12.6685) (12.8758, 14.5079) (14.7152, 16.3473) (16.5546, 18.1867) (18.3940, 20.0261) (20.2334, 21.8655) (22.0728, 23.7049) (23.9122, 25.5443) (25.7516, 27.3837) (27.5910, 29.2231) (29.4304, 31.0625) (31.2698, 32.9019) (33.1092, 34.7413) (34.9486, 36.5807) (36.7880, 38.4201) (73.5759, 75.2080) (110.364, 111.996) (147.152, 148.784) (183.938, 185.572) 10 I2 [1.94692, 3.15546] [3.86311, 4.99485] [5.73797, 6.83425] [7.59778, 8.67365] [9.45045, 10.5131] [11.2992, 12.3524] [13.1455, 14.1918] [14.9902, 16.0312] [16.8338, 17.8706] [18.6767, 19.7100] [20.5189, 21.5494] [22.3607, 23.3888] [24.2021, 25.2282] [26.0433, 27.0676] [27.8843, 28.9070] [29.7250, 30.7464] [31.5656, 32.5858] [33.4061, 34.4252] [35.2465, 36.2646] [37.0867, 38.1040] [73.8832, 74.8920] [110.674, 111.680] [147.463, 148.468] [184.252, 185.256] Tabelle 1.2: Darstellung der Intervalle I1 und I2 für einige Werte von n fällt. Außerdem entspricht n − 1/2 3 + e 2 dem korrekten Wert von s∗ bis zu n = 100 mit Ausnahme von n = 97. Der auftretende 1 ≈ e nicht. Obige Fehler, wenn s∗ + 1 anstatt von s∗ betrachtet wird, übersteigt n(s−1) n nn2 1 und , + 2 − Approximation wird nun anhand der resultierenden Intervalle I 1 := e e e n− 1 2 I2 := + 12 − e dargestellt. n− 1 3e−1 , e2 2(2n+3e−1) + 3 2 für unterschiedlicher Werte von n in Tabelle 1.2 KAPITEL 1. DAS SECRETARY PROBLEM 1.4 11 Wahl des zweitbesten Objekts Dieses Problem basiert auf obig angeführter Aufgabenstellung, jedoch wurde hierbei folgende Modifikation vorgenommen: Die Wahl des zweitbesten Objekts wird in diesem Fall als Gewinn bezeichnet. Es ist einfacher, das beste Objekt auszuwählen als das zweitbeste. Satz 1.3. Die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien obigen Problems, die wenigstens l Schritte besitzen, ist durch folgende Formel gegeben Vl = l−2 1 1 Vl+1 + max{fl (1), Vl+1 } + max{fl (2), Vl+1 } l l l mit fl (1) = P (Xl = 2 | Yl = 1) = l(n − l) n(n − 1) fl (2) = P (Xl = 2 | Yl = 2) = l(l − 1) . n(n − 1) und Außerdem konvergieren die Gewinnwahrscheinlichkeiten gegen 14 . Beweis. Zuerst sollen die bedingten Wahrscheinlichkeiten fl (1) und fl (2) berechnet werden: Man befindet sich also im l-ten Schritt und es verbleiben noch n − l Schritte. Zuerst beschäftigt man sich der Berechnung von fl (1). Das momentan betrachtete Objekt im lten Schritt besitzt den relativen Rang 1. Dass dieses Objekt am Ende den gewünschten absoluten Rang 2 aufweist, muss nun in den verbleibenden n − l Schritten ein besseres Objekt auftreten. Nun gibt es n − l Möglichkeiten, wann das beste Objekt auftritt. Da diese n − l Fälle gleich wahrscheinlich sind, genügt es, den Fall zu betrachten, dass das beste Objekt im letzten Schritt auftritt. Die Wahrscheinlichkeit für diesen Fall beträgt l+1 n−2 1 l l · ... · = . l+1 l+2 n−1 n n(n − 1) Da nun alle n − l Fälle gleich wahrscheinlich sind, ergibt sich daraus fl (1) = (n − l)l . n(n − 1) Nun soll fl (2) berechnet werden. Da das im l-ten Schritt betrachtete Objekt einen relativen Rang 2 besitzt, darf nun in den verbleibenden n − l Schritten kein besseres Objekt auftreten, damit gewährleistet wird, dass dieses Objekt am Ende auch wirklich KAPITEL 1. DAS SECRETARY PROBLEM 12 einen absoluten Rang 2 aufweist. Falls man sich momentan im l-ten Schritt befindet und die relativen Ränge wiederum mittels einer Zahlengerade veranschaulicht werden, so stehen im l-ten Schritt l + 1 Intervalle zur Verfügung, von denen nur l − 1 Intervalle wirklich gut“ ” sind. Iterativ angewandt ergibt sich nun fl (2) = l−1 l n−2 (l − 1)l · · ... · = . l+1 l+2 n n(n − 1) Aufgrund von fl−1 (2) = (l − 1)(l − 2) l(l − 1) < = fl (2) n(n − 1) n(n − 1) ist fl (2) streng monoton wachsend. Da fl−1 (1) = (l − 1)(n − l + 1) n(n − 1) gilt, ist fl (1) streng monoton wachsend für l < und fl (1) = n+1 2 l(n − l) n(n − 1) und streng monoton fallend für l ≥ n+1 . 2 Man unterscheidet nun folgende Fälle: 1. fl (1) ≤ Vl+1 ≤ fl (2): Daraus folgt Vl = l−2 1 1 l−1 l−1 Vl+1 + Vl+1 + fl (2) = Vl+1 + . l l l l n(n − 1) Durch Rückwärtseinsetzen erhält man folgende Vermutung: Vl+1 = l(n − l) = fl (1) n(n − 1) Der Beweis erfolgt mit vollständiger Induktion: Für l = n − 1 gilt Vn = 1 n und der Induktionsschritt l + 1 → l folgt nun durch Einsetzen: Vl = 1 (n − l)l 1 l(l − 1) (l − 1)(n − l + 1) l − 2 (n − l)l · + + = l n(n − 1) l n(n − 1) l n(n − 1) n(n − 1) Nun soll der Index berechnet werden, ab welchem obige Ungleichung gilt. Aus Vl+1 = fl (1) ≤ fl (2) folgt l≥ n+1 . 2 KAPITEL 1. DAS SECRETARY PROBLEM 13 In der oberen Hälfte des Intervalls macht es laut obiger Rechnung keinen Unterschied, ob man weitergeht oder bei einem Objekt mit relativem Rang 1 stoppt. In einem solchen Fall einigt man sich darauf, immer weiterzugehen, das heißt, für einen Index wird nicht bei einem Objekt mit Rang 1 gestoppt. In diesem größer oder gleich n+1 2 Fall wird nur bei einem Objekt mit relativem Rang 2 gestoppt. 2. fl (2) ≤ fl (1) ≤ Vl+1 : In diesem Fall ergibt sich Vl = l−2 1 1 Vl+1 + Vl+1 + Vl+1 = Vl+1 . l l l Diese Gleichung gilt nur für einen Index l < n+1 . 2 Aus fl (1) < Vl+1 und fl (2) < Vl+1 für l < n+1 2 folgt, dass man bis zum Index s∗ = n2 überhaupt nicht stoppt und danach beim ersten Objekt mit relativem Rang 2. Es wird also im ersten Schritt gestoppt, für den fl (2) ≥ Vl+1 = fl (1) gilt. Für den Grenzwert der Gewinnwahrscheinlichkeiten P (n) ergibt sich damit: lim P (n) = lim V n→∞ n→∞ s∗ = lim f n→∞ s∗ −1 1 s∗ (n − s∗ ) (1) = lim = n→∞ n(n − 1) 4 Tabelle 1.3 stellt die Gewinnwahrscheinlichkeiten für unterschiedliche Werte von n dar. 1.5 Wahl des drittbesten Objekts Hierbei ist man nun bestrebt, das Objekt mit dem drittbesten Rang zu finden. Analog zu den Überlegungen des vorigen Abschnittes erhält man für die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien, die frühestens im l-ten Schritt stoppen Vl = wobei l−3 1 1 1 Vl+1 + max {fl (1), Vl+1 } + max {fl (2), Vl+1 } + max {fl (3), Vl+1 } , l l l l l l+1 n−3 1 2 · · ... · · · fl (1) := P (Xl = 3 | Yl = 1) = l+1 l+2 n−2 n−1 n l(n − l)(n − l − 1) = (n − 2)(n − 1)n n−l 2 = KAPITEL 1. DAS SECRETARY PROBLEM n 5 10 15 20 25 30 35 40 45 50 55 60 65 s∗ 4 6 9 11 14 16 19 21 24 26 29 31 34 Vs∗ 0.30000 0.27778 0.26667 0.26316 0.26000 0.25862 0.25714 0.25641 0.25556 0.25510 0.25455 0.25424 0.25385 n 70 75 80 85 90 95 100 200 300 400 500 1000 ∞ 14 s∗ 36 39 41 44 46 49 51 101 151 201 251 501 Vs∗ 0.25362 0.25333 0.25317 0.25294 0.25281 0.25263 0.25253 0.25126 0.25084 0.25063 0.25050 0.25025 0.25000 Tabelle 1.3: Die Größen s∗ und P (n) für einige Werte von n 2 l−1 l n−3 fl (2) := P (Xl = 3 | Yl = 2) = · · ... · l+1 l+2 l+3 n 2(l − 1)l = (n − 2)(n − 1)n l(l − 1)(l − 2) fl (3) := P (Xl = 3 | Yl = 3) = (n − 2)(n − 1)n (n − l) = sei. In Tabelle 1.4 sind numerische Werte für dieses Problem dargestellt. 1.6 Minimierung des erwarteten Ranges Man betrachtet nun folgende Variation in der Aufgabenstellung des Secretary Problems. Der Erwartungswert des Ranges des gewählten Elements soll minimiert werden. Zuallererst soll nun folgende Beobachtung festgehalten werden: Falls Yr = k für den relativen Rang Yr des r-ten Objekts gilt, so folgt unmittelbar Xr ∈ {k, . . . , n}, falls Xr wieder den absoluten Rang im r-ten Schritt bezeichnet. Der Übersichtlichkeit halber definiert man nun Definition 1.4. Vl := minτ ≥l E(Xτ ), das heißt Vl bezeichnet das Minimum des erwarteten Rangs unter allen Strategien, welche frühestens im l-ten Schritt stoppen. Für i ≤ k ≤ n soll nun die Wahrscheinlichkeit, dass der absolute Rang des l-ten Objekts gleich k ist, unter der Bedingung, dass dieses Objekt im l-ten Schritt den relativen Rang i hat, berechnet werden. KAPITEL 1. DAS SECRETARY PROBLEM n 5 10 15 20 25 30 35 40 45 50 55 s∗ 3 5 8 10 12 15 17 19 22 24 26 Vs∗ 0.33333 0.27090 0.25680 0.25025 0.24621 0.24380 0.24210 0.24074 0.23978 0.23901 0.23833 n 60 65 70 75 80 85 90 95 100 200 15 s∗ 29 31 33 36 38 40 43 45 47 94 Vs∗ 0.23782 0.23738 0.23699 0.23668 0.23640 0.23614 0.23592 0.23573 0.23554 0.23385 Tabelle 1.4: Darstellung der Gewinnwahrscheinlichkeiten Vs∗ für einige Werte von n Lemma 1.5. Es gilt k−1n−k Pl (Xl = k | Yl = i) = i−1 nl−i l für k = i, i + 1, . . . , n. Beweis. Mit Hilfe der Definition der bedingten Wahrscheinlichkeit, folgt Pl (Xl = k | Yl = i) = Pl (Xl = k, Yl = i) Z =: . Pl (Yl = i) N (1.5) Für den Nenner N von (1.5) erhält man trivialerweise 1 N= . l Nun soll der Zähler Z von (1.5) mit Hilfe einiger elementarer Überlegungen berechnet werden: Die Wahrscheinlichkeit, dass ein im l-ten Schritt gewähltes Objekt den absoluten Rang k aufweist und es im l-ten Schritt den relativen Rang i besitzt, wird als Quotient der in diesem Falle günstigen und der möglichen Fälle ausgedrückt. Somit gilt nun k−1n−k (l − 1)! . (1.6) Z = i−1 l−i n l! l Der Zähler in (1.6) kommt durch folgende Überlegung zustande: Der erste Binomialkoeffizient beschreibt die Anzahl der Möglichkeiten, i−1 Elemente aus den ersten k −1 Elementen auszuwählen. Der zweite Binomialkoeffizient drückt die Anzahl der Möglichkeiten der Verteilung von l − i Objekten auf die restlichen n − k noch verbleibenden Möglichkeiten für die KAPITEL 1. DAS SECRETARY PROBLEM 16 absoluten Ränge aus. Da durch dieses Produkt jedoch noch keine Anordnung der Elemente festgelegt ist, muss dieser Term noch mit (l − 1)! multipliziert werden. So erhält man nun den Ausdruck für die Anzahl der günstigen Fälle. Den Nenner von (1.6) beschreibt die Anzahl der möglichen Fälle. Wenn man das Ergebnis (1.6) in (1.5) einsetzt, so erhält man schlussendlich die gewünschte Darstellung k−1n−k (l − 1)! · l Pl (Xl = k , Yl = i) n = i−1 l−i Pl (Xl = k | Yl = i) = Pl (Yl = i) l! l k−1n−k = i−1 nl−i . l Da man in dieser Variation des ursprünglichen Problems jedoch am Erwartungswert interessiert ist, erhält man vorigem Ergebnis zufolge k−1n−k n k · i−1nl−i . El (Xl | Yl = i) = l k=i Aufgrund von n k−1n−k i−1 nl−i k=i =1 l gilt nun n k−1 n−k k=i i−1 l−i n = . l (1.7) Weiters verwendet man die triviale Relation nk = nk n−1 um obigen Erwartungswert zu k−1 vereinfachen: k−1n−k kn−k n n k k−1 n−k n · i ·i i i i−1 nl−i l−i = k · i−1nl−i = n k=i l k=i i = n l n k=i l k i n−k l−i k=i (1.7) l n+1 =i = i l+1 n l n+1 l+1 Obiger Rechnung zufolge wurde nun der gesuchte Erwartungswert auf eine wesentlich einfachere Form gebracht. Es soll nun eben dieser Erwartungswert für einige Spezialfälle berechnet werden. l = 1 : E1 (X1 | Y1 = 1) = n+1 2 l = n : En (Xn | Yn = i) = i l = n2 : E n2 (X n2 | Y n2 = 1) ∼ 2 KAPITEL 1. DAS SECRETARY PROBLEM n 5 10 15 20 25 30 35 40 45 50 55 V1 2.05000 2.55794 2.81849 3.00173 3.11667 3.20362 3.27561 3.32819 3.37285 3.41215 3.44257 n 60 65 70 75 80 85 90 95 100 200 17 V1 3.47036 3.49467 3.51568 3.53371 3.55097 3.56598 3.57906 3.59138 3.60323 3.71918 Tabelle 1.5: Darstellung der V1 für unterschiedliche Werte von n Da der Erwartungswert des Ranges des betrachteten Objekts minimiert werden soll, erhält man folgende Bedingung, mit deren Hilfe eine Entscheidung zwischen Stoppen und Weitergehen ermöglicht wird. Falls n+1 ≤ Vl+1 Yl l+1 gilt, so muss im l-ten Schritt gestoppt werden. Gilt andernfalls Yl n+1 > Vl+1 , l+1 so geht man weiter. Diesen Beobachtungen zufolge erhält man nun die gesuchte Rekursion. l 1 n+1 n+1 = Vl = E min Yl min j , Vl+1 , Vl+1 l+1 l j=1 l+1 Mit Hilfe von Vn = Vn−1 n+1 2 folgt nun durch Rückwärtseinsetzen l n+1 1 n+1 n+1 1 n+1 = min j j , = + = l j=1 l+1 2 l l+1 l + 1 2 l+1 j< 2 j≥ 2 l+1 l+1 +1 1 n+1 2 n+1 l+1 2 = · + n− . l l+1 2 2 2 Tabelle 1.5 stellt diese Werte für unterschiedliche n dar. Weiters sollen nun mit Hilfe von n+1 j ≤ Vl+1 , l+1 also l+1 j≤ Vl+1 n+1 KAPITEL 1. DAS SECRETARY PROBLEM l j l j l j l j 18 1 2 3 4 5 6 7 8 0 0 0 0 0 0 0 0 14 15 16 17 18 19 20 21 1 1 1 1 1 1 1 1 27 28 29 30 31 32 33 34 2 2 2 2 3 3 3 3 40 41 42 43 44 45 46 47 6 6 7 8 9 10 12 14 9 0 22 1 35 4 48 18 10 11 12 13 0 0 0 0 23 24 25 26 1 1 2 2 36 37 38 39 4 4 5 5 49 25 Tabelle 1.6: Berechnung des relativen Ranges j, mit dem man stoppen sollte, für jeden Schritt l für n = 50 die Schwellenwerte für n = 50 berechnet werden. In Tabelle 1.6 ist für n = 50 der relativen Rang j, mit dem man stoppen sollte, für jeden Schritt l berechnet, wobei 0 bedeutet, dass in diesen Schritten gar nicht gestoppt wird. Obig erhaltene Rekursionsformel 1 Vl = min l j=1 l n+1 j, Vl+1 l+1 (1.8) soll nun in eine Differenzengleichung umgeformt werden. Dazu setzt man l+1 cl := Vl+1 und sl := cl , n+1 also bezeichnet sl den Schwellenwert für den relativen Rang im l-ten Schritt. Falls j ≤ sl gilt, so kann (1.8) umgeformt werden zu 1 n + 1 sl (sl + 1) + (l − sl )cl cl−1 = (1.9) l l+1 2 und damit 1 cl−1 − cl = l n + 1 sl (sl + 1) − sl cl . l+1 2 (1.10) Die Größen cl und sl hängen natürlich von n ab, also cl = cl (n) und sl = sl (n). Im Folgenden setzt man l l und analog dazu Sn = cl (n) = sl (n), Cn n n KAPITEL 1. DAS SECRETARY PROBLEM 19 wodurch eine Kompression auf das Intervall [0, 1] erreicht wird. Damit will man beobachten, was in einem gegebenen Verhältnis von n und l passiert. Aus der Differenzengleichung (1.10) folgt dann l−1 l l l n n + 1 Sn nl Sn nl + 1 − Cn = − Sn Cn . n Cn n n l l+1 2 n n Man lässt nun n und l gegen ∞ unendlich streben, so dass das Verhältnis nl gegen ein fixes x ∈ (0, 1) konvergiert. l Außerdem bezeichnet l man mit C(x) beziehungsweise S(x) die Grenzwerte von Cn n beziehungsweise Sn n . Aus der Definition von sl ergibt sich unmittelbar S(x) = xC(x). Weiters erhält man durch den Grenzübergang in der letzten Differenzengleichung die folgende Differentialgleichung: ∼S(x) 1 S(x) (S(x) + 1) 1 − S(x)C(x) −C (x) = x x 2 1 1 S(x)2 ∼ − S(x)C(x) x x 2 1 ∼ − C(x)2 2 Daraus erhält man die Differentialgleichung 1 f (x) = f (x)2 , 2 welche die exakte Lösung f (x) = − x 2 1 +A mit Integrationskonstante A besitzt. Daraus folgt, dass C(x) ∼ − x 2 1 +A eine Näherungslösung für C(x) darstellt. Aus Cn (1) = woraus C(x) ∼ 2 1−x S(x) ∼ 2x 1−x und n+1 2 berechnet man nun A ∼ − 12 , KAPITEL 1. DAS SECRETARY PROBLEM 20 folgt. Für den gesuchte Wert C(0) erhält man aufgrund des gemachten Fehlers den nicht exakten Wert C(0) = 2. Wie aus Tabelle 1.5 ersichtlich ist, scheint V1 = Cn (0) nicht gegen den Wert 2 zu konvergieren. Aus den obigen Beobachtungen will man nun eine Stoppregel aufstellen. Man stoppt, falls l+1 cl = sl j≤ n+1 gilt. Nun will man die Zeitspanne berechnen (≡ prozentuellem Anteil des Gesamtzeitraums), in der mit einem Objekt mit Y = i gestoppt wird. Wenn man die ersten Werte für die zu stoppenden relativen Ränge einsetzt, erhält man 1 3 1 S(x) = 2 ⇐⇒ x = 2 3 S(x) = 3 ⇐⇒ x = . 5 S(x) = 1 ⇐⇒ x = Diese obigen Beobachtungen ziehen folgende Interpretation nach sich: Im ersten Drittel wird gar nicht gestoppt, danach sollte man bis zur Hälfte des Zeitraums mit Rang 1 stoppen, bis zu 35 · n mit einem relativen Rang von 1 oder 2 und so fort. Nun soll der Schwellenwert x in seiner Allgemeinheit berechnet werden. S(x) = r ⇐⇒ x = r r+2 (1.11) Falls nun der Grenzprozess von (1.11) für r → ∞ betrachtet wird, so strebt nun x gegen 1, d.h. je näher man dem letzten zur Auswahl stehenden Objekt kommt, desto bescheidener wird man in Bezug auf den relativen Rang des momentan betrachteten Objekts. Tabelle 1.7 soll den dargestellten Bezug für den Fall n = 100 veranschaulichen, wobei r∗ den relativen Rang darstellt, mit dem gestoppt werden soll (d.h. r∗ = i bedeutet, dass in diesem Fall mit einem relativen Rang kleiner oder gleich i gestoppt werden sollte.). Man ist nun bestrebt nachzuweisen, dass der absolute Rang des durch eine Stoppregel gewählten Objekts gegen einen Wert konvergiert, der im Gegensatz zur obigen Vorgangsweise mittels der Lösung einer Differenzengleichung den berechneten Werten von Tabelle 1.5 entspricht. Folgender Satz beschreibt dieses gesuchte Ergebnis. Im Beweis dieses Satzes stützt man sich nicht auf die Approximation von Differenzengleichungen durch Differentialgleichungen, sondern versucht, das Ergebnis direkt nachzurechnen. Satz 1.6. Für n → ∞ strebt der absolute Rang des Objektes, welches von einer optimalen Stoppregel gewählt wurde, bei obiger Problemstellung gegen den Wert 1 +1 ∞ j+2 j ≈ 3.8695. j j=1 KAPITEL 1. DAS SECRETARY PROBLEM r∗ 0 1 2 3 4 5 6 7 8 9 10 15 20 25 30 x 0.333 0.500 0.600 0.667 0.714 0.750 0.778 0.800 0.818 0.833 0.846 0.889 0.913 0.928 0.939 r∗ 35 40 45 50 55 60 65 70 75 80 85 90 95 99 21 x 0.947 0.953 0.958 0.962 0.966 0.968 0.971 0.973 0.974 0.976 0.977 0.979 0.980 0.980 Tabelle 1.7: Darstellung der relativen Ränge r∗ mit denen gestoppt werden soll für n = 100 Beweis. Man setzt nun ci := Vi+1 . Mit dieser Schreibweise erhält man die bekannte Rekursionsformel i 1 n+1 (1.12) min j, ci . ci−1 = i j=1 i+1 Um (1.12) auf eine einfachere Art darstellen zu können, definiert man wie bei obigem Lösungsversuch i+1 si := ci . (1.13) n+1 Laut (1.10) gilt nun ci−1 Mit cn−1 = n+1 2 1 = i n + 1 si (si + 1) · + (i − si )ci . i+1 2 (1.14) und (1.12) folgt c0 ≤ c1 ≤ . . . ≤ cn−1 = n+1 2 und mit (1.13) und (1.15) erhält man, dass si ≤ i und s1 ≤ s2 ≤ . . . ≤ sn−1 = n 2 (1.15) (1.16) KAPITEL 1. DAS SECRETARY PROBLEM 22 gilt. Als nächstes berechnet man einfache obere und untere Schranken für die Konstanten ci , mit Hilfe derer die Berechnung des Grenzwertes von c0 für n → ∞ ermöglicht wird. Zuerst definiert man die Konstanten ti = i+1 ci n+1 (1.17) für i ∈ {0, 1, . . . , n − 1}. Aus (1.15) folgt nun t0 < t1 < . . . < tn−1 = n . 2 (1.18) Mit Hilfe von (1.14) gilt ti−1 = si (si + 1) + 2(i − si )ti , 2(i + 1) si = [ti ] i = 1, . . . , n − 1. (1.19) Für ein fixes i setzt man ti = si + α mit 0 ≤ α < 1. (1.20) (1.19) kann unter Verwendung von (1.20) in ti−1 = ti (1 + 2i − ti ) α(1 − α) − 2(i + 1) 2(i + 1) umgeformt werden. Man setzt für x ≤ i + (1.21) 1 2 x(1 + 2i − x) . 2(i + 1) (1.22) 1 + 2i − 2x ≥0 2(i + 1) (1.23) T (x) = Da T (x) = gilt, ist T (x) folglich monoton wachsend für x ≤ i + 1 2 und mit (1.21) folgt ti−1 ≤ T (ti ). (1.24) Mit diesen Vorbereitungen wird nun die erste Ungleichung für ti bewiesen. Lemma 1.7. Es gilt ti ≤ 2n . n−i+3 (1.25) KAPITEL 1. DAS SECRETARY PROBLEM 23 Beweis. Obige Ungleichung soll nun mit Hilfe der Methode der Rückwärtsinduktion nachgeprüft werden. Für i = n − 1 ist obige Ungleichung jedenfalls erfüllt, da mit (1.18) tn−1 = n 2n = 2 4 gilt. (1.25) gelte nun für 1 ≤ i ≤ n − 1. Nun muss obige Ungleichung nur noch für i − 1 gezeigt werden. Nach (1.15) und (1.17) gilt demnach ti−1 = i i n+1 i ci−1 ≤ · = . n+1 n+1 2 2 (1.26) Nun werden 2 Fälle unterschieden: 1. i 2 ≤ 2n n−i+4 : Für diesen Fall ist (1.25) für i − 1 bewiesen. 2. i 2 > 2n n−i+4 : In diesem Fall gilt dann i+ 2n 1 ≥ . 2 n−i+3 Mit Hilfe von (1.24) und aus der Beobachtung, dass T (x) für x ≤ i + 12 monoton wachsend ist, folgt nun 2n 2n n((1 + 2i)(n − i + 3) − 2n) ≤ ti−1 ≤ T (ti ) ≤ T = , (1.27) 2 n−i+3 n−i+4 (i + 1)(n − i + 3) da die letzte Ungleichung äquivalent ist zu (n − i + 3)2 + (2n − 2i − 1)(n − i + 3) + 2n ≥ 0, was für n − i ≥ 1 zutrifft. Damit gilt (1.25) auch in diesem Fall. Mit Hilfe des letzten Lemmas kann eine obere Schranke für c0 gefunden werden, die aber keinesfalls scharf ist. Korollar 1.8. Für n = 1, 2, . . . gilt c0 < 8. Beweis. Man setzt nun i = n 2 (1.28) in (1.25). Somit gilt n+1 n+1 2n 2n(n + 1) 8n2 + 8n c0 ≤ ci = ti ≤ · ≤ n n < 8. = 2 i+1 i+1 n−i+3 n + 6n +3 2 2 (1.29) KAPITEL 1. DAS SECRETARY PROBLEM Man kann nun beobachten, dass i ti ti−1 ≥ 1− ti i+1 2(i + 1) 24 i = 1, . . . , n − 1 (1.30) gilt. Diese Ungleichung erhält man aus (1.21), wenn man zeigen kann, dass ti (1 + 2i − ti ) α(1 − α) ti i − ≥ ti 1 − 2(i + 1) 2(i + 1) i+1 2(i + 1) oder äquivalent dazu ti ti 1− i+1 ≥ α(1 − α) (α = ti − [ti ]) (1.31) gilt. Falls ti ≥ 1 gilt, so folgt ti ti 1− i+1 ≥ 1 1 > ≥ α(1 − α) 2 4 aus (1.26). Im Fall ti < 1 ist die Ungleichung wegen ti = α trivialerweise erfüllt. Im Folgenden wird eine untere Schranke für ti angegeben. Lemma 1.9. Es gilt ti ≥ 3(i + 1) 2(n − i + 2) i = 0, . . . , n − 1. (1.32) Beweis. Wiederum wird hierzu Rückwärtsinduktion verwendet. (1.32) ist richtig für i = n − 1. Weiters sei (1.32) für 1 ≤ i ≤ n − 1 erfüllt. Nun definiert man eine Funktion x T (x) = x 1 − , 2(i + 1) gilt, folgt nun mittels welche für x ≤ i + 1 monoton wachsend ist. Da nach (1.26) ti ≤ i+1 2 (1.30) i i 3(i + 1) ti−1 ≥ T (ti ) ≥ T i+1 i+1 2(n − i + 2) 3i 3i(4n − 4i + 5) . = 2 ≥ 2(n − i + 3) 8(n − i + 2) Obige Ungleichung ist jedoch äquivalent zu i ≤ n − 1. Laut (1.16) gilt sn−1 ≥ k für jede positive ganze Zahl k und n ≥ 2k. Nun definiert man KAPITEL 1. DAS SECRETARY PROBLEM 25 Definition 1.10. ik := min{j ≥ 1 | sj ≥ k} (1.33) für k = 1, 2, . . . und für n ≥ 2k. Folglich ist si1 −1 = 0 und somit gilt mit (1.14) c0 = c1 = . . . = ci1 −1 . (1.34) Dann kann folgendes Korollar formuliert werden: Korollar 1.11. Es gilt lim inf i1 1 ≥ . n 8 (1.35) Beweis. Man unterscheidet wiederum zwei Fälle: 1. Falls i1 > 2. Falls i1 ≤ n n 2 gilt, folgt i1 ≥ 2 gilt, so erhält man n 2 1 ≤ si1 ≤ ti1 = +1> n 2 und damit i1 n > 12 . i1 + 1 i1 + 1 i1 + 1 ci1 ≤ c[ n ] < ·8 n+1 n+1 2 n+1 aus (1.29). Hierbei sei noch bemerkt, dass i1 > 1 für n > 2 gilt, da andernfalls s1 = 1 und c0 = gelten würde, was aber nur für n ≤ 2 gilt. n+1 2 Korollar 1.12. Für alle α, β mit 0 < α < β < 1 gilt lim (ti − ti−1 ) = 0 (1.36) n→∞ auf der Menge i n i α≤ ≤β n (1.37) im Sinne der gleichmäßigen Konvergenz. Beweis. Aus (1.30) und (1.25) folgt 0 ≤ ti − ti−1 ti i ti it2i ≤ ti − ti 1 − = + i+1 2(i + 1) i + 1 2(i + 1)2 2 2 2n 2 ) 1 (1 + 1−β (1 + n−i ) i + ti )2 ≤ ≤ ≤ · , 2(i + 1) 2(i + 1) 2α n was für n → ∞ gegen 0 strebt. KAPITEL 1. DAS SECRETARY PROBLEM 26 Korollar 1.13. Für k = 1, 2, . . . und n ≥ 12k gilt ik 2 ≥1− n k (1.38) ik 1 ≤1− . n 2k (1.39) und Beweis. Nach (1.25) gilt sik ≥ k ⇒ tik ≥ k ⇒ 2 2n ik ≥1− . ≥k⇒ n − ik n k Somit wäre (1.38) bewiesen. Um (1.39) nachzuprüfen unterscheidet man 2 Fälle: 1. ik ≤ n 2 : Hier gilt ik 1 1 ≤ ≤1− . n 2 2k 2. ik > n 2 : Nach (1.32) gilt 3ik 3ik 3n <k⇒ < n − ik + 3 ⇒ < n − ik + 3 2(n − ik + 3) 2k 4k 3 ik 3 ik 3 3 1 ⇒ <1− + ⇒ <1− + ≤1− für n ≥ 12k. 4k n n n 4k n 2k sik −1 < k ⇒ tik −1 < k ⇒ Korollar 1.14. Für k, γ = 1, 2, . . . gilt lim tik = lim tik −γ = k. Beweis. Es gilt tik −γ < k ≤ tik . Man wählt nun α und β so, dass 0 < α < 1 < β < 1 gilt. Zusammen mit (1.35) und (1.39) folgt daraus 1 − 2k α< ik ik − γ < <β n n für hinreichend großes n. Nun folgt mit (1.37) und (1.36) lim(tik − tik −γ ) = 0. (1.40) 1 8 und (1.41) KAPITEL 1. DAS SECRETARY PROBLEM 27 Korollar 1.15. Für k = 1, 2, . . . gilt sik = k (1.42) für hinreichend großes n und lim(ik+1 − ik ) = ∞. (1.43) Beweis. Es gilt k ≤ sik ≤ tik . Mit Hilfe von (1.40) erhält man sofort den ersten Teil des Korollars. Weiters gilt lim(tik+1 − tik ) = 1 und lim(tik+1 − tik+1 −γ ) = 0, woraus man sofort (1.43) erhält. Nun soll der Beweis des Satzes mit Hilfe obig bewiesener Korollare zu Ende geführt werden. Man wählt nun eine ganze Zahl k, die man in weiterer Folge fix lässt. Weiters sei n nach (1.42) so groß gewählt, dass sik = k und sik+1 = k + 1 gilt. Für ik ≤ i < ik+1 definiert man k vi = ti − . 2 (1.44) Wenn man nun vi in (1.19) einsetzt, so erhält man k(k + 1) + 2(i − k) vi + k2 k k i−k = + vi vi−1 + = 2 2(i + 1) 2 i+1 vi = i+1 vi−1 . i−k Damit gilt für ik < i < ik+1 i ik + 2 i+1 i+1 vi−1 = ... vi i−k i−k i−k−1 ik − k + 1 k k+1 i+j −k i+1 i i+1−k = · ... · vik = vik ik + 1 ik ik + 1 − k ik + j − k j=1 vi = und somit k+1 k k i+j−k ti = + tik − . 2 2 j=1 ik + j − k (1.45) KAPITEL 1. DAS SECRETARY PROBLEM 28 Setzt man nun i = ik+1 − 1, so gilt tik+1 −1 k+1 k k ik+1 + j − k − 1 . = + tik − 2 2 j=1 ik + j − k Mit (1.35) und (1.40) folgt k+1 k+1 k k ik+1 + j − k − 1 k k ik+1 k+1= + lim , = + lim 2 2 j=1 ik + j − k 2 2 ik woraus ik+1 = lim ik k+2 k k1 +1 und i1 lim = lim ik i1 n ik n = k−1 j=1 j j+2 1j +1 . folgt. Aus (1.38) erhält man 2 1− k k−1 j=1 j j+2 1j +1 k−1 i1 i1 ≤ lim inf ≤ lim sup ≤ n n j=1 Durch den Grenzübergang k → ∞ ergibt sich i1 lim = n j=1 ∞ j j+2 1j +1 . Schlussendlich erhält man mit Hilfe von (1.40) und (1.34) i1 i1 1 = lim ti1 −1 = lim ci −1 = lim c0 n+1 1 n 1j +1 ∞ j , = lim c0 · j+2 j=1 womit der Satz bewiesen wäre. j j+2 1j +1 . KAPITEL 1. DAS SECRETARY PROBLEM 1.7 29 Wahl des Objekts mit absolutem Rang k Mit der in Abschnitt 1.6 berechneten Formel k−1n−k fl (k, i) := Pl (Xl = k | Yl = i) = i−1 nl−i l für k = i, i + 1, . . . , n, die die Wahrscheinlichkeit angibt, dass der absolute Rang des lten Objekts gleich k ist, unter der Bedingung, dass dieses Objekt im l-ten Schritt den relativen Rang i hat, sind die notwendigen Vorbereitungen getroffen, um eine allgemeine Rekursionsformel für die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien, die frühestens im l-ten Schritt stoppen, zu erhalten, wobei ein Gewinn in der Wahl des Objekts mit absolutem Rang k besteht: l−k 1 max{fl (k, i), Vl+1 } Vl+1 + Vl = l l i=1 k In Tabelle 1.8 sind nun die Gewinnwahrscheinlichkeiten für unterschiedliche Werte von k und n berechnet. 1.8 Modifizierte Anordnungen der Objekte Bei dieser Modifikation des ursprünglichen Problems erfolgt die Anordnung der n Objekte gemäß einer zyklischen Permutation der absoluten Ränge, d.h. die Anordnung weist eine der folgenden Formen auf: ( n, n − 1, . . . , 2, 1 ) ( n − 1, n − 2, . . . , 1, n ) ( n − 2, n − 3, . . . , n, n − 1) .. . Allgemeiner kann man diese Permutation schreiben als (a1 , a2 , . . . , ai , . . . , an ) mit a1 = n − k, a2 = n − (k + 1), . . . , ai = 1, ai+1 = n, . . . , an = n − i + 1, wobei k ∈ {0, . . . , n − 1} und i ∈ {1, . . . , n}. Offensichtlich existieren bedingt durch diese Einschränkung der Anordnung der Objekte nur noch n Möglichkeiten an Stelle von n! Anordnungsmöglichkeiten. Mit Vl wird wiederum die maximale Gewinnwahrscheinlichkeit unter allen Strategien, die KAPITEL 1. DAS SECRETARY PROBLEM k 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 n 50 100 200 50 100 200 50 100 200 50 100 200 50 100 200 50 100 200 50 100 200 s∗ 27 54 107 27 52 103 28 55 110 30 59 117 28 57 113 30 59 117 30 61 122 30 Vs∗ 0.21614 0.21250 0.21069 0.20023 0.19608 0.19402 0.19133 0.18663 0.18439 0.18225 0.17733 0.17499 0.17603 0.17046 0.16781 0.17110 0.16498 0.16216 0.16623 0.15966 0.15674 Tabelle 1.8: Darstellung der Gewinnwahrscheinlichkeiten Vs∗ KAPITEL 1. DAS SECRETARY PROBLEM 31 mindestens l Schritte besitzen, bezeichnet. Man wird nun einsehen, dass in diesem Fall die maximale Gewinnwahrscheinlichkeit n1 beträgt, was jedoch auch im schlechtest möglichen Fall bei beliebiger Anordnung erreichbar ist. Dies gilt es nun noch zu beweisen. Wiederum verwendet man die Methode der Rückwärtsinduktion: Vn = 1 n Klarerweise kann man sich nur dann Gewinnchancen ausrechnen, wenn die Folge der ai bis zum jetzigen Zeitpunkt monoton fallend war. Befindet man sich nun im (n − 1)-ten Schritt, so steht man vor der Wahl, ob man nun stoppen oder weitergehen soll. In diesem Schritt führen nur zwei Permutationen zum Gewinn, nämlich (n, n − 1, . . . , 2, 1) und (n − 1, n − 2, . . . , 1, n), die beide gleich wahrscheinlich sind. Falls man im (n − 1)-ten Schritt stoppt, so beträgt die Gewinnwahrscheinlichkeit 12 . Diese Wahrscheinlichkeit stimmt in diesem Schritt mit der Gewinnwahrscheinlichkeit im Falle des Weitergehens überein. Da es nun keinen Unterschied macht, ob man hier stoppt oder weitergeht, wählt man nach Voraussetzung das Weitergehen. Aus obig dargestellter Beobachtung ergibt sich Vn−1 = Vn = 1 . n Befindet man sich nun im (n − 2)-ten Schritt, so gewinnt man mit der Wahrscheinlichkeit von 13 , falls man hier stoppt. Infolgedessen geht man mit der Wahrscheinlichkeit 23 weiter und gewinnt nun im (n − 1)-ten Schritt mit der Wahrscheinlichkeit 12 . Falls man sich also im (n − 2)-ten Schritt für das Weitergehen entschließt, so gewinnt man mit der Wahrscheinlichkeit 23 · 12 = 13 . Hiermit hat sich die obige Vermutung bestätigt: Vn−2 = 1 n Um diese Beobachtung für den allgemeinen Fall nachzuprüfen, geht man mit Hilfe der Rückwärtsinduktion folgendermaßen vor: 1 und geht Befindet man sich im l-ten Schritt, so stoppt man mit Wahrscheinlichkeit n−l+1 n−l mit der Wahrscheinlichkeit n−l+1 weiter. Da jedoch im (l + 1)-ten Schritt die Gewinnwahr1 scheinlichkeit sowohl für Stoppen als auch für Weitergehen n−l beträgt, erhält man daraus die Gewinnwahrscheinlichkeit im Fall des Weitergehens im l-ten Schritt: P (Gewinnen mit Weitergehen im l-ten Schritt) = n−l 1 1 · = n−l n−l+1 n−l+1 Damit gilt Vl = Vl+1 = . . . = Vn = 1 n und die Beobachtung ist bewiesen. Die maximale Gewinnwahrscheinlichkeit beträgt also bei dieser Anordnung der Objekte n1 . KAPITEL 1. DAS SECRETARY PROBLEM 1.9 32 Nicht kooperative Spiele Für diese Modifikation des in vorigem Kapitel dargestellten Spiels wird folgender Sachverhalt angenommen: Die Anordnung der Objekte wird von einem Gegner, der in weiterer Folge Spieler B genannt wird, bestimmt. Er ist bestrebt, den erwarteten Rang des von Spieler A gewählten Objekts zu maximieren, dessen Intention in der Minimierung des Rangs des von ihm gewählten Objekts besteht. Völlig unabhängig von der Anordnungswahl von Spieler B kann Spieler A durch zufällige Wahl des r-ten Objekts (r = 1, . . . , n) bezogen auf den Rang immer einen Erwartungswert von 1 n+1 i= n i=1 2 n E(Xr ) = erreichen, wobei Xr den absoluten Rang des r-ten Objekts bezeichnet. Es existiert jedoch wirklich eine Strategie von Seiten des Gegners, so dass Spieler A keinen besseren Wert als n+1 für den erwarteten Rang erreichen kann, welche Strategie auch immer er wählt. Diese 2 Strategie besteht in der folgenden Anordnung der Objekte von Seiten des Spielers B: (X1 , . . . , Xn ) Zuerst sei entweder X1 = 1 oder X1 = n je mit Wahrscheinlichkeit 12 . Nach der Wahl von X1 , . . . , Xi nimmt Xi+1 den Wert der kleinsten oder größten Zahl unter den verbleibenden Zahlen jeweils mit Wahrscheinlichkeit 12 an. Man definiert dann Zi := E(Xi | Y1 , . . . , Yi ) und Fn := σ(Y1 , . . . , Yn ) wobei Yi den relativen Rang des i-ten Objekts bezeichnet. Da nun E(Zn+1 | Fn ) = E(E(Xn+1 | Y1 , . . . , Yn+1 ) | Fn ) = E(Xn | Y1 , . . . , Yn ) gilt, ist Zi somit ein Martingal. Folglich erhält man für eine beliebige Stoppzeit τ E(Zτ ) = E(Z1 ) = n+1 . 2 Diese Tatsache kann man sich auch folgendermaßen leicht vor Augen führen: Am Ende , auch wenn keine Gleichverteilung beträgt der Erwartungswert aufgrund der Symmetrie n+1 2 vorliegt. Befindet man sich im (n − 1)-ten Schritt, so beobachtet man folgende vorliegende Folge der relativen Ränge (Y1 , Y2 , . . . , Yn−2 , Xn−1 , Xn ) = (1, 1, . . . , 1, Xn−1 , Xn ) mit 1 P (Xn−1 = 1) = P (Xn = 2) = . 2 KAPITEL 1. DAS SECRETARY PROBLEM 33 Stoppt man in diesem Schritt, so beträgt der Erwartungswert 32 . Diesen Wert erhält man jedoch auch im Fall des Weitergehens. Durch Rückwärtsinduktion ergibt sich nun die Tatsache, dass es in jedem Schritt keinen Unterschied macht, ob man stoppt oder weitergeht. Da man nun nach Voraussetzung weitergeht, wird man immer erst am Ende stoppen. Für den (n − 2)-ten Schritt erhält man nun (Y1 , Y2 , . . . , Yn−3 , Xn−2 , Xn−1 , Xn ) = (1, . . . , 1, Xn−2 , Xn−1 , Xn ) mit Xi ∈ {1, 2, 3} für i ∈ {n − 2, n − 1, n}. Da Xn−2 ∈ {1, 3} gilt, erhält man, falls man im aktuellen Schritt stoppt einen Erwartungswert von 2. Der Erwartungswert beim Weitergehen am Ende stimmt jedoch genau mit diesem Wert überein. Infolgedessen hat sich obige Vermutung auch in diesem Fall als zutreffend erwiesen. Nun betrachtet man den allgemeinen Fall. Man befindet sich also im l-ten Schritt: (Y1 , Y2 , . . . , Yl−1 , Xl , . . . , Xn ) = (1, . . . , 1, Xl , . . . , Xn ) mit Xi ∈ {1, . . . , l} für i ∈ {l, l + 1, . . . , n}. Es gilt somit Xl ∈ {1, l}, folglich beträgt der . Am Ende erhält man den Wert Erwartungswert beim Stoppen in diesem Schritt l+1 2 1 l+1 i= . l i=1 2 l Somit ist obige Behauptung bewiesen. 1.10 Lösung mit Hilfe von minimax-Strategien Für diese Problemstellung nimmt man an, dass Spieler B nur die Lage des besten Objekts wählen darf. Die Anordnung aller übrigen verbleibenden Objekte entspricht (n − 1)! gleich wahrscheinlichen Permutationen. Spieler B handelt nun mittels einer Strategie Tr mit r = 1, . . . , n, welche das beste Objekt wird auf die r-te Position gesetzt und die verbleibenden Objekte werden gleichverteilt auf den restlichen Plätzen angeordnet. T bezeichnet nun die randomisierte Strategie, die Tr mit Wahrscheinlichkeit pr auswählt. Spieler A stehen die folgenden Strategien Si für i = 0, . . . , n − 1 zur Verfügung: Man wartet i Schritte und wählt im Anschluss daran das erste Objekt mit relativen Rang 1 oder spätestens das letzte Objekt. Für i = 1, . . . , n − 1 und r = 1, . . . , n erhält man 0 P (Si gewinnt | Tr ) = i r−1 für i ≥ r für i < r, KAPITEL 1. DAS SECRETARY PROBLEM 34 i die Wahrscheinlichkeit angibt, dass das beste Objekt der ersten r − 1 Objekte auf da r−1 einer der ersten i Positionen auftritt. Daraus folgt n n n ipr ipr P (Si gewinnt | Tr ) pr = = pi+1 + P (Si gewinnt) = r−1 r−1 r=1 r=i+1 r=i+2 für i = 1, . . . , n − 1. Im Fall i = 0 ergibt sich 1 für r = 1 P (S0 gewinnt | Tr ) = 0 für r > 1 und damit P (S0 gewinnt) = p1 . Damit gilt nun P (Si gewinnt) = pi+1 + n ipr r−1 r=i+2 einheitlich für alle i = 0, . . . , n − 1. Als nächstes soll nun der Frage nachgegangen werden, wie Spieler B die Wahrscheinlichkeitsverteilung (p1 , . . . , pn ) wählen soll, damit die maximale Gewinnwahrscheinlichkeit von Spieler A möglichst gering bleibt. Spieler A will bei einer gegebenen Verteilung (p1 , . . . , pn ) von Spieler B die Gewinnwahrscheinlichkeit über i = 0, . . . , n − 1 maximieren: n ipr max P (Si gewinnt) = max pi+1 + (1.46) i i r − 1 r=i+2 Hingegen will Spieler B infolgedessen die Wahrscheinlichkeiten pr so wählen, dass (1.46) minimiert wird: n ipr (1.47) min max pi+1 + pr i r−1 r=i+2 Nun soll berechnet werden, wie Spieler B die Verteilung (p1 , . . . , pn ) wählen muss. Lemma 1.16. Spieler B wählt die Wahrscheinlichkeiten pr so, dass die Gewinnwahrscheinlichkeiten n ipr (1.48) P (Si gewinnt) = pi+1 + r−1 r=i+2 für i = 0, . . . , n − 1 denselben Wert annehmen. Beweisskizze. Angenommen, es sei (p1 , . . . , pn ) eine Verteilung, sodass (1.47) minimal wird, aber nicht alle Summen (1.48) denselben Wert haben. Zur Vereinfachung definiert man si := P (Si gewinnt). Weiters sei j der größte Index, sodass sj gleich dem Maximum m := max si = max P (Si gewinnt) i i KAPITEL 1. DAS SECRETARY PROBLEM 35 aus (1.46) ist. Das Ziel ist nun das Minimum (1.47) durch eine geringfügige Perturbation der Verteilung (p1 , . . . , pn ) zu verkleinern. Das ist aber ein Widerspruch dazu, dass (p1 , . . . , pn ) optimal ist. Falls j < n − 1 gilt, definiert man p∗j+1 := pj+1 − , p∗j+2 := pj+2 + und p∗i := pi in den übrigen Fällen. Analog zur Notation si bezeichne s∗i die Gewinnwahrscheinlichkeit P (Si gewinnt) unter der veränderten Verteilung (p∗1 , . . . , p∗n ). Dann gilt ⎧ i ⎪ ⎨si − j(j+1) für i ≤ j s∗i = sj+1 + für i = j + 1 ⎪ ⎩ si für i > j + 1 im Fall j > 0 und ⎧ ⎪ ⎨s0 − für i = 0 ∗ si = s1 + für i = 1 ⎪ ⎩ si für i > 1 im Fall j = 0. Aus der Wahl von j folgt, dass für alle i > j der Wert von si echt kleiner als das Maximum m ist. Für hinreichend kleines > 0 gilt damit s∗i < m für alle i = 0, . . . , n−1, was den gesuchten Widerspruch darstellt. Im verbleibenden Fall j = n − 1 führt eine ähnliche Veränderung mehrerer Einträge in der Verteilung (p1 , . . . , pn ) zum erwünschten Widerspruch. Folglich gilt nun pi+1 + n ipr =c r − 1 r=i+2 für i = 0, . . . , n − 1, wobei c eine Konstante ist. Somit erhält man n n ipr (i + 1)pr =c= r−1 r−1 r=i+1 r=i+2 für i = 0, . . . , n − 2, woraus pi+1 = n pr r−1 r=i+2 folgt. Ersetzt man in der letzten Gleichung i + 1 durch i, erhält man pi = n pr r−1 r=i+1 für i = 1, . . . , n − 1. Durch Subtraktion der Ausdrücke für pi+1 und pi ergibt sich (i + 1)pi+1 = i pi KAPITEL 1. DAS SECRETARY PROBLEM 36 für i = 1, . . . , n − 2. Dies rechtfertigt die Definition K := (n − 1) pn−1 . Man betrachtet nun den Fall i = n − 1: Aus (n − 2)pn = pn pn−1 + n−1 folgt hier pn = (n − 1)pn−1 = K. Daraus folgt nun pi = 1 K i für i = 1, . . . , n − 1 für i = n K Da (p1 , . . . , pn ) eine Wahrscheinlichkeitsverteilung ist, muss 1= n pi = K + i=1 gelten, was K= 1+ n−1 1 i=1 i n−1 K i=1 −1 ∼ i 1 1 + γ + log(n − 1) mit γ = 0.577 . . . impliziert. Damit sind für Spieler A alle Strategien gleich günstig, also ist die spezielle Wahl von (π0 , . . . , πn−1 ) für das Optimieren der Gewinnwahrscheinlichkeit P (S gewinnt) irrelevant. Bei der speziellen Wahl (π0 , π1 , . . . , πn−1 ) = (1, 0, . . . , 0) ergibt sich P (S gewinnt) = P (S0 gewinnt) = p1 = K. Also ist K die maximale Gewinnwahrscheinlichkeit für Spieler A. Auf analoge Weise kann man auch berechnen, wie Spieler A die Wahrscheinlichkeitsverteilung (π0 , . . . , πn−1 ) seiner Strategien wählen muss, damit seine Gewinnwahrscheinlichkeit bei beliebiger Wahl von (p1 , . . . , pn ) seitens Spieler B immer mindestens K beträgt. Bei gegebener Verteilung (π0 , . . . , πn−1 ) erhält man P (S gewinnt | Tr ) = r−1 iπi r−1 i=0 für r = 2, . . . , n und P (S gewinnt | T1 ) = π0 . Damit gilt r−2 iπi P (S gewinnt | Tr ) = πr−1 + r−1 i=0 (1.49) KAPITEL 1. DAS SECRETARY PROBLEM 37 einheitlich für alle r = 1, . . . , n. Spieler B wird nun bestrebt sein, obige Summe über r = 1, . . . , n zu minimieren. Im Gegenzug versucht Spieler A die Gewinnwahrscheinlichkeit r−2 iπi max min πr−1 + πi r r−1 i=0 zu erhalten. Da Spieler A die Wahrscheinlichkeiten π ebenfalls so wählt, dass (1.49) für alle r = 1 . . . , n denselben Wert annimmt, folgt K für i = 0 πi = 1 K für i = 1, . . . , n − 1 i für die Werte der Verteilung (π0 , . . . , πn−1 ). Wegen min max pi+1 + pr i n ipr r−1 r=i+2 r−2 iπi = max min πr−1 + πi r r−1 i=0 folgt die Existenz eines Gleichgewichts, wobei der Wert des Spiels K beträgt. Zur besseren Veranschaulichung soll das Spiel für n = 4 betrachtet werden. Hierbei ergibt sich obigen Beobachtungen zufolge (p1 , p2 , p3 , p4 ) = 1 (6, 3, 2, 6) 17 und (π0 , π1 , π2 , π3 ) = Für den Wert des Spiels erhält man K = liefert in diesem Fall 0.374. 6 17 1 (6, 6, 3, 2). 17 ≈ 0.353. Die asymptotische Abschätzung Kapitel 2 Modifikation durch Kenntnis der Verteilung 2.1 Das Problem von Cayley Arthur Cayley betrachtete folgendes Problem: Es stehen n verschiedene Karten mit den Werten 1, 2, . . . , n zur Verfügung. Nun zieht eine Person höchstens k Karten ohne Zurücklegen. Bei jeder Ziehung muss sich diese Person entscheiden, ob sie aufhört und den Wert dieser Karte erhält oder ob sie das Spiel weiterführt. Der Erwartungswert des Werts der gezogenen Karte soll maximiert werden. Um die Grundidee leichter verständlich zu machen, beschränkt man sich eingangs auf den Fall n = 4. Definition 2.1. 1 ai r i=1 r M1 (a1 , a2 , . . . , ar ) := Demnach gilt folgendes: 10 4 M2 (1, 2, 3, 4) = M1 (max{1, M1 (2, 3, 4)}, max{2, M1 (1, 3, 4)}, . . . , max{4, M1 (1, 2, 3)}) M3 (1, 2, 3, 4) = M1 (max{1, M2 (2, 3, 4)}, max{2, M2 (1, 3, 4)}, . . . , max{4, M2 (1, 2, 3)}) M4 (1, 2, 3, 4) = M1 (max{1, M3 (2, 3, 4)}, max{2, M3 (1, 3, 4)}, . . . , max{4, M3 (1, 2, 3)}) M1 (1, 2, 3, 4) = Der Erwartungswert ist somit gleich Mk (1, 2, 3, 4, 5). Diese obige Darstellung ist aufgrund der Tatsache, dass jeweils die beiden Ereignisse über die das Maximum gebildet wird, 38 KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 39 gleich wahrscheinlich sind, gerechtfertigt. In diesem konkreten Fall erhält man also folgende Werte: M1 (1, 2, 3, 4) = M1 (1, 2, 3) = 2 M1 (2, 3, 4) = 3 M1 (1, 3, 4) = 83 M1 (1, 2, 4) = 73 5 2 M2 (1, 2, 3, 4) = M1 3, 83 , 3, 4 = 19 7 21 6 M2 (2, 3, 4) = M1 2 , 3, 4 = 6 M2 (1, 3, 4) = M1 72 , 3, 4 = 21 6 5 19 M2 (1, 2, 4) = M1 3, 2 , 4 = 6 M2 (1, 2, 3) = M1 52 , 2, 3 = 52 21 19 M3 (1, 2, 3, 4) = M1 21 , , ,4 = 6 6 6 M3 (1, 2, 3) = M1 (3, 3, 3) = 3 M3 (1, 3, 4) = M1 (4, 4, 4) = 4 M3 (1, 2, 4) = M1 (4, 4, 4) = 4 M3 (2, 3, 4) = M1 (4, 4, 4) = 4 M4 (1, 2, 3, 4) = M1 (4, 4, 4, 4) = 4 85 24 Allgemein erhält man Mk (a1 , . . . , ar ) = M1 ( max{a1 , Mk−1 (a2 , a3 , . . . , ar )}, max{a2 , Mk−1 (a1 , a3 , . . . , ar )}, . . . , max{ar , Mk−1 (a1 , a2 , . . . , ar−1 )}) Tabelle 2.1 stellt die Werte für unterschiedliche n dar. Das dazu äquivalente mathematische Problem lässt sich wie folgt formulieren: Man beobachtet identisch und unabhängig U (0, 1)-verteilte Zufallsvariablen ξ1 , . . . , ξn . In jedem Schritt wird eine solche Zufallsvariable gezogen. Man muss sich nun entscheiden, ob man diese Zahl behält und stoppt oder ob man weiterspielt. Es soll also eine optimale Strategie entwickelt werden, damit E(ξτ ) maximiert wird, wobei mit τ eine Stoppzeit bezeichnet wird. Definition 2.2. Sei Vl := maxτ ≥l E(ξτ ) das Maximum der Erwartungswerte unter allen Strategien, welche nicht vor dem l-ten Schritt stoppen. Lemma 2.3. Es gilt Vl = 2 1 + Vl+1 . 2 KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 40 k Mk für n = 20 Mk für n = 50 Mk für n = 100 1 10.50000 25.50000 50.50000 2 13.13158 31.87755 63.12626 3 14.62061 35.47640 70.23967 4 15.61967 37.85866 74.94161 5 16.33941 39.57406 78.32300 6 16.88422 40.87613 80.88826 7 17.32186 41.90371 8 17.67411 42.73722 9 17.97569 10 18.23129 Tabelle 2.1: Darstellung von Mk für unterschiedliche Werte von n Beweis. Vl = E(max{ξl , Vl+1 }) = 2 = Vl+1 + 1 0 max{x, Vl+1 } dx = Vl+1 0 Vl+1 dx + 1 x dx = Vl+1 2 2 1 − Vl+1 1 + Vl+1 = . 2 2 Aus obigem Lemma ergibt sich sofort En+1 = 1 + En2 2 mit E0 := 0, (2.1) wobei En den maximalen Erwartungswert des Problems in Abhängigkeit der Anzahl n der Zufallsvariablen ξ1 , . . . , ξn bezeichnet. Damit gilt En = V0 . Satz 2.4. Für En gilt die asymptotische Abschätzung En ≈ 1 − 2 , n + log n + c wobei c ∈ [2 + γ − ζ(3), 2 + γ] gilt. Beweis. Ersetzt man En in (2.1) durch En = 1 − 2xn , (2.2) xn+1 = xn − x2n (2.3) so ergibt sich KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 41 für n ≥ 0 und x0 = 12 . Sei nun xn := 1 . yn + n + 1 (2.4) Mit Hilfe von (2.4) kann (2.3) ausgedrückt werden als yn+1 = yn + 1 n + yn (2.5) für n ≥ 0 und y0 = 1. Unter Verwendung dieser Gleichung stellt man leicht fest, dass yn monoton wachsend ist und yn ≥ 1 gilt. Man setzt nun h(n) = n 1 i=1 (2.6) i mit h(0) = 0 und definiert zn für n = 0, 1, . . . folgendermaßen yn = h(n) + zn . (2.7) Aus (2.5), (2.6) und (2.7) erhält man zn − zn+1 = yn − h(n) − yn+1 + h(n + 1) = 1 1 − . n + 1 n + yn (2.8) woraus zn − zn+1 ≥ 0 wegen yn ≥ 1 folgt. Damit ist zn monoton fallend und mit (2.7) gilt yn ≤ h(n) + 1. (2.9) Daraus folgt − 1 1 ≤− , n + yn n + 1 + h(n) was z0 − zn = ≤ ≤ ≤ n−1 k=0 n−1 k=0 n−1 k=0 n−1 k=0 zk − zk+1 = n−1 k=0 1 1 − k + 1 k + yk 1 1 − k + 1 k + 1 + h(k) h(k) (k + 1)(k + 1 + h(k)) h(k) = ζ(3) (k + 1)2 KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 42 impliziert. Dabei bezeichnet ζ die Riemannsche Zetafunktion. Wegen z0 = 1 gilt damit 1 − ζ(3) ≈ −0.202057 ≤ zn ≤ 1. (2.10) Aus der Beschränktheit und Monotonie von zn folgt die Konvergenz von zn gegen einen Wert z∞ . Aus (2.7), (2.8) und (2.10) folgt nun yn − 1 h(n) 1 . (2.11) = +O zn − zn+1 = (n + 1)(n + yn ) (n + 1)(n + 2) n2 Damit gilt nun ∞ ∞ (zn − zn+1 ) = z∞ + zn = z∞ + r=n r=n h(r) +O (r + 1)(r + 2) 1 r2 . (2.12) Dies kann jedoch noch vereinfacht werden. Es gilt ∞ ∞ h(r + 1) 1 1 h(r) h(r) = − + − (r + 1)(r + 2) r=n (r + 1) (r + 2) r+1 r+2 r=n = h(n) + 1 n+1 und ∞ 1 1 =O , 2 r n r=n woraus sich h(n) zn = z∞ + +O n+1 ergibt. Aus 1 n (2.13) 1 h(n) = log n + γ + O n mit γ = 0.577 . . . folgt h(n) + h(n) + O yn = zn + h(n) = z∞ + n+1 log(n) = log(n) + z∞ + γ + O n und somit En = 1 − 2 n + log(n) + z∞ + γ + 1 + O woraus der Satz wegen (2.10) folgt. 1 n log(n) n , KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG n 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 200 300 400 500 1000 En 1 − n+log2 n+c 0.77508 0.76126 0.86110 0.85786 0.89860 0.89731 0.91989 0.91924 0.93337 0.93330 0.94337 0.94313 0.95056 0.95040 0.95612 0.95600 0.96054 0.96045 0.96415 0.96408 0.96714 0.96709 0.96967 0.96963 0.97184 0.97181 0.97372 0.97369 0.97536 0.97533 0.97680 0.97678 0.97809 0.97807 0.97924 0.97922 0.98027 0.98026 0.98121 0.98120 0.99034 0.99034 0.99350 0.99350 0.99510 0.99510 0.99606 0.99606 0.99802 0.99802 43 1 − n2 0.60000 0.80000 0.86667 0.90000 0.92000 0.93333 0.94286 0.95000 0.95556 0.96000 0.96364 0.96667 0.96923 0.97143 0.97333 0.97500 0.97647 0.97778 0.97895 0.98000 0.99000 0.99333 0.99500 0.99600 0.99800 Tabelle 2.2: Vergleich von En mit approximativen Werten für einige Werte von n Aus der Definition der Folge zn zusammen mit der Fehlerabschätzung (2.12) kann man für z∞ folgenden Näherungswert bestimmen: z∞ = 0.1907781 . . . Daraus folgt c = z∞ + γ + 1 = 1.7679937 . . . für die Konstante aus Satz 2.4. Tabelle 2.2 vergleicht die Werte, die direkt aus (2.1) berechnet wurden mit den approximativen Werten. KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 2.2 44 Eine Modifikation des Problems von Cayley Man betrachtet nun eine Urne, in der sich n unabhängige und U (0, 1)-verteilte Zufallsvariablen ξ1 , . . . , ξn befinden. Dabei soll bei dieser Problemstellung die Wahrscheinlichkeit, das größte Element zu wählen, maximiert werden. Im Gegensatz zum klassischen Secretary Problem steht hierbei mehr Information zur Verfügung. Dieses Problem wird wiederum mit Hilfe der Rückwärtsinduktion gelöst werden. Dazu sei ξl die im l-ten Schritt betrachtete Zufallsvariable und Yl der relative Rang von ξl unter den bisher beobachteten Zufallsvariablen ξ1 , . . . , ξl . Klarerweise ist ein Stoppen im l-ten Schritt nur sinnvoll, wenn Yl = 1 gilt. Weiters setzt man Ml := maxl=1,...,k ξl . Schließlich wird mit Sk das Ereignis Gewinnen mit ” Stoppen im k-ten Schritt“ und mit Wk das Ereignis Gewinnen mit Weitergehen im k-ten ” Schritt und Stoppen beim nächsten Kandidaten“ bezeichnet. Im letzten Schritt besteht keine Wahlmöglichkeit. Im (n − 1)-ten Schritt gilt P (Sn−1 | Yn−1 = 1, Mn−1 = x) = x und P (Wn−1 | Yn−1 = 1, Mn−1 = x) = P (Wn−1 | Mn−1 = x) = 1 − x. Da für ein eventuelles Stoppen x≥1−x erfüllt sein muss, folgt sofort die optimale Strategie für den letzten Schritt: Man stoppt nur, falls Yn−1 = 1 und ξn−1 ≥ 12 erfüllt ist. Nun tastet man sich schrittweise Richtung Anfang zurück. Für den (n − 2)-ten Schritt gilt P (Sn−2 | Yn−2 = 1, Mn−2 = x) = x2 und P (Wn−2 | Yn−2 = 1, Mn−2 = x) = P (Sn−2 | Mn−2 = x) = P (x ≤ ξn−1 , ξn ≤ ξn−1 ) + P (x > ξn−1 , ξn ≥ x) 1 1 − x2 = t dt + x(1 − x) = + x(1 − x). 2 x Aus dem Gleichsetzen dieser Wahrscheinlichkeiten ergibt sich nun folgende Gleichung für den Schwellenwert für das Stoppen im (n − 2)-ten Schritt: x2 = Daraus folgt 1 − x2 + x(1 − x) 2 √ 1+ 6 ≈ 0.6899. x= 5 KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 45 Allgemein gilt im (n − k)-ten Schritt P (Sn−k | Yn−k = 1, Mn−k = x) = xk und P (Wn−k | Yn−k = 1, Mn−k = x) = P (Sn−k | Mn−k = x). Um obige Wahrscheinlichkeiten zu berechnen, unterscheidet man zwei Fälle: 1. ξn−k+1 ist ein Kandidat. Damit wird im (n − k + 1)-ten Schritt gestoppt. Die Gewinnwahrscheinlichkeit ist hierbei durch 1 1 − xk P (x ≤ ξn−k+1 , ξn−l ≤ ξn−k+1 für l = 0, . . . , k − 2) = tk−1 dt = . k x 2. ξn−k+1 ist kein Kandidat. Damit gilt ξn−k+1 < x und ein Weitergehen wird gefordert. Also ist die Gewinnwahrscheinlichkeit durch xP (Wn−k+1 | Mn−k+1 = x) gegeben. Man definiert nun Pk (x) := P (Wn−k | Mn−k = x) für k = 1, . . . , n − 1 und P0 (x) = 0. Daraus folgt 1 − xk + xPk−1 (x) k für k = 1, . . . , n − 1. Der Schwellenwert im (n − k)-ten Schritt erfüllt daher die Gleichung Pk (x) = P (Wn−k | Yn−k = 1, Mn−k = x) = xk = Pk (x) = 1 − xk + xPk−1 (x). k Im Folgenden soll nun eine alternativen Methode in Anlehnung an Mosteller [Mos65] zur Berechnung der Schwellenwerte betrachtet werden. 2.2.1 Eine alternative Methode Das schon gewonnene Resultat des vorigen Abschnitts für die Gewinnwahrscheinlichkeit, falls gestoppt wird, kann hierfür wieder verwendet werden: P (Gewinnen mit Stoppen im k-ten Schritt) = xk Die grundlegende Idee dieser Methode basiert auf der Beobachtung, dass man bei der Gewinnwahrscheinlichkeit mit Weitergehen nach dem ersten Element, das einen größeren Wert als das momentane besitzt (in unserem Fall gilt ξl = x), Ausschau hält. Falls man sich im (n − 2)-ten Schritt (ξn−2 = x) befindet, so betrachtet man die Wahrscheinlichkeit, dass es ein beziehungsweise zwei größere Elemente gibt. Bei 0 größeren Elementen kann man durch Weitergehen nicht gewinnen. Dazu definiert man der Übersichtlichkeit halber zuerst KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 46 Definition 2.5. pi sei die Wahrscheinlichkeit, dass genau i Elemente größer als x sind. pi sei die Wahrscheinlichkeit, dass genau i Elemente größer als x sind und dass man mit Weitergehen gewinnt. Für den (n − 2)-ten Schritt gilt nun p1 = 2x(1 − x) p2 = (1 − x)2 1 p2 = (1 − x)2 2 p2 ergibt sich aus der Tatsache, dass bei 2 größeren Elementen das erste größer als das zweite sein muss, um durch Weitergehen zu gewinnen, d.h. die Wahrscheinlichkeit ist 12 , dass man auch wirklich das größere Element auswählt. Die Wahrscheinlichkeit, dass es 0 größere Elemente gibt, wäre x2 . Da man hierbei aber durch Weitergehen nicht gewinnen kann, ist dieser Fall bei der Suche nach der Lösung des Problems nicht relevant. Man will nun den Schwellenwert x bestimmen. Dies ist der Wert, der folgende Gleichung erfüllt: 1 x2 = 2x(1 − x) + (1 − x)2 . 2 (2.14) Der Schwellenwert ergibt sich also zu √ 1+ 6 x= ≈ 0.6899. 5 Man stoppt demnach also im (n − 2)-ten Schritt, falls der Wert dieses Objekts den Wert 0.6899 übersteigt. Als nächstes soll betrachtet werden, was im (n − 3)-ten Schritt passiert: p1 = 3x2 (1 − x) p2 = 3x(1 − x)2 p3 = (1 − x)3 3 p2 = x(1 − x)2 2 1 p3 = (1 − x)3 3 Allgemein gilt nun pi = 1i pi . Der Schwellenwert x im (n − 3)-ten Schritt ist somit durch die Gleichung 3 1 x3 = 3x2 (1 − x) + (1 − x)2 x + (1 − x)3 2 3 KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 47 gegeben. Nun sollen obige Beobachtungen verallgemeinert werden: Wenn man sich im (n − r)-ten Schritt befindet, so gilt nun r r−1 p1 = x (1 − x) 1 r r−2 x (1 − x)2 p2 = 2 .. . pr = (1 − x)r . Obigen Gleichungen zufolge kann der r-ten Schwellenwert sehr einfach berechnet werden r x = r 1 r i=1 i i (1 − x)i xr−i . (2.15) Um diese Gleichung numerisch besser auswerten zu können, können die auftretenden Binomialkoeffizienten für großes r wie folgt approximiert werden: r ri ∼ . i i! Diese Approximation in (2.15) eingesetzt liefert xr = r ri (1 − x)i xr−i . i · i! i=1 Obige Gleichung kann noch folgendermaßen vereinfacht werden: 1=r 1−x r2 (1 − x)2 + ... + x 2 · 2! x2 Setzt man α := r 1−x x so erhält man 1=α+ α2 + .... 2 · 2! Aus der letzten Gleichung kann α für große r näherungsweise numerisch berechnet werden: α = 0.8043 . . . KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG 48 n x genau x approximativ 1 0.5000 0.5542 2 0.6899 0.7132 3 0.7758 0.7886 4 0.8246 0.8326 5 0.8559 0.8614 6 0.8778 0.8818 7 0.8939 0.8969 8 0.9063 0.9086 9 0.9160 0.9180 10 0.9240 0.9256 Tabelle 2.3: Darstellung der Werte von x für n = 1, . . . , 10 Daraus soll unser gesuchter Schwellenwert x berechnet werden: x= r r = r+α r + 0.8043 Tabelle 2.2.1 stellt die Werte für unterschiedliche n dar. Für n = 2 beträgt die Gewinnwahrscheinlichkeit 34 , für n = 3 lautet die Gewinnwahrscheinlichkeit 0.684 und für große n beträgt die Gewinnwahrscheinlichkeit näherungsweise 0.580. Kapitel 3 Unendliche Stoppprobleme 3.1 Allgemeine Formulierung des Problems Definition 3.1. Unendliche Stoppprobleme werden durch (i) eine Folge von Zufallsvariablen X1 , X2 , . . ., deren Verteilung üblicherweise bekannt ist und (ii) durch eine Folge von reellwertigen Auszahlungsfunktionen y0 , y1 (x1 ), y2 (x1 , x2 ), . . . , y∞ (x1 , x2 , . . .) beschrieben. Sind obige zwei Objekte gegeben, so kann das damit verbundene Stoppproblem folgendermaßen beschrieben werden: Man betrachtet die Folge X1 , X2 , . . . beliebig lange. Bei jedem n = 1, 2, . . . steht man vor der Wahl, nachdem man X1 = x1 , X2 = x2 , . . . , Xn = xn betrachtet hat, ob man im aktuellen n-ten Schritt stoppt und die bekannte Auszahlung yn (x1 , . . . , xn ) erhält oder ob man weitergeht und Xn+1 beobachtet. Falls man keine Xi für i = 1, 2, . . . beobachten möchte, so erhält man die konstante Auszahlung y0 . Falls man niemals stoppt, so erhält man y∞ (x1 , x2 , . . .). Die Auszahlungen können auch den Wert −∞ annehmen. Damit alle obigen Beobachtungen wirklich sinnvoll sind, nimmt man an, dass die Auszahlungen nach oben durch eine Zufallsvariable mit endlichem Erwartungswert beschränkt sind. Das Problem besteht nun in der Wahl eines optimalen Stoppzeitpunktes, um die Auszahlung zu maximieren. Man kann hierzu randomisierte Entscheidungen verwenden: Befindet man sich im n-ten Schritt, nachdem man X1 = x1 , . . . , Xn = xn beobachtet hat, so kann man eine Stoppwahrscheinlichkeit in Abhängigkeit dieser Beobachtungen wählen. 49 KAPITEL 3. UNENDLICHE STOPPPROBLEME 50 Diese Wahrscheinlichkeit bezeichnet man mit Φn (x1 , . . . , xn ). Eine randomisierte Stoppregel besteht nun aus der Folge dieser Funktionen Φ = (Φ0 , Φ1 (x1 ), Φ2 (x1 , x2 ), . . .) mit 0 ≤ Φn (x1 , . . . , xn ) ≤ 1 für alle n. Eine Stoppregel heißt nicht-randomisiert, falls Φn (x1 , . . . , xn ) ∈ {0, 1} für alle n gilt. Φ0 gibt die Wahrscheinlichkeit an, dass keine Beobachtungen gemacht werden. Falls man X1 = x1 beobachtet, so wird mit Φ1 (x1 ) die Wahrscheinlichkeit bezeichnet, dass man nach der ersten Beobachtung stoppt. Die Stoppregel Φ und die Folge der Beobachtungen X = (X1 , X2 , . . .) bestimmen nun den Stoppzeitpunkt 0 ≤ N ≤ ∞. Die bedingte Verteilung von N gegeben X = x = (x1 , x2 , . . .) wird mit Ψ = (Ψ0 , Ψ1 , . . . , Ψ∞ ) bezeichnet, wobei Ψn (x1 , . . . , xn ) = P (N = n | X = x), Ψ∞ (x1 , x2 , . . .) = P (N = ∞ | X = x) für n = 0, 1, 2, . . . gilt. Nun versucht man eine Beziehung zwischen Ψ und Φ herzustellen: Ψ0 = Φ0 Ψ1 (x1 ) = (1 − Φ0 )Φ1 (x1 ) .. . n−1 Ψn (x1 , . . . , xn ) = (1 − Φj (x1 , . . . , xj )) Φn (x1 , . . . , xn ) j=1 .. . Ψ∞ (x1 , x2 , . . .) = 1 − ∞ Ψj (x1 , . . . , xj ) j=0 Ψ∞ (x1 , x2 , . . .) gibt die Wahrscheinlichkeit an, dass man niemals stoppt gegeben alle Beobachtungen. Das Problem kann nun folgendermaßen formuliert werden: Man wählt eine Stoppregel Φ, um die erwartete Auszahlung V (Φ) zu maximieren: ∞ Ψj (X1 , . . . , Xj )yj (X1 , . . . , Xj ) V (Φ) := E(yN (X1 , . . . , XN )) = E j=0 KAPITEL 3. UNENDLICHE STOPPPROBLEME 3.2 51 Existenz einer optimalen Stoppregel In diesem Fall hat man eine unendliche Folge X1 , X2 , . . . von Beobachtungen zur Verfügung. Man sieht sich mit dem Problem konfrontiert, ob unter den unendlich vielen zur Verfügung stehenden Stoppzeiten τ auch wirklich eine Stoppregel existiert, für die E(Yτ ) maximal ist. Dabei sei Yn = yn (X1 , . . . , Xn ). Folgender Satz gibt nun darüber Auskunft, unter welchen Bedingungen eine solche Stoppregel existiert. Definition 3.2. Sei Θ die Menge aller Stoppzeiten τ , für die P (τ < ∞) = 1 gilt. Satz 3.3. Falls E(sup | yn (X1 , . . . , Xn )|) = M < ∞ (3.1) lim yn (X1 , . . . , Xn ) = −∞ (3.2) n und n→∞ mit Wahrscheinlichkeit 1 gilt, so existiert eine Stoppzeit τ ∗ mit supτ ∈Θ E(Yτ ) = E(Yτ ∗ ). Beweis. Für den Beweis dieses Satzes benötigt man einige Vorbereitungen. Definition 3.4. Eine Stoppzeit τ ∈ Θ heißt regulär, falls E(Yτ ) > y0 für τ > 0 und E(Yτ | x1 , . . . , xn ) > yn (x1 , . . . , xn ) (3.3) für alle Beobachtungen X1 = x1 , . . . , Xn = xn gilt, welche (x1 , . . . , xn ) ∈ {τ > n} erfüllen. Folgendes Lemma schränkt nun die die zu betrachteten Stoppzeiten enorm ein: Lemma 3.5. Sei τ ∈ Θ eine nicht reguläre Stoppzeit, so existiert eine reguläre Stoppzeit τ ∈ Θ, sodass E(Yτ ) ≥ E(Yτ ) Beweis. Falls τ = 0 gilt, so ist nichts zu tun. Sei nun τ > 0, dann definiert man τ wie folgt: Falls E(Yτ ) ≤ y0 gilt, so definiert man τ := 0. Andernfalls sei τ die Stoppzeit, die ein Stoppen im n-ten Schritt fordert, sobald die beobachteten Werte X1 = x1 , . . . , Xn = xn (3.3) nicht mehr erfüllen oder (x1 , . . . , xn ) ∈ {τ = n} gilt. Aus der Definition von τ folgt, KAPITEL 3. UNENDLICHE STOPPPROBLEME 52 dass τ niemals mehr Beobachtungen als τ benötigt. Aus τ ∈ Θ folgt auch τ ∈ Θ. Ferner gilt ∞ yn (x1 , . . . , xn ) dFn (x1 , . . . , xn ) E(Yτ ) = ≥ = n=1 {τ =n} ∞ n=1 ∞ {τ =n} E(Yτ | x1 , . . . , xn ) dFn (x1 , . . . , xn ) (3.4) E(Yτ | τ = n) P (τ = n) = E(Yτ ), n=1 wobei Fn (x1 , . . . , xn ) die Randverteilung von Yn bezeichnet. Demzufolge gilt nun E(Yτ ) ≥ E(Yτ ). Nun ist noch die Regularität von τ nachzuweisen: Falls τ = 0 gilt, so ist τ trivialerweise regulär. Sei also τ > 0. Nach der Wahl von τ gilt E(Yτ ) > y0 und E(Yτ |x1 , . . . , xn ) > yn (x1 , . . . , xn ) für (x1 , . . . , xn ) ∈ {τ > n}. Wegen E(Yτ ) ≥ E(Yτ ) folgt E(Yτ ) ≥ E(Yτ ) > y0 . Analog zu (3.4) kann man nachprüfen, dass E(Yτ | x1 , . . . , xn ) ≥ E(Yτ | x1 , . . . , xn ) gilt. Daraus folgt E(Yτ |x1 , . . . , xn ) > yn (x1 , . . . , xn ). Folglich ist τ regulär. Infolgedessen müssen nur reguläre Stoppzeiten betrachtet werden. Sei τ1 , τ2 , . . . eine Folge regulärer Stoppzeiten in Θ, für die lim E(Yτn ) = sup E(Yτ ) n→∞ τ ∈Θ (3.5) gilt. Für n ≥ 1 definiert man die Stoppzeit γn := max{τ1 , . . . , τn }, die fordert, dass eine weitere Beobachtung zu einem beliebigen Zeitpunkt genau dann gemacht werden soll, wenn mindestens eine der Stoppzeiten τ1 , . . . , τn eine weitere zu treffende Beobachtung zu diesem Zeitpunkt fordert. Auf die gleiche Art definiert man nun die Stoppzeit τ ∗ := sup{τ1 , τ2 , . . .} = sup{γ1 , γ2 , . . .}, die fordert, dass eine weitere Beobachtung gemacht werden soll, wenn mindestens eine der Stoppzeiten τ1 , τ2 , . . . eine weitere zu treffende Beobachtung fordern. KAPITEL 3. UNENDLICHE STOPPPROBLEME 53 Lemma 3.6. Für i = 1, 2, . . . sei τi ∈ Θ eine Folge von regulären Stoppzeiten und sei γn = max{τ1 , . . . , τn } für n = 1, 2, . . .. Dann ist γn für n ≥ 1 regulär und folgende Relationen sind erfüllt: E(Yγn ) ≥ E(Yτi ) (3.6) E(Yγn ) ≤ E(Yγn+1 ) (3.7) für i = 1, . . . , n und Beweis. Es gilt γ1 = τ 1 γ2 = max{τ1 , τ2 }. γ2 stimmt mit τ1 überein mit Ausnahme, wenn nach der Beobachtung der Werte X1 = x1 , . . . , Xn = xn für die man unter τ1 stoppen, jedoch unter τ2 weitergehen würde. In einem solchen Punkt (x1 , . . . , xn ) muss die folgende Ungleichung erfüllt sein: E(Yγ2 | x1 , . . . , xn ) = E(Yτ2 | x1 , . . . , xn ) > yn (x1 , . . . , xn ) = E(Yτ1 | x1 , . . . , xn ) (3.8) Die erste Gleichung in (3.8) erhält man aus der Tatsache, dass τ2 und γ2 nach den beobachteten x1 , . . . , xn übereinstimmen. Die Ungleichung in (3.8) folgt daraus, dass die reguläre Stoppzeit τ2 ein Weitergehen fordert. Da man unter τ1 stoppen sollte, folgt die letzte Gleichung in (3.8). Somit gilt nun E(Yγ2 ) ≥ E(Yτ1 ). Auf analoge Weise erhält man E(Yγ2 ) ≥ E(Yτ2 ). Somit sind γ1 und γ2 regulär. (3.6) ist folglich für n = 1, 2 und (3.7) ist für n = 1 erfüllt. γ3 kann geschrieben werden als γ3 = max{γ2 , τ3 }. Somit ist γ3 regulär und (3.6) ist für n = 3 und (3.7) ist für n = 2 erfüllt. Seien nun obige Ungleichungen für n − 1 erfüllt. Da γn = max{γn−1 , τn } gilt, ist γn regulär und (3.6) und (3.7) sind folglich erfüllt. Demzufolge gilt nun für i = 1, . . . , n und für n ≥ 1 E(Yτi ) ≤ E(Yγn ) ≤ E(Yγn+1 ). Aus (3.5) und (3.9) erhält man nun E(Yγn ) → sup E(Yτ ) τ ∈Θ (3.9) KAPITEL 3. UNENDLICHE STOPPPROBLEME 54 für n → ∞. Um die Optimalität der Stoppzeit τ ∗ zu folgern, muss gezeigt werden, dass τ ∗ ∈ Θ und dass lim E(Yγn ) = E(Yτ ∗ ) n→∞ gilt. Wie zuvor kann man für Folgen von beobachteten Werten x1 , x2 , . . ., für welche lim γn = sup γn < ∞ n→∞ n gilt, die folgenden Bedingungen anschreiben: τ ∗ = lim γn n→∞ und Yτ ∗ = lim Yγn n→∞ (3.10) Für den Fall, dass limn→∞ γn = supn γn = ∞ gilt, ist τ ∗ = ∞ und man definiere Yτ ∗ = −∞. Somit folgt mit Hilfe von (3.2), dass die Gleichungen (3.10) auch in diesem Fall erfüllt sind. Es sei Z = supn |Yn |. Da E(Z) < ∞ nach (3.1) gilt, mit anderen Worten ist Z eine integrierbare Majorante von |Yn | und auch von |Yγn |, folgt aus (3.10) und dem Satz von der dominierten Konvergenz, dass E(Yτ ∗ ) = lim E(Yγn ) = sup E(Yτ ). n→∞ τ ∈Θ (3.11) Nun muss man noch nachweisen, dass P (τ ∗ < ∞) = 1 gilt. Falls P (τ ∗ = ∞) > 0, so würde daraus P (Yτ ∗ = −∞) > 0 und somit E(Yτ ∗ ) = −∞ folgen. Dies ist jedoch ein Widerspruch zu (3.11). Somit gilt nun τ ∗ ∈ Θ. Dass jedoch nicht immer eine optimale Stoppzeit existiert, verdeutlicht folgendes Beispiel: Beispiel. Bei diesem Spiel betrachtet man eine unendliche Folge X1 , X2 , . . . von Zufallsvariablen mit X1 = 1. Es gilt nun 2Xn mit p > 12 Xn+1 = 0 mit q = 1 − p Wiederum soll supτ ∈Θ E(Xτ ) gebildet werden. Man will nun zeigen, dass für diesen Fall keine Stoppzeit existiert, die obigen Erwartungswert maximiert. Man nimmt nun an, dass zu einem bestimmten Zeitpunkt l der beobachtete Wert x beträgt. Da p > 12 gilt, beträgt jedoch der erwartete Wert, wenn man noch einen Schritt weitergeht 2px > x. Solange der beobachtete Wert nicht zu 0 reduziert hat, ist es jedenfalls von Vorteil, eine weitere Beobachtung zu machen. In jedem Schritt beträgt die Wahrscheinlichkeit, dass man verliert, q > 0. Wenn nun so lange fortfährt, so wird man früher oder später sicher verlieren, d.h. irgendwann tritt der Wert 0 auf. Damit existiert nun keine optimale Stoppzeit. Eine sinnvolle Strategie besteht in diesem Beispiel darin, eine ganze Zahl n zu wählen und falls sich der gewonnene Betrag in den ersten Schritten nicht zu 0 reduziert hat, nach n Schritten zu stoppen und folglich den Betrag 2n zu erhalten. Natürlich kann mit der Strategie, die ein Stoppen erst nach n + 1 Schritten fordert, eine größere erwartete Auszahlung erreicht werden. KAPITEL 3. UNENDLICHE STOPPPROBLEME 3.3 55 Sampling without recall Hierbei betrachtet man eine Folge unabhängig und identisch verteilter Zufallsvariablen X1 , X2 , . . . mit bekannter Verteilungsfunktion F , wobei die Anzahl der zu wählenden Beobachtungen nicht beschränkt ist. Für jede neue Beobachtung muss jedoch ein fixer Betrag c bezahlt werden. Damit stellt man sich vor die folgende Wahl: Nachdem man den Betrag c bezahlt hat, um Xn zu beobachten, kann man nun stoppen und erhält den Wert von Xn oder man geht weiter und bezahlt den Betrag c, um Xn+1 beobachten zu dürfen. In diesem Problem ist es nicht zulässig, sich für bereits abgelehnte Beobachtungen nachträglich zu entscheiden. Man setzt nun Yn := Xn − cn. Zuallererst muss man nun beweisen, dass wirklich eine optimale Stoppregel existiert. Hierzu reicht jedoch der Beweis der Existenz einer optimalen Stoppzeit für den Fall mit recall, da der hier dargestellte Fall als Spezialfall des Problems im nächsten Abschnitt betrachtet werden kann. Zur Lösung dieses unendlichen Problems studiert man zunächst das äquivalente Problem für endlich viele Beobachtungen X1 , X2 , . . . , XN . Wiederum ist es möglich, eine einfache Rekursionsformel anzuschreiben. Der Einfachheit halber sei des Weiteren c = 1. Außerdem setzt man hl (z) := supτ ≥l E(Xτ |Xl = z). Somit gilt hN (z) = z − N und hl (z) = max {z − l, E(hl+1 (Xl+1 ))} = max z − l, ∞ −∞ hl+1 (t)d F (t) Da im unendlichen Fall keine obere Schranke für die Anzahl der möglichen Beobachtungen existiert, gilt h2 (z) = h1 (z) − 1 Im 2. Schritt befindet man sich also in derselben Situation wie im 1. Schritt, mit Ausnahme, dass man nun schon den Betrag 1 bezahlt hat. Somit folgt nun ∞ h1 (z) = max z − 1, h1 (t)d F (t) − 1 −∞ ∞ h1 (t)d F (t) − 1 = max z, −∞ =:A = max{z, A} − 1 Durch Integration obiger Gleichung erhält man folgende Fixpunktgleichung ∞ ∞ A= h1 (z)d F (z) = max(z, A)d F (z) − 1. −∞ −∞ (3.12) KAPITEL 3. UNENDLICHE STOPPPROBLEME 56 Beispiel. Die Folge der Zufallsvariablen sei U (a, b)-verteilt (a < b). Dann erhält man mit Hilfe von (3.12) für den gesuchten Wert A nach Fallunterscheidung folgendes: Für a < A < b gilt b 1 max{A, z} dz − 1 A= b−a a A b 1 = Ad z + z dz − 1 b−a a A 2 1 1 b A2 2 = (A − Aa) + − −1 b−a b−a 2 2 woraus A2 − 2bA(b2 − 2b + 2a) = 0 und A1,2 = b ± ! 2(b − a) folgt. Folglich gilt nun ! 2(b − a) ∈ (a, b) ! A2 = b − 2(b − a) ∈ (a, b) ⇔ b − a > 2. A1 = b + Für A ≤ a gilt b 1 dz − 1 b−a a b+a − 1. = 2 A= z Wegen A ≤ a ist dies genau dann eine Lösung, wenn b − a ≤ 2 ist. Für A ≥ b gilt b 1 A dz − 1 A= b−a a =A−1 und somit existiert keine Lösung in diesem Fall. Folglich erhält man für den gesuchten Fixpunkt ! b − 2(b − a) für b − a > 2 A= b+a −1 für b − a ≤ 2 2 KAPITEL 3. UNENDLICHE STOPPPROBLEME 57 Beispiel. Sei nun die Folge der Zufallsvariablen Exp(a)-verteilt. Für A > 0 gilt ∞ A= max(z, A)ae−az dz − 1 0 A ∞ −az = Aae dz + zae−az dz − 1 0 A 1 −aA −aA = A(1 − e ) + A + −1 e a woraus 1 A = − log a a folgt. Für A ≤ 0 folgt analog 1 − 1. a Damit erhält man für die Exp(a)-Verteilung folgendes: ⎧ 1 ⎪ ⎨ a −1 :a>1 A= 0 :a=1 ⎪ ⎩ 1 − a log a : 0 < a < 1 A= Beispiel. Sei nun die Folge der Zufallsvariablen N (0, 1)-verteilt. Somit gilt nun A ∞ 2 z2 1 1 − z2 √ √ Ae dz + ze− 2 dz − 1 A= 2π −∞ 2π A 1 − A2 = AΦ(A) + √ e 2 − 1 2π ≈ −0.89947156 Tabellen 3.1 bis 3.5 stellen nun die für den endlichen Fall berechneten h0 den aus dem unendlichen Fall resultierenden Lösungen der Fixpunktgleichung A für unterschiedliche Verteilungen gegenüber. 3.4 Sampling with recall Bei dieser Modifikation ist es zulässig, im l-ten Schritt aus allen bis jetzt beobachteten Zufallsvariablen X1 , . . . , Xl das Maximum zu wählen. Man setzt nun Yn := max{X1 , . . . , Xn } − cn (3.13) Zuerst weist man die Existenz einer optimalen Stoppzeit nach. Es gilt nun nur noch folgendes Lemma zu zeigen, da die Existenz einer optimalen Stoppzeit direkt aus Satz 3.3 folgt. KAPITEL 3. UNENDLICHE STOPPPROBLEME N 20 100 200 300 ∞ 58 h0 1.38629375540440 1.38629436111989 1.38629436111989 1.38629436111989 1.38629436111989 Tabelle 3.1: Gegenüberstellung der berechneten Lösungen für die Exp( 12 )-Verteilung N 20 100 200 300 ∞ h0 −0.8994715538148506 −0.8994715538148498 −0.8994715538148498 −0.8994715538148498 −0.8994715612537435 Tabelle 3.2: Gegenüberstellung der berechneten Lösungen für die N (0, 1)-Verteilung N 20 100 200 300 ∞ h0 2.5505117661807812 2.5505117661807817 2.5505117661807817 2.5505117661807817 2.550510257216822 Tabelle 3.3: Gegenüberstellung der berechneten Lösungen für die U (2, 5)-Verteilung N 20 100 200 300 ∞ h0 1.1461921983597305 1.1461921984038201 1.1461921984038201 1.1461921984038201 1.1461932206205825 Tabelle 3.4: Gegenüberstellung der berechneten Lösungen für die Gamma(2, 1)-Verteilung KAPITEL 3. UNENDLICHE STOPPPROBLEME N 20 100 200 300 ∞ 59 h0 −0.33333333333333337 −0.33333333333333337 −0.33333333333333337 −0.33333333333333337 −0.33333333333333333 Tabelle 3.5: Gegenüberstellung der berechneten Lösungen für die Beta(2, 1)-Verteilung Lemma 3.7. Sei X1 , X2 , . . . eine Folge identisch verteilter Zufallsvariablen mit gemeinsamer Verteilungsfunktion F . Sei Yn für n ≥ 1 wie in (3.13) definiert und sei Z := supn Yn . Falls der Erwartungswert der Verteilung F existiert, so gilt P (Z < ∞) = 1 und limn→∞ Yn = −∞. Falls die Varianz von F endlich ist, so gilt E(|Z|) < ∞. Beweis. Aus (3.13) und der Definition von Z folgt, dass Z ≥ supn {Xn − cn}. Andererseits gilt jedoch Yn ≤ max{X1 − c, X2 − 2c, . . . , Xn − nc} für n ≥ 1, woraus Z ≤ sup{Xn − nc} n folgt. Somit kann Z folgendermaßen geschrieben werden: Z = sup{Xn − nc} (3.14) n Man nimmt nun an, dass der Erwartungswert von F existiert und X eine Zufallsvariable mit Verteilungsfunktion F sei. Dann gilt für eine Konstante α > 0: ∞ P (X > nα) = n=1 ≤ ∞ (1 − F (nα)) n=1 ∞ 0 1 (1 − F (αx)) dx = α 0 ∞ x dF (x) < ∞ Setzt man nun α = 2c und benutzt die Tatsache, dass jede Beobachtung Xn die selbe Verteilung wie X besitzt, so kann folgende Relation aufgestellt werden. nc <∞ P Xn > 2 n=1 ∞ KAPITEL 3. UNENDLICHE STOPPPROBLEME 60 Aus dem Lemma von Borel-Cantelli folgt, dass mit Wahrscheinlichkeit 1 nur eine endligilt. Damit ist folgende Bedingung che Anzahl von Werten von n existiert, für die Xn > nc 2 mit Wahrscheinlichkeit 1 erfüllt: lim (Xn − nc) = −∞ n→∞ Damit folgt nun aus (3.14), dass P (Z < ∞) = 1 gilt. Um zu zeigen, dass Yn → −∞ mit Wahrscheinlichkeit 1 gilt, definiert man Tn := max{X1 , . . . , Xn } − nc 2 für n ≥ 1 und U := sup Tn . n Falls man nun c durch Borel-Cantelli, dass c 2 ersetzt, so erhält man mit Hilfe des ersten Teils des Lemmas von P (U < ∞) = 1 gilt. Für n ≥ 1 gilt jedoch Yn = Tn − nc nc ≤U− . 2 2 Damit gilt Yn → −∞ für n → ∞. Die Zufallsvariable N sei definiert durch N := inf{n ∈ N|Z = Xn − nc}, wobei das Infimum über die leere Menge wie üblich ∞ ist. Es gilt folglich XN = Z + cN und P (N < ∞) = 1. N entspricht also folglich dem zufälligen Zeitpunkt, zu welchem supn {Xn − nc} erreicht wird. Als Konsequenz der aus dem ersten Teil dieses Lemmas erhaltenen Resultate, folgt mit Wahrscheinlichkeit 1, dass N wohldefiniert ist. Für k ≥ 1 bezeichnet man folgendes Ereignis mit Ak . Ak := {Z > 0, ck < XN ≤ c(k + 1)} " Dann gilt jedenfalls {Z > 0} = ∞ k=1 Ak . Da XN ≤ c(k + 1) gilt, falls das Ereignis Ak eintritt, folgt nun auch Z ≤ c(k + 1), falls Ak eintritt. Bezeichnet man nun mit FZ die Verteilungsfunktion von Z, so muss folgende Relation erfüllt sein: ∞ ∞ z dFZ (z) ≤ c(k + 1)P (Ak ) (3.15) 0 k=1 KAPITEL 3. UNENDLICHE STOPPPROBLEME 61 Da XN − cN > 0 und XN ≤ c(k + 1) gilt, wenn das Ereignis Ak auftritt, folgt somit N < k + 1, wenn das Ereignis Ak eintritt. Damit erhält man für k ≥ 1 Ak ⊆ ∞ # {ck < Xi ≤ c(k + 1)} k=1 und P (Ak ) ≤ k P (ck < Xi ≤ c(k + 1)) = kP (ck < X ≤ c(k + 1)). (3.16) i=1 Mit Hilfe von (3.15) und (3.16) folgt nun 0 ∞ ∞ z dFZ (z) ≤ c (k + 1)2 P (ck < X ≤ c(k + 1)) k=1 ≤c ∞ c(k+1) c ≤ cE x +1 c 1 X c 2 +1 c ck k=1∞ =c x dF (x) 2 dF (x) 2 . +1 Falls die Varianz von F endlich ist, so ist der Erwartungswert in obiger Relation ebenfalls endlich und dies trifft dann natürlich auch auf das erste Integral in obiger Relation zu. Da Z ≥ X1 − c gilt, trifft folgendes zu: 0 z dFZ (z) > −∞ −∞ Damit gilt E(|Z|) < ∞, falls die Varianz von F endlich ist. Einfachheitshalber sei c = 1. Im Fall, dass das Spiel spätestens nach N ∈ N Schritten abbricht, ergibt sich die folgende Rekursionsformel: hN (z) = z − N hl (z) = max {z − l, E(hl+1 (max{z, Xl+1 }))} ∞ = max z − l, hl+1 (max{z, t}) dF (t) −∞ Im unendlichen Fall gilt wiederum hl+1 = hl − 1. KAPITEL 3. UNENDLICHE STOPPPROBLEME 3.5 62 Das Durchschnittproblem Bei diesem Problem betrachtet man eine wiederholt geworfene faire Münze. Stoppt man nun zu einem bestimmten Zeitpunkt, so erhält man als Gewinn in diesem Spiel die relative Häufigkeit des Ereignis Zahl“. Somit stoppt man sicherlich im ersten Schritt, falls die ” Münze beim ersten Wurf Zahl zeigt, da man keine größere Auszahlung erhalten kann. Seien nun X1 , X2 , . . . unabhängig identisch verteilte Zufallsvariablen aus einer bekannten Verteilung mit Erwartungswert μ < ∞. Man formuliert nun dieses Problem der Maximierung der relativen Häufigkeit in der allgemeinen Form eines Stoppproblems y0 = μ x1 + . . . + xn yn (x1 , . . . , xn ) = n y∞ (x1 , x2 , . . .) = μ für n = 1, 2, . . . Daraus folgt nun, dass man μ erhält, falls man keine Beobachtungen tätigt. Falls man niemals stoppt, so erhält man ebenfalls 1 Xi = μ lim n→∞ n i=1 n im Einklang mit dem Gesetz der großen Zahlen. Bevor man sich nun der Lösung dieses Problems widmet, löst man ihre vereinfachte Version, in der die Münze höchstens N -mal (N < ∞) geworfen wird, wobei man sich erhofft, dass die Lösung des endlichen Problems die Lösung des unendlichen Problems für großes N approximiert. Für das endliche Problem definiert man h0 := sup E(Zτ ) τ hl (z) := sup E(Zτ | Xl = z) τ ≥l für l ≥ 1, wobei Zn := X1 + . . . + Xn . n Im Fall des fairen Münzwurfes gilt nun 1 P (Xi = 1) = P (Xi = 0) = . 2 Wiederum kann man eine einfache Rekursionsformel aufstellen. Aufgrund von Zl+1 = l 1 Zl + Xl+1 l+1 l+1 KAPITEL 3. UNENDLICHE STOPPPROBLEME 63 gilt nun hN (z) = z l l 1 1 1 hl (z) = max z, hl+1 z+ + hl+1 z 2 l+1 l+1 2 l+1 für 1 ≤ l ≤ N . Für den gesuchten Wert h0 erhält man 1 1 h0 = h1 (1) + h1 (0) 2 2 Da nun hj (z) − z ≥ 0 monoton fallend ist, stoppt man, falls Zj ∈ {z ≤ 1 | z = hj (z)} gilt. Da Zl ∈ { 0l , 1l , . . . , ll } gilt, kann man die optimale Stoppregel folgendermaßen formulieren: Stoppe zum Zeitpunkt l, wenn Zl ≥ bl mit j j j 0 ≤ j ≤ l, hl = bl := min l l l Folglich genügt es, die hl jl für 0 ≤ j ≤ l zu berechnen. Somit erhält man abschließend folgende Rekursionsformel j j = hN N N für 0 ≤ j ≤ N und j j+1 j j 1 hl = max , hl+1 + hl+1 l l 2 l+1 l+1 für 0 ≤ j ≤ l. Für eine alternative, ausführlichere Behandlung dieses Problems sei auf Kapitel 6.4 verwiesen.Tabelle 3.6 stellt nun h0 für unterschiedliche N dar. Betrachtet man nun den Fall, dass die Anzahl der Münzwürfe nicht beschränkt sei. In diesem Fall kann der Satz 3.3 nicht auf dieses Problem angewendet werden. Man muss nun einen speziellen Beweis für die Existenz einer Stoppregel, die den erwarteten Gewinn maximiert, entwickeln. Hierzu sind nur die zusätzlichen Annahmen zu treffen, dass die Zufallsvariable X1 , X2 , . . . unabhängig und identisch verteilt sind mit Erwartungswert μ = 0 und endlicher Varianz σ 2 . Man setzt Sn := X1 + . . . + Xn n für n ≥ 1. Sei (Ω, F, P ) der zugrundeliegende Wahrscheinlichkeitsraum und Fn := σ(X1 , . . . , Xn ). KAPITEL 3. UNENDLICHE STOPPPROBLEME N 5 10 20 30 40 50 100 200 300 400 500 1000 64 h0 0.708333 0.743697 0.763413 0.771158 0.771158 0.778010 0.783894 0.787385 0.788740 0.789507 0.790029 0.791197 Tabelle 3.6: Berechnung der Werte von h0 für unterschiedliche n Man bezeichnet mit T∞ die Menge aller Zufallsvariable, welche Werte in N∪{∞} annehmen und {t ≤ n} ∈ Fn (3.17) für n ≥ 1 erfüllen. Elemente aus T∞ nennt man Stoppvariable. Weiters definiert man die Menge T ⊆ T∞ durch T = {t ∈ T∞ |P (t < ∞) = 1}. Sei Y1 , Y2 , . . . eine Folge von Zufallsvariablen und sei t ∈ T∞ , so definiert man E(Yt ) = Yt dP, (3.18) {t<∞} falls die rechte Seite definiert ist. Für t ∈ T entspricht dies der gewöhnlichen Definition des Erwartungswertes von Yt . Man ist nun bestrebt, folgendes Resultat nachzuprüfen. Satz 3.8. Es existiert eine Stoppvariable τ ∈ T , so dass Sτ St E = sup E τ t t∈T∞ (3.19) gilt. Weiters gilt 0<E Sτ τ π < √ σ. 6 (3.20) Beweis. Zum Beweis obigen Satzes formuliert man zu Beginn folgende Hilfslemmata. KAPITEL 3. UNENDLICHE STOPPPROBLEME 65 Lemma 3.9. Sei t ∈ T∞ und sei t(m) durch t falls t ≤ m t(m) = ∞ falls t > m (3.21) definiert. Dann gilt t(m) ∈ T∞ und 2 E(St(m) ) ≤ mσ 2 . (3.22) Beweis. Laut Definition ist t(m) ∈ T∞ . Um die Ungleichung (3.22) zu erhalten, geht man wie folgt vor: m m 2 2 E(St(m) ) = St dP ≤ (St2 + (Sm − Si )2 ) dP (3.23) = i=1 {t=i} m i=1 {t=i} {t=i} i=1 2 (Si + (Sm − Si )) dP = {t≤m} 2 2 Sm dP ≤ E(Sm ) = mσ 2 (3.24) (3.23) ergibt sich aus der Tatsache, dass {t = i} ∈ Fi und E(Xj | Fi ) = 0 für j > i gilt. Lemma 3.10. Für alle t ∈ T∞ und alle a > −1 gilt 2 ∞ St σ2 E . ≤ 2 a+t (a + i) i=1 Beweis. Aufgrund der Definition von t(m) folgt 2 ∞ 1 St St2 dP = E 2 a+t (a + i) {t=i} i=1 = ∞ i=1 1 2 2 (E(St(i) ) − E(St(i−1) )). 2 (a + i) (3.25) (3.26) (3.27) Man setzt nun für i ≥ 1 2 2 vi = E(St(i) ) − E(St(i−1) ) (3.28) und erhält folglich für die rechte Seite von (3.26) ∞ i=1 vi . (a + i)2 (3.29) Nach (3.28) und (3.22) erfüllen die vi die Relationen vi ≥ 0 und m i=1 vi ≤ mσ 2 für alle m ≥ 1. (3.30) KAPITEL 3. UNENDLICHE STOPPPROBLEME 66 Da (a + i)2 streng monoton wachsend in i ist und (a + i)2 > 0 gilt, ist die Summe in (3.29) monoton wachsend, wenn ein vi zunimmt und ein vj mit j > i um denselben Wert abnimmt. Damit ergibt sich, dass das Maximum von (3.29) über vi , welche (3.30) genügen, für v1 = v2 = . . . = σ 2 angenommen wird. Lemma 3.11. Für alle t ∈ T∞ und a > −1 gilt E St a+t ≤σ ∞ i=1 1 (a + i)2 1/2 . (3.31) Im Speziellen gilt für a > 0 E St a+t σ <√ . a (3.32) Beweis. (3.31) ist eine unmittelbare Folgerung aus (3.25). Aus (3.31) lässt sich wie folgt (3.32) für a > 0 herleiten: ∞ i=1 1 < (a + i)2 i=1 ∞ i i−1 du = (a + u)2 0 ∞ 1 du = . 2 (a + u) a Lemma 3.12. Falls für a > 0, b ∈ R und t ∈ T∞ b + St b E ≥ a+t a (3.33) (3.34) gilt, so existiert t ∈ T∞ mit t < ∞ ⇒ St > −b und E b + St a + t ≥ b a Beweis. Zum Beweis obigen Lemmas setzt man t falls t < ∞ und St > −b t = ∞ andernfalls (3.35) (3.36) (3.37) KAPITEL 3. UNENDLICHE STOPPPROBLEME 67 Lemma 3.13. Sei a > 0, b ∈ R und t ∈ T∞ genüge (3.35) und (3.36). Dann gilt b b + St ≥ E a + t a (3.38) für alle a ≥ a und b ≤ b. Für b > 0 tritt die Gleichheit in (3.38) nur für a = a und b = b auf. Beweis. Leitet man die rechte Seite von (3.36) nach b ab, so erhält man a1 . Die Ableitung 1 beschränkt. Somit impliziert (3.36) dieselbe Relation, wenn der linken Seite ist durch a+1 b durch b < b ersetzt wird. Es bleibt nun noch zu zeigen, dass dieselbe Relation gilt, wenn man a durch a > a ersetzt. (3.36) ist äquivalent zu E(a(b + St )/(a + t )) ≥ b und aufgrund von (3.35) ist die linke Seite wachsend in a. Lemma 3.14. Sei a ≥ a > 0, b ≤ b, t ∈ T∞ und sei (3.34) erfüllt. Dann existiert für jedes m = 0, 1, 2, . . . eine Stoppvariable tm ∈ T∞ , die tm ≤ m ⇒ Stm > b − b und E b + Stm a + tm ≥ b a (3.39) (3.40) erfüllt. Beweis. Für m = 0 ist (3.39) trivialerweise erfüllt. Nach Lemma (3.12) und Lemma (3.13) existiert t0 = t , sodass (3.40) erfüllt ist. Sei nun die Existenz von ti für i < m nachgewiesen, so setzt man (m) t0 (x1 , x2 , . . . , xm , xm+1 , xm+2 , . . .) = t0 (xm+1 , xm+2 , . . .) und definiert (m) tm−1 + t0 tm = ∞ falls tm−1 = m und Sm ≤ b − b andernfalls (3.41) (3.42) Die verwendete Abkürzung in (3.41) besitzt folgende Bedeutung: Seien ω und ω aus Ω (m) (m) mit Xi (ω ) = Xm+i (ω) für alle i ≥ 1, so gilt t0 (ω) = t0 (ω ). Die Funktion t0 ist keine Stoppvariable in T∞ , da die Menge {t = i} nicht zu Fi gehören muss, jedoch zu Fm+i gehört, und damit gilt tm ∈ T∞ . Da t0 eine feste Stoppvariable in T∞ ist, folgt nun, dass tm ∈ T∞ und nach Definition (3.39) erfüllt ist. Weiters folgt aus (3.40) mit m = 0 b + Stm−1 b + Stm E ≥E m≥1 (3.43) a + tm a + tm−1 und somit ist (3.40) für alle m erfüllt. KAPITEL 3. UNENDLICHE STOPPPROBLEME 68 Lemma 3.15. Sei (3.34) für a > 0, b > 0 und t ∈ T∞ erfüllt. Dann existiert ein t∗ ∈ T∞ , welches den Bedingungen 1 b + St∗ b 2 E > (3.44) ∗ a+t 2a und E 1 a + t∗ < 1 2σ 2 + 2 2a b (3.45) genügt. Beweis. Sei t∗ jenes tm , dessen Existenz nach vorangehendem Lemma gesichert ist, wobei nun a = a, b = 2b und m = [a]. Dann ist (3.44) erfüllt und mit Hilfe von (3.39) gilt nun b t∗ ≤ a ⇒ max(S1 , S2 , . . . , S[a] ) > . 2 (3.46) Damit erhält man nun mit der Ungleichung von Kolmogorov P (t∗ ≤ a) ≤ σ 2 [a] 4σ 2 a ≤ . (b/2)2 b2 (3.47) Es gilt nun E 1 a + t∗ P (t∗ ≤ a) P (t∗ > a) P (t∗ ≤ a) P (t∗ > a) + < + a+1 a + [a] + 1 a 2a P (t∗ ≤ a) (3.47) 1 2σ 2 1 ≤ + + 2 = 2a 2a 2a b ≤ (3.48) (3.49) Lemma 3.16. Sei a > 0 und √ b ≥ 5σ a. (3.50) Dann gilt E für alle t ∈ T∞ . b + St a+t < b a (3.51) KAPITEL 3. UNENDLICHE STOPPPROBLEME 69 Beweis. Dieses Lemma beweist man indirekt. Man nimmt an, dass (3.51) nicht zutreffend ist, so gilt nach (3.44) und (3.45) und Lemma (3.11) für das t∗ des vorangegangenen Lemmas St∗ b b b 1 σ2 σ + E < < E + +√ . (3.52) ∗ ∗ 2a 2 a+t a+t 4a b a √ Somit gilt b2 − 4σ ab − 4σ 2 a < 0, folglich erhält man √ √ √ √ b < 2σ a + 4σ 2 a + 4σ 2 a = 2(1 + 2)σ a, (3.53) was jedoch im Widerspruch zu (3.50) steht. St Dieses √ Lemma behauptet, dass man die bedingte Erwartung von t , wenn t ≥ n und Sn ≥ 5σ n gegeben sind, durch das Setzen von t = n maximieren kann. Lemma 3.17. Es gilt Sn+ E sup n n < ∞, (3.54) wobei wie üblich Sn+ = max{0, Sn } sei. Beweis. Zuerst setzt man s := supn + Sn . n P (s ≥ u) ≤ Für jedes u > 0 gilt nun ∞ P max 2i−1 ≤n<2i i=1 ≤ ∞ i=1 Sn ≥u n P ( max i Sn ≥ 2i−1 u). 1≤n<2 (3.55) (3.56) Aus der Ungleichung von Kolmogorov folgt nun P (s ≥ u) < σ 2 ∞ i=1 2i 22(i−1) u2 = 4σ 2 . u2 (3.57) Somit gilt nun E(s) = 0 ∞ P (s ≥ u) du < ∞. (3.58) Um den Beweis des Satzes zu vervollständigen, benötigt man abschließend noch das folgende Lemma. KAPITEL 3. UNENDLICHE STOPPPROBLEME Lemma 3.18. Sei t ∈ T und Yn eine Folge von Zufallsvariablen, die + E sup Yn < ∞ n 70 (3.59) erfüllt. Sei T die Familie aller Stoppvariablen t ≤ t. Dann existiert ein τ ∈ T , sodass E(Yτ ) = sup E(Yt ) (3.60) t∈T Beweis. Die Stoppzeit t ∈ T heißt regulär, falls für alle j ≥ 1 aus der Bedingung t > j stets E(Yt | Fj ) > Yj folgt. Seien nun t und t und es gelte t ≤ t , dann ist auf {t = j} die Ungleichung E(Yt | Fj ) ≥ Yj = Yt erfüllt. Somit folgt E(Yt ) ≥ E(Yt ) aus t ≤ t . Falls nun die rechte Seite von (3.60) −∞ ist, muss nichts mehr gezeigt werden. Dementsprechend nimmt man nun an, dass die rechte Seite den Wert M < ∞ annimmt. Dann existiert für jedes n ≥ 1 eine Stoppvariable tn ∈ T mit E(tn ) ≥ M − n1 . Sei tn die kleinste ganze Zahl i ≥ 1 für die E(Ytn | Fi ) ≤ Yi gilt. Folglich erhält man: tn ∈ T , E(Ytn ) ≥ E(Ytn ) und tn ist regulär. Nun setzt man tn = max(t1 , . . . , tn ). Somit gilt tn ≤ tn ≤ tn+1 und tn ∈ T ist regulär. Sei nun τ = limn→∞ tn . Mit dem Lemma von Fatou erhält man aus (3.59) die Ungleichung E(Yτ | Fj ) ≥ lim sup E(Ytn | Fj ). n→∞ Aus τ > j folgt folgt tn > j für alle n, woraus man schließlich erhält, dass aus τ > j immer E(Yτ | Fj ) > Yj folgt. Damit ist τ nun regulär. Aus τ ≥ tn ≥ tn folgt nun E(Yτ ) > M − 1 n für alle n. Somit gilt nun E(Yτ ) = M . Nun widmet man sich der Vollendung des Beweises von (3.19): Sei T ∈ T∞ wie folgt √ definiert: Man setztt T gleich der kleinsten positiven ganzen Zahl j, für die Sj > 5σ j gilt. Nach dem Gesetz des iterierten Logarithmus gilt T ∈ T . Sei nun t ∈ T∞ beliebig und setzt man t = min(t, T ), so folgt aus Lemma (3.16) St St ≥E E . t t KAPITEL 3. UNENDLICHE STOPPPROBLEME 71 Folglich bildet man das Supremum in (3.19) nur über die Klasse T ⊂ T aller Stoppvariablen kleiner oder gleich T . Da die Folge Yn = Snn für n ≥ 1 nach Lemma (3.17) die Bedingung (3.59) erfüllt, kann Lemma (3.18) angewendet werden, woraus sich die Existenz eines optimalen τ ∈ T ergibt, welches (3.19) erfüllt. Nun ist nur noch der Beweis von (3.20) ausständig: Die Stoppvariable t ∈ T∞ wird wie folgt definiert. 1 falls X1 > 0 t= ∞ andernfalls Somit gilt nun E St t = E(X1+ ) > 0. Dies ergibt nun die erste Ungleichung von (3.20). Die andere Ungleichung folgt aus (3.31) mit a = 0. Die Existenz einer optimalen Stoppregel wurde somit nachgewiesen. Die Angabe einer expliziten optimalen Strategie sowie die maximale erwartete Auszahlung ist für dieses Problem jedoch noch nicht gelöst. Chow und Robbins haben in [CR65] eine Strategie beschrieben, die zu einer erwarteten Auszahlung von größer als 0.79 führt. Man kann sich durch das Angeben folgender Stoppregel leicht davon überzeugen, dass jedenfalls eine erwartete Auszahlung von mindestens 58 = 0.625 erreicht werden kann: Falls X1 = 1 gilt, so soll man sofort stoppen, andernfalls beendet man das Spiel nach genau zwei Münzwürfen. Somit erhält man ⎧ ⎪1 für X1 = 1 Sn ⎨ = 0 für X1 = 0, X2 = 0 ⎪ n ⎩1 für X1 = 0, X2 = 1. 2 Die erwartete Auszahlung beträgt demzufolge 1 · 12 + 0 · 14 + 12 · einer optimalen Strategie lässt sich wie folgt angeben: Satz 3.19. Die Zahlen βn (n ≥ 1), die durch βn βn + Sτ = sup n τ ∈T∞ n + τ definiert werden, erfüllen βn lim sup √ ≤ c1 σ n n→∞ 1 4 = 58 . Einzig die Struktur KAPITEL 3. UNENDLICHE STOPPPROBLEME 72 und βn lim inf √ ≥ c2 σ, n→∞ n wobei c1 = 4.06 . . . dem Infimum für 0 < ν < 1 der positiven Wurzel c der Gleichung c − νc2 + ν log(1 + (1 − ν)2 c2 ) = 0 2 (1 − ν) entspricht und c2 = 0.32 . . . dem Supremum für ν > 0 der positiven Wurzel c der Gleichung √ ∞ 2 c2 ν c − 2ν − u2 √ e c− +√ e du = 0. ν − √c (1 + ν) 2π ν Der Beweis zu Satz 3.19 kann in [Dvo67] nachgelesen werden. Kapitel 4 Lösung mit Hilfe von Markov-Ketten Nun will man das vorangegangene Problem der besten Wahl durch die Konstruktion einer geeigneten speziellen Markov-Kette lösen. Man lernt in zufälliger Reihenfolge n Objekte kennen und muss unter diesen Objekten ein bestes auswählen. Wenn man das nächste Objekt kennenlernt, muss dieses entweder gewählt oder abgelehnt werden. Es ist nicht zulässig, sich für ein zuvor abgelehntes Objekt nachträglich zu entscheiden. Zur besseren Veranschaulichung kann man diese Objekte auch durch Punkte auf der Zahlengerade darstellen. Die n Objekte, die in bestimmter Weise geordnet sind, werden auf der Zahlengerade von links nach rechts nach steigender Präferenz geordnet. Man bezeichnet das im i-ten Schritt vorgestellte Objekt mit Xi . Im i-ten Schritt sind die relativen Ränge Y1 , . . . , Yi bekannt. Nun wird obig gestellte Aufgabe hinsichtlich der Darstellbarkeit der Objekte mit Hilfe der Zahlengerade konkretisiert: Die Aufgabe besteht darin, unter den n Punkten den am weitesten rechts liegenden zu finden und ihn im Moment des ersten Auftretens zu wählen. Die Wahrscheinlichkeit dieses Ereignisses soll maximiert werden. Zuerst benötigt man folgende Definition Definition 4.1. I1 := (−∞, X1 ), I2 := (X1 , X2 ), . . . , Ik := (Xk , ∞) bezeichnet die Intervalle auf der Zahlengerade, die durch die Objekte gegeben sind. Die Wahrscheinlichkeit mit der Xk+1 in jedes der k + 1 Intervalle fällt, lässt sich auf einfache Art wie folgt berechnen: Fällt ein Xk+1 in ein bestimmtes festes Intervall, so entspricht dem eine Permutation der k + 1 Punkte X1 , . . . , Xk+1 . Die Wahrscheinlichkeit einer derartigen Permutation beträgt 1 . Die Wahrscheinlichkeit der Permutation der Punkte X1 , . . . , Xk beträgt k!1 . Mit Hilfe (k+1)! dieser beiden Beobachtungen erhält man für die bedingte Wahrscheinlichkeit P (Xk+1 ∈ Ii | Y1 , . . . , Yk ) = für i = 1, . . . , k + 1. 73 1 (k+1)! 1 k! = 1 . k+1 KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN 74 Definition 4.2. Ein Xi heißt Kandidat, falls Yi = 1 gilt. Laut obiger Definition wird nun der Punkt gesucht, der als letzter in der Folge der Kandidaten auftritt. Bei jedem Kandidaten steht man vor der Entscheidung, ob man stoppen oder weitergehen soll. Man ordnet nun die bis zum k-ten Schritt beobachteten Objekte: Λ1 (k) < Λ2 (k) < . . . < Λk (k) Also ist Λk (k) das beste der bisherigen k Objekte. Wenn die Anzahl der bisher beobachteten Objekte aus dem Kontext klar wird, dann schreibt man auch Λi = Λi (k). Das folgende Lemma soll nun bewiesen werden. Lemma 4.3. Eine beliebige Permutation der Punkte Λk , Xk+1 , . . . , Xn ist von der Auftrittsreihenfolge der Punkte Λ1 , . . . , Λk−1 unabhängig. Beweis. Weder die gegenseitige Lage der Punkte Λk , Xk+1 , . . . , Xn noch deren Lage bezüglich der Punkte Λ1 , . . . , Λk−1 hängt von der Auftrittsreihenfolge der Punkte Λ1 , . . . , Λk−1 ab. Es ist bereits bekannt, dass P (Xk+1 ∈ Ii ) = 1 k+1 gilt. Diese Ereignis ist jedoch unabhängig von der Reihenfolge des Erscheinens der Punkte 1 Λ1 , . . . , Λk−1 . Folglich gilt auch, dass Xk+2 mit der Wahrscheinlichkeit k+2 in jedes der Intervalle, die von den Punkten Λ1 , . . . , Λk und Xk+1 gebildet werden, fällt. Dieses Ereignis ist wiederum unabhängig von der Reihenfolge des Erscheinens von Λ1 , . . . , Λk−1 . Für den allgemeinen Fall ergibt sich nun: Die Wahrscheinlichkeit einer beliebigen Permutation der Punkte Λ1 , . . . , Λk , Xk+1 , . . . , Xn beträgt 1 1 1 · · ... · , k+1 k+2 n was unabhängig von der Reihenfolge des Auftretens der Punkte Λ1 , . . . , Λk−1 ist. Um eine optimale Entscheidung zu treffen, hat man also sein Augenmerk nur auf die Indizes der Kandidaten zu richten. Diese wachsenden Indizes bezeichnet man mit x0 , x1 , . . .. Diese xi sind nach oben durch n beschränkt und es gilt x0 = 1. Mit Hilfe der Festsetzung der xi lässt sich dieses Problem nun wie folgt formulieren: Man muss den letzten Index in der Folge der xi , der dem Index des am weitesten rechts liegenden Punktes entspricht, mit maximaler Wahrscheinlichkeit erraten. Für die optimale Strategie muss man weder die Anzahl der xi noch die Werte der vorangegangen x0 , . . . , xi−1 kennen. Hierzu fehlt jedoch noch folgendes Wahrscheinlichkeitsgesetz dieser zufälligen Folge, das sich als Eigenschaft einer Markov-Kette herausstellen wird. KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN 75 Definition 4.4. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X ein höchstens abzählbare Zustandsraum. Eine Folge von Zufallsvariablen Zn : Ω → X mit n ≥ 0 heißt MarkovKette, wenn P (Zn+1 = yn+1 | Zn = yn , . . . , Z0 = y0 ) = P (Zn+1 = yn+1 | Zn = yn ). Zukunft Gegenwart Vergangenheit für alle n und für alle y0 , . . . , yn+1 ∈ X mit P (Zn = yn , . . . , Z0 = y0 ) > 0 gilt. Die Wahrscheinlichkeit pn (yn , yn+1 ) := P (Zn+1 = yn+1 | Zn = yn ) bezeichnet man als Übergangswahrscheinlichkeit. Bei einer Markov-Kette hängt also die Zukunft allein von der Gegenwart, jedoch nicht von der Vergangenheit ab. Für die zufällige Folge der xi gilt nun P (xi+1 = l| x0 = 1, x1 = a, . . . , xi = k) = P (xi+1 = l| xi = k) genau dann, wenn X1 , Xa , . . . , Xk die Kandidaten unter X1 , . . . , Xk sind. Sei nun Xk ein Kandidat und die relative Lage von X1 , . . . , Xk−1 sei bekannt. So bedeutet xi+1 = l, dass Xk+1 , . . . , Xl−1 links von Xk und Xl rechts von Xk liegt. Die bedingte Wahrscheinlichkeit eines beliebigen Ereignisses, welches von der relativen Lage der Punkte Xk , . . . , Xn abhängt, unter der Bedingung, dass etwas über die relative Lage der Punkte X1 , . . . , Xk−1 bekannt ist, hängt folglich nur vom Index ab. Nun wird die Übergangswahrscheinlichkeit dieser Markov-Kette definiert. Definition 4.5. Mit P (xi+1 = l| x0 = 1, x1 = a, . . . , xi = k) = P (xi+1 = l| xi = k) = pkl bezeichnet man die Übergangswahrscheinlichkeit. Als Zustandsraum {1, . . . , n} der xi wird die Menge von Punkten bezeichnet, auf denen ein Teilchen eine Irrfahrt ausführt. Abbildung 4.1 veranschaulicht obigen Sachverhalt. P1n P 1k 1 P12 2 k n Abbildung 4.1: Darstellung der Irrfahrt auf dem Zustandsraum {1, . . . , n} Zu Beginn befindet sich das Teilchen im Punkt 1. Die Übergangswahrscheinlichkeit von Zustand k in den Zustand l kann als unabhängig von allen vorigen Zuständen angesehen werden. Der Übergang des Teilchens von k nach l bedeutet, dass auf Kandidat Xk Kandidat Xl folgt. KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN 76 Definition 4.6. Die Extinktionswahrscheinlichkeit p(e) ist folgendermaßen festgelegt: p(e) := 1 − pkl . l Somit bedeutet also die Extinktion des Teilchens, dass keine weiteren Kandidaten mehr existieren. Zur wirklichen Lösung obigen Problems muss die Übergangswahrscheinlichkeit pkl berechnet werden: Es gilt pkl = P (xi = k, xi+1 = l) P (xi = k) für l > k und pkl = 0 für l ≤ k. Das Ereignis xi = k, xi+1 = l bedeutet, dass unter den Punkten X1 , . . . , Xl die Punkte Xl und Xk am weitesten rechts liegen und es gilt weiters Xl > Xk . Nun ergibt sich 1 P (xi = k, xi+1 = l) = l(l − 1) und P (xi = k) = 1 . k Folglich erhält man nun k . l(l − 1) Da aus der Menge {1, . . . , n} insgesamt 2n Teilmengen gebildet werden können, entspricht dies der Anzahl aller möglichen Strategien. Das Ziel besteht nun in der Auswahl einer optimalen Strategie. qk sei die bedingte Gewinnwahrscheinlichkeit unter der Bedingung, dass für einen Kandidaten mit Index k gestoppt wird. Somit ergibt sich nun n n k qk = 1 − pkl = 1 − l(l − 1) l=k+1 l=k+1 n 1 1 k =1−k − = l l−1 n k=l+1 pkl = für 1 ≤ k ≤ n. Weiters sei qk die bedingte Gewinnwahrscheinlichkeit unter der Bedingung, dass man bei einem Kandidaten mit Index k weitergeht und erst beim nächsten stoppt. Daraus ergibt sich n n l k qk = pkl ql = · l(l − 1) n l=k+1 l=k+1 k 1 1 1 (4.1) = + + ... + n k k+1 n−1 1 1 1 + + ... + = qk k k+1 n−1 KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN für k < n und 77 qn = 0. Da obige Summe 1 1 + ... + k n−1 q monoton fallend für wachsendes k ist, folgt daraus unmittelbar, dass qkk monoton fallend ist. Dieses Resultat führt zu der Tatsache, dass eine kleinste natürliche Zahl kn existiert, sodass qk ≤ qk für k = kn , . . . , n gilt. Es soll nun gezeigt werden, dass Γ = {kn , . . . , n} eine optimale Strategie darstellt. Dies bedeutet, dass man wartet solange xi < kn gilt und stoppt, wenn zum ersten Mal xi ≥ kn erfüllt ist. Man trifft nun die Annahme, dass n ≥ 3 gilt. Auf die beiden anderen Fällen n = 1, 2 sind nämlich die folgenden Überlegungen nicht anwendbar, da jeweils kn = 1 gilt. Aus 1 1 q1 = q1 1 + + . . . + > q1 2 n−1 folgt kn > 1 im Fall n ≥ 3. Folglich sind alle Strategien, die im Punkt x0 = 1 stoppen, nicht als optimal zu werten. Nun betrachten wir also nur noch jene Strategien, die beim 1. Index nicht stoppen: Für 2 ≤ k ≤ n gilt p1k > 0. Es wird also bei der Anwendung einer Strategie A mit einer positiver Wahrscheinlichkeit pk (A) bis zu einem beliebigen Index k gewartet. Angenommen, eine Strategie A stoppt bei einem Index k < kn . Dann definiert man eine neue Strategie A wie folgt: Falls der aktuelle Kandidat den index k besitzt und A damit ein Stoppen fordert, so stoppt A erst beim nächsten Kandidaten. Andernfalls schreibt A dasselbe Verhalten wie A vor. Diese Strategie wäre aber jedenfalls besser als A, denn es gilt: P (Gewinnen mit A ) = pk (A)(qk − qk ) + P (Gewinnen mit A). Das Stoppen bei den Indizes 1, . . . , kn − 1 kann für eine optimale Strategie also jedenfalls ausgeschlossen werden. Mit Hilfe der Rückwärtsinduktion soll gezeigt werden, dass folgendes Lemma gilt. Lemma 4.7. Die optimale Strategie Γ fordert ein sofortiges Stoppen in den Punkten der Menge {kn , . . . , n}, falls n ≥ 3. Beweis. Angenommen, die optimale Strategie Γ lehnt den Index n ab. Dann definiert man die Strategie Γ wie folgt: Die Strategie Γ verhält sich wie Γ, nur dass zusätzlich ein Stoppen für einen Kandidaten mit Index n gefordert wird. Diese Strategie ist jedenfalls besser als Γ, denn es gilt P (Gewinnen mit Γ ) = pn (Γ) + P (Gewinnen mit Γ). Dies steht jedoch im Widerspruch zur Optimalität von Γ. Somit ist der Fall k = n bewiesen. KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN 78 Sei nun die Induktionsvoraussetzung für k + 1, k + 2, . . . , n mit k ≥ kn + 1 bewiesen. Angenommen, Γ lehnt den Index k ab. Die Strategie Γ , die ein Stoppen für einen Kandidaten mit Index k fordert und sonst mit Γ übereinstimmt, wäre in jedem Fall besser als die Strategie Γ, die k ablehnt, denn es gilt: Ist das Objekt mit Index k ein Kandidat, so wird in Γ sofort gestoppt, in Γ wird aber erst beim nächsten Kandidaten gestoppt. Daraus folgt P (Gewinnen mit Γ ) = pk (Γ)(qk − qk ) + P (Gewinnen mit Γ). Also fordert Γ ein Stoppen für einen Kandidaten mit Index k. Es ist nun gezeigt worden, dass die optimale Strategie Γ ein Stoppen in 1, . . . , kn − 1 verbietet und in kn + 1, . . . , n fordert. Gilt qk n < qkn , so lässt sich die Induktion bis k = kn fortsetzen. Die Strategie Γ schreibt also auch im Punkt kn ein Stoppen vor. Falls qk n = qkn gilt, so ist man im Punkt kn indifferent zwischen Stoppen und Weitergehen. In diesem Fall soll kn ∈ Γ gelten. qk Man beschäftigt sich nun mit der Frage, wann diese Gleichheit auftreten kann: Wenn = qk für einen Index k gilt, so folgt 1= 1 1 1 + + ... + k k+1 n−1 mit Hilfe von (4.1). Diese Gleichung hat aber nur die Lösung n = 2 und k = 1. Das optimale Auswahlverfahren sieht nun folgendermaßen aus: Lasse die ersten kn − 1 Objekte passieren und wähle anschließend das erste Objekt, das größer als alle vorhergehenden ist, wobei kn die kleinste natürliche Zahl ist, für die qk n ≤ qkn gilt. Die Zahl kn wird somit durch folgende Ungleichung festgelegt: 1 1 1 1 1 + ... + + ... + ≤1< + kn n−1 kn − 1 kn n−1 (4.2) Nun soll die Gewinnwahrscheinlichkeit mittels obiger Strategie berechnet werden. Dazu definiert man Definition 4.8. Sei sm die Wahrscheinlichkeit, dass das erste Objekt nach den abgelehnten kn − 1 Objekten, welches besser als alle vorangehenden ist, den Index m besitzt. Dieses Ereignis bedeutet, dass unter den Punkten X1 , . . . , Xm der am weitesten rechts liegende Xm und der nächstfolgende ein beliebiger unter den Punkten X1 , . . . , Xkn −1 ist. Die Wahrscheinlichkeit eines solchen Ereignisses beträgt Sm = 1 kn − 1 kn − 1 = . mm−1 m(m − 1) KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN k 9 8 7 6 5 4 3 2 1 1 k 79 1 + . . . + n−1 0.111 0.125 0.143 0.167 0.200 0.996 1.329 1.829 2.829 Tabelle 4.1: Berechnung der Summe für n = 10 Die Gewinnwahrscheinlichkeit ergibt sich zu n n m kn − 1 · m(m − 1) n m=kn m=kn n 1 kn − 1 1 kn − 1 1 1 = + ... + = + . n m=k m − 1 n kn − 1 kn n−1 pn = sm qm = (4.3) n Zur besseren Veranschaulichung ist in Tabelle 4.1 die Summe für n = 10 berechnet: Aus 9 1 > 1 und m m=3 9 1 ≤1 m m=4 folgt kn = 4. Die ersten drei Objekte werden also abgelehnt und dann wird das erste mit relativem Rang 1 gewählt. Es ist relativ einfach, gute Approximationen von kn und pn für große n zu finden. Für beliebige m ≥ 2 gilt m m+1 1 1 1 dx < < dx = log m − log (m − 1) log (m + 1) − log (m) = x m m m−1 x woraus log n 1 1 1 n−1 < + + ... + < log k k k+1 n−1 k−1 durch Summation folgt. Mit (4.2) erhält man aus obigen Ungleichungen log n n−1 < 1 < log kn kn − 2 KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN 80 und somit n 1 n < kn < + 2 − . e e e Da in ein Intervall der Länge 2 − 1e ≈ 1.632 nicht mehr als zwei ganze Zahlen fallen können, ist es möglich die Zahl kn für ein beliebiges n mit einem Fehler zu bestimmen, der nicht größer als 1 ist. Aus (4.2) folgt nun 1 1 1 lim + ... + + =1 n→∞ kn − 1 kn n−1 Mit (4.3) gelangt man so zu 1 kn − 1 = ≈ 0.368. n→∞ n e lim pn = lim n→∞ Erstaunlicherweise liefert bereits eine einfache Strategie eine Gewinnwahrscheinlichkeit von mehr als 14 . Sei nun n gerade. Man wartet n2 Objekte ab und wählt in weiterer Folge das erste auftretende Objekt mit relativem Rang 1. Bei dieser Strategie erhält man das beste Objekt beispielsweise dann, wenn das zweitbeste Objekt in der ersten und das beste Objekt in der zweiten Hälfte auftritt. Für die Gewinnwahrscheinlichkeit gilt nun P (Xi = 1 mit i ∈ A, Xl = 2 mit l ∈ B) = = P (Xi = 1 mit i ∈ A | Xl = 2 mit l ∈ B) · P (Xl = 2 mit l ∈ B) = n n 1 n 1 = 2 · 2 = > , n−1 n 4n−1 4 wobei A := sei. $n 2 + 1, % n + 2, . . . , n 2 und $ n% B := 1, 2, . . . , 2 Kapitel 5 Optimales Stoppen von Markov-Ketten Im vorigen Abschnitt wurde das Problem der besten Wahl gelöst, indem man eine geeignete spezielle Markov-Kette konstruierte. Im Folgenden untersucht man nun das allgemeine Problem des optimalen Stoppens einer beliebigen Markov-Kette. In jedem Zeitpunkt befindet sich ein gewisses Teilchen in einem bestimmten Zustand. Die Gesamtheit aller Zustände bildet eine endliche oder abzählbare Menge A, die man als Zustandsraum bezeichnet. Die Übergangswahrscheinlichkeiten pxy können beliebige nichtnegative Zahlen sein, welche pxy ≤ 1 y für alle x ∈ A erfüllen. Gilt y pxy < 1 für einen gewissen Zustand x, so ist q(x) = 1 − y pxy die Extinktionswahrscheinlichkeit des in x befindlichen Teilchens für den nächsten Schritt dar. Ein vernichtetes Teilchen kann nicht neu gebildet werden, sodass die Kette in diesem Fall für immer abbricht. Mit xn bezeichnet man die Lage des Teilchens zum Zeitpunkt n. Man nimmt nun an, dass man die Trajektorie x0 , x1 , . . . , xn beobachtet und die Bewegung des Teilchens zu einem beliebigen Zeitpunkt n stoppen kann. Falls sich das Teilchen zum Zeitpunkt des Stoppens im Punkt x befindet, so erhält man die Auszahlung f (x), wobei f eine bekannte Funktion ist. Falls der Prozess nicht gestoppt wird, so beträgt die Auszahlung 0. Es stellt sich das Problem, wie man eine größtmögliche Auszahlung erzielen kann. Ex bezeichne nun den gewöhnlichen Erwartungswert, wenn sich das Teilchen am Anfang im Punkt x befindet. In diesem Kapitel werden wir Stoppzeiten als Markov-Zeiten“ bezeichnen. ” Somit kann man obiges Problem folgendermaßen formulieren: Auf einer endlichen oder abzählbaren Menge A sind eine Markov-Kette mit den Übergangswahrscheinlichkeiten pxy und eine beschränkte Funktion f gegeben. Man muss nun 1. v(x) = supτ Ex (f (xτ )) berechnen, wobei τ alle Markov-Zeiten durchläuft und 81 KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 82 2. eine Markov-Zeit τ0 finden, für welche Ex (f (x(τ0 ))) = v(x) gilt. Man bezeichnet nun v(x) als den Wert des Spiels und die Markov-Zeit τ0 als optimale Strategie. Zur besseren Veranschaulichung wendet man sich nun einigen Beispielen und Spezialfällen zu: Falls f ≤ 0 auf dem gesamten Zustandsraum A gilt, so besitzt das Problem eine triviale Lösung: Ersichtlich kann man als optimale Strategie τ0 = ∞ wählen, das heißt der Prozess wird niemals gestoppt; es gilt also v(x) = 0. Im Folgenden schließt man diesen uninteressanten Fall aus und setzt voraus, dass supx f (x) > 0 gilt. Weiters betrachtet man die einfache Irrfahrt auf dem eindimensionalen Punktgitter. Da das Teilchen mit Wahrscheinlichkeit 1 früher oder später in einen beliebigen Zustand x gelangt, gilt v(x) = c, wobei c := supx f (x) gesetzt wurde, da man so lange warten kann, bis das Teilchen in einen Punkt gelangt, in welchem die Funktion f einen hinreichend nahe bei c liegenden Wert annimmt. Falls f den Wert c auf einer Teilmenge A des Gitters annimmt, so stellt der Augenblick des ersten Eintritts in die Menge A eine optimale Strategie dar. Falls f nirgends den Wert c annimmt, so existiert keine optimale Strategie; jedoch kann man eine Auszahlung erzielen, die sich beliebig wenig von c unterscheidet. Nun betrachtet man eine einfache Irrfahrt auf der Menge {0, . . . , 12} mit Absorption in den Endpunkten. y v(x) f(x) 0 x 1 2 3 4 5 6 7 8 9 10 11 12 Abbildung 5.1: Eindimensionale Irrfahrt Es gilt nun p0, 0 = p12, 12 = 1 und px, x+1 = px, x−1 = 1 2 für 0 < x < n. Die Punkte 0 und 12 wirken folglich absorbierend auf das Teilchen. Da es unmöglich ist, die Punkte 0 und 12 zu verlassen, gilt v(0) = f (0) = 0, v(12) = f (12) = 0, wobei die Funktion f wie in Abbildung 5.1 definiert ist. In diesen Punkten ist es nicht notwendig KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 83 zu warten, man kann dort sofort stoppen. Auf ähnliche Weise führt man sich vor Augen, dass man im Punkt 9 sofort stoppen kann: In diesem Zustand nimmt die Funktion f (x) ihr globales Maximum an. Lässt man den Prozess weiterlaufen, so kann sich die Auszahlung nur verringern. Dies bedeutet, dass v(9) = f (9) gilt. Umgekehrt ist es unvorteilhaft, im Punkt 5 zu stoppen, da f (x) dort ein lokales Minimum annimmt: Schon nach einem Schritt kann man zu einer Auszahlung gelangen, die höher als f (5) ist. Demnach gilt v(5) > f (5). Wie verhält es sich nun mit den restlichen Zuständen? Im Punkt 3 besitzt die Funktion f (x) ein lokales Maximum. Wartet man noch ein oder zwei Schritte, so verringert sich die mittlere Auszahlung. Wartet man länger, so kann man hoffen, dass der Prozess in den Bereich des anderen, größeren Maximums fällt, in welchem die Auszahlung bedeutend größer als f (3) ist. Es besteht jedoch die Gefahr, dass man in den Zustand 0 gelangt und folglich keine Auszahlung erhält. Wie man später sehen wird, ist in diesem Beispiel der Wert v(x) des Spiels die kleinste unter denjenigen konkaven Funktionen, welche größer oder gleich f (x) ist. Um den Graphen der Funktion v(x) zu erhalten, hat man oberhalb des Graphen der Funktion f (x) einen Faden zu spannen, der in Abbildung 5.1 durch die punktierte Linie dargestellt wird. Als optimale Strategie erweist sich das Stoppen der Kette zum Zeitpunkt τ0 , wenn das Teilchen zum ersten Mal in einen Punkt x gelangt, für welchen f (x) = v(x) gilt. Im Folgenden wird bewiesen, dass das Problem im allgemeinen Fall der Kette mit endlich vielen Zuständen eine analoge Lösung besitzt. Dabei spielt die Klasse der mit einer gegebenen Markov-Kette verknüpften exzessiven Funktionen die Rolle der konkaven Funktionen. In folgenden Abschnitt wird die in diesem Zusammenhang wichtige Bedeutung von exzessiven Funktionen verdeutlicht. 5.1 Exzessive Funktionen Zu Beginn untersucht man nur jene Auszahlungsfunktionen f , für welche eine optimale Strategie im sofortigen Stoppen besteht. Folglich muss für solche Funktionen f bei beliebiger Markov-Zeit τ die folgende Ungleichung für alle x ∈ A erfüllt sein: f (x) ≥ Ex (f (xτ )) (5.1) Da man es im Allgemeinen mit unendlichen vielen Markov-Zeiten zu tun hat, wäre es sehr mühsam, obige Ungleichung für jede Markov-Zeit τ nachzuprüfen. Es wird jedoch genügen, (5.1) für τ = ∞ und τ = 1 nachzuprüfen. Ist (5.1) in diesen beiden Fällen erfüllt, so gilt (5.1) auch für alle übrigen Markov-Zeiten. Für τ = ∞ folgt nun aus (5.1) f (x) ≥ 0 (5.2) KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 84 für alle x ∈ A. Für τ = 1 gilt demnach mit (5.1) f (x) ≥ P f (x), (5.3) wobei P den Übergangsoperator bezeichnet, der durch pxy f (y) P f (x) = y∈A definiert ist. Definition 5.1. Eine nichtnegative Funktion f , für die P f ≤ f gilt, heißt exzessiv. Man will nun zeigen, dass die Ungleichung (5.1) für eine beliebige Markov-Zeit τ gilt, falls f exzessiv ist. Im Falle einer beschränkten exzessiven Funktion folgt die Gültigkeit von (5.1) einfach aus Satz 6.2 im Kapitel 6. Nachfolgend wird jedoch ein direkter Beweis durch Potentiale angeführt, der die typische Methodik der Theorie der Markov-Prozesse illustriert. Hierzu stellt man nun die exzessive Funktion f als Summe einer nichtnegativen Konstanten, für die (5.1) sicher erfüllt ist, und des Potentials Gϕ(x) = ϕ(x) + P ϕ(x) + P 2 ϕ(x) + . . . = Ex (ϕ(x0 ) + ϕ(x1 ) + . . .) (5.4) der nichtnegativen Funktion ϕ = f − P f dar. Für das Potential ergibt sich die Ungleichung (5.1) aus der Beziehung Ex (Gϕ(xτ )) = Ex (ϕ(xτ ) + ϕ(xτ +1 ) + . . .), (5.5) in welcher die rechte Seite höchstens gleich der rechten Seite von (5.4) ist. Im Falle einer beliebigen Markov-Kette kann die Reihe (5.4) divergieren. Dieses unerwünschte Verhalten beseitigt man durch die Einführung eines konvergenzerzeugenden Koeffizienten α < 1, den man später gegen 1 streben lässt. Setzt man nun ϕ(x) = f (x) − αP f (x) 0 < α < 1, so erhält man f = ϕ + αP ϕ + α2 P 2 ϕ + . . . + αn P n ϕ + αn+1 P n+1 f, wobei wegen (5.3) auf Grund der Definition ϕ ≥ 0 gilt. Weiters gilt pnxy ϕ(y) = Ex (ϕ(xn )) P n ϕ(x) = (5.6) y für alle n ≥ 0. Die Gleichung (5.6) prüft man nun mittels vollständiger Induktion nach: Für n = 0 führt diese Formel zu ϕ(x) = ϕ(x). Es gilt nun = pxz pnzy , pn+1 xy z KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 85 wobei pnxy die Übergangswahrscheinlichkeit von x nach y in n Schritten bezeichnet. Sei nun (5.6) für n bewiesen, so folgt pn+1 pxz pnzy ϕ(y) Ex (ϕ(xn+1 )) = xy ϕ(y) = y = z y pxz (P n ϕ(z)) = P n+1 ϕ(x). z Beachtet man, dass αn P n f → 0 für n → ∞ aus 0 ≤ P n f = P n−1 (P f ) ≤ P n−1 f folgt, so erhält man mit Hilfe von (5.6) für f folgende Reihendarstellung f (x) = ϕ(x) + αP ϕ(x) + α2 P 2 ϕ + . . . = Ex (ϕ(x0 ) + αϕ(x1 ) + α2 ϕ(x2 ) + . . .). (5.7) Ebenso, wie sich (5.5) aus (5.4) ergibt, folgt nun mittels (5.7) Ex (ατ f (xτ )) = Ex (ατ ϕ(xτ ) + ατ +1 ϕ(xτ +1 ) + . . .). (5.8) Der Vergleich von (5.7) und (5.8) führt zu f (x) ≥ Ex (ατ f (xτ )). Um hieraus (5.1) zu erhalten, lässt man nun α gegen 1 streben. Auf ähnliche Art beweist man folgende allgemeine Eigenschaft von exzessiven Funktionen. Satz 5.2. Ist f exzessiv und sind τ, τ Markov-Zeiten mit τ ≥ τ , so gilt Ex (f (xτ )) ≥ Ex (f (xτ )) (5.9) für alle x ∈ A. Beweis. Da τ ≤ τ gilt, wird die Reihe in (5.8) für τ die Glieder der Reihe in (5.8) für τ enthalten, möglicherweise jedoch noch weitere positive Summanden. Folglich ergibt sich für 0 < α < 1 Ex (ατ f (xτ )) ≥ Ex (ατ f (xτ )). Für α → 1 folgt nun (5.9). Aus obigem Satz erhält man nun folgendes Korollar. Korollar 5.3. Ist f exzessiv und bezeichnet τ den Augenblick des ersten Eintritts in eine gewisse Teilmenge A , so ist die Funktion h(x) = Ex (f (xτ )) ebenfalls exzessiv. KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 86 Beweis. Hierzu bezeichnet man mit τ den ersten unter den Zeitpunkten t ≥ 1, zu denen sich das Teilchen in der Menge A befindet. Aus τ ≥ τ folgt nun Ex (f (xτ )) ≤ Ex (f (xτ )) = h(x). Gelangt aber das Teilchen beim ersten Schritt von x nach y, so wird dabei Ex (f (xτ )) gleich Ey (f (xτ )) = h(y). Somit gilt folglich pxy h(y) = P h(x), Ex (f (xτ )) = y∈A also P h ≤ h. 5.2 Der Wert des Spiels Folgendes Lemma gibt über den Zusammenhang zwischen exzessiven Funktionen und dem Wert des Spiels Auskunft. Lemma 5.4. Majorisiert eine exzessive Funktion g die Auszahlungsfunktion f , so majorisiert sie auch den Wert v des Spiels. Beweis. Gilt nämlich g ≥ f und ist g exzessiv, so folgt für eine beliebige Strategie τ Ex (f (xτ )) ≤ Ex (g(xτ )) ≤ g(x) und somit v(x) = sup Ex (f (xτ )) ≤ g(x) τ Lemma 5.5. Der Wert v(x) des Spiels ist exzessiv. Beweis. Die Funktion v ist nichtnegativ, da man die Auszahlung 0 stets durch Wahl der Strategie τ = ∞ erreichen kann. Es muss nur noch die Beziehung P v ≤ v nachgeprüft werden. Dazu konstruiert man eine Strategie τ , die zu einer beliebig nahe bei P v(x) gelegenen mittleren Auszahlung Ex (f (xτ )) führt. Anschließend verwendet man die Ungleichung Ex (f (xτ )) ≤ v(x). Für ein gegebenes > 0 und ein y ∈ A bezeichne τ,y eine Strategie, für welche Ey (f (xτ,y )) ≥ v(x) − KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 87 gilt. Die Strategie τ bestehe darin, zunächst einen Schritt abzuwarten und anschließend im Fall, dass dieser Schritt das Teilchen in den Zustand y überführt, die Strategie τ,y anzuwenden. Dies kann wie folgt präzisiert werden: Gilt x1 = y, so sei τ = 1+τ,y gesetzt, wobei τ,y zur Trajektorie x1 , x2 , . . . gehöre, die nicht zum Zeitpunkt 0, sondern zum Zeitpunkt 1 beginnt. Für diese Markov-Zeit τ gilt nun pxy Ey (f (xτ,y )) ≥ pxy (v(y) − ) Ex (f (xτ )) = y∈A = P v(x) − y∈A pxy ≥ P v(x) − y∈A Folglich gilt v(x) ≥ P v(x) − für > 0. Daraus ergibt sich P v(x) ≤ v(x), und v ist exzessiv. Aus beiden obigen Lemmata erhält man nun folgende Aussage: Der Wert v des Spiels ist die kleinste aller exzessiven Funktionen, die mindestens gleich der Auszahlungsfunktion f sind. Das gewonnene Resultat erlaubt es, im Fall endlich vieler Zustände den Wert des Spiels mit Hilfe von Methoden der linearen Programmierung zu finden. In der Tat ist der Wert v(x) des Spiels die kleinste Funktion, die das System der 3n linearen Ungleichungen pxy v(y), v(x) ≥ f (x), v(x) ≥ 0 v(x) ≥ y∈A für x ∈ A erfüllt, wobei n der Anzahl der Zustände der Markov-Kette entspricht. 5.3 Die optimale Strategie Man bezeichne nun die Menge aller Zustände x, in denen die Auszahlungsfunktion f (x) mit ihrer exzessiven Majorante v(x) übereinstimmt, mit Γ. Diese Menge nennt man Stützmenge. Das Teilchen starte im Punkt x der Stützmenge. Sofortiges Stoppen in diesem Punkt liefert die Auszahlung v(x). Keine andere Strategie führt zu einer höheren Auszahlung. Ein Stoppen in dem außerhalb der Stützmenge gelegenen Punkt x liefert eine Auszahlung f (x) mit f (x) < v(x). Wenn von vornherein bekannt wäre, dass eine optimale Strategie existiert und dass das Stoppen oder Weitergehen bei dieser Strategie nur von der gegenwärtigen Lage des Teilchens abhängt, so dürfte man schließen, dass eine optimale Strategie durch den Zeitpunkt τ des ersten Eintritts des Teilchens in die Menge Γ gegeben ist. Wie man mit Hilfe von Abbildung 5.2 erkennen kann, trifft diese Beobachtung nicht immer zu. Betrachtet man die Markov-Kette mit den Zuständen 1, 2, . . . , n, . . ., bei der das Teilchen vom Punkt n mit Wahrscheinlichkeit n12 zum Punkt 1 und mit Wahrscheinlichkeit n2 −1 zum Punkt n + 1 gelangt. Außerdem sei p1, 1 = 1. Gilt nun weiters f (n) = 1 − n1 für n2 KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 88 v 1 f n2-1 ____ n2 2 n 3 n+1 1 ___ 1 n 2 Abbildung 5.2: Graphische Veranschaulichung eines Gegenbeispiels n > 1 und f (1) = 1, so kann man hier stets eine Auszahlung erreichen, die zwar beliebig nahe bei 1 liegt, jedoch den Wert 1 nicht überschreitet. Die Stützmenge besteht in diesem Beispiel nur aus dem Punkt 1. Da f (1) = 1 gilt, ist für den Zeitpunkt τ des ersten Eintritts in die Menge Γ die mittlere Auszahlung En (f (xτ )) gleich der Wahrscheinlichkeit π(n), von n aus irgendwann nach 1 zu gelangen. Die Wahrscheinlichkeit des komplementären Ereignisses, welches darin besteht, dass das Teilchen unbegrenzt weit nach rechts gelangt, beträgt ∞ k2 − 1 . k2 k=n (5.10) m m (n − 1)(m + 1) k 2 − 1 (k − 1)(k + 1) = = 2 k k·k n·m k=n k=n (5.11) Aufgrund von konvergiert das unendliche Produkt (5.10) und hat den Wert n−1 . Demnach gilt π(n) = n1 , n wogegen v(n) = 1 beträgt. Bei diesem dargestellten Beispiel trifft die getroffene Behauptung nicht zu, da der Zustandsraum unendlich ist. Im Falle eines endlichen Zustandsraumes gilt nun folgender Satz. Satz 5.6. Ist der Zustandsraum endlich, so stellt der Zeitpunkt τ0 des ersten Eintritts in die Stützmenge eine optimale Strategie dar. Beweis. Man betrachtet die mittlere Auszahlung h(x) := Ex (f (xτ0 )), (5.12) KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 89 die der Strategie τ0 entspricht. Man muss nun zeigen, dass h = v gilt. Aus der Definition des Wertes des Spiels folgt h ≤ v. Da xτ0 ∈ Γ gilt und auf der Menge Γ die Funktionen f und v übereinstimmen, kann man in (5.12) die Funktion f durch die exzessive Funktion v ersetzen. Daraus schließt man, dass h ebenfalls exzessiv ist. Da v die kleinste unter den exzessiven Majoranten von f ist, genügt es zu zeigen, dass h ≥ f gilt. In den Punkten der Stützmenge Γ gilt h(x) = f (x), da in diesen Punkten die Strategie τ0 ein sofortiges Stoppen vorschreibt. Man nimmt nun an, dass h(x) < f (x) für einen Punkt x außerhalb von Γ gilt. Weiters sei a ∈ X so, dass f (a) − h(a) = max(f (x) − h(x)) x gilt. Daraus folgt a ∈ Γ. Nun definiert man h1 (x) := h(x) + (f (a) − h(a)). Dementsprechend gilt nun h1 (x) ≥ h(x) + (f (x) − h(x)) = f (x). h1 (x) ist als Summe der exzessiven Funktionen h(x) und der positiven Konstanten f (a) − h(a) ebenfalls exzessiv. Folglich bildet h1 (x) eine Majorante von f (x) und es gilt h1 (x) ≥ v(x). Weiters gilt h1 (a) = f (a) ≥ v(a), woraus f (a) = v(a) folgt. Folglich gilt nun a ∈ Γ, was jedoch im Widerspruch zur Wahl von a steht. Somit ist die Ungleichung h(x) < f (x) unmöglich. Damit ist die Strategie τ0 optimal. Nun betrachtet man den allgemeineren Fall der Markov-Kette mit abzählbarem Zustandsraum. Hier kann sich, wie obiges Beispiel verdeutlicht hat, das Stoppen zum Zeitpunkt des ersten Eintritts in die Menge Γ als äußerst ungünstige Strategie erweisen. Nimmt man jedoch statt der Menge Γ = {x : f (x) = v(x)} die -Stützmenge Γ = {x : v(x) − f (x) ≤ } und betrachtet den Zeitpunkt τ des ersten Eintritts in die Menge Γ , so lässt sich zeigen, dass für beliebiges > 0 Ex (f (xτ )) ≥ v(x) − (5.13) gilt. Der Beweis von (5.13) folgt dem gleichen Schema wie im Fall des endlichen Zustandsraumes. 5.4 Anwendungen Als erstes Anwendungsbeispiel betrachtet man die Irrfahrt mit Absorption auf der Menge {0, . . . , a}, die durch p0, 0 = pa, a = 1 und px, x+1 = px, x−1 = 1 2 KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 90 für x = 1, . . . , a − 1 definiert ist. Falls das Teilchen also zu den Endpunkten 0 oder a gelangt, so wird es dort absorbiert. Um die Lösung dieses Problems zu erhalten, will man sich davon überzeugen, dass als exzessive Funktionen die nichtnegativen, konkaven Funktionen auftreten. Die Bedingung P f ≤ f führt im vorliegenden Fall für x = 1, 2, . . . , a − 1 auf die Beziehung f (x − 1) + f (x + 1) ≤ f (x). 2 (5.14) sowie auf die trivialen Ungleichungen f (0) ≤ f (0) und f (a) ≤ f (a). Obige Ungleichungen können nun wie folgt graphisch interpretiert werden: Verbindet man benachbarte Punkte des Graphen der Funktion f (x) durch Strecken, so liegt die zu einem inneren Punkt gehörende Ecke des erhaltenen Polygons nicht unterhalb der Sehne, welche die zu den Punkten x − 1 und x + 1 gehörigen Ecken verbindet. Abbildung 5.3 veranschaulicht obig dargestellten Sachverhalt. f(x) f(x-1) f(x+1) f(x-1)+f(x+1) ____________ 2 x-1 x x+1 Abbildung 5.3: Darstellung einer konkaven Funktion f Falls f selbst konkav ist, so gilt natürlich v = f , dementsprechend sollte man sofort stoppen, da die Stützmenge in diesem Fall der gesamten Menge entspricht. Falls f konvex ist, so entspricht v der geraden Linie zwischen (0, f (0)) und (a, f (a)), d.h. die Stützmenge ist die Menge {0, a}. Infolgedessen muss man hierbei warten bis man 0 oder a erreicht. KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 91 Nun betrachten wir als zweites Anwendungsbeispiel das Problem der besten Wahl. Dieses Problem führt auf das Problem des optimalen Stoppens der Markov-Kette mit den Zuständen 1, 2, . . . , n, den Übergangswahrscheinlichkeiten k für l > k pkl = l(l−1) 0 für l ≤ k und der Auszahlungsfunktion f (k) = nk . Man will nun die exzessive Majorante v(k) der Auszahlungsfunktion f (k) und die Stützmenge Γ = {k : f (k) = v(k)} bestimmen. Nach Definition ist v die kleinste Funktion, die die Ungleichungen v ≥ f , v ≥ P v und v ≥ 0 erfüllt. Für obiges Problem bedeutet dies nun, dass die Ungleichungen v(k) ≥ v(k) ≥ k n n k v(l) l(l − 1) l=k+1 für k = 1, 2, . . . , n erfüllt sein müssen. Kennt man v(l) für l > k, so ergibt sich demnach n k v(l) v(k) = max ,k · . (5.15) n l(l − 1) l=k+1 Somit kann man mit Hilfe von (5.15) eine Rekursionsformel entwickeln: $n% v(n) = max = 1 = f (n) n n−1 1 n−1 1 v(n − 1) = max , (n − 1) = max , n n(n − 1) n n n−1 = f (n − 1) = n .. . k k 1 1 1 k v(k) = max , + + ... + = = f (k) n n k k+1 n−1 n Dies gilt, solange die Ungleichung 1 1 1 + + ... + ≤1 k k+1 n−1 (5.16) erfüllt ist. 1 Sobald mit abnehmendem k die Summe k1 + . . . + n−1 größer als 1 wird, erweist sich k v(k) als echt größer als n = f (k). Verkleinert man k noch weiter, so bleibt die Summe KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN 1 k + ... + 1 n−1 92 größer als 1. Folglich gilt in diesen Punkten f (l) v(l) ≥k· l(l − 1) l(l − 1) l=k+1 l=k+1 k 1 1 1 k = + + ... + > = f (k). n k k+1 n−1 n v(k) ≥ k · n Dies bedeutet, dass die Stützmenge Γ die Form {kn , kn + 1, . . . , n} aufweist, wobei kn die kleinste natürliche Zahl darstellt, welche die Ungleichung (5.16) erfüllt. Für k ≥ kn beträgt der Wert des Spiels v(k) = f (k) = sich aus der Beziehung v(k) = k · n v(l) . l(l − 1) l=k+1 k n und für k < kn berechnet er Kapitel 6 Optimales Stoppen durch Martingal-Methoden Martingale und das damit in Verbindung stehende Konzept der Sub- und Supermartingale stellen ein wichtiges Hilfsmittel dar, um die rund um die Thematik des optimalen Stoppens auftretenden Aufgabenstellungen, auf eine effiziente Art und Weise zu lösen. Sei nun im Folgenden X1 , X2 , . . . eine Folge von Beobachtungen mit bekannter gemeinsamer Verteilung. Diese Beobachtungen müssen im Allgemeinen weder unabhängig noch identisch verteilt sein. Mit S n bezeichnet man den Stichprobenraum der ersten n Beobachtungen X1 , . . . , Xn für n ≥ 1. Weiters bezeichnet man mit Fn (x1 , . . . , xn ) die gemeinsame Verteilungsfunktion von X1 , . . . , Xn ausgewertet an (x1 , . . . , xn ) ∈ S n . Jede Teilmenge A ⊆ S n kann mittels der Abbildung A → A × S r−n als Teilmenge des S r für r > n aufgefasst werden. Für n ≥ 1 sei Yn := yn (X1 , . . . , Xn ) eine Zufallsvariable, deren Wert von den ersten n Beobachtungen X1 , . . . , Xn abhängt. Falls man nun nach den ersten n Schritten stoppt, so erhält man die Auszahlung Yn . Zur vereinfachten Darstellung verwendet man im Folgenden die Schreibweise: yj := yj (x1 , . . . , xj ) für j ≥ 1. Da dem Argument der j-dimensionalen Verteilungsfunktion Fj immer ein Punkt (x1 , . . . , xj ) ∈ S j entspricht, so schreibt man statt dFj (x1 , . . . , xj ) im Folgenden dFj . Folgender Satz gibt über eine grundlegende Eigenschaft von Martingalen, Sub- und Supermartingalen Auskunft. Satz 6.1. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , . . . , Xn . Seien r, n positive ganze Zahlen mit r > n und sei An eine beliebige Teilmenge von S n . Ist die Folge ein Supermartingal, so gilt yn dFn ≥ yr dFr . An An 93 KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN Falls die Folge ein Submartingal ist, so gilt yn dFn ≤ An Im Falle eines Martingals gilt An 94 yr dFr . An yn dFn = An yr dFr . Beweis. Hierzu beweist man obige Ungleichung für Supermartingale. Die anderen auftretenden Fälle sind auf analoge Weise nachzuprüfen. Man setzt nun r = n + 1. Man erhält nun folgende Relation yn+1 dFn+1 = yn+1 dF (xn+1 | x1 , . . . , xn ) dFn An An S (6.1) = E(Yn+1 | x1 , . . . , xn ) dFn ≤ yn dFn An An Im ersten Integral von (6.1) wird An als Teilmenge von S n+1 betrachtet. Im zweiten Integral betrachtet man An als Teilmenge von S n . Die letzte Ungleichung in (6.1) folgt aus der Definition eines Supermartingals. Da das Ereignis An als Teilmenge von S r für r ≥ n angesehen werden kann, gilt obigen Beobachtungen zufolge yr+1 dFr+1 ≤ yr dFr r ≥ n (6.2) An An Aus (6.1) und (6.2) folgt nun die gewünschte Ungleichung. 6.1 Stoppzeiten für Martingale In diesem Abschnitt befasst man sich nun mit der Bestimmung des erwarteten Gewinns E(YN ) für unterschiedliche Stoppzeiten, falls die Folge Y1 , Y2 , . . . ein Martingal bildet. Aus der Definition eines Martingals folgt nun, dass Martingale konstante Erwartung besitzen, d.h es gilt E(Y1 ) = E(Yn ) für n ≥ 1. Damit wird man also für eine große Klasse von Stoppzeiten erwarten, dass E(Y1 ) = E(YN ) gilt. Falls nun die Folge Y1 , Y2 , . . . ein Supermartingal bildet, so gilt folglich E(Y1 ) ≥ E(Y2 ) ≥ . . .. Man erwartet also in diesem Fall E(Y1 ) ≥ E(YN ). Submartingale besitzen dementsprechend monoton wachsende Erwartungswerte, das heißt es gilt E(Y1 ) ≤ E(Y2 ) ≤ . . .. Diese intuitiven Beobachtungen können jedoch nicht für alle Folgen und alle Stoppzeiten verallgemeinert werden. In diesem Abschnitt widmet man sich nun diesem Problem, indem man hinreichende Bedingungen formuliert unter diesen obige Relationen korrekt sind. Für jede beliebige Stoppzeit gilt nun, dass {N > n} als Teilmenge von S n oder von S r für r ≥ n angesehen werden kann. Im Folgenden betrachtet man nur Stoppzeiten, die in der Klasse der Stoppzeiten Θ enthalten sind, für die P (N < ∞) = 1 gilt. KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 95 Satz 6.2. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . .. Man betrachtet nun eine Stoppzeit, für die E(YN ) existiert. Ist die Folge ein Supermartingal und gilt yn dFn ≥ 0, (6.3) lim n→∞ {N >n} so folgt E(YN ) ≤ E(Y1 ). Ist die Folge ein Submartingal und gilt lim n→∞ {N >n} yn dFn ≤ 0, so folgt E(YN ) ≥ E(Y1 ). Handel es sich um ein Martingal und gilt lim n→∞ {N >n} yn dFn = 0, so folgt E(YN ) = E(Y1 ). Beweis. Wiederum beweist man obigen Satz nur für Supermartingale. Der Beweis in den anderen beiden Fällen kann analog geführt werden. Aufgrund der Annahme, dass E(YN ) existiert, gilt nun n yj dFj E(YN ) = lim n→∞ = lim n→∞ j=1 {N =j} n {N >j−1} j=1 Aus Satz 6.1 folgt nun für j ≥ 2 {N >j−1} yj dFj − {N >j} yj dFj . yj dFj ≤ Damit ergibt sich {N >j−1} E(YN ) ≤ lim yj−1 dFj−1 . y1 dF1 − yn dFn {N >n} = E(Y1 ) − lim yn dFn ≤ E(Y1 ). n→∞ {N >n} n→∞ {N >0} ≥0 KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 96 Korollar 6.3. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . .. Man betrachtet eine Stoppzeit, so dass P (N ≤ n) = 1 für n ≥ 1 gilt. Für ein Supermartingal gilt nun E(Y1 ) ≥ E(YN ) ≥ E(Yn ). Für ein Submartingal gilt nun E(Y1 ) ≤ E(YN ) ≤ E(Yn ). Für ein Martingal gilt nun E(Y1 ) = E(YN ) = E(Yn ). Beweis. Da der Grenzwert in (6.3) für eine beschränkte Stoppzeit 0 sein muss, folgt somit der erste Teil dieses Korollars. Der zweite Teil folgt aus Satz 6.1. Falls die Folge ein Supermartingal ist, so muss folgende Bedingung erfüllt sein: n n yj dFj ≥ yn dFn = E(Yn ) E(YN ) = j=1 {N =j} j=1 {N =j} Satz 6.2 basiert auf der Annahme, dass E(YN ) für eine gegebene Stoppzeit existiert. Der folgende Satz garantiert für alle Stoppzeiten in Θ die Existenz von E(YN ). Satz 6.4. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . .. Falls eine Schranke M < ∞ existiert, sodass E(|Yn |) ≤ M für n ≥ 1 gilt, dann existiert E(YN ) für alle Stoppzeiten in Θ. Beweis. Hier sei nun nur der Beweis für Submartingale angeführt. Der Beweis im Falle von Supermartingalen verläuft analog und im Falle von Martingalen kann man noch einfacher vorgehen. Für eine beliebige Zufallsvariable Y definiert man die Zufallsvariablen Y + und Y − wie folgt: Y + := max{Y, 0} und Y − := max{−Y, 0} Es gilt somit Y = Y + − Y − und |Y | = Y + + Y − = 2Y + − Y . Die Stoppzeit τ ∈ Θ wird durch τn = min{n, τ } definiert. Für eine Stoppzeit τ ∈ Θ und für eine positive ganze Zahl n gilt n |yj | dFj + |yn | dFn . E(|Yτn |) = j=1 {τ =j} {τ >n} Bildet man nun den Grenzwert n → ∞, so erhält man E(|Yτ |) ≤ lim inf E(|Yτn |). n→∞ (6.4) Um den Satz zu beweisen, muss man nur noch zeigen, dass die rechte Seite in (6.4) endlich ist. Da die Folge Y1 , Y2 , . . . ein Submartingal bezüglich X1 , X2 , . . . ist, folgt nun, dass auch die Folge Y1+ , Y2+ , . . . ein Submartingal bezüglich X1 , X2 , . . . ist. Da P (τn ≤ n) = 1 gilt, kann man Korollar 6.3 anwenden. Man erhält folglich: E(|Yτn |) = 2E(Yτ+n ) − E(Yτn ) ≤ 2E(Yn+ ) − E(Y1 ) ≤ 2E(|Yn |) − E(Y1 ) ≤ 2M − E(Y1 ). Damit kann der Wert der rechten Seite 2M − E(Y1 ) nicht übersteigen. KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 6.2 97 Gleichmäßig integrierbare Folgen von Zufallsvariablen Definition 6.5. Die Zufallsvariablen Y1 , Y2 , . . . heißen gleichmäßig integrierbar, falls lim |Yn | dP = 0 a→∞ {|Yn |≥a} gleichmäßig in n gilt. Für den vorliegenden Fall Yn = yn (X1 , . . . , Xn ) bedeutet dies, dass |yn | dFn = 0 lim a→∞ {|Yn |≥a} gleichmäßig in n gilt. Obige Definition kann auch wie folgt interpretiert werden: Die Zufallsvariablen Y1 , Y2 , . . . sind gleichmäßig integrierbar, falls für > 0 eine hinreichend große Zahl a0 existiert, so dass die folgende Relation für alle n ≥ 1 erfüllt ist: |yn | dFn < {|Yn |≥a0 } Falls die Zufallsvariablen Y1 , Y2 , . . . gleichmäßig integrierbar sind, existiert eine obere Schranke M < ∞, so dass E(|Yn |) ≤ M für n ≥ 1 gilt. Die folgende Relation ist für jede Stoppzeit in Θ erfüllt: lim |yn | dFn = 0. n→∞ {N >n} Folgender Satz folgt unmittelbar aus (6.2) und (6.4). Satz 6.6. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . . und seien die Zufallsvariablen Y1 , Y2 , . . . gleichmäßig integrierbar. Dann existiert E(YN ) für eine Stoppzeit in Θ. Für ein Supermartingal gilt E(YN ) ≤ E(Y1 ). Für ein Submartingal gilt E(YN ) ≥ E(Y1 ). Für ein Martingal gilt E(YN ) = E(Y1 ). Der Fall, dass die Zufallsvariablen gleichmäßig beschränkt sind, stellt ein einfaches Beispiel von gleichmäßig integrierbaren Zufallsvariablen dar. In diesem Fall existiert eine obere Schranke M < ∞, so dass P (|Yn | < M ) = 1 für n ≥ 1 gilt. Falls eine obere Schranke M < ∞ existiert, so dass E(Yn2 ) ≤ M für n ≥ 1 gilt, so sind die Zufallsvariablen Y1 , Y2 , . . . gleichmäßig integrierbar. KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 98 Satz 6.6 besagt, dass alle Stoppzeiten in Θ auf den selben erwarteten Gewinn E(Y1 ) = E(YN ) führen, falls die Zufallsvariablen Y1 , Y2 , . . . in einem Martingal gleichmäßig integrierbar sind. Es ist also unmöglich, eine Stoppzeit zu finden, die immer besser ist als diejenige, die das Stoppen nach der ersten Beobachtung X1 fordert. Es ist also unmöglich, eine Stoppzeit zu finden, die auf einen kleineren erwarteten Gewinn als E(Y1 ) führt. Dieselbe Beobachtung erhält man auch mit Hilfe von Korollar 6.3 für ein beliebiges Martingal, wenn nach höchstens n Beobachtungen gestoppt werden soll. Folgendes Beispiel soll zeigen, was passiert, wenn die Zufallsvariablen Y1 , Y2 , . . . weder gleichmäßig integrierbar sind noch eine obere Schranke für die Anzahl der Beobachtungen existiert. Beispiel. In diesem Beispiel gilt X1 = 1 −1 mit p = 12 mit q = 12 . Falls man im ersten Schritt eine Einheit gewinnt, so bleibt der Gewinn auch für den Rest des Spiels bei 1 fixiert. Falls man jedoch im ersten Schritt 1 Einheit verliert, so gilt für die zweite Beobachtung 2 mit p = 12 X2 = −2 mit q = 12 . Damit beläuft sich der Gesamtgewinn nach den ersten 2 Schritten entweder auf 1 oder −3 Einheiten. Im ersten Fall ändert sich der Gewinn wiederum im Laufe des Spiels nicht mehr. Der Gewinn wird wieder mit 1 fixiert. Im zweiten Fall gilt in analoger Weise für die dritte Beobachtung 4 mit p = 12 X3 = −4 mit q = 12 . Das Spiel setzt sich nun diesem Schema zufolge fort. Obiger Prozess kann wie folgt beschrieben werden: Sei Yn der Gesamtgewinn nach n (n ≥ 1) Schritten. Dann gilt 1 P (Y1 = 1) = P (Y1 = −1) = . 2 und P (Yn+1 = 1 | Yn = 1) = 1 (6.5) KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 99 und P (Yn+1 = 1 | Yn = −2n + 1) = P (Yn+1 = −2n+1 + 1 | Yn = −2n + 1) 1 = 2 (6.6) für n ≥ 1. Aus (6.5) und (6.6) folgt nun, dass die Folge Y1 , Y2 , . . . ein Martingal ist. Man betrachtet nun die Stoppzeit, die ein Stoppen fordert, sobald der Wert Yn = 1 beobachtet wird. Dies ist eine zulässige Stoppzeit, da j 1 für j ≥ 1 P (N = j) = 2 gilt und somit P (N < ∞) = 1. Mit dieser Stoppzeit ist P (YN = 1) = 1 und folglich E(YN ) = 1 erfüllt. Somit wurde ein Martingal und eine Stoppzeit konstruiert, für die E(Y1 ) = 0, aber E(YN ) = 1 gilt. In diesem Beispiel unterscheiden sich also die beiden Erwartungswerte. Die Konstruktion des obigen Beispiels war auf Grund der Tatsache möglich, dass jede der Zufallsvariablen Yn beschränkt ist und die erhaltene Folge Y1 , Y2 , . . . gleichmäßig nach oben durch 1 beschränkt ist, aber die Folge trotzdem nicht nach unten beschränkt und gleichmäßig integrierbar ist. 6.3 Reguläre Supermartingale In diesem Abschnitt betrachtet man nun die zentrale Stellung von Supermartingalen bei der Lösung von allgemeinen optimalen Stoppproblemen. Sei die Folge Y1 , Y2 , . . . ein Supermartingal bezüglich der Folge X1 , X2 , . . .. In den vorangegangenen Abschnitten wurden unterschiedliche Bedingungen geliefert, für welche E(YN ) ≤ E(Y1 ) für eine gegebene Stoppzeit gilt. Definition 6.7. Ein Supermartingal heißt regulär, falls E(YN ) ≤ E(Y1 ) für alle Stoppzeiten, für die E(YN ) existiert, gilt. Es folgt aus Satz 6.6, dass unter der Voraussetzung der gleichmäßigen Integrierbarkeit von Y1 , Y2 , . . . das Supermartingal regulär ist. Zur besseren Veranschaulichung betrachtet man nun ein beliebiges Problem des optimalen Stoppens, das durch Beobachtungen Xn und Auszahlungen Yn = yn (X1 , . . . , Xn ) für n ≥ 1 definiert ist. Man nimmt nun an, dass eine optimale Stoppzeit existiert, so dass der erwartete Gewinn endlich ist. Zu einem bestimmten Zeitpunkt, an dem die Werte X1 = x1 , . . . , Xn = xn bereits beobachtet wurden, sei die Ungleichung E(Yn+1 | x1 , . . . , xn ) > yn (x1 , . . . , xn ) (6.7) KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 100 erfüllt. Aus obiger Ungleichung folgt offensichtlich, dass man in diesem Fall weiterspielen sollte, da der erwartete Gewinn, falls man einen Schritt weitergeht und dann stoppt, jedenfalls größer ist als der Gewinn beim Stoppen ohne weitere Beobachtungen. Andererseits gelte folgende Ungleichung E(Yn+1 | x1 , . . . , xn ) ≤ yn (x1 , . . . , xn ). (6.8) Dieser Ungleichung zufolge ist der erwartete Gewinn nach genau einer weiteren Beobachtung nicht größer als der Gewinn, wenn man sofort stoppt. Trotzdem kann der erwartete Gewinn durch entsprechendes Weitergehen yn (x1 , . . . , xn ) übersteigen. Sei nun die Folge zukünftiger Gewinne Yn+1 , Yn+2 , . . . für eine beliebige Menge von beobachteten Werten X1 = x1 , . . . , Xn = xn , für die (6.8) erfüllt ist, bezüglich der Folge von zukünftigen Beobachtungen Xn+1 , Xn+2 , . . . ein reguläres Supermartingal. Die Interpretation dieser Voraussetzung ist folgende: Zu dem Zeitpunkt, wenn man einen Schritt erreicht, indem es ungünstig erscheint, genau eine weitere Beobachtung zu machen, so ist es auch zu jedem späteren Zeitpunkt ungünstig, einen weiteren Wert zu beobachten. Die Zusatzvoraussetzung, dass es sich um ein reguläres Supermartingal handelt, garantiert, dass der erwartete Gewinn, der aus einem entsprechenden Weitergehen entsteht, auf jeden Fall als ungünstig betrachtet werden kann. Damit gilt E(YN | x1 , . . . , xn ) ≤ E(Yn+1 | x1 , . . . , xn ) ≤ yn (x1 , . . . , xn ), (6.9) falls eine Strategie fordert, nach n beobachteten Werten X1 = x1 , . . . , Xn = xn weiterzugehen und falls bekannt ist, dass der erwartete Gewinn E(YN | x1 , . . . , xn ) existiert. Die Ungleichung (6.9) bedeutet, dass es optimal ist, sofort zu stoppen, falls eine beliebige Menge von beobachteten Werten X1 = x1 , . . . , Xn = xn (6.8) erfüllt. Diese Eigenschaft wird in folgendem Satz verdeutlicht. Satz 6.8. Man betrachtet ein optimales Stoppproblem, für das eine optimale Stoppzeit existiert. Eine beliebige Menge von beobachteten Werten X1 = x1 , . . . , Xn = xn erfülle (6.8). Die Folge von zukünftigen Gewinnen Yn+1 , Yn+2 , . . . sei ein reguläres Supermartingal bezüglich der Folge von zukünftigen Beobachtungen Xn+1 , Xn+2 , . . .. Dann besteht eine optimale Strategie, nachdem eine beliebige Menge von Werten X1 = x1 , . . . , Xn = xn beobachtet wurde, im Weitergehen, falls (6.7) erfüllt ist und im Stoppen, falls (6.8) erfüllt ist. Als Anwendung obigen Satzes betrachtet man folgendes Problem: 6.3.1 Das Quizproblem Dieser Abschnitt behandelt das Quizproblem. Ein Kandidat startet mit einem Anfangskapital von r Einheiten. Nun wird ihm eine Folge von unabhängigen Fragen gestellt. Für jede KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 101 korrekt gegebene Antwort erhält er einen Gewinn von s Einheiten. Falls er eine Frage nicht korrekt beantwortet, so verliert er all sein Kapital und muss aus dem Quiz ausscheiden. Die Wahrscheinlichkeit, dass der Kandidat eine beliebige Frage richtig beantwortet, beträgt p (0 < p < 1). Mit Yn bezeichnet man den Gewinn nach dem n-ten Schritt (n = 0, 1, 2, . . .). Es gilt nun r + ns mit pn Yn = 0 mit 1 − pn . Falls Yn = y mit y > 0 zu einem bestimmten Zeitpunkt gilt, so folgt nun y+s mit p Yn+1 = 0 mit 1 − p. Somit erhält man folglich E(Yn+1 | Yn = y) = p(y + s). Hierbei unterscheidet man 2 Fälle: 1. p(y + s) ≥ y gilt für y≤ ps . 1−p Daraus folgt E(Yn+1 | Yn = y) > y. Die Folge entspricht hierbei einem Submartingal. In diesem Fall sollte man weitergehen. 2. p(y + s) < y gilt für y> ps . 1−p In diesem Fall gilt E(Yn+1 | Yn = y) ≤ y. Es handelt sich hierbei also um ein Supermartingal. Damit man Satz 6.8 anwenden kann, muss man die Existenz einer optimalen Stoppzeit und die gleichmäßige Integrierbarkeit von Yn+1 , Yn+2 , . . . nachweisen. Zuerst gilt es die gleichmäßige Integrierbarkeit nachzuprüfen: Wenn Yn = y gilt, so folgt y + js mit pj Yn+j = 0 mit 1 − pj . KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN Es gilt nun lim j→∞ {Yn+j >K} Yn+j dP ≤ lim Für ein gegebenes > 0 gilt also j→∞ {Yn+j =0} 102 Yn+j dP = lim (y + js)pj = 0. j→∞ {Yn+j >K} Yn+j dP < für alle j ≥ j0 . Aufgrund der Tatsache, dass auch das Maximum der Zufallsvariablen gegen 0 konvergiert, ist obige Beobachtung auch für 1 ≤ j ≤ j0 zutreffend. Somit ist die gleichmäßige Integrierbarkeit nachgewiesen. Aus Satz 6.6 folgt nun, dass das Supermartingal regulär ist. Für die Existenz einer optimalen Stoppzeit verwendet man Satz 6.6. Somit teilt man den Prozess in zwei Teile. Den Teilungspunkt bildet der Zeitpunkt, ab welchem die Folge ein Supermartingal bildet. Im ersten Teil des Prozesses hat man folglich nur endlich viele Möglichkeiten zur Verfügung um eine optimale Stoppzeit zu finden. Im zweiten Teil bildet die Folge ein Supermartingal. Nach Satz 6.6 existiert eine optimale Stoppzeit N = 1. Die resultierende optimale Strategie lässt sich nun folgendermaßen formulieren: Man sollte so ps erreicht und dann stoppen. lange weiterspielen, bis der Gewinn den Wert 1−p 6.3.2 Das Parkproblem Ein Autofahrer fährt entlang eines Highways in Richtung eines bestimmten Zieles und sucht einen Parkplatz. Wenn er die Straße entlangfährt, so kann er immer nur einen Parkplatz nach dem anderen betrachten und feststellen, ob er besetzt ist oder nicht. Die Wahrscheinlichkeit, dass ein betrachteter Parkplatz frei ist, beträgt p. Folglich ist ein Parkplatz mit der Wahrscheinlichkeit 1 − p besetzt. Falls der Autofahrer einen freien Parkplatz vorfindet, so muss er überlegen, ob er hier parken will oder ob er seine Suche fortsetzt. Falls er sein Ziel bereits erreicht hat und noch nicht geparkt hat, so fährt er daran vorbei und setzt seine Suche dort mit den gleichen Bedingungen fort. Der zu zahlende Betrag ändert sich proportional zur Distanz, die der Autofahrer zu Fuß zu seinem Ziel zurücklegen muss. Folglich ist der Autofahrer bestrebt, sein Auto so nah wie möglich an seinem Ziel zu parken, um die zu Fuß zurückzulegende Distanz zu minimieren. Veranschaulicht man obig beschriebenes Problem nun anhand der Zahlengerade, so stellt die Null das Ziel des Autofahrers dar. Der zu zahlende Tarif entspricht folglich der Entfernung zur Null. Ist der Autofahrer nun schon an seinem Ziel vorbeigefahren und befindet er sich in der Position l rechts von 0. Er muss l Einheiten bezahlen, falls er hier parkt. Falls er sich nun entscheidet, einen Schritt weiterzugehen, so befindet sich der nächste freie Parkplatz in der Position l + i mit der Warscheinlichkeit p(1 − p)i−1 . Der Erwartungswert des zu zahlendes Tarifs T beträgt ∞ ∞ ∞ 1 i−1 i−1 E(T ) = (l + i)p(1 − p) = l p(1 − p) + ip(1 − p)i−1 = l + . p i=1 i=1 i=1 KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 103 Der Erwartungswert nimmt klarerweise zu, wenn man auf dem positiven Abschnitt der Zahlengerade weitergeht. Nun beobachtet man, was auf dem negativen Abschnitt der Zahlengerade passiert. Der Autofahrer befindet sich l Positionen vor seinem Ziel. Falls er hier nun parkt, so muss er l Einheiten bezahlen. Geht er einen Schritt weiter bis zum nächsten freien Parkplatz auf der Position −l + i, so gilt für den erwarteten zu zahlenden Betrag ∞ E(T ) = i=1 l = p(1 − p)i−1 |−l + i| p(1 − p)i−1 (l − i) + i=1 ∞ p(1 − p)i−1 (i − l). i=l+1 Zur Berechnung obig auftretender Summe geht man nun wie folgt vor: Es sei l > 0. Zuerst setzt man 1 − p = x. Dann gilt l x lxl−1 (1 − x) + xl xl−1 (l − lx + x) i−1 i ix = x = = = . (6.10) 2 2 1 − x (1 − x) (1 − x) i≥l i≥l Folglich erhält man E(T ) = (i − l)pxi−1 + i≥l = (i − l)pxi−1 + (l − i)pxi−1 1≤i<l ∞ (l − i)pxi−1 − i=1 ∞ i≥l =2 (i − l)pxi−1 + (l − i)pxi−1 i≥l (l − i)pxi−1 =: 2S1 + S2 . i=1 i≥l Aus (6.10) ergibt sich S1 = p ixi−1 − lp i≥l =p x xi−1 = p i≥l xl−1 (l − lx + x) xl−1 − lp (1 − x)2 1−x l−1 xl−1 (l − lx) pxl (l − lx + x) − p = . (1 − x)2 (1 − x)2 (1 − x)2 Ferner gilt S2 = l ∞ px i=1 i−1 − ∞ i=1 ipx i−1 =l ∞ i=1 1 P (Y = i) − E(Y ) = l − , p wobei Y eine Zufallsvariable mit Geom(p)-Verteilung bezeichnet. Deshalb gilt E(T ) = 2S1 + S2 = 2 pxl 1 1 p(1 − p)l 1 + l − + l − = l + (2(1 − p)l − 1). = 2 2 2 (1 − x) p p p p KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 104 Daraus kann man nun den Schwellenwert l0 berechnen: Es gilt l+ 1 2(1 − p)l0 − 1 = l p l0 = log 2 log 2 . 1 = − log 1 − p log 1−p woraus folgt. Falls l ≥ l0 gilt, das heißt der Autofahrer befindet sich links von −l0 , so folgt E(T ) < l. Somit sollte der Autofahrer in diesem Fall unbedingt seine Parkplatzsuche fortsetzen. Gilt nun l < l0 gilt, das heißt der Autofahrer befindet sich rechts von −l0 , so folgt E(T ) > l. In diesem Fall sollte der Autofahrer sein Auto in diesem Parkplatz parken. Die Lösung dieses Problems besteht nun in der Minimierung des folgenden Erwartungswertes E(T ) = ∞ p(1 − p)i−1 |−l0 + i|. i=1 Dieses Problem kann natürlich auch mit Hilfe der Rückwärtsinduktion gelöst werden. Dazu sei Vl := supτ ≥l E(Xτ ), dann gilt Vl = (1 − p)Vl+1 + p min{|l|, Vl+1 }. Obiges Problem kann durch die Forderung, dass im ersten freien Parkplatz ab der Position N gestoppt werden muss, auf ein endliches Problem reduziert werden: VN = ∞ p(1 − p)i−1 (N + i) i=1 6.3.3 Das Parkproblem mit Umkehrmöglichkeit Folgende Aufgabenstellung erhält man durch eine geringe Modifikation des vorangegangenen Beispiels: Bei diesem Problem steht der Autofahrer bei jedem Parkplatz, sei er nun besetzt oder nicht, vor der Entscheidung, ob er mit der Parkplatzsuche fortsetzt oder ob er den letzten freien Parkplatz wählt. Dabei versteht man unter dem letzten freien Parkplatz den aktuellen Parkplatz, falls dieser unbesetzt ist. Stoppt der Autofahrer, so muss er die verbleibende Entfernung zum Zielpunkt zu Fuß zurücklegen. Mit r (0 < r < 1) bezeichnet man die durchschnittliche Geschwindigkeit eines Autos. Dann ergibt sich die notwendige Zeitspanne, um das Ziel zu erreichen, aus der r-fachen mit dem Auto zurückgelegten Distanz vermehrt um die zu Fuß zurückgelegte Distanz. Die Intention des Autofahrers besteht nun im Finden einer Parklücke, die die erwartete Zeitdauer minimiert. Da der Autofahrer KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 105 nur in einem freien Parkplatz parken kann, muss er auf jeden Fall bis zum ersten freien Parkplatz fahren. Falls der Autofahrer den ersten freien Parkplatz erst nach seinem Ziel auffindet, so muss er hier nun parken. Findet der Autofahrer einen freien Parkplatz nach seinem Ziel und hat jedoch vor seinem Ziel schon ein oder mehrere freie Parkplätze beobachtet, so liegt für ihn nun das Problem in der Bestimmung, welcher der beiden dem Ziel am naheliegendsten freien Parkplätze, nun in Frage kommt. Man definiert nun den Zustand (m, n) für m ≤ n folgendermaßen: Der Autofahrer befindet sich momentan in der Position m, wobei der letzte beobachtete freie Parkplatz in der Position n aufgetreten ist. Folglich kann man die Menge der Zustände, für die ernsthafte Entscheidungen bezüglich Weitergehen oder Stoppen getroffen werden können, als Z = {(m, n) : m ≤ n, 0 ≤ n}. (6.11) anschreiben. Diese Menge Z partitioniert man in Z1 und Z2 mit Z1 = {(m, n) : 1 ≤ m ≤ n} und Z2 = {(−m, n) : 0 ≤ m, 0 ≤ n}, wobei Z1 die Zustände beschreibt, in denen sich der Autofahrer noch vor seinem Ziel befindet und Z2 die Zustände beschreibt, in denen der Autofahrer sein Ziel bereits passiert hat. Mit z(m, n) bezeichnet man nun die erwartete Zeit, die benötigt wird, um das Ziel zu erreichen, wenn man eine optimale Strategie von (m, n) ausgehend benutzt. Die benötigte Zeit durch Stoppen in (m, n) ∈ Z bezeichnet man mit f (m, n). Auf analoge Weise bezeichnet g(m, n) die erwartete zusätzlich benötigte Zeit, wenn der Autofahrer von (m, n) aus weiterfährt und im Anschluss eine optimale Strategie benutzt. Nun erhält man die Optimalitätsgleichung für Z1 : Es gilt z(m, n) = min{f (m, n), g(m, n)}. (6.12) für alle (m, n) ∈ Z1 . Falls der Autofahrer sich zu stoppen entscheidet, so fährt er n − m Positionen zurück und legt die restlichen n Positionen zu Fuß zurück. Folglich gilt f (m, n) = (n − m)r + n = (1 + r)n − mr. (6.13) Falls sich der Autofahrer für ein Weiterfahren entscheidet, so findet ein Übergang von (m, n) zum Zustand (m − 1, m − 1) oder (m − 1, n) statt. Jeder dieser beiden Zustände tritt mit Wahrscheinlichkeit p beziehungsweise q = 1 − p auf. Damit gilt g(m, n) = r + pz(m − 1, m − 1) + qz(m − 1, n). (6.14) Für Z2 erhält man auf analoge Weise die Optimalitätsgleichung z(−m, n) = min{f (−m, n), g(−m, n)}. (6.15) für alle (−m, n) ∈ Z2 . Falls sich der Autofahrer für das Stoppen entscheidet, so fährt er n + m Positionen zurück und legt die restlichen n Positionen zu Fuß zurück: f (−m, n) = (n + m)r + n = (1 + r)n + mr. (6.16) KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 106 Falls er sich jedoch entscheidet, weiterzufahren, so findet er in der Position −(m + 1) einen Parkplatz mit der Wahrscheinlichkeit p, wogegen er keinen neuen Parkplatz mit der Wahrscheinlichkeit q findet. Er parkt folglich entweder in n oder −(m + 1). Damit gilt g(−m, n) = r + p · min{m + 1, f (−(m + 1), n)} + qz(−(m + 1), n). (6.17) . Der folgende Satz beschreibt die optimale Zuerst befasst man sich nun mit Z2 . Sei c = 1+r 1−r Strategie, wenn der Autofahrer das Ziel bereits passiert hat: . Dann setzt man jn gleich der kleinsten ganzen Zahl, die cn − c−q Satz 6.9. Sei n0 = c−q cp p übersteigt, falls n > n0 gilt und andernfalls gleich 0. Für ein (−m, n) ∈ Z2 gilt dann Es ist genau dann optimal, in (−m, n) zu stoppen, wenn m ≥ jn gilt. Es ist genau dann optimal, in (−m, n) weiterzufahren, wenn m < jn gilt. Die optimale Strategie im Fall (m, n) ∈ Z1 sowie der Beweis von Satz 6.9 kann in [Tam88] nachgelesen werden. 6.4 Supermartingale und allgemeine Stoppprobleme Nun betrachtet man allgemeine Probleme des Optimalen Stoppens. Definition 6.10. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Fn )0≤n≤N eine Filtration, Z = (Zn )1≤n≤N ein quadratisch integrierbarer adaptierter Auszahlungsprozess und Un := sup E(ZT | Fn ) T ∈Πn,N . Für 1 ≤ n ≤ N bezeichne Πn,N die Menge aller Stoppzeiten, die Werte aus {n, n + 1, . . . , N } annehmen. Das Problem besteht nun in der Bestimmung von Un und Tn∗ ∈ Πn,N mit Un = E(ZTn∗ | Fn ) . Folgender Satz befasst sich mit der Lösung dieses Stoppproblems. Satz 6.11. Obig formuliertes Problem kann wie folgt gelöst werden: (i) Die Un können durch folgende Rückwärtsrekursion berechnet werden: UN = ZN für 1 ≤ n ≤ N . und Un−1 = max{Zn−1 , E(Un | Fn−1 )} KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 107 (ii) Für n = 0, . . . , N ist Tn∗ = inf{i ≥ n | Zi = Ui } eine optimale Stoppzeit, das heißt E(ZTn∗ | Fn ) = supT ∈Πn,N E(ZT | Fn ). (iii) U ist das kleinste Supermartingal, das Z dominiert, d.h. Un ≥ Zn für 0 ≤ n ≤ N und ist W ein weiteres Supermartingal, das Z dominiert, dann gilt Wn ≥ Un für n = 0, . . . , N . Bemerkung. Für n = 0, . . . , N gilt: Tn∗ = inf{i ≥ n | Zi ≥ E(Ui+1 | Fi )}. Tn∗ stoppt also, wenn die Auszahlung Zi erstmals größer gleich der erwarteten optimalen Auszahlung im nächsten Schritt ist. Beweis. Der Beweis von (i) und (ii) erfolgt durch Rückwärtsinduktion. Offensichtlich gilt: ΠN,N = {N }, UN = ZN , TN∗ = N. Da Z und U adaptiert sind, ist Tn∗ = inf{i ≥ n | Zi − Ui = 0} ∈ Πn,N . Sei nun T ∈ Πn−1,N , so sind folgende Relationen nachzuprüfen: E(ZT | Fn−1 ) ≤ max{Zn−1 , E(Un | Fn−1 )} ∗ E(ZTn−1 | Fn−1 ) = max{Zn−1 , E(Un | Fn−1 )} (6.18) (6.19) Man setzt nun T := max{n, T } ∈ Πn,N . Die Relation (6.18) rechnet man wie folgt nach. Sei A ∈ Fn−1 beliebig, dann gilt ZT dP = Zn−1 dP + ZT dP. A A∩{T =n−1} A∩{T ≥n} Aufgrund von A ∩ {T ≥ n} = A ∩ {T ≤ n − 1}C ∈ Fn−1 gilt für den zweiten Summanden: ZT dP = E(ZT | Fn−1 ) dP = E(E(ZT | Fn ) | Fn−1 ) dP A∩{T ≥n} A∩{T ≥n} A∩{T ≥n} ≤Un E(Un | Fn−1 ) dP. ≤ A∩{T ≥n} Somit folgt nun A ZT dP ≤ A max{Zn−1 , E(Un | Fn−1 )} dP, womit (6.18) bewiesen ist. Nun muss noch (6.19) nachgeprüft werden: Hierbei gilt ∗ = n − 1 ⇔ Zn−1 ≥ E(Un | Fn−1 ). Tn−1 KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN Daraus folgt ∗ ZTn−1 dP = A 108 A∩{Zn−1 ≥E(Un | Fn−1 )} Zn−1 dP + A∩{Zn−1 <E(Un | Fn−1 )} ∗ ZTn−1 dP für A ∈ Fn−1 . Für den zweiten Summanden gilt nun A∩{Zn−1 <E(Un | Fn−1 )} ∗ ZTn−1 dP = =U A∩{Zn−1 <E(Un | Fn−1 )} = A∩{Zn−1 <E(Un | Fn−1 )} Folglich erhält man ∗ ZTn−1 dP = A n E(E(ZTn∗ | Fn ) | Fn−1 ) dP E(Un | Fn−1 ) dP. A∩{Zn−1 ≥E(Un | Fn−1 )} Zn−1 dP + A∩{Zn−1 <E(Un | Fn−1 )} E(Un | Fn−1 ) dP. Damit folgen die Aussagen (i) und (ii). Somit ist nur noch die Aussage (iii) nachzuprüfen: Da E(Un+1 | Fn ) ≤ Un gilt, ist Un ein Supermartingal. Weiters gilt Un = max{Zn , E(Un+1 | Fn )} ≥ Zn . Sei W = (Wn )0≤n≤N ein weiteres Z dominierendes Supermartingal, so gilt: WN ≥ ZN = UN Durch Induktion erhält man schließlich Un−1 = max{Zn−1 , E(Un | Fn−1 )} ≤ max{Wn−1 , E(Wn | Fn−1 )} = Wn−1 . ≤ Wn−1 Man betrachtet nun als Anwendung obigen Satzes das in Kapitel 3.5 angeführte Münzproblem. 6.4.1 Das Münzproblem Es wird maximal N -mal eine faire Münze geworfen. Nach dem n-ten Münzwurf kann der Spieler das Spiel abbrechen und erhält als Auszahlung Zn die relative Häufigkeit des Auftretens von Kopf“ oder er spielt weiter. Man will nun die mittlere Auszahlung bei optimaler ” Spielstrategie und eine optimale Spielstrategie selbst bestimmen. KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 109 Die Münzwürfe werden durch unabhängige Zufallsvariablen X1 , X2 , . . . , XN mit P (Xi = 1) = P (Xi = 0) = 1 2 beschrieben. Weiters sei F0 = {∅, Ω}, Fn = σ(X1 , . . . , Xn ). Für die Auszahlung gilt 1 Xi , Z0 = 0. Zn = n i=1 n Obig formuliertes Problem liegt nun in der Bestimmung von max ZT . T ∈Π0,N Man will folglich das dominierende Supermartingal Un bestimmen. Laut obigem Satz kann man die Un durch Rückwärtsinduktion bestimmen. Man stellt nun die Behauptung auf, dass Un eine Funktion von Zn ist, d.h. Un = hn (Zn ). Dies gilt es mittels Rückwärtsinduktion nachzuprüfen: Es gilt hN (z) = z. Wenn Un = hn (Zn ), so gilt Un−1 = max{Zn−1 , E(hn (Zn ) | Fn−1 )} n−1 1 = max Zn−1 , E hn Zn−1 + Xn n n =:gn−1 (Zn−1 ) mit gn−1 (z) = E hn 1 n−1 z + Xn n n 1 = hn 2 1 n−1 z+ n n Fn−1 . 1 + hn 2 n−1 z . n Somit folgt Un−1 = hn−1 (Zn−1 ) mit und hn−1 j n−1 n−1 hn + hn z . n Da Zn nur die Werte nj mit 0 ≤ j ≤ n annimmt, genügt es, hn nj zu berechnen: Es gilt j j hN = N N 1 hn−1 (z) = max z, 2 = max n−1 1 z+ n n j 1 , hn n−1 2 j+1 n 1 + hn 2 j n KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 110 für 0 ≤ j ≤ n − 1. Daraus folgt h0 (0) = max E(ZT ). T ∈Π0,N Die optimale Spielstrategie kann wie folgt formuliert werden: T ∗ stoppt, wenn zum zeigt man, dass hn (z) − z ersten Mal Zn = Un = hn (Zn ) gilt. Durch Rückwärtsinduktion j j monoton fallend in z ist beziehungsweise hn n − n monoton fallend in j ist: Für N ist obige Behauptung offensichtlich richtig, denn hn (z) − z ist konstant 0. Ist hn nj − nj monoton j j − n−1 , denn für 0 ≤ j1 ≤ j2 ≤ n − 1 gilt fallend, dann auch hn−1 n−1 j1 j1 + 1 j1 j1 1 1 j1 − = max 0, hn + hn − = hn−1 n−1 n−1 2 n 2 n n−1 j1 + 1 j1 1 j1 j1 − 1 j1 1 j1 1 + + + hn − hn − − = max 0, 2 n n 2 n n n 2n n − 1 j +1 j +1 j j ≥hn ( 2n )− 2n ≥hn ( n2 )− n2 j2 + 1 j2 1 j 2 j1 j1 1 + hn − + − ≥ max 0, hn 2 n 2 n n n n−1 j2 + 1 j2 j2 1 j2 j2 j1 j1 j2 1 − , hn + hn + − + − ≥ max n−1 2 n 2 n n n n − 1 n−1 n − 1 j2 + 1 j2 j2 1 1 j2 ≥ max , hn + hn − n−1 2 n 2 n n−1 j2 j2 − . =hn−1 n−1 n−1 j2 −j1 ≥0 n(n−1) Daraus folgt nun j j j j j ≤ n hn = = j ≤ n hn ≤ = n n n n j j − ≤ 0 = [b(n), n] = j ≤ n hn n n mit einem geeigneten b(n) ∈ {0, 1, . . . , n}. Die optimale&Stoppregel lautet jfolglich: ' Stoppe, b(n) j wenn zum ersten Mal Zn ≥ n gilt, wobei b(n) = min j ≤ n hn n − n ≤ 0 . 6.4.2 Ein modifiziertes Parkproblem Ein Autofahrer fährt aus seiner Garage und dann entlang einer kreisförmigen Route auf der sich hintereinander Parkplätze befinden. Die Route enthält N öffentliche Parkplätze KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 111 und endet in seinem stets freien Parkplatz der eigenen Garage. Sein Ziel liegt beim M -ten Parkplatz. Jeder öffentliche Parkplatz, an dem er vorbeifährt, ist mit Wahrscheinlichkeit p (0 < p < 1) frei und mit Wahrscheinlichkeit 1 − p besetzt. Er kann jeden freien Parkplatz benutzen oder weiterfahren. Er versucht so zu parken, dass die Erwartung von |M − n| minimal ist. Dabei bezeichnet n die Nummer des von ihm gewählten Parkplatzes. Erreicht er seine Garage, so bricht er seine Parkplatzsuche frustriert ab. Es soll nun eine optimale Strategie bestimmt werden. Sei Fn = σ(X1 , . . . , Xn ) und Ω = {0, 1}N . Falls der i-te Parkplatz besetzt ist, so setzt man Xi = 0, andernfalls gilt Xi = 1. Die Zufallsvariablen Xi sind unabhängig und es gilt P (Xi = 1) = p, P (Xi = 0) = 1 − p. Für Zn erhält man nun Zn = −|M − n|½{Xn =1} − K ½{Xn =0} , ZN +1 = −(N + 1 − M ) für n = 1, . . . , N und für hinreichend großes K. Man will nun folgende Behauptung für n = 1, . . . , N + 1 nachprüfen: Un = −hn (Xn ) (6.20) Dies beweist man wiederum mit Hilfe der Rückwärtsinduktion: Es gilt jedenfalls hN +1 (x) = N + 1 − M . Für Un−1 erhält man nun Un−1 = max{Zn−1 , E(Un | Fn−1 )} = max{Zn−1 , −E(hn (Xn ) | Fn−1 )}. Da −E(hn (X1 )) = −(phn (1) + (1 − p)hn (0)) gilt, folgt somit Un−1 = max{−|M − n + 1|½{Xn−1 =1} − K ½{Xn−1 =0} , −(phn (1) + (1 − p)hn (0))} min{|M − n + 1|, phn (1) + (1 − p)hn (0)} fürXn−1 = 1 =− phn (1) + (1 − p)hn (0) fürXn−1 = 0. Folglich gilt nun Un−1 = −hn−1 (Xn−1 ), wobei hn−1 (1) = min{|M − n + 1|, phn (1) + (1 − p)hn (0)} hn−1 (0) = phn (1) + (1 − p)hn (0) KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN 112 gilt. Der optimale Wert dieses Maximierungsproblems ergibt sich dementsprechend zu E(U1 ) = −E(h1 (X1 )) = −(ph1 (1) + (1 − p)h1 (0)) = −h0 (0) Infolgedessen entspricht h0 (0) dem optimalen Wert des Minimierungsproblems. Die optimale Strategie kann nun wie folgt formuliert werden: Ist für ein n α := p hn (1) + (1 − p)hn (0) ≤ |M − n + 1|, dann ist hk (0) = hk (1) = α für alle k ≤ n − 1. Für k > n ist hn−1 (1) = |M − n + 1|. Literaturverzeichnis [AHBT82] A. R. Abdel-Hamid, J. A. Bather, and G. B. Trustrum. The secretary problem with an unknown number of candidates. J. Appl. Probab., 19(3):619–630, 1982. [BBG86] Boris A. Berezovskiy, Yuliy M. Baryshnikov, and Alexander V. Gnedin. On a class of best-choice problems. Inform. Sci., 39(1):111–127, 1986. [Bel56] Richard Bellman. Computational problems in the theory of dynamic programming. In Proceedings of Symposia in Applied Mathematics. Vol. VI. Numerical analysis, pages 1–10. McGraw-Hill Book Company, Inc., New York, for the American Mathematical Society, Providence, R. I., 1956. [Bel58] Richard Bellman. Notes on the theory of dynamic programming. Transportation models. Management Sci., 4:191–195, 1958. [Bel71] Richard Bellman. Functional equations in the theory of dynamic programming. XIX [printed as XVIII]. A problem connected with the value of information. Math. Biosci., 11:1–3, 1971. [BLC00] F. Thomas Bruss and Lucien Le Cam, editors. Game theory, optimal stopping, probability and statistics. Institute of Mathematical Statistics Lecture Notes— Monograph Series, 35. Institute of Mathematical Statistics, Beachwood, OH, 2000. Papers in honor of Thomas S. Ferguson. [Cay96] Arthur Cayley. Mathematical questions and their solutions, The Collected Mathematical Papers of Arthur Cayley Vol X. Cambridge Univ. Press, pages 587–588, 1896. [CMRS64] Y. S. Chow, S. Moriguti, H. Robbins, and S. M. Samuels. Optimal selection based on relative rank (the “Secretary problem”). Israel J. Math., 2:81–90, 1964. [CR63] Y. S. Chow and Herbert Robbins. On optimal stopping rules. Z. Wahrscheinlichkeitstheorie und Verw. Gebiete, 2:33–49, 1963. [CR65] Y. S. Chow and Herbert Robbins. On optimal stopping rules for sn /n. Illinois J. Math., 9:444–454, 1965. 113 LITERATURVERZEICHNIS 114 [CRS71] Y. S. Chow, Herbert Robbins, and David Siegmund. Great expectations: the theory of optimal stopping. Houghton Mifflin Co., Boston, Mass., 1971. [CRS91] Y. S. Chow, Herbert Robbins, and David Siegmund. The theory of optimal stopping. Dover Publications Inc., New York, 1991. Corrected reprint of the 1971 original. [DA69] E. B. Dynkin and Juschkewitsch. A. A. Sätze und Aufgaben über Markoffsche Prozesse. Aus dem Russischen übersetzt von K. Schürger. Vorwort zur deutschen Ausgabe von K. Krickeberg. Heidelberger Taschenbücher, Band 51. Springer-Verlag, Berlin, 1969. [DeG70] Morris H. DeGroot. Optimal statistical decisions. McGraw-Hill Book Co., New York, 1970. [Dvo67] Aryeh Dvoretzky. Existence and properties of certain optimal stopping rules. In Proc. Fifth Berkeley Sympos. Math. Statist. and Probability (Berkeley, Calif., 1965/66), pages Vol. I: Statistics, pp. 441–452. Univ. California Press, Berkeley, Calif., 1967. [FE88] E. Z. Ferenstein and E. G. Enns. Optimal sequential selection from a known distribution with holding costs. J. Amer. Statist. Assoc., 83(402):382–386, 1988. [Fer89] Thomas S. Ferguson. Who solved the secretary problem? Statist. Sci., 4(3):282– 296, 1989. With comments and a rejoinder by the author. [FH89] T. S. Ferguson and J. P. Hardwick. Stopping rules for proofreading. J. Appl. Probab., 26(2):304–313, 1989. [Fre83] P. R. Freeman. The secretary problem and its extensions: a review. Internat. Statist. Rev., 51(2):189–206, 1983. [GM66] John P. Gilbert and Frederick Mosteller. Recognizing the maximum of a sequence. J. Amer. Statist. Assoc., 61:35–73, 1966. [GnZ66] S. M. Guseı̆ n Zade. The problem of choice and the optimal stopping rule for a sequence of independent trials. Teor. Verojatnost. i Primenen., 11:534–537, 1966. [HY00] Shoou-Ren Hsiau and Jiing-Ru Yang. A natural variation of the standard secretary problem. Statist. Sinica, 10(2):639–646, 2000. [Lin61] D. V. Lindley. Dynamic programming and decision theory. Appl. Statist., 10:39–51, 1961. LITERATURVERZEICHNIS 115 [LS89] R. Sh. Liptser and A. N. Shiryayev. Theory of martingales, volume 49 of Mathematics and its Applications (Soviet Series). Kluwer Academic Publishers Group, Dordrecht, 1989. Translated from the Russian by K. Dzjaparidze [Kacha Dzhaparidze]. [Mos65] Frederick Mosteller. Fifty challenging problems in probability with solutions. Addison-Wesley Publishing Co., Inc., Reading, Mass.-London, 1965. [Mos75] Leo Moser. On a problem of cayley. Scripta Math., 22:289–292, 1975. [Muc73] Anthony G. Mucci. On a class of secretary problems. Ann. Probability, 1:417– 427, 1973. [Rob70] Herbert Robbins. Optimal stopping. Amer. Math. Monthly, 77:333–343, 1970. [Ros82] John S. Rose. A problem of optimal choice and assignment. Oper. Res., 30:172– 181, 1982. [ST82] Minoru Sakaguchi and Mitsushi Tamaki. On the optimal parking problem in which spaces appear randomly. Bull. Inform. Cybernet., 20(1-2):1–10, 1982. [Tam82] Mitsushi Tamaki. An optimal parking problem. J. Appl. Probab., 19(4):803– 814, 1982. [Tam86] Mitsushi Tamaki. A full-information best-choice problem with finite memory. J. Appl. Probab., 23(3):718–735, 1986. [Tam88] Mitsushi Tamaki. Optimal stopping in the parking problem with U -turn. J. Appl. Probab., 25(2):363–374, 1988. [TS96] Mitsushi Tamaki and J. George Shanthikumar. A full-information best-choice problem with allowance. Probab. Engrg. Inform. Sci., 10(1):41–56, 1996.