Optimales Stoppen von stochastischen Prozessen

Werbung
Denise Pachernegg
Optimales Stoppen von
stochastischen Prozessen
Diplomarbeit
Technische Mathematik
Studienzweig Operations Research, Statistik und Finanzmathematik
Verfasst am
Institut für Statistik der
Technischen Universität Graz
bei o. Univ.-Prof. Dr. István Berkes
Graz, Dezember 2003
Ich versichere, diese Arbeit selbständig verfasst, andere als angegebene Quellen
und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu haben.
Denise Pachernegg
Inhaltsverzeichnis
1 Das Secretary Problem
3
1.1
Wahl des besten Objekts . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Eine alternative Methode ohne Rückwärtsinduktion . . . . . . . . . . . . .
7
1.3
Eine bessere Aproximation . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4
Wahl des zweitbesten Objekts . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.5
Wahl des drittbesten Objekts . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.6
Minimierung des erwarteten Ranges . . . . . . . . . . . . . . . . . . . . . .
14
1.7
Wahl des Objekts mit absolutem Rang k . . . . . . . . . . . . . . . . . . .
29
1.8
Modifizierte Anordnungen der Objekte . . . . . . . . . . . . . . . . . . . .
29
1.9
Nicht kooperative Spiele . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
1.10 Lösung mit Hilfe von minimax-Strategien . . . . . . . . . . . . . . . . . . .
33
2 Modifikation durch Kenntnis der Verteilung
38
2.1
Das Problem von Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.2
Eine Modifikation des Problems von Cayley . . . . . . . . . . . . . . . . .
44
2.2.1
45
Eine alternative Methode . . . . . . . . . . . . . . . . . . . . . . . .
3 Unendliche Stoppprobleme
49
3.1
Allgemeine Formulierung des Problems . . . . . . . . . . . . . . . . . . . .
49
3.2
Existenz einer optimalen Stoppregel . . . . . . . . . . . . . . . . . . . . . .
51
3.3
Sampling without recall . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.4
Sampling with recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.5
Das Durchschnittproblem . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
i
INHALTSVERZEICHNIS
ii
4 Lösung mit Hilfe von Markov-Ketten
73
5 Optimales Stoppen von Markov-Ketten
81
5.1
Exzessive Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.2
Der Wert des Spiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.3
Die optimale Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
5.4
Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
6 Optimales Stoppen durch Martingal-Methoden
93
6.1
Stoppzeiten für Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
6.2
Gleichmäßig integrierbare Folgen von Zufallsvariablen . . . . . . . . . . . .
97
6.3
Reguläre Supermartingale . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
6.4
6.3.1
Das Quizproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.3.2
Das Parkproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.3.3
Das Parkproblem mit Umkehrmöglichkeit . . . . . . . . . . . . . . . 104
Supermartingale und allgemeine Stoppprobleme . . . . . . . . . . . . . . . 106
6.4.1
Das Münzproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.4.2
Ein modifiziertes Parkproblem . . . . . . . . . . . . . . . . . . . . . 110
Vorwort
Oft steht man vor der Situation, einen zufälligen Prozess zu beobachten, ohne ihn selbst
beeinflussen zu können, um dann zu einem selbstgewählten Zeitpunkt eine einmalige und
unumkehrbare Entscheidung zu treffen, die dann mit bestimmten Kosten oder Gewinnen
verbunden ist. Das Problem besteht nun darin, diese Entscheidung so zu treffen, dass der
Gewinn für den Entscheidungsträger maximiert beziehungsweise sein Verlust minimiert
wird.
Das erste solche Problem wurde 1874 von Arthur Cayley formuliert und gelöst. Die
intensive Forschung auf diesem Gebiet startete jedoch erst 1955 nach der Formulierung des
sogenannten Secretary Problems“ durch Gleason. Gleason selbst hatte das Problem jedoch
”
von jemand anderem gehört. 1960 erschien in der Februarausgabe des Scientific American
in der Kolumne von Martin Gardner’s Mathematical Games ein einfaches Problem, das als
Secretary Problem einen großen Bekanntheitsgrad erlangte. Ab diesem Zeitpunkt wurde es
auf unterschiedliche Art und Weise in verschiedene Richtungen weiterentwickelt und modifiziert. Kapitel 1 befasst sich sowohl mit diesem Problem in seiner ursprünglichsten Form
als auch mit einigen modifizierten Fragestellungen, die teilweise einem spieltheoretischen
Ansatz folgen. Die fundamentale dabei in Verwendung tretende Methode stellt die Theorie
der Backward Induction“ bzw. der dynamischen Programmierung dar, die in den meisten
”
Fällen zu einer nichtlinearen Differenzen- bzw. Differentialgleichung führt.
Dennis V. Lindley war der erste, der das anfangs erwähnte Problem in [Lin61] in einem wissenschaftlichen Journal veröffentlichte. In weiterer Folge waren es vor allem Chow,
Dynkin, Gilbert, Moriguti, Mosteller, Robbins und Samuels, die sich mit den modifizierten
Weiterentwicklungen dieses Problems befassten. Dem damit in Verbindung stehenden Problem der asymptotisch optimalen Strategien und der Minimierung des erwarteten Ranges
widmeten sich Chow, Moriguti, Robbins und Samuels in [CMRS64].
Die Lösung des ursprünglichen Problems von Cayley, die durch Kenntnis der zugrunde
liegenden Verteilung erreicht wird, wird in Kapitel 2 studiert.
In obig aufgezählten Fällen ist die Existenz einer optimalen Stoppregel jedenfalls gesichert.
Für den unendlichen Fall wird dies in Kapitel 3 für einige spezielle Probleme sowie für allgemeine Aufgabenstellungen nachgewiesen.
In Kapitel 4 wird nochmals das ursprünglich gestellte Secretary Problem“ aufgegriffen
”
und auf alternative Art mit Hilfe von Markov-Ketten gelöst. Exzessive Funktionen im Falle eines zugrundeliegenden Markovprozesses in Kapitel 5, Martingale und das damit in
1
INHALTSVERZEICHNIS
2
Verbindung stehende Konzept der dominierenden Supermartingale in Kapitel 6 stellen ein
wichtiges Hilfsmittel dar, um die rund um die Thematik des optimalen Stoppens auftretenden Aufgabenstellungen auf eine effizientere Art und Weise zu lösen.
Sehr herzlich bedanken möchte ich mich bei Herrn Prof. Dr. István Berkes, dessen intensive und gewissenhafte Betreuung mir zuteil wurde. Ganz besonders möchte ich mich bei
Elmar Teufl für seine große Hilfe und Unterstützung bedanken. Ebenso gilt mein Dank all
jenen, die auf verschiedene Weise zum Entstehen dieser Arbeit beigetragen haben. Letztendlich möchte ich meiner Mutter danken, deren Unterstützung immer meine treibende
Kraft war.
Graz, 12. Dezember 2003
Denise Pachernegg
Kapitel 1
Das Secretary Problem
1.1
Wahl des besten Objekts
Das erste Mal erschien in den späten 50er Jahren ein einfaches Problem unter dem Namen secretary problem“, marriage problem“ oder dowry problem“ in der Literatur, das
”
”
”
sich mittlerweile zu einem klassischen Problem des optimalen Stoppens konstituiert hat. In
relativ kurzen Zeitabständen wurden zahlreiche Variationen des ursprünglichen Problems
behandelt. Zu Beginn soll dieses Problem in seiner allgemeinen und ursprünglichen Form
formuliert werden:
Es ist ein Sekretärinnenposten zu besetzen.
Es existieren n Bewerberinnen.
Die Bewerberinnen werden nacheinander in zufälliger Reihenfolge interviewt, wobei
nichts über die Verteilung der Bewerberinnen bekannt ist. Bei jeder der Bewerberinnen steht man vor der Wahl, ob sie den Posten erhält oder ob sie abgelehnt wird.
Diese Entscheidung muss jedoch sofort gefällt werden, bevor die nächste in der Reihe
betrachtet wird.
Es wird vorausgesetzt, dass die Bewerberinnen gemäß steigender Präferenz (von am
besten geeigneten bis zur am schlechtesten geeigneten) geordnet werden können. Die
jeweilige Entscheidung, ob eine Bewerberin den Posten erhält oder abgelehnt wird,
darf nur auf den relativen Rängen der bisher befragten Bewerberinnen basieren.
Falls man sich vor der Präsentation der letzten Bewerberin nicht für eine vorhergehende entschieden hat, so muss man die letzte wählen.
Es ist weiters nicht zulässig, sich für eine bereits schon im Vorfeld abgelehnte Bewerberin nachträglich zu entscheiden.
3
KAPITEL 1. DAS SECRETARY PROBLEM
4
Man ist nur dann zufrieden, wenn man sich wirklich für die beste entscheiden hat.
In weiterer Folge soll nun die Verallgemeinerung des obig formulierten Problems auf Objekte betrachtet werden. Falls man obige Voraussetzungen als Spiel formuliert, so besteht
ein Gewinn genau in der Wahl des absolut besten Objekts.
Sei X1 , . . . Xn eine zufällige Permutation von 1, . . . , n, so gilt
P (X1 = i1 , . . . , Xn = in ) =
1
n!
für alle Permutationen (i1 , . . . , in ). In diesem Modell wird nun der absolute Rang des r-ten
Objekts unter allen Objekten mit Xr bezeichnet. Im r-ten Schritt kann man jedoch den
relativen Rang
Yr := 1 + |{i | i < r, Xi < Xr }| für r = 1, . . . , n
beobachten. Hierbei hängt es nicht davon ab, welche Objekte in den ersten r Schritten
betrachtet werden, sondern jedes r-Tupel von relativen Rängen ist gleich wahrscheinlich.
Infolgedessen ist Yr auf {1, . . . , r} gleichverteilt.
Da die relativen Ränge der ersten r Objekte keine Information über die Ränge der noch
verbleibenden Objekte zur Verfügung stellen, gilt demnach:
Y1 , . . . , Y r
und Xr+1 , . . . , Xn
sind unabhängig.
Diese Eigenschaft kann man unter dem Begriff der Markov-Eigenschaft zusammenfassen,
das heißt die Zukunft hängt nicht von der Vergangenheit, sondern nur von der Gegenwart
ab. Für diese Interpretationsweise sei auf Kapitel 6 verwiesen.
Nun soll dieses Problem als Spiel veranschaulicht werden. Die Intention eines Spielers
ist also, das für ihn beste Objekt unter allen n Objekten zu wählen. In jedem Schritt muss
er eine Entscheidung fällen: Entscheidet er sich für das aktuelle Objekt, so beendet er das
Spiel in diesem Schritt. Ein Gewinn des Spiels bedeutet, dass der Spieler auch wirklich das
beste Objekt bezüglich seiner Rangordnung gewählt hat. Da man jedoch für ein fixes n nur
endlich viele Möglichkeiten zur Verfügung hat, muss eine optimale Strategie existieren, die
man zu finden bestrebt ist.
Zu diesem Zweck wird die Idee der Rückwärtsinduktion verwendet: Sei Vk die maximale
Wahrscheinlichkeit unter allen Strategien mit wenigstens k Schritten für k = 1, . . . , n.
Befindet man sich nun im n-ten Schritt, so muss das n-te Objekt gewählt werden. Also gilt
Vn = 1/n.
Definition 1.1. Das i-te Objekt heißt Kandidat, falls Yi = 1 gilt. Die Wahrscheinlichkeit,
dass das k-te Objekt ein Kandidat ist, wird mit
Pk := P (Yk = 1).
bezeichnet.
KAPITEL 1. DAS SECRETARY PROBLEM
5
Man kann sich leicht davon überzeugen, dass Pk = k/n gilt. Dazu kann man sich die
relativen Ränge auf einer Zahlengerade veranschaulichen, wobei die Ränge in absteigender
Reihenfolge angeordnet sind. Wenn man sich im k-ten Schritt befindet, so sollte das (k +1)te Objekt nicht rechts von k stehen, um einen Gewinn zu ermöglichen.
Definition 1.2. Ein Intervall Ik wird als gut“ bezeichnet, falls für ein Objekt Xk im k-ten
”
Schritt
Xk ∈ Ik
gilt und dadurch noch ein Gewinn möglich ist.
Es stehen also k + 1 Intervalle im k-ten Schritt zur Verfügung, von denen jedoch nur k
gut“ sind. Durch Iteration ergibt sich also:
”
k
k+1
n−1
k
Pk =
·
· ... ·
= .
k+1 k+2
n
n
Nun kann Vk rekursiv wie folgt dargestellt werden:
k−1
1
k
Vk =
Vk+1 + max
, Vk+1 .
k
k
n
Diese Darstellung lässt sich folgendermaßen rechtfertigen:
Man unterscheidet nun 2 Fälle, die im k-ten Schritt auftreten können:
1. Das k-te Objekt ist kein Kandidat (dies passiert mit Wahrscheinlichkeit (k − 1)/k),
dann muss man auf jeden Fall weitergehen, um noch gewinnen zu können.
2. Das k-te Objekt ist ein Kandidat (dies tritt mit Wahrscheinlichkeit 1/k auf), dann
kann sowohl weitergegangen als auch gestoppt werden. Falls man im k-ten Schritt
stoppt, so gibt Pk die Wahrscheinlichkeit an, dass es sich bei dem k-ten Objekt auch
wirklich um das beste handelt.
Nun kann man folgende Werte rekursiv berechnen:
n−2 1
1
n−1 1
· +
max
,
Vn−1 =
n−1 n n−1
n n
1
1
n−2
+
=
n
n−1 n−2
n−3
1
n−2 n−2
1
1
· Vn−1 +
max
,
+
Vn−2 =
n−2
n−2
n
n
n−1 n−2
=:S
1
1
1
n−3
+
+
=
n
n−1 n−2 n−3
KAPITEL 1. DAS SECRETARY PROBLEM
6
für n ≥ 2, da in diesem Fall S < 1 gilt.
Für den allgemeineren Fall gilt nun
l−1
1
1
+ ... +
.
Vl =
n
l−1
n−1
Nun kann man schon erkennen, dass für die Berechnung von Vl das Augenmerk auf
n−1
1
k=l k gelegt werden muss. Solange diese Summe einen Wert kleiner 1 annimmt, wird das
Maximum vom ersten Term angenommen. Man unterscheidet hierbei also 2 Fälle:
1. Für
2. Für
l
n
≥ Vl+1 gilt nun
l
n
< Vl+1 erhält man
n−1
l−1 1
Vl =
.
n k=l−1 k
Vl =
Man will nun den Index
l−1
1
Vl+1 + Vl+1 = Vl+1 .
l
l
n−1
1
s∗ := max n ≥ 1 >1
k
k=l
für große n approximieren. Es gilt nun für beliebiges m ≥ 2
m+1
m
1
1
1
log(m + 1) − log(m) =
dx <
<
dx = log(m) − log(m − 1).
x
m
m
m−1 x
Durch Aufsummierung von m = l, . . . , n − 1 erhält man
log(n) − log(l) <
1
1
+ ... +
< log(n − 1) − log(l − 1).
l
n−1
Der Parameter s∗ erfüllt deshalb
1
1
1
1
+ ... +
≤1< ∗
+ ... +
.
∗
s
n−1
s −1
n−1
(1.1)
Demnach gilt
log(n) − log(s∗ ) < 1 < log(n − 1) − log(s∗ − 2).
Daraus leitet man nun eine untere und obere Schranke von s∗ ab. Es gilt
n
< s∗
log(n) − 1 < log(s∗ ) ⇒
e
n
1
∗
∗
log(s − 2) < log(n − 1) − 1 ⇒ s < + 2 −
e
e
(1.2)
(1.3)
KAPITEL 1. DAS SECRETARY PROBLEM
7
Aus (1.2) und (1.3) ergibt sich nun
∗
s ∈ I :=
n n
1
, +2−
e e
e
.
Das Intervall I enthält maximal zwei ganze Zahlen, da |I| = 2 −
s∗
∈
n
1 1 2−
, +
e e
n
1
e
1
e
≈ 1.632. Weiters gilt
.
Folglich erhält man
s∗
n
1
lim
= ⇒ s∗ ≈ .
n→∞ n
e
e
Also besteht eine optimale Strategie darin, die ersten s∗ Objekte zu verwerfen und im
Anschluss daran das erste Objekt, das besser als alle vorigen ist, zu wählen. Die Erfolgswahrscheinlichkeit dieser Strategie ist durch
1
s∗ 1
+ ... +
P (n) :=
n s∗
n−1
gegeben. Mit Hilfe von (1.1) folgt nun für den Grenzwert der Gewinnwahrscheinlichkeiten
s∗ 1
1
1
+ ... +
lim P (n) = lim
= ≈ 0.368.
∗
n→∞
n→∞ n
s
n−1
e
Infolgedessen besteht eine optimale Strategie des oben angeführten Problems darin, bei den
ersten ne Objekten nicht zu stoppen und in weiterer Folge den danach ersten Kandidaten zu
wählen. Aus dieser Strategie resultiert daher eine asymptotische Gewinnwahrscheinlichkeit
von 1e . In Tabelle 1.1 wird die Gewinnwahrscheinlichkeit P (n) für einige Werte von n
dargestellt.
1.2
Eine alternative Methode ohne Rückwärtsinduktion
Das Secretary Problem soll nun ohne die Verwendung der Rückwärtsinduktion gelöst werden. Das i-te Objekt wird gewählt, falls
P (Gewinnen mit Wahl des i-ten Objekts) > P (Gewinnen mit Weitergehen)
(1.4)
für den i-ten Schritt gilt, wobei man P (Gewinnen mit Stoppen nach l Schritten) = nl
erhält. Da die linke Seite von (1.4) eine streng monoton wachsende Funktion in i darstellt
und die rechte Seite von (1.4) einer monoton fallenden Funktion in i entspricht, existiert
jedenfalls ein Schnittpunkt bezüglich dessen die optimale Strategie gewählt werden kann.
KAPITEL 1. DAS SECRETARY PROBLEM
n
5
10
15
20
25
30
35
40
45
50
55
60
65
s∗
3
4
6
8
10
12
14
16
17
19
21
23
25
P (n)
0.43333
0.39869
0.38941
0.38421
0.38092
0.37865
0.37700
0.37493
0.37493
0.37428
0.37371
0.37321
0.37278
n
s∗
70
27
75
28
80
30
85
32
90
34
95
36
100
38
200
74
300 111
400 148
500 185
1000 369
∞ n/e
8
P (n)
0.37239
0.37210
0.37186
0.37163
0.37142
0.37122
0.37104
0.36946
0.36894
0.36867
0.36851
0.36820
0.36788
Tabelle 1.1: Die Größen s∗ und P (n) für einige Werte von n
Daraus folgt, dass eine optimale Strategie nun darin besteht, nach den ersten betrachteten
l Objekten den nächsten Kandidaten auszuwählen. Die Wahrscheinlichkeit, dass man mit
dieser Strategie gewinnt, soll nun maximiert werden. Man betrachtet nun zwei unabhängige
Ereignisse: Die Wahrscheinlichkeit, dass sich das beste Objekt der ersten k − 1 Objekte
l
. Diese letzte Beobachtung zusammen
unter den ersten l Objekten befindet, beträgt k−1
1
mit P (Xk = 1) = n ergibt die Gewinnwahrscheinlichkeit P (k) im k-ten Schritt:
P (k) =
l
1
·
k−1 n
für k = l + 1, . . . , n. Durch Aufsummieren obigen Ausdrucks erhält man die tatsächliche
Gewinnwahrscheinlichkeit P (l, n), wenn man nach den ersten l Objekten den ersten auftretenden Kandidaten auswählt:
n
1
l 1
l
· =
P (l, n) =
k−1 n
n k=l k
k=l+1
für l = 1, . . . , n − 1. Gilt im l-ten Schritt
l
l 1
> ,
n k=l k
n
n−1
so sollte man jedenfalls weitergehen. Ist
l 1
l
≤
n k=l k
n
n−1
n−1
KAPITEL 1. DAS SECRETARY PROBLEM
9
erfüllt, so sollte man im l-ten Schritt stoppen. Offensichtlich hat diese Methode auf dasselbe
Ergebnis wie in Abschnitt 1.1 geführt.
1.3
Eine bessere Aproximation
Gilbert und Mosteller haben in [GM66] gezeigt, dass noch eine Verbesserung des Index
s∗ = [ ne ] gefunden werden kann. Dieser Index entspricht dem kleinsten s, für das die
Ungleichung
n−1 s 1
s
>
n
n k=s k
erfüllt ist. Dazu benötigt man zuerst folgende schon erhaltene Ungleichung
1
1
1
1
1
1
1
+
+ ... +
<1<
+ +
+ ... +
.
s s+1
n−1
s−1 s s+1
n−1
Für die Fälle n = 2, s = 1 und s = 2 ist obige Ungleichung nicht richtig, in diesen Fällen
tritt Gleichheit auf. Es ist weiters bekannt, dass beliebige Teilsummen der harmonischen
Reihe mit Ausnahme der ersten Partialsumme sich nicht genau zu 1 aufaddieren.
Man kann nun die Voraussetzungen obiger Ungleichung verwenden, um die Schranken
von s∗ aufgrund folgender Approximationen festzusetzen:
n− 1
n−1
2 1
n − 12
1
1≤
<
dx = log
j
s − 32
s− 32 x
j=s−1
n
n−1
1
1
1 1 1
1≥
>
dx +
−
j
2 s n
s x
j=s
e>
n 1(1− 1 )
e2 s n
s
Nun ergibt sich
n− 12
e
n−
e
1
2
+
+
3
2
und aus der zweiten
−1
n − 12
n
1
1 1 1
n
1
3
>
−
1+
−
>
1+
+
.
s
2 s n
s
2
e
2
n
Aus der ersten Ungleichung folgt s <
n−
1
3e − 1
−
≤ s∗ ≤
2 2(2n + 3e − 1)
e
wobei s∗ nun in ein Intervall der Länge
1+
1.79
n + 1.79
1
2
3
+ ,
2
KAPITEL 1. DAS SECRETARY PROBLEM
n
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
200
300
400
500
I1
(1.83940, 3.47152)
(3.67880, 5.31091)
(5.51820, 7.15031)
(7.35759, 8.98971)
(9.19699, 10.8291)
(11.0364, 12.6685)
(12.8758, 14.5079)
(14.7152, 16.3473)
(16.5546, 18.1867)
(18.3940, 20.0261)
(20.2334, 21.8655)
(22.0728, 23.7049)
(23.9122, 25.5443)
(25.7516, 27.3837)
(27.5910, 29.2231)
(29.4304, 31.0625)
(31.2698, 32.9019)
(33.1092, 34.7413)
(34.9486, 36.5807)
(36.7880, 38.4201)
(73.5759, 75.2080)
(110.364, 111.996)
(147.152, 148.784)
(183.938, 185.572)
10
I2
[1.94692, 3.15546]
[3.86311, 4.99485]
[5.73797, 6.83425]
[7.59778, 8.67365]
[9.45045, 10.5131]
[11.2992, 12.3524]
[13.1455, 14.1918]
[14.9902, 16.0312]
[16.8338, 17.8706]
[18.6767, 19.7100]
[20.5189, 21.5494]
[22.3607, 23.3888]
[24.2021, 25.2282]
[26.0433, 27.0676]
[27.8843, 28.9070]
[29.7250, 30.7464]
[31.5656, 32.5858]
[33.4061, 34.4252]
[35.2465, 36.2646]
[37.0867, 38.1040]
[73.8832, 74.8920]
[110.674, 111.680]
[147.463, 148.468]
[184.252, 185.256]
Tabelle 1.2: Darstellung der Intervalle I1 und I2 für einige Werte von n
fällt. Außerdem entspricht
n − 1/2 3
+
e
2
dem korrekten Wert von s∗ bis zu n = 100 mit Ausnahme von n = 97. Der auftretende
1
≈ e nicht. Obige
Fehler, wenn s∗ + 1 anstatt von s∗ betrachtet wird, übersteigt n(s−1)
n nn2
1
und
,
+
2
−
Approximation
wird
nun
anhand
der
resultierenden
Intervalle
I
1 :=
e
e
e
n− 1
2
I2 :=
+ 12 −
e
dargestellt.
n− 1
3e−1
, e2
2(2n+3e−1)
+
3
2
für unterschiedlicher Werte von n in Tabelle 1.2
KAPITEL 1. DAS SECRETARY PROBLEM
1.4
11
Wahl des zweitbesten Objekts
Dieses Problem basiert auf obig angeführter Aufgabenstellung, jedoch wurde hierbei folgende Modifikation vorgenommen: Die Wahl des zweitbesten Objekts wird in diesem Fall
als Gewinn bezeichnet. Es ist einfacher, das beste Objekt auszuwählen als das zweitbeste.
Satz 1.3. Die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien obigen Problems, die wenigstens l Schritte besitzen, ist durch folgende Formel gegeben
Vl =
l−2
1
1
Vl+1 + max{fl (1), Vl+1 } + max{fl (2), Vl+1 }
l
l
l
mit
fl (1) = P (Xl = 2 | Yl = 1) =
l(n − l)
n(n − 1)
fl (2) = P (Xl = 2 | Yl = 2) =
l(l − 1)
.
n(n − 1)
und
Außerdem konvergieren die Gewinnwahrscheinlichkeiten gegen 14 .
Beweis. Zuerst sollen die bedingten Wahrscheinlichkeiten fl (1) und fl (2) berechnet werden:
Man befindet sich also im l-ten Schritt und es verbleiben noch n − l Schritte. Zuerst
beschäftigt man sich der Berechnung von fl (1). Das momentan betrachtete Objekt im lten Schritt besitzt den relativen Rang 1. Dass dieses Objekt am Ende den gewünschten
absoluten Rang 2 aufweist, muss nun in den verbleibenden n − l Schritten ein besseres
Objekt auftreten. Nun gibt es n − l Möglichkeiten, wann das beste Objekt auftritt. Da
diese n − l Fälle gleich wahrscheinlich sind, genügt es, den Fall zu betrachten, dass das
beste Objekt im letzten Schritt auftritt. Die Wahrscheinlichkeit für diesen Fall beträgt
l+1
n−2 1
l
l
·
...
· =
.
l+1 l+2
n−1 n
n(n − 1)
Da nun alle n − l Fälle gleich wahrscheinlich sind, ergibt sich daraus
fl (1) =
(n − l)l
.
n(n − 1)
Nun soll fl (2) berechnet werden. Da das im l-ten Schritt betrachtete Objekt einen
relativen Rang 2 besitzt, darf nun in den verbleibenden n − l Schritten kein besseres
Objekt auftreten, damit gewährleistet wird, dass dieses Objekt am Ende auch wirklich
KAPITEL 1. DAS SECRETARY PROBLEM
12
einen absoluten Rang 2 aufweist. Falls man sich momentan im l-ten Schritt befindet und
die relativen Ränge wiederum mittels einer Zahlengerade veranschaulicht werden, so stehen
im l-ten Schritt l + 1 Intervalle zur Verfügung, von denen nur l − 1 Intervalle wirklich gut“
”
sind. Iterativ angewandt ergibt sich nun
fl (2) =
l−1
l
n−2
(l − 1)l
·
· ... ·
=
.
l+1 l+2
n
n(n − 1)
Aufgrund von
fl−1 (2) =
(l − 1)(l − 2)
l(l − 1)
<
= fl (2)
n(n − 1)
n(n − 1)
ist fl (2) streng monoton wachsend. Da
fl−1 (1) =
(l − 1)(n − l + 1)
n(n − 1)
gilt, ist fl (1) streng monoton wachsend für l <
und fl (1) =
n+1
2
l(n − l)
n(n − 1)
und streng monoton fallend für l ≥
n+1
.
2
Man unterscheidet nun folgende Fälle:
1. fl (1) ≤ Vl+1 ≤ fl (2): Daraus folgt
Vl =
l−2
1
1
l−1
l−1
Vl+1 + Vl+1 + fl (2) =
Vl+1 +
.
l
l
l
l
n(n − 1)
Durch Rückwärtseinsetzen erhält man folgende Vermutung:
Vl+1 =
l(n − l)
= fl (1)
n(n − 1)
Der Beweis erfolgt mit vollständiger Induktion: Für l = n − 1 gilt
Vn =
1
n
und der Induktionsschritt l + 1 → l folgt nun durch Einsetzen:
Vl =
1 (n − l)l
1 l(l − 1)
(l − 1)(n − l + 1)
l − 2 (n − l)l
·
+
+
=
l
n(n − 1) l n(n − 1) l n(n − 1)
n(n − 1)
Nun soll der Index berechnet werden, ab welchem obige Ungleichung gilt. Aus Vl+1 =
fl (1) ≤ fl (2) folgt
l≥
n+1
.
2
KAPITEL 1. DAS SECRETARY PROBLEM
13
In der oberen Hälfte des Intervalls macht es laut obiger Rechnung keinen Unterschied,
ob man weitergeht oder bei einem Objekt mit relativem Rang 1 stoppt. In einem
solchen Fall einigt man sich darauf, immer weiterzugehen, das heißt, für einen Index
wird nicht bei einem Objekt mit Rang 1 gestoppt. In diesem
größer oder gleich n+1
2
Fall wird nur bei einem Objekt mit relativem Rang 2 gestoppt.
2. fl (2) ≤ fl (1) ≤ Vl+1 : In diesem Fall ergibt sich
Vl =
l−2
1
1
Vl+1 + Vl+1 + Vl+1 = Vl+1 .
l
l
l
Diese Gleichung gilt nur für einen Index l <
n+1
.
2
Aus
fl (1) < Vl+1
und
fl (2) < Vl+1 für l <
n+1
2
folgt, dass man bis zum Index s∗ = n2 überhaupt nicht stoppt und danach beim ersten
Objekt mit relativem Rang 2. Es wird also im ersten Schritt gestoppt, für den
fl (2) ≥ Vl+1 = fl (1)
gilt. Für den Grenzwert der Gewinnwahrscheinlichkeiten P (n) ergibt sich damit:
lim P (n) = lim V
n→∞
n→∞
s∗
= lim f
n→∞
s∗ −1
1
s∗ (n − s∗ )
(1) = lim
=
n→∞ n(n − 1)
4
Tabelle 1.3 stellt die Gewinnwahrscheinlichkeiten für unterschiedliche Werte von n dar.
1.5
Wahl des drittbesten Objekts
Hierbei ist man nun bestrebt, das Objekt mit dem drittbesten Rang zu finden. Analog
zu den Überlegungen des vorigen Abschnittes erhält man für die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien, die frühestens im l-ten Schritt stoppen
Vl =
wobei
l−3
1
1
1
Vl+1 + max {fl (1), Vl+1 } + max {fl (2), Vl+1 } + max {fl (3), Vl+1 } ,
l
l
l
l
l
l+1
n−3
1
2
·
· ... ·
·
·
fl (1) := P (Xl = 3 | Yl = 1) =
l+1 l+2
n−2 n−1 n
l(n − l)(n − l − 1)
=
(n − 2)(n − 1)n
n−l
2
=
KAPITEL 1. DAS SECRETARY PROBLEM
n
5
10
15
20
25
30
35
40
45
50
55
60
65
s∗
4
6
9
11
14
16
19
21
24
26
29
31
34
Vs∗
0.30000
0.27778
0.26667
0.26316
0.26000
0.25862
0.25714
0.25641
0.25556
0.25510
0.25455
0.25424
0.25385
n
70
75
80
85
90
95
100
200
300
400
500
1000
∞
14
s∗
36
39
41
44
46
49
51
101
151
201
251
501
Vs∗
0.25362
0.25333
0.25317
0.25294
0.25281
0.25263
0.25253
0.25126
0.25084
0.25063
0.25050
0.25025
0.25000
Tabelle 1.3: Die Größen s∗ und P (n) für einige Werte von n
2
l−1
l
n−3
fl (2) := P (Xl = 3 | Yl = 2) =
·
·
... ·
l+1 l+2 l+3
n
2(l − 1)l
=
(n − 2)(n − 1)n
l(l − 1)(l − 2)
fl (3) := P (Xl = 3 | Yl = 3) =
(n − 2)(n − 1)n
(n − l) =
sei. In Tabelle 1.4 sind numerische Werte für dieses Problem dargestellt.
1.6
Minimierung des erwarteten Ranges
Man betrachtet nun folgende Variation in der Aufgabenstellung des Secretary Problems.
Der Erwartungswert des Ranges des gewählten Elements soll minimiert werden. Zuallererst
soll nun folgende Beobachtung festgehalten werden:
Falls Yr = k für den relativen Rang Yr des r-ten Objekts gilt, so folgt unmittelbar
Xr ∈ {k, . . . , n}, falls Xr wieder den absoluten Rang im r-ten Schritt bezeichnet. Der
Übersichtlichkeit halber definiert man nun
Definition 1.4. Vl := minτ ≥l E(Xτ ), das heißt Vl bezeichnet das Minimum des erwarteten
Rangs unter allen Strategien, welche frühestens im l-ten Schritt stoppen.
Für i ≤ k ≤ n soll nun die Wahrscheinlichkeit, dass der absolute Rang des l-ten Objekts
gleich k ist, unter der Bedingung, dass dieses Objekt im l-ten Schritt den relativen Rang i
hat, berechnet werden.
KAPITEL 1. DAS SECRETARY PROBLEM
n
5
10
15
20
25
30
35
40
45
50
55
s∗
3
5
8
10
12
15
17
19
22
24
26
Vs∗
0.33333
0.27090
0.25680
0.25025
0.24621
0.24380
0.24210
0.24074
0.23978
0.23901
0.23833
n
60
65
70
75
80
85
90
95
100
200
15
s∗
29
31
33
36
38
40
43
45
47
94
Vs∗
0.23782
0.23738
0.23699
0.23668
0.23640
0.23614
0.23592
0.23573
0.23554
0.23385
Tabelle 1.4: Darstellung der Gewinnwahrscheinlichkeiten Vs∗ für einige Werte von n
Lemma 1.5. Es gilt
k−1n−k
Pl (Xl = k | Yl = i) =
i−1
nl−i
l
für k = i, i + 1, . . . , n.
Beweis. Mit Hilfe der Definition der bedingten Wahrscheinlichkeit, folgt
Pl (Xl = k | Yl = i) =
Pl (Xl = k, Yl = i)
Z
=: .
Pl (Yl = i)
N
(1.5)
Für den Nenner N von (1.5) erhält man trivialerweise
1
N= .
l
Nun soll der Zähler Z von (1.5) mit Hilfe einiger elementarer Überlegungen berechnet
werden: Die Wahrscheinlichkeit, dass ein im l-ten Schritt gewähltes Objekt den absoluten
Rang k aufweist und es im l-ten Schritt den relativen Rang i besitzt, wird als Quotient der
in diesem Falle günstigen und der möglichen Fälle ausgedrückt. Somit gilt nun
k−1n−k
(l − 1)!
.
(1.6)
Z = i−1 l−i
n
l!
l
Der Zähler in (1.6) kommt durch folgende Überlegung zustande: Der erste Binomialkoeffizient beschreibt die Anzahl der Möglichkeiten, i−1 Elemente aus den ersten k −1 Elementen
auszuwählen. Der zweite Binomialkoeffizient drückt die Anzahl der Möglichkeiten der Verteilung von l − i Objekten auf die restlichen n − k noch verbleibenden Möglichkeiten für die
KAPITEL 1. DAS SECRETARY PROBLEM
16
absoluten Ränge aus. Da durch dieses Produkt jedoch noch keine Anordnung der Elemente
festgelegt ist, muss dieser Term noch mit (l − 1)! multipliziert werden. So erhält man nun
den Ausdruck für die Anzahl der günstigen Fälle. Den Nenner von (1.6) beschreibt die
Anzahl der möglichen Fälle. Wenn man das Ergebnis (1.6) in (1.5) einsetzt, so erhält man
schlussendlich die gewünschte Darstellung
k−1n−k
(l − 1)! · l
Pl (Xl = k , Yl = i)
n
= i−1 l−i
Pl (Xl = k | Yl = i) =
Pl (Yl = i)
l!
l
k−1n−k
=
i−1
nl−i .
l
Da man in dieser Variation des ursprünglichen Problems jedoch am Erwartungswert
interessiert ist, erhält man vorigem Ergebnis zufolge
k−1n−k
n
k · i−1nl−i .
El (Xl | Yl = i) =
l
k=i
Aufgrund von
n
k−1n−k
i−1
nl−i
k=i
=1
l
gilt nun
n k−1 n−k
k=i
i−1
l−i
n
=
.
l
(1.7)
Weiters verwendet man die triviale Relation nk = nk n−1
um obigen Erwartungswert zu
k−1
vereinfachen:
k−1n−k
kn−k
n
n k k−1 n−k
n
·
i
·i
i
i i−1
nl−i
l−i
=
k · i−1nl−i =
n
k=i
l
k=i
i
= n
l
n k=i
l
k
i
n−k
l−i
k=i
(1.7)
l
n+1
=i
= i l+1
n
l
n+1
l+1
Obiger Rechnung zufolge wurde nun der gesuchte Erwartungswert auf eine wesentlich einfachere Form gebracht. Es soll nun eben dieser Erwartungswert für einige Spezialfälle berechnet werden.
l = 1 : E1 (X1 | Y1 = 1) = n+1
2
l = n : En (Xn | Yn = i) = i
l = n2 : E n2 (X n2 | Y n2 = 1) ∼ 2
KAPITEL 1. DAS SECRETARY PROBLEM
n
5
10
15
20
25
30
35
40
45
50
55
V1
2.05000
2.55794
2.81849
3.00173
3.11667
3.20362
3.27561
3.32819
3.37285
3.41215
3.44257
n
60
65
70
75
80
85
90
95
100
200
17
V1
3.47036
3.49467
3.51568
3.53371
3.55097
3.56598
3.57906
3.59138
3.60323
3.71918
Tabelle 1.5: Darstellung der V1 für unterschiedliche Werte von n
Da der Erwartungswert des Ranges des betrachteten Objekts minimiert werden soll, erhält
man folgende Bedingung, mit deren Hilfe eine Entscheidung zwischen Stoppen und Weitergehen ermöglicht wird. Falls
n+1
≤ Vl+1
Yl
l+1
gilt, so muss im l-ten Schritt gestoppt werden. Gilt andernfalls
Yl
n+1
> Vl+1 ,
l+1
so geht man weiter. Diesen Beobachtungen zufolge erhält man nun die gesuchte Rekursion.
l
1
n+1
n+1
=
Vl = E min Yl
min j
, Vl+1
, Vl+1
l+1
l j=1
l+1
Mit Hilfe von Vn =
Vn−1
n+1
2
folgt nun durch Rückwärtseinsetzen
l
n+1
1
n+1 n+1
1 n+1
=
min j
j
,
=
+
=
l j=1
l+1
2
l l+1 l + 1
2
l+1
j< 2
j≥ 2
l+1 l+1 +1
1 n+1 2
n+1
l+1
2
= ·
+
n−
.
l l+1
2
2
2
Tabelle 1.5 stellt diese Werte für unterschiedliche n dar.
Weiters sollen nun mit Hilfe von
n+1
j
≤ Vl+1 ,
l+1
also
l+1
j≤
Vl+1
n+1
KAPITEL 1. DAS SECRETARY PROBLEM
l
j
l
j
l
j
l
j
18
1 2 3 4 5 6 7 8
0 0 0 0 0 0 0 0
14 15 16 17 18 19 20 21
1 1 1 1 1 1 1 1
27 28 29 30 31 32 33 34
2 2 2 2 3 3 3 3
40 41 42 43 44 45 46 47
6 6 7 8 9 10 12 14
9
0
22
1
35
4
48
18
10 11 12 13
0 0 0 0
23 24 25 26
1 1 2 2
36 37 38 39
4 4 5 5
49
25
Tabelle 1.6: Berechnung des relativen Ranges j, mit dem man stoppen sollte, für jeden
Schritt l für n = 50
die Schwellenwerte für n = 50 berechnet werden.
In Tabelle 1.6 ist für n = 50 der relativen Rang j, mit dem man stoppen sollte, für
jeden Schritt l berechnet, wobei 0 bedeutet, dass in diesen Schritten gar nicht gestoppt
wird.
Obig erhaltene Rekursionsformel
1
Vl =
min
l j=1
l
n+1
j, Vl+1
l+1
(1.8)
soll nun in eine Differenzengleichung umgeformt werden. Dazu setzt man
l+1
cl := Vl+1 und sl :=
cl ,
n+1
also bezeichnet sl den Schwellenwert für den relativen Rang im l-ten Schritt. Falls j ≤ sl
gilt, so kann (1.8) umgeformt werden zu
1 n + 1 sl (sl + 1)
+ (l − sl )cl
cl−1 =
(1.9)
l l+1
2
und damit
1
cl−1 − cl =
l
n + 1 sl (sl + 1)
− sl cl .
l+1
2
(1.10)
Die Größen cl und sl hängen natürlich von n ab, also cl = cl (n) und sl = sl (n). Im
Folgenden setzt man
l
l
und analog dazu
Sn
= cl (n)
= sl (n),
Cn
n
n
KAPITEL 1. DAS SECRETARY PROBLEM
19
wodurch eine Kompression auf das Intervall [0, 1] erreicht wird. Damit will man beobachten,
was in einem gegebenen Verhältnis von n und l passiert. Aus der Differenzengleichung (1.10)
folgt dann
l−1
l
l
l
n n + 1 Sn nl Sn nl + 1
− Cn
=
− Sn
Cn
.
n Cn
n
n
l l+1
2
n
n
Man lässt nun n und l gegen ∞ unendlich streben, so dass das Verhältnis nl gegen ein
fixes x ∈ (0, 1) konvergiert.
l Außerdem bezeichnet
l man mit C(x) beziehungsweise S(x)
die Grenzwerte von Cn n beziehungsweise Sn n . Aus der Definition von sl ergibt sich
unmittelbar S(x) = xC(x). Weiters erhält man durch den Grenzübergang in der letzten
Differenzengleichung die folgende Differentialgleichung:
∼S(x)
1
S(x)
(S(x)
+ 1)
1
− S(x)C(x)
−C (x) =
x x
2
1 1 S(x)2
∼
− S(x)C(x)
x x 2
1
∼ − C(x)2
2
Daraus erhält man die Differentialgleichung
1
f (x) = f (x)2 ,
2
welche die exakte Lösung
f (x) = − x
2
1
+A
mit Integrationskonstante A besitzt. Daraus folgt, dass
C(x) ∼ − x
2
1
+A
eine Näherungslösung für C(x) darstellt. Aus Cn (1) =
woraus
C(x) ∼
2
1−x
S(x) ∼
2x
1−x
und
n+1
2
berechnet man nun A ∼ − 12 ,
KAPITEL 1. DAS SECRETARY PROBLEM
20
folgt. Für den gesuchte Wert C(0) erhält man aufgrund des gemachten Fehlers den nicht
exakten Wert C(0) = 2. Wie aus Tabelle 1.5 ersichtlich ist, scheint V1 = Cn (0) nicht gegen
den Wert 2 zu konvergieren. Aus den obigen Beobachtungen will man nun eine Stoppregel
aufstellen. Man stoppt, falls
l+1
cl = sl
j≤
n+1
gilt.
Nun will man die Zeitspanne berechnen (≡ prozentuellem Anteil des Gesamtzeitraums),
in der mit einem Objekt mit Y = i gestoppt wird. Wenn man die ersten Werte für die zu
stoppenden relativen Ränge einsetzt, erhält man
1
3
1
S(x) = 2 ⇐⇒ x =
2
3
S(x) = 3 ⇐⇒ x = .
5
S(x) = 1 ⇐⇒ x =
Diese obigen Beobachtungen ziehen folgende Interpretation nach sich: Im ersten Drittel
wird gar nicht gestoppt, danach sollte man bis zur Hälfte des Zeitraums mit Rang 1 stoppen,
bis zu 35 · n mit einem relativen Rang von 1 oder 2 und so fort. Nun soll der Schwellenwert
x in seiner Allgemeinheit berechnet werden.
S(x) = r ⇐⇒ x =
r
r+2
(1.11)
Falls nun der Grenzprozess von (1.11) für r → ∞ betrachtet wird, so strebt nun x gegen 1,
d.h. je näher man dem letzten zur Auswahl stehenden Objekt kommt, desto bescheidener
wird man in Bezug auf den relativen Rang des momentan betrachteten Objekts. Tabelle 1.7
soll den dargestellten Bezug für den Fall n = 100 veranschaulichen, wobei r∗ den relativen
Rang darstellt, mit dem gestoppt werden soll (d.h. r∗ = i bedeutet, dass in diesem Fall
mit einem relativen Rang kleiner oder gleich i gestoppt werden sollte.).
Man ist nun bestrebt nachzuweisen, dass der absolute Rang des durch eine Stoppregel
gewählten Objekts gegen einen Wert konvergiert, der im Gegensatz zur obigen Vorgangsweise mittels der Lösung einer Differenzengleichung den berechneten Werten von Tabelle
1.5 entspricht. Folgender Satz beschreibt dieses gesuchte Ergebnis. Im Beweis dieses Satzes
stützt man sich nicht auf die Approximation von Differenzengleichungen durch Differentialgleichungen, sondern versucht, das Ergebnis direkt nachzurechnen.
Satz 1.6. Für n → ∞ strebt der absolute Rang des Objektes, welches von einer optimalen
Stoppregel gewählt wurde, bei obiger Problemstellung gegen den Wert
1 +1
∞ j+2 j
≈ 3.8695.
j
j=1
KAPITEL 1. DAS SECRETARY PROBLEM
r∗
0
1
2
3
4
5
6
7
8
9
10
15
20
25
30
x
0.333
0.500
0.600
0.667
0.714
0.750
0.778
0.800
0.818
0.833
0.846
0.889
0.913
0.928
0.939
r∗
35
40
45
50
55
60
65
70
75
80
85
90
95
99
21
x
0.947
0.953
0.958
0.962
0.966
0.968
0.971
0.973
0.974
0.976
0.977
0.979
0.980
0.980
Tabelle 1.7: Darstellung der relativen Ränge r∗ mit denen gestoppt werden soll für n = 100
Beweis. Man setzt nun ci := Vi+1 . Mit dieser Schreibweise erhält man die bekannte Rekursionsformel
i
1
n+1
(1.12)
min
j, ci .
ci−1 =
i j=1
i+1
Um (1.12) auf eine einfachere Art darstellen zu können, definiert man wie bei obigem
Lösungsversuch
i+1
si :=
ci .
(1.13)
n+1
Laut (1.10) gilt nun
ci−1
Mit cn−1 =
n+1
2
1
=
i
n + 1 si (si + 1)
·
+ (i − si )ci .
i+1
2
(1.14)
und (1.12) folgt
c0 ≤ c1 ≤ . . . ≤ cn−1 =
n+1
2
und mit (1.13) und (1.15) erhält man, dass si ≤ i und
s1 ≤ s2 ≤ . . . ≤ sn−1 =
n
2
(1.15)
(1.16)
KAPITEL 1. DAS SECRETARY PROBLEM
22
gilt. Als nächstes berechnet man einfache obere und untere Schranken für die Konstanten
ci , mit Hilfe derer die Berechnung des Grenzwertes von c0 für n → ∞ ermöglicht wird.
Zuerst definiert man die Konstanten
ti =
i+1
ci
n+1
(1.17)
für i ∈ {0, 1, . . . , n − 1}. Aus (1.15) folgt nun
t0 < t1 < . . . < tn−1 =
n
.
2
(1.18)
Mit Hilfe von (1.14) gilt
ti−1 =
si (si + 1) + 2(i − si )ti
,
2(i + 1)
si = [ti ] i = 1, . . . , n − 1.
(1.19)
Für ein fixes i setzt man
ti = si + α mit 0 ≤ α < 1.
(1.20)
(1.19) kann unter Verwendung von (1.20) in
ti−1 =
ti (1 + 2i − ti ) α(1 − α)
−
2(i + 1)
2(i + 1)
umgeformt werden. Man setzt für x ≤ i +
(1.21)
1
2
x(1 + 2i − x)
.
2(i + 1)
(1.22)
1 + 2i − 2x
≥0
2(i + 1)
(1.23)
T (x) =
Da
T (x) =
gilt, ist T (x) folglich monoton wachsend für x ≤ i +
1
2
und mit (1.21) folgt
ti−1 ≤ T (ti ).
(1.24)
Mit diesen Vorbereitungen wird nun die erste Ungleichung für ti bewiesen.
Lemma 1.7. Es gilt
ti ≤
2n
.
n−i+3
(1.25)
KAPITEL 1. DAS SECRETARY PROBLEM
23
Beweis. Obige Ungleichung soll nun mit Hilfe der Methode der Rückwärtsinduktion nachgeprüft werden. Für i = n − 1 ist obige Ungleichung jedenfalls erfüllt, da mit (1.18)
tn−1 =
n
2n
=
2
4
gilt. (1.25) gelte nun für 1 ≤ i ≤ n − 1. Nun muss obige Ungleichung nur noch für i − 1
gezeigt werden. Nach (1.15) und (1.17) gilt demnach
ti−1 =
i
i
n+1
i
ci−1 ≤
·
= .
n+1
n+1
2
2
(1.26)
Nun werden 2 Fälle unterschieden:
1.
i
2
≤
2n
n−i+4
: Für diesen Fall ist (1.25) für i − 1 bewiesen.
2.
i
2
>
2n
n−i+4
: In diesem Fall gilt dann
i+
2n
1
≥
.
2
n−i+3
Mit Hilfe von (1.24) und aus der Beobachtung, dass T (x) für x ≤ i + 12 monoton
wachsend ist, folgt nun
2n
2n
n((1 + 2i)(n − i + 3) − 2n)
≤
ti−1 ≤ T (ti ) ≤ T
=
, (1.27)
2
n−i+3
n−i+4
(i + 1)(n − i + 3)
da die letzte Ungleichung äquivalent ist zu
(n − i + 3)2 + (2n − 2i − 1)(n − i + 3) + 2n ≥ 0,
was für n − i ≥ 1 zutrifft. Damit gilt (1.25) auch in diesem Fall.
Mit Hilfe des letzten Lemmas kann eine obere Schranke für c0 gefunden werden, die
aber keinesfalls scharf ist.
Korollar 1.8. Für n = 1, 2, . . . gilt
c0 < 8.
Beweis. Man setzt nun i =
n
2
(1.28)
in (1.25). Somit gilt
n+1
n+1
2n
2n(n + 1)
8n2 + 8n
c0 ≤ ci =
ti ≤
·
≤ n n
< 8.
= 2
i+1
i+1 n−i+3
n + 6n
+3
2 2
(1.29)
KAPITEL 1. DAS SECRETARY PROBLEM
Man kann nun beobachten, dass
i
ti
ti−1 ≥
1−
ti
i+1
2(i + 1)
24
i = 1, . . . , n − 1
(1.30)
gilt. Diese Ungleichung erhält man aus (1.21), wenn man zeigen kann, dass
ti (1 + 2i − ti ) α(1 − α)
ti
i
−
≥
ti 1 −
2(i + 1)
2(i + 1)
i+1
2(i + 1)
oder äquivalent dazu
ti
ti
1−
i+1
≥ α(1 − α) (α = ti − [ti ])
(1.31)
gilt. Falls ti ≥ 1 gilt, so folgt
ti
ti
1−
i+1
≥
1
1
> ≥ α(1 − α)
2
4
aus (1.26). Im Fall ti < 1 ist die Ungleichung wegen ti = α trivialerweise erfüllt. Im
Folgenden wird eine untere Schranke für ti angegeben.
Lemma 1.9. Es gilt
ti ≥
3(i + 1)
2(n − i + 2)
i = 0, . . . , n − 1.
(1.32)
Beweis. Wiederum wird hierzu Rückwärtsinduktion verwendet. (1.32) ist richtig für i =
n − 1. Weiters sei (1.32) für 1 ≤ i ≤ n − 1 erfüllt. Nun definiert man eine Funktion
x
T (x) = x 1 −
,
2(i + 1)
gilt, folgt nun mittels
welche für x ≤ i + 1 monoton wachsend ist. Da nach (1.26) ti ≤ i+1
2
(1.30)
i
i
3(i + 1)
ti−1 ≥
T (ti ) ≥
T
i+1
i+1
2(n − i + 2)
3i
3i(4n − 4i + 5)
.
=
2 ≥
2(n − i + 3)
8(n − i + 2)
Obige Ungleichung ist jedoch äquivalent zu i ≤ n − 1.
Laut (1.16) gilt sn−1 ≥ k für jede positive ganze Zahl k und n ≥ 2k. Nun definiert man
KAPITEL 1. DAS SECRETARY PROBLEM
25
Definition 1.10.
ik := min{j ≥ 1 | sj ≥ k}
(1.33)
für k = 1, 2, . . . und für n ≥ 2k.
Folglich ist si1 −1 = 0 und somit gilt mit (1.14)
c0 = c1 = . . . = ci1 −1 .
(1.34)
Dann kann folgendes Korollar formuliert werden:
Korollar 1.11. Es gilt
lim inf
i1
1
≥ .
n
8
(1.35)
Beweis. Man unterscheidet wiederum zwei Fälle:
1. Falls i1 >
2. Falls i1 ≤
n
n
2
gilt, folgt i1 ≥
2
gilt, so erhält man
n
2
1 ≤ si1 ≤ ti1 =
+1>
n
2
und damit
i1
n
> 12 .
i1 + 1
i1 + 1
i1 + 1
ci1 ≤
c[ n ] <
·8
n+1
n+1 2
n+1
aus (1.29).
Hierbei sei noch bemerkt, dass i1 > 1 für n > 2 gilt, da andernfalls s1 = 1 und c0 =
gelten würde, was aber nur für n ≤ 2 gilt.
n+1
2
Korollar 1.12. Für alle α, β mit 0 < α < β < 1 gilt
lim (ti − ti−1 ) = 0
(1.36)
n→∞
auf der Menge
i
n
i
α≤ ≤β
n
(1.37)
im Sinne der gleichmäßigen Konvergenz.
Beweis. Aus (1.30) und (1.25) folgt
0 ≤ ti − ti−1
ti
i
ti
it2i
≤ ti −
ti 1 −
=
+
i+1
2(i + 1)
i + 1 2(i + 1)2
2
2
2n 2
) 1
(1 + 1−β
(1 + n−i
)
i + ti )2
≤
≤
≤
· ,
2(i + 1)
2(i + 1)
2α
n
was für n → ∞ gegen 0 strebt.
KAPITEL 1. DAS SECRETARY PROBLEM
26
Korollar 1.13. Für k = 1, 2, . . . und n ≥ 12k gilt
ik
2
≥1−
n
k
(1.38)
ik
1
≤1− .
n
2k
(1.39)
und
Beweis. Nach (1.25) gilt
sik ≥ k ⇒ tik ≥ k ⇒
2
2n
ik
≥1− .
≥k⇒
n − ik
n
k
Somit wäre (1.38) bewiesen. Um (1.39) nachzuprüfen unterscheidet man 2 Fälle:
1. ik ≤
n
2
: Hier gilt
ik
1
1
≤ ≤1− .
n
2
2k
2. ik >
n
2
: Nach (1.32) gilt
3ik
3ik
3n
<k⇒
< n − ik + 3 ⇒
< n − ik + 3
2(n − ik + 3)
2k
4k
3
ik
3
ik
3
3
1
⇒
<1− + ⇒
<1−
+ ≤1−
für n ≥ 12k.
4k
n n
n
4k n
2k
sik −1 < k ⇒ tik −1 < k ⇒
Korollar 1.14. Für k, γ = 1, 2, . . . gilt
lim tik = lim tik −γ = k.
Beweis. Es gilt tik −γ < k ≤ tik . Man wählt nun α und β so, dass 0 < α <
1
< β < 1 gilt. Zusammen mit (1.35) und (1.39) folgt daraus
1 − 2k
α<
ik
ik − γ
<
<β
n
n
für hinreichend großes n. Nun folgt mit (1.37) und (1.36)
lim(tik − tik −γ ) = 0.
(1.40)
1
8
und
(1.41)
KAPITEL 1. DAS SECRETARY PROBLEM
27
Korollar 1.15. Für k = 1, 2, . . . gilt
sik = k
(1.42)
für hinreichend großes n und
lim(ik+1 − ik ) = ∞.
(1.43)
Beweis. Es gilt k ≤ sik ≤ tik . Mit Hilfe von (1.40) erhält man sofort den ersten Teil des
Korollars. Weiters gilt
lim(tik+1 − tik ) = 1 und
lim(tik+1 − tik+1 −γ ) = 0,
woraus man sofort (1.43) erhält.
Nun soll der Beweis des Satzes mit Hilfe obig bewiesener Korollare zu Ende geführt
werden. Man wählt nun eine ganze Zahl k, die man in weiterer Folge fix lässt. Weiters sei n
nach (1.42) so groß gewählt, dass sik = k und sik+1 = k + 1 gilt. Für ik ≤ i < ik+1 definiert
man
k
vi = ti − .
2
(1.44)
Wenn man nun vi in (1.19) einsetzt, so erhält man
k(k + 1) + 2(i − k) vi + k2
k
k i−k
= +
vi
vi−1 + =
2
2(i + 1)
2 i+1
vi =
i+1
vi−1 .
i−k
Damit gilt für ik < i < ik+1
i
ik + 2
i+1
i+1
vi−1 =
...
vi
i−k
i−k i−k−1
ik − k + 1 k
k+1
i+j −k i+1 i
i+1−k
=
· ...
· vik = vik
ik + 1 ik
ik + 1 − k
ik + j − k
j=1
vi =
und somit
k+1 k
k i+j−k
ti = + tik −
.
2
2 j=1 ik + j − k
(1.45)
KAPITEL 1. DAS SECRETARY PROBLEM
28
Setzt man nun i = ik+1 − 1, so gilt
tik+1 −1
k+1 k
k ik+1 + j − k − 1
.
= + tik −
2
2 j=1
ik + j − k
Mit (1.35) und (1.40) folgt
k+1
k+1
k k
ik+1 + j − k − 1
k k
ik+1
k+1= +
lim
,
= +
lim
2 2 j=1
ik + j − k
2 2
ik
woraus
ik+1
=
lim
ik
k+2
k
k1 +1
und
i1
lim = lim
ik
i1
n
ik
n
=
k−1
j=1
j
j+2
1j +1
.
folgt. Aus (1.38) erhält man
2
1−
k
k−1
j=1
j
j+2
1j +1
k−1 i1
i1 ≤ lim inf ≤ lim sup ≤
n
n
j=1
Durch den Grenzübergang k → ∞ ergibt sich
i1 lim =
n
j=1
∞
j
j+2
1j +1
.
Schlussendlich erhält man mit Hilfe von (1.40) und (1.34)
i1
i1
1 = lim ti1 −1 = lim
ci −1 = lim
c0
n+1 1
n
1j +1
∞ j
,
= lim c0 ·
j+2
j=1
womit der Satz bewiesen wäre.
j
j+2
1j +1
.
KAPITEL 1. DAS SECRETARY PROBLEM
1.7
29
Wahl des Objekts mit absolutem Rang k
Mit der in Abschnitt 1.6 berechneten Formel
k−1n−k
fl (k, i) := Pl (Xl = k | Yl = i) =
i−1
nl−i
l
für k = i, i + 1, . . . , n, die die Wahrscheinlichkeit angibt, dass der absolute Rang des lten Objekts gleich k ist, unter der Bedingung, dass dieses Objekt im l-ten Schritt den
relativen Rang i hat, sind die notwendigen Vorbereitungen getroffen, um eine allgemeine
Rekursionsformel für die maximale Gewinnwahrscheinlichkeit Vl unter allen Strategien, die
frühestens im l-ten Schritt stoppen, zu erhalten, wobei ein Gewinn in der Wahl des Objekts
mit absolutem Rang k besteht:
l−k
1
max{fl (k, i), Vl+1 }
Vl+1 +
Vl =
l
l i=1
k
In Tabelle 1.8 sind nun die Gewinnwahrscheinlichkeiten für unterschiedliche Werte von
k und n berechnet.
1.8
Modifizierte Anordnungen der Objekte
Bei dieser Modifikation des ursprünglichen Problems erfolgt die Anordnung der n Objekte
gemäß einer zyklischen Permutation der absoluten Ränge, d.h. die Anordnung weist eine
der folgenden Formen auf:
( n, n − 1, . . . , 2, 1 )
( n − 1, n − 2, . . . , 1, n )
( n − 2, n − 3, . . . , n, n − 1)
..
.
Allgemeiner kann man diese Permutation schreiben als
(a1 , a2 , . . . , ai , . . . , an )
mit a1 = n − k, a2 = n − (k + 1), . . . , ai = 1, ai+1 = n, . . . , an = n − i + 1, wobei k ∈
{0, . . . , n − 1} und i ∈ {1, . . . , n}.
Offensichtlich existieren bedingt durch diese Einschränkung der Anordnung der Objekte
nur noch n Möglichkeiten an Stelle von n! Anordnungsmöglichkeiten.
Mit Vl wird wiederum die maximale Gewinnwahrscheinlichkeit unter allen Strategien, die
KAPITEL 1. DAS SECRETARY PROBLEM
k
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
10
10
10
n
50
100
200
50
100
200
50
100
200
50
100
200
50
100
200
50
100
200
50
100
200
s∗
27
54
107
27
52
103
28
55
110
30
59
117
28
57
113
30
59
117
30
61
122
30
Vs∗
0.21614
0.21250
0.21069
0.20023
0.19608
0.19402
0.19133
0.18663
0.18439
0.18225
0.17733
0.17499
0.17603
0.17046
0.16781
0.17110
0.16498
0.16216
0.16623
0.15966
0.15674
Tabelle 1.8: Darstellung der Gewinnwahrscheinlichkeiten Vs∗
KAPITEL 1. DAS SECRETARY PROBLEM
31
mindestens l Schritte besitzen, bezeichnet. Man wird nun einsehen, dass in diesem Fall die
maximale Gewinnwahrscheinlichkeit n1 beträgt, was jedoch auch im schlechtest möglichen
Fall bei beliebiger Anordnung erreichbar ist. Dies gilt es nun noch zu beweisen. Wiederum
verwendet man die Methode der Rückwärtsinduktion:
Vn =
1
n
Klarerweise kann man sich nur dann Gewinnchancen ausrechnen, wenn die Folge der ai bis
zum jetzigen Zeitpunkt monoton fallend war. Befindet man sich nun im (n − 1)-ten Schritt,
so steht man vor der Wahl, ob man nun stoppen oder weitergehen soll. In diesem Schritt
führen nur zwei Permutationen zum Gewinn, nämlich (n, n − 1, . . . , 2, 1) und (n − 1, n −
2, . . . , 1, n), die beide gleich wahrscheinlich sind. Falls man im (n − 1)-ten Schritt stoppt, so
beträgt die Gewinnwahrscheinlichkeit 12 . Diese Wahrscheinlichkeit stimmt in diesem Schritt
mit der Gewinnwahrscheinlichkeit im Falle des Weitergehens überein. Da es nun keinen
Unterschied macht, ob man hier stoppt oder weitergeht, wählt man nach Voraussetzung
das Weitergehen. Aus obig dargestellter Beobachtung ergibt sich
Vn−1 = Vn =
1
.
n
Befindet man sich nun im (n − 2)-ten Schritt, so gewinnt man mit der Wahrscheinlichkeit von 13 , falls man hier stoppt. Infolgedessen geht man mit der Wahrscheinlichkeit 23
weiter und gewinnt nun im (n − 1)-ten Schritt mit der Wahrscheinlichkeit 12 . Falls man
sich also im (n − 2)-ten Schritt für das Weitergehen entschließt, so gewinnt man mit der
Wahrscheinlichkeit 23 · 12 = 13 . Hiermit hat sich die obige Vermutung bestätigt:
Vn−2 =
1
n
Um diese Beobachtung für den allgemeinen Fall nachzuprüfen, geht man mit Hilfe der
Rückwärtsinduktion folgendermaßen vor:
1
und geht
Befindet man sich im l-ten Schritt, so stoppt man mit Wahrscheinlichkeit n−l+1
n−l
mit der Wahrscheinlichkeit n−l+1 weiter. Da jedoch im (l + 1)-ten Schritt die Gewinnwahr1
scheinlichkeit sowohl für Stoppen als auch für Weitergehen n−l
beträgt, erhält man daraus
die Gewinnwahrscheinlichkeit im Fall des Weitergehens im l-ten Schritt:
P (Gewinnen mit Weitergehen im l-ten Schritt) =
n−l
1
1
·
=
n−l n−l+1
n−l+1
Damit gilt
Vl = Vl+1 = . . . = Vn =
1
n
und die Beobachtung ist bewiesen. Die maximale Gewinnwahrscheinlichkeit beträgt also
bei dieser Anordnung der Objekte n1 .
KAPITEL 1. DAS SECRETARY PROBLEM
1.9
32
Nicht kooperative Spiele
Für diese Modifikation des in vorigem Kapitel dargestellten Spiels wird folgender Sachverhalt angenommen: Die Anordnung der Objekte wird von einem Gegner, der in weiterer
Folge Spieler B genannt wird, bestimmt. Er ist bestrebt, den erwarteten Rang des von Spieler A gewählten Objekts zu maximieren, dessen Intention in der Minimierung des Rangs
des von ihm gewählten Objekts besteht.
Völlig unabhängig von der Anordnungswahl von Spieler B kann Spieler A durch zufällige
Wahl des r-ten Objekts (r = 1, . . . , n) bezogen auf den Rang immer einen Erwartungswert
von
1
n+1
i=
n i=1
2
n
E(Xr ) =
erreichen, wobei Xr den absoluten Rang des r-ten Objekts bezeichnet. Es existiert jedoch
wirklich eine Strategie von Seiten des Gegners, so dass Spieler A keinen besseren Wert als
n+1
für den erwarteten Rang erreichen kann, welche Strategie auch immer er wählt. Diese
2
Strategie besteht in der folgenden Anordnung der Objekte von Seiten des Spielers B:
(X1 , . . . , Xn )
Zuerst sei entweder X1 = 1 oder X1 = n je mit Wahrscheinlichkeit 12 . Nach der Wahl von
X1 , . . . , Xi nimmt Xi+1 den Wert der kleinsten oder größten Zahl unter den verbleibenden
Zahlen jeweils mit Wahrscheinlichkeit 12 an. Man definiert dann
Zi := E(Xi | Y1 , . . . , Yi ) und Fn := σ(Y1 , . . . , Yn )
wobei Yi den relativen Rang des i-ten Objekts bezeichnet. Da nun
E(Zn+1 | Fn ) = E(E(Xn+1 | Y1 , . . . , Yn+1 ) | Fn ) = E(Xn | Y1 , . . . , Yn )
gilt, ist Zi somit ein Martingal. Folglich erhält man für eine beliebige Stoppzeit τ
E(Zτ ) = E(Z1 ) =
n+1
.
2
Diese Tatsache kann man sich auch folgendermaßen leicht vor Augen führen: Am Ende
, auch wenn keine Gleichverteilung
beträgt der Erwartungswert aufgrund der Symmetrie n+1
2
vorliegt. Befindet man sich im (n − 1)-ten Schritt, so beobachtet man folgende vorliegende
Folge der relativen Ränge
(Y1 , Y2 , . . . , Yn−2 , Xn−1 , Xn ) = (1, 1, . . . , 1, Xn−1 , Xn )
mit
1
P (Xn−1 = 1) = P (Xn = 2) = .
2
KAPITEL 1. DAS SECRETARY PROBLEM
33
Stoppt man in diesem Schritt, so beträgt der Erwartungswert 32 . Diesen Wert erhält man
jedoch auch im Fall des Weitergehens. Durch Rückwärtsinduktion ergibt sich nun die Tatsache, dass es in jedem Schritt keinen Unterschied macht, ob man stoppt oder weitergeht.
Da man nun nach Voraussetzung weitergeht, wird man immer erst am Ende stoppen. Für
den (n − 2)-ten Schritt erhält man nun
(Y1 , Y2 , . . . , Yn−3 , Xn−2 , Xn−1 , Xn ) = (1, . . . , 1, Xn−2 , Xn−1 , Xn )
mit Xi ∈ {1, 2, 3} für i ∈ {n − 2, n − 1, n}. Da Xn−2 ∈ {1, 3} gilt, erhält man, falls
man im aktuellen Schritt stoppt einen Erwartungswert von 2. Der Erwartungswert beim
Weitergehen am Ende stimmt jedoch genau mit diesem Wert überein. Infolgedessen hat
sich obige Vermutung auch in diesem Fall als zutreffend erwiesen. Nun betrachtet man den
allgemeinen Fall. Man befindet sich also im l-ten Schritt:
(Y1 , Y2 , . . . , Yl−1 , Xl , . . . , Xn ) = (1, . . . , 1, Xl , . . . , Xn )
mit Xi ∈ {1, . . . , l} für i ∈ {l, l + 1, . . . , n}. Es gilt somit Xl ∈ {1, l}, folglich beträgt der
. Am Ende erhält man den Wert
Erwartungswert beim Stoppen in diesem Schritt l+1
2
1
l+1
i=
.
l i=1
2
l
Somit ist obige Behauptung bewiesen.
1.10
Lösung mit Hilfe von minimax-Strategien
Für diese Problemstellung nimmt man an, dass Spieler B nur die Lage des besten Objekts
wählen darf. Die Anordnung aller übrigen verbleibenden Objekte entspricht (n − 1)! gleich
wahrscheinlichen Permutationen. Spieler B handelt nun mittels einer Strategie Tr mit r =
1, . . . , n, welche das beste Objekt wird auf die r-te Position gesetzt und die verbleibenden
Objekte werden gleichverteilt auf den restlichen Plätzen angeordnet. T bezeichnet nun die
randomisierte Strategie, die Tr mit Wahrscheinlichkeit pr auswählt.
Spieler A stehen die folgenden Strategien Si für i = 0, . . . , n − 1 zur Verfügung: Man
wartet i Schritte und wählt im Anschluss daran das erste Objekt mit relativen Rang 1 oder
spätestens das letzte Objekt.
Für i = 1, . . . , n − 1 und r = 1, . . . , n erhält man
0
P (Si gewinnt | Tr ) =
i
r−1
für i ≥ r
für i < r,
KAPITEL 1. DAS SECRETARY PROBLEM
34
i
die Wahrscheinlichkeit angibt, dass das beste Objekt der ersten r − 1 Objekte auf
da r−1
einer der ersten i Positionen auftritt. Daraus folgt
n
n
n
ipr
ipr
P (Si gewinnt | Tr ) pr =
= pi+1 +
P (Si gewinnt) =
r−1
r−1
r=1
r=i+1
r=i+2
für i = 1, . . . , n − 1. Im Fall i = 0 ergibt sich
1 für r = 1
P (S0 gewinnt | Tr ) =
0 für r > 1
und damit
P (S0 gewinnt) = p1 .
Damit gilt nun
P (Si gewinnt) = pi+1 +
n
ipr
r−1
r=i+2
einheitlich für alle i = 0, . . . , n − 1.
Als nächstes soll nun der Frage nachgegangen werden, wie Spieler B die Wahrscheinlichkeitsverteilung (p1 , . . . , pn ) wählen soll, damit die maximale Gewinnwahrscheinlichkeit von
Spieler A möglichst gering bleibt. Spieler A will bei einer gegebenen Verteilung (p1 , . . . , pn )
von Spieler B die Gewinnwahrscheinlichkeit über i = 0, . . . , n − 1 maximieren:
n
ipr
max P (Si gewinnt) = max pi+1 +
(1.46)
i
i
r
−
1
r=i+2
Hingegen will Spieler B infolgedessen die Wahrscheinlichkeiten pr so wählen, dass (1.46)
minimiert wird:
n
ipr
(1.47)
min max pi+1 +
pr
i
r−1
r=i+2
Nun soll berechnet werden, wie Spieler B die Verteilung (p1 , . . . , pn ) wählen muss.
Lemma 1.16. Spieler B wählt die Wahrscheinlichkeiten pr so, dass die Gewinnwahrscheinlichkeiten
n
ipr
(1.48)
P (Si gewinnt) = pi+1 +
r−1
r=i+2
für i = 0, . . . , n − 1 denselben Wert annehmen.
Beweisskizze. Angenommen, es sei (p1 , . . . , pn ) eine Verteilung, sodass (1.47) minimal wird,
aber nicht alle Summen (1.48) denselben Wert haben. Zur Vereinfachung definiert man
si := P (Si gewinnt). Weiters sei j der größte Index, sodass sj gleich dem Maximum
m := max si = max P (Si gewinnt)
i
i
KAPITEL 1. DAS SECRETARY PROBLEM
35
aus (1.46) ist. Das Ziel ist nun das Minimum (1.47) durch eine geringfügige Perturbation der
Verteilung (p1 , . . . , pn ) zu verkleinern. Das ist aber ein Widerspruch dazu, dass (p1 , . . . , pn )
optimal ist.
Falls j < n − 1 gilt, definiert man p∗j+1 := pj+1 − , p∗j+2 := pj+2 + und p∗i := pi
in den übrigen Fällen. Analog zur Notation si bezeichne s∗i die Gewinnwahrscheinlichkeit
P (Si gewinnt) unter der veränderten Verteilung (p∗1 , . . . , p∗n ). Dann gilt
⎧
i
⎪
⎨si − j(j+1) für i ≤ j
s∗i = sj+1 + für i = j + 1
⎪
⎩
si
für i > j + 1
im Fall j > 0 und
⎧
⎪
⎨s0 − für i = 0
∗
si = s1 + für i = 1
⎪
⎩
si
für i > 1
im Fall j = 0. Aus der Wahl von j folgt, dass für alle i > j der Wert von si echt kleiner als
das Maximum m ist. Für hinreichend kleines > 0 gilt damit s∗i < m für alle i = 0, . . . , n−1,
was den gesuchten Widerspruch darstellt.
Im verbleibenden Fall j = n − 1 führt eine ähnliche Veränderung mehrerer Einträge in
der Verteilung (p1 , . . . , pn ) zum erwünschten Widerspruch.
Folglich gilt nun
pi+1 +
n
ipr
=c
r
−
1
r=i+2
für i = 0, . . . , n − 1, wobei c eine Konstante ist. Somit erhält man
n
n
ipr
(i + 1)pr
=c=
r−1
r−1
r=i+1
r=i+2
für i = 0, . . . , n − 2, woraus
pi+1 =
n
pr
r−1
r=i+2
folgt. Ersetzt man in der letzten Gleichung i + 1 durch i, erhält man
pi =
n
pr
r−1
r=i+1
für i = 1, . . . , n − 1. Durch Subtraktion der Ausdrücke für pi+1 und pi ergibt sich
(i + 1)pi+1 = i pi
KAPITEL 1. DAS SECRETARY PROBLEM
36
für i = 1, . . . , n − 2. Dies rechtfertigt die Definition K := (n − 1) pn−1 . Man betrachtet nun
den Fall i = n − 1: Aus
(n − 2)pn
= pn
pn−1 +
n−1
folgt hier
pn = (n − 1)pn−1 = K.
Daraus folgt nun
pi =
1
K
i
für i = 1, . . . , n − 1
für i = n
K
Da (p1 , . . . , pn ) eine Wahrscheinlichkeitsverteilung ist, muss
1=
n
pi = K +
i=1
gelten, was
K=
1+
n−1
1
i=1
i
n−1
K
i=1
−1
∼
i
1
1 + γ + log(n − 1)
mit γ = 0.577 . . . impliziert. Damit sind für Spieler A alle Strategien gleich günstig, also
ist die spezielle Wahl von (π0 , . . . , πn−1 ) für das Optimieren der Gewinnwahrscheinlichkeit
P (S gewinnt) irrelevant. Bei der speziellen Wahl (π0 , π1 , . . . , πn−1 ) = (1, 0, . . . , 0) ergibt
sich
P (S gewinnt) = P (S0 gewinnt) = p1 = K.
Also ist K die maximale Gewinnwahrscheinlichkeit für Spieler A.
Auf analoge Weise kann man auch berechnen, wie Spieler A die Wahrscheinlichkeitsverteilung (π0 , . . . , πn−1 ) seiner Strategien wählen muss, damit seine Gewinnwahrscheinlichkeit
bei beliebiger Wahl von (p1 , . . . , pn ) seitens Spieler B immer mindestens K beträgt. Bei
gegebener Verteilung (π0 , . . . , πn−1 ) erhält man
P (S gewinnt | Tr ) =
r−1
iπi
r−1
i=0
für r = 2, . . . , n und
P (S gewinnt | T1 ) = π0 .
Damit gilt
r−2
iπi
P (S gewinnt | Tr ) = πr−1 +
r−1
i=0
(1.49)
KAPITEL 1. DAS SECRETARY PROBLEM
37
einheitlich für alle r = 1, . . . , n. Spieler B wird nun bestrebt sein, obige Summe über
r = 1, . . . , n zu minimieren. Im Gegenzug versucht Spieler A die Gewinnwahrscheinlichkeit
r−2
iπi
max min πr−1 +
πi
r
r−1
i=0
zu erhalten. Da Spieler A die Wahrscheinlichkeiten π ebenfalls so wählt, dass (1.49) für
alle r = 1 . . . , n denselben Wert annimmt, folgt
K
für i = 0
πi = 1
K für i = 1, . . . , n − 1
i
für die Werte der Verteilung (π0 , . . . , πn−1 ).
Wegen
min max pi+1 +
pr
i
n
ipr
r−1
r=i+2
r−2
iπi
= max min πr−1 +
πi
r
r−1
i=0
folgt die Existenz eines Gleichgewichts, wobei der Wert des Spiels K beträgt. Zur besseren
Veranschaulichung soll das Spiel für n = 4 betrachtet werden. Hierbei ergibt sich obigen
Beobachtungen zufolge
(p1 , p2 , p3 , p4 ) =
1
(6, 3, 2, 6)
17
und (π0 , π1 , π2 , π3 ) =
Für den Wert des Spiels erhält man K =
liefert in diesem Fall 0.374.
6
17
1
(6, 6, 3, 2).
17
≈ 0.353. Die asymptotische Abschätzung
Kapitel 2
Modifikation durch Kenntnis der
Verteilung
2.1
Das Problem von Cayley
Arthur Cayley betrachtete folgendes Problem: Es stehen n verschiedene Karten mit den
Werten 1, 2, . . . , n zur Verfügung. Nun zieht eine Person höchstens k Karten ohne Zurücklegen. Bei jeder Ziehung muss sich diese Person entscheiden, ob sie aufhört und den Wert
dieser Karte erhält oder ob sie das Spiel weiterführt. Der Erwartungswert des Werts der
gezogenen Karte soll maximiert werden. Um die Grundidee leichter verständlich zu machen,
beschränkt man sich eingangs auf den Fall n = 4.
Definition 2.1.
1
ai
r i=1
r
M1 (a1 , a2 , . . . , ar ) :=
Demnach gilt folgendes:
10
4
M2 (1, 2, 3, 4) = M1 (max{1, M1 (2, 3, 4)}, max{2, M1 (1, 3, 4)}, . . . ,
max{4, M1 (1, 2, 3)})
M3 (1, 2, 3, 4) = M1 (max{1, M2 (2, 3, 4)}, max{2, M2 (1, 3, 4)}, . . . ,
max{4, M2 (1, 2, 3)})
M4 (1, 2, 3, 4) = M1 (max{1, M3 (2, 3, 4)}, max{2, M3 (1, 3, 4)}, . . . ,
max{4, M3 (1, 2, 3)})
M1 (1, 2, 3, 4) =
Der Erwartungswert ist somit gleich Mk (1, 2, 3, 4, 5). Diese obige Darstellung ist aufgrund
der Tatsache, dass jeweils die beiden Ereignisse über die das Maximum gebildet wird,
38
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
39
gleich wahrscheinlich sind, gerechtfertigt. In diesem konkreten Fall erhält man also folgende
Werte:
M1 (1, 2, 3, 4) =
M1 (1, 2, 3) = 2
M1 (2, 3, 4) = 3
M1 (1, 3, 4) = 83
M1 (1, 2, 4) = 73
5
2
M2 (1, 2, 3, 4) = M1 3, 83 , 3, 4 = 19
7
21 6
M2 (2, 3, 4) = M1 2 , 3, 4 = 6
M2 (1, 3, 4) = M1 72 , 3, 4 = 21
6
5 19
M2 (1, 2, 4) = M1 3, 2 , 4 = 6
M2 (1, 2, 3) = M1 52 , 2, 3 = 52
21 19 M3 (1, 2, 3, 4) = M1 21
, , ,4 =
6 6 6
M3 (1, 2, 3) = M1 (3, 3, 3) = 3
M3 (1, 3, 4) = M1 (4, 4, 4) = 4
M3 (1, 2, 4) = M1 (4, 4, 4) = 4
M3 (2, 3, 4) = M1 (4, 4, 4) = 4
M4 (1, 2, 3, 4) = M1 (4, 4, 4, 4) = 4
85
24
Allgemein erhält man
Mk (a1 , . . . , ar ) = M1 ( max{a1 , Mk−1 (a2 , a3 , . . . , ar )}, max{a2 , Mk−1 (a1 , a3 , . . . , ar )}, . . . ,
max{ar , Mk−1 (a1 , a2 , . . . , ar−1 )})
Tabelle 2.1 stellt die Werte für unterschiedliche n dar.
Das dazu äquivalente mathematische Problem lässt sich wie folgt formulieren: Man
beobachtet identisch und unabhängig U (0, 1)-verteilte Zufallsvariablen ξ1 , . . . , ξn . In jedem
Schritt wird eine solche Zufallsvariable gezogen. Man muss sich nun entscheiden, ob man
diese Zahl behält und stoppt oder ob man weiterspielt. Es soll also eine optimale Strategie
entwickelt werden, damit E(ξτ ) maximiert wird, wobei mit τ eine Stoppzeit bezeichnet
wird.
Definition 2.2. Sei Vl := maxτ ≥l E(ξτ ) das Maximum der Erwartungswerte unter allen
Strategien, welche nicht vor dem l-ten Schritt stoppen.
Lemma 2.3. Es gilt
Vl =
2
1 + Vl+1
.
2
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
40
k Mk für n = 20 Mk für n = 50 Mk für n = 100
1
10.50000
25.50000
50.50000
2
13.13158
31.87755
63.12626
3
14.62061
35.47640
70.23967
4
15.61967
37.85866
74.94161
5
16.33941
39.57406
78.32300
6
16.88422
40.87613
80.88826
7
17.32186
41.90371
8
17.67411
42.73722
9
17.97569
10
18.23129
Tabelle 2.1: Darstellung von Mk für unterschiedliche Werte von n
Beweis.
Vl = E(max{ξl , Vl+1 }) =
2
= Vl+1
+
1
0
max{x, Vl+1 } dx =
Vl+1
0
Vl+1 dx +
1
x dx =
Vl+1
2
2
1 − Vl+1
1 + Vl+1
=
.
2
2
Aus obigem Lemma ergibt sich sofort
En+1 =
1 + En2
2
mit E0 := 0,
(2.1)
wobei En den maximalen Erwartungswert des Problems in Abhängigkeit der Anzahl n der
Zufallsvariablen ξ1 , . . . , ξn bezeichnet. Damit gilt En = V0 .
Satz 2.4. Für En gilt die asymptotische Abschätzung
En ≈ 1 −
2
,
n + log n + c
wobei c ∈ [2 + γ − ζ(3), 2 + γ] gilt.
Beweis. Ersetzt man En in (2.1) durch
En = 1 − 2xn ,
(2.2)
xn+1 = xn − x2n
(2.3)
so ergibt sich
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
41
für n ≥ 0 und x0 = 12 . Sei nun
xn :=
1
.
yn + n + 1
(2.4)
Mit Hilfe von (2.4) kann (2.3) ausgedrückt werden als
yn+1 = yn +
1
n + yn
(2.5)
für n ≥ 0 und y0 = 1. Unter Verwendung dieser Gleichung stellt man leicht fest, dass yn
monoton wachsend ist und yn ≥ 1 gilt. Man setzt nun
h(n) =
n
1
i=1
(2.6)
i
mit h(0) = 0 und definiert zn für n = 0, 1, . . . folgendermaßen
yn = h(n) + zn .
(2.7)
Aus (2.5), (2.6) und (2.7) erhält man
zn − zn+1 = yn − h(n) − yn+1 + h(n + 1) =
1
1
−
.
n + 1 n + yn
(2.8)
woraus zn − zn+1 ≥ 0 wegen yn ≥ 1 folgt. Damit ist zn monoton fallend und mit (2.7) gilt
yn ≤ h(n) + 1.
(2.9)
Daraus folgt
−
1
1
≤−
,
n + yn
n + 1 + h(n)
was
z0 − zn =
≤
≤
≤
n−1
k=0
n−1
k=0
n−1
k=0
n−1
k=0
zk − zk+1 =
n−1
k=0
1
1
−
k + 1 k + yk
1
1
−
k + 1 k + 1 + h(k)
h(k)
(k + 1)(k + 1 + h(k))
h(k)
= ζ(3)
(k + 1)2
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
42
impliziert. Dabei bezeichnet ζ die Riemannsche Zetafunktion. Wegen z0 = 1 gilt damit
1 − ζ(3) ≈ −0.202057 ≤ zn ≤ 1.
(2.10)
Aus der Beschränktheit und Monotonie von zn folgt die Konvergenz von zn gegen einen
Wert z∞ . Aus (2.7), (2.8) und (2.10) folgt nun
yn − 1
h(n)
1
.
(2.11)
=
+O
zn − zn+1 =
(n + 1)(n + yn )
(n + 1)(n + 2)
n2
Damit gilt nun
∞
∞ (zn − zn+1 ) = z∞ +
zn = z∞ +
r=n
r=n
h(r)
+O
(r + 1)(r + 2)
1
r2
.
(2.12)
Dies kann jedoch noch vereinfacht werden. Es gilt
∞
∞ h(r + 1)
1
1
h(r)
h(r)
=
−
+
−
(r + 1)(r + 2) r=n (r + 1)
(r + 2)
r+1 r+2
r=n
=
h(n) + 1
n+1
und
∞
1
1
=O
,
2
r
n
r=n
woraus sich
h(n)
zn = z∞ +
+O
n+1
ergibt. Aus
1
n
(2.13)
1
h(n) = log n + γ + O
n
mit γ = 0.577 . . . folgt
h(n)
+ h(n) + O
yn = zn + h(n) = z∞ +
n+1
log(n)
= log(n) + z∞ + γ + O
n
und somit
En = 1 −
2
n + log(n) + z∞ + γ + 1 + O
woraus der Satz wegen (2.10) folgt.
1
n
log(n)
n
,
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
n
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
200
300
400
500
1000
En
1 − n+log2 n+c
0.77508
0.76126
0.86110
0.85786
0.89860
0.89731
0.91989
0.91924
0.93337
0.93330
0.94337
0.94313
0.95056
0.95040
0.95612
0.95600
0.96054
0.96045
0.96415
0.96408
0.96714
0.96709
0.96967
0.96963
0.97184
0.97181
0.97372
0.97369
0.97536
0.97533
0.97680
0.97678
0.97809
0.97807
0.97924
0.97922
0.98027
0.98026
0.98121
0.98120
0.99034
0.99034
0.99350
0.99350
0.99510
0.99510
0.99606
0.99606
0.99802
0.99802
43
1 − n2
0.60000
0.80000
0.86667
0.90000
0.92000
0.93333
0.94286
0.95000
0.95556
0.96000
0.96364
0.96667
0.96923
0.97143
0.97333
0.97500
0.97647
0.97778
0.97895
0.98000
0.99000
0.99333
0.99500
0.99600
0.99800
Tabelle 2.2: Vergleich von En mit approximativen Werten für einige Werte von n
Aus der Definition der Folge zn zusammen mit der Fehlerabschätzung (2.12) kann man
für z∞ folgenden Näherungswert bestimmen:
z∞ = 0.1907781 . . .
Daraus folgt
c = z∞ + γ + 1 = 1.7679937 . . .
für die Konstante aus Satz 2.4. Tabelle 2.2 vergleicht die Werte, die direkt aus (2.1) berechnet wurden mit den approximativen Werten.
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
2.2
44
Eine Modifikation des Problems von Cayley
Man betrachtet nun eine Urne, in der sich n unabhängige und U (0, 1)-verteilte Zufallsvariablen ξ1 , . . . , ξn befinden. Dabei soll bei dieser Problemstellung die Wahrscheinlichkeit,
das größte Element zu wählen, maximiert werden. Im Gegensatz zum klassischen Secretary
Problem steht hierbei mehr Information zur Verfügung. Dieses Problem wird wiederum mit
Hilfe der Rückwärtsinduktion gelöst werden. Dazu sei ξl die im l-ten Schritt betrachtete
Zufallsvariable und Yl der relative Rang von ξl unter den bisher beobachteten Zufallsvariablen ξ1 , . . . , ξl . Klarerweise ist ein Stoppen im l-ten Schritt nur sinnvoll, wenn Yl = 1 gilt.
Weiters setzt man Ml := maxl=1,...,k ξl . Schließlich wird mit Sk das Ereignis Gewinnen mit
”
Stoppen im k-ten Schritt“ und mit Wk das Ereignis Gewinnen mit Weitergehen im k-ten
”
Schritt und Stoppen beim nächsten Kandidaten“ bezeichnet.
Im letzten Schritt besteht keine Wahlmöglichkeit. Im (n − 1)-ten Schritt gilt
P (Sn−1 | Yn−1 = 1, Mn−1 = x) = x
und
P (Wn−1 | Yn−1 = 1, Mn−1 = x) = P (Wn−1 | Mn−1 = x) = 1 − x.
Da für ein eventuelles Stoppen
x≥1−x
erfüllt sein muss, folgt sofort die optimale Strategie für den letzten Schritt: Man stoppt
nur, falls Yn−1 = 1 und ξn−1 ≥ 12 erfüllt ist.
Nun tastet man sich schrittweise Richtung Anfang zurück. Für den (n − 2)-ten Schritt
gilt
P (Sn−2 | Yn−2 = 1, Mn−2 = x) = x2
und
P (Wn−2 | Yn−2 = 1, Mn−2 = x) = P (Sn−2 | Mn−2 = x)
= P (x ≤ ξn−1 , ξn ≤ ξn−1 ) + P (x > ξn−1 , ξn ≥ x)
1
1 − x2
=
t dt + x(1 − x) =
+ x(1 − x).
2
x
Aus dem Gleichsetzen dieser Wahrscheinlichkeiten ergibt sich nun folgende Gleichung für
den Schwellenwert für das Stoppen im (n − 2)-ten Schritt:
x2 =
Daraus folgt
1 − x2
+ x(1 − x)
2
√
1+ 6
≈ 0.6899.
x=
5
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
45
Allgemein gilt im (n − k)-ten Schritt
P (Sn−k | Yn−k = 1, Mn−k = x) = xk
und
P (Wn−k | Yn−k = 1, Mn−k = x) = P (Sn−k | Mn−k = x).
Um obige Wahrscheinlichkeiten zu berechnen, unterscheidet man zwei Fälle:
1. ξn−k+1 ist ein Kandidat. Damit wird im (n − k + 1)-ten Schritt gestoppt. Die Gewinnwahrscheinlichkeit ist hierbei durch
1
1 − xk
P (x ≤ ξn−k+1 , ξn−l ≤ ξn−k+1 für l = 0, . . . , k − 2) =
tk−1 dt =
.
k
x
2. ξn−k+1 ist kein Kandidat. Damit gilt ξn−k+1 < x und ein Weitergehen wird gefordert.
Also ist die Gewinnwahrscheinlichkeit durch xP (Wn−k+1 | Mn−k+1 = x) gegeben.
Man definiert nun
Pk (x) := P (Wn−k | Mn−k = x)
für k = 1, . . . , n − 1 und P0 (x) = 0. Daraus folgt
1 − xk
+ xPk−1 (x)
k
für k = 1, . . . , n − 1. Der Schwellenwert im (n − k)-ten Schritt erfüllt daher die Gleichung
Pk (x) = P (Wn−k | Yn−k = 1, Mn−k = x) =
xk = Pk (x) =
1 − xk
+ xPk−1 (x).
k
Im Folgenden soll nun eine alternativen Methode in Anlehnung an Mosteller [Mos65]
zur Berechnung der Schwellenwerte betrachtet werden.
2.2.1
Eine alternative Methode
Das schon gewonnene Resultat des vorigen Abschnitts für die Gewinnwahrscheinlichkeit,
falls gestoppt wird, kann hierfür wieder verwendet werden:
P (Gewinnen mit Stoppen im k-ten Schritt) = xk
Die grundlegende Idee dieser Methode basiert auf der Beobachtung, dass man bei der
Gewinnwahrscheinlichkeit mit Weitergehen nach dem ersten Element, das einen größeren
Wert als das momentane besitzt (in unserem Fall gilt ξl = x), Ausschau hält. Falls man
sich im (n − 2)-ten Schritt (ξn−2 = x) befindet, so betrachtet man die Wahrscheinlichkeit,
dass es ein beziehungsweise zwei größere Elemente gibt. Bei 0 größeren Elementen kann
man durch Weitergehen nicht gewinnen. Dazu definiert man der Übersichtlichkeit halber
zuerst
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
46
Definition 2.5. pi sei die Wahrscheinlichkeit, dass genau i Elemente größer als x sind.
pi sei die Wahrscheinlichkeit, dass genau i Elemente größer als x sind und dass man mit
Weitergehen gewinnt.
Für den (n − 2)-ten Schritt gilt nun
p1 = 2x(1 − x)
p2 = (1 − x)2
1
p2 = (1 − x)2
2
p2 ergibt sich aus der Tatsache, dass bei 2 größeren Elementen das erste größer als das
zweite sein muss, um durch Weitergehen zu gewinnen, d.h. die Wahrscheinlichkeit ist 12 ,
dass man auch wirklich das größere Element auswählt. Die Wahrscheinlichkeit, dass es 0
größere Elemente gibt, wäre x2 . Da man hierbei aber durch Weitergehen nicht gewinnen
kann, ist dieser Fall bei der Suche nach der Lösung des Problems nicht relevant. Man will
nun den Schwellenwert x bestimmen. Dies ist der Wert, der folgende Gleichung erfüllt:
1
x2 = 2x(1 − x) + (1 − x)2 .
2
(2.14)
Der Schwellenwert ergibt sich also zu
√
1+ 6
x=
≈ 0.6899.
5
Man stoppt demnach also im (n − 2)-ten Schritt, falls der Wert dieses Objekts den Wert
0.6899 übersteigt.
Als nächstes soll betrachtet werden, was im (n − 3)-ten Schritt passiert:
p1 = 3x2 (1 − x)
p2 = 3x(1 − x)2
p3 = (1 − x)3
3
p2 = x(1 − x)2
2
1
p3 = (1 − x)3
3
Allgemein gilt nun pi = 1i pi . Der Schwellenwert x im (n − 3)-ten Schritt ist somit durch
die Gleichung
3
1
x3 = 3x2 (1 − x) + (1 − x)2 x + (1 − x)3
2
3
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
47
gegeben. Nun sollen obige Beobachtungen verallgemeinert werden: Wenn man sich im (n −
r)-ten Schritt befindet, so gilt nun
r r−1
p1 =
x (1 − x)
1
r r−2
x (1 − x)2
p2 =
2
..
.
pr = (1 − x)r .
Obigen Gleichungen zufolge kann der r-ten Schwellenwert sehr einfach berechnet werden
r
x =
r
1 r
i=1
i i
(1 − x)i xr−i .
(2.15)
Um diese Gleichung numerisch besser auswerten zu können, können die auftretenden
Binomialkoeffizienten für großes r wie folgt approximiert werden:
r
ri
∼ .
i
i!
Diese Approximation in (2.15) eingesetzt liefert
xr =
r
ri
(1 − x)i xr−i .
i
·
i!
i=1
Obige Gleichung kann noch folgendermaßen vereinfacht werden:
1=r
1−x
r2 (1 − x)2
+ ...
+
x
2 · 2! x2
Setzt man
α := r
1−x
x
so erhält man
1=α+
α2
+ ....
2 · 2!
Aus der letzten Gleichung kann α für große r näherungsweise numerisch berechnet werden:
α = 0.8043 . . .
KAPITEL 2. MODIFIKATION DURCH KENNTNIS DER VERTEILUNG
48
n x genau x approximativ
1
0.5000
0.5542
2
0.6899
0.7132
3
0.7758
0.7886
4
0.8246
0.8326
5
0.8559
0.8614
6
0.8778
0.8818
7
0.8939
0.8969
8
0.9063
0.9086
9
0.9160
0.9180
10 0.9240
0.9256
Tabelle 2.3: Darstellung der Werte von x für n = 1, . . . , 10
Daraus soll unser gesuchter Schwellenwert x berechnet werden:
x=
r
r
=
r+α
r + 0.8043
Tabelle 2.2.1 stellt die Werte für unterschiedliche n dar.
Für n = 2 beträgt die Gewinnwahrscheinlichkeit 34 , für n = 3 lautet die Gewinnwahrscheinlichkeit 0.684 und für große n beträgt die Gewinnwahrscheinlichkeit näherungsweise
0.580.
Kapitel 3
Unendliche Stoppprobleme
3.1
Allgemeine Formulierung des Problems
Definition 3.1. Unendliche Stoppprobleme werden durch
(i) eine Folge von Zufallsvariablen X1 , X2 , . . ., deren Verteilung üblicherweise bekannt
ist und
(ii) durch eine Folge von reellwertigen Auszahlungsfunktionen
y0 , y1 (x1 ), y2 (x1 , x2 ), . . . , y∞ (x1 , x2 , . . .)
beschrieben.
Sind obige zwei Objekte gegeben, so kann das damit verbundene Stoppproblem folgendermaßen beschrieben werden: Man betrachtet die Folge X1 , X2 , . . . beliebig lange. Bei
jedem n = 1, 2, . . . steht man vor der Wahl, nachdem man X1 = x1 , X2 = x2 , . . . , Xn = xn
betrachtet hat, ob man im aktuellen n-ten Schritt stoppt und die bekannte Auszahlung
yn (x1 , . . . , xn ) erhält oder ob man weitergeht und Xn+1 beobachtet. Falls man keine Xi
für i = 1, 2, . . . beobachten möchte, so erhält man die konstante Auszahlung y0 . Falls man
niemals stoppt, so erhält man y∞ (x1 , x2 , . . .). Die Auszahlungen können auch den Wert
−∞ annehmen. Damit alle obigen Beobachtungen wirklich sinnvoll sind, nimmt man an,
dass die Auszahlungen nach oben durch eine Zufallsvariable mit endlichem Erwartungswert
beschränkt sind.
Das Problem besteht nun in der Wahl eines optimalen Stoppzeitpunktes, um die Auszahlung zu maximieren. Man kann hierzu randomisierte Entscheidungen verwenden: Befindet man sich im n-ten Schritt, nachdem man X1 = x1 , . . . , Xn = xn beobachtet hat,
so kann man eine Stoppwahrscheinlichkeit in Abhängigkeit dieser Beobachtungen wählen.
49
KAPITEL 3. UNENDLICHE STOPPPROBLEME
50
Diese Wahrscheinlichkeit bezeichnet man mit Φn (x1 , . . . , xn ). Eine randomisierte Stoppregel besteht nun aus der Folge dieser Funktionen
Φ = (Φ0 , Φ1 (x1 ), Φ2 (x1 , x2 ), . . .) mit 0 ≤ Φn (x1 , . . . , xn ) ≤ 1
für alle n. Eine Stoppregel heißt nicht-randomisiert, falls
Φn (x1 , . . . , xn ) ∈ {0, 1}
für alle n gilt.
Φ0 gibt die Wahrscheinlichkeit an, dass keine Beobachtungen gemacht werden. Falls
man X1 = x1 beobachtet, so wird mit Φ1 (x1 ) die Wahrscheinlichkeit bezeichnet, dass man
nach der ersten Beobachtung stoppt. Die Stoppregel Φ und die Folge der Beobachtungen
X = (X1 , X2 , . . .) bestimmen nun den Stoppzeitpunkt 0 ≤ N ≤ ∞. Die bedingte Verteilung
von N gegeben X = x = (x1 , x2 , . . .) wird mit Ψ = (Ψ0 , Ψ1 , . . . , Ψ∞ ) bezeichnet, wobei
Ψn (x1 , . . . , xn ) = P (N = n | X = x),
Ψ∞ (x1 , x2 , . . .) = P (N = ∞ | X = x)
für n = 0, 1, 2, . . . gilt. Nun versucht man eine Beziehung zwischen Ψ und Φ herzustellen:
Ψ0 = Φ0
Ψ1 (x1 ) = (1 − Φ0 )Φ1 (x1 )
..
.
n−1
Ψn (x1 , . . . , xn ) =
(1 − Φj (x1 , . . . , xj )) Φn (x1 , . . . , xn )
j=1
..
.
Ψ∞ (x1 , x2 , . . .) = 1 −
∞
Ψj (x1 , . . . , xj )
j=0
Ψ∞ (x1 , x2 , . . .) gibt die Wahrscheinlichkeit an, dass man niemals stoppt gegeben alle Beobachtungen.
Das Problem kann nun folgendermaßen formuliert werden: Man wählt eine Stoppregel
Φ, um die erwartete Auszahlung V (Φ) zu maximieren:
∞
Ψj (X1 , . . . , Xj )yj (X1 , . . . , Xj )
V (Φ) := E(yN (X1 , . . . , XN )) = E
j=0
KAPITEL 3. UNENDLICHE STOPPPROBLEME
3.2
51
Existenz einer optimalen Stoppregel
In diesem Fall hat man eine unendliche Folge X1 , X2 , . . . von Beobachtungen zur Verfügung.
Man sieht sich mit dem Problem konfrontiert, ob unter den unendlich vielen zur Verfügung
stehenden Stoppzeiten τ auch wirklich eine Stoppregel existiert, für die E(Yτ ) maximal ist.
Dabei sei Yn = yn (X1 , . . . , Xn ). Folgender Satz gibt nun darüber Auskunft, unter welchen
Bedingungen eine solche Stoppregel existiert.
Definition 3.2. Sei Θ die Menge aller Stoppzeiten τ , für die P (τ < ∞) = 1 gilt.
Satz 3.3. Falls
E(sup | yn (X1 , . . . , Xn )|) = M < ∞
(3.1)
lim yn (X1 , . . . , Xn ) = −∞
(3.2)
n
und
n→∞
mit Wahrscheinlichkeit 1 gilt, so existiert eine Stoppzeit τ ∗ mit supτ ∈Θ E(Yτ ) = E(Yτ ∗ ).
Beweis. Für den Beweis dieses Satzes benötigt man einige Vorbereitungen.
Definition 3.4. Eine Stoppzeit τ ∈ Θ heißt regulär, falls
E(Yτ ) > y0
für τ > 0 und
E(Yτ | x1 , . . . , xn ) > yn (x1 , . . . , xn )
(3.3)
für alle Beobachtungen X1 = x1 , . . . , Xn = xn gilt, welche (x1 , . . . , xn ) ∈ {τ > n} erfüllen.
Folgendes Lemma schränkt nun die die zu betrachteten Stoppzeiten enorm ein:
Lemma 3.5. Sei τ ∈ Θ eine nicht reguläre Stoppzeit, so existiert eine reguläre Stoppzeit
τ ∈ Θ, sodass
E(Yτ ) ≥ E(Yτ )
Beweis. Falls τ = 0 gilt, so ist nichts zu tun. Sei nun τ > 0, dann definiert man τ wie
folgt: Falls E(Yτ ) ≤ y0 gilt, so definiert man τ := 0. Andernfalls sei τ die Stoppzeit, die
ein Stoppen im n-ten Schritt fordert, sobald die beobachteten Werte X1 = x1 , . . . , Xn = xn
(3.3) nicht mehr erfüllen oder (x1 , . . . , xn ) ∈ {τ = n} gilt. Aus der Definition von τ folgt,
KAPITEL 3. UNENDLICHE STOPPPROBLEME
52
dass τ niemals mehr Beobachtungen als τ benötigt. Aus τ ∈ Θ folgt auch τ ∈ Θ. Ferner
gilt
∞ yn (x1 , . . . , xn ) dFn (x1 , . . . , xn )
E(Yτ ) =
≥
=
n=1 {τ =n}
∞ n=1
∞
{τ =n}
E(Yτ | x1 , . . . , xn ) dFn (x1 , . . . , xn )
(3.4)
E(Yτ | τ = n) P (τ = n) = E(Yτ ),
n=1
wobei Fn (x1 , . . . , xn ) die Randverteilung von Yn bezeichnet. Demzufolge gilt nun E(Yτ ) ≥
E(Yτ ).
Nun ist noch die Regularität von τ nachzuweisen: Falls τ = 0 gilt, so ist τ trivialerweise
regulär. Sei also τ > 0. Nach der Wahl von τ gilt
E(Yτ ) > y0
und
E(Yτ |x1 , . . . , xn ) > yn (x1 , . . . , xn )
für (x1 , . . . , xn ) ∈ {τ > n}. Wegen E(Yτ ) ≥ E(Yτ ) folgt
E(Yτ ) ≥ E(Yτ ) > y0 .
Analog zu (3.4) kann man nachprüfen, dass
E(Yτ | x1 , . . . , xn ) ≥ E(Yτ | x1 , . . . , xn )
gilt. Daraus folgt
E(Yτ |x1 , . . . , xn ) > yn (x1 , . . . , xn ).
Folglich ist τ regulär.
Infolgedessen müssen nur reguläre Stoppzeiten betrachtet werden. Sei τ1 , τ2 , . . . eine
Folge regulärer Stoppzeiten in Θ, für die
lim E(Yτn ) = sup E(Yτ )
n→∞
τ ∈Θ
(3.5)
gilt. Für n ≥ 1 definiert man die Stoppzeit γn := max{τ1 , . . . , τn }, die fordert, dass
eine weitere Beobachtung zu einem beliebigen Zeitpunkt genau dann gemacht werden
soll, wenn mindestens eine der Stoppzeiten τ1 , . . . , τn eine weitere zu treffende Beobachtung zu diesem Zeitpunkt fordert. Auf die gleiche Art definiert man nun die Stoppzeit
τ ∗ := sup{τ1 , τ2 , . . .} = sup{γ1 , γ2 , . . .}, die fordert, dass eine weitere Beobachtung gemacht werden soll, wenn mindestens eine der Stoppzeiten τ1 , τ2 , . . . eine weitere zu treffende
Beobachtung fordern.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
53
Lemma 3.6. Für i = 1, 2, . . . sei τi ∈ Θ eine Folge von regulären Stoppzeiten und sei γn =
max{τ1 , . . . , τn } für n = 1, 2, . . .. Dann ist γn für n ≥ 1 regulär und folgende Relationen
sind erfüllt:
E(Yγn ) ≥ E(Yτi )
(3.6)
E(Yγn ) ≤ E(Yγn+1 )
(3.7)
für i = 1, . . . , n und
Beweis. Es gilt
γ1 = τ 1
γ2 = max{τ1 , τ2 }.
γ2 stimmt mit τ1 überein mit Ausnahme, wenn nach der Beobachtung der Werte X1 =
x1 , . . . , Xn = xn für die man unter τ1 stoppen, jedoch unter τ2 weitergehen würde. In
einem solchen Punkt (x1 , . . . , xn ) muss die folgende Ungleichung erfüllt sein:
E(Yγ2 | x1 , . . . , xn ) = E(Yτ2 | x1 , . . . , xn )
> yn (x1 , . . . , xn ) = E(Yτ1 | x1 , . . . , xn )
(3.8)
Die erste Gleichung in (3.8) erhält man aus der Tatsache, dass τ2 und γ2 nach den beobachteten x1 , . . . , xn übereinstimmen. Die Ungleichung in (3.8) folgt daraus, dass die reguläre
Stoppzeit τ2 ein Weitergehen fordert. Da man unter τ1 stoppen sollte, folgt die letzte Gleichung in (3.8). Somit gilt nun
E(Yγ2 ) ≥ E(Yτ1 ).
Auf analoge Weise erhält man
E(Yγ2 ) ≥ E(Yτ2 ).
Somit sind γ1 und γ2 regulär. (3.6) ist folglich für n = 1, 2 und (3.7) ist für n = 1 erfüllt.
γ3 kann geschrieben werden als γ3 = max{γ2 , τ3 }. Somit ist γ3 regulär und (3.6) ist für
n = 3 und (3.7) ist für n = 2 erfüllt. Seien nun obige Ungleichungen für n − 1 erfüllt. Da
γn = max{γn−1 , τn } gilt, ist γn regulär und (3.6) und (3.7) sind folglich erfüllt.
Demzufolge gilt nun für i = 1, . . . , n und für n ≥ 1
E(Yτi ) ≤ E(Yγn ) ≤ E(Yγn+1 ).
Aus (3.5) und (3.9) erhält man nun
E(Yγn ) → sup E(Yτ )
τ ∈Θ
(3.9)
KAPITEL 3. UNENDLICHE STOPPPROBLEME
54
für n → ∞. Um die Optimalität der Stoppzeit τ ∗ zu folgern, muss gezeigt werden, dass
τ ∗ ∈ Θ und dass
lim E(Yγn ) = E(Yτ ∗ )
n→∞
gilt. Wie zuvor kann man für Folgen von beobachteten Werten x1 , x2 , . . ., für welche
lim γn = sup γn < ∞
n→∞
n
gilt, die folgenden Bedingungen anschreiben:
τ ∗ = lim γn
n→∞
und Yτ ∗ = lim Yγn
n→∞
(3.10)
Für den Fall, dass limn→∞ γn = supn γn = ∞ gilt, ist τ ∗ = ∞ und man definiere Yτ ∗ = −∞.
Somit folgt mit Hilfe von (3.2), dass die Gleichungen (3.10) auch in diesem Fall erfüllt sind.
Es sei Z = supn |Yn |. Da E(Z) < ∞ nach (3.1) gilt, mit anderen Worten ist Z eine
integrierbare Majorante von |Yn | und auch von |Yγn |, folgt aus (3.10) und dem Satz von
der dominierten Konvergenz, dass
E(Yτ ∗ ) = lim E(Yγn ) = sup E(Yτ ).
n→∞
τ ∈Θ
(3.11)
Nun muss man noch nachweisen, dass P (τ ∗ < ∞) = 1 gilt. Falls P (τ ∗ = ∞) > 0, so würde
daraus P (Yτ ∗ = −∞) > 0 und somit E(Yτ ∗ ) = −∞ folgen. Dies ist jedoch ein Widerspruch
zu (3.11). Somit gilt nun τ ∗ ∈ Θ.
Dass jedoch nicht immer eine optimale Stoppzeit existiert, verdeutlicht folgendes Beispiel:
Beispiel. Bei diesem Spiel betrachtet man eine unendliche Folge X1 , X2 , . . . von Zufallsvariablen mit X1 = 1. Es gilt nun
2Xn mit p > 12
Xn+1 =
0
mit q = 1 − p
Wiederum soll supτ ∈Θ E(Xτ ) gebildet werden. Man will nun zeigen, dass für diesen Fall
keine Stoppzeit existiert, die obigen Erwartungswert maximiert. Man nimmt nun an, dass
zu einem bestimmten Zeitpunkt l der beobachtete Wert x beträgt. Da p > 12 gilt, beträgt
jedoch der erwartete Wert, wenn man noch einen Schritt weitergeht 2px > x. Solange
der beobachtete Wert nicht zu 0 reduziert hat, ist es jedenfalls von Vorteil, eine weitere
Beobachtung zu machen. In jedem Schritt beträgt die Wahrscheinlichkeit, dass man verliert,
q > 0. Wenn nun so lange fortfährt, so wird man früher oder später sicher verlieren,
d.h. irgendwann tritt der Wert 0 auf. Damit existiert nun keine optimale Stoppzeit. Eine
sinnvolle Strategie besteht in diesem Beispiel darin, eine ganze Zahl n zu wählen und falls
sich der gewonnene Betrag in den ersten Schritten nicht zu 0 reduziert hat, nach n Schritten
zu stoppen und folglich den Betrag 2n zu erhalten. Natürlich kann mit der Strategie, die
ein Stoppen erst nach n + 1 Schritten fordert, eine größere erwartete Auszahlung erreicht
werden.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
3.3
55
Sampling without recall
Hierbei betrachtet man eine Folge unabhängig und identisch verteilter Zufallsvariablen
X1 , X2 , . . . mit bekannter Verteilungsfunktion F , wobei die Anzahl der zu wählenden Beobachtungen nicht beschränkt ist. Für jede neue Beobachtung muss jedoch ein fixer Betrag
c bezahlt werden. Damit stellt man sich vor die folgende Wahl: Nachdem man den Betrag
c bezahlt hat, um Xn zu beobachten, kann man nun stoppen und erhält den Wert von Xn
oder man geht weiter und bezahlt den Betrag c, um Xn+1 beobachten zu dürfen.
In diesem Problem ist es nicht zulässig, sich für bereits abgelehnte Beobachtungen
nachträglich zu entscheiden. Man setzt nun
Yn := Xn − cn.
Zuallererst muss man nun beweisen, dass wirklich eine optimale Stoppregel existiert. Hierzu
reicht jedoch der Beweis der Existenz einer optimalen Stoppzeit für den Fall mit recall, da
der hier dargestellte Fall als Spezialfall des Problems im nächsten Abschnitt betrachtet werden kann. Zur Lösung dieses unendlichen Problems studiert man zunächst das äquivalente
Problem für endlich viele Beobachtungen X1 , X2 , . . . , XN . Wiederum ist es möglich, eine
einfache Rekursionsformel anzuschreiben. Der Einfachheit halber sei des Weiteren c = 1.
Außerdem setzt man hl (z) := supτ ≥l E(Xτ |Xl = z). Somit gilt
hN (z) = z − N
und
hl (z) = max {z − l, E(hl+1 (Xl+1 ))} = max z − l,
∞
−∞
hl+1 (t)d F (t)
Da im unendlichen Fall keine obere Schranke für die Anzahl der möglichen Beobachtungen existiert, gilt
h2 (z) = h1 (z) − 1
Im 2. Schritt befindet man sich also in derselben Situation wie im 1. Schritt, mit Ausnahme,
dass man nun schon den Betrag 1 bezahlt hat. Somit folgt nun
∞
h1 (z) = max z − 1,
h1 (t)d F (t) − 1
−∞
∞
h1 (t)d F (t) − 1
= max z,
−∞
=:A
= max{z, A} − 1
Durch Integration obiger Gleichung erhält man folgende Fixpunktgleichung
∞
∞
A=
h1 (z)d F (z) =
max(z, A)d F (z) − 1.
−∞
−∞
(3.12)
KAPITEL 3. UNENDLICHE STOPPPROBLEME
56
Beispiel. Die Folge der Zufallsvariablen sei U (a, b)-verteilt (a < b). Dann erhält man
mit Hilfe von (3.12) für den gesuchten Wert A nach Fallunterscheidung folgendes: Für
a < A < b gilt
b
1
max{A, z}
dz − 1
A=
b−a
a
A
b
1
=
Ad z +
z dz − 1
b−a
a
A
2
1
1
b
A2
2
=
(A − Aa) +
−
−1
b−a
b−a 2
2
woraus
A2 − 2bA(b2 − 2b + 2a) = 0
und
A1,2 = b ±
!
2(b − a)
folgt. Folglich gilt nun
!
2(b − a) ∈ (a, b)
!
A2 = b − 2(b − a) ∈ (a, b) ⇔ b − a > 2.
A1 = b +
Für A ≤ a gilt
b
1
dz − 1
b−a
a
b+a
− 1.
=
2
A=
z
Wegen A ≤ a ist dies genau dann eine Lösung, wenn b − a ≤ 2 ist. Für A ≥ b gilt
b
1
A
dz − 1
A=
b−a
a
=A−1
und somit existiert keine Lösung in diesem Fall. Folglich erhält man für den gesuchten
Fixpunkt
!
b − 2(b − a) für b − a > 2
A=
b+a
−1
für b − a ≤ 2
2
KAPITEL 3. UNENDLICHE STOPPPROBLEME
57
Beispiel. Sei nun die Folge der Zufallsvariablen Exp(a)-verteilt. Für A > 0 gilt
∞
A=
max(z, A)ae−az dz − 1
0
A
∞
−az
=
Aae dz +
zae−az dz − 1
0
A
1 −aA
−aA
= A(1 − e ) + A +
−1
e
a
woraus
1
A = − log a
a
folgt. Für A ≤ 0 folgt analog
1
− 1.
a
Damit erhält man für die Exp(a)-Verteilung folgendes:
⎧
1
⎪
⎨ a −1 :a>1
A=
0
:a=1
⎪
⎩ 1
− a log a : 0 < a < 1
A=
Beispiel. Sei nun die Folge der Zufallsvariablen N (0, 1)-verteilt. Somit gilt nun
A
∞
2
z2
1
1
− z2
√
√
Ae
dz +
ze− 2 dz − 1
A=
2π −∞
2π A
1 − A2
= AΦ(A) + √ e 2 − 1
2π
≈ −0.89947156
Tabellen 3.1 bis 3.5 stellen nun die für den endlichen Fall berechneten h0 den aus dem
unendlichen Fall resultierenden Lösungen der Fixpunktgleichung A für unterschiedliche
Verteilungen gegenüber.
3.4
Sampling with recall
Bei dieser Modifikation ist es zulässig, im l-ten Schritt aus allen bis jetzt beobachteten
Zufallsvariablen X1 , . . . , Xl das Maximum zu wählen. Man setzt nun
Yn := max{X1 , . . . , Xn } − cn
(3.13)
Zuerst weist man die Existenz einer optimalen Stoppzeit nach. Es gilt nun nur noch folgendes Lemma zu zeigen, da die Existenz einer optimalen Stoppzeit direkt aus Satz 3.3
folgt.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
N
20
100
200
300
∞
58
h0
1.38629375540440
1.38629436111989
1.38629436111989
1.38629436111989
1.38629436111989
Tabelle 3.1: Gegenüberstellung der berechneten Lösungen für die Exp( 12 )-Verteilung
N
20
100
200
300
∞
h0
−0.8994715538148506
−0.8994715538148498
−0.8994715538148498
−0.8994715538148498
−0.8994715612537435
Tabelle 3.2: Gegenüberstellung der berechneten Lösungen für die N (0, 1)-Verteilung
N
20
100
200
300
∞
h0
2.5505117661807812
2.5505117661807817
2.5505117661807817
2.5505117661807817
2.550510257216822
Tabelle 3.3: Gegenüberstellung der berechneten Lösungen für die U (2, 5)-Verteilung
N
20
100
200
300
∞
h0
1.1461921983597305
1.1461921984038201
1.1461921984038201
1.1461921984038201
1.1461932206205825
Tabelle 3.4: Gegenüberstellung der berechneten Lösungen für die Gamma(2, 1)-Verteilung
KAPITEL 3. UNENDLICHE STOPPPROBLEME
N
20
100
200
300
∞
59
h0
−0.33333333333333337
−0.33333333333333337
−0.33333333333333337
−0.33333333333333337
−0.33333333333333333
Tabelle 3.5: Gegenüberstellung der berechneten Lösungen für die Beta(2, 1)-Verteilung
Lemma 3.7. Sei X1 , X2 , . . . eine Folge identisch verteilter Zufallsvariablen mit gemeinsamer Verteilungsfunktion F . Sei Yn für n ≥ 1 wie in (3.13) definiert und sei Z :=
supn Yn . Falls der Erwartungswert der Verteilung F existiert, so gilt P (Z < ∞) = 1
und limn→∞ Yn = −∞. Falls die Varianz von F endlich ist, so gilt E(|Z|) < ∞.
Beweis. Aus (3.13) und der Definition von Z folgt, dass Z ≥ supn {Xn − cn}. Andererseits
gilt jedoch
Yn ≤ max{X1 − c, X2 − 2c, . . . , Xn − nc}
für n ≥ 1, woraus
Z ≤ sup{Xn − nc}
n
folgt. Somit kann Z folgendermaßen geschrieben werden:
Z = sup{Xn − nc}
(3.14)
n
Man nimmt nun an, dass der Erwartungswert von F existiert und X eine Zufallsvariable
mit Verteilungsfunktion F sei. Dann gilt für eine Konstante α > 0:
∞
P (X > nα) =
n=1
≤
∞
(1 − F (nα))
n=1
∞
0
1
(1 − F (αx)) dx =
α
0
∞
x dF (x) < ∞
Setzt man nun α = 2c und benutzt die Tatsache, dass jede Beobachtung Xn die selbe
Verteilung wie X besitzt, so kann folgende Relation aufgestellt werden.
nc
<∞
P Xn >
2
n=1
∞
KAPITEL 3. UNENDLICHE STOPPPROBLEME
60
Aus dem Lemma von Borel-Cantelli folgt, dass mit Wahrscheinlichkeit 1 nur eine endligilt. Damit ist folgende Bedingung
che Anzahl von Werten von n existiert, für die Xn > nc
2
mit Wahrscheinlichkeit 1 erfüllt:
lim (Xn − nc) = −∞
n→∞
Damit folgt nun aus (3.14), dass P (Z < ∞) = 1 gilt.
Um zu zeigen, dass Yn → −∞ mit Wahrscheinlichkeit 1 gilt, definiert man
Tn := max{X1 , . . . , Xn } −
nc
2
für n ≥ 1 und
U := sup Tn .
n
Falls man nun c durch
Borel-Cantelli, dass
c
2
ersetzt, so erhält man mit Hilfe des ersten Teils des Lemmas von
P (U < ∞) = 1
gilt. Für n ≥ 1 gilt jedoch
Yn = Tn −
nc
nc
≤U− .
2
2
Damit gilt Yn → −∞ für n → ∞. Die Zufallsvariable N sei definiert durch
N := inf{n ∈ N|Z = Xn − nc},
wobei das Infimum über die leere Menge wie üblich ∞ ist. Es gilt folglich
XN = Z + cN
und P (N < ∞) = 1.
N entspricht also folglich dem zufälligen Zeitpunkt, zu welchem supn {Xn − nc} erreicht
wird. Als Konsequenz der aus dem ersten Teil dieses Lemmas erhaltenen Resultate, folgt
mit Wahrscheinlichkeit 1, dass N wohldefiniert ist. Für k ≥ 1 bezeichnet man folgendes
Ereignis mit Ak .
Ak := {Z > 0, ck < XN ≤ c(k + 1)}
"
Dann gilt jedenfalls {Z > 0} = ∞
k=1 Ak . Da XN ≤ c(k + 1) gilt, falls das Ereignis Ak
eintritt, folgt nun auch Z ≤ c(k + 1), falls Ak eintritt. Bezeichnet man nun mit FZ die
Verteilungsfunktion von Z, so muss folgende Relation erfüllt sein:
∞
∞
z dFZ (z) ≤
c(k + 1)P (Ak )
(3.15)
0
k=1
KAPITEL 3. UNENDLICHE STOPPPROBLEME
61
Da XN − cN > 0 und XN ≤ c(k + 1) gilt, wenn das Ereignis Ak auftritt, folgt somit
N < k + 1, wenn das Ereignis Ak eintritt. Damit erhält man für k ≥ 1
Ak ⊆
∞
#
{ck < Xi ≤ c(k + 1)}
k=1
und
P (Ak ) ≤
k
P (ck < Xi ≤ c(k + 1)) = kP (ck < X ≤ c(k + 1)).
(3.16)
i=1
Mit Hilfe von (3.15) und (3.16) folgt nun
0
∞
∞
z dFZ (z) ≤ c
(k + 1)2 P (ck < X ≤ c(k + 1))
k=1
≤c
∞ c(k+1)
c
≤ cE
x
+1
c
1
X
c
2
+1
c
ck
k=1∞ =c
x
dF (x)
2
dF (x)
2
.
+1
Falls die Varianz von F endlich ist, so ist der Erwartungswert in obiger Relation ebenfalls
endlich und dies trifft dann natürlich auch auf das erste Integral in obiger Relation zu. Da
Z ≥ X1 − c gilt, trifft folgendes zu:
0
z dFZ (z) > −∞
−∞
Damit gilt E(|Z|) < ∞, falls die Varianz von F endlich ist.
Einfachheitshalber sei c = 1. Im Fall, dass das Spiel spätestens nach N ∈ N Schritten
abbricht, ergibt sich die folgende Rekursionsformel:
hN (z) = z − N
hl (z) = max {z − l, E(hl+1 (max{z, Xl+1 }))}
∞
= max z − l,
hl+1 (max{z, t}) dF (t)
−∞
Im unendlichen Fall gilt wiederum
hl+1 = hl − 1.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
3.5
62
Das Durchschnittproblem
Bei diesem Problem betrachtet man eine wiederholt geworfene faire Münze. Stoppt man
nun zu einem bestimmten Zeitpunkt, so erhält man als Gewinn in diesem Spiel die relative
Häufigkeit des Ereignis Zahl“. Somit stoppt man sicherlich im ersten Schritt, falls die
”
Münze beim ersten Wurf Zahl zeigt, da man keine größere Auszahlung erhalten kann.
Seien nun X1 , X2 , . . . unabhängig identisch verteilte Zufallsvariablen aus einer bekannten Verteilung mit Erwartungswert μ < ∞. Man formuliert nun dieses Problem der Maximierung der relativen Häufigkeit in der allgemeinen Form eines Stoppproblems
y0 = μ
x1 + . . . + xn
yn (x1 , . . . , xn ) =
n
y∞ (x1 , x2 , . . .) = μ
für n = 1, 2, . . .
Daraus folgt nun, dass man μ erhält, falls man keine Beobachtungen tätigt. Falls man
niemals stoppt, so erhält man ebenfalls
1
Xi = μ
lim
n→∞ n
i=1
n
im Einklang mit dem Gesetz der großen Zahlen. Bevor man sich nun der Lösung dieses
Problems widmet, löst man ihre vereinfachte Version, in der die Münze höchstens N -mal
(N < ∞) geworfen wird, wobei man sich erhofft, dass die Lösung des endlichen Problems
die Lösung des unendlichen Problems für großes N approximiert. Für das endliche Problem
definiert man
h0 := sup E(Zτ )
τ
hl (z) := sup E(Zτ | Xl = z)
τ ≥l
für l ≥ 1, wobei
Zn :=
X1 + . . . + Xn
.
n
Im Fall des fairen Münzwurfes gilt nun
1
P (Xi = 1) = P (Xi = 0) = .
2
Wiederum kann man eine einfache Rekursionsformel aufstellen. Aufgrund von
Zl+1 =
l
1
Zl +
Xl+1
l+1
l+1
KAPITEL 3. UNENDLICHE STOPPPROBLEME
63
gilt nun
hN (z) = z
l
l
1
1
1
hl (z) = max z, hl+1
z+
+ hl+1
z
2
l+1
l+1
2
l+1
für 1 ≤ l ≤ N . Für den gesuchten Wert h0 erhält man
1
1
h0 = h1 (1) + h1 (0)
2
2
Da nun hj (z) − z ≥ 0 monoton fallend ist, stoppt man, falls
Zj ∈ {z ≤ 1 | z = hj (z)}
gilt. Da Zl ∈ { 0l , 1l , . . . , ll } gilt, kann man die optimale Stoppregel folgendermaßen formulieren: Stoppe zum Zeitpunkt l, wenn Zl ≥ bl mit
j
j
j 0 ≤ j ≤ l, hl
=
bl := min
l
l
l
Folglich genügt es, die hl jl für 0 ≤ j ≤ l zu berechnen. Somit erhält man abschließend
folgende Rekursionsformel
j
j
=
hN
N
N
für 0 ≤ j ≤ N und
j
j+1
j
j 1
hl
= max
,
hl+1
+ hl+1
l
l 2
l+1
l+1
für 0 ≤ j ≤ l. Für eine alternative, ausführlichere Behandlung dieses Problems sei auf
Kapitel 6.4 verwiesen.Tabelle 3.6 stellt nun h0 für unterschiedliche N dar.
Betrachtet man nun den Fall, dass die Anzahl der Münzwürfe nicht beschränkt sei. In
diesem Fall kann der Satz 3.3 nicht auf dieses Problem angewendet werden. Man muss
nun einen speziellen Beweis für die Existenz einer Stoppregel, die den erwarteten Gewinn
maximiert, entwickeln. Hierzu sind nur die zusätzlichen Annahmen zu treffen, dass die
Zufallsvariable X1 , X2 , . . . unabhängig und identisch verteilt sind mit Erwartungswert μ =
0 und endlicher Varianz σ 2 . Man setzt
Sn := X1 + . . . + Xn n
für n ≥ 1. Sei (Ω, F, P ) der zugrundeliegende Wahrscheinlichkeitsraum und
Fn := σ(X1 , . . . , Xn ).
KAPITEL 3. UNENDLICHE STOPPPROBLEME
N
5
10
20
30
40
50
100
200
300
400
500
1000
64
h0
0.708333
0.743697
0.763413
0.771158
0.771158
0.778010
0.783894
0.787385
0.788740
0.789507
0.790029
0.791197
Tabelle 3.6: Berechnung der Werte von h0 für unterschiedliche n
Man bezeichnet mit T∞ die Menge aller Zufallsvariable, welche Werte in N∪{∞} annehmen
und
{t ≤ n} ∈ Fn
(3.17)
für n ≥ 1 erfüllen. Elemente aus T∞ nennt man Stoppvariable. Weiters definiert man die
Menge T ⊆ T∞ durch
T = {t ∈ T∞ |P (t < ∞) = 1}.
Sei Y1 , Y2 , . . . eine Folge von Zufallsvariablen und sei t ∈ T∞ , so definiert man
E(Yt ) =
Yt dP,
(3.18)
{t<∞}
falls die rechte Seite definiert ist. Für t ∈ T entspricht dies der gewöhnlichen Definition
des Erwartungswertes von Yt . Man ist nun bestrebt, folgendes Resultat nachzuprüfen.
Satz 3.8. Es existiert eine Stoppvariable τ ∈ T , so dass
Sτ
St
E
= sup E
τ
t
t∈T∞
(3.19)
gilt. Weiters gilt
0<E
Sτ
τ
π
< √ σ.
6
(3.20)
Beweis. Zum Beweis obigen Satzes formuliert man zu Beginn folgende Hilfslemmata.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
65
Lemma 3.9. Sei t ∈ T∞ und sei t(m) durch
t falls t ≤ m
t(m) =
∞ falls t > m
(3.21)
definiert. Dann gilt t(m) ∈ T∞ und
2
E(St(m)
) ≤ mσ 2 .
(3.22)
Beweis. Laut Definition ist t(m) ∈ T∞ . Um die Ungleichung (3.22) zu erhalten, geht man
wie folgt vor:
m m 2
2
E(St(m) ) =
St dP ≤
(St2 + (Sm − Si )2 ) dP
(3.23)
=
i=1 {t=i}
m i=1
{t=i}
{t=i}
i=1
2
(Si + (Sm − Si )) dP =
{t≤m}
2
2
Sm
dP ≤ E(Sm
) = mσ 2
(3.24)
(3.23) ergibt sich aus der Tatsache, dass {t = i} ∈ Fi und E(Xj | Fi ) = 0 für j > i gilt.
Lemma 3.10. Für alle t ∈ T∞ und alle a > −1 gilt
2 ∞
St
σ2
E
.
≤
2
a+t
(a
+
i)
i=1
Beweis. Aufgrund der Definition von t(m) folgt
2 ∞
1
St
St2 dP
=
E
2
a+t
(a
+
i)
{t=i}
i=1
=
∞
i=1
1
2
2
(E(St(i)
) − E(St(i−1)
)).
2
(a + i)
(3.25)
(3.26)
(3.27)
Man setzt nun für i ≥ 1
2
2
vi = E(St(i)
) − E(St(i−1)
)
(3.28)
und erhält folglich für die rechte Seite von (3.26)
∞
i=1
vi
.
(a + i)2
(3.29)
Nach (3.28) und (3.22) erfüllen die vi die Relationen
vi ≥ 0 und
m
i=1
vi ≤ mσ 2
für alle m ≥ 1.
(3.30)
KAPITEL 3. UNENDLICHE STOPPPROBLEME
66
Da (a + i)2 streng monoton wachsend in i ist und (a + i)2 > 0 gilt, ist die Summe in
(3.29) monoton wachsend, wenn ein vi zunimmt und ein vj mit j > i um denselben Wert
abnimmt. Damit ergibt sich, dass das Maximum von (3.29) über vi , welche (3.30) genügen,
für v1 = v2 = . . . = σ 2 angenommen wird.
Lemma 3.11. Für alle t ∈ T∞ und a > −1 gilt
E
St
a+t
≤σ
∞
i=1
1
(a + i)2
1/2
.
(3.31)
Im Speziellen gilt für a > 0
E
St
a+t
σ
<√ .
a
(3.32)
Beweis. (3.31) ist eine unmittelbare Folgerung aus (3.25). Aus (3.31) lässt sich wie folgt
(3.32) für a > 0 herleiten:
∞
i=1
1
<
(a + i)2
i=1
∞
i
i−1
du
=
(a + u)2
0
∞
1
du
= .
2
(a + u)
a
Lemma 3.12. Falls für a > 0, b ∈ R und t ∈ T∞
b + St
b
E
≥
a+t
a
(3.33)
(3.34)
gilt, so existiert t ∈ T∞ mit
t < ∞ ⇒ St > −b
und
E
b + St
a + t
≥
b
a
Beweis. Zum Beweis obigen Lemmas setzt man
t
falls t < ∞ und St > −b
t =
∞
andernfalls
(3.35)
(3.36)
(3.37)
KAPITEL 3. UNENDLICHE STOPPPROBLEME
67
Lemma 3.13. Sei a > 0, b ∈ R und t ∈ T∞ genüge (3.35) und (3.36). Dann gilt
b
b + St
≥
E
a + t
a
(3.38)
für alle a ≥ a und b ≤ b. Für b > 0 tritt die Gleichheit in (3.38) nur für a = a und b = b
auf.
Beweis. Leitet man die rechte Seite von (3.36) nach b ab, so erhält man a1 . Die Ableitung
1
beschränkt. Somit impliziert (3.36) dieselbe Relation, wenn
der linken Seite ist durch a+1
b durch b < b ersetzt wird.
Es bleibt nun noch zu zeigen, dass dieselbe Relation gilt, wenn man a durch a > a
ersetzt. (3.36) ist äquivalent zu E(a(b + St )/(a + t )) ≥ b und aufgrund von (3.35) ist die
linke Seite wachsend in a.
Lemma 3.14. Sei a ≥ a > 0, b ≤ b, t ∈ T∞ und sei (3.34) erfüllt. Dann existiert für
jedes m = 0, 1, 2, . . . eine Stoppvariable tm ∈ T∞ , die
tm ≤ m ⇒ Stm > b − b
und
E
b + Stm
a + tm
≥
b
a
(3.39)
(3.40)
erfüllt.
Beweis. Für m = 0 ist (3.39) trivialerweise erfüllt. Nach Lemma (3.12) und Lemma (3.13)
existiert t0 = t , sodass (3.40) erfüllt ist. Sei nun die Existenz von ti für i < m nachgewiesen,
so setzt man
(m)
t0 (x1 , x2 , . . . , xm , xm+1 , xm+2 , . . .) = t0 (xm+1 , xm+2 , . . .)
und definiert
(m)
tm−1 + t0
tm =
∞
falls tm−1 = m und Sm ≤ b − b
andernfalls
(3.41)
(3.42)
Die verwendete Abkürzung in (3.41) besitzt folgende Bedeutung: Seien ω und ω aus Ω
(m)
(m)
mit Xi (ω ) = Xm+i (ω) für alle i ≥ 1, so gilt t0 (ω) = t0 (ω ). Die Funktion t0 ist keine
Stoppvariable in T∞ , da die Menge {t = i} nicht zu Fi gehören muss, jedoch zu Fm+i
gehört, und damit gilt tm ∈ T∞ . Da t0 eine feste Stoppvariable in T∞ ist, folgt nun, dass
tm ∈ T∞ und nach Definition (3.39) erfüllt ist. Weiters folgt aus (3.40) mit m = 0
b + Stm−1
b + Stm
E
≥E
m≥1
(3.43)
a + tm
a + tm−1
und somit ist (3.40) für alle m erfüllt.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
68
Lemma 3.15. Sei (3.34) für a > 0, b > 0 und t ∈ T∞ erfüllt. Dann existiert ein t∗ ∈ T∞ ,
welches den Bedingungen
1
b + St∗
b
2
E
>
(3.44)
∗
a+t
2a
und
E
1
a + t∗
<
1
2σ 2
+ 2
2a
b
(3.45)
genügt.
Beweis. Sei t∗ jenes tm , dessen Existenz nach vorangehendem Lemma gesichert ist, wobei
nun a = a, b = 2b und m = [a]. Dann ist (3.44) erfüllt und mit Hilfe von (3.39) gilt nun
b
t∗ ≤ a ⇒ max(S1 , S2 , . . . , S[a] ) > .
2
(3.46)
Damit erhält man nun mit der Ungleichung von Kolmogorov
P (t∗ ≤ a) ≤
σ 2 [a]
4σ 2 a
≤
.
(b/2)2
b2
(3.47)
Es gilt nun
E
1
a + t∗
P (t∗ ≤ a)
P (t∗ > a)
P (t∗ ≤ a) P (t∗ > a)
+
<
+
a+1
a + [a] + 1
a
2a
P (t∗ ≤ a) (3.47) 1
2σ 2
1
≤
+
+ 2
=
2a
2a
2a
b
≤
(3.48)
(3.49)
Lemma 3.16. Sei a > 0 und
√
b ≥ 5σ a.
(3.50)
Dann gilt
E
für alle t ∈ T∞ .
b + St
a+t
<
b
a
(3.51)
KAPITEL 3. UNENDLICHE STOPPPROBLEME
69
Beweis. Dieses Lemma beweist man indirekt. Man nimmt an, dass (3.51) nicht zutreffend
ist, so gilt nach (3.44) und (3.45) und Lemma (3.11) für das t∗ des vorangegangenen
Lemmas
St∗
b
b
b
1
σ2
σ
+
E
<
< E
+
+√ .
(3.52)
∗
∗
2a
2
a+t
a+t
4a
b
a
√
Somit gilt b2 − 4σ ab − 4σ 2 a < 0, folglich erhält man
√ √
√
√
b < 2σ a + 4σ 2 a + 4σ 2 a = 2(1 + 2)σ a,
(3.53)
was jedoch im Widerspruch zu (3.50) steht.
St
Dieses
√ Lemma behauptet, dass man die bedingte Erwartung von t , wenn t ≥ n und
Sn ≥ 5σ n gegeben sind, durch das Setzen von t = n maximieren kann.
Lemma 3.17. Es gilt
Sn+
E sup
n
n
< ∞,
(3.54)
wobei wie üblich Sn+ = max{0, Sn } sei.
Beweis. Zuerst setzt man s := supn
+
Sn
.
n
P (s ≥ u) ≤
Für jedes u > 0 gilt nun
∞
P
max
2i−1 ≤n<2i
i=1
≤
∞
i=1
Sn
≥u
n
P ( max i Sn ≥ 2i−1 u).
1≤n<2
(3.55)
(3.56)
Aus der Ungleichung von Kolmogorov folgt nun
P (s ≥ u) < σ
2
∞
i=1
2i
22(i−1) u2
=
4σ 2
.
u2
(3.57)
Somit gilt nun
E(s) =
0
∞
P (s ≥ u) du < ∞.
(3.58)
Um den Beweis des Satzes zu vervollständigen, benötigt man abschließend noch das
folgende Lemma.
KAPITEL 3. UNENDLICHE STOPPPROBLEME
Lemma 3.18. Sei t ∈ T und Yn eine Folge von Zufallsvariablen, die
+
E sup Yn < ∞
n
70
(3.59)
erfüllt. Sei T die Familie aller Stoppvariablen t ≤ t. Dann existiert ein τ ∈ T , sodass
E(Yτ ) = sup E(Yt )
(3.60)
t∈T
Beweis. Die Stoppzeit t ∈ T heißt regulär, falls für alle j ≥ 1 aus der Bedingung t > j
stets
E(Yt | Fj ) > Yj
folgt. Seien nun t und t und es gelte t ≤ t , dann ist auf {t = j} die Ungleichung
E(Yt | Fj ) ≥ Yj = Yt erfüllt. Somit folgt E(Yt ) ≥ E(Yt ) aus t ≤ t . Falls nun die rechte
Seite von (3.60) −∞ ist, muss nichts mehr gezeigt werden. Dementsprechend nimmt man
nun an, dass die rechte Seite den Wert M < ∞ annimmt. Dann existiert für jedes n ≥ 1
eine Stoppvariable tn ∈ T mit E(tn ) ≥ M − n1 . Sei tn die kleinste ganze Zahl i ≥ 1 für die
E(Ytn | Fi ) ≤ Yi gilt. Folglich erhält man: tn ∈ T , E(Ytn ) ≥ E(Ytn ) und tn ist regulär. Nun
setzt man tn = max(t1 , . . . , tn ). Somit gilt tn ≤ tn ≤ tn+1 und tn ∈ T ist regulär. Sei nun
τ = limn→∞ tn . Mit dem Lemma von Fatou erhält man aus (3.59) die Ungleichung
E(Yτ | Fj ) ≥ lim sup E(Ytn | Fj ).
n→∞
Aus τ > j folgt folgt tn > j für alle n, woraus man schließlich erhält, dass aus τ > j immer
E(Yτ | Fj ) > Yj
folgt. Damit ist τ nun regulär. Aus τ ≥ tn ≥ tn folgt nun
E(Yτ ) > M −
1
n
für alle n. Somit gilt nun E(Yτ ) = M .
Nun widmet man sich der Vollendung des Beweises von (3.19): Sei T ∈ T∞ wie folgt
√
definiert: Man setztt T gleich der kleinsten positiven ganzen Zahl j, für die Sj > 5σ j
gilt. Nach dem Gesetz des iterierten Logarithmus gilt T ∈ T . Sei nun t ∈ T∞ beliebig und
setzt man t = min(t, T ), so folgt aus Lemma (3.16)
St
St
≥E
E
.
t
t
KAPITEL 3. UNENDLICHE STOPPPROBLEME
71
Folglich bildet man das Supremum in (3.19) nur über die Klasse T ⊂ T aller Stoppvariablen kleiner oder gleich T . Da die Folge Yn = Snn für n ≥ 1 nach Lemma (3.17) die
Bedingung (3.59) erfüllt, kann Lemma (3.18) angewendet werden, woraus sich die Existenz
eines optimalen τ ∈ T ergibt, welches (3.19) erfüllt.
Nun ist nur noch der Beweis von (3.20) ausständig: Die Stoppvariable t ∈ T∞ wird wie
folgt definiert.
1 falls X1 > 0
t=
∞ andernfalls
Somit gilt nun
E
St
t
= E(X1+ ) > 0.
Dies ergibt nun die erste Ungleichung von (3.20). Die andere Ungleichung folgt aus (3.31)
mit a = 0.
Die Existenz einer optimalen Stoppregel wurde somit nachgewiesen. Die Angabe einer expliziten optimalen Strategie sowie die maximale erwartete Auszahlung ist für dieses
Problem jedoch noch nicht gelöst. Chow und Robbins haben in [CR65] eine Strategie beschrieben, die zu einer erwarteten Auszahlung von größer als 0.79 führt.
Man kann sich durch das Angeben folgender Stoppregel leicht davon überzeugen, dass
jedenfalls eine erwartete Auszahlung von mindestens 58 = 0.625 erreicht werden kann: Falls
X1 = 1 gilt, so soll man sofort stoppen, andernfalls beendet man das Spiel nach genau zwei
Münzwürfen. Somit erhält man
⎧
⎪1 für X1 = 1
Sn ⎨
= 0 für X1 = 0, X2 = 0
⎪
n
⎩1
für X1 = 0, X2 = 1.
2
Die erwartete Auszahlung beträgt demzufolge 1 · 12 + 0 · 14 + 12 ·
einer optimalen Strategie lässt sich wie folgt angeben:
Satz 3.19. Die Zahlen βn (n ≥ 1), die durch
βn
βn + Sτ
= sup
n
τ ∈T∞ n + τ
definiert werden, erfüllen
βn
lim sup √ ≤ c1 σ
n
n→∞
1
4
= 58 . Einzig die Struktur
KAPITEL 3. UNENDLICHE STOPPPROBLEME
72
und
βn
lim inf √ ≥ c2 σ,
n→∞
n
wobei c1 = 4.06 . . . dem Infimum für 0 < ν < 1 der positiven Wurzel c der Gleichung
c − νc2 +
ν
log(1 + (1 − ν)2 c2 ) = 0
2
(1 − ν)
entspricht und c2 = 0.32 . . . dem Supremum für ν > 0 der positiven Wurzel c der Gleichung
√
∞
2
c2
ν
c
− 2ν
− u2
√
e
c−
+√
e
du = 0.
ν − √c
(1 + ν) 2π
ν
Der Beweis zu Satz 3.19 kann in [Dvo67] nachgelesen werden.
Kapitel 4
Lösung mit Hilfe von Markov-Ketten
Nun will man das vorangegangene Problem der besten Wahl durch die Konstruktion einer
geeigneten speziellen Markov-Kette lösen. Man lernt in zufälliger Reihenfolge n Objekte
kennen und muss unter diesen Objekten ein bestes auswählen. Wenn man das nächste
Objekt kennenlernt, muss dieses entweder gewählt oder abgelehnt werden. Es ist nicht
zulässig, sich für ein zuvor abgelehntes Objekt nachträglich zu entscheiden. Zur besseren
Veranschaulichung kann man diese Objekte auch durch Punkte auf der Zahlengerade darstellen. Die n Objekte, die in bestimmter Weise geordnet sind, werden auf der Zahlengerade
von links nach rechts nach steigender Präferenz geordnet.
Man bezeichnet das im i-ten Schritt vorgestellte Objekt mit Xi . Im i-ten Schritt sind
die relativen Ränge Y1 , . . . , Yi bekannt. Nun wird obig gestellte Aufgabe hinsichtlich der
Darstellbarkeit der Objekte mit Hilfe der Zahlengerade konkretisiert: Die Aufgabe besteht
darin, unter den n Punkten den am weitesten rechts liegenden zu finden und ihn im Moment
des ersten Auftretens zu wählen. Die Wahrscheinlichkeit dieses Ereignisses soll maximiert
werden. Zuerst benötigt man folgende Definition
Definition 4.1. I1 := (−∞, X1 ), I2 := (X1 , X2 ), . . . , Ik := (Xk , ∞) bezeichnet die Intervalle auf der Zahlengerade, die durch die Objekte gegeben sind.
Die Wahrscheinlichkeit mit der Xk+1 in jedes der k + 1 Intervalle fällt, lässt sich auf
einfache Art wie folgt berechnen:
Fällt ein Xk+1 in ein bestimmtes festes Intervall, so entspricht dem eine Permutation der
k + 1 Punkte X1 , . . . , Xk+1 . Die Wahrscheinlichkeit einer derartigen Permutation beträgt
1
. Die Wahrscheinlichkeit der Permutation der Punkte X1 , . . . , Xk beträgt k!1 . Mit Hilfe
(k+1)!
dieser beiden Beobachtungen erhält man für die bedingte Wahrscheinlichkeit
P (Xk+1 ∈ Ii | Y1 , . . . , Yk ) =
für i = 1, . . . , k + 1.
73
1
(k+1)!
1
k!
=
1
.
k+1
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
74
Definition 4.2. Ein Xi heißt Kandidat, falls Yi = 1 gilt.
Laut obiger Definition wird nun der Punkt gesucht, der als letzter in der Folge der Kandidaten auftritt. Bei jedem Kandidaten steht man vor der Entscheidung, ob man stoppen
oder weitergehen soll.
Man ordnet nun die bis zum k-ten Schritt beobachteten Objekte:
Λ1 (k) < Λ2 (k) < . . . < Λk (k)
Also ist Λk (k) das beste der bisherigen k Objekte. Wenn die Anzahl der bisher beobachteten
Objekte aus dem Kontext klar wird, dann schreibt man auch Λi = Λi (k). Das folgende
Lemma soll nun bewiesen werden.
Lemma 4.3. Eine beliebige Permutation der Punkte Λk , Xk+1 , . . . , Xn ist von der Auftrittsreihenfolge der Punkte Λ1 , . . . , Λk−1 unabhängig.
Beweis. Weder die gegenseitige Lage der Punkte Λk , Xk+1 , . . . , Xn noch deren Lage bezüglich der Punkte Λ1 , . . . , Λk−1 hängt von der Auftrittsreihenfolge der Punkte Λ1 , . . . , Λk−1
ab. Es ist bereits bekannt, dass
P (Xk+1 ∈ Ii ) =
1
k+1
gilt. Diese Ereignis ist jedoch unabhängig von der Reihenfolge des Erscheinens der Punkte
1
Λ1 , . . . , Λk−1 . Folglich gilt auch, dass Xk+2 mit der Wahrscheinlichkeit k+2
in jedes der
Intervalle, die von den Punkten Λ1 , . . . , Λk und Xk+1 gebildet werden, fällt. Dieses Ereignis
ist wiederum unabhängig von der Reihenfolge des Erscheinens von Λ1 , . . . , Λk−1 . Für den
allgemeinen Fall ergibt sich nun: Die Wahrscheinlichkeit einer beliebigen Permutation der
Punkte Λ1 , . . . , Λk , Xk+1 , . . . , Xn beträgt
1
1
1
·
· ... · ,
k+1 k+2
n
was unabhängig von der Reihenfolge des Auftretens der Punkte Λ1 , . . . , Λk−1 ist.
Um eine optimale Entscheidung zu treffen, hat man also sein Augenmerk nur auf die
Indizes der Kandidaten zu richten. Diese wachsenden Indizes bezeichnet man mit x0 , x1 , . . ..
Diese xi sind nach oben durch n beschränkt und es gilt x0 = 1. Mit Hilfe der Festsetzung
der xi lässt sich dieses Problem nun wie folgt formulieren: Man muss den letzten Index
in der Folge der xi , der dem Index des am weitesten rechts liegenden Punktes entspricht,
mit maximaler Wahrscheinlichkeit erraten. Für die optimale Strategie muss man weder die
Anzahl der xi noch die Werte der vorangegangen x0 , . . . , xi−1 kennen. Hierzu fehlt jedoch
noch folgendes Wahrscheinlichkeitsgesetz dieser zufälligen Folge, das sich als Eigenschaft
einer Markov-Kette herausstellen wird.
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
75
Definition 4.4. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X ein höchstens abzählbare Zustandsraum. Eine Folge von Zufallsvariablen Zn : Ω → X mit n ≥ 0 heißt MarkovKette, wenn
P (Zn+1 = yn+1 | Zn = yn , . . . , Z0 = y0 ) = P (Zn+1 = yn+1 | Zn = yn ).
Zukunft
Gegenwart
Vergangenheit
für alle n und für alle y0 , . . . , yn+1 ∈ X mit
P (Zn = yn , . . . , Z0 = y0 ) > 0
gilt. Die Wahrscheinlichkeit pn (yn , yn+1 ) := P (Zn+1 = yn+1 | Zn = yn ) bezeichnet man als
Übergangswahrscheinlichkeit.
Bei einer Markov-Kette hängt also die Zukunft allein von der Gegenwart, jedoch nicht
von der Vergangenheit ab. Für die zufällige Folge der xi gilt nun
P (xi+1 = l| x0 = 1, x1 = a, . . . , xi = k) = P (xi+1 = l| xi = k)
genau dann, wenn X1 , Xa , . . . , Xk die Kandidaten unter X1 , . . . , Xk sind. Sei nun Xk ein
Kandidat und die relative Lage von X1 , . . . , Xk−1 sei bekannt. So bedeutet xi+1 = l, dass
Xk+1 , . . . , Xl−1 links von Xk und Xl rechts von Xk liegt. Die bedingte Wahrscheinlichkeit
eines beliebigen Ereignisses, welches von der relativen Lage der Punkte Xk , . . . , Xn abhängt,
unter der Bedingung, dass etwas über die relative Lage der Punkte X1 , . . . , Xk−1 bekannt
ist, hängt folglich nur vom Index ab. Nun wird die Übergangswahrscheinlichkeit dieser
Markov-Kette definiert.
Definition 4.5. Mit P (xi+1 = l| x0 = 1, x1 = a, . . . , xi = k) = P (xi+1 = l| xi = k) = pkl
bezeichnet man die Übergangswahrscheinlichkeit.
Als Zustandsraum {1, . . . , n} der xi wird die Menge von Punkten bezeichnet, auf denen
ein Teilchen eine Irrfahrt ausführt. Abbildung 4.1 veranschaulicht obigen Sachverhalt.
P1n
P
1k
1
P12
2
k
n
Abbildung 4.1: Darstellung der Irrfahrt auf dem Zustandsraum {1, . . . , n}
Zu Beginn befindet sich das Teilchen im Punkt 1. Die Übergangswahrscheinlichkeit von
Zustand k in den Zustand l kann als unabhängig von allen vorigen Zuständen angesehen
werden. Der Übergang des Teilchens von k nach l bedeutet, dass auf Kandidat Xk Kandidat
Xl folgt.
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
76
Definition 4.6. Die Extinktionswahrscheinlichkeit p(e) ist folgendermaßen festgelegt:
p(e) := 1 −
pkl .
l
Somit bedeutet also die Extinktion des Teilchens, dass keine weiteren Kandidaten mehr
existieren. Zur wirklichen Lösung obigen Problems muss die Übergangswahrscheinlichkeit
pkl berechnet werden: Es gilt
pkl =
P (xi = k, xi+1 = l)
P (xi = k)
für l > k und
pkl = 0
für l ≤ k. Das Ereignis xi = k, xi+1 = l bedeutet, dass unter den Punkten X1 , . . . , Xl die
Punkte Xl und Xk am weitesten rechts liegen und es gilt weiters Xl > Xk . Nun ergibt sich
1
P (xi = k, xi+1 = l) =
l(l − 1)
und
P (xi = k) =
1
.
k
Folglich erhält man nun
k
.
l(l − 1)
Da aus der Menge {1, . . . , n} insgesamt 2n Teilmengen gebildet werden können, entspricht
dies der Anzahl aller möglichen Strategien. Das Ziel besteht nun in der Auswahl einer
optimalen Strategie. qk sei die bedingte Gewinnwahrscheinlichkeit unter der Bedingung,
dass für einen Kandidaten mit Index k gestoppt wird. Somit ergibt sich nun
n
n
k
qk = 1 −
pkl = 1 −
l(l − 1)
l=k+1
l=k+1
n 1
1
k
=1−k
−
=
l
l−1
n
k=l+1
pkl =
für 1 ≤ k ≤ n. Weiters sei qk die bedingte Gewinnwahrscheinlichkeit unter der Bedingung,
dass man bei einem Kandidaten mit Index k weitergeht und erst beim nächsten stoppt.
Daraus ergibt sich
n
n
l
k
qk =
pkl ql =
·
l(l − 1) n
l=k+1
l=k+1
k 1
1
1
(4.1)
=
+
+ ... +
n k k+1
n−1
1
1
1
+
+ ... +
= qk
k k+1
n−1
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
für k < n und
77
qn = 0.
Da obige Summe
1
1
+ ... +
k
n−1
q
monoton fallend für wachsendes k ist, folgt daraus unmittelbar, dass qkk monoton fallend
ist. Dieses Resultat führt zu der Tatsache, dass eine kleinste natürliche Zahl kn existiert,
sodass qk ≤ qk für k = kn , . . . , n gilt. Es soll nun gezeigt werden, dass Γ = {kn , . . . , n}
eine optimale Strategie darstellt. Dies bedeutet, dass man wartet solange xi < kn gilt und
stoppt, wenn zum ersten Mal xi ≥ kn erfüllt ist. Man trifft nun die Annahme, dass n ≥ 3
gilt. Auf die beiden anderen Fällen n = 1, 2 sind nämlich die folgenden Überlegungen nicht
anwendbar, da jeweils kn = 1 gilt. Aus
1
1
q1 = q1 1 + + . . . +
> q1
2
n−1
folgt kn > 1 im Fall n ≥ 3. Folglich sind alle Strategien, die im Punkt x0 = 1 stoppen, nicht
als optimal zu werten. Nun betrachten wir also nur noch jene Strategien, die beim 1. Index
nicht stoppen: Für 2 ≤ k ≤ n gilt p1k > 0. Es wird also bei der Anwendung einer Strategie
A mit einer positiver Wahrscheinlichkeit pk (A) bis zu einem beliebigen Index k gewartet.
Angenommen, eine Strategie A stoppt bei einem Index k < kn . Dann definiert man eine
neue Strategie A wie folgt: Falls der aktuelle Kandidat den index k besitzt und A damit
ein Stoppen fordert, so stoppt A erst beim nächsten Kandidaten. Andernfalls schreibt A
dasselbe Verhalten wie A vor. Diese Strategie wäre aber jedenfalls besser als A, denn es
gilt:
P (Gewinnen mit A ) = pk (A)(qk − qk ) + P (Gewinnen mit A).
Das Stoppen bei den Indizes 1, . . . , kn − 1 kann für eine optimale Strategie also jedenfalls ausgeschlossen werden. Mit Hilfe der Rückwärtsinduktion soll gezeigt werden, dass
folgendes Lemma gilt.
Lemma 4.7. Die optimale Strategie Γ fordert ein sofortiges Stoppen in den Punkten der
Menge {kn , . . . , n}, falls n ≥ 3.
Beweis. Angenommen, die optimale Strategie Γ lehnt den Index n ab. Dann definiert man
die Strategie Γ wie folgt: Die Strategie Γ verhält sich wie Γ, nur dass zusätzlich ein Stoppen
für einen Kandidaten mit Index n gefordert wird. Diese Strategie ist jedenfalls besser als
Γ, denn es gilt
P (Gewinnen mit Γ ) = pn (Γ) + P (Gewinnen mit Γ).
Dies steht jedoch im Widerspruch zur Optimalität von Γ. Somit ist der Fall k = n bewiesen.
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
78
Sei nun die Induktionsvoraussetzung für k + 1, k + 2, . . . , n mit k ≥ kn + 1 bewiesen.
Angenommen, Γ lehnt den Index k ab. Die Strategie Γ , die ein Stoppen für einen Kandidaten mit Index k fordert und sonst mit Γ übereinstimmt, wäre in jedem Fall besser als
die Strategie Γ, die k ablehnt, denn es gilt: Ist das Objekt mit Index k ein Kandidat, so
wird in Γ sofort gestoppt, in Γ wird aber erst beim nächsten Kandidaten gestoppt. Daraus
folgt
P (Gewinnen mit Γ ) = pk (Γ)(qk − qk ) + P (Gewinnen mit Γ).
Also fordert Γ ein Stoppen für einen Kandidaten mit Index k. Es ist nun gezeigt worden,
dass die optimale Strategie Γ ein Stoppen in 1, . . . , kn − 1 verbietet und in kn + 1, . . . , n
fordert. Gilt qk n < qkn , so lässt sich die Induktion bis k = kn fortsetzen. Die Strategie Γ
schreibt also auch im Punkt kn ein Stoppen vor. Falls qk n = qkn gilt, so ist man im Punkt
kn indifferent zwischen Stoppen und Weitergehen. In diesem Fall soll kn ∈ Γ gelten.
qk
Man beschäftigt sich nun mit der Frage, wann diese Gleichheit auftreten kann: Wenn
= qk für einen Index k gilt, so folgt
1=
1
1
1
+
+ ... +
k k+1
n−1
mit Hilfe von (4.1). Diese Gleichung hat aber nur die Lösung n = 2 und k = 1.
Das optimale Auswahlverfahren sieht nun folgendermaßen aus: Lasse die ersten kn − 1
Objekte passieren und wähle anschließend das erste Objekt, das größer als alle vorhergehenden ist, wobei kn die kleinste natürliche Zahl ist, für die qk n ≤ qkn gilt. Die Zahl kn
wird somit durch folgende Ungleichung festgelegt:
1
1
1
1
1
+ ... +
+ ... +
≤1<
+
kn
n−1
kn − 1 kn
n−1
(4.2)
Nun soll die Gewinnwahrscheinlichkeit mittels obiger Strategie berechnet werden. Dazu
definiert man
Definition 4.8. Sei sm die Wahrscheinlichkeit, dass das erste Objekt nach den abgelehnten
kn − 1 Objekten, welches besser als alle vorangehenden ist, den Index m besitzt.
Dieses Ereignis bedeutet, dass unter den Punkten X1 , . . . , Xm der am weitesten rechts
liegende Xm und der nächstfolgende ein beliebiger unter den Punkten X1 , . . . , Xkn −1 ist.
Die Wahrscheinlichkeit eines solchen Ereignisses beträgt
Sm =
1 kn − 1
kn − 1
=
.
mm−1
m(m − 1)
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
k
9
8
7
6
5
4
3
2
1
1
k
79
1
+ . . . + n−1
0.111
0.125
0.143
0.167
0.200
0.996
1.329
1.829
2.829
Tabelle 4.1: Berechnung der Summe für n = 10
Die Gewinnwahrscheinlichkeit ergibt sich zu
n
n
m
kn − 1
·
m(m − 1) n
m=kn
m=kn
n
1
kn − 1 1
kn − 1
1
1
=
+ ... +
=
+
.
n m=k m − 1
n
kn − 1 kn
n−1
pn =
sm qm =
(4.3)
n
Zur besseren Veranschaulichung ist in Tabelle 4.1 die Summe für n = 10 berechnet:
Aus
9
1
> 1 und
m
m=3
9
1
≤1
m
m=4
folgt kn = 4. Die ersten drei Objekte werden also abgelehnt und dann wird das erste mit
relativem Rang 1 gewählt.
Es ist relativ einfach, gute Approximationen von kn und pn für große n zu finden. Für
beliebige m ≥ 2 gilt
m
m+1
1
1
1
dx <
<
dx = log m − log (m − 1)
log (m + 1) − log (m) =
x
m
m
m−1 x
woraus
log
n
1
1
1
n−1
< +
+ ... +
< log
k
k k+1
n−1
k−1
durch Summation folgt. Mit (4.2) erhält man aus obigen Ungleichungen
log
n
n−1
< 1 < log
kn
kn − 2
KAPITEL 4. LÖSUNG MIT HILFE VON MARKOV-KETTEN
80
und somit
n
1
n
< kn < + 2 −
.
e
e
e
Da in ein Intervall der Länge 2 − 1e ≈ 1.632 nicht mehr als zwei ganze Zahlen fallen können,
ist es möglich die Zahl kn für ein beliebiges n mit einem Fehler zu bestimmen, der nicht
größer als 1 ist. Aus (4.2) folgt nun
1
1
1
lim
+ ... +
+
=1
n→∞
kn − 1 kn
n−1
Mit (4.3) gelangt man so zu
1
kn − 1
= ≈ 0.368.
n→∞
n
e
lim pn = lim
n→∞
Erstaunlicherweise liefert bereits eine einfache Strategie eine Gewinnwahrscheinlichkeit
von mehr als 14 . Sei nun n gerade. Man wartet n2 Objekte ab und wählt in weiterer Folge
das erste auftretende Objekt mit relativem Rang 1. Bei dieser Strategie erhält man das
beste Objekt beispielsweise dann, wenn das zweitbeste Objekt in der ersten und das beste
Objekt in der zweiten Hälfte auftritt. Für die Gewinnwahrscheinlichkeit gilt nun
P (Xi = 1 mit i ∈ A, Xl = 2 mit l ∈ B) =
= P (Xi = 1 mit i ∈ A | Xl = 2 mit l ∈ B) · P (Xl = 2 mit l ∈ B) =
n
n
1 n
1
= 2 · 2 =
> ,
n−1 n
4n−1
4
wobei
A :=
sei.
$n
2
+ 1,
%
n
+ 2, . . . , n
2
und
$
n%
B := 1, 2, . . . ,
2
Kapitel 5
Optimales Stoppen von
Markov-Ketten
Im vorigen Abschnitt wurde das Problem der besten Wahl gelöst, indem man eine geeignete spezielle Markov-Kette konstruierte. Im Folgenden untersucht man nun das allgemeine
Problem des optimalen Stoppens einer beliebigen Markov-Kette. In jedem Zeitpunkt befindet sich ein gewisses Teilchen in einem bestimmten Zustand. Die Gesamtheit aller Zustände
bildet eine endliche oder abzählbare Menge A, die man als Zustandsraum bezeichnet. Die
Übergangswahrscheinlichkeiten pxy können beliebige nichtnegative Zahlen sein, welche
pxy ≤ 1
y
für alle x ∈ A erfüllen. Gilt y pxy < 1 für einen gewissen Zustand x, so ist q(x) = 1 −
y pxy die Extinktionswahrscheinlichkeit des in x befindlichen Teilchens für den nächsten
Schritt dar. Ein vernichtetes Teilchen kann nicht neu gebildet werden, sodass die Kette in
diesem Fall für immer abbricht.
Mit xn bezeichnet man die Lage des Teilchens zum Zeitpunkt n. Man nimmt nun an,
dass man die Trajektorie x0 , x1 , . . . , xn beobachtet und die Bewegung des Teilchens zu
einem beliebigen Zeitpunkt n stoppen kann. Falls sich das Teilchen zum Zeitpunkt des
Stoppens im Punkt x befindet, so erhält man die Auszahlung f (x), wobei f eine bekannte
Funktion ist. Falls der Prozess nicht gestoppt wird, so beträgt die Auszahlung 0. Es stellt
sich das Problem, wie man eine größtmögliche Auszahlung erzielen kann. Ex bezeichne
nun den gewöhnlichen Erwartungswert, wenn sich das Teilchen am Anfang im Punkt x
befindet. In diesem Kapitel werden wir Stoppzeiten als Markov-Zeiten“ bezeichnen.
”
Somit kann man obiges Problem folgendermaßen formulieren: Auf einer endlichen oder
abzählbaren Menge A sind eine Markov-Kette mit den Übergangswahrscheinlichkeiten pxy
und eine beschränkte Funktion f gegeben. Man muss nun
1. v(x) = supτ Ex (f (xτ )) berechnen, wobei τ alle Markov-Zeiten durchläuft und
81
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
82
2. eine Markov-Zeit τ0 finden, für welche Ex (f (x(τ0 ))) = v(x) gilt.
Man bezeichnet nun v(x) als den Wert des Spiels und die Markov-Zeit τ0 als optimale
Strategie. Zur besseren Veranschaulichung wendet man sich nun einigen Beispielen und
Spezialfällen zu:
Falls f ≤ 0 auf dem gesamten Zustandsraum A gilt, so besitzt das Problem eine triviale Lösung: Ersichtlich kann man als optimale Strategie τ0 = ∞ wählen, das heißt der
Prozess wird niemals gestoppt; es gilt also v(x) = 0. Im Folgenden schließt man diesen
uninteressanten Fall aus und setzt voraus, dass supx f (x) > 0 gilt.
Weiters betrachtet man die einfache Irrfahrt auf dem eindimensionalen Punktgitter.
Da das Teilchen mit Wahrscheinlichkeit 1 früher oder später in einen beliebigen Zustand x
gelangt, gilt v(x) = c, wobei c := supx f (x) gesetzt wurde, da man so lange warten kann, bis
das Teilchen in einen Punkt gelangt, in welchem die Funktion f einen hinreichend nahe bei
c liegenden Wert annimmt. Falls f den Wert c auf einer Teilmenge A des Gitters annimmt,
so stellt der Augenblick des ersten Eintritts in die Menge A eine optimale Strategie dar.
Falls f nirgends den Wert c annimmt, so existiert keine optimale Strategie; jedoch kann
man eine Auszahlung erzielen, die sich beliebig wenig von c unterscheidet.
Nun betrachtet man eine einfache Irrfahrt auf der Menge {0, . . . , 12} mit Absorption
in den Endpunkten.
y
v(x)
f(x)
0
x
1 2 3 4 5 6 7 8 9 10 11 12
Abbildung 5.1: Eindimensionale Irrfahrt
Es gilt nun
p0, 0 = p12, 12 = 1 und px, x+1 = px, x−1 =
1
2
für 0 < x < n.
Die Punkte 0 und 12 wirken folglich absorbierend auf das Teilchen. Da es unmöglich ist,
die Punkte 0 und 12 zu verlassen, gilt v(0) = f (0) = 0, v(12) = f (12) = 0, wobei die
Funktion f wie in Abbildung 5.1 definiert ist. In diesen Punkten ist es nicht notwendig
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
83
zu warten, man kann dort sofort stoppen. Auf ähnliche Weise führt man sich vor Augen,
dass man im Punkt 9 sofort stoppen kann: In diesem Zustand nimmt die Funktion f (x) ihr
globales Maximum an. Lässt man den Prozess weiterlaufen, so kann sich die Auszahlung
nur verringern. Dies bedeutet, dass v(9) = f (9) gilt. Umgekehrt ist es unvorteilhaft, im
Punkt 5 zu stoppen, da f (x) dort ein lokales Minimum annimmt: Schon nach einem Schritt
kann man zu einer Auszahlung gelangen, die höher als f (5) ist. Demnach gilt v(5) > f (5).
Wie verhält es sich nun mit den restlichen Zuständen? Im Punkt 3 besitzt die Funktion
f (x) ein lokales Maximum. Wartet man noch ein oder zwei Schritte, so verringert sich
die mittlere Auszahlung. Wartet man länger, so kann man hoffen, dass der Prozess in
den Bereich des anderen, größeren Maximums fällt, in welchem die Auszahlung bedeutend
größer als f (3) ist. Es besteht jedoch die Gefahr, dass man in den Zustand 0 gelangt und
folglich keine Auszahlung erhält.
Wie man später sehen wird, ist in diesem Beispiel der Wert v(x) des Spiels die kleinste
unter denjenigen konkaven Funktionen, welche größer oder gleich f (x) ist. Um den Graphen
der Funktion v(x) zu erhalten, hat man oberhalb des Graphen der Funktion f (x) einen
Faden zu spannen, der in Abbildung 5.1 durch die punktierte Linie dargestellt wird. Als
optimale Strategie erweist sich das Stoppen der Kette zum Zeitpunkt τ0 , wenn das Teilchen
zum ersten Mal in einen Punkt x gelangt, für welchen f (x) = v(x) gilt.
Im Folgenden wird bewiesen, dass das Problem im allgemeinen Fall der Kette mit
endlich vielen Zuständen eine analoge Lösung besitzt. Dabei spielt die Klasse der mit
einer gegebenen Markov-Kette verknüpften exzessiven Funktionen die Rolle der konkaven
Funktionen. In folgenden Abschnitt wird die in diesem Zusammenhang wichtige Bedeutung
von exzessiven Funktionen verdeutlicht.
5.1
Exzessive Funktionen
Zu Beginn untersucht man nur jene Auszahlungsfunktionen f , für welche eine optimale
Strategie im sofortigen Stoppen besteht. Folglich muss für solche Funktionen f bei beliebiger Markov-Zeit τ die folgende Ungleichung für alle x ∈ A erfüllt sein:
f (x) ≥ Ex (f (xτ ))
(5.1)
Da man es im Allgemeinen mit unendlichen vielen Markov-Zeiten zu tun hat, wäre es sehr
mühsam, obige Ungleichung für jede Markov-Zeit τ nachzuprüfen. Es wird jedoch genügen,
(5.1) für τ = ∞ und τ = 1 nachzuprüfen. Ist (5.1) in diesen beiden Fällen erfüllt, so gilt
(5.1) auch für alle übrigen Markov-Zeiten.
Für τ = ∞ folgt nun aus (5.1)
f (x) ≥ 0
(5.2)
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
84
für alle x ∈ A. Für τ = 1 gilt demnach mit (5.1)
f (x) ≥ P f (x),
(5.3)
wobei P den Übergangsoperator bezeichnet, der durch
pxy f (y)
P f (x) =
y∈A
definiert ist.
Definition 5.1. Eine nichtnegative Funktion f , für die P f ≤ f gilt, heißt exzessiv.
Man will nun zeigen, dass die Ungleichung (5.1) für eine beliebige Markov-Zeit τ gilt,
falls f exzessiv ist. Im Falle einer beschränkten exzessiven Funktion folgt die Gültigkeit
von (5.1) einfach aus Satz 6.2 im Kapitel 6. Nachfolgend wird jedoch ein direkter Beweis
durch Potentiale angeführt, der die typische Methodik der Theorie der Markov-Prozesse
illustriert. Hierzu stellt man nun die exzessive Funktion f als Summe einer nichtnegativen
Konstanten, für die (5.1) sicher erfüllt ist, und des Potentials
Gϕ(x) = ϕ(x) + P ϕ(x) + P 2 ϕ(x) + . . .
= Ex (ϕ(x0 ) + ϕ(x1 ) + . . .)
(5.4)
der nichtnegativen Funktion ϕ = f − P f dar. Für das Potential ergibt sich die Ungleichung
(5.1) aus der Beziehung
Ex (Gϕ(xτ )) = Ex (ϕ(xτ ) + ϕ(xτ +1 ) + . . .),
(5.5)
in welcher die rechte Seite höchstens gleich der rechten Seite von (5.4) ist. Im Falle einer
beliebigen Markov-Kette kann die Reihe (5.4) divergieren. Dieses unerwünschte Verhalten
beseitigt man durch die Einführung eines konvergenzerzeugenden Koeffizienten α < 1, den
man später gegen 1 streben lässt. Setzt man nun
ϕ(x) = f (x) − αP f (x) 0 < α < 1,
so erhält man
f = ϕ + αP ϕ + α2 P 2 ϕ + . . . + αn P n ϕ + αn+1 P n+1 f,
wobei wegen (5.3) auf Grund der Definition ϕ ≥ 0 gilt. Weiters gilt
pnxy ϕ(y) = Ex (ϕ(xn ))
P n ϕ(x) =
(5.6)
y
für alle n ≥ 0. Die Gleichung (5.6) prüft man nun mittels vollständiger Induktion nach:
Für n = 0 führt diese Formel zu ϕ(x) = ϕ(x). Es gilt nun
=
pxz pnzy ,
pn+1
xy
z
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
85
wobei pnxy die Übergangswahrscheinlichkeit von x nach y in n Schritten bezeichnet. Sei nun
(5.6) für n bewiesen, so folgt
pn+1
pxz
pnzy ϕ(y)
Ex (ϕ(xn+1 )) =
xy ϕ(y) =
y
=
z
y
pxz (P n ϕ(z)) = P n+1 ϕ(x).
z
Beachtet man, dass αn P n f → 0 für n → ∞ aus 0 ≤ P n f = P n−1 (P f ) ≤ P n−1 f folgt, so
erhält man mit Hilfe von (5.6) für f folgende Reihendarstellung
f (x) = ϕ(x) + αP ϕ(x) + α2 P 2 ϕ + . . .
= Ex (ϕ(x0 ) + αϕ(x1 ) + α2 ϕ(x2 ) + . . .).
(5.7)
Ebenso, wie sich (5.5) aus (5.4) ergibt, folgt nun mittels (5.7)
Ex (ατ f (xτ )) = Ex (ατ ϕ(xτ ) + ατ +1 ϕ(xτ +1 ) + . . .).
(5.8)
Der Vergleich von (5.7) und (5.8) führt zu
f (x) ≥ Ex (ατ f (xτ )).
Um hieraus (5.1) zu erhalten, lässt man nun α gegen 1 streben.
Auf ähnliche Art beweist man folgende allgemeine Eigenschaft von exzessiven Funktionen.
Satz 5.2. Ist f exzessiv und sind τ, τ Markov-Zeiten mit τ ≥ τ , so gilt
Ex (f (xτ )) ≥ Ex (f (xτ ))
(5.9)
für alle x ∈ A.
Beweis. Da τ ≤ τ gilt, wird die Reihe in (5.8) für τ die Glieder der Reihe in (5.8) für
τ enthalten, möglicherweise jedoch noch weitere positive Summanden. Folglich ergibt sich
für 0 < α < 1
Ex (ατ f (xτ )) ≥ Ex (ατ f (xτ )).
Für α → 1 folgt nun (5.9).
Aus obigem Satz erhält man nun folgendes Korollar.
Korollar 5.3. Ist f exzessiv und bezeichnet τ den Augenblick des ersten Eintritts in eine
gewisse Teilmenge A , so ist die Funktion
h(x) = Ex (f (xτ ))
ebenfalls exzessiv.
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
86
Beweis. Hierzu bezeichnet man mit τ den ersten unter den Zeitpunkten t ≥ 1, zu denen
sich das Teilchen in der Menge A befindet. Aus τ ≥ τ folgt nun
Ex (f (xτ )) ≤ Ex (f (xτ )) = h(x).
Gelangt aber das Teilchen beim ersten Schritt von x nach y, so wird dabei Ex (f (xτ )) gleich
Ey (f (xτ )) = h(y). Somit gilt folglich
pxy h(y) = P h(x),
Ex (f (xτ )) =
y∈A
also P h ≤ h.
5.2
Der Wert des Spiels
Folgendes Lemma gibt über den Zusammenhang zwischen exzessiven Funktionen und dem
Wert des Spiels Auskunft.
Lemma 5.4. Majorisiert eine exzessive Funktion g die Auszahlungsfunktion f , so majorisiert sie auch den Wert v des Spiels.
Beweis. Gilt nämlich g ≥ f und ist g exzessiv, so folgt für eine beliebige Strategie τ
Ex (f (xτ )) ≤ Ex (g(xτ )) ≤ g(x)
und somit
v(x) = sup Ex (f (xτ )) ≤ g(x)
τ
Lemma 5.5. Der Wert v(x) des Spiels ist exzessiv.
Beweis. Die Funktion v ist nichtnegativ, da man die Auszahlung 0 stets durch Wahl der
Strategie τ = ∞ erreichen kann. Es muss nur noch die Beziehung P v ≤ v nachgeprüft
werden. Dazu konstruiert man eine Strategie τ , die zu einer beliebig nahe bei P v(x) gelegenen mittleren Auszahlung Ex (f (xτ )) führt. Anschließend verwendet man die Ungleichung
Ex (f (xτ )) ≤ v(x).
Für ein gegebenes > 0 und ein y ∈ A bezeichne τ,y eine Strategie, für welche
Ey (f (xτ,y )) ≥ v(x) − KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
87
gilt. Die Strategie τ bestehe darin, zunächst einen Schritt abzuwarten und anschließend im
Fall, dass dieser Schritt das Teilchen in den Zustand y überführt, die Strategie τ,y anzuwenden. Dies kann wie folgt präzisiert werden: Gilt x1 = y, so sei τ = 1+τ,y gesetzt, wobei
τ,y zur Trajektorie x1 , x2 , . . . gehöre, die nicht zum Zeitpunkt 0, sondern zum Zeitpunkt 1
beginnt. Für diese Markov-Zeit τ gilt nun
pxy Ey (f (xτ,y )) ≥
pxy (v(y) − )
Ex (f (xτ )) =
y∈A
= P v(x) − y∈A
pxy ≥ P v(x) − y∈A
Folglich gilt v(x) ≥ P v(x) − für > 0. Daraus ergibt sich P v(x) ≤ v(x), und v ist
exzessiv.
Aus beiden obigen Lemmata erhält man nun folgende Aussage: Der Wert v des Spiels
ist die kleinste aller exzessiven Funktionen, die mindestens gleich der Auszahlungsfunktion
f sind.
Das gewonnene Resultat erlaubt es, im Fall endlich vieler Zustände den Wert des Spiels
mit Hilfe von Methoden der linearen Programmierung zu finden. In der Tat ist der Wert
v(x) des Spiels die kleinste Funktion, die das System der 3n linearen Ungleichungen
pxy v(y),
v(x) ≥ f (x),
v(x) ≥ 0
v(x) ≥
y∈A
für x ∈ A erfüllt, wobei n der Anzahl der Zustände der Markov-Kette entspricht.
5.3
Die optimale Strategie
Man bezeichne nun die Menge aller Zustände x, in denen die Auszahlungsfunktion f (x) mit
ihrer exzessiven Majorante v(x) übereinstimmt, mit Γ. Diese Menge nennt man Stützmenge.
Das Teilchen starte im Punkt x der Stützmenge. Sofortiges Stoppen in diesem Punkt liefert
die Auszahlung v(x). Keine andere Strategie führt zu einer höheren Auszahlung. Ein Stoppen in dem außerhalb der Stützmenge gelegenen Punkt x liefert eine Auszahlung f (x) mit
f (x) < v(x). Wenn von vornherein bekannt wäre, dass eine optimale Strategie existiert
und dass das Stoppen oder Weitergehen bei dieser Strategie nur von der gegenwärtigen
Lage des Teilchens abhängt, so dürfte man schließen, dass eine optimale Strategie durch
den Zeitpunkt τ des ersten Eintritts des Teilchens in die Menge Γ gegeben ist.
Wie man mit Hilfe von Abbildung 5.2 erkennen kann, trifft diese Beobachtung nicht
immer zu. Betrachtet man die Markov-Kette mit den Zuständen 1, 2, . . . , n, . . ., bei der das
Teilchen vom Punkt n mit Wahrscheinlichkeit n12 zum Punkt 1 und mit Wahrscheinlichkeit
n2 −1
zum Punkt n + 1 gelangt. Außerdem sei p1, 1 = 1. Gilt nun weiters f (n) = 1 − n1 für
n2
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
88
v
1
f
n2-1
____
n2
2
n
3
n+1
1
___
1
n
2
Abbildung 5.2: Graphische Veranschaulichung eines Gegenbeispiels
n > 1 und f (1) = 1, so kann man hier stets eine Auszahlung erreichen, die zwar beliebig
nahe bei 1 liegt, jedoch den Wert 1 nicht überschreitet. Die Stützmenge besteht in diesem
Beispiel nur aus dem Punkt 1. Da f (1) = 1 gilt, ist für den Zeitpunkt τ des ersten Eintritts
in die Menge Γ die mittlere Auszahlung En (f (xτ )) gleich der Wahrscheinlichkeit π(n),
von n aus irgendwann nach 1 zu gelangen. Die Wahrscheinlichkeit des komplementären
Ereignisses, welches darin besteht, dass das Teilchen unbegrenzt weit nach rechts gelangt,
beträgt
∞
k2 − 1
.
k2
k=n
(5.10)
m
m
(n − 1)(m + 1)
k 2 − 1 (k − 1)(k + 1)
=
=
2
k
k·k
n·m
k=n
k=n
(5.11)
Aufgrund von
konvergiert das unendliche Produkt (5.10) und hat den Wert n−1
. Demnach gilt π(n) = n1 ,
n
wogegen v(n) = 1 beträgt. Bei diesem dargestellten Beispiel trifft die getroffene Behauptung nicht zu, da der Zustandsraum unendlich ist. Im Falle eines endlichen Zustandsraumes
gilt nun folgender Satz.
Satz 5.6. Ist der Zustandsraum endlich, so stellt der Zeitpunkt τ0 des ersten Eintritts in
die Stützmenge eine optimale Strategie dar.
Beweis. Man betrachtet die mittlere Auszahlung
h(x) := Ex (f (xτ0 )),
(5.12)
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
89
die der Strategie τ0 entspricht. Man muss nun zeigen, dass h = v gilt. Aus der Definition
des Wertes des Spiels folgt h ≤ v. Da xτ0 ∈ Γ gilt und auf der Menge Γ die Funktionen f
und v übereinstimmen, kann man in (5.12) die Funktion f durch die exzessive Funktion
v ersetzen. Daraus schließt man, dass h ebenfalls exzessiv ist. Da v die kleinste unter den
exzessiven Majoranten von f ist, genügt es zu zeigen, dass h ≥ f gilt. In den Punkten
der Stützmenge Γ gilt h(x) = f (x), da in diesen Punkten die Strategie τ0 ein sofortiges
Stoppen vorschreibt. Man nimmt nun an, dass h(x) < f (x) für einen Punkt x außerhalb
von Γ gilt. Weiters sei a ∈ X so, dass
f (a) − h(a) = max(f (x) − h(x))
x
gilt. Daraus folgt a ∈ Γ. Nun definiert man
h1 (x) := h(x) + (f (a) − h(a)).
Dementsprechend gilt nun
h1 (x) ≥ h(x) + (f (x) − h(x)) = f (x).
h1 (x) ist als Summe der exzessiven Funktionen h(x) und der positiven Konstanten f (a) −
h(a) ebenfalls exzessiv. Folglich bildet h1 (x) eine Majorante von f (x) und es gilt h1 (x) ≥
v(x). Weiters gilt h1 (a) = f (a) ≥ v(a), woraus f (a) = v(a) folgt. Folglich gilt nun a ∈ Γ,
was jedoch im Widerspruch zur Wahl von a steht. Somit ist die Ungleichung h(x) < f (x)
unmöglich. Damit ist die Strategie τ0 optimal.
Nun betrachtet man den allgemeineren Fall der Markov-Kette mit abzählbarem Zustandsraum. Hier kann sich, wie obiges Beispiel verdeutlicht hat, das Stoppen zum Zeitpunkt des ersten Eintritts in die Menge Γ als äußerst ungünstige Strategie erweisen.
Nimmt man jedoch statt der Menge Γ = {x : f (x) = v(x)} die -Stützmenge Γ =
{x : v(x) − f (x) ≤ } und betrachtet den Zeitpunkt τ des ersten Eintritts in die Menge
Γ , so lässt sich zeigen, dass für beliebiges > 0
Ex (f (xτ )) ≥ v(x) − (5.13)
gilt. Der Beweis von (5.13) folgt dem gleichen Schema wie im Fall des endlichen Zustandsraumes.
5.4
Anwendungen
Als erstes Anwendungsbeispiel betrachtet man die Irrfahrt mit Absorption auf der Menge
{0, . . . , a}, die durch
p0, 0 = pa, a = 1 und px, x+1 = px, x−1 =
1
2
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
90
für x = 1, . . . , a − 1 definiert ist. Falls das Teilchen also zu den Endpunkten 0 oder a
gelangt, so wird es dort absorbiert.
Um die Lösung dieses Problems zu erhalten, will man sich davon überzeugen, dass als
exzessive Funktionen die nichtnegativen, konkaven Funktionen auftreten. Die Bedingung
P f ≤ f führt im vorliegenden Fall für x = 1, 2, . . . , a − 1 auf die Beziehung
f (x − 1) + f (x + 1)
≤ f (x).
2
(5.14)
sowie auf die trivialen Ungleichungen
f (0) ≤ f (0)
und
f (a) ≤ f (a).
Obige Ungleichungen können nun wie folgt graphisch interpretiert werden: Verbindet man
benachbarte Punkte des Graphen der Funktion f (x) durch Strecken, so liegt die zu einem inneren Punkt gehörende Ecke des erhaltenen Polygons nicht unterhalb der Sehne,
welche die zu den Punkten x − 1 und x + 1 gehörigen Ecken verbindet. Abbildung 5.3
veranschaulicht obig dargestellten Sachverhalt.
f(x)
f(x-1)
f(x+1)
f(x-1)+f(x+1)
____________
2
x-1
x
x+1
Abbildung 5.3: Darstellung einer konkaven Funktion f
Falls f selbst konkav ist, so gilt natürlich v = f , dementsprechend sollte man sofort
stoppen, da die Stützmenge in diesem Fall der gesamten Menge entspricht. Falls f konvex
ist, so entspricht v der geraden Linie zwischen (0, f (0)) und (a, f (a)), d.h. die Stützmenge
ist die Menge {0, a}. Infolgedessen muss man hierbei warten bis man 0 oder a erreicht.
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
91
Nun betrachten wir als zweites Anwendungsbeispiel das Problem der besten Wahl.
Dieses Problem führt auf das Problem des optimalen Stoppens der Markov-Kette mit den
Zuständen 1, 2, . . . , n, den Übergangswahrscheinlichkeiten
k
für l > k
pkl = l(l−1)
0
für l ≤ k
und der Auszahlungsfunktion f (k) = nk . Man will nun die exzessive Majorante v(k) der
Auszahlungsfunktion f (k) und die Stützmenge Γ = {k : f (k) = v(k)} bestimmen. Nach
Definition ist v die kleinste Funktion, die die Ungleichungen v ≥ f , v ≥ P v und v ≥ 0
erfüllt. Für obiges Problem bedeutet dies nun, dass die Ungleichungen
v(k) ≥
v(k) ≥
k
n
n
k
v(l)
l(l
−
1)
l=k+1
für k = 1, 2, . . . , n erfüllt sein müssen. Kennt man v(l) für l > k, so ergibt sich demnach
n
k
v(l)
v(k) = max
,k ·
.
(5.15)
n
l(l
−
1)
l=k+1
Somit kann man mit Hilfe von (5.15) eine Rekursionsformel entwickeln:
$n%
v(n) = max
= 1 = f (n)
n
n−1
1
n−1 1
v(n − 1) = max
, (n − 1)
= max
,
n
n(n − 1)
n n
n−1
= f (n − 1)
=
n
..
.
k k 1
1
1
k
v(k) = max
,
+
+ ... +
= = f (k)
n n k k+1
n−1
n
Dies gilt, solange die Ungleichung
1
1
1
+
+ ... +
≤1
k k+1
n−1
(5.16)
erfüllt ist.
1
Sobald mit abnehmendem k die Summe k1 + . . . + n−1
größer als 1 wird, erweist sich
k
v(k) als echt größer als n = f (k). Verkleinert man k noch weiter, so bleibt die Summe
KAPITEL 5. OPTIMALES STOPPEN VON MARKOV-KETTEN
1
k
+ ... +
1
n−1
92
größer als 1. Folglich gilt in diesen Punkten
f (l)
v(l)
≥k·
l(l − 1)
l(l − 1)
l=k+1
l=k+1
k 1
1
1
k
=
+
+ ... +
> = f (k).
n k k+1
n−1
n
v(k) ≥ k ·
n
Dies bedeutet, dass die Stützmenge Γ die Form {kn , kn + 1, . . . , n} aufweist, wobei kn die
kleinste natürliche Zahl darstellt, welche die Ungleichung (5.16) erfüllt.
Für k ≥ kn beträgt der Wert des Spiels v(k) = f (k) =
sich aus der Beziehung
v(k) = k ·
n
v(l)
.
l(l − 1)
l=k+1
k
n
und für k < kn berechnet er
Kapitel 6
Optimales Stoppen durch
Martingal-Methoden
Martingale und das damit in Verbindung stehende Konzept der Sub- und Supermartingale
stellen ein wichtiges Hilfsmittel dar, um die rund um die Thematik des optimalen Stoppens
auftretenden Aufgabenstellungen, auf eine effiziente Art und Weise zu lösen.
Sei nun im Folgenden X1 , X2 , . . . eine Folge von Beobachtungen mit bekannter gemeinsamer Verteilung. Diese Beobachtungen müssen im Allgemeinen weder unabhängig noch
identisch verteilt sein. Mit S n bezeichnet man den Stichprobenraum der ersten n Beobachtungen X1 , . . . , Xn für n ≥ 1. Weiters bezeichnet man mit Fn (x1 , . . . , xn ) die gemeinsame
Verteilungsfunktion von X1 , . . . , Xn ausgewertet an (x1 , . . . , xn ) ∈ S n . Jede Teilmenge
A ⊆ S n kann mittels der Abbildung A → A × S r−n als Teilmenge des S r für r > n aufgefasst werden. Für n ≥ 1 sei Yn := yn (X1 , . . . , Xn ) eine Zufallsvariable, deren Wert von den
ersten n Beobachtungen X1 , . . . , Xn abhängt. Falls man nun nach den ersten n Schritten
stoppt, so erhält man die Auszahlung Yn .
Zur vereinfachten Darstellung verwendet man im Folgenden die Schreibweise:
yj := yj (x1 , . . . , xj )
für j ≥ 1. Da dem Argument der j-dimensionalen Verteilungsfunktion Fj immer ein Punkt
(x1 , . . . , xj ) ∈ S j entspricht, so schreibt man statt dFj (x1 , . . . , xj ) im Folgenden dFj .
Folgender Satz gibt über eine grundlegende Eigenschaft von Martingalen, Sub- und
Supermartingalen Auskunft.
Satz 6.1. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal
bezüglich der Folge X1 , . . . , Xn . Seien r, n positive ganze Zahlen mit r > n und sei An eine
beliebige Teilmenge von S n . Ist die Folge ein Supermartingal, so gilt
yn dFn ≥
yr dFr .
An
An
93
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
Falls die Folge ein Submartingal ist, so gilt
yn dFn ≤
An
Im Falle eines Martingals gilt
An
94
yr dFr .
An
yn dFn =
An
yr dFr .
Beweis. Hierzu beweist man obige Ungleichung für Supermartingale. Die anderen auftretenden Fälle sind auf analoge Weise nachzuprüfen. Man setzt nun r = n + 1. Man erhält
nun folgende Relation
yn+1 dFn+1 =
yn+1 dF (xn+1 | x1 , . . . , xn ) dFn
An
An S
(6.1)
=
E(Yn+1 | x1 , . . . , xn ) dFn ≤
yn dFn
An
An
Im ersten Integral von (6.1) wird An als Teilmenge von S n+1 betrachtet. Im zweiten Integral
betrachtet man An als Teilmenge von S n . Die letzte Ungleichung in (6.1) folgt aus der
Definition eines Supermartingals. Da das Ereignis An als Teilmenge von S r für r ≥ n
angesehen werden kann, gilt obigen Beobachtungen zufolge
yr+1 dFr+1 ≤
yr dFr r ≥ n
(6.2)
An
An
Aus (6.1) und (6.2) folgt nun die gewünschte Ungleichung.
6.1
Stoppzeiten für Martingale
In diesem Abschnitt befasst man sich nun mit der Bestimmung des erwarteten Gewinns
E(YN ) für unterschiedliche Stoppzeiten, falls die Folge Y1 , Y2 , . . . ein Martingal bildet. Aus
der Definition eines Martingals folgt nun, dass Martingale konstante Erwartung besitzen, d.h es gilt E(Y1 ) = E(Yn ) für n ≥ 1. Damit wird man also für eine große Klasse
von Stoppzeiten erwarten, dass E(Y1 ) = E(YN ) gilt. Falls nun die Folge Y1 , Y2 , . . . ein
Supermartingal bildet, so gilt folglich E(Y1 ) ≥ E(Y2 ) ≥ . . .. Man erwartet also in diesem Fall E(Y1 ) ≥ E(YN ). Submartingale besitzen dementsprechend monoton wachsende
Erwartungswerte, das heißt es gilt E(Y1 ) ≤ E(Y2 ) ≤ . . .. Diese intuitiven Beobachtungen
können jedoch nicht für alle Folgen und alle Stoppzeiten verallgemeinert werden. In diesem
Abschnitt widmet man sich nun diesem Problem, indem man hinreichende Bedingungen
formuliert unter diesen obige Relationen korrekt sind.
Für jede beliebige Stoppzeit gilt nun, dass {N > n} als Teilmenge von S n oder von S r
für r ≥ n angesehen werden kann. Im Folgenden betrachtet man nur Stoppzeiten, die in
der Klasse der Stoppzeiten Θ enthalten sind, für die P (N < ∞) = 1 gilt.
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
95
Satz 6.2. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal
bezüglich der Folge X1 , X2 , . . .. Man betrachtet nun eine Stoppzeit, für die E(YN ) existiert.
Ist die Folge ein Supermartingal und gilt
yn dFn ≥ 0,
(6.3)
lim
n→∞
{N >n}
so folgt
E(YN ) ≤ E(Y1 ).
Ist die Folge ein Submartingal und gilt
lim
n→∞
{N >n}
yn dFn ≤ 0,
so folgt
E(YN ) ≥ E(Y1 ).
Handel es sich um ein Martingal und gilt
lim
n→∞
{N >n}
yn dFn = 0,
so folgt
E(YN ) = E(Y1 ).
Beweis. Wiederum beweist man obigen Satz nur für Supermartingale. Der Beweis in den
anderen beiden Fällen kann analog geführt werden. Aufgrund der Annahme, dass E(YN )
existiert, gilt nun
n yj dFj
E(YN ) = lim
n→∞
= lim
n→∞
j=1 {N =j}
n {N >j−1}
j=1
Aus Satz 6.1 folgt nun für j ≥ 2
{N >j−1}
yj dFj −
{N >j}
yj dFj .
yj dFj ≤
Damit ergibt sich
{N >j−1}
E(YN ) ≤ lim
yj−1 dFj−1 .
y1 dF1 −
yn dFn
{N >n}
= E(Y1 ) − lim
yn dFn ≤ E(Y1 ).
n→∞ {N >n}
n→∞
{N >0}
≥0
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
96
Korollar 6.3. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . .. Man betrachtet eine Stoppzeit, so dass P (N ≤ n) = 1
für n ≥ 1 gilt. Für ein Supermartingal gilt nun E(Y1 ) ≥ E(YN ) ≥ E(Yn ). Für ein Submartingal gilt nun E(Y1 ) ≤ E(YN ) ≤ E(Yn ). Für ein Martingal gilt nun E(Y1 ) = E(YN ) =
E(Yn ).
Beweis. Da der Grenzwert in (6.3) für eine beschränkte Stoppzeit 0 sein muss, folgt somit der erste Teil dieses Korollars. Der zweite Teil folgt aus Satz 6.1. Falls die Folge ein
Supermartingal ist, so muss folgende Bedingung erfüllt sein:
n n yj dFj ≥
yn dFn = E(Yn )
E(YN ) =
j=1
{N =j}
j=1
{N =j}
Satz 6.2 basiert auf der Annahme, dass E(YN ) für eine gegebene Stoppzeit existiert.
Der folgende Satz garantiert für alle Stoppzeiten in Θ die Existenz von E(YN ).
Satz 6.4. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal
bezüglich der Folge X1 , X2 , . . .. Falls eine Schranke M < ∞ existiert, sodass E(|Yn |) ≤ M
für n ≥ 1 gilt, dann existiert E(YN ) für alle Stoppzeiten in Θ.
Beweis. Hier sei nun nur der Beweis für Submartingale angeführt. Der Beweis im Falle von
Supermartingalen verläuft analog und im Falle von Martingalen kann man noch einfacher
vorgehen. Für eine beliebige Zufallsvariable Y definiert man die Zufallsvariablen Y + und
Y − wie folgt:
Y + := max{Y, 0} und Y − := max{−Y, 0}
Es gilt somit Y = Y + − Y − und |Y | = Y + + Y − = 2Y + − Y . Die Stoppzeit τ ∈ Θ wird
durch τn = min{n, τ } definiert. Für eine Stoppzeit τ ∈ Θ und für eine positive ganze Zahl
n gilt
n |yj | dFj +
|yn | dFn .
E(|Yτn |) =
j=1
{τ =j}
{τ >n}
Bildet man nun den Grenzwert n → ∞, so erhält man
E(|Yτ |) ≤ lim inf E(|Yτn |).
n→∞
(6.4)
Um den Satz zu beweisen, muss man nur noch zeigen, dass die rechte Seite in (6.4) endlich
ist. Da die Folge Y1 , Y2 , . . . ein Submartingal bezüglich X1 , X2 , . . . ist, folgt nun, dass auch
die Folge Y1+ , Y2+ , . . . ein Submartingal bezüglich X1 , X2 , . . . ist. Da P (τn ≤ n) = 1 gilt,
kann man Korollar 6.3 anwenden. Man erhält folglich:
E(|Yτn |) = 2E(Yτ+n ) − E(Yτn ) ≤ 2E(Yn+ ) − E(Y1 )
≤ 2E(|Yn |) − E(Y1 ) ≤ 2M − E(Y1 ).
Damit kann der Wert der rechten Seite 2M − E(Y1 ) nicht übersteigen.
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
6.2
97
Gleichmäßig integrierbare Folgen von Zufallsvariablen
Definition 6.5. Die Zufallsvariablen Y1 , Y2 , . . . heißen gleichmäßig integrierbar, falls
lim
|Yn | dP = 0
a→∞
{|Yn |≥a}
gleichmäßig in n gilt. Für den vorliegenden Fall Yn = yn (X1 , . . . , Xn ) bedeutet dies, dass
|yn | dFn = 0
lim
a→∞
{|Yn |≥a}
gleichmäßig in n gilt.
Obige Definition kann auch wie folgt interpretiert werden: Die Zufallsvariablen Y1 , Y2 , . . .
sind gleichmäßig integrierbar, falls für > 0 eine hinreichend große Zahl a0 existiert, so
dass die folgende Relation für alle n ≥ 1 erfüllt ist:
|yn | dFn < {|Yn |≥a0 }
Falls die Zufallsvariablen Y1 , Y2 , . . . gleichmäßig integrierbar sind, existiert eine obere
Schranke M < ∞, so dass E(|Yn |) ≤ M für n ≥ 1 gilt. Die folgende Relation ist für jede
Stoppzeit in Θ erfüllt:
lim
|yn | dFn = 0.
n→∞
{N >n}
Folgender Satz folgt unmittelbar aus (6.2) und (6.4).
Satz 6.6. Sei die Folge Y1 , Y2 , . . . ein Supermartingal, ein Submartingal oder ein Martingal bezüglich der Folge X1 , X2 , . . . und seien die Zufallsvariablen Y1 , Y2 , . . . gleichmäßig
integrierbar. Dann existiert E(YN ) für eine Stoppzeit in Θ. Für ein Supermartingal gilt
E(YN ) ≤ E(Y1 ). Für ein Submartingal gilt E(YN ) ≥ E(Y1 ). Für ein Martingal gilt E(YN ) =
E(Y1 ).
Der Fall, dass die Zufallsvariablen gleichmäßig beschränkt sind, stellt ein einfaches
Beispiel von gleichmäßig integrierbaren Zufallsvariablen dar. In diesem Fall existiert eine
obere Schranke M < ∞, so dass P (|Yn | < M ) = 1 für n ≥ 1 gilt. Falls eine obere Schranke
M < ∞ existiert, so dass E(Yn2 ) ≤ M für n ≥ 1 gilt, so sind die Zufallsvariablen Y1 , Y2 , . . .
gleichmäßig integrierbar.
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
98
Satz 6.6 besagt, dass alle Stoppzeiten in Θ auf den selben erwarteten Gewinn E(Y1 ) =
E(YN ) führen, falls die Zufallsvariablen Y1 , Y2 , . . . in einem Martingal gleichmäßig integrierbar sind. Es ist also unmöglich, eine Stoppzeit zu finden, die immer besser ist als
diejenige, die das Stoppen nach der ersten Beobachtung X1 fordert. Es ist also unmöglich,
eine Stoppzeit zu finden, die auf einen kleineren erwarteten Gewinn als E(Y1 ) führt. Dieselbe Beobachtung erhält man auch mit Hilfe von Korollar 6.3 für ein beliebiges Martingal,
wenn nach höchstens n Beobachtungen gestoppt werden soll.
Folgendes Beispiel soll zeigen, was passiert, wenn die Zufallsvariablen Y1 , Y2 , . . . weder
gleichmäßig integrierbar sind noch eine obere Schranke für die Anzahl der Beobachtungen
existiert.
Beispiel. In diesem Beispiel gilt
X1 =
1
−1
mit p = 12
mit q = 12 .
Falls man im ersten Schritt eine Einheit gewinnt, so bleibt der Gewinn auch für den Rest
des Spiels bei 1 fixiert. Falls man jedoch im ersten Schritt 1 Einheit verliert, so gilt für die
zweite Beobachtung
2 mit p = 12
X2 =
−2 mit q = 12 .
Damit beläuft sich der Gesamtgewinn nach den ersten 2 Schritten entweder auf 1 oder −3
Einheiten. Im ersten Fall ändert sich der Gewinn wiederum im Laufe des Spiels nicht mehr.
Der Gewinn wird wieder mit 1 fixiert. Im zweiten Fall gilt in analoger Weise für die dritte
Beobachtung
4 mit p = 12
X3 =
−4 mit q = 12 .
Das Spiel setzt sich nun diesem Schema zufolge fort.
Obiger Prozess kann wie folgt beschrieben werden: Sei Yn der Gesamtgewinn nach n
(n ≥ 1) Schritten. Dann gilt
1
P (Y1 = 1) = P (Y1 = −1) = .
2
und
P (Yn+1 = 1 | Yn = 1) = 1
(6.5)
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
99
und
P (Yn+1 = 1 | Yn = −2n + 1)
= P (Yn+1 = −2n+1 + 1 | Yn = −2n + 1)
1
=
2
(6.6)
für n ≥ 1. Aus (6.5) und (6.6) folgt nun, dass die Folge Y1 , Y2 , . . . ein Martingal ist. Man
betrachtet nun die Stoppzeit, die ein Stoppen fordert, sobald der Wert Yn = 1 beobachtet
wird. Dies ist eine zulässige Stoppzeit, da
j
1
für j ≥ 1
P (N = j) =
2
gilt und somit P (N < ∞) = 1. Mit dieser Stoppzeit ist P (YN = 1) = 1 und folglich E(YN ) = 1 erfüllt. Somit wurde ein Martingal und eine Stoppzeit konstruiert, für
die E(Y1 ) = 0, aber E(YN ) = 1 gilt. In diesem Beispiel unterscheiden sich also die beiden Erwartungswerte. Die Konstruktion des obigen Beispiels war auf Grund der Tatsache
möglich, dass jede der Zufallsvariablen Yn beschränkt ist und die erhaltene Folge Y1 , Y2 , . . .
gleichmäßig nach oben durch 1 beschränkt ist, aber die Folge trotzdem nicht nach unten
beschränkt und gleichmäßig integrierbar ist.
6.3
Reguläre Supermartingale
In diesem Abschnitt betrachtet man nun die zentrale Stellung von Supermartingalen bei
der Lösung von allgemeinen optimalen Stoppproblemen. Sei die Folge Y1 , Y2 , . . . ein Supermartingal bezüglich der Folge X1 , X2 , . . .. In den vorangegangenen Abschnitten wurden
unterschiedliche Bedingungen geliefert, für welche E(YN ) ≤ E(Y1 ) für eine gegebene Stoppzeit gilt.
Definition 6.7. Ein Supermartingal heißt regulär, falls E(YN ) ≤ E(Y1 ) für alle Stoppzeiten, für die E(YN ) existiert, gilt.
Es folgt aus Satz 6.6, dass unter der Voraussetzung der gleichmäßigen Integrierbarkeit
von Y1 , Y2 , . . . das Supermartingal regulär ist. Zur besseren Veranschaulichung betrachtet
man nun ein beliebiges Problem des optimalen Stoppens, das durch Beobachtungen Xn
und Auszahlungen Yn = yn (X1 , . . . , Xn ) für n ≥ 1 definiert ist. Man nimmt nun an,
dass eine optimale Stoppzeit existiert, so dass der erwartete Gewinn endlich ist. Zu einem
bestimmten Zeitpunkt, an dem die Werte X1 = x1 , . . . , Xn = xn bereits beobachtet
wurden, sei die Ungleichung
E(Yn+1 | x1 , . . . , xn ) > yn (x1 , . . . , xn )
(6.7)
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
100
erfüllt. Aus obiger Ungleichung folgt offensichtlich, dass man in diesem Fall weiterspielen
sollte, da der erwartete Gewinn, falls man einen Schritt weitergeht und dann stoppt, jedenfalls größer ist als der Gewinn beim Stoppen ohne weitere Beobachtungen. Andererseits
gelte folgende Ungleichung
E(Yn+1 | x1 , . . . , xn ) ≤ yn (x1 , . . . , xn ).
(6.8)
Dieser Ungleichung zufolge ist der erwartete Gewinn nach genau einer weiteren Beobachtung nicht größer als der Gewinn, wenn man sofort stoppt. Trotzdem kann der erwartete
Gewinn durch entsprechendes Weitergehen yn (x1 , . . . , xn ) übersteigen. Sei nun die Folge
zukünftiger Gewinne Yn+1 , Yn+2 , . . . für eine beliebige Menge von beobachteten Werten
X1 = x1 , . . . , Xn = xn , für die (6.8) erfüllt ist, bezüglich der Folge von zukünftigen Beobachtungen Xn+1 , Xn+2 , . . . ein reguläres Supermartingal. Die Interpretation dieser Voraussetzung ist folgende: Zu dem Zeitpunkt, wenn man einen Schritt erreicht, indem es
ungünstig erscheint, genau eine weitere Beobachtung zu machen, so ist es auch zu jedem
späteren Zeitpunkt ungünstig, einen weiteren Wert zu beobachten. Die Zusatzvoraussetzung, dass es sich um ein reguläres Supermartingal handelt, garantiert, dass der erwartete
Gewinn, der aus einem entsprechenden Weitergehen entsteht, auf jeden Fall als ungünstig
betrachtet werden kann. Damit gilt
E(YN | x1 , . . . , xn ) ≤ E(Yn+1 | x1 , . . . , xn ) ≤ yn (x1 , . . . , xn ),
(6.9)
falls eine Strategie fordert, nach n beobachteten Werten X1 = x1 , . . . , Xn = xn weiterzugehen und falls bekannt ist, dass der erwartete Gewinn E(YN | x1 , . . . , xn ) existiert. Die
Ungleichung (6.9) bedeutet, dass es optimal ist, sofort zu stoppen, falls eine beliebige Menge von beobachteten Werten X1 = x1 , . . . , Xn = xn (6.8) erfüllt. Diese Eigenschaft wird in
folgendem Satz verdeutlicht.
Satz 6.8. Man betrachtet ein optimales Stoppproblem, für das eine optimale Stoppzeit
existiert. Eine beliebige Menge von beobachteten Werten X1 = x1 , . . . , Xn = xn erfülle
(6.8). Die Folge von zukünftigen Gewinnen Yn+1 , Yn+2 , . . . sei ein reguläres Supermartingal
bezüglich der Folge von zukünftigen Beobachtungen Xn+1 , Xn+2 , . . ..
Dann besteht eine optimale Strategie, nachdem eine beliebige Menge von Werten X1 =
x1 , . . . , Xn = xn beobachtet wurde, im Weitergehen, falls (6.7) erfüllt ist und im Stoppen,
falls (6.8) erfüllt ist.
Als Anwendung obigen Satzes betrachtet man folgendes Problem:
6.3.1
Das Quizproblem
Dieser Abschnitt behandelt das Quizproblem. Ein Kandidat startet mit einem Anfangskapital von r Einheiten. Nun wird ihm eine Folge von unabhängigen Fragen gestellt. Für jede
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
101
korrekt gegebene Antwort erhält er einen Gewinn von s Einheiten. Falls er eine Frage nicht
korrekt beantwortet, so verliert er all sein Kapital und muss aus dem Quiz ausscheiden. Die
Wahrscheinlichkeit, dass der Kandidat eine beliebige Frage richtig beantwortet, beträgt p
(0 < p < 1). Mit Yn bezeichnet man den Gewinn nach dem n-ten Schritt (n = 0, 1, 2, . . .).
Es gilt nun
r + ns mit pn
Yn =
0
mit 1 − pn .
Falls Yn = y mit y > 0 zu einem bestimmten Zeitpunkt gilt, so folgt nun
y+s
mit
p
Yn+1 =
0
mit 1 − p.
Somit erhält man folglich
E(Yn+1 | Yn = y) = p(y + s).
Hierbei unterscheidet man 2 Fälle:
1. p(y + s) ≥ y gilt für
y≤
ps
.
1−p
Daraus folgt
E(Yn+1 | Yn = y) > y.
Die Folge entspricht hierbei einem Submartingal. In diesem Fall sollte man weitergehen.
2. p(y + s) < y gilt für
y>
ps
.
1−p
In diesem Fall gilt
E(Yn+1 | Yn = y) ≤ y.
Es handelt sich hierbei also um ein Supermartingal.
Damit man Satz 6.8 anwenden kann, muss man die Existenz einer optimalen Stoppzeit
und die gleichmäßige Integrierbarkeit von Yn+1 , Yn+2 , . . . nachweisen. Zuerst gilt es die
gleichmäßige Integrierbarkeit nachzuprüfen: Wenn Yn = y gilt, so folgt
y + js
mit pj
Yn+j =
0
mit 1 − pj .
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
Es gilt nun
lim
j→∞
{Yn+j >K}
Yn+j dP ≤ lim
Für ein gegebenes > 0 gilt also
j→∞
{Yn+j =0}
102
Yn+j dP = lim (y + js)pj = 0.
j→∞
{Yn+j >K}
Yn+j dP < für alle j ≥ j0 . Aufgrund der Tatsache, dass auch das Maximum der Zufallsvariablen gegen 0 konvergiert, ist obige Beobachtung auch für 1 ≤ j ≤ j0 zutreffend. Somit ist die
gleichmäßige Integrierbarkeit nachgewiesen. Aus Satz 6.6 folgt nun, dass das Supermartingal regulär ist.
Für die Existenz einer optimalen Stoppzeit verwendet man Satz 6.6. Somit teilt man
den Prozess in zwei Teile. Den Teilungspunkt bildet der Zeitpunkt, ab welchem die Folge
ein Supermartingal bildet. Im ersten Teil des Prozesses hat man folglich nur endlich viele
Möglichkeiten zur Verfügung um eine optimale Stoppzeit zu finden. Im zweiten Teil bildet
die Folge ein Supermartingal. Nach Satz 6.6 existiert eine optimale Stoppzeit N = 1. Die
resultierende optimale Strategie lässt sich nun folgendermaßen formulieren: Man sollte so
ps
erreicht und dann stoppen.
lange weiterspielen, bis der Gewinn den Wert 1−p
6.3.2
Das Parkproblem
Ein Autofahrer fährt entlang eines Highways in Richtung eines bestimmten Zieles und sucht
einen Parkplatz. Wenn er die Straße entlangfährt, so kann er immer nur einen Parkplatz
nach dem anderen betrachten und feststellen, ob er besetzt ist oder nicht. Die Wahrscheinlichkeit, dass ein betrachteter Parkplatz frei ist, beträgt p. Folglich ist ein Parkplatz mit
der Wahrscheinlichkeit 1 − p besetzt. Falls der Autofahrer einen freien Parkplatz vorfindet,
so muss er überlegen, ob er hier parken will oder ob er seine Suche fortsetzt. Falls er sein
Ziel bereits erreicht hat und noch nicht geparkt hat, so fährt er daran vorbei und setzt seine
Suche dort mit den gleichen Bedingungen fort. Der zu zahlende Betrag ändert sich proportional zur Distanz, die der Autofahrer zu Fuß zu seinem Ziel zurücklegen muss. Folglich ist
der Autofahrer bestrebt, sein Auto so nah wie möglich an seinem Ziel zu parken, um die
zu Fuß zurückzulegende Distanz zu minimieren. Veranschaulicht man obig beschriebenes
Problem nun anhand der Zahlengerade, so stellt die Null das Ziel des Autofahrers dar.
Der zu zahlende Tarif entspricht folglich der Entfernung zur Null. Ist der Autofahrer nun
schon an seinem Ziel vorbeigefahren und befindet er sich in der Position l rechts von 0. Er
muss l Einheiten bezahlen, falls er hier parkt. Falls er sich nun entscheidet, einen Schritt
weiterzugehen, so befindet sich der nächste freie Parkplatz in der Position l + i mit der
Warscheinlichkeit p(1 − p)i−1 . Der Erwartungswert des zu zahlendes Tarifs T beträgt
∞
∞
∞
1
i−1
i−1
E(T ) =
(l + i)p(1 − p) = l
p(1 − p) +
ip(1 − p)i−1 = l + .
p
i=1
i=1
i=1
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
103
Der Erwartungswert nimmt klarerweise zu, wenn man auf dem positiven Abschnitt der
Zahlengerade weitergeht.
Nun beobachtet man, was auf dem negativen Abschnitt der Zahlengerade passiert. Der
Autofahrer befindet sich l Positionen vor seinem Ziel. Falls er hier nun parkt, so muss er
l Einheiten bezahlen. Geht er einen Schritt weiter bis zum nächsten freien Parkplatz auf
der Position −l + i, so gilt für den erwarteten zu zahlenden Betrag
∞
E(T ) =
i=1
l
=
p(1 − p)i−1 |−l + i|
p(1 − p)i−1 (l − i) +
i=1
∞
p(1 − p)i−1 (i − l).
i=l+1
Zur Berechnung obig auftretender Summe geht man nun wie folgt vor: Es sei l > 0. Zuerst
setzt man 1 − p = x. Dann gilt
l x
lxl−1 (1 − x) + xl
xl−1 (l − lx + x)
i−1
i
ix =
x =
=
=
.
(6.10)
2
2
1
−
x
(1
−
x)
(1
−
x)
i≥l
i≥l
Folglich erhält man
E(T ) =
(i − l)pxi−1 +
i≥l
=
(i − l)pxi−1 +
(l − i)pxi−1
1≤i<l
∞
(l − i)pxi−1 −
i=1
∞
i≥l
=2
(i − l)pxi−1 +
(l − i)pxi−1
i≥l
(l − i)pxi−1 =: 2S1 + S2 .
i=1
i≥l
Aus (6.10) ergibt sich
S1 = p
ixi−1 − lp
i≥l
=p
x
xi−1 = p
i≥l
xl−1 (l − lx + x)
xl−1
−
lp
(1 − x)2
1−x
l−1
xl−1 (l − lx)
pxl
(l − lx + x)
−
p
=
.
(1 − x)2
(1 − x)2
(1 − x)2
Ferner gilt
S2 = l
∞
px
i=1
i−1
−
∞
i=1
ipx
i−1
=l
∞
i=1
1
P (Y = i) − E(Y ) = l − ,
p
wobei Y eine Zufallsvariable mit Geom(p)-Verteilung bezeichnet. Deshalb gilt
E(T ) = 2S1 + S2 = 2
pxl
1
1
p(1 − p)l
1
+
l
−
+ l − = l + (2(1 − p)l − 1).
=
2
2
2
(1 − x)
p
p
p
p
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
104
Daraus kann man nun den Schwellenwert l0 berechnen: Es gilt
l+
1
2(1 − p)l0 − 1 = l
p
l0 =
log 2
log 2
.
1 = −
log 1 − p
log 1−p
woraus
folgt. Falls l ≥ l0 gilt, das heißt der Autofahrer befindet sich links von −l0 , so folgt E(T ) < l.
Somit sollte der Autofahrer in diesem Fall unbedingt seine Parkplatzsuche fortsetzen. Gilt
nun l < l0 gilt, das heißt der Autofahrer befindet sich rechts von −l0 , so folgt E(T ) > l. In
diesem Fall sollte der Autofahrer sein Auto in diesem Parkplatz parken. Die Lösung dieses
Problems besteht nun in der Minimierung des folgenden Erwartungswertes
E(T ) =
∞
p(1 − p)i−1 |−l0 + i|.
i=1
Dieses Problem kann natürlich auch mit Hilfe der Rückwärtsinduktion gelöst werden.
Dazu sei Vl := supτ ≥l E(Xτ ), dann gilt
Vl = (1 − p)Vl+1 + p min{|l|, Vl+1 }.
Obiges Problem kann durch die Forderung, dass im ersten freien Parkplatz ab der
Position N gestoppt werden muss, auf ein endliches Problem reduziert werden:
VN =
∞
p(1 − p)i−1 (N + i)
i=1
6.3.3
Das Parkproblem mit Umkehrmöglichkeit
Folgende Aufgabenstellung erhält man durch eine geringe Modifikation des vorangegangenen Beispiels: Bei diesem Problem steht der Autofahrer bei jedem Parkplatz, sei er nun
besetzt oder nicht, vor der Entscheidung, ob er mit der Parkplatzsuche fortsetzt oder ob er
den letzten freien Parkplatz wählt. Dabei versteht man unter dem letzten freien Parkplatz
den aktuellen Parkplatz, falls dieser unbesetzt ist. Stoppt der Autofahrer, so muss er die
verbleibende Entfernung zum Zielpunkt zu Fuß zurücklegen. Mit r (0 < r < 1) bezeichnet
man die durchschnittliche Geschwindigkeit eines Autos. Dann ergibt sich die notwendige
Zeitspanne, um das Ziel zu erreichen, aus der r-fachen mit dem Auto zurückgelegten Distanz vermehrt um die zu Fuß zurückgelegte Distanz. Die Intention des Autofahrers besteht
nun im Finden einer Parklücke, die die erwartete Zeitdauer minimiert. Da der Autofahrer
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
105
nur in einem freien Parkplatz parken kann, muss er auf jeden Fall bis zum ersten freien
Parkplatz fahren. Falls der Autofahrer den ersten freien Parkplatz erst nach seinem Ziel
auffindet, so muss er hier nun parken. Findet der Autofahrer einen freien Parkplatz nach
seinem Ziel und hat jedoch vor seinem Ziel schon ein oder mehrere freie Parkplätze beobachtet, so liegt für ihn nun das Problem in der Bestimmung, welcher der beiden dem Ziel
am naheliegendsten freien Parkplätze, nun in Frage kommt.
Man definiert nun den Zustand (m, n) für m ≤ n folgendermaßen: Der Autofahrer
befindet sich momentan in der Position m, wobei der letzte beobachtete freie Parkplatz in
der Position n aufgetreten ist. Folglich kann man die Menge der Zustände, für die ernsthafte
Entscheidungen bezüglich Weitergehen oder Stoppen getroffen werden können, als
Z = {(m, n) : m ≤ n, 0 ≤ n}.
(6.11)
anschreiben. Diese Menge Z partitioniert man in Z1 und Z2 mit
Z1 = {(m, n) : 1 ≤ m ≤ n}
und
Z2 = {(−m, n) : 0 ≤ m, 0 ≤ n},
wobei Z1 die Zustände beschreibt, in denen sich der Autofahrer noch vor seinem Ziel befindet und Z2 die Zustände beschreibt, in denen der Autofahrer sein Ziel bereits passiert
hat. Mit z(m, n) bezeichnet man nun die erwartete Zeit, die benötigt wird, um das Ziel zu
erreichen, wenn man eine optimale Strategie von (m, n) ausgehend benutzt. Die benötigte
Zeit durch Stoppen in (m, n) ∈ Z bezeichnet man mit f (m, n). Auf analoge Weise bezeichnet g(m, n) die erwartete zusätzlich benötigte Zeit, wenn der Autofahrer von (m, n)
aus weiterfährt und im Anschluss eine optimale Strategie benutzt. Nun erhält man die
Optimalitätsgleichung für Z1 : Es gilt
z(m, n) = min{f (m, n), g(m, n)}.
(6.12)
für alle (m, n) ∈ Z1 . Falls der Autofahrer sich zu stoppen entscheidet, so fährt er n − m
Positionen zurück und legt die restlichen n Positionen zu Fuß zurück. Folglich gilt
f (m, n) = (n − m)r + n = (1 + r)n − mr.
(6.13)
Falls sich der Autofahrer für ein Weiterfahren entscheidet, so findet ein Übergang von
(m, n) zum Zustand (m − 1, m − 1) oder (m − 1, n) statt. Jeder dieser beiden Zustände
tritt mit Wahrscheinlichkeit p beziehungsweise q = 1 − p auf. Damit gilt
g(m, n) = r + pz(m − 1, m − 1) + qz(m − 1, n).
(6.14)
Für Z2 erhält man auf analoge Weise die Optimalitätsgleichung
z(−m, n) = min{f (−m, n), g(−m, n)}.
(6.15)
für alle (−m, n) ∈ Z2 . Falls sich der Autofahrer für das Stoppen entscheidet, so fährt er
n + m Positionen zurück und legt die restlichen n Positionen zu Fuß zurück:
f (−m, n) = (n + m)r + n = (1 + r)n + mr.
(6.16)
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
106
Falls er sich jedoch entscheidet, weiterzufahren, so findet er in der Position −(m + 1)
einen Parkplatz mit der Wahrscheinlichkeit p, wogegen er keinen neuen Parkplatz mit der
Wahrscheinlichkeit q findet. Er parkt folglich entweder in n oder −(m + 1). Damit gilt
g(−m, n) = r + p · min{m + 1, f (−(m + 1), n)} + qz(−(m + 1), n).
(6.17)
. Der folgende Satz beschreibt die optimale
Zuerst befasst man sich nun mit Z2 . Sei c = 1+r
1−r
Strategie, wenn der Autofahrer das Ziel bereits passiert hat:
. Dann setzt man jn gleich der kleinsten ganzen Zahl, die cn − c−q
Satz 6.9. Sei n0 = c−q
cp
p
übersteigt, falls n > n0 gilt und andernfalls gleich 0.
Für ein (−m, n) ∈ Z2 gilt dann
Es ist genau dann optimal, in (−m, n) zu stoppen, wenn m ≥ jn gilt.
Es ist genau dann optimal, in (−m, n) weiterzufahren, wenn m < jn gilt.
Die optimale Strategie im Fall (m, n) ∈ Z1 sowie der Beweis von Satz 6.9 kann in
[Tam88] nachgelesen werden.
6.4
Supermartingale und allgemeine Stoppprobleme
Nun betrachtet man allgemeine Probleme des Optimalen Stoppens.
Definition 6.10. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Fn )0≤n≤N eine Filtration,
Z = (Zn )1≤n≤N ein quadratisch integrierbarer adaptierter Auszahlungsprozess und
Un := sup E(ZT | Fn )
T ∈Πn,N
. Für 1 ≤ n ≤ N bezeichne Πn,N die Menge aller Stoppzeiten, die Werte aus {n, n +
1, . . . , N } annehmen.
Das Problem besteht nun in der Bestimmung von Un und Tn∗ ∈ Πn,N mit
Un = E(ZTn∗ | Fn )
. Folgender Satz befasst sich mit der Lösung dieses Stoppproblems.
Satz 6.11. Obig formuliertes Problem kann wie folgt gelöst werden:
(i) Die Un können durch folgende Rückwärtsrekursion berechnet werden:
UN = ZN
für 1 ≤ n ≤ N .
und
Un−1 = max{Zn−1 , E(Un | Fn−1 )}
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
107
(ii) Für n = 0, . . . , N ist Tn∗ = inf{i ≥ n | Zi = Ui } eine optimale Stoppzeit, das heißt
E(ZTn∗ | Fn ) = supT ∈Πn,N E(ZT | Fn ).
(iii) U ist das kleinste Supermartingal, das Z dominiert, d.h. Un ≥ Zn für 0 ≤ n ≤ N
und ist W ein weiteres Supermartingal, das Z dominiert, dann gilt Wn ≥ Un für
n = 0, . . . , N .
Bemerkung. Für n = 0, . . . , N gilt:
Tn∗ = inf{i ≥ n | Zi ≥ E(Ui+1 | Fi )}.
Tn∗ stoppt also, wenn die Auszahlung Zi erstmals größer gleich der erwarteten optimalen
Auszahlung im nächsten Schritt ist.
Beweis. Der Beweis von (i) und (ii) erfolgt durch Rückwärtsinduktion. Offensichtlich gilt:
ΠN,N = {N }, UN = ZN , TN∗ = N.
Da Z und U adaptiert sind, ist Tn∗ = inf{i ≥ n | Zi − Ui = 0} ∈ Πn,N . Sei nun T ∈ Πn−1,N ,
so sind folgende Relationen nachzuprüfen:
E(ZT | Fn−1 ) ≤ max{Zn−1 , E(Un | Fn−1 )}
∗
E(ZTn−1
| Fn−1 ) = max{Zn−1 , E(Un | Fn−1 )}
(6.18)
(6.19)
Man setzt nun T := max{n, T } ∈ Πn,N . Die Relation (6.18) rechnet man wie folgt nach.
Sei A ∈ Fn−1 beliebig, dann gilt
ZT dP =
Zn−1 dP +
ZT dP.
A
A∩{T =n−1}
A∩{T ≥n}
Aufgrund von A ∩ {T ≥ n} = A ∩ {T ≤ n − 1}C ∈ Fn−1 gilt für den zweiten Summanden:
ZT dP =
E(ZT | Fn−1 ) dP =
E(E(ZT | Fn ) | Fn−1 ) dP
A∩{T ≥n}
A∩{T ≥n}
A∩{T ≥n}
≤Un
E(Un | Fn−1 ) dP.
≤
A∩{T ≥n}
Somit folgt nun
A
ZT dP ≤
A
max{Zn−1 , E(Un | Fn−1 )} dP,
womit (6.18) bewiesen ist. Nun muss noch (6.19) nachgeprüft werden: Hierbei gilt
∗
= n − 1 ⇔ Zn−1 ≥ E(Un | Fn−1 ).
Tn−1
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
Daraus folgt
∗
ZTn−1
dP =
A
108
A∩{Zn−1 ≥E(Un | Fn−1 )}
Zn−1 dP +
A∩{Zn−1 <E(Un | Fn−1 )}
∗
ZTn−1
dP
für A ∈ Fn−1 . Für den zweiten Summanden gilt nun
A∩{Zn−1 <E(Un | Fn−1 )}
∗
ZTn−1
dP =
=U
A∩{Zn−1 <E(Un | Fn−1 )}
=
A∩{Zn−1 <E(Un | Fn−1 )}
Folglich erhält man
∗
ZTn−1
dP =
A
n E(E(ZTn∗ | Fn ) | Fn−1 ) dP
E(Un | Fn−1 ) dP.
A∩{Zn−1 ≥E(Un | Fn−1 )}
Zn−1 dP +
A∩{Zn−1 <E(Un | Fn−1 )}
E(Un | Fn−1 ) dP.
Damit folgen die Aussagen (i) und (ii).
Somit ist nur noch die Aussage (iii) nachzuprüfen: Da E(Un+1 | Fn ) ≤ Un gilt, ist Un
ein Supermartingal. Weiters gilt
Un = max{Zn , E(Un+1 | Fn )} ≥ Zn .
Sei W = (Wn )0≤n≤N ein weiteres Z dominierendes Supermartingal, so gilt:
WN ≥ ZN = UN
Durch Induktion erhält man schließlich
Un−1 = max{Zn−1 , E(Un | Fn−1 )} ≤ max{Wn−1 , E(Wn | Fn−1 )} = Wn−1 .
≤ Wn−1
Man betrachtet nun als Anwendung obigen Satzes das in Kapitel 3.5 angeführte Münzproblem.
6.4.1
Das Münzproblem
Es wird maximal N -mal eine faire Münze geworfen. Nach dem n-ten Münzwurf kann der
Spieler das Spiel abbrechen und erhält als Auszahlung Zn die relative Häufigkeit des Auftretens von Kopf“ oder er spielt weiter. Man will nun die mittlere Auszahlung bei optimaler
”
Spielstrategie und eine optimale Spielstrategie selbst bestimmen.
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
109
Die Münzwürfe werden durch unabhängige Zufallsvariablen X1 , X2 , . . . , XN mit
P (Xi = 1) = P (Xi = 0) =
1
2
beschrieben. Weiters sei F0 = {∅, Ω}, Fn = σ(X1 , . . . , Xn ). Für die Auszahlung gilt
1
Xi , Z0 = 0.
Zn =
n i=1
n
Obig formuliertes Problem liegt nun in der Bestimmung von
max ZT .
T ∈Π0,N
Man will folglich das dominierende Supermartingal Un bestimmen. Laut obigem Satz kann
man die Un durch Rückwärtsinduktion bestimmen.
Man stellt nun die Behauptung auf, dass Un eine Funktion von Zn ist, d.h. Un =
hn (Zn ). Dies gilt es mittels Rückwärtsinduktion nachzuprüfen: Es gilt hN (z) = z. Wenn
Un = hn (Zn ), so gilt
Un−1 = max{Zn−1 , E(hn (Zn ) | Fn−1 )}
n−1
1
= max Zn−1 , E hn
Zn−1 + Xn
n
n
=:gn−1 (Zn−1 )
mit
gn−1 (z) = E hn
1
n−1
z + Xn
n
n
1
= hn
2
1
n−1
z+
n
n
Fn−1
.
1
+ hn
2
n−1
z .
n
Somit folgt
Un−1 = hn−1 (Zn−1 )
mit
und
hn−1
j
n−1
n−1
hn
+ hn
z
.
n
Da Zn nur die Werte nj mit 0 ≤ j ≤ n annimmt, genügt es, hn nj zu berechnen: Es gilt
j
j
hN
=
N
N
1
hn−1 (z) = max z,
2
= max
n−1
1
z+
n
n
j
1
, hn
n−1 2
j+1
n
1
+ hn
2
j
n
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
110
für 0 ≤ j ≤ n − 1. Daraus folgt
h0 (0) = max E(ZT ).
T ∈Π0,N
Die optimale Spielstrategie kann wie folgt formuliert werden: T ∗ stoppt, wenn zum
zeigt man, dass hn (z) − z
ersten Mal Zn = Un = hn (Zn ) gilt. Durch Rückwärtsinduktion
j j
monoton fallend in z ist beziehungsweise hn n − n monoton fallend in j ist: Für N ist obige
Behauptung offensichtlich richtig, denn hn (z) − z ist konstant 0. Ist hn nj − nj monoton
j j
− n−1
, denn für 0 ≤ j1 ≤ j2 ≤ n − 1 gilt
fallend, dann auch hn−1 n−1
j1
j1 + 1
j1
j1
1
1
j1
−
= max 0, hn
+ hn
−
=
hn−1
n−1
n−1
2
n
2
n
n−1
j1 + 1
j1
1
j1
j1 − 1
j1
1
j1
1
+
+ +
hn
−
hn
−
−
= max 0,
2
n
n
2
n
n
n
2n n − 1
j +1
j +1
j
j
≥hn ( 2n )− 2n
≥hn ( n2 )− n2
j2 + 1
j2
1
j 2 j1
j1
1
+ hn
− + −
≥ max 0, hn
2
n
2
n
n
n
n−1
j2 + 1
j2
j2
1
j2
j2 j1
j1
j2 1
−
, hn
+ hn
+
− + −
≥ max
n−1 2
n
2
n
n n
n − 1
n−1
n − 1
j2 + 1
j2
j2 1
1
j2
≥ max
, hn
+ hn
−
n−1 2
n
2
n
n−1
j2
j2
−
.
=hn−1
n−1
n−1
j2 −j1
≥0
n(n−1)
Daraus folgt nun
j
j
j
j
j ≤ n hn
=
= j ≤ n hn
≤
=
n
n
n
n
j
j
− ≤ 0 = [b(n), n]
= j ≤ n hn
n
n
mit einem geeigneten b(n) ∈ {0, 1, . . . , n}. Die optimale&Stoppregel
lautet
jfolglich:
' Stoppe,
b(n)
j
wenn zum ersten Mal Zn ≥ n gilt, wobei b(n) = min j ≤ n hn n − n ≤ 0 .
6.4.2
Ein modifiziertes Parkproblem
Ein Autofahrer fährt aus seiner Garage und dann entlang einer kreisförmigen Route auf
der sich hintereinander Parkplätze befinden. Die Route enthält N öffentliche Parkplätze
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
111
und endet in seinem stets freien Parkplatz der eigenen Garage. Sein Ziel liegt beim M -ten
Parkplatz. Jeder öffentliche Parkplatz, an dem er vorbeifährt, ist mit Wahrscheinlichkeit
p (0 < p < 1) frei und mit Wahrscheinlichkeit 1 − p besetzt. Er kann jeden freien Parkplatz
benutzen oder weiterfahren. Er versucht so zu parken, dass die Erwartung von |M − n|
minimal ist. Dabei bezeichnet n die Nummer des von ihm gewählten Parkplatzes. Erreicht
er seine Garage, so bricht er seine Parkplatzsuche frustriert ab. Es soll nun eine optimale
Strategie bestimmt werden.
Sei Fn = σ(X1 , . . . , Xn ) und Ω = {0, 1}N . Falls der i-te Parkplatz besetzt ist, so setzt
man Xi = 0, andernfalls gilt Xi = 1. Die Zufallsvariablen Xi sind unabhängig und es gilt
P (Xi = 1) = p,
P (Xi = 0) = 1 − p.
Für Zn erhält man nun
Zn = −|M − n|½{Xn =1} − K ½{Xn =0} ,
ZN +1 = −(N + 1 − M )
für n = 1, . . . , N und für hinreichend großes K. Man will nun folgende Behauptung für
n = 1, . . . , N + 1 nachprüfen:
Un = −hn (Xn )
(6.20)
Dies beweist man wiederum mit Hilfe der Rückwärtsinduktion: Es gilt jedenfalls hN +1 (x) =
N + 1 − M . Für Un−1 erhält man nun
Un−1 = max{Zn−1 , E(Un | Fn−1 )}
= max{Zn−1 , −E(hn (Xn ) | Fn−1 )}.
Da
−E(hn (X1 )) = −(phn (1) + (1 − p)hn (0))
gilt, folgt somit
Un−1 = max{−|M − n + 1|½{Xn−1 =1} − K ½{Xn−1 =0} , −(phn (1) + (1 − p)hn (0))}
min{|M − n + 1|, phn (1) + (1 − p)hn (0)} fürXn−1 = 1
=−
phn (1) + (1 − p)hn (0)
fürXn−1 = 0.
Folglich gilt nun Un−1 = −hn−1 (Xn−1 ), wobei
hn−1 (1) = min{|M − n + 1|, phn (1) + (1 − p)hn (0)}
hn−1 (0) = phn (1) + (1 − p)hn (0)
KAPITEL 6. OPTIMALES STOPPEN DURCH MARTINGAL-METHODEN
112
gilt. Der optimale Wert dieses Maximierungsproblems ergibt sich dementsprechend zu
E(U1 ) = −E(h1 (X1 )) = −(ph1 (1) + (1 − p)h1 (0)) = −h0 (0)
Infolgedessen entspricht h0 (0) dem optimalen Wert des Minimierungsproblems. Die optimale Strategie kann nun wie folgt formuliert werden: Ist für ein n
α := p hn (1) + (1 − p)hn (0) ≤ |M − n + 1|,
dann ist hk (0) = hk (1) = α für alle k ≤ n − 1. Für k > n ist hn−1 (1) = |M − n + 1|.
Literaturverzeichnis
[AHBT82] A. R. Abdel-Hamid, J. A. Bather, and G. B. Trustrum. The secretary problem
with an unknown number of candidates. J. Appl. Probab., 19(3):619–630, 1982.
[BBG86]
Boris A. Berezovskiy, Yuliy M. Baryshnikov, and Alexander V. Gnedin. On a
class of best-choice problems. Inform. Sci., 39(1):111–127, 1986.
[Bel56]
Richard Bellman. Computational problems in the theory of dynamic programming. In Proceedings of Symposia in Applied Mathematics. Vol. VI. Numerical
analysis, pages 1–10. McGraw-Hill Book Company, Inc., New York, for the
American Mathematical Society, Providence, R. I., 1956.
[Bel58]
Richard Bellman. Notes on the theory of dynamic programming. Transportation models. Management Sci., 4:191–195, 1958.
[Bel71]
Richard Bellman. Functional equations in the theory of dynamic programming.
XIX [printed as XVIII]. A problem connected with the value of information.
Math. Biosci., 11:1–3, 1971.
[BLC00]
F. Thomas Bruss and Lucien Le Cam, editors. Game theory, optimal stopping,
probability and statistics. Institute of Mathematical Statistics Lecture Notes—
Monograph Series, 35. Institute of Mathematical Statistics, Beachwood, OH,
2000. Papers in honor of Thomas S. Ferguson.
[Cay96]
Arthur Cayley. Mathematical questions and their solutions, The Collected
Mathematical Papers of Arthur Cayley Vol X. Cambridge Univ. Press, pages
587–588, 1896.
[CMRS64] Y. S. Chow, S. Moriguti, H. Robbins, and S. M. Samuels. Optimal selection
based on relative rank (the “Secretary problem”). Israel J. Math., 2:81–90,
1964.
[CR63]
Y. S. Chow and Herbert Robbins. On optimal stopping rules. Z. Wahrscheinlichkeitstheorie und Verw. Gebiete, 2:33–49, 1963.
[CR65]
Y. S. Chow and Herbert Robbins. On optimal stopping rules for sn /n. Illinois
J. Math., 9:444–454, 1965.
113
LITERATURVERZEICHNIS
114
[CRS71]
Y. S. Chow, Herbert Robbins, and David Siegmund. Great expectations: the
theory of optimal stopping. Houghton Mifflin Co., Boston, Mass., 1971.
[CRS91]
Y. S. Chow, Herbert Robbins, and David Siegmund. The theory of optimal
stopping. Dover Publications Inc., New York, 1991. Corrected reprint of the
1971 original.
[DA69]
E. B. Dynkin and Juschkewitsch. A. A. Sätze und Aufgaben über Markoffsche Prozesse. Aus dem Russischen übersetzt von K. Schürger. Vorwort zur
deutschen Ausgabe von K. Krickeberg. Heidelberger Taschenbücher, Band 51.
Springer-Verlag, Berlin, 1969.
[DeG70]
Morris H. DeGroot. Optimal statistical decisions. McGraw-Hill Book Co., New
York, 1970.
[Dvo67]
Aryeh Dvoretzky. Existence and properties of certain optimal stopping rules. In
Proc. Fifth Berkeley Sympos. Math. Statist. and Probability (Berkeley, Calif.,
1965/66), pages Vol. I: Statistics, pp. 441–452. Univ. California Press, Berkeley,
Calif., 1967.
[FE88]
E. Z. Ferenstein and E. G. Enns. Optimal sequential selection from a known
distribution with holding costs. J. Amer. Statist. Assoc., 83(402):382–386, 1988.
[Fer89]
Thomas S. Ferguson. Who solved the secretary problem? Statist. Sci., 4(3):282–
296, 1989. With comments and a rejoinder by the author.
[FH89]
T. S. Ferguson and J. P. Hardwick. Stopping rules for proofreading. J. Appl.
Probab., 26(2):304–313, 1989.
[Fre83]
P. R. Freeman. The secretary problem and its extensions: a review. Internat.
Statist. Rev., 51(2):189–206, 1983.
[GM66]
John P. Gilbert and Frederick Mosteller. Recognizing the maximum of a sequence. J. Amer. Statist. Assoc., 61:35–73, 1966.
[GnZ66]
S. M. Guseı̆ n Zade. The problem of choice and the optimal stopping rule for
a sequence of independent trials. Teor. Verojatnost. i Primenen., 11:534–537,
1966.
[HY00]
Shoou-Ren Hsiau and Jiing-Ru Yang. A natural variation of the standard
secretary problem. Statist. Sinica, 10(2):639–646, 2000.
[Lin61]
D. V. Lindley. Dynamic programming and decision theory. Appl. Statist.,
10:39–51, 1961.
LITERATURVERZEICHNIS
115
[LS89]
R. Sh. Liptser and A. N. Shiryayev. Theory of martingales, volume 49 of Mathematics and its Applications (Soviet Series). Kluwer Academic Publishers
Group, Dordrecht, 1989. Translated from the Russian by K. Dzjaparidze [Kacha
Dzhaparidze].
[Mos65]
Frederick Mosteller. Fifty challenging problems in probability with solutions.
Addison-Wesley Publishing Co., Inc., Reading, Mass.-London, 1965.
[Mos75]
Leo Moser. On a problem of cayley. Scripta Math., 22:289–292, 1975.
[Muc73]
Anthony G. Mucci. On a class of secretary problems. Ann. Probability, 1:417–
427, 1973.
[Rob70]
Herbert Robbins. Optimal stopping. Amer. Math. Monthly, 77:333–343, 1970.
[Ros82]
John S. Rose. A problem of optimal choice and assignment. Oper. Res., 30:172–
181, 1982.
[ST82]
Minoru Sakaguchi and Mitsushi Tamaki. On the optimal parking problem in
which spaces appear randomly. Bull. Inform. Cybernet., 20(1-2):1–10, 1982.
[Tam82]
Mitsushi Tamaki. An optimal parking problem. J. Appl. Probab., 19(4):803–
814, 1982.
[Tam86]
Mitsushi Tamaki. A full-information best-choice problem with finite memory.
J. Appl. Probab., 23(3):718–735, 1986.
[Tam88]
Mitsushi Tamaki. Optimal stopping in the parking problem with U -turn. J.
Appl. Probab., 25(2):363–374, 1988.
[TS96]
Mitsushi Tamaki and J. George Shanthikumar. A full-information best-choice
problem with allowance. Probab. Engrg. Inform. Sci., 10(1):41–56, 1996.
Herunterladen