Zulassungsarbeit - HerrZimmermann.com

Werbung
Erste Staatsprüfung für ein Lehramt an Gymnasien 2008
Schriftliche Hausarbeit aus dem Fachgebiet Stochastik
Ungleichungen, Momente und ihre
Anwendungen
Mathematisches Institut
der Julius-Maximilians-Universität Würzburg
Verfasser: Markus Zimmermann
Fachbetreuer: PD Dr. Frank Marohn
Eingereicht am: 07.02.2007
2
Was er sah, war sinnverwirrend. In einer krausen, kind”
lich dick aufgetragenen Schrift, [...] bedeckte ein phantastischer Hokuspokus, ein Hexensabbat verschränkter Runen
die Seiten. Griechische Schriftzeichen waren mit lateinischen
und mit Ziffern in verschiedener Höhe verkoppelt, mit Kreuzen und Strichen durchsetzt, ober- und unterhalb waagrechter Linien bruchartig aufgereiht, durch andere Linien
zeltartig überdacht, durch Doppelstrichelchen gleichgewertet, durch runde Klammern zusammengefasst, durch eckige Klammern zu großen Formelmassen vereinigt. Einzelne
Buchstaben, wie Schildwachen vorgeschoben, waren rechts
oberhalb der umklammerten Gruppen ausgesetzt. Kabbalistische Male, vollständig unverständlich dem Laiensinn, umfaßten mit ihren Armen Buchstaben und Zahlen, während
Zahlenbrüche ihnen voranstanden und Zahlen und Buchstaben ihnen zu Häupten und Füßen schwebten. Sonderbare
Silben, Abkürzungen geheimnisvoller Worte, waren überall
eingestreut, und zwischen den nekromantischen Kolonnen
standen geschriebene Sätze und Bemerkungen in täglicher
Sprache, deren Sinn gleichwohl so hoch über allen menschlichen Dingen war, daß man sie lesen konnte, ohne mehr
davon zu verstehen als von einem Zaubergemurmel.“
(Aus Königliche Hoheit“ von Thomas Mann)
”
3
4
Vorwort
Mathematik, insbesondere die höhere Schulmathematik wird von vielen Menschen
als ziemlich abstrakt“ empfunden. Sie sind der Meinung, dass sie für die Wirk”
”
lichkeit“ kaum zu gebrauchen sei. Oft würden keine realen Probleme behandelt.
Aufgaben seinen meist nur auf sehr vereinfachtem Niveau möglich.
Die Wahrscheinlichkeitstheorie und die Statistik stellen hierbei eine Ausnahme dar.
Mit der vorliegenden Arbeit soll dies verdeutlicht werden. So wird unter anderem
auch ein Einblick in die Informationstheorie gegeben, welche gerade in unserer Zeit
ein wichtige Rolle spielt.
Die Arbeit richtet sich in erster Linie an Lehrer und Schüler der Gymnasialoberstufe. Es wird deshalb besonders darauf Wert gelegt, dass auch für den Schüler ein
Selbststudium mit Hilfe dieser Arbeit möglich ist. Für den Lehrer soll diese Arbeit
einen Anreiz bieten, wie er seine Schüler über den üblichen Stoff hinausführen kann.
Aus diesen Gründen ergibt sich folgender Aufbau:
Im ersten Kapitel werden die wahrscheinlichkeitstheoretischen Grundlagen beschrieben, auf denen die folgenden Kapitel aufbauen.
Danach wird eine Übersicht über verschiedene Ungleichungen in der Statistik gegeben. Außerdem wird der Begriff der Momente erklärt.
Im dritten Abschnitt werden einige ausgewählte direkte Anwendungen vorgestellt.
Die folgenden Kapitel zeigen dann umfangreichere Anwendungen auf. Hierzu ist oft
zusätzliches Grundwissen Voraussetzung, an das schrittweise herangeführt wird.
Ich hoffe, dass vor allem Schüler bei der Lektüre dieser Arbeit zu der Einsicht
kommen:
Mit Mathematik kann man wirklich etwas anfangen!
5
6
Inhaltsverzeichnis
1 Grundlagen
9
1.1
Grundlegende Bezeichnungen . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3
Wahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4
Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.5
Unabhängigige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . .
11
1.6
Indikatorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.7
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.8
Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.9
Binomial- und Normalverteilung . . . . . . . . . . . . . . . . . . . .
17
1.10 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2 Ungleichungen und Momente
21
2.1
Tschebyschow-Ungleichung . . . . . . . . . . . . . . . . . . . . . . .
21
2.2
Cauchy-Schwarz-Ungleichung . . . . . . . . . . . . . . . . . . . . . .
22
2.3
Jensen-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.4
Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.5
Momenterzeugende Funktionen . . . . . . . . . . . . . . . . . . . . .
26
3 Direkte Anwendungen
27
3.1
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . .
27
3.2
Wie man am besten Aktien kauft . . . . . . . . . . . . . . . . . . . .
29
3.3
Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4
Die Chernoff-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.5
Schätzung nach der Momentmethode . . . . . . . . . . . . . . . . . .
34
7
Inhaltsverzeichnis
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
37
4.1
Der elementar bedingte Erwartungswert . . . . . . . . . . . . . . . .
37
4.2
Die Ruinwahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . .
38
5 Mittleres Laufzeitverhalten eines Algorithmus
43
6 Spieltheorie
49
6.1
Mathematische Grundlagen . . . . . . . . . . . . . . . . . . . . . . .
49
6.2
Das Würfelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
6.3
Das Waldegrave’sche Problem . . . . . . . . . . . . . . . . . . . . . .
53
7 Einführung in die Informationstheorie
59
7.1
Mathematische Einkleidung . . . . . . . . . . . . . . . . . . . . . . .
59
7.2
Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
7.3
Code-Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
7.4
Eindeutig decodierbare Codes . . . . . . . . . . . . . . . . . . . . . .
63
Anhang
69
Literaturverzeichnis
71
8
1 Grundlagen
In diesem Kapitel werden wir uns mit einigen Grundlagen befassen, die wir später
benötigen. Der Abschnitt erhebt keinen Anspruch auf Vollständigkeit, sondern ist
auf das in den folgenden Kapiteln Notwendige zugeschnitten.
1.1 Grundlegende Bezeichnungen
Die Wahrscheinlichkeitsrechnung beschäftigt sich mit Zufallsexperimenten, welche unter vordefinierten Bedingungen ablaufen. Die Menge aller möglichen Ergebnisse bezeichnet man dabei üblicherweise als Grundraum Ω, die Anzahl der Elemente
von Ω als Mächtigkeit. Teilmengen von Ω heißen Ereignisse, einzelne Ausgänge
(= Ergebnisse) ωi Elementarereignisse.
Falls kein gesonderter Hinweis erfolgt, werden wir uns in dieser Arbeit vorwiegend
auf endliche, diskrete Grundräume beschränken.
1.2 Zufallsgrößen
Definition 1.2.1 Unter einer Zufallsgöße X versteht man eine Abbildung:
X : Ω −→ R
(1.1)
ω −→ X(ω)
(1.2)
X ordnet somit jedem Ereignis eine Zahl zu. Die Hauptanwendung von Zufallsgrößen besteht jedoch darin, dass man mit ihrer Hilfe Teilmengen des Grundraums
beschreiben kann.
Als Beispiel soll das Ereignis angegeben werden, dass X den Wert k annimmt.
Beispiel 1.2.1
{X = k} := {ω ∈ Ω : X(ω) = k}
(1.3)
9
1 Grundlagen
Im Alltag könnte X z.B. die Anzahl der Sechser beim dreimaligen Werfen eines
Würfels darstellen.
Eine Verallgemeinerung von Zufallsgrößen stellen Zufallsvariablen dar. Dabei ist
die Wertemenge von X beliebig und nicht auf R beschränkt.
Im Folgenden wird meist von Zufallsgrößen gesprochen.
1.3 Wahrscheinlichkeitsmaß
Aus dem Alltag sind uns Aussprüche wie: Mit 50-prozentiger Wahrscheinlichkeit
”
werden wir gewinnen“ oder Jeder hat die gleiche Chance“ wohl bekannt. Was ist
”
aber Wahrscheinlichkeit, was Chance?
Eine der möglichen Antworten auf diese Fragen liefert der Begriff der mathematischen Wahrscheinlichkeit.
Definition 1.3.1 Unter einem Wahrscheinlichkeitsmaß versteht man eine Funktion P die jedem Ereignis E ⊆ Ω eine reelle Zahl zuordnet und folgende Axiome
erfüllt (nach Kolmogorow1 )
(A1)
P (E) ≥ 0
Nichtnegativität
(1.4)
(A2)
P (Ω) = 1
Normiertheit
(1.5)
(A3)
P (E1 + E2 ) = P (E1 ) + P (E2 )
Additivität
(1.6)
wobei E1 und E2 disjunkte Ereignisse von Ω darstellen. Das Tupel (Ω,P) heißt endlicher Wahrscheinlichkeitsraum.
Aus (A3) ist ersichtlich, dass die Verteilung von P durch die Elementarwahrscheinlichkeiten p(ωi ) festgelegt wird.
Für die Verteilung einer Zufallsgröße folgt mit Gl. (1.3):
P (X = k) := P ({X = k}) = P ({ω ∈ Ω : X(ω) = k})
(1.7)
bzw. in Verallgemeinerung für mehrere Zufallsgrößen Xi (i=1,...,n):
P (X1 = k1 , ..., Xn = kn ) := P ({ω ∈ Ω|X1 (ω) = k1 , ..., Xn (ω) = kn })
1
(1.8)
Andrej Nikolajewitsch Kolmogorow (1903-1987), ab 1930 Professor in Moskau, leistete fundamentale Beiträge zur Wahrscheinlichkeitstheorie
10
1.4 Laplace-Verteilung
1.4 Laplace-Verteilung
Eine spezielle Verteilung stellt die sog. Laplace2 -Verteilung dar. Wir gehen dabei
von einem n-elementigen Grundraum Ω = {ω1 , ..., ωn } aus. Für die Elementarwahrscheinlichkeiten gilt dann:
p(ωi ) =
1
1
=
n
|Ω|
i = 1, .., n
(1.9)
Eine Laplace- Verteilung zeichnet sich also dadurch aus, dass jedes Elementarereignis
gleichwahrscheinlich ist. Für ein Ereignis E ⊆ Ω folgt mit Gl. (1.6):
P (A) =
|E|
|E|
=
n
|Ω|
(1.10)
1.5 Unabhängigige Zufallsgrößen
Definition 1.5.1 Gegeben sei ein Wahrscheinlichkeitsmaß P, Grundraum Ω und
Zufallsgrößen Xi : Ω → R (i=1,...,n). Wir nennen die Xi stochastisch unabhängig wenn für alle xi ∈ R gilt:
P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 ) · ... · P (Xn = xn )
(1.11)
Die stochastische Unabhängigkeit stimmt gut mit folgender Vorstellung überein:
Sind zwei Ereignisse (Zufallsvariablen legen Ereignisse fest!) unabhängig, so beeinflusst der Ausgang des einen Ereignisses nicht den Ausgang des anderen.
1.6 Indikatorfunktion
Bei Indikatorfunktionen handelt es sich um spezielle Zufallsgrößen, die wie folgt
definiert sind.
Definition 1.6.1 Sei A ⊆ Ω eine Menge. Die durch:

1, ω ∈ A
1A (ω) =
0, ω ∈
/A
(1.12)
definierte Funktion heißt Indikatorfunktion von A
2
Pierre-Simon (Marquis de) Laplace (1749- 1827), französischer Mathematiker und Astronom,
beschäftigte sich unter anderem mit der Wahrscheinlichkeitstheorie und dem Gebiet Differentialgleichungen
11
1 Grundlagen
1.7 Erwartungswert
Motivation: Bei einem Würfelspiel bezahlt man für jeden Wurf 4 Euro und erhält
als Gewinn die geworfene Zahl in Euro. Soll man das Spiel spielen?3
Solche oder ähnliche Fragen lassen sich mit dem wahrscheinlichkeitstheoretischen
Begriff des Erwartungswertes beantworten:
Definition 1.7.1 Sei X : Ω −→ R eine Zufallsgröße mit Wertemenge W = {x1 , x2 , ..., xk }
und (Ω, P ) ein endlicher Wahrscheinlichkeitsraum, dann nennt man:
E(X) :=
X
X(ω) · P ({ω}) =
k
X
xj · P (X = xj )
(1.13)
j=1
ω∈Ω
den Erwartungswert von X.
Aus der Definition ist ersichtlich, dass es ausreicht, die Wahrscheinlichkeitsverteilung von X zu kennen um E(X) zu bestimmen. Die Kenntnis der Elementarwahrscheinlichkeiten ist nicht erforderlich! Für kontinuierlich verteilte Größen geht das
Summenzeichen in ein Integral über und die Wahrscheinlichkeiten werden zu Wahrscheinlichkeitsdichten (Beispiel: Normalverteilung vgl. evtl. Abschnitt 1.9).
Setzt man im Anfangsbeispiel für X den Gewinn, so wird man leicht feststellen, dass man sein
Geld lieber behält. (So ist das leider meist bei Glücksspielen: Am Ende gewinnt immer die Bank“)
”
Physikalische Interpretation des Erwartungswertes:
Wir stellen uns die reelle Achse als masselose Stange vor. An den Stellen xi ∈ R sind Punktmassen
P
mi angebracht (i=1,...,n). Wir berechnen den Schwerpunkt S der Anordnung. Ist M = n
i=1 mi
die Gesamtmasse so gilt für die Lage von S:
S=
n
n
X
mi
1 X
mi · xi =
· xi
M i=1
M
i=1
Deutet man die xi als Werte einer Zufalssgröße X und
mi
M
als Wahrscheinlichkeit P (X = xi ) so ist
S nichts anderes als der Erwartungswert E(X).
Im Weiteren folgen einige ausgewählte Eigenschaften des Erwartungswertes. Es
wird dabei kein Anspruch auf Vollständigkeit erhoben.
3
Beispiel leicht abgewandelt entnommen aus Tietze: Mathematik in der Sekundarstufe II“; vgl.
”
Literaturverzeichnis [26]
12
1.7 Erwartungswert
Eigenschaften des Erwartungswertes
Im Folgenden sei X eine Zufallsvariable, a ∈ R und A ⊂ Ω. Dann gilt:
Lemma 1.7.1
E(a · X) = a · E(X)
(1.14)
Beweis
Laut Definition des Erwartungswertes gilt:
X
E(a · X) =
(a · X)(ω) · P (ω)
ω∈Ω
=
X
a · X(ω) · P (ω)
ω∈Ω
=a·
X
X(ω) · P (ω)
ω∈Ω
= a · E(X)
Lemma 1.7.2
E(X + Y ) = E(X) + E(Y )
(1.15)
Beweis
Folgt analog wie (1.14) aus der Definition des Erwartungswertes
Lemma 1.7.3
X ≤ Y ⇒ E(X) ≤ E(Y )
(1.16)
Beweis
Folgt analog wie (1.14) aus der Definition des Erwartungswertes
Lemma 1.7.4
E(1A ) = P (A)
(1.17)
Beweis
Wieder folgt mit der Definition des Erwartungswertes:
X
E(1A ) =
1A (ω) · P (ω)
ω∈Ω
Wegen 1A (ω) = 1 für ω ∈ A und 1A (ω) = 0 für ω ∈
/ A folgt weiter:
13
1 Grundlagen
E(1A ) =
X
1 · P (ω) = P (A)
ω∈A
Lemma 1.7.5 Für unabhängige Zufallsgrößen X, Y gilt für den Erwartungswert
die Multiplikationsregel:
E(X · Y ) = E(X) · E(Y )
(1.18)
Beweis
Die Wertebereiche von X und Y sind gegeben durch X(Ω) = {x1 , x2 , ..., xn } und
Y (Ω) = {y1 , y2 , ..., ym }. Dann gilt:
E(X · Y ) =
n X
m
X
(xi · yj ) · P (X · Y = xi · yj )
i=1 j=1
Wegen der Unabhängigkeit der Zufallsgrößen (vgl. Gl. (1.11)) folgt weiter:
E(X · Y ) =
n X
m
X
xi · yj · P (X = xi ) · P (Y = yj )
i=1 j=1
=
n
X
! 
xi · P (X = xi )
i=1
·
m
X

yj · P (Y = yj )
j=1
= E(X) · E(Y )
1.8 Varianz
Motivation: Zufallsgröße X habe die Verteilung: P (X = 0) = 1. Zufallsgröße Y die
Verteilung: P (Y = −1) = 0.5, P (Y = 1) = 0.5. Man erkennt leicht, dass beide den
gleichen Erwartungswert (E(X) = E(Y ) = 0) haben, jedoch streut Y viel stärker
um 0. Um diese Eigenschaft zu erfassen, gibt es in der Wahrscheinlichkeitsrechnung
den Begriff der Varianz:
Definition 1.8.1 Gegeben ist ein endlicher Wahrscheinlichkeitsraum (Ω,P) und eine Zufallsgröße X : Ω −→ R. Man nennt
V ar(X) := E[(X − E(X))2 ]
14
(1.19)
1.8 Varianz
die Varianz von X und
σ(X) :=
p
V ar(X)
(1.20)
die Standardabweichung.
Bemerkung:
Um den Klammerwald“ zu vermeiden schreibt man meist V ar(X) := E(X −
”
E(X))2 statt V ar(X) := E[(X − E(X))2 ].
Physikalische Interpretation der Varianz:
Wie beim Erwartungswert wollen wir auch die Varianz veranschaulichen. Wir benutzen dazu die
gleiche Anordnung einer masselosen Stange mit Punktmassen mi an Stellen xi (vgl. 1.7: Physikalische Interpretation des Erwartungswerts). Die gesamte Anordnung wird am Schwerpunkt S (=
E(X)) aufgehängt. Das Gebilde wird nun mit einer Frequenz ω in Rotation gebracht. Für den
Geschwindigkeitsbetrag vi der Punktmasse mi gilt:
vi = |xi − S| · ω
Für die kinetische Energie Ekini folgt:
Ekini =
1
1
· mi · vi2 = · mi · |xi − S|2 · ω 2
2
2
Die gesamte kinetische Energie ergibt sich durch Aufsummieren:
n
Ekin =
Ekin ∝
X
1
· ω2 ·
mi · |xi − S|2
2
i=1
n
X
mi · |xi − S|2 ∝
i=1
d.h. :
n
X
mi
· |xi − S|2 = V ar(X)
M
i=1
Drückt man Ekin mit Hilfe des Trägheitsmomentes I aus so ergibt sich:
Ekin =
1 2
Iω
2
Wir können somit festhalten, dass Var(X) proportional zum Trägheitsmomnet I ist.
Eigenschaften der Varianz
X sei eine Zufallsgröße und a,b ∈ R. Dann gilt:
Lemma 1.8.1
V ar(a · X + b) = a2 · V ar(X)
(1.21)
Beweis: Laut Definition der Varianz gilt:
V ar(a · X + b) = E(a · X + b − E(a · X + b))2
15
1 Grundlagen
Mit Gl. (1.14) und Gl. (1.15) folgt weiter:
V ar(a · X + b) = E(a · X + b − a · E(X) − b)2 = E(a · X − a · E(X))2
= E(a(X − E(X)))2 = E(a2 (X − E(X))2 ) = a2 · V ar(X)
Lemma 1.8.2
V ar(X) = E(X 2 ) − (E(X))2
(1.22)
Beweis:
Es gilt:
V ar(X) = E(X − E(X))2 = E(X 2 − 2 · X · E(X) + (E(X))2 )
Mit Gl. (1.14) und Gl. (1.15) folgt weiter:
V ar(X) = E(X 2 ) − 2 · E(X) · E(X) + (E(X))2 = E(X 2 ) − (E(X))2
Wir betrachten nun stochastisch unabhängige Zufallsgrößen Xi (i=1,2). Dann gilt
folgende Additionsformel:
Lemma 1.8.3
V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 )
(1.23)
Beweis:
Wieder folgt aus der Definition der Varianz:
V ar(X1 + X2 )
= E(X1 + X2 − E(X1 + X2 ))2
Gl.(1.15)
=
E(X1 − E(X1 ) + X2 − E(X2 ))2
= E[(X1 − E(X1 ))2 + 2 · ((X1 − E(X1 )) · (X2 − E(X2 ))
+ (X2 − E(X2 ))2 ]
Wendet man Gl.(1.14) und Gl.(1.15) an, so folgt weiter:
V ar(X1 + X2 ) = E(X1 − E(X1 ))2 + 2 · E[(X1 − E(X1 )) · (X2 − E(X2 ))]
+ E(X2 − E(X2 ))2
16
1.9 Binomial- und Normalverteilung
Wegen der Unabhängigkeit der Xi lässt sich dies nach Gl.(1.18) folgendermaßen
schreiben:
V ar(X1 + X2 )
= E(X1 − E(X1 ))2 + 2 · E(X1 − E(X1 )) · E(X2 − E(X2 ))
+ E(X2 − E(X2 ))2
Gl.(1.15)
=
V ar(X1 ) + 2 · 0 · 0 + V ar(X2 ) = V ar(X1 ) + V ar(X2 )
Wir wollen hier nochmals betonen, dass diese Additionsformel nur für unabhängige
Zufallsgrößen gilt, für abhängige kann man leicht Gegenbeispiele finden.
1.9 Binomial- und Normalverteilung
Bei der Binomial- und Normalverteilung handelt es sich um Wahrscheinlichkeitsverteilungen von Zufallsgrößen. Sie stellen wichtige, jedoch keineswegs die einzigen
Verteilungen von Zufallsgrößen dar. Wir stellen sie hier vor, damit sie uns später als
Beispiele dienen können.
Definition 1.9.1 (Binomialverteilung)
Eine Zufallsgröße X heißt binomialverteilt mit den Parametern n und p (kurz : X ∼
B(n, p)), falls gilt:
n
P (X = i) =
· pi · (1 − p)n−i
i
(1.24)
Man kann die obige Definition wie folgt interpretieren:
Gegeben ist ein Zufallsexperiment. Mit einer Wahrscheinlichkeit von p tritt dabei ein
Erfolg/ Treffer“ auf und mit einer Gegenwahrscheinlichkeit von q=1-p ein Miss”
”
erfolg/ Niete“. P(X=i) kann man dann als Wahrscheinlichkeit auffassen, dass in n
Versuchen genau i Erfolge/ Treffer auftreten (und damit natürlich (n-i) Misserfolge/
Nieten). Ein kurzes Beispiel:
Beispiel 1.9.1 Dreimaliger Wurf einer idealen Münze:
Kopf= Treffer, Zahl= Niete, p= 0,5, q=1-p=0,5
Die Wahrscheinlichkeit, in drei Würfen genau einen Treffer zu erzielen beträgt dann:
3
P (X = 1) =
· pi · (1 − p)n−i = 3 · (0, 5)1 · (0, 5)2 = 0, 375
1
17
1 Grundlagen
Definition 1.9.2 (Normalverteilung)
Gegeben ist eine Zufallsgröße X mit Erwartungswert µ und Varianz σ 2 . Man nennt
X normalverteilt (kurz: X ∼ N(µ, σ 2 )) falls für ihre Wahrscheinlichkeitsdichte f(x)
gilt:
f :R→R
1 x−µ 2
1
f (x) = √ · e− 2 ( σ )
σ 2π
(1.25)
Abbildung 1.1: Wahrscheinlichkeitsdichte der Normalverteilung mit µ = 0 und σ = 1, Quelle:
Literaturverzeichnis [10]
Die Wahrscheinlichkeit, dass X Werte im Intervall [a,b] annimmt, ist gegeben
durch:
Z
P (a ≤ X ≤ b) =
b
f (x)dx
a
Man beachte, dass es sich hierbei um eine kontinuierliche Verteilung handelt. X
nimmt Werte in ganz R an. Für n → ∞ konvergiert die Binomialverteilung gegen die
Normalverteilung. Dies ist unter anderem die Aussage des zentralen Grenzwertsatzes
der Stochastik. Er sei hier nur der Vollständigkeit halber erwähnt. Der interessierte
Leser findet ihn in jedem grundlegenden Buch zur Wahrscheinlichkeitsrechnung.
1.10 Konvexe Funktionen
Definition 1.10.1 (konvexe Funktionen)
Sei I ⊂ R ein Intervall und f : D → R. Man nennt f konvex, wenn für alle x1 , x2 ∈
D und alle λ mit 0 < λ < 1 gilt:
f [λx1 + (1 − λ)x2 ] ≤ λf (x1 ) + (1 − λ)f (x2 )
(1.26)
Demnach ist eine Funktion genau dann konvex auf einem Intervall I, wenn jede
Sekante oberhalb des Graphen verläuft (vgl. Abb. 1.2).
18
1.10 Konvexe Funktionen
Abbildung 1.2: Veranschaulichung des Konvexitätsbegriffs, Quelle: Literaturverzeichnis [7]
19
1 Grundlagen
20
2 Ungleichungen und Momente
Wir werden uns zu Beginn mit einigen ausgewählten Ungleichungen befassen. Im
Vordergrund steht dabei stets, Erwartungswerte abzuschätzen. Zum Schluss des Kapitels werden wir uns mit einer Verallgemeinerung von Erwartungswerten befassen,
den Momenten.
2.1 Tschebyschow-Ungleichung
Satz 2.1.1 (Tschebyschow1 -Ungleichung)
X sei eine Zufallsgröße. Dann gilt für alle > 0:
P (|X − E(X)| ≥ ) ≤
V ar(X)
2
(2.1)
Beweis:
Es gilt folgende Ungleichung:
|X − E(X)|2 ≥ |X − E(X)|2 · 1{ω:|X(ω)−E(X)|≥}
≥ 2 · 1{ω:|X(ω)−E(X)|≥}
Nun bilden wir auf beiden Seiten den Erwartungswert, es folgt:
E(|X − E(X)|2 ) ≥ E(2 · 1{ω:|X(ω)−E(X)|≥} )
Gl.(1.14)
V ar(X) ≥ 2 · E(1{ω:|X(ω)−E(X)|≥} )
Gl.(1.17)
V ar(X) ≥ 2 · P (|X − E(X)| ≥ )
⇐⇒
⇐⇒
1
Pafnuti Lwowitsch Tschebyschow (1821-1894), ab 1850 Professor in St. Petersburg, Hauptarbeitsgebiete: Zahlentheorie, konstruktive Funktionentheorie, Integrationstheorie, Wahrscheinlichkeitstheorie. Die Tschebychev-Ungleichung wird manchmal auch als Bienaymé-TschebychevUngleichung bezeichnet. 1853 wurde sie von Bienaymé in Verbindung mit der Methode der
”
kleinsten Quadrate“ aufgestellt. Tschebychev fand 1867, vermutlich unabhängig, einen anderen Zugang, und benutzte sie als erster zum Beweis für das Gesetz der Großen Zahlen“ (vgl.
”
Abschnitt 3.1).
21
2 Ungleichungen und Momente
⇐⇒
P (|X − E(X)| ≥ ) ≤
V ar(X)
2
Als direkte Folgerung erhält man für das Gegenereignis:
P (|X − E(X)| < ) = 1 − P (|X − E(X)| ≥ ) ≥ 1 −
V ar(X)
2
(2.2)
Die Voraussetzungen der Tschebyschow-Ungleichung sind sehr allgemein. Die Kehrseite hiervon ist, dass die Güte der Abschätzung sehr unterschiedlich sein kann. Um
keine triviale Aussage zu erhalten, muss relativ groß gewählt werden.
k-Sigma-Regel
p
Mit = k · σ (σ = V ar(X)) folgt aus Gl. (2.1) und Gl. (2.2):
P (|X − E(X)| ≥ kσ) ≤
1
k2
bzw.
P (|X − E(X)| < kσ) = P (E(X) − kσ < X < E(X) + kσ) ≥ 1 −
1
k2
Die letzte Gleichung wird oft als k-Sigma-Regel für beliebige Zufallsvariablen bezeichnet. Man kann sie wie folgt interpretieren: Die Wahrscheinlichkeit, dass eine Zufallsgröße X im Intervall ]E(X) − kσ; E(X) + kσ[ liegt, beträgt mindestens
100 · 1 − k12 %.
2.2 Cauchy-Schwarz-Ungleichung
Die Cauchy-Schwarz-Ungleichung ist eine der bekanntesten Abschätzungen, welche
nicht nur in der Stochastik ihre Anwendung hat. Auch auf anderen Gebieten, wie
z.B. der Analysis, spielt sie eine wichtige Rolle.
Satz 2.2.1 (Cauchy2 -Schwarz3 -Ungleichung)
Gegeben sind zwei Zufallsgrößen X,Y. Dann gilt:
E(|XY |) ≤
2
p
E(X 2 )E(Y 2 )
(2.3)
Augustin Louis Cauchy (1789-1857), franz. Mathematiker, Hauptarbeitsgebiete: Reelle Analysis
und Differentialgleichungen, Funktionentheorie, mathematische Anwendungen in der Physik und
3
Mechanik
Hermann Amandus Schwarz (1843-1921), deutscher Mathematiker, Hauptarbeitsgebiete: Reelle
und komplexe Analysis, Differentialgleichungen
22
2.3 Jensen-Ungleichung
Beweis: Für alle c ∈ R folgt mit Gl. (1.14) und Gl. (1.15):
0 ≤ E(X 2 )E[(c|X| + |Y |)2 ] = E(X 2 )E[c2 X 2 + 2c|X||Y | + Y 2 ]
= E(X 2 )[c2 E(X 2 ) + 2cE(|XY |) + E(Y 2 )]
= E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [E(|XY |)]2 + c2 [E(X 2 )]2 + 2cE(X 2 )E(|XY |)
= E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [cE(X 2 ) + E(|XY |)]2
Offensichtlich ist E(X 2 ) ≥ 0, wir unterscheiden daher 2 Fälle:
1.Fall: E(X 2 ) > 0. Für c wählen wir:
c=−
E(|XY |)
E(X 2 )
Damit erhalten wir im obigen Fall:
0 ≤E(X 2 )E(Y 2 ) − [E(|XY |)]2
p
⇒
E(|XY |) ≤ E(X 2 )E(Y 2 )
2.Fall: E(X 2 ) = 0
Da die Zufallsvariable X 2 nur Werte ≥ 0 annehmen kann, folgt:
P (X 2 = 0) = P {(ω ∈ Ω : X(ω) · X(ω) = 0)} = 1
d.h. für alle ω ∈ Ω gilt X(ω)=0 und damit:
P (XY = 0) = P {(ω ∈ Ω : X(ω) · Y (ω) = 0)} = 1
⇒
E(|XY |) =0 ,
womit die Behauptung wiederum erfüllt ist.
2.3 Jensen-Ungleichung
Satz 2.3.1 (Jensen4 -Ungleichung)
Sei I ⊆ R ein Intervall, f: I→ R konvex und differenzierbar. X : Ω → I sei eine
Zufallsgröße. Dann gilt:
E(X) ∈ I
4
Johan Ludwig William Valdemar Jensen (1859-1925), dänischer Mathematiker, leistete wichtige
Beiträge bei der Erforschung der Riemannschen Vermutung
23
2 Ungleichungen und Momente
und
f (E(X)) ≤ E(f (X))
(2.4)
Beweis:
(i) Aus Gleichung (1.16) folgt direkt E(X) ∈ I.
(ii) Um die Ungleichung zu beweisen, betrachten wir die Tangente
t(x) = f (E(X)) + (x − E(X))f 0 (E(X))
an f durch den Punkt (E(X),f(E(X))). Wegen der Konvexität gilt (vgl. evtl. Abb.
1.2):
f (x) ≥ t(x)
für alle x ∈ I
Mit Gl. (1.16) folgt:
E(f (X)) ≥ E(t(X))
⇔
E(f (X)) ≥ E[f (E(X)) + (X − E(X))f 0 (E(X))]
Wegen der Linearität (vgl. Gl. (1.14) und Gl. (1.15)) des Erwartungswertes ergibt
sich weiter:
E(f (X)) ≥ f (E(X)) + E(X − E(X)) · f 0 (E(X))
= f (E(X)) + (E(X) − E(X)) · f 0 (E(X))
= f (E(X))
2.4 Momente
Definition 2.4.1 (Momente)
Sei X eine Zufallsgröße. Für n ∈ N definieren wir:
E(X n )
n-tes Moment
(2.5)
E(|X|n )
n-tes absolutes Moment
(2.6)
E[(X − E(X))n ]
n-tes zentriertes Moment
(2.7)
Bei genauerer Betrachtung dieser Definition erkennen wir alte Bekannte. So ist E(X)
das erste Moment und Var(X) das zweite zentrierte Moment. In diesem Zusammenhang ist folgender Satz interessant:
24
2.4 Momente
Satz 2.4.1 Eine Verteilung ist durch die Angabe all ihrer Momente (falls diese
existieren5 ) eindeutig definiert.
Wir wollen diesen Satz nur für den Spezialfall beweisen, dass die Wahrscheinlichkeitsdichte von X in eine Potenzreihe entwickelbar ist.
Beweis:
Wir betrachten zwei Wahrscheinlichkeitsdichten f1 (x), f2 (x) die in all ihren Momenten übereinstimmen. Ihre Differenz lässt sich in eine Potenzreihe entwickeln:
f1 (x) − f2 (x) = a0 + a1 x + a2 x2 ...
Bildet man das Integral über das Quadrat dieser Differenz, so folgt weiter:
Z ∞
Z ∞
2
0≤
[f1 (x) − f2 (x)] dx =
[f1 (x) − f2 (x)](a0 + a1 x + a2 x2 ...)dx
−∞
⇐⇒
−∞
0 ≤ a0 (1 − 1) + a1 [E(X1 ) − E(X2 )] + a2 [E(X12 ) − E(X22 )] + ...
Da die Verteilungen in all ihren Momenten übereinstimmen, ergibt sich die rechte
R
Summe zu Null. Da der Integrand von [f1 (x) − f2 (x)]2 dx jedoch für alle x ∈ R
positiv ist, folgt:
f1 (x) ≡ f2 (x)
Als Beispiel und für später wollen wir hier noch die zentralen Momente der Normalverteilung N(µ, σ 2 ) berechnen.
n
Z
∞
1 x−µ 2
1
(x − µ)n · √ · e− 2 ( σ ) dx
σ 2π
−∞
Z ∞
2
1
x−µ
− 12 ( x−µ
2
(n−1)
)
σ
√
·e
=
−σ (x − µ)
· −
·
dx
σ2
σ 2π
−∞
E[(X − E(X)) ] =
Durch partielle Integration ergibt sich weiter:
∞
2
1
− 12 ( x−µ
)
σ
E[(X − E(X)) ] = 0 −
−σ (n − 1)(x − µ)
· √ ·e
dx
σ 2π
−∞
Z ∞
1 x−µ 2
1
= σ 2 (n − 1)
(x − µ)(n−2) · √ · e− 2 ( σ ) dx
σ 2π
−∞
n
5
Z
2
(n−2)
nicht bei jeder Verteilung existieren die Momente. Ein typisches
“ Beispiel,
” bei dem dies nicht der
pγ
γ
1
Fall ist, ist die Lévy-Verteilung mit: f (x) = 2π
exp
−
, δ ∈ R, x > δ, γ > 0
2(x−δ)
(x−δ)2/3
25
2 Ungleichungen und Momente
Unter dem Integral steht nun das (n-2)te Moment. Wiederholt man dieses Verfahren so gelangt man irgendwann zum ersten (n ungerade) oder zum zweiten (n
gerade) Moment. Da
E[(X − E(X))1 ] = 0
und
E[(X − E(X))2 ] = σ 2
gilt, folgt somit:

1 · 3 · 5 · ... · (n − 1) · σ n , n gerade
E(X − E(X))n =
0, n ungerade
(2.8)
2.5 Momenterzeugende Funktionen
Definition 2.5.1 (Momenterzeugende Funktionen)
Sei X eine Zufallsgröße. Unter einer momenterzeugenden Funktion versteht
man die Abbildung:
ψX : R → [0, ∞], ψX (t) = E(etX ) t ∈ R
(2.9)
Zur Namensgebung:
Wir betrachten folgende Menge:
D(ψX ) = {t ∈ R : ψX (t) < ∞}
Man kann zeigen, dass für alle inneren Punkte t ∈ D(ψX ) gilt6 :
(n)
ψX (t) = E(X n etX ), n ∈ N
(n)
Wobei ψX die n-te Ableitung von ψX sein soll. Ist 0 ein innere Punkt von D(ψX ),
so folgt für t=0
(n)
E(X n ) = ψX (0)
(2.10)
Mit Hilfe von ψX ist es somit möglich, die n-ten Momente zu erzeugen“.
”
6
Ein Beweis findet sich u.a. in Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturver”
zeichnis [12]
26
3 Direkte Anwendungen
Wir haben uns nun alle Grundlagen erarbeitet, um uns jetzt mit Anwendungen
zu beschäftigen. In diesem Kapitel wird deutlich werden, wozu man Momente und
Ungleichungen gebrauchen kann, und warum diese so wichtig sind.
3.1 Das schwache Gesetz der großen Zahlen
Eine der wichtigsten Anwendungen der Tschebyschow-Ungleichung ist von innermathematischer Natur. Wir wollen in diesem Abschnitt das schwache Gesetz der großen
Zahlen vorstellen und beweisen. Anschaulich gesprochen ist dies die Rechtfertigung
von Massenerscheinungen. Als Beispiel kann man unsere Gesellschaft heranziehen.
Jedes Individuum ist einzigartig. Jedoch ist es oft möglich, über eine große Anzahl
von Individuen, in bestimmten Situationen, eine Aussage zu treffen. Der (inoffizielle)
Sommerschlussverkauf, die Stimmabgabe bei Wahlen, die Benutzung von Autobahnen in der Ferienzeit, das Konsumverhalten von Industriegesellschaften..., all dies
sind solche Situationen. Um den Sachverhalt systematisch zu untersuchen, nehmen
wir folgende Einkleidung vor.
Motivation:
Wir werfen einen Würfel n-mal und notieren dabei die Häufigkeit hi (i=1,...,6) der
einzelnen Zahlen. Anschließend berechnen wir den Mittelwert. Für große n werden
wir feststellen, dass dieser sich der Zahl 3,5 annähert. Dies ist die gleiche Zahl, die
wir erhalten, wenn wir den Erwartungswert eines (idealen) Würfelwurfes berechnen.
Verallgemeinern wir den Sachverhalt. Wir führen einen Versuch n-mal durch. Die
Zufallsgröße Xi beschreibt dabei den Ausgang des i-ten Experiments (i=1,...,n). Wir
wollen nun wissen, inwieweit sich Erwartungswert und Mittelwert unterscheiden.
Satz 3.1.1 (Das schwaches Gesetz der großen Zahlen)
Xi (i=1,...,n) seien stochastisch unabhängige Zufallsgrößen mit E(Xi )=µ und V ar(Xi ) =
27
3 Direkte Anwendungen
σ 2 . Für jedes > 0 gilt dann:
lim P
n→∞
!
n
1 X
Xi − µ ≥ = 0
·
n
i=1
Beweis:
Wir definieren uns die Zufallsgröße Z :=
1
n
Pn
i=1 Xi .
Für den Erwartungswert von
Z folgt:
!
n
1X
Gl.(1.14) 1
=
E(Z) = E
Xi
·E
n
n
i=1
!
n
X
1
= ·
µ =µ
n
n
X
!
Xi
Gl.(1.15)
=
i=1
1
·
n
n
X
!
E(Xi )
i=1
i=1
Weiter ergibt sich für die Varianz:
!
!
n
n
n
X
1X
Gl.(1.21) 1
Gl.(1.23) 1 X
=
Xi
V
ar
=
X
V ar(Xi )
V ar(Z) = V ar
i
n
n2
n2
i=1
i=1
i=1
σ2
1
= 2 · n · σ2 =
n
n
Nun haben wir alles zusammen, um die Tschebyschow-Ungleichung anwenden zu
können. Für alle > 0 gilt somit:
P (|Z − E(Z)| ≥ ) ≤
⇐⇒
P
V ar(Z)
2
n
!
1 X
σ2
Xi − µ ≥ ≤
n
n · 2
i=1
Für n → ∞ folgt die Behauptung.
Für große n (mathematisch: n → ∞) stimmt somit der Mittelwert mit dem Erwartungswert überein. Handelt es sich bei den Xi um Indikatorfunktionen, so erhalten
wir als Folgerung:
Satz 3.1.2 (Das Bernoulli’sche1 Gesetz der großen Zahlen)
Ai (i=1,...,n) seien unabhängige Indikatorfunktionen mit P (Ai ) = p, dann gilt für
alle > 0:
1


n
1 X
lim P  ·
1Ai − p ≥  = 0
n→∞
n j=1
(3.1)
Jakob I. Bernoulli (1655- 1705), schweizer Mathematiker und Physiker, leistete wesentliche Beiträge zur Wahrscheinlichkeitstheorie
28
3.2 Wie man am besten Aktien kauft
Bemerkungen:
1. Dieser Satz ist deswegen so wichtig, weil er uns gestattet, unbekannte Wahrscheinlichkeiten näherungsweise zu bestimmen. Wir wollen dies nochmals betonen:
Aus Erfahrung weiß man, dass sich die relativen Häufigkeiten stabilisieren. Intuitiv
würde man sie als Wahrscheinlichkeit ansetzen. Dies ist jedoch nur Erfahrung und
somit nur Vermutung, folglich kein Wissen. Der Satz von Bernoulli geht dagegen
von den Axiomen des Wahrscheinlichkeitsbegriffs aus und versucht somit das ganze
etwas systematischer anzugehen.
2. Beim Lotto oder Würfeln wird das Gesetz der großen Zahlen oft falsch verstanden. Es wird gefolgert, dass Werte, welche in der Vergangenheit selten gefallen sind,
in der Zukunft gehäuft auftreten müssen. Dies ist jedoch falsch! Mit wachsender
Ereignisanzahl n werden Defizite“ unterdrückt. Ein kurzes Beispiel2 : Man würfelt
”
1200 mal. Dabei treten nur“ 100 Sechser auf. Man könnte meinen, dass dies 100
”
zu wenig sind. Dies ist jedoch ein Missverständnis. Die (absolute) Abweichung kann
sogar noch steigen. Die relative Häufigkeit 100/n verschwindet mit wachsendem n.
Über absolute Häufigkeiten macht das Gesetz der großen Zahlen keine Aussagen.
Der Zufall hat kein Gedächtnis, er weiß nicht, welche Werte oft oder weniger oft in
der Vergangenheit aufgetreten sind.
3.2 Wie man am besten Aktien kauft
Im letzten Kapitel haben wir die Jensen-Ungleichung kennen gelernt. Wir wollen nun
eine der Anwendungen aus dem Bereich der Wirtschaft vorstellen3 . Dazu betrachten
wir folgendes Szenario:
Sebastian möchte soviel Aktien wie möglich in einem Jahr kaufen. Diese kosten je
nach Monat ki (i=1,...,12) Euro. Er hat jedoch nur eine begrenzte Menge n an Geld,
das er in Aktien investieren will. Ihm stehen zwei Möglichkeiten zur Verfügung, wie
er dieses ausgeben kann. Zum einen kann er jeden Monat gleich viele Aktien kaufen
(= Möglichkeit a)). Zum anderen kann er sich jeden Monat vornehmen, die gleiche
Menge an Geld auszugeben, d.h. die Menge an gekauften Aktien variiert evtl. in
jedem Monat (= Möglichkeit b)). Auch wenn sich kein Börsianer in der realen Welt
so starr verhalten würde, so erscheint die Frage für den Wirtschafts-Laien durchaus
interessant. Wir wollen deshalb die beiden Möglichkeiten gegenüberstellen.
2
3
entnommen aus Mittelbach: Statistik“; vgl. Literaturverzeichnis [21]
”
Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver”
zeichnis Verzeichnis [22]
29
3 Direkte Anwendungen
Möglichkeit a):
Pro Monat werden xa Aktien gekauft. Da seine Geldmenge n beträgt, muss somit
gelten:
12
X
xa · ki = n
⇒
n
xa = P12
i=1 ki
i=1
In einem Jahr kann man sich somit
12n
Aa := 12 · xa = P12
i=1 ki
Aktien leisten.
Möglichkeit b):
Man will immer den gleichen Betrag ausgeben. Pro Monat hat man somit eine
(i)
Geldmenge von n/12 zur Verfügung. Damit kann man sich xb
Monat leisten:
(i)
xb =
Aktien im i-ten
n/12
n
=
ki
12 · ki
In einem Jahr macht das:
Ab :=
12
X
(i)
xb
=
i=1
12
X
i=1
12
n
n X 1
=
12 · ki
12
ki
i=1
Aktien. Welche Methode ist nun günstiger? Man könnte nun versuchen, die beiden
Ausdrücke miteinander zu vergleichen. Man kann jedoch auch die Jensen-Ungleichung
anwenden. Als Zufallsgröße X wählen wir dabei die Aktienkosten pro Monat. Der
Wert ki soll dabei mit einer Wahrscheinlichkeit von 1/12 angenommen werden. Als
Funktion f definieren wir f : ]0, ∞[ → R, f (x) := x−1 . Wegen f 00 (x) = 2x−3 > 0
für x ∈ ]0, ∞[ verläuft jede Sekante im Intervall I :=]0, ∞[ oberhalb des Graphen.
Damit ist f konvex auf I. Hat man den Graphen der 1/x-Funktion vor Augen, so ist
dies auch anschaulich verständlich. Damit haben wir alle Voraussetzungen erfüllt,
um die Ungleichung von Jensen anwenden zu dürfen. Es folgt:
1
1
1
f (E(X)) ≤ E(f (x)) ⇐⇒
≤ E( ) ⇐⇒ P12
E(X)
X
i=1 ki ·
Erweitert man die Ungleichung mit n so ergibt sich:
12n
Aa = P12
12
n X 1
≤
= Ab
12
k
i=1 ki
i=1 i
Sebastian sollte somit der Möglichkeit b) vorziehen.
30
1
12
12
X
1 1
≤
·
ki 12
i=1
3.3 Schiefe und Exzess
3.3 Schiefe und Exzess
Erwartungswert und Varianz können durch Momente ausgedrückt werden, die Verteilungen charakterisieren. Es gibt jedoch noch weitere Größen. Zwei der wichtigsten
sind Schiefe und Exzess. Sie entstehen durch Kombination von Momenten. Befassen
wir uns zuerst mit der Schiefe S. Ganz allgemein lässt sich definieren:
Definition 3.3.1 (Schiefe)
Unter der Schiefe g1 einer Zufallsgröße X verstehen wir:
g1 =
M3
3/2
M2
=
E[(X − E(X))3 ]
V ar(X)3/2
(3.2)
Wobei Mi := E((X − E(X))i ) (i = 2, 3) die i-ten zentralen Momente bezeichnen.
Die Schiefe ist ein Maß für die Symmetrie der Verteilung. Betrachten wir Gl. (3.2),
so erkennen wir: Ist die Verteilung von X symmetrisch zum Mittelwert E(X), so ist
die Schiefe gleich Null. Das wohl bekannteste Beispiel mit g1 = 0 ist die Normalverteilung. Mit Gl. (2.8) kann dies leicht bestätigt werden. g1 < 0 bezeichnet man als
linksschief, g1 > 0 als rechtsschief.
Ohne eine exakte Rechnung durchzuführen, kann man oft am äußeren Erscheinungsbild des Verteilungsgraphen entscheiden, ob die Verteilung rechts- oder linksschief
ist. Meist gelten folgende Regeln:
Bei rechtsschiefen Verteilungen beobachtet man Werte, die kleiner als der Mittelwert
sind häufiger, als solche, die größer sind. Das Maximum der Verteilung befindet sich
links vom Mittelwert und der rechte Teil des Graphen ist flacher als der linke. Bei
linksschiefen Verteilungen gilt genau das Umgekehrte. Abbildung 3.1 veranschaulicht dies. Im Anhang finden sich weitere diskrete Beispiele.
Eine typische positive Schiefe ist im allgemeinen bei dem Beispiel vom Pro-Kopf
Einkommen in einem Land gegeben. Es gibt im Allgemeinen nicht sehr viele Menschen mit sehr hohem Einkommen, jedoch viele mit niedrigem. Wegen der dritten
Potenz in der Schiefe-Definition gewinnen die wenigen hohen Werte ein starkes Gewicht und wir erhalten ein positives Schiefemaß.
Kommen wir nun zum Exzess einer Verteilung:
Definition 3.3.2 (Exzess)
Unter dem Exzess g2 einer Zufallsgröße X verstehen wir:
g2 =
M4
E[(X − E(X))4 ]
−
3
=
−3
V ar(X)2
M22
(3.3)
31
3 Direkte Anwendungen
Abbildung 3.1: Links- und rechtsschiefe Verteilung, Quelle: Literaturverzeichnis [17]
Der Exzess (auch Wölbung genannt) ist so definiert, dass er für die Normalverteilung den Wert Null ergibt. Auch dies kann mit Gl. (2.8) leicht bestätigt werden.
Alle anderen Verteilungen beziehen sich hierauf.
Meist gilt:
Bei positivem Exzess ist die Kurve der Verteilung spitzer“ (im Vergleich zur Nor”
malverteilung). Bei negativem Exzess ist sie stumpfer“. Abbildung 3.2 soll dies
”
veranschaulichen. Im Anhang befinden sich wieder diskrete Beispiele.
Abbildung 3.2: Exzess verschiedener Verteilungen, Quelle: Literaturverzeichnis [17]
Wir wollen hier betonen, dass es ohne Probleme möglich ist, Verteilungen zu
finden, welche in Erwartungswert, Varianz, Schiefe und Exzess übereinstimmen.
Erst durch die Angabe aller Momente (vgl. Satz 2.4.1) ist eine Verteilung eindeutig
festgelegt.
32
3.4 Die Chernoff-Schranke
3.4 Die Chernoff-Schranke
Mit Hilfe der Chernoff4 -Schranke lässt sich die Wahrscheinlichkeit von Zufallsvariablen nach oben abschätzen, ohne dass man die Verteilung derselben kennt. Anstelle
dieser benötigt man die momenterzeugenden Funktionen. Betrachten wir den Sachverhalt genauer:
Wir stellen uns n unabhängige Zufallsgrößen X1 , ..., Xn vor. Zusätzlich seien diese
identisch verteilt. Als Beispiel können wir uns vorstellen, dass die Xi alle binomial
verteilt (s. Punkt 1.9) sind. Betrachtet man Gleichung (2.9), so erkennt man, dass sie
deshalb alle die gleiche momenterzeugende Funktion ψX1 (t) = ... = ψXn (t) =: ψX (t)
besitzen. Wir setzen voraus, dass ψX (t) in [0, γ], γ ∈ R+ existiert. Wir definieren
nun die Summe Sn der Zufallsvariablen
Sn :=
n
X
Xi
i=1
und das Ereignis:
A := {Sn ≥ λ}
Offensichtlich gilt dann für alle t ≥ 0:
etSn ≥ etλ · 1A
Wir bilden nun auf beiden Seiten den Erwartungswert:
E(etSn ) ≥ etλ P (A)
Wegen der Unabhängigkeit der Zufallsgrößen gilt für den Erwartungswert die Multiplikationsregel (vgl. Gl. (1.18)) und man schreibt weiter:
E(etX1 ) · ... · E(etXn ) ≥ etλ P (A)
⇐⇒
(ψX (t))n ≥ etλ P (Sn ≥ λ)
Wir definieren: K(t) := ln[ψX (t)] d.h. ψX (t) = eK(t) und damit:
P (Sn ≥ λ) ≤ en·K(t) · e−t·λ = exp [−tλ + nK(t)]
Indem man das Infimum bildet, folgt hieraus die Chernoff-Schranke:
P (Sn ≥ λ) ≤ inf exp [−tλ + nK(t)]
t∈[0,γ]
4
Herman Chernoff (*1923), US-amerikanischer Mathematiker, leistete fundamentale Beiträge zur
Statistik
33
3 Direkte Anwendungen
3.5 Schätzung nach der Momentmethode
Wir stellen uns ein Zufallsexperiment vor, welches mehrmals wiederholt wird und
dabei die Ausgänge {x1 , x2 , ..., xn } hat. Mathematisch bedeutet dies, dass wir eine
Zufallsgröße X mit den Werten {x1 , x2 , ..., xn } haben. Die Verteilung von X beinhaltet einen unbekannten Parameter θ. Unser Ziel ist es, diesen Parameter möglichst
gut abzuschätzen. Je nach Parameter bzw. Verteilung gibt es hierfür verschiedene
Methoden. Im Rahmen dieser Zulassungsarbeit möchten wir jedoch nur eine vorstellen: Die Schätzung nach der Momentmethode. Hierbei wird der gesuchte Parameter
durch Momente ausgedrückt. Die Abschätzung erfolgt durch Verwendung von empirischen Momenten. Das k-te empirische Moment ist definiert als:
n
1X k
xi
mk :=
n
i=1
Anhand des folgenden Beispiels soll der Sachverhalt veranschaulicht werden:
Wir betrachten eine Poisson5 -verteilte Zufallsgröße X:
P (X = k) = e−λ ·
λk
,
k!
k ∈ N0 , λ > 0,
λ ist dabei der abzuschätzende Parameter. Man kann leicht beweisen, dass für den
Erwartungswert von X gilt:
E(X) = V ar(X) = λ
(3.4)
Um an unseren Parameter λ zu gelangen, können wir also den Erwartungswert
abschätzen. Dies geschieht hier durch den Mittelwert x̄ der Beobachtungen xi (i=1,...,n),
bzw. durch das erste empirische Moment der Verteilung von X.
n
1X
x̄ =
xi
n
i=1
D.h. λ ' m1 .
Eine andere Möglichkeit, um an eine Schätzung für λ zu gelangen, ist die Varianz
von X zu berechnen (vgl. Gl. (3.4)). Mit Lemma 1.22 folgt:
V ar(X) = E(X 2 ) − (E(X))2
Als Schätzung erhalten wir somit:
λ̃ ' m2 − m21
5
Siméon Denis Poisson (1781- 1840), leistete wichtige Beiträge zur math. Physik und zur Analysis
34
3.5 Schätzung nach der Momentmethode
Offensichtlich gilt λ̃ 6= λ. Was ist nun die bessere Schätzung? Wir verraten, dass
es λ̃ ist, gehen jedoch nicht weiter darauf ein. Die Stärke der Momentmetheode ist
ihr breiter Anwendungsbereich. Ihre Schwäche ist, dass sie nicht in jedem Fall zum
besten Ergebnis führt.
35
3 Direkte Anwendungen
36
4 Ruinwahrscheinlickeit von
Versicherungsgesellschaften
Wir werden in diesem Kapitel eine weitere Anwendung der Tschebyschow-Ungleichung
vorstellen. Auch die momenterzeugenden Funktionen sowie die Jensen-Ungleichung
werden uns begegnen. Unsere Ziel ist es, die Bankrottwahrscheinlichkeit1 eines Unternehmens zu bestimmen. Bevor wir damit beginnen können, benötigen wir jedoch
noch den Begriff des elementar bedingten Erwartungswertes.
4.1 Der elementar bedingte Erwartungswert
Definition 4.1.1 Gegeben ist eine Zufallsgröße X : Ω → R auf einem Grundraum
Ω und ein Ereignis B ⊆ Ω. Unter dem elementar bedingten Erwartungswert2
E(X|B) einer Zufallsgröße X, unter der Bedingung B, verstehen wir:
E(X|B) :=
E(X · 1B )
P (B)
Anschaulich gesprochen fragt man nach dem Erwartungswert von X unter dem
Aspekt, dass das Ereignis B eingetreten ist. Wir besprechen zwei Extremfälle:
1.Fall: B = Ω
⇒
E(X|B) = E(X)
Wir erhalten den gewöhnlichen Erwartungswert. Dies verwundert nicht. Wir wissen, dass X im Experiment einen Wert in X(Ω) angenommen hat. Ω ist das sichere
Ereignis. Es tritt immer ein. Durch die Angabe, dass B eingetreten ist, erhalten
1
Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver”
zeichnis [22]
2
Die Theorie hängt eng mit der über bedingte Wahrscheinlichkeiten von Ereignissen zusammen
(Zufallgrößen definieren Ereignisse!). Um den Rahmen nicht zu sprengen, müssen wir den interessierten Leser hierbei auf Sekundärliteratur verweisen. Eine gute und einfache Abhandlung
findet sich z.B. in Henze: Stochastik für Einsteiger“; vgl. Literaturverzeichnis [10]
”
37
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
wir keine zusätzliche Information. Alles, was wir wissen, war schon zuvor bekannt.
Warum sollte sich also der Erwartungswert ändern?!
2.Fall: B = ω̃ mit ω̃ ∈ Ω
xi := X(ω̃) und p := p(ω̃), es folgt:
X
E(X · 1B ) =
X(ω) · 1B (ω) · P ({ω}) = xi · p
⇒
E(X|B) =
ω∈Ω
xi · p
= xi
p
Der Erwartungswert bezieht sich auf ein konkretes Element im Wertebereich.
Auch dies stimmt mit unserer Vorstellung überein. Durch die Vorgaben wissen wir,
dass X einen Wert in X(B) = xi angenommen hat. Somit muss der Erwartungswert
xi sein.
Nun steht unserem eigentlichen Ziel nichts mehr im Wege.
4.2 Die Ruinwahrscheinlichkeit
Wir gehen von folgenden Anfangsbedingungen aus: Eine Versicherungsgesellschaft
besitzt ein Anfangskapital a ≥ 0. Wir definieren nun unabhängige Zufallsgrößen Gj
(j ∈ N) mit Werten in R. Gj soll den Gewinn bzw. Verlust des Unternehmens im
j-ten Jahr bezeichnen. Sie besitzen alle die gleiche Wahrscheinlichkeitsverteilung.
P
Somit ist Kn := a + nj=1 Gj eine weiter reellwertige Zufallsgröße, die das Kapital
im n-ten Jahr beschreibt. Als weitere Annahme setzen wir noch voraus, dass es ein
R > 0 ( R ∈ R) gibt, mit
E(e−RGj ) = 1
(4.1)
Sobald nun die Größe Kn unter 0 fällt, ist die Firma pleite. N:=inf{n ∈ N : Kn <
0} bezeichnet damit den Zeitpunkt des Ruins. Wir wollen nun zeigen, dass ein
eventueller Ruin d.h. die Menge {N < ∞} mit der Wahrscheinlichkeit
P ({N < ∞}) =
e−Ra
E(e−RKN |{N < ∞})
(4.2)
eintritt.
Beweis:
Vorüberlegungen: Es gelten folgende Gleichungen
E(e−RKn ) = e−Ra ,
E(e−R(Kn −Km ) ) = 1,
38
n∈N
m = 1, ..., n
(4.3)
(4.4)
4.2 Die Ruinwahrscheinlichkeit
Da die Gj stochastisch unabhängig sind, folgen diese beiden Gleichungen
unmittelbar mit der Multiplikationsregel (vgl. Gl.(1.18)) und Gl.(4.1).
Für den Erwartungswert E(Gj ) gilt außerdem:
E(Gj ) ≥ 0
(4.5)
Dies folgt unmittelbar aus der Jensen-Ungleichung, angewendet auf die
Zufallsgröße Gj , mit f (x) = e−Rx . (Diese fordert, dass e−RE(Gj ) =
f (E(Gj )) ≤ E(f (Gj )) = 1 gilt, woraus die Behauptung folgt.)
Wir betrachten nun die rechte Seite von Gl. (4.2). Nach Gl. (4.3) gilt für den
Zähler:
e−Ra = E(e−RKn ) = E(e−RKn · 1{N ≤n} ) + E(e−RKn · 1{N >n} )
(4.6)
Wir zeigen nun, dass der zweite Summand für n → ∞ verschwindet:
Zuerst zwei Definitionen:
σ 2 := V ar(Gj )
µ := E(Gj )
Nun gilt:
E(e−RKn · 1{N >n} ) = E(e−RKn · 1{N >n}∩{Kn ≤a+nµ−σn2/3 } )
+ E(e−RKn · 1{N >n}∩{Kn >a+nµ−σn2/3 } )
Da für N > n, Kn ≥ 0 gilt, kann man mit der Monotonie des Erwartungswertes
(vgl. Gl. (1.16) weiter abschätzen:
2/3 )
E(e−RKn · 1{N >n} ) ≤ E(1{N >n}∩{Kn ≤a+nµ−σn2/3 } ) + E(e−R(a+nµ−σn
)
2/3 )
≤ E(1{Kn ≤a+nµ−σn2/3 } ) + e−R(a+nµ−σn
2/3 )
≤ P {Kn ≤ a + nµ − σn2/3 } + e−R(a+nµ−σn
(4.7)
Für n → ∞ verschwindet der zweite Summand. Dies wollen wir kurz begründen.
Es gilt:
a + nµ − σn2/3 = n ·
a
+µ−σ
n
n2
n3
1/3 !
=n·
a
+µ−σ
n
1/3 !
1
n
39
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
Beachtet man, dass µ ≥ 0 gilt (vgl. Gl.(4.5)), so erkennt man leicht, dass dieser Term
für n → ∞ über alle Grenzen wächst. Wegen R > 0 strebt folglich e−R(a+nµ−σ
2 n2/3 )
gegen 0.
Betrachten wir nun den ersten Summanden von Gl. (4.7) genauer. Hier hilft uns
die Tschebyschow-Ungleichung (vgl. Gl.(2.1)) weiter. Mit
= σn2/3
X = Kn
E(X) = a + nµ
V ar(X) = nσ 2
folgt:
3 1/3 1/3
nσ 2
n
1
nσ 2
=
=
=
n4
n
(σn2/3 )2
σ 2 n4/3
1/3
1
2/3
⇒ P (Kn − (a + nµ) ≤ −σn ) ≤
n
1/3
1
⇔ P (Kn ≤ a + nµ − σn2/3 ) ≤
n
P (|Kn − (a + nµ)| ≥ σn2/3 ) ≤
Für n → ∞ geht die Wahrscheinlichkeit gegen 0, und damit auch der erste Summand
von Ungleichung (4.7).3 Aus Gleichung (4.6) folgt deshalb:
e−Ra = lim e−Ra = lim E(e−RKn · 1{N ≤n} )
n→∞
n→∞
= lim
n→∞
= lim
n→∞
= lim
n→∞
n
X
m=1
n
X
m=1
n
X
E(e−RKn · 1{N =m} )
E(e−RKn · eRKm −RKm · 1{N =m} )
E(e−R(Kn −Km ) · e−RKm · 1{N =m} )
m=1
Man überlegt sich leicht, dass die zwei Zufallsgrößen (e−RKm ·1{N =m} ) und e−R(Kn −Km )
3
Der aufmerksame Leser wird sich vielleicht fragen, wozu wir das σ bei der Wahl von benötigen.
Die Abschätzung würde auch mit = n2/3 funktionieren. Das σ besitzt nur kosmetische“
”
Gründe.
40
4.2 Die Ruinwahrscheinlichkeit
stochastisch unabhängig sind. Mit Gl. (4.4) folgt daher weiter:
e−Ra = lim
n
X
n→∞
=
=
∞
X
m=1
∞
X
E(e−RKm · 1{N =m} ) · E(e−R(Kn −Km ) )
m=1
E(e−RKm · 1{N =m} ) · 1
E(e−RKN · 1{N =m} )
m=1
= E(e−RKN · 1{N <∞} )
(4.8)
Kommen wir nun zum Nenner von Gl. (4.2). Aus der Definition des elementar
bedingten Erwartungswertes ergibt sich:
E(e−RKN |{N < ∞}) =
E(e−RKN · 1{N <∞} )
P ({N < ∞})
(4.9)
Mit Gl.(4.8) und (4.9) folgt nun:
E(e−RKN · 1{N <∞} )
e−Ra
= P ({N < ∞})
=
E(e−RKN ·1{N <∞} )
E(e−RKN |{N < ∞})
P ({N <∞})
Wegen KN < 0 gilt folgende Ungleichung:
P ({N < ∞}) ≤ e−Ra
Hier liegt die eigentliche Bedeutung für die Anwendung. Mit obiger Ungleichung ist
es relativ einfach, die Ruinwahrscheinlichkeit abzuschätzen.
41
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
42
5 Mittleres Laufzeitverhalten eines
Algorithmus
Computer können dem Menschen viele stupide Rechnungen abnehmen. Aufgaben,
die ein festes Muster haben, sind programmierbar, man spricht von Algorithmen.
So ist man z.B. immer auf der Suche nach neuen Primzahlen, die vor allem in der
Kryptographie (= mathematische Verschlüsselungstechniken, welche die Sicherheit
von Informationen betreffen) wichtige Anwendungen haben. Solche Verfahren haben
jedoch oft eine sehr lange Laufzeit. Man fragt sich deshalb im Vorfeld, ob sich der
Algorithmus lohnt“, oder ob er zu zeitaufwendig ist und man deshalb einen ande”
ren verwenden soll. Man interessiert sich also für das mittlere Laufzeitverhalten eines
Algorithmus. An einem einfachen Beispiel1 soll ein Ermittlungsverfahren vorgestellt
werden:
(n)
(n)
(n)
Gegeben ist das Tupel ω (n) = (ω1 , ..., ωn ), wobei die ωi
(i=1,...,n) paarwei(n)
se verschieden sind. Ziel ist die Ermittlung des Maximums m := maxi ωi
und des
zugehörigen Index j∈ {1, ..., n}. Man kann den Algorithmus wie folgt schreiben:
j := n; m := ωn(n) ; k := n − 1;
[Initialisierung]
1 : if k = 0 then write (j, m)
else
if
(n)
ωk
≤ m then goto 2
else
j := k, m :=
(n)
ωk ;
[Austauschschritt]
2 : k := k − 1
goto 1
1
entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis [12]
”
43
5 Mittleres Laufzeitverhalten eines Algorithmus
Drei kleine Beispiele zur Veranschaulichung des Algorithmus:
1. Beispiel: ω (1) = (3)
Initialisierung: j:=1, m:=3; k:=0
Laut 1 sind wir fertig und das Ergebnis lautet (1,3). Dies erscheint logisch, die Kette
besteht ja nur aus einem Element.
2. Beispiel: ω (2) = (1, 2)
Initialisierung: j:=2, m:=2; k:=1
k=1 ist also ungleich Null. Weiter gilt 1 = ω1 ≤ m = 2. Wir gelangen somit direkt zu
2. Dort wird das neue k zu k:=k-1=0 definiert. Bei 1 ergibt sich damit als Ergebnis
(2,2)
3. Beispiel: ω (2) = (2, 1)
Initialisierung: j:=2, m:=1; k:=1
Wieder ist k 6= 0. Nun gilt aber 2 = ω1 6≤ m = 1, d.h. wir gelangen zum Austauschschritt. Dieser definiert j:=1, m:=2. Weiter geht es mit 2. Hier wird k zu k:=k-1=0.
Wieder bei 1 angelangt erkennen wir, dass das Ergebnis (1,2) lautet.
Die Laufzeit dieses Algorithmuses hängt von der mittleren Anzahl der Austausch(n)
schritte ab. Offensichtlich ist nur die Anordnung der ωi ’s dabei von Bedeutung und
ihre relative Größe zueinander, nicht deren absolute Größe. Wir können deshalb
die mathematische Einkleidung vornehmen, dass ω (n) eine Permutation der Zahlen
1,...,n ist. Jede Permutation soll dabei gleich wahrscheinlich sein. Als Grundraum Ω
wählen wir deshalb:
(n)
Ωn = {ω (n) = (ω1 , ..., ωn(n) ) : ω (n) n-Permutation von (1, ..., n) ohne Wiederholung}
Nach den Regeln der Kombinatorik gilt für die Mächtigkeit von Ωn , |Ωn | = n!.
Als Wahrscheinlichkeitsverteilung wählen wir die Laplace-Verteilung d.h.:
1
und
n!
|A|
Pn (A) =
, A⊆Ω
n!
Pn (ω (n) ) =
Die Zufallsgröße
Xn : Ωn → N
soll die Anzahl der Austauschschritte bei gegebenem ω angeben. Offensichtlich gilt
für die Wertemenge W von Ωn : W = {0, ..., n − 1}
Um die mittlere Anzahl der Austauschritte (und damit einen Anhaltspunkt für
das mittlere Laufzeitverhalten des Algorithmus) zu bestimmen, wollen wir E(Xn )
berechnen. Durch Betrachtung des Algorithmus erkennt man folgende Darstellung
von Xn :
44

Xn−1 (ω̃ (n−1) ) + 1, ω (n) = n
1
Xn (ω (n) ) =
(n)
X
(n−1)
(ω̃
), ω 6= n
X1 = 0,
n−1
(5.1)
1
Dabei ist ω̃ (n−1) die Permutation von (1,...,n-1), welche folgende Äquivalenz erfüllt:
(n)
(n)
(n−1)
ωi+1 < ωj+1 ⇐⇒ ω̃i
(n−1)
< ω̃j
für alle i,j (i6=j) ∈ {1, ..., n − 1}
In Worten: Die Zahlen in der ω̃-Anordnung müssen zueinander in der gleichen Anordnung stehen wie die entsprechenden in der ω-Anordnung.
Drei Beispiele sollen den Übergang von ω̃ (n) zu ω̃ (n−1) veranschaulichen:
1. Beispiel: ω (3) = (1, 3, 2) → ω̃ (2) = (2, 1)
2. Beispiel: ω (4) = (3, 1, 2, 4) → ω̃ (3) = (1, 2, 3)
3. Beispiel: ω (5) = (3, 2, 5, 1, 4) → ω̃ (4) = (2, 4, 1, 3)
Zur Veranschaulichung von Gl.(5.1) diskutieren wir kurz den Fall n=1 und n=2:
1. Fall: n=1
Laut (5.1) gilt X1 (ω (1) ) = 0, das heißt, es wäre kein Austauschschritt nötig. Dies
(1)
stimmt (natürlich) auch, da ω (1) = (ω1 ) = (1) nur ein Tupel“ von einer Zahl ist
”
und deshalb schon bei 1 (vgl. Algorithmus) das Ergebnis geliefert wird.
2. Fall: n=2
Hierbei können folgende zwei Unterfälle auftreten:
(2)
(2)
a) ω (2) = (ω1 , ω2 ) = (1, 2) oder
b) ω
(2)
=
(2)
(2)
(ω1 , ω2 )
= (2, 1)
Bei a) ist offensichtlich kein Austauschschritt nötig. Bei b) dagegen einer. Dies wird
durch (5.1) bestätigt:
a) X2 (ω (2) ) = X1 (ω̃ (1) ) = 0,
b) X2 (ω
(2)
) = X1 (ω̃
(1)
da
(2)
1 = ω1
) = 0 + 1 = 1,
da
6= n = 2
(2)
2 = ω1
=n=2
Betrachten wir nun die zugehörigen Wahrscheinlichkeiten. Nach Diskussion der
obigen Beispiele ist nun offensichtlich:
P1 (X1 = 0) = 1,
P1 (X1 = 1) = 0,
Pn (Xn = n) = 0
(5.2)
Für k=0,...,n-1 (n>1) können wir Pn (Xn = k) mit Gl. (5.1) wie folgt berechnen:
(n)
Pn (Xn = k) = Pn ({ω (n) : Xn (ω (n) ) = k, , ω1
= n})
(n)
+ Pn ({ω (n) : Xn (ω (n) ) = k, , ω1
6= n})
(n)
=
{|ω (n) : Xn−1 (ω̃ (n−1) ) = k − 1, ω1 = n|}
n!
(n)
(n)
(n−1)
{|ω : Xn−1 (ω̃
) = k, ω1 6= n|}
+
n!
45
5 Mittleres Laufzeitverhalten eines Algorithmus
Im ersten Summanden macht es keinen Unterschied, wenn wir ω (n) durch ω̃ (n−1)
(n)
ersetzen. Da ω1
fest ist, entspricht die Anzahl der ω (n) mit Xn−1 (ω̃) = k − 1 gleich
der Anzahl der ω̃ (n−1) mit Xn−1 (ω̃) = k − 1. Beim zweiten Summanden gibt es für
(n)
ω1
(n-1) Möglichkeiten. Für jede feste Möglichkeit gilt die gleiche Argumentation
wie zuvor. Es folgt deshalb weiter:
Pn (Xn = k) =
1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k − 1|}
n
(n − 1)!
n − 1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k|}
n
(n − 1)!
1
n−1
= Pn−1 (Xn−1 = k − 1) +
Pn−1 (Xn−1 = k)
(5.3)
n
n
Wir haben somit die Wahrscheinlichkeit Pn auf die Wahrscheinlichkeit Pn−1 zurückgeführt.
+
Unser Ziel war es, den Erwartungswert E(Xn ) zu bestimmen. Hierzu bedienen wir
uns nun der momenterzeugenden Funktionen in folgender Form:
ϕn (z) := ψXn (ln(z))
Gl.(2.9)
=
E(eln(z)Xn ) = E(z Xn ) =
n−1
X
z k Pn (Xn = k)
(5.4)
k=0
Für den Erwartungswert gilt nach Gl.(2.10):
0
ϕ0n (1) = ψX
(0) = E(Xn )
n
(5.5)
Wie für die Wahrscheinlichkeiten wollen wir nun eine Rekursion für ϕn (z) berechnen.
Da X1 nur den Wert 0 annehmen kann (vgl. Gl. (5.2)) gilt:
ϕ1 (z) = E(z X1 ) = E(z 0 ) = E(1) = 1
Mit Gl. (5.4) und Gl. (5.3) folgt:
ϕn (z) =
=
=
=
=
46
n−1
X
k=0
n−1
X
k=0
n−1
X
z k Pn (Xn = k)
z
z
n
1
n−1
Pn−1 (Xn−1 = k − 1) +
Pn−1 (Xn−1 = k)
n
n
n−1
X n−1
1
z Pn−1 (Xn−1 = k − 1) +
zk
Pn−1 (Xn−1 = k)
n
n
k
k=0
n−1
X
z
n
k
k=0
n−1
z k−1 Pn−1 (Xn−1 = k − 1) +
k=0
n−2
X
k=−1
n−1X k
z Pn−1 (Xn−1 = k)
n
k=0
z k Pn−1 (Xn−1 = k) +
n−1
n
n−1
X
k=0
z k Pn−1 (Xn−1 = k)
Mit Gl. (5.2) (⇒ Pn−1 (Xn−1 = n − 1) = 0) und Pn (Xn = −1) := 0 ist dies
äquivalent zu:
ϕn (z) =
n−2
n−2
k=0
k=0
zX k
n−1X k
z Pn−1 (Xn−1 = k) +
z Pn−1 (Xn−1 = k)
n
n
z
n−1
= ϕn−1 (z) +
ϕn−1 (z)
n
n
z+n−1
ϕn−1 (z)
=
n
(5.6)
also:
ϕn (z) =
(z + n − 1)(z + n − 2)...(z + 1)
n!
speziell für z=1:
ϕn (1) :=
(1 + n − 1)(1 + n − 2)...(1 + 1)
n · (n − 1) · ... · 2
=
=1
n!
n!
(5.7)
Für die Ableitung folgt mit Gl.(5.6):
z
n−1 0
1
ϕn−1 (z) + ϕ0n−1 (z) +
ϕn−1 (z)
n
n
n
1
z+n−1 0
= ϕn−1 (z) +
ϕn−1 (z)
n
n
ϕ0n (z) =
(5.8)
Für ϕ0n (1) ergibt sich somit aus Gl. (5.8) und Gl. (5.7):
1
+ ϕ0n−1 (1)
n
1
1
= +
+ ϕ0n−2 (1)
n n−1
ϕ0n (1) =
= ...
Da ϕ01 (1) = E(X1 ) = E(0) = 0 gilt kann man die Reihe wie folgt ausschreiben:
ϕ0n (1)
Gl.(5.5)
=
n
E(Xn ) =
1
1
1 X1
+
+ ... + =
n n−1
2
i
i=2
Außerdem gilt folgende Ungleichung:
Z n
Z n
n
X
1
1
1
dx ≤
≤
dx
i
1 x
1 x+1
i=2
⇐⇒
ln(n + 1) − ln2 ≤
n
X
1
i=2
i
≤ ln(n)
47
5 Mittleres Laufzeitverhalten eines Algorithmus
Somit können wir E(Xn ) wie folgt abschätzen:
E(Xn ) ∼ ln(n)
Wir halten als Ergebnis fest:
Mit wachsender Länge der Permutationen wird die Zunahme der Austauschschritte
geringer.
48
6 Spieltheorie
( ...die Sache [d.h. das Glücksspiel] war bisher ungewiß; nun aber, nach”
dem sie sich gegenüber dem Experiment unzugänglich gezeigt hatte, hat
sie sich dem Verstand unterwerfen müssen. Wir haben es nämlich durch
geometrische Argumentationen auf eine berechenbare Kunst zurückgeführt,
so daß es Teil an der Strenge der Geometrie hat und zuversichtlich vorangeht; es vereinigt die mathematische Gewißheit mit der Ungewißheit
des Würfels, was vorher unvereinbar schien....“) (Zitat von Pascal1 )
Spiele haben in unserem Alltag eine besondere Rolle eingenommen. Sie dienen als
Ausgleich zu unserem Alltag, sie bieten Aufregung, Abwechslung und machen Spaß.
Wie wir in diesem Abschnitt sehen werden, beschäftigt sich jedoch auch die Wissenschaft mit dem Spielen. Bevor wir jedoch Beispiele angeben können, benötigen wir
noch einige mathematische Grundlagen. Dabei spielen die sogenannten wahrscheinlichkeitserzeugenden Funktionen eine besondere Rolle.
6.1 Mathematische Grundlagen
Definition 6.1.1 Wir betrachten eine Zufallsgröße X, die nur Werte in N0 annimmt. Unter der wahrscheinlichkeitserzeugenden Funktion von X verstehen
wir die Abbildung GX (t), t ∈ [0, 1] mit:
GX (t) := E(tX ) =
∞
X
tn P (X = n)
(6.1)
n=0
Beachte: GX (t) existiert für alle t ∈ [0,1], da selbst im Fall t=1
P∞
n=0 P (X
= n) =
1 < ∞ gewährleistet ist.
1
entnommen aus Blobel: Statistische und numerische Methoden der Datenanalyse“; vgl. Litera”
turverzeichnis [1]
49
6 Spieltheorie
Zur Namensgebung:
Wir betrachten die k-ten Ableitungen nach t:
(k)
GX (t)
=
∞
X
n · (n − 1) · ... · (n − k + 1) · tn−k P (X = n)
(6.2)
n=k
d.h.
(k)
GX (0)
k!
Aus der Kenntnis von GX (t) kann somit die Verteilung von X bestimmt werden.
(k)
GX (0) = k! · P (X = k) ⇒ P (X = k) =
Für unabhängige Zufallsgrößen können wir noch folgenden Satz beweisen:
Satz 6.1.1 Xi (i=1,2,...,n) seien unabhängige Zufallsgrößen, die nur Werte in N0
annehmen. Dann gilt:
GX1 +X2 +...+Xn (t) =
n
Y
GXi (t)
(6.3)
i=1
Beweis: Es gilt:
GX1 +X2 +...+Xn (t) = E(tX1 +X2 +...+Xn ) = E
n
Y
!
tXi
i=1
Aus der Unabhängigkeit der Zufallsgrößen folgt mit Gl. (1.18):
!
!
n
n
Y
Y
GXi (t)
GX1 +X2 +...+Xn (t) =
E(tXi ) =
i=1
i=1
Für später benötigen wir außerdem:
Satz 6.1.2 Sei X eine N0 - wertige Zufallsgröße mit endlichem k-ten Moment (d.h.
E(X k ) < ∞), dann gilt:
(k)
(k)
lim GX (t) = GX (1) = E[X(X − 1) · ... · (X − k + 1)] < ∞
t→1
(6.4)
Für E(X k ) = ∞, folgt: E[X(X − 1) · ... · (X − k + 1)] = ∞ und somit:
(k)
lim GX (t) = ∞
t→1
(k)
(6.5)
Wobei unter GX (t) wieder die k-te Ableitung von GX (t) nach t zu verstehen ist
(k ∈ N).
50
6.2 Das Würfelproblem
Beweis: Nach Gl.(6.2) gilt:
(k)
GX (t) =
∞
X
n(n − 1) · ... · (n − k + 1)tn−k P (X = n)
n=k
Selbst wenn die Summe für t=1 nicht existiert, so gilt für den Grenzwert:
(k)
lim GX (t) =
t→1
∞
X
n(n − 1) · ... · (n − k + 1)P (X = n)
n=k
= E[X(X − 1) · ... · (X − k + 1)]
Wegen E(X k ) < ∞ ⇐⇒ E[X(X − 1) · ... · (X − k + 1)] < ∞ folgt hieraus die
Behauptung.
Der Vorteil dieses Satzes liegt darin, dass wir den Erwartungswert schreiben
können als:
(1)
E(X) = GX (t) =: G0X (1)
(6.6)
6.2 Das Würfelproblem
Wir werfen zwei ideale Würfel und betrachten die Augensumme. Die Wahrscheinlichkeit, eine Summe von 6 zu erhalten, ist höher als die einer 12. Dies liegt daran,
dass es für 12 nur eine Möglichkeit gibt ((6,6)) für 6 dagegen mehrere ((1,5), (5,1),
(2,4), (4,2), (3,3)). Frage: Ist es möglich, zwei Würfel zu konstruieren (wie immer die
auch aussehen mögen), so dass jede Augensumme mit gleicher Wahrscheinlichkeit
auftritt?
Mathematische Einkleidung der Frage: Wir betrachten zwei unabhängige Zufallsgrößen X1 , X2 (=Würfel) mit dem Wertebereich {1, 2, 3, 4, 5, 6} (=Augenzahl). Nun
soll gelten:
P (X1 + X2 = k) =
1
, k = 2, 3, ..., 12
11
(6.7)
Um die Sache nicht all zu spannend zu machen, wird hier schon verraten, dass dies
nicht möglich ist. Bleibt nur die Frage nach dem Warum zu klären. Hier hilft uns,
Gott sei Dank, die Mathematik weiter: Wir führen einen Widerspruchsbeweis.
51
6 Spieltheorie
Annahme: Es gibt zwei unabhängige Zufallsgößen X1 und X2 , so dass Gl. (6.7)
erfüllt ist. Nach Gl. (6.3) gilt dann für alle t ∈ R:
GX1 +X2 (t) = GX1 (t) · GX2 (t)
=
6
X
6
X
!
tn P (X1 = n)
·
n=1
=t·
!
tm P (X2 = m)
m=1
6
X
!
t
n−1
P (X1 = n)
·t·
n=1
6
X
!
t
m−1
P (X2 = m)
m=1
=: t2 · P1 (t) · P2 (t)
(6.8)
Wobei P1 (t) und P2 (t) Polynome vom maximalen Grad 5 sind.
Da außerdem Gl. (6.7) erfüllt sein soll, muss zudem gelten:
GX1 +X2 (t) =
=
12
X
k=2
t2
11
12
1 X k
t
t P (X1 + X2 = k) =
11
k
k=2
· (1 + t + ... + t10 )
(6.9)
Aus Gl. (6.8) und Gl. (6.9) folgt, dass der Grad der Pi (i=1,2) genau 5 ist. Wir
wollen nun Pi (i=1,2) auf eventuelle Nullstellen untersuchen. Wir unterscheiden daher 2 Fälle:
1. Fall: t = 0
Aus Gl. (6.9) erkennen wir, dass dies eine doppelte Nullstelle von GX1 +X2 ist. Diese
ist in Gl. (6.8) bereits als eigenständiger Faktor vorhanden. Daher muss Pi (0) 6= 0
gelten.
2. Fall: t 6= 0
Aus Gl. (6.8) und Gl. (6.9) folgt nun (t 6= 0 !):
P1 (t) · P2 (t) =
(1 + t + ... + t10 )
11
(6.10)
Aus der Nullteilerfreiheit der reellen Zahlen und Gl. (6.10) folgt deshalb Pi (1) 6= 0
(i=1,2). Durch Polynomdivision kann man sich leicht vergewissern, dass folgende
Gleichung äquivalent zu (6.10) ist:
P1 (t) · P2 (t) =
52
1 t11 − 1
·
11 t − 1
6.3 Das Waldegrave’sche Problem
Als einzige reelle Nullstelle würde somit 1 in Frage kommen. Dies ist aber, wie oben
begründet, nicht möglich. Somit besitzt Pi (t) (i=1,2) für t 6= 0 keine reelle Nullstelle.
Insgesamt gilt somit Pi (t) 6= 0 für alle t ∈ R. Da der Grad der Pi (i=1,2) jedoch 5
ist, müsste nach dem Fundamentalsatz der Algebra mindestens eine reelle Nullstelle
existieren. Hier haben wir unseren Widerspruch.
Wir wollen hier noch einmal kurz das Vorgehen reflektieren: Es gibt bestimmt sehr
viele Möglichkeiten, wie man Würfel bauen kann. Dies war für unser Vorgehen jedoch
völlig irrelevant. Mit Hilfe der Mathematik konnten wir relativ einfach eine Antwort
finden, ohne das Problem näher zu materialisieren“.
”
6.3 Das Waldegrave’sche Problem
Wir wollen uns nun mit dem Waldegrave’schen2 Problem beschäftigen, welches aus
dem 18. Jahrhundert stammt. Dabei betrachten wir eine moderne Einkleidung3 :
Wir stellen uns ein ideales Tennisturnier vor, an dem k Spieler S1 , S2 , ..., Sk teilnehmen. Ideal deswegen, weil alle Spieler gleich stark sein sollen, d.h. jeder Spieler
gewinnt mit der Wahrscheinlichkeit
1
2
gegen seinen Gegner. Das Turnier verläuft wie
folgt:
S1 spielt gegen S2 , der Gewinner spielt gegen S3 , der Gewinner dieses Spiels gegen
S4 und so weiter. Gewinnt S1 alle (k-1) Spiele, so ist er der Sieger des Turniers. Andernfalls spielt der Sieger des (k-1)ten Spiels gegen S1 (bzw. S2 , falls S1 im (k-1)ten
Spiel verliert) der Gewinner gegen S2 (bzw. S3 ) usw.- ein neuer Zyklus beginnt. Der
erste Spieler, der somit (k-1) Spiele in Folge gewonnen hat (und somit gegen jeden
Spieler angetreten ist), gewinnt das Turnier. Um den Verlauf zu veranschaulichen,
folgt ein kurzes Beispiel mit vier Spielern, bei dem S3 siegreich ist.
Beispiel 6.3.1 Turnier:
Beginn: S1 vs. S2 : S2 gewinnt
Dann: S2 vs. S3 : S3 gewinnt
2
3
Waldegrave, adeliger Spieler, der zu Beginn des achtzehnten Jahrhunderts lebte.
sinngemäß entnommen aus Hesse: angewandte Wahrscheinlichkeitstheorie“; vgl. Literaturver”
zeichnis [11]
53
6 Spieltheorie
Dann: S3 vs. S4 : S3 gewinnt
Dann: S3 vs. S1 : S3 gewinnt
Ende: S3 hat in 3 Spielen hintereinander gewonnen und ist damit Sieger
Die Frage, die uns beschäftigt, lautet:
Wie viele Spiele dauert ein Turnier im Mittel?
Um diese Frage zu beantworten, nehmen wir wie immer zuerst eine mathematische Einkleidung vor:
Wir betrachten das zweite Spiel. Ist der Gewinner hierbei der gleiche wie im ersten Spiel, so notieren wir eine eins. Andernfalls eine Null. Bei den weiteren Spielen
wird analog vorgegangen. Auf diese Art und Weise wird das Gesamte Turnier als
0-1-Folge dargestellt. Beispiel 6.3.1 kann dann wie folgt dargestellt werden:0 1 1.
Überlegen wir uns nun, wie lange ein Turnier dauert. Bei zwei Spielern d.h. k=2
wird offensichtlich nur ein Spiel benötigt. Für mehr als zwei Spieler hat ein Turnier
die Länge l ≥ 2, wenn eine Folge von (k-2) 1er an der (l-1)ten Stelle (in der Folge
von Nullen und Einsen) endet. In unserem Beispiel hat das Turnier die Länge l=4
deshalb, weil die Folge von (4-2)=2 Einsen mit der (4-1)ten= 3ten Stelle in unserer
Zahlenfolge zusammenfällt.
Wir definieren nun eine N0 -wertige Zufallsgröße Xj . Unter dem Ereignis {Xj = i}
verstehen wir diejenige Menge, bei der in einer 0-1-Folge erstmals an der i-ten Stelle
eine Folge von j Einsen endet. Gj (t) seien die wahrscheinlichkeitserzeugenden Funktionen von Xj . Für unsere Überlegungen ist die Zufallsgröße Xk−2 interessant, da
nach (k-2) aufeinander folgenden Einsen das Turnier zu Ende ist. Um die Frage nach
der mittleren Turnierlänge (=: L̄) zu beantworten, müssen wir dann nur E(Xk−2 )
berechnen und zum Ergebnis eins addieren. Kurz:
L̄ = E(Xk−2 ) + 1
(6.11)
L̄ = G0Xk−2 (1) + 1
(6.12)
bzw. mit Hilfe von Gl. (6.6):
Die Lösung des Problems beschränkt sich also darauf, die wahrscheinlichkeitserzeugenden Funktionen von Xj zu bestimmen. Hierzu benötigen wir laut Definition 6.1.1
54
6.3 Das Waldegrave’sche Problem
die Verteilung von X. Offensichtlich gilt:
j
1
P (Xj = j) =
2
und natürlich:
P (Xj = i) = 0,
i<j
bestimmen wir nun P (Xj = i) für i > j. Das Ereignis {Xj = i} bedeutet, dass
unter den ersten (i-j-1) 0-1-Symbolen keine j Einsen hintereinander auftreten, das
(i-j)te Symbol eine 0 ist und danach j-mal eine 1 folgt. Wir können also P (Xj = i)
schreiben als:
P (Xj = i) = P (Xj > i − j − 1) ·
j+1
1
2
Mit diesen drei Gleichungen folgt nun:
GXj (t) =
∞
X
ti P (Xj = i)
i=0
=
∞
X
ti P (Xj = i)
i=j
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
· tj +
j
·t +
∞
X
i=j+1
∞
X
i=j+1
ti P (Xj = i)
j+1
1
t P (Xj > i − j − 1) ·
2
i
j+1 X
∞
1
·t +
·
ti P (Xj > i − j − 1)
2
i=j+1
j+1 X
∞
∞
X
1
j
·t +
·
ti P (Xj = m)
2
j
i=j+1 m=i−j
55
6 Spieltheorie
Um die weitere Umformung leichter verständlich zu machen, schreiben wir etwas
unmathematisch (Pünktchenschreibweise) weiter:
GXj (t) =
j+1
j
1
1
· tj +
·
2
2
∞
X
ti [P (Xj = i − j) + P (Xj = i − j + 1) + P (Xj = i − j + 2) + ...]
i=j+1
j
j+1
1
1
j
=
·t +
· {tj+1 [P (Xj = 1) + P (Xj = 2) + ...]
2
2
+ tj+2 [P (Xj = 2) + P (Xj = 3) + ...] + ...}
j
j+1 X
j+m
∞
X
1
1
j
=
·t +
·
P (Xj = m)
ti
2
2
m=1
i=j+1
"j+m
#
j+1 X
j
j
∞
X
X
1
1
· tj +
·
=
P (Xj = m)
ti −
ti
2
2
m=1
i=0
i=0
Durch Berechnung der beiden geometrischen Reihen4 ergibt sich weiter:
j
1
GXj (t) =
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
4
·t
j
· tj
· tj
· tj
· tj
· tj
· tj
· tj
j+1 X
∞
1 − tj+m+1 1 − tj+1
1
P (Xj = m)
+
·
−
2
1−t
1−t
m=1
j+1 X
∞
1
−tj+m+1 + tj+1
+
·
P (Xj = m)
2
1−t
m=1
j+1 X
∞
1
tj+1 · (−tm ) + tj+1
+
·
P (Xj = m)
2
1−t
m=1
j+1 X
∞
1
tj+1 · (1 − tm )
+
·
P (Xj = m)
2
1−t
m=1
j+1 j+1 X
∞
1
t
+
·
P (Xj = m)(1 − tm )
2
1−t
m=1
j+1
∞
t
1 X
+
·
P (Xj = m) − P (Xj = m) · tm
2
1−t
m=1
" ∞
#
j+1
∞
X
X
t
1
+
·
P (Xj = m) −
P (Xj = m) · tm
2
1−t
m=1
m=1
j+1
t
1
+
·
1 − GXj (t)
2
1−t
Geometrische Reihe: Für x 6= 1 und n∈ N0 gilt:
Der Beweis erfolgt durch Induktion
56
Pn
k=0
xk =
1−xn+1
1−x
6.3 Das Waldegrave’sche Problem
Auflösen nach GXj (t) ergibt:
GXj (t) =
tj (2 − t)
2j+1 (1 − t) + tj+1
bzw. für j=k-2 (Wir erinnern uns: Unser Interesse beschränkt sich auf die Berechnung von GXk−2 ):
GXk−2 (t) =
tk−2 (2 − t)
2k−1 (1 − t) + tk−1
Differenziert man nun diese Funktion einmal nach t und berechnet die Ableitung
an der Stelle 1, so ergibt sich:
G0Xk−2 (1) = 2k−1 − 2
Nach Gl. (6.12) ergibt sich somit für die mittlere Turnierlänge bei k > 2 Spielern:
L̄ = G0Xk−2 (1) + 1 = 2k−1 − 1
57
6 Spieltheorie
58
7 Einführung in die Informationstheorie
Das Gebiet der Informationstheorie ist wissenschaftlich betrachtet noch sehr jung.
Es wurde in den Jahren von 1947 bis 1949 von dem amerikanischen Mathematiker und Ingenieur Claude Shannon1 entwickelt. Dabei geht es in erster Linie um die
Übertragung und Speicherung von Informationen in Natur und Technik. Radiosignale spielen hierbei die gleiche Rolle wie Nerven, die in unserem Körper Informationen
transportieren. Im Gegensatz zu vielen anderen mathematischen Themen sind bei
dieser Theorie einfache praktische Anwendungen auch von dem Laien verstehbar.
Wir werden in diesem Abschnitt eine Einführung in die Informationstheorie geben, wobei uns einige Ungleichungen begegnen werden. Dabei zeigen wir auf, wie
Informationen codiert und decodiert werden und welche Probleme dabei auftreten
können. Zuerst müssen wir jedoch wieder einige Bezeichnungen einführen.
7.1 Mathematische Einkleidung
Ziel ist es, Informationen zu übertragen. Dies geschieht mit Hilfe einer endlichen
Menge M von Zeichen, genannt Alphabet.
Beispiel: M={a, b, c, ..., x, y, z}
Wir definieren uns nun eine Zufallsvariable X, die Werte in M annimmt. X kann
als Ereignis gedeutet werden, dessen Ausgänge in M liegen. Als Wahrscheinlichkeit
definieren wir p(x):=P(X=x), x∈M. In der Realität könnten dies die relativen Auftrittshäufigkeiten der einzelnen Buchstaben in einem Text sein. Diese werden u.a.
in Frequenzwörterbüchern angegeben.
Wir wollen nun ein Maß für die Unbestimmtheit von X einführen. Das heißt eine
Größe, die angibt, mit welcher Genauigkeit man den Ausgang von X voraussagen
kann.
1
Claude Elwood Shannon (1916- 2001), US-amerikanischer Mathematiker, gilt als Begründer der
Informationstheorie.
59
7 Einführung in die Informationstheorie
7.2 Entropie
Definition 7.2.1 Unter der Entropie H(X) einer Zufallsvariablen X mit Wertebereich M versteht man:
H(X) := E[−log2 (p(X))] = −
X
p(x) · log2 (p(x))
(7.1)
x∈M
Dabei gilt: 0 · log2 (0) := 0
Ist X laplaceverteilt, das heißt:
P (X = x) =
1
|M |
so gilt:
H(X) = −
X
x∈M
=−
X
x∈M
1
· log2
|M |
1
|M |
X 1
1
· log2 (1) +
· log2 (|M |)
|M |
|M |
x∈M
= log2 (|M |)
(7.2)
Anhand der Laplace-Verteilung wollen wir einige kurze Überlegungen anstellen,
ob die Definition der Entropie mit unserer Vorstellung übereinstimmt:
Haben wir z.B. ein Ereignis, welches nur einen Ausgang x hat, d.h. |M | = 1 so
gilt laut Gl.(7.2) H(X)=0. X ist also überhaupt nicht unbestimmt. Dies erscheint
logisch, da man mit absoluter Sicherheit sagen kann, dass X den Wert x annimmt.
Außerdem müsste die Unbestimmtheit von X mit wachsendem M ansteigen. Es ist
ja z.B. leichter, bei einer idealen Münze den richtigen Wert vorauszusagen, als bei
einem idealen Würfelwurf. Im ersten Fall haben wir immerhin eine Chance von
50 Prozent. Auch dies stimmt mit Gl.(7.2) überein, da der Logarithmus mit |M |
monoton steigt.
Intuitiv müsste dann auch folgender Satz gelten:
Das Ereignis, welches auf einer festen Menge M die maximale Unbestimmtheit hat,
ist Laplaceverteilt!
Hat ein xi ∈ M nämlich eine größere Auftrittswahrscheinlichkeit als die anderen, so
wird es auch öfter als Ergebnis auftreten. Da wir uns jedoch nicht immer auf unsere
Intuition verlassen wollen, präzisieren wir die Sache mathematisch (und wollen sie
natürlich beweisen):
60
7.2 Entropie
Satz 7.2.1 Für eine Zufallsvariable mit Wertemenge M gilt:
H(X) ≤ log2 (|M |)
Beweis: Es gilt:
log2 (|M |) − H(X) = −
X
p(x)log2
x∈M
=
X
1
|M |
p(x) · −log2
x∈M
=
X
p(x) −log2
x∈M
"
#
X
− −
p(x)log2 (p(x)
x∈M
1
|M |
+ log2 (p(x))
1
|M |p(x)
Durch Anwendung der Jensen-Ungleichung (vgl. Gl. (2.4)) mit f = −log2 und der
Zufallsvariablen Z =
1
|M |p(x)
folgt weiter:
log2 (|M |) − H(X) ≥ −log2
X
x∈M
1
p(x)
|M |p(x)
!
= −log2 (1) = 0
In der Praxis werden Informationen oft mit Hilfe von 0-1-Folgen übertragen. Dabei wird jedes Zeichen (=x) eines Alphabets auf eine bestimmte Art kodiert (x→
C(x)). Als Beispiel2 betrachten wir zwei verschiedene Kodierungsmöglichkeiten für
die Menge M = {a, b, c, d}:
1. Möglichkeit:
2. Möglichkeit:
C(a)=0
C*(a)=0
C(b)=10
C*(b)=01
C(c)=110
C*(c)=010
C(d)=111
C*(d)=1
Wir möchten nun das Wort abba übermitteln und anschließend dekodieren:
1. Möglichkeit (mit C):
2. Möglichkeit (mit C*):
Kodierung:
010100
001010
Dekodierung:
a b
a
2
b a
?
Beispiel entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis
”
[12]
61
7 Einführung in die Informationstheorie
Im 2. Fall ist die Dekodierung nicht eindeutig. Statt das Wort abba zu erhalten,
könnte man auch mit aadada dekodieren. Dies ist in der Praxis unerwünscht. Man
möchte eindeutige Codes, die während des Übertragungsvorgangs dekodierbar sind.
Um eine klare Terminologie zu erhalten, führen wir folgende Definitionen ein:
7.3 Code-Terminologie
Definition 7.3.1 Mit W n = {0, 1}n bezeichnen wir die Menge der Binärwörter
vom Umfang n, also alle n-Tupel (δ1 , ..., δn ) := δ1 ...δn mit δi ∈ {0, 1} (i=1,...,n).
Unter der Menge W aller Binärwörter versteht man:
[
W =
Wn
n∈N
Unter einem Code verstehen wir eine Abbildung C mit:
C:M →W
wobei M wieder eine Alphabet-Menge bezeichnet. Für k ∈ N definieren wir dann:
Ck : M k → W
C k [(x1 , x2 , ..., xk )] := C(x1 )C(x2 )...C(xk ),
xi ∈ M (i = 1, ..., k)
Falls C k für alle k ∈ N injektiv ist, so sagen wir, der Code C ist eindeutig decodierbar. Er heißt präfixfrei, wenn für jedes x,x’ ∈ M (x 6= x0 ) kein v ∈ W
existiert mit:
C(x) = C(x0 )v
Man sagt dann auch, kein Codewort ist Präfix eines anderen Codewortes.
Mit C kann man somit einzelne Buchstaben verschlüsseln, mit C k Wörter.
Betrachtet man sich die Eigenschaften der Injektivität, so kommt man schnell zur
Einsicht, dass ein präfixfreier Code injektiv und damit eindeutig decodierbar ist. In
der Praxis sind auch nur diese von Relevanz.
Wir definieren nun die Länge eines Codes.
Definition 7.3.2 Unter der Länge eines Codes versteht man den Wert der folgenden Abbildung:
lC : M → N,
lC (x) = |C(x)|
bzw.
lC k : M k → N,
62
lC k [(x1 , ..., xk )] = |C k [(x1 , ..., xk )]| = |C(x1 )| + ... + |C(x2 )|
7.4 Eindeutig decodierbare Codes
7.4 Eindeutig decodierbare Codes
Ziel dieses Abschnittes ist es, die durchschnittliche Länge von präfixfreien Codes
einzugrenzen. Wir werden sehen, dass diese auf keinen Fall nach unten unbeschränkt
ist.
Um unserem Endziel näher zu kommen, benötigen wir noch folgenden Hilfssatz, der
in der Fachliteratur als Ungleichung von Kraft-McMillan bekannt ist.
Satz 7.4.1 C sei ein eindeutig decodierbarer Code, M das dazugehörige Alphabet.
Dann gilt:
X
2−lC (x) ≤ 1
(7.3)
x∈M
Beweis:
Sei:
l∗ := max lC (x)
x∈M
Wir berechnen nun:
!k
X
2−lC (x)
X
=
x∈M
2−(lC (x1 )+...+lC (xk ))
(x1 ,...,xk )∈M k
X
=
2−lC k ((x1 ,...,xk ))
(x1 ,...,xk )∈M k
∗
=
k·l
X
m=1
X
2−m
(x1 ,...,xk )∈M k
lC k [(x1 ,...,xk )]=m
Da der Code eindeutig decodierbar und damit C k injektiv ist, kann es nicht mehr
Elemente (x1 , ..., xk ) ∈ M (= Wörter) mit lC k ((x1 , ..., xk )) = m geben als es Elemente in W m gibt. (Sonst müsste ja verschiedenen Elementen aus M der gleiche
Code zugeordnet werden.) Wir können deshalb weiter folgern:
!k
X
−lc (x)
2
∗
≤
k·l
X
|W m | · 2−m
m=1
x∈M
∗
=
k·l
X
1
m=1
= k · l∗
63
7 Einführung in die Informationstheorie
1
X
=⇒
k→∞
2−lc (x) ≤ (k · l∗ ) k
−→ 1
x∈M
Bemerkung 7.4.1 Man kann auch die Umkehrung zeigen:
Gegeben ist eine Abbildung l : M → N mit:
X
2−l(x) ≤ 1
(7.4)
x∈M
dann existiert ein präfixfreier Code C mit: lC = l
Kommen wir nun zu unserem eigentlichen Vorhaben:
Satz 7.4.2 C sei ein eindeutig decodierbarer Code, M ein Alphabet und X eine
Zufallsvariable mit Werten in M; dann gilt:
E(lC (X)) ≥ H(X)
(7.5)
Beweis:
Es gilt:
!
E(lC (X)) − H(X) =
X
−
p(x)lC (x) −
X
p(x)log2 (2lC (x) ) +
x∈M
=
X
p(x)log2 (p(x))
x∈M
x∈M
=
X
X
p(x)log2 (p(x))
x∈M
lC (x)
p(x)log2 (2
p(x))
x∈M
=
X
−lC (x)
p(x)log2 2
x∈M
X
=−
1
p(x)
−lC (x)
p(x)log2 2
x∈M
−1
1
p(x)
Durch Anwendung der Jensen-Ungleichung (2.4) mit f = log2 und der Zufallsva1
−lC (x) p(x)
riable Z = 2
folgt weiter:
E(lC (X)) − H(X) ≥ −log2
X
−lC (x)
p(x)2
x∈M
!
= −log2
X
x∈M
64
2−lC (x)
1
p(x)
!
7.4 Eindeutig decodierbare Codes
Mit der soeben bewiesenen Kraft-McMillan-Ungleichung (7.3) ergibt sich dann:
E(lC (X)) − H(X) ≥ 0
Interpretation des Ergebnisses:
Die minimal erwartete Anzahl der zum präfixfreien Codieren benötigten Bits3 ist
mindestens so groß wie die Entropie von X.
Wir wollen abschließend die Größe
min
C präfixfrei
E(lC (X))
näher bestimmen.
Dazu definieren wir: l(x) := d−log2 (p(x))e als die nächstgrößere ganze Zahl zu
−log2 (p(x)). Dann gilt:
X
2−l(x) ≤
x∈M
X
2log2 (p(x)) =
x∈M
X
p(x) = 1
x∈M
Nach Bemerkung (7.4.1) existiert dann ein präfixfreier Code C ∗ mit lC ∗ (x) = l(x).
Für diesen gilt:
!
∗
E(lC
(X)) − H(X) =
X
p(x)lC ∗ (x) −
x∈M
−
X
p(x)(log2 (p(x)) + 1 − 1)
x∈M
!
≤
X
p(x)lC ∗ (x) −
x∈M
=
X
X
p(x)(lC ∗ (x) − 1)
x∈M
p(x) = 1
x∈M
⇐⇒
∗
E(lC
(X)) ≤ H(X) + 1
Wir fassen als Ergebnis zusammen:
H(X) ≤
min
C präfixfrei
E(lC (X)) ≤ H(X) + 1
Wie bereits angedeutet ist dies u.a. im zivilen Bereich, bei der Speicherung von
Information bedeutsam, speziell bei Datenkomprimierungsprogrammen. Man will so
codieren, dass die erwartete Länge der Nachricht minimal ist.
3
Im Allgemeinen verwendet man den Ausdruck Bit als Bezeichnung für die Binärziffern 0“ und
”
1“.
”
65
66
Nachwort
Ich hoffe, dass ich mit der vorliegenden Arbeit die Anwendbarkeit der Mathematik veranschaulichen konnte. Auch wenn an verschiedene Stellen längere Beweise
und Rechnungen nötig waren, so habe ich die Ergebnisse stets möglichst knapp und
für die Praxis anwendbar zu halten versucht. Vielleicht konnte damit etwas Licht
in die Sache gebracht werden, so daß am Ende nicht nur, wie Thomas Mann sagt,
Zaubergemurmel“ übrig bleibt.
”
Danksagung
Mein herzlicher Dank gilt allen, die zum Gelingen dieser Zulassungsarbeit beigetragen haben. Besonders möchte ich Herrn PD Dr. F. Marohn für die Vergabe des
Themas und für die Betreuung der Zulassungsarbeit danken.
67
68
Anhang
Auf den folgenden beiden Seiten stellen wir einige diskrete Verteilungen vor und
geben ausgewählte Kennwerte an. Ziel ist es, die im Text angesprochenen Größen
zu veranschaulichen. (Quelle: Literaturverzeichnis [14])
69
Anhang
70
Literaturverzeichnis
[1] V. Blobel; Statistische und numerische Methoden der Datenanalyse; B.G.
Teubner Verlag, Stuttgart/ Leipzig; 1998.
[2] K. Bosch; Grundzüge der Statistik ; Oldenburg Verlag GmbH, München; 1996.
[3] I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig; Taschenbuch der
Mathematik ; Verlag Harri Deutsch, Frankfurt; 1997.
[4] A. Büchter, H.-W.Henn; Elementare Stochastik ; Springer Verlag, Berlin Heidelberg; 2005.
[5] H. Dehling, B. Haupt; Einführung in die Wahrscheinlichkeitsrechnung; Springer Verlag, Berlin Heidelberg; 2003.
[6] L. Dühmbgen; Stochastik für Informatiker ; Springer Verlag, Berlin Heidelberg;
2003.
[7] O. Forster; Analysis I ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2001.
[8] J. Hartung; Statistik ; Oldenburg Verlag, München 1993.
[9] J. Hartung; Mutivariate Statistik: Lehr und Handbuch der angewandten Statistik ; Oldenburg Verlag GmbH, München; 1986.
[10] N. Henze; Stochastik für Einsteiger ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003.
[11] C. Hesse; Angewandte Wahrscheinlichkeitstheorie; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003.
[12] A. Irle; Wahrscheinlichkeitstheorie und Statistik ; Teubner Verlag, Stuttgart/
Leipzig/ Wiesbaden; 2001.
71
Literaturverzeichnis
[13] A. M. Jaglom/ I. M. Jaglom; Wahrscheinlichkeit in Information; VEB Deutscher Verlag der Wissenschaften, Berlin; 1965.
[14] D. Kleiter; Bayes Statistik ; de Gruyter Verlag, Berlin/ New York; 1980.
[15] http://mo.mathematik.uni-stuttgart.de/inhalt/aussage/aussage32/
[16] U. Krengel; Einführung in die Wahrscheinlichkeitstheorie und Statisitk ;
Friedr. und Sohn Verlag/ GWV Fachverlage GmbH, Wiesbaden; 2005.
[17] J. Lehn, H. Wegmann; Einführung in die Statisitk ; B. G. Teubner Stuttgart,
Leipzig; 2000.
[18] B. Leiner; Einführung in die Statisitk ; Oldenburg Verlag GmbH, München;
1996.
[19] T. Mann; Königliche Hoheit; G. B. Fischer und Co. Verlags- und Vertriebsgesellschaft, Berlin und Frankfurt am Main; 1960.
[20] F. Marohn; Stochastik für Lehramtsstudenten; Bayrische Julius-MaximiliansUniversität Würzburg Institut für angewandte Mathematik und Statistik;
2004.
[21] H. Mittelbach; Statistik ; Oldenburg Verlag GmbH, München; 1992.
[22] D.
Plachky;
Wahrscheinlichkeitsrechnung;
Oldenburg
Verlag
GmbH,
München; 1996.
[23] M. Pospeschill; Praktische Statistik ; Psychologie Verlags Union, Weinheim;
1996.
[24] L. Sachs; Angewandte Statistik ; Springer Verlag, Berlin/ Heidelberg, 1984.
[25] K. Brücker- Steinkuhl; Die Analyse des Zufallsgeschehens; Akademische Verlagsgesellschaft, Wiesbaden; 1980.
[26] U. -P. Tietze, M. Klika, H. Wolpers; Mathematik in der Sekundarstufe II, Band
3, Didaktik der Stochastik ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2002.
72
Herunterladen