Zulassungsarbeit - HerrZimmermann.com

Erste Staatsprüfung für ein Lehramt an Gymnasien 2008
Schriftliche Hausarbeit aus dem Fachgebiet Stochastik
Ungleichungen, Momente und ihre
Anwendungen
Mathematisches Institut
der Julius-Maximilians-Universität Würzburg
Verfasser: Markus Zimmermann
Fachbetreuer: PD Dr. Frank Marohn
Eingereicht am: 07.02.2007
2
Was er sah, war sinnverwirrend. In einer krausen, kind”
lich dick aufgetragenen Schrift, [...] bedeckte ein phantastischer Hokuspokus, ein Hexensabbat verschränkter Runen
die Seiten. Griechische Schriftzeichen waren mit lateinischen
und mit Ziffern in verschiedener Höhe verkoppelt, mit Kreuzen und Strichen durchsetzt, ober- und unterhalb waagrechter Linien bruchartig aufgereiht, durch andere Linien
zeltartig überdacht, durch Doppelstrichelchen gleichgewertet, durch runde Klammern zusammengefasst, durch eckige Klammern zu großen Formelmassen vereinigt. Einzelne
Buchstaben, wie Schildwachen vorgeschoben, waren rechts
oberhalb der umklammerten Gruppen ausgesetzt. Kabbalistische Male, vollständig unverständlich dem Laiensinn, umfaßten mit ihren Armen Buchstaben und Zahlen, während
Zahlenbrüche ihnen voranstanden und Zahlen und Buchstaben ihnen zu Häupten und Füßen schwebten. Sonderbare
Silben, Abkürzungen geheimnisvoller Worte, waren überall
eingestreut, und zwischen den nekromantischen Kolonnen
standen geschriebene Sätze und Bemerkungen in täglicher
Sprache, deren Sinn gleichwohl so hoch über allen menschlichen Dingen war, daß man sie lesen konnte, ohne mehr
davon zu verstehen als von einem Zaubergemurmel.“
(Aus Königliche Hoheit“ von Thomas Mann)
”
3
4
Vorwort
Mathematik, insbesondere die höhere Schulmathematik wird von vielen Menschen
als ziemlich abstrakt“ empfunden. Sie sind der Meinung, dass sie für die Wirk”
”
lichkeit“ kaum zu gebrauchen sei. Oft würden keine realen Probleme behandelt.
Aufgaben seinen meist nur auf sehr vereinfachtem Niveau möglich.
Die Wahrscheinlichkeitstheorie und die Statistik stellen hierbei eine Ausnahme dar.
Mit der vorliegenden Arbeit soll dies verdeutlicht werden. So wird unter anderem
auch ein Einblick in die Informationstheorie gegeben, welche gerade in unserer Zeit
ein wichtige Rolle spielt.
Die Arbeit richtet sich in erster Linie an Lehrer und Schüler der Gymnasialoberstufe. Es wird deshalb besonders darauf Wert gelegt, dass auch für den Schüler ein
Selbststudium mit Hilfe dieser Arbeit möglich ist. Für den Lehrer soll diese Arbeit
einen Anreiz bieten, wie er seine Schüler über den üblichen Stoff hinausführen kann.
Aus diesen Gründen ergibt sich folgender Aufbau:
Im ersten Kapitel werden die wahrscheinlichkeitstheoretischen Grundlagen beschrieben, auf denen die folgenden Kapitel aufbauen.
Danach wird eine Übersicht über verschiedene Ungleichungen in der Statistik gegeben. Außerdem wird der Begriff der Momente erklärt.
Im dritten Abschnitt werden einige ausgewählte direkte Anwendungen vorgestellt.
Die folgenden Kapitel zeigen dann umfangreichere Anwendungen auf. Hierzu ist oft
zusätzliches Grundwissen Voraussetzung, an das schrittweise herangeführt wird.
Ich hoffe, dass vor allem Schüler bei der Lektüre dieser Arbeit zu der Einsicht
kommen:
Mit Mathematik kann man wirklich etwas anfangen!
5
6
Inhaltsverzeichnis
1 Grundlagen
9
1.1
Grundlegende Bezeichnungen . . . . . . . . . . . . . . . . . . . . . .
9
1.2
Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3
Wahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4
Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.5
Unabhängigige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . .
11
1.6
Indikatorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.7
Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.8
Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.9
Binomial- und Normalverteilung . . . . . . . . . . . . . . . . . . . .
17
1.10 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2 Ungleichungen und Momente
21
2.1
Tschebyschow-Ungleichung . . . . . . . . . . . . . . . . . . . . . . .
21
2.2
Cauchy-Schwarz-Ungleichung . . . . . . . . . . . . . . . . . . . . . .
22
2.3
Jensen-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.4
Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.5
Momenterzeugende Funktionen . . . . . . . . . . . . . . . . . . . . .
26
3 Direkte Anwendungen
27
3.1
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . .
27
3.2
Wie man am besten Aktien kauft . . . . . . . . . . . . . . . . . . . .
29
3.3
Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3.4
Die Chernoff-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.5
Schätzung nach der Momentmethode . . . . . . . . . . . . . . . . . .
34
7
Inhaltsverzeichnis
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
37
4.1
Der elementar bedingte Erwartungswert . . . . . . . . . . . . . . . .
37
4.2
Die Ruinwahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . .
38
5 Mittleres Laufzeitverhalten eines Algorithmus
43
6 Spieltheorie
49
6.1
Mathematische Grundlagen . . . . . . . . . . . . . . . . . . . . . . .
49
6.2
Das Würfelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
6.3
Das Waldegrave’sche Problem . . . . . . . . . . . . . . . . . . . . . .
53
7 Einführung in die Informationstheorie
59
7.1
Mathematische Einkleidung . . . . . . . . . . . . . . . . . . . . . . .
59
7.2
Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
7.3
Code-Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
7.4
Eindeutig decodierbare Codes . . . . . . . . . . . . . . . . . . . . . .
63
Anhang
69
Literaturverzeichnis
71
8
1 Grundlagen
In diesem Kapitel werden wir uns mit einigen Grundlagen befassen, die wir später
benötigen. Der Abschnitt erhebt keinen Anspruch auf Vollständigkeit, sondern ist
auf das in den folgenden Kapiteln Notwendige zugeschnitten.
1.1 Grundlegende Bezeichnungen
Die Wahrscheinlichkeitsrechnung beschäftigt sich mit Zufallsexperimenten, welche unter vordefinierten Bedingungen ablaufen. Die Menge aller möglichen Ergebnisse bezeichnet man dabei üblicherweise als Grundraum Ω, die Anzahl der Elemente
von Ω als Mächtigkeit. Teilmengen von Ω heißen Ereignisse, einzelne Ausgänge
(= Ergebnisse) ωi Elementarereignisse.
Falls kein gesonderter Hinweis erfolgt, werden wir uns in dieser Arbeit vorwiegend
auf endliche, diskrete Grundräume beschränken.
1.2 Zufallsgrößen
Definition 1.2.1 Unter einer Zufallsgöße X versteht man eine Abbildung:
X : Ω −→ R
(1.1)
ω −→ X(ω)
(1.2)
X ordnet somit jedem Ereignis eine Zahl zu. Die Hauptanwendung von Zufallsgrößen besteht jedoch darin, dass man mit ihrer Hilfe Teilmengen des Grundraums
beschreiben kann.
Als Beispiel soll das Ereignis angegeben werden, dass X den Wert k annimmt.
Beispiel 1.2.1
{X = k} := {ω ∈ Ω : X(ω) = k}
(1.3)
9
1 Grundlagen
Im Alltag könnte X z.B. die Anzahl der Sechser beim dreimaligen Werfen eines
Würfels darstellen.
Eine Verallgemeinerung von Zufallsgrößen stellen Zufallsvariablen dar. Dabei ist
die Wertemenge von X beliebig und nicht auf R beschränkt.
Im Folgenden wird meist von Zufallsgrößen gesprochen.
1.3 Wahrscheinlichkeitsmaß
Aus dem Alltag sind uns Aussprüche wie: Mit 50-prozentiger Wahrscheinlichkeit
”
werden wir gewinnen“ oder Jeder hat die gleiche Chance“ wohl bekannt. Was ist
”
aber Wahrscheinlichkeit, was Chance?
Eine der möglichen Antworten auf diese Fragen liefert der Begriff der mathematischen Wahrscheinlichkeit.
Definition 1.3.1 Unter einem Wahrscheinlichkeitsmaß versteht man eine Funktion P die jedem Ereignis E ⊆ Ω eine reelle Zahl zuordnet und folgende Axiome
erfüllt (nach Kolmogorow1 )
(A1)
P (E) ≥ 0
Nichtnegativität
(1.4)
(A2)
P (Ω) = 1
Normiertheit
(1.5)
(A3)
P (E1 + E2 ) = P (E1 ) + P (E2 )
Additivität
(1.6)
wobei E1 und E2 disjunkte Ereignisse von Ω darstellen. Das Tupel (Ω,P) heißt endlicher Wahrscheinlichkeitsraum.
Aus (A3) ist ersichtlich, dass die Verteilung von P durch die Elementarwahrscheinlichkeiten p(ωi ) festgelegt wird.
Für die Verteilung einer Zufallsgröße folgt mit Gl. (1.3):
P (X = k) := P ({X = k}) = P ({ω ∈ Ω : X(ω) = k})
(1.7)
bzw. in Verallgemeinerung für mehrere Zufallsgrößen Xi (i=1,...,n):
P (X1 = k1 , ..., Xn = kn ) := P ({ω ∈ Ω|X1 (ω) = k1 , ..., Xn (ω) = kn })
1
(1.8)
Andrej Nikolajewitsch Kolmogorow (1903-1987), ab 1930 Professor in Moskau, leistete fundamentale Beiträge zur Wahrscheinlichkeitstheorie
10
1.4 Laplace-Verteilung
1.4 Laplace-Verteilung
Eine spezielle Verteilung stellt die sog. Laplace2 -Verteilung dar. Wir gehen dabei
von einem n-elementigen Grundraum Ω = {ω1 , ..., ωn } aus. Für die Elementarwahrscheinlichkeiten gilt dann:
p(ωi ) =
1
1
=
n
|Ω|
i = 1, .., n
(1.9)
Eine Laplace- Verteilung zeichnet sich also dadurch aus, dass jedes Elementarereignis
gleichwahrscheinlich ist. Für ein Ereignis E ⊆ Ω folgt mit Gl. (1.6):
P (A) =
|E|
|E|
=
n
|Ω|
(1.10)
1.5 Unabhängigige Zufallsgrößen
Definition 1.5.1 Gegeben sei ein Wahrscheinlichkeitsmaß P, Grundraum Ω und
Zufallsgrößen Xi : Ω → R (i=1,...,n). Wir nennen die Xi stochastisch unabhängig wenn für alle xi ∈ R gilt:
P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 ) · ... · P (Xn = xn )
(1.11)
Die stochastische Unabhängigkeit stimmt gut mit folgender Vorstellung überein:
Sind zwei Ereignisse (Zufallsvariablen legen Ereignisse fest!) unabhängig, so beeinflusst der Ausgang des einen Ereignisses nicht den Ausgang des anderen.
1.6 Indikatorfunktion
Bei Indikatorfunktionen handelt es sich um spezielle Zufallsgrößen, die wie folgt
definiert sind.
Definition 1.6.1 Sei A ⊆ Ω eine Menge. Die durch:

1, ω ∈ A
1A (ω) =
0, ω ∈
/A
(1.12)
definierte Funktion heißt Indikatorfunktion von A
2
Pierre-Simon (Marquis de) Laplace (1749- 1827), französischer Mathematiker und Astronom,
beschäftigte sich unter anderem mit der Wahrscheinlichkeitstheorie und dem Gebiet Differentialgleichungen
11
1 Grundlagen
1.7 Erwartungswert
Motivation: Bei einem Würfelspiel bezahlt man für jeden Wurf 4 Euro und erhält
als Gewinn die geworfene Zahl in Euro. Soll man das Spiel spielen?3
Solche oder ähnliche Fragen lassen sich mit dem wahrscheinlichkeitstheoretischen
Begriff des Erwartungswertes beantworten:
Definition 1.7.1 Sei X : Ω −→ R eine Zufallsgröße mit Wertemenge W = {x1 , x2 , ..., xk }
und (Ω, P ) ein endlicher Wahrscheinlichkeitsraum, dann nennt man:
E(X) :=
X
X(ω) · P ({ω}) =
k
X
xj · P (X = xj )
(1.13)
j=1
ω∈Ω
den Erwartungswert von X.
Aus der Definition ist ersichtlich, dass es ausreicht, die Wahrscheinlichkeitsverteilung von X zu kennen um E(X) zu bestimmen. Die Kenntnis der Elementarwahrscheinlichkeiten ist nicht erforderlich! Für kontinuierlich verteilte Größen geht das
Summenzeichen in ein Integral über und die Wahrscheinlichkeiten werden zu Wahrscheinlichkeitsdichten (Beispiel: Normalverteilung vgl. evtl. Abschnitt 1.9).
Setzt man im Anfangsbeispiel für X den Gewinn, so wird man leicht feststellen, dass man sein
Geld lieber behält. (So ist das leider meist bei Glücksspielen: Am Ende gewinnt immer die Bank“)
”
Physikalische Interpretation des Erwartungswertes:
Wir stellen uns die reelle Achse als masselose Stange vor. An den Stellen xi ∈ R sind Punktmassen
P
mi angebracht (i=1,...,n). Wir berechnen den Schwerpunkt S der Anordnung. Ist M = n
i=1 mi
die Gesamtmasse so gilt für die Lage von S:
S=
n
n
X
mi
1 X
mi · xi =
· xi
M i=1
M
i=1
Deutet man die xi als Werte einer Zufalssgröße X und
mi
M
als Wahrscheinlichkeit P (X = xi ) so ist
S nichts anderes als der Erwartungswert E(X).
Im Weiteren folgen einige ausgewählte Eigenschaften des Erwartungswertes. Es
wird dabei kein Anspruch auf Vollständigkeit erhoben.
3
Beispiel leicht abgewandelt entnommen aus Tietze: Mathematik in der Sekundarstufe II“; vgl.
”
Literaturverzeichnis [26]
12
1.7 Erwartungswert
Eigenschaften des Erwartungswertes
Im Folgenden sei X eine Zufallsvariable, a ∈ R und A ⊂ Ω. Dann gilt:
Lemma 1.7.1
E(a · X) = a · E(X)
(1.14)
Beweis
Laut Definition des Erwartungswertes gilt:
X
E(a · X) =
(a · X)(ω) · P (ω)
ω∈Ω
=
X
a · X(ω) · P (ω)
ω∈Ω
=a·
X
X(ω) · P (ω)
ω∈Ω
= a · E(X)
Lemma 1.7.2
E(X + Y ) = E(X) + E(Y )
(1.15)
Beweis
Folgt analog wie (1.14) aus der Definition des Erwartungswertes
Lemma 1.7.3
X ≤ Y ⇒ E(X) ≤ E(Y )
(1.16)
Beweis
Folgt analog wie (1.14) aus der Definition des Erwartungswertes
Lemma 1.7.4
E(1A ) = P (A)
(1.17)
Beweis
Wieder folgt mit der Definition des Erwartungswertes:
X
E(1A ) =
1A (ω) · P (ω)
ω∈Ω
Wegen 1A (ω) = 1 für ω ∈ A und 1A (ω) = 0 für ω ∈
/ A folgt weiter:
13
1 Grundlagen
E(1A ) =
X
1 · P (ω) = P (A)
ω∈A
Lemma 1.7.5 Für unabhängige Zufallsgrößen X, Y gilt für den Erwartungswert
die Multiplikationsregel:
E(X · Y ) = E(X) · E(Y )
(1.18)
Beweis
Die Wertebereiche von X und Y sind gegeben durch X(Ω) = {x1 , x2 , ..., xn } und
Y (Ω) = {y1 , y2 , ..., ym }. Dann gilt:
E(X · Y ) =
n X
m
X
(xi · yj ) · P (X · Y = xi · yj )
i=1 j=1
Wegen der Unabhängigkeit der Zufallsgrößen (vgl. Gl. (1.11)) folgt weiter:
E(X · Y ) =
n X
m
X
xi · yj · P (X = xi ) · P (Y = yj )
i=1 j=1
=
n
X
! 
xi · P (X = xi )
i=1
·
m
X

yj · P (Y = yj )
j=1
= E(X) · E(Y )
1.8 Varianz
Motivation: Zufallsgröße X habe die Verteilung: P (X = 0) = 1. Zufallsgröße Y die
Verteilung: P (Y = −1) = 0.5, P (Y = 1) = 0.5. Man erkennt leicht, dass beide den
gleichen Erwartungswert (E(X) = E(Y ) = 0) haben, jedoch streut Y viel stärker
um 0. Um diese Eigenschaft zu erfassen, gibt es in der Wahrscheinlichkeitsrechnung
den Begriff der Varianz:
Definition 1.8.1 Gegeben ist ein endlicher Wahrscheinlichkeitsraum (Ω,P) und eine Zufallsgröße X : Ω −→ R. Man nennt
V ar(X) := E[(X − E(X))2 ]
14
(1.19)
1.8 Varianz
die Varianz von X und
σ(X) :=
p
V ar(X)
(1.20)
die Standardabweichung.
Bemerkung:
Um den Klammerwald“ zu vermeiden schreibt man meist V ar(X) := E(X −
”
E(X))2 statt V ar(X) := E[(X − E(X))2 ].
Physikalische Interpretation der Varianz:
Wie beim Erwartungswert wollen wir auch die Varianz veranschaulichen. Wir benutzen dazu die
gleiche Anordnung einer masselosen Stange mit Punktmassen mi an Stellen xi (vgl. 1.7: Physikalische Interpretation des Erwartungswerts). Die gesamte Anordnung wird am Schwerpunkt S (=
E(X)) aufgehängt. Das Gebilde wird nun mit einer Frequenz ω in Rotation gebracht. Für den
Geschwindigkeitsbetrag vi der Punktmasse mi gilt:
vi = |xi − S| · ω
Für die kinetische Energie Ekini folgt:
Ekini =
1
1
· mi · vi2 = · mi · |xi − S|2 · ω 2
2
2
Die gesamte kinetische Energie ergibt sich durch Aufsummieren:
n
Ekin =
Ekin ∝
X
1
· ω2 ·
mi · |xi − S|2
2
i=1
n
X
mi · |xi − S|2 ∝
i=1
d.h. :
n
X
mi
· |xi − S|2 = V ar(X)
M
i=1
Drückt man Ekin mit Hilfe des Trägheitsmomentes I aus so ergibt sich:
Ekin =
1 2
Iω
2
Wir können somit festhalten, dass Var(X) proportional zum Trägheitsmomnet I ist.
Eigenschaften der Varianz
X sei eine Zufallsgröße und a,b ∈ R. Dann gilt:
Lemma 1.8.1
V ar(a · X + b) = a2 · V ar(X)
(1.21)
Beweis: Laut Definition der Varianz gilt:
V ar(a · X + b) = E(a · X + b − E(a · X + b))2
15
1 Grundlagen
Mit Gl. (1.14) und Gl. (1.15) folgt weiter:
V ar(a · X + b) = E(a · X + b − a · E(X) − b)2 = E(a · X − a · E(X))2
= E(a(X − E(X)))2 = E(a2 (X − E(X))2 ) = a2 · V ar(X)
Lemma 1.8.2
V ar(X) = E(X 2 ) − (E(X))2
(1.22)
Beweis:
Es gilt:
V ar(X) = E(X − E(X))2 = E(X 2 − 2 · X · E(X) + (E(X))2 )
Mit Gl. (1.14) und Gl. (1.15) folgt weiter:
V ar(X) = E(X 2 ) − 2 · E(X) · E(X) + (E(X))2 = E(X 2 ) − (E(X))2
Wir betrachten nun stochastisch unabhängige Zufallsgrößen Xi (i=1,2). Dann gilt
folgende Additionsformel:
Lemma 1.8.3
V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 )
(1.23)
Beweis:
Wieder folgt aus der Definition der Varianz:
V ar(X1 + X2 )
= E(X1 + X2 − E(X1 + X2 ))2
Gl.(1.15)
=
E(X1 − E(X1 ) + X2 − E(X2 ))2
= E[(X1 − E(X1 ))2 + 2 · ((X1 − E(X1 )) · (X2 − E(X2 ))
+ (X2 − E(X2 ))2 ]
Wendet man Gl.(1.14) und Gl.(1.15) an, so folgt weiter:
V ar(X1 + X2 ) = E(X1 − E(X1 ))2 + 2 · E[(X1 − E(X1 )) · (X2 − E(X2 ))]
+ E(X2 − E(X2 ))2
16
1.9 Binomial- und Normalverteilung
Wegen der Unabhängigkeit der Xi lässt sich dies nach Gl.(1.18) folgendermaßen
schreiben:
V ar(X1 + X2 )
= E(X1 − E(X1 ))2 + 2 · E(X1 − E(X1 )) · E(X2 − E(X2 ))
+ E(X2 − E(X2 ))2
Gl.(1.15)
=
V ar(X1 ) + 2 · 0 · 0 + V ar(X2 ) = V ar(X1 ) + V ar(X2 )
Wir wollen hier nochmals betonen, dass diese Additionsformel nur für unabhängige
Zufallsgrößen gilt, für abhängige kann man leicht Gegenbeispiele finden.
1.9 Binomial- und Normalverteilung
Bei der Binomial- und Normalverteilung handelt es sich um Wahrscheinlichkeitsverteilungen von Zufallsgrößen. Sie stellen wichtige, jedoch keineswegs die einzigen
Verteilungen von Zufallsgrößen dar. Wir stellen sie hier vor, damit sie uns später als
Beispiele dienen können.
Definition 1.9.1 (Binomialverteilung)
Eine Zufallsgröße X heißt binomialverteilt mit den Parametern n und p (kurz : X ∼
B(n, p)), falls gilt:
n
P (X = i) =
· pi · (1 − p)n−i
i
(1.24)
Man kann die obige Definition wie folgt interpretieren:
Gegeben ist ein Zufallsexperiment. Mit einer Wahrscheinlichkeit von p tritt dabei ein
Erfolg/ Treffer“ auf und mit einer Gegenwahrscheinlichkeit von q=1-p ein Miss”
”
erfolg/ Niete“. P(X=i) kann man dann als Wahrscheinlichkeit auffassen, dass in n
Versuchen genau i Erfolge/ Treffer auftreten (und damit natürlich (n-i) Misserfolge/
Nieten). Ein kurzes Beispiel:
Beispiel 1.9.1 Dreimaliger Wurf einer idealen Münze:
Kopf= Treffer, Zahl= Niete, p= 0,5, q=1-p=0,5
Die Wahrscheinlichkeit, in drei Würfen genau einen Treffer zu erzielen beträgt dann:
3
P (X = 1) =
· pi · (1 − p)n−i = 3 · (0, 5)1 · (0, 5)2 = 0, 375
1
17
1 Grundlagen
Definition 1.9.2 (Normalverteilung)
Gegeben ist eine Zufallsgröße X mit Erwartungswert µ und Varianz σ 2 . Man nennt
X normalverteilt (kurz: X ∼ N(µ, σ 2 )) falls für ihre Wahrscheinlichkeitsdichte f(x)
gilt:
f :R→R
1 x−µ 2
1
f (x) = √ · e− 2 ( σ )
σ 2π
(1.25)
Abbildung 1.1: Wahrscheinlichkeitsdichte der Normalverteilung mit µ = 0 und σ = 1, Quelle:
Literaturverzeichnis [10]
Die Wahrscheinlichkeit, dass X Werte im Intervall [a,b] annimmt, ist gegeben
durch:
Z
P (a ≤ X ≤ b) =
b
f (x)dx
a
Man beachte, dass es sich hierbei um eine kontinuierliche Verteilung handelt. X
nimmt Werte in ganz R an. Für n → ∞ konvergiert die Binomialverteilung gegen die
Normalverteilung. Dies ist unter anderem die Aussage des zentralen Grenzwertsatzes
der Stochastik. Er sei hier nur der Vollständigkeit halber erwähnt. Der interessierte
Leser findet ihn in jedem grundlegenden Buch zur Wahrscheinlichkeitsrechnung.
1.10 Konvexe Funktionen
Definition 1.10.1 (konvexe Funktionen)
Sei I ⊂ R ein Intervall und f : D → R. Man nennt f konvex, wenn für alle x1 , x2 ∈
D und alle λ mit 0 < λ < 1 gilt:
f [λx1 + (1 − λ)x2 ] ≤ λf (x1 ) + (1 − λ)f (x2 )
(1.26)
Demnach ist eine Funktion genau dann konvex auf einem Intervall I, wenn jede
Sekante oberhalb des Graphen verläuft (vgl. Abb. 1.2).
18
1.10 Konvexe Funktionen
Abbildung 1.2: Veranschaulichung des Konvexitätsbegriffs, Quelle: Literaturverzeichnis [7]
19
1 Grundlagen
20
2 Ungleichungen und Momente
Wir werden uns zu Beginn mit einigen ausgewählten Ungleichungen befassen. Im
Vordergrund steht dabei stets, Erwartungswerte abzuschätzen. Zum Schluss des Kapitels werden wir uns mit einer Verallgemeinerung von Erwartungswerten befassen,
den Momenten.
2.1 Tschebyschow-Ungleichung
Satz 2.1.1 (Tschebyschow1 -Ungleichung)
X sei eine Zufallsgröße. Dann gilt für alle > 0:
P (|X − E(X)| ≥ ) ≤
V ar(X)
2
(2.1)
Beweis:
Es gilt folgende Ungleichung:
|X − E(X)|2 ≥ |X − E(X)|2 · 1{ω:|X(ω)−E(X)|≥}
≥ 2 · 1{ω:|X(ω)−E(X)|≥}
Nun bilden wir auf beiden Seiten den Erwartungswert, es folgt:
E(|X − E(X)|2 ) ≥ E(2 · 1{ω:|X(ω)−E(X)|≥} )
Gl.(1.14)
V ar(X) ≥ 2 · E(1{ω:|X(ω)−E(X)|≥} )
Gl.(1.17)
V ar(X) ≥ 2 · P (|X − E(X)| ≥ )
⇐⇒
⇐⇒
1
Pafnuti Lwowitsch Tschebyschow (1821-1894), ab 1850 Professor in St. Petersburg, Hauptarbeitsgebiete: Zahlentheorie, konstruktive Funktionentheorie, Integrationstheorie, Wahrscheinlichkeitstheorie. Die Tschebychev-Ungleichung wird manchmal auch als Bienaymé-TschebychevUngleichung bezeichnet. 1853 wurde sie von Bienaymé in Verbindung mit der Methode der
”
kleinsten Quadrate“ aufgestellt. Tschebychev fand 1867, vermutlich unabhängig, einen anderen Zugang, und benutzte sie als erster zum Beweis für das Gesetz der Großen Zahlen“ (vgl.
”
Abschnitt 3.1).
21
2 Ungleichungen und Momente
⇐⇒
P (|X − E(X)| ≥ ) ≤
V ar(X)
2
Als direkte Folgerung erhält man für das Gegenereignis:
P (|X − E(X)| < ) = 1 − P (|X − E(X)| ≥ ) ≥ 1 −
V ar(X)
2
(2.2)
Die Voraussetzungen der Tschebyschow-Ungleichung sind sehr allgemein. Die Kehrseite hiervon ist, dass die Güte der Abschätzung sehr unterschiedlich sein kann. Um
keine triviale Aussage zu erhalten, muss relativ groß gewählt werden.
k-Sigma-Regel
p
Mit = k · σ (σ = V ar(X)) folgt aus Gl. (2.1) und Gl. (2.2):
P (|X − E(X)| ≥ kσ) ≤
1
k2
bzw.
P (|X − E(X)| < kσ) = P (E(X) − kσ < X < E(X) + kσ) ≥ 1 −
1
k2
Die letzte Gleichung wird oft als k-Sigma-Regel für beliebige Zufallsvariablen bezeichnet. Man kann sie wie folgt interpretieren: Die Wahrscheinlichkeit, dass eine Zufallsgröße X im Intervall ]E(X) − kσ; E(X) + kσ[ liegt, beträgt mindestens
100 · 1 − k12 %.
2.2 Cauchy-Schwarz-Ungleichung
Die Cauchy-Schwarz-Ungleichung ist eine der bekanntesten Abschätzungen, welche
nicht nur in der Stochastik ihre Anwendung hat. Auch auf anderen Gebieten, wie
z.B. der Analysis, spielt sie eine wichtige Rolle.
Satz 2.2.1 (Cauchy2 -Schwarz3 -Ungleichung)
Gegeben sind zwei Zufallsgrößen X,Y. Dann gilt:
E(|XY |) ≤
2
p
E(X 2 )E(Y 2 )
(2.3)
Augustin Louis Cauchy (1789-1857), franz. Mathematiker, Hauptarbeitsgebiete: Reelle Analysis
und Differentialgleichungen, Funktionentheorie, mathematische Anwendungen in der Physik und
3
Mechanik
Hermann Amandus Schwarz (1843-1921), deutscher Mathematiker, Hauptarbeitsgebiete: Reelle
und komplexe Analysis, Differentialgleichungen
22
2.3 Jensen-Ungleichung
Beweis: Für alle c ∈ R folgt mit Gl. (1.14) und Gl. (1.15):
0 ≤ E(X 2 )E[(c|X| + |Y |)2 ] = E(X 2 )E[c2 X 2 + 2c|X||Y | + Y 2 ]
= E(X 2 )[c2 E(X 2 ) + 2cE(|XY |) + E(Y 2 )]
= E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [E(|XY |)]2 + c2 [E(X 2 )]2 + 2cE(X 2 )E(|XY |)
= E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [cE(X 2 ) + E(|XY |)]2
Offensichtlich ist E(X 2 ) ≥ 0, wir unterscheiden daher 2 Fälle:
1.Fall: E(X 2 ) > 0. Für c wählen wir:
c=−
E(|XY |)
E(X 2 )
Damit erhalten wir im obigen Fall:
0 ≤E(X 2 )E(Y 2 ) − [E(|XY |)]2
p
⇒
E(|XY |) ≤ E(X 2 )E(Y 2 )
2.Fall: E(X 2 ) = 0
Da die Zufallsvariable X 2 nur Werte ≥ 0 annehmen kann, folgt:
P (X 2 = 0) = P {(ω ∈ Ω : X(ω) · X(ω) = 0)} = 1
d.h. für alle ω ∈ Ω gilt X(ω)=0 und damit:
P (XY = 0) = P {(ω ∈ Ω : X(ω) · Y (ω) = 0)} = 1
⇒
E(|XY |) =0 ,
womit die Behauptung wiederum erfüllt ist.
2.3 Jensen-Ungleichung
Satz 2.3.1 (Jensen4 -Ungleichung)
Sei I ⊆ R ein Intervall, f: I→ R konvex und differenzierbar. X : Ω → I sei eine
Zufallsgröße. Dann gilt:
E(X) ∈ I
4
Johan Ludwig William Valdemar Jensen (1859-1925), dänischer Mathematiker, leistete wichtige
Beiträge bei der Erforschung der Riemannschen Vermutung
23
2 Ungleichungen und Momente
und
f (E(X)) ≤ E(f (X))
(2.4)
Beweis:
(i) Aus Gleichung (1.16) folgt direkt E(X) ∈ I.
(ii) Um die Ungleichung zu beweisen, betrachten wir die Tangente
t(x) = f (E(X)) + (x − E(X))f 0 (E(X))
an f durch den Punkt (E(X),f(E(X))). Wegen der Konvexität gilt (vgl. evtl. Abb.
1.2):
f (x) ≥ t(x)
für alle x ∈ I
Mit Gl. (1.16) folgt:
E(f (X)) ≥ E(t(X))
⇔
E(f (X)) ≥ E[f (E(X)) + (X − E(X))f 0 (E(X))]
Wegen der Linearität (vgl. Gl. (1.14) und Gl. (1.15)) des Erwartungswertes ergibt
sich weiter:
E(f (X)) ≥ f (E(X)) + E(X − E(X)) · f 0 (E(X))
= f (E(X)) + (E(X) − E(X)) · f 0 (E(X))
= f (E(X))
2.4 Momente
Definition 2.4.1 (Momente)
Sei X eine Zufallsgröße. Für n ∈ N definieren wir:
E(X n )
n-tes Moment
(2.5)
E(|X|n )
n-tes absolutes Moment
(2.6)
E[(X − E(X))n ]
n-tes zentriertes Moment
(2.7)
Bei genauerer Betrachtung dieser Definition erkennen wir alte Bekannte. So ist E(X)
das erste Moment und Var(X) das zweite zentrierte Moment. In diesem Zusammenhang ist folgender Satz interessant:
24
2.4 Momente
Satz 2.4.1 Eine Verteilung ist durch die Angabe all ihrer Momente (falls diese
existieren5 ) eindeutig definiert.
Wir wollen diesen Satz nur für den Spezialfall beweisen, dass die Wahrscheinlichkeitsdichte von X in eine Potenzreihe entwickelbar ist.
Beweis:
Wir betrachten zwei Wahrscheinlichkeitsdichten f1 (x), f2 (x) die in all ihren Momenten übereinstimmen. Ihre Differenz lässt sich in eine Potenzreihe entwickeln:
f1 (x) − f2 (x) = a0 + a1 x + a2 x2 ...
Bildet man das Integral über das Quadrat dieser Differenz, so folgt weiter:
Z ∞
Z ∞
2
0≤
[f1 (x) − f2 (x)] dx =
[f1 (x) − f2 (x)](a0 + a1 x + a2 x2 ...)dx
−∞
⇐⇒
−∞
0 ≤ a0 (1 − 1) + a1 [E(X1 ) − E(X2 )] + a2 [E(X12 ) − E(X22 )] + ...
Da die Verteilungen in all ihren Momenten übereinstimmen, ergibt sich die rechte
R
Summe zu Null. Da der Integrand von [f1 (x) − f2 (x)]2 dx jedoch für alle x ∈ R
positiv ist, folgt:
f1 (x) ≡ f2 (x)
Als Beispiel und für später wollen wir hier noch die zentralen Momente der Normalverteilung N(µ, σ 2 ) berechnen.
n
Z
∞
1 x−µ 2
1
(x − µ)n · √ · e− 2 ( σ ) dx
σ 2π
−∞
Z ∞
2
1
x−µ
− 12 ( x−µ
2
(n−1)
)
σ
√
·e
=
−σ (x − µ)
· −
·
dx
σ2
σ 2π
−∞
E[(X − E(X)) ] =
Durch partielle Integration ergibt sich weiter:
∞
2
1
− 12 ( x−µ
)
σ
E[(X − E(X)) ] = 0 −
−σ (n − 1)(x − µ)
· √ ·e
dx
σ 2π
−∞
Z ∞
1 x−µ 2
1
= σ 2 (n − 1)
(x − µ)(n−2) · √ · e− 2 ( σ ) dx
σ 2π
−∞
n
5
Z
2
(n−2)
nicht bei jeder Verteilung existieren die Momente. Ein typisches
“ Beispiel,
” bei dem dies nicht der
pγ
γ
1
Fall ist, ist die Lévy-Verteilung mit: f (x) = 2π
exp
−
, δ ∈ R, x > δ, γ > 0
2(x−δ)
(x−δ)2/3
25
2 Ungleichungen und Momente
Unter dem Integral steht nun das (n-2)te Moment. Wiederholt man dieses Verfahren so gelangt man irgendwann zum ersten (n ungerade) oder zum zweiten (n
gerade) Moment. Da
E[(X − E(X))1 ] = 0
und
E[(X − E(X))2 ] = σ 2
gilt, folgt somit:

1 · 3 · 5 · ... · (n − 1) · σ n , n gerade
E(X − E(X))n =
0, n ungerade
(2.8)
2.5 Momenterzeugende Funktionen
Definition 2.5.1 (Momenterzeugende Funktionen)
Sei X eine Zufallsgröße. Unter einer momenterzeugenden Funktion versteht
man die Abbildung:
ψX : R → [0, ∞], ψX (t) = E(etX ) t ∈ R
(2.9)
Zur Namensgebung:
Wir betrachten folgende Menge:
D(ψX ) = {t ∈ R : ψX (t) < ∞}
Man kann zeigen, dass für alle inneren Punkte t ∈ D(ψX ) gilt6 :
(n)
ψX (t) = E(X n etX ), n ∈ N
(n)
Wobei ψX die n-te Ableitung von ψX sein soll. Ist 0 ein innere Punkt von D(ψX ),
so folgt für t=0
(n)
E(X n ) = ψX (0)
(2.10)
Mit Hilfe von ψX ist es somit möglich, die n-ten Momente zu erzeugen“.
”
6
Ein Beweis findet sich u.a. in Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturver”
zeichnis [12]
26
3 Direkte Anwendungen
Wir haben uns nun alle Grundlagen erarbeitet, um uns jetzt mit Anwendungen
zu beschäftigen. In diesem Kapitel wird deutlich werden, wozu man Momente und
Ungleichungen gebrauchen kann, und warum diese so wichtig sind.
3.1 Das schwache Gesetz der großen Zahlen
Eine der wichtigsten Anwendungen der Tschebyschow-Ungleichung ist von innermathematischer Natur. Wir wollen in diesem Abschnitt das schwache Gesetz der großen
Zahlen vorstellen und beweisen. Anschaulich gesprochen ist dies die Rechtfertigung
von Massenerscheinungen. Als Beispiel kann man unsere Gesellschaft heranziehen.
Jedes Individuum ist einzigartig. Jedoch ist es oft möglich, über eine große Anzahl
von Individuen, in bestimmten Situationen, eine Aussage zu treffen. Der (inoffizielle)
Sommerschlussverkauf, die Stimmabgabe bei Wahlen, die Benutzung von Autobahnen in der Ferienzeit, das Konsumverhalten von Industriegesellschaften..., all dies
sind solche Situationen. Um den Sachverhalt systematisch zu untersuchen, nehmen
wir folgende Einkleidung vor.
Motivation:
Wir werfen einen Würfel n-mal und notieren dabei die Häufigkeit hi (i=1,...,6) der
einzelnen Zahlen. Anschließend berechnen wir den Mittelwert. Für große n werden
wir feststellen, dass dieser sich der Zahl 3,5 annähert. Dies ist die gleiche Zahl, die
wir erhalten, wenn wir den Erwartungswert eines (idealen) Würfelwurfes berechnen.
Verallgemeinern wir den Sachverhalt. Wir führen einen Versuch n-mal durch. Die
Zufallsgröße Xi beschreibt dabei den Ausgang des i-ten Experiments (i=1,...,n). Wir
wollen nun wissen, inwieweit sich Erwartungswert und Mittelwert unterscheiden.
Satz 3.1.1 (Das schwaches Gesetz der großen Zahlen)
Xi (i=1,...,n) seien stochastisch unabhängige Zufallsgrößen mit E(Xi )=µ und V ar(Xi ) =
27
3 Direkte Anwendungen
σ 2 . Für jedes > 0 gilt dann:
lim P
n→∞
!
n
1 X
Xi − µ ≥ = 0
·
n
i=1
Beweis:
Wir definieren uns die Zufallsgröße Z :=
1
n
Pn
i=1 Xi .
Für den Erwartungswert von
Z folgt:
!
n
1X
Gl.(1.14) 1
=
E(Z) = E
Xi
·E
n
n
i=1
!
n
X
1
= ·
µ =µ
n
n
X
!
Xi
Gl.(1.15)
=
i=1
1
·
n
n
X
!
E(Xi )
i=1
i=1
Weiter ergibt sich für die Varianz:
!
!
n
n
n
X
1X
Gl.(1.21) 1
Gl.(1.23) 1 X
=
Xi
V
ar
=
X
V ar(Xi )
V ar(Z) = V ar
i
n
n2
n2
i=1
i=1
i=1
σ2
1
= 2 · n · σ2 =
n
n
Nun haben wir alles zusammen, um die Tschebyschow-Ungleichung anwenden zu
können. Für alle > 0 gilt somit:
P (|Z − E(Z)| ≥ ) ≤
⇐⇒
P
V ar(Z)
2
n
!
1 X
σ2
Xi − µ ≥ ≤
n
n · 2
i=1
Für n → ∞ folgt die Behauptung.
Für große n (mathematisch: n → ∞) stimmt somit der Mittelwert mit dem Erwartungswert überein. Handelt es sich bei den Xi um Indikatorfunktionen, so erhalten
wir als Folgerung:
Satz 3.1.2 (Das Bernoulli’sche1 Gesetz der großen Zahlen)
Ai (i=1,...,n) seien unabhängige Indikatorfunktionen mit P (Ai ) = p, dann gilt für
alle > 0:
1


n
1 X
lim P  ·
1Ai − p ≥  = 0
n→∞
n j=1
(3.1)
Jakob I. Bernoulli (1655- 1705), schweizer Mathematiker und Physiker, leistete wesentliche Beiträge zur Wahrscheinlichkeitstheorie
28
3.2 Wie man am besten Aktien kauft
Bemerkungen:
1. Dieser Satz ist deswegen so wichtig, weil er uns gestattet, unbekannte Wahrscheinlichkeiten näherungsweise zu bestimmen. Wir wollen dies nochmals betonen:
Aus Erfahrung weiß man, dass sich die relativen Häufigkeiten stabilisieren. Intuitiv
würde man sie als Wahrscheinlichkeit ansetzen. Dies ist jedoch nur Erfahrung und
somit nur Vermutung, folglich kein Wissen. Der Satz von Bernoulli geht dagegen
von den Axiomen des Wahrscheinlichkeitsbegriffs aus und versucht somit das ganze
etwas systematischer anzugehen.
2. Beim Lotto oder Würfeln wird das Gesetz der großen Zahlen oft falsch verstanden. Es wird gefolgert, dass Werte, welche in der Vergangenheit selten gefallen sind,
in der Zukunft gehäuft auftreten müssen. Dies ist jedoch falsch! Mit wachsender
Ereignisanzahl n werden Defizite“ unterdrückt. Ein kurzes Beispiel2 : Man würfelt
”
1200 mal. Dabei treten nur“ 100 Sechser auf. Man könnte meinen, dass dies 100
”
zu wenig sind. Dies ist jedoch ein Missverständnis. Die (absolute) Abweichung kann
sogar noch steigen. Die relative Häufigkeit 100/n verschwindet mit wachsendem n.
Über absolute Häufigkeiten macht das Gesetz der großen Zahlen keine Aussagen.
Der Zufall hat kein Gedächtnis, er weiß nicht, welche Werte oft oder weniger oft in
der Vergangenheit aufgetreten sind.
3.2 Wie man am besten Aktien kauft
Im letzten Kapitel haben wir die Jensen-Ungleichung kennen gelernt. Wir wollen nun
eine der Anwendungen aus dem Bereich der Wirtschaft vorstellen3 . Dazu betrachten
wir folgendes Szenario:
Sebastian möchte soviel Aktien wie möglich in einem Jahr kaufen. Diese kosten je
nach Monat ki (i=1,...,12) Euro. Er hat jedoch nur eine begrenzte Menge n an Geld,
das er in Aktien investieren will. Ihm stehen zwei Möglichkeiten zur Verfügung, wie
er dieses ausgeben kann. Zum einen kann er jeden Monat gleich viele Aktien kaufen
(= Möglichkeit a)). Zum anderen kann er sich jeden Monat vornehmen, die gleiche
Menge an Geld auszugeben, d.h. die Menge an gekauften Aktien variiert evtl. in
jedem Monat (= Möglichkeit b)). Auch wenn sich kein Börsianer in der realen Welt
so starr verhalten würde, so erscheint die Frage für den Wirtschafts-Laien durchaus
interessant. Wir wollen deshalb die beiden Möglichkeiten gegenüberstellen.
2
3
entnommen aus Mittelbach: Statistik“; vgl. Literaturverzeichnis [21]
”
Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver”
zeichnis Verzeichnis [22]
29
3 Direkte Anwendungen
Möglichkeit a):
Pro Monat werden xa Aktien gekauft. Da seine Geldmenge n beträgt, muss somit
gelten:
12
X
xa · ki = n
⇒
n
xa = P12
i=1 ki
i=1
In einem Jahr kann man sich somit
12n
Aa := 12 · xa = P12
i=1 ki
Aktien leisten.
Möglichkeit b):
Man will immer den gleichen Betrag ausgeben. Pro Monat hat man somit eine
(i)
Geldmenge von n/12 zur Verfügung. Damit kann man sich xb
Monat leisten:
(i)
xb =
Aktien im i-ten
n/12
n
=
ki
12 · ki
In einem Jahr macht das:
Ab :=
12
X
(i)
xb
=
i=1
12
X
i=1
12
n
n X 1
=
12 · ki
12
ki
i=1
Aktien. Welche Methode ist nun günstiger? Man könnte nun versuchen, die beiden
Ausdrücke miteinander zu vergleichen. Man kann jedoch auch die Jensen-Ungleichung
anwenden. Als Zufallsgröße X wählen wir dabei die Aktienkosten pro Monat. Der
Wert ki soll dabei mit einer Wahrscheinlichkeit von 1/12 angenommen werden. Als
Funktion f definieren wir f : ]0, ∞[ → R, f (x) := x−1 . Wegen f 00 (x) = 2x−3 > 0
für x ∈ ]0, ∞[ verläuft jede Sekante im Intervall I :=]0, ∞[ oberhalb des Graphen.
Damit ist f konvex auf I. Hat man den Graphen der 1/x-Funktion vor Augen, so ist
dies auch anschaulich verständlich. Damit haben wir alle Voraussetzungen erfüllt,
um die Ungleichung von Jensen anwenden zu dürfen. Es folgt:
1
1
1
f (E(X)) ≤ E(f (x)) ⇐⇒
≤ E( ) ⇐⇒ P12
E(X)
X
i=1 ki ·
Erweitert man die Ungleichung mit n so ergibt sich:
12n
Aa = P12
12
n X 1
≤
= Ab
12
k
i=1 ki
i=1 i
Sebastian sollte somit der Möglichkeit b) vorziehen.
30
1
12
12
X
1 1
≤
·
ki 12
i=1
3.3 Schiefe und Exzess
3.3 Schiefe und Exzess
Erwartungswert und Varianz können durch Momente ausgedrückt werden, die Verteilungen charakterisieren. Es gibt jedoch noch weitere Größen. Zwei der wichtigsten
sind Schiefe und Exzess. Sie entstehen durch Kombination von Momenten. Befassen
wir uns zuerst mit der Schiefe S. Ganz allgemein lässt sich definieren:
Definition 3.3.1 (Schiefe)
Unter der Schiefe g1 einer Zufallsgröße X verstehen wir:
g1 =
M3
3/2
M2
=
E[(X − E(X))3 ]
V ar(X)3/2
(3.2)
Wobei Mi := E((X − E(X))i ) (i = 2, 3) die i-ten zentralen Momente bezeichnen.
Die Schiefe ist ein Maß für die Symmetrie der Verteilung. Betrachten wir Gl. (3.2),
so erkennen wir: Ist die Verteilung von X symmetrisch zum Mittelwert E(X), so ist
die Schiefe gleich Null. Das wohl bekannteste Beispiel mit g1 = 0 ist die Normalverteilung. Mit Gl. (2.8) kann dies leicht bestätigt werden. g1 < 0 bezeichnet man als
linksschief, g1 > 0 als rechtsschief.
Ohne eine exakte Rechnung durchzuführen, kann man oft am äußeren Erscheinungsbild des Verteilungsgraphen entscheiden, ob die Verteilung rechts- oder linksschief
ist. Meist gelten folgende Regeln:
Bei rechtsschiefen Verteilungen beobachtet man Werte, die kleiner als der Mittelwert
sind häufiger, als solche, die größer sind. Das Maximum der Verteilung befindet sich
links vom Mittelwert und der rechte Teil des Graphen ist flacher als der linke. Bei
linksschiefen Verteilungen gilt genau das Umgekehrte. Abbildung 3.1 veranschaulicht dies. Im Anhang finden sich weitere diskrete Beispiele.
Eine typische positive Schiefe ist im allgemeinen bei dem Beispiel vom Pro-Kopf
Einkommen in einem Land gegeben. Es gibt im Allgemeinen nicht sehr viele Menschen mit sehr hohem Einkommen, jedoch viele mit niedrigem. Wegen der dritten
Potenz in der Schiefe-Definition gewinnen die wenigen hohen Werte ein starkes Gewicht und wir erhalten ein positives Schiefemaß.
Kommen wir nun zum Exzess einer Verteilung:
Definition 3.3.2 (Exzess)
Unter dem Exzess g2 einer Zufallsgröße X verstehen wir:
g2 =
M4
E[(X − E(X))4 ]
−
3
=
−3
V ar(X)2
M22
(3.3)
31
3 Direkte Anwendungen
Abbildung 3.1: Links- und rechtsschiefe Verteilung, Quelle: Literaturverzeichnis [17]
Der Exzess (auch Wölbung genannt) ist so definiert, dass er für die Normalverteilung den Wert Null ergibt. Auch dies kann mit Gl. (2.8) leicht bestätigt werden.
Alle anderen Verteilungen beziehen sich hierauf.
Meist gilt:
Bei positivem Exzess ist die Kurve der Verteilung spitzer“ (im Vergleich zur Nor”
malverteilung). Bei negativem Exzess ist sie stumpfer“. Abbildung 3.2 soll dies
”
veranschaulichen. Im Anhang befinden sich wieder diskrete Beispiele.
Abbildung 3.2: Exzess verschiedener Verteilungen, Quelle: Literaturverzeichnis [17]
Wir wollen hier betonen, dass es ohne Probleme möglich ist, Verteilungen zu
finden, welche in Erwartungswert, Varianz, Schiefe und Exzess übereinstimmen.
Erst durch die Angabe aller Momente (vgl. Satz 2.4.1) ist eine Verteilung eindeutig
festgelegt.
32
3.4 Die Chernoff-Schranke
3.4 Die Chernoff-Schranke
Mit Hilfe der Chernoff4 -Schranke lässt sich die Wahrscheinlichkeit von Zufallsvariablen nach oben abschätzen, ohne dass man die Verteilung derselben kennt. Anstelle
dieser benötigt man die momenterzeugenden Funktionen. Betrachten wir den Sachverhalt genauer:
Wir stellen uns n unabhängige Zufallsgrößen X1 , ..., Xn vor. Zusätzlich seien diese
identisch verteilt. Als Beispiel können wir uns vorstellen, dass die Xi alle binomial
verteilt (s. Punkt 1.9) sind. Betrachtet man Gleichung (2.9), so erkennt man, dass sie
deshalb alle die gleiche momenterzeugende Funktion ψX1 (t) = ... = ψXn (t) =: ψX (t)
besitzen. Wir setzen voraus, dass ψX (t) in [0, γ], γ ∈ R+ existiert. Wir definieren
nun die Summe Sn der Zufallsvariablen
Sn :=
n
X
Xi
i=1
und das Ereignis:
A := {Sn ≥ λ}
Offensichtlich gilt dann für alle t ≥ 0:
etSn ≥ etλ · 1A
Wir bilden nun auf beiden Seiten den Erwartungswert:
E(etSn ) ≥ etλ P (A)
Wegen der Unabhängigkeit der Zufallsgrößen gilt für den Erwartungswert die Multiplikationsregel (vgl. Gl. (1.18)) und man schreibt weiter:
E(etX1 ) · ... · E(etXn ) ≥ etλ P (A)
⇐⇒
(ψX (t))n ≥ etλ P (Sn ≥ λ)
Wir definieren: K(t) := ln[ψX (t)] d.h. ψX (t) = eK(t) und damit:
P (Sn ≥ λ) ≤ en·K(t) · e−t·λ = exp [−tλ + nK(t)]
Indem man das Infimum bildet, folgt hieraus die Chernoff-Schranke:
P (Sn ≥ λ) ≤ inf exp [−tλ + nK(t)]
t∈[0,γ]
4
Herman Chernoff (*1923), US-amerikanischer Mathematiker, leistete fundamentale Beiträge zur
Statistik
33
3 Direkte Anwendungen
3.5 Schätzung nach der Momentmethode
Wir stellen uns ein Zufallsexperiment vor, welches mehrmals wiederholt wird und
dabei die Ausgänge {x1 , x2 , ..., xn } hat. Mathematisch bedeutet dies, dass wir eine
Zufallsgröße X mit den Werten {x1 , x2 , ..., xn } haben. Die Verteilung von X beinhaltet einen unbekannten Parameter θ. Unser Ziel ist es, diesen Parameter möglichst
gut abzuschätzen. Je nach Parameter bzw. Verteilung gibt es hierfür verschiedene
Methoden. Im Rahmen dieser Zulassungsarbeit möchten wir jedoch nur eine vorstellen: Die Schätzung nach der Momentmethode. Hierbei wird der gesuchte Parameter
durch Momente ausgedrückt. Die Abschätzung erfolgt durch Verwendung von empirischen Momenten. Das k-te empirische Moment ist definiert als:
n
1X k
xi
mk :=
n
i=1
Anhand des folgenden Beispiels soll der Sachverhalt veranschaulicht werden:
Wir betrachten eine Poisson5 -verteilte Zufallsgröße X:
P (X = k) = e−λ ·
λk
,
k!
k ∈ N0 , λ > 0,
λ ist dabei der abzuschätzende Parameter. Man kann leicht beweisen, dass für den
Erwartungswert von X gilt:
E(X) = V ar(X) = λ
(3.4)
Um an unseren Parameter λ zu gelangen, können wir also den Erwartungswert
abschätzen. Dies geschieht hier durch den Mittelwert x̄ der Beobachtungen xi (i=1,...,n),
bzw. durch das erste empirische Moment der Verteilung von X.
n
1X
x̄ =
xi
n
i=1
D.h. λ ' m1 .
Eine andere Möglichkeit, um an eine Schätzung für λ zu gelangen, ist die Varianz
von X zu berechnen (vgl. Gl. (3.4)). Mit Lemma 1.22 folgt:
V ar(X) = E(X 2 ) − (E(X))2
Als Schätzung erhalten wir somit:
λ̃ ' m2 − m21
5
Siméon Denis Poisson (1781- 1840), leistete wichtige Beiträge zur math. Physik und zur Analysis
34
3.5 Schätzung nach der Momentmethode
Offensichtlich gilt λ̃ 6= λ. Was ist nun die bessere Schätzung? Wir verraten, dass
es λ̃ ist, gehen jedoch nicht weiter darauf ein. Die Stärke der Momentmetheode ist
ihr breiter Anwendungsbereich. Ihre Schwäche ist, dass sie nicht in jedem Fall zum
besten Ergebnis führt.
35
3 Direkte Anwendungen
36
4 Ruinwahrscheinlickeit von
Versicherungsgesellschaften
Wir werden in diesem Kapitel eine weitere Anwendung der Tschebyschow-Ungleichung
vorstellen. Auch die momenterzeugenden Funktionen sowie die Jensen-Ungleichung
werden uns begegnen. Unsere Ziel ist es, die Bankrottwahrscheinlichkeit1 eines Unternehmens zu bestimmen. Bevor wir damit beginnen können, benötigen wir jedoch
noch den Begriff des elementar bedingten Erwartungswertes.
4.1 Der elementar bedingte Erwartungswert
Definition 4.1.1 Gegeben ist eine Zufallsgröße X : Ω → R auf einem Grundraum
Ω und ein Ereignis B ⊆ Ω. Unter dem elementar bedingten Erwartungswert2
E(X|B) einer Zufallsgröße X, unter der Bedingung B, verstehen wir:
E(X|B) :=
E(X · 1B )
P (B)
Anschaulich gesprochen fragt man nach dem Erwartungswert von X unter dem
Aspekt, dass das Ereignis B eingetreten ist. Wir besprechen zwei Extremfälle:
1.Fall: B = Ω
⇒
E(X|B) = E(X)
Wir erhalten den gewöhnlichen Erwartungswert. Dies verwundert nicht. Wir wissen, dass X im Experiment einen Wert in X(Ω) angenommen hat. Ω ist das sichere
Ereignis. Es tritt immer ein. Durch die Angabe, dass B eingetreten ist, erhalten
1
Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver”
zeichnis [22]
2
Die Theorie hängt eng mit der über bedingte Wahrscheinlichkeiten von Ereignissen zusammen
(Zufallgrößen definieren Ereignisse!). Um den Rahmen nicht zu sprengen, müssen wir den interessierten Leser hierbei auf Sekundärliteratur verweisen. Eine gute und einfache Abhandlung
findet sich z.B. in Henze: Stochastik für Einsteiger“; vgl. Literaturverzeichnis [10]
”
37
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
wir keine zusätzliche Information. Alles, was wir wissen, war schon zuvor bekannt.
Warum sollte sich also der Erwartungswert ändern?!
2.Fall: B = ω̃ mit ω̃ ∈ Ω
xi := X(ω̃) und p := p(ω̃), es folgt:
X
E(X · 1B ) =
X(ω) · 1B (ω) · P ({ω}) = xi · p
⇒
E(X|B) =
ω∈Ω
xi · p
= xi
p
Der Erwartungswert bezieht sich auf ein konkretes Element im Wertebereich.
Auch dies stimmt mit unserer Vorstellung überein. Durch die Vorgaben wissen wir,
dass X einen Wert in X(B) = xi angenommen hat. Somit muss der Erwartungswert
xi sein.
Nun steht unserem eigentlichen Ziel nichts mehr im Wege.
4.2 Die Ruinwahrscheinlichkeit
Wir gehen von folgenden Anfangsbedingungen aus: Eine Versicherungsgesellschaft
besitzt ein Anfangskapital a ≥ 0. Wir definieren nun unabhängige Zufallsgrößen Gj
(j ∈ N) mit Werten in R. Gj soll den Gewinn bzw. Verlust des Unternehmens im
j-ten Jahr bezeichnen. Sie besitzen alle die gleiche Wahrscheinlichkeitsverteilung.
P
Somit ist Kn := a + nj=1 Gj eine weiter reellwertige Zufallsgröße, die das Kapital
im n-ten Jahr beschreibt. Als weitere Annahme setzen wir noch voraus, dass es ein
R > 0 ( R ∈ R) gibt, mit
E(e−RGj ) = 1
(4.1)
Sobald nun die Größe Kn unter 0 fällt, ist die Firma pleite. N:=inf{n ∈ N : Kn <
0} bezeichnet damit den Zeitpunkt des Ruins. Wir wollen nun zeigen, dass ein
eventueller Ruin d.h. die Menge {N < ∞} mit der Wahrscheinlichkeit
P ({N < ∞}) =
e−Ra
E(e−RKN |{N < ∞})
(4.2)
eintritt.
Beweis:
Vorüberlegungen: Es gelten folgende Gleichungen
E(e−RKn ) = e−Ra ,
E(e−R(Kn −Km ) ) = 1,
38
n∈N
m = 1, ..., n
(4.3)
(4.4)
4.2 Die Ruinwahrscheinlichkeit
Da die Gj stochastisch unabhängig sind, folgen diese beiden Gleichungen
unmittelbar mit der Multiplikationsregel (vgl. Gl.(1.18)) und Gl.(4.1).
Für den Erwartungswert E(Gj ) gilt außerdem:
E(Gj ) ≥ 0
(4.5)
Dies folgt unmittelbar aus der Jensen-Ungleichung, angewendet auf die
Zufallsgröße Gj , mit f (x) = e−Rx . (Diese fordert, dass e−RE(Gj ) =
f (E(Gj )) ≤ E(f (Gj )) = 1 gilt, woraus die Behauptung folgt.)
Wir betrachten nun die rechte Seite von Gl. (4.2). Nach Gl. (4.3) gilt für den
Zähler:
e−Ra = E(e−RKn ) = E(e−RKn · 1{N ≤n} ) + E(e−RKn · 1{N >n} )
(4.6)
Wir zeigen nun, dass der zweite Summand für n → ∞ verschwindet:
Zuerst zwei Definitionen:
σ 2 := V ar(Gj )
µ := E(Gj )
Nun gilt:
E(e−RKn · 1{N >n} ) = E(e−RKn · 1{N >n}∩{Kn ≤a+nµ−σn2/3 } )
+ E(e−RKn · 1{N >n}∩{Kn >a+nµ−σn2/3 } )
Da für N > n, Kn ≥ 0 gilt, kann man mit der Monotonie des Erwartungswertes
(vgl. Gl. (1.16) weiter abschätzen:
2/3 )
E(e−RKn · 1{N >n} ) ≤ E(1{N >n}∩{Kn ≤a+nµ−σn2/3 } ) + E(e−R(a+nµ−σn
)
2/3 )
≤ E(1{Kn ≤a+nµ−σn2/3 } ) + e−R(a+nµ−σn
2/3 )
≤ P {Kn ≤ a + nµ − σn2/3 } + e−R(a+nµ−σn
(4.7)
Für n → ∞ verschwindet der zweite Summand. Dies wollen wir kurz begründen.
Es gilt:
a + nµ − σn2/3 = n ·
a
+µ−σ
n
n2
n3
1/3 !
=n·
a
+µ−σ
n
1/3 !
1
n
39
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
Beachtet man, dass µ ≥ 0 gilt (vgl. Gl.(4.5)), so erkennt man leicht, dass dieser Term
für n → ∞ über alle Grenzen wächst. Wegen R > 0 strebt folglich e−R(a+nµ−σ
2 n2/3 )
gegen 0.
Betrachten wir nun den ersten Summanden von Gl. (4.7) genauer. Hier hilft uns
die Tschebyschow-Ungleichung (vgl. Gl.(2.1)) weiter. Mit
= σn2/3
X = Kn
E(X) = a + nµ
V ar(X) = nσ 2
folgt:
3 1/3 1/3
nσ 2
n
1
nσ 2
=
=
=
n4
n
(σn2/3 )2
σ 2 n4/3
1/3
1
2/3
⇒ P (Kn − (a + nµ) ≤ −σn ) ≤
n
1/3
1
⇔ P (Kn ≤ a + nµ − σn2/3 ) ≤
n
P (|Kn − (a + nµ)| ≥ σn2/3 ) ≤
Für n → ∞ geht die Wahrscheinlichkeit gegen 0, und damit auch der erste Summand
von Ungleichung (4.7).3 Aus Gleichung (4.6) folgt deshalb:
e−Ra = lim e−Ra = lim E(e−RKn · 1{N ≤n} )
n→∞
n→∞
= lim
n→∞
= lim
n→∞
= lim
n→∞
n
X
m=1
n
X
m=1
n
X
E(e−RKn · 1{N =m} )
E(e−RKn · eRKm −RKm · 1{N =m} )
E(e−R(Kn −Km ) · e−RKm · 1{N =m} )
m=1
Man überlegt sich leicht, dass die zwei Zufallsgrößen (e−RKm ·1{N =m} ) und e−R(Kn −Km )
3
Der aufmerksame Leser wird sich vielleicht fragen, wozu wir das σ bei der Wahl von benötigen.
Die Abschätzung würde auch mit = n2/3 funktionieren. Das σ besitzt nur kosmetische“
”
Gründe.
40
4.2 Die Ruinwahrscheinlichkeit
stochastisch unabhängig sind. Mit Gl. (4.4) folgt daher weiter:
e−Ra = lim
n
X
n→∞
=
=
∞
X
m=1
∞
X
E(e−RKm · 1{N =m} ) · E(e−R(Kn −Km ) )
m=1
E(e−RKm · 1{N =m} ) · 1
E(e−RKN · 1{N =m} )
m=1
= E(e−RKN · 1{N <∞} )
(4.8)
Kommen wir nun zum Nenner von Gl. (4.2). Aus der Definition des elementar
bedingten Erwartungswertes ergibt sich:
E(e−RKN |{N < ∞}) =
E(e−RKN · 1{N <∞} )
P ({N < ∞})
(4.9)
Mit Gl.(4.8) und (4.9) folgt nun:
E(e−RKN · 1{N <∞} )
e−Ra
= P ({N < ∞})
=
E(e−RKN ·1{N <∞} )
E(e−RKN |{N < ∞})
P ({N <∞})
Wegen KN < 0 gilt folgende Ungleichung:
P ({N < ∞}) ≤ e−Ra
Hier liegt die eigentliche Bedeutung für die Anwendung. Mit obiger Ungleichung ist
es relativ einfach, die Ruinwahrscheinlichkeit abzuschätzen.
41
4 Ruinwahrscheinlickeit von Versicherungsgesellschaften
42
5 Mittleres Laufzeitverhalten eines
Algorithmus
Computer können dem Menschen viele stupide Rechnungen abnehmen. Aufgaben,
die ein festes Muster haben, sind programmierbar, man spricht von Algorithmen.
So ist man z.B. immer auf der Suche nach neuen Primzahlen, die vor allem in der
Kryptographie (= mathematische Verschlüsselungstechniken, welche die Sicherheit
von Informationen betreffen) wichtige Anwendungen haben. Solche Verfahren haben
jedoch oft eine sehr lange Laufzeit. Man fragt sich deshalb im Vorfeld, ob sich der
Algorithmus lohnt“, oder ob er zu zeitaufwendig ist und man deshalb einen ande”
ren verwenden soll. Man interessiert sich also für das mittlere Laufzeitverhalten eines
Algorithmus. An einem einfachen Beispiel1 soll ein Ermittlungsverfahren vorgestellt
werden:
(n)
(n)
(n)
Gegeben ist das Tupel ω (n) = (ω1 , ..., ωn ), wobei die ωi
(i=1,...,n) paarwei(n)
se verschieden sind. Ziel ist die Ermittlung des Maximums m := maxi ωi
und des
zugehörigen Index j∈ {1, ..., n}. Man kann den Algorithmus wie folgt schreiben:
j := n; m := ωn(n) ; k := n − 1;
[Initialisierung]
1 : if k = 0 then write (j, m)
else
if
(n)
ωk
≤ m then goto 2
else
j := k, m :=
(n)
ωk ;
[Austauschschritt]
2 : k := k − 1
goto 1
1
entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis [12]
”
43
5 Mittleres Laufzeitverhalten eines Algorithmus
Drei kleine Beispiele zur Veranschaulichung des Algorithmus:
1. Beispiel: ω (1) = (3)
Initialisierung: j:=1, m:=3; k:=0
Laut 1 sind wir fertig und das Ergebnis lautet (1,3). Dies erscheint logisch, die Kette
besteht ja nur aus einem Element.
2. Beispiel: ω (2) = (1, 2)
Initialisierung: j:=2, m:=2; k:=1
k=1 ist also ungleich Null. Weiter gilt 1 = ω1 ≤ m = 2. Wir gelangen somit direkt zu
2. Dort wird das neue k zu k:=k-1=0 definiert. Bei 1 ergibt sich damit als Ergebnis
(2,2)
3. Beispiel: ω (2) = (2, 1)
Initialisierung: j:=2, m:=1; k:=1
Wieder ist k 6= 0. Nun gilt aber 2 = ω1 6≤ m = 1, d.h. wir gelangen zum Austauschschritt. Dieser definiert j:=1, m:=2. Weiter geht es mit 2. Hier wird k zu k:=k-1=0.
Wieder bei 1 angelangt erkennen wir, dass das Ergebnis (1,2) lautet.
Die Laufzeit dieses Algorithmuses hängt von der mittleren Anzahl der Austausch(n)
schritte ab. Offensichtlich ist nur die Anordnung der ωi ’s dabei von Bedeutung und
ihre relative Größe zueinander, nicht deren absolute Größe. Wir können deshalb
die mathematische Einkleidung vornehmen, dass ω (n) eine Permutation der Zahlen
1,...,n ist. Jede Permutation soll dabei gleich wahrscheinlich sein. Als Grundraum Ω
wählen wir deshalb:
(n)
Ωn = {ω (n) = (ω1 , ..., ωn(n) ) : ω (n) n-Permutation von (1, ..., n) ohne Wiederholung}
Nach den Regeln der Kombinatorik gilt für die Mächtigkeit von Ωn , |Ωn | = n!.
Als Wahrscheinlichkeitsverteilung wählen wir die Laplace-Verteilung d.h.:
1
und
n!
|A|
Pn (A) =
, A⊆Ω
n!
Pn (ω (n) ) =
Die Zufallsgröße
Xn : Ωn → N
soll die Anzahl der Austauschschritte bei gegebenem ω angeben. Offensichtlich gilt
für die Wertemenge W von Ωn : W = {0, ..., n − 1}
Um die mittlere Anzahl der Austauschritte (und damit einen Anhaltspunkt für
das mittlere Laufzeitverhalten des Algorithmus) zu bestimmen, wollen wir E(Xn )
berechnen. Durch Betrachtung des Algorithmus erkennt man folgende Darstellung
von Xn :
44

Xn−1 (ω̃ (n−1) ) + 1, ω (n) = n
1
Xn (ω (n) ) =
(n)
X
(n−1)
(ω̃
), ω 6= n
X1 = 0,
n−1
(5.1)
1
Dabei ist ω̃ (n−1) die Permutation von (1,...,n-1), welche folgende Äquivalenz erfüllt:
(n)
(n)
(n−1)
ωi+1 < ωj+1 ⇐⇒ ω̃i
(n−1)
< ω̃j
für alle i,j (i6=j) ∈ {1, ..., n − 1}
In Worten: Die Zahlen in der ω̃-Anordnung müssen zueinander in der gleichen Anordnung stehen wie die entsprechenden in der ω-Anordnung.
Drei Beispiele sollen den Übergang von ω̃ (n) zu ω̃ (n−1) veranschaulichen:
1. Beispiel: ω (3) = (1, 3, 2) → ω̃ (2) = (2, 1)
2. Beispiel: ω (4) = (3, 1, 2, 4) → ω̃ (3) = (1, 2, 3)
3. Beispiel: ω (5) = (3, 2, 5, 1, 4) → ω̃ (4) = (2, 4, 1, 3)
Zur Veranschaulichung von Gl.(5.1) diskutieren wir kurz den Fall n=1 und n=2:
1. Fall: n=1
Laut (5.1) gilt X1 (ω (1) ) = 0, das heißt, es wäre kein Austauschschritt nötig. Dies
(1)
stimmt (natürlich) auch, da ω (1) = (ω1 ) = (1) nur ein Tupel“ von einer Zahl ist
”
und deshalb schon bei 1 (vgl. Algorithmus) das Ergebnis geliefert wird.
2. Fall: n=2
Hierbei können folgende zwei Unterfälle auftreten:
(2)
(2)
a) ω (2) = (ω1 , ω2 ) = (1, 2) oder
b) ω
(2)
=
(2)
(2)
(ω1 , ω2 )
= (2, 1)
Bei a) ist offensichtlich kein Austauschschritt nötig. Bei b) dagegen einer. Dies wird
durch (5.1) bestätigt:
a) X2 (ω (2) ) = X1 (ω̃ (1) ) = 0,
b) X2 (ω
(2)
) = X1 (ω̃
(1)
da
(2)
1 = ω1
) = 0 + 1 = 1,
da
6= n = 2
(2)
2 = ω1
=n=2
Betrachten wir nun die zugehörigen Wahrscheinlichkeiten. Nach Diskussion der
obigen Beispiele ist nun offensichtlich:
P1 (X1 = 0) = 1,
P1 (X1 = 1) = 0,
Pn (Xn = n) = 0
(5.2)
Für k=0,...,n-1 (n>1) können wir Pn (Xn = k) mit Gl. (5.1) wie folgt berechnen:
(n)
Pn (Xn = k) = Pn ({ω (n) : Xn (ω (n) ) = k, , ω1
= n})
(n)
+ Pn ({ω (n) : Xn (ω (n) ) = k, , ω1
6= n})
(n)
=
{|ω (n) : Xn−1 (ω̃ (n−1) ) = k − 1, ω1 = n|}
n!
(n)
(n)
(n−1)
{|ω : Xn−1 (ω̃
) = k, ω1 6= n|}
+
n!
45
5 Mittleres Laufzeitverhalten eines Algorithmus
Im ersten Summanden macht es keinen Unterschied, wenn wir ω (n) durch ω̃ (n−1)
(n)
ersetzen. Da ω1
fest ist, entspricht die Anzahl der ω (n) mit Xn−1 (ω̃) = k − 1 gleich
der Anzahl der ω̃ (n−1) mit Xn−1 (ω̃) = k − 1. Beim zweiten Summanden gibt es für
(n)
ω1
(n-1) Möglichkeiten. Für jede feste Möglichkeit gilt die gleiche Argumentation
wie zuvor. Es folgt deshalb weiter:
Pn (Xn = k) =
1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k − 1|}
n
(n − 1)!
n − 1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k|}
n
(n − 1)!
1
n−1
= Pn−1 (Xn−1 = k − 1) +
Pn−1 (Xn−1 = k)
(5.3)
n
n
Wir haben somit die Wahrscheinlichkeit Pn auf die Wahrscheinlichkeit Pn−1 zurückgeführt.
+
Unser Ziel war es, den Erwartungswert E(Xn ) zu bestimmen. Hierzu bedienen wir
uns nun der momenterzeugenden Funktionen in folgender Form:
ϕn (z) := ψXn (ln(z))
Gl.(2.9)
=
E(eln(z)Xn ) = E(z Xn ) =
n−1
X
z k Pn (Xn = k)
(5.4)
k=0
Für den Erwartungswert gilt nach Gl.(2.10):
0
ϕ0n (1) = ψX
(0) = E(Xn )
n
(5.5)
Wie für die Wahrscheinlichkeiten wollen wir nun eine Rekursion für ϕn (z) berechnen.
Da X1 nur den Wert 0 annehmen kann (vgl. Gl. (5.2)) gilt:
ϕ1 (z) = E(z X1 ) = E(z 0 ) = E(1) = 1
Mit Gl. (5.4) und Gl. (5.3) folgt:
ϕn (z) =
=
=
=
=
46
n−1
X
k=0
n−1
X
k=0
n−1
X
z k Pn (Xn = k)
z
z
n
1
n−1
Pn−1 (Xn−1 = k − 1) +
Pn−1 (Xn−1 = k)
n
n
n−1
X n−1
1
z Pn−1 (Xn−1 = k − 1) +
zk
Pn−1 (Xn−1 = k)
n
n
k
k=0
n−1
X
z
n
k
k=0
n−1
z k−1 Pn−1 (Xn−1 = k − 1) +
k=0
n−2
X
k=−1
n−1X k
z Pn−1 (Xn−1 = k)
n
k=0
z k Pn−1 (Xn−1 = k) +
n−1
n
n−1
X
k=0
z k Pn−1 (Xn−1 = k)
Mit Gl. (5.2) (⇒ Pn−1 (Xn−1 = n − 1) = 0) und Pn (Xn = −1) := 0 ist dies
äquivalent zu:
ϕn (z) =
n−2
n−2
k=0
k=0
zX k
n−1X k
z Pn−1 (Xn−1 = k) +
z Pn−1 (Xn−1 = k)
n
n
z
n−1
= ϕn−1 (z) +
ϕn−1 (z)
n
n
z+n−1
ϕn−1 (z)
=
n
(5.6)
also:
ϕn (z) =
(z + n − 1)(z + n − 2)...(z + 1)
n!
speziell für z=1:
ϕn (1) :=
(1 + n − 1)(1 + n − 2)...(1 + 1)
n · (n − 1) · ... · 2
=
=1
n!
n!
(5.7)
Für die Ableitung folgt mit Gl.(5.6):
z
n−1 0
1
ϕn−1 (z) + ϕ0n−1 (z) +
ϕn−1 (z)
n
n
n
1
z+n−1 0
= ϕn−1 (z) +
ϕn−1 (z)
n
n
ϕ0n (z) =
(5.8)
Für ϕ0n (1) ergibt sich somit aus Gl. (5.8) und Gl. (5.7):
1
+ ϕ0n−1 (1)
n
1
1
= +
+ ϕ0n−2 (1)
n n−1
ϕ0n (1) =
= ...
Da ϕ01 (1) = E(X1 ) = E(0) = 0 gilt kann man die Reihe wie folgt ausschreiben:
ϕ0n (1)
Gl.(5.5)
=
n
E(Xn ) =
1
1
1 X1
+
+ ... + =
n n−1
2
i
i=2
Außerdem gilt folgende Ungleichung:
Z n
Z n
n
X
1
1
1
dx ≤
≤
dx
i
1 x
1 x+1
i=2
⇐⇒
ln(n + 1) − ln2 ≤
n
X
1
i=2
i
≤ ln(n)
47
5 Mittleres Laufzeitverhalten eines Algorithmus
Somit können wir E(Xn ) wie folgt abschätzen:
E(Xn ) ∼ ln(n)
Wir halten als Ergebnis fest:
Mit wachsender Länge der Permutationen wird die Zunahme der Austauschschritte
geringer.
48
6 Spieltheorie
( ...die Sache [d.h. das Glücksspiel] war bisher ungewiß; nun aber, nach”
dem sie sich gegenüber dem Experiment unzugänglich gezeigt hatte, hat
sie sich dem Verstand unterwerfen müssen. Wir haben es nämlich durch
geometrische Argumentationen auf eine berechenbare Kunst zurückgeführt,
so daß es Teil an der Strenge der Geometrie hat und zuversichtlich vorangeht; es vereinigt die mathematische Gewißheit mit der Ungewißheit
des Würfels, was vorher unvereinbar schien....“) (Zitat von Pascal1 )
Spiele haben in unserem Alltag eine besondere Rolle eingenommen. Sie dienen als
Ausgleich zu unserem Alltag, sie bieten Aufregung, Abwechslung und machen Spaß.
Wie wir in diesem Abschnitt sehen werden, beschäftigt sich jedoch auch die Wissenschaft mit dem Spielen. Bevor wir jedoch Beispiele angeben können, benötigen wir
noch einige mathematische Grundlagen. Dabei spielen die sogenannten wahrscheinlichkeitserzeugenden Funktionen eine besondere Rolle.
6.1 Mathematische Grundlagen
Definition 6.1.1 Wir betrachten eine Zufallsgröße X, die nur Werte in N0 annimmt. Unter der wahrscheinlichkeitserzeugenden Funktion von X verstehen
wir die Abbildung GX (t), t ∈ [0, 1] mit:
GX (t) := E(tX ) =
∞
X
tn P (X = n)
(6.1)
n=0
Beachte: GX (t) existiert für alle t ∈ [0,1], da selbst im Fall t=1
P∞
n=0 P (X
= n) =
1 < ∞ gewährleistet ist.
1
entnommen aus Blobel: Statistische und numerische Methoden der Datenanalyse“; vgl. Litera”
turverzeichnis [1]
49
6 Spieltheorie
Zur Namensgebung:
Wir betrachten die k-ten Ableitungen nach t:
(k)
GX (t)
=
∞
X
n · (n − 1) · ... · (n − k + 1) · tn−k P (X = n)
(6.2)
n=k
d.h.
(k)
GX (0)
k!
Aus der Kenntnis von GX (t) kann somit die Verteilung von X bestimmt werden.
(k)
GX (0) = k! · P (X = k) ⇒ P (X = k) =
Für unabhängige Zufallsgrößen können wir noch folgenden Satz beweisen:
Satz 6.1.1 Xi (i=1,2,...,n) seien unabhängige Zufallsgrößen, die nur Werte in N0
annehmen. Dann gilt:
GX1 +X2 +...+Xn (t) =
n
Y
GXi (t)
(6.3)
i=1
Beweis: Es gilt:
GX1 +X2 +...+Xn (t) = E(tX1 +X2 +...+Xn ) = E
n
Y
!
tXi
i=1
Aus der Unabhängigkeit der Zufallsgrößen folgt mit Gl. (1.18):
!
!
n
n
Y
Y
GXi (t)
GX1 +X2 +...+Xn (t) =
E(tXi ) =
i=1
i=1
Für später benötigen wir außerdem:
Satz 6.1.2 Sei X eine N0 - wertige Zufallsgröße mit endlichem k-ten Moment (d.h.
E(X k ) < ∞), dann gilt:
(k)
(k)
lim GX (t) = GX (1) = E[X(X − 1) · ... · (X − k + 1)] < ∞
t→1
(6.4)
Für E(X k ) = ∞, folgt: E[X(X − 1) · ... · (X − k + 1)] = ∞ und somit:
(k)
lim GX (t) = ∞
t→1
(k)
(6.5)
Wobei unter GX (t) wieder die k-te Ableitung von GX (t) nach t zu verstehen ist
(k ∈ N).
50
6.2 Das Würfelproblem
Beweis: Nach Gl.(6.2) gilt:
(k)
GX (t) =
∞
X
n(n − 1) · ... · (n − k + 1)tn−k P (X = n)
n=k
Selbst wenn die Summe für t=1 nicht existiert, so gilt für den Grenzwert:
(k)
lim GX (t) =
t→1
∞
X
n(n − 1) · ... · (n − k + 1)P (X = n)
n=k
= E[X(X − 1) · ... · (X − k + 1)]
Wegen E(X k ) < ∞ ⇐⇒ E[X(X − 1) · ... · (X − k + 1)] < ∞ folgt hieraus die
Behauptung.
Der Vorteil dieses Satzes liegt darin, dass wir den Erwartungswert schreiben
können als:
(1)
E(X) = GX (t) =: G0X (1)
(6.6)
6.2 Das Würfelproblem
Wir werfen zwei ideale Würfel und betrachten die Augensumme. Die Wahrscheinlichkeit, eine Summe von 6 zu erhalten, ist höher als die einer 12. Dies liegt daran,
dass es für 12 nur eine Möglichkeit gibt ((6,6)) für 6 dagegen mehrere ((1,5), (5,1),
(2,4), (4,2), (3,3)). Frage: Ist es möglich, zwei Würfel zu konstruieren (wie immer die
auch aussehen mögen), so dass jede Augensumme mit gleicher Wahrscheinlichkeit
auftritt?
Mathematische Einkleidung der Frage: Wir betrachten zwei unabhängige Zufallsgrößen X1 , X2 (=Würfel) mit dem Wertebereich {1, 2, 3, 4, 5, 6} (=Augenzahl). Nun
soll gelten:
P (X1 + X2 = k) =
1
, k = 2, 3, ..., 12
11
(6.7)
Um die Sache nicht all zu spannend zu machen, wird hier schon verraten, dass dies
nicht möglich ist. Bleibt nur die Frage nach dem Warum zu klären. Hier hilft uns,
Gott sei Dank, die Mathematik weiter: Wir führen einen Widerspruchsbeweis.
51
6 Spieltheorie
Annahme: Es gibt zwei unabhängige Zufallsgößen X1 und X2 , so dass Gl. (6.7)
erfüllt ist. Nach Gl. (6.3) gilt dann für alle t ∈ R:
GX1 +X2 (t) = GX1 (t) · GX2 (t)
=
6
X
6
X
!
tn P (X1 = n)
·
n=1
=t·
!
tm P (X2 = m)
m=1
6
X
!
t
n−1
P (X1 = n)
·t·
n=1
6
X
!
t
m−1
P (X2 = m)
m=1
=: t2 · P1 (t) · P2 (t)
(6.8)
Wobei P1 (t) und P2 (t) Polynome vom maximalen Grad 5 sind.
Da außerdem Gl. (6.7) erfüllt sein soll, muss zudem gelten:
GX1 +X2 (t) =
=
12
X
k=2
t2
11
12
1 X k
t
t P (X1 + X2 = k) =
11
k
k=2
· (1 + t + ... + t10 )
(6.9)
Aus Gl. (6.8) und Gl. (6.9) folgt, dass der Grad der Pi (i=1,2) genau 5 ist. Wir
wollen nun Pi (i=1,2) auf eventuelle Nullstellen untersuchen. Wir unterscheiden daher 2 Fälle:
1. Fall: t = 0
Aus Gl. (6.9) erkennen wir, dass dies eine doppelte Nullstelle von GX1 +X2 ist. Diese
ist in Gl. (6.8) bereits als eigenständiger Faktor vorhanden. Daher muss Pi (0) 6= 0
gelten.
2. Fall: t 6= 0
Aus Gl. (6.8) und Gl. (6.9) folgt nun (t 6= 0 !):
P1 (t) · P2 (t) =
(1 + t + ... + t10 )
11
(6.10)
Aus der Nullteilerfreiheit der reellen Zahlen und Gl. (6.10) folgt deshalb Pi (1) 6= 0
(i=1,2). Durch Polynomdivision kann man sich leicht vergewissern, dass folgende
Gleichung äquivalent zu (6.10) ist:
P1 (t) · P2 (t) =
52
1 t11 − 1
·
11 t − 1
6.3 Das Waldegrave’sche Problem
Als einzige reelle Nullstelle würde somit 1 in Frage kommen. Dies ist aber, wie oben
begründet, nicht möglich. Somit besitzt Pi (t) (i=1,2) für t 6= 0 keine reelle Nullstelle.
Insgesamt gilt somit Pi (t) 6= 0 für alle t ∈ R. Da der Grad der Pi (i=1,2) jedoch 5
ist, müsste nach dem Fundamentalsatz der Algebra mindestens eine reelle Nullstelle
existieren. Hier haben wir unseren Widerspruch.
Wir wollen hier noch einmal kurz das Vorgehen reflektieren: Es gibt bestimmt sehr
viele Möglichkeiten, wie man Würfel bauen kann. Dies war für unser Vorgehen jedoch
völlig irrelevant. Mit Hilfe der Mathematik konnten wir relativ einfach eine Antwort
finden, ohne das Problem näher zu materialisieren“.
”
6.3 Das Waldegrave’sche Problem
Wir wollen uns nun mit dem Waldegrave’schen2 Problem beschäftigen, welches aus
dem 18. Jahrhundert stammt. Dabei betrachten wir eine moderne Einkleidung3 :
Wir stellen uns ein ideales Tennisturnier vor, an dem k Spieler S1 , S2 , ..., Sk teilnehmen. Ideal deswegen, weil alle Spieler gleich stark sein sollen, d.h. jeder Spieler
gewinnt mit der Wahrscheinlichkeit
1
2
gegen seinen Gegner. Das Turnier verläuft wie
folgt:
S1 spielt gegen S2 , der Gewinner spielt gegen S3 , der Gewinner dieses Spiels gegen
S4 und so weiter. Gewinnt S1 alle (k-1) Spiele, so ist er der Sieger des Turniers. Andernfalls spielt der Sieger des (k-1)ten Spiels gegen S1 (bzw. S2 , falls S1 im (k-1)ten
Spiel verliert) der Gewinner gegen S2 (bzw. S3 ) usw.- ein neuer Zyklus beginnt. Der
erste Spieler, der somit (k-1) Spiele in Folge gewonnen hat (und somit gegen jeden
Spieler angetreten ist), gewinnt das Turnier. Um den Verlauf zu veranschaulichen,
folgt ein kurzes Beispiel mit vier Spielern, bei dem S3 siegreich ist.
Beispiel 6.3.1 Turnier:
Beginn: S1 vs. S2 : S2 gewinnt
Dann: S2 vs. S3 : S3 gewinnt
2
3
Waldegrave, adeliger Spieler, der zu Beginn des achtzehnten Jahrhunderts lebte.
sinngemäß entnommen aus Hesse: angewandte Wahrscheinlichkeitstheorie“; vgl. Literaturver”
zeichnis [11]
53
6 Spieltheorie
Dann: S3 vs. S4 : S3 gewinnt
Dann: S3 vs. S1 : S3 gewinnt
Ende: S3 hat in 3 Spielen hintereinander gewonnen und ist damit Sieger
Die Frage, die uns beschäftigt, lautet:
Wie viele Spiele dauert ein Turnier im Mittel?
Um diese Frage zu beantworten, nehmen wir wie immer zuerst eine mathematische Einkleidung vor:
Wir betrachten das zweite Spiel. Ist der Gewinner hierbei der gleiche wie im ersten Spiel, so notieren wir eine eins. Andernfalls eine Null. Bei den weiteren Spielen
wird analog vorgegangen. Auf diese Art und Weise wird das Gesamte Turnier als
0-1-Folge dargestellt. Beispiel 6.3.1 kann dann wie folgt dargestellt werden:0 1 1.
Überlegen wir uns nun, wie lange ein Turnier dauert. Bei zwei Spielern d.h. k=2
wird offensichtlich nur ein Spiel benötigt. Für mehr als zwei Spieler hat ein Turnier
die Länge l ≥ 2, wenn eine Folge von (k-2) 1er an der (l-1)ten Stelle (in der Folge
von Nullen und Einsen) endet. In unserem Beispiel hat das Turnier die Länge l=4
deshalb, weil die Folge von (4-2)=2 Einsen mit der (4-1)ten= 3ten Stelle in unserer
Zahlenfolge zusammenfällt.
Wir definieren nun eine N0 -wertige Zufallsgröße Xj . Unter dem Ereignis {Xj = i}
verstehen wir diejenige Menge, bei der in einer 0-1-Folge erstmals an der i-ten Stelle
eine Folge von j Einsen endet. Gj (t) seien die wahrscheinlichkeitserzeugenden Funktionen von Xj . Für unsere Überlegungen ist die Zufallsgröße Xk−2 interessant, da
nach (k-2) aufeinander folgenden Einsen das Turnier zu Ende ist. Um die Frage nach
der mittleren Turnierlänge (=: L̄) zu beantworten, müssen wir dann nur E(Xk−2 )
berechnen und zum Ergebnis eins addieren. Kurz:
L̄ = E(Xk−2 ) + 1
(6.11)
L̄ = G0Xk−2 (1) + 1
(6.12)
bzw. mit Hilfe von Gl. (6.6):
Die Lösung des Problems beschränkt sich also darauf, die wahrscheinlichkeitserzeugenden Funktionen von Xj zu bestimmen. Hierzu benötigen wir laut Definition 6.1.1
54
6.3 Das Waldegrave’sche Problem
die Verteilung von X. Offensichtlich gilt:
j
1
P (Xj = j) =
2
und natürlich:
P (Xj = i) = 0,
i<j
bestimmen wir nun P (Xj = i) für i > j. Das Ereignis {Xj = i} bedeutet, dass
unter den ersten (i-j-1) 0-1-Symbolen keine j Einsen hintereinander auftreten, das
(i-j)te Symbol eine 0 ist und danach j-mal eine 1 folgt. Wir können also P (Xj = i)
schreiben als:
P (Xj = i) = P (Xj > i − j − 1) ·
j+1
1
2
Mit diesen drei Gleichungen folgt nun:
GXj (t) =
∞
X
ti P (Xj = i)
i=0
=
∞
X
ti P (Xj = i)
i=j
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
· tj +
j
·t +
∞
X
i=j+1
∞
X
i=j+1
ti P (Xj = i)
j+1
1
t P (Xj > i − j − 1) ·
2
i
j+1 X
∞
1
·t +
·
ti P (Xj > i − j − 1)
2
i=j+1
j+1 X
∞
∞
X
1
j
·t +
·
ti P (Xj = m)
2
j
i=j+1 m=i−j
55
6 Spieltheorie
Um die weitere Umformung leichter verständlich zu machen, schreiben wir etwas
unmathematisch (Pünktchenschreibweise) weiter:
GXj (t) =
j+1
j
1
1
· tj +
·
2
2
∞
X
ti [P (Xj = i − j) + P (Xj = i − j + 1) + P (Xj = i − j + 2) + ...]
i=j+1
j
j+1
1
1
j
=
·t +
· {tj+1 [P (Xj = 1) + P (Xj = 2) + ...]
2
2
+ tj+2 [P (Xj = 2) + P (Xj = 3) + ...] + ...}
j
j+1 X
j+m
∞
X
1
1
j
=
·t +
·
P (Xj = m)
ti
2
2
m=1
i=j+1
"j+m
#
j+1 X
j
j
∞
X
X
1
1
· tj +
·
=
P (Xj = m)
ti −
ti
2
2
m=1
i=0
i=0
Durch Berechnung der beiden geometrischen Reihen4 ergibt sich weiter:
j
1
GXj (t) =
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
j
1
=
2
4
·t
j
· tj
· tj
· tj
· tj
· tj
· tj
· tj
j+1 X
∞
1 − tj+m+1 1 − tj+1
1
P (Xj = m)
+
·
−
2
1−t
1−t
m=1
j+1 X
∞
1
−tj+m+1 + tj+1
+
·
P (Xj = m)
2
1−t
m=1
j+1 X
∞
1
tj+1 · (−tm ) + tj+1
+
·
P (Xj = m)
2
1−t
m=1
j+1 X
∞
1
tj+1 · (1 − tm )
+
·
P (Xj = m)
2
1−t
m=1
j+1 j+1 X
∞
1
t
+
·
P (Xj = m)(1 − tm )
2
1−t
m=1
j+1
∞
t
1 X
+
·
P (Xj = m) − P (Xj = m) · tm
2
1−t
m=1
" ∞
#
j+1
∞
X
X
t
1
+
·
P (Xj = m) −
P (Xj = m) · tm
2
1−t
m=1
m=1
j+1
t
1
+
·
1 − GXj (t)
2
1−t
Geometrische Reihe: Für x 6= 1 und n∈ N0 gilt:
Der Beweis erfolgt durch Induktion
56
Pn
k=0
xk =
1−xn+1
1−x
6.3 Das Waldegrave’sche Problem
Auflösen nach GXj (t) ergibt:
GXj (t) =
tj (2 − t)
2j+1 (1 − t) + tj+1
bzw. für j=k-2 (Wir erinnern uns: Unser Interesse beschränkt sich auf die Berechnung von GXk−2 ):
GXk−2 (t) =
tk−2 (2 − t)
2k−1 (1 − t) + tk−1
Differenziert man nun diese Funktion einmal nach t und berechnet die Ableitung
an der Stelle 1, so ergibt sich:
G0Xk−2 (1) = 2k−1 − 2
Nach Gl. (6.12) ergibt sich somit für die mittlere Turnierlänge bei k > 2 Spielern:
L̄ = G0Xk−2 (1) + 1 = 2k−1 − 1
57
6 Spieltheorie
58
7 Einführung in die Informationstheorie
Das Gebiet der Informationstheorie ist wissenschaftlich betrachtet noch sehr jung.
Es wurde in den Jahren von 1947 bis 1949 von dem amerikanischen Mathematiker und Ingenieur Claude Shannon1 entwickelt. Dabei geht es in erster Linie um die
Übertragung und Speicherung von Informationen in Natur und Technik. Radiosignale spielen hierbei die gleiche Rolle wie Nerven, die in unserem Körper Informationen
transportieren. Im Gegensatz zu vielen anderen mathematischen Themen sind bei
dieser Theorie einfache praktische Anwendungen auch von dem Laien verstehbar.
Wir werden in diesem Abschnitt eine Einführung in die Informationstheorie geben, wobei uns einige Ungleichungen begegnen werden. Dabei zeigen wir auf, wie
Informationen codiert und decodiert werden und welche Probleme dabei auftreten
können. Zuerst müssen wir jedoch wieder einige Bezeichnungen einführen.
7.1 Mathematische Einkleidung
Ziel ist es, Informationen zu übertragen. Dies geschieht mit Hilfe einer endlichen
Menge M von Zeichen, genannt Alphabet.
Beispiel: M={a, b, c, ..., x, y, z}
Wir definieren uns nun eine Zufallsvariable X, die Werte in M annimmt. X kann
als Ereignis gedeutet werden, dessen Ausgänge in M liegen. Als Wahrscheinlichkeit
definieren wir p(x):=P(X=x), x∈M. In der Realität könnten dies die relativen Auftrittshäufigkeiten der einzelnen Buchstaben in einem Text sein. Diese werden u.a.
in Frequenzwörterbüchern angegeben.
Wir wollen nun ein Maß für die Unbestimmtheit von X einführen. Das heißt eine
Größe, die angibt, mit welcher Genauigkeit man den Ausgang von X voraussagen
kann.
1
Claude Elwood Shannon (1916- 2001), US-amerikanischer Mathematiker, gilt als Begründer der
Informationstheorie.
59
7 Einführung in die Informationstheorie
7.2 Entropie
Definition 7.2.1 Unter der Entropie H(X) einer Zufallsvariablen X mit Wertebereich M versteht man:
H(X) := E[−log2 (p(X))] = −
X
p(x) · log2 (p(x))
(7.1)
x∈M
Dabei gilt: 0 · log2 (0) := 0
Ist X laplaceverteilt, das heißt:
P (X = x) =
1
|M |
so gilt:
H(X) = −
X
x∈M
=−
X
x∈M
1
· log2
|M |
1
|M |
X 1
1
· log2 (1) +
· log2 (|M |)
|M |
|M |
x∈M
= log2 (|M |)
(7.2)
Anhand der Laplace-Verteilung wollen wir einige kurze Überlegungen anstellen,
ob die Definition der Entropie mit unserer Vorstellung übereinstimmt:
Haben wir z.B. ein Ereignis, welches nur einen Ausgang x hat, d.h. |M | = 1 so
gilt laut Gl.(7.2) H(X)=0. X ist also überhaupt nicht unbestimmt. Dies erscheint
logisch, da man mit absoluter Sicherheit sagen kann, dass X den Wert x annimmt.
Außerdem müsste die Unbestimmtheit von X mit wachsendem M ansteigen. Es ist
ja z.B. leichter, bei einer idealen Münze den richtigen Wert vorauszusagen, als bei
einem idealen Würfelwurf. Im ersten Fall haben wir immerhin eine Chance von
50 Prozent. Auch dies stimmt mit Gl.(7.2) überein, da der Logarithmus mit |M |
monoton steigt.
Intuitiv müsste dann auch folgender Satz gelten:
Das Ereignis, welches auf einer festen Menge M die maximale Unbestimmtheit hat,
ist Laplaceverteilt!
Hat ein xi ∈ M nämlich eine größere Auftrittswahrscheinlichkeit als die anderen, so
wird es auch öfter als Ergebnis auftreten. Da wir uns jedoch nicht immer auf unsere
Intuition verlassen wollen, präzisieren wir die Sache mathematisch (und wollen sie
natürlich beweisen):
60
7.2 Entropie
Satz 7.2.1 Für eine Zufallsvariable mit Wertemenge M gilt:
H(X) ≤ log2 (|M |)
Beweis: Es gilt:
log2 (|M |) − H(X) = −
X
p(x)log2
x∈M
=
X
1
|M |
p(x) · −log2
x∈M
=
X
p(x) −log2
x∈M
"
#
X
− −
p(x)log2 (p(x)
x∈M
1
|M |
+ log2 (p(x))
1
|M |p(x)
Durch Anwendung der Jensen-Ungleichung (vgl. Gl. (2.4)) mit f = −log2 und der
Zufallsvariablen Z =
1
|M |p(x)
folgt weiter:
log2 (|M |) − H(X) ≥ −log2
X
x∈M
1
p(x)
|M |p(x)
!
= −log2 (1) = 0
In der Praxis werden Informationen oft mit Hilfe von 0-1-Folgen übertragen. Dabei wird jedes Zeichen (=x) eines Alphabets auf eine bestimmte Art kodiert (x→
C(x)). Als Beispiel2 betrachten wir zwei verschiedene Kodierungsmöglichkeiten für
die Menge M = {a, b, c, d}:
1. Möglichkeit:
2. Möglichkeit:
C(a)=0
C*(a)=0
C(b)=10
C*(b)=01
C(c)=110
C*(c)=010
C(d)=111
C*(d)=1
Wir möchten nun das Wort abba übermitteln und anschließend dekodieren:
1. Möglichkeit (mit C):
2. Möglichkeit (mit C*):
Kodierung:
010100
001010
Dekodierung:
a b
a
2
b a
?
Beispiel entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis
”
[12]
61
7 Einführung in die Informationstheorie
Im 2. Fall ist die Dekodierung nicht eindeutig. Statt das Wort abba zu erhalten,
könnte man auch mit aadada dekodieren. Dies ist in der Praxis unerwünscht. Man
möchte eindeutige Codes, die während des Übertragungsvorgangs dekodierbar sind.
Um eine klare Terminologie zu erhalten, führen wir folgende Definitionen ein:
7.3 Code-Terminologie
Definition 7.3.1 Mit W n = {0, 1}n bezeichnen wir die Menge der Binärwörter
vom Umfang n, also alle n-Tupel (δ1 , ..., δn ) := δ1 ...δn mit δi ∈ {0, 1} (i=1,...,n).
Unter der Menge W aller Binärwörter versteht man:
[
W =
Wn
n∈N
Unter einem Code verstehen wir eine Abbildung C mit:
C:M →W
wobei M wieder eine Alphabet-Menge bezeichnet. Für k ∈ N definieren wir dann:
Ck : M k → W
C k [(x1 , x2 , ..., xk )] := C(x1 )C(x2 )...C(xk ),
xi ∈ M (i = 1, ..., k)
Falls C k für alle k ∈ N injektiv ist, so sagen wir, der Code C ist eindeutig decodierbar. Er heißt präfixfrei, wenn für jedes x,x’ ∈ M (x 6= x0 ) kein v ∈ W
existiert mit:
C(x) = C(x0 )v
Man sagt dann auch, kein Codewort ist Präfix eines anderen Codewortes.
Mit C kann man somit einzelne Buchstaben verschlüsseln, mit C k Wörter.
Betrachtet man sich die Eigenschaften der Injektivität, so kommt man schnell zur
Einsicht, dass ein präfixfreier Code injektiv und damit eindeutig decodierbar ist. In
der Praxis sind auch nur diese von Relevanz.
Wir definieren nun die Länge eines Codes.
Definition 7.3.2 Unter der Länge eines Codes versteht man den Wert der folgenden Abbildung:
lC : M → N,
lC (x) = |C(x)|
bzw.
lC k : M k → N,
62
lC k [(x1 , ..., xk )] = |C k [(x1 , ..., xk )]| = |C(x1 )| + ... + |C(x2 )|
7.4 Eindeutig decodierbare Codes
7.4 Eindeutig decodierbare Codes
Ziel dieses Abschnittes ist es, die durchschnittliche Länge von präfixfreien Codes
einzugrenzen. Wir werden sehen, dass diese auf keinen Fall nach unten unbeschränkt
ist.
Um unserem Endziel näher zu kommen, benötigen wir noch folgenden Hilfssatz, der
in der Fachliteratur als Ungleichung von Kraft-McMillan bekannt ist.
Satz 7.4.1 C sei ein eindeutig decodierbarer Code, M das dazugehörige Alphabet.
Dann gilt:
X
2−lC (x) ≤ 1
(7.3)
x∈M
Beweis:
Sei:
l∗ := max lC (x)
x∈M
Wir berechnen nun:
!k
X
2−lC (x)
X
=
x∈M
2−(lC (x1 )+...+lC (xk ))
(x1 ,...,xk )∈M k
X
=
2−lC k ((x1 ,...,xk ))
(x1 ,...,xk )∈M k
∗
=
k·l
X
m=1
X
2−m
(x1 ,...,xk )∈M k
lC k [(x1 ,...,xk )]=m
Da der Code eindeutig decodierbar und damit C k injektiv ist, kann es nicht mehr
Elemente (x1 , ..., xk ) ∈ M (= Wörter) mit lC k ((x1 , ..., xk )) = m geben als es Elemente in W m gibt. (Sonst müsste ja verschiedenen Elementen aus M der gleiche
Code zugeordnet werden.) Wir können deshalb weiter folgern:
!k
X
−lc (x)
2
∗
≤
k·l
X
|W m | · 2−m
m=1
x∈M
∗
=
k·l
X
1
m=1
= k · l∗
63
7 Einführung in die Informationstheorie
1
X
=⇒
k→∞
2−lc (x) ≤ (k · l∗ ) k
−→ 1
x∈M
Bemerkung 7.4.1 Man kann auch die Umkehrung zeigen:
Gegeben ist eine Abbildung l : M → N mit:
X
2−l(x) ≤ 1
(7.4)
x∈M
dann existiert ein präfixfreier Code C mit: lC = l
Kommen wir nun zu unserem eigentlichen Vorhaben:
Satz 7.4.2 C sei ein eindeutig decodierbarer Code, M ein Alphabet und X eine
Zufallsvariable mit Werten in M; dann gilt:
E(lC (X)) ≥ H(X)
(7.5)
Beweis:
Es gilt:
!
E(lC (X)) − H(X) =
X
−
p(x)lC (x) −
X
p(x)log2 (2lC (x) ) +
x∈M
=
X
p(x)log2 (p(x))
x∈M
x∈M
=
X
X
p(x)log2 (p(x))
x∈M
lC (x)
p(x)log2 (2
p(x))
x∈M
=
X
−lC (x)
p(x)log2 2
x∈M
X
=−
1
p(x)
−lC (x)
p(x)log2 2
x∈M
−1
1
p(x)
Durch Anwendung der Jensen-Ungleichung (2.4) mit f = log2 und der Zufallsva1
−lC (x) p(x)
riable Z = 2
folgt weiter:
E(lC (X)) − H(X) ≥ −log2
X
−lC (x)
p(x)2
x∈M
!
= −log2
X
x∈M
64
2−lC (x)
1
p(x)
!
7.4 Eindeutig decodierbare Codes
Mit der soeben bewiesenen Kraft-McMillan-Ungleichung (7.3) ergibt sich dann:
E(lC (X)) − H(X) ≥ 0
Interpretation des Ergebnisses:
Die minimal erwartete Anzahl der zum präfixfreien Codieren benötigten Bits3 ist
mindestens so groß wie die Entropie von X.
Wir wollen abschließend die Größe
min
C präfixfrei
E(lC (X))
näher bestimmen.
Dazu definieren wir: l(x) := d−log2 (p(x))e als die nächstgrößere ganze Zahl zu
−log2 (p(x)). Dann gilt:
X
2−l(x) ≤
x∈M
X
2log2 (p(x)) =
x∈M
X
p(x) = 1
x∈M
Nach Bemerkung (7.4.1) existiert dann ein präfixfreier Code C ∗ mit lC ∗ (x) = l(x).
Für diesen gilt:
!
∗
E(lC
(X)) − H(X) =
X
p(x)lC ∗ (x) −
x∈M
−
X
p(x)(log2 (p(x)) + 1 − 1)
x∈M
!
≤
X
p(x)lC ∗ (x) −
x∈M
=
X
X
p(x)(lC ∗ (x) − 1)
x∈M
p(x) = 1
x∈M
⇐⇒
∗
E(lC
(X)) ≤ H(X) + 1
Wir fassen als Ergebnis zusammen:
H(X) ≤
min
C präfixfrei
E(lC (X)) ≤ H(X) + 1
Wie bereits angedeutet ist dies u.a. im zivilen Bereich, bei der Speicherung von
Information bedeutsam, speziell bei Datenkomprimierungsprogrammen. Man will so
codieren, dass die erwartete Länge der Nachricht minimal ist.
3
Im Allgemeinen verwendet man den Ausdruck Bit als Bezeichnung für die Binärziffern 0“ und
”
1“.
”
65
66
Nachwort
Ich hoffe, dass ich mit der vorliegenden Arbeit die Anwendbarkeit der Mathematik veranschaulichen konnte. Auch wenn an verschiedene Stellen längere Beweise
und Rechnungen nötig waren, so habe ich die Ergebnisse stets möglichst knapp und
für die Praxis anwendbar zu halten versucht. Vielleicht konnte damit etwas Licht
in die Sache gebracht werden, so daß am Ende nicht nur, wie Thomas Mann sagt,
Zaubergemurmel“ übrig bleibt.
”
Danksagung
Mein herzlicher Dank gilt allen, die zum Gelingen dieser Zulassungsarbeit beigetragen haben. Besonders möchte ich Herrn PD Dr. F. Marohn für die Vergabe des
Themas und für die Betreuung der Zulassungsarbeit danken.
67
68
Anhang
Auf den folgenden beiden Seiten stellen wir einige diskrete Verteilungen vor und
geben ausgewählte Kennwerte an. Ziel ist es, die im Text angesprochenen Größen
zu veranschaulichen. (Quelle: Literaturverzeichnis [14])
69
Anhang
70
Literaturverzeichnis
[1] V. Blobel; Statistische und numerische Methoden der Datenanalyse; B.G.
Teubner Verlag, Stuttgart/ Leipzig; 1998.
[2] K. Bosch; Grundzüge der Statistik ; Oldenburg Verlag GmbH, München; 1996.
[3] I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig; Taschenbuch der
Mathematik ; Verlag Harri Deutsch, Frankfurt; 1997.
[4] A. Büchter, H.-W.Henn; Elementare Stochastik ; Springer Verlag, Berlin Heidelberg; 2005.
[5] H. Dehling, B. Haupt; Einführung in die Wahrscheinlichkeitsrechnung; Springer Verlag, Berlin Heidelberg; 2003.
[6] L. Dühmbgen; Stochastik für Informatiker ; Springer Verlag, Berlin Heidelberg;
2003.
[7] O. Forster; Analysis I ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2001.
[8] J. Hartung; Statistik ; Oldenburg Verlag, München 1993.
[9] J. Hartung; Mutivariate Statistik: Lehr und Handbuch der angewandten Statistik ; Oldenburg Verlag GmbH, München; 1986.
[10] N. Henze; Stochastik für Einsteiger ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003.
[11] C. Hesse; Angewandte Wahrscheinlichkeitstheorie; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003.
[12] A. Irle; Wahrscheinlichkeitstheorie und Statistik ; Teubner Verlag, Stuttgart/
Leipzig/ Wiesbaden; 2001.
71
Literaturverzeichnis
[13] A. M. Jaglom/ I. M. Jaglom; Wahrscheinlichkeit in Information; VEB Deutscher Verlag der Wissenschaften, Berlin; 1965.
[14] D. Kleiter; Bayes Statistik ; de Gruyter Verlag, Berlin/ New York; 1980.
[15] http://mo.mathematik.uni-stuttgart.de/inhalt/aussage/aussage32/
[16] U. Krengel; Einführung in die Wahrscheinlichkeitstheorie und Statisitk ;
Friedr. und Sohn Verlag/ GWV Fachverlage GmbH, Wiesbaden; 2005.
[17] J. Lehn, H. Wegmann; Einführung in die Statisitk ; B. G. Teubner Stuttgart,
Leipzig; 2000.
[18] B. Leiner; Einführung in die Statisitk ; Oldenburg Verlag GmbH, München;
1996.
[19] T. Mann; Königliche Hoheit; G. B. Fischer und Co. Verlags- und Vertriebsgesellschaft, Berlin und Frankfurt am Main; 1960.
[20] F. Marohn; Stochastik für Lehramtsstudenten; Bayrische Julius-MaximiliansUniversität Würzburg Institut für angewandte Mathematik und Statistik;
2004.
[21] H. Mittelbach; Statistik ; Oldenburg Verlag GmbH, München; 1992.
[22] D.
Plachky;
Wahrscheinlichkeitsrechnung;
Oldenburg
Verlag
GmbH,
München; 1996.
[23] M. Pospeschill; Praktische Statistik ; Psychologie Verlags Union, Weinheim;
1996.
[24] L. Sachs; Angewandte Statistik ; Springer Verlag, Berlin/ Heidelberg, 1984.
[25] K. Brücker- Steinkuhl; Die Analyse des Zufallsgeschehens; Akademische Verlagsgesellschaft, Wiesbaden; 1980.
[26] U. -P. Tietze, M. Klika, H. Wolpers; Mathematik in der Sekundarstufe II, Band
3, Didaktik der Stochastik ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2002.
72