Erste Staatsprüfung für ein Lehramt an Gymnasien 2008 Schriftliche Hausarbeit aus dem Fachgebiet Stochastik Ungleichungen, Momente und ihre Anwendungen Mathematisches Institut der Julius-Maximilians-Universität Würzburg Verfasser: Markus Zimmermann Fachbetreuer: PD Dr. Frank Marohn Eingereicht am: 07.02.2007 2 Was er sah, war sinnverwirrend. In einer krausen, kind” lich dick aufgetragenen Schrift, [...] bedeckte ein phantastischer Hokuspokus, ein Hexensabbat verschränkter Runen die Seiten. Griechische Schriftzeichen waren mit lateinischen und mit Ziffern in verschiedener Höhe verkoppelt, mit Kreuzen und Strichen durchsetzt, ober- und unterhalb waagrechter Linien bruchartig aufgereiht, durch andere Linien zeltartig überdacht, durch Doppelstrichelchen gleichgewertet, durch runde Klammern zusammengefasst, durch eckige Klammern zu großen Formelmassen vereinigt. Einzelne Buchstaben, wie Schildwachen vorgeschoben, waren rechts oberhalb der umklammerten Gruppen ausgesetzt. Kabbalistische Male, vollständig unverständlich dem Laiensinn, umfaßten mit ihren Armen Buchstaben und Zahlen, während Zahlenbrüche ihnen voranstanden und Zahlen und Buchstaben ihnen zu Häupten und Füßen schwebten. Sonderbare Silben, Abkürzungen geheimnisvoller Worte, waren überall eingestreut, und zwischen den nekromantischen Kolonnen standen geschriebene Sätze und Bemerkungen in täglicher Sprache, deren Sinn gleichwohl so hoch über allen menschlichen Dingen war, daß man sie lesen konnte, ohne mehr davon zu verstehen als von einem Zaubergemurmel.“ (Aus Königliche Hoheit“ von Thomas Mann) ” 3 4 Vorwort Mathematik, insbesondere die höhere Schulmathematik wird von vielen Menschen als ziemlich abstrakt“ empfunden. Sie sind der Meinung, dass sie für die Wirk” ” lichkeit“ kaum zu gebrauchen sei. Oft würden keine realen Probleme behandelt. Aufgaben seinen meist nur auf sehr vereinfachtem Niveau möglich. Die Wahrscheinlichkeitstheorie und die Statistik stellen hierbei eine Ausnahme dar. Mit der vorliegenden Arbeit soll dies verdeutlicht werden. So wird unter anderem auch ein Einblick in die Informationstheorie gegeben, welche gerade in unserer Zeit ein wichtige Rolle spielt. Die Arbeit richtet sich in erster Linie an Lehrer und Schüler der Gymnasialoberstufe. Es wird deshalb besonders darauf Wert gelegt, dass auch für den Schüler ein Selbststudium mit Hilfe dieser Arbeit möglich ist. Für den Lehrer soll diese Arbeit einen Anreiz bieten, wie er seine Schüler über den üblichen Stoff hinausführen kann. Aus diesen Gründen ergibt sich folgender Aufbau: Im ersten Kapitel werden die wahrscheinlichkeitstheoretischen Grundlagen beschrieben, auf denen die folgenden Kapitel aufbauen. Danach wird eine Übersicht über verschiedene Ungleichungen in der Statistik gegeben. Außerdem wird der Begriff der Momente erklärt. Im dritten Abschnitt werden einige ausgewählte direkte Anwendungen vorgestellt. Die folgenden Kapitel zeigen dann umfangreichere Anwendungen auf. Hierzu ist oft zusätzliches Grundwissen Voraussetzung, an das schrittweise herangeführt wird. Ich hoffe, dass vor allem Schüler bei der Lektüre dieser Arbeit zu der Einsicht kommen: Mit Mathematik kann man wirklich etwas anfangen! 5 6 Inhaltsverzeichnis 1 Grundlagen 9 1.1 Grundlegende Bezeichnungen . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Wahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.5 Unabhängigige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . 11 1.6 Indikatorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.7 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.8 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.9 Binomial- und Normalverteilung . . . . . . . . . . . . . . . . . . . . 17 1.10 Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Ungleichungen und Momente 21 2.1 Tschebyschow-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Cauchy-Schwarz-Ungleichung . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Jensen-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5 Momenterzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . 26 3 Direkte Anwendungen 27 3.1 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . 27 3.2 Wie man am besten Aktien kauft . . . . . . . . . . . . . . . . . . . . 29 3.3 Schiefe und Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.4 Die Chernoff-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.5 Schätzung nach der Momentmethode . . . . . . . . . . . . . . . . . . 34 7 Inhaltsverzeichnis 4 Ruinwahrscheinlickeit von Versicherungsgesellschaften 37 4.1 Der elementar bedingte Erwartungswert . . . . . . . . . . . . . . . . 37 4.2 Die Ruinwahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . 38 5 Mittleres Laufzeitverhalten eines Algorithmus 43 6 Spieltheorie 49 6.1 Mathematische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 49 6.2 Das Würfelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.3 Das Waldegrave’sche Problem . . . . . . . . . . . . . . . . . . . . . . 53 7 Einführung in die Informationstheorie 59 7.1 Mathematische Einkleidung . . . . . . . . . . . . . . . . . . . . . . . 59 7.2 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.3 Code-Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7.4 Eindeutig decodierbare Codes . . . . . . . . . . . . . . . . . . . . . . 63 Anhang 69 Literaturverzeichnis 71 8 1 Grundlagen In diesem Kapitel werden wir uns mit einigen Grundlagen befassen, die wir später benötigen. Der Abschnitt erhebt keinen Anspruch auf Vollständigkeit, sondern ist auf das in den folgenden Kapiteln Notwendige zugeschnitten. 1.1 Grundlegende Bezeichnungen Die Wahrscheinlichkeitsrechnung beschäftigt sich mit Zufallsexperimenten, welche unter vordefinierten Bedingungen ablaufen. Die Menge aller möglichen Ergebnisse bezeichnet man dabei üblicherweise als Grundraum Ω, die Anzahl der Elemente von Ω als Mächtigkeit. Teilmengen von Ω heißen Ereignisse, einzelne Ausgänge (= Ergebnisse) ωi Elementarereignisse. Falls kein gesonderter Hinweis erfolgt, werden wir uns in dieser Arbeit vorwiegend auf endliche, diskrete Grundräume beschränken. 1.2 Zufallsgrößen Definition 1.2.1 Unter einer Zufallsgöße X versteht man eine Abbildung: X : Ω −→ R (1.1) ω −→ X(ω) (1.2) X ordnet somit jedem Ereignis eine Zahl zu. Die Hauptanwendung von Zufallsgrößen besteht jedoch darin, dass man mit ihrer Hilfe Teilmengen des Grundraums beschreiben kann. Als Beispiel soll das Ereignis angegeben werden, dass X den Wert k annimmt. Beispiel 1.2.1 {X = k} := {ω ∈ Ω : X(ω) = k} (1.3) 9 1 Grundlagen Im Alltag könnte X z.B. die Anzahl der Sechser beim dreimaligen Werfen eines Würfels darstellen. Eine Verallgemeinerung von Zufallsgrößen stellen Zufallsvariablen dar. Dabei ist die Wertemenge von X beliebig und nicht auf R beschränkt. Im Folgenden wird meist von Zufallsgrößen gesprochen. 1.3 Wahrscheinlichkeitsmaß Aus dem Alltag sind uns Aussprüche wie: Mit 50-prozentiger Wahrscheinlichkeit ” werden wir gewinnen“ oder Jeder hat die gleiche Chance“ wohl bekannt. Was ist ” aber Wahrscheinlichkeit, was Chance? Eine der möglichen Antworten auf diese Fragen liefert der Begriff der mathematischen Wahrscheinlichkeit. Definition 1.3.1 Unter einem Wahrscheinlichkeitsmaß versteht man eine Funktion P die jedem Ereignis E ⊆ Ω eine reelle Zahl zuordnet und folgende Axiome erfüllt (nach Kolmogorow1 ) (A1) P (E) ≥ 0 Nichtnegativität (1.4) (A2) P (Ω) = 1 Normiertheit (1.5) (A3) P (E1 + E2 ) = P (E1 ) + P (E2 ) Additivität (1.6) wobei E1 und E2 disjunkte Ereignisse von Ω darstellen. Das Tupel (Ω,P) heißt endlicher Wahrscheinlichkeitsraum. Aus (A3) ist ersichtlich, dass die Verteilung von P durch die Elementarwahrscheinlichkeiten p(ωi ) festgelegt wird. Für die Verteilung einer Zufallsgröße folgt mit Gl. (1.3): P (X = k) := P ({X = k}) = P ({ω ∈ Ω : X(ω) = k}) (1.7) bzw. in Verallgemeinerung für mehrere Zufallsgrößen Xi (i=1,...,n): P (X1 = k1 , ..., Xn = kn ) := P ({ω ∈ Ω|X1 (ω) = k1 , ..., Xn (ω) = kn }) 1 (1.8) Andrej Nikolajewitsch Kolmogorow (1903-1987), ab 1930 Professor in Moskau, leistete fundamentale Beiträge zur Wahrscheinlichkeitstheorie 10 1.4 Laplace-Verteilung 1.4 Laplace-Verteilung Eine spezielle Verteilung stellt die sog. Laplace2 -Verteilung dar. Wir gehen dabei von einem n-elementigen Grundraum Ω = {ω1 , ..., ωn } aus. Für die Elementarwahrscheinlichkeiten gilt dann: p(ωi ) = 1 1 = n |Ω| i = 1, .., n (1.9) Eine Laplace- Verteilung zeichnet sich also dadurch aus, dass jedes Elementarereignis gleichwahrscheinlich ist. Für ein Ereignis E ⊆ Ω folgt mit Gl. (1.6): P (A) = |E| |E| = n |Ω| (1.10) 1.5 Unabhängigige Zufallsgrößen Definition 1.5.1 Gegeben sei ein Wahrscheinlichkeitsmaß P, Grundraum Ω und Zufallsgrößen Xi : Ω → R (i=1,...,n). Wir nennen die Xi stochastisch unabhängig wenn für alle xi ∈ R gilt: P (X1 = x1 , ..., Xn = xn ) = P (X1 = x1 ) · ... · P (Xn = xn ) (1.11) Die stochastische Unabhängigkeit stimmt gut mit folgender Vorstellung überein: Sind zwei Ereignisse (Zufallsvariablen legen Ereignisse fest!) unabhängig, so beeinflusst der Ausgang des einen Ereignisses nicht den Ausgang des anderen. 1.6 Indikatorfunktion Bei Indikatorfunktionen handelt es sich um spezielle Zufallsgrößen, die wie folgt definiert sind. Definition 1.6.1 Sei A ⊆ Ω eine Menge. Die durch: 1, ω ∈ A 1A (ω) = 0, ω ∈ /A (1.12) definierte Funktion heißt Indikatorfunktion von A 2 Pierre-Simon (Marquis de) Laplace (1749- 1827), französischer Mathematiker und Astronom, beschäftigte sich unter anderem mit der Wahrscheinlichkeitstheorie und dem Gebiet Differentialgleichungen 11 1 Grundlagen 1.7 Erwartungswert Motivation: Bei einem Würfelspiel bezahlt man für jeden Wurf 4 Euro und erhält als Gewinn die geworfene Zahl in Euro. Soll man das Spiel spielen?3 Solche oder ähnliche Fragen lassen sich mit dem wahrscheinlichkeitstheoretischen Begriff des Erwartungswertes beantworten: Definition 1.7.1 Sei X : Ω −→ R eine Zufallsgröße mit Wertemenge W = {x1 , x2 , ..., xk } und (Ω, P ) ein endlicher Wahrscheinlichkeitsraum, dann nennt man: E(X) := X X(ω) · P ({ω}) = k X xj · P (X = xj ) (1.13) j=1 ω∈Ω den Erwartungswert von X. Aus der Definition ist ersichtlich, dass es ausreicht, die Wahrscheinlichkeitsverteilung von X zu kennen um E(X) zu bestimmen. Die Kenntnis der Elementarwahrscheinlichkeiten ist nicht erforderlich! Für kontinuierlich verteilte Größen geht das Summenzeichen in ein Integral über und die Wahrscheinlichkeiten werden zu Wahrscheinlichkeitsdichten (Beispiel: Normalverteilung vgl. evtl. Abschnitt 1.9). Setzt man im Anfangsbeispiel für X den Gewinn, so wird man leicht feststellen, dass man sein Geld lieber behält. (So ist das leider meist bei Glücksspielen: Am Ende gewinnt immer die Bank“) ” Physikalische Interpretation des Erwartungswertes: Wir stellen uns die reelle Achse als masselose Stange vor. An den Stellen xi ∈ R sind Punktmassen P mi angebracht (i=1,...,n). Wir berechnen den Schwerpunkt S der Anordnung. Ist M = n i=1 mi die Gesamtmasse so gilt für die Lage von S: S= n n X mi 1 X mi · xi = · xi M i=1 M i=1 Deutet man die xi als Werte einer Zufalssgröße X und mi M als Wahrscheinlichkeit P (X = xi ) so ist S nichts anderes als der Erwartungswert E(X). Im Weiteren folgen einige ausgewählte Eigenschaften des Erwartungswertes. Es wird dabei kein Anspruch auf Vollständigkeit erhoben. 3 Beispiel leicht abgewandelt entnommen aus Tietze: Mathematik in der Sekundarstufe II“; vgl. ” Literaturverzeichnis [26] 12 1.7 Erwartungswert Eigenschaften des Erwartungswertes Im Folgenden sei X eine Zufallsvariable, a ∈ R und A ⊂ Ω. Dann gilt: Lemma 1.7.1 E(a · X) = a · E(X) (1.14) Beweis Laut Definition des Erwartungswertes gilt: X E(a · X) = (a · X)(ω) · P (ω) ω∈Ω = X a · X(ω) · P (ω) ω∈Ω =a· X X(ω) · P (ω) ω∈Ω = a · E(X) Lemma 1.7.2 E(X + Y ) = E(X) + E(Y ) (1.15) Beweis Folgt analog wie (1.14) aus der Definition des Erwartungswertes Lemma 1.7.3 X ≤ Y ⇒ E(X) ≤ E(Y ) (1.16) Beweis Folgt analog wie (1.14) aus der Definition des Erwartungswertes Lemma 1.7.4 E(1A ) = P (A) (1.17) Beweis Wieder folgt mit der Definition des Erwartungswertes: X E(1A ) = 1A (ω) · P (ω) ω∈Ω Wegen 1A (ω) = 1 für ω ∈ A und 1A (ω) = 0 für ω ∈ / A folgt weiter: 13 1 Grundlagen E(1A ) = X 1 · P (ω) = P (A) ω∈A Lemma 1.7.5 Für unabhängige Zufallsgrößen X, Y gilt für den Erwartungswert die Multiplikationsregel: E(X · Y ) = E(X) · E(Y ) (1.18) Beweis Die Wertebereiche von X und Y sind gegeben durch X(Ω) = {x1 , x2 , ..., xn } und Y (Ω) = {y1 , y2 , ..., ym }. Dann gilt: E(X · Y ) = n X m X (xi · yj ) · P (X · Y = xi · yj ) i=1 j=1 Wegen der Unabhängigkeit der Zufallsgrößen (vgl. Gl. (1.11)) folgt weiter: E(X · Y ) = n X m X xi · yj · P (X = xi ) · P (Y = yj ) i=1 j=1 = n X ! xi · P (X = xi ) i=1 · m X yj · P (Y = yj ) j=1 = E(X) · E(Y ) 1.8 Varianz Motivation: Zufallsgröße X habe die Verteilung: P (X = 0) = 1. Zufallsgröße Y die Verteilung: P (Y = −1) = 0.5, P (Y = 1) = 0.5. Man erkennt leicht, dass beide den gleichen Erwartungswert (E(X) = E(Y ) = 0) haben, jedoch streut Y viel stärker um 0. Um diese Eigenschaft zu erfassen, gibt es in der Wahrscheinlichkeitsrechnung den Begriff der Varianz: Definition 1.8.1 Gegeben ist ein endlicher Wahrscheinlichkeitsraum (Ω,P) und eine Zufallsgröße X : Ω −→ R. Man nennt V ar(X) := E[(X − E(X))2 ] 14 (1.19) 1.8 Varianz die Varianz von X und σ(X) := p V ar(X) (1.20) die Standardabweichung. Bemerkung: Um den Klammerwald“ zu vermeiden schreibt man meist V ar(X) := E(X − ” E(X))2 statt V ar(X) := E[(X − E(X))2 ]. Physikalische Interpretation der Varianz: Wie beim Erwartungswert wollen wir auch die Varianz veranschaulichen. Wir benutzen dazu die gleiche Anordnung einer masselosen Stange mit Punktmassen mi an Stellen xi (vgl. 1.7: Physikalische Interpretation des Erwartungswerts). Die gesamte Anordnung wird am Schwerpunkt S (= E(X)) aufgehängt. Das Gebilde wird nun mit einer Frequenz ω in Rotation gebracht. Für den Geschwindigkeitsbetrag vi der Punktmasse mi gilt: vi = |xi − S| · ω Für die kinetische Energie Ekini folgt: Ekini = 1 1 · mi · vi2 = · mi · |xi − S|2 · ω 2 2 2 Die gesamte kinetische Energie ergibt sich durch Aufsummieren: n Ekin = Ekin ∝ X 1 · ω2 · mi · |xi − S|2 2 i=1 n X mi · |xi − S|2 ∝ i=1 d.h. : n X mi · |xi − S|2 = V ar(X) M i=1 Drückt man Ekin mit Hilfe des Trägheitsmomentes I aus so ergibt sich: Ekin = 1 2 Iω 2 Wir können somit festhalten, dass Var(X) proportional zum Trägheitsmomnet I ist. Eigenschaften der Varianz X sei eine Zufallsgröße und a,b ∈ R. Dann gilt: Lemma 1.8.1 V ar(a · X + b) = a2 · V ar(X) (1.21) Beweis: Laut Definition der Varianz gilt: V ar(a · X + b) = E(a · X + b − E(a · X + b))2 15 1 Grundlagen Mit Gl. (1.14) und Gl. (1.15) folgt weiter: V ar(a · X + b) = E(a · X + b − a · E(X) − b)2 = E(a · X − a · E(X))2 = E(a(X − E(X)))2 = E(a2 (X − E(X))2 ) = a2 · V ar(X) Lemma 1.8.2 V ar(X) = E(X 2 ) − (E(X))2 (1.22) Beweis: Es gilt: V ar(X) = E(X − E(X))2 = E(X 2 − 2 · X · E(X) + (E(X))2 ) Mit Gl. (1.14) und Gl. (1.15) folgt weiter: V ar(X) = E(X 2 ) − 2 · E(X) · E(X) + (E(X))2 = E(X 2 ) − (E(X))2 Wir betrachten nun stochastisch unabhängige Zufallsgrößen Xi (i=1,2). Dann gilt folgende Additionsformel: Lemma 1.8.3 V ar(X1 + X2 ) = V ar(X1 ) + V ar(X2 ) (1.23) Beweis: Wieder folgt aus der Definition der Varianz: V ar(X1 + X2 ) = E(X1 + X2 − E(X1 + X2 ))2 Gl.(1.15) = E(X1 − E(X1 ) + X2 − E(X2 ))2 = E[(X1 − E(X1 ))2 + 2 · ((X1 − E(X1 )) · (X2 − E(X2 )) + (X2 − E(X2 ))2 ] Wendet man Gl.(1.14) und Gl.(1.15) an, so folgt weiter: V ar(X1 + X2 ) = E(X1 − E(X1 ))2 + 2 · E[(X1 − E(X1 )) · (X2 − E(X2 ))] + E(X2 − E(X2 ))2 16 1.9 Binomial- und Normalverteilung Wegen der Unabhängigkeit der Xi lässt sich dies nach Gl.(1.18) folgendermaßen schreiben: V ar(X1 + X2 ) = E(X1 − E(X1 ))2 + 2 · E(X1 − E(X1 )) · E(X2 − E(X2 )) + E(X2 − E(X2 ))2 Gl.(1.15) = V ar(X1 ) + 2 · 0 · 0 + V ar(X2 ) = V ar(X1 ) + V ar(X2 ) Wir wollen hier nochmals betonen, dass diese Additionsformel nur für unabhängige Zufallsgrößen gilt, für abhängige kann man leicht Gegenbeispiele finden. 1.9 Binomial- und Normalverteilung Bei der Binomial- und Normalverteilung handelt es sich um Wahrscheinlichkeitsverteilungen von Zufallsgrößen. Sie stellen wichtige, jedoch keineswegs die einzigen Verteilungen von Zufallsgrößen dar. Wir stellen sie hier vor, damit sie uns später als Beispiele dienen können. Definition 1.9.1 (Binomialverteilung) Eine Zufallsgröße X heißt binomialverteilt mit den Parametern n und p (kurz : X ∼ B(n, p)), falls gilt: n P (X = i) = · pi · (1 − p)n−i i (1.24) Man kann die obige Definition wie folgt interpretieren: Gegeben ist ein Zufallsexperiment. Mit einer Wahrscheinlichkeit von p tritt dabei ein Erfolg/ Treffer“ auf und mit einer Gegenwahrscheinlichkeit von q=1-p ein Miss” ” erfolg/ Niete“. P(X=i) kann man dann als Wahrscheinlichkeit auffassen, dass in n Versuchen genau i Erfolge/ Treffer auftreten (und damit natürlich (n-i) Misserfolge/ Nieten). Ein kurzes Beispiel: Beispiel 1.9.1 Dreimaliger Wurf einer idealen Münze: Kopf= Treffer, Zahl= Niete, p= 0,5, q=1-p=0,5 Die Wahrscheinlichkeit, in drei Würfen genau einen Treffer zu erzielen beträgt dann: 3 P (X = 1) = · pi · (1 − p)n−i = 3 · (0, 5)1 · (0, 5)2 = 0, 375 1 17 1 Grundlagen Definition 1.9.2 (Normalverteilung) Gegeben ist eine Zufallsgröße X mit Erwartungswert µ und Varianz σ 2 . Man nennt X normalverteilt (kurz: X ∼ N(µ, σ 2 )) falls für ihre Wahrscheinlichkeitsdichte f(x) gilt: f :R→R 1 x−µ 2 1 f (x) = √ · e− 2 ( σ ) σ 2π (1.25) Abbildung 1.1: Wahrscheinlichkeitsdichte der Normalverteilung mit µ = 0 und σ = 1, Quelle: Literaturverzeichnis [10] Die Wahrscheinlichkeit, dass X Werte im Intervall [a,b] annimmt, ist gegeben durch: Z P (a ≤ X ≤ b) = b f (x)dx a Man beachte, dass es sich hierbei um eine kontinuierliche Verteilung handelt. X nimmt Werte in ganz R an. Für n → ∞ konvergiert die Binomialverteilung gegen die Normalverteilung. Dies ist unter anderem die Aussage des zentralen Grenzwertsatzes der Stochastik. Er sei hier nur der Vollständigkeit halber erwähnt. Der interessierte Leser findet ihn in jedem grundlegenden Buch zur Wahrscheinlichkeitsrechnung. 1.10 Konvexe Funktionen Definition 1.10.1 (konvexe Funktionen) Sei I ⊂ R ein Intervall und f : D → R. Man nennt f konvex, wenn für alle x1 , x2 ∈ D und alle λ mit 0 < λ < 1 gilt: f [λx1 + (1 − λ)x2 ] ≤ λf (x1 ) + (1 − λ)f (x2 ) (1.26) Demnach ist eine Funktion genau dann konvex auf einem Intervall I, wenn jede Sekante oberhalb des Graphen verläuft (vgl. Abb. 1.2). 18 1.10 Konvexe Funktionen Abbildung 1.2: Veranschaulichung des Konvexitätsbegriffs, Quelle: Literaturverzeichnis [7] 19 1 Grundlagen 20 2 Ungleichungen und Momente Wir werden uns zu Beginn mit einigen ausgewählten Ungleichungen befassen. Im Vordergrund steht dabei stets, Erwartungswerte abzuschätzen. Zum Schluss des Kapitels werden wir uns mit einer Verallgemeinerung von Erwartungswerten befassen, den Momenten. 2.1 Tschebyschow-Ungleichung Satz 2.1.1 (Tschebyschow1 -Ungleichung) X sei eine Zufallsgröße. Dann gilt für alle > 0: P (|X − E(X)| ≥ ) ≤ V ar(X) 2 (2.1) Beweis: Es gilt folgende Ungleichung: |X − E(X)|2 ≥ |X − E(X)|2 · 1{ω:|X(ω)−E(X)|≥} ≥ 2 · 1{ω:|X(ω)−E(X)|≥} Nun bilden wir auf beiden Seiten den Erwartungswert, es folgt: E(|X − E(X)|2 ) ≥ E(2 · 1{ω:|X(ω)−E(X)|≥} ) Gl.(1.14) V ar(X) ≥ 2 · E(1{ω:|X(ω)−E(X)|≥} ) Gl.(1.17) V ar(X) ≥ 2 · P (|X − E(X)| ≥ ) ⇐⇒ ⇐⇒ 1 Pafnuti Lwowitsch Tschebyschow (1821-1894), ab 1850 Professor in St. Petersburg, Hauptarbeitsgebiete: Zahlentheorie, konstruktive Funktionentheorie, Integrationstheorie, Wahrscheinlichkeitstheorie. Die Tschebychev-Ungleichung wird manchmal auch als Bienaymé-TschebychevUngleichung bezeichnet. 1853 wurde sie von Bienaymé in Verbindung mit der Methode der ” kleinsten Quadrate“ aufgestellt. Tschebychev fand 1867, vermutlich unabhängig, einen anderen Zugang, und benutzte sie als erster zum Beweis für das Gesetz der Großen Zahlen“ (vgl. ” Abschnitt 3.1). 21 2 Ungleichungen und Momente ⇐⇒ P (|X − E(X)| ≥ ) ≤ V ar(X) 2 Als direkte Folgerung erhält man für das Gegenereignis: P (|X − E(X)| < ) = 1 − P (|X − E(X)| ≥ ) ≥ 1 − V ar(X) 2 (2.2) Die Voraussetzungen der Tschebyschow-Ungleichung sind sehr allgemein. Die Kehrseite hiervon ist, dass die Güte der Abschätzung sehr unterschiedlich sein kann. Um keine triviale Aussage zu erhalten, muss relativ groß gewählt werden. k-Sigma-Regel p Mit = k · σ (σ = V ar(X)) folgt aus Gl. (2.1) und Gl. (2.2): P (|X − E(X)| ≥ kσ) ≤ 1 k2 bzw. P (|X − E(X)| < kσ) = P (E(X) − kσ < X < E(X) + kσ) ≥ 1 − 1 k2 Die letzte Gleichung wird oft als k-Sigma-Regel für beliebige Zufallsvariablen bezeichnet. Man kann sie wie folgt interpretieren: Die Wahrscheinlichkeit, dass eine Zufallsgröße X im Intervall ]E(X) − kσ; E(X) + kσ[ liegt, beträgt mindestens 100 · 1 − k12 %. 2.2 Cauchy-Schwarz-Ungleichung Die Cauchy-Schwarz-Ungleichung ist eine der bekanntesten Abschätzungen, welche nicht nur in der Stochastik ihre Anwendung hat. Auch auf anderen Gebieten, wie z.B. der Analysis, spielt sie eine wichtige Rolle. Satz 2.2.1 (Cauchy2 -Schwarz3 -Ungleichung) Gegeben sind zwei Zufallsgrößen X,Y. Dann gilt: E(|XY |) ≤ 2 p E(X 2 )E(Y 2 ) (2.3) Augustin Louis Cauchy (1789-1857), franz. Mathematiker, Hauptarbeitsgebiete: Reelle Analysis und Differentialgleichungen, Funktionentheorie, mathematische Anwendungen in der Physik und 3 Mechanik Hermann Amandus Schwarz (1843-1921), deutscher Mathematiker, Hauptarbeitsgebiete: Reelle und komplexe Analysis, Differentialgleichungen 22 2.3 Jensen-Ungleichung Beweis: Für alle c ∈ R folgt mit Gl. (1.14) und Gl. (1.15): 0 ≤ E(X 2 )E[(c|X| + |Y |)2 ] = E(X 2 )E[c2 X 2 + 2c|X||Y | + Y 2 ] = E(X 2 )[c2 E(X 2 ) + 2cE(|XY |) + E(Y 2 )] = E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [E(|XY |)]2 + c2 [E(X 2 )]2 + 2cE(X 2 )E(|XY |) = E(X 2 )E(Y 2 ) − [E(|XY |)]2 + [cE(X 2 ) + E(|XY |)]2 Offensichtlich ist E(X 2 ) ≥ 0, wir unterscheiden daher 2 Fälle: 1.Fall: E(X 2 ) > 0. Für c wählen wir: c=− E(|XY |) E(X 2 ) Damit erhalten wir im obigen Fall: 0 ≤E(X 2 )E(Y 2 ) − [E(|XY |)]2 p ⇒ E(|XY |) ≤ E(X 2 )E(Y 2 ) 2.Fall: E(X 2 ) = 0 Da die Zufallsvariable X 2 nur Werte ≥ 0 annehmen kann, folgt: P (X 2 = 0) = P {(ω ∈ Ω : X(ω) · X(ω) = 0)} = 1 d.h. für alle ω ∈ Ω gilt X(ω)=0 und damit: P (XY = 0) = P {(ω ∈ Ω : X(ω) · Y (ω) = 0)} = 1 ⇒ E(|XY |) =0 , womit die Behauptung wiederum erfüllt ist. 2.3 Jensen-Ungleichung Satz 2.3.1 (Jensen4 -Ungleichung) Sei I ⊆ R ein Intervall, f: I→ R konvex und differenzierbar. X : Ω → I sei eine Zufallsgröße. Dann gilt: E(X) ∈ I 4 Johan Ludwig William Valdemar Jensen (1859-1925), dänischer Mathematiker, leistete wichtige Beiträge bei der Erforschung der Riemannschen Vermutung 23 2 Ungleichungen und Momente und f (E(X)) ≤ E(f (X)) (2.4) Beweis: (i) Aus Gleichung (1.16) folgt direkt E(X) ∈ I. (ii) Um die Ungleichung zu beweisen, betrachten wir die Tangente t(x) = f (E(X)) + (x − E(X))f 0 (E(X)) an f durch den Punkt (E(X),f(E(X))). Wegen der Konvexität gilt (vgl. evtl. Abb. 1.2): f (x) ≥ t(x) für alle x ∈ I Mit Gl. (1.16) folgt: E(f (X)) ≥ E(t(X)) ⇔ E(f (X)) ≥ E[f (E(X)) + (X − E(X))f 0 (E(X))] Wegen der Linearität (vgl. Gl. (1.14) und Gl. (1.15)) des Erwartungswertes ergibt sich weiter: E(f (X)) ≥ f (E(X)) + E(X − E(X)) · f 0 (E(X)) = f (E(X)) + (E(X) − E(X)) · f 0 (E(X)) = f (E(X)) 2.4 Momente Definition 2.4.1 (Momente) Sei X eine Zufallsgröße. Für n ∈ N definieren wir: E(X n ) n-tes Moment (2.5) E(|X|n ) n-tes absolutes Moment (2.6) E[(X − E(X))n ] n-tes zentriertes Moment (2.7) Bei genauerer Betrachtung dieser Definition erkennen wir alte Bekannte. So ist E(X) das erste Moment und Var(X) das zweite zentrierte Moment. In diesem Zusammenhang ist folgender Satz interessant: 24 2.4 Momente Satz 2.4.1 Eine Verteilung ist durch die Angabe all ihrer Momente (falls diese existieren5 ) eindeutig definiert. Wir wollen diesen Satz nur für den Spezialfall beweisen, dass die Wahrscheinlichkeitsdichte von X in eine Potenzreihe entwickelbar ist. Beweis: Wir betrachten zwei Wahrscheinlichkeitsdichten f1 (x), f2 (x) die in all ihren Momenten übereinstimmen. Ihre Differenz lässt sich in eine Potenzreihe entwickeln: f1 (x) − f2 (x) = a0 + a1 x + a2 x2 ... Bildet man das Integral über das Quadrat dieser Differenz, so folgt weiter: Z ∞ Z ∞ 2 0≤ [f1 (x) − f2 (x)] dx = [f1 (x) − f2 (x)](a0 + a1 x + a2 x2 ...)dx −∞ ⇐⇒ −∞ 0 ≤ a0 (1 − 1) + a1 [E(X1 ) − E(X2 )] + a2 [E(X12 ) − E(X22 )] + ... Da die Verteilungen in all ihren Momenten übereinstimmen, ergibt sich die rechte R Summe zu Null. Da der Integrand von [f1 (x) − f2 (x)]2 dx jedoch für alle x ∈ R positiv ist, folgt: f1 (x) ≡ f2 (x) Als Beispiel und für später wollen wir hier noch die zentralen Momente der Normalverteilung N(µ, σ 2 ) berechnen. n Z ∞ 1 x−µ 2 1 (x − µ)n · √ · e− 2 ( σ ) dx σ 2π −∞ Z ∞ 2 1 x−µ − 12 ( x−µ 2 (n−1) ) σ √ ·e = −σ (x − µ) · − · dx σ2 σ 2π −∞ E[(X − E(X)) ] = Durch partielle Integration ergibt sich weiter: ∞ 2 1 − 12 ( x−µ ) σ E[(X − E(X)) ] = 0 − −σ (n − 1)(x − µ) · √ ·e dx σ 2π −∞ Z ∞ 1 x−µ 2 1 = σ 2 (n − 1) (x − µ)(n−2) · √ · e− 2 ( σ ) dx σ 2π −∞ n 5 Z 2 (n−2) nicht bei jeder Verteilung existieren die Momente. Ein typisches “ Beispiel, ” bei dem dies nicht der pγ γ 1 Fall ist, ist die Lévy-Verteilung mit: f (x) = 2π exp − , δ ∈ R, x > δ, γ > 0 2(x−δ) (x−δ)2/3 25 2 Ungleichungen und Momente Unter dem Integral steht nun das (n-2)te Moment. Wiederholt man dieses Verfahren so gelangt man irgendwann zum ersten (n ungerade) oder zum zweiten (n gerade) Moment. Da E[(X − E(X))1 ] = 0 und E[(X − E(X))2 ] = σ 2 gilt, folgt somit: 1 · 3 · 5 · ... · (n − 1) · σ n , n gerade E(X − E(X))n = 0, n ungerade (2.8) 2.5 Momenterzeugende Funktionen Definition 2.5.1 (Momenterzeugende Funktionen) Sei X eine Zufallsgröße. Unter einer momenterzeugenden Funktion versteht man die Abbildung: ψX : R → [0, ∞], ψX (t) = E(etX ) t ∈ R (2.9) Zur Namensgebung: Wir betrachten folgende Menge: D(ψX ) = {t ∈ R : ψX (t) < ∞} Man kann zeigen, dass für alle inneren Punkte t ∈ D(ψX ) gilt6 : (n) ψX (t) = E(X n etX ), n ∈ N (n) Wobei ψX die n-te Ableitung von ψX sein soll. Ist 0 ein innere Punkt von D(ψX ), so folgt für t=0 (n) E(X n ) = ψX (0) (2.10) Mit Hilfe von ψX ist es somit möglich, die n-ten Momente zu erzeugen“. ” 6 Ein Beweis findet sich u.a. in Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturver” zeichnis [12] 26 3 Direkte Anwendungen Wir haben uns nun alle Grundlagen erarbeitet, um uns jetzt mit Anwendungen zu beschäftigen. In diesem Kapitel wird deutlich werden, wozu man Momente und Ungleichungen gebrauchen kann, und warum diese so wichtig sind. 3.1 Das schwache Gesetz der großen Zahlen Eine der wichtigsten Anwendungen der Tschebyschow-Ungleichung ist von innermathematischer Natur. Wir wollen in diesem Abschnitt das schwache Gesetz der großen Zahlen vorstellen und beweisen. Anschaulich gesprochen ist dies die Rechtfertigung von Massenerscheinungen. Als Beispiel kann man unsere Gesellschaft heranziehen. Jedes Individuum ist einzigartig. Jedoch ist es oft möglich, über eine große Anzahl von Individuen, in bestimmten Situationen, eine Aussage zu treffen. Der (inoffizielle) Sommerschlussverkauf, die Stimmabgabe bei Wahlen, die Benutzung von Autobahnen in der Ferienzeit, das Konsumverhalten von Industriegesellschaften..., all dies sind solche Situationen. Um den Sachverhalt systematisch zu untersuchen, nehmen wir folgende Einkleidung vor. Motivation: Wir werfen einen Würfel n-mal und notieren dabei die Häufigkeit hi (i=1,...,6) der einzelnen Zahlen. Anschließend berechnen wir den Mittelwert. Für große n werden wir feststellen, dass dieser sich der Zahl 3,5 annähert. Dies ist die gleiche Zahl, die wir erhalten, wenn wir den Erwartungswert eines (idealen) Würfelwurfes berechnen. Verallgemeinern wir den Sachverhalt. Wir führen einen Versuch n-mal durch. Die Zufallsgröße Xi beschreibt dabei den Ausgang des i-ten Experiments (i=1,...,n). Wir wollen nun wissen, inwieweit sich Erwartungswert und Mittelwert unterscheiden. Satz 3.1.1 (Das schwaches Gesetz der großen Zahlen) Xi (i=1,...,n) seien stochastisch unabhängige Zufallsgrößen mit E(Xi )=µ und V ar(Xi ) = 27 3 Direkte Anwendungen σ 2 . Für jedes > 0 gilt dann: lim P n→∞ ! n 1 X Xi − µ ≥ = 0 · n i=1 Beweis: Wir definieren uns die Zufallsgröße Z := 1 n Pn i=1 Xi . Für den Erwartungswert von Z folgt: ! n 1X Gl.(1.14) 1 = E(Z) = E Xi ·E n n i=1 ! n X 1 = · µ =µ n n X ! Xi Gl.(1.15) = i=1 1 · n n X ! E(Xi ) i=1 i=1 Weiter ergibt sich für die Varianz: ! ! n n n X 1X Gl.(1.21) 1 Gl.(1.23) 1 X = Xi V ar = X V ar(Xi ) V ar(Z) = V ar i n n2 n2 i=1 i=1 i=1 σ2 1 = 2 · n · σ2 = n n Nun haben wir alles zusammen, um die Tschebyschow-Ungleichung anwenden zu können. Für alle > 0 gilt somit: P (|Z − E(Z)| ≥ ) ≤ ⇐⇒ P V ar(Z) 2 n ! 1 X σ2 Xi − µ ≥ ≤ n n · 2 i=1 Für n → ∞ folgt die Behauptung. Für große n (mathematisch: n → ∞) stimmt somit der Mittelwert mit dem Erwartungswert überein. Handelt es sich bei den Xi um Indikatorfunktionen, so erhalten wir als Folgerung: Satz 3.1.2 (Das Bernoulli’sche1 Gesetz der großen Zahlen) Ai (i=1,...,n) seien unabhängige Indikatorfunktionen mit P (Ai ) = p, dann gilt für alle > 0: 1 n 1 X lim P · 1Ai − p ≥ = 0 n→∞ n j=1 (3.1) Jakob I. Bernoulli (1655- 1705), schweizer Mathematiker und Physiker, leistete wesentliche Beiträge zur Wahrscheinlichkeitstheorie 28 3.2 Wie man am besten Aktien kauft Bemerkungen: 1. Dieser Satz ist deswegen so wichtig, weil er uns gestattet, unbekannte Wahrscheinlichkeiten näherungsweise zu bestimmen. Wir wollen dies nochmals betonen: Aus Erfahrung weiß man, dass sich die relativen Häufigkeiten stabilisieren. Intuitiv würde man sie als Wahrscheinlichkeit ansetzen. Dies ist jedoch nur Erfahrung und somit nur Vermutung, folglich kein Wissen. Der Satz von Bernoulli geht dagegen von den Axiomen des Wahrscheinlichkeitsbegriffs aus und versucht somit das ganze etwas systematischer anzugehen. 2. Beim Lotto oder Würfeln wird das Gesetz der großen Zahlen oft falsch verstanden. Es wird gefolgert, dass Werte, welche in der Vergangenheit selten gefallen sind, in der Zukunft gehäuft auftreten müssen. Dies ist jedoch falsch! Mit wachsender Ereignisanzahl n werden Defizite“ unterdrückt. Ein kurzes Beispiel2 : Man würfelt ” 1200 mal. Dabei treten nur“ 100 Sechser auf. Man könnte meinen, dass dies 100 ” zu wenig sind. Dies ist jedoch ein Missverständnis. Die (absolute) Abweichung kann sogar noch steigen. Die relative Häufigkeit 100/n verschwindet mit wachsendem n. Über absolute Häufigkeiten macht das Gesetz der großen Zahlen keine Aussagen. Der Zufall hat kein Gedächtnis, er weiß nicht, welche Werte oft oder weniger oft in der Vergangenheit aufgetreten sind. 3.2 Wie man am besten Aktien kauft Im letzten Kapitel haben wir die Jensen-Ungleichung kennen gelernt. Wir wollen nun eine der Anwendungen aus dem Bereich der Wirtschaft vorstellen3 . Dazu betrachten wir folgendes Szenario: Sebastian möchte soviel Aktien wie möglich in einem Jahr kaufen. Diese kosten je nach Monat ki (i=1,...,12) Euro. Er hat jedoch nur eine begrenzte Menge n an Geld, das er in Aktien investieren will. Ihm stehen zwei Möglichkeiten zur Verfügung, wie er dieses ausgeben kann. Zum einen kann er jeden Monat gleich viele Aktien kaufen (= Möglichkeit a)). Zum anderen kann er sich jeden Monat vornehmen, die gleiche Menge an Geld auszugeben, d.h. die Menge an gekauften Aktien variiert evtl. in jedem Monat (= Möglichkeit b)). Auch wenn sich kein Börsianer in der realen Welt so starr verhalten würde, so erscheint die Frage für den Wirtschafts-Laien durchaus interessant. Wir wollen deshalb die beiden Möglichkeiten gegenüberstellen. 2 3 entnommen aus Mittelbach: Statistik“; vgl. Literaturverzeichnis [21] ” Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver” zeichnis Verzeichnis [22] 29 3 Direkte Anwendungen Möglichkeit a): Pro Monat werden xa Aktien gekauft. Da seine Geldmenge n beträgt, muss somit gelten: 12 X xa · ki = n ⇒ n xa = P12 i=1 ki i=1 In einem Jahr kann man sich somit 12n Aa := 12 · xa = P12 i=1 ki Aktien leisten. Möglichkeit b): Man will immer den gleichen Betrag ausgeben. Pro Monat hat man somit eine (i) Geldmenge von n/12 zur Verfügung. Damit kann man sich xb Monat leisten: (i) xb = Aktien im i-ten n/12 n = ki 12 · ki In einem Jahr macht das: Ab := 12 X (i) xb = i=1 12 X i=1 12 n n X 1 = 12 · ki 12 ki i=1 Aktien. Welche Methode ist nun günstiger? Man könnte nun versuchen, die beiden Ausdrücke miteinander zu vergleichen. Man kann jedoch auch die Jensen-Ungleichung anwenden. Als Zufallsgröße X wählen wir dabei die Aktienkosten pro Monat. Der Wert ki soll dabei mit einer Wahrscheinlichkeit von 1/12 angenommen werden. Als Funktion f definieren wir f : ]0, ∞[ → R, f (x) := x−1 . Wegen f 00 (x) = 2x−3 > 0 für x ∈ ]0, ∞[ verläuft jede Sekante im Intervall I :=]0, ∞[ oberhalb des Graphen. Damit ist f konvex auf I. Hat man den Graphen der 1/x-Funktion vor Augen, so ist dies auch anschaulich verständlich. Damit haben wir alle Voraussetzungen erfüllt, um die Ungleichung von Jensen anwenden zu dürfen. Es folgt: 1 1 1 f (E(X)) ≤ E(f (x)) ⇐⇒ ≤ E( ) ⇐⇒ P12 E(X) X i=1 ki · Erweitert man die Ungleichung mit n so ergibt sich: 12n Aa = P12 12 n X 1 ≤ = Ab 12 k i=1 ki i=1 i Sebastian sollte somit der Möglichkeit b) vorziehen. 30 1 12 12 X 1 1 ≤ · ki 12 i=1 3.3 Schiefe und Exzess 3.3 Schiefe und Exzess Erwartungswert und Varianz können durch Momente ausgedrückt werden, die Verteilungen charakterisieren. Es gibt jedoch noch weitere Größen. Zwei der wichtigsten sind Schiefe und Exzess. Sie entstehen durch Kombination von Momenten. Befassen wir uns zuerst mit der Schiefe S. Ganz allgemein lässt sich definieren: Definition 3.3.1 (Schiefe) Unter der Schiefe g1 einer Zufallsgröße X verstehen wir: g1 = M3 3/2 M2 = E[(X − E(X))3 ] V ar(X)3/2 (3.2) Wobei Mi := E((X − E(X))i ) (i = 2, 3) die i-ten zentralen Momente bezeichnen. Die Schiefe ist ein Maß für die Symmetrie der Verteilung. Betrachten wir Gl. (3.2), so erkennen wir: Ist die Verteilung von X symmetrisch zum Mittelwert E(X), so ist die Schiefe gleich Null. Das wohl bekannteste Beispiel mit g1 = 0 ist die Normalverteilung. Mit Gl. (2.8) kann dies leicht bestätigt werden. g1 < 0 bezeichnet man als linksschief, g1 > 0 als rechtsschief. Ohne eine exakte Rechnung durchzuführen, kann man oft am äußeren Erscheinungsbild des Verteilungsgraphen entscheiden, ob die Verteilung rechts- oder linksschief ist. Meist gelten folgende Regeln: Bei rechtsschiefen Verteilungen beobachtet man Werte, die kleiner als der Mittelwert sind häufiger, als solche, die größer sind. Das Maximum der Verteilung befindet sich links vom Mittelwert und der rechte Teil des Graphen ist flacher als der linke. Bei linksschiefen Verteilungen gilt genau das Umgekehrte. Abbildung 3.1 veranschaulicht dies. Im Anhang finden sich weitere diskrete Beispiele. Eine typische positive Schiefe ist im allgemeinen bei dem Beispiel vom Pro-Kopf Einkommen in einem Land gegeben. Es gibt im Allgemeinen nicht sehr viele Menschen mit sehr hohem Einkommen, jedoch viele mit niedrigem. Wegen der dritten Potenz in der Schiefe-Definition gewinnen die wenigen hohen Werte ein starkes Gewicht und wir erhalten ein positives Schiefemaß. Kommen wir nun zum Exzess einer Verteilung: Definition 3.3.2 (Exzess) Unter dem Exzess g2 einer Zufallsgröße X verstehen wir: g2 = M4 E[(X − E(X))4 ] − 3 = −3 V ar(X)2 M22 (3.3) 31 3 Direkte Anwendungen Abbildung 3.1: Links- und rechtsschiefe Verteilung, Quelle: Literaturverzeichnis [17] Der Exzess (auch Wölbung genannt) ist so definiert, dass er für die Normalverteilung den Wert Null ergibt. Auch dies kann mit Gl. (2.8) leicht bestätigt werden. Alle anderen Verteilungen beziehen sich hierauf. Meist gilt: Bei positivem Exzess ist die Kurve der Verteilung spitzer“ (im Vergleich zur Nor” malverteilung). Bei negativem Exzess ist sie stumpfer“. Abbildung 3.2 soll dies ” veranschaulichen. Im Anhang befinden sich wieder diskrete Beispiele. Abbildung 3.2: Exzess verschiedener Verteilungen, Quelle: Literaturverzeichnis [17] Wir wollen hier betonen, dass es ohne Probleme möglich ist, Verteilungen zu finden, welche in Erwartungswert, Varianz, Schiefe und Exzess übereinstimmen. Erst durch die Angabe aller Momente (vgl. Satz 2.4.1) ist eine Verteilung eindeutig festgelegt. 32 3.4 Die Chernoff-Schranke 3.4 Die Chernoff-Schranke Mit Hilfe der Chernoff4 -Schranke lässt sich die Wahrscheinlichkeit von Zufallsvariablen nach oben abschätzen, ohne dass man die Verteilung derselben kennt. Anstelle dieser benötigt man die momenterzeugenden Funktionen. Betrachten wir den Sachverhalt genauer: Wir stellen uns n unabhängige Zufallsgrößen X1 , ..., Xn vor. Zusätzlich seien diese identisch verteilt. Als Beispiel können wir uns vorstellen, dass die Xi alle binomial verteilt (s. Punkt 1.9) sind. Betrachtet man Gleichung (2.9), so erkennt man, dass sie deshalb alle die gleiche momenterzeugende Funktion ψX1 (t) = ... = ψXn (t) =: ψX (t) besitzen. Wir setzen voraus, dass ψX (t) in [0, γ], γ ∈ R+ existiert. Wir definieren nun die Summe Sn der Zufallsvariablen Sn := n X Xi i=1 und das Ereignis: A := {Sn ≥ λ} Offensichtlich gilt dann für alle t ≥ 0: etSn ≥ etλ · 1A Wir bilden nun auf beiden Seiten den Erwartungswert: E(etSn ) ≥ etλ P (A) Wegen der Unabhängigkeit der Zufallsgrößen gilt für den Erwartungswert die Multiplikationsregel (vgl. Gl. (1.18)) und man schreibt weiter: E(etX1 ) · ... · E(etXn ) ≥ etλ P (A) ⇐⇒ (ψX (t))n ≥ etλ P (Sn ≥ λ) Wir definieren: K(t) := ln[ψX (t)] d.h. ψX (t) = eK(t) und damit: P (Sn ≥ λ) ≤ en·K(t) · e−t·λ = exp [−tλ + nK(t)] Indem man das Infimum bildet, folgt hieraus die Chernoff-Schranke: P (Sn ≥ λ) ≤ inf exp [−tλ + nK(t)] t∈[0,γ] 4 Herman Chernoff (*1923), US-amerikanischer Mathematiker, leistete fundamentale Beiträge zur Statistik 33 3 Direkte Anwendungen 3.5 Schätzung nach der Momentmethode Wir stellen uns ein Zufallsexperiment vor, welches mehrmals wiederholt wird und dabei die Ausgänge {x1 , x2 , ..., xn } hat. Mathematisch bedeutet dies, dass wir eine Zufallsgröße X mit den Werten {x1 , x2 , ..., xn } haben. Die Verteilung von X beinhaltet einen unbekannten Parameter θ. Unser Ziel ist es, diesen Parameter möglichst gut abzuschätzen. Je nach Parameter bzw. Verteilung gibt es hierfür verschiedene Methoden. Im Rahmen dieser Zulassungsarbeit möchten wir jedoch nur eine vorstellen: Die Schätzung nach der Momentmethode. Hierbei wird der gesuchte Parameter durch Momente ausgedrückt. Die Abschätzung erfolgt durch Verwendung von empirischen Momenten. Das k-te empirische Moment ist definiert als: n 1X k xi mk := n i=1 Anhand des folgenden Beispiels soll der Sachverhalt veranschaulicht werden: Wir betrachten eine Poisson5 -verteilte Zufallsgröße X: P (X = k) = e−λ · λk , k! k ∈ N0 , λ > 0, λ ist dabei der abzuschätzende Parameter. Man kann leicht beweisen, dass für den Erwartungswert von X gilt: E(X) = V ar(X) = λ (3.4) Um an unseren Parameter λ zu gelangen, können wir also den Erwartungswert abschätzen. Dies geschieht hier durch den Mittelwert x̄ der Beobachtungen xi (i=1,...,n), bzw. durch das erste empirische Moment der Verteilung von X. n 1X x̄ = xi n i=1 D.h. λ ' m1 . Eine andere Möglichkeit, um an eine Schätzung für λ zu gelangen, ist die Varianz von X zu berechnen (vgl. Gl. (3.4)). Mit Lemma 1.22 folgt: V ar(X) = E(X 2 ) − (E(X))2 Als Schätzung erhalten wir somit: λ̃ ' m2 − m21 5 Siméon Denis Poisson (1781- 1840), leistete wichtige Beiträge zur math. Physik und zur Analysis 34 3.5 Schätzung nach der Momentmethode Offensichtlich gilt λ̃ 6= λ. Was ist nun die bessere Schätzung? Wir verraten, dass es λ̃ ist, gehen jedoch nicht weiter darauf ein. Die Stärke der Momentmetheode ist ihr breiter Anwendungsbereich. Ihre Schwäche ist, dass sie nicht in jedem Fall zum besten Ergebnis führt. 35 3 Direkte Anwendungen 36 4 Ruinwahrscheinlickeit von Versicherungsgesellschaften Wir werden in diesem Kapitel eine weitere Anwendung der Tschebyschow-Ungleichung vorstellen. Auch die momenterzeugenden Funktionen sowie die Jensen-Ungleichung werden uns begegnen. Unsere Ziel ist es, die Bankrottwahrscheinlichkeit1 eines Unternehmens zu bestimmen. Bevor wir damit beginnen können, benötigen wir jedoch noch den Begriff des elementar bedingten Erwartungswertes. 4.1 Der elementar bedingte Erwartungswert Definition 4.1.1 Gegeben ist eine Zufallsgröße X : Ω → R auf einem Grundraum Ω und ein Ereignis B ⊆ Ω. Unter dem elementar bedingten Erwartungswert2 E(X|B) einer Zufallsgröße X, unter der Bedingung B, verstehen wir: E(X|B) := E(X · 1B ) P (B) Anschaulich gesprochen fragt man nach dem Erwartungswert von X unter dem Aspekt, dass das Ereignis B eingetreten ist. Wir besprechen zwei Extremfälle: 1.Fall: B = Ω ⇒ E(X|B) = E(X) Wir erhalten den gewöhnlichen Erwartungswert. Dies verwundert nicht. Wir wissen, dass X im Experiment einen Wert in X(Ω) angenommen hat. Ω ist das sichere Ereignis. Es tritt immer ein. Durch die Angabe, dass B eingetreten ist, erhalten 1 Beispiel sinngemäß entnommen aus Plachky: Wahrscheinlichkeitsrechnung“; vgl. Literaturver” zeichnis [22] 2 Die Theorie hängt eng mit der über bedingte Wahrscheinlichkeiten von Ereignissen zusammen (Zufallgrößen definieren Ereignisse!). Um den Rahmen nicht zu sprengen, müssen wir den interessierten Leser hierbei auf Sekundärliteratur verweisen. Eine gute und einfache Abhandlung findet sich z.B. in Henze: Stochastik für Einsteiger“; vgl. Literaturverzeichnis [10] ” 37 4 Ruinwahrscheinlickeit von Versicherungsgesellschaften wir keine zusätzliche Information. Alles, was wir wissen, war schon zuvor bekannt. Warum sollte sich also der Erwartungswert ändern?! 2.Fall: B = ω̃ mit ω̃ ∈ Ω xi := X(ω̃) und p := p(ω̃), es folgt: X E(X · 1B ) = X(ω) · 1B (ω) · P ({ω}) = xi · p ⇒ E(X|B) = ω∈Ω xi · p = xi p Der Erwartungswert bezieht sich auf ein konkretes Element im Wertebereich. Auch dies stimmt mit unserer Vorstellung überein. Durch die Vorgaben wissen wir, dass X einen Wert in X(B) = xi angenommen hat. Somit muss der Erwartungswert xi sein. Nun steht unserem eigentlichen Ziel nichts mehr im Wege. 4.2 Die Ruinwahrscheinlichkeit Wir gehen von folgenden Anfangsbedingungen aus: Eine Versicherungsgesellschaft besitzt ein Anfangskapital a ≥ 0. Wir definieren nun unabhängige Zufallsgrößen Gj (j ∈ N) mit Werten in R. Gj soll den Gewinn bzw. Verlust des Unternehmens im j-ten Jahr bezeichnen. Sie besitzen alle die gleiche Wahrscheinlichkeitsverteilung. P Somit ist Kn := a + nj=1 Gj eine weiter reellwertige Zufallsgröße, die das Kapital im n-ten Jahr beschreibt. Als weitere Annahme setzen wir noch voraus, dass es ein R > 0 ( R ∈ R) gibt, mit E(e−RGj ) = 1 (4.1) Sobald nun die Größe Kn unter 0 fällt, ist die Firma pleite. N:=inf{n ∈ N : Kn < 0} bezeichnet damit den Zeitpunkt des Ruins. Wir wollen nun zeigen, dass ein eventueller Ruin d.h. die Menge {N < ∞} mit der Wahrscheinlichkeit P ({N < ∞}) = e−Ra E(e−RKN |{N < ∞}) (4.2) eintritt. Beweis: Vorüberlegungen: Es gelten folgende Gleichungen E(e−RKn ) = e−Ra , E(e−R(Kn −Km ) ) = 1, 38 n∈N m = 1, ..., n (4.3) (4.4) 4.2 Die Ruinwahrscheinlichkeit Da die Gj stochastisch unabhängig sind, folgen diese beiden Gleichungen unmittelbar mit der Multiplikationsregel (vgl. Gl.(1.18)) und Gl.(4.1). Für den Erwartungswert E(Gj ) gilt außerdem: E(Gj ) ≥ 0 (4.5) Dies folgt unmittelbar aus der Jensen-Ungleichung, angewendet auf die Zufallsgröße Gj , mit f (x) = e−Rx . (Diese fordert, dass e−RE(Gj ) = f (E(Gj )) ≤ E(f (Gj )) = 1 gilt, woraus die Behauptung folgt.) Wir betrachten nun die rechte Seite von Gl. (4.2). Nach Gl. (4.3) gilt für den Zähler: e−Ra = E(e−RKn ) = E(e−RKn · 1{N ≤n} ) + E(e−RKn · 1{N >n} ) (4.6) Wir zeigen nun, dass der zweite Summand für n → ∞ verschwindet: Zuerst zwei Definitionen: σ 2 := V ar(Gj ) µ := E(Gj ) Nun gilt: E(e−RKn · 1{N >n} ) = E(e−RKn · 1{N >n}∩{Kn ≤a+nµ−σn2/3 } ) + E(e−RKn · 1{N >n}∩{Kn >a+nµ−σn2/3 } ) Da für N > n, Kn ≥ 0 gilt, kann man mit der Monotonie des Erwartungswertes (vgl. Gl. (1.16) weiter abschätzen: 2/3 ) E(e−RKn · 1{N >n} ) ≤ E(1{N >n}∩{Kn ≤a+nµ−σn2/3 } ) + E(e−R(a+nµ−σn ) 2/3 ) ≤ E(1{Kn ≤a+nµ−σn2/3 } ) + e−R(a+nµ−σn 2/3 ) ≤ P {Kn ≤ a + nµ − σn2/3 } + e−R(a+nµ−σn (4.7) Für n → ∞ verschwindet der zweite Summand. Dies wollen wir kurz begründen. Es gilt: a + nµ − σn2/3 = n · a +µ−σ n n2 n3 1/3 ! =n· a +µ−σ n 1/3 ! 1 n 39 4 Ruinwahrscheinlickeit von Versicherungsgesellschaften Beachtet man, dass µ ≥ 0 gilt (vgl. Gl.(4.5)), so erkennt man leicht, dass dieser Term für n → ∞ über alle Grenzen wächst. Wegen R > 0 strebt folglich e−R(a+nµ−σ 2 n2/3 ) gegen 0. Betrachten wir nun den ersten Summanden von Gl. (4.7) genauer. Hier hilft uns die Tschebyschow-Ungleichung (vgl. Gl.(2.1)) weiter. Mit = σn2/3 X = Kn E(X) = a + nµ V ar(X) = nσ 2 folgt: 3 1/3 1/3 nσ 2 n 1 nσ 2 = = = n4 n (σn2/3 )2 σ 2 n4/3 1/3 1 2/3 ⇒ P (Kn − (a + nµ) ≤ −σn ) ≤ n 1/3 1 ⇔ P (Kn ≤ a + nµ − σn2/3 ) ≤ n P (|Kn − (a + nµ)| ≥ σn2/3 ) ≤ Für n → ∞ geht die Wahrscheinlichkeit gegen 0, und damit auch der erste Summand von Ungleichung (4.7).3 Aus Gleichung (4.6) folgt deshalb: e−Ra = lim e−Ra = lim E(e−RKn · 1{N ≤n} ) n→∞ n→∞ = lim n→∞ = lim n→∞ = lim n→∞ n X m=1 n X m=1 n X E(e−RKn · 1{N =m} ) E(e−RKn · eRKm −RKm · 1{N =m} ) E(e−R(Kn −Km ) · e−RKm · 1{N =m} ) m=1 Man überlegt sich leicht, dass die zwei Zufallsgrößen (e−RKm ·1{N =m} ) und e−R(Kn −Km ) 3 Der aufmerksame Leser wird sich vielleicht fragen, wozu wir das σ bei der Wahl von benötigen. Die Abschätzung würde auch mit = n2/3 funktionieren. Das σ besitzt nur kosmetische“ ” Gründe. 40 4.2 Die Ruinwahrscheinlichkeit stochastisch unabhängig sind. Mit Gl. (4.4) folgt daher weiter: e−Ra = lim n X n→∞ = = ∞ X m=1 ∞ X E(e−RKm · 1{N =m} ) · E(e−R(Kn −Km ) ) m=1 E(e−RKm · 1{N =m} ) · 1 E(e−RKN · 1{N =m} ) m=1 = E(e−RKN · 1{N <∞} ) (4.8) Kommen wir nun zum Nenner von Gl. (4.2). Aus der Definition des elementar bedingten Erwartungswertes ergibt sich: E(e−RKN |{N < ∞}) = E(e−RKN · 1{N <∞} ) P ({N < ∞}) (4.9) Mit Gl.(4.8) und (4.9) folgt nun: E(e−RKN · 1{N <∞} ) e−Ra = P ({N < ∞}) = E(e−RKN ·1{N <∞} ) E(e−RKN |{N < ∞}) P ({N <∞}) Wegen KN < 0 gilt folgende Ungleichung: P ({N < ∞}) ≤ e−Ra Hier liegt die eigentliche Bedeutung für die Anwendung. Mit obiger Ungleichung ist es relativ einfach, die Ruinwahrscheinlichkeit abzuschätzen. 41 4 Ruinwahrscheinlickeit von Versicherungsgesellschaften 42 5 Mittleres Laufzeitverhalten eines Algorithmus Computer können dem Menschen viele stupide Rechnungen abnehmen. Aufgaben, die ein festes Muster haben, sind programmierbar, man spricht von Algorithmen. So ist man z.B. immer auf der Suche nach neuen Primzahlen, die vor allem in der Kryptographie (= mathematische Verschlüsselungstechniken, welche die Sicherheit von Informationen betreffen) wichtige Anwendungen haben. Solche Verfahren haben jedoch oft eine sehr lange Laufzeit. Man fragt sich deshalb im Vorfeld, ob sich der Algorithmus lohnt“, oder ob er zu zeitaufwendig ist und man deshalb einen ande” ren verwenden soll. Man interessiert sich also für das mittlere Laufzeitverhalten eines Algorithmus. An einem einfachen Beispiel1 soll ein Ermittlungsverfahren vorgestellt werden: (n) (n) (n) Gegeben ist das Tupel ω (n) = (ω1 , ..., ωn ), wobei die ωi (i=1,...,n) paarwei(n) se verschieden sind. Ziel ist die Ermittlung des Maximums m := maxi ωi und des zugehörigen Index j∈ {1, ..., n}. Man kann den Algorithmus wie folgt schreiben: j := n; m := ωn(n) ; k := n − 1; [Initialisierung] 1 : if k = 0 then write (j, m) else if (n) ωk ≤ m then goto 2 else j := k, m := (n) ωk ; [Austauschschritt] 2 : k := k − 1 goto 1 1 entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis [12] ” 43 5 Mittleres Laufzeitverhalten eines Algorithmus Drei kleine Beispiele zur Veranschaulichung des Algorithmus: 1. Beispiel: ω (1) = (3) Initialisierung: j:=1, m:=3; k:=0 Laut 1 sind wir fertig und das Ergebnis lautet (1,3). Dies erscheint logisch, die Kette besteht ja nur aus einem Element. 2. Beispiel: ω (2) = (1, 2) Initialisierung: j:=2, m:=2; k:=1 k=1 ist also ungleich Null. Weiter gilt 1 = ω1 ≤ m = 2. Wir gelangen somit direkt zu 2. Dort wird das neue k zu k:=k-1=0 definiert. Bei 1 ergibt sich damit als Ergebnis (2,2) 3. Beispiel: ω (2) = (2, 1) Initialisierung: j:=2, m:=1; k:=1 Wieder ist k 6= 0. Nun gilt aber 2 = ω1 6≤ m = 1, d.h. wir gelangen zum Austauschschritt. Dieser definiert j:=1, m:=2. Weiter geht es mit 2. Hier wird k zu k:=k-1=0. Wieder bei 1 angelangt erkennen wir, dass das Ergebnis (1,2) lautet. Die Laufzeit dieses Algorithmuses hängt von der mittleren Anzahl der Austausch(n) schritte ab. Offensichtlich ist nur die Anordnung der ωi ’s dabei von Bedeutung und ihre relative Größe zueinander, nicht deren absolute Größe. Wir können deshalb die mathematische Einkleidung vornehmen, dass ω (n) eine Permutation der Zahlen 1,...,n ist. Jede Permutation soll dabei gleich wahrscheinlich sein. Als Grundraum Ω wählen wir deshalb: (n) Ωn = {ω (n) = (ω1 , ..., ωn(n) ) : ω (n) n-Permutation von (1, ..., n) ohne Wiederholung} Nach den Regeln der Kombinatorik gilt für die Mächtigkeit von Ωn , |Ωn | = n!. Als Wahrscheinlichkeitsverteilung wählen wir die Laplace-Verteilung d.h.: 1 und n! |A| Pn (A) = , A⊆Ω n! Pn (ω (n) ) = Die Zufallsgröße Xn : Ωn → N soll die Anzahl der Austauschschritte bei gegebenem ω angeben. Offensichtlich gilt für die Wertemenge W von Ωn : W = {0, ..., n − 1} Um die mittlere Anzahl der Austauschritte (und damit einen Anhaltspunkt für das mittlere Laufzeitverhalten des Algorithmus) zu bestimmen, wollen wir E(Xn ) berechnen. Durch Betrachtung des Algorithmus erkennt man folgende Darstellung von Xn : 44 Xn−1 (ω̃ (n−1) ) + 1, ω (n) = n 1 Xn (ω (n) ) = (n) X (n−1) (ω̃ ), ω 6= n X1 = 0, n−1 (5.1) 1 Dabei ist ω̃ (n−1) die Permutation von (1,...,n-1), welche folgende Äquivalenz erfüllt: (n) (n) (n−1) ωi+1 < ωj+1 ⇐⇒ ω̃i (n−1) < ω̃j für alle i,j (i6=j) ∈ {1, ..., n − 1} In Worten: Die Zahlen in der ω̃-Anordnung müssen zueinander in der gleichen Anordnung stehen wie die entsprechenden in der ω-Anordnung. Drei Beispiele sollen den Übergang von ω̃ (n) zu ω̃ (n−1) veranschaulichen: 1. Beispiel: ω (3) = (1, 3, 2) → ω̃ (2) = (2, 1) 2. Beispiel: ω (4) = (3, 1, 2, 4) → ω̃ (3) = (1, 2, 3) 3. Beispiel: ω (5) = (3, 2, 5, 1, 4) → ω̃ (4) = (2, 4, 1, 3) Zur Veranschaulichung von Gl.(5.1) diskutieren wir kurz den Fall n=1 und n=2: 1. Fall: n=1 Laut (5.1) gilt X1 (ω (1) ) = 0, das heißt, es wäre kein Austauschschritt nötig. Dies (1) stimmt (natürlich) auch, da ω (1) = (ω1 ) = (1) nur ein Tupel“ von einer Zahl ist ” und deshalb schon bei 1 (vgl. Algorithmus) das Ergebnis geliefert wird. 2. Fall: n=2 Hierbei können folgende zwei Unterfälle auftreten: (2) (2) a) ω (2) = (ω1 , ω2 ) = (1, 2) oder b) ω (2) = (2) (2) (ω1 , ω2 ) = (2, 1) Bei a) ist offensichtlich kein Austauschschritt nötig. Bei b) dagegen einer. Dies wird durch (5.1) bestätigt: a) X2 (ω (2) ) = X1 (ω̃ (1) ) = 0, b) X2 (ω (2) ) = X1 (ω̃ (1) da (2) 1 = ω1 ) = 0 + 1 = 1, da 6= n = 2 (2) 2 = ω1 =n=2 Betrachten wir nun die zugehörigen Wahrscheinlichkeiten. Nach Diskussion der obigen Beispiele ist nun offensichtlich: P1 (X1 = 0) = 1, P1 (X1 = 1) = 0, Pn (Xn = n) = 0 (5.2) Für k=0,...,n-1 (n>1) können wir Pn (Xn = k) mit Gl. (5.1) wie folgt berechnen: (n) Pn (Xn = k) = Pn ({ω (n) : Xn (ω (n) ) = k, , ω1 = n}) (n) + Pn ({ω (n) : Xn (ω (n) ) = k, , ω1 6= n}) (n) = {|ω (n) : Xn−1 (ω̃ (n−1) ) = k − 1, ω1 = n|} n! (n) (n) (n−1) {|ω : Xn−1 (ω̃ ) = k, ω1 6= n|} + n! 45 5 Mittleres Laufzeitverhalten eines Algorithmus Im ersten Summanden macht es keinen Unterschied, wenn wir ω (n) durch ω̃ (n−1) (n) ersetzen. Da ω1 fest ist, entspricht die Anzahl der ω (n) mit Xn−1 (ω̃) = k − 1 gleich der Anzahl der ω̃ (n−1) mit Xn−1 (ω̃) = k − 1. Beim zweiten Summanden gibt es für (n) ω1 (n-1) Möglichkeiten. Für jede feste Möglichkeit gilt die gleiche Argumentation wie zuvor. Es folgt deshalb weiter: Pn (Xn = k) = 1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k − 1|} n (n − 1)! n − 1 {|ω̃ (n−1) : Xn−1 (ω̃ (n−1) ) = k|} n (n − 1)! 1 n−1 = Pn−1 (Xn−1 = k − 1) + Pn−1 (Xn−1 = k) (5.3) n n Wir haben somit die Wahrscheinlichkeit Pn auf die Wahrscheinlichkeit Pn−1 zurückgeführt. + Unser Ziel war es, den Erwartungswert E(Xn ) zu bestimmen. Hierzu bedienen wir uns nun der momenterzeugenden Funktionen in folgender Form: ϕn (z) := ψXn (ln(z)) Gl.(2.9) = E(eln(z)Xn ) = E(z Xn ) = n−1 X z k Pn (Xn = k) (5.4) k=0 Für den Erwartungswert gilt nach Gl.(2.10): 0 ϕ0n (1) = ψX (0) = E(Xn ) n (5.5) Wie für die Wahrscheinlichkeiten wollen wir nun eine Rekursion für ϕn (z) berechnen. Da X1 nur den Wert 0 annehmen kann (vgl. Gl. (5.2)) gilt: ϕ1 (z) = E(z X1 ) = E(z 0 ) = E(1) = 1 Mit Gl. (5.4) und Gl. (5.3) folgt: ϕn (z) = = = = = 46 n−1 X k=0 n−1 X k=0 n−1 X z k Pn (Xn = k) z z n 1 n−1 Pn−1 (Xn−1 = k − 1) + Pn−1 (Xn−1 = k) n n n−1 X n−1 1 z Pn−1 (Xn−1 = k − 1) + zk Pn−1 (Xn−1 = k) n n k k=0 n−1 X z n k k=0 n−1 z k−1 Pn−1 (Xn−1 = k − 1) + k=0 n−2 X k=−1 n−1X k z Pn−1 (Xn−1 = k) n k=0 z k Pn−1 (Xn−1 = k) + n−1 n n−1 X k=0 z k Pn−1 (Xn−1 = k) Mit Gl. (5.2) (⇒ Pn−1 (Xn−1 = n − 1) = 0) und Pn (Xn = −1) := 0 ist dies äquivalent zu: ϕn (z) = n−2 n−2 k=0 k=0 zX k n−1X k z Pn−1 (Xn−1 = k) + z Pn−1 (Xn−1 = k) n n z n−1 = ϕn−1 (z) + ϕn−1 (z) n n z+n−1 ϕn−1 (z) = n (5.6) also: ϕn (z) = (z + n − 1)(z + n − 2)...(z + 1) n! speziell für z=1: ϕn (1) := (1 + n − 1)(1 + n − 2)...(1 + 1) n · (n − 1) · ... · 2 = =1 n! n! (5.7) Für die Ableitung folgt mit Gl.(5.6): z n−1 0 1 ϕn−1 (z) + ϕ0n−1 (z) + ϕn−1 (z) n n n 1 z+n−1 0 = ϕn−1 (z) + ϕn−1 (z) n n ϕ0n (z) = (5.8) Für ϕ0n (1) ergibt sich somit aus Gl. (5.8) und Gl. (5.7): 1 + ϕ0n−1 (1) n 1 1 = + + ϕ0n−2 (1) n n−1 ϕ0n (1) = = ... Da ϕ01 (1) = E(X1 ) = E(0) = 0 gilt kann man die Reihe wie folgt ausschreiben: ϕ0n (1) Gl.(5.5) = n E(Xn ) = 1 1 1 X1 + + ... + = n n−1 2 i i=2 Außerdem gilt folgende Ungleichung: Z n Z n n X 1 1 1 dx ≤ ≤ dx i 1 x 1 x+1 i=2 ⇐⇒ ln(n + 1) − ln2 ≤ n X 1 i=2 i ≤ ln(n) 47 5 Mittleres Laufzeitverhalten eines Algorithmus Somit können wir E(Xn ) wie folgt abschätzen: E(Xn ) ∼ ln(n) Wir halten als Ergebnis fest: Mit wachsender Länge der Permutationen wird die Zunahme der Austauschschritte geringer. 48 6 Spieltheorie ( ...die Sache [d.h. das Glücksspiel] war bisher ungewiß; nun aber, nach” dem sie sich gegenüber dem Experiment unzugänglich gezeigt hatte, hat sie sich dem Verstand unterwerfen müssen. Wir haben es nämlich durch geometrische Argumentationen auf eine berechenbare Kunst zurückgeführt, so daß es Teil an der Strenge der Geometrie hat und zuversichtlich vorangeht; es vereinigt die mathematische Gewißheit mit der Ungewißheit des Würfels, was vorher unvereinbar schien....“) (Zitat von Pascal1 ) Spiele haben in unserem Alltag eine besondere Rolle eingenommen. Sie dienen als Ausgleich zu unserem Alltag, sie bieten Aufregung, Abwechslung und machen Spaß. Wie wir in diesem Abschnitt sehen werden, beschäftigt sich jedoch auch die Wissenschaft mit dem Spielen. Bevor wir jedoch Beispiele angeben können, benötigen wir noch einige mathematische Grundlagen. Dabei spielen die sogenannten wahrscheinlichkeitserzeugenden Funktionen eine besondere Rolle. 6.1 Mathematische Grundlagen Definition 6.1.1 Wir betrachten eine Zufallsgröße X, die nur Werte in N0 annimmt. Unter der wahrscheinlichkeitserzeugenden Funktion von X verstehen wir die Abbildung GX (t), t ∈ [0, 1] mit: GX (t) := E(tX ) = ∞ X tn P (X = n) (6.1) n=0 Beachte: GX (t) existiert für alle t ∈ [0,1], da selbst im Fall t=1 P∞ n=0 P (X = n) = 1 < ∞ gewährleistet ist. 1 entnommen aus Blobel: Statistische und numerische Methoden der Datenanalyse“; vgl. Litera” turverzeichnis [1] 49 6 Spieltheorie Zur Namensgebung: Wir betrachten die k-ten Ableitungen nach t: (k) GX (t) = ∞ X n · (n − 1) · ... · (n − k + 1) · tn−k P (X = n) (6.2) n=k d.h. (k) GX (0) k! Aus der Kenntnis von GX (t) kann somit die Verteilung von X bestimmt werden. (k) GX (0) = k! · P (X = k) ⇒ P (X = k) = Für unabhängige Zufallsgrößen können wir noch folgenden Satz beweisen: Satz 6.1.1 Xi (i=1,2,...,n) seien unabhängige Zufallsgrößen, die nur Werte in N0 annehmen. Dann gilt: GX1 +X2 +...+Xn (t) = n Y GXi (t) (6.3) i=1 Beweis: Es gilt: GX1 +X2 +...+Xn (t) = E(tX1 +X2 +...+Xn ) = E n Y ! tXi i=1 Aus der Unabhängigkeit der Zufallsgrößen folgt mit Gl. (1.18): ! ! n n Y Y GXi (t) GX1 +X2 +...+Xn (t) = E(tXi ) = i=1 i=1 Für später benötigen wir außerdem: Satz 6.1.2 Sei X eine N0 - wertige Zufallsgröße mit endlichem k-ten Moment (d.h. E(X k ) < ∞), dann gilt: (k) (k) lim GX (t) = GX (1) = E[X(X − 1) · ... · (X − k + 1)] < ∞ t→1 (6.4) Für E(X k ) = ∞, folgt: E[X(X − 1) · ... · (X − k + 1)] = ∞ und somit: (k) lim GX (t) = ∞ t→1 (k) (6.5) Wobei unter GX (t) wieder die k-te Ableitung von GX (t) nach t zu verstehen ist (k ∈ N). 50 6.2 Das Würfelproblem Beweis: Nach Gl.(6.2) gilt: (k) GX (t) = ∞ X n(n − 1) · ... · (n − k + 1)tn−k P (X = n) n=k Selbst wenn die Summe für t=1 nicht existiert, so gilt für den Grenzwert: (k) lim GX (t) = t→1 ∞ X n(n − 1) · ... · (n − k + 1)P (X = n) n=k = E[X(X − 1) · ... · (X − k + 1)] Wegen E(X k ) < ∞ ⇐⇒ E[X(X − 1) · ... · (X − k + 1)] < ∞ folgt hieraus die Behauptung. Der Vorteil dieses Satzes liegt darin, dass wir den Erwartungswert schreiben können als: (1) E(X) = GX (t) =: G0X (1) (6.6) 6.2 Das Würfelproblem Wir werfen zwei ideale Würfel und betrachten die Augensumme. Die Wahrscheinlichkeit, eine Summe von 6 zu erhalten, ist höher als die einer 12. Dies liegt daran, dass es für 12 nur eine Möglichkeit gibt ((6,6)) für 6 dagegen mehrere ((1,5), (5,1), (2,4), (4,2), (3,3)). Frage: Ist es möglich, zwei Würfel zu konstruieren (wie immer die auch aussehen mögen), so dass jede Augensumme mit gleicher Wahrscheinlichkeit auftritt? Mathematische Einkleidung der Frage: Wir betrachten zwei unabhängige Zufallsgrößen X1 , X2 (=Würfel) mit dem Wertebereich {1, 2, 3, 4, 5, 6} (=Augenzahl). Nun soll gelten: P (X1 + X2 = k) = 1 , k = 2, 3, ..., 12 11 (6.7) Um die Sache nicht all zu spannend zu machen, wird hier schon verraten, dass dies nicht möglich ist. Bleibt nur die Frage nach dem Warum zu klären. Hier hilft uns, Gott sei Dank, die Mathematik weiter: Wir führen einen Widerspruchsbeweis. 51 6 Spieltheorie Annahme: Es gibt zwei unabhängige Zufallsgößen X1 und X2 , so dass Gl. (6.7) erfüllt ist. Nach Gl. (6.3) gilt dann für alle t ∈ R: GX1 +X2 (t) = GX1 (t) · GX2 (t) = 6 X 6 X ! tn P (X1 = n) · n=1 =t· ! tm P (X2 = m) m=1 6 X ! t n−1 P (X1 = n) ·t· n=1 6 X ! t m−1 P (X2 = m) m=1 =: t2 · P1 (t) · P2 (t) (6.8) Wobei P1 (t) und P2 (t) Polynome vom maximalen Grad 5 sind. Da außerdem Gl. (6.7) erfüllt sein soll, muss zudem gelten: GX1 +X2 (t) = = 12 X k=2 t2 11 12 1 X k t t P (X1 + X2 = k) = 11 k k=2 · (1 + t + ... + t10 ) (6.9) Aus Gl. (6.8) und Gl. (6.9) folgt, dass der Grad der Pi (i=1,2) genau 5 ist. Wir wollen nun Pi (i=1,2) auf eventuelle Nullstellen untersuchen. Wir unterscheiden daher 2 Fälle: 1. Fall: t = 0 Aus Gl. (6.9) erkennen wir, dass dies eine doppelte Nullstelle von GX1 +X2 ist. Diese ist in Gl. (6.8) bereits als eigenständiger Faktor vorhanden. Daher muss Pi (0) 6= 0 gelten. 2. Fall: t 6= 0 Aus Gl. (6.8) und Gl. (6.9) folgt nun (t 6= 0 !): P1 (t) · P2 (t) = (1 + t + ... + t10 ) 11 (6.10) Aus der Nullteilerfreiheit der reellen Zahlen und Gl. (6.10) folgt deshalb Pi (1) 6= 0 (i=1,2). Durch Polynomdivision kann man sich leicht vergewissern, dass folgende Gleichung äquivalent zu (6.10) ist: P1 (t) · P2 (t) = 52 1 t11 − 1 · 11 t − 1 6.3 Das Waldegrave’sche Problem Als einzige reelle Nullstelle würde somit 1 in Frage kommen. Dies ist aber, wie oben begründet, nicht möglich. Somit besitzt Pi (t) (i=1,2) für t 6= 0 keine reelle Nullstelle. Insgesamt gilt somit Pi (t) 6= 0 für alle t ∈ R. Da der Grad der Pi (i=1,2) jedoch 5 ist, müsste nach dem Fundamentalsatz der Algebra mindestens eine reelle Nullstelle existieren. Hier haben wir unseren Widerspruch. Wir wollen hier noch einmal kurz das Vorgehen reflektieren: Es gibt bestimmt sehr viele Möglichkeiten, wie man Würfel bauen kann. Dies war für unser Vorgehen jedoch völlig irrelevant. Mit Hilfe der Mathematik konnten wir relativ einfach eine Antwort finden, ohne das Problem näher zu materialisieren“. ” 6.3 Das Waldegrave’sche Problem Wir wollen uns nun mit dem Waldegrave’schen2 Problem beschäftigen, welches aus dem 18. Jahrhundert stammt. Dabei betrachten wir eine moderne Einkleidung3 : Wir stellen uns ein ideales Tennisturnier vor, an dem k Spieler S1 , S2 , ..., Sk teilnehmen. Ideal deswegen, weil alle Spieler gleich stark sein sollen, d.h. jeder Spieler gewinnt mit der Wahrscheinlichkeit 1 2 gegen seinen Gegner. Das Turnier verläuft wie folgt: S1 spielt gegen S2 , der Gewinner spielt gegen S3 , der Gewinner dieses Spiels gegen S4 und so weiter. Gewinnt S1 alle (k-1) Spiele, so ist er der Sieger des Turniers. Andernfalls spielt der Sieger des (k-1)ten Spiels gegen S1 (bzw. S2 , falls S1 im (k-1)ten Spiel verliert) der Gewinner gegen S2 (bzw. S3 ) usw.- ein neuer Zyklus beginnt. Der erste Spieler, der somit (k-1) Spiele in Folge gewonnen hat (und somit gegen jeden Spieler angetreten ist), gewinnt das Turnier. Um den Verlauf zu veranschaulichen, folgt ein kurzes Beispiel mit vier Spielern, bei dem S3 siegreich ist. Beispiel 6.3.1 Turnier: Beginn: S1 vs. S2 : S2 gewinnt Dann: S2 vs. S3 : S3 gewinnt 2 3 Waldegrave, adeliger Spieler, der zu Beginn des achtzehnten Jahrhunderts lebte. sinngemäß entnommen aus Hesse: angewandte Wahrscheinlichkeitstheorie“; vgl. Literaturver” zeichnis [11] 53 6 Spieltheorie Dann: S3 vs. S4 : S3 gewinnt Dann: S3 vs. S1 : S3 gewinnt Ende: S3 hat in 3 Spielen hintereinander gewonnen und ist damit Sieger Die Frage, die uns beschäftigt, lautet: Wie viele Spiele dauert ein Turnier im Mittel? Um diese Frage zu beantworten, nehmen wir wie immer zuerst eine mathematische Einkleidung vor: Wir betrachten das zweite Spiel. Ist der Gewinner hierbei der gleiche wie im ersten Spiel, so notieren wir eine eins. Andernfalls eine Null. Bei den weiteren Spielen wird analog vorgegangen. Auf diese Art und Weise wird das Gesamte Turnier als 0-1-Folge dargestellt. Beispiel 6.3.1 kann dann wie folgt dargestellt werden:0 1 1. Überlegen wir uns nun, wie lange ein Turnier dauert. Bei zwei Spielern d.h. k=2 wird offensichtlich nur ein Spiel benötigt. Für mehr als zwei Spieler hat ein Turnier die Länge l ≥ 2, wenn eine Folge von (k-2) 1er an der (l-1)ten Stelle (in der Folge von Nullen und Einsen) endet. In unserem Beispiel hat das Turnier die Länge l=4 deshalb, weil die Folge von (4-2)=2 Einsen mit der (4-1)ten= 3ten Stelle in unserer Zahlenfolge zusammenfällt. Wir definieren nun eine N0 -wertige Zufallsgröße Xj . Unter dem Ereignis {Xj = i} verstehen wir diejenige Menge, bei der in einer 0-1-Folge erstmals an der i-ten Stelle eine Folge von j Einsen endet. Gj (t) seien die wahrscheinlichkeitserzeugenden Funktionen von Xj . Für unsere Überlegungen ist die Zufallsgröße Xk−2 interessant, da nach (k-2) aufeinander folgenden Einsen das Turnier zu Ende ist. Um die Frage nach der mittleren Turnierlänge (=: L̄) zu beantworten, müssen wir dann nur E(Xk−2 ) berechnen und zum Ergebnis eins addieren. Kurz: L̄ = E(Xk−2 ) + 1 (6.11) L̄ = G0Xk−2 (1) + 1 (6.12) bzw. mit Hilfe von Gl. (6.6): Die Lösung des Problems beschränkt sich also darauf, die wahrscheinlichkeitserzeugenden Funktionen von Xj zu bestimmen. Hierzu benötigen wir laut Definition 6.1.1 54 6.3 Das Waldegrave’sche Problem die Verteilung von X. Offensichtlich gilt: j 1 P (Xj = j) = 2 und natürlich: P (Xj = i) = 0, i<j bestimmen wir nun P (Xj = i) für i > j. Das Ereignis {Xj = i} bedeutet, dass unter den ersten (i-j-1) 0-1-Symbolen keine j Einsen hintereinander auftreten, das (i-j)te Symbol eine 0 ist und danach j-mal eine 1 folgt. Wir können also P (Xj = i) schreiben als: P (Xj = i) = P (Xj > i − j − 1) · j+1 1 2 Mit diesen drei Gleichungen folgt nun: GXj (t) = ∞ X ti P (Xj = i) i=0 = ∞ X ti P (Xj = i) i=j j 1 = 2 j 1 = 2 j 1 = 2 j 1 = 2 · tj + j ·t + ∞ X i=j+1 ∞ X i=j+1 ti P (Xj = i) j+1 1 t P (Xj > i − j − 1) · 2 i j+1 X ∞ 1 ·t + · ti P (Xj > i − j − 1) 2 i=j+1 j+1 X ∞ ∞ X 1 j ·t + · ti P (Xj = m) 2 j i=j+1 m=i−j 55 6 Spieltheorie Um die weitere Umformung leichter verständlich zu machen, schreiben wir etwas unmathematisch (Pünktchenschreibweise) weiter: GXj (t) = j+1 j 1 1 · tj + · 2 2 ∞ X ti [P (Xj = i − j) + P (Xj = i − j + 1) + P (Xj = i − j + 2) + ...] i=j+1 j j+1 1 1 j = ·t + · {tj+1 [P (Xj = 1) + P (Xj = 2) + ...] 2 2 + tj+2 [P (Xj = 2) + P (Xj = 3) + ...] + ...} j j+1 X j+m ∞ X 1 1 j = ·t + · P (Xj = m) ti 2 2 m=1 i=j+1 "j+m # j+1 X j j ∞ X X 1 1 · tj + · = P (Xj = m) ti − ti 2 2 m=1 i=0 i=0 Durch Berechnung der beiden geometrischen Reihen4 ergibt sich weiter: j 1 GXj (t) = 2 j 1 = 2 j 1 = 2 j 1 = 2 j 1 = 2 j 1 = 2 j 1 = 2 j 1 = 2 4 ·t j · tj · tj · tj · tj · tj · tj · tj j+1 X ∞ 1 − tj+m+1 1 − tj+1 1 P (Xj = m) + · − 2 1−t 1−t m=1 j+1 X ∞ 1 −tj+m+1 + tj+1 + · P (Xj = m) 2 1−t m=1 j+1 X ∞ 1 tj+1 · (−tm ) + tj+1 + · P (Xj = m) 2 1−t m=1 j+1 X ∞ 1 tj+1 · (1 − tm ) + · P (Xj = m) 2 1−t m=1 j+1 j+1 X ∞ 1 t + · P (Xj = m)(1 − tm ) 2 1−t m=1 j+1 ∞ t 1 X + · P (Xj = m) − P (Xj = m) · tm 2 1−t m=1 " ∞ # j+1 ∞ X X t 1 + · P (Xj = m) − P (Xj = m) · tm 2 1−t m=1 m=1 j+1 t 1 + · 1 − GXj (t) 2 1−t Geometrische Reihe: Für x 6= 1 und n∈ N0 gilt: Der Beweis erfolgt durch Induktion 56 Pn k=0 xk = 1−xn+1 1−x 6.3 Das Waldegrave’sche Problem Auflösen nach GXj (t) ergibt: GXj (t) = tj (2 − t) 2j+1 (1 − t) + tj+1 bzw. für j=k-2 (Wir erinnern uns: Unser Interesse beschränkt sich auf die Berechnung von GXk−2 ): GXk−2 (t) = tk−2 (2 − t) 2k−1 (1 − t) + tk−1 Differenziert man nun diese Funktion einmal nach t und berechnet die Ableitung an der Stelle 1, so ergibt sich: G0Xk−2 (1) = 2k−1 − 2 Nach Gl. (6.12) ergibt sich somit für die mittlere Turnierlänge bei k > 2 Spielern: L̄ = G0Xk−2 (1) + 1 = 2k−1 − 1 57 6 Spieltheorie 58 7 Einführung in die Informationstheorie Das Gebiet der Informationstheorie ist wissenschaftlich betrachtet noch sehr jung. Es wurde in den Jahren von 1947 bis 1949 von dem amerikanischen Mathematiker und Ingenieur Claude Shannon1 entwickelt. Dabei geht es in erster Linie um die Übertragung und Speicherung von Informationen in Natur und Technik. Radiosignale spielen hierbei die gleiche Rolle wie Nerven, die in unserem Körper Informationen transportieren. Im Gegensatz zu vielen anderen mathematischen Themen sind bei dieser Theorie einfache praktische Anwendungen auch von dem Laien verstehbar. Wir werden in diesem Abschnitt eine Einführung in die Informationstheorie geben, wobei uns einige Ungleichungen begegnen werden. Dabei zeigen wir auf, wie Informationen codiert und decodiert werden und welche Probleme dabei auftreten können. Zuerst müssen wir jedoch wieder einige Bezeichnungen einführen. 7.1 Mathematische Einkleidung Ziel ist es, Informationen zu übertragen. Dies geschieht mit Hilfe einer endlichen Menge M von Zeichen, genannt Alphabet. Beispiel: M={a, b, c, ..., x, y, z} Wir definieren uns nun eine Zufallsvariable X, die Werte in M annimmt. X kann als Ereignis gedeutet werden, dessen Ausgänge in M liegen. Als Wahrscheinlichkeit definieren wir p(x):=P(X=x), x∈M. In der Realität könnten dies die relativen Auftrittshäufigkeiten der einzelnen Buchstaben in einem Text sein. Diese werden u.a. in Frequenzwörterbüchern angegeben. Wir wollen nun ein Maß für die Unbestimmtheit von X einführen. Das heißt eine Größe, die angibt, mit welcher Genauigkeit man den Ausgang von X voraussagen kann. 1 Claude Elwood Shannon (1916- 2001), US-amerikanischer Mathematiker, gilt als Begründer der Informationstheorie. 59 7 Einführung in die Informationstheorie 7.2 Entropie Definition 7.2.1 Unter der Entropie H(X) einer Zufallsvariablen X mit Wertebereich M versteht man: H(X) := E[−log2 (p(X))] = − X p(x) · log2 (p(x)) (7.1) x∈M Dabei gilt: 0 · log2 (0) := 0 Ist X laplaceverteilt, das heißt: P (X = x) = 1 |M | so gilt: H(X) = − X x∈M =− X x∈M 1 · log2 |M | 1 |M | X 1 1 · log2 (1) + · log2 (|M |) |M | |M | x∈M = log2 (|M |) (7.2) Anhand der Laplace-Verteilung wollen wir einige kurze Überlegungen anstellen, ob die Definition der Entropie mit unserer Vorstellung übereinstimmt: Haben wir z.B. ein Ereignis, welches nur einen Ausgang x hat, d.h. |M | = 1 so gilt laut Gl.(7.2) H(X)=0. X ist also überhaupt nicht unbestimmt. Dies erscheint logisch, da man mit absoluter Sicherheit sagen kann, dass X den Wert x annimmt. Außerdem müsste die Unbestimmtheit von X mit wachsendem M ansteigen. Es ist ja z.B. leichter, bei einer idealen Münze den richtigen Wert vorauszusagen, als bei einem idealen Würfelwurf. Im ersten Fall haben wir immerhin eine Chance von 50 Prozent. Auch dies stimmt mit Gl.(7.2) überein, da der Logarithmus mit |M | monoton steigt. Intuitiv müsste dann auch folgender Satz gelten: Das Ereignis, welches auf einer festen Menge M die maximale Unbestimmtheit hat, ist Laplaceverteilt! Hat ein xi ∈ M nämlich eine größere Auftrittswahrscheinlichkeit als die anderen, so wird es auch öfter als Ergebnis auftreten. Da wir uns jedoch nicht immer auf unsere Intuition verlassen wollen, präzisieren wir die Sache mathematisch (und wollen sie natürlich beweisen): 60 7.2 Entropie Satz 7.2.1 Für eine Zufallsvariable mit Wertemenge M gilt: H(X) ≤ log2 (|M |) Beweis: Es gilt: log2 (|M |) − H(X) = − X p(x)log2 x∈M = X 1 |M | p(x) · −log2 x∈M = X p(x) −log2 x∈M " # X − − p(x)log2 (p(x) x∈M 1 |M | + log2 (p(x)) 1 |M |p(x) Durch Anwendung der Jensen-Ungleichung (vgl. Gl. (2.4)) mit f = −log2 und der Zufallsvariablen Z = 1 |M |p(x) folgt weiter: log2 (|M |) − H(X) ≥ −log2 X x∈M 1 p(x) |M |p(x) ! = −log2 (1) = 0 In der Praxis werden Informationen oft mit Hilfe von 0-1-Folgen übertragen. Dabei wird jedes Zeichen (=x) eines Alphabets auf eine bestimmte Art kodiert (x→ C(x)). Als Beispiel2 betrachten wir zwei verschiedene Kodierungsmöglichkeiten für die Menge M = {a, b, c, d}: 1. Möglichkeit: 2. Möglichkeit: C(a)=0 C*(a)=0 C(b)=10 C*(b)=01 C(c)=110 C*(c)=010 C(d)=111 C*(d)=1 Wir möchten nun das Wort abba übermitteln und anschließend dekodieren: 1. Möglichkeit (mit C): 2. Möglichkeit (mit C*): Kodierung: 010100 001010 Dekodierung: a b a 2 b a ? Beispiel entnommen aus Irle: Wahrscheinlichkeitstheorie und Statistik“; vgl. Literaturverzeichnis ” [12] 61 7 Einführung in die Informationstheorie Im 2. Fall ist die Dekodierung nicht eindeutig. Statt das Wort abba zu erhalten, könnte man auch mit aadada dekodieren. Dies ist in der Praxis unerwünscht. Man möchte eindeutige Codes, die während des Übertragungsvorgangs dekodierbar sind. Um eine klare Terminologie zu erhalten, führen wir folgende Definitionen ein: 7.3 Code-Terminologie Definition 7.3.1 Mit W n = {0, 1}n bezeichnen wir die Menge der Binärwörter vom Umfang n, also alle n-Tupel (δ1 , ..., δn ) := δ1 ...δn mit δi ∈ {0, 1} (i=1,...,n). Unter der Menge W aller Binärwörter versteht man: [ W = Wn n∈N Unter einem Code verstehen wir eine Abbildung C mit: C:M →W wobei M wieder eine Alphabet-Menge bezeichnet. Für k ∈ N definieren wir dann: Ck : M k → W C k [(x1 , x2 , ..., xk )] := C(x1 )C(x2 )...C(xk ), xi ∈ M (i = 1, ..., k) Falls C k für alle k ∈ N injektiv ist, so sagen wir, der Code C ist eindeutig decodierbar. Er heißt präfixfrei, wenn für jedes x,x’ ∈ M (x 6= x0 ) kein v ∈ W existiert mit: C(x) = C(x0 )v Man sagt dann auch, kein Codewort ist Präfix eines anderen Codewortes. Mit C kann man somit einzelne Buchstaben verschlüsseln, mit C k Wörter. Betrachtet man sich die Eigenschaften der Injektivität, so kommt man schnell zur Einsicht, dass ein präfixfreier Code injektiv und damit eindeutig decodierbar ist. In der Praxis sind auch nur diese von Relevanz. Wir definieren nun die Länge eines Codes. Definition 7.3.2 Unter der Länge eines Codes versteht man den Wert der folgenden Abbildung: lC : M → N, lC (x) = |C(x)| bzw. lC k : M k → N, 62 lC k [(x1 , ..., xk )] = |C k [(x1 , ..., xk )]| = |C(x1 )| + ... + |C(x2 )| 7.4 Eindeutig decodierbare Codes 7.4 Eindeutig decodierbare Codes Ziel dieses Abschnittes ist es, die durchschnittliche Länge von präfixfreien Codes einzugrenzen. Wir werden sehen, dass diese auf keinen Fall nach unten unbeschränkt ist. Um unserem Endziel näher zu kommen, benötigen wir noch folgenden Hilfssatz, der in der Fachliteratur als Ungleichung von Kraft-McMillan bekannt ist. Satz 7.4.1 C sei ein eindeutig decodierbarer Code, M das dazugehörige Alphabet. Dann gilt: X 2−lC (x) ≤ 1 (7.3) x∈M Beweis: Sei: l∗ := max lC (x) x∈M Wir berechnen nun: !k X 2−lC (x) X = x∈M 2−(lC (x1 )+...+lC (xk )) (x1 ,...,xk )∈M k X = 2−lC k ((x1 ,...,xk )) (x1 ,...,xk )∈M k ∗ = k·l X m=1 X 2−m (x1 ,...,xk )∈M k lC k [(x1 ,...,xk )]=m Da der Code eindeutig decodierbar und damit C k injektiv ist, kann es nicht mehr Elemente (x1 , ..., xk ) ∈ M (= Wörter) mit lC k ((x1 , ..., xk )) = m geben als es Elemente in W m gibt. (Sonst müsste ja verschiedenen Elementen aus M der gleiche Code zugeordnet werden.) Wir können deshalb weiter folgern: !k X −lc (x) 2 ∗ ≤ k·l X |W m | · 2−m m=1 x∈M ∗ = k·l X 1 m=1 = k · l∗ 63 7 Einführung in die Informationstheorie 1 X =⇒ k→∞ 2−lc (x) ≤ (k · l∗ ) k −→ 1 x∈M Bemerkung 7.4.1 Man kann auch die Umkehrung zeigen: Gegeben ist eine Abbildung l : M → N mit: X 2−l(x) ≤ 1 (7.4) x∈M dann existiert ein präfixfreier Code C mit: lC = l Kommen wir nun zu unserem eigentlichen Vorhaben: Satz 7.4.2 C sei ein eindeutig decodierbarer Code, M ein Alphabet und X eine Zufallsvariable mit Werten in M; dann gilt: E(lC (X)) ≥ H(X) (7.5) Beweis: Es gilt: ! E(lC (X)) − H(X) = X − p(x)lC (x) − X p(x)log2 (2lC (x) ) + x∈M = X p(x)log2 (p(x)) x∈M x∈M = X X p(x)log2 (p(x)) x∈M lC (x) p(x)log2 (2 p(x)) x∈M = X −lC (x) p(x)log2 2 x∈M X =− 1 p(x) −lC (x) p(x)log2 2 x∈M −1 1 p(x) Durch Anwendung der Jensen-Ungleichung (2.4) mit f = log2 und der Zufallsva1 −lC (x) p(x) riable Z = 2 folgt weiter: E(lC (X)) − H(X) ≥ −log2 X −lC (x) p(x)2 x∈M ! = −log2 X x∈M 64 2−lC (x) 1 p(x) ! 7.4 Eindeutig decodierbare Codes Mit der soeben bewiesenen Kraft-McMillan-Ungleichung (7.3) ergibt sich dann: E(lC (X)) − H(X) ≥ 0 Interpretation des Ergebnisses: Die minimal erwartete Anzahl der zum präfixfreien Codieren benötigten Bits3 ist mindestens so groß wie die Entropie von X. Wir wollen abschließend die Größe min C präfixfrei E(lC (X)) näher bestimmen. Dazu definieren wir: l(x) := d−log2 (p(x))e als die nächstgrößere ganze Zahl zu −log2 (p(x)). Dann gilt: X 2−l(x) ≤ x∈M X 2log2 (p(x)) = x∈M X p(x) = 1 x∈M Nach Bemerkung (7.4.1) existiert dann ein präfixfreier Code C ∗ mit lC ∗ (x) = l(x). Für diesen gilt: ! ∗ E(lC (X)) − H(X) = X p(x)lC ∗ (x) − x∈M − X p(x)(log2 (p(x)) + 1 − 1) x∈M ! ≤ X p(x)lC ∗ (x) − x∈M = X X p(x)(lC ∗ (x) − 1) x∈M p(x) = 1 x∈M ⇐⇒ ∗ E(lC (X)) ≤ H(X) + 1 Wir fassen als Ergebnis zusammen: H(X) ≤ min C präfixfrei E(lC (X)) ≤ H(X) + 1 Wie bereits angedeutet ist dies u.a. im zivilen Bereich, bei der Speicherung von Information bedeutsam, speziell bei Datenkomprimierungsprogrammen. Man will so codieren, dass die erwartete Länge der Nachricht minimal ist. 3 Im Allgemeinen verwendet man den Ausdruck Bit als Bezeichnung für die Binärziffern 0“ und ” 1“. ” 65 66 Nachwort Ich hoffe, dass ich mit der vorliegenden Arbeit die Anwendbarkeit der Mathematik veranschaulichen konnte. Auch wenn an verschiedene Stellen längere Beweise und Rechnungen nötig waren, so habe ich die Ergebnisse stets möglichst knapp und für die Praxis anwendbar zu halten versucht. Vielleicht konnte damit etwas Licht in die Sache gebracht werden, so daß am Ende nicht nur, wie Thomas Mann sagt, Zaubergemurmel“ übrig bleibt. ” Danksagung Mein herzlicher Dank gilt allen, die zum Gelingen dieser Zulassungsarbeit beigetragen haben. Besonders möchte ich Herrn PD Dr. F. Marohn für die Vergabe des Themas und für die Betreuung der Zulassungsarbeit danken. 67 68 Anhang Auf den folgenden beiden Seiten stellen wir einige diskrete Verteilungen vor und geben ausgewählte Kennwerte an. Ziel ist es, die im Text angesprochenen Größen zu veranschaulichen. (Quelle: Literaturverzeichnis [14]) 69 Anhang 70 Literaturverzeichnis [1] V. Blobel; Statistische und numerische Methoden der Datenanalyse; B.G. Teubner Verlag, Stuttgart/ Leipzig; 1998. [2] K. Bosch; Grundzüge der Statistik ; Oldenburg Verlag GmbH, München; 1996. [3] I. N. Bronstein, K. A. Semendjajew, G. Musiol, H. Mühlig; Taschenbuch der Mathematik ; Verlag Harri Deutsch, Frankfurt; 1997. [4] A. Büchter, H.-W.Henn; Elementare Stochastik ; Springer Verlag, Berlin Heidelberg; 2005. [5] H. Dehling, B. Haupt; Einführung in die Wahrscheinlichkeitsrechnung; Springer Verlag, Berlin Heidelberg; 2003. [6] L. Dühmbgen; Stochastik für Informatiker ; Springer Verlag, Berlin Heidelberg; 2003. [7] O. Forster; Analysis I ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2001. [8] J. Hartung; Statistik ; Oldenburg Verlag, München 1993. [9] J. Hartung; Mutivariate Statistik: Lehr und Handbuch der angewandten Statistik ; Oldenburg Verlag GmbH, München; 1986. [10] N. Henze; Stochastik für Einsteiger ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003. [11] C. Hesse; Angewandte Wahrscheinlichkeitstheorie; Vieweg Verlag, Braunschweig/ Wiesbaden; 2003. [12] A. Irle; Wahrscheinlichkeitstheorie und Statistik ; Teubner Verlag, Stuttgart/ Leipzig/ Wiesbaden; 2001. 71 Literaturverzeichnis [13] A. M. Jaglom/ I. M. Jaglom; Wahrscheinlichkeit in Information; VEB Deutscher Verlag der Wissenschaften, Berlin; 1965. [14] D. Kleiter; Bayes Statistik ; de Gruyter Verlag, Berlin/ New York; 1980. [15] http://mo.mathematik.uni-stuttgart.de/inhalt/aussage/aussage32/ [16] U. Krengel; Einführung in die Wahrscheinlichkeitstheorie und Statisitk ; Friedr. und Sohn Verlag/ GWV Fachverlage GmbH, Wiesbaden; 2005. [17] J. Lehn, H. Wegmann; Einführung in die Statisitk ; B. G. Teubner Stuttgart, Leipzig; 2000. [18] B. Leiner; Einführung in die Statisitk ; Oldenburg Verlag GmbH, München; 1996. [19] T. Mann; Königliche Hoheit; G. B. Fischer und Co. Verlags- und Vertriebsgesellschaft, Berlin und Frankfurt am Main; 1960. [20] F. Marohn; Stochastik für Lehramtsstudenten; Bayrische Julius-MaximiliansUniversität Würzburg Institut für angewandte Mathematik und Statistik; 2004. [21] H. Mittelbach; Statistik ; Oldenburg Verlag GmbH, München; 1992. [22] D. Plachky; Wahrscheinlichkeitsrechnung; Oldenburg Verlag GmbH, München; 1996. [23] M. Pospeschill; Praktische Statistik ; Psychologie Verlags Union, Weinheim; 1996. [24] L. Sachs; Angewandte Statistik ; Springer Verlag, Berlin/ Heidelberg, 1984. [25] K. Brücker- Steinkuhl; Die Analyse des Zufallsgeschehens; Akademische Verlagsgesellschaft, Wiesbaden; 1980. [26] U. -P. Tietze, M. Klika, H. Wolpers; Mathematik in der Sekundarstufe II, Band 3, Didaktik der Stochastik ; Vieweg Verlag, Braunschweig/ Wiesbaden; 2002. 72