Stochastik für Studierende der Informatik von Peter Pfaffelhuber Version: 28. September 2013 Inhaltsverzeichnis 1 Grundlegendes 1.1 Häufige Modelle: Münzwurf, Würfeln, Urnen . 1.2 Kombinatorik . . . . . . . . . . . . . . . . . . . 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen 1.4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 10 2 Verteilungen und deren Eigenschaften 2.1 Grundlegendes . . . . . . . . . . . . . 2.2 Laplace-Experimente . . . . . . . . . . 2.3 Die Binomial-Verteilung . . . . . . . . 2.4 Kenngrößen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 13 13 14 . . . . . 20 20 22 23 25 26 4 Approximationssätze 4.1 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . 4.2 Der zentrale Grenzwertsatz und die Normalverteilung . . . . . . . . . . . . . 27 28 29 5 Markov-Ketten 5.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Grundlegendes zu Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Stationäre Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 33 38 6 Statistik 6.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Testprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 43 48 7 Stochastische Optimierung 7.1 Simulated Annealing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Genetische Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 58 62 . . . . . . . . . . . . . . . . . . . . 3 Weitere wichtige Verteilungen 3.1 Die hypergeometrische Verteilung . . . . . . . . . . . . . . 3.2 Die Poisson-Verteilung und das Gesetz der kleinen Zahlen 3.3 Die geometrische und die Exponentialverteilung . . . . . . 3.4 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . 3.5 Erzeugung von Zufallszahlen . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 GRUNDLEGENDES 1 3 Grundlegendes Die Stochastik beschäftigt sich mit zufälligen Ereignissen. Zunächst mag es erstaunen, dass man Regeln im Zufall finden kann. Auch wenn man nicht genau weiß, welches zufällige Ereignis passiert, kann man häufig angeben, mit welcher Wahrscheinlichkeit es passiert. Zentral ist hier der Begriff der Wahrscheinlichkeitsverteilung, die angibt, mit welchen (deterministischen) Wahrscheinlichkeiten zufällige Ereignisse passieren. Wir beschäftigen uns nicht damit, wie man diese Wahrscheinlichkeiten festlegt, sondern werden vor allem mit ihnen rechnen. Ein weiterer zentraler Begriff ist die Zufallsvariabe, die ein zufälliges Elemente einer Menge beschreibt. In diesem ersten Kapitel werden wir neben der Einführung dieser Begriffe ein paar klassische Modelle kennen lernen, etwa das Werfen von Münzen. Dies wird bei der Behandlung von konkreten (Wahrscheinlichkeits-)Verteilungen sehr hilfreich sein. 1.1 Häufige Modelle: Münzwurf, Würfeln, Urnen Bevor wir formal einführen, was Wahrscheinlichkeiten und Zufallsvariablen sind, behandeln wir häufige Beispiele. Beispiel 1.1 (Münzwurf ). Wenn man eine Münze wirft, zeigt sie bekanntlich Kopf oder Zahl. Bei einem p-Münzwurf ist die Wahrscheinlichkeit für Kopf gerade p. Damit ist die Wahrscheinlichkeit für Zahl gerade 1 − p. Bei üblichen Münzen denkt man oft an den Fall p = 1/2, weil Kopf und Zahl mit derselben Wahrscheinlichkeit oben zu liegen kommen. Denkt man jedoch, dass man eine Reißzwecke wirft, die entweder mit der spitzen Seite oben oder unten zu liegen kommt, ist klar, dass auch p 6= 1/2 sein kann. Wirft man zweimal mit derselben Münze, kann man nach der Wahrscheinlichkeit fragen, zweimal Kopf zu werfen. Dies ist p2 . Beispiel 1.2 (Würfeln). Eine bekannte Herausforderung ist es (etwa bei Mensch ärgere Dich nicht), beim Würfeln mit einem Würfel möglichst schnell eine 6 zu werfen. Dies ist ganz ähnlich wie beim (1/6)-Mürzwurf, schließlich gibt es nur zwei Möglichkeiten 6 oder nicht 6. Damit ist die Wahrscheinlichkeit, k mal keine 6 zu werfen, gerade (5/6)k . Wir berechnen noch die Wahrscheinlichkeit, mit zwei Würfeln ein Mäxchen zu werfen, also gerade die Kombination 1,2. Diese ist 2· 1 1 · . 6 6 Denn: Entweder der erste Würfel zeigt eine 1 (Wahrscheinlichkeit 1/6) und der zweite Würfel zeigt eine 2 (Wahrscheinlichkeit auch 1/6), oder andersherum (deswegen der Faktor 2). Beispiel 1.3 (Urne). In einer Urne befinden sich N Kugeln, und zwar K1 Kugeln der Farbe 1, ..., Kn Kugeln der Farbe n. (Also ist K1 + · · · + Ki = N .) Zieht man (mit verschlossenen Augen) aus der Urne, zieht man eine Kugel der Farbe i mit Wahrscheinlichkeit Ki /N . Zieht man anschließend nochmal aus der Urne (wobei die erste Kugel nicht zurückgelegt wurde), ist die Wahrscheinlichkeit nochmal eine Kugel der Farbe i zu ziehen (Ki − 1)/(N − 1). Damit ist die Wahrscheinlichkeit, dass man zwei Kugeln derselben Farbe zu ziehen, gerade n X Ki Ki − 1 i=1 N N −1 . 1.2 Kombinatorik 4 Beispiel 1.4 (Geburtstagsproblem). In einem Raum befinden sich 23 Personen. Wie groß ist die Wahrscheinlichkeit, dass es zwei Personen gibt die am selben Tag Geburtstag haben? Um diese Wahrscheinlichkeit zu berechnen, ist es hilfreich, das Gegenteil Alle Personen haben an unterschiedlichen Tagen Geburtstag zu betrachten. Wir stellen die Personen (in Gedanken) in einer Reihe auf. Die Wahrscheinlichkeit dass die zweite Person an einem anderen Tag als die erste Person Geburtstag hat ist 364/365. (Von Schaltjahren und dem 29.2. sehen wir einmal ab.) Weiter ist die Wahrscheinlichkeit, dass die dritte Person an einem anderen Tag als die Personen eins und zwei Geburtstag hat, dann 363/365. Überlegen wir das weiter, so ist die Wahrscheinlichkeit, dass alle Personen an unterschiedlichen Tagen Geburtstag haben, gerade 364 363 365 − 22 · ··· ≈ 0.493. 365 365 365 Damit ist die Wahrscheinlichkeit, dass es zwei Personen gibt, die am gleichen Tag Geburtstag haben, etwa 1 − 0.493 = 0.507. Beispiel 1.5 (Wartezeit bis zum nächsten Tor). Bei einem Fußballspiel nehmen wir an, dass in jeder Sekunde mit derselben Wahrscheinlichkeit λ/3600 ein Tor fällt (und zwar unabhängig von jeder anderen Sekunde). Hier ist λ die erwartete Zahl von Toren pro Stunde. Dann ist die Wahrscheinlichkeit, dass in t Stunden kein Tor fällt, gerade 1− λ 3600t . 3600 Zerteilt man eine Stunde in noch kleinere Zeiteinheiten, behält jedoch die mittlere Anzahl von Toren pro Stunde bei, so beträgt die Wahrscheinlichkeit, dass in t Stunden noch kein Tor gefallen ist, gerade λ nt n→∞ −λt 1− −−−→ e . n 1.2 Kombinatorik Bereits in den Beispielen 1.2 und 1.3 wird klar, dass man oftmals etwas abzählen muss, um Wahrscheinlichkeiten zu berechnen. Diese Kunst wird auch als Kombinatorik bezeichnet. Wir behandeln nun ein paar ausgewählte Fälle, eine Zusammenfassung findet man in Tabelle 6.1. Lemma 1.6 (Kombinatorik ohne Wiederholungen). Sei x = (x1 , ..., xn ) ein Vektor der Länge n, deren Einträge alle verschieden sind. 1. Es gibt n! := n · (n − 1) · · · 1 verschiedene Vektoren der Länge n die dieselben Einträge wie x haben. 2. Es gibt n·(n−1) · · · (n−k+1) verschiedene Vektoren der Länge k, die aus den Einträgen von x gewonnen werden können. n! 3. Es gibt nk := k!(n−k)! verschiedene, k-elementige Teilmengen von {x1 , ..., xn }. Beweis. 1. Stellt man einen Vektor zusammen, so hat der erste Eintrag genau n Möglichkeiten. Für jede dieser Möglichkeiten hat der zweite Eintrag dann n − 1 Möglichkeiten usw. Daraus ergibt sich die Formel. 2. folgt genau wie 1. nur dass man nach dem k-ten Eintrag abbrechen muss. 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen 5 n! verschiedene Möglichkeiten, Vektoren der Länge k 3. Geht man von 2. aus, so gibt es (n−k)! aus den Einträgen von x zu bekommen. Von diesen Vektoren enthalten jeweils k! dieselben Elemente. Will man also die Menge der k-elementigen Teilmengen zählen, so liefert jede dieser Teilmengen genau k! Vektoren, also folgt das Ergebnis. Lemma 1.7 (Kombinatorik mit Wiederholungen). Gegeben seien n verschiedene Objekte, x1 , ..., xn . 1. Sind von den n Objekten genau r verschieden, und kommt das i-te Objekt genau k1 mal n! vor, i = 1, ..., r, so gibt es genau k1 !···k verschiedene Möglichkeiten, die Objekte in eine r! Reihenfolge zu bringen. 2. Zieht man aus den n Objekten genau k-mal mit Zurücklegen, so gibt es genau nk mögliche Ausgänge, wenn man die Reihenfolge der gezogenen Objekte beachtet. 3. Zieht man aus den n Objekten genau k-mal mit Zurücklegen, so gibt es genau n+k−1 k mögliche Ausgänge, wenn man die Reihenfolge der gezogenen Objekte nicht beachtet. Beweis. 1. Könnte man alle Objekte unterscheiden, so gäbe es n! Möglichkeiten. Da man jedoch von dieser Anzahl jeweils k1 !, ..., kr ! für die möglichen Reihenfolgen der identischen Objekte zusammenfassen kann, folgt das Ergebnis. 2. ist klar. 3. Hier muss man etwas genauer nachdenken, wobei folgende Überlegung entscheidend ist: ist etwa n = 5, k = 3, so lässt sich jede gesuchte Möglichkeit durch einen Code der Art • • ∗ ∗ • ∗ ∗ darstellen. Dies bedeutet, dass vom ersten Objekt zwei Kopien gewählt wurden (deshalb ••), vom zweiten Objekt allerdings gar keines (deshalb ist zwischen den ∗’s kein •), vom dritten eines, und vom vierten und fünften wiederum keines. Dieser Code ist also eine eindeutige Zuordnung der gesuchten Anordnungen auf die Menge der Vektoren der Länge n + k − 1 mit n Einträgen • und k − 1 Einträgen ∗. (Man beachten, dass ∗ ja hier ein Trennzeichen ist, und man n − 1 Trennzeichen benötigt um n Felder zu trennen.) Die Anzahl dieser Vektoren ist gerade die gesuchte Anzahl, weil man nun die n-elementigen Teilmengen aller n + k − 1 Einträge sucht. Bemerkung 1.8 (Permutation). Wir bezeichnen jede bijektive Abbildung einer Menge S als Permutation von S. Lemma 1.6.1 besagt, dass die Menge der Bijektionen von {1, ..., n} gerade n! ist. 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen Definition 1.9 (Zufallsvariable). Sei E eine Menge. Ein zufälliges Element von E heißt (E-wertige) Zufallsvariable. Bemerkung 1.10 (Zufälligkeit). in Abbildung 1.1. 1. Eine Illustration einer Zufallsvariablen findet sich 2. In obiger Definition ist zunächst unklar, was genau zufällig bedeuten soll. Dies wird nun durch den Begriff der Verteilung der Zufallsvariable behoben. Wir unterscheiden hierbei zwei Fälle: Entweder ist E höchstens abzählbar, oder Teilmenge der reellen Zahlen. 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen ohne Wiederholung Beispiel mit Wiederholung Beispiel 6 Permutation Variation Kombination n! n! (n − k)! n k Ziehung von k Zahlen aus n Möglichen, wobei jede Zahl nur einmal vorkommen darf, mit Beachtung der Reihenfolge der Ziehung Ziehung von k Zahlen aus n Möglichen, wobei jede Zahl nur einmal vorkommen darf, ohne Beachtung der Reihenfolge der Ziehung n+k−1 k Anordnung von n Zahlen, wobei jede Zahl nur einmal vorkommen darf n! k1 ! · . . . · kr ! Anordnung von n Zahlen, die nicht alle verschieden sind nk Ziehung von k Zahlen aus n Möglichen, wobei jede Zahl beliebig oft vorkommen darf, mit Beachtung der Reihenfolge der Ziehung Ziehung von k Zahlen aus n Möglichen, wobei jede Zahl beliebig oft vorkommen darf, ohne Beachtung der Reihenfolge der Ziehung Tabelle 1.1: Kombinatorik beschäftigt sich mit dem Abzählen von Möglichkeiten. Generell unterscheidet man solche mit und ohne Wiederholungen, und mit (Permutationen und Variationen) und ohne (Kombinationen) Beachtung der Reihenfolge. 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen 7 .......................................................................................................... ........................ ................ ............. ............ .......... .......... ......... ........ ........ ...... ....................... .............. ........................... ........ ......... ...... . . ...... . . . . ...... ..... ..... . ...... . .... . ...... .. ... ... . . .. ................ ..... ... ... .. . .... . . ..... ... . . . ....... . ..... ......... ......... ................. .................................... X E Abbildung 1.1: Eine Zufallsvariable ist ein zufälliges Element einer Menge. Definition 1.11 (Verteilung einer Zufallsvariablen). Sei X eine E-wertige Zufallsvariable. 1. Angenommen, E ist höchstens abzählbar. Dann heißt X diskrete Zufallsvariable und die Funktion x 7→ P[X = x] die Verteilung von X. Hier ist P[X = x] die Wahrscheinlichkeit, dass X den Wert x annimmt. Diese Abbildung heißt auch Zähldichte. 2. Angenommen, E ⊆ R. Gilt für jedes Intervall A ⊆ R, dass Z P[X ∈ A] = f (x)dx, A so heißt f Dichte der Verteilung von X und X eine stetige Zufallsvariable. Wir schreiben dann auch P[X ∈ dx] = f (x)dx. 3. Wir bezeichnen mit P(E) die Potenzmenge von E.PSei P : A ⊆ P(E) → [0, 1]. Gilt S c P[E] = 1, P[A ] = 1 − P[A] und P[ n∈N An ] = ∞ n=1 P[An ] für paarweise disjunkte A1 , A2 , ... (falls alle Werte definiert sind), so heißt P eine WahrscheinlichkeitsVerteilung auf E. Sind P und Q Wahrscheinlichkeits-Verteilungen und ist X eine Zufallsvariable mit P[X ∈ A] = Q[A], so schreiben wir auch X ∼ Q oder X ∼P Q. Bemerkung 1.12. Offenbar definieren sowohl Zähldichten von diskreten Zufallsvariablen als auch Dichten von stetigen Zufallsvariablen Wahrscheinlichkeitsverteilungen. Beispiel 1.13 (Münzwurf ). Bei einem zweimaligen p-Münzwurf sei X = (X1 , X2 ) der zufällige, {Kopf, Zahl}-wertige Vektor, der den Ausgang des Wurfes beschreibt. Dann gilt etwa P[X = (Kopf, Kopf)] = P[X1 = Kopf, X2 = Kopf)] = p2 . Beispiel 1.14 (Wartezeit bis zum nächsten Tor). Sei X die Wartezeit bis zum nächsten Tor in Stunden wie in Beispiel 1.5. Ist A = [a, b], so gilt also nach den Rechenregeln für Wahrscheinlichkeiten Z b −λa −λb P[X ∈ A] = P[X ≥ a] − P[X ≥ b] = e −e = λe−λx dx. a 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen 8 .................................... ........................ ............ ........... ......... ......... ....... .............................................. ....... . ...... . . ........ ............. . ..... ... . ...... ........ . . . .... . ..... ...... ... ... .... ..... . ... ... ... . .... ....... . .. . . . . . .... ............................................................................................................................................... . ... . . . ... . ... .. . ... .. . . . . ..... .. . . .... . . . . . . . . . . ....... . ..... ....... .......... ..... ...... .......................................................... ..... ....... ....... ......... ......... ............ ....................................................................... X Ω E Abbildung 1.2: In der klassischen Modellierung ist eine Zufallsvariable eine Abbildung X : Ω 7→ E. Also ist f (x) := λe−λx die Dichte der Verteilung von X. Diese werden wir Exponentialverteilung zum Parameter λ nennen. Bemerkung 1.15. In der Mathematik definiert man Zufallsvariablen und Verteilungen etwas anders. Während oben der Begriff der Zufallsvariable im Vordergrund steht, führt man in mathematischen Vorlesungen zur Stochastik zunächst Wahrscheinlichkeitsverteilungen ein. Für eine Menge Ω sind dies Abbildungen P : A → [0, 1], wobei A ⊆ S P[Ω] eine σ-Algebra, also ist. Für die ein Mengensystem mit ∅ ∈ A, A ∈ A ⇒ Ac ∈ A, A1 , A2 , ... ∈ A ⇒ S∞ n=1 An ∈ AP c Abbildung P fordert man nun P[∅] = 0, P[A ] = 1 − P[A] und P[ n∈N An ] = ∞ n=1 P[An ] für paarweise disjunkte A1 , A2 , .... Hier sind nun automatisch alle Werte definiert, da A eine σ-Algebra ist. In dieser Form der Modellierung ist eine E-wertige Zufallsvariable eine Abbildung X : Ω → E; siehe auch Abbildung 1.2. Die Verteilung von X ist dann gegeben durch P[X ∈ A] = P[X −1 (A)], wobei im letzten Ausdruck X −1 (A) ∈ A gelten muss. Wir werden jedoch (wie oben) den intuitiveren Begriff der Zufallsvariable in den Vordergrund stellen. Ganz egal wie man modelliert, wichtig ist, dass auf jeden Fall die Rechenregeln aus Definition 1.11.3 gelten. Wir lernen nun noch eine wichtige Formel zum Rechnen mit Wahrscheinlichkeiten kennen. Proposition 1.16 (Einschluss- Ausschluss-Formel). Sei X eine E-wertige Zufallsvariable und A1 , ..., An ⊆ E. Dann gilt P[X ∈ A1 ∪ · · · ∪ An ] n X = P[X ∈ Ai ] − i=1 X 1≤i<j≤n P[X ∈ Ai ∩ Aj ] + · · · ± P[X ∈ A1 ∩ · · · ∩ An ]. 1.3 Wahrscheinlichkeitsräume und Zufallsvariablen 9 Beweis. Zunächst sei n = 2. Klar ist, dass P[X ∈ A2 \ (A1 ∩ A2 )] = P[X ∈ A2 ] − P[X ∈ A1 ∩ A2 ], da A1 ∩ A2 und A2 \ (A1 ∩ A2 ) disjunkt sind. Daraus folgt nun P[X ∈ A1 ∪ A2 ] = P[X ∈ A1 ] + P[X ∈ A2 \ (A1 ∩ A2 )] = P[X ∈ A1 ] + P[X ∈ A2 ] − P[X ∈ A1 ∩ A2 ]. Wir beweisen die Aussage mit Hilfe von vollständiger Induktion. Es gilt wie im Fall n = 2 P[X ∈ A1 ∪ · · · ∪ An+1 ] = P[X ∈ A1 ∪ · · · ∪ An ] + P[X ∈ An+1 ] − P[X ∈ (A1 ∩ An+1 ) ∪ · · · ∪ (An ∩ An+1 )] = n+1 X i=1 X P[X ∈ Ai ] − P[X ∈ Ai ∩ Aj ] − n X P[X ∈ Ai ∩ An+1 ] i=1 1≤i<j≤n · · · ± P[X ∈ A1 ∩ · · · ∩ An ] ± n X P[X ∈ A1 ∩ · · · ∩ Ai−1 ∩ Ai+1 ∩ · · · ∩ An+1 ] i=1 ∓ P[X ∈ A1 ∩ · · · ∩ An+1 ]. Damit ist die Aussage gezeigt. Beispiel 1.17 (Fixpunkte in Permutationen). Als Anwendung von Proposition 1.16 berechnen wir die Wahrscheinlichkeit, dass es in einer Permutation der Zahlen 1, ..., n keine Fixpunkte gibt. (Ein Fixpunkt einer Permutation σ ist ein i mit σ(i) = i.) Sei hierzu X ein rein zufälliges Element von Sn , Ai := {σ ∈ Sn : σ(i) = i} und Y := n X 1X∈Ai i=1 die Anzahl der Fixpunkte von X. Klar ist, dass P[X ∈ Ai ] = 1 (n − 1)! = , n! n weil es gerade (n − 1)! Permutationen gibt, die i als Fixpunkt haben. Analog gilt für 1 ≤ i1 < · · · < ik ≤ n (n − k)! 1 P[X ∈ Ai1 ∩ · · · ∩ Aik ] = = . n! n · · · (n − k + 1) Weiter gilt P[Y > 0] = P[X ∈ A1 ∪ · · · ∪ An ] n n = nP[X ∈ A1 ] − P[A1 ∩ A2 ] + P[X ∈ A1 ∩ A2 ∩ A3 ] − · · · 2 3 n ± P[X ∈ A1 ∩ · · · ∩ An ] n 1 1 1 = 1 − + − ··· ± . 2! 3! n! 1.4 Unabhängigkeit 10 Damit ist die Wahrscheinlichkeit, dass X keine Fixpunkte besitzt, gerade P[Y = 0] = 1 − P[Y > 0] = 1 1 1 − + ··· ∓ . 2! 3! n! Wir bemerken, dass für große n P[Y = 0] = n X (−1)k k=2 1.4 k! = n X (−1)k k=0 k! n→∞ −−−→ e−1 . Unabhängigkeit Bereits in den Beispielen 1.1, 1.2, 1.4, 1.5 haben wir Wahrscheinlichkeiten miteinander multipliziert. Etwa hatten wir gesagt, dass die Wahrscheinlichkeit beim p-Münzwurf für das zweimalige Auftreten von Kopf gerade p2 ist. Begründet haben wir dies mit der Unabhängigkeit der Münzwürfe. Um dieses Konzept einzuführen, benötigen wir zunächst die gemeinsame Verteilung von Zufallsvariablen. Definition 1.18 (Gemeinsame Verteilung). Ist X = (X1 , ..., Xn ) mit Zielbereich E1 × . . . × En , so heißt die Verteilung von X auch gemeinsame Verteilung von X1 , ..., Xn . Die Abbildung Ai 7→ P[Xi ∈ Ai ] ist die i-te Rand- oder Marginalverteilung der gemeinsamen Verteilung von X1 , ..., Xn . Gilt für alle Intervalle A1 , ..., An ⊆ R, dass Z P[X ∈ A1 × · · · × An ] = f (x1 , ..., xn )dx1 · · · dxn , A so heißt f Dichte der gemeinsamen Verteilung von X1 , ..., Xn . Wir schreiben dann auch P[X ∈ dx1 · · · dxn ] = f (x1 , ..., xn )dx1 · · · dxn . Definition 1.19 (Bildverteilung). Ist X eine E-wertige Zufallsvariable und h : E → E0, so ist Y := h(X) eine E 0 -wertige Zufallsvariable und {Y = y} = {X ∈ h−1 (y)}, also ist die Verteilung von Y gegeben durch P[Y ∈ B] = P[X ∈ h−1 (B)]. Bemerkung 1.20 (Interpretation). Auch wenn die Definition abstrakt erscheint, sind Bilder von Zufallsvariablen häufig anzutreffen. Sei etwa (X1 , ..., Xn ) das Ergebnis eines n-fachen Würfelwurfs. Dann beschreibt die Zufallsvariable Zi := h(Xi ) mit h(x) := 1x=6 , ob im iten Wurf eine 6 gefallen ist oder nicht. Weiter zählt die Zufallsvariable `(Z1 , ..., Zn ) mit `(z1 , ..., zn ) := z1 + · · · + zn die Anzahl der 6er. Eine Illustration von Bildern von Zufallsvariablen findet sich in Abbildung 6.2. 1.4 Unabhängigkeit 11 .......................................................................................................... .............................. ........................ ................ ......... ............. ............ ........ .......... ....... .......... ...... ......... ...... .................................................... ........ . . . . . . . . . . . . . . . . . . . . . . . . ........ . . ......... ...... ........ . . . ...... ....................... . . . . . . . . . ....... ..... .............. ...... . ........................... . . . . . . ........ . ..... ..... ......... ... ...... . . . ...... . . . . . . . . . . . . .... ..... ...... . ..... .... . . ...... ... ..... .................................. . . .... . . . ...... .. ............................................................. . . . . . . . ... . . . . . . . . . . . .... ........................................................... .... ........ ... .. .. .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . .............. .... . ............................... .. . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . ...... . . . . . . . . . . . ... . . . . . . . . . . . . . . . ... .. ................................................................................................. . ... . . . ..... .. . . .... . . . . . . . . . . ....... ..... .... ......... ........... ....... .......... ...... ..... ............. ............................................................................. ....... ................ ............. ......... ................ ........................ ............ ..................................................................................... ....................................................................... Y = h(X) X h−1 (B) B E E0 h Abbildung 1.3: Das Bild einer Zufallsvariablen X unter einer Abbildung h ist wieder eine Zufallsvariable, nämlich h(X). Beispiel 1.21 (p-Münzwurf ). Wir betrachten einen p-Münzwurf mit q := 1 − p. Also sei X = (X1 , ..., Xn ) eine {0, 1}n -wertige Zufallsvariable mit Pn Pn (1 − p)n− i=1 xi . Sei h(x1 , ..., xn ) = x1 + · · · + xn . Dann gilt |h−1 (k)| = nk , also P h(X) = k = P X ∈ h−1 (k) X n k n−k k n−k = p q = p q . k −1 P[X = (x1 , ..., xn )] = p (x1 ,...,xn )∈h i=1 xi (k) Definition 1.22 (Unabhängigkeit). Seien X1 , ..., Xn Zufallsvaribale. Gilt P[X1 ∈ A1 , ..., Xn ∈ An ] = P[X1 ∈ A1 ] · · · P[Xn ∈ An ] (1.1) für beliebige A1 , ..., An , so heißt (X1 , ..., Xn ) unabhängig. Gilt (1.1) nur für Paare i 6= j, d.h. P[Xi ∈ Ai , Xj ∈ Aj ] = P[Xi ∈ Ai ] · P[Xj ∈ Aj ] für beliebige Ai , Aj und i 6= j, so heißt (X1 , ..., Xn ) paarweise unabhängig. Bemerkung 1.23 (Unabhängigkeit von diskreten und stetigen Zufallsvariablen). Man überlegt sich einfach: Sind X1 , ..., Xn diskrete Zufallsvariable. Dann ist (X1 , ..., Xn ) genau dann unabhängig, wenn P[X1 = x1 , ..., Xn = xn ] = P[X1 = x1 ] · · · P[Xn = xn ] für beliebige Wahl von x1 , ..., xn . Weiter gilt: Sind X1 , ..., Xn stetige Zufallsvariablen, so dass die gemeinsame Verteilung eine Dichte f besitzt. Dann ist (X1 , ..., Xn ) genau dann unabhängig, wenn es Funktionen f1 , ..., fn gibt mit f (x1 , ..., xn ) = f1 (x1 ) · · · fn (xn ). Dabei gilt Z fi (xi ) = f (x1 , ..., xn )dx1 · · · dxi−1 dxi+1 · · · dxn . 2 VERTEILUNGEN UND DEREN EIGENSCHAFTEN 12 Beispiel 1.24. 1. Beispiele für unabhängige Zufallsvariable haben wir bereits kennen gelernt. Beispielsweise ist ein p-Münzwurf (X1 , ..., Xn ) unabhängig. 2. Wir geben nun ein Beispiel für paarweise unabhängige, aber nicht unabhängige Zufallsvariablen an. Sei hierzu (X1 , X2 ) ein 1/2-Münzwurf. Wir betrachten dann Z = (Z1 , Z2 , Z3 ) mit Z1 = X1 , Z2 = X2 , Z3 = 1X1 =X2 . Die Zufallsgröße Z3 gibt also gerade an, ob die beiden Ergebnisse der Münzwürfe identisch sind oder nicht. Es gilt P[Z3 = 1] = P[X1 = X2 = 0 oder X1 = X2 = 1] = 21 · 12 + 12 · 12 = 12 . Weiter ist P[Z1 = 1, Z3 = 1] = P[X1 = X2 = 1] = 1 4 = P[Z1 = 1] · P[Z3 = 1] und analog für das Paar (Z2 , Z3 ). Damit ist Z paarweise unabhängig. Jedoch gilt P[Z1 = 0, Z2 = 1, Z3 = 1] = 0 6= 1 8 = P[Z1 = 0] · P[Z2 = 1] · P[Z3 = 1], also ist Z nicht unabhängig. 2 2.1 Verteilungen und deren Eigenschaften Grundlegendes Einen besonderen Stellenwert haben reellwertige Zufallsvariablen und deren Verteilungen. Für diese lässt sich die Verteilungsfunktion definieren. Definition 2.1 (Verteilungsfunktion und Quantile). Sei E ⊆ R und X eine E-wertige Zufallsvariable. Dann heißt die Funktion x 7→ FX (x) := P[X ≤ x] Verteilungsfunktion von X. Sei weiter α ∈ (0, 1). Jedes qα ∈ R mit P[X < qα ] ≤ α ≤ P[X ≤ qα ] heißt α-Quantil von (der Verteilung von) X. Jedes 0.5-Quantil heißt Median von (der Verteilung von) X. Lemma 2.2 (Eigenschaften von Verteilungsfunktionen). Sei X eine (diskrete oder stetige) reellwertige Zufallsvariable. Dann gilt lim FX (x) = 1, x→∞ lim FX (x) = 0. x→−∞ Ist X eine stetige Zufallsvariable mit Dichte f (x)dx, so gilt Z x FX (x) = f (z)dz. −∞ Insbesondere ist also F 0 = f und die Verteilungsfunktion damit differenzierbar. 2.2 Laplace-Experimente 13 Beweis. Wir zeigen die ersten beiden Aussagen für P diskrete Zufallsvariable. Sei E ⊆ R der diskrete Wertebereich von X. Dann gilt schließlich z∈E P[X = z] = 1 und damit P[X ≤ P x→∞ x] = z∈E,z≤x P[X = z] −−−→ 1, da andernfalls die Gesamtsumme von P[X = z] nicht konvergiert. Die zweite Gleichung folgt analog. Die Aussage für stetige Zufallsvariable ist klar, da (−∞, x] ein Intervall ist und damit Z x P[X ≤ x] = P[X ∈ (−∞, x]] = f (z)dz −∞ gilt. 2.2 Laplace-Experimente Man stelle sich einen Würfelwurf mit einem fairen Würfel vor. Hier sind alle möglichen Ausgänge gleichwahrscheinlich. In einem solchen Fall spricht man auch von einem LaplaceExperiment. Solche Experimente führen zu uniformen Verteilungen, die wir nun kennen lernen. Definition 2.3 (Diskrete uniforme Verteilung). Sei E eine endliche Menge. Ist x 7→ P[X = x] konstant, so heißt die Verteilung von X diskrete uniforme Verteilung. In diesem Fall gilt |A| . P[X ∈ A] = |E| Definition 2.4 (Stetige uniforme Verteilung). Sei E = [a, b] ein Intervall und X eine E-wertige Zufallsvariable. Gilt für a ≤ c ≤ d ≤ b P[X ∈ (c, d)] = d−c , b−a so heißt die Verteilung von X stetige uniforme Verteilung. In diesem Fall hat X die Dichte 1 1 (x)dx b − a [a,b] und wir schreiben auch X ∼ U ([a, b]). Weiter können wir auch die Verteilungsfunktion von X berechnen. Es gilt x < a, 0, R x x−a 1 P[X ≤ x] = b−a a dz = b−a , a ≤ x < b, . 1, x ≥ b. 2.3 Die Binomial-Verteilung Denkt man an ein n-mal unabhängig wiederholt durchgeführtes Spiel, so ist es möglich, zwischen 0 und n-mal zu gewinnen. Die Anzahl der Gewinne ist eine Zufallsvariable, deren Verteilung wir nun als Binomialverteilung kennen lernen. Diese haben wir schon in Beispiel 1.21 kennen gelernt. Die Verteilungsgewichte und die Verteilungsfunktion der Binomialverteilung sind in Abbildung 2.1 dargestellt. 2.4 Kenngrößen von Zufallsvariablen 14 Definition 2.5 (Binomialverteilung). Sei E = {0, ..., n} und 0 ≤ p ≤ 1. Ist X eine E-wertige Zufallsvariable mit n k P[X = k] = p (1 − p)n−k , (2.1) k so heißt die Verteilung von X Binomialverteilung mit Parametern n und p und wir schreiben X ∼ B(n, p). P[X=k] P[X ≤ k] Bemerkung 2.6. Die B(n, p) Verteilung gibt die Anzahl der Erfolge in einem n-mal unabhängig wiederholt ausgeführten Spiel dar, wobei in jedem Spiel die Gewinnwahrscheinlichkeit gerade p beträgt. Denn: Jeder Spielausgang des wiederholten Spiels kann man mit einem {0, 1}-wertigem Vektor der Länge n beschreiben. Ist etwa n = 5, so ist (1, 1, 0, 0, 1) ein Gewinn in den ersten beiden und im letzten Spiel. Ein solcher Spielausgang hat gerade die Wahrscheinlichkeit p · p · (1 − n 3 2 p) · (1 − p) · p = p (1 − p) . Da es genau k Vektoren gibt, die aus genau k Ziffern 1 und n − k Ziffern 0 bestehen, folgt (2.1). 0 1 2 3 4 5 6 7 8 9 10 k 0 1 2 3 4 5 6 7 8 9 10 k Abbildung 2.1: Verteilungsgewichte und Verteilungsfunktion von B(10, 0.2). 2.4 Kenngrößen von Zufallsvariablen Definition 2.7 (Erwartungswert). Sei X eine E-wertige Zufallsvariable und h : E → R. 1. Ist E diskret, so heißt E[h(X)] := X h(x)P[X = x] x∈E Erwartungswert von h(X), falls die Summe konvergiert. 2. Ist X stetig mit Dichte f , so ist Z E[h(X)] := h(x)f (x)dx Erwartungswert von h(X), falls das Integral existiert. 2.4 Kenngrößen von Zufallsvariablen 15 Ist speziell E ⊆ R und h = id, so heißt X E[X] := xP[X = x], x∈E Z E[X] := xf (x)dx Erwartungswert von X, falls Summe und Integral existieren. Beispiel 2.8 (Uniforme und Binomialverteilung). 1. Sei X ∼ B(n, p). Dann ist mit q := 1 − p n n X X n k n−k n − 1 k−1 n−k E[X] = k p q = np p q k k−1 k=0 k=1 (2.2) n−1 X n − 1 k n−k = np p q = np. k k=0 2. Sei X ∼ U ([a, b]). Dann ist 1 E[X] = b−a b Z xdx = a 1 b2 − a2 1 = (a + b). 2 b−a 2 Lemma 2.9 (Transformationssatz). Sei X eine E-wertige diskrete Zufallsvariable und h : E → R. Dann gilt. Dann gilt X E[h(X)] = yP[h(X) = y] y∈h(E) falls die Summe existiert. Beweis. Es gilt nach Definition des Erwartungswertes X X E[h(X)] = h(x)P[X = x] = x∈E = X y∈h(E) y∈h(E) y X X P[X = x] = x∈h−1 (y) h(x)P[X = x] x∈h−1 (y) X yP[h(X) = y]. y∈h(E) Lemma 2.10. Sei X eine Z+ -wertige Zufallsvariable. Dann gilt E[X] = ∞ X P[X > x], x=0 E[X(X − 1)] = 2 · ∞ X x=0 falls jeweils die Summe existiert. x · P[X > x] 2.4 Kenngrößen von Zufallsvariablen 16 Beweis. Für die erste Behauptung schreiben wir E[X] = ∞ X xP[X = x] = x=0 = ∞ X ∞ X x X P[X = x] = P[X ≥ y] = y=1 P[X = x] y=1 x=y x=1 y=1 ∞ X ∞ X ∞ X P[X > y] y=0 wobei die Umordnung der Doppelsumme wegen der absoluten Konvergenz der Reihe möglich ist. Für die zweite Behauptung ist analog E[X(X − 1)] = 2 ∞ X x(x − 1) 2 x=1 =2 ∞ X ∞ X · P[X = x] = 2 ∞ X x−1 X y · P[X = x] x=1 y=0 y · P[X = x] = 2 y=0 x=y+1 ∞ X y · P[X > y]. y=0 Beispiel 2.11 (Diskrete uniforme Verteilung). Sei X uniform auf {k, ..., `} verteilt. Dann ist ` ` k−1 `+1 X X X − k2 1 1 2 E[X] = x = x− x = `−k+1 `−k+1 `−k+1 x=0 x=k = x=0 (` − k + 1)(` + k) `+k = . 2(` − k + 1) 2 Genauso können wir schreiben E[X] = ` X P[X > x] = x=0 k−1 X 1+ x=0 `−k+1 2 =k+ `−k+1 =k+ ` X x=k `−k X `−x 1 =k+ x `−k+1 `−k+1 x=0 `−k `+k = . 2 2 Proposition 2.12 (Eigenschaften des Erwartungswertes). Seien X, Y (diskrete oder stetige) Zufallsvariablen. 1. Sei a, b ∈ R. Dann gilt E[aX + bY ] = aE[X] + bE[Y ], falls alle Erwartungswerte existieren. 2. Gilt X ≤ Y , so ist E[X] ≤ E[Y ]. Beweis. Wir zeigen beide Aussagen nur im Fall von diskreten Zufallsvariablen. Es gilt X E[aX + bY ] = (ax + by)P[X = x, Y = y] x,y∈E =a X xP[X = x, Y = y] + b x,y∈E =a X x∈E P[X = x] + b X yP[X = x, Y = y] x,y∈E X y∈E yP[Y = y] = aE[X] + bE[Y ]. 2.4 Kenngrößen von Zufallsvariablen 17 Für 2. genügt es zu zeigen, dass E[X] ≥ 0 für X ≥ 0. (Dann ist nämlich E[Y ] − E[X] = E[Y − X] ≥ 0.) Wir schreiben, falls X ≥ 0 X X X E[X] = xP[X = x] = xP[X = x] ≥ 0 · P[X = x] = 0. x∈E x∈E,x≥0 x∈E,x≥0 Beispiel 2.13 (p-Münzwurf ). Ist X = (X1 , ..., Xn ) ein p-Münzwurf, so wissen wir bereits, dass Y := X1 + · · · + Xn ∼ B(n, p). Also muss auch E[Y ] = E[X1 + · · · + Xn ] = E[X1 ] + · · · + E[Xn ] = nE[X1 ] = nP[X1 = 1] = np in Übereinstimmung mit (2.2). Definition 2.14 (Varianz). Sei X entweder eine diskrete, E ⊆ R-wertige Zufallsvariable, oder eine stetige Zufallsvariable und es existiere µ := E[X]. Dann ist σ 2 := Var[X] = E[(X − µ)2 ] die Varianz von X. In beiden Fällen heißt σ := p Var[X] die Standardabweichung von X. Bemerkung 2.15. Für diskrete Zufallsvariablen ist also X Var[X] = (x − µ)2 P[X = x], x∈E für stetige mit Dichte f (x)dx gerade Z Var[X] = (x − µ)2 f (x)dx falls Summe und Integral existieren. Proposition 2.16 (Rechenregeln für die Varianz). Sei X entweder eine diskrete, E ⊆ Rwertige Zufallsvariable oder eine stetige Zufallsvariable. Dann gilt Var[X] = E[X 2 ] − E[X]2 = E[X(X − 1)] + E[X] − E[X]2 falls alle Erwartungswerte existieren. Beweis. Die zweite Gleichheit ist klar wegen der Linearität des Erwartungswertes. Sei µ := E[X]. Dann schreiben wir Var[X] = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ] = E[X 2 ] − 2µE[X] + µ2 = E[X 2 ] − µ2 . Damit ist alles gezeigt. 2.4 Kenngrößen von Zufallsvariablen 18 Beispiel 2.17 (Uniforme und Binomialverteilung). 1. Sei X ∼ B(n, p). Dann ist mit q := 1 − p n X n k n−k E[X(X − 1)] = k(k − 1) p q k k=0 n X n − 2 k−2 n−k = n(n − 1)p2 p q = n(n − 1)p2 , k−2 k=2 also Var[X] = n(n − 1)p2 + np − (np)2 = npq. 2. Sei X ∼ U ([a, b]). Dann ist Z b 1 (a + b)2 1 b3 − a3 (a + b)2 Var[X] = x2 dx − = − b−a a 4 3 b−a 4 2 2 2 2 4b + 4ab + 4a − 3b − 6ab − 3b (b − a)2 = = . 12 12 Definition 2.18 (Covarianz und Korrelationskoeffizient). Seien X, Y diskrete oder stetige Zufallsvariablen, deren Erwartungswerte µX := E[X], µY := E[Y ] sowie Varianzen 2 := Var[X], σ 2 := Var[Y ] existieren. Dann existiert auch σX Y Cov[X, Y ] := E[(X − µX )(Y − µY )] und heißt Covarianz von X und Y . Gilt Cov[X, Y ] = 0, so heißen X, Y unkorreliert. Außerdem nennen wir Cov[X, Y ] Kor[X, Y ] := σX · σY Korrelationskoeffizient von X und Y . Lemma 2.19 (Rechenregeln für Covarianzen). Seien X, Y, Z (diskrete oder stetige) reellwertige Zufallsvariable mit endlicher Varianz. Dann gilt Cov[X, Y ] = Cov[Y, X], Var[X] = Cov[X, X], Cov[X, Y ] = E[XY ] − E[X]E[Y ], Cov[X, aY + bZ] = aCov[X, Y ] + bCov[X, Z]. Beweis. Wir setzen µX := E[X], µY := E[Y ]. Die ersten beiden Gleichungen sind klar. Für die dritte Gleichung schreiben wir E[(X − µX )(Y − µY )] = E[XY ] − µX E[Y ] − µY E[X] + µX µY = E[XY ] − µX µY . Die vierte folgt aus der Definition der Covarianz und der Linearität des Erwartungswertes. Lemma 2.20 (Cauchy–Schwartz Ungleichung). Es gilt E[XY ]2 ≤ E[|XY |]2 ≤ Var[X]Var[Y ]. Insbesondere ist −1 ≤ Kor[X, Y ] ≤ 1. 2.4 Kenngrößen von Zufallsvariablen 19 Beweis. Die erste Ungleichung ist klar, da XY ≤ |XY |. Für die zweite genügt es den Fall E[X 2 ] > 0 zu betrachten. Andernfalls muss nämlich P[X = 0] = 1 gelten und dann ist nichts zu zeigen. Für jedes c ∈ R gilt 0 ≤ (−c|X| + |Y |)2 = c2 X 2 − 2c|XY | + Y 2 . Insbesondere gilt für c := E[|XY |]/E[X 2 ] 0 ≤ c2 E[X 2 ] − 2cE[|XY |] + E[Y 2 ] = E[|XY |]2 /E[X 2 ] − 2E[|XY |]2 /E[X 2 ] + E[Y 2 ] = E[Y 2 ] − E[|XY |]2 /E[X 2 ] woraus die erste Behauptung direkt folgt. Die zweite folgt dann aus der Definition des Korrelationskoeffizienten. Proposition 2.21 (Unabhängigkeit und Unkorreliertheit). Sind X, Y (diskrete oder stetige) reellwertige, unabhängige Zufallsvariable, deren Varianz existiert. Dann sind X, Y auch unkorreliert, d.h. Cov[X, Y ] = 0. Beweis. Wir zeigen die Behauptung nur für diskrete Zufallsvariable. Es gilt X X X E[XY ] = xyP[X = x, Y = y] = xP[X = x] yP[Y = y] x,y x y = E[X]E[Y ]. Proposition 2.22 (Varianz einer Summe). Seien X1 , ..., Xn (diskrete oder stetige) reellwertige Zufallsvariable mit endlichen Varianzen. Dann gilt Var n hX n i X Xi = Var[Xi ] + 2 i=1 i=1 X Cov[Xi , Xj ]. 1≤i<j≤n Ist insbesondere (X1 , ..., Xn ) paarweise unkorreliert, so gilt Var n hX i Xi = i=1 n X Var[Xi ]. i=1 Beweis. Wir verwenden Lemma 2.19 und schreiben Var n hX i Xi = Cov i=1 n hX i=1 = = n X i=1 n X i=1 Xi , n X i Xj = i=j Cov[Xi , Xi ] + n X n X Cov[Xi , Xj ] i=1 j=1 n X i−1 X Cov[Xi , Xj ] + i=1 j=1 Var[Xi ] + 2 X 1≤i<j≤n Cov[Xi , Xj ]. n X n X i=1 j=i+1 Cov[Xi , Xj ] 3 WEITERE WICHTIGE VERTEILUNGEN 20 Beispiel 2.23 (Runs in einem p-Münzwurf ). Sei X = (X1 , ..., Xn ) ein p-Münzwurf. Ein Run ist ein maximaler Block aus 0ern oder 1ern, also enthält 1100010 genau vier Runs. Sei Y die Anzahl der Runs in X. Dann gilt Y =1+ n X 1Ei mit Ei = {Xi 6= Xi−1 }. i=2 Nun gilt E[1Ei ] = P[Xi 6= Xi−1 ] = 2pq, Var[1Ei ] = E[1Ei ] − E[1Ei ]2 = 2pq − (2pq)2 = 2pq(1 − 2pq). Für 2 ≤ i ≤ n − 1 ist außerdem E[1Ei · 1Ei+1 ] = P[Xi+1 6= Xi 6= Xi−1 ] = pqp + qpq = pq. Offenbar sind 1Ei , 1Ej für |i − j| > 1 unabhängig. Damit gilt E[Y ] = 1 + 2pq(n − 1), Var[Y ] = n X Var[1Ei ] + 2 i=2 n−1 X Cov[1Ei , 1Ei+1 ] i=2 = 2pq(1 − 2pq)(n − 1) + pq(1 − 4pq)(n − 2). 3 3.1 Weitere wichtige Verteilungen Die hypergeometrische Verteilung Gegeben sei folgende Situation: In einer Urne befinden sich insgesamt g Kugeln, wovon w weiß sind. Wir ziehen n Kugeln blind und ohne Zurücklegen heraus. Sei nun X := Anzahl der weißen Kugeln in der Stichprobe. Wir fragen nun nach der Verteilung von X. Um die Wahrscheinlichkeit P[X = k] zu berechnen, stellen wir uns vor, dass die weißen Kugeln von 1 bis w und die anderen Kugeln von w + 1 bis g nummeriert sind. Insgesamt ist jede mögliche Ziehung (wenn man die Kugeln nur nach Nummern unterscheidet) gleichwahrscheinlich und es gibt genau ng mögliche Ziehungen. (Wir unterscheiden ja die Reihenfolge nicht.) Wie viele dieser Möglichkeiten führen nun gerade dazu, dass man n weiße Kugeln zieht? Hierzu muss man gerade k der wweißen und n − k der g − w andersfarbigen Kugeln ziehen. Deshalb gibt es hierfür wk g−w n−k Möglichkeiten. Weil alle Möglichkeiten gleich wahrscheinlich sind, gilt also w g−w k P[X = k] = n−k g n . Definition 3.1 (Hypergeometrische Verteilung). Sei n, g ∈ N und w ∈ Z+ mit n, w ≤ g. Eine {0, ..., n}-wertige Zufallsvariable X heißt hypergeometrisch verteilt mit n, g, w, wenn w g−w P[X = k] = k n−k g n Wir schreiben dann auch X ∼Hyp(n, g, w). , k = 0, 1, ..., n. (3.1) 3.1 Die hypergeometrische Verteilung 21 Proposition 3.2 (Erwartungswert und Varianz der hypergeometrischen Verteilung). Sei X ∼Hyp(n, g, w). Dann gilt n − 1 E[X] = np, Var[X] = npq 1 − g−1 mit p := w g ,q := 1 − p. Beweis. Wir stellen uns die oben beschriebene Urne mit den g Kugeln vor. Sei Zi := 1{i-te gezogene Kugel ist weiß} , also X= n X Zi . i=1 Klar ist, dass P[Zi = 1] = p, i = 1, ..., n und damit E[X] = n X E[Zi ] = np. i=1 Weiter gilt für i 6= j w − 1 w g−w 1 − = −p = −pq , Cov[Zi , Zj ] = P[Zi = Zj = 1] − p2 = p g−1 g g(g − 1) g−1 also nach Proposition 2.22 Var[X] = n X X Var[Zi ] + 2 i=1 Cov[Zi , Zj ] 1≤i<j≤n = npq − n(n − 1)pq n − 1 1 = npq 1 − . g−1 g−1 Bemerkung 3.3 (Alternative Berechnung). Wir können Erwartungswert und Varianz von X alternativ auch direkt berechnen. Hierzu bemerken wir zunächst, dass n X w g−w g = , k n−k w k=1 andernfalls würden die Wahrscheinlichkeiten in (3.1) nicht zu 1 addieren. Nun schreiben wir w g−w w−1 g−w g−1 n n X X w k n−k k−1 n−k n−1 E[X] = k =w = w g = n = np, g g g n n n k=0 k=1 w g−w n X E[X(X − 1)] = k(k − 1) k gn−k k=0 = w(w − 1) n X k=2 n w−2 g−w k−2 n−k g n g−2 n−2 g n = w(w − 1) = np (n−1)(w−1) , g−1 3.2 Die Poisson-Verteilung und das Gesetz der kleinen Zahlen 22 also Var[X] = E[X(X − 1)] + E[X] − E[X]2 = np (n−1)(w−1) + np − (np)2 g−1 g(g − 1) + nw − (n + w − 1)g g−n nw (n − 1)(w − 1) + = np = npq . = np 1 − g g−1 g(g − 1) g−1 Bemerkung 3.4 (Ziehen mit und ohne Zurücklegen). Eine Alternative zum Ziehen ohne Zurücklegen ist natürlich das Ziehen mit Zurücklegen. Führt man dies n-mal durch, und fragt sich bei g Kugeln in der Urne, von denen genau w weiß sind, nach der Anzahl Y der weißen Kugeln in der Stichprobe, so erhält man Y ∼ B(n, p) mit p = wg . Damit ist also E[X] = E[Y ] = np, sowie n − 1 , Var[Y ] = npq. Var[X] = npq 1 − g−1 Dies kann man etwa so interpretieren: Ist g groß, enthält die Urne also viele Kugeln, von denen etwa ein Anteil p weiß ist, und zieht man n g Kugeln ohne oder mit Zurücklegen heraus, so sind die Varianzen (und auch die Verteilungen) recht ähnlich. Beispiel 3.5 (Lotto). Die Gewinnwahrscheinlichkeiten im Lotto kann man durch die hypergeometrische Verteilung beschreiben. Hier gibt es g = 49 Kugeln, von denen w = 6 die Gewinnzahlen sind. Füllt man einen Spielzetten aus, so kreuzt man n = 6 Zahlen an. Deshalb ist z.B. die Wahrscheinlichkeit, dass gerade k = 4 Zahlen richtig sind gerade 6 43 4 2 49 6 3.2 ≈ 9.69 · 10−4 . Die Poisson-Verteilung und das Gesetz der kleinen Zahlen Wir stellen uns (wie bei der Einführung der Binomialverteilung) vor, dass ein Zufallsexperiment unabhängig n-mal hintereinander ausgeführt wird, wobei in jedem Versuch mit Wahrscheinlichkeit p ein Erfolg zu verzeichnen ist. Wir betrachten nun den Fall großer n und kleiner p. Man denke hierbei etwa daran, dass viele Leute ein Glücksspiel (z.B. Lotto) spielen, das für jede Person nur eine sehr kleine Gewinnwahrscheinlichkeit hat. Nachwievor ist natürlich die Anzahl der Gewinner X ∼ B(n, p), also in Erwartung E[X] = np. Es stellt sich nun heraus, dass man die Verteilung von X approximieren kann. Proposition 3.6 (Gesetz der kleinen Zahlen). Sei Xn verteilt nach B(n, pn ) für n = 1, 2, ..., so dass n→∞ E[Xn ] = n · pn −−−→ λ > 0. Dann gilt lim P[Xn = k] = e−λ n→∞ λk . k! Beweis. Wir schreiben direkt n k P[Xn = k] = p (1 − pn )n−k k n n(n − 1) · · · (n − k + 1) 1 npn n k = · (np ) 1 − (1 − pn )−k . n k! n nk 3.3 Die geometrische und die Exponentialverteilung n→∞ 23 n→∞ n→∞ −−−→ 1, (1 − npn /n)n −−−→ e−λ und (1 − pn )−k −−−→ 1. Für jedes k gilt nun n(n−1)···(n−k+1) nk Insgesamt ergibt sich damit die Behauptung. Definition 3.7 (Poisson-Verteilung). Sei λ ≥ 0 und X eine Z+ -wertige Zufallsvariable mit λk P[X = k] = e−λ , k! so heißt die Verteilung von X Poisson-Verteilung zum Parameter λ und wir schreiben X ∼Poi(λ). Proposition 3.8 (Erwartungswert und Varianz der Poisson-Verteilung). Sei λ ≥ 0 und X ∼Poi(λ). Dann gilt E[X] = Var[X] = λ. P λk λ Beweis. Wir schreiben, wegen ∞ k=0 k! = e E[X] = ∞ X ke−λ k=0 ∞ ∞ k=1 k=0 X λk−1 X λk λk = λe−λ = λe−λ =λ k! (k − 1)! k! und mit Proposition 2.22 folgt ebenso Var[X] = E[X(X − 1)] + E[X] − E[X]2 ∞ X λk + λ − λ2 = k(k − 1)e−λ k! k=0 = λ2 e−λ ∞ X λk−2 + λ − λ2 = λ. (k − 2)! k=2 Bemerkung 3.9 (Der Checkpot im Lotto). Um nun das Gesetz der kleinen Zahlen aus Proposition 3.6 anwenden zu können, betrachten wir das Lotto-Spiel 6 aus 49. Die Gewinnchancen für sechs Richtige sind hierbei wie in Beispiel 3.5 p := 1 = 49 6 1 ≈ 7.15 · 10−8 . 13 983 816 Geht man davon aus, dass an einer Ausspielung 107 Spiele abgegeben werden, gibt es (in Erwartung) etwa λ := 0.715 Sechser. Genauer können wir sagen, dass etwa die Anzahl X der gespielten Sechser Poisson-verteilt ist zum Parameter λ. Deshalb gilt z.B. für die Wahrscheinlichkeit, dass der Checkpot nicht geknackt wird P[X = 0] ≈ e−λ ≈ 0.49. 3.3 Die geometrische und die Exponentialverteilung Man betrachte einen (unendlichen) p-Münzwurf X1 , X2 , ... Wir wissen zwar schon, dass die Anzahl der Köpfe in den ersten n Würfen gerade B(n, p) verteilt ist, jedoch noch nicht, wie lange man auf das erste Mal Kopf warten muss. Die Verteilung dieser Wartezeit ist die geometrische Verteilung. 3.3 Die geometrische und die Exponentialverteilung 24 Definition 3.10 (Geometrische Verteilung). Sei p ∈ (0, 1) und X eine N-wertige Zufallsvariable mit P[X = k] = (1 − p)k−1 p, k = 1, 2, ..., so heißt die Verteilung von X geometrische Verteilung zum Parameter p und wir schreiben X ∼geo(p). Proposition 3.11 (Eigenschaften der geometrischen Verteilung). Sei X ∼geo(p). Dann ist P[X > k] = (1 − p)k , 1 E[X] = , p 1−p V[X] = . p2 k = 1, 2, ... Beweis. Zunächst ist P[X > k] = ∞ X x−1 (1 − p) p=p ∞ X x (1 − p) = p(1 − p) ∞ X (1 − p)x = (1 − p)k . x=0 x=k x=k+1 k Für den Erwartungswert und die Varianz verwenden wir Lemma 2.10 und schreiben E[X] = ∞ X 1 (1 − p)x = , p x=0 ∞ X E[X(X − 1)] = 2 ∞ x(1 − p)x = 2 x=0 1−pX 1−p 1−p x(1 − p)x−1 p = 2 E[X] = 2 2 , p p p x=0 Var[X] = E[X(X − 1)] + E[X] − E[X]2 = 2 1−p 1 1 1−p + − 2 = . 2 p p p p2 Ist der Erfolgsparameter p einer geometrisch verteilten Zufallsvariable klein, so muss man recht lange auf den ersten Erfolg warten. Dies lässt sich – übrigens ganz ähnlich wie in Beispiel 1.5 – zu einer Grenzwertaussage formalisieren. Lemma 3.12 (Exponentialapproximation). Sei Xn ∼geo(pn ) für n = 1, 2, .... Dann gilt für x ≥ 0 lim P[pn Xn > x] = e−x . n→∞ Beweis. Wir schreiben einfach n→∞ P[pn Xn > x] = P[Xn > x/pn ] = (1 − pn )x/pn −−−→ e−x . Definition 3.13 (Exponentialverteilung). Sei λ ≥ 0 und X eine R+ -wertige Zufallsvariable mit Dichte P[X ∈ dx] = λe−λx dx, so heißt die Verteilung von X Exponentialverteilung zum Parameter λ und wir schreiben X ∼Exp(λ). 3.4 Die Normalverteilung 25 Proposition 3.14 (Erwartungswert und Varianz der Exponentialverteilung). Für λ > 0 sei X nach Exp(λ) verteilt. Dann gilt 1 , λ 1 Var[X] = 2 . λ E[X] = Beweis. Mittels partieller Integration gilt Z ∞ Z ∞ ∞ 1 e−λx dx = , xe−λx dx = −xe−λx 0 + E[X] = λ λ 0 Z ∞ Z0 ∞ 2 ∞ 2xe−λx dx = 2 , E[X 2 ] = λ x2 e−λx dx = −x2 e−λx 0 + λ 0 0 1 2 2 Var[X] = E[X ] − E[X] = 2 . λ 3.4 Die Normalverteilung Die Normalverteilung – besonders bekannt durch die Gauss’sche Glockenkurve – spielt in statistischen Anwendungen eine große Rolle. Grund hierfür ist der zentrale Grenzwertsatz, den wir in Proposition 4.3 und Bemerkung 4.5 kennen lernen werden. Es folgt zunächst nur eine Definition. Definition 3.15. Sei µ ∈ R, σ 2 > 0 und X eine reellwertige Zufallsvariable Z mit Dichte P[X ∈ dx] = √ (x − µ)2 exp − dx, 2σ 2 2πσ 2 1 (3.2) so heißt die Verteilung von X Normalverteilung mit Parametern µ und σ 2 und wir schreiben X ∼ N (µ, σ 2 ). Bemerkung 3.16. Aus der Analysis bekannt ist Z x2 √ dx = 2π. exp − 2 √ Damit zeigt man durch Substitution z = (x − µ)/ σ 2 leicht, dass es sich bei (3.2) um eine Dichte handelt. Proposition 3.17. Sei X ∼ N (µ, σ 2 ). Dann ist X −µ √ ∼ N (0, 1) σ2 und E[X] = µ, Var[X] = σ 2 . 3.5 Erzeugung von Zufallszahlen 26 Beweis. Für die erste Aussage schreiben wir mit Z ∼ N (0, 1) Z x√σ2 +µ (y − µ)2 X − µ √ 1 exp − P √ ≤ x = P X ≤ x σ2 + µ = √ dy 2σ 2 σ2 2πσ 2 0 Z x z2 1 =√ e− 2 dz = P(Z ≤ x). 2π 0 Zunächst ist mit partieler Integration Z ∞ x2 x2 ∞ = 0, x exp − dx = exp − 2 2 −∞ −∞ Z ∞ x2 x2 exp − dx 2 −∞ Z ∞ x2 x2 ∞ √ exp − = −x exp − + dx = 2π, 2 −∞ 2 −∞ also E[Z] = 0, Var[Z] = 1. Daraus und aus der ersten Aussage folgt hX − µi √ √ + µ = σ 2 E[Z] + µ = µ, E[X] = σ 2 E √ σ2 hX − µi Var[X] = σ 2 Var √ = σ 2 Var[Z] = σ 2 . σ2 3.5 Erzeugung von Zufallszahlen Will man ein stochastischen System numerisch untersuchen bieten sich mehrere Ansätze an. Als Beispiel stelle man sich die (zufällige) Tiefe eines Baumes im Quicksort Algorithmus vor. Die Verteilung dieser Tiefe ist schwer explizit zu bestimmen, jedoch kann man den QuicksortAlgorithmus (mit zufälliger Eingabesequenz) einfach simulieren, und damit auch die Verteilung der Tiefe des Baumes. Um stochastische Systeme simulieren zu können, ist es notwendig Zufallsvariablen mit bestimmten Verteilungen mittels Zufallsgeneratoren zu ziehen. Während wir hier nicht über die Güte von Zufallsgeneratoren diskutieren wollen, stellen wir fest, dass diese meist uniform auf [0, 1] verteilte Zufallszahlen liefern. Ausgehen von diesen kann man mittels des nächsten Satzes nach beliebigen Verteilungen verteilte Zufallszahlen generieren. Eine Illustration hierzu findet sich in Abbildung 3.1. Theorem 3.18 (Simulationslemma). Sei X eine (diskrete oder stetige) reellwertige Zufallsvariable mit Verteilungsfunktion F . Wir definieren die Pseudoinverse von F für x ∈ [0, 1] durch F −1 (x) := inf{q : F (q) ≥ x}. Dann ist F −1 (U ) genauso verteilt wie X. Beweis. Wir verwenden, dass die Verteilungsfunktion F die Verteilung der Zufallsvariable X eindeutig bestimmt. Da F nicht notwendigerweise injektiv ist, muss F −1 nicht die Umkehrfunktion von F sein. Es gilt jedoch wegen der Konstruktion F −1 (q) ≤ x genau dann, wenn q ≤ F (x). Daraus folgt P[F −1 (U ) ≤ q] = P[U ≤ F (q)] = F (q). 4 APPROXIMATIONSSÄTZE 27 1 P[X<x] U 0 0 F−1(U) 1 x Abbildung 3.1: Illustration zum Simulationslemma, Theorem 3.18. Das bedeutet, dass F −1 (U ) die Verteilungsfunktion F hat, woraus die Aussage folgt. Bemerkung 3.19 (Anwendung). Angenommen, von einer Verteilung ist die Verteilungsfunktion F (und damit die Pseudoinverse F −1 ) bekannt. Wir wollen unabhängige Zufallsvariablen X1 , X2 , ... nach dieser Verteilung erzeugen. Verwenden dürfen wir hierzu jedoch nur die vom Computer bereit gestellten uniform verteilten Zufallsvariablen U1 , U2 , ... Das Simulationslemma besagt, dass in diesem Fall F −1 (U1 ), F −1 (U2 ), ... genau die gewünschte Verteilung besitzen. Bemerkung 3.20 (Alternativen). Während das Verfahren aus Theorem 3.18 allgemeingültig ist, gibt es für spezielle Verteilungen schnellere Verfahren, Zufallszahlen zu erzeugen. Wir erwähnen hier (ohne Beweis) nur eine, nämlich die Erzeugung normalverteilter Zufallszahlen. Hierzu seien U1 , U2 zwei unabhängige Zufallszahlen. Setzt man nun p X := cos(2πU1 ) −2 log(U2 ), so ist X ∼ N (0, 1). 4 Approximationssätze Wir beschäftigen uns nun mit der Verteilung der Summe unabhängiger und identisch verteilter Zufallsvariablen. Dies ist eine Situation, die in der Praxis häufig vorkommt, etwa wenn man die Anzahl der Gewinne in einem Spiel zählt. Für unabhängige, identisch verteilte Zufallsvariable X1 , X2 , ... sei nun Yn := X1 + ... + Xn . Selbst bei bekannter Verteilung der Xi ist meistens die Verteilung von Y nicht bekannt. Allerdings gilt (falls Erwartungswert bzw. Varianz von X1 existieren) n n hX i X E[Yn ] = E Xi = E[Xi ] = nE[X1 ], i=1 Var[Yn ] = Var n hX i=1 i=1 i Xi = n X (4.1) Var[Xi ] = nVar[X1 ]. i=1 Geht man also davon aus, dass die typische Schwankung der Zufallsvariable Yn in etwa ihrer √ Standardabweichung entspricht, sieht man das n-Gesetz: Yn streut ihre Werte typischerweise √ in einem Bereich der Größenordnung n. 4.1 4.1 Das schwache Gesetz der großen Zahlen 28 Das schwache Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen ist eine Konvergenzaussage für den Mittelwert von unabhängigen, identisch verteilten Zufallsgrößen. Als Beispiel betrachte man die relative HäufigP keit n1 ni=1 Xi der Köpfe in einem p-Münzwurf X1 , X2 , ... Intuitiv klar ist, dass n 1X Xi ≈ p n i=1 gelten sollte. (Die relative Häufigkeit der Köpfe entspricht also in etwa der Wahrscheinlichkeit Kopf zu werfen.) In welchem Sinne diese Konvergenz zu verstehen ist, werden wir hier zwar nicht beleuchten können, das schwache Gesetz der großen Zahlen formalisiert diese Aussage jedoch. Eine Illustration findet sich in Abbildung 4.1. Zunächst benötigen wir zwei wichtige Ungleichungen. Proposition 4.1 (Markov- und Tschebychev-Ungleichung). Sei X eine R+ -wertige Zufallsvariable. Dann gilt für alle ε > 0 die Markov-Ungleichung 1 P[X ≥ ε] ≤ E[X]. ε Existiert µ := E[X], so gilt außerdem für ε > 0 die Tschebychev-Ungleichung P[|X − µ| ≥ ε] ≤ Var[X] . ε2 Beweis. Zum Beweis der Markov-Ungleichung bemerken wir X ≥ ε · 1X≥ε . Damit ist wegen der Monotonie des Erwartungswertes ε · P[X ≥ ε] = E[ε · 1X≥ε ] ≤ E[X]. Die Tschebychev-Ungleichung folgt nun aus der Markov-Ungleichung, wenn man die Zufallsvariable (X − µ)2 betrachtet. Theorem 4.2 (Schwaches Gesetz großer Zahlen). Seien X1 , X2 , ... reellwertige, unabhängige, identisch verteilte Zufallsvariable mit endlichem Erwartungswert E[X1 ] = µ und endlicher Varianz. Dann gilt für alle ε > 0 h X + · · · + X i 1 n lim P − µ ≥ ε = 0. n→∞ n Beweis. Der Beweis erfolgt mittels der Chebyshev-Ungleichung und (4.1), denn h h X + · · · + X i Var n1 (X1 + · · · + Xn )] Var[X1 ] n→∞ 1 n P − µ ≥ ε ≤ = −−−→ 0. n ε2 nε 4.2 Der zentrale Grenzwertsatz und die Normalverteilung 29 Sn/n 1 p 0 1000 10000 Abbildung 4.1: Illustration zum Gesetz der großen Zahlen, Theorem 4.2. 4.2 Der zentrale Grenzwertsatz und die Normalverteilung Während das Gesetz der großen Zahlen eine Aussage über die Konvergenz des Mittelwertes von unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , ... gegen deren Erwartungswert trifft, beschäftigt sich der zentrale Grenzwertsatz mit den Schwankungen in dieser Konvergenz. Da Var[ n1 (X1 + · · · + Xn )] = VarX1 /n, eine typische Schwankung also von der √ Größenordnung 1/ n ist, werden wir hier 1 Pn i=1 Xi − E[Xi ] n p nVar[X1 ] betrachten. Obwohl es möglich ist, ein allgemeines Resultat zu beweisen, beschränken wir uns auf den Fall von B(1, p)-verteilten Zufallsgrößen X1 , X2 , ... und bemerken, dass X1 + · · · + Xn ∼ B(n, p). Ohne Beweis werden wir außerdem die Stirling Formel zur Approximation von Fakultäten, n n √ n! ≈ 2πn e verwenden. Hierbei bedeutet ≈, dass n! √ n n 2πn e n→∞ −−−→ 1. Eine Illustration des Satzes findet sich in Abbildung 4.2. Proposition 4.3 (Satz von deMoivre-Laplace). Sei Z eine N (0, 1) verteilte Zufallsvarian→∞ ble und X1 , X2 , ... eine Folge binomialverteilter Zufallsvariable mit Var[Xn ] −−−→ ∞. Dann ist für −∞ ≤ c < d ≤ ∞ h i Xn − E[Xn ] n→∞ P c≤ p ≤ d −−−→ P[c ≤ Z ≤ d]. Var[Xn ] Der zentrale Grenzwertsatz und die Normalverteilung 30 P[ Xn−E[Xn 1 ≤ x+ ], P[Z ≤ x] 2 Var[Xn] 4.2 x Abbildung 4.2: Illustration zum Satz von deMoivre-Laplace, Proposition 4.3. Gezeigt sind jeweils die Verteilungsfunktionen von N (0, 1) (die glatte Kurve) und eine Transformation von B(100, 0.5). Beweisskizze. Mit der Stirling-Formel und η(t) = t ln pt + (1 − t) ln 1−t q ist r np k nq n−k n k n−k n P[X = k] = p q ≈ k 2πk(n − k) k n−k k 1 =q exp − nη n 2πn k n−k n n 1 k − np 2 1 ≈q exp − , √ 2 npq 2πn nk n−k n 1 da η(p) = η 0 (p) = 0, η 00 (p) = pq mit einer Taylor-Entwicklung von η um p. Damit gilt für 2 √ 2n µn = npn , σn = npn qn und zx,n = x−µ σn X Xn − E[Xn ] ≤d = P[Xn = k] P c≤ p Var[Xn ] k:c≤zk,n ≤d Z d z2 X z2 1 1 k,n p ≈ exp − ≈√ e− 2 dz, 2 2π c 2πσn2 k:c≤z ≤d k,n wobei wir die letzte Summe als Riemannsumme interpretiert haben. Bemerkung 4.4 (Anwendung). Sei X eine B(n, p) verteilte Zufallsgröße mit n groß, npq groß, sowie c, d ∈ Z. Dann gilt d z2 X 1 k,n √ exp − (z 1 − z 1 ) k− 2 ,n k+ 2 ,n 2 2π k=c Z zd+1/2,n z2 d + 1 − np c − 1 − np 1 ≈√ exp − dz = Φ −Φ . √2 √2 2 npq npq 2π zc−1/2,n P(c ≤ X ≤ d) ≈ Man beachte hierbei jeweils die Verschiebung um 12 in der Binomualverteilung. Mit ihr erreicht man eine bessere Approximationsgüte. Diese Korrektur wurde etwa auch in Abbildung 4.2 angewandt. 5 MARKOV-KETTEN 31 Bemerkung 4.5 (Zentraler Grenzwertsatz). Allgemeiner als der Satz von deMoivreLaplace gilt auch der Zentraler Grenzwertsatz: Seien X1 , X2 , ... reellwertige, unabhängige, identisch verteilte Zufallsvariablen mit endlichem Erwartungswert E[X1 ] = µ und Varianz Var[X1 ] = σ 2 . Dann gilt für Yn∗ := X1 + · · · + Xn − nµ √ σ n und alle −∞ ≤ c < d ≤ ∞ lim P[c ≤ Yn∗ ≤ d] = P[c ≤ Z ≤ d], n→∞ wobei Z eine nach N (0, 1) verteilte Zufallsvariable ist. 5 Markov-Ketten Wir betreten nun den Bereich der stochastischen Prozesse. Ein stochastischer Prozess ist hierbei eine Familie (Xt )t∈I von Zufallsvariablen mit Indexmenge I ⊆ R. Wir werden im Folgenden die Index-Menge I = Z+ betrachten. Markov-Ketten zeichnen sich dadurch aus, dass Xt+1 nur von Xt abhängt (und nicht von den Zufallsvariablen X0 , ..., Xt−1 ). Diese Abhängigkeit wird durch bedingte Wahrscheinlichkeiten beschrieben. 5.1 Bedingte Wahrscheinlichkeiten Definition 5.1 (Bedingte Wahrscheinlichkeit). Seien X1 und X2 reellwertige Zufallsvariable mit Zielbereichen E1 und E2 . 1. Die bedingte Wahrscheinlichkeit von {X2 ∈ A2 }, gegeben {X1 ∈ A1 }, ist durch P[X2 ∈ A2 |X1 ∈ A1 ] := P[X1 ∈ A1 , X2 ∈ A2 ] P[X1 ∈ A1 ] gegeben. Ist P[X1 ∈ A1 ] = 0, so definieren wir die rechte Seite als 0. 2. Die Abbildung A2 7→ P[X2 ∈ A2 |X1 ∈ A1 ] heißt die bedingte Verteilung von X2 , gegeben {X1 ∈ A1 }. 3. Ist X1 diskret, so ist die bedingte Verteilung von X2 gegeben X1 die Abbildung ( E1 → [0; 1] P[X2 ∈ A2 |X1 ] : a1 7→ P[X2 ∈ A2 |X1 = a1 ]. Lemma 5.2 (Einfache Eigenschaften bedingter Wahrscheinlichkeiten). Seien X1 und X2 Zufallsvariable mit Zielbereichen E1 und E2 und A1 ⊆ E1 , A2 ⊆ E2 . 1. Es gilt P[X2 ∈ A2 |X1 ∈ A1 ] = X a2 ∈A2 P[X2 = a2 |X1 ∈ A1 ]. 5.1 Bedingte Wahrscheinlichkeiten 32 2. Die Zufallsvariablen X1 und X2 sind genau dann unabhängig, wenn P[X2 ∈ A2 |X1 ∈ A1 ] = P[X2 ∈ A2 ] für alle A1 , A2 gilt. Ist X1 diskret, so ist dies genau dann der Fall, wenn P[X2 ∈ A2 |X1 ] = P[X2 ∈ A2 ] für alle A2 gilt. Beweis. Beide Eigenschaften folgen aus der Definition der bedingten Wahrscheinlichkeit. Beispiel 5.3 (Gedächtnislosigkeit der geometrischen Verteilung). Sei X ∼ geo(p). Dann gilt P[X > i + j|X > i] = P[X > j]. Dies interpretiert man so: Man führt unabhängige Experimente mit Erfolgswahrscheinlichkeit p hintereinander durch. Wenn i Versuche erfolglos verliefen, ist die Wahrscheinlichkeit für mindestend weitere j erfolglose Versuche genauso groß wie am Anfang. Denn: Mit q = 1 − p schreiben wir P[X > i + j, X > i] q i+j = i = qj P[X > i] q = P[X > j]. P[X > i + j|X > i] = Eine analoge Aussage gilt übrigens auch für Exponentialverteilungen. Theorem 5.4 (Formel für die totalen Wahrscheinlichkeit und Bayes’sche Formel). Seien X1 , X2 diskrete Zufallsvariable mit Zielbereichen E1 und E2 . Dann gilt die Formel von der totalen Wahrscheinlichkeit X P[X2 ∈ A2 ] = P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ]. a1 für A2 ⊆ E2 . Weiter gilt die Bayes’sche Formel für A1 ⊆ E1 mit P[X1 ∈ A1 ] > 0 P[X2 ∈ A2 |X1 ∈ A1 ] · P[X1 ∈ A1 ] P[X1 ∈ A1 |X2 ∈ A2 ] = P . a1 P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ] Beweis. Die Formel von der totalen Wahrscheinlichkeit ergibt sich durch Einsetzen der Definition von P[X2 ∈ A2 |X1 = a1 ] in X P[X2 ∈ A2 ] = P[X2 ∈ A2 , X1 = a1 ]. a1 In der Bayes’schen Formel ist der Zähler der rechten Seite gleich P[X1 ∈ A1 , X2 ∈ A2 ] nach der Definition der bedingten Wahrscheinlichkeit, und der Nenner ist X X P[X2 ∈ A2 |X1 = a1 ] · P[X1 = a1 ] = P[X2 ∈ A2 , X1 = a1 ] = P[X2 ∈ A2 ]. a1 a1 5.2 Grundlegendes zu Markov-Ketten 33 ... ...... ........... ...... ...... ...... ...... ...... ...... . . . . . ...... . ...... ...... ...... ...... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... .... . . ...... . . . ...... .... . . . . . ...... ...... . . . . . ...... . .... ......... . . ...... ............ . . . ...... ...... ...... .... . . . . . . . . . . . . . . ...... ...... .... .... . . . . ...... . . . . . . . . . ...... . . ...... ...... ...... ...... ...... ...... ...... ...... . . . . ...... . . . . . . ...... ...... .... .... . . . . . . . . . . . . . ...... ...... .... .... . . . . ...... . . . . . . . . . ...... ...... .... .... . . . . . . . . . . . . . ...... ..... ..... ..... krank nicht krank 0.008 0.9 0.992 0.1 positiv 0.07 negativ krank positiv krank negativ positiv nicht krank positiv 0.93 negativ nicht krank negativ 0.008 · 0.9 0.008 · 0.1 0.992 · 0.07 0.992 · 0.93 Abbildung 5.1: Ein Wahrscheinlichkeitsbaum für das Beispiel 5.5. Beispiel 5.5 (Reihenuntersuchungen). In einer Reihenuntersuchung werden Personen auf eine bestimmte Krankheit getestet. Dabei kann es fälschlicherweise vorkommen, dass gesunde Personen durch den Test als krank eingestuft werden, oder dass kranke Personen nicht als solche erkannt werden. In einer Population sind insgesamt 0.8% der Personen erkrankt. Eine kranke Person wird in 90% der Fälle positiv getestet (der Test fällt also positiv aus), eine gesunde Person mit 7%. Wie groß ist die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich krank ist? Um dies zu beantworten, setzen wir X = 1 wenn die Person erkrankt ist (sonst X = 0) und Y = 1 wenn die Person positiv getestet wird (sonst Y = 0). Die genannten Angaben übersetzen wir zu P[X = 1] = 0.008, P[Y = 1|X = 1] = 0.9, P[Y = 1|X = 0] = 0.07. Mit der Formel von Bayes ergibt sich für die Wahrscheinlichkeit, dass eine positiv getestete Person wirklich erkrankt ist P[Y = 1|X = 1] · P[X = 1] P[Y = 1|X = 1] · P[X = 1] + P[Y = 1|X = 0] · P[X = 0] 0.9 · 0.008 = ≈ 0.0939 0.9 · 0.008 + 0.07 · 0.992 P[X = 1|Y = 1] = Ein positiver Test ist also nicht unbedingt ein sicheres Zeichen dafür, ob eine Person erkrankt ist. Bemerkung 5.6 (Wahrscheinlichkeitsbäume). Bedingte Wahrscheinlichkeiten kann man durch Wahrscheinlichkeitsbäume darstellen. Siehe Abbildung 5.1. 5.2 Grundlegendes zu Markov-Ketten Eine besondere Form der Abhängigkeit von Zufallsvariablen tritt in Markov-Ketten zu Tage. Hier werden der Reihe nach Zufallsvariablen X0 , X1 , . . . realisiert, und zwar so, dass Xt+1 nur von Xt abhängt. Man sagt auch, Xt+1 ist unabhängig von X1 , . . . , Xt−1 , wenn Xt bekannt ist. Diese Form der Abhängigkeit wird häufig zur stochastischen Modellierung verwendet. 5.2 Grundlegendes zu Markov-Ketten 34 Beispielsweise könnte X0 , X1 , . . . der Preis einer Aktie an Tagen 0, 1, . . . sein. Die MarkovEigenschaft besagt in diesem Fall, dass die Verteilung der Kursänderungen am Tag t + 1 nur davon abhängt, wie der Kurs Xt am Tag t war. Wir beginnen mit der Definition von Markov-Ketten. Wir werden vor allem den Fall von homogenen Markov-Ketten behandeln. Bei solchen gibt es eine sich zeitlich nicht ändernde stochastische Übergangsvorschrift, wie die Verteilung des Zustandes Xt+1 ist, wenn der Zustand Xt der Kette zur Zeit t bekannt ist. Diese Vorschrift wird mit Hilfe einer Matrix zusammengefasst, der Übergangsmatrix. Definition 5.7 (Stochastischer Prozess und Markov-Ketten). 1. Seien I und E Mengen. Ein (E-wertiger) stochastischer Prozess (mit Indexmenge I) ist eine Familie von Zufallsvariablen X = (Xt )t∈I mit Wertebereich E. Die Menge E heißt auch Zustandsraum von X und I seine Indexmenge. 2. Sei I = {0, 1, 2, . . . }, E abzählbar und X = (Xt )t∈I ein E-wertiger stochastischer Prozess. Falls P[Xt+1 = i | X0 , . . . , Xt ] = P[Xt+1 = i | Xt ] (5.1) für alle i ∈ E, so heißt X eine Markov-Kette. Sie heißt endlich, falls E endlich ist. 3. Sei X = (Xt )t∈I eine E-wertige Markov-Kette. Existiert eine Matrix P = (Pij )i,j∈E mit Pij := P[Xt+1 = j | Xt = i] (unabhängig von t), so heißt X zeitlich homogen und P heißt Übergangsmatrix von X . Bemerkung 5.8 (Interpretation). 1. Die Eigenschaft (5.1) bedeutet in Worten: die zukünftige Entwicklung von X nach t hängt von X1 , . . . , Xt nur durch den aktuellen Zustand Xt ab. 2. Sei P die Übergangsmatrix einer homogenen Markov-Kette X mit Zustandsraum E. Dann gilt 0 ≤ Pij ≤ 1, i, j ∈ E, X (5.2) Pij = 1, i ∈ E. j∈E Die erste Eigenschaft ist klar, da die Einträge in P Wahrscheinlichkeiten sind. Außerdem ist X X 1 = P[Xt+1 ∈ E | Xt = i] = P[Xt+1 = j | Xt = i] = Pij . j∈E j∈E Matrizen P mit den Eigenschaften (5.2) heißen stochastische Matrizen. 3. Sei X eine homogene Markov-Kette mit Übergangsmatrix P . Definiere einen gewichteten, gerichteten Graphen (E, K, W ) wie folgt: die Menge der Knoten ist E, die Menge der (gerichteten) Kanten ist K := {(i, j) : Pij > 0}. Das Gewicht der Kante (ij) ist w(ij) := Pij und W = (w(ij) )(ij)∈K . Der Graph (E, K, W ) heißt Übergangsgraph von X . 5.2 Grundlegendes zu Markov-Ketten 35 Beispiel 5.9 (Irrfahrt im Dreieck). Betrachte eine homogene Markov-Kette X mit Zustandsraum {1, 2, 3} und Übergangsmatrix 0 p q P = q 0 p (5.3) p q 0 für p ∈ (0, 1) und q := 1 − p. Die Kette X veranschaulicht man sich am besten anhand des Übergangsgraphen; siehe Abbildung 5.2. In jedem Zustand 1, 2, 3 ist die Wahrscheinlichkeit, im Uhrzeigersinn zu wandern p, und die Wahrscheinlichkeit gegen den Uhrzeigersinn zu gehen ist q. 2 p p q q 1 q 3 p Abbildung 5.2: Übergangsgraph der Markov-Kette aus Beispiel 5.9. Beispiel 5.10 (Ruinproblem). Betrachte folgendes Ruinproblem: zwei Spieler spielen gegeneinander. Spieler 1 startet mit n Euro, Spieler 2 mit N − n Euro. Bei jedem Spiel gewinnt Spieler 1 mit Wahrscheinlichkeit p einen Euro, mit Wahrscheinlichkeit q = 1 − p verliert er einen Euro. Das Spiel endet, wenn einer der beiden pleite ist. Sei Xt das Vermögen von Spieler 1 nach dem t-ten Spiel. In dieser Situation ist X = (Xt )t=0,1,2,... eine endliche, homogene Markov-Kette mit Zustandsraum {0, . . . , N } und Übergangsmatrix 1 0 q 0 p q 0 p P = . . . . . . . . . . q 0 p 0 1 Der Übergangsgraph ist in Abbildung 5.3 dargestellt. Klar ist, dass nach langer Zeit entweder t→∞ t→∞ Spieler 1 oder Spieler 2 gewonnen hat, dass also Xt −−−→ 0 oder Xt −−−→ N . Die Frage ist nur: Mit welcher Wahrscheinlichkeit gewinnt Spieler 1? 5.2 Grundlegendes zu Markov-Ketten 1 36 p p q N−1 2 1 0 1 N q Abbildung 5.3: Übergangsgraph der Markov-Kette aus Beispiel 5.10. Wir bezeichnen mit t→∞ pn := P[Xt −−−→ N | X0 = n] die Wahrscheinlichkeit, dass Spieler 1 gewinnt. Wir werden zeigen, dass n , p = q = 12 , N pn = 1 − (q/p)n , sonst. 1 − (q/p)N (5.4) Zunächst gilt für n = 1, . . . , N − 1 t→∞ t→∞ pn = q · P[Xt −−−→ N | X0 = n, X1 = n − 1] + p · P[Xt −−−→ N | X0 = n, X1 = n + 1] t→∞ t→∞ = q · P[Xt −−−→ N | X0 = n − 1] + p · P[Xt −−−→ N | X0 = n + 1] = q · pn−1 + p · pn+1 , also mit ∆pn := pn − pn−1 q∆pn = p∆pn+1 . Im Fall p = q = 1 2 folgt mit PN m=1 ∆pm = pN − p0 = 1 daraus bereits Pn pn = Pm=1 N ∆pm m=1 ∆pm Im Fall p 6= q setzen wir u := q p = n∆p1 n = . N ∆p1 N und berechnen iterativ ∆pn = u∆pn−1 = u2 ∆pn−2 · · · = un−1 ∆p1 = un−1 p1 . Weiter ist 1= N X ∆pm = p1 m=1 N −1 X m=0 um = p1 1 − uN . 1−u Also pn = n X ∆pm = p1 m=1 und die Behauptung ist gezeigt. n X m=1 um−1 = 1 − u 1 − un 1 − un = 1 − uN 1 − u 1 − uN 5.2 Grundlegendes zu Markov-Ketten 37 Beispiel 5.11 (Ehrenfest’sche Urne). Betrachte folgendes Urnenmodell: In einer Urne gibt es zwei durch eine Trennwand getrennte Kammern. Insgesamt liegen n Kugeln in den beiden Kammern. Wir ziehen eine Kugel rein zufällig aus der Urne und legen sie anschließend in die andere Kammer zurück. In Abbildung 5.4 findet sich eine Illustration. Wir betrachten den {0, . . . , n}-wertigen stochastischen Prozess X = (Xt )t=0,1,2,... , wobei Xt die Anzahl der Kugeln in der linken Kammer nach dem t-Schritt darstellt. Dann ist X eine homogene Markov-Kette, denn der Ausgang des Schrittes t + 1 hängt nur von Xt ab. Die Übergansmatrix von X ist gegeben durch i j = i − 1, n, n−i Pij = (5.5) n , j = i + 1, 0, sonst. ● ● ● ● ● ● ● ● ● ● Abbildung 5.4: Die Ehrenfest’sche Urne mit n = 10 Kugeln aus Beispiel 5.11. Im nächsten 4 Schritt wird mit Wahrscheinlichkeit 10 eine Kugel von der linken Kammer in die rechte und 6 mit Wahrscheinlichkeit 10 von der rechten in die linke Kammer gelegt. Wir kommen nun zu einem wichtigen Zusammenhang zwischen der Verteilung einer MarkovKetten zum Zeitpunkt t und Potenzen der Übergangsmatrix. Theorem 5.12. Sei X = (Xt )t=0,1,2,... eine homogene Markov-Kette mit Übergangsmatrix P und µ(t) = (µ(t) (i))i∈E , µ(t) (i) = P[Xt = i] für t = 0, 1, 2, . . . Dann gilt µ(t) = µ(0) P t , (5.6) für t = 0, 1, 2, . . . , wobei die rechte Seite als Multiplikation des Zeilenvektors µ(0) und der Matrix P t = |P ·{z · · P} zu verstehen ist. t mal Beweis. Der Beweis geht mittels Induktion über t. Für t = 0 ist die Aussage klar. Ist (5.6) für t gezeigt, so gilt X µ(t+1) (j) = P[Xt+1 = j] = P[Xt+1 = j | Xt = i] · P[Xt = i] i∈E = X i∈E (t) µ (i) · Pij = X i∈E (µ(0) P t )i · Pij = (µ(0) P t+1 )j . 5.3 Stationäre Verteilungen 38 Beispiel 5.13 (Irrfahrt im Dreieck). Betrachte die Markov-Kette X aus Beispiel 5.9 und Übergangsmatrix P aus (5.3). Sei X0 = 1, die Markov-Kette startet also in 1, d.h. µ(0) = (1, 0, 0). Weiter berechnen wir 0 p q 2pq q2 p2 P 2 = p2 2pq q2 q2 p2 2pq P = q 0 p, p q 0 und damit µ(2) = (2pq, q 2 , p2 ). Also ist etwa P[X2 = 1] = 2pq. Dies ist klar, weil X2 = 1 genau dann, wenn die ersten beiden Schritte im Übergangsgraphen aus Abbildung 5.2 einmal mit und einmal entgegen dem Uhrzeigersinn gingen. Es ist X2 = 3 genau dann, wenn zwei Schritte im Uhrzeigersinn realisiert wurden, was Wahrscheinlichkeit p2 hat. 5.3 Stationäre Verteilungen Wir beginnen nun, uns für Markov-Ketten zu interessieren, die schon lange gelaufen sind, also für Xt mit großem t. Solche Markov-Ketten können (mehr dazu im nächsten Abschnitt) so beschaffen sein, dass sich die Verteilung nicht mehr viel ändert. Verteilungen auf dem Zustandsraum E, die invariant sind gegenüber Schritten der Markov-Kette heißen stationär. Definition 5.14 (Stationäre Verteilung). Sei X eine homogene Markov-Kette mit Übergangsmatrix P und π eine Verteilung auf E, gegeben durch einen Vektor π = (πi )i∈E . 1. Gilt πP = π, so heißt π stationäre Verteilung von X . 2. Gilt πi Pij = πj Pji für alle i, j, so heißt π reversible Verteilung. Bemerkung 5.15 (Interpretation von reversiblen Verteilungen). Sei π reversibel, P[Xt = i] = πi und it , . . . , it+s ∈ E. Dann gilt P[Xt = it , . . . , Xt+s = it+s ] = πit Pit ,it+1 · · · Pit+s−1 ,it+s = πit+1 Pit+1 ,it+2 · · · Pit+s−1 ,it+s · Pit+1 ,it = · · · = πit+s Pit+s ,it+s−1 · · · Pit+1 ,it = P[Xt = it+s , . . . , Xt+s = it ]. Das bedeutet, dass die Wahrscheinlichkeit, die Zustände it , . . . , it+s zu durchlaufen, dieselbe ist wie die, die Zustände in umgekehrter Reihenfolge (reversibel) zu durchlaufen. Lemma 5.16 (Einfache Eigenschaften stationärer Verteilungen). Sei X = (Xt )t∈I eine E-wertige Markov-Kette mit Übergangsmatrix P und π eine Verteilung auf E. 5.3 Stationäre Verteilungen 39 1. Sei π stationär und P[Xt = i] = πi . Dann gilt, dass P[Xt+1 = j] = P[Xt = j]. Das bedeutet, dass Xt und Xt+1 (und damit auch Xt+2 , Xt+3 , . . . ) identisch verteilt sind. 2. Ist π reversibel, dann ist π auch stationär. Beweis. 1. Wir verwenden Theorem 6.9 und schreiben X X P[Xt+1 = j] = P[Xt = i] · P[Xt+1 = j | Xt = i] = πi Pij = (πP )j = πj i∈E i∈E = P[Xt = j]. 2. Ist π reversibel, so gilt (πP )j = X πi Pij = i∈E X πj Pji = πj , i∈E da P Zeilensumme 1 hat. Beispiel 5.17 (Irrfahrt im Dreieck). Betrachte die Irrfahrt auf dem Dreieck X aus Beispiel 5.9 mit Übergangsmatrix P aus (5.3). Für π = 13 , 13 , 13 ist πP = 1 1 1 3, 3, 3 0 p q q 0 p = π. p q 0 Damit ist die Gleichverteilung auf {1, 2, 3} stationäre Verteilung von X . Allerdings ist π nicht reversibel (außer für p = 12 ), denn es gilt etwa π1 P12 = 13 p 6= 13 q = π2 P21 . Letztere Beobachtung ist nicht erstaunlich: Sei etwa p > 12 . Dann erwarten wir, dass X das Dreieck öfter im Uhrzeigersinn durchläuft als umgekehrt. Wäre nun π reversibel, würde daraus folgen (siehe Bemerkung 5.15) , dass die Wahrscheinlichkeit für einen Durchlauf des Dreiecks gegen und im Uhrzeigersinn dieselbe ist. Beispiel 5.18 (Ruinproblem). Im Ruinproblem aus Beispiel 5.10 gibt es zwar stationäre Verteilungen, diese sind jedoch nicht sonderlich interessant. Jede Verteilung π = (p0 , 0, . . . , 0, q 0 ) mit p0 ∈ (0, 1) und q 0 = 1 − p0 ist stationäre (aber nicht reversible) Verteilung, wie man leicht nachrechnet. Insbesondere sind (1, 0, . . . , 0) und (0, . . . , 0, 1) stationär. Das bedeutet, dass die Zustände Xt = 0 und Xt = n von der Markov-Kette nicht mehr verlassen werden. Man sagt auch, 0 und n sind Fallen für X . Beispiel 5.19 (Ehrenfest’sche Urne). Sei X = (Xt )t=0,1,2,... die Anzahl der Kugeln in der linken Kammer einer Ehrenfest’schen Urne, wie in Beispiel 5.11. Hier ist die Binomialverteilung π = B(n, 12 ) reversible Verteilung für X . Es gilt nämlich mit (5.5) für i = 1, . . . , n n 1 i n 1 n−i+1 πi Pi,i−1 = = = πi−1 Pi−1,i . n i 2 n i − 1 2n n 5.3 Stationäre Verteilungen 40 Die Tatsache, dass B(n, p) stationär ist, interpretiert man am besten so: nach langer Zeit ist jede der Kugeln oft von der linken in die rechte Kammer und umgelegt worden, so dass jede Kugel mit Wahrscheinlichkeit 21 jeweils in der linken und rechten Kammer liegt. Diese Verteilung ändert sich nicht mehr, weil in jedem Schritt nur eine der n Kugeln nochmals in die andere Kammer gelegt wird. Wir geben nun noch – ohne Beweis – den wichtigen Markov-Ketten-Konvergenzsatz an. Dieser stellt Bedingungen auf, wann eine Markov-Kette eine eindeutige stationäre Vertreilung besitzt. t→∞ Konvergenz der Markov-Kette X = (Xt )t∈I bedeutet dabei, dass P[Xt = i] −−−→ π(i) für diese stationäre Verteilung π gilt, unabhängig von der Verteilung von X0 . Um den Satz zu formulieren, benötigen wir noch eine Definition. Definition 5.20 (Irreduzibilität, Aperiodizität). Sei X eine E-wertige homogene MarkovKette. 1. Der Zustand i ∈ E kommuniziert mit j ∈ E, falls es ein t gibt mit P[Xt = j | X0 = i] > 0. In diesem Fall schreiben wir i → j. Falls i → j und j → i, schreiben wir i ↔ j. 2. Falls i ↔ j für alle i, j ∈ E, so heißt X irreduzibel. Andernfalls heißt X reduzibel. 3. Ein Zustand i ∈ E heißt aperiodisch, falls d(i) := ggT{t : P[Xt = i | X0 = i] > 0} = 1. Andernfalls heißt i periodisch mit Periode d(i). 4. Falls alle i ∈ E aperiodisch sind, so heißt X aperiodisch. Bemerkung 5.21 (Irreduzibilität, Aperiodizität und die Übergangsmatrix). 1. Die Begriffe der Irreduzibilität und Aperiodizität lassen sich auch mittels der Übergangsmatrix P der Markov-Kette X erklären. Es gilt etwa i → j genau dann, wenn es ein t gibt mit (P t )ij > 0. Außerdem ist d(i) = ggT{t : Piit > 0}. 2. Es gibt einen einfachen Zusammenhang zwischen dem Begriff der kommunizierenden Zustände und dem Übergangsgraphen: ein Zustand i kommuniziert mit einem Zustand j, wenn man einen Pfad i → j im Übergangsgraphen der Markov-Kette findet. Das bedeutet, dass es eine endliche Folge (i, i1 ), (i1 , i2 ), . . . , (in−1 , in ), (in , j) im Übergangsgraphen gibt, also der Zustand j von i aus durch eine endliche Folge von Kanten erreicht werden kann. 3. Sei X eine reduzible Markov-Kette. Der Begriff der Reduzibilität erklärt sich so, dass sich die Markov-Kette X auf einen Zustandsraum E 0 ⊆ E reduzieren lässt. Das bedeutet, dass aus X0 ∈ E 0 folgt, dass Xt ∈ E 0 für alle t = 1, 2, . . . Beispiel 5.22 (Irrfahrt auf dem Dreieck). Sei X die Irrfahrt auf dem Dreieck aus Beispiel 5.9. In Beispiel 5.13 haben wir ausgerechnet, dass P 2 > 0 ist. Weiter ist auch P 3 > 0, was bereits zeigt, dass X sowohl irreduzibel als auch aperiodisch ist. 5.3 Stationäre Verteilungen 41 Beispiel 5.23 (Ruinproblem). Für die Markov-Kette X aus dem Ruinproblem, Beispiel 5.10, gilt sicher, dass 0 6→ i für i = 1, . . . , N , und N 6→ i für i = 0, . . . , N − 1. Mit anderen Worten: Ist Spieler 1 pleite (d.h. Xt = 0 für ein t), so wird er nach den Spielregeln nie wieder Geld bekommen, d.h. alle Zustände 1, . . . , n sind für ihn unerreichbar. Das bedeutet also, X ist reduzibel. Beispiel 5.24 (Ehrenfest’sche Urne). Die Markov-Kette X , die die Anzahl der Kugeln in der linken Kammer einer Ehrenfest’schen Urne beschreibt, ist irreduzibel. Betrachtet man nämlich Zustände i, j, etwa mit i > j, so genügt es ja, genau i − j Kugeln nacheinander von der linken in die rechte Kammer zu legen. Allerdings ist die Markov-Kette periodisch. Sei etwa X0 = 2i gerade, dann folgt, dass X1 ungerade (entweder 2i − 1 oder 2i + 1) ist. Damit kann nur zu geraden Zeiten t der Zustand Xt = 2i eintreten und es ist ggT{t : P(Xt = 2i|X0 = 2i)} = 2. Nun kommen wir also zum Markov-Ketten-Konvergenzsatz. Theorem 5.25 (Markov-Ketten-Konvergenzsatz). Sei X = (Xt )t=0,1,2,... eine endliche, homogene, irreduzible und aperiodische Markov-Kette. Dann hat X genau eine stationäre Verteilung π und es gilt für alle i ∈ E t→∞ P[Xt = i] −−−→ π(i). (5.7) Beweis. Der Beweis findet sich in allen gängigen Lehrbüchern, in denen Markov-Ketten behandelt werden. Bemerkung 5.26. Vor allem ist an dem Resultat bemerkenswert, dass (5.7) nicht von der Verteilung von X0 abhängt. Das bedeutet, dass die Markov-Kette nach langer Zeit vergisst, in welchem Zustand X0 sie zur Zeit 0 gestartet ist. Beispiel 5.27 (Irrfahrt auf dem Dreieck). Von unseren drei Beispielen erfüllt (nur) die Irrfahrt auf dem Dreieck X aus Beispiel 5.9 die Voraussetzungen des Satzes. Nach Beispiel 5.22 ist X irreduzibel und aperiodisch. Nach Beispiel 5.17 und obigem Satz ist die Gleichverteilung auf {1, 2, 3} die einzige stationäre Verteilung für X . Außerdem gilt t→∞ P[Xt = i] −−−→ 31 . Beispiel 5.28 (Ruinproblem). Für die Markov-Kette X aus dem Ruinproblem, Beispiel 5.10, gibt es stationäre Verteilungen π, nämlich solche mit π(0) + π(N ) = 1. (Bei solchen ist einer der beiden Spielern pleite.) Offenbar gilt auch lim P[Xt = N |X0 = n] = pn t→∞ mit pn aus (5.4). Das bedeutet, dass die (Verteilung der) Markov-Kette konvergiert, die Grenzverteilung aber vom Startwert (hier X0 = n) abhängt. Dies ist im Einklang mit Theorem 5.25, da X nicht irreduzibel ist. Beispiel 5.29 (Ehrenfest’sche Urne). Die Markov-Kette X , die die Anzahl der Kugeln in der linken Kammer einer Ehrenfest’schen Urne beschreibt, ist periodisch, und damit ist Theorem 5.25 nicht anwendbar. Ist etwa X0 = 2n gerade, so ist X2t auch gerade, also P[X2t gerade|X0 = 2n] = 1, aber P[X2t gerade|X0 = 2n + 1] = 0. Insbesondere existiert der Grenzwert von P[Xt = k||X0 = n] nicht. 6 STATISTIK 6 42 Statistik Es ist nicht übertrieben zu behaupten, dass in der heutigen Welt immer mehr Daten jeglicher Art erhoben werden. Diese zu ordnen und aus Daten Schlussfolgerungen zu ziehen ist Aufgabe der Statistik. Man teilt dabei diese Aufgaben in zwei Gebiete auf. Die deskriptive Statistik dient rein der Beschreibung der Daten, etwa durch geeignete Wahl von Statistiken, die die Daten zusammenfassen. Anders ist dies bei der hier behandelten schließenden oder induktiven Statistik. Die Aufgabe ist hier, mit Hilfe von stochastischen Modellen Aussagen darüber zu treffen, welchen Annahmen den Daten zugrunde liegen könnten. 6.1 Grundlagen Wir beginnen mit einem Beispiel. Beispiel 6.1 (Erfolgswahrscheinlichkeit beim Münzwurf ). Bevor wir statistische Konzepte einführen, betrachten wir folgendes Beispiel: eine Münze wird 100 mal geworfen. Dabei ist die Wahrscheinlichkeit für Kopf (was wir im Folgenden als Erfolg werten wollen) noch unbekannt. Von den 100 Würfen sind 59 ein Erfolg. Unsere statistischen Überlegungen gehen nun von der Vorstellung aus, dass die 100 Münzwürfe die Realisierung einer Zufallsvariable X = (X1 , . . . , X100 ) sind, wobei X1 , . . . , X100 unabhängig und identisch verteilt sind mit ( 1, falls der i-te Wurf Kopf zeigt, Xi = 0, sonst. und es gilt P[Xi = 1] = p. Jetzt ist X1 +· · ·+Xn die Gesamtzahl der Erfolge. Als Summe von n unabhängigen Bernoulliverteilten Zufallsvariablen ist diese Summe B(n = 100, p)-verteilt. Wichtig ist, dass zwar n = 100 bereits fest steht (schließlich wissen wir ja, dass wir 100 mal die Münze geworfen haben), nicht jedoch p. In dieser Situation gibt es zwei statistische Probleme. • Schätzproblem: Wir können versuchen, den Erfolgsparameter p zu schätzen. Wir werden hierzu aus den Daten (59 Erfolge aus 100 Versuchen) einen Wert pb ableiten (Punktschätzer ). Alternativ kann man auch ein Intervall [a, b] angeben, in dem der wahre Parameter p mit hoher Wahrscheinlichkeit liegt (Intervallschätzer ). Hierauf werden wir allerdings nicht näher eingehen. • Testproblem: Stellen wir uns vor, der Werfer der Münze behauptet, dass die Münze fair ist, also p = 21 gilt. Dieser Meinung können wir skeptisch gegenüber stehen, da ja sogar 59 aus 100 Würfen ein Erfolg waren. Wir können versuchen, die Hypothese p = 21 zu testen. Das bedeutet, dass wir untersuchen, wie gut die Hypothese mit den Daten in Einklang steht. Wie im Beispiel gesehen besteht ein statistisches Experiment aus einer (oder mehreren) Zufallsvariablen (etwa die Anzahl der Erfolge) und verschiedenen (möglichen) Verteilungen der Zufallsvariable; hier B(n = 100, p) für variierendes p. Dies führt zur Definition des statistischen Modells. Siehe auch Abbildung 6.1. 6.2 Schätzprobleme 43 X ................................................................. .......... ......... ........ ....... ................................................. ........... .............. ............ ........ ......... ...... . . . . ....... . . ...... .... . ..... . . ...... . ..... .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........ ........ ... ..... . ..... . . . ....... . . . . . . . . . . . ... . . . . . . . . ........ .... .... . . ....... . . .. . . . . . . . . . . . . . . ..... . . . . . .............................................................................. ....................................................................................................................................................................................... .. ... . . . . .... ... .. .. .. ...... . . . . . . . . . . . . . . . . ........... ............. . ... .. ........................... . ....................... ..... . . ... ...... . . . . ....... .. ......... ....... ............. ......... ........................................................... Θ m Θ0 h E Abbildung 6.1: Veranschaulichung von statistischen Modellen Definition 6.2 (Statistisches Modell). Seien E, Θ, Θ0 Mengen. Ein statistisches Modell ist ein Paar (X, (Pϑ )ϑ∈Θ ), wobei X eine Zufallsvariable mit Zielbereich E ist, bei deren Verteilung noch ein Parameter ϑ ∈ Θ frei, also unbestimmt, ist. Das bedeutet, dass es eine Funktion ϑ 7→ ρϑ gibt mit1 Pϑ [X ∈ da] = ρϑ (a)da. Die Menge Θ heißt Parameterraum, die Menge E Beobachtungsraum. Jedes Zufallsvariable h(X) mit h : E → Θ0 heißt Statistik. Beispiel 6.3 (Erfolgswahrscheinlichkeit beim Münzwurf ). In Beispiel 6.4 ist einfach X die Anzahl der Erolge und Pp := B(n = 100, p) (wobei wir ϑ durch p ersetzt haben). 6.2 Schätzprobleme Ein Schätzproblem ist das Folgende: Gegeben sei eine Funktion m : Θ → Θ0 (was meist die Identität und Θ = Θ0 ist). Bestimme eine Funktion h : E → Θ0 , so dass h(X) den Wert von m(ϑ) (möglichst gut) schätzt. Interessant hierbei ist, was es denn überhaupt bedeutet, guter Schätzer zu sein. Beispiel 6.4 (Erfolgswahrscheinlichkeit beim Münzwurf ). In der Situation aus Beispiel 6.1 heißt der freie Parameter p anstatt ϑ. Es ist E = {0, . . . , 100} und X die Anzahl der Erfolge in n = 100 Versuche. Damit ist Pp = B(n = 100, p) mit dem freien Parameter p ∈ Θ = [0, 1]. Es ist mit Θ0 = Θ ( E → Θ, h: 1 x 7→ 100 x. und pb = h(X) ist ein Schätzer für p. (Im Folgenden werden wir einen Schätzer für einen Parameter • meistens mit b • bezeichnen.) Für unser Datenbeispiel ist also pb = 1 59 (X1 + · · · + Xn ) = = 0.59. n 100 1 Wir wollen im Folgenden die dauernde Unterscheidung zwischen diskreten Zufallsvariablen und Zufallsvariablen mit Dichten durch die Notation P[X ∈ da] vermeiden. Ist der Wertebereich E von X diskret und a ∈ E, ist damit P[X ∈ da] := P[X = a] gemeint. Hat X die Dichte f (a)da, ist P[X ∈ da] := f (a)da. 6.2 Schätzprobleme 44 Da pb von den Daten abhängt, die wir uns als Realisierung von einer Zufallsvariable gedacht haben, ist pb also auch eine Zufallsvariable. Warum ist der Schätzer pb gut? Nehmen wir an, wir wüssten den wahren Parameter p. Dann leistet pb zumindest im Mittel das gewünschte: (Wir schreiben hier und im Folgenden Pp [·] und Ep [·], wenn wir Wahrscheinlichkeiten und Erwartungswerte unter der Hypothese ausrechnen wollen, dass p der wahre Parameter ist.) Ep [b p] = 1 Ep [X1 + · · · + Xn ] = p. n Wir sagen auch, der Schätzer pb ist erwartungstreu (oder unverzerrt oder unbiased). Eine weitere wünschenwerte Eigenschaft eines Schätzers ist, dass er immer besser wird, je größer die zu Grunde liegende Datenmenge ist. Eine große Datengrundlage bedeutet in unserem Fall, dass die Münze oft geworfen wurde, also n groß ist. Aus dem schwachen Gesetz großer Zahlen wissen wir, dass i h X + · · · + X n→∞ 1 n − Ep [X1 ] ≥ ε −−−→ 0 Pp [|b p − p| ≥ ε] = Pp n für alle ε > 0. Die Eigenschaft, dass pb mit hoher Wahrscheinlichkeit immer näher am wahren Wert p liegt, wenn mehr Daten zur Verfügung stehen, nennen wir Konsistenz. Definition 6.5 (Punktschätzer, unverzerrte und konsistente Schätzer). 1. Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell und m : Θ → Θ0 . Jede Statistik m b := m(X) b 0 mit m b : E → Θ heißt (Punkt-)Schätzer für m(ϑ). Der Schätzer m b heißt unverzerrt (erwartungstreu, unbiased), falls Eϑ [m] b = m(ϑ) für alle ϑ ∈ Θ. 2. Sei (X n , (Pnϑ )ϑ∈Θ )n=1,2,... eine Folge statistischer Modelle mit derselben Parametermenge Θ und m b 1 (X 1 ), m b 2 (X 2 ), . . . eine Folge von Schätzern für m(ϑ). Die Folge 1 2 m b 1 (X ), m b 2 (X ), . . . heißt konsistent, falls n→∞ Pnϑ [|m b n (X n ) − m(ϑ)| ≥ ε] −−−→ 0 für alle ε > 0, ϑ ∈ Θ. 3. Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell. Die Abbildung ( E × Θ → [0, 1] L: (a, ϑ) 7→ Pϑ [X ∈ da] heißt Likelihood-Funktion. Für eine Abbildung h : E 7→ Θ mit L(a, h(a)) = max L(a, ϑ) ϑ∈Θ heißt ϑbM L = h(X) Maximum-Likelihood-Schätzer von ϑ. Schätzprobleme 45 0.00 0.05 L(a,p) 0.10 0.15 6.2 0.0 0.2 23 53 0.6 0.8 1.0 p Abbildung 6.2: Die Likelihood-Funktion beim Münzwurf für X = 23 aus Beispiel 6.7. Bemerkung 6.6 (Interpretation von Maximum-Likelihood-Schätzern). Sei X diskret und X = a. Da die Vorstellung die ist, dass die erhobenen Daten Ergebnis eines Zufallsexperiments (d.h. die Realisierung einer Zufallsvariable X) sind, sagt man auch, dass die Daten X = a sind. Ein Maximum-Likelihood-Schätzer ist also ein Parameter ϑ, unter dem die Wahrscheinlichkeit, die Daten X = a zu beobachten – das ist Pϑ [X = a] – maximal ist. Beispiel 6.7 (Erfolgswahrscheinlichkeit beim Münzwurf ). Betrachten wir also wieder das Beispiel der Schätzung der Erfolgswahrscheinlichkeit beim Münzwurf. Wir hatten X = 59 Erfolge bei n = 100 Erfolgen verzeichnet. Unter Pp ist X nach B(n = 100, p) verteilt, also ist n X L(X, p) = p (1 − p)n−X . X die Likelihood-Funktion; siehe auch Abbildung 6.2. Um diese für gegebenes X zu maximieren, berechnen wir den Wert p, für den log L(X, p) maximal ist. Die Bestimmung des Maximums der log-Likelihood-Funktion log L(a, p) genügt, da log eine streng monotone Funktion ist. Wir berechnen ∂ log L(X, p) ∂ n−X n X = log + X log p + (n − X) log(1 − p) = − . ∂p ∂p X p 1−p Am Maximum pbM L muss ∂ log L(X,p) ∂p = 0 sein, also ist X n ein Maximum-Likelihood-Schätzer für p. Da es nur ein einziges Maximum der Likelihood gibt, ist dies auch der einzige Maximum-Likelihood-Schätzer. (1 − pbM L )X = pbM L (n − X), pbM L = Soeben haben wir gesehen, dass der Maximum-Likelihood-Schätzer für eine Summe von Zufallsvariablen (was der Anzahl an Erfolgen im Münzwurf entspricht) gerade durch den Mittelwert gegeben ist. Die Verwendung des Mittelwertes für eine solche Schätzung ist generell eine gute Idee, wie wir nun zeigen werden. 6.2 Schätzprobleme 46 Definition 6.8 (Mittelwert und empirische Varianz). Sei X = (X1 , . . . , Xn ) ein Vektor von Zufallsvariablen. Dann heißt X := n1 (X1 + · · · + Xn ) Mittelwert von X und s2 (X) := 1 n−1 n X (Xi − X)2 i=1 empirische Varianz von X. Theorem 6.9 (Mittelwert und empirische Varianz als Schätzer). Sei (X = (X1 , · · · , Xn ), (Pϑ )ϑ∈Θ ) ein statistisches Modell, so dass X1 , . . . , Xn unter allen Pϑ identisch verteilt sind und µϑ := Eϑ [X1 ] existiert. 1. Es ist X ein unverzerrter Schätzer für µϑ . Sind außerdem X1 , . . . , Xn unter allen Pϑ unabhängig mit endlichem Vϑ [X1 ], so ist X auch konsistent. 2. Sei n ≥ 2 und X = (X1 , · · · , Xn ) so, dass X1 , . . . , Xn unter allen Pϑ paarweise unkorreliert und identisch verteilt sind mit σϑ2 := Vϑ [X1 ] < ∞. Dann ist die empirische Varianz s2 (X) ein unverzerrter Schätzer für σϑ2 . Beweis. 1. Zunächst ist Eϑ [X] = n1 (Eϑ [X1 ] + · · · + Eϑ [Xn ]) = Eϑ [X1 ] = µϑ , was bereits die Unverzerrtheit von X als Schätzer von µϑ zeigt. Für die Konsistenz berechnen wir für ε > 0 n→∞ X1 + · · · + Xn Pϑ [|X − µϑ | ≥ ε] = Pϑ − Eϑ [X1 ] ≥ ε −−−→ 0 n nach dem schwachen Gesetz der großen Zahlen. 2. Wir schreiben zunächst Eϑ [s2 (X)] = 1 n−1 n X 2 Eϑ [Xi2 − 2Xi X + X ] = 2 n n−1 Eϑ [X1 i=1 Nun ist Eϑ [X12 ] = µ2ϑ + σϑ2 , Eϑ [X1 X] = µ2ϑ + n1 σϑ2 , 2 Eϑ [X ] = Eϑ [X1 X], also Eϑ [s2 (X)] = was die Unverzerrtheit bereits zeigt. 2 n n−1 Eϑ [X1 − X1 X] = σϑ2 , 2 − 2X1 X + X ]. 6.2 Schätzprobleme 47 Beispiel 6.10 (Erfolgswahrscheinlichkeit beim Münzwurf ). Betrachten wir noch einmal das einführende Beispiel der Schätzung des Erfolgsparameters in einem Münzwurf in n Versuchen. Wir wählen dazu die Notation aus den Beispielen 6.1 und 6.4. Der Schätzer pb = h(X) ist unverzerrt und konsistent, wie wir soeben gezeigt haben. Ein weiterer Schätzer für p wäre pb0 = X1 . Das bedeutet, dass pb0 nur die beiden Werte, 0 und 1 annehmen kann, und genau dann 1 ist, wenn der erste Wurf einen Erfolg zeigt. Der Schätzer pb0 ist ebenfalls erwartungstreu, denn Ep [b p0 ] = Ep [X1 ] = p. Allerdings ist pb0 nicht konsistent, da Pp (|b p0 − p| > ε) = 1, falls ε < min(p, 1 − p), unabhängig von n. Beispiel 6.11 (Maximum-Likelihood-Schätzer bei Normalverteilungen). Wir betrachten den Fall einer unabhängigen, normalverteilten Stichprobe. Sei also (X, (P(µ,σ2 ) )µ∈R,σ2 ∈R+ ) so, dass X = (X1 , . . . , Xn ) und X1 , . . . , Xn unter P(µ,σ2 ) unabhängig und identisch nach N (µ, σ 2 ) verteilt sind. Wir berechnen nun die Maximum-Likelihood-Schätzer für µ und σ 2 . Genau wir im letzten Beispiel berechnen wir zunächst die log-Likelihood-Funktion n X 1 (Xi − µ)2 2 log L((X1 , . . . , Xn ), (µ, σ )) = log exp − 2σ 2 (2πσ 2 )n/2 = −n log σ − n X i=1 i=1 2 µ) (Xi − 2σ 2 + C, wobei C weder von µ noch von σ abhängt. Ableiten nach µ und σ ergibt n ∂ log L((X1 , . . . , Xn ), (µ, σ 2 )) X Xi − µ = , ∂µ σ2 i=1 ∂ log L((X1 , . . . , Xn ∂σ ), (µ, σ 2 )) n =− n X (Xi − µ)2 . + σ σ3 i=1 2 Für die Maximum-Likelihood-Schätzer µ bM L und σ bM L gilt notwendigerweise n X n σ bM L − (Xi − µ bM L ) = 0, i=1 n X i=1 (Xi − µ bM L )2 = 0. 3 σ bM L Die Maximum-Likelihood-Schätzer sind also gegeben durch n µ bM L 1X Xi = X, = n 2 σ bM L n 1X n−1 2 = (Xi − X)2 = s (X). n n i=1 i=1 6.3 Testprobleme 48 Insbesondere sehen wir, dass X nicht nur erwartungstreu und konsistent (siehe Theorem 6.9) ist, sondern auch ein Maximum-Likelihood-Schätzer für µ. Allerdings ist der MaximumLikelihood-Schätzer für σ 2 nicht erwartungstreu, wie man aus Theorem 6.9 abliest. Immerhin n→∞ 2 2 2 ist σ bM bM L für große n annähernd erwartungstreu, da σ L − s (X) −−−→ 0. 6.3 Testprobleme Ein Testproblem ist das Folgende: Sei Θ0 ⊂ Θ. Kann die Hypothese ϑ ∈ Θ0 auf Grundlage der Daten verworfen werden? Beispiel 6.12 (Erfolgswahrscheinlichkeit beim Münzwurf ). Nehmen wir an, der Werfer der Münze behauptet, sie sei fair, also p = 12 . Es ist also Θ0 = { 12 }. Können wir diese Hypothese aufgrund der Daten verwerfen? Zunächst stellen wir fest, dass wir prinzipiell zwei Arten von Fehlern mit unserer Entscheidung machen können. Wenn wir die Hypothese verwerfen, könnte sie doch wahr sein, und wenn wir die Hypothese nicht verwerfen, könnte sie doch richtig sein. Da wir nicht grundlos dem Werfer der Münze widersprechen wollen, wollen wir die Wahrscheinlichkeit, dass wir die Hypothese ablehnen (wir dem Werfer der Münze widersprechen), obwohl sie wahr ist (die Hypothese des Werfers richtig ist), kontrollieren. Das bedeutet, dass Pp=1/2 (Hypothese verwerfen) ≤ α für ein anfangs gewähltes α ∈ (0, 1) sein soll. Klar ist, dass damit die Hypothese umso seltener abgelehnt werden kann, je kleiner α ist. Nun kommen wir zu der Regel, mit der wir die Hypothese ablehnen wollen. In unserem Beispiel haben wir für die Hypothese p = 12 zu viele (59 von 100) Erfolge. Wir würden die Hypothese ablehnen wollen, wenn Pp=1/2 (Daten mindestens so extrem wie tatsächliche Daten) ≤ α. (6.1) Wir wählen α = 5 %. Für X ∼ B(n = 100, p = 21 ) verteilt, erwarten wir 50 Erfolge. Um die Wahrscheinlichkeit einer Abweichung, die größer ist als die der Daten zu berechnen, betrachten wir eine nach N (0, 1) verteilte Zufallsvariable Z und berechnen Pp=1/2 |X1 + · · · + Xn − 50| ≥ 9 9 Yn − np 9 = 1 − Pp=1/2 − p <p <p np(1 − p) np(1 − p) np(1 − p) ≈ 1 − Pp=1/2 (−1.8 ≤ Z ≤ 0.1.8 ≈ 7.19 % Da dieser Wert größer als α = 5 % ist, kann die Hypothese nicht verworfen werden, siehe (6.1). Wir beginnen mit der Einführung wichtiger Begriffe wie Teststatistik, Nullhypothese, Alternative, Ablehnungsbereich, Signifikanzniveau und p-Wert. Definition 6.13 (Statistischer Test). Sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell, E der Zielbereich von X, und Θ0 , ΘA ⊆ Θ disjunkt mit Θ0 ∪ ΘA = Θ. 1. Ein Paar (Y, C) mit Y = t(X) für t : E → E 0 und C ⊆ E 0 heißt statistischer Test von H0 : ϑ ∈ Θ0 gegen HA : ϑ ∈ ΘA . 6.3 Testprobleme 49 Hier heißt Y Teststatistik, C kritischer oder Ablehnungsbereich des Tests, H0 heißt Nullhypothese und HA heißt Alternativhypothese. Man sagt, der Test (Y, C) hat (Signifikanz)Niveau α ∈ [0, 1], falls sup Pϑ (Y ∈ C) ≤ α. ϑ∈Θ0 Falls Y ∈ C, sagt man, dass H0 abgelehnt (und damit HA angenommen) ist. Falls Y ∈ / C, sagt man, dass H0 nicht abgelehnt ist (und HA abgelehnt ist). Sei nun (Y, C) ein Test der Nullhypothese H0 gegen HA . 2. Die Hypothese H : ϑ ∈ ΘH (die entweder H0 oder HA sein kann) heißt einfach wenn ΘH = {ϑ∗ } für ein ϑ∗ ∈ Θ. Andernfalls heißt H zusammengesetzt. 3. Ist Θ = (ϑ, ϑ) ein Intervall (wobei ϑ = −∞ und ϑ = ∞ zugelassen sind und die Intervalle auch abgeschlossen sein können), so heißt der Test (Y, C) einseitig, falls ΘH = (ϑ, ϑ∗ ) oder ΘH = (ϑ∗ , ϑ). Falls ΘH = (ϑ+ , ϑ∗ ) mit ϑ < ϑ+ ≤ ϑ∗ < ϑ, so heißt der Test (Y, C) zweiseitig. 4. Der Test (Y, C) heißt unverfälscht, falls Pϑ0 (Y ∈ C) ≤ PϑA (Y ∈ C) für alle ϑ0 ∈ Θ0 , ϑA ∈ ΘA gilt. Bemerkung 6.14 (Interpretation und Fehler eines Tests). 1. Einen statistischen Test hat man sich am besten so vorzustellen (siehe auch das nächste Beispiel): die Daten sind gegeben durch die Zufallsvariable X. Diese Daten fasst man durch die meist reellwertige Funktion t zusammen zur Teststatistik Y = t(X). Die Daten können entweder nach Pϑ mit ϑ ∈ Θ0 (d.h. die Nullhypothese ist richtig) oder mit ϑ ∈ ΘA (d.h. die Alternativhypothese ist richtig) verteilt sein. Ziel ist es, die Nullhypothese genau dann (anhand der Daten X) abzulehnen, wenn HA richtig ist. Der Ablehnungsbereich C ist so gewählt, dass H0 genau dann abgelehnt wird, wenn Y ∈ C. Dabei können zwei verschiedene Arten von Fehler auftreten; siehe auch Tabelle 6.1. H0 abgelehnt H0 nicht abgelehnt H0 richtig Fehler erster Art richtige Entscheidung H0 falsch richtige Entscheidung Fehler zweiter Art Tabelle 6.1: Die möglichen Fehler eines statistischen Tests. Gehen wir zunächst davon aus, dass ϑ ∈ Θ0 . Hat der Test ein Niveau α, so wissen wir, dass Pϑ (Y ∈ C) ≤ α. Da H0 genau dann abgelehnt wird, wenn Y ∈ C, wissen wir also, dass die Nullhypothese höchstens mit Wahrscheinlichkeit α abgelehnt wird, wenn sie zutrifft. Damit hat man also die Wahrscheinlichkeit, die Nullhypothese abzulehnen, falls sie zutrifft, durch α beschränkt. Falls Y ∈ C, aber ϑ ∈ Θ0 , die Nullyhpothese also irrtümlicherweise verworfen wird, sprechen wir über einen Fehler erster Art (dessen Wahrscheinlichkeit durch α kontrolliert wird). 6.3 Testprobleme 50 Geht man davon aus, dass ϑ ∈ ΘA , liegt eine Fehlentscheidung genau dann vor, wenn Y ∈ / C, die Nullhypothese also nicht abgelehnt wird. In diesem Fall sprechen wir von einem Fehler zweiter Art. Das Niveau des Tests liefert keinen Anhaltspunkt dafür, mit welcher Wahrscheinlichkeit ein solcher Fehler auftritt. 2. Auf den ersten Blick besteht eine scheinbare Symmetrie zwischen H0 und HA . Schließlich lehnen wir H0 genau dann ab (und nehmen HA an), wenn Y ∈ C und wir lehnen H0 nicht ab (und lehnen damit HA ab) wenn Y ∈ / C. Allerdings wird diese Symmetrie durch das Niveau des Tests gebrochen. Weiß man, dass (Y, C) ein Test zum Niveau α ist, bedeutet das, dass die Wahrscheinlichkeit, die Nullhypothese H0 abzulehnen, obwohl sie wahr ist, höchstens α ist. Mit anderen Worten ist die Wahrscheinlichkeit für einen Fehler erster Art höchstens α. Allerdings hat man keine Kontrolle über den Fehler zweiter Art. Wegen dieser Asymmetrie ist in der Praxis die Nullhypothese genau so zu wählen, dass eine Ablehnung der Nullhypothese möglichst sicher auf die Richtigkeit der Alternativhypothese zurückzuführen ist. Wir betrachten das Beispiel der Münzwürfe aus Beispiel 6.1. Bevor wir die Daten des Experimentes erhoben haben, haben wir die Vorstellung, dass der Würfel gezinkt sein könnte. Außerdem legen wir ein Signifikanzniveau α fest (was in der Praxis oft α = 5 % ist). Um unsere Vorstellung über die Münze zu überprüfen, testen wir H0 : die Münze ist nicht gezinkt, p = 1 2 gegen HA : die Münze ist gezinkt, p 6= 12 . Kommt es nämlich jetzt zu einer Ablehnung von H0 , so wissen wir, dass dies mit Wahrscheinlichkeit höchstens α dann passiert, wenn H0 wahr ist, die Münze also nicht gezinkt ist. Damit können wir uns relativ sicher sein, dass die Ablehnung der Nullhypothese darauf zurückzuführen ist, dass HA zutrifft. Damit ist unsere Vorstellung, dass die Münze gezinkt ist, bei Ablehnung der Nullhypothese höchstwahrscheinlich bestätigt. 3. Die Forderung von unverfälschten Tests ist klar zu verstehen: Da wir H0 dann ablehnen, wenn Y ∈ C, soll zumindest die Wahrscheinlichkeit, dass H0 abgelehnt wird, unter PϑA , ϑA ∈ ΘA größer sein als für Pϑ0 , ϑ0 ∈ Θ0 . Bemerkung 6.15 (p-Werte und alternative Definition eines Tests). 1. Sei Y = y, d.h. dass die Teststatistik Y , angewendet auf die echten Daten, ergibt y. Dann heißt der Wert py := sup Pϑ (Y mindestens so extrem wie y) ϑ∈Θ0 p-Wert des Tests für Y = y. Dabei hängt die Bedeutung davon, was ’extrem’ heißt davon ab, was genau die Alternative ist. (Dies ist oftmals in konkreten Beispielen einfach zu verstehen, siehe etwa den Binomialtest, Abbildung 6.3.) Immer gilt jedoch py ≤ py0 , falls y mindestens so extrem wie y 0 ist. Es ist wichtig zu beachten, dass es dadurch einen engen Zusammenhang zwischen dem Niveau α des Tests und dem p-Wert gibt. Ist nämlich (Y, C) ein Test zum Niveau α und C = {y : y mindestens so extrem wie y0 } 6.3 Testprobleme 51 für ein y0 , so wird H0 genau dann abgelehnt, wenn α ≥ sup Pϑ (Y mindestens so extrem wie y0 ) = py0 . ϑ∈Θ0 Ist Y = y und gilt py ≤ py0 , so wird H0 also abgelehnt. Es genügt also, für einen Test zum Niveau α und Y = y den Wert py zu bestimmen. Ist py ≤ α, so wird H0 abgelehnt. Dieses Vorgehen wird bei vielen Statistik-Programmen angewendet, bei denen ausschließlich p-Werte ausgegeben werden. Dabei muss man meist angeben, was genau die Alternative ist (einseitig oder zweiseitig), damit das Programm weiß, in welche Richtungen Abweichungen als extrem zu betrachten sind. Wir formalisieren nun noch das Eingangsbeispiel 6.1, was uns zum Binomialtest führt. Proposition 6.16 (Binomialtest). Sei α ∈ [0, 1], n ∈ N und (X, (Pp )p∈[0,1] ) ein statistisches Modell, so dass X unter Pp nach B(n, p) verteilt ist. (a) Ist Θ0 = p∗ , ΘA = Θ \ Θ0 , so ist (X, {0, . . . , k} ∪ {l, . . . , n}) ein unverfälschter Test zum Niveau α, falls Pp∗ (X ≤ k) ≤ α/2, Pp∗ (X ≥ l) ≤ α/2. (b) Ist Θ0 = [0, p∗ ], ΘA = Θ \ Θ0 , so ist (X, {k, . . . , n}) ein unverfälschter Test zum Niveau α, falls Pp∗ (X ≥ k) ≤ α. (c) Ist Θ0 = [p∗ , 1], ΘA = Θ \ Θ0 , so ist (X, {0, . . . , k}) ein unverfälschter Test zum Niveau α, falls Pp∗ (X ≤ k) ≤ α. Beweis. Wir beweisen nur (c), die anderen beiden Aussagen folgen analog. Klar ist, dass der Test unverfälscht ist. Es ist außerdem sup Pp (X ∈ {0, . . . , k}) = Pp∗ (X ≤ k) ≤ α p∈Θ0 nach Voraussetzung. Also folgt bereits die Aussage. Beispiel 6.17 (Binomialtest). Sei α = 5 %, n = 100 und (X, (Pp )p∈[0,1] ) wie in der Proposition. Wir wollen nun H0 : p = 1/2 gegen HA : p 6= 1/2 testen, wenn wir in 100 Versuchen 59 Erfolge erzielt haben. Nach Proposition 6.16 ist der kritische Bereich von der Form {0, . . . , k} ∪ {l, . . . , 100}. Es ist Pp=1/2 (X ≤ 40) + Pp=1/2 (X ≥ 60) ≈ 5.69 %. Da 40 < 59 < 60, liegt 59 nicht im Ablehnungsbereich von H0 . Damit kann die Nullhypothese aufgrund der Daten (X = 59) nicht abgelehnt werden. Auf dasselbe Ergebnis kommt man mit Hilfe des p-Wertes. Es ist Pp=1/2 (X mindestens so extrem wie 59) = Pp=1/2 (X ≤ 41) + Pp=1/2 (X ≥ 59) ≈ 8.86 %. Da dieser Wert größer als α = 5 % ist, kann man die Nullhypothese nicht ablehnen. 6.3 Testprobleme 52 Der Binomialtest überprüft, ob bestimmte Erfolgswahrscheinlichkeiten einer Binomialverteilung angenommen werden. Statistisches Modell X unter Pp nach B(n, p) verteilt Hypothesen (a) H0 : p ∈ {p∗ } gegen HA : p ∈ / {p∗ } (b) H0 : p ∈ [0, p∗ ] gegen HA : p ∈ (p∗ , 1] (c) H0 : p ∈ [p∗ , 1] gegen HA : p ∈ [0, p∗ ) Teststatistik X unter Pp verteilt nach B(n, p) Ablehnungsbereich (a) {0, . . . , k, l, . . . , n} mit Pp∗ (X ≤ k), Pp∗ (X ≥ l) ≤ α/2, (b) {l, . . . , n} mit Pp∗ (X ≥ l) ≤ α (c) {0, . . . , k} mit Pp∗ (X ≤ k) ≤ α, p-Wert, falls X = x (a) Pp∗ (X ≤ x ∧ (2p∗ n − x)) + Pp∗ (X ≥ x ∨ (2p∗ n − x)) (b) Pp∗ (X ≥ x) (c) Pp∗ (X ≤ x) Abbildung 6.3: Schematische Darstellung des Binomialtests aus Proposition 6.16 Wie behandeln nun noch einen Test der auf normalverteilten Daten beruht. Um die Verteilung der Teststatistik anzugeben, benötigen wir hierfür eine Definition. Definition 6.18 (Student-t-Verteilung). Sei n > 1 und X = (X1 , ..., Xn ) unabhängig und nach N (0, 1) verteilt, sowie X̄ der Mittelwert und s2 (X) die empirische Varianz. Dann heißt die Verteilung von X T := p 2 s (X)/n (Student-)t-Verteilung mit n − 1 Freiheitsgraden. Diese bezeichnen wir auch mit t(n). Bemerkung 6.19 (Transformation von N (µ, σ 2 )-verteilten Zufallsvariablen). Sei n > 1 und X = (X1 , ..., Xn ) unabhängig und nach N (µ, σ 2 ) verteilt. Man überlegt sich leicht, dass dann Y1 , ..., Yn mit Yi := X√i −µ ∼ N (0, 1). Deswegen gilt in dieser Situation, dass 2 σ Y X −µ p =p ∼ t(n − 1). 2 s (Y ) s2 (X) Proposition 6.20 (Einfacher t-Test). Sei α ∈ [0, 1], µ∗ ∈ R und (X = (X1 , . . . , Xn ), (Pµ,σ2 )µ∈R,σ2 ∈R+ ) ein statistisches Modell, so 6.3 Testprobleme 53 dass X1 , . . . , Xn unter Pµ,σ2 unabhängig und nach N (µ, σ 2 ) verteilt sind. Weiter sei X − µ∗ T := p . s2 (X)/n und tn,p für p ∈ [0, 1] das p-Quantil von t(n). (a) Ist Θ0 = {µ∗ } × R+ , ΘA = Θ \ Θ0 , so ist (T, (−∞, tn−1,α/2 ) ∪ (tn−1,1−α/2 , ∞)) ein unverfälschter Test zum Niveau α. (b) Ist Θ0 = (−∞, µ∗ ] × R+ , ΘA = Θ \ Θ0 , so ist (T, [tn−1,1−α , ∞)) ein unverfälschter Test zum Niveau α. (c) Ist Θ0 = [µ∗ , ∞) × R+ , ΘA = Θ \ Θ0 , so ist (T, (−∞, tn−1,α ]) ein unverfälschter Test zum Niveau α. Beweis. Wieder beweisen wir nur (c), da die anderen beiden Aussagen analog folgen. Klar ist, dass der Test unverfälscht ist. Nach Definition der t-Verteilung folgt, dass T unter Pµ∗ ,σ2 nach t(n − 1) verteilt ist. Damit gilt sup Pµ,σ2 (T ≤ tn−1,α ) = Pµ∗ ,σ2 (T ≤ tn−1,α ) = α, µ≥µ∗ woraus die Behauptung sofort folgt. Beispiel 6.21 (Normalverteilte Schlafdauern). Wir untersuchen ein Beispiel aus der Medizin. Ein Medikament wir daraufhin untersucht, ob es den Schlaf von Probanden verlängert. Dazu wird jeweils die Schlafdauerdifferenz bei zehn Patienten notiert. Man erhält 1.9, 0.8, 1.1, 0.1, −0.1, 4.4, 5.5, 1.6, 4.6, 3.4. Diese Beobachtungen betrachten wir als Realisierungen von Zufallsvariablen X1 , . . . , X10 , die nach N (µ, σ 2 ) verteilt sind, wobei weder µ noch σ 2 bekannt sind. Wir berechnen X = 2.33, s2 (X) = 4.01. T = 2.33/ p 4.01/10 ≈ 3.68. Damit ist Testet man also H0 : Eµ,σ2 [Y − X] = 0 gegen Eµ,σ2 [Y − X] 6= 0, auf dem Niveau 5 %, so ist dessen Ablehnungsbereich C = (−∞, −2.262) ∪ (2.262, ∞). Da 3.68 ∈ C, kann man H0 auf dem Niveau 5 % verwerfen. Das bedeutet, dass vermutlich eine Veränderung der Schlafdauer durch Einnahme des Medikamentes stattfand. Bemerkung 6.22 (Kontingenztabellen und Unabhängigkeitstests). Wir kommen nun zum letzten hier behandelten Test, Fisher’s exaktem Test. Gegeben seien Items mit zwei Merkmalen. (Beispielsweise Pflanzenblätter, die sowohl eine Farbe als auch eine bestimmte Form haben.) Solche Daten lassen sich in einer Kontingenztafel zusammenfassen; siehe unten. Falls beide Merkmale genau zwei verschiedene Möglichkeiten haben, lässt sich mit Hilfe des exakten Tests von Fisher bestimmen, ob beide Ausprägungen unabhängig sind. 6.3 Testprobleme 54 Der einfache t-Test überprüft, ob der Erwartungswert einer Normalverteilung (oder irgendeiner Verteilung bei approximativ unendlich großer Samplegröße) gleich einer vorgegebenen Größe µ∗ ist, wenn die Varianz unbekannt ist. Statistisches Modell X = (X1 , . . . , Xn ) und X1 , . . . , Xn unter Pµ,σ2 unabhängig und nach N (µ, σ 2 ) verteilt Hypothesen (a) H0 : µ ∈ {µ∗ } gegen (b) H0 : µ ∈ (−∞, µ∗ ] (c) H0 : µ ∈ [µ∗ , ∞) HA : µ ∈ / {µ∗ } gegen gegen HA : µ ∈ (µ∗ , ∞) HA : µ ∈ (−∞, µ∗ ) Teststatistik X − µ∗ T =p unter Pµ∗ ,σ2 verteilt nach t(n − 1) s2 (X)/n Ablehnungsbereich (a) (−∞, tn−1,α/2 ) ∪ (tn−1,1−α/2 , ∞), (b) (tn−1,1−α , ∞) (c) (−∞, tn−1,α ) p-Wert, falls T = t (a) 2(1 − P[T ≤ |t|]), wenn T nach t(n − 1) verteilt ist (b) P[T ≥ t] (c) P[T ≤ t] Abbildung 6.4: Schematische Darstellung des einfachen t-Tests aus Proposition 6.20 6.3 Testprobleme 55 Merkmal 2, Möglichkeit 1 Merkmal 2 Möglichkeit 2 P Merkmal 1, Möglichkeit 1 S11 S12 S1• Merkmal 1, Möglichkeit 2 P S21 S22 S2• S•1 S•2 S Proposition 6.23 (Fisher’s exakter Test). Sei α ∈ [0, 1], I, J endliche Mengen mit |I| = |J | = 2 und Θ = {p = (pij )i∈I,j∈J Verteilungsgewichte einer Verteilung auf I × J }. Weiter sei ((X, Y ) = ((X1 , Y1 ), . . . , (Xn , Yn )), (Pp )p∈Θ ) ein statistisches Modell, so dass (X1 , Y1 ), . . . , (Xn , Yn ) unter Pp unabhängig und nach p verteilt sind (d.h. P(Xk = i, Yk = j) = pij ). Setze für i ∈ I, j ∈ J Sij := |{k : Xk = i, Yk = j}|, X Si• := |{k : Xk = i}| = Sij , j∈J S•j := |{k : Yk = j}| = X Sij i∈I und pi• := P j∈J pij , p•j := P i∈I pij für p ∈ Θ. Sei Θ0 = {p ∈ Θ : pij = pi• · p•j für i ∈ I, j ∈ J }, ΘA = Θ \ Θ0 . Dann ist (S11 , C) ein unverfälschter Test zum Niveau α, falls H(S1• , S, S•1 )(C) ≤ α. (6.2) Beweis. Gegeben sind Daten von S Objekten. Wir gehen davon aus, dass S1• , S2• , S•1 und S•2 bekannt sind. In diesem Fall gilt es, die S Objekte so auf die Kontingenztafel zu verteilen, dass die Randeinträge stimmen. Wir stellen uns vor, die S•1 Elemente mit Merkmal 2, Möglichkeit 1 seien weiß, die anderen S•2 schwarz. Aus diesen wählen wir S1• aus. Sind die Merkmale wirklich unabhängig, so erhalten wir eine H(S1• , S, S•1 ) verteilte Zufallsgröße als Eintrag von S11 . Ist diese entweder zu groß oder zu klein, können wir die Unabhängigkeit verwerfen. Bemerkung 6.24. In (6.2) besteht eine vermeintliche Unsymmetrie zwischen dem ersten und zweiten Merkmal, da die Parameter der hypergeometrischen Verteilung S1• die Anzahl der gezogenen und S•1 die Anzahl der weißen Kugeln bedeutet. Allerdings gilt S•2 S•1 S•1 !S•2 !S1• !S2• ! −k = H(S1• , S, S•1 )(k) = k SS1• S!k!(S•1 − k)!(S1• − k)!(S − S•1 − S1• + k)! S 1• = H(S•1 , S, S1• )(k), was diese vermeintliche Unsymmetrie erklärt. 6.3 Testprobleme 56 Fisher’s exakter Test überprüft, ob zwei Merkmale, die in jeweils zwei möglichen Ausprägungen vorliegen, stochastisch unabhängig sind. Statistisches Modell (X1 , Y1 ), . . . , (Xn , Yn ) unabhängig, identisch verteilt, Sij := |{k : Xk = i, Yk = j}|, X Si• := |{k : Xk = i}| = Sij , j∈J S•j := |{k : Yk = j}| = X Sij . i∈I Hypothesen H0 : P(Xk = i, Yk = j) = P(Xk = i) · P(Yk = j) für alle i, j HA : P(Xk = i, Yk = j) 6= P(Xk = i)P(Yk = j) für mindestens ein Paar i, j Teststatistik S11 ist – gegeben S1• , S2• , S•1 und S•2 – nach H(S1• , S, S•1 ) verteilt. Ablehnungsbereich S11 ∈ C := {0, ..., k, `, ..., S1• ∧ S•1 } falls H(S1• , S, S•1 )(C) ≤ α. Abbildung 6.5: Schematische Darstellung von Fisher’s exaktem Test Beispiel 6.25 (Mendel’s Experimente). Wir betrachten nochmal die beiden Merkmale der Blütenfarbe und Blattmuster einer Pflanze. Beispielsweise könnte ein Züchter von Pflanzen zählen, wieviele seiner Pflanzen rot und weiß blühen, und wieviele glatte und gesprenkelte Blätter haben. Wir gehen davon aus, dass (Xi , Yi ) die Farbe und die Blättermusterung der i-ten Pflanze ist. Ziel ist es herauszufinden, ob Xi und Yi stochastisch unabhängig sind, d.h. ob etwa P(Xi = rot, Yi = glatt) = P(Xi = rot) · P(Yi = glatt) (und ähnliche Gleichungen für die anderen Farben/Blattmusterungen) gilt. Bei einem Versuch, in dem man 400 Blumen als Stichprobe untersucht hat, erhält man folgende Daten, die wir in einer Kontingenztabelle zusammen fassen: glatt gesprenkelt P weiß 41 74 115 rot P 96 189 285 137 263 400 Wir bezeichnen diese Anzahlen mit Sweiß, glatt , . . . , Srot, gesprenkelt . Die Marginalien bezeichnen wir mit Sweiß• , . . . , Srot• und S•glatt , S•gesprenkelt . Kann aufgrund dieser Daten die Hypothese der Unabhängigkeit auf einem Signifikanzniveau von 5% verworfen werden? Wären die beiden 7 STOCHASTISCHE OPTIMIERUNG 57 Merkmale unabhängig, so wäre E[S11 ] = 400 · S11 = 41. Zunächst stellen wir fest, dass 137 400 · 115 400 ≈ 39.39. Beobachtet wurden aber H(115, 400, 137){0, ..., 30} ≈ 0.018 < 0.032 = H(115, 400, 137){0, ..., 31} und H(115, 400, 137){49, ..., 115} ≈ 0.018 < 0.030 = H(115, 400, 137){48, ..., 115}. Damit ist C = {0, ..., 30, 49, ..., 115} der Ablehnungsbereich für Fisher’s exakten Test. Damit kann die Nullhypothese einer unabhängigen Ausprägung der Blütenfarbe und Blattmusterung nicht abgelehnt werden. 7 Stochastische Optimierung Stochastische Optimierung meint das Optimieren mit stochastischen Methoden.2 Das abstrakte Problem ist dabei wiefolgt: Gegeben sei eine endliche Menge E und eine Funktion f : E → R. Finde s∗ (oder s∗ ) mit f (s∗ ) = min f (s) oder f (s∗ ) = max f (s) . s∈E s∈E Minimierungs- und Maximierungsprobleme kann man dabei durch den Übergang zur Funktion −f ineinander umwandeln. Beispiel 7.1 (Traveling Salesman Problem (TSP)). Ein Handlugnsreisender will m Städte besuchen und dann nach Hause zurückkehren. Der Abstand der Städte ist dabei durch eine (symmetrische) m×m-Matrix D gegeben. Bei seiner Rundreise will er seine zurückgelegte Wegstrecke minimieren. Hier ist E = Sm die Menge aller Permutationen von {1, . . . , m} und f (ξ) = m−1 X Dξi ,ξi+1 + Dξm ,ξ1 . (7.1) i=1 Legt man einen Wert d fest und fragt, ob es eine Permutation gibt mit f (ξ) ≤ d, so handelt es sich um das TSP-Entscheidungsproblem. Dieses ist NP-vollständig: Bis heute sind keine deterministischen Algorithmen bekannt, die das TSP-Entscheidungsproblem in einer Zeit, die polynomial ist in m, entscheiden können. Ein Ansatz, der hier weiterführen kann, ist es, stochastische Algorithmen zu untersuchen, die zumindest solche Wege finden, deren Länge kurz ist. Dabei kann man nur hoffen, mit stochastischen Methoden eine möglichst gute Lösung zu erhalten, jedoch nicht hoffen, mit stochastischen Methoden einen Beweis für die Optimalität einer Lösung zu finden. Zwei Methoden der stochastischen Optimierung, die man auf obige Probleme anwenden kann, ist Simulated Annealing und genetische Algorithmen. 2 Oft wird unter stochastischer Optimierung auch das Optimieren unter unsicheren (stochastischen) Daten verstanden. Das wollen wir hier nicht behandeln. 7.1 7.1 Simulated Annealing 58 Simulated Annealing Der Begriff des Annealing kommt aus der Metallverarbeitung und beschreibt das Auskühlen von Metallen. Dort sieht man sich dem Problem gegenüber, ein Metall so auszukühlen, dass lokal keine Spannungen entstehen, die das Material instabil werden lassen. Mit anderen Worte will man die Energie des Metalls durch das Ausglühen minimieren. Die Idee des Simulated Annealing ist die folgende: Starte eine Markoff-Kette mit Zustandsraum E und Übergangsmatrix P1 und einer stationären Verteilung, die großes Gewicht auf Zustände s ∈ E mit kleinem f (s) legt. Warte eine Zeit N1 , bis diese annähernd im Gleichgewicht ist. Starte nun in diesem Zustand eine neue Markoff-Kette mit Übergangsmatrix P2 , die noch größeres Gewicht auf s ∈ E mit kleinem f (s) legt. Warte wieder eine Zeit N2 bis diese Markoff-Kette im Gleichgewicht ist. Setzt man dieses Vorgehen fort, so besteht die Hoffnung, dass sich die Markoff-Kette am Ende in einem Zustand mit minimalem f (s) befindet. Formal wird dies durch eine zeitinhomogene Markoff-Kette mit Übergangsmatrix P1 , 0 < n ≤ N1 (n) P = P2 , N1 < n ≤ N1 + N2 ... beschrieben. Zunächst wollen wir die Boltzmann-Verteilung für eine Funktion f : E → R definieren, die obige Forderung, hohes Gewicht auf Zustände s mit kleinem f (s) zu legen, erfüllt. Im Anschluss definieren wir eine Markov-Kette, die die Boltzmann-Verteilung als stationäre Verteilung hat. Definition 7.2 (Boltzmann-Verteilung). Sei f : E → R nach unten beschränkt und T > 0. Dann ist die Boltzmann-Verteilung πf,T gegeben durch 1 f (s) exp − , Zf,T T f (s) X = exp − . T πf,T (s) = Zf,T s∈E Der Parameter T heißt Temperatur. Je kleiner T als Parameter in der Boltzmann-Verteilung, desto größer sind die relativen Unterschiede für Zustände s, t ∈ E mit f (s) 6= f (t). Je größer f (t), desto kleiner ist das Gewicht πf,T (t). Noch genauer gilt das folgende Resultat. Lemma 7.3. Sei T > 0, E eine endliche Menge und f : E → R beliebig. Weiter sei E∗ := {s ∈ E : f (s) = min f (t)}. t∈E Dann gilt lim πf,T (E∗ ) = 1. T →0 Beweis. Sei E∗ = {s1 , . . . , sn }, a = f (s) und b = mint∈E\E∗ f (t). Es gilt lim exp T →0 a − b T =0 7.1 Simulated Annealing 59 und damit a T f (t) T |E∗ | exp − Ta = P |E∗ | exp − Ta + t∈E\E∗ exp − fT(t) |E∗ | exp − Ta 1 = ≥ b a |E| |E∗ | exp − T + (|E| − |E∗ |) exp − T 1 + ( |E | − 1) exp |E∗ | exp − πf,T (E∗ ) = P t∈E exp − ∗ T →0 a−b T −−−→ 1. Bemerkung 7.4 (Herleitung der Metropolis-Kette). Für eine Verteilung π auf E benötigen wir nun noch eine Markov-Kette (Xt )t=0,1,... mit stationärer Verteilung π. Diese wird durch die Metropolis-Kette geliefert, für die π sogar reversibel ist (siehe Definition 5.14). Diese erhält man wiefolgt: • Wähle eine Übergangsmatrix Q einer irreduziblen Markov-Kette. • Wähle die Übergangsmatrix P der gesuchten Markov-Kette so, dass πi Pij = min(πi Qij , πj , Qji ) für i 6= j. Dann ist wegen der Symmetrie der rechten Seite π reversible Verteilung für die Markov-Kette mit Übergangsmatrix P . • Auflösen der letzten Gleichung liefert π Q j ji Pij = min 1, Qij . πi Qij Dies ist die gesuchte Übergangsmatrix für Pii = 1 − X Pij . j6=i Da nämlich P j6=i Qij ≤ 1, muss auch P j6=i Pij ≤ 1 gelten. Definition 7.5 (Metropolis-Kette). Sei Q die Übergangsmatrix einer irreduziblen MarkovKette mit Zustandsraum E und π eine Verteilung auf E. Dann ist die Metropolis-Kette X = (Xt )t=0,1,... die Markov-Kette mit Übergangsmatrix P mit π Q j ji Qij Pij = min 1, πi Qij und Pii = 1 − X Pij . j6=i Beispiel 7.6 (Traveling Salesman Problem). Wir wollen nun für das TSP eine MetropolisKette konstruieren, die die Boltzmann-Verteilung πf,T zur Funktion f aus Beispiel 7.1 als stationäre Verteilung hat. Zur Definition der Metropolis-Kette benötigen wir zunächst einen 7.1 Simulated Annealing 60 Graphen mit der Punktmenge E. Wir müssen also angeben, welche Permutationen ξ und η benachbart sein sollen. Dazu definieren wir für i < j σi,j (ξ) = (ξ1 , . . . , ξi−1 , ξj , ξj−1 , . . . , ξi+1 , ξi , ξj+1 , . . . , ξm ). Also ist σi,j (ξ) die Permutation, die entsteht, indem man in ξ den Abschnitt ξi , . . . , ξj in umgekehrter Reihenfolge durchläuft. Damit definieren wir ξ ∼ η : ⇐⇒ ∃i < j : η = σi,j (ξ). Damit hat jede Permutation genau m 2 Nachbarn. Wir betrachten die Übergangsmatrix Q mittels m1 , ξ ∼ η (7.2) Qξ,η = ( 2 ) 0, ξ 6∼ η. Die Markov-Kette mit dieser Übergangsmatrix ist irreduzibel, weil jede Permutation als Komposition von Transpositionen dargestellt werden kann. Für die dazugehörigen BoltzmannVerteilung entsteht die Metropolis-Kette nun durch Definition 7.5 aus f (ξ)−f (η) 1 min exp ,1 , ξ∼η m T (2) Pξ,η = 0, ξ 6∼ η, ξ 6= η P f (ξ)−f (ξ 0 ) 1 1 − ξ0 ∼ξ m min exp , 1 , ξ = η. T (2) Ist die Markoff-Kette im Zustand Xt = ξ, so verfährt sie also folgendermaßen: • Wähle zuerst nach der Gleichverteilung zwei Positionen 1 ≤ i < j ≤ m. • Ist f (σi,j (ξ)) ≤ f (ξ), so ist Xt+1 = σi,j (ξ). Ist jedoch f (σi,j (ξ)) > f (ξ), so ist σi,j (ξ) mit Wahrscheinlichkeit exp f (ξ)−f (η) , T Xt+1 = (η) ξ mit Wahrscheinlichkeit 1 − exp f (ξ)−f . T Es ist wichtig zu betonen, dass wir zur Berechnung der Übergangswahrscheinlichkeiten der Metropolis-Kette die Normalisierungskonstanten Zf,T nicht berechnen mussten. Das liegt an der allgemeinen Eigenschaft der Metropolis-Ketten, dass zu deren Berechnung nur Quotienten der Werte der stationären Verteilung bekannt sein müssen. Die Markov-Kette X ist irreduzibel und aperiodisch, da Pξ,ξ > 0 für manche ξ (falls f nicht konstant ist). Durch Theorem 5.25 und da πf,T reversibel für P ist, wissen wir, dass t→∞ P[Xt = i] −−−→ πf,T (i) gelten muss. Schön wäre es nun auszunutzen, dass für E∗ wir in Lemma 7.3 t→∞ T →0 P[Xt ∈ E∗ ] −−−→ πf,T (E∗ ) −−−→ 1. Allerdings sind hier zwei Grenzübergänge zu betrachten. Dies wird durch eine Wahl von T1 , T2 , . . . und N1 , N2 , . . . durchgeführt: Ziel ist es immer, die Temperatur zu erniedrigen, um dem Minimum näher zu kommen. Passiert dies jedoch zu schnell, so läuft man Gefahr, nur 7.1 Simulated Annealing 61 ein lokales Minimum von f zu finden. Ein Theorem von Geman und Geman besagt: Gilt für die Temperatur T (t) im t-ten Schritt T (t) ≥ |E|(maxs∈E f (s) − mins∈E f (s)) , log t so ist t→∞ P[Xt ∈ E∗ ] −−−→ 1. Leider ist das Annealing-Schema, das durch dieses Theorem gegeben wird, sehr langsam. (Beispielsweise ist schon |E| sehr groß.) In der Praxis wird man mehrere Annealing-Schemas ausprobieren, um sagen zu können, welches in akzeptabler Zeit gute Resultate liefert. Beispiel 7.7 (Zu schnelles Abkühlen). Um ein einfaches Beispiel anzugeben, in dem ein zu schnelles Abkühlen der Markoff-Kette zu einem falschen Ergebnis führt, betrachten wir E = {s1 , s2 , s3 , s4 }. Weiter haben wir f (s1 ) = 1, f (s2 ) = 2, f (s3 ) = 0, f (s4 ) = 2. Um eine Metropolis-Kette zu definieren, müssen wir angeben, welche Punkte benachbart sind. Dies ist durch nachfolgende Grafik veranschaulicht (jeweils mit Überganswahrscheinlichkeiten 21 : s..1.................................................................s.....2 •...... •..... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ............................................................................. s•4 s•3 Damit ergibt sich die Übergangsmatrix der Metropolis-Kette 1 −1/T 1 − e−1/T 12 e−1/T 0 2e 1 1 0 0 2 2 P = 1 −2/T 1 −2/T . −2/T 0 e 1 − e e 2 2 1 1 0 0 2 2 Wir starten die Markoff-Kette in X0 = s1 und verwenden ein Annealing- Schema T (1) , T (2) , . . .. Sie wird sicher dann nicht in das globale Minimum s3 konvergieren, wenn sie immer im Zustand s1 bleibt. Es gilt P[X0 = X1 = · · · = s1 ] = lim t→∞ t Y (i) (1 − e−1/T ) = i=1 ∞ Y (i) (1 − e−1/T ). i=1 Damit gilt nach einem Satz der Analysis P[X0 = X1 = · · · = s1 ] > 0 genau dann wenn ∞ X i=1 e−1/T (i) < ∞. 7.2 Genetische Algorithmen 62 Damit besteht beispielsweise für T (i) = 1i die Möglichkeit, dass die Markoff-Kette immer im Zustand s1 bleibt und somit nicht in das globale Minimum s3 konvergiert. Allgemein kann man sagen, dass ein solches Verhalten auf zwei Dinge zurückzuführen ist: ein zu schnelles Annealing-Schema und ein Punkt s, der zwar ein lokales, aber kein globales Minimum von f ist. 7.2 Genetische Algorithmen Bei genetischen Algorithmen handelt es sich um Algorithmen, die durch eine ähnliche Dynamik wie sie bei der Fortpflanzung von Individuen beobachtet wird, versuchen, eine Zielfunktion zu maximieren. Diese Zielfunktion heist meist Fitnessfunktion. Bemerkung 7.8 (Vererbung). In der Biologie geht man davon aus, dass alle Individuen durch ihr genetisches Material, also ihre Chromosomen, bestimmt werden. Chromosomen bestehen aus DNA, also aus der aneinandergerehten Aminosäuren. Mathematisch können Chromosomen als endliche Folge von Buchstaben aus einem Alphabet modelliert werden. Jeder solchen Folge wird der Wert einer Fitness-Funktion zugeordnet. Genetische Algorithmen modellieren nun die Fortpflanzung dieses genetischen materials. Pflanzen sich Organismen fort, so liegt von beiden Eltern je ein Chromosom vor. Beispielsweise liegen zwei Chromosomen mit der Codierung 1 0 und 0 1 0 1 0 1 1 0 0 0 1 1 1 1 vor; jedes Chromosom besteht also aus acht Aminosäuren, die wir auch Bits nennen wollen. (Dabei haben wir angenommen, dass es nur genau zwei verschiedene Aminosäuren gibt, was eine Vereinfachung darstellt.) Nun findet Mutation, Rekombination und Vererbung mit Selektion statt. • Mutation: Es besteht die Möglichkeit, dass sich einzelne Bits zufällig ändern. Passiert die beispielsweise an der vierten Stelle des Chromosoms, so ergibt sich 1 0 0 1 1 1 10 • Rekombination (oder engl. Crossover ): Das Chromosom des Nachkommens besteht aus Stücken beider Elternteile. Beispielsweise werden die ersten drei und die letzten beiden Bits des ersten und die restlichen Bits des zweiten Elternteils genommen. Dies ergibt das Chromosom 1 0 0 1 0 1 1 0 −→ 1 0 0 0 1 1 1 0 0 1 0 0 1 1 1 1 Die Punkte des Chromosoms, an denen die Rekombination stattfindet, heißen CrossoverPunkte. • Reproduktion mit Selektion: Es werden zwei Individuen i und j der Population gezogen, das Individuum i bekommt einen Nachkommen, und j stirbt. Die Wahrscheinlichkeit, dass sich i fortpflanzen darf ist gegeben durch proportional zur Fitness von Individuum i. 7.2 Genetische Algorithmen 63 Die Evolutionstheorie sagt voraus, dass sich Organismen, die besser an ihre Umwelt angepasst sind oder auf andere Art und Weise fitter als andere, sich öfter fortpflanzen werden, was durch den letzten Schritt realisiert ist. Bemerkung 7.9 (In silico Evolution). Ziel ist es, das Maximum einer Funktion f : E → R zu finden. Hierzu sein eine Population der Größe N gegeben. Individuum i hat einen Typ α(i) ∈ E im Typenraum E. Die Fitness von Typ α ist nun gegeben durch f (α). Da sich gute Typen eher durchsetzen als schlechte, betrachtet man eine Markov-Kette X = (Xt )t=0,1,... mit Xt = (αt (1), ..., αt (N )), wobei αt (i) der Typ von Individuum i zur Zeit t ist. Man geht nun folgendermaßen vor, um das gesuchte Maximum zu finden: Mit bestimmten Wahrscheinlichkeiten findet in jedem Schritt eine der folgenden drei Mechanismen statt. • Mutation: Wähle ein Individuum i und setze αt+1 (i) = β mit Wahrscheinlichkeit Qαt (i),β für eine stochastische Matrix Q. • Rekombination: Wähle zwei Individuen i, j aus und setze αt+1 (i) = β mit Wahrscheinlichkeit Q0αt (i),αt (j);β für eine stochastische Matrix Q0 . • Reproduktion und Selektion: Wähle ein Individuum j rein zufällig aus. Weiter wähle Individuum i mit Wahrscheinlichkeit P f (i)f (j) aus. Setze nun αt+1 (j) = αt (i). (Das j∈N bedeutet, dass Individuum i stirbt und durch einen Nachkommen von i ersetzt wird.) Dieses Schema führt hoffentlich dazu, dass sich die Population aus immer fitteren Individuen zusammensetzt. Beispiel 7.10 (Traveling Salesman Problem (TSP)). Wir wollen nun einen genetischen Algorithmus angeben, mit dem man eventuell das TSP lösen kann. Wir müssen hierzu definieren, was genau ein Individuum ist und welche Mutations- Rekombinationsmechanismen zugelassen sind und welche Fitness-Funktion wir verwenden. Der Typenraum ist hier der Raum E = Sm aller Permutationen der Länge m. Die Fitness von ξ ∈ E (die es ja zu maximieren gilt) ist z.B. gegeben durch g(ξ) = 1 f (ξ) mit f aus (7.1). • Mutation: Eine Mutation besteht aus der zufälligen Vertauschung zweier besuchter Orte, d.h. Q ist gegeben durch (7.2). • Rekombination: Sei i ∈ {1, ..., m} rein zufällig gewählt. Um ξ, η an der Stelle i zu rekombinieren, gehen wir folgendermaßen vor: Bis Ort i werden die Orte in der Reihenfolge von i besucht. Im Anschluss werden die Orte, die noch nicht besucht worden, in der Reihenfolge besucht, wie sie durch η vorgegeben sind. Sei etwa m = 5, ξ = (3, 5, 2, 1, 4), η = (5, 3, 1, 4, 2), so rekombinieren die beiden an Ort 5 zu (3, 5, 1, 4, 2). • Reproduktion mit Selektion: Dies folgt wieder dem allgemeinen Schema aus Bemerkung 7.9.