Wahrscheinlichkeit und Erwartungswert 1 Wahrscheinlichkeit und Erwartungswert Die Stochastik spielt in der RC-Theorie durchaus eine Rolle, wenn man sich die vielfältigen Aussagen über Erwartungswerte und Wahrscheinlichkeiten ins Gedächtnis ruft. Es ist daher sinnvoll, den Überblick mit eineigen grundlegenden Begriffen und Verfahren der Wahrscheinlichkeitstheorie und der Analyse elementarer stochastischer Prozesse abzuschliessen. A. Wahrscheinlichkeit und Verteilungen Ausgehend von einer Konzeption des Zufalls kann man Wahrscheinlichkeiten begründen, die in diesem Zusammenhang wesentlichen Wahrscheinlichkeitsverteilungen charakterisieren und etwaige Bedingtheiten bei der Wahrscheinlichkeitsbestimmung berücksichtigen. A1. Zufallsexperiment und Wahrscheinlichkeitsbegriff Ausgangspunkt ist ein sogenanntes Zufallsexperiment, in dem A ein Ereignis (im Sinne eines möglichen Ausgangs) im relevanten Stichprobenraum darstellt. Beispielsweise ist das Werfen eines symmetrischen Würfels mit den Zahlen 1 bis 6 ein Zufallsexperiment, in dem die verschiedenen möglichen Ausgänge 1,2,3,4,5,6 den Stichprobenraum bilden und jede dabei beobachtbare Zahl ein Ereignis ist. Weil in einem Zufallsexperiment verschiedene Ausgänge möglich sind, ist der Begriff der Wahrscheinlichkeit zentral. Mit P (A) sei die Wahrscheinlichkeit von Ereignis A notiert. Gemeint ist damit der Anteil des Auftretens von A bei Wiederholungen des Zufallsexperiments; P (A) kann man bei hinreichend vielen Wiederholungen des Zufallsexperiments durch die beobachtete relative Häufigkeit des jeweiligen Ereignisses empirisch approximieren. Die Wahrscheinlichkeit P (·) ist generell eine reellwertige Funktion mit folgenden Eigenschaften: • Es gilt 0 ≤ P (A) ≤ 1 for jedes Ereignis A im Stichprobenraum. • Wenn A, B, C, ... eine erschöpfende Menge der Ereignisse im Stichprobenraum (d.h. kein Ereignis ist ausgeschlossen) repräsentieren, dann gilt P (A + B + C + ...) = 1. • Wenn A, B, C, ... sich gegenseitig ausschliessende Ereignisse sind, dann gilt P (A + B + C + ...) = P (A) + P (B) + P (C) + ... Im Würfelbeispiel bedeutet dies, dass die Ausgn̈ge 1,2,3,4,5,6 jeweils mit Wahrscheinlichkeit 1/6 eintreten. Dies drückt aus, dass bei einem symmetrischen Würfel jeder der sechs möglichen Ausgänge gleich häufig auftreten wird. Weil die Ausgänge den Stichprobenraum vollständig ausschöpfen, gilt zudem P (1 + 2 + 3 + 4 + 5 + 6) = 1 (d.h. die Wahrscheinlichkeit, dass als Resultat des Zufallsexperiment 1 oder 2 oder 3 oder 4 oder 5 oder 6 auftritt, beträgt 1). Daneben sind 1,2,3,4,5,6 jeweils sich gegenseitig ausschliessende Ausgänge (d.h. sie können nicht gleichzeitig auftreten); deswegen ist auch P (1 + 2 + 3 + 4 + 5 + 6) = P (A) + P (B) + P (C) + ... = 1 im betrachteten Zufallsexperiment erfüllt. A2. Zufallsvariable und Verteilungen Generell nennt man eine Variable X, deren Werte x durch ein Zufallsexperiment erzeugt werden, eine Zufallsvariable. Eine Zufallsvariable kann diskret (nur abzählbar viele Werte wie beim Würfeln) oder kontinuierlich (unendlich viele Werte innerhalb eines Intervalls wie 2 Mathematischer Anhang bei der Körpergröße) sein. Ihre Werte sind mehr oder weniger wahrscheinlich — es gibt dementsprechend Wahrscheinlichkeitsverteilungen für diskrete und stetige Zufallsvariablen. Wahrscheinlichkeitsverteilungen für eine oder mehrere Zufallsvariablen lassen sich auf verschiedene Weise darstellen (z.B. Graphik, Kreuztabelle). Allgemein wird die Verteilung einer Zufallsveränderlichen X mit den Ausprägungen x durch die Verteilungsfunktion F (x) = P (X ≤ x) für −∞ < x < +∞ beschrieben. Die Verteilungsfunktion gibt jeweils an, mit welcher Wahrscheinlichkeit die Zufallsvariable X einen Wert zwischen −∞ und x annimmt. Sie besitzt die folgenden Eigenschaften: • F (−∞) = 0 und F (+∞) = 1. • F (x) ist eine nichtfallende Funktion von x. • F (x) ist rechtsseitig stetig. Bei einer diskreten Zufallsvariable X, welche die Werte xi (i = 1, 2, ...) mit den WahrscheinP lichkeiten P (X = xi ) = pi annimmt, ist die Verteilungsfunktion durch F (x) = xi ≤x pi bestimmt. Typische diskrete Verteilungen sind die Binomialverteilung, die Poisson-Verteilung und die hypergeometrische Verteilung. Liegt eine kontinuierliche (stetige) Zufallsvariable vor, so ist die Wahrscheinlichkeit dafür, dass sie einen bestimmten Wert xi annimmt, immer gleich 0. Man betrachtet deshalb die Wahrscheinlichkeit dafür, dass X in einem endlichen Intervall [a, b] liegt. Lässt sich diese Wahrscheinlichkeit durch die sogenannte “Wahrscheinlichkeitsdichtefunktion“ f (·) in der Rb Form P (a ≤ X ≤ b) = a f (v) R xdv darstellen, dann kann man die stetige Verteilungsfunktion durch F (x) = P (X ≤ x) = −∞ f (v) dv bestimmen. Typische stetige Verteilungen sind die Normalverteilung, die Chi-Quadrat-Verteilung, die F -Verteilung und die t–Verteilung. Sind also die Wahrscheinlichkeiten bzw. die Dichtefunktion bekannt, so kann man daraus die Verteilungsfunktion berechnen. Umgekehrt kann man aus der Verteilungsfunktion auf die Wahrscheinlichkeiten bzw. die Wahrscheinlichkeitsdichte schliessen: Bei diskreten Zufallsvariablen lässt sich dies durch Differenzbildung, bei stetigen Zufallsvariablen durch Differentiation erreichen. A3. Unabhängigkeit und bedingte Wahrscheinlichkeit Mehrere Zufallsvariablen können eine gemeinsame Verteilung aufweisen, wobei sich die bereits eingeführten Punkte entsprechend verallgemeinern lassen. In diesem Zusammenhang ist zusätzlich zu erwähnen, dass zwei Zufallsvariablen statistisch unabhängig genannt werden, wenn die Wahrscheinlichkeit ihres gemeinsamen Auftretens nur durch das Produkt ihrer individuellen Auftrittswahrscheinlichkeiten bestimmt wird. Liegen dagegen keine statistisch unabhängigen Ereignisse vor, so können für ihr Auftreten bedingte Wahrscheinlichkeiten bestimmt werden, die (im Gegensatz zum Fall der statistischen Unabhängigkeit der Ereignisse) jeweils von den individuellen Auftrittswahrscheinlichkeiten abweichen. Weitere Erläuterungen und Beispiel folgen in Kürze. B. Erwartungswerte und Eigenschaften Die Verteilung von Zufallsvariablen ist bezüglich bestimmter Aspekte näher charakterisierbar. Mathematische Erwartungswerte gehören zu den hierbei grundlegenden statistischen Konzepten. Wahrscheinlichkeit und Erwartungswert 3 B1. Berechnungsvorschrift Der Erwartungswert einer Zufallsvariablen ist ihr arithmetischer Mittelwert (“Durchschnitt”). Der Erwartungswert E einer diskreten Zufallsvariablen X mit Werten x und diskreter Wahrscheinlichkeitsdichtefunktion f (x) ist definiert durch X E(X) = xf (x), x P wobei hier x die Summierung über alle Werte von X bedeutet. Der Erwartungswert E einer stetigen Zufallsvariablen X mit Werten x und stetiger Wahrscheinlichkeitsdichtefunktion f (x) ist definiert durch Z +∞ xf (x)dx. E(X) = −∞ B3. Eigenschaften Der Erwartungswert einer Zufallsvariablen kann als Operator (im Sinne einer Rechenvorschrift) aufgefasst werden. Die Eigenschaften von E(X) sind: • Der Erwartungswert einer Konstanten ist die Konstante: E(konst.) = konst. • Fr den Erwartungswert einer linearen Transformation einer Zufallsvariable X gilt: E(aX + b) = aE(X) + b. • Für statistisch unabhängige Zufallsvariablen X und Y gilt: E(XY ) = E(X)E(Y ). Sei f (x, y) die gemeinsame Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X und Y . Die bedingte Erwartung von X, gegeben Y = y, ist definiert durch X E(X|Y = y) = xf (x|Y = y), x falls X diskret ist, und durch Z +∞ E(X|Y = y) = xf (x|Y = y)dx, −∞ falls X stetig ist. Zu betonen ist, dass E(X|Y = y) aufgrund der Bedingtheit keine Zufallsvariable, sondern eine Konstante ist. C. Reguläre Markow-Ketten Zu beginn des des letzten Jahrhunderts untersuchte der russische Mathematiker Markow u.a. in einem Gedicht von Puschkin die Abfolge von Vokalen und Konsonanten. Dabei stellte er bestimmte Anteilsverteilungen fest, welche die Sequenz der Buchstabentypen (z.B. Vokale auf Vokale, Konsonanten auf Vokale, etc.) charakterisierten. Mit den Markow-Ketten entwickelte er daraus Modelle für Zufallsprozesse, die in diskreter Zeit ein Folge von endlich vielen Zuständen durchlaufen und Schätzungen ihres Langzeitverhaltens (z.B. Anteile von Buchstabentypen) erlauben. Ist eine Menge von endlich vielen Zuständen gegeben und führt eine Folge von Zufallsversuchen zur Realisierung dieser Zustände, dann kann man eine Modellierung im Sinne 4 Mathematischer Anhang einer Markow-Kette durchführen. Eine Markow-Kette liegt vor, falls reelle Zahlen pij für i, j = 1, 2, ..., k mit k X 0 ≤ pij ≤ 1 und pij = 1 j=1 existieren und folgende Eigenschaft erfüllt ist: Ist der i-te Zustand erreicht, dann springt der Prozess beim nächsten Versuch mit der Wahscheinlichkeit in den j-ten Zustand. Eine Markow-Kette ist daher durch eine zeilenstochastische k × k–Übergangsmatrix P = (pij ) gekennzeichnet. Die Markow-Kette ist in ihrem Ablauf vollständig festgelegt, falls daneben noch eine Anfangsverteilung existiert, die als Zeilenvektor (0) (0) (0) p(0) = (p1 , p2 , ..., pk ) (0) geschrieben werden kann. Der Eintrag pi gibt die Wahrscheinlichkeit dafür an, dass die Kette zum Zeitpunkt 0 im Zustand i beginnt. Eine grundlegende Frage betrifft die Übergangswahrscheinlichkeit höherer Ordnung ptij , womit die Wahrscheinlichkeit bezeichnet wird, dass die Kette zum Zeitpunkt t im Zustand j ist, wenn sie zum Zeitpunkt 0 im Zustand i angefangen hat. Diese Wahrscheinlichkeit ergibt sich als ij-tes Element der t-ten Potenz der Übergangsmatrix. Somit ist die Übergangsmatrix nur hinreichend oft mit sich selbst zu multiplizieren, um sämtliche Übergangswahrscheinlichkeiten höherer Ordnung zu bestimmen. Aus der Kombination der Anfangsverteilung p(0) und der Potenzmatrix erhält man auch den Wahrscheinlichkeitsvektor, dessen Einträge die Wahrscheinlichkeiten dafür angeben, zum Zeitpunkt t die entsprechenden Zustände erreicht zu haben: p(t) = p(0) P(t) . Somit hat das Langzeitverhalten der Markow-Kette mit den Potenzen der Übergangsmatrix zu tun. Bei der Einführung der wesentlichen Erkenntnisse zu den langfristigen Tendenzen kann man sich auf reguläre Markow-Ketten beschränken. Eine Markow-Kette mit Übergangsmatrix P ist regulär, wenn jeder Zustand von jedem anderen Zustand in endlich vielen Schritten erreicht werden kann – diese Anforderung dürfte in der Realität zumeist erfüllt sein. Unter dieser Voraussetzung gilt, dass die potenzierte Übergangsmatrix Pt für t → ∞ gegen eine stochastische Matrix W konvergiert, die PW = WP = W erfüllt. Jede Zeile von W ist derselbe Wahrscheinlichkeitsvektor w = (w1 , w2 , . . . , wk ), dessen Einträge allesamt positiv sind. Daneben gilt: Für jeden Wahrscheinlichkeitsvektor p konvergiert das Produkt pPt für t → ∞ gegen w, weshalb man w als stationäre Lösung bzw. Fixpunkt-Vektor der Markow-Kette auffassen kann. Deutlicher wird dies, wenn man w = wP berücksichtigt. Der Wahrscheinlichkeitsvektor w ergibt sich danach als der linke Eigenvektor der (stochastischen) Übergangsmatrix P zum (maximalen) Eigenwert 1. Bekanntlich kann man einen Eigenvektor mit dem Langzeitverhalten des betrachteten Prozesses assoziieren.