Wahrscheinlichkeit und Erwartungswert

Werbung
Wahrscheinlichkeit und Erwartungswert
1
Wahrscheinlichkeit und Erwartungswert
Die Stochastik spielt in der RC-Theorie durchaus eine Rolle, wenn man sich die vielfältigen
Aussagen über Erwartungswerte und Wahrscheinlichkeiten ins Gedächtnis ruft. Es ist daher
sinnvoll, den Überblick mit eineigen grundlegenden Begriffen und Verfahren der Wahrscheinlichkeitstheorie und der Analyse elementarer stochastischer Prozesse abzuschliessen.
A. Wahrscheinlichkeit und Verteilungen
Ausgehend von einer Konzeption des Zufalls kann man Wahrscheinlichkeiten begründen, die
in diesem Zusammenhang wesentlichen Wahrscheinlichkeitsverteilungen charakterisieren und
etwaige Bedingtheiten bei der Wahrscheinlichkeitsbestimmung berücksichtigen.
A1. Zufallsexperiment und Wahrscheinlichkeitsbegriff
Ausgangspunkt ist ein sogenanntes Zufallsexperiment, in dem A ein Ereignis (im Sinne eines
möglichen Ausgangs) im relevanten Stichprobenraum darstellt. Beispielsweise ist das Werfen eines symmetrischen Würfels mit den Zahlen 1 bis 6 ein Zufallsexperiment, in dem die
verschiedenen möglichen Ausgänge 1,2,3,4,5,6 den Stichprobenraum bilden und jede dabei
beobachtbare Zahl ein Ereignis ist.
Weil in einem Zufallsexperiment verschiedene Ausgänge möglich sind, ist der Begriff der
Wahrscheinlichkeit zentral. Mit P (A) sei die Wahrscheinlichkeit von Ereignis A notiert. Gemeint ist damit der Anteil des Auftretens von A bei Wiederholungen des Zufallsexperiments;
P (A) kann man bei hinreichend vielen Wiederholungen des Zufallsexperiments durch die beobachtete relative Häufigkeit des jeweiligen Ereignisses empirisch approximieren. Die Wahrscheinlichkeit P (·) ist generell eine reellwertige Funktion mit folgenden Eigenschaften:
• Es gilt 0 ≤ P (A) ≤ 1 for jedes Ereignis A im Stichprobenraum.
• Wenn A, B, C, ... eine erschöpfende Menge der Ereignisse im Stichprobenraum (d.h. kein
Ereignis ist ausgeschlossen) repräsentieren, dann gilt P (A + B + C + ...) = 1.
• Wenn A, B, C, ... sich gegenseitig ausschliessende Ereignisse sind, dann gilt P (A + B +
C + ...) = P (A) + P (B) + P (C) + ...
Im Würfelbeispiel bedeutet dies, dass die Ausgn̈ge 1,2,3,4,5,6 jeweils mit Wahrscheinlichkeit
1/6 eintreten. Dies drückt aus, dass bei einem symmetrischen Würfel jeder der sechs möglichen
Ausgänge gleich häufig auftreten wird. Weil die Ausgänge den Stichprobenraum vollständig
ausschöpfen, gilt zudem P (1 + 2 + 3 + 4 + 5 + 6) = 1 (d.h. die Wahrscheinlichkeit, dass als
Resultat des Zufallsexperiment 1 oder 2 oder 3 oder 4 oder 5 oder 6 auftritt, beträgt 1).
Daneben sind 1,2,3,4,5,6 jeweils sich gegenseitig ausschliessende Ausgänge (d.h. sie können
nicht gleichzeitig auftreten); deswegen ist auch P (1 + 2 + 3 + 4 + 5 + 6) = P (A) + P (B) +
P (C) + ... = 1 im betrachteten Zufallsexperiment erfüllt.
A2. Zufallsvariable und Verteilungen
Generell nennt man eine Variable X, deren Werte x durch ein Zufallsexperiment erzeugt
werden, eine Zufallsvariable. Eine Zufallsvariable kann diskret (nur abzählbar viele Werte
wie beim Würfeln) oder kontinuierlich (unendlich viele Werte innerhalb eines Intervalls wie
2
Mathematischer Anhang
bei der Körpergröße) sein. Ihre Werte sind mehr oder weniger wahrscheinlich — es gibt
dementsprechend Wahrscheinlichkeitsverteilungen für diskrete und stetige Zufallsvariablen.
Wahrscheinlichkeitsverteilungen für eine oder mehrere Zufallsvariablen lassen sich auf
verschiedene Weise darstellen (z.B. Graphik, Kreuztabelle). Allgemein wird die Verteilung
einer Zufallsveränderlichen X mit den Ausprägungen x durch die Verteilungsfunktion F (x) =
P (X ≤ x) für −∞ < x < +∞ beschrieben. Die Verteilungsfunktion gibt jeweils an, mit
welcher Wahrscheinlichkeit die Zufallsvariable X einen Wert zwischen −∞ und x annimmt.
Sie besitzt die folgenden Eigenschaften:
• F (−∞) = 0 und F (+∞) = 1.
• F (x) ist eine nichtfallende Funktion von x.
• F (x) ist rechtsseitig stetig.
Bei einer diskreten Zufallsvariable X, welche die Werte xi (i = 1, 2, ...) mit den WahrscheinP
lichkeiten P (X = xi ) = pi annimmt, ist die Verteilungsfunktion durch F (x) =
xi ≤x pi
bestimmt. Typische diskrete Verteilungen sind die Binomialverteilung, die Poisson-Verteilung
und die hypergeometrische Verteilung.
Liegt eine kontinuierliche (stetige) Zufallsvariable vor, so ist die Wahrscheinlichkeit dafür,
dass sie einen bestimmten Wert xi annimmt, immer gleich 0. Man betrachtet deshalb die
Wahrscheinlichkeit dafür, dass X in einem endlichen Intervall [a, b] liegt. Lässt sich diese Wahrscheinlichkeit durch die sogenannte “Wahrscheinlichkeitsdichtefunktion“ f (·) in der
Rb
Form P (a ≤ X ≤ b) = a f (v)
R xdv darstellen, dann kann man die stetige Verteilungsfunktion
durch F (x) = P (X ≤ x) = −∞ f (v) dv bestimmen. Typische stetige Verteilungen sind die
Normalverteilung, die Chi-Quadrat-Verteilung, die F -Verteilung und die t–Verteilung.
Sind also die Wahrscheinlichkeiten bzw. die Dichtefunktion bekannt, so kann man daraus
die Verteilungsfunktion berechnen. Umgekehrt kann man aus der Verteilungsfunktion auf die
Wahrscheinlichkeiten bzw. die Wahrscheinlichkeitsdichte schliessen: Bei diskreten Zufallsvariablen lässt sich dies durch Differenzbildung, bei stetigen Zufallsvariablen durch Differentiation erreichen.
A3. Unabhängigkeit und bedingte Wahrscheinlichkeit
Mehrere Zufallsvariablen können eine gemeinsame Verteilung aufweisen, wobei sich die bereits eingeführten Punkte entsprechend verallgemeinern lassen. In diesem Zusammenhang
ist zusätzlich zu erwähnen, dass zwei Zufallsvariablen statistisch unabhängig genannt werden, wenn die Wahrscheinlichkeit ihres gemeinsamen Auftretens nur durch das Produkt ihrer
individuellen Auftrittswahrscheinlichkeiten bestimmt wird. Liegen dagegen keine statistisch
unabhängigen Ereignisse vor, so können für ihr Auftreten bedingte Wahrscheinlichkeiten bestimmt werden, die (im Gegensatz zum Fall der statistischen Unabhängigkeit der Ereignisse)
jeweils von den individuellen Auftrittswahrscheinlichkeiten abweichen.
Weitere Erläuterungen und Beispiel folgen in Kürze.
B. Erwartungswerte und Eigenschaften
Die Verteilung von Zufallsvariablen ist bezüglich bestimmter Aspekte näher charakterisierbar. Mathematische Erwartungswerte gehören zu den hierbei grundlegenden statistischen
Konzepten.
Wahrscheinlichkeit und Erwartungswert
3
B1. Berechnungsvorschrift
Der Erwartungswert einer Zufallsvariablen ist ihr arithmetischer Mittelwert (“Durchschnitt”).
Der Erwartungswert E einer diskreten Zufallsvariablen X mit Werten x und diskreter Wahrscheinlichkeitsdichtefunktion f (x) ist definiert durch
X
E(X) =
xf (x),
x
P
wobei hier x die Summierung über alle Werte von X bedeutet. Der Erwartungswert E einer
stetigen Zufallsvariablen X mit Werten x und stetiger Wahrscheinlichkeitsdichtefunktion f (x)
ist definiert durch
Z
+∞
xf (x)dx.
E(X) =
−∞
B3. Eigenschaften
Der Erwartungswert einer Zufallsvariablen kann als Operator (im Sinne einer Rechenvorschrift) aufgefasst werden. Die Eigenschaften von E(X) sind:
• Der Erwartungswert einer Konstanten ist die Konstante: E(konst.) = konst.
• Fr den Erwartungswert einer linearen Transformation einer Zufallsvariable X gilt:
E(aX + b) = aE(X) + b.
• Für statistisch unabhängige Zufallsvariablen X und Y gilt: E(XY ) = E(X)E(Y ).
Sei f (x, y) die gemeinsame Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X und Y .
Die bedingte Erwartung von X, gegeben Y = y, ist definiert durch
X
E(X|Y = y) =
xf (x|Y = y),
x
falls X diskret ist, und durch
Z
+∞
E(X|Y = y) =
xf (x|Y = y)dx,
−∞
falls X stetig ist. Zu betonen ist, dass E(X|Y = y) aufgrund der Bedingtheit keine Zufallsvariable, sondern eine Konstante ist.
C. Reguläre Markow-Ketten
Zu beginn des des letzten Jahrhunderts untersuchte der russische Mathematiker Markow u.a.
in einem Gedicht von Puschkin die Abfolge von Vokalen und Konsonanten. Dabei stellte er
bestimmte Anteilsverteilungen fest, welche die Sequenz der Buchstabentypen (z.B. Vokale
auf Vokale, Konsonanten auf Vokale, etc.) charakterisierten. Mit den Markow-Ketten entwickelte er daraus Modelle für Zufallsprozesse, die in diskreter Zeit ein Folge von endlich
vielen Zuständen durchlaufen und Schätzungen ihres Langzeitverhaltens (z.B. Anteile von
Buchstabentypen) erlauben.
Ist eine Menge von endlich vielen Zuständen gegeben und führt eine Folge von Zufallsversuchen zur Realisierung dieser Zustände, dann kann man eine Modellierung im Sinne
4
Mathematischer Anhang
einer Markow-Kette durchführen. Eine Markow-Kette liegt vor, falls reelle Zahlen pij für
i, j = 1, 2, ..., k mit
k
X
0 ≤ pij ≤ 1 und
pij = 1
j=1
existieren und folgende Eigenschaft erfüllt ist: Ist der i-te Zustand erreicht, dann springt
der Prozess beim nächsten Versuch mit der Wahscheinlichkeit in den j-ten Zustand. Eine
Markow-Kette ist daher durch eine zeilenstochastische k × k–Übergangsmatrix P = (pij )
gekennzeichnet. Die Markow-Kette ist in ihrem Ablauf vollständig festgelegt, falls daneben
noch eine Anfangsverteilung existiert, die als Zeilenvektor
(0)
(0)
(0)
p(0) = (p1 , p2 , ..., pk )
(0)
geschrieben werden kann. Der Eintrag pi gibt die Wahrscheinlichkeit dafür an, dass
die Kette zum Zeitpunkt 0 im Zustand i beginnt. Eine grundlegende Frage betrifft die
Übergangswahrscheinlichkeit höherer Ordnung ptij , womit die Wahrscheinlichkeit bezeichnet
wird, dass die Kette zum Zeitpunkt t im Zustand j ist, wenn sie zum Zeitpunkt 0 im Zustand
i angefangen hat. Diese Wahrscheinlichkeit ergibt sich als ij-tes Element der t-ten Potenz
der Übergangsmatrix. Somit ist die Übergangsmatrix nur hinreichend oft mit sich selbst zu
multiplizieren, um sämtliche Übergangswahrscheinlichkeiten höherer Ordnung zu bestimmen.
Aus der Kombination der Anfangsverteilung p(0) und der Potenzmatrix erhält man auch
den Wahrscheinlichkeitsvektor, dessen Einträge die Wahrscheinlichkeiten dafür angeben, zum
Zeitpunkt t die entsprechenden Zustände erreicht zu haben:
p(t) = p(0) P(t) .
Somit hat das Langzeitverhalten der Markow-Kette mit den Potenzen der Übergangsmatrix
zu tun. Bei der Einführung der wesentlichen Erkenntnisse zu den langfristigen Tendenzen kann
man sich auf reguläre Markow-Ketten beschränken. Eine Markow-Kette mit Übergangsmatrix
P ist regulär, wenn jeder Zustand von jedem anderen Zustand in endlich vielen Schritten
erreicht werden kann – diese Anforderung dürfte in der Realität zumeist erfüllt sein. Unter
dieser Voraussetzung gilt, dass die potenzierte Übergangsmatrix Pt für t → ∞ gegen eine
stochastische Matrix W konvergiert, die
PW = WP = W
erfüllt. Jede Zeile von W ist derselbe Wahrscheinlichkeitsvektor w = (w1 , w2 , . . . , wk ), dessen
Einträge allesamt positiv sind. Daneben gilt: Für jeden Wahrscheinlichkeitsvektor p konvergiert das Produkt pPt für t → ∞ gegen w, weshalb man w als stationäre Lösung bzw.
Fixpunkt-Vektor der Markow-Kette auffassen kann. Deutlicher wird dies, wenn man
w = wP
berücksichtigt. Der Wahrscheinlichkeitsvektor w ergibt sich danach als der linke Eigenvektor
der (stochastischen) Übergangsmatrix P zum (maximalen) Eigenwert 1. Bekanntlich kann
man einen Eigenvektor mit dem Langzeitverhalten des betrachteten Prozesses assoziieren.
Herunterladen