Stochastik - Alexander Stoffel

Materialien zur Vorlesung
Stochastik
Einführung in die Wahrscheinlichkeitsrechnung und Statistik
Alexander Stoffel
Institut für Nachrichtentechnik
Fakultät für Informations-, Medien- und Elektrotechnik
Fachhochschule Köln
4. Februar 2012
1
2
Einleitung
Dieses Skript ist nur für die Teilnehmer meiner Lehrveranstaltung konzipiert. Hierfür gilt
analog, was in der Einleitung zum Analysis-Skript gesagt wurde, das braucht also nicht
wiederholt zu werden. Für Hinweise auf Tippfehler und andere Unstimmigkeiten sowie
für Verbesserungsvorschläge bin ich sehr dankbar.
Noch eine Anmerkung zum Namen: Stochastik kommt vom griechischen Wort στ óχoς,
Vermutung, Kunst des Mutmaßens. Es bezeichnet das Gebiet der Wahrscheinlichkeitstheorie und der mathematischen Statistik. Diese Bezeichnungsweise ist aber eine Besonderheit des deutschen Sprachraums. Ein entsprechendes englisches Substantiv scheint zumindest außerordentlich wenig gebräuchlich zu sein, das Adjektiv stochastic wird vor allem
im Zusammenhang mit den speziellen Fachausdrücken stochastic process, stochastischer
Prozess und stochastic differential equation, stochastische Differentialgleichung, benutzt.
Beide dieser Fachausdrücke bezeichnen aber sehr spezielle Teilgebiete der (deutschen)
Stochastik. Das Thema dieses Skriptes und der zugehörigen Lehrveranstaltung wäre im
englischen probability and statistics“, was dem oben angegebenen Untertitel entspricht.
”
3
Hier die Literaturempfehlungen:
Literatur
[1] Dimitri P. Bertsekas and John N. Tsitsiklis. Introduction to Probability. Athena
Scientific, Belmont, Massachusetts, second edition edition, 2008.
[2] Karl Bosch. Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg,
Braunschweig, 5. Auflage, 1986.
[3] Karl Bosch. Elementare Einführung in die angewandte Statistik. Vieweg, Braunschweig, 4. Auflage, 1987.
[4] Norbert Henze. Stochastik für Einsteiger. Vieweg, Braunschweig/Wiesbaden, 1997.
[5] Alberto Leon-Garcia. Probability and Random Processes for Electrical Engineering.
Addison-Wesley, Reading, Massachusetts, second edition, 1994.
[6] Lothar Papula. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung. Vieweg, Braunschweig/Wiesbaden, 1994.
[7] Sheldon M. Ross. Introduction to Probality and Statistics for Engineers and Scientists.
Elsevier Academic Press, Amsterdam, third edition, 2004.
[8] Volker Schmidt.
Wahrscheinlichkeitsrechnung.
Skript, Universität
Ulm,
Institut
für
Stochastik,
http://www.mathematik.uniulm.de/stochastik/lehre/ws06 07/wr/skript.pdf, 2006.
[9] Hubert Weber. Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure. Teubner, Stuttgart, 1992.
4
Inhaltsverzeichnis
1 Grundbegriffe
1.1 Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum
1.2 Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum . . .
1.3 Laplace-Modelle, Kombinatorik . . . . . . . . . . . . .
1.4 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
11
15
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
16
2.1 Definitionen und wichtige Folgerungen . . . . . . . . . . . . . . . . . . . . 16
2.2 Produktwahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Anwendungen von bedingten Wahrscheinlichkeiten . . . . . . . . . . . . . . 20
3 Zufallsvariable
3.1 Beispiele, Verteilungsfunktion, Dichtefunktion . . . . . . . . . . . . . . . .
3.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Quantil und Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
24
36
42
4 Spezielle Verteilungen
4.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
44
46
47
5 Mehrere Zufallsvariable mit demselben Grundraum
51
5.1 Zwei Zufallsvariable mit demselben Grundraum . . . . . . . . . . . . . . . 51
5.2 Mehr als zwei Zufallsvariable auf demselben Grundraum . . . . . . . . . . 66
5.3 Summen von Zufallsvariablen, Grenzwertsatz . . . . . . . . . . . . . . . . . 70
6 Grundbegriffe der Statistik
6.1 Histogramm, Mittelwert, Stichprobenvarianz . . . . . .
6.2 Parameterschätzungen . . . . . . . . . . . . . . . . . .
6.3 Allgemeine Prinzipien zur Gewinnung von Schätzungen
6.4 Lineare Regression . . . . . . . . . . . . . . . . . . . .
6.5 Intervallschätzungen, Konfidenzintervalle . . . . . . . .
6.6 Tests von Hypothesen . . . . . . . . . . . . . . . . . .
7 Zufallszahlen, Simulation von Zufallsexperimenten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
77
81
84
91
94
100
A Anhang: Mehrfachintegrale
103
A.1 Funktionen von 2 Variablen: Zweifachintegrale . . . . . . . . . . . . . . . . 103
A.2 Funktionen von 3 und mehr Variablen . . . . . . . . . . . . . . . . . . . . 112
5
1
Grundbegriffe
1.1
Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum
Beispiele für Zufallsexperimente:
• Werfen einer Münze
• Würfeln
• Ziehen der Lottozahlen
• Lebensdauer einer Glühbirne messen
• Übertragen eines Bits über eine unzuverlässige Übertragungsstrecke
Ein Zufallsexperiment ist durch folgende Eigenschaften gekennzeichnet:
• Die Bedingungen sind genau festgelegt (Ziehen der Lottozahlen!).
• Das Experiment ist vom Prinzip her beliebig oft wiederholbar.
• Es gibt mehrere unterscheidbare Elemente der Menge der Ergebnisse des Zufallsexperiments
• Die Ergebnisse sind nicht vorhersagbar.
Beachten Sie, dass hier gedanklich Annahmen gemacht und Näherungen vorgenommen
werden, die in der Praxis in voller Strenge nicht realisiert sind!
Definition 1.1.1 Die Menge der Ergebnisse eines Zufallsexperiments heißt Ergebnismenge, Ergebnisraum, Ereignisraum oder Grundraum und wird hier mit Ω bezeichnet.
Beispiele: Für den Würfel ist Ω = {1, 2, 3, 4, 5, 6}, für das Werfen einer Münze ist Ω =
{W, Z} (oder Ω = {0, 1}). Für die Lebensdauer einer Glühbirne ist Ω = R+ . Als Ereignis
möchte man zulassen, dass beispielsweise eine Zahl größer als 3 gewürfelt wurde. Man
definiert also
Definition 1.1.2 Ereignisse sind Teilmengen von Ω. Sie werden hier meist mit A, B,
C oder D bezeichnet. A = Ω ist das sichere Ereignis, ∅ ist das unmögliche Ereignis.
Elementarereignisse sind Ereignisse mit nur einem Element A = {ω} mit ω ∈ Ω.
Das Ereignis, eine Zahl größer als 3 zu würfeln, ist also A = {4, 5, 6}.
Zur Erinnerung:
A ∪ B := {ω ∈ Ω | ω ∈ A oder ω ∈ B}
A ∩ B := {ω ∈ Ω | ω ∈ A und ω ∈ B}
A \ B := {ω ∈ Ω | ω ∈ A und ω 6∈ B}
Beachten Sie, dass das oder“ bei der Bildung der Vereinigung im nicht ausschließlichen
”
Sinn gemeint ist. Also, wenn ω ∈ A und ω ∈ B, dann ist auch ω ∈ A ∪ B.
6
Definition 1.1.3 Zwei Ereignisse A und B heißen disjunkt, wenn A∩B = ∅. In diesem
Fall wird A+B := A∪B geschrieben. Die Ereignisse A1 , A2 , A3 , . . . An heißen paarweise
disjunkt, wenn Ai ∩ Ak = ∅ für alle i 6= k mit 1 ≤ i, k ≤ n gilt. In diesem Fall schreibt
man
n
X
k=1
Ak = A1 + A2 + A3 + · · · + An := A1 ∪ A2 ∪ A3 ∪ · · · ∪ An =
n
[
Ak
k=1
A := Ω \ A heißt Komplementärereignis, Gegenereignis oder Komplement von A. Es
wird auch Ac := A geschrieben.
Weitere Beispiele:
(a) Werfen von zwei Würfeln. Ω = {1, 2, 3, . . . 6} × {1, 2, 3, . . . 6}. Beachten Sie, dass
beim kartesischen Produkt die Elemente (i, k) und (k, i) zu unterscheiden sind, wenn
i 6= k. Das Ereignis, dass eine Eins und eine Fünf gewürfelt wurde (ohne zu unterscheiden, welcher Würfel ein Auge zeigt), ist also die Teilmenge A = {(1, 5), (5, 1)}.
Abbildung 1: Zum Nadelexperiment von Buffon
(b) Nadelexperiment von Buffon. Eine Nadel der Länge l = 1 wird auf eine Ebene
geworfen, die ein Gitter von Parallelen im Abstand d = 1 enthält. Die Lage der
Nadel soll durch den Abstand a des Mittelpunkts zur nächsten unteren Parallelen
und den Winkel ϕ mit der Senkrechten zur Parallelen gekennzeichnet sein. Wir
haben also 0 ≤ a < 1 und − π2 < ϕ ≤ π2 (siehe auch die Abb. 1). Der Ereignisraum
ist also
π π
Ω = [0, 1[ × ] − , + ]
2
2
Das Ereignis Die Nadel trifft keine Parallele“ ist also die Teilmenge
”
A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)}
1.2
Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum
Betrachten wir als Beispiel das Ereignis A, bei einem Würfel eine Sechs zu würfeln. Wir
wiederholen das Experiment sehr häufig und als nA bezeichnen wir die Zahl der Würfe
mit ω ∈ A und die Gesamtzahl der Würfe nennen wir N . Dann erwarten wir im Limes
7
N → ∞, dass nNA → 16 . Wir werden als Bewertung des nicht exakt vorhersagbaren Ereignisses A sagen, dass die Wahrscheinlichkeit P (A) = 61 . Wir wollen allgemeiner mit
der Wahrscheinlichkeit nicht exakt vorhersagbare Ereignisse bewerten. Es hat sich als
nicht sinnvoll herausgestellt, für die Definition des Begriffes der Wahrscheinlichkeit den
Grenzwert für N → ∞ zu benutzen, wobei N die Gesamtzahl der Wiederholungen des
Zufallsexperiments ist. Man faßt daher den Begriff allgemeiner und sieht als die Wahrscheinlichkeit eine zahlenmäßige Bewertung der nicht exakt vorhersehbaren Ereignisse an,
die bestimmten Grundregeln (Axiomen) genügt.
Vorher ist eine kleine technische Schwierigkeit zu klären. Bei Grundräumen, die unendlich viele Elemente enthalten und die deren Elemente auch nicht durchnumeriert werden
können (beispielsweise bei Ω = R+ ), kann nicht jede Teilmenge als Ereignis zugelassen
werden, das wir mit einer bestimmten Wahrscheinlichkeit bewerten. In solchen Fällen
können wir nur vernünftige“ Teilmengen als Ereignis zulassen. Wir müssen daher die
”
ursprüngliche Definition 1.1.2 des Begriffs Ereignis“ geauer formulieren.
”
Definition 1.2.1 Ereignisse sind Teilmengen des Grundraums Ω. In den Fällen, in denen nicht jede Teilmenge von Ω als Ereignis zugelassen ist, werden folgende Regeln vorausgesetzt:
(a) Ω ist ein Ereignis
(b) A ist ein Ereignis =⇒ A = Ω \ A ist ein Ereignis
(c) Für jede Folge A1 , A2 , A3 , A4 . . . von Ereignissen ist
A1 ∪ A2 ∪ A3 ∪ A4 ∪ . . . =
∞
[
Ak
k=1
ebenfalls ein Ereignis.
Hinweise:
(a) Für endlich viele Ereignisse A1 , A2 , A3 . . . An ist
A1 ∪ A2 ∪ A3 · · · An =
n
[
Ak
k=1
für alle n ∈ N ein Ereignis. Dies folgt aus (c), wenn man Ak = ∅ für k > n setzt.
(b) Weil für alle Ereignisse A, B ⊂ Ω gilt
A ∩ B = (Ac ∪ B c )c
ist auch A ∩ B ein Ereignis. Entsprechendes gilt für endlich viele Ereignisse und
auch für Folgen Ak von Ereignissen: Der Durchschnitt
!c
∞
∞
\
[
A1 ∩ A2 ∩ A3 ∩ A4 ∩ . . . =
Ak =
Ack
k=1
ebenfalls ein Ereignis.
8
k=1
Damit können wir die Grundregeln (Axiome) für die Wahrscheinlichkeit formulieren.
Definition 1.2.2 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Zuordnungsvorschrift, die jedem Ereignis A die reelle Zahl P (A) zuordnet, Wahrscheinlichkeitsmaß auf Ω und P (A) heißt Wahrscheinlichkeit von A, wenn folgende Grundregeln
(Axiome) erfüllt sind:
(a) P (A) ∈ [0, 1] ( Positivität“)
”
(b) P (Ω) = 1 ( Normierung“)
”
(c) Für alle Folgen A1 , A2 , A3 , A4 , . . . von paarweise disjunkten Ereignissen gilt
!
∞
∞
[
X
P
Ak =
P (Ak )
( Additivität“)
”
k=1
k=1
Dann wird Ω mit den zugelassenen Ereignissen und dem Wahrscheinlichkeitsmaß ein
Wahrscheinlichkeitsraum genannt.
Hinweis: Aus der Grundregel (c) folgt, dass für paarweise disjunkte Ereignisse A1 , A2 ,
A3 , . . . An (also endlich viele Ereignisse) gilt
!
n
n
[
X
P
Ak =
P (Ak )
k=1
k=1
(Um dies einzusehen, braucht man nur in (c) Ak = ∅ für k > n zu setzen.)
Beispiele:
(a) Würfel, Ω = {1, 2, 3, . . . 6}, P ({k}) = 61 für alle k = 1, 2, . . . 6, es werden alle Teilmengen von Ω als Ereignisse zugelassen und wir haben
P (A) =
Zahl der Elemente in A
6
(b) Triviales Beispiel: Ω = {1, 2, 3, . . . 6}, alle Teilmengen sind als Ereignisse zugelassen.
1 falls 6 ∈ A
P (A) :=
0 falls 6 6∈ A
ist ein Wahrscheinlichkeitsmaß auf Ω.
(c) Ω = {g, e} Bei der Übertragung eines Bits steht g“ dafür, dass es richtig übertragen
”
wird, e“ dafür, dass es umgekehrt wird (aus 1 wird 0 und aus 0 wird 1). Alle
”
Teilmengen, also ∅, {g}, {e}, Ω sind als Ereignis zugelassen. Für jede Zahl p mit
0 < p < 1 ist

0
falls A = ∅



p
falls A = {g}
P (A) :=
1 − p falls A = {e}



1
falls A = Ω
ein Wahrscheinlichkeitsmaß. Man hofft, dass p nahe an 1 (z.B. p = 0, 999) ein gutes
Modell für die Übertragung ist.
9
(d) Glücksrad. Hier ist eine Möglichkeit für den Grundraum Ω = ] − π, +π] (die Winkelpositionen, die das Glücksrad nach Stillstand einnehmen kann). Es stellt sich hier
heraus, dass es nicht möglich ist, alle Teilmengen dieses Intervalls als Ereignisse zuzulassen. Eine Möglichkeit ist, als Ereignisse links offene und rechts abgeschlossene
Intervalle der Form ]a, b] mit −π ≤ a < b ≤ +π sowie die leere Menge, Vereinigungen von Folgen derartiger Mengen sowie die Komplementmengen derartiger Mengen
zuzulassen. Beachten Sie, dass man damit auch offene und abgeschlossene Intervalle
als Ereignisse bekommt mit
∞
\
1
[a, b] =
]a − ε, b],
k
k=1
]a, b[=
∞
[
1
]a, b − ε]
k
k=1
und einem geeignet gewählten ε > 0. Es ist ein plausibles Modell, dass die Wahrscheinlichkeit dafür, dass das Glücksrad in der Winkelposition ϕ mit ϕ ∈ ]a, b] stehen
bleibt, proportional zur Länge des Intervalls, also zu b − a ist. Aus der Normierungsbedingung ergibt sich sofort
b−a
P (]a, b]) =
2π
Beachten Sie, dass die Wahrscheinlichkeit, dass das Glücksrad in einer genau festgelegten Winkelposition stehen bleibt, verschwindet, also beispielsweise P ({ π6 }) = 0.
(e) Nadelexperiment von Buffon. Hier war schon früher als Grundraum
Ω = [0, 1[×] −
π π
,+ ]
2
2
angegeben worden (siehe auch Abb. 1). Auch hier hat man die technische Schwierigkeit, dass man nicht alle Teilmengen als Ereignisse zulassen kann. Man kann jedoch
Rechtecken analog zu den Intervallen beim Glücksrad und Vereinigungen von Folgen
derartiger Mengen als Ereignisse zulassen und so alle vernünftigen“ Teilmengen von
”
Ω erhalten. Eine sinnvolle Wahrscheinlichkeit einer Teilmenge von Ω sollte proportional zur Fläche dieser Teilmenge sein. Wir bezeichnen mit F (A) die Fläche einer
Teilmenge von Ω. Aus der Normierungsbedingung und der Gesamtfläche F (Ω) = π
ergibt sich die Wahrscheinlichkeit
P (A) =
F (A)
π
Wir hatten schon früher das Ereignis Die Nadel trifft keine Parallele“ als die Teil”
menge
A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)}
charakterisiert. Eine kleine Aufgabe zum Knobeln: Wie groß ist die Wahrscheinlichkeit P (A) dieses Ereignisses? Hierzu empiehlt es sich, eine Zeichnung anzufertigen
und die Randkurven der Fläche, die sich aus den beiden Bedingungen in der Definition von A ergeben, einzuzeichnen. Mit Hilfe von Symmetrieüberlegungen sieht
man, dass sich die Menge A aus vier kleineren Teilmengen derselben Fläche zusammensetzen lässt. Die Fläche dieser kleineren Teilmenge ergibt sich durch eine
einfache Integration, und als Ergebnis erhält man
P (A) = 1 −
10
2
π
(f) Zufallszahlen aus dem Computer. In vielen Programmen ist es möglich, Zufallszahlen x zu berechnen mit x ∈ ]0, 1[. In Scilab erhält man nach Initialisierung durch den
Aufruf rand(’u’) bei jedem Aufruf der Form x=rand() eine Zahl in ]0, 1[. Dies ist
strenggenommen kein Zufallsexperiment. Wenn man den Algorithmus kennt, so lässt
sich jede so erzeugte Zufallszahl exakt vorhersagen (es genügt, das Quellprogramm
zu kennen!). Aber für viele Zwecke kann man mit diesen Zufallszahlen Zufallsexperimente simulieren, bei denen die Wahrscheinlichkeit für das Ereignis x ∈ ]a, b[
durch
P (]a, b[) = b − a
für 0 ≤ a < b ≤ 1
ist. Beachten Sie, dass auch hier die Wahrscheinlichkeit, dass die Zufallszahl einen
genau festgelegten Wert annimmt, verschwindet, also beispielsweise P ({ 21 }) = 0.
1.3
Laplace-Modelle, Kombinatorik
Für viele Ergebnisräume Ω mit endlich vielen Elementen ist das folgende Wahrscheinlichkeitsmaß ein sinnvolles Modell
P (A) =
|A|
Zahl der Elemente in A
=
Zahl der Elemente in Ω
|Ω|
P heißt dann diskrete Gleichverteilung oder Laplace-Verteilung, das zugehörige Experiment Laplace-Experiment, das zugehörige Modell Laplace-Modell. Man hat jedoch sorgfältig zu überprüfen, ob die darin ausgedrückte völlige Gleichberechtigung aller Elemente
des Grundraums wirklich berechtigt ist, wie das erste Beispiel zeigt.
Beispiele:
(a) Werfen von zwei Münzen (oder zweimaliges Werfen einer Münze). Wir bezeichnen
die Ergebnismenge für eine Münze mit Ω = {W, Z} (für Wappen oder Zahl). Wir haben zwei verschiedene Varianten, das Zufallsexperiment durchzuführen, also streng
genommen zwei verschiedene Zufallsexperimente mit zwei Münzen:
(a) ohne Unterscheidung der beiden Münzen oder der Reihenfolge:
ΩA = {(W, W )A , (W, Z)A , (Z, Z)A }
(nach dem Mathematiker d’Alembert)
(b) mit Unterscheidung der Münzen oder der Reihenfolge
ΩL = {(W, W ), (W, Z), (Z, W ), (Z, Z)}
(nach dem Mathematiker Laplace)
Wenn man ohne Überlegung auf ΩA ein Laplace-Modell anwendet, dann erhält man
für die Wahrscheinlichkeit, dass Wappen und Zahl geworfen wird, die falsche Wahrscheinlichkeit 31 . Die Ereignisse A = {(W, Z)A } und B = {(W, W )A } sind jedoch
nicht gleichberechtigt, denn man erhält beim Vergleich der beiden Beschreibungen
A = {(W, Z)A } = {(W, Z), (Z, W )},
11
B = {(W, W )}A = {(W, W )}
Also das eine Ereignis ist ein Elementarereignis bei der Beschreibung nach Laplace,
das andere hat nach Laplace zwei Elemente! Die richtige Wahrscheinlichkeit, dass
Wappen und Zahl geworfen wird, ist also
P (A) =
1
2
Dies ist sinnvoll, weil es zwei Möglichkeiten für Wappen und Zahl gibt (erste Münze
Wappen, zweite Münze Zahl und umgekehrt) dagegen nur eine Möglichkeit dafür,
dass zweimal Wappen auftritt. Wenn man immer noch zweifelt, dann kann man in
Gedanken das Experiment von zwei verschiedenen Beobachtern durchführen lassen,
von denen der eine die beiden Münzen unterscheiden kann, (beispielsweise durch eine
Spezialbrille) und der andere sie nicht unterscheiden kann. Der Ausgang des Zufallsexperiments sollte nicht von der Anwesenheit des Beobachters mit der Spezialbrille
abhängen. Auf dem Grundraum ΩL ist also die Beschreibung durch ein LaplaceModell sinnvoll, auf dem Grundraum ΩA ist das sinnvolle Wahrscheinlichkeitsmaß
durch
1
1
1
P {(W, W )A }) = , P {(W, Z)A }) = , P {(Z, Z)A }) =
4
2
4
gegeben. Die Beschreibung nach Laplace mit ΩL ist jedoch einfacher!
(b) Würfeln mit drei Würfeln (oder dreimaliges Würfeln). Für einen Würfel haben wir
den Grundraum
Ω0 = {1, 2, 3, 4, 5, 6}
und damit für drei Würfel
Ω = Ω0 × Ω0 × Ω0 = {(i, k, l) | i, k, l ∈ Ω0 }
Beachten Sie, dass wir das kartesische Produkt von Mengen so definiert haben, dass
Tripel mit denselben Elementen und unterschiedlicher Reihenfolge als unterschiedliche Elemente anzusehen sind. Also ist hier (3, 2, 1) 6= (2, 3, 1) und unser Grundraum
hat insgesamt 63 = 216 Elemente. Nach Laplace erhält jedes Elementarereignis die
Wahrscheinlichkeit
1
P ({(i, k, l)}) =
216
1
Die Wahrscheinlichkeit, dreimal eine Sechs zu würfeln, ist also 216
. Das Ereignis,
dass die Augenzahl 1, 2, 3 ohne Berücksichtigung der Reihenfolge gewürfelt wird, ist
also die Teilmenge
A = {(1, 2, 3), (1, 3, 2), (3, 1, 2), (2, 1, 3)(2, 3, 1)(3, 2, 1)}
mit 6 Elementen und der Wahrscheinlichkeit P (A) =
6
216
=
(1)
1
.
36
Das letzte Beispiel gibt Anlass zur Definition
Definition 1.3.1 Eine Umordnung der Zahlen (1, 2, 3, 4, . . . n) (alle Zahlen verschieden!)
in eine andere Reihenfolge heißt Permutation, genauer n-Permutation ohne Wiederholung. Mathematisch ist eine Umordnung“eine bijektive Abbildung von
”
{1, 2, 3, 4, . . . n} → {1, 2, 3, 4, . . . n}
Auch eine Umordnung von n verschiedenen Elementen einer Menge (z.B. n verschiedenen
Buchstaben eines Alphabets) heißt Permutation.
12
Das letzte Beispiel legt die Frage nahe, wieviel Permutationen es gibt (in Abhängigkeit
von n). In (1) sind alle 6 = 3 · 2 Permutationen für n = 3 aufgeführt. Aus einer beliebigen
Permutation (i, k, l) für n = 3 erhält man für n = 4 die Permutationen
(4, i, k, l), (i, 4, k, l), (i, k, 4, l), (i, k, l, 4)
und man kann sich überzeugen, dass man aus allen Permutationen für n = 3 auf diese
Weise alle 4 · 6 = 24 Permutationen für n = 4 erhält. Entsprechend erhält man aus einer
beliebigen Permutation (i, k, l, m) für n = 4 die Permutationen für n = 5
(5, i, k, l, m), (i, 5, k, l, m), (i, k, 5, l, m), (i, k, l, 5, m), (i, k, l, m, 5)
und man erhält auf diese Weise alle 5 · 4 · 3 · 2 = 5! = 120 Permutationen für n = 5. Wir
erhalten so das Ergebnis (genauer Beweis durch vollständige Induktion):
Satz 1.3.1 Für beliebiges n ∈ N existieren genau n! verschiedene Permutationen der
Zahlen (1, 2, 3, 4. . . . n).
weiteres Beispiel:
(c) Lotto 6 aus 49. Die Lottozahlen werden nach dem Ziehen sortiert, die Reihenfolge
beim Ziehen wird also nicht berücksichtigt. Der Grundraum ist hier
Ω = {(k1 , k2 , k3 , k4 , k5 , k6 ) | 1 ≤ kl ≤ 49}
und dem Ereignis A, dass die Lottozahlen (i1 < i2 < i3 < i4 < i5 < i6 ) betragen,
entspricht also die Menge
A = {(k1 , k2 , . . . k6 ) | (k1 , k2 , . . . k6 ) ist Permutation von (i1 < i2 < · · · < i6 )}
mit 6! = 720 verschiedenen Elementen. 720 verschiedene Ziehungen führen also zu
denselben Lottozahlen. Für die Ziehung der ersten Zahl k1 gibt es 49 Möglichkeiten,
für die Ziehung von k2 gibt es 48 Möglichkeiten, für k3 47 Möglichkeiten. Für die
Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge gibt es also
insgesamt
NR = 49 · (49 − 1) · (49 − 2) · (49 − 3) · (49 − 4) · (49 − 5)
Möglichkeiten. Legt man ein Laplace-Modell zugrunde, so ist die Wahrscheinlichkeit
für die Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge N1R . Das
Ereignis A besteht aber aus 6! derartigen Elementen. Für das Ereignis Lottozahlen
”
(i1 < i2 < i3 < i4 < i5 < i6 )“ erhalten wir also die Wahrscheinlichkeit
P (A) =
6!
1
=
49 · (49 − 1) · (49 − 2) · (49 − 3) · · · (49 − 5)
13 983 816
Dies ist die Wahrscheinlichkeit, 6 Richtige im Lotto zu haben!
13
Zur Erinnerung:
Die Binomialkoeffizienten
n
k
sind durch
(
1
falls k = 0
n
:=
n!
falls 1 ≤ k ≤ n
k
k!(n − k)!
definiert. Sie haben die Eigenschaften
n
n
n
n
n
= 1,
=
= n,
=
,
n
1
n−1
k
n−k
n
n
n+1
+
=
k−1
k
k
Sie stehen in der n. Zeile des Pascal-Dreiecks an der k. Position von links, wenn man
jeweils mit 0 anfängt zu zählen. Kürzen in der Definition liefert für k ≥ 1
n
1 · 2 · 3 · · · (n − k) · (n − k + 1) · · · n
(n − k + 1) · (n − k + 2) · · · (n − 1) · n
=
=
k
k! · 1 · 2 · 3 · · · (n − k)
k!
n · (n − 1) · (n − 2) · · · (n − k + 1)
=
k!
Wir erhalten also für die Wahrscheinlichkeit 6 Richtige beim Lotto“
”
1
P (A) = 49
6
und allgemeiner für die Wahrscheinlichkeit, bei der zufälligen Auswahl von k Zahlen aus
den Zahlen {1, 2, 3, . . . n} eine vorgegebene Menge A von k Zahlen zu erhalten
P (A) =
1
n
k
allgemeinere Permutationen:
Definition 1.3.2 M sei eine Menge mit n Elementen, beispielsweise M = {1, 2, 3, . . . n}
und k ∈ N.
Eine k-Permutation aus M mit Wiederholung ist ein k-Tupel (a1 , a2 , a3 , . . . ak ) mit ak ∈
M . Die Menge Ω der k-Permutationen aus M mit Wiederholung ist also
Ω = Mk = M
{z × · · · × M}
| ×M ×M
k mal
d.h. das k-fache kartesische Produkt von M .
Wenn k ≤ n, dann ist eine k-Permutation aus M ohne Wiederholung ein k-Tupel
(a1 , a2 , a3 , . . . ak ) mit ak ∈ M und ai 6= ak für i 6= k
Hinweise:
(a) Beachten Sie, dass es bei k-Tupeln grundsätzlich auf die Reihenfolge der Elemente
ankommt.
(b) Es gibt nk k-Permutationen mit Wiederholung (das k-fache kartesische Produkt
einer Menge mit n Elementen hat nk Elemente).
14
(c) Die Zahl der möglichen k-Permutationen ohne Wiederholung ist
n · (n − 1) · (n − 2) · · · (n − k + 1)
Für k = n spricht man von einer n-Permutation in Übereinstimmung mit Definition
1.3.1 und Satz 1.3.1.
(d) Beim Ausmultiplizieren von
(a + b)n = (a + b) · (a + b) · (a + b) · · · (a + b)
{z
}
|
n Faktoren
entspricht die Zahl der Summanden an−k bk der Zahl der Möglichkeiten der Zie”
hung“ von k Faktoren b aus den Klammern der gedachten Nummern 1, 2, . . . n ohne
Berücksichtigung der Reihenfolge der Ziehung“. Dies erklärt das Auftauchen der
”
Binomialkoeffizienten bei Problemen der Art der Ziehung von Lottozahlen.
1.4
Rechenregeln für Wahrscheinlichkeiten
Aus den Grundregeln für die Wahrscheinlichkeit ergeben sich folgende enfache Rechenregeln:
Satz 1.4.1 P sei ein Wahrscheinlichkeitsmaß über dem Grundraum Ω und A, B seien
ein Ereignisse. Dann gilt
(a) P (∅) = 0
(b) P (A) = 1 − P (A)
(c) B ⊂ A =⇒ P (A \ B) = P (A) − P (B) und P (B) ≤ P (A)
(d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B)
Beweis: (a) ergibt sich aus Ω = Ω ∪ ∅. Anwendung der Grundregeln ergibt 1 = P (Ω) =
P (Ω) + P (∅) = 1 + P (∅) und daraus folgt P (∅) = 0.
(b) ergibt sich aus Ω = A ∪ A = A ∪ (Ω \ A). Anwendung der Grundregeln ergibt
1 = P (A) + P (Ω \ A) und damit P (Ω \ A) = P (A) = 1 − P (A)
(c): Wenn B ⊂ A dann ist A = (A \ B) ∪ B. Die Mengen A \ B und B sind disjunkt,
also hat man nach Grundregel (c) P (A) = P (A \ B) + P (B) und daraus ergibt sich
P (A \ B) = P (A) − P (B) und P (A) ≥ P (B).
(d): Hierfür benutzen wir die Identität
A ∪ B = (A \ (A ∩ B)) ∪ (B \ (A ∩ B)) ∪ (A ∩ B)
die man sich leicht an einem Venn-Diagramm klarmachen kann. Die drei Mengen auf
der rechten Seite sind disjunkt (sie sind gerade so konstruiert). Aus (A ∩ B) ⊂ A folgt
nach (c) P (A \ (A ∩ B)) = P (A) − P ((A ∩ B), analog folgt aus (A ∩ B) ⊂ B, dass
P (B \ (A ∩ B)) = P (B) − P ((A ∩ B). Damit erhalten wir aus der obigen Mengenidentität
P (A ∪ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B)
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B)
= P (A) + P (B) − P (A ∩ B)
15
Satz 1.4.2
(a) Wenn Ω aus endlich vielen Elementen besteht, also Ω = {ω1 , ω2 , ω3 , . . . ωn }, dann
ist das Wahrscheinlichkeitsmaß durch die Wahrscheinlichkeiten der Elementarereignisse gegeben mit
pk = P ({ωk }),
0 ≤ pk ≤ 1
und
n
X
pk = 1
(2)
k=1
erfüllen. Umgekehrt definieren beliebige Zahlen p1 , p2 , p3 , . . . pn , die (2) erfüllen,
ein Wahrscheinlichkeitsmaß auf Ω. Die Wahrscheinlichkeit beliebiger Ereignisse ist
durch
k
X
P ({ωi1 , ωi2 , ωi3 . . . ωik }) =
p il
mit 1 ≤ k ≤ n
l=1
gegeben.
(b) Wenn Ω = {ω1 , ω2 , ω3 , . . .} aus einer Folge unendlich vieler Elemente besteht (also
die Elemente von Ω durchnummeriert werden können), dann ist das Wahrscheinlichkeitsmaß analog durch pk = P ({ωk }) gegeben mit
0 ≤ pk ≤ 1
und
∞
X
pk = 1
k=1
und umgekehrt definiert jede Folge pk , die diesen Bedingungen genügt, ein Wahrscheinlichkeitsmaß auf Ω.
Hinweise:
(a) Der Beweis ist leicht mit Hilfe der Grundregeln zu führen.
(b) Man kann nachweisen, dass die reellen Zahlen und nichtleere Intervalle nicht die
Eigenschaft haben, dass man ihre Elemente durchnummerieren kann!
Definition 1.4.1 Wenn Ω die Voraussetzungen einer der beiden Teilaussagen des Satzes 1.4.2 erfüllt, dann heißt P diskretes Wahrscheinlichkeitsmaß und Ω heißt diskreter
Wahrscheinlichkeitsraum. Wenn eine Menge unendlich viele Elemente hat und man die
Elemente einer Menge durchnummerieren kann, dann sagt man, sie habe abzählbar (unendlich) viele Elemente.
2
2.1
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Definitionen und wichtige Folgerungen
Beispiel: In einem Nachbarraum wird mit 2 Würfeln gewürfelt und es soll erraten werden,
ob das Ereignis A eingetreten ist, dass mindestens eine 6 gewürfelt wurde. Um dieses etwas
zu erleichtern, wird mitgeteilt, ob das Ereignis B eingetreten ist, dass die Augensumme
mindestens 8 ist, oder ob dieses nicht der Fall ist. Wir haben also eine Wahrscheinlichkeit
16
Abbildung 2: Zwei Würfel, Ereignis A: Mindestens eine 6“ grau unterlegt, Ereignis B:
”
Augensumme mindestens 8“ eingerahmt
”
für das Ereignis A anzugeben, unter der Zusatzinformation, dass das Ereignis B eingetreten ist. Dabei ist der ursprüngliche Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3 . . . 6}
und
A = {(i, k) ∈ Ω | i = 6 oder k = 6}, B = {(i, k) ∈ Ω | i + k ≥ 8}
Die Idee ist, dass wir aufgrund der Zusatzinformation, das Ereignis B ist eingetreten, den
Grundraum verkleinern und als neuen Grundraum B wählen können. Dieser ist in Abb. 2
eingerahmt. Das Ereignis A ist in der Abb. 2 grau unterlegt. Um die Wahrscheinlichkeit
des Ereignisses A unter der Bedingung B zu bestimmen, brauchen wir jetzt nur alle
Elemente aus B abzuzählen, die zu A gehören (in der Abb. alle eingerahmten und grau
unterlegten Elemente, also 9) und diese durch die Gesamtzahl aller Elemente von B (aller
eingerahmten, also 15) zu dividieren. Einfaches Abzählen ergibt also als die gesuchte
9
= 35 .
bedingte Wahrscheinlichkeit 15
Allgemein möchten wir, dass die bedingte Wahrscheinlichkeit von A unter der Bedingung B proportional zur ursprünglichen Wahrscheinlichkeit sein soll, wenn man sie
auf B als neuem Grundraum einschränkt. Also haben wir als Ansatz für diese bedingte Wahrscheinlichkeit c · P (A ∩ B). Sie soll auf B ein Wahrscheinlichkeitsmaß sein. Die
1
. Dies motiviert die
Normierungsbedingung ergibt dann sofort c · P (B) = 1, also c = P (B)
folgende Definition:
Definition 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und B ⊂ Ω
ein Ereignis mit P (B) 6= 0. Dann ist die bedingte Wahrscheinlichkeit von A unter der
Bedingung B durch
P (A ∩ B)
P (A|B) :=
P (B)
definiert.
Hinweise:
(a) Für Elementarereignisse A = {ω} erhalten wir aus der Definition
(
0
falls ω 6∈ B
P ({ω}|B) =
P ({ω})
falls ω ∈ B
P (B)
17
Die bedingte Wahrscheinlichkeit ist in diesem Fall dann größer als die ursprüngliche,
wenn P (B) < 1 und P ({ω}) > 0.
(b) Trivialerweise erhalten wir P (Ω|B) = 1.
Aus der Definition ergibt sich sofort der Multiplikationssatz:
Satz 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und seien A ⊂ Ω
und B ⊂ Ω Ereignisse mit P (A) 6= 0 und P (B) =
6 0. Dann gilt
P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A)
Definition 2.1.2 Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
Drei Ereignisse A, B, C heißen (stochastisch) unabhängig, wenn
P (A ∩ B) = P (A) · P (B), P (A ∩ C) = P (A) · P (C),
P (A ∩ B ∩ C) = P (A) · P (B) · P (C)
P (B ∩ C) = P (B) · P (C)
Die Ereignisse A1 , A2 , A3 . . . An heißen (stochastisch) unabhängig, wenn für alle Nummern i1 < i2 < i3 < · · · < ik mit k ≤ n gilt
P (Ai1 ∩ Ai2 ∩ Ai3 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · P (Ai3 ) · · · P (Aik )
Hinweis: Wenn A und B unabhängig sind, dann ist P (A|B) = P (A), falls P (B) 6= 0,
und P (B|A) = P (B) falls P (A) 6= 0, die bedingten Wahrscheinlichkeiten stimmen dann
mit den ursprünglichen überein.
Beispiel: Würfeln mit zwei Würfeln. A sei das Ereignis, dass die Augensumme ungerade
ist und B sei das Ereignis, dass die Augenzahl beim 1. Würfel gerade ist. Eine einfache
Überlegung oder Abzählen der Elemente in Abb. 2 ergibt
1
P (A) = ,
2
1
P (B) = ,
2
P (A ∩ B) =
1
4
Die beiden Ereignisse sind also unabhängig, obwohl anschaulich ein Zusammenhang“ des
”
einen Ereignisses mit dem andern besteht.
2.2
Produktwahrscheinlichkeitsmaß
Führt man zwei einzelne Zufallsexperimente mit den Grundräumen Ω1 und Ω2 und den
Wahrscheinlichkeitsmaßen P1 und P2 , die sich nicht gegenseitig beeinflussen, gleichzeitig
oder zeitlich nacheinander durch, so kann man dies auch als ein einziges Experiment
beschreiben mit dem Grundraum
Ω = Ω1 × Ω2
Beispielsweise wählen wir für das gleichzeitige Werfen einer Münze und eines Würfels den
Grundraum
Ω = {W, Z} × {1, 2, . . . 6}
Als Ereignisse lässt man Teilmengen der Form
A = A1 × A2
18
sowie Vereinigungen von Folgen derartiger Ereignisse sowie Komplementmengen derartiger Ereignisse zu, wobei mit A1 zugelassene Ereignisse in Ω1 und mit A2 zugelassene
Ereignisse in Ω2 bezeichnet sind. Durch
P (A) = P1 (A1 ) · P2 (A2 )
erhält man aus den Wahrscheinlichkeitsmaßen in Ω1 und Ω2 ein Wahrscheinlichkeitsmaß
auf Ω, das man Produktwahrscheinlichkeitsmaß nennt. Im angegebenen Beispiel ist
die Wahrscheinlichkeit, Wappen“ und 6 Augen“ zu erhalten
”
”
1
1 1
P ({W } × {6}) = P1 ({W }) · P2 ({6}) = · =
2 6
12
Bei dieser Beschreibung entspricht dem Ereignis: In Experiment 1 tritt A1 auf“ ohne
”
Berücksichtigung von Experiment 2 die Teilmente
A = A1 × Ω2
und entsprechend gehört zum Ereignis In Experiment 2 tritt Ereignis A2 auf“ ohne
”
Berücksichtigung von Experiment 1 die Teilmenge
B = Ω1 × A2
Derartige Ereignisse sind in der Tat unabhängig in Bezug auf das Produktwahrscheinlichkeitsmaß, denn
P (A1 × A2 ) = P (A1 × Ω2 ) ∩ (Ω1 × A2 ) = P1 (A1 ) · P2 (A2 )
= P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 )
Für n nacheinander oder gleichzeitig durchgeführte unabhängige Zufallsexperimente wird
analog vorgegangen.
Beispiel: Bereits früher wurde das Zufallsexperiment Übertragen eines Bits über einen
”
unzuverlässigen Kanal“ erwähnt (siehe Beispiel (c) in Abschnitt 1.2) mit Ω = {g, e}und
g“ für korrekte Übertragung, e“ für Übertragungsfehler und 21 < P0 ({g}) < 1 für eine
”
”
akzeptable Übertragung. In der Praxis überträgt man nicht 1 Bit sondern n Bits. Man
wiederholt dieses Experiment also n mal. Ein entsprechendes Einzelexperiment (mit 2
möglichen Ausgängen) heißt Bernoulli-Experiment. Die n-fache Wiederholung eines
Bernoulli-Experiments wird also durch das Produktwahrscheinlichkeitsmaß beschrieben
mit
Ω = {g, e}n
und P (A1 × A2 × A3 × · · · × An ) = P0 (A1 ) · P0 (A2 ) · P0 (A3 ) · · · P0 (An )
Beispielsweise wird das Ereignis, dass nur beim 3. und 5. Bit ein Übertragungsfehler
auftritt, durch
A = (g, g, e, g, e, g, g, g . . . g)
beschrieben, seine Wahrscheinlichkeit ist
P (A) = p · p · (1 − p) · p · (1 − p) · p · p · p · · · p = pn−2 · (1 − p)2
Wenn bei einem derartigen Elementarereignis k Bits korrekt übertragen werden und bei
(n − k) Bits ein Fehler auftritt, dann ist seine Wahrscheinlichkeit pk · (1 − p)n−k . In der
19
Praxis interessiert man sich meist nicht, bei welchen Bits die Fehler auftreten. Die Frage,
wieviele derartige Elementarereignisse es gibt, also wieviele Möglichkeiten es gibt, k Bits
aus insgesamt n Bits auszusuchen ohne Berücksichtigung
der Reihenfolge des Aussuchens
entspricht demselben Problem beim Lotto: Es sind nk Möglichkeiten. Wir haben also
das für die Praxis wichtige Ergebnis: Die Wahrscheinlichkeit, k von n Bits fehlerfrei zu
übertragen, ist
n k
n
n−k
PB (n, k) =
p (1 − p)
=
pk (1 − p)n−k
k
n−k
Als Zahlenwerte erhält man für p = 0, 99 und n = 1024 die Wahrscheinlichkeit für 5
Fehler 0,0331, für 10 Fehler 0,125, für 15 Fehler 0,0388. Wir werden uns später genauer
mit diesem Ergebnis befassen.
2.3
Anwendungen von bedingten Wahrscheinlichkeiten
Bei der Einführung der bedingten Wahrscheinlichkeit P (A|B) war diese in einem Beispiel
berechnet worden, in dem die Wahrscheinlichkeiten P (Ak ) bekannt waren. In der Praxis
ist es häufig umgekehr: Man kennt bedingte Wahrscheinlichkeiten und möchte daraus die
Wahrscheinlichkeiten berechnen. Hierzu benutzt man eine Zerlegung des Grundraums in
disjunkte Ereignisse und den folgenden Satz:
Satz 2.3.1 Seien A1 , A2 , A3 . . . An Ereignisse mit
Ω=
n
[
Ak
k=1
mit P (Ak ) 6= 0 und
Dann gilt für alle Ereignisse B
n
P
P (Ak ) · P (B|Ak )
(a) P (B) =
k=1
Ai ∩ Ak = ∅ für alle 1 ≤ i, k ≤ n mit i 6= k
( Formel von der totalen Wahrscheinlichkeit“)
”
(b) Wenn P (B) 6= 0, dann gilt für alle k = 1, 2, 3, . . . n die Formel von Bayes“
”
P (Ak ) · P (B|Ak )
P (Ak |B) = P
n
P (Al ) · P (B|Al )
l=1
Beweis:
(a) Die Regel
(C ∪ D) ∩ E = (C ∩ E) ∪ (D ∩ E)
kann man sich leicht an einem Venn-Diagramm klarmachen und durch eine Wahrheitstafel beweisen (siehe das 1. und 2. Übungsblatt zur Mathematik 1, Analysis).
Man kann sie (Beweis durch vollständige Induktion) auf den Fall der Vereinigung
von n Mengen verallgemeinern. Wir wenden sie hier an:
n
n
X
n
S
S
P (B) = P (Ω ∩ B) = P
Ak ∩ B = P
(Ak ∩ B) =
P (Ak ∩ B)
k=1
=
n
X
k=1
k=1
P (Ak ) · P (B|Ak )
Dabei wurde am Schluß Satz 2.1.1 benutzt.
20
k=1
(b) Nach Satz 2.1.1 gilt
P (B) · P (Ak |B) = P (B|Ak ) · P (Ak )
und damit
P (Ak |B) =
P (B|Ak ) · P (Ak )
P (B)
Ersetzt man den Nenner nach der Formel von der totalen Wahrscheinlichkeit durch
die rechte Seite dieser Formel, dann erhält man die behauptete Formel von Bayes.
Anwendungsbeispiele:
Abbildung 3: Baumdiagramm zum Beispiel zur Formel von Bayes aus der Medizin
(a) Bei vielen Krankheiten, die im Frühstadium ohne Symptome verlaufen, gibt es einen
Früherkennungstest, meist durch eine Blutuntersuchung. Das hier angeführte Beispiel stammt von
http://de.wikipedia.org/wiki/Bayes-Theorem
Gehen wir davon aus, dass die Wahrscheinlichkeit, dass eine zufällig ausgesuchte
Testperson an der Krankheit leidet, P (A) = 0, 0002 ist. B bezeichne das Ereignis,
dass der Test für diese Person positiv verläuft. Der Hersteller des Tests versichert,
dass die Wahrscheinlichkeit, dass der Test falsch positiv ist
P (B|A) = 0, 01
beträgt und die Wahrscheinlichkeit, dass die Krankheit erkannt wird
P (B|A) = 0, 99
Wie groß ist die Wahrscheinlichkeit P (B), dass der Test positiv verläuft? Wie groß
ist die Wahrscheinlichkeit, dass die Testperson erkrankt ist, wenn der Test positiv
verläuft? P (B) erhält man aus der Formel von der totalen Wahrscheinlichkeit, wenn
man die Zerlegung
Ω = A ∪ A = A ∪ (Ω \ A)
21
benutzt:
P (B) = P (A) · P (B|A) + P (A) · P (B|A) ≈ 0, 0102
Aus der Formel von Bayes erhält man
P (A|B) =
P (A) · P (B|A)
≈ 0, 0194193
P (A) · P (B|A) + P (A) · P (B|A)
Die Wahrscheinlichkeit, bei positivem Test tatsächlich erkrankt zu sein, ist recht
klein. Man kann sich den entsprechenden Sachverhalt auch graphisch klarmachen
mit Hilfe eines Baumdiagramms oder Ereignisbaumes wie in Abb. 3. Wir erhalten
zunächst
P (B) = P (positiv getestet) = P (krank) · P (positiv getestet | krank)
+P (gesund) · P (positiv getestet | gesund)
was mit der Anwendung der Formel von der totalen Wahrscheinlichkeit identisch
ist. Aus der Definition bedingter Wahrscheinlichkeiten erhält man dann
P (krank ∩ positiv getestet)
P (positiv getestet)
0, 0002 · 0, 99
=
≈ 0, 0194193
0, 0002 · 0, 99 + 0, 9998 · 0, 01
P (krank|positiv getestet) =
In der medizinischen Praxis sollte ein entsprechender Test viel besser sein! So liefert
P (B|A) = 0, 0001 und P (B|A) = 0, 9999 bei gleichem P (A) den eher akzeptablen
Wert P (A|B) ≈ 0, 667.
Abbildung 4: Baumdiagramm für die Übertragung über einen unsicheren Kanal
(b) Übertragung über einen unsicheren Kanal, genaueres Modell (siehe auch Abb. 4).
Wir haben für das Senden ΩS = {0, 1} und für das Empfangen ΩE = {0, 1}, für
beides also Ω = Ωs × ΩE . Das Ereignis, dass Null gesendet wird, ist also
A0 = {0} × ΩE
mit
P (A0 ) = r0
und das Ereignis, dass Eins gesendet wird, ist
A1 = {1} × ΩE
mit
22
P (A1 ) = r1 = 1 − r0
denn A0 ∩ A1 = ∅ und Ω = A0 ∪ A1 . Als bekannt werden vorausgesetzt
p0 = P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE )
p1 = P (0 empfangen|1 gesendet) = P (ΩS × {0}|{1} × ΩE )
Weil
(ΩS × {0}) ∩ (ΩS × {1}) = ∅
und
Ω = (ΩS × {0}) ∪ (ΩS × {1})
haben wir
1 − p0 = P (0 empfangen|0 gesendet) = P (ΩS × {0}|{0} × ΩE )
und analog
1 − p1 = P (1 empfangen|1 gesendet) = P (ΩS × {1}|{1} × ΩE )
Das Ereignis, dass ein Übermittlungsfehler auftritt, sei
B = (0, 1), (1, 0) = ({0} × {1}) ∪ ({1} × {0})
Wir erwarten anschaulich
P (B|A0 ) = P (Fehler|0 gesendet) = P (1 empfangen|0 gesendet) = p0
Dies ist in der Tat richtig, denn
P (Fehler|0 gesendet) = P ({(0, 1), (1, 0)}|{0} × ΩE )
P {(0, 1), (1, 0)} ∩ ({0} × ΩE )
P ({(0, 1)}
=
=
P ({0} × ΩE )
P ({0} × ΩE )
und
P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE )
P (ΩS × {1}) ∩ ({0} × ΩE )
P ({(0, 1)}
=
=
P ({0} × ΩE )
P ({0} × ΩE )
Analog erhält man
P (B|A1 ) = P (Fehler|1 gesendet) = P (0 empfangen|1 gesendet) = p1
Nach der Formel für die totale Wahrscheinlichkeit erhalten wir somit
P (B) = P (A0 ) · P (B|A0 ) + P (A1 )P (B|A1 ) = r0 · p0 + r1 · p1
Wir bezeichnen nun mit C0 das Ereignis, dass wir 0 empfangen, also
C0 = Ωs × {0}
Nach der Formel von Bayes erhält man für P (1 gesendet|0 empfangen)
P (A1 ) · P (C0 |A1 )
P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 )
r1 p1
=
r0 (1 − p0 ) + r1 p1
P (A1 |C0 ) =
23
und für P (0 gesendet|0 empfangen)
P (A0 ) · P (C0 |A0 )
P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 )
r0 (1 − p0 )
=
r0 (1 − p0 ) + r1 p1
P (A0 |C0 ) =
Man kann die Formel von der totalen Wahrscheinlichkeit auch durch die folgende Regel
über die Baumdiagramme ausdrücken, die man sich leicht anhand der Beispiele plausibel
machen kann:
Die totale Wahrscheinlichkeit eines Ereignisses erhält man aus dem Baumdiagramm, indem man über die Wahrscheinlichkeiten aller zu dem Ereignis
führenden Pfade summiert. Die entlang der Pfade auftretenden Wahrscheinlichkeiten sind dabei zu multiplizieren.
Die Formel von Bayes kann man entsprechend durch die Regel ausdrücken:
Die bedingte Wahrscheinlichkeit P (Ak |B) erhält man aus dem Baumdiagramm,
indem man die Wahrscheinlichkeit längs des Pfades über Ak nach B bestimmt
(durch Multiplikation der entsprechenden Wahrscheinlichkeiten) und diese
dann durch die Wahrscheinlichkeit dividiert, die sich nach der Formel für die
totale Wahrscheinlichkeit für P (B) nach der entsprechenden Diagrammregel
ergibt.
3
3.1
Zufallsvariable
Beispiele, Verteilungsfunktion, Dichtefunktion
Häufig interessiert man sich nicht für das ursprüngliche Zufallsexperiment, sondern für
eine Funktion, die aus dem Ergebnis des Experiments berechnet wird. Beim Würfeln mit
zwei Würfeln könnte dies die Augensumme beider Würfel sein. Man hat in diesem Fall
den Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3, . . . 6} und die Funktion
X : Ω → R,
(ω1 , ω2 ) 7→ ω1 + ω2
Man kann dann nach der Wahrscheinlichkeit fragen, dass die Augensumme kleiner oder
gleich 6 ist, also das Ereignis
A = {ω ∈ Ω | X(ω) ≤ 6}
betrachten (dieses Beispiel wird in den Übungen näher untersucht). Dies motiviert die
folgende Definition:
Definition 3.1.1 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Funktion
X : Ω → R,
ω 7→ X(ω)
Zufallsvariable oder Zufallsgröße, wenn für alle Intervalle I die Menge
{ω ∈ Ω | X(ω) ∈ I}
24
ein zugelassenes Ereignis ist. Man benutzt dann die folgenden Kurzschreibweisen
{X = a} := {ω ∈ Ω | X(ω) = a}
{X < a} := {ω ∈ Ω | X(ω) < a}
und analoge Kurzschreibweisen für ≤, > und ≥.
Hinweise:
(a) Zuweilen werden allgemeinere Abbildungen mit der Definitionsmenge Ω und einer
von R verschiedenen Menge als Zielmenge Zufallsvariable genannt und der Name
Zufallsgröße bleibt den Abbildungen mit der Zielmenge R vorbehalten. Wir werden
uns zunächst nicht mit solchen allgemeineren Abbildungen beschäftigen.
(b) Um zu überprüfen, ob eine auf Ω definierte Funktion eine Zufallsvariable ist, genügt
es festzustellen, dass {X ≤ b} für alle b ∈ R ein zugelassenes Ereignis ist. Denn wir
können beispielsweise
{a < X ≤ b} = {X ≤ a}c ∩ {X ≤ b}
schreiben und durch die Vereinigung von Folgen von Intervallen mit einem Randpunkt erhält man Intervalle ohne den Randpunkt und umgekehrt erhält man durch
den Durchschnitt von Intervallen ohne den Randpunkt Intervalle mit dem Randpunkt, wie das am Beispiel der Ereignisse für das Glücksrad erklärt wurde.
Definition 3.1.2 Wenn wir R als Ereignisraum für ein Wahrscheinlichkeitsmaß ansehen, dann vereinbaren wir, dass zunächst alle Intervalle und dann alle Teilmengen, die
aus bereits zugelassenen Ereignissen mit den in Definition 1.2.1 aufgeführten Operationen
konstruiert werden können, als Ereignisse zugelassen sind. Also alle Teilmengen, die sich
— wie in Definition 1.2.1 angegeben — mit Vereinigungen von Folgen von Teilmengen und
Bildung des Komplements aus Intervallen konstruieren lassen, sind in R als Ereignisse
zugelassen.
Für in Ω definierte Zufallsvariable X und als Ereignisse zugelassene Teilmengen A ⊂ R
vereinbaren wir die allgemeine Schreibabkürzung
{X ∈ A} := {ω ∈ Ω | X(ω) ∈ A}
Hinweis: Weil {a} = [a − 1, a] ∩ [a, a + 1], sind damit auch Teilmengen mit nur einem
Element zugelassen; solche Ereignisse sind die Elementarereignisse in R.
Die Definitionen 3.1.1 und 3.1.2 erlauben es nun, mit jeder Zufallsvariable ein Wahrscheinlichkeitsmaß in R einzuführen:
Satz 3.1.1 Sei Ω ein Grundraum mit einem Wahrscheinlichkeitsmaß P und einer in Ω
definierten Zufallsvariable X. Dann wird durch
PX (A) := P {ω ∈ Ω | X(ω) ∈ A} = P {X ∈ A}
für beliebige als Ereignisse zugelassenen Teilmengen A von R ein Wahrscheinlichkeitsmaß
in R definiert. Dieses Wahrscheinlichkeitsmaß wird auch Verteilung oder Wahrscheinlichkeitsverteilung von X genannt.
25
Hinweise:
(a) Beachten Sie, dass speziell für Intervalle A =]a, b] gilt
PX ]a, b]) = P ({a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b}
(b) Der Beweis ist leicht aufgrund der Definitionen zu führen, wenn man beachtet, dass
für beliebige Ereignisse A, B ⊂ R gilt
{X ∈ Ac } = {X ∈ A}c
{X ∈ A ∪ B} = {X ∈ A} ∪ {X ∈ B}
und
Beispiele
(a) Für einen Würfel mit dem Grundraum Ω = {1, 2, 3 . . . 6} haben wir die triviale
Zufallsvariable Ω → R, ω 7→ ω. Wir erhalten das Wahrscheinlichkeitsmaß in R, das
PX (A) =
1
· |A ∩ Ω|
6
für alle als Ereignis zugelassene Mengen A ⊂ R erfüllt. Dabei bezeichnet |A ∩ Ω| die
Zahl der in A ∩ Ω enthaltenen Elemente.
(b) Für das Würfeln mit zwei Würfeln und die Augensumme“ als Zufallsvariable X
”
erhalten wir das Wahrscheinlichkeitsmaß
1
PX (A) = |{(ω1 , ω2 ) | ω1 + ω2 ∈ A}|
36
wobei auch hier |M | die Zahl der Elemente der Menge M bezeichnet. Weitere Einzelheiten dieses Beispiels werden in einer Übungsaufgabe behandelt.
(c) Für das Glücksrad haben wir die triviale Zufallsvariable
X : Ω = ] − π, +π] → R,
ω 7→ ω
und das Wahrscheinlichkeitsmaß
PX (I) =
1
· l I∩ ] − π, +π]
2π
für alle Intervalle I ⊂ R, wobei l(K) die Länge des Intervalls K bezeichnet. Ein
Wahrscheinlichkeitsmaß auf R ist bereits dadurch gegeben, dass wir den Wert für
Intervalle kennen, denn für Ereignisse, die aus Intervallen konstruiert sind, können
wir die Wahrscheinlichkeit nach den Rechenregeln aus Definition 1.2.2 und Satz
1.4.1 berechnen.
(d) Übertragung von n Bits über einen unzuverlässigen Kanal. Hier ist Ω = {g, e}n
und wir betrachten bei festgehaltenem n die Gesamtzahl der Einzelereignisse g der
fehlerfreien Übertragung in ω als Zufallsvariable X(Ω), also
X(ω) = |{1 ≤ k ≤ n | ωk = g}|
Wir haben bereits früher die Wahrscheinlichkeit (bei festgehaltenem n)
n k
n
n−k
p (1 − p)
=
pk (1 − p)n−k
P {X = k} =
k
n−k
berechnet. Wir werden uns später genauer mit diesem Beispiel beschäftigen.
26
(3)
Für die Behandlung von Zufallsvariablen ist die folgende Definition von entscheidender
Bedeutung:
Definition 3.1.3 Sei X eine auf dem Grundraum Ω definierte Zufallsvariable. Dann
heißt die Funktion FX : R → R, die durch
FX (t) := P {X ≤ t} = P {ω ∈ Ω | X(ω) ≤ t}
definiert ist, Verteilungsfunktion von X.
Beispiele:
Abbildung 5: Verteilungsfunktion für einen Würfel
(a) Für die triviale Zufallsvariable bei einem Würfel erhalten wir die Verteilungsfunktion


0 falls t < 1


1


falls 1 ≤ t < 2

6




2
falls 2 ≤ t < 3
FX (t) =
6

..
..


.
.



5

falls 5 ≤ t < 6


 16 falls 6 ≤ t
Diese Verteilungsfunktion ist in Abb. 5 grafisch dargestellt.
(b) Für das Glücksrad erhalten wir die Verteilungsfunktion

0
falls t < −π

1
(t
+
π)
falls
−π ≤ t < π
FX (t) =
 2π
1
falls t ≥ π
Diese ist in Abb. 6 gezeigt.
27
Abbildung 6: Verteilungsfunktion für das Glücksrad
Folgende allgemeine Eigenschaften von Verteilungsfunktionen sind wichtig:
Satz 3.1.2 Sei X eine Zufallsvariable und FX ihre Verteilungsfunktion. Dann gilt
(a) FX ist monoton wachsend.
(b) lim FX (t) = 0, lim FX (t) = 1.
t→−∞
t→+∞
(c) lim FX (t) = FX (a) für alle a ∈ R (also FX ist rechtsseitig stetig).
t→a+
(d) Für alle a < b gilt
P {a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b} = FX (b) − FX (a)
(e) Für alle a ∈ R gilt
P {X = a} = P {ω ∈ Ω | X(ω) = a} = FX (a) − lim FX (t)
t→a−
Hinweise zum Beweis:
• (a) und (b) folgen unmittelbar aus der Definition, für den Beweis von (c) und (e)
muß man die Grundregel der Additivität für Folgen von disjunkten Ereignissen
ausnutzen.
• (d) ergibt sich aus
{X ≤ b} = {X ≤ a} ∪ {a < X ≤ b} und {X ≤ a} ∩ {a < X ≤ b} = ∅
28
also
P {X ≤ b} = P {X ≤ a} + P {a < X ≤ b}
wegen der Grundregel der Additivität. Damit hat man
FX (b) = FX (a) + P {a < X ≤ b}
Das durch die Zufallsvariable X definierte Wahrscheinlichkeitsmaß ist durch die Verteilungsfunktion FX eindeutig bestimmt. Dies folgt unmittelbar aus Teilaussage (d). Wir
haben sogar den Satz:
Satz 3.1.3 Sei F : R → R eine Funktion, die die folgenden Bedingungen erfüllt:
(a) F ist monoton wachsend
(b) lim F (t) = 0, lim F (t) = 1
t→−∞
t→+∞
(c) lim F (t) = F (a) für alle a ∈ R
t→a+
Dann gilt: Durch
P (]a, b]) := F (b) − F (a)
wird ein Wahrscheinlichkeitsmaß auf Ω = R definiert, das
P {a} = FX (a) − lim FX (t)
t→a−
für alle a ∈ R erfüllt.
Der Beweis ist elementar, man hat für kompliziertere Ereignisse A ⊂ R die Wahrscheinlichkeit P (A) gemäß den Rechenregeln aus Definition 1.2.2 und Satz 1.4.1 zu definieren.
Abbildung 7: Verteilungsfunktion für die Lebensdauer eines elektronischen Bauelements
Beispiel: Für die Lebensdauer eines elektronischen Bauteils erhalten wir mit einer vom
Bauteil abhängigen Zeitkonstante τ > 0 ein sinnvolles Wahrscheinlichkeitsmaß durch die
Verteilungsfunktion
0
falls t < 0
FT (t) =
− τt
1−e
falls t ≥ 0
Diese ist in Abb. 7 gezeigt. Die Wahrscheinlichkeit, dass die Lebensdauer T (die wir als
Zufallsvariable auffassen können) im Intervall [a, b] liegt, ist also
a
b
P {T ∈ [a, b]} = F (b) − F (a) = e− τ − e− τ
29
Da F stetig ist, haben wir hier P {T ∈ [a, b]} = P {T ∈]a, b]} = P {T ∈]a, b[} für
alle a < b und P {T = a} = 0 für alle a ∈ R.
Für Zufallsvariable, die auf diskreten Wahrscheinlichkeitsräumen definiert sind, die
den Voraussetzungen einer der beiden Teilaussagen von Satz 1.4.2 genügen, haben wir
das Ergebnis:
Satz 3.1.4
(a) Sei Ω = {ω1 , ω2 , ω3 , . . . ωn }, und das Wahrscheinlichkeitsmaß sei durch
pk = P ({ωk }),
mit
0 ≤ pk ≤ 1
und
n
X
pk = 1
k=1
gegeben und X sei eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion
X
FX (t) =
pk
k = 1, . . . n
X(ωk ) ≤ t
Sie besitzt an den Funktionswerten von X, also für t = X(ωk ) Sprungstellen und
ist dort rechtsseitig stetig; die Differenz zwischen dem rechts- und dem linksseitigen
Grenzwert ist pk . Zwischen diesen Sprungstellen ist FX (t) konstant.
(b) Sei Ω = {ω1 , ω2 , ω3 , . . .} (also eine Folge unendlich vieler Elemente) und sei das
Wahrscheinlichkeitsmaß durch pk = P ({ωk }) gegeben mit
0 ≤ pk ≤ 1
und
∞
X
pk = 1
k=1
und sei X eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion
X
FX (t) =
pk
k∈N
X(ωk ) ≤ t
und sie hat dieselben Eigenschaften wie in Teilaussage (a) mit dem Unterschied,
dass hier eine Folge unendlich vieler Sprungstellen in t = X(ωk ) vorliegt.
Definition 3.1.4 Wir nennen eine Zufallsvariable X eine diskrete Zufallsvariable, wenn
die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen Elementen besteht oder durchnummeriert werden kann (aus einer Folge von Elementen besteht, also
abzählbar unendlich viele Elemente hat).
Hinweise:
(a) Beachten Sie, dass die Elemente eines reellen Intervalls [a, b] mit a < b nicht durchnummeriert werden können!
(b) Wenn X eine diskrete Zufallsvariable ist, dann wissen wir nicht, ob der Grundraum Ω
endlich viele oder abzählbar unendlich viele Elemente besitzt. Wir haben dennoch
eine Situation, die analog zu der des Satzes 1.4.2 ist. Wir können die Menge der
30
möglichen Funktionswerte durchnummerieren und bezeichnen diese mit xk (k läuft
von 1 bis n oder durchläuft ganz N). Wir definieren dann die Zahlen
pk := P {X = xk } = P {ω ∈ Ω | X(ω) = xk } = PX (xk )
Weil Ω =
∞
S
{ω ∈ Ω | X(ω) = xk }, haben wir
k=1
1 = P (Ω) = P
∞
[
{ω ∈ Ω | X(ω) = xk } =
k=1
∞
X
k=1
P {ω ∈ Ω | X(ω) = xk } =
∞
X
pk
k=1
Weiterhin gilt für alle Ereignisse A ⊂ R
P (X ∈ A) = 0 wenn xk 6∈ A für alle k
und insbesondere
P {x} = 0 für alle x 6= xk
und allgemeiner
P (X ∈ A) =
X
pk
k∈N
xk ∈ A
Die Verteilungsfunktion ist dann gegeben durch
FX (t) = P {X ≤ t} =
X
pk
k∈N
xk ≤ t
Wenn die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen
Elementen besteht, dann hat die Verteilungsfunktion die Gestalt einer Treppen”
funktion“ ähnlich wie beim Würfel (siehe Abb. 5); zwischen den Werten xk ist sie
konstant, bei jedem xk macht sie einen Sprung um pk (sie ist dabei rechtsseitig
stetig). Statt FX (t) kann man auch die Zahlen pk grafisch darstellen, dies erfolgt
häufig als Balken- oder Stabdiagramm. Ein Beispiel für eine diskrete Zufallsvariable
wurde als Beispiel (d) nach Satz 3.1.1 (Übertragung von n Bits über einen unzuverlässigen Kanal) angegeben. Diese Zufallsvariable X kann die Werte 0, 1, 2, . . . n
annehmen, ist also eine diskrete Zufallsvariable (wir haben hier n + 1 mögliche Werte und müssen berücksichtigen,
dass die Numerierung bei 0 anfängt). Die Zahlen
pk = P {X = k} sind in Gleichung (3) angegeben. Aus dem binomischen Lehrsatz
n
P
ergibt sich sofort, dass tatsächlich
pk = 1.
k=0
(c) Wenn die Verteilungsfunktion FX (t) in Gestalt einer Treppenfunktion“ vorliegt,
”
dann sind die möglichen Werte {X(ω) | ω ∈ Ω} die Sprungstellen xk von FX (t) und
die zugehörigen Wahrscheinlichkeiten ergeben sich aus der Höhe des Sprungs in xk :
pk = P {X = xk } = FX (xk ) − lim FX (t)
t→xk −
31
FX(t)
p3 = 1 −
p2 =
p1 =
p0 =
3
5
−
1
2
=
3
5
=
2
5
1
10
1
4
1
4
t
Abbildung 8: Zur Bestimmung der Wahrscheinlichkeiten pk aus der Höhe der Sprünge“
”
der Verteilungsfunktion
Beispiel:
FX (t) =


0



1


4
1
2


3


5


1
falls
falls
falls
falls
falls
führt auf x0 = 0, p0 = 14 , x1 = 1, p1 =
p3 = 1 − 53 = 25 (siehe auch die Abb. 8).
1
,
4
t<0
0≤t<1
1≤t<2
2≤t<3
3≤t
x2 = 2, p2 =
3
5
−
1
2
=
1
,
10
x3 = 3,
(d) Wenn eine diskrete
Zufallsvariable X die Werte x1 , x2 , x3 . . . xn annimmt und pk =
P {X = xk } , dann heißt das n-tupel p1 , p2 , p3 . . . pn Verteilung von X.
Die meisten Zufallsvariablen, die in der Praxis vorkommen, sind diskret oder erfüllen die
in der folgenden Definition genannte Bedingung:
Definition 3.1.5 Wenn eine Verteilungsfunktion einer Zufallsvariablen X die Eigenschaft hat, dass
Zt
FX (t) =
f (u)du
für alle t ∈ R
(4)
−∞
wobei die Funktion f stückweise stetig ist sowie
f (t) ≥ 0 für alle t ∈ R
und
Z+∞
f (t)dt = 1
(5)
−∞
erfüllt, dann heißt f (t) Wahrscheinlichkeitsdichte, Dichtefunktion oder Dichte. Wir werden dann sagen, die Zufallsvariable X besitzt eine Dichtefunktion.
32
Hinweise:
(a) Wenn FX durch (4) gegeben ist und f (t) in einem Intervall ]a, b[ stetig ist, dann gilt
zusätzlich nach dem Hauptsatz der Differential- und Integralrechnung
FX0 (t) = f (t)
für alle t ∈]a, b[
(b) Eine Verteilungsfunktion, die mit einer Dichte gemäß (4) gegeben ist, ist stetig. Das
zugehörige Wahrscheinlichkeitsmaß erfüllt damit
P {X = a} = 0
für alle a ∈ R
(c) Wenn FX durch (4) gegeben ist, dann gilt
P (a ≤ X ≤ b} =
Zb
f (x)dx
a
Dies folgt aus Satz 3.1.2 sowie Hinweis b).
(d) Betrachten wir ein Intervall ]a, b[, in dem die Dichtefunktion stetig ist (wir haben
vorausgesetzt, dass sie stückweise stetig ist). Nach Hinweis c) haben wir für die
Wahrscheinlichkeit, dass X(ω) zwischen x0 und x0 + ∆x liegt
P (x0 ≤ X ≤ x0 + ∆x} =
x0Z+∆x
f (x)dx
x0
und falls a < x0 < x0 + ∆x < b haben wir für kleine Werte von ∆x die Näherung
P (x0 ≤ X ≤ x0 + ∆x} ≈ f (x0 )∆x
Diese Wahrscheinlichkeit ist also für genügend kleine ∆x näherungsweise proportional zur Länge des Intervalls ∆x mit einem Proportionalitätsfaktor f (x0 ). Dies
begründet den Namen Dichte“.
”
(e) Jede stückweise stetige und in ganz R definierte Funktion f (t), die die beiden Bedingungen
Z+∞
f (t) ≥ 0 für alle t ∈ R
und
f (t)dt = 1
−∞
erfüllt, definiert durch
Zt
FX (t) :=
f (u)du
für alle t ∈ R
−∞
die Verteilungsfunktion einer Zufallsvariablen X. Wenn nur die Verteilungsfunktion
FX (t) gegeben ist, dann kann man stets als Grundraum Ω = R wählen und durch
P ]a, b] := FX (b) − FX (a)
ein Wahrscheinlichkeitsmaß auf R definieren (siehe Satz 3.1.3).
33
(f) Zahlreiche Wahrscheinlichkeitsmaße der Praxis werden durch ihre Wahrscheinlichkeitsdichte charakterisiert.
(g) Wenn umgekehrt eine Zufallsvariable X die Eigenschaft
P {X = a} = 0
für alle a ∈ R
hat, dann ist ihre Verteilungsfunktion FX (t) stetig (wegen Teilaussage (e) von Satz
3.1.2). Dies bedeutet jedoch nicht, dass notwendigerweise eine stückweise stetige
(oder etwas allgemeinere vernünftige“) Dichtefunktion existiert, die die Vertei”
lungsfunktion nach Gleichung (4) liefert. Allerdings scheinen derartige exotische
Zufallsvariable, die zwar eine stetige Verteilungsfunktion FX (t) haben, aber keine
Wahrscheinlichkeitsdichte besitzen, in praktischen Anwendungen recht selten vorzukommen.
FX (t)
!"ω#
t
ω
Abbildung 9: Beispiel mit {X(ω) | ω ∈ Ω} = [0, 23 ] (links), zugehörige Verteilungsfunktion
FX (t) (rechts)
(h) Man könnte meinen, dass eine Zufallsvariable, bei der die Menge der möglichen
Werte ein nichtleeres Intervall enthält, also bei der
[a, b] ⊂ {X(ω) | ω ∈ Ω} mit a < b
eine stetige Verteilungsfunktion oder gar eine Dichtefunktion besitzt. Dies ist nicht
der Fall, wie das folgende Gegenbeispiel zeigt: Wir nehmen als Grundraum Ω = [0, 1]
mit dem durch P (]a, b]) = b − a gegebenen Wahrscheinlichkeitsmaß. Als Zufallsvariable nehmen wir

falls ω ∈ [0, 13 [
 ω
1
falls ω ∈ [ 13 , 23 [
X(ω) =
 3
ω − 31 falls ω ∈ [ 32 , 1]
Diese Zufallsvariable ist in Abb. 9 (links) grafisch dargestellt. Offensichtlich ist
2
{X(ω) | ω ∈ Ω} = [0, ]
3
1
1 2
1
aber P {X = 3 } = P ([ 3 , 3 ]) = 3 und die Verteilungsfunktion FX (t) hat einen
Sprung in t = 31 . Man kann sie explizit angeben (siehe auch Abb. 9 rechts):

0
falls t < 0



t
falls t ∈ [0, 13 [
FX (t) =
t + 13 falls t ∈ [ 13 , 32 [



1
falls t ≥ 23
34
Beispiele:
(a) Beim Glücksrad haben wir die Wahrscheinlichkeitsdichte
0 falls t ≤ −π oder t > π
f (t) =
1
falls −π < t ≤ +π
2π
Die konstante Dichte drückt aus, dass die Wahrscheinlichkeit über den Winkelbereich ] − π, π] gleichverteilt ist. Verteilungsfunktion FX (t) und Dichtefunktion f (t)
sind in Abb. 10 gezeigt. Beachten Sie, dass f (t) nur unter dem Integral von Bedeutung ist. Damit kann der Funktionswert f (t) ohne irgendwelche Änderungen
bei der Verteilungsfunktion FX (t) an einzelnen Punkten abgeändert werden. Man
kann die Dichte beim Glücksrad also beispielsweise in t = −π abändern, indem man
1
setzt. An den Sprungstellen von f (t) in t = ±π ist FX (t) nicht
f (−π) = 2π
differenzierbar, außerhalb der Sprungstellen, d.h. für t 6= ±π gilt FX0 (t) = f (t).
Abbildung 10: Verteilungsfunktion FX (t) und zugehörige Wahrscheinlichkeitsdichte f (t)
für das Glücksrad
(b) Bei der Lebensdauer von elektronischen Bauelementen haben wir die Dichte
0
falls t ≤ 0
f (t) =
1
− τt
·e
falls t > 0
τ
(6)
Diese Dichte drückt aus, dass die Wahrscheinlichkeit für große Lebensdauern exponentiell abnimmt. Auch hier können wir ohne Auswirkung auf die Verteilungsfunktion FT (t) die Dichtefunktion abändern durch f (0) = τ1 . An der Sprungstelle
t = 0 von f (t) ist FT (t) nicht differenzierbar, für t 6= 0 gilt FT0 (t) = f (t) (siehe auch
Abb. 11).
35
T
t
Abbildung 11: Verteilungsfunktion FT (t) und zugehörige Wahrscheinlichkeitsdichte f (t)
für die Lebensdauer von elektronischen Bauelementen (Zahlenwert τ = 5)
3.2
Erwartungswert und Varianz
Definition 3.2.1 (a) Wenn X eine diskrete Zufallsvariable mit endlich vielen Werten
xk ist, dann ist ihr Erwartungswert durch
n
n
X
X
E(X) :=
P {X = xk } · xk =
p k · xk
(7)
k=1
k=1
definiert.
(b) Wenn X eine diskrete Zufallsvariable mit abzählbar unendlich vielen Werten xk ist,
dann ist ihr Erwartungswert durch
∞
∞
X
X
p k · xk
(8)
E(X) :=
P {X = xk } · xk =
k=1
k=1
definiert, wenn diese Reihe absolut konvergent ist, d.h.
!
n
X
lim
pk · |xk |
n→∞
k=1
existiert.
(c) Wenn X eine Zufallsvariable mit stückweise stetiger Wahrscheinlichkeitsdichte f (x)
ist, dann ist ihr Erwartungswert durch
Z+∞
E(X) :=
f (x) · x dx
(9)
−∞
definiert, wenn dieses uneigentliche Integral absolut konvergent ist, d.h.
Z+∞
f (x) · |x| dx < ∞
−∞
36
Hinweise:
(a) Der Erwartungswert wird hier nur für die in den Anwendungen fast ausschließlich vorkommenden Sonderfälle definiert. Eine allgemeinere Definition für beliebige
Zufallsvariablen ist möglich, aber ihre Formulierung würde erheblichen Platz und
erhebliche Zeit beanspruchen
(b) Aus der absoluten Konvergenz einer Reihe folgt die Konvergenz der Reihe, aber umgekehrt gibt es konvergente Reihen, die konvergieren, aber nicht absolut konvergent
∞
P
sind, z.B. die alternierende harmonische Reihe
(−1)k+1 · k1 . Entsprechend folgt
k=1
aus der absoluten Konvergenz eines uneigentlichen Integrals, dass das uneigentliche
Integral selbst existiert (auch dabei ist die Umkehrung falsch). Es ist üblich und
hat technische Vorteile, hier etwas mehr zu fordern, als für die bloße Existenz der
in der Definition auftretenden unendlichen Reihe bzw. des uneigentlichen Integrals
notwendig wäre.
(c) Es gibt Zufallsvariable, für die der Erwartungswert nicht existiert (Beispiele in den
Übungen und am Schluss dieses Unterabschnitts). Sie kommen in der Praxis jedoch
recht selten vor.
(d) Hier werden nicht immer die Gleichungen für den Fall endlich vieler Werte xk und
abzählbar unendlich vieler xk getrennt aufgeschrieben, sondern es wird in vielen
Fällen nur die allgemeinere Form (8) angeben. Wenn notwendig, erhält man daraus
die Form (7), indem man pk = 0 für k > n setzt.
Beispiele:
(a) Bei einem Würfel ist Ω = {1, 2, . . . 6}, X(ω) = ω und P {X = k} = pk =
alle k = 1, 2, . . . 6. Wir erhalten
E(X) =
6
X
k=1
pk · k =
6
X
1
k=1
6
·k =
1
6
für
6
1 X
21
7
·
k=
= = 3, 5
6 k=1
6
2
Der Erwartungswert ist hier also einfach der Mittelwert. Man kann (7) auch als
gewichteten Mittelwert ansehen. Eine andere Zufallsvariable führt hier zum selben
Erwartungswert: X2 (1) = X2 (2) = X2 (3) = 3, X2(4) = X2 (5) = X2 (6) = 4 nimmt
die Werte x1 = 3 und x2 = 4 mit p1 = P {X2 = 3} = 12 und p2 = P {X2 = 4} = 12
an und wir erhalten denselben Erwartungswert
1
1
7
E(X2 ) = P {X2 = 3} · 3 + P {X2 = 4} · 4 = · 3 + · 4 =
2
2
2
(b) Für das Glücksrad mit der auf ] − π, +π] konstanten Dichte haben wir
Z+∞
Z+π
1
E(X) =
f (x) · x dx =
· x dx = 0
2π
−π
−∞
und wir haben tatsächlich den Mittelwert der möglichen Winkel erhalten.
37
(c) Bei der Lebensdauer eines elektronischen Bauelements haben wir die Dichtefunktion
in (6) angegeben. Für den Erwartungswert erhalten wir hier
Z∞
E(T ) =
x ∞
1 −x
e τ x dx = −e− τ 0 −
τ
0
Z∞
x ∞
x
(−e− τ )dx = −τ e− τ 0 = τ
0
Die Zeitkonstante τ hat hier also die Rolle des Erwartungswertes der Lebensdauer.
Bei zwei reellwertigen Funktionen können wir deren Summe dadurch definieren, dass wir
die Funktionswerte addieren, entsprechendes gilt für das Vielfache einer Funktion. Dies
ist für Zufallsvariable genauso möglich:
Definition 3.2.2 Sei X eine Zufallsvariable, die im Ereignisraum Ω definiert ist und sei
c ∈ R und sei g : R → R eine stückweise stetige Funktion. Dann wird definiert:
c · X : Ω → R,
|X| : Ω → R,
g(X) : Ω → R,
ω→
7 c · X(ω)
ω→
7 |X(ω)|
ω→
7 g X(ω)
Insbesondere für jede in ganz R definierte stetige Funktion g wird mit dieser Definition für
jede Zufallsvariable X eine neue Zufallsvariable g(X) erklärt. Für deren Erwartungswert
gilt der folgende
Satz 3.2.1 Sei g : R → R stetig, X : Ω → R, ω 7→ X(ω) eine diskrete Zufallsvariable
oder eine Zufallsvariable mit stückweise stetiger Dichtefunktion fX (t). Die Zufallsvariable
Y sei durch Y = g(X) definiert und es sei
∞
X
k=0
|g(xk )| ·
pX
k
<∞
Z+∞
|g(u)|fX (u)du < ∞
bzw.
−∞
Dann gilt für den Erwartungswert
∞
X
g(xk ) · pX
E(Y ) = E g(X) =
k
k=1
wenn X eine diskrete Zufallsvariable mit pX
k = P {X = xk } ist bzw.
Z+∞
E(Y ) = E g(X) = g(u)fX (u)du
−∞
wenn fX (u) die Dichtefunktion von X ist.
Beweisskizze: (nur für den Fall einer diskreten Zufallsvariablen X) Wenn X diskret ist,
dann ist auch Y = g(X) diskret. Wir bezeichnen die möglichen Werte von Y mit yl und
definieren die Mengen
Il := {k ∈ N | g(Xk ) = yl }
38
Falls g injektiv ist, enthält jede solche Menge genau ein Element, ansonsten kann sie
mehrere, auch unendlich viele Elemente enthalten. Wir haben für alle vorkommenden l
X
X X
P {Y = yl } = P {g(X) = yl } =
P {X = xk } =
pk
k∈Il
k∈Il
Für den Erwartungswert gilt damit
∞
X
E(Y ) = E g(X) =
yl P {Y = yl }
l=1
=
∞
X
l=1
yl
X
k∈Il
pX
k
=
∞ X
X
l=1 k∈Il
g(xk )pX
k
=
∞
X
g(xk )pX
k
k=1
Satz 3.2.2 Sei X eine diskrete Zufallsvariable oder eine Zufallsvariable mit stückweise
stetiger Dichtefunktion, deren Erwartungswert E(X) existiert.
Dann existiert der Erwartungswert der Zufallsvariablen aX + b und |X| und es gilt
und
E(aX + b) = aE(X) + b
E(|X|) ≥ E(X)
Der Beweis ist elementar und mit Hilfe der Rechenregeln für Summen, Reihen und Integrale leicht zu führen. E(|X|) existiert, weil bei der Definition des Erwartungswertes die
absolute Konvergenz der Reihe bzw. des Integrals vorausgesetzt wurde.
Der Erwartungswert gibt nur eine sehr eingeschränkte Information über X. So besagt
E(X) = 0 nur, dass die Ereignisse X = x oder X ∈ [x, x+∆x] mit ihrer Wahrscheinlichkeit
gewichtet, symmetrisch zum Ursprung liegen. Es ist aber auch von Interesse, wie sehr sie
streuen:
Definition 3.2.3 Sei X eine Zufallsvariable und sei µ := E(X), µ ∈ R (die Existenz des
Erwartungswertes wird also vorausgesetzt). Dann wird die Varianz von X definiert als
Var(X) := E (X − µ)2
wenn dieser Erwartungswert existiert. In diesem Fall wird die Streuung oder Standardabweichung von X als
p
σ(X) := Var(X)
definiert.
Hinweise:
(a) Aufgrund der Definition ist klar, dass für alle Zufallsvariable, für die die Varianz
existiert, Var(X) ≥ 0 gilt.
(b) Für jede Zufallsvariable mit einer stückweise stetigen Wahrscheinlichkeitsdichte f (x)
ist
Z+∞
Var(X) =
f (x)(x − µ)2 > 0
−∞
39
wenn die Varianz existiert. Für eine diskrete Zufallsvariable ist
∞
X
Var(X) =
pk (xk − µ)2
k=1
und der Fall Var(X) = 0 kann nur auftreten, wenn für ein k die Wahrscheinlichkeit
pk = P {X = µ} = 1
ist, das Wahrscheinlichkeitsmaß PX also trivial ist.
(c) In den Anwendungen wird meist die Standardabweichung angegeben, da die Maßeinheit von X (Länge, Spannung, Stromstärke) und von σ(X) übereinstimmen.
Satz 3.2.3 Sei X eine Zufallsvariable, für die Var(X) existiert, und seien a, b ∈ R.
Dann existiert auch der Erwartungswert E(X 2 ) und es gilt:
2
Var(aX + b) = a2 Var(X)
und
Var(X) = E(X 2 ) − E(X)
Beweisskizze: Sei µ := E(X). Wir haben (X − µ)2 = X 2 − 2µX + µ2 und damit
muss
2
2
aufgrund von Satz 3.2.1 und Satz 3.2.2 auch E(X ) existieren, wenn E (X −µ) existiert.
Aufgrund von Satz 3.2.2 gilt
E(aX + b) = aE(X) + b = aµ + b
2 Var(aX + b) = E aX + b − E(aX + b)
= E (aX + b − aµ − b)2
= E a2 (X − µ)2 = a2 E (X − µ)2 ) = a2 Var(X)
Var(X) = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2
2
= E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 = E(X 2 ) − E(X)
Beispiele:
(a) Bei einem Würfel war µ =
Varianz erhält man
Var(X) =
7
2
= E(X) = E(X2 ) (siehe das frühere Beispiel). Für die
6
X
k=1
6
pk (k − µ)2 =
1
7
(3 − )2 +
2
2
Die beiden Zufallsvariablen haben also
unterschiedliche Varianz.
Var(X2 ) =
1X
7
35
(k − )2 =
6 k=1
2
12
1
7
1 1 1 1
1
(4 − ) = · + · =
2
2
2 4 2 4
4
denselben Erwartungswert, aber eine sehr
(b) Beim Glücksrad haben wir
1
Var(X) =
2π
Z+π
1 1 3 +π π 2
x2 dx =
x
=
2π 3 −π
3
−π
(c) Bei der Lebensdauer eines elektronischen Bauelements haben wir
Z∞
t
1
Var(T ) =
(t − τ )2 e− τ dt = τ 2
τ
0
Also erhält man hier σ(T ) = τ (der Erwartungswert war ebenfalls E(T ) = τ ).
40
Anmerkungen:
(a) Es gibt Zufallsvariable, für die kein Erwartungswert existiert. Wir betrachten als
Beispiel die durch die Dichtefunktion
(
0
falls x < 1
f (x) = 1
falls x ≥ 1
x2
gegebene Verteilung. Der zugehörige Erwartungswert existiert nicht, weil das uneiR∞
nicht existiert.
gentliche Integral dx
x
1
(b) Wenn wir das gerade angegebene Beispiel etwas abändern, erhalten wir eine Verteilung, für die zwar E(X) existiert, aber E(X 2 ) nicht existiert. Wir betrachten die
Dichtefunktion
(
0
falls x < 1
f (x) = 2
falls x ≥ 1
x3
Für die dadurch gegebene Verteilung existiert der Erwartungswert
Z∞
2
µ = E(X) =
dx = 2
x2
1
aber die Varianz sowie E(X 2 ) existieren nicht, weil das uneigentliche Integral
R∞ dx
1
nicht existiert.
x
(c) Wie die beiden vorangegangenen Beispiele zeigen, existiert der Erwartungswert
nicht, wenn die Wahrscheinlichkeiten für große Werte von X nicht stark genug abfallen. Wir haben allgemein
E(X 2 ) existiert =⇒ E(X) existiert
Man erhält diese Aussage für diskrete Zufallsvariable durch eine Aufspaltung der
Summe und mit Hilfe einer einfachen Abschätzung
∞
∞
∞
X
X
X
X
X
pk x2k = 1 + E(X 2 )
pk |xk | =
pk |xk | +
pk |xk | ≤
pk +
k=1
k=1
k=1
k∈N
|xk | > 1
k∈N
|xk | ≤ 1
und für Zufallsvariable mit Dichtefunktion, indem man analog das Integral aufspaltet:
Z+∞
Z−1
Z+1
Z+∞
f (x) · |x| dx =
f (x) · |x| dx + f (x) · |x| dx +
f (x) · |x| dx
−∞
−∞
≤
Z−1
−1
f (x) · x2 dx +
−∞
≤
Z+∞
f (x) dx +
−∞
−∞
41
Z+∞
f (x) · x2 dx
f (x) dx +
−1
Z+∞
+1
Z+1
+1
f (x) · x2 dx = 1 + E(X 2 )
3.3
Quantil und Median
In vielen praktischen Beispielen gibt man eine Wahrscheinlichkeit vor,
beispielsweise q =
0, 99 und fragt, für welches t ∈ R die Wahrscheinlichkeit P {X ≤ t} = FX (t) = q erfüllt.
Die Frage lautet also, wie groß muss ich t wählen, damit mit Wahrscheinlichkeit q die
Zufallsvariable X ≤ t erfüllt.
Beispiel:
Lebensdauermodell mit X = T und
0
falls t < 0
FT : R → [0, 1],
t 7→ FT (t) =
− τt
falls t ≥ 0
1−e
Es wird die Zeit t gesucht mit P {T ≤ t} = FT (t) = q = 0, 99. Wir erhalten die Lösung
durch Auflösen der Gleichung
t
1 − e− τ = q
t
nach t, also e− τ = 1 − q und damit − τt = ln(1 − q). Wir erhalten als Ergebnis:
t = −τ · ln(1 − q)
falls q ∈ ]0, 1[
Wenn FX (t) injektiv ist, dann wird die Aufgabe, zu gegebenem q ein t ∈ R mit
FX (t) = q zu finden, durch die Umkehrfunktion gelöst. In der Wahrscheinlichkeitsrechnung
ist eine besondere Sprechweise üblich:
Definition 3.3.1 Sei X eine Zufallsvariable mit der Verteilungsfunktion FX (t) und einer
stückweise stetigen Wahrscheinlichkeitsdichte und sei 0 < q < 1.
Dann heißt eine Zahl xq ∈ R, die
FX (xq ) = q
erfüllt, Quantil der Ordnung q oder q-Quantil. Ein Quantil der Ordnung
1
2
heißt Median.
Hinweise:
(a) Aufgrund der Voraussetzung ist FX (t) stetig. Wenn FX injektiv ist (wie im obigen
Beispiel), dann gilt
xq = FX−1 (q)
Wenn FX nicht injektiv ist, kann die Lösungsmenge von FX (xq ) = q bei vorgegebenem q ∈ ]0, 1[ ein Intervall sein (FX (t) ist monoton wachsend). Dann wird häufig
der linke Randpunkt als Quantil ausgewählt, also der kleinstmögliche Wert.
(b) Die obige Definition kann für nicht stetige Verteilungsfunktionen FX (t) verallgemeinert werden. Wenn FX (t) = q gar keine Lösung t ∈ R hat (bei einer Sprungstelle
kann FX (t) über den Wert q hinwegspringen“), dann wird meist der Wert als Quan”
til xq genommen, an dem FX von einem Funktionswert unterhalb von q auf einen
Funktionswert oberhalb von q springt. In diesem Sonderfall haben wir
lim FX (t) < q
t→xq −
und
lim FX (t) = FX (xq ) > q
t→xq +
In allen Fällen kann man durch die Vorschrift
xq = min{t ∈ R | FX (t) ≥ q}
42
(10)
ein Quantil eindeutig auswählen (min bedeutet das Minimum). Das so gewählte
Quantil xq erfüllt stets
FX (xq ) ≥ q
Wir vereinbaren hier, dass wir diesen Wert in all den Fällen, in denen FX (t) = q
keine oder mehrere Lösungen hat, als das Quantil der Ordnung q ansehen.
(c) Beim Würfel (siehe Abb. 5) ist xq = 5 das Quantil der Ordnung q = 0, 7. Denn
FX (5) = 56 > 0, 7 und FX (t) ≤ 64 = 32 < 0, 7 für alle t < 5.
(d) Die praktische Berechnung erfolgt meist durch ein entsprechendes Computerprogramm. In Scilab gibt es Funktionen zur Berechnung der Quantile für viele häufig
vorkommenden Verteilungen. Ansonsten kann man die Gleichung FX (t) = q bzw.
FX (t) − q = 0 mit fsolve lösen.
(e) Wenn die Wahrscheinlichkeitsdichte fX (t) symmetrisch bezüglich dem Erwartungswert µ = E(X) ist, wenn also
fX (µ + t) = fX (µ − t)
für alle t ∈ R
dann stimmt der Median m mit dem Erwartungswert µ überein (Übungsaufgabe!),
i.a. ist er aber verschieden!
(f) In vielen praktischen Fällen ist der Median m weniger empfindlich gegenüber Aus”
reißern“ als der Erwartungswert µ. Dies wird durch das folgende Beispiel verdeutlicht.
X1 sei gegeben durch
1
(1)
pk = ,
5
(1)
xk = k
für k = 1, 2, . . . 5
X2 sei gegeben durch
(2)
pk =
1
1
−
,
5 10 000
(2)
xk = k
für k = 1, 2, . . . 5
mit einem unwahrscheinlichen Ausreißer“
”
5
(2)
(2)
p6 =
, x6 = 20 000
10 000
Wir haben für X1
1
µ1 = (1 + 2 + 3 + 4 + 5) = 3,
5
weil
FX1 (2) =
2
1
<
5
2
und
m1 = 3
FX1 (3) =
3
1
>
5
2
dagegen für X2
5
1
1
25997
µ2 =
−
(1 + 2 + 3 + 4 + 5) +
· 20 000 =
= 12, 9985
5 10 000
10 000
2000
bei unverändertem Median m2 = 3, weil
FX2 (2) =
2
2
3998
1
−
=
<
5 10 000
10 000
2
und FX2 (3) =
43
3
3
5997
1
−
=
>
5 10 000
10 000
2
4
Spezielle Verteilungen
Zur Erinnerung: Jede Zufallsvariable X : Ω → R definiert durch
PX ]a, b] = P {a < X ≤ b}
ein Wahrscheinlichkeitsmaß auf R, das Wahrscheinlichkeitsverteilung von X genannt
wird. Wenn X eine diskrete Zufallsvariable ist, dann nennt man die zugehörige Verteilung
auch eine diskrete Wahrscheinlichkeitsverteilung. In den Anwendungen kümmert man sich
meist nicht so sehr um den Grundraum Ω, sondern um die Verteilung von Zufallsvariablen.
Die Verteilung PX ist durch die Verteilungsfunktion FX (t) eindeutig
gegeben, diskrete
Verteilungen sind durch die Wahrscheinlichkeiten pk = P {X = xk } eindeutig bestimmt.
Entsprechend sind Verteilungen mit Dichtefunktion durch ihre Wahrscheinlichkeitsdichte
f (x) eindeutig festgelegt. Wir behandeln hier spezielle Verteilungen, die in der Praxis
häufig vorkommen.
4.1
Binomialverteilung
Mehrfach wurde auf das Beispiel der Übertragung von n Bits über einen unzuverlässigen
Kanal hingewiesen. Betrachten wir etwas allgemeiner ein Zufallsexperiment mit 2 möglichen Ausgängen, das durch Ω = {0, 1} beschrieben werden kann. Häufig wird {1} als
Erfolg“ (z.B. fehlerfreie Übertragung) und {0} als Mißerfolg“ (z.B. Übertragungsfehler)
”
”
interpretiert. Jedes Wahrscheinlichkeitsmaß ist durch
p
:=
P
{1}
gegeben mit 0 ≤
0
p ≤ 1. Dann ist aufgrund der Rechenregeln P0 {0} = 1 − p. Die n-fache Wiederholung
(oder parallele Ausführung) von n unabhängigen derartigen Zufallsexperimenten heißt
Bernoulli-Experiment, es wird durch
Ω = Ω0 × Ω0 × Ω0 · · · Ω0
n-faches kartesisches Produkt von Ω0
mit dem Produktwahrscheinlichkeitsmaß
P {ω} = P0 {ω1 } · P0 {ω2 } · P0 {ω3 } · · · P0 {ωn }
beschrieben. Von Interesse ist die Zufallsvariable X, die die Zahl der Erfolge bei einem
solchen n-fachen Experiment zählt, also in der hier angegebenen Schreibweise
X(ω) =
n
X
ωk
k=1
Durch Analogie zum Lotto hatten wir bereits früher die zugehörige Wahrscheinlichkeitsverteilung herausgefunden, sie hat einen speziellen Namen:
Definition 4.1.1 Sei n ∈ N. Dann heißt die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable X, die durch
n k
pk = P {X = k} =
p (1 − p)n−k für k = 0, 1, 2, . . . n
k
gegeben ist, Binomialverteilung mit Parametern n und p.
44
Satz 4.1.1 Sei X eine diskrete Zufallsvariable und ihre Wahrscheinlichkeitsverteilung sei
eine Binomialverteilung mit Parametern n und p.
Dann gilt
E(X) = n · p
und
Var(X) = n · p · (1 − p)
Beweis der linken Identität:
n
n
n
X
X
X
n k
n!
n−k
pk (1 − p)n−k
E(X) =
k · pk =
k·
p (1 − p)
=
k·
k!(n
−
k)!
k
k=0
k=0
k=0
=
n
X
k=1
n·p·
(n − 1)!
pk−1 (1 − p)n−k
(k − 1)!(n − k)!
n−1
X
n−1 X
(n − 1)!
n−1 i
i
n−i−1
= n·p
p (1 − p)
=n·p
p (1 − p)n−1−i
i
!(n
−
i
−
1)!
i
i=0
i=0
n−1
= n · p · p + (1 − p)
=n·p
Dabei wurde der Index gemäß i = k − 1 bzw. k = i + 1 umbenannt. Var(X) = E(X 2 ) −
E(X)2 = n · p · (1 − p) kann man durch eine ähnliche Rechnung beweisen.
Hinweis: Dass der Erwartungswert p = E(X)
erfüllt, rechtfertigt die anschauliche Intern
pretation der Wahrscheinlichkeit bei Bernoulli-Experimenten als relative Häufigkeit: Bei
einer großen Zahl von Experimenten sollte die Zahl der Ereignisse dividiert durch die
Gesamtzahl der Einzelexperimente annähernd mit der Wahrscheinlichkeit für das Einzelereignis übereinstimmen.
Abbildung 12: Binomialverteilung mit den Parametern n = 1024 und p = 0, 01, links
Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t)
Beispiel: Kehren wir zurück zu unserem früheren Beispiel der Übertragung von n Bits
über einen unzuverlässigen Kanal. Für eine grafische Darstellung ist es sinnvoll, die Notation zu wechseln und das Auftreten eines Übertragungsfehlers mit {1} zu bezeichnen,
dessen Wahrscheinlichkeit p sehr klein ist (äquivalent zum früheren Zahlenbeispiel ist
p = 0, 01). Wir hatten früher n = 1024 gewählt. Für diese Wahl erhalten wir als Erwartungswert für die Zahl der Fehler und als Standardabweichung
p
p
E(X) = n · p = 10, 24;
σ(X) = Var(X) = n · p · (1 − p) ≈ 3, 184
In Abb. 12 sind links die zugehörigen Wahrscheinlichkeiten pk in einem Stabdiagramm
dargestellt, rechts ist die Verteilungsfunktion FX (t) gezeigt.
45
4.2
Poissonverteilung
Die Poissonverteilung entsteht als Grenzwert einer Folge von Binomialverteilungen mit
konstantem Erwartungswert. Betrachten wir hierfür eine Folge von Bernoulli-Experimenten, bei der die Gesamtzahl der Einzelexperimente n ist und die Wahrscheinlichkeit für
das Einzelereignis pn = nµ immer kleiner wird, aber so, dass der Erwartungswert für die
Anzahl des Auftretens des Erfolgs“ {1} gleich bleibt mit E(Xn ) = n · pn = µ. Wir
”
erhalten mit Hilfe einiger Rechentricks
n(n − 1)(n − 2) · · · (n − k + 1) k
n k
· pn (1 − pn )n−k
P {Xn = k} =
pn (1 − pn )n−k =
k!
k
n(n − 1)(n − 2) · · · (n − k + 1) µ k µ −k µ n
=
·
· 1−
· 1−
k!
n
n
n
k
−k
µ n
µ n(n − 1)(n − 2) · · · (n − k + 1)
µ
·
·
1
−
=
·
1
−
k!
nk
n
n
Für die Grenzwerte der auftretenden Folgen für n → ∞ haben wir
n(n − 1)(n − 2) · · · (n − k + 1)
2
k−1
1
· 1−
··· 1 −
→1
=1· 1−
nk
n
n
n
n
µ −k
(−µ)
1−
→ e−µ
→ 1,
1+
n
n
Damit erhalten wir das Ergebnis für die Folge von Binomialverteilungen
pn =
µ
µk
=⇒ lim P {Xn = k} = e−µ ·
n→∞
n
k!
Definition 4.2.1 Sei µ > 0. Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X,
die für alle k ∈ N0 durch
µk
P {X = k} = pk = e−µ ·
k!
gegeben ist, heißt Poisson-Verteilung mit Parameter µ.
Satz 4.2.1 Sei X eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung die PoissonVerteilung mit Parameter µ > 0 ist. Dann gilt für Erwartungswert und Varianz
E(X) = Var(X) = µ
Beweis:
E(X) =
∞
X
k=0
= e
−µ
−µ µ
k·e
µ
k!
∞
X
µk
k=0
k
k!
=e
−µ
∞
∞
∞
X
X
X
k k
µk
µk−1
−µ
−µ
µ =e
=e µ
k!
(k − 1)!
(k − 1)!
k=1
k=1
k=1
= e−µ µeµ = µ
46
E(X 2 ) =
∞
X
k=0
−µ
= e
k 2 · e−µ
µ
∞
X
k=1
−µ
= e
∞
X
µk−1
µk
= e−µ µ
k
k!
(k − 1)!
k=1
(k − 1 + 1)
∞
X
µk−1
µk−1
−µ
µ
+e µ
(k − 1)
(k − 1)!
(k − 1)!
k=1
k=1
= e−µ µ
∞
X
µk−1
(k − 1)!
∞
∞
X
X
µk
µk
= µ2 + µ
k + e−µ µ
k!
k!
k=0
k=0
Aufgrund von Satz 3.2.3 haben wir Var(X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ.
Abbildung 13: Poissonverteilung mit dem Parameter µ = 10.24, links Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t). Der Parameter ist so gewählt,
dass der Erwartungswert mit dem der Binomialverteilung in Abb. 12 übereinstimmt.
Hinweis: Aufgrund des Ergebnisses, dass eine Folge von Binomialverteilungen mit pn = nµ
gegen eine Poisson-Verteilung konvergiert, kann die Poisson-Verteilung auch als Näherung
für eine Binomialverteilung mit großem n und kleinem p benutzt werden, wenn man den
Parameter µ = n · p wählt. Dies ist in Abb. 13 verdeutlicht. Dort sind die Wahrscheinlichkeiten pk und die Verteilungsfunktion FX (t) einer Poissonverteilung gezeigt, wobei der
Parameter µ = 10, 24 so gewählt wurde, dass der Erwartungswert mit dem der Binomialverteilung n · p in Abb. 12 übereinstimmt. Die Standardabweichung ist hier jedoch
√
√
σ(X) = µ = n · p = 3, 2, also etwas größer (der Faktor (1 − p) fehlt hier).
4.3
Normalverteilung
Definition 4.3.1 Sei µ ∈ R und σ > 0 und sei X eine Zufallsvariable, die die Wahrscheinlichkeitsdichte
(x−µ)2
1
f (x) = √ · e− 2σ2
(11)
σ 2π
hat. Dann heißt die Wahrscheinlichkeitsverteilung von X Normalverteilung; man sagt,
die Zufallsvariable X ist normalverteilt, und man schreibt symbolisch X ∼ N (µ, σ 2 ). Im
47
Sonderfall µ = 0 und σ = 1, also für die Dichtefunktion
1 2
1
ϕ(x) = √ · e− 2 x
2π
(12)
heißt die zugehörige Wahrscheinlichkeitsverteilung Standardnormalverteilung und man
schreibt symbolisch X ∼ N (0, 1). Die zugehörige Verteilungsfunktion wird mit
Zt
Φ(t) =
−∞
1
ϕ(x)dx = √
2π
Zt
1 2
e− 2 x dx
(13)
−∞
bezeichnet.
Hinweise:
(a) Es ist bekannt, dass die Stammfunktion F (x) =
Rx
2
2
e−t dt von f (x) = e−x nicht ex-
0
plizit durch bekannte elementare Funktionen ausgedrückt werden kann. Man kann
sie aber numerisch problemlos ausrechnen (z.B. durch eine Potenzreihenentwicklung). Man kann allerdings, ohne numerische Approximationen zu Hilfe zu nehmen,
überprüfen, dass die durch (13) definierte Dichtefunktion tatsächlich der Normierungsbedingung von Definition 3.1.5 genügt. Hierzu berechnet man

  +∞
2  +∞
 +∞
Z
Z+∞ Z+∞
Z
Z
2
2
2
2
2
−y
−x
−x

e dy  =
e−(x +y ) dx dy = π
e dx · 
e dx = 
−∞
−∞
−∞
−∞ −∞
nach den Rechenregeln für Mehrfachintegrale (Übergang zu Polarkoordinaten). Die
ausführliche Rechnung steht im Anhang A.1, siehe insbesondere (51) bis (53). Damit
erhält man
Z+∞
√
2
e−x dx = π
(14)
−∞
√
Mit der Substitution x = 2v kann man sich dann überzeugen, dass die durch (13)
definierte Dichte tatsächlich der Normierungsbedingung genügt. Das Integral für
den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man durch die Substitution u = x−µ
auf
σ
den Sonderfall X ∼ N (0, 1) zurückführen.
(b) Die Verteilungsfunktion (13) kann ebenfalls nicht durch bekannte elementare Funktionen ausgedrückt werden. In einigen Büchern ist sie direkt tabelliert. Häufig ist
sie mit einer andern Funktion zu berechnen. Aus Symmetriegründen haben wir
1
√
2π
Z0
1 2
e− 2 x dx = Φ(0) =
1
2
−∞
und damit
1
1
Φ(t) = + √
2
2π
48
Zt
0
1 2
e− 2 x dx
Diese Gleichung ist auch
√ für t < 0 gültig (Rechenregeln für die Integration). Durch
die Substitution x = 2v erhalten wir
√t
Φ(t) =
1
1
+√
2
π
Z2
2
e−x dx
0
Die Fehlerfunktion (error function) ist durch
2
erf(t) := √
π
Zt
2
e−x dx
0
definiert und steht in Scilab und MATLAB zur Verfügung. In Mathematica ist diese
Funktion durch Erf[t] aufzurufen. Damit kann die Verteilungsfunktion mit
t
1 1
Φ(t) = + · erf √
2 2
2
berechnet werden. Es muß jedoch davor gewarnt werden, dass die Konventionen
hinsichtlich der Definition der Fehlerfunktion unterschiedlich sind.
(c) Aus erf(−t) = − erf(t) folgen die nützlichen für alle t ∈ R gültigen Rechenregeln
Φ(t) − Φ(−t) = 2Φ(t) − 1
Φ(−t) = −Φ(t) + 1
(15)
(16)
(d) Den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man erneut durch die Substitution u = x−µ
σ
auf den Sonderfall X ∼ N (0, 1) zurückführen. Damit erhält man für die Verteilungsfunktion
Zt
t−µ
Zσ
1 2
1
e
dx = √
e− 2 u du = Φ
2π
−∞
−∞
t−µ
1 1
√
+ · erf
=
2 2
σ 2
1
√
FX (t) =
σ 2π
(x−µ)2
−
2σ 2
t−µ
σ
(e) Die Normalverteilung ist eine der wichtigsten Verteilungen in der Praxis. Dies liegt
darin begründet, dass sie in sehr allgemeinen Situationen als Grenzwert auftritt
(zentraler Grenzwertsatz, wird später behandelt). Sie stellt daher in vielen praktischen Anwendungen eine gute Näherung an die vorliegende unbekannte Verteilung
dar.
(f) Für einige Parameter ist die Dichtefunktion und die Verteilungsfunktion der Normalverteilung in Abb. 14 grafisch dargestellt. Die Abbildungen stammen von
http://en.wikipedia.org/wiki/Normal_distribution
Satz 4.3.1 Sei X eine normalverteilte Zufallsvariable, also X ∼ N (µ, σ 2 ). Dann gilt:
(a) E(X) = µ, Var(X) = σ 2 .
49
Abbildung 14: Normalverteilung, links Dichtefunktionen f (x), rechts die zugehörigen Verteilungsfunktionen für verschiedene Parameter µ und σ
(b) Die Wahrscheinlichkeitsverteilung der Zufallsvariable
U :=
X −µ
σ
ist die Standardnormalverteilung, also U ∼ N (0, 1).
(c) Es gilt
P {a ≤ X ≤ b} = Φ
b−µ
σ
−Φ
a−µ
σ
Hinweise zum Beweis:
(a) beweist man durch Integration mit geeigneten Substitutionen und partieller Integration unter Beachtung von (14).
(b) Wegen { X−µ
≤ t} = {X ≤ tσ + µ} gilt für die Verteilungsfunktion (Substitution
σ
u = x−µ
)
σ
tσ+µ
Z
(x−µ)2
1
FU (t) = √
e− 2σ2 dx = Φ(t)
σ 2π
−∞
Da die Wahrscheinlichkeitsverteilung durch die Verteilungsfunktion eindeutig gegeben ist, folgt U ∼ N (0, 1).
(c) folgt aus Satz 3.1.3.
Hinweis zur Standardabweichung: Wegen Var(X) = σ 2 gilt für die Standardabweichung σ(X) = σ. Aufgrund von Teilaussage (c) gilt
P {µ − σ ≤ X ≤ µ + σ} = Φ(1) − Φ(−1) ≈ 0, 6826895
P {µ − 2σ ≤ X ≤ µ + 2σ} = Φ(2) − Φ(−2) ≈ 0, 9544997
P {µ − 3σ ≤ X ≤ µ + 3σ} = Φ(3) − Φ(−3) ≈ 0, 9973002
50
Eine normalverteilte Messgröße wird in den technischen Anwendungen daher oft in der
Form µ ± σ angegeben, wobei σ als der Messfehler angesehen wird.
In der Praxis hat man oft auch die umgekehrte Fragestellung. Man sucht v ∈ R mit
P {µ − v · σ ≤ X ≤ µ + v · σ} = Φ(v) − Φ(−v) = 2Φ(v) − 1 = p
mit vorgegebenem p ∈ ]0, 1[, beispielsweise p = 0, 8. Man sucht also das Intervall
[µ − v · σ, µ + v · σ], in dem die Zufallsvariable X mit vorgegebener Wahrscheinlichkeit p
liegt. Hierzu ist
1
Φ(v) = (p + 1)
2
aufzulösen nach v. Da Φ(t) injektiv ist, kommt hier die Umkehrfunktion ins Spiel. In
der Wahrscheinlichkeitsrechnung ist eine besondere Sprechweise üblich, die bereits in Abschnitt 3.3 eingeführt wurde. Das gesuchte v ist das Quantil der Ordnung q = 12 (p + 1)
der Standardnormalverteilung. Dieses ist beispielsweise durch cdfnor("X",0,1,q,1-q)
in Scilab erhältlich. Für das Beispiel p = 0, 8 erhält man v ≈ 1, 282, also
P {µ − 1, 3 · σ ≤ X ≤ µ + 1, 3 · σ} ≈ 0, 8
5
Mehrere Zufallsvariable mit demselben Grundraum
Hier werden Mehrfachintegrale benötigt. Da diese in der Mathematik-Lehrveranstaltung
nicht behandelt werden, werden diese im Anhang A behandelt. Dieser ist zum Verständnis
dieses Abschnitts notwendig.
5.1
Zwei Zufallsvariable mit demselben Grundraum
Wir betrachten hier Paare von Zufallsvariablen X1 , X2 , die auf demselben Grundraum
definiert sind.
Definition 5.1.1 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind. Dann wird definiert
X + Y : Ω → R,
X≥Y
⇐⇒
ω 7→ X(ω) + Y (ω)
X(ω) ≥ Y (ω) für alle
ω∈Ω
Durch die Zuordnungsvorschrift
ω 7→ X1 (ω), X2 (ω)
wird jedem Element des Grundraums Ω ein Punkt der Ebene zugeordnet, wir haben also
eine Abbildung von unserem Grundraum Ω in R2 . Mit diesem Paar von Zufallsvariablen
können wir dann Wahrscheinlichkeiten in R2 definieren. Beispielsweise können wir dem
Rechteck [a, b] × [c, d] die Wahrscheinlichkeit
P(X1 ,X2 ) ([a, b] × [c, d]) := P {X1 ∈ [a, b]} ∩ {X2 ∈ [c, d]}
(17)
zuordnen.
51
Wir vereinbaren analog zur Kurzschreibweise, die wir in Definition 3.1.2 eingeführt
haben, für Teilmengen A ⊂ R2 die Schreibweise
o
n
(18)
(X1 , X2 ) ∈ A := (ω1 , ω2 ) ∈ Ω × Ω X1 (ω1 ), X2 (ω2 ) ∈ A
Mit dieser Abkürzung können wir mit A = [a, b] × [c, d] für (17) auch schreiben
P(X1 ,X2 ) (A) := P {(X1 , X2 ) ∈ A}
(19)
Wir müssen noch klären, welche Teilmengen von R2 wir als Ereignisse zulassen. Wie bei
R selbst ist es leider nicht möglich, alle Teilmengen von R2 als Ereignisse zuzulassen.
Wir gehen hier pragmatisch vor und lassen — analog zu Definition 3.1.2 alle Rechtecke
(mit oder ohne Rand, auch unendlich ausgedehnte Rechtecke) zu. Weiterhin lassen wir
alle Teilmengen zu, die wir durch die in Definition 3.1.2 genannten Operationen (Bildung
des Komplements, Vereinigung von Folgen) aus zugelassenen Teilmengen bilden können.
Damit ist tatsächlich durch (17) ein Wahrscheinlichkeitsmaß in R2 definiert. Man kann
zeigen, dass damit alle vernünftigen“ Teilmengen von R2 zugelassene Ereignisse sind. Als
Beispiele sind einzelne Punkte (x1 , x2 ) sowie Kurven, Dreiecke und Kreise zu nennen.
Bei Kreisen hat man beispielsweise Vereinigungen von Folgen immer kleiner werdender
Rechtecke zu bilden.
Mit Hilfe jedes Paares von Zufallsvariablen können wir die durch (17) definierte Wahrscheinlichkeit auf beliebige zugelassene Ereignisse in R2 ausdehnen, indem wir vereinbaren,
dass für aus Intervallen konstruierte Ereignisse die Rechenregeln für Wahrscheinlichkeiten
anzuwenden sind.
Wir hatten für Paare von Ereignissen den wichtigen Begriff der stochastischen Unabhängigkeit behandelt. Hier wird dieser auf Paare von Zufallsvariablen verallgemeinert:
Definition 5.1.2 Seien X1 und X2 : Ω → R Zufallsvariable (die auf demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 und X2 , stochastisch unabhängig, wenn für alle in R als Ereignis zugelassenen Teilmengen A1 ⊂ R und A2 ⊂ R
gilt
P {X1 ∈ A1 } ∩ {X2 ∈ A2 } = P {X1 ∈ A1 } · P {X2 ∈ A2 }
Hinweise:
(a) Die Zufallsvariablen X1 , X2 sind genau dann stochastisch unabhängig, wenn beliebige Ereignisse der Art {X1 ∈ A1 }, {X2 ∈ A2 } stochastisch unabhängig nach
Definition 2.1.2 sind.
(b) Wenn I1 und I2 Intervalle sind, dann ist P {X1 ∈
I
}
∩
{X
∈
I
}
die Wahr1
2
2
scheinlichkeit, dass der durch ω 7→ X1 (ω), X2 (ω) gegebene Punkt im Rechteck
I1 × I2 liegt. Wenn X1 und X2 unabhängig sind, dann ist diese Wahrscheinlichkeit
das Produkt der Einzelwahrscheinlichkeiten:
P {X1 ∈ I1 } ∩ {X2 ∈ I2 } = P {X1 ∈ I1 } · P {X2 ∈ I2 }
Dies kann aber beispielsweise nicht der Fall sein, wenn dieser Punkt mit ganz hoher
Wahrscheinlichkeit nahe der Hauptdiagonalen x1 = x2 liegt.
52
Beispiel: Zwei Würfel mit Ω0 = {1, 2, . . . 6}, Ω = Ω0 × Ω0 . Sei X1 die Augenzahl des
ersten, X2 die des zweiten Würfels. Dann sind X1 und X2 stochastisch unabhängig. Weiterhin betrachten wir die Summe Xs = X1 + X2 und die Differenz Xd = X1 − X2 der
Augenzahlen. Nun ist
P {Xs = 12} ∩ {Xd = 5} = 0,
1
1
und P {Xd = 5} =
aber P {Xs = 12} =
36
36
wie man sich leicht an Abb. 2 klarmachen kann. Also sind Xs und Xd nicht unabhängig.
Bei der Untersuchung von Zufallsvariablen haben wir in R nicht direkt die Wahrscheinlichkeiten von Intervallen und daraus konstruierten Teilmengen studiert, sondern
die Verteilungsfunktion benutzt. Hier wird analog vorgegangen:
Definition 5.1.3 Seien X1 und X2 auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch
F (x1 , x2 ) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 }
definiert.
Hinweise:
(a) Weil P (X1 , X2 ) ∈ R2
= 1, haben wir für gemeinsame Verteilungsfunktionen
das asymptotische Verhalten
lim
lim F (x1 , x2 ) = lim
lim F (x1 , x2 ) = 1
x1 →∞
x2 →∞
x2 →∞
x1 →∞
und aus P (∅ = 0) folgt
lim F (x1 , x2 ) = lim F (x1 , x2 ) = 0
x1 →−∞
x2 →−∞
(b) Bezeichnen wir die Verteilungsfunktionen der beiden Zufallsvariablen mit FX1 (t)
und FX2 (t), so erhalten wir
FX1 (t) = lim F (t, x2 )
x2 →∞
und
FX2 (t) = lim F (x1 , t)
x1 →∞
In diesem Zusammenhang werden die beiden Verteilungsfunktionen FX1 (t) und
FX2 (t) Randverteilungsfunktionen“ genannt. Diese Sprechweise kommt von der No”
tation der Wahrscheinlichkeiten bei Paaren von diskreten Zufallsvariablen in Tabellen, die in einem später behandelten Beispiel verwandt wird (siehe Tabelle 1).
(c) Mit der in (19) definierten Schreibweise gilt für die gemeinsame Verteilungsfunktion
F (x1 , x2 ) = P(X1 ,X2 ) ] − ∞, x1 ]×] − ∞, x2 ]
und damit ist sie monoton wachsend in beiden Variablen, d.h. für alle h > 0 und
x1 , x2 ∈ R gilt
F (x1 + h, x2 ) ≥ F (x1 , x2 )
und
53
F (x1 , x2 + h) ≥ F (x1 , x2 )
(d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in beiden Variablen, d.h.
für alle x1 , x2 ∈ R gilt
lim F (x1 + h, x2 ) = F (x1 , x2 )
h→0+
und
lim F (x1 , x2 + h) = F (x1 , x2 )
h→0+
Beispiel: Gleichverteilung auf dem Einheitsquadrat“, siehe Abb. 15)
”


0
falls x1 < 0 oder x2 < 0





x1 · x2 falls 0 ≤ x1 ≤ 1 und 0 ≤ x2 ≤ 1
F (x1 , x2 ) = x1
falls 0 ≤ x1 ≤ 1 und x2 > 1



x2
falls x1 > 1 und 0 ≤ x2 ≤ 1



1
falls x1 > 1 und x2 > 1
Abbildung 15: gemeinsame Verteilungsfunktion F (x1 , x2 ) für die Gleichverteilung auf
”
dem Einheitsquadrat“
Satz 5.1.1 Seien FX1 (t) und FX2 (t) die Verteilungsfunktionen der auf demselben Grundraum Ω definierten Zufallsvariablen X1 und X2 und sei F (x1 , x2 ) die gemeinsame Verteilungsfunktion dieser Zufallsvariablen.
Dann gilt: X1 und X2 sind genau dann stochastisch unabhängig, wenn
F (x1 , x2 ) = FX1 (x1 ) · FX2 (x2 )
für alle (x1 , x2 ) ∈ R2 gilt.
Der Beweis ist elementar.
Beispiel: Für die Gleichverteilung auf dem Einheitsquadrat“ gilt
”
F (x1 , x2 ) = FX1 (x1 ) · FX1 (x2 )
mit


0
FX1 (t) = FX2 (t) = t


1
54
falls t < 0
falls 0 ≤ t ≤ 1
falls t > 1
Satz 5.1.2 Seien X und Y auf demselben Grundraum Ω definierte diskrete Zufallsvariable mit den Werten xi und yk . Dann sind X und Y genau dann stochastisch unabhängig,
wenn
P {X = xi } ∩ {Y = yk } = P {X = xi } · P {Y = yk }
für alle als Werte auftretenden xi und yk gilt.
Der Beweis ist ebenfalls elementar.
Wenn die diskreten und auf demselben Grundraum definierten Zufallsvariablen X und
Y die Werte x1 , x2 , x3 , . . . xm und y1 , y2 , y3 , . . . yn haben, dann kann man die Wahrscheinlichkeiten
qik := P {X = xi } ∩ {Y = yk }
zu einer Matrix Q oder in Form einer Tabelle zusammenfassen. Diese Matrix von Wahrscheinlichkeiten wird dann gemeinsame Verteilung der Zufallsvariablen X und Y genannt. Weil
Ω = {X = x1 } ∪ {X = x2 } ∪ {X = x3 } ∪ · · · {X = xm }
erhalten wir
P {Y = yk } = P Ω ∩ {Y = yk } = q1k + q2k + q3k + · · · qmk
Wir erhalten also durch Addition der in der k. Spalte der Matrix stehenden Zahlen die
Wahrscheinlichkeit pYk = P {Y = yk } . Analog erhalten wir
P {X = xi } = P {X = xi } ∩ Ω = qi1 + qi2 + qi3 + · · · qin
demnach ergibt die
Summe der in der i. Zeile stehenden Zahlen die Wahrscheinlichkeit
X
pi = P {X = xi } . Da die Summen der Zeilen und Spalten in Tabellen häufig am Rand
Y
notiert werden, heißen die Verteilungen pX
i und pk Randverteilungen.
Nach Satz 5.1.2 sind also X und Y genau dann stochastisch unabhängig, wenn für die
Y
Matrixelemente von Q gilt qik = pX
i · pk . Für den k. Spaltenvektor von Q gilt dann
 
 
q1k
pX
1
 q2k 
pX 
 
 2
 ..  = pYk ·  .. 
 . 
 . 
qmk
pX
m
Wir haben also hier den
Satz 5.1.3 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind. Wir nehmen an, dass X die Werte x1 , x2 , x3 , . . . xm und Y die Werte y1 , y2 , y3 , . . . yn
annimmt. Die (m × n)-Matrix Q sei durch
qik := P {X = xi } ∩ {Y = yk }
definiert.
Dann sind X und Y genau dann stochastisch unabhängig, wenn die Matrix Q den Rang 1
hat.
55
Für das schon mehrfach behandelte Beispiel von zwei Würfeln mit den Zufallsvariablen
X1 (Augenzahl des 1. Würfels), X2 (Augenzahl des 2. Würfels) sowie Xs = X1 + X2 und
Xd = X1 − X2 sind die gemeinsame Verteilung von Xs und Xd und die beiden Randverteilungen in Tabelle 1 dargestellt. Die dort angegebenen Wahrscheinlichkeiten erhält man
leicht, indem man beachtet, dass die Elemente des Grundraums für 2 Würfel wie in Abb. 2
als Matrix dargestellt werden können. Die Diagonalen parallel zur Hauptdiagonale liefern
die Ereignisse {Xd = k}, die Diagonalen in der anderen Richtung liefern die Ereignisse
{Xs = i}.
Xs
Xd
P
2
3
4
5
6
7
8
9
10 11 12
−5
0
0
0
0
0
1
36
0
0
0
0
0
1
36
−4
0
0
0
0
1
36
0
1
36
0
0
0
0
2
36
−3
0
0
0
1
36
0
1
36
0
1
36
0
0
0
3
36
−2
0
0
1
36
0
1
36
0
1
36
0
1
36
0
0
4
36
−1
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
5
36
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
6
36
1
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
5
36
2
0
0
1
36
0
1
36
0
1
36
0
1
36
0
0
4
36
3
0
0
0
1
36
0
1
36
0
1
36
0
0
0
3
36
4
0
0
0
0
1
36
0
1
36
0
0
0
0
2
36
5
P
0
0
0
0
0
1
36
0
0
0
0
0
1
36
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
36
36
Tabelle 1: Gemeinsame Verteilung und Randverteilungen für Augensumme und -differenz
bei zwei Würfeln
Definition 5.1.4 Zwei Zufallsvariable X und Y mit der gemeinsamen Verteilungsfunktion F (x, y) besitzen eine gemeinsame Dichtefunktion f (x, y), wenn diese in R2 definierte
Funktion f (x, y) ≥ 0 erfüllt und durch
 x

Zy
Z

F (x, y) =
f (u, v)du dv
−∞
−∞
die gemeinsame Verteilungsfunktion erzeugt.
Hinweise:
(a) Für das hier auftretende Mehrfachintegral gilt
 x

 y

Zy
Z
Zx
Z


f (u, v)du dv =
f (u, v)dv  du
−∞
−∞
−∞
56
−∞
und daher wird die Klammer meist weggelassen und
Zy Zx
F (x, y) =
f (u, v)du dv
−∞ −∞
geschrieben.
(b) Weil P (X, Y ) ∈ R2 = 1, haben wir die Normierungsbedingung
Z+∞ Z+∞
Z+∞ Z+∞
f (u, v)du dv =
f (u, v)dv du = 1
−∞ −∞
(20)
−∞ −∞
(c) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, in diesem Zusammenhang
auch Randverteilungen genannt, erhält man aus der gemeinsamen Dichtefunktion.
Wir nennen die Dichtefunktion von X hier g(u), sie erfüllt
Zt
g(u)du
FX (t) =
−∞
und andererseits
 +∞

Zt
Z

FX (t) = P {X ≤ t} = P (X, Y ) ∈ ] − ∞, t] × R =
f (u, v)dv  du
−∞
Ein Vergleich liefert
−∞
Z∞
g(x) =
f (x, y)dy
−∞
Diese Dichtefunktion wird in diesem Zusammenhang Randdichte genannt. Wir
bezeichnen die Dichtefunktion von Y mit h(y).
Zt
FY (t) =
h(v)dv = P {Y ≤ t} = P (X, Y ) ∈ R× ] − ∞, t]
−∞
Zt
=
−∞

Z+∞

f (u, v)du dv

−∞
liefert für diese Randdichte
Z∞
h(y) =
f (x, y)dx
−∞
57
Beispiele:
(a) Die Normalverteilung für 2 Zufallsvariable X und Y ist gegeben durch die gemeinsame Dichtefunktion mit ρ ∈ ] − 1, 1[
f (x, y) =
1√
2πσ1 σ2 1−ρ2
·e
−
1
2(1−ρ2 )
x−µ1
σ1
2
2 x−µ
y−µ2
y−µ
−2ρ σ 1
+ σ 2
σ
1
2
2
(21)
Im Spezialfall µ1 = µ2 = 0, σ1 = σ2 = 1 erhalten wir (siehe Abb. 16)
f (x, y) =
2π
√1
1−ρ2
·e
−
1
2(1−ρ2 )
(x2 −2ρxy+y2 )
Abbildung 16: Dichtefunktion der Normalverteilung für µ1 = µ2 = 0, σ1 = σ2 = 1 und
ρ = 0, 9 (links) sowie ρ = 0 (rechts)
(b) Die Gleichverteilung auf dem Einheitsquadrat“ ist gegeben durch die gemeinsame
”
Dichtefunktion
(
1 falls 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1
f (x, y) =
0 sonst
(c) Die Gleichverteilung auf dem Einheitskreis“ ist gegeben durch die gemeinsame
”
Dichtefunktion
(
1
falls x2 + y 2 ≤ 1
f (x, y) = π
0 sonst
Bei einer Zufallsvariablen X mit der Dichtefunktion g(x) gilt
P {X ∈ [a, b]} =
Zb
g(x)dx
a
Analog hierzu haben wir den Satz
58
Satz 5.1.4 Seien X, Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind
und die gemeinsame Dichtefunktion f (x, y) besitzen und sei A eine als Ereignis zugelassene Teilmenge von R2 . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen
ist, dass das auftretende Mehrfachintegral existiert. Dann gilt
ZZ
P (X, Y ) ∈ A =
f (x, y)dx dy
(22)
A
Hinweise:
(a) Für den Sonderfall, dass A ein Rechteck ist, also A = [a1 , b1 ] × [a2 , b2 ] lautet die
Aussage des Satzes
Zb1 Zb2
f (x, y)dy dx
P (X, Y ) ∈ [a1 , b1 ] × [a2 , b2 ] =
(23)
a1 a2
Man kann diese Aussage mit Hilfe von Verallgemeinerungen von Zerlegungen der
Art
] − ∞, b] = ] − ∞, a] ∪ ]a, b]
auf den zweidimensionalen Fall sowie mit Hilfe der Rechenregeln für Wahrscheinlichkeiten beweisen. Dabei hat man zu berücksichtigen,
dass analog dazu, dass bei
Zufallsvariablen X mit Dichtefunktion P {X = a} = 0 hier
P (X, Y ) ∈ {a1 } × [a2 , b2 ] = P (X, Y ) ∈ [a1 , b1 ] × {a2 } = 0
gilt. Zum Beweis der allgemeinen Aussage des Satzes für beliebige als Ereignis zugelassene Teilmengen A hat man dann auszunutzen, dass A aus Rechtecken konstruiert
ist (eventuell mit Vereinigungen von Folgen von Rechtecken).
(b) Wenn wir speziell ein Rechteck der Form [x0 , x0 + ∆x] × [y0 , y0 + ∆y] betrachten
und annehmen, dass ∆x und ∆y so klein gewählt sind, dass sich die Dichtefunktion
in diesem Rechteck so wenig nähert, dass die Näherung
f (x, y) ≈ f (x0 , y0 )
für alle (x, y) ∈ [x0 , y0 ] × [x0 + ∆x, y0 + ∆y]
berechtigt ist, dann erhalten wir
P
(X, Y ) ∈ [x0 , x0 + ∆x] × [y0 , y0 + ∆y]
x0Z+∆x y0Z+∆y
=
f (x, y)dy dx
x0
≈ f (x0 , y0 )
y0
x0Z+∆x y0Z+∆y
dy dx = f (x0 , y0 ) · ∆x · ∆y
x0
y0
Nun ist ∆x · ∆y die Fläche des betrachteten Rechtecks; diese Näherung rechtfertigt
die Bezeichnung Wahrscheinlichkeitsdichte“ für f (x, y).
”
59
(c) Jede bis auf Kanten“ stetige Funktion f mit 2 Variablen, die in ganz R2 definiert
”
ist, f (x, y) ≥ 0 für alle (x, y) ∈ R2 sowie die Normierungsbedingung (20) erfüllt,
definiert durch (22) oder (23) ein Wahrscheinlichkeitsmaß in R2 . Mit Ω = R2 und
den Zufallsvariablen
X : R2 → R,
(x, y) 7→ x,
Y : R2 → R,
und
(x, y) 7→ y
erhält man dann zwei Zufallsvariable auf dem Grundraum Ω = R2 , deren gemeinsame Dichtefunktion f (x, y) ist. Beispiele für bis auf Kanten“ stetige Funktionen
”
sind die gemeinsamen Dichtefunktionen der Gleichverteilung auf dem Einheitskreis
oder dem Einheitsquadrat. Sie sind bis auf den Rand des Einheitskreises oder Einheitsquadrates als Kanten“ stetig.
”
Satz 5.1.5 Seien X, Y Zufallsvariable mit den stetigen Dichtefunktionen g(t) und h(t),
d.h die einzelnen Verteilungsfunktionen erfüllen
Zt
FX (t) =
Zt
g(u)du,
FY (t) =
−∞
h(u)du
−∞
und sei f (x, y) die gemeinsame stetige Dichtefunktion.
Dann sind X und Y genau dann stochastisch unabhängig, wenn
f (x, y) = g(x) · h(y)
für alle x, y ∈ R2 gilt.
Hinweis zum Beweis: Wenn f (x, y) = g(x) · h(y), dann gilt für die gemeinsame Verteilungsfunktion
Zx Zy
F (x, y) =
g(u) · h(v)dv du =
−∞ −∞
Zx
g(u)du ·
−∞
Zy
h(v)dv = FX (x) · FY (y)
−∞
und daraus folgt mit Satz 5.1.1 die Unabhängigkeit von X und Y .
Wenn umgekehrt X und Y stochastisch unabhängig sind, dann gilt
F (x, y) = FX (x) · FY (y) =
Zx
g(u)du ·
−∞
Zy
Zx Zy
h(v)dv =
−∞
g(u) · h(v)dv du
−∞ −∞
Zx Zy
=
f (u, v)dv du
−∞ −∞
Daraus folgt
Zx Zy
f (u, v) − g(u) · h(v) dv du = 0
−∞ −∞
2
für alle x, y ∈ R . Wir haben vorausgesetzt, dass f , g und h stetig sind. Es ist also
plausibel, dass diese Gleichung nur möglich ist, wenn
f (u, v) − g(u) · h(v) = 0
für alle u, v ∈ R2 ist.
60
Beispiele:
(a) Bei der Gleichverteilung auf dem Einheitsquadrat“ sind die beiden Zufallsvariablen
”
stochastisch unabhängig, denn die gemeinsame Dichtefunktion erfüllt
f (x, y) = g(x) · g(y)
wobei
(
1
g(x) =
0
falls 0 ≤ x ≤ 1
sonst
die Dichtefunktion der Gleichverteilung auf [0, 1] ist.
(b) Für die Normalverteilung erhält man als Randdichten die Dichtefunktionen der
Normalverteilung (mühsame Integration). Mit Satz 5.1.5 erhält man dann, dass
normalverteilte Zufallsvariable genau dann stochastisch unabhängig sind, wenn ρ =
0.
(c) Für die Gleichverteilung auf dem Einheitskreis“ erhält man (Übungsaufgabe) die
”
Randdichten
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
g(x) = h(x) = π
0
sonst
und da f (x, y) 6= g(x) · h(y), sind X und Y nicht stochastisch unabhängig.
Definition 5.1.5 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und sei g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler.
Dann wird die neue Zufallsvariable g(X, Y ) durch
g(X, Y ) : Ω → R, ω 7→ g X(ω), Y (ω)
definiert.
Für die so definierte Zufallsvariable gilt der folgende
Satz 5.1.6 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen, und sei
g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler. Dann gilt für den
Erwartungswert der Zufallsvariable g(X, Y )
∞ X
∞
X
E g(X, Y ) =
P {X = xi } ∩ {Y = yk } g(xi , yk )
i=1 k=1
bzw.
E g(X, Y ) =
Z+∞ Z+∞
f (x, y) · g(x, y)dx dy
−∞ −∞
falls diese Summe bzw. dieses Integral absolut konvergent ist.
Hinweis: Dieser Satz ist eine Verallgemeinerung von Satz 3.2.1 auf Funktionen von zwei
Variablen.
Im Spezialfall g(x, y) = ax + by mit a, b ∈ R sowie g(x, y) = x − y erhalten wir
61
Satz 5.1.7 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen und deren
Erwartungswerte E(X) und E(Y ) existieren.
Dann gilt
E(aX + bY ) = a · E(X) + b · E(Y )
und
X ≥ Y =⇒ E(X) ≥ E(Y )
Definition 5.1.6 Es wird vorausgesetzt, dass X und Y Zufallsvariable sind, die auf demselben Grundraum Ω definiert sind. Wenn E(X 2 ) und E(Y 2 ) existieren, dann wird die
Kovarianz von X und Y durch
Cov(X, Y ) := E X − E(X) Y − E(Y )
definiert. Falls Var(X) > 0 und Var(Y ) > 0, dann wird der Korrelationskoeffizient
definiert durch
Cov(X, Y )
Cov(X, Y )
=
ρ(X, Y ) := p
σ(X)σ(Y )
Var(X) Var(Y )
X und Y heißen unkorreliert, wenn ρ(X, Y ) = 0.
Hinweise:
(a) Die Kovarianz hat tatsächlich etwas mit der Varianz zu tun. Für die Summe zweier
Zufallsvariablen X und Y mit µX := E(X) und µY := E(Y ) gilt
2 Var(X + Y ) = E X + Y − E(X + Y )
= E (X + Y − µX − µY )2
= E (X − µX )2 + E (Y − µY )2 + 2E (X − µX )(Y − µY )
und damit
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )
(24)
(b) Definiert man die Abkürzungen µX := E(X) und µY := E(Y ), dann erhält man
durch Ausmultiplizieren
Cov(X, Y ) = E (X − µx )(Y − µY ) = E(XY ) − µX E(Y ) − µY E(X) + µX µY
und damit
Cov(X, Y ) = E(XY ) − E(X) · E(Y )
(25)
(c) Man kann zeigen, dass
E(|XY |) ≤
p
E(X 2 ) · E(Y 2 )
(26)
falls E(X 2 ) und E(Y 2 ). Also folgt aus der Existenz von E(X 2 ) und E(Y 2 ) tatsächlich
die Existenz von Cov(X, Y ).
62
(d) Mit der Abschätzung (26) und Satz 3.2.2 erhalten wir
|Cov(X, Y )| ≤ E(|X − E(X)| · |Y − E(Y )|)
q
≤
E (X − E(X))2 · E (Y − E(Y ))2
p
Var(X) · Var(Y ) = σ(X) · σ(Y )
=
und damit für den Korrelationskoeffizienten
|ρ(X, Y )| ≤ 1
(e) Im Spezialfall, dass Y = aX + b mit a, b ∈ R und a 6= 0, erhalten wir mit der
Abkürzung µ := E(X)
Var(X) = E(X 2 ) − µ2
Var(Y ) = a2 Var(X) = a2 (E(X 2 ) − µ2 )
und
sowie nach (25)
Cov(X, Y ) = E X · (aX + b) − µE(Y ) = aE(X 2 ) + bµ − µ(aµ + b) = a(E(X 2 ) − µ2 )
und somit
a
a(E(X 2 ) − µ2 )
a
ρ(X, Y ) = p
=√ =
2
|a|
Var(X) · a Var(X)
a2
Wenn also Y = aX + b, dann ist |ρ(X, Y )| maximal und ρ(X, Y ) = 1 wenn a > 0
und ρ(X, Y ) = −1 wenn a < 0.
(f) Wir haben
Cov(X, Y ) = Cov(Y, X)
und
Cov(X, X) = Var(X)
(g) Wenn X und Y normalverteilt sind, dann ergibt eine aufwändige Integration, dass
der Korrelationskoeffizient ρ(X, Y ) mit dem Parameter ρ in der durch (21) gegebenen gemeinsamen Dichtefunktion übereinstimmt. Dies begründet die übliche Wahl
des Buchstabens ρ für diesen Parameter.
Satz 5.1.8 Wenn X, Y stochastisch unabhängige Zufallsvariable sind, für die E(X 2 ) und
E(Y 2 ) existieren, dann gilt
Cov(X, Y ) = 0
und
Var(X + Y ) = Var(X) + Var(Y )
Hinweis zum Beweis: Wenn X und Y stochstisch unabhängige diskrete Zufallsvariable
mit den Werten xi und yk sind, dann gilt
E(XY ) =
=
=
∞
∞ X
X
i=1 k=1
∞ X
∞
X
i=1 k=1
∞
X
i=1
P {X = xi } ∩ {Y = yk }xi yk
P {X = xi } · P {Y = yk } · xi · yk
!
P {X = xi } · xi
·
63
∞
X
k=1
!
P {Y = yk } · yk
= E(X) · E(Y )
und damit Cov(X, Y ) = E(XY ) − E(X) · E(Y ) = 0. Die zweite Gleichung folgt unmittelbar aus (24). Für Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x, y) kann
der Beweis analog geführt werden.
Hinweis zum Satz: Die Umkehrung der Aussage gilt nicht: Es gibt Zufallsvariable X, Y ,
die nicht stochastisch unabhängig sind, aber Cov(X, Y ) = 0 erfüllen. Ein Beispiel hierfür
ist die Augensumme Xs und die Differenz der Augenzahl Xd bei zwei Würfeln. Es war
schon in einem früheren Beispiel (nach Def. 5.2.1) gezeigt worden, dass Xs und Xd nicht
unabhängig sind. Aufgrund der Definition und der Rechenregeln für Erwartungswerte
kann man leicht zeigen (siehe die Übungen), dass
Cov(Xs , Xd ) = Cov(X1 + X2 , X1 − X2 ) = 0
da X1 und X2 unabhängig sind. Lediglich für normalverteilte Zufallsvariable gilt eine
entsprechende Umkehrung. Wie schon angemerkt, stimmt der Parameter ρ in der durch
(21) gegebenen gemeinsamen Dichtefunktion mit dem Korrelationskoeffizienten überein.
Damit folgt in diesem Fall aus Cov(X, Y ) = 0 die stochastische Unabhängigkeit von X
und Y .
Beispiele:
(a) Bei der Gleichverteilung auf dem Einheitskreis“ mit der gemeinsamen Dichtefunk”
tion
(
1
falls x2 + y 2 ≤ 1
f (x, y) = π
0 sonst
haben wir bereits herausgefunden, dass die zugehörigen Zufallsvariablen X und Y
nicht stochastisch unabhängig sind. Die Randdichten sind
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
π
g(x) = h(x) =
0
sonst
und aus Symmetriegründen haben wir E(X) = E(Y ) = 0. Damit gilt für die Kovarianz
Cov(X, Y ) = E(XY )
und diese Größe muss aus Symmetriegründen verschwinden. Rechnerisch haben wir
hier
Z+∞ Z+∞
ZZ
1
x · y dx dy
x · y · f (x, y)dx dy =
E(XY ) =
π
−∞ −∞
x2 +y 2 ≤1
und wir können Polarkoordinaten x = r cos ϕ, y = r sin ϕ einführen (beim Einheitskreis ist dann 0 ≤ r ≤ 1 und −π < ϕ ≤ π). liefert Die Substitutionsregel von
Abschnitt A.1 (dx dy durch r dr dϕ ersetzen) liefert dann
Z1 Z+π
Z1
Z+π
1
3
3
E(XY ) =
r cos ϕ sin ϕ dϕ dr = r dr
sin(2ϕ)dϕ = 0
2
0 −π
0
64
−π
1.0
0.5
- 1.5 - 1.0
- 0.5
0.0
0.0
0.5
1.0
- 0.5
- 1.0
- 1.5
Abbildung 17: Viertelkreise B1 und B2
(b) Wir ändern die Gleichverteilung auf dem Einheitskreis“ ein wenig ab und betrach”
ten die Gleichverteilung auf zwei Viertelskreisen“, die durch folgende gemeinsame
”
Dichtefunktion gegeben ist:
(
2
falls x2 + y 2 ≤ 1 und xy ≥ 0
f (x, y) = π
0 sonst
Diese Dichtefunktion ist auf den beiden in Abb. 17 markierten Viertelkreisen konstant, ansonsten ist sie Null. Wir bezeichnen hier mit B = B1 ∪ B2 die Vereinigung
der beiden Viertelkreise, mit
B1 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≥ 0 und y ≥ 0
B2 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≤ 0 und y ≤ 0
Beachten Sie die Symmetrie
(x, y) ∈ B2 ⇐⇒ (−x, −y) ∈ B1
Wir erhalten dieselben Randdichten (Übungsaufgabe!)
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
g(x) = h(x) = π
0
sonst
und aus Symmetriegründen erhalten wir wieder E(X) = E(Y ) = 0. Für die Kovarianz macht sich hier aber eine Asymmetrie bemerkbar, denn die Wahrscheinlichkeit,
dass X und Y unterschiedliche Vorzeichen annehmen, ist hier Null! Es ist sinnvoll,
das Integral über B in eine Summe über Integrale über B1 und B2 aufzuspalten (siehe die Rechenregeln von Abschnitt A.1. Wenn wir dann noch die schon erwähnte
Symmetrie ausnutzen und beachten, dass (−x) · (−y) = x · y, erhalten wir
Z+∞ Z+∞
Cov(X, Y ) = E(XY ) =
x · y · f (x, y)dx dy
−∞ −∞
1
=
π
ZZ
1
x · y dx dy +
π
B1
ZZ
B2
65
2
x · y dx dy =
π
ZZ
B1
x · y dx dy
Auch hier ist es sinnvoll, Polarkoordinaten einzuführen. Für B1 erhalten wir den
Bereich 0 ≤ r ≤ 1 und 0 ≤ ϕ ≤ π2 . Somit erhalten wir hier das Ergebnis
π
Cov(X, Y ) =
2
π
ZZ
x · y dx dy =
0
B1
Z1
=
π
2
3
Z
r dr
0
Z1 Z2
0
r3 cos ϕ sin ϕ dϕ dr
0
1 π2
1
1
1
1 4
· − cos(2ϕ) =
sin(2ϕ)dϕ = r
2
4 0
4
8
0
Da E(X) = E(Y ) = 0 und die beiden Randdichten übereinstimmen, haben wir
nach einer etwas mühsamen Integration (Übungsaufgabe!)
2
Var(X) = Var(Y ) = E(X ) =
π
2
Z+1
√
1
x2 · 1 − x2 dx =
4
−1
Damit erhalten wir für den Korrelationskoeffizienten
Cov(X, Y )
ρ(X, Y ) = p
=
Var(X) · Var(Y )
5.2
1
8
1
4
=
1
2
Mehr als zwei Zufallsvariable auf demselben Grundraum
In diesem Unterabschnitt verallgemeinern wir eine Reihe von Begriffen aus dem vorherigen Unterabschnitt. Die Vorgehensweise ist zwar naheliegend, doch leider versagt die
Anschauung in vielen Fällen. Wir benötigen diese Verallgemeinerung für den zentralen
Grenzwertsatz. Wir betrachten hier also Zufallsvariable X1 , X2 , . . . Xn : Ω → R, die auf
demselben Grundraum Ω definiert sind. Mit diesen erhalten wir durch
ω 7→ X1 (ω), X2 (ω), X3 (ω), . . . Xn (ω)
eine Abbildung von unserem Grundraum Ω in den Rn . Wir gehen hier ganz analog zum
vorherigen Unterabschnitt vor und haben lediglich den R2 durch den Rn zu ersetzen. Hier
kann n-dimensionalen Quadern“ der Form [a1 , b1 ]×[a2 , b2 ]×· · ·×[an , bn ] die Wahrschein”
lichkeit
P(X1 ,X2 ,...Xn ) ([a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ])
:= P {X1 ∈ [a1 , b1 ]} ∩ {X2 ∈ [a2 , b2 ] ∩ · · · ∩ {Xn ∈ [an , bn ]}
(27)
zugeordnet werden. Aus n-dimensionalen Quadern kann man durch Komplementbildung
und Vereinigung von Folgen allgemeinere Teilmengen des Rn bilden, die man als Ereignisse
zulässt. Unter Beachtung der Rechenregeln für Wahrscheinlichkeiten kann man dann mit
Hilfe von (27) ein Wahrscheinlichkeitsmaß auf Rn definieren.
Definition 5.2.1 Sei n ∈ N und seien X1 , X2 , . . . Xn : Ω → R Zufallsvariable (die auf
demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 , X2 , . . . Xn
stochastisch unabhängig, wenn für alle als Ereignis zugelassenen Teilmengen A1 , A2 ,
. . . An ⊂ R gilt
P {X1 ∈ A1 } ∩ {X2 ∈ A2 } ∩ · · · ∩ {Xn ∈ An }
= P {X1 ∈ A1 } · P {X2 ∈ A2 } · · · P {Xn ∈ An }
66
Hinweis:
Die Zufallsvariablen X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn die
Ereignisse {X1 ∈ A1 }, {X2 ∈ A2 } . . . {Xn ∈ An } stochastisch unabhängig nach Definition
2.1.2 sind.
Definition 5.2.2 Sei n ∈ N und seien X1 , X2 , . . . Xn auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch
F (~x) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 } ∩ · · · ∩ {Xn ≤ xn }
definiert.
Hinweise:
(a) Auch hier haben wir das asymtotische Verhalten
lim
lim · · · lim F (~x) · · · = 1
x1 →∞
x2 →∞
xn →∞
und entsprechend für jede mögliche andere Reihenfolge der Grenzwerte.
(b) Weiterhin gilt
lim F (~x) = 0
xk →−∞
für jedes beliebige k = 1, 2, . . . n.
(c) Die gemeinsame Verteilungsfunktion ist monoton wachsend in jedem Argument, d.h.
für alle h > 0 und alle k = 1, 2, . . . n gilt
F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) ≥ F (x1 , x2 , x3 , . . . xn )
(d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in jedem Argument, d.h.
für alle k = 1, 2, . . . n gilt
lim F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) = F (x1 , x2 , x3 , . . . xn )
h→0+
(e) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, die Randverteilungsfunk”
tionen“ genannt werden, erhalten wir durch
FX1 (t) = lim
lim · · · lim F (~x) · · ·
x2 →∞ x3 →∞
xn →∞
FX2 (t) = lim
lim · · · lim F (~x) · · ·
x1 →∞
x3 →∞
xn →∞
und analog für k = 3, 4, . . . n (um FXk (t) zu erhalten, ist der Grenzwert xl → ∞ für
alle l = 1, 2, . . . n, l 6= k zu bilden).
67
Satz 5.2.1 Sei n ∈ N und seien F1 (t), F2 (t) . . . Fn (t) die Verteilungsfunktionen der auf
demselben Grundraum Ω definierten Zufallsvariablen X1 , X2 , . . . Xn und sei F (~x) die
gemeinsame Verteilungsfunktion dieser Zufallsvariablen.
Dann gilt: X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn
F (~x) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn )
für alle ~x ∈ Rn gilt.
Der Beweis ist elementar.
Definition 5.2.3 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω. Die
gemeinsame Verteilungsfunktion F (~x) hat eine gemeinsame Dichtefunktion f (~x), wenn
Zxn xZn−1 Zx1
F (x1 , x2 , . . . xn ) =
···
f (u1 , u2 , . . . un ) du1 du2 · · · dun
−∞ −∞
−∞
Hinweise
(a) Dies ist nur möglich, wenn die gemeinsame Dichtefunktion nicht negativ ist, d.h.
für alle ~x ∈ Rn
f (~x) ≥ 0
(b) Außerdem muss analog zum Fall n = 2 die Normierungsbedingung
Z+∞ Z+∞ Z+∞
···
f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn = 1
−∞ −∞
(28)
−∞
erfüllt sein
Satz 5.2.2 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω, f (~x) sei
die zugehörige gemeinsame Dichtefunktion und A sei eine als Ereignis zugelassene Teilmenge von Rn . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen ist, dass
das auftretende Mehrfachintegral existiert. Dann gilt
ZZ Z
P (X1 , X2 , . . . Xn ) ∈ A =
· · · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
(29)
A
Hinweise:
(a) Für n-dimensionale Quader A = [a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ] lautet die Aussage
des Satzes
P
(X1 , X2 , . . . Xn ) ∈ A =
Zbn bZn−1
an an−1
···
Zb1
f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
(30)
a1
(b) Jede bis auf Kanten“ stetige Funktion, die f (~x) ≥ 0 für alle ~x ∈ Rn erfüllt und
”
der Normierungsbedingung (28) genügt, definiert durch (29) oder (30) ein Wahrscheinlichkeitsmaß in Rn . Man kann also dann Ω = Rn wählen. Die zugehörigen
Zufallsvariablen erhält man dann für k = 1, 2, . . . n durch
Xk : Rn → R,
(x1 , x2 , . . . xk−1 , xk , xk+1 , . . . xn ) 7→ xk
68
Beispiele:
(a) Gleichverteilung im n-dimensionalen Einheitswürfel. Wir betrachten die durch
(
1 falls ~x ∈ [0, 1]n
f (~x) :=
0 sonst
definierte gemeinsame Dichtefunktion. Sie erfüllt f (~x) ≥ 0, genügt der Normierungsbedingung (28) und definiert damit ein Wahrscheinlichkeitsmaß in Rn . Sie ist ein
Beispiel dafür, was mit bis auf Kanten“ stetig gemeint ist. Die Kanten“ sind hier
”
”
die Randflächen des Einheitswürfels.
(b) Gleichverteilung in der Einheitskugel. Wir definieren die gemeinsame Dichtefunktion
f (~x) für ~x ∈ R3 durch
(
3
falls |~x| ≤ 1
f (~x) := 4π
0
falls |~x| > 1
Sie erfüllt ebenfalls f (~x) ≥ 0, genügt der Normierungsbedingung, denn
ZZZ
4π
dx1 dx2 dx3 =
3
|~
x|≤1
ist das Volumen einer dreidimensionalen Kugel mit Radius 1. Damit ist mit dieser
Dichtefunktion ein Wahrscheinlichkeitsmaß in R3 definiert. Diese Funktion ist bis
auf den Rand der Kugel als Kante“ stetig. Dieses Beispiel lässt sich auf den Rn
”
verallgemeinern.
Definition 5.2.4 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω.
(a) Die Zufallsvariablen X1 , X2 , . . . Xn heißen identisch verteilt, wenn die Verteilungsfunktionen
FX1 (t) = P {X1 ≤ t} = FX2 (t) = P {X2 ≤ t} = · · · = FXn (t) = P {Xn ≤ t}
für alle t ∈ R erfüllen, ihre Wahrscheinlichkeitsverteilungen also identisch sind.
Insbesondere haben sie dann denselben Erwartungswert und dieselbe Varianz (wenn
diese existieren).
(b) Sei
g : Rn → R,
(x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn )
eine stetige Funktion. Die Zufallsvariable g(X1 , X2 , . . . Xn ) ist durch
g(X1 , X2 , . . . Xn ) : Ω → R,
ω 7→ g X1 (ω), X2 (ω), . . . Xn (ω)
definiert.
Diese Definition der Zufallsvariablen g(X1 , X2 , . . . Xn ) ist eine Verallgemeinerung von Definition 5.1.5, und wir haben als Verallgemeinerung von Satz 5.1.6:
69
Satz 5.2.3 Seien X1 , X2 , . . . Xn diskrete Zufallsvariable mit den Werten x1 (k1 ), x2 (k2 ),
x3 (k3 ), . . . xn (kn ) oder Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x1 , . . . xn )
und sei g : Rn → R, (x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn ) eine stetige Funktion. Dann gilt für
den Erwartungswert der Zufallsvariablen g(X1 , X2 , . . . Xn )
X E g(X1 , X2 , . . . Xn ) =
g x1 (k1 ), x2 (k2 ), . . . xn (kn )
k1 ,k2 ,...kn
·P {X1 = x1 (k1 )} ∩ · · · ∩ {Xn = xn (kn )}
wenn diese Reihe absolut konvergiert bzw.
E g(X1 , X2 , . . . Xn ) =
Z+∞ Z+∞ Z+∞
···
g(x1 , x2 . . . xn ) · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
−∞ −∞
−∞
wenn dieses Integral absolut konvergent ist.
5.3
Summen von Zufallsvariablen, Grenzwertsatz
In diesem Unterabschnitt wird grundsätzlich vorausgesetzt, dass alle Zufallsvariable auf
demselben Grundraum Ω definiert sind.
Satz 5.3.1 Seien X1 , X2 , . . . Xn Zufallsvariable. Dann ist
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn )
und
Var(X1 + X2 + · · · + Xn ) =
n
X
Var(Xk ) +
k=1
n
X
Cov(Xi , Xk )
(31)
i, k = 1
i 6= k
wenn die entsprechenden Werte existieren. Wenn die Zufallsvariablen X1 , X2 , . . . Xn stochastisch unabhängig sind, dann gilt
Var(X1 + X2 + · · · + Xn ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xn )
(32)
Hinweis: Die Gleichung (32) ist auch unter der schwächeren Voraussetzung, dass die
Zufallsvariablen X1 , X2 , . . . Xn unkorreliert sind, gültig, d.h. wenn Cov(Xi , Xk ) = 0 für
alle i 6= k. Dies ist aus Gleichung (31) unmittelbar einsichtig.
Die folgenden beiden Sätze sind von großer Bedeutung.
Satz 5.3.2 (Schwaches Gesetz der großen Zahlen) Sei X1 , X2 , X3 . . . eine Folge
identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz σ 2 existiert.
Dann gilt für alle ε > 0
X1 + X 2 + · · · + Xn
− µ > ε
=0
lim P
n→∞
n
70
Hinweis: Dieser Satz rechtfertigt die Berechnung des Mittelwerts n1 (X1 + X2 + · · · + Xn )
als Schätzung für den Erwartungswert der Zufallsvariablen.
Beispiel: Wiederholtes Würfeln, Xk = 1, wenn ωk = 6 und Xk = 0, wenn ωk 6= 6.
Dann ist X1 + X2 + · · · + Xn die Zahl der gewürfelten
Die
5
1 Sechsen bei n Versuchen.
Wahrscheinlichkeitsverteilung ist durch P {Xk = 1} = 6 und P {Xk = 0} = 6 gegeben
mit Erwartungswert µ = 16 . Dann ist
Zahl der gewürfelten Sechsen 1 − >ε
lim P
=0
n→∞
Zahl der Versuche
6
In diesem Sinn stimmt die Wahrscheinlichkeit mit der relativen Häufigkeit bei vielen
Versuchen überein.
Satz 5.3.3 (Zentraler Grenzwertsatz) Sei X1 , X2 , X3 . . . eine Folge identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz
σ 2 existiert. Sei Sn∗ die standardisierte Summe
n
P
Sn∗
:=
(Xk − µ)
n 1 X Xk − µ
X1 + X2 + · · · + X n − n · µ
√
√
=√
=
σ
σ n
n k=1
σ n
k=1
(33)
und sei
Fn (t) := P {Sn∗ ≤ t}
die Verteilungsfunktion der standardisierten Summe.
Dann gilt
Zt
1 2
1
e− 2 u du = Φ(t)
lim Fn (t) = √
n→∞
2π
−∞
d.h. die Verteilungsfunktion der standardisierten Summe nähert sich für große n der Verteilungsfunktion der Standardnormalverteilung an.
Hinweise:
(a) Dies bedeutet, dass für große n die Zufallsvariable
X1 − µ + X2 − µ + · · · + Xn − µ =
n
X
k=1
Xk − n · µ
näherungsweise normalverteilt mit Erwartungswert 0 und Varianz nσ 2 ist. Die Summe X1 + X2 + · · · + Xn ist also näherungsweise normalverteilt mit Erwartungswert
n · µ und Varianz nσ 2 . Die Verteilung der Summe X1 + X2 + · · · + Xn wird demnach
näherungsweise durch die Dichtefunktion
(t−nµ)2
1
· e− 2nσ2
f (t) = √
σ n · 2π
beschrieben. Dies erklärt die große Bedeutung der Normalverteilung.
71
(34)
(b) Für identisch verteilte Zufallsvariable Xk mit Erwartungswert µ gilt
!
n
n
n
X
X
X
E
(Xk − µ) =
E(Xk − µ) =
E(Xk ) − µ = 0
k=1
k=1
k=1
Wenn die Xk stochastisch unabhängig sind, dann sind auch die Zufallsvariablen
Xk −µ stochastisch unabhängig (dies folgt unmittelbar aus der Definition). In diesem
Fall haben wir also, falls die Varianz Var(Xk ) = σ 2 existiert,
!
n
n
n
X
X
X
Var
(Xk − µ) =
Var(Xk − µ) =
Var(Xk ) = nσ 2
k=1
k=1
k=1
Die durch (33) definierte standardisierte Summe stochastisch unabhängiger identisch
verteilter Zufallsvariabler erfüllt also für alle n ∈ N
E(Sn∗ ) = 0,
Var(Sn∗ ) = 1
Beachten Sie, dass hier das Gleichheitszeichen steht, der Erwartungswert also exakt
0 und die Varianz exakt 1 sind.
Abbildung 18: Binomialverteilung mit
den Parametern n = 1024 und p = 0, 01, links
Wahrscheinlichkeiten P {Yn = k} , rechts die zugehörige Verteilungsfunktion FYn (t),
blau: exakte Werte, rot: Näherung mit Hilfe des zentralen Grenzwertsatzes
Beispiele:
(a) Betrachten wir die schon im Abschnitt 4.1 behandelte Binomialverteilung. Sie
ensteht aus dem Grundraum
Ω = {0, 1} × {0, 1} × {0, 1} × · · · × {0, 1}
(n-faches kartesisches Produkt)
dem Wahrscheinlichkeitsmaß P0 {1} = p auf {0, 1} und dem Produktwahrscheinlichkeitsmaß P auf Ω sowie den identisch verteilten diskreten stochastisch unabhängigen
Zufallsvariablen Xk (ω) = ωk für ω = (ω1 , ω2 , . . . ωn ) mit ωk ∈ {0, 1}. Um die
72
Abhängigkeit von n in der Schreibweise sichtbar zu machen, schreiben wir hier für
ω∈Ω
n
n
X
X
Yn (ω) =
Xk (ω) =
ωk
k=1
k=1
Mit Hilfe der Analogie zum Lotto hatten wir früher hergeleitet, dass
n k
P {Yn = k} =
p (1 − p)n−k für k = 0, 1, 2, . . . n
k
und außerdem E(Yn ) = n · p sowie Var(Yn ) = n · p · (1 − p) in Übereinstimmung mit
E(Xk ) = p und
Var(Xk ) = E (X − p)2 = p(1 − p)2 + (1 − p)(−p)2 = p(1 − p) (1 − p) + p = p(1 − p)
Nach der anschaulichen Interpretation der durch (34) gegebenen Wahrscheinlichkeitsdichte ist also für großes n die Wahrscheinlichkeit näherungsweise gegeben
durch
(k−np)2
1 1
1
· e− 2np(1−p)
P {Yn = k} = P {Yn ∈ [k − , k + ]} ≈ p
2
2
np(1 − p) · 2π
Für die zugehörige Verteilungsfunktion haben wir die Näherung
!
!
t − np
1 1
t − np
FYn (t) = P {Yn ≤ t} ≈ Φ p
= + · erf p
2 2
np(1 − p)
2np(1 − p)
In Abb. 18 ist diese Näherung (in rot) zusammen mit den exakten Werten (in blau)
für die Wahrscheinlichkeiten und die Verteilungsfunktion grafisch dargestellt.
(b) Gleichverteilung auf [0, 1]: Die stochastisch unabhängigen Zufallsvariablen Xk
seien alle identisch verteilt mit der Dichtefunktion
(
1 falls t ∈ [0, 1]
f (t) =
0 sonst
mit E(Xk ) =
1
2
und Var(Xk ) =
1
12
(Übungsaufgabe!) Wir betrachten
Yn = X 1 + X2 + X 3 + · · · Xn
mit E(Yn ) = n2 und Var(Yn ) =
näherungsweise durch die Dichte
n
.
12
fn (t) =
Die Wahrscheinlichkeitsdichte von Yn wird
q
6
nπ
· e−
2
6(t− n
2)
n
beschrieben. Die Wahrscheinlichkeitsdichten von Yn sind in der Mathematik bekannt
( B-Splines“), die Funktionswerte sind leicht zu berechnen. Für einige Werte von n
”
sind sie in Abb. 19 und Abb. 20 gezeigt (teilweise zusammen mit der Näherung).
73
Abbildung 19: Wahrscheinlichkeitsdichte für Xk und Y1 (Gleichverteilung auf [0, 1], links)
sowie für Y2 = X1 + X2 (rechts)
Abbildung 20: blau: Wahrscheinlichkeitsdichte für Y3 = X1 + X2 + X3 (links) sowie für
Y4 = X1 + X2 + X3 + X4 (rechts), rot: Näherung nach dem zentralen Grenzwertsatz
Satz 5.3.4 Seien X1 , X2 , . . . Xn stochastisch unabhängige normalverteilte Zufallsvariable
mit den Erwartungswerten E(Xk ) = µk und den Varianzen Var(Xk ) = σk2 und sei
Y =
n
X
Xk
k=1
Dann ist Y normalverteilt mit
E(Y ) =
n
X
µk
und
k=1
Var(Y ) =
n
X
σk2
k=1
Hinweis: Der Wert von Erwartungswert und Varianz folgt aus Satz 5.3.1. Die entscheidende Aussage des Satzes ist jedoch, dass die Summe wieder normalverteilt ist. Der Beweis
dieser Aussage kann mit Hilfe der (hier nicht behandelten) momentenerzeugenden Funktion oder durch aufwändige Auswertung eines Faltungsintegrals erfolgen.
74
6
Grundbegriffe der Statistik
6.1
Histogramm, Mittelwert, Stichprobenvarianz
Die Statistik beschäftigt sich mit der Interpretation großer Datenmengen, die experimentell, also beispielsweise durch Messungen oder durch Befragungen von Personen gewonnen
werden. Ziel ist dabei, Rückschlüsse aus diesen Daten zu ziehen vor dem Hintergrund eines
Modells. Das Modell benutzt meist Ideen aus der Wahrscheinlichkeitsrechnung. Beispiele
für Daten, die statistisch interpretiert werden können:
• Ergebnisse des Mathematik-Eingangstests des Arbeitskreises Ingeniermathematik,
konkret: Zahl der erhaltenen Punkte xk des Teilnehmers Nr. k
• Grauwerte eines digitalisierten Bildes, konkret xk mit 0 ≤ xk ≤ 255, xk gibt die
Helligkeit des k. Pixels an (xk = 0 schwarz, xk = 255 weiß)
• Messungen zum radioaktiven Zerfall, beispielsweise xk Zahl der Zählimpulse in jeweils 10 Sekunden, k Nummer der Messung
• Messungen von elektrischen Spannungen in einer Schaltung, xk in der k. Messung
gemessene Spannung
• Zahl der Übertragungsfehler bei der Übertragung des k. Blocks von 512 Zeichen zu
8 Bit
In einfachen Fällen hat man also Zahlenwerte xk , die mit k durchnummeriert sind und
experimentell gewonnen wurden.
Arbeitskreis Ingenieurmathematik NRW
Eingangstest WS 2005/06
5%
%
25 %
50 %
75 %
95 %
22.0
20
18.2
17.0
15
11.4
10.6
10
8.7
5.0
5
2.6
2.4
1.4
0.6
0
0
1
2
3
keine Angabe
Sonstige Zugangsberechtigung
Fachhochschulreife
Abitur, Grundkurs
Abitur, Leistungskurs
4
5
6
7
8
9
10
Punkte
Ergebnisse:
(27 Tests, 1626 Stud. = 100 %)
© 19.11.2005 AK Ingenieurmathematik
c/o baszenski@fh dortmund.de
Abbildung 21: Beispiel für ein Histogramm
Ein Histogramm ist eine grafische Darstellung der absoluten oder relativen Häufigkeit, dass bestimmte Zahlenwerte aufgetreten sind. Wenn die Messwerte xk als wenige
75
diskrete Werte vorliegen (z.B. Punktzahlen bei einem Test), ist dies unproblematisch. Nehmen die Messwerte jedoch kontinuierliche oder sehr viele fein verteilte Werte an, so ist es
notwendig, den Wertebereich in möglichst gleichlange Intervalle einzuteilen und grafisch
darzustellen, wieviele Messwerte im entsprechenden Intervall liegen. Eine solche Einteilung wird Klasseneinteilung geannt, die Länge der Einzelintervalle heißt Klassenbreite.
Als Beispiel für Histogramme ist in Abb. 21 das Ergebnis des Mathematik-Eingangstests
des Arbeitskreises Ingeniermathematik 2005 in Nordrhein-Westfalen, in Abb. 22 die relative Häufigkeit der Grauwerte des Testbilds Lena“gezeigt. Häufig werden die Messungen
”
Abbildung 22: weiteres Beispiel für ein Histogramm: relative Häufigkeit der Grauwerte
des Testbilds Lena“
”
mit Methoden der Wahrscheinlichkeitsrechnung interpretiert. Die relative Häufigkeit wird
meist als Näherung an die Wahrscheinlichkeit angesehen. Eine gängige Vorstellung ist es,
die Messwerte xk als Funktionswerte von stochastisch unabhängigen, identisch verteilten
Zufallsvariablen Xk anzusehen. Die Messwerte x1 , x2 , x3 , . . . xn heißen dann Stichprobe
vom Umfang n. Die gemessene Größe wird Merkmal genannt. So kann das Aussehen eines Histogramms einen Anhaltspunkt dafür geben, welche Verteilung als Modell infrage
kommt.
Um ähnliche Messreihen vergleichen zu können (beispielsweise Testergebnisse aus verschiedenen Jahren), ist es sinnvoll bestimmte charakteristische Zahlen, Kennwerte genannt, aus den Messwerten zu berechnen.
Definition 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n. Dann ist
n
1X
xk
x :=
n k=1
der empirische Mittelwert und
n
1 X
s :=
(xk − x)2
die empirische Varianz sowie
n − 1 k=1
v
u
n
√
u 1 X
2
t
s :=
s =
(xk − x)2
die empirische Standardabweichung
n − 1 k=1
2
der Stichprobe. Die empirische Standardabweichung wird auch empirische Streuung genannt.
1
Hinweis: Der Faktor n−1
bei der empirischen Varianz mag überraschen, denn man erwartet vielleicht in Analogie zum Mittelwert den Faktor n1 . Eine anschauliche, aber unbefriedigende Begründung ist, dass die empirische Varianz und damit auch die empirische
76
Streuung unsinnig sind für einen einzigen Messwert und dass dies in der Formel auch sichtbar sein sollte. Eine genauere und befriedigendere Begründung erhalten wir im nächsten
Unterabschnitt. Für den empirischen Mittelwert und die bei der empirischen Varianz auftretende Summe gilt folgende nützliche Rechenregel:
Satz 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n und x der empirische
Mittelwert. Dann gilt
n
n
X
X
2
x2k − nx2
(xi − x) =
k=1
k=1
Beweis:
n
X
k=1
n
n
n
X
X
X
2
2
2
=
(xk − 2xk x + x ) =
xk − 2x
xk + nx2
2
(xk − x)
k=1
=
n
X
k=1
k=1
x2k − 2x · n · x + nx2 =
k=1
n
X
k=1
x2k − nx2
Folgerung: Die empirische Varianz kann auch durch
n
1 X 2
n
s =
x2
xk −
n − 1 k=1
n−1
2
berechnet werden.
Hinweis: Wenn man die Stichprobe skaliert und um einen Offset verschiebt, also die neue
Stichprobe
yk = a + bxk
bildet, so gilt für die empirischen Mittelwerte und die empirische Varianz
s2y = b2 s2x
y = a + bx,
denn
n
P
(yk − y)2 = b2
k=1
6.2
n
P
(xk − x)2 .
k=1
Parameterschätzungen
Unsere Modellvorstellung ist es, dass die Werte der Stichprobe x1 , x2 , x3 , . . . xn Funktionswerte der stochastisch unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn
sind. Diese Variablen heißen Stichprobenvariablen. Die zugehörige Messgröße oder physikalische Größe wird in der Statistik Merkmal genannt (beispielsweise die elektrische
Spannung oder die Anzahl der Übertragungsfehler). Die Verteilungen dieser Zufallsvariablen (denken Sie an die Poisson- oder die Normalverteilung), also deren Verteilungsfunktion
oder Wahrscheinlichkeitsdichte, sind meist durch den Erwartungswert µ sowie die Varianz
σ 2 gekennzeichnet. Es gibt aber auch Verteilungen, die durch mehr Parameter charakterisiert sind. Man kennt den konkreten Zahlenwert dieser Parameter für das Merkmal oder
die Messgröße meist nicht und möchte diese Parameter mit Hilfe der Stichprobe schätzen.
Es ist naheliegend, den unbekannten Erwartungswert µ einer Verteilung der identisch
verteilten, stochastisch unabhängigen Zufallsvariablen durch den Mittelwert zu schätzen,
also µ ≈ x anzunehmen. Man nennt dann die Funktion
n
1X
g(x1 , x2 , x3 , . . . xn ) :=
xk
n k=1
77
die Schätzfunktion. Wir können keine Übereinstimmung des geschätzten Parameters mit
dem exakten erwarten, bei verschiedenen Messreihen werden wir meist verschiedene Schätzungen erhalten. Man stellt jedoch gewisse Güteanforderungen an die Schätzfunktion.
Einer Schätzfunktion g(x1 , x2 , x3 , . . . xn ) kann man die
Schätzvariable g(X1 , X2 , X3 , . . . Xn )
zuordnen (die eine Zufallsvariable ist). Wir nennen die Schätzfunktion erwartungstreu,
wenn der Erwartungswert der Schätzvariablen mit dem tatsächlichen Wert des Parameters übereinstimmt. Für die angegebene Schätzfunktion für den Erwartungswert ist die
Schätzvariable
n
1X
X=
Xk
n k=1
Hierfür erhalten wir
n
1X
Xk
n k=1
E g(X1 , X2 , X3 , . . . Xn ) = E(X) = E
!
n
1X
1
=
E(Xk ) = · n · µ = µ
n k=1
n
Dabei haben wir die Rechenregeln für Erwartungswerte aus Satz 3.2.2 und die Annahme
benutzt, dass alle Stichprobenvariablen identisch verteilt sind. Aufgrund dieser Annahme
sind alle Erwartungswerte E(Xk ) = µ gleich. Beachten Sie, dass wir nur vorausgesetzt
haben, dass die Erwartungswerte existieren, aber keinerlei Annahme über die konkrete
Verteilung gemacht haben. Wir merken uns:
Der empirische Mittelwert ist eine erwartungstreue Schätzfunktion für den Erwartungswert.
Untersuchen wir nun die empirische Varianz. Wir prüfen, ob sie eine erwartungstreue
Schätzfunktion für die Varianz ist. Wir betrachten also die Funktion
n
g(x1 , x2 , x3 , . . . xn ) =
n
1 X
1 X 2
n
(xk − x)2 =
xk −
x2
n − 1 k=1
n − 1 k=1
n−1
Für die Umformung der Funktion wurde Satz 6.1.1 verwandt. Die zugehörige Schätzvariable
ist
n
n
1 X
1 X 2
n
2
S := g(X1 , X2 , X3 , . . . Xn ) =
(Xk − x)2 =
Xk −
X
n − 1 k=1
n − 1 k=1
n−1
2
Für deren Erwartungswert erhalten wir
n
1 X 2
n
2
E(S 2 ) = E
Xk −
X
n − 1 k=1
n−1
n
n
2
=
E(X12 ) −
E(X )
n−1
n−1
!
n
=
1 X
n
2
E(Xk2 ) −
E(X )
n − 1 k=1
n−1
Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als identisch verteilt angenommen
wurden, also E(Xk2 ) = E(X12 ) für alle k gilt. Wir vereinbaren die Schreibabkürzungen
µ := E(Xk ) = E(X1 )
und
78
σ 2 := Var(Xk ) = Var(X1 )
2
Nach Satz 3.2.3 gilt Var(X) = E(X 2 ) − E(X) , also
2
E(X12 ) = Var(X1 ) + E(X1 ) = σ 2 + µ2
Analog haben wir nach Satz 3.2.3
2
E(X ) = Var(X) + E(X)
n
X
1
Var
=
Xk
n2
k=1
2
= Var
!
n
+
!
n
1X
Xk +
n k=1
!2
1X
E(Xk )
n k=1
E
n
X
!!2
Xk
k=1
1
= 2 · nσ 2 +
n
1
· nµ
n
2
=
1 2
σ + µ2
n
Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als stochastisch unabhängig vorn
n
P
P
ausgesetzt werden und damit nach Satz 5.3.1 Var
Xk =
Var(Xk ) = nσ 2 gilt.
k=1
Wir haben nun für den Erwartungswert der Schätzvariablen S 2
k=1
n
n
n
n
n
1 2
2
2
2
2
2
E(S ) =
E(X1 ) −
E(X ) =
σ +
µ −
σ +µ
n−1
n−1
n−1
n−1
n−1 n
n
n
1
n
n
1
2
2
2
2
2
σ +
µ −
σ −
µ =σ
−
=
n−1
n−1
n−1
n−1
n−1 n−1
n−1
= σ2 ·
= σ2
n−1
2
Wir haben damit das folgende Ergebnis gewonnen:
Die empirische Varianz s2 ist eine erwartungstreue Schätzfunktion für die Varianz.
1
Aus der Rechnung ist auch sichtbar geworden, dass der Faktor n−1
nicht durch n1 ersetzt
werden kann, wenn
√ die Schätzfunktion erwartungstreu sein soll. Die empirische Standardabweichung s = s2 selbst ist keine erwartungstreue Schätzung der Standardabweichung,
i.a. ist der Erwartungswert der entsprechenden Schätzvariablen kleiner als die Standardabweichung der Verteilung. Dies sieht man daran, dass nach Satz 3.2.3 für die Schätzvariable
S gilt
2
2
Var(S) = E(S 2 ) − E(S) = σ 2 − E(S)
2
und damit E(S) = σ 2 − Var(S). Für den Erwartungswert von S selbst erhält man also
p
E(S) = σ 2 − Var(S) < σ
denn in den Hinweisen nach Def. 3.2.3 wurde erläutert, dass für eine Zufallsvariable
Y
nur möglich ist, dass Var(Y ) = 0, wenn die Wahrscheinlichkeit P {Y (ω) = E(Y )} = 1
ist, das zugehörige Wahrscheinlichkeitsmaß also trivial ist.
Erwartungstreue ist nicht das einzige Gütekriterium, nach dem man eine Schätzfunktion
beurteilen sollte. Für den Erwartungswert könnten wir statt des Mittelswertes die völlig
unsinnige Schätzfunktion
g(x1 , x2 , . . . xn ) = x1 nehmen. Auch diese Schätzfunktion liefert
E g(X1 , X2 , . . . Xn ) = E(X1 ) = µ, die Schätzung ist also erwartungstreu. Der empirische
Mittelwert ist die bessere Schätzung, weil seine Werte weniger streuen. Die Varianz der
zugehörigen Schätzvariable X erfüllt
!
n
n
1X
1 X
1
σ2
Var(X) = Var
Xk = 2
Var(Xk ) = 2 · n · σ 2 =
n k=1
n k=1
n
n
79
Dagegen ist Var(X1 ) = σ 2 . Dies wird bei vielen Messungen ausgenutzt, indem man mehrmals misst und den Mittelwert bildet, um die Genauigkeit zu erhöhen. Die Standardabweichung für den Mittelwert von Messungen ist also √σn , wenn σ die Standardabweichung
der einzelnen Messungen ist. Beachten Sie, dass die Annahme, dass die Messfehler Werte
einer Zufallsvariablen sind, eine Modellvorstellung ist. Der Erwartungswert der Messwerte muss nicht unbedingt mit der gesuchten physikalischen Größe übereinstimmen (wenn
beispielsweise alle Messwerte aufgrund einer zu hohen Temperatur erheblich kleiner sind).
Eine erwartungstreue Schätzung heißt wirksam oder effizient, wenn die zugehörige
Schätzvariable unter allen erwartungstreuen Schätzvariablen die kleinste Varianz besitzt.
Man kann zeigen, dass der empirische Mittelwert eine wirksame Schätzung des Erwartungswerts darstellt.
n
P
Xk für
Nach dem zentralen Grenzwertsatz ist der empirische Mittelwert X = n1
k=1
2
große n näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Die Wahrscheinlichkeit, dass der empirische Mittelwert sich betragsmäßig um weniger als eine vorgegebene Fehlerschranke ε > 0 vom Erwartungswert µ unterscheidet, ist also näherungsweise
gegeben durch
√ √ √ Z+ε
2
n
nε
nε
− nx2
−Φ −
e 2σ dx = Φ
P { X − µ < ε} ≈ √
σ
σ
σ 2π
−ε
√ √ nε
nε
1
= 2 Φ
−
= 2Φ
−1
σ
2
σ
Dabei wurden die Symmetrieeigenschaften der Verteilungsfunktion Φ(t) benutzt. Wir haben demnach
lim P {X − µ < ε} = 1
n→∞
Also ist für jede Fehlerschranke ε > 0 die Wahrscheinlichkeit, dass der Abstand des
empirischen Mittelwerts vom Erwartungswert größer als ε ist, im Grenzwert Null, also
lim P {X − µ > ε} = 0
n→∞
Dieses Ergebnis ist gerade die Aussage des schwachen Gesetzes der großen Zahlen. Schätzungen mit einer derartigen Eigenschaft heißen konsistent. Verlangt ist hierfür, dass
die Wahrscheinlichkeit, dass der Abstand der Schätzvariable vom tatsächlichen Wert des
Parameters größer als ε ist, im Grenzwert n → ∞ verschwindet. Die Aussage des schwachen Gesetzes der großen Zahlen ist also, dass der empirische Mittelwert eine konsistente
Schätzung des Erwartungswertes darstellt.
Fehlerfortpflanzung:
Aus den Messwerten x1 , x2 , . . . xn wird häufig eine neue Größe y = f (x1 , x2 , . . . xn ) berechnet. So kann die Spannung U = R·I aus dem gemessenen Widerstand und der gemessenen
Stromstärke berechnet werden. Ein mögliches wahrscheinlichkeitstheoretisches Modell ist,
dass wir die Messwerte x1 , x2 , . . . xn als Funktionswerte der Zufallsvariablen X1 , X2 , . . . Xn
mit den Erwartungswerten µ1 , µ2 , . . . µn und den Varianzen σ12 , σ22 , . . . σn2 ansehen.
Dann ist die Größe y ein Funktionswert der Zufallsvariablen Y = f (X1 , X2 , . . . Xn ).
Von Interesse ist eine Näherung für die Varianz Var(Y ). Hierzu wird meist die Funktion f
80
durch ihr Taylorpolynom ersten Grades ersetzt, also eine lineare Näherung vorgenommen:
n
X
∂f
(x1 , x2 , . . . xn )hk
f (x1 + h1 , x2 + h2 , . . . xn + hn ) = f (x1 , x2 , . . . xn ) +
∂x
k
k=1
Statt der Zufallsvariablen f (X1 , X2 , . . . Xn ) betrachten wir also die Zufallsvariable
Y = f (µ1 , µ2 , . . . µn ) +
n
X
∂f
(µ1 , µ2 , . . . µn )(Xk − µk )
∂x
k
k=1
Wenn die Zufallsvariablen Xk stochastisch unabhängig sind, dann erhalten wir nach
Satz 3.2.3 und 5.3.1
2
2
n n X
X
∂f
∂f
(µ1 , µ2 , . . . µn ) Var(Xk ) =
(µ1 , µ2 , . . . µn ) σk2
Var(Y ) =
∂x
∂x
k
k
k=1
k=1
und damit für die Standardabweichung
v
u n 2
uX ∂f
(µ1 , µ2 , . . . µn ) σk2
σ(Y ) = t
∂x
k
k=1
Dies ist die bekannte Formel für die Fehlerfortpflanzung nach Gauß (siehe das AnalysisSkript, Abschnitt 8.3.4, Gleichung (125)). Eine plausible Schätzung erhält man, wenn man
die unbekannten Varianzen σk2 durch die entsprechenden empirischen Varianzen ersetzt.
Beachten Sie, dass hierbei die Annahme der stochastischen Unabhängigkeit von X1 ,
X2 , . . . Xn eingeht. Bei zwei Variablen, also im Sonderfall n = 2, erhält man ohne diese
Voraussetzung mit den Schreibabkürzungen
a1 :=
∂f
(µ1 , µ2 ),
∂x1
a2 :=
∂f
(µ1 , µ2 )
∂x2
q
q
2 2
2 2
a1 σ1 + a2 σ2 + 2a1 a2 Cov(X1 , X2 ) ≤ a21 σ12 + a22 σ22 + 2|a1 ||a2 | |Cov(X1 , X2 )|
σ(Y ) =
q
p
≤
a21 σ12 + a22 σ22 + 2|a1 ||a2 |σ1 σ2 = (|a1 |σ1 + |a2 |σ2 )2
= |a1 |σ1 + |a2 |σ2
Diese Abschätzung ist im Analysis-Skript, Abschnitt 8.3.4, als die pessimistische Ab”
schätzung“ angegeben worden. An dieser Rechnung ist auch sichtbar, dass für die Anwendbarkeit der Formel für die Fehlerfortpflanzung nach Gauß es ausreicht, dass die Variablen
Xk unkorreliert sind, d.h. dass Cov(Xi , Xk ) = 0 für alle i 6= k. Dies ist eine schwächere
Voraussetzung als die stochastische Unabhängigkeit.
6.3
Allgemeine Prinzipien zur Gewinnung von Schätzungen
Maximum Likelihood: Eine Möglichkeit zur Gewinnung von Parameterschätzungen ist
die Maximum-Likelihood-Methode. Nach unserer Modellvorstellung besteht die
81
Stichprobe x1 , x2 , . . . xn aus Funktionswerten der stochastisch unabhängigen identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn . Es soll nun ein unbekannter Parameter δ dieser Verteilung geschätzt werden. In der Praxis ist häufig δ = µ, der Erwartungswert oder δ = σ 2 , die Varianz. Die zugrunde liegende Idee zur Schätzung von
δ ist, diesen Parameter so zu wählen, dass die Wahrscheinlichkeit, dass die Werte
x1 , x2 , . . . xn der konkreten Stichprobe auftreten, maximal ist. Um die Abhängigkeit
vom Paramter δ zu verdeutlichen, bezeichnen wir häufig die zugehörige Wahrscheinlichkeit mit Pδ .
Betrachten wir zunächst den Fall, dass die Zufallsvariablen X1 , X2 , . . . Xn diskret
sind. Dann versuchen wir den Parameter δ so zu bestimmen, dass die Wahrscheinlichkeit
L(δ) = Pδ (X1 = x1 ) · Pδ (X2 = x2 ) · · · Pδ (Xn = xn )
maximal ist. Die Funktion L(δ) wird Likelihood-Funktion genannt. Ein häufig verwandter Rechentrick besteht
darin, statt das Maximum von L(δ) direkt zu suchen,
das Maximum von ln L(δ) zu suchen, da ln eine streng monoton wachsende Funktion ist, unddaher δ0 genau dann ein Maximum von L(δ) ist, wenn δ0 ein Maximum
von ln L(δ) ist.
Beispiel: Wir betrachten ein Bernoulli-Experiment, beispielsweise die Übertragung
von Bits über einen unsicheren Übertragungskanal. xk = 1 soll bedeuten, dass ein
Übertragungsfehler bei der Übertragung des k. Bits aufgetreten ist, xk = 0, dass
kein Fehler aufgetreten ist. Wir haben als Parameter p, wobei
P {Xk = 1} = p
und
P {Xk = 0} = 1 − p
Dies kann zu der einheitlichen Formel
P {Xk = xk } = pxk · (1 − p)1−xk
zusammengefaßt werden. Aufgrund der Unabhängigkeit der Xk haben wir als Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn
n
P
x1
1−x1
L(p) = p · (1 − p)
x2
· p · (1 − p)
1−x2
···p
xn
· (1 − p)
1−xn
= p k=1
xk
n−
· (1 − p)
n
P
xk
k=1
Wir suchen das Maximum der Funktion
n
P
n
P
!
n
X
!
xk
n−
xk
f (p) = ln L(p) = ln p k=1 · (1 − p) k=1
= ln(p) ·
n
X
k=1
Ableitung liefert
xk + ln(1 − p) ·
n
P
n−
xk
k=1
0
n
P
k=1
n−
xk
k=1
xk
−
p
1−p
Die notwendige Bedingung für das Auftreten eines Maximums im Innern des Definitionsbereichs ist f 0 (p) = 0, und daraus folgt
f (p) =
n
P
xk
k=1
p
=
82
n−
n
P
k=1
1−p
xk
und damit erhalten wir als Schätzung für den Parameter p
n
1 X
p= ·
xk
n k=1
also die relative Häufigkeit des Auftretens eines Fehlers. Dies ist auch mit der anschaulichen Interpretation der Wahrscheinlichkeit verträglich. Die zugehörige Schätzn
P
Xk .
variable ist n1 ·
k=1
Untersuchen wir nun den Fall von Zufallsvariablen X1 , X2 , . . . Xn mit einer stückweise
stetigen Dichtefunktion fδ (x). Dann wird — in Verallgemeinerung von Satz 5.1.5 —
die Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn durch die Dichtefunktion
Lδ (x1 , x2 , . . . xn ) = fδ (x1 ) · fδ (x2 ) · · · fδ (xn )
beschrieben. Auch hier ist es häufig rechnerisch einfacher, das Maximum von
n
X
g(δ) = ln Lδ (x1 , x2 , . . . xn ) =
ln fδ (xk )
k=1
zu suchen.
Beispiel: Für normalverteilte Zufallsvariable haben wir für den Parameter δ = µ
das Maximum von
n
√
1 X
(xk − µ)2
g(µ) = ln Lµ (x1 , x2 , . . . xn ) = −n ln(σ 2π) − 2
2σ k=1
zu bestimmen. Ableiten ergibt
g 0 (µ) =
n
n
1 X
1 X
nµ
(x
−
µ)
=
x
−
k
k
σ 2 k=1
σ 2 k=1
σ2
Die notwendige Bedingung für das Auftreten eines Maximums g 0 (µ) = 0 liefert die
n
P
schon bekannte Schätzung von µ durch den empirischen Mittelwert µ = n1
xk = x.
k=1
Führt man die entsprechende Rechnung für den Parameter δ = σ 2 durch, so erhält
man mit der Maximum-Likelihood-Methode aus der notwendigen Bedingung für
n
P
das Auftreten eines Maximums σ 2 = n1
(xk − x)2 . Dies ist keine erwartungstreue
k=1
Schätzung aufgrund des Vorfaktors n1 , der allerdings für große n sich nicht wesent1
lich von dem Vorfaktor n−1
der erwartungstreuen Schätzung durch die empirische
Varianz unterscheidet.
Kleinste Quadrate: Die Abweichungen xk − µ von zufälligen Werten xi von einem
erwünschten oder erwarteten Wert µ haben meist unterschiedliches Vorzeichen. Man
erwartet, dass ihre Beträge |xk − µ| möglichst klein sind. Man könnte daher fordern,
n
P
dass die Summe
|xk − µ| möglichst klein ist, also ein Minimum hat. Die Betragsk=1
funktion ist aber nicht ableitbar. Es ist daher sinnvoll zu fordern, dass
n
X
f (µ) =
(xi − µ)2
k=1
83
minimal ist. Dies wird das Prinzip der kleinsten Quadrate genannt. Die notwendige Bedingung für ein Minimum im Innern des Definitionsbereiches f 0 (µ) = 0
liefert
!
n
n
X
X
f 0 (µ) = −2
(xi − µ) = −2
xk − n · µ = 0
k=1
k=1
Daraus erhält man die bekannte Schätzfunktion für den Erwartungswert
n
1X
xk
µ=x=
n k=1
Wir werden dieses Prinzip im nächsten Unterabschnitt auf den Fall anwenden, dass
man Paare von Messwerten hat.
6.4
Lineare Regression
Abbildung 23: Infolge von Messfehlern liegen die Messpunkte nicht auf der Geraden, auf
der sie nach den physikalischen Gesetzen liegen sollten, z.B. x = I, y = U in der rechts
abgebildeten Schaltung.
Bei Paaren xk , yk von Messwerten erwartet man häufig aufgrund von physikalischen
Gesetzen der Form y = ax + b, dass diese bei einer grafischen Darstellung auf einer Geraden liegen. Aufgrund von Messfehlern ist aber meist yk 6= axk + b. Diese Situation
wurde bereits im Analysis-Skript im Abschnitt 8.4.3 als Anwendungsbeispiel behandelt.
Die dortige Abbildung 81 ist hier als Abb. 23 nochmal wiedergegeben. Führt man mehr
Messungen durch als zur Berechnung der beiden Parameter a, b notwendig wäre, dann
führt die Forderung yk = axk + b für k = 1, 2, . . . n mit n > 2 aufgrund von Messfehlern zu
einem überbestimmten und unlösbaren linearen Gleichungssystem für die beiden Unbekannten a und b. Das Prinzip der kleinsten Quadrate führt zu der erfüllbaren Forderung,
dass
n
X
S(a, b) :=
(yk − b − axk )2
(35)
k=1
minimal ist. Wir erhalten als Ergebnis der im Analysis-Skript behandelten Rechnungen
den
84
Satz 6.4.1 Seien x1 , x2 . . . xn ∈ R und y1 , y2 . . . yn ∈ R und seien mindestens zwei der
Werte xk verschieden, also xi 6= xl für ein i 6= l und sei die Funktion S(a, b) durch (35)
gegeben. Ferner sei x der empirische Mittelwert und seien
∆xk := xk − x
n
X
∆ := n ·
(∆xk )2
und
k=1
Dann gilt ∆ > 0 und S(a, b) nimmt sein Minimum genau dann an, wenn
! n
!!
n
n
X
X
X
1
n
xk yk −
a =
xk
yk
und
∆
k=1
k=1
k=1
!
!
! n
!!
n
n
n
X
X
X
X
1
x2k
yk −
xk
b =
xk yk
∆
k=1
k=1
k=1
k=1
(36)
(37)
Definition 6.4.1 Wenn verschiedene Arten von Messwerten
x1 , x2 . . . xn ∈ R
y1 , y2 . . . yn ∈ R
und
untersucht werden, dann schreiben wir zur Verdeutlichung für die empirische Varianz von
x1 , . . . xn das Symbol s2x , analog für die empirische Varianz von y1 , . . . yn das Symbol s2y .
Entsprechend schreiben wir sx und sy für die zugehörigen empirischen Standardabweichungen. Analog zur Abkürzung ∆xk in der Voraussetzung von Satz 6.4.1 definieren wir
∆yk := yk − y
Der durch (36) gegebene Koeffizient a heißt empirischer Regressionskoeffizient und
wir nennen
n
1 X
sxy :=
(xk − x)(yk − y)
die empirische Kovarianz sowie
n − 1 k=1
sxy
den empirischen Korrelationskoeffizienten.
r :=
sx · sy
Dabei ist vorausgesetzt, dass mindestens zwei der Werte yk verschieden sind und damit
sy > 0.
Hinweise:
(a) Für die Abkürzung aus der Voraussetzung von Satz 6.4.1 haben wir
∆ = n · (n − 1) · s2x
(38)
(b) Mit Hilfe der Umformung
n
n
X
k=1
(xk − x)(yk − y) = n
= n
n
X
k=1
n
X
k=1
xk yk − nx
2
n
X
k=1
yk − ny
xk yk − n · x · y = n
85
n
X
k=1
n
X
k=1
x k + n2 · x · y
xk yk −
n
X
k=1
!
xk
n
X
k=1
!
yk
sowie mit Satz 6.1.1 und (38) erhalten wir für den empirischen Regressionskoeffizienten
n
n
P
P
(xk − x)(yk − y)
n (xk − x)(yk − y)
sxy
k=1
k=1
=
=
(39)
a=
n · (n − 1) · s2x
(n − 1) · s2x
s2x
(c) Wir benutzen xk = x + ∆xk (analog für yk ) sowie
n
P
∆xk = 0 (analog für yk ) und
k=1
n
X
x2k =
n
X
k=1
(x + ∆xk )2 = nx2 + 2x
k=1
sowie
n
X
∆xk +
k=1
n
X
n
X
xk yk =
k=1
n
n
X
X
(∆xk )2
(∆xk )2 = nx2 +
k=1
k=1
(x + ∆xk )(y + ∆yk ) = nxy +
n
X
∆xk ∆yk
k=1
k=1
und vereinfachen damit die in Satz 6.4.1 angegebene Berechnung des Koeffizienten:
n
n
P
P
2
2
nx +
(∆xk ) ny − nx(nxy +
∆xk ∆yk )
k=1
k=1
b =
n
P
n (∆xk )2
k=1
ny
n
P
(∆xk )2 − nx
k=1
=
n
n
P
n
P
n
P
∆xk ∆yk
k=1
=y−
(∆xk )2
∆xk ∆yk
x k=1
n
P
k=1
(∆xk )2
=y−
k=1
(n − 1)sxy
x
(n − 1)s2x
= y − ax
Zusammen mit (39) erhalten wir damit eine einfachere Formulierung von Satz 6.4.1
Unter den Voraussetzungen von Satz 6.4.1 hat die durch (35) gegebene Funktion
S(a, b) genau dann ein Minimum, wenn die Koeffizienten a und b
sxy
s2x
a=
und
b = y − ax
(40)
erfüllen.
(d) Aus
n
P
x2k = nx2 +
k=1
n
P
(∆xk )2 (siehe c) bekommt man die nützliche Gleichung
k=1
∆=n
n
X
(∆xk )2 = n
k=1
n
X
k=1
x2k − n2 x2
Hiermit, mit der Umformung von (b) sowie mit
n
n
n
n
X
X
X
X
(xk − x)(yk − y) =
(xk − x)yk − y
(xk − x) =
(xk − x)yk
k=1
k=1
k=1
86
k=1
erhält man die nützliche Umformung für den linearen Regressionskoeffizienten
n
a=
n
P
(xk − x)(yk − y)
k=1
n
n
P
(xk −
n
P
=
x)2
(xk − x)yk
k=1
n
P
x2k
k=1
k=1
− nx
2
n
nX
=
(xk − x)yk
∆ k=1
(41)
(e) Aus der Definition der empirischen Standardabweichung und der Abkürzung ∆xk
in der Voraussetzung von Satz 6.4.1 erhält man
v
uP
u n
u (∆xk )2
t
sx = k=1
n−1
Mit einer analoge Formel für sy erhält man für den Korrelationskoeffizienten
n
P
r=s
∆xk ∆yk
k=1
n
P
(∆xk )2
k=1
n
P
(∆yk )2
k=1
Definieren wir die Vektoren



∆x1
 ∆x2 


~u :=  .. 
 . 
und

∆y1
 ∆y2 


~v :=  .. 
 . 
∆yn
∆xn
so erhalten wir
r=
~u · ~v
|~u|
Aus der Cauchy-Schwarz-Ungleichung |~u · ~v | ≤ |~u| · |~v | (die auch für Vektoren im Rn
gültig ist) folgt dann
|r| ≤ 1
Eine kurze Rechnung (Übungsaufgabe!) zeigt, dass |r| = 1, wenn für alle k =
1, 2, . . . n gilt yk = a · xk + b, und zwar r = 1, wenn a > 0 und r = −1, wenn
a < 0. Wenn die Messwerte alle auf einer Geraden liegen, dann ist r = ±1, wenn
die Steigung der Geraden positiv ist, dann ist r = 1, wenn sie negativ ist, dann ist
r = −1. Und man kann zeigen, dass nur dann r = ±1 auftreten kann. Daran, wie
nahe |r| an 1 liegt, kann man ablesen, wie gut“ die Werte (xk , yk ) auf einer Geraden
”
liegen. Man sollte sich hüten, aus einem Wert |r| ≈ 1 zu schließen, dass große Werte
für |xk | die Ursache für große Werte von |yk | sind. Bei einem häufig als Warnung
angeführten Beispiel ist xk die Zahl der Storchennester im Landkreis k und yk die
Zahl der Geburten in einem Jahr.
Bisher haben wir uns darauf beschränkt, nach dem Prinzip der kleinsten Fehlerquadrate
eine Gerade durch die Messpunkte (xk , yk ) zu legen. Wir wollen nun ein einfaches wahrscheinlichkeitstheoretisches Modell betrachten. Wir nehmen zur Vereinfachung an, dass
87
die Messfehler bei den Werten xk vernachlässigbar klein sind gegenüber dem bei den
Werten yk . Wir gehen also davon aus, dass
yk = axk + b + zk
und die unbekannten Fehler zk Funktionswerte von identisch verteilten und stochastisch
unabhängigen Zufallsvariablen Zk sind mit dem Erwartungswert E(Zk ) = 0 und der
Varianz Var(Zk ) = σ 2 . Damit sind die Messwerte yk Funktionswerte der Zufallsvariablen
Yk = axk + b + Zk
und wir haben nach Satz 3.2.3 Var(Yk ) = Var(Zk ) = σ 2 . Wir können die Koeffizienten a
und b aufgrund von (40) und (41) als Funktionswerte der Zufallsvariablen
n
P
A=
(xk − x)Yk
k=1
n
P
x2k
k=1
− nx
2
n
nX
=
(xk − x
∆ k=1
n
und
1X
B=
Yk − xA
n k=1
ansehen. Aufgrund von Satz 3.2.3 erhalten wir daraus
n
P
(xk − x)2 Var(Yk )
σ2
σ2
n 2
Var(A) = k=1
=
=
=
σ
n
n
2
P 2
P
n
∆
P
2
2
xk − nx
(∆xk )
x2k − nx2
k=1
k=1
wobei die Umformung
n
P
(xk − x)2 =
k=1
n
P
k=1
k=1
x2k − nx2 (Satz 6.1.1) ausgenutzt wurde. Für die
Berechnung von Var(B) ist es geschickter, von der ursprünglich in Satz 6.4.1 angegebenen
Form, also von (37) auszugehen. Da wir hier b als Funktionswert der Zufallsvariablen B
ansehen, haben wir
!
n
n
1 X X 2
x − nx · xk Yk
B=
∆ k=1 l=1 l
und damit
!2
n
n
1 X X 2
Var(B) =
xl − nx · xk · σ 2
2
∆ k=1 l=1


!2
!
n
n
n
2 X
X
X
σ

=
x2l
−2
x2l nx · xk + n2 x2 x2k 
2
∆ k=1
l=1
l=1

!
!
!
2
n
n
n
2
X
X
X
σ 
2
2 2
2
2 2
x
x
+
n
x
x2l 
=
n
x
−
2n
l
l
∆2
l=1
l=1
k=1
!
n
n
n
n
X
σ2 X 2
σ2 X 2
σ2 X 2
2
2 2
=
x n
xl − n x = 2
xl · ∆ =
xl
∆2 k=1 l
∆
∆
k=1
k=1
k=1
In praktischen Anwendungen ist die Varianz der Messfehler Var(Zk ) = σ 2 meist unbekannt. Diese unbekannte Varianz kann man aufgrund der Messungen schätzen:
88
Satz 6.4.2 Seien x1 , x2 . . . xn ∈ R bekannt und seien mindestens zwei der Werte xk verschieden. Wir nehmen weiterhin an, dass die Zufallsvariablen Yk stochastisch unabhängig
sind und die Erwartungswerte E(Yk ) = axk +b sowie dieselbe Varianz Var(Yk ) = σ 2 haben.
n
P
Außerdem sei ∆ := n ·
(xk − x)2
k=1
Dann sind
n
n
nX
(xk − x)Yk
A=
∆ k=1
1X
B=
Yk − xA
n k=1
und
Schätzvariablen einer erwartungstreuen Schätzung für die Parameter a und b, d.h.
E(A) = a
Weiterhin ist
n
P
SZ2 :=
E(B) = b
und
k=1
(Yk − xk A − B)2
n−2
eine erwartungstreue Schätzung für die unbekannte Varianz σ 2 , d.h. E(SZ2 ) = σ 2 und wir
haben für die Varianzen von A und B
n
Var(A) = σ 2
∆
und
n
σ2 X 2
Var(B) =
x
∆ k=1 k
Hinweise:
(a) Der Satz kann mit Methoden der Linearen Algebra bewiesen werden. Die bisherigen
umständlichen Rechnungen mit dem Summenzeichen legen nahe, dass eine Formulierung mit Hilfe der Linearen Algebra zur Vereinfachung führt. Man definiert die
Datenmatrix X, den Datenvektor y sowie den Parametervektor b durch

 

1 x1
y1
 1 x2 
 y2 
b

 

X :=  .. ..  ,
y :=  ..  ,
b :=
a
. . 
.
1 xn
yn
Das durch xk · a + b = yk für k = 1, 2, . . . n gegebene und für n > 2 überbestimmte
lineare Gleichungssystem lautet dann Xb = y und die Summe der Fehlerquadrate
ist dann
S(b) = |y − Xb|2 = (y − Xb)T (y − Xb)
Man kann allein mit Hilfsmitteln der Linearen Algebra (also ohne partielle Ableitungen) beweisen, dass das Minimum genau dann angenommen wird, wenn b Lösung
des Gleichungssystems
XT Xb = XT y
ist. Die Voraussetzung, dass mindestrens zwei der Werte xk verschieden sind, ist
äquivalent dazu, dass Rang(X) = 2. Der Beweis von Satz 6.4.2 selbst kann mit
dieser Formulierung unter Benutzung zahlreicher Ergebnisse der Linearen Algebra
durchgeführt werden. Er ist jedoch ziemlich umfangreich und wird daher hier nicht
angegeben.
89
(b) In der Praxis berechnet man aus den Daten x1 , x2 , . . . xn und y1 , y2 , . . . yn zunächst
nach (36) und (36) die Koeffizienten a und b und danach den Schätzwert für σ 2
durch
n
P
(yk − xk a − b)2
(42)
s2z := k=1
n−2
p
Mit s2z wird dann die Standardabweichung und damit der Messfehler jeder einzelnen Messung abgeschätzt (diese Schätzung ist jedoch nicht erwartungstreu). Die
Standardabweichung (und damit den Einfluss der Messfehler) von a und b kann man
dann durch
v
u
r
n
u s2z X
n 2
t
s
und
sb =
sa =
x2
∆ z
∆ k=1 k
abschätzen.Der durch s2z geschätzte Parameter σ 2 wird auch Restvarianz genannt.
(c) Es ist plausibel, dass die gemittelte Summe der Fehlerquadrate in (42) die Varianz
von Yk schätzt. Vergleichen Sie (42) mit der empirischen Varianz! Dass hier im
Nenner n−2 auftritt (statt n−1 bei der empirischen Varianz), kann man anschaulich
dadurch begründen, dass die Schätzung im Fall n = 2 keinen Sinn macht, da durch
zwei Punkte stets eine Gerade gelegt werden kann. Eine befriedigendere Begründung
erhält man durch einen mathematischen Beweis von Satz 6.4.2.
(d) Die Methoden dieses Unterabschnitts können verallgemeinert werden:
• Statt davon auszugehen, dass die Messpunkte auf einer Geraden liegen, kann
man als Modell auch zugrunde legen, dass sie auf einer Parabel liegen, oder,
noch allgemeiner, dass ein Zusammenhang der Form
yk = a0 + a1 xk + a2 x2k + · · · + am xm
k
gilt. Auch hier führt die Forderung, dass
n
X
2
(yk − a0 − a1 xk − a2 x2k − · · · − am xm
S(a0 , a1 , . . . am ) =
k )
k=1
minimal ist, zu einem linearen Gleichungssystem für die Koeffizienten a0 , a1 ,
a2 , . . . am .
• Die Größe y kann von mehreren Arten von Messgrößen, also von mehreren
Merkmalen, abhängen, also beispielsweise
yk = a + buk + cvk
was aufgrund von Messfehlern bei mehr als drei Messungen nicht exakt erfüllbar
ist. Auch hier liefert die Forderung, dass
S(a, b, c) =
n
X
k=1
(yk − a − buk − cvk )2
minimal ist, ein lineares Gleichungssystem für die unbekannten Parameter
a, b, c. Auch hier kann y statt von drei von m Größen abhängen.
90
In allen diesen Verallgemeinerungen ist eine Formulierung mit Matrizen, wie sie in
Hinweis (a) angedeutet wurde, dringend zu empfehlen.
(e) In vielen Fällen besteht zunächst kein linearer, sondern ein exponentieller Zusammenhang zwischen den Messgrößen. So erwartet man bei der Entladung eines Kondensators, dass die Spannungen uk zu den Zeitpunkten tk
1
uk = u0 · e− τ tk
erfüllen. Hier kann man die Methoden dieses Unterabschnitts anwenden, indem man
1
yk = ln(uk ) = ln(u0 ) − tk
τ
und xk = tk setzt. Dann erhält man a = − τ1 und b = ln(u0 ).
6.5
Intervallschätzungen, Konfidenzintervalle
Bei den bisherigen Schätzungen haben wir eine Funktion angegeben, mit deren Hilfe wir
aus den Messwerten oder aus der Stichprobe einen den Wert eines unbekannten Parameters geschätzt haben. Zur Verdeutlichung kann man von einer Punktschätzung sprechen,
da ein einziger Wert, beispielsweise der unbekannte Erwartungswert durch Berechnung des
Mittelwerts, geschätzt wird. Wir können jedoch nicht erwarten, dass die Schätzung, also
im Beispiel x mit dem Erwartungswert µ exakt übereinstimmt. Neue Messwerte, d.h. eine
neue Stichprobe, werden in der Regel einen andern Wert liefern. Statt also einen einzelnen Wert oder einen Punkt als Schätzung anzugeben, kann es sinnvoll sein, ein Intervall
anzugeben, in dem der Parameter mit einem gewissen Grad des Vertrauens“ liegt.
”
Beispiel: Wir betrachten als erstes einfaches (dafür aber unrealistisches) Beispiel die
Schätzung des unbekannten Erwartungswertes µ von stochastisch unabhängigen normalverteilten Zufallsvariablen mit Xk mit bekannter Varianz σ 2 durch eine Stichprobe
x1 , x2 , . . . xn . Wir wissen aufgrund von Satz 5.3.4, dass die Schätzvariable X normalver2
teilt ist mit Erwartungswert µ und Varianz Var(X) = σn . Also ist die Zufallsvariable
Z=
X −µ
√σ
n
√
n(X − µ)
=
σ
standardnormalverteilt. Wir legen nun einen Grad des Vertrauens“ mit beispielsweise p =
”
0, 95 bzw. 95 % fest und suchen ein Intervall ]a, b[ mit der Eigenschaft, dass der unbekannte
Erwartungswert µ mit 95 % Vertrauen“ a < µ < b erfüllt. Wir haben aber hier das
”
Problem, dass µ keine Zufallsvariable ist, und die Frage nach der Wahrscheinlichkeit
dafür, dass a < µ < b erfüllt ist, unsinnig ist! Als Ausweg suchen wir stattdessen ein
c > 0 mit der Eigenschaft, dass die Wahrscheinlichkeit
P {X − c < µ < X + c} = 0, 95
(43)
Wenn wir ein solches c gefunden haben, ist es plausibel, dass mit dem gewählten Grad des
Vertrauens von 95 % für das zufällig gewonnene Stichprobenmittel
x−c < µ < x+c erfüllt
√
n
ist. Wir können die Ungleichung in (43) mit mit Z = σ (X − µ) äquivalent umformen:
√
√
n
n
<Z<c
X −c < µ < X +c ⇐⇒ −c < µ−X < c ⇐⇒ −c < X −µ < c ⇐⇒ −c
σ
σ
91
Da Z standardnormalverteilt ist, gilt für die Wahrscheinlichkeit
√ √ √
√ n
n
n
n
<Z<c
=Φ c
− Φ −c
P
−c
σ
σ
σ
σ
√
1
1
Da Φ(t) = 2 + 2 · erf √t2 und erf(−x) = − erf(x) haben wir mit ξ := c σn
Φ(ξ) − Φ(−ξ) = erf
ξ
√
2
= 2Φ(ξ) − 1 = p = 0, 95
nach ξ aufzulösen. Diese Gleichung ist äquivalent zu
2Φ(ξ) = 1 + p
bzw.
1
Φ(ξ) = (1 + p)
2
D.h. ξ ist das Quantil der Ordnung q = 12 (1 + p) der Standardnormalverteilung (siehe Abschnitt 3.3). Dieses kann beispielsweise in Scilab durch cdfnor("X",0,1,q,1-q)
berechnet werden. Wir erhalten hier
σ
ξ ≈ 1, 96
und damit
c ≈ 1, 96 · √
n
und
σ
σ
P
X − 1, 96 · √ < µ < X + 1, 96 · √
= 0, 95
n
n
Als Ergebnis erhalten wir das Konfidenzintervall
σ
σ
x − 1.96 · √ , x + 1, 96 · √
n
n
mit 95 % Vertrauen. Man sieht, dass es mit wachsendem Umfang n der Stichprobe kleiner
wird.
Praktisches Anwendungsbeispiel: Eine Messgröße wird in ein analoges Spannungssignal umgewandelt und anschließend über eine verrauschte Leitung übertragen. Wir
nehmen an, dass man weiß, dass das Rauchen normalverteilt ist mit Mittelwert 0 und
Standardabweichung σ = 5 mV. Also ist das das übertragene Signal normalverteilt,
X ∼ N (µ, 25) mit der ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Durch zehnmaliges Übertragen des analogen Signals erhält man einen Mittelwert
von beispielsweise 42 mV. Dann kann man nach der obigen Rechnung sagen, dass die
ursprüngliche Spannung mit 95 % Vertrauen im Intervall ]38, 9 mV, 45, 1 mV[ liegt.
Wir möchten allgemein einen Parameter aufgrund einer Stichprobe x1 , x2 , . . . xn schätzen, der meist mit θ bezeichnet wird (in den häufigsten Anwendungen ist θ = µ = E(X)
der Erwartungswert oder θ = σ 2 = Var(X) die Varianz einer Zufallsvariable). Statt nur
einen einzigen Wert anzugeben, wollen wir ein Intervall angeben mit a < θ < b. Wir
müssen dabei das Problem umgehen, dass wir hierfür keine Wahrscheinlichkeit angeben
können, denn θ ist keine Zufallsvariable, sondern wir wissen nicht, ob θ ∈ ]a, b[ wahr oder
falsch ist. Wir behelfen uns auf folgende Weise:
Definition 6.5.1 Gegeben seien
• eine Stichprobe x1 , x2 , . . . xn und die zugehörigen identisch verteilten stochastisch
unabhängigen Zufallsvariablen X1 , X2 , . . . Xn
92
• θ ein (in der Praxis unbekannter und zu schätzender) Parameter der Verteilung der
Xk
• Schätzfunktionen gu (x1 , x2 , . . . xn ) und go (x1 , x2 , . . . xn ) mit den zugehörigen Schätzvariablen Gu (X1 , X2 , . . . Xn ) und Go (X1 , X2 , . . . Xn )
• eine Zahl 0 < p < 1, die Vertrauensniveau oder Konfidenznieveau genannt wird (in
der Praxis ist meist p = 0, 95, p = 0, 99 oder p = 0, 999)
Wenn dann die Wahrscheinlichkeit
P {Gu (X1 , X2 , . . . Xn ) < θ < Go (X1 , X2 , . . . Xn )} = p
erfüllt, dann heißt das Intervall
]gu (x1 , x2 , . . . xn ), go (x1 , x2 , . . . xn )[
Konfidenzintervall oder Vertrauensintervall zum Vertrauensniveau p.
Abbildung 24: Wahrscheinlichkeitsdichtefunktion fk (x) der Student-Verteilung für verschiedene Werte von k (Zahl der Freiheitsgrade), k=infini“ steht für den Grenzwert
”
g(x) = lim fk (x)
k→∞
Im Beispiel zu Beginn dieses Unterabschnitts hatten wir die unrealistische Annahme
gemacht, dass die Varianz σ 2 der Verteilungen von Xk bekannt sei. In der Praxis wird
man diese durch die empirische Varianz schätzen mit der Schätzvariable
n
P
S2 =
(Xk − X)2
k=1
n−1
√
Die Zufallsvariable S ist dann durch S = S 2 gegeben. Wir bezeichnen den Erwartungswert mit µ = E(Xk ). Dann hat man auszunutzen, dass die Verteilungsfunktion der
Zufallsvariablen
√ X −µ
Tn−1 := n
S
93
bekannt ist. Diese Verteilung heißt Student-Verteilung oder t-Verteilung mit m = n − 1
Freiheitsgraden. Ihre Wahrscheinlichkeitsdichte ist bei m Freiheitsgraden durch
Γ 12 (m + 1)
1
·
fm (x) = √
1
m
1
mπΓ 2
(1 + m x2 ) 2 (m+1)
gegeben. Dabei ist die Gamma-Funktion Γ(x) für x > 0 durch
Z∞
Γ(x) :=
tx−1 e−t dt
0
definiert. Sie erfüllt Γ(n + 1) = n! für alle n ∈ N und für halbzahlige Argumente können
die Funktionswerte durch
√
√ Γ(2n)
1
1
Γ
= π,
= 21−2n π ·
für alle n ∈ N
Γ n+
2
2
Γ(n)
berechnet werden. Die Dichtefunktion fm (x) ist für mehrere Werte von m in Abb. 24
grafisch dargestellt. Die Abbildung stammt aus
http://en.wikipedia.org/wiki/Student%27s_t_distribution
Die Verteilungsfunktion von Tm ist
Zx
Fm (x) =
fm (t)dt
−∞
Da — wie bei der Normalverteilung — die Wahrscheinlichkeitsdichte gerade ist, erfüllt
sie dieselbe nützliche Rechenregel wie Φ(x):
Fm (x) − Fm (−x) = 2Fm (x) − 1
für alle x ∈ R
Für die praktische Berechnung eines Konfidenzintervalls benötigt man Quantile dieser
Verteilungsfunktion. Das Quantil der Ordnung q bei m Freiheitsgraden kann in Scilab
durch x=cdft("T",m,q,1-q) berechnet werden. Damit kann ein Konfidenzintervall analog
zu den Überlegungen bei bekannter Varianz zu Beginn dieses Unterabschnitts bestimmt
werden.
6.6
Tests von Hypothesen
Wir betrachten hier zunächst ein einfaches Beispiel einer Stichprobe x1 , x2 , . . . xn und
nehmen an, dass dies die Funktionswerte von stochastisch unabhängigen normalverteilten
Zufallsvariablen Xk sind. Wir machen außerdem wieder die unrealistische Annahme, dass
wir die Varianz Var(Xk ) = σ 2 kennen, denn dies vereinfacht viele Überlegungen. Beim
Test von Hypothesen geht man meist von einer Hypothese aus, die man die Nullhypothese nennt. Wir betrachten hier als Nullhypothese, dass der unbekannte Erwartungswert
E(Xk ) = µ mit einem vermuteten Wert µ0 übereinstimmt, also
H0 :
µ = µ0
94
Als Alternativhypothese wählen wir
µ 6= µ0
H1 :
Man kann auch mehrere Alternativhypothesen testen. Beachten Sie, dass der unbekannte
Erwartungswert µ selbt keine Zufallsvariable ist! Es macht also keinen Sinn, nach der
Wahrscheinlichkeit zu fragen, ob die Nullhypothese wahr ist. Wie man beim Schätzen
eine Schätzfunktion benutzt, so benutzt man hier eine Testfunktion g(x1 , x2 , . . . xn ) und
die zugehörige Testvariable Y = g(X1 , X2 , . . . Xn ). Für den Erwartungswert werden wir
den Mittelwert x als Testfunktion und X als Testvariable benutzen. Es ist naheliegend,
dass wir als Test für H0 eine kritische Bedingung der Form
|x − µ0 | > c
festlegen und H0 verwerfen, wenn diese Bedingung erfüllt ist. Wir nennen hier die Menge
{x ∈ R | |x − µ0 | > c}
den Verwerfungsbereich, die Menge
{x ∈ R | |x − µ0 | ≤ c}
den Annahmebereich. Da es sich hier um Zufallsexperimente handelt, können beim
Testen der Nullhypothese zwei Fehler auftreten:
(a) Ein Fehler 1. Art (englisch type I error) liegt vor, wenn wir die Nullhypothese
aufgrund des zufälligen Testergebnisses ablehnen, obwohl sie in Wirklichkeit richtig
ist.
(b) Ein Fehler 2. Art (englisch type II error) liegt vor, wenn wir die Nullhypothese
aufgrund des zufälligen Testergebnisses akzeptieren, obwohl sie nicht erfüllt ist.
Beachten Sie, dass wir die Nullhypothese verwerfen, wenn unser Test mit einer Bedingung der Art |x − µ0 | > c erfüllt, also positiv“ ist. Häufig wird ein derartiger Test
”
(anstelle der Nullhypothese) in den Vordergrund gestellt. Dies ist vor allem bei medizinischen Anwendungen der Fall. Dann wird ein Fehler 1. Art auch ein falsch positives“
”
Testergebnis und ein Fehler 2. Art ein falsch negatives“ Testergebnis genannt.
”
Man legt nun eine kleine maximale Wahrscheinlichkeit α dafür fest, dass ein Fehler
1. Art auftritt, also ist α durch die Forderung für die Wahrscheinlichkeit
P {H0 wird verworfen, obwohl H0 gilt} ≤ α
festgelegt. Diese Wahrscheinlichkeit wird Signifikanzniveau genannt. Meist wird α =
0.05, α = 0, 01 oder α = 0, 001 gewählt. Hierfür wird ziemlich einheitlich der Buchstabe
α gewählt. Fehler 1. Art werden daher auch α-Fehler genannt. Wir bestimmen also die
Zahl c unseres Tests so, dass
Pµ0 {X − µ0 > c} = α
Hierzu ist zu beachten, dass X normalverteilt ist mit Erwartungswert µ0 und Varianz
Var(X) = n1 σ 2 . Also ist die Zufallsvariable
√
n(X − µ0 )
(44)
Z0 :=
σ
95
standardnormalverteilt, Z0 ∼ N (0, 1). Weiterhin gilt
√
X − µ0 > c ⇐⇒ |Z0 | > c n
σ
und damit haben wir
√ √ √ √ c n
c n
c n
c n
= 1− Φ
−Φ −
= 1 − 2Φ
−1
P
|Z0 | >
σ
σ
σ
σ
√ c n
= 2 1−Φ
=α
σ
nach c aufzulösen. Wir erhalten
√ c n
α
Φ
=1−
σ
2
und müssen also die Gleichung Φ(ξ) = 1 − α2 auflösen nach ξ. In der Sprache der Wahrscheinlichkeitsrechnung heißt dies, dass wir das Quantil ξ = zq der Ordnung
q = 1 − α2
√
der Standardnormalverteilung berechnen müssen. Danach haben wir ξ = c σ n nach c aufzulösen und erhalten für den Zahlenwert α = 0.05 mit ξ = zq ≈ 1, 959964
σ
σ
c = ξ · √ ≈ 1, 96 · √
n
n
Es ist sinnvoll, die kritische Bedingung für unseren Test für die durch (44) gegebene
Zufallsvariable Z0 umzuformulieren, da diese standardnormalverteilt ist. Sie bewertert in
standardisierter Form die Abweichung des Zufallsexperiments von der Nullhypothese, ein
großer Absolutwert von Z0 ist also unwahrscheinlich, wenn die Nullhypothese wahr ist.
Wir berechnen somit aus der Stichprobe die zu Z0 gehörige standardisierte Testfunktion
√
n(x − µ0 )
z=
σ
und erhalten damit unseren Test (zq ist Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung):
H0 ist zu verwerfen, wenn
H0 ist zu akzeptieren, wenn
|z| > zq ≈ 1, 96
|z| ≤ zq ≈ 1, 96
Dies ist in Abb. 25 (links) verdeutlicht. Die Abbildung zeigt die Wahrscheinlichkeitsdichte ϕ(z) der Testvariablen Z0 . Der Verwerfungsbereich ist grau markiert, die Summe
der beiden grauen Flächen entspricht der Wahrscheinlichkeit α = 0, 05 für einen Fehler 1.
Art.
Betrachten wir erneut das im Unterabschnitt 6.5 angegebene Anwendungsbeispiel
der Übertragung eines analogen Spannungssignals über eine verrauschte Leitung, bei
der das übertragene Spannungssignal normalverteilt ist, also X ∼ N (µ, 25) mit der
ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Wir testen die
Nullhypothese, dass diese Spannung 40 mV beträgt, und behalten als Signifikanzniveau
96
Abbildung 25: Wahrscheinlichkeitsdichte der Testvariablen Z0 , der Verwerfungsbereich ist
der zur grau markierten Fläche gehörende Teil der z-Achse, die Summe der beiden grauen
Flächen ist das Signifikanzniveau α (links α = 0, 05, rechts α = 0, 001)
α = 0, 05 bei. Wenn wir nach zehnmaliger Übertragung den Mittelwert 42 mV erhalten
haben, dann bekommen wir für unsere standardnormalverteilte Zufallsvariable Z0 den
Wert z ≈ 1, 26. Weil |z| ≤ zq , haben wir die Nullhypothese µ = 40 mV zu akzeptieren.
Wenn jedoch nach 64 Übertragungen den Mittelwert 42 mV beträgt, dann ist
|z| = 3, 2 > zq
und wir müssen die Nullhypothese verwerfen. Dies ist plausibel, denn bei einer so erheblich höheren Zahl von Übertragungen ist es unwahrscheinlicher, dass wir bei einem
tatsächlichen Erwartungswert von 40 mV einen Mittelwert von 42 mV feststellen.
Beachten Sie den Einfluss des Signifikanzniveaus α auf das Testergebnis. Wir akzeptieren die Nullhypothese, auch wenn das zufällige Ergebnis eines Experiments eigentlich
dagegen spricht, wenn dieses Zufallsergebnis zu einem Ereignis der Art {|Z0 | ≤ |z|} gehört,
dessen Wahrscheinlichkeit nicht kleiner als das Signifikanzniveau ist und bringen dann sozusagen als Entschuldigung vor, dass wir eben Pech hatten. Wir akzeptieren die Nullhypothese, solange der Absolutbetrag des Werts für die Zufallsvariable Z (die die Abweichung“
”
von der Nullhypothese bewertet) nicht oberhalb des Quantils zq liegt. Wenn wir das Signifikanzniveau absenken, dann akzeptieren wir eher eine derartige Entschuldigung, dass
eben ein sehr unwahrscheinliches Ereignis eingetreten ist und die Nullhypothese trotzdem
wahr ist.
Wenn wir in dem gerade betrachteten Zahlenbeispiel das Signifikanzniveau von α =
0, 05 auf α = 0, 001 absenken, dann erhöht sich das Quantil zq der Ordnung q = 1 − α2
auf zq ≈ 3, 29 und wir können unsere Nullhypothese µ = 40 mV trotz eines Mittelwerts
von 42 mV bei 64 Übertragungen noch akzeptieren, weil |z| = 3, 2 < zq .
Dies ist in Abb. 25 (rechts) verdeutlicht. Die Grenzen −zq und zq für den Verwerfungsbereich sind erheblich weiter außen, und die Summe der grau markierten Flächen
entspricht dem erheblich kleineren Wert von α. Beachten Sie, dass der Maßstab verändert
wurde, um diese Flächen überhaupt sichtbar zu machen. Es ist verständlich, dass eine
derartige Abhängigkeit vom Parameter Signifikanzniveau“ zu Manipulationen einlädt.
”
Als Beispiel für kritische Anmerkungen zu statistischen Tests sei hier auf
http://www.npwrc.usgs.gov/resource/methods/statsig/stathyp.htm
verwiesen.
97
Wenden wir uns nun Fehlern 2. Art zu. Wir setzen also voraus, dass die Nullhypothese
falsch ist, in unserem Beispiel also, dass µ 6= µ0 . Die Wahrscheinlichkeit dafür, dass man
aufgrund des Testergebnisses die Nullhypothese trotzdem akzeptiert, wird in der Regel
mit β bezeichnet. Also ist
β := P {H0 wird akzeptiert, obwohl H0 falsch ist}
(45)
Fehler 2. Art heißen auch β-Fehler. Beachten Sie, dass diese Wahrscheinlichkeit in unserem
Beispiel eine Funktion des unbekannten tatsächlichen Erwartungswertes µ ist. Um dies zu
verdeutlichen, werden wir β(µ) schreiben. Diese Funktion ist streng genommen für µ = µ0
nicht definiert, da in diesem Fall H0 wahr ist. Wir erwarten jedoch, dass der Grenzwert
für µ → µ0 existiert und werden dann β(µ) stetig fortsetzen. Dieser Grenzwert β(µ0 ) ist
die Wahrscheinlichkeit, dass die Hypothese akzeptiert wird, wenn µ = µ0 , wenn sie also
wahr ist.
Wir haben die Wahrscheinlichkeit, dass sie in diesem Fall verworfen wird, mit α festgelegt. Also gilt
β(µ0 ) = 1 − α
Wir erwarten, dass β(µ) das Maximum in µ = µ0 annimmt. Die Funktion β(µ) wird Operationscharakteristik des Tests genannt. Die Funktion 1 − β(µ) heißt die Macht des
Tests. Beachten Sie, dass diese Funktionen vom gewählten Signifikanzniveau abhängen.
Unglücklicherweise wird diese Bezeichnungsweise nicht von allen akzeptiert, und manche nennen die Wahrscheinlichkeit in (45) 1 − β. Sie können dies daran erkennen, dass
dann — im Gegensatz zur hier gewählten Bezeichnungsweise — β(µ) besonders klein ist,
wenn µ ≈ µ0 . Dann ist die Funktion 1 − β(µ) die Operationscharakteristik.
Wir wollen nun die Operationscharakteristik in unserem Beispiel einer normalverteilten Zufallsvariablen X mit bekannter Varianz σ 2 , aber unbekanntem Erwartungswert µ
berechnen. Das durch X gegebene Wahrscheinlichkeitsmaß bezeichnen wir hier mit Pµ ,
um zu verdeutlichen, dass es vom Erwartungswert abhängt. Es ist sinnvoll, statt des
Stichprobenmittelwerts X die standardnormalverteilte Variable
√
n
Z=
(X − µ) ∼ N (0, 1)
σ
zu benutzen. Nur für µ = µ0 stimmt diese Variable mit der bisher benutzten Variablen
Z0 überein, die bei der Diskussion des Fehlers 1. Art in (44) definiert wurde. Unsere
Testbedingung für die Annahme von H0 ist, ausgedrückt durch den Funktionswert z der
Testvariablen Z0
−zq ≤ z ≤ zq
wobei zq das Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung ist. Es ist
durch Φ(zq ) = q gegeben. Zur Berechnung von β(µ) ist es nützlich, die bisher benutzte
Variable Z0 durch die hier neu eingeführte Variable Z auszudrücken. Denn im Fall µ 6= µ0
ist Z standardnormalverteilt, Z0 jedoch nicht. Wir haben
√
√
√
n
n
n
Z0 =
(X − µ0 ) =
(X − µ − µ0 + µ) = Z −
(µ0 − µ)
σ
σ
σ
98
Damit erhalten wir für die Operationscharakteristik
√
n
(µ0 − µ) ≤ zq
β(µ) = Pµ ({−zq ≤ Z0 ≤ zq }) = Pµ
−zq ≤ Z −
σ
√
√
n
n
(µ0 − µ) − zq ≤ Z ≤
(µ0 − µ) + zq
= Pµ
σ
σ
√
√
n
n
= Φ
(µ0 − µ) + zq − Φ
(µ0 − µ) − zq
σ
σ
Abbildung 26: links: Operationscharakteristik β(µ) für das Beispiel µ0 = 40 mV, σ = 5
und n = 10 für α = 0, 05 (blau, untere Kurve) und α = 0, 001 (rot, obere Kurve); rechts:
standardisierte“ Operationscharakteristik fOC (d) für α = 0, 05 (blau, untere Kurve) und
”
α = 0, 001 (rot, obere Kurve)
Für das hier schon mehrfach angeführte Zahlenbeispiel des verrauschten Spannungssignals mit µ0 = 40 mV, σ = 5 und 10 Übertragungen ist die Operationscharakteristik
β(µ) für α = 0.05 und α = 0, 001 in Abb. 26 (links) gezeigt. Im Fall α = 0.05 hat
man bei 10 Übertragungen nur eine vernünftige Chance, mit dem Test eine Abweichung
von der Nullhypothese festzustellen, wenn die Abweichung mehr als 2 bis 3 mV beträgt,
bei α = 0, 001 kann man nur eine Abweichung von etwa 5 mV feststellen. Bei kleineren
Abweichungen ist die Wahrscheinlichkeit für einen Fehler 2. Art größer als 21 . Beachten
Sie, dass man bei größerem n (also mehr Übertragungen desselben Signals) auch kleinere
Abweichungen feststellen kann.
Damit die Darstellung nicht von der Zahl der Messungen, vom Erwartungswert und
der Varianz abhängt, ist es sinnvoll, statt µ die Variable
√
n
d :=
(µ − µ0 )
σ
einzuführen und die Funktion
fOC (d) := Φ(zq − d) − Φ(−zq − d)
zu betrachten. Dann erhält man die Operationscharakteristik durch β(µ) = fOC d(µ) .
Diese Funktion ist in Abb. 26 (rechts) gezeigt, und zwar für die beiden bisher betrachteten Werte für α. Mit Hilfe der Symmetrieeigenschaften der Verteilungsfunktion Φ(x)
99
der Standardnormalverteilung kann man zeigen (Übungsaufgabe, siehe (16)), dass fOC (d)
eine gerade Funktion ist. Zuweilen wird daher auch |d| als Parameter eingeführt.
Betrachten wir ein Zahlenbeispiel: Wir legen α = 0, 05 fest und fordern für unsere
Anwendung, dass man bei einer Abweichung von mehr als 2 mV vom Wert µ0 = 40 mV
mit einer Wahrscheinlichkeit von höchstens 0, 1 die Nullhypothese akzeptiert. Damit ergibt
sich aus der Abbildung ein Wert von |d| ≈ 3, 2. Da σ = 5 gegeben ist, kann man die
Forderung erfüllen, indem man n = 64 (oder größer) wählt.
Wir sind hier von der unrealistischen Annahme ausgegangen, dass wir die Varianz σ 2
kennen. In der Praxis kennt man diese nicht. Man hat dann — wie bei den Konfidenzintervallen erläutert wurde — eine Testvariable, die der Student-Verteilung genügt. Die
grundlegende Vorgehensweise ist aber dieselbe wie im hier betrachteten Beispiel.
7
Zufallszahlen, Simulation von Zufallsexperimenten
Bei vielen Programmiersprachen und Mathematik-Programmen besteht die Möglichkeit,
Zufallszahlen zu erzeugen. Unter Scilab kann man durch den Aufruf rand(’uniform’) eine Gleichverteilung im Intervall [0, 1] als die gewünschte Verteilung wählen und dann durch
x=rand() eine Zufallszahl zwischen 0 und 1 erzeugen. Die Einstellung auf eine Gleichverteilung bleibt dann erhalten, bis sie explizit geändert wird. Durch rand(’normal’) wird
eine Standardnormalverteilung eingestellt, danach erhält man durch x=rand() standardnormalverteilte Zufallszahlen. Mit dem Kommando x=rand(1,2000); erhält man einen
Zeilenvektor von 2000 Zufallszahlen. Abb. 27 zeigt als Ergebnis die Histogramme von 2000
auf diese Weise erzeugten Zufallszahlen für beide mögliche Verteilungen. Das Verfahren,
das von rand verwendet wird, gilt heute als veraltet. Es wird daher empfohlen, für wissenschaftliche Zwecke (beispielsweise Diplomarbeiten) die etwas aufwändigere Funktion
grand zu nehmen, näheres hierzu siehe das Help-Menu (erhältlich mit help grand).
Abbildung 27: Histogramme von 2000 mit Scilab erzeugten Zufallszahlen, links gleichverteilte, rechts standardnormalverteilte Zufallszahlen
Man sollte sich jedoch darüber im klaren sein, dass der Computer kein echtes Zufallsexperiment durchführt. Es ist daher zutreffender, von Pseudozufallszahlen zu sprechen. Das
Ergebnis von Rechnungen im Computer ist stets eindeutig bestimmt. Man kann jedoch
durch bestimmte Rechenoperationen versuchen, Folgen von Zahlen zu erzeugen, deren
relative Häufigkeit innerhalb gleichlanger kleiner Teilintervalle von [0, 1] annähernd gleich
ist. Ein beliebtes Rechenschema hierzu ist, zunächst eine Folge ganzer Zahlen durch eine
100
Vorschrift der Art
nk := (a · nk−1 + c)
mod m
für k > 0
(46)
mit einem beliebigen Startwert n0 ∈ {0, 1, 2, 3, . . . m − 1} zu erzeugen. Dabei kommt es
entscheidend auf eine geschickte Wahl der Zahlen a, c ∈ {0, 1, 2, 3, . . . m − 1} an. n mod m
ist der positive ganzzahlige Rest, der bei Division von n durch m entsteht. Eigentlich ist
durch dieses Symbol die entsprechende Restklasse gemeint, wir gehen aber hier davon aus,
dass wir stets einen Vertreter in {0, 1, 2, 3, . . . m − 1} aus der Restklasse auswählen (siehe
Abschnitt 8.1 im Skript zur Linearen Algebra). Bei günstiger Wahl der Zahlen a, c und m
kann man hoffen, dass sich die so erzeugten Zahlen mit einer Periode von m wiederholen.
Dann erhält man durch
nk
xk :=
m
Zahlen, die in [0, 1[ liegen und eine Gleichverteilung einigermaßen simulieren. Beachten Sie,
dass man damit höchstens m verschiedene Zufallszahlen erzeugen kann. Eine ungeschickte
Wahl der Parameter wie beispielsweise a = c = n0 = 5 und m = 10 führt auf die Folge
5, 0, 5, 0, 5, 0, . . ., die zur Simulation von gleichverteilten Zahlen völlig ungeeignet ist. Bei
einer geschickten Wahl dieser Parameter verhalten sich die auf diese Weise erzeugten
Zahlen in vielerlei Hinsicht so, als ob sie Funktionswerte unabhängiger identisch verteilter
Zufallsvariabler seien, deren Dichtefunktion und Verteilungsfunktion

(

0 falls x < 0
1 falls x ∈ [0, 1[
und
FX (t) = t falls x ∈ [0, 1]
(47)
f (x) =

0 sonst

1 falls x > 1
erfüllen.
Bekannte günstige Parameter sind:
• m = 231 , a = 65539, c = 0, n0 = 1 (RANDU genannt, gilt heute als veraltet)
• m = 235 , a = 513 , c = 0, n0 = 1 (von Apple verwandt)
• m = 1012 − 11, a = 427419669081, c = 0, n0 = 1 (von Maple verwandt)
• m = 259 , a = 1313 , c = 0, n0 = 123456789(232 +1) (von der NAG-Fortran-Bibliothek
verwandt)
• m = 232 , a = 3141592653, c = 1, n0 = 0 (vom Programm Derive verwandt)
• m = 231 − 1, a = 75 , c = 0, n0 = 1
Fasst man zwei aufeinanderfolgende auf diese Weise erzeugte Zufallszahlen (xk , xk+1 )
als Koordinaten eines Punktes in der Ebene auf, dann sollten diese Punkte im Einheitsquadrat möglichst gleich verteilt liegen. Analog kann man drei oder allgemein n aufeinanderfolgende Zahlen als Koordinaten eines Punktes im Raum R3 oder allgemein Rn auffassen, die eigentlich möglichst gleichverteilt im (allgemein n-dimensionalen) Einheitswürfel
liegen sollten. Derartige Anforderungen zu erfüllen, ist mit Zufallsgeneratoren der angegebenen Art nicht möglich. Das fällt nicht auf, wenn man bedeutend weniger als m
Zufallszahlen benutzt. Wenn man jedoch alle m Zufallszahlen benutzt, dann ist es deutlich sichtbar, dass die damit erzeugten Punkte im Rn nicht zufällig verteilt sind. Dies ist
101
in Abb. 28 demonstriert für Zufallszahlen, die gemäß (46) mit m = 500, a = 41, c = 343
und n0 = 251 erzeugt wurden. Links sind die Punkte (xk , xk+1 ) für k = 0, . . . 48 (also
insgesamt 25 Punkte) grafisch dargestellt. Sie scheinen zufällig über das Einheitsquadrat
verteilt. Rechts sind dagegen alle möglichen 250 Punkte (also für k = 0, . . . 498) gezeigt.
Sie liegen auf wenigen zueinander parallelen Geraden und entsprechen daher in keiner
Weise dem, was man anschaulich unter zufällig verteilt“ versteht. Die hier angegebenen
”
Verfahren zur Erzeugung von Zufallszahlen sind daher weiter verfeinert und verbessert
worden. Es muss hierzu auf die Spezialliteratur verwiesen werden.
Abbildung 28: Punkte (xk , xk+1 ), die nach (46) und xk := nmk mit m = 500, a = 41,
c = 343 und n0 = 251 erzeugt wurden. Die ersten 25 Punkte (links) scheinen zufällig
verteilt, alle 250 möglichen Punkte (rechts) liegen auf wenigen parallelen Geraden.
Wenn man auf die beschriebene oder eine ähnliche Weise in [0, 1[ gleichverteilte Zufallszahlen xk erzeugt, dann kann man diese benutzen, um Zufallszahlen zu erzeugen, die nach
einer anderen, beispielsweise durch ihre Verteilungsfunktion F (t) gegebenen Verteilung,
verteilt sind. Besonders einfach ist dies, wenn die vorgegebene Verteilungsfunktion F (t)
injektiv und stetig ist und damit eine Umkehrfunktion F −1 existiert. Dann simulieren die
Werte
yk = F −1 (xk )
Funktionswerte von unabhängigen identisch verteilten Zufallsvariablen, deren Verteilungsfunktion F (t) ist. In der Fachsprache der Wahrscheinlichkeitsrechnung bedeutet dies, dass
wir als neue Zufallszahl yk das xk -Quantil zur vorgegebenen Verteilungsfunktion F (t)
wählen. Falls xk = 0 oder xk = 1, dann wäre F −1 (xk ) nicht definiert. Eine solche Zufallszahl ist dann einfach zu überspringen,
sollten (wenn überhaupt)
diese beiden Werte
sehr selten auftreten, denn P {X = 0} = P {X = 1} = 0. Um zu überprüfen, ob
diese Zahlen tatsächlich nach der durch F (t) gegebenen Verteilungsfunktion verteilt sind,
haben wir nachzuweisen, dass für die durch Y := F −1 (X) definierte Zufallsvariable
FY (t) = P {Y ≤ t} = F (t)
erfüllt ist, wenn die Verteilung von X durch (47) gegeben ist. Nun ist jede Verteilungsfunktion F (t) monoton wachsend, also
a ≤ b ⇐⇒ F (a) ≤ F (b)
und damit
102
F −1 (x) ≤ t ⇐⇒ x ≤ F (t)
Also haben wir {F −1 (X) ≤ t} = {X ≤ F (t)}. Die Verteilungsfunktion der Variablen
X
ist laut Voraussetzung durch (47) gegeben, also haben wir hier P {X ≤ c} = c, wenn
c ∈ [0, 1] . Weil F (t) ∈ [0, 1], erhalten wir das gewünschte Ergebnis
FY (t) = P {Y ≤ t} = P {F −1 (X) ≤ t} = P {X ≤ F (t)} = F (t)
Auch wenn die vorgegebene Verteilungsfunktion F (t) nicht injektiv oder nicht stetig ist,
dann kann durch (10) stets eindeutig ein Quantil ausgewählt werden, falls q ∈]0, 1[ liegt.
Wir können also aus in ]0, 1[ gleichverteilten Zufallszahlen xk (Werte xk = 0 und xk = 1
sind zu überspringen) stets nach F (t) verteilte Zufallszahlen yk erhalten, indem wir
yk = min{t ∈ R | F (t) ≥ xk }
setzen. Man kann sich durch eine analoge Rechnung (wie im Sonderfall, dass F (t) injektiv und stetig ist) davon überzeugen, dass diese Zufallszahlen tatsächlich nach der
gewünschten Verteilung verteilt sind. Hierzu geht man von der Zufallsvariablen
Y (ω) := min{ξ ∈ R |F (ξ) ≥ X(ω)}
aus, wobei X durch (47) gegeben ist. Durch eine analoge Überlegung
wie im schon behandelten Spezialfall hat man zu beweisen, dass FY (t) = P {Y ≤ t} = F (t). Dies kann
man durchführen, wenn man sich klarmacht, dass F Y (ω) ≥ X(ω) und
Y (ω) ≤ t ⇐⇒ X(ω) ≤ F (t)
Hierzu kann man auch eine Zeichnung anfertigen. Beachten Sie, dass F (t) monoton wachsend ist, Sprungstellen haben kann, jedoch stets
lim F (t) = F (a)
t→a+
erfüllt.
Statt die Zufallszahlen yk auf diese Weise zu berechnen, sollte man in der Praxis
überprüfen, ob für die gewünschte Verteilung ein einfacheres Verfahren existiert, entsprechende Zufallszahlen aus gleichverteilten Zahlen zu erhalten. Dies ist beispielsweise für die
Normalverteilung der Fall. Hierzu wird auf die Literatur verwiesen. Für die meisten in der
Praxis benutzten Verteilungen existieren frei verfügbare Programme, um zugehörige Zufallszahlen zu erzeugen. In Scilab können mit der Funktion grand alle üblichen Verteilungen simuliert werden, die gewünschte Verteilung muss durch Übergabe eines betreffenden
Schlüsselworts als Argument eingestellt werden (siehe das Help-Menu).
A
A.1
Anhang: Mehrfachintegrale
Funktionen von 2 Variablen: Zweifachintegrale
Die anschauliche Bedeutung des Integrals
Rb
f (x)dx ist die mit dem Vorzeichen der Funk-
a
tion versehene Fläche zwischen dem Graphen der Funktion und der x-Achse. Wir wollen
dies hier zunächst für Funktionen von 2 Variablen verallgemeinern. Der Graph z = f (x, y)
ist eine gekrümmte Fläche, und wir wollen durch einen analogen Grenzübergang das mit
103
dem Vorzeichen von z versehene Volumen zwischen der xy-Ebene und dieser gekrümmten
Fläche berechnen.
Rb
Beim Integral f (x)dx hatten wir uns auf ein Intervall als besonders einfache Teila
menge von R2 beschränkt und das Intervall [a, b] in Teilintervalle unterteilt und dann den
Grenzwert immer kleiner werdender Teilintervalle betrachtet. Hier haben wir es statt mit
Intervallen [a, b] mit Teilmengen der xy-Ebene zu tun, und auch hier werden wir uns nur
mit mathematisch vernünftigen“ Teilmengen B ⊂ R2 beschäftigen. In der Praxis sind
”
das häufig Rechtecke (besonders einfach)
[a, b] × [c, d]
Dreiecke, Kreise (das Innere) oder Ellipsen. Wie wir bei Intervallen auch [a, ∞[ zugelassen
haben, werden wir dann mit einem weiteren Grenzübergang auch unendlich ausgedehnte
Teilmengen in R2 zu behandeln haben, als einfaches Beispiel sei die Menge
[−∞, b] × [−∞, d]
genannt. Wir werden auch Teilmengen als vernünftig“ ansehen, die als Vereinigung einer
”
Folge von Rechtecken zustandekommen.
Abbildung 29: Zerlegung einer Teilmenge B ⊂ R2 in kleine Rechtecke (links), wir betrach(n)
ten den Grenzwert max{∆Ak )} → 0 (rechts)
Wir gehen davon aus, dass wir eine auf einer derartigen Teilmenge definierte vernünf”
tige“ Funktion haben, betrachten also beispielsweise auf B ⊂ R2 stetige und beschränkte
Funktionen. Unsere frühere Unterteilung des Intervalls in Teilintervalle ersetzen wir durch
eine Unterteilung der Teilmenge B in kleine Rechtecke der Kantenlängen ∆xk und ∆yk .
Wir werden dann Folgen solcher Unterteilungen betrachten, die so gewählt sind, dass
die jeweils maximale Kantenlänge gegen Null konvergiert, wir also immer mehr kleinere
Rechtecke haben. Dies ist in Abb. 29 angedeutet. Die Fläche der Rechtecke bezeichnen
wir mit
∆Ak = ∆xk · ∆yk
(n)
Wir nehmen also Folgen solcher Unterteilungen, so dass max{∆Ak )} → 0. Wir nähern
das Volumen zwischen xy-Ebene und der gekrümmten Fläche z = f (x, y) durch das
Volumen von kleinen Quadern an, deren Grundfläche durch die kleinen Flächen mit dem
Flächeninhalt ∆Ak und deren Höhe durch den Funktionswert im kleinen Rechteck gegeben
104
2
2
Abbildung 30: Fläche z = e−x −y , eingeschränkt auf den Einheitskreis (links), grobe
Näherung des Volumens zwischen der xy-Ebene und dieser Fläche (rechts)
ist. Im Grenzwert kleiner Rechtecksflächen sollte es keine Rolle spielen, an welcher Stelle
des Rechtecks wir den Funktionswert berechnen.
In jedem der Rechtecke wählen wir einen Punkt (ξk , ηk ) aus. Dies kann der Mittelpunkt
sein, aber auch der Punkt, an dem innerhalb des Rechtecks die Funktion ihr Minimum
oder ihr Maximum annimmt. Das Volumen des kleinen Quaders ist also durch
∆Vk = ∆Ak · f (ξk , ηk )
gegeben, wenn f (ξk , ηk ) positiv ist. Ansonsten erhalten wir das mit dem Vorzeichen der
Funktion behaftete Volumen. Das gesamte, mit dem Vorzeichen behaftete Volumen zwischen der Teilmenge B der xy-Ebene und der gekrümmten Fläche z = f (x, y) ist dann
näherungsweise gegeben durch die Riemannsche Summe
X
X
f (ξk , ηk )∆xk · ∆yk
f (ξk , ηk )∆Ak =
k
k
und diese Näherung sollte umso besser sein, je kleiner die Rechtecke gewählt sind. Dies
ist in Abb. 30 und Abb. 31 veranschaulicht. Dabei ist als Beispiel
B := {(x, y) ∈ R2 | x2 + y 2 ≤ 1},
(x, y) 7→ f (x, y) = e−x
f : B → R,
2 −y 2
gewählt.
Wir definieren das Integral als den Grenzwert dieser Riemannschen Summen, wobei
wir die immer feiner werdenden Zerlegungen mit n nummerieren (zur Erinnerung, immer
(n)
feiner heißt hier max{∆Ak )} → 0)
ZZ
f (x, y)dA =
B
!
ZZ
f (x, y)dx dy := lim
n→∞
B
X
(n)
(n)
(n)
f (ξk , ηk )∆Ak
k
Analog zum Integral für Funktionen einer Variablen erhalten wir die folgenden Rechen-
105
Abbildung 31: Verbesserung der Näherung des Volumens zwischen dem Einheitskreis auf
2
2
der xy-Ebene und der Fläche z = e−x −y durch Verfeinerung der Unterteilung in kleine
Rechtecke
regeln:
ZZ
f (x, y) + g(x, y) dx dy =
ZZ
ZZ
f (x, y)dx dy +
g(x, y)dx dy
B
B
B
und für alle Konstanten c ∈ R
ZZ
ZZ
c · f (x, y)dx dy = c ·
f (x, y)dx dy
B
B
sowie für Teilmengen B1 ⊂ R2 und B2 ⊂ R2 mit B1 ∩ B2 = ∅
ZZ
ZZ
ZZ
f (x, y)dx dy =
f (x, y)dx dy +
f (x, y)dx dy
B1 ∪B2
B1
B2
Ausrechnen lassen sich Flächenintegrale meist mit dem folgenden Satz:
RR
Satz A.1.1 (Satz von Fubini) Wenn B = [a, b] × [c, d] und
|f (x, y)|dx dy existiert
B
RR
(also
|f (x, y)|dx dy < ∞), dann gilt
B
Zb
ZZ
f (x, y)dx dy =

c
Zb
f (x, y)dx dy =
B

B

Zb
f (x, y)dx dy
a
|f (x, y)|dx dy < ∞, dann gilt

Zd
Zd
f (x, y)dy  dx =

−∞
RR


c
analog wenn B = ] − ∞, b]× ] − ∞, d] und
ZZ
Zd
f (x, y)dy  dx =

a
B

Zd
−∞

Zb
f (x, y)dx dy

−∞

−∞
und entsprechend für die anderen Möglichkeiten unendlicher Rechtecke“ B ⊂ R2 .
”
106
y
B
x
Abbildung 32: Teilmenge B oben und unten durch den Graphen von Funktionen begrenzt
In vielen praktischen Fällen ist die Menge B ⊂ R2 durch die Graphen der Funktionen
y = fo (x) oben“ und y = fu (x) unten“ begrenzt, also
”
”
B = {(x, y) | a ≤ x ≤ b und fu (x) ≤ y ≤ fo (x)}
RR
wie dies in Abb. 32 verdeutlicht ist. Wenn
|f (x, y)|dx dy < ∞, dann kann in diesem
B
Fall das Integral ausgerechnet werden durch
Zb
ZZ
f (x, y)dx dy =

fZo (x)

f (x, y)dy  dx


a
B

(48)
fu (x)
Beachten Sie dabei, dass x = c die Ebene senkrecht zur x-Achse ist. Der Wert des Integrals
fZo (x)
f (x, y)dy
fu (x)
ist für den Fall f (x, y) ≥ 0 die von x abhängige Querschnittsfläche senkrecht zur x-Achse
durch das zu berechnende Volumen. Diese Querschnittsfläche ist in y-Richtung durch
fu (x) und fo (x) begrenzt, wie aus der Abb. 32 ersichtlich ist. Es ist plausibel, dass man
dann das gesamte Volumen durch eine Integration über x erhält.
Wenn die Menge B ⊂ R2 durch die Graphen der Funktionen x = gl (y) links“ und
”
x = gr (y) rechts“ begrenzt ist (siehe hierzu Abb. 33), also
”
B = {(x, y) | c ≤ y ≤ d und gl (y) ≤ x ≤ gr (y)}
RR
und wenn |f (x, y)|dx dy < ∞, dann erhält man das Integral durch
B
Zd
ZZ
f (x, y)dx dy =
B

gZr (y)

f (x, y)dx dy


c
107

gl (y)
(49)
y
B
x
Abbildung 33: Teilmenge B links und rechts durch den Graphen von Funktionen begrenzt
Dies ist ebenfalls für f (x, y) ≥ 0 plausibel, denn
gZr (y)
f (x, y)dx
gl (y)
stellt die von y abhängige Querschnittsfläche durch das zu berechnende Volumen dar
(y = c ist die Ebene senkrecht zur y-Achse).
Substitutionsregel:
Bei der Substitution
x = gx (u, v),
y = gy (u, v)
ist dx dy zu ersetzen durch
∂gx
(u, v)
∂u
∂gx
(u, v)
∂v
du dv
∂gy
∂gy
(u,
v)
(u,
v)
∂u
∂v
(50)
Bei einer konkreten Berechnung nach dem Satz von Fubini bzw. (48) oder (49) hat man
dann die Grenzen bezüglich der neuen Variablen u und v so umzurechnen, dass die Integration über die vorgegebene Teilmenge B erfolgt!
Ein häufig vorkommender Spezialfall ist die Einführung von Polarkoordinaten
x = gx (r, ϕ) = r cos ϕ,
Hierfür erhalten wir
∂gx (r, ϕ)
∂r
∂gy
∂r (r, ϕ)
y = gy (r, ϕ) = r sin ϕ
cos ϕ −r sin ϕ
=
∂gy
(r, ϕ) sin ϕ r cos ϕ
∂ϕ
∂gx
(r, ϕ)
∂ϕ
108
= r(cos2 ϕ + sin2 ϕ) = r
Damit haben wir die folgende nützliche Regel gewonnen:
Bei der Substitution
ersetzen.
x = r cos ϕ, y = r sin ϕ
ist
dx dy
durch
r dr dϕ
zu
Polarkoordinaten sind besonders dann nützlich, wenn das Integrationsgebiet B rotationssymmetrisch ist wie beispielsweise das Innere des Einheitskreises:
B = {(x, y) | x2 + y 2 ≤ 1}
Dann ergeben sich die neuen“ Grenzen zu r ∈ [0, 1] und ϕ ∈ ] − π, +π]. Im Sonderfall
”
B = R2 haben wir r ∈ [0, ∞[.
Beispiele:
+∞
R
(a) Berechnung des Integrals
2
e−x dx
−∞
2  +∞
  +∞

Z+∞
Z
Z
2
2
2

e−x dx = 
e−x dx · 
e−y dy 

−∞
−∞
(51)
−∞
Nach dem Satz von Fubini haben wir




Z+∞ Z+∞
Z+∞ Z+∞
Z+∞ Z+∞
2
2
 e−(x2 +y2 ) dx dy =
 e−x2 · e−y2 dx dy
e−(x +y ) dx dy =
−∞ −∞
−∞
−∞
−∞
−∞
Z+∞
 +∞

Z
2
2
e−y  e−x · dx dy
=
−∞

−∞
Z+∞

Z+∞
2
2
e−x dx · 
e−y dy 
= 
 
−∞
(52)
−∞
da Konstante vor das Integral gezogen werden können. Damit haben wir
 +∞
2
 +∞
  +∞

Z
Z
Z
Z+∞ Z+∞
2
2
2
2
2
−x
−x
−y

e dx = 
e dx · 
e dy  =
e−(x +y ) dx dy
−∞
−∞
−∞
Z+πZ∞
Z∞
=
2
e−r r dr dϕ =
−π 0
0
−∞ −∞

Z+π
Z+∞
2
2
−r
 re dϕ dr = 2π
re−r dr

−π
0
Z+∞
∞
e−u du = π −e−u 0 = π
= π
(53)
0
wobei die Substitution r2 = u, r dr = 21 du angewandt wurde. Wir erhalten damit
das Ergebnis
Z+∞
√
2
e−x dx = π
−∞
109
das bei Rechnungen mit der Wahrscheinlichkeitsdichte der Normalverteilung häufig
benutzt wird.
(b) Weiteres Beispiel für die Anwendung von Mehrfachintegralen in der Stochastik: Wir
betrachten zwei stochastisch unabhängige Zufallsvariable X und Y über demselben
Grundraum. Wir nehmen an, dass diese eine Wahrscheinlichkeitsdichte besitzen, bezeichnen die Wahrscheinlichkeitsdichte von X mit fX (t) und die von Y mit fY (t)
sowie die gemeinsame Wahrscheinlichkeitsdichte mit f (x, y). Diese ist also nach
Satz 5.1.5 gegeben durch f (x, y) = fX (x) · fY (y). Wir wollen daraus die Wahrscheinlichkeitsdichte der Zufallsvariablen Z = X + Y berechnen, d.h. hierzu eine
allgemeine Formel aufstellen. Schließlich wollen wir diese dann anwenden auf das
konkrete Beispiel der Gleichverteilung auf [0, 1], d.h. für
(
1 falls 0 ≤ t ≤ 1
fX (t) = fY (t) =
(54)
0 sonst
Die Verteilungsfunktion FZ (t) erfüllt
FZ (t) = P {Z ≤ t} = P {X+Y ≤ t} =
ZZ
ZZ
fX (x)·fY (y)dx dy
f (x, y)dx dy =
Bt
Bt
wobei Bt = {(x, y) | x + y ≤ t} ein unendliches Dreieck“ darstellt, das nach oben
”
Abbildung 34: Teilmenge Bt = {(x, y) | x + y ≤ t} (gelb, hier für t = 2, 5)
durch die Gerade y = −x + t begrenzt ist (siehe hierzu auch die Abb. 34). Damit
können wir das Mehrfachintegral nach (48) ausrechnen, wobei wir hier ] − ∞, +∞[
statt [a, b] und −∞ statt fu (x) zu nehmen haben:


 t−x

ZZ
Z+∞ Zt−x
Z+∞
Z

fX (x) 
fY (y)dy  dx
fX (x)·fY (y)dx dy =
fX (x) · fY (y)dy  dx =
Bt
−∞
−∞
−∞
110
−∞
Die Substitution u = y + x, du = dy mit der Umrechnung der Grenzen nach
y → −∞ ⇐⇒ u → −∞
y = t − x ⇐⇒ u = t
und
liefert
 t−x

 t

Z+∞
Z
Z+∞
Z
fX (x) 
fY (y)dy  dx =
fX (x) 
fY (u − x)du dx
−∞
−∞
−∞
Zt
=
−∞

Z+∞
fX (x)fY (u − x)dx du

−∞

−∞
wobei wir zuletzt die Integrationsreihenfolge nach dem Satz von Fubini vertauscht
haben, denn ] − ∞, t] × ] − ∞, +∞[ stellt ein unendliches Rechteck“ dar.
”
Insgesamt haben wir dadurch erhalten
 +∞

Z
Zt
Zt

fX (x)fY (u − x)dx du
FZ (t) = P {Z ≤ t} =
fZ (u)du =
−∞
−∞
−∞
und wir erhalten durch Vergleich die gesuchte Wahrscheinlichkeitsdichte von Z =
X +Y:
Z+∞
fZ (u) =
fX (x)fY (u − x)dx
(55)
−∞
Ein derartiges Integral heißt Faltungsintegral“ oder Faltung“ von fX und fY .
”
”
Wir haben nun noch das Integral (55) für unser durch (54) gegebenes Beispiel auszurechnen:
Z+∞
Z1
fZ (u) =
fX (x)fY (u − x)dx = fY (u − x)dx
−∞
0
Für x ∈ [0, 1] ist fY (u − x) = 0 falls u < 0 oder u > 2. Wir haben also noch die
Fälle zu unterscheiden
(a) u ∈ [0, 1]: Dann ist (weil x ∈ [0, 1])
(
1
fY (u − x) =
0
falls x ≤ u
falls x > u
Für diesen Fall ist
Z1
fZ (u) =
fY (u − x)dx =
0
Zu
dx = u
0
111
Abbildung 35: Wahrscheinlichkeitsdichte von X und Y (links) sowie von Z = X + Y
(rechts)
(b) u ∈ ]1, 2]: Dann ist (weil x ∈ [0, 1])
(
0 falls u > 1 + x, also falls x < u − 1
fY (u − x) =
1 falls u ≤ 1 + x, also falls x ≥ u − 1
Für diesen Fall ist
Z1
fZ (u) =
fY (u − x)dx =
0
Z1
dx = 1 − (u − 1) = 2 − u
u−1
Wir haben also als Ergebnis dieser mühsamen Überlegungen die Wahrscheinlichkeitsdichte


falls u ∈ [0, 1]
u
fZ (u) = 2 − u falls u ∈ ]1, 2]


0
sonst
Sie ist in Abb. 35 (rechts) gezeigt, links ist die Wahrscheinlichkeitsdichte von X und
Y.
A.2
Funktionen von 3 und mehr Variablen
Bei Funktionen von drei Variablen kann man sich den Graphen der Funktion nicht mehr
anschaulich vorstellen, wohl aber den Integrationsbereich als Teilmenge B ⊂ R3 . Wie
wir uns bei einer Variablen auf Intervalle als besonders einfache Teilmengen beschränkt
haben, werden wir auch hier nur vernünftige“ Teilmengen des R3 betrachten, wie das
”
Innere von Quadern
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ]
oder unendlich ausgedehnte Mengen der Form
B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ]
112
oder das Innere von Kugeln, Pyramiden, Zylindern. Wir werden die Teilmenge B dann in
kleine Quader mit den Kantenlängen ∆xk , ∆yk und ∆zk unterteilen. Das Volumen eines
solchen Quaders bezeichnen wir mit
∆Vk = ∆xk · ∆yk · ∆zk
(n)
Und wir betrachten Folgen solcher Unterteilungen, so dass max{∆Vk )} → 0. In jedem
der kleinen Quader wählen wir einen Punkt (ξk , ηk , µk ) aus. Dies kann der Mittelpunkt
sein, aber auch der Punkt, an dem innerhalb des Quaders die Funktion ihr Minimum
oder ihr Maximum annimmt. Das im vorigen Unterabschnitt betrachtete Volumen ist hier
durch das mit dem Vorzeichen der Funktion behaftete Volumen“ eines vierdimensionalen
”
Quaders zu ersetzen,
∆Vk · f (ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · f (ξk , ηk , µk )
Auch wenn das Ergebnis keine anschauliche geometrische Bedeutung hat, so kommt es
in vielen Anwendungen vor. Wenn die Dichte ρ eines Gegenstands vom Ort abhängt und
durch die Funktion f beschrieben ist, dann stellt
∆Vk · ρ(ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · ρ(ξk , ηk , µk )
näherungsweise die Masse des Quaders mit dem Volumen Vk dar, und die Näherung ist
gerechtfertigt, wenn sich die Funktion ρ(x, y, z) im betrachteten kleinen Quader nur wenig
ändert.
(n)
Für Folgen von Unterteilungen in kleine Quader mit max{∆Vk )} → 0 definieren wir
das Dreifachintegral durch den Grenzwert
ZZZ
!
ZZZ
f (x, y)dV =
B
f (x, y, z)dx dy dz := lim
n→∞
B
X
(n)
(n)
(n)
(n)
f (ξk , ηk , µk )∆Vk
k
und wir erhalten analog die Rechenregeln
ZZZ
f (x, y, z)+g(x, y, z) dx dy dz =
B
ZZZ
ZZZ
f (x, y, z)dx dy dz+
g(x, y, z)dx dy dz
B
B
und für alle Konstanten c ∈ R
ZZZ
ZZZ
c · f (x, y, z)dx dy dz = c ·
f (x, y, z)dx dy dz
B
B
sowie für Teilmengen B1 ⊂ R3 und B2 ⊂ R3 mit B1 ∩ B2 = ∅
ZZZ
ZZZ
ZZZ
f (x, y, z)dx dy dz =
f (x, y, z)dx dy dz +
f (x, y, z)dx dy dz
B1 ∪B2
B1
B2
113
In unserem Beispiel der vom Ort abhängigen Dichte ρ(x, y, z) stellt
ZZZ
ρ(x, y, z)dx dy dz
B
die Masse des durch die Teilmenge B ⊂ R3 beschriebenen Gegenstands dar. Zum Ausrechnen ist hier die Verallgemeinerung von Satz A.1.1 nützlich:
Satz A.2.1 (Satz von Fubini) Wenn
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ]
RRR
RRR
und
|f (x, y, z)|dx dy dz existiert (also
|f (x, y, z)|dx dy < ∞), dann gilt
B
B
Zb1
ZZZ
f (x, y, z)dx dy dz =

Zb3
a2
=

Zb2

a3


f (x, y, z)dz  dy  dx
a3


Zb1

f (x, y, z)dx dy  dz

a2

Zb3


a1
B
Zb2
a1
und analog für die anderen Möglichkeiten, die Reihenfolge der Integration zu ändern.
Entsprechend gilt, wenn
B = ] − ∞, b1 ]× ] − ∞, b2 ]× ] − ∞, b3 ]
und
RRR
B
|f (x, y, z)|dx dy dz < ∞
Zb1
ZZZ
f (x, y, z)dx dy dz =
Zb2

−∞
B

Zb3
=
Zb2

−∞
Zb3
−∞


f (x, y, z)dz  dy  dx

−∞


−∞

Zb1



f (x, y, z)dx dy  dz
−∞
und entsprechend für die anderen Möglichkeiten, die Reihenfolge zu vertauschen und für
andere unendliche Quader“ B ⊂ R3 .
”
Die Verallgemeinerung auf Funktionen von n Variablen und vernünftige“ Teilmengen
”
B ⊂ Rn ist naheliegend. Besonders angenehm sind n-dimensionale Quader
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] × · · · × [an , bn ]
und in der Wahrscheinlichkeitsrechnung spielen unendlich ausgedehnte Quader“ der Form
”
B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ] × · · · × ] − ∞, bn ]
eine wichtige Rolle. Wir unterteilen vernünftige“ Teilmengen B ⊂ Rn in kleine Quader
”
mit den Kantenlängen ∆x1 , ∆x2 , ∆x3 , . . . ∆xn mit dem Volumen“
”
∆x1 · ∆x2 · ∆x3 · · · ∆xn
114
Wir beschränken uns auf vernünftige“ Funktionen, beispielsweise solche, die in B stetig
”
und beschränkt sind. In jedem kleinen Quader wählen wir einen Punkt (ξ1 , ξ2 , ξ3 , . . . ξn )
aus. Dies kann der Mittelpunkt oder der Punkt sein, an dem die Funktion ihr Minimum
oder Maximum annimmt oder ein willkürlich gewählter Punkt. Grundbausteine“ der
”
Riemannschen Summen haben dann die Form
f (ξ1 , ξ2 , ξ3 , . . . ξn )∆x1 · ∆x2 · ∆x3 · · · ∆xn
Wir betrachten Folgen von Unterteilungen von B in kleine Quader, die immer feiner wer(m)
den in dem Sinn, dass max{∆xk )} → 0 für alle k. Wir haben dabei zur Nummerierung
dieser Unterteilungen den Buchstaben m gewählt, da n hier die Zahl der Variablen der
Funktion angibt. Wir definieren dann das Mehrfachintegral als Grenzwert
Z Z Z
···
Z
f (x1 , x2 , x3 , . . . xn )dx1 dx2 dx3 . . . dxn :=
B
!
lim
m→∞
X
(m)
(m) (m) (m)
f (ξ1 , ξ2 , ξ3 , . . . ξn(m) )∆x1
k
·
(m)
∆x2
·
(m)
∆x3
· · · ∆x(m)
n
Es wird hier sichtbar, dass die bisher benutzte Notation zwar anschaulich, aber für n
Variable sehr schwerfällig ist.
Der Satz von Fubini gilt auch für n Variable und sagt aus, dass das Integral über einen
n-dimensionalen Quader B in jeder beliebigen Reihenfolge durch eine Integration über die
einzelnen Variablen ausgerechnet werden kann, wenn
Z Z Z
Z
· · · |f (x1 , x2 , x3 , . . . xn )|dx1 dx2 dx3 . . . dxn < ∞
B
und dies gilt auch, wenn der Quader B unendlich ausgedehnt ist.
Mathematische Anmerkung:
Es wurde in diesem Abschnitt darauf verzichtet, genaue mathematische Voraussetzungen anzugeben dafür, dass die angegebenen Sätze gelten, schon bei der Definition des
Mehrfachintegrals wurde einfach unterstellt, dass der entsprechende Grenzwert existiert.
Es hat sich herausgestellt, dass geeignete Voraussetzungen für den hier benutzten Riemannschen Integralbegriff (Grenzwert von Riemannschen Summen) sehr schwerfällig zu
formulieren sind und daher unbefriedigend sind. In der modernen Mathematik hat sich
daher der Integralbegriff von Lebesgue durchgesetzt, für den die Formulierung und vor
allem auch die Beweise der entsprechenden Sätze sehr viel einfacher sind. Er wird in der
Lehrveranstaltung Höhere Mathematik“ der Masterstudiengänge behandelt.
”
letzte Änderung am 4. Februar 2012
115