Stochastik - Alexander Stoffel

Werbung
Materialien zur Vorlesung
Stochastik
Einführung in die Wahrscheinlichkeitsrechnung und Statistik
Alexander Stoffel
Institut für Nachrichtentechnik
Fakultät für Informations-, Medien- und Elektrotechnik
Fachhochschule Köln
4. Februar 2012
1
2
Einleitung
Dieses Skript ist nur für die Teilnehmer meiner Lehrveranstaltung konzipiert. Hierfür gilt
analog, was in der Einleitung zum Analysis-Skript gesagt wurde, das braucht also nicht
wiederholt zu werden. Für Hinweise auf Tippfehler und andere Unstimmigkeiten sowie
für Verbesserungsvorschläge bin ich sehr dankbar.
Noch eine Anmerkung zum Namen: Stochastik kommt vom griechischen Wort στ óχoς,
Vermutung, Kunst des Mutmaßens. Es bezeichnet das Gebiet der Wahrscheinlichkeitstheorie und der mathematischen Statistik. Diese Bezeichnungsweise ist aber eine Besonderheit des deutschen Sprachraums. Ein entsprechendes englisches Substantiv scheint zumindest außerordentlich wenig gebräuchlich zu sein, das Adjektiv stochastic wird vor allem
im Zusammenhang mit den speziellen Fachausdrücken stochastic process, stochastischer
Prozess und stochastic differential equation, stochastische Differentialgleichung, benutzt.
Beide dieser Fachausdrücke bezeichnen aber sehr spezielle Teilgebiete der (deutschen)
Stochastik. Das Thema dieses Skriptes und der zugehörigen Lehrveranstaltung wäre im
englischen probability and statistics“, was dem oben angegebenen Untertitel entspricht.
”
3
Hier die Literaturempfehlungen:
Literatur
[1] Dimitri P. Bertsekas and John N. Tsitsiklis. Introduction to Probability. Athena
Scientific, Belmont, Massachusetts, second edition edition, 2008.
[2] Karl Bosch. Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg,
Braunschweig, 5. Auflage, 1986.
[3] Karl Bosch. Elementare Einführung in die angewandte Statistik. Vieweg, Braunschweig, 4. Auflage, 1987.
[4] Norbert Henze. Stochastik für Einsteiger. Vieweg, Braunschweig/Wiesbaden, 1997.
[5] Alberto Leon-Garcia. Probability and Random Processes for Electrical Engineering.
Addison-Wesley, Reading, Massachusetts, second edition, 1994.
[6] Lothar Papula. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung. Vieweg, Braunschweig/Wiesbaden, 1994.
[7] Sheldon M. Ross. Introduction to Probality and Statistics for Engineers and Scientists.
Elsevier Academic Press, Amsterdam, third edition, 2004.
[8] Volker Schmidt.
Wahrscheinlichkeitsrechnung.
Skript, Universität
Ulm,
Institut
für
Stochastik,
http://www.mathematik.uniulm.de/stochastik/lehre/ws06 07/wr/skript.pdf, 2006.
[9] Hubert Weber. Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure. Teubner, Stuttgart, 1992.
4
Inhaltsverzeichnis
1 Grundbegriffe
1.1 Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum
1.2 Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum . . .
1.3 Laplace-Modelle, Kombinatorik . . . . . . . . . . . . .
1.4 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
11
15
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
16
2.1 Definitionen und wichtige Folgerungen . . . . . . . . . . . . . . . . . . . . 16
2.2 Produktwahrscheinlichkeitsmaß . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Anwendungen von bedingten Wahrscheinlichkeiten . . . . . . . . . . . . . . 20
3 Zufallsvariable
3.1 Beispiele, Verteilungsfunktion, Dichtefunktion . . . . . . . . . . . . . . . .
3.2 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Quantil und Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
24
36
42
4 Spezielle Verteilungen
4.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
44
46
47
5 Mehrere Zufallsvariable mit demselben Grundraum
51
5.1 Zwei Zufallsvariable mit demselben Grundraum . . . . . . . . . . . . . . . 51
5.2 Mehr als zwei Zufallsvariable auf demselben Grundraum . . . . . . . . . . 66
5.3 Summen von Zufallsvariablen, Grenzwertsatz . . . . . . . . . . . . . . . . . 70
6 Grundbegriffe der Statistik
6.1 Histogramm, Mittelwert, Stichprobenvarianz . . . . . .
6.2 Parameterschätzungen . . . . . . . . . . . . . . . . . .
6.3 Allgemeine Prinzipien zur Gewinnung von Schätzungen
6.4 Lineare Regression . . . . . . . . . . . . . . . . . . . .
6.5 Intervallschätzungen, Konfidenzintervalle . . . . . . . .
6.6 Tests von Hypothesen . . . . . . . . . . . . . . . . . .
7 Zufallszahlen, Simulation von Zufallsexperimenten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
75
77
81
84
91
94
100
A Anhang: Mehrfachintegrale
103
A.1 Funktionen von 2 Variablen: Zweifachintegrale . . . . . . . . . . . . . . . . 103
A.2 Funktionen von 3 und mehr Variablen . . . . . . . . . . . . . . . . . . . . 112
5
1
Grundbegriffe
1.1
Beispiele, Zufallsexperimente, Ereignisse, Ergebnisraum
Beispiele für Zufallsexperimente:
• Werfen einer Münze
• Würfeln
• Ziehen der Lottozahlen
• Lebensdauer einer Glühbirne messen
• Übertragen eines Bits über eine unzuverlässige Übertragungsstrecke
Ein Zufallsexperiment ist durch folgende Eigenschaften gekennzeichnet:
• Die Bedingungen sind genau festgelegt (Ziehen der Lottozahlen!).
• Das Experiment ist vom Prinzip her beliebig oft wiederholbar.
• Es gibt mehrere unterscheidbare Elemente der Menge der Ergebnisse des Zufallsexperiments
• Die Ergebnisse sind nicht vorhersagbar.
Beachten Sie, dass hier gedanklich Annahmen gemacht und Näherungen vorgenommen
werden, die in der Praxis in voller Strenge nicht realisiert sind!
Definition 1.1.1 Die Menge der Ergebnisse eines Zufallsexperiments heißt Ergebnismenge, Ergebnisraum, Ereignisraum oder Grundraum und wird hier mit Ω bezeichnet.
Beispiele: Für den Würfel ist Ω = {1, 2, 3, 4, 5, 6}, für das Werfen einer Münze ist Ω =
{W, Z} (oder Ω = {0, 1}). Für die Lebensdauer einer Glühbirne ist Ω = R+ . Als Ereignis
möchte man zulassen, dass beispielsweise eine Zahl größer als 3 gewürfelt wurde. Man
definiert also
Definition 1.1.2 Ereignisse sind Teilmengen von Ω. Sie werden hier meist mit A, B,
C oder D bezeichnet. A = Ω ist das sichere Ereignis, ∅ ist das unmögliche Ereignis.
Elementarereignisse sind Ereignisse mit nur einem Element A = {ω} mit ω ∈ Ω.
Das Ereignis, eine Zahl größer als 3 zu würfeln, ist also A = {4, 5, 6}.
Zur Erinnerung:
A ∪ B := {ω ∈ Ω | ω ∈ A oder ω ∈ B}
A ∩ B := {ω ∈ Ω | ω ∈ A und ω ∈ B}
A \ B := {ω ∈ Ω | ω ∈ A und ω 6∈ B}
Beachten Sie, dass das oder“ bei der Bildung der Vereinigung im nicht ausschließlichen
”
Sinn gemeint ist. Also, wenn ω ∈ A und ω ∈ B, dann ist auch ω ∈ A ∪ B.
6
Definition 1.1.3 Zwei Ereignisse A und B heißen disjunkt, wenn A∩B = ∅. In diesem
Fall wird A+B := A∪B geschrieben. Die Ereignisse A1 , A2 , A3 , . . . An heißen paarweise
disjunkt, wenn Ai ∩ Ak = ∅ für alle i 6= k mit 1 ≤ i, k ≤ n gilt. In diesem Fall schreibt
man
n
X
k=1
Ak = A1 + A2 + A3 + · · · + An := A1 ∪ A2 ∪ A3 ∪ · · · ∪ An =
n
[
Ak
k=1
A := Ω \ A heißt Komplementärereignis, Gegenereignis oder Komplement von A. Es
wird auch Ac := A geschrieben.
Weitere Beispiele:
(a) Werfen von zwei Würfeln. Ω = {1, 2, 3, . . . 6} × {1, 2, 3, . . . 6}. Beachten Sie, dass
beim kartesischen Produkt die Elemente (i, k) und (k, i) zu unterscheiden sind, wenn
i 6= k. Das Ereignis, dass eine Eins und eine Fünf gewürfelt wurde (ohne zu unterscheiden, welcher Würfel ein Auge zeigt), ist also die Teilmenge A = {(1, 5), (5, 1)}.
Abbildung 1: Zum Nadelexperiment von Buffon
(b) Nadelexperiment von Buffon. Eine Nadel der Länge l = 1 wird auf eine Ebene
geworfen, die ein Gitter von Parallelen im Abstand d = 1 enthält. Die Lage der
Nadel soll durch den Abstand a des Mittelpunkts zur nächsten unteren Parallelen
und den Winkel ϕ mit der Senkrechten zur Parallelen gekennzeichnet sein. Wir
haben also 0 ≤ a < 1 und − π2 < ϕ ≤ π2 (siehe auch die Abb. 1). Der Ereignisraum
ist also
π π
Ω = [0, 1[ × ] − , + ]
2
2
Das Ereignis Die Nadel trifft keine Parallele“ ist also die Teilmenge
”
A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)}
1.2
Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsraum
Betrachten wir als Beispiel das Ereignis A, bei einem Würfel eine Sechs zu würfeln. Wir
wiederholen das Experiment sehr häufig und als nA bezeichnen wir die Zahl der Würfe
mit ω ∈ A und die Gesamtzahl der Würfe nennen wir N . Dann erwarten wir im Limes
7
N → ∞, dass nNA → 16 . Wir werden als Bewertung des nicht exakt vorhersagbaren Ereignisses A sagen, dass die Wahrscheinlichkeit P (A) = 61 . Wir wollen allgemeiner mit
der Wahrscheinlichkeit nicht exakt vorhersagbare Ereignisse bewerten. Es hat sich als
nicht sinnvoll herausgestellt, für die Definition des Begriffes der Wahrscheinlichkeit den
Grenzwert für N → ∞ zu benutzen, wobei N die Gesamtzahl der Wiederholungen des
Zufallsexperiments ist. Man faßt daher den Begriff allgemeiner und sieht als die Wahrscheinlichkeit eine zahlenmäßige Bewertung der nicht exakt vorhersehbaren Ereignisse an,
die bestimmten Grundregeln (Axiomen) genügt.
Vorher ist eine kleine technische Schwierigkeit zu klären. Bei Grundräumen, die unendlich viele Elemente enthalten und die deren Elemente auch nicht durchnumeriert werden
können (beispielsweise bei Ω = R+ ), kann nicht jede Teilmenge als Ereignis zugelassen
werden, das wir mit einer bestimmten Wahrscheinlichkeit bewerten. In solchen Fällen
können wir nur vernünftige“ Teilmengen als Ereignis zulassen. Wir müssen daher die
”
ursprüngliche Definition 1.1.2 des Begriffs Ereignis“ geauer formulieren.
”
Definition 1.2.1 Ereignisse sind Teilmengen des Grundraums Ω. In den Fällen, in denen nicht jede Teilmenge von Ω als Ereignis zugelassen ist, werden folgende Regeln vorausgesetzt:
(a) Ω ist ein Ereignis
(b) A ist ein Ereignis =⇒ A = Ω \ A ist ein Ereignis
(c) Für jede Folge A1 , A2 , A3 , A4 . . . von Ereignissen ist
A1 ∪ A2 ∪ A3 ∪ A4 ∪ . . . =
∞
[
Ak
k=1
ebenfalls ein Ereignis.
Hinweise:
(a) Für endlich viele Ereignisse A1 , A2 , A3 . . . An ist
A1 ∪ A2 ∪ A3 · · · An =
n
[
Ak
k=1
für alle n ∈ N ein Ereignis. Dies folgt aus (c), wenn man Ak = ∅ für k > n setzt.
(b) Weil für alle Ereignisse A, B ⊂ Ω gilt
A ∩ B = (Ac ∪ B c )c
ist auch A ∩ B ein Ereignis. Entsprechendes gilt für endlich viele Ereignisse und
auch für Folgen Ak von Ereignissen: Der Durchschnitt
!c
∞
∞
\
[
A1 ∩ A2 ∩ A3 ∩ A4 ∩ . . . =
Ak =
Ack
k=1
ebenfalls ein Ereignis.
8
k=1
Damit können wir die Grundregeln (Axiome) für die Wahrscheinlichkeit formulieren.
Definition 1.2.2 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Zuordnungsvorschrift, die jedem Ereignis A die reelle Zahl P (A) zuordnet, Wahrscheinlichkeitsmaß auf Ω und P (A) heißt Wahrscheinlichkeit von A, wenn folgende Grundregeln
(Axiome) erfüllt sind:
(a) P (A) ∈ [0, 1] ( Positivität“)
”
(b) P (Ω) = 1 ( Normierung“)
”
(c) Für alle Folgen A1 , A2 , A3 , A4 , . . . von paarweise disjunkten Ereignissen gilt
!
∞
∞
[
X
P
Ak =
P (Ak )
( Additivität“)
”
k=1
k=1
Dann wird Ω mit den zugelassenen Ereignissen und dem Wahrscheinlichkeitsmaß ein
Wahrscheinlichkeitsraum genannt.
Hinweis: Aus der Grundregel (c) folgt, dass für paarweise disjunkte Ereignisse A1 , A2 ,
A3 , . . . An (also endlich viele Ereignisse) gilt
!
n
n
[
X
P
Ak =
P (Ak )
k=1
k=1
(Um dies einzusehen, braucht man nur in (c) Ak = ∅ für k > n zu setzen.)
Beispiele:
(a) Würfel, Ω = {1, 2, 3, . . . 6}, P ({k}) = 61 für alle k = 1, 2, . . . 6, es werden alle Teilmengen von Ω als Ereignisse zugelassen und wir haben
P (A) =
Zahl der Elemente in A
6
(b) Triviales Beispiel: Ω = {1, 2, 3, . . . 6}, alle Teilmengen sind als Ereignisse zugelassen.
1 falls 6 ∈ A
P (A) :=
0 falls 6 6∈ A
ist ein Wahrscheinlichkeitsmaß auf Ω.
(c) Ω = {g, e} Bei der Übertragung eines Bits steht g“ dafür, dass es richtig übertragen
”
wird, e“ dafür, dass es umgekehrt wird (aus 1 wird 0 und aus 0 wird 1). Alle
”
Teilmengen, also ∅, {g}, {e}, Ω sind als Ereignis zugelassen. Für jede Zahl p mit
0 < p < 1 ist

0
falls A = ∅



p
falls A = {g}
P (A) :=
1 − p falls A = {e}



1
falls A = Ω
ein Wahrscheinlichkeitsmaß. Man hofft, dass p nahe an 1 (z.B. p = 0, 999) ein gutes
Modell für die Übertragung ist.
9
(d) Glücksrad. Hier ist eine Möglichkeit für den Grundraum Ω = ] − π, +π] (die Winkelpositionen, die das Glücksrad nach Stillstand einnehmen kann). Es stellt sich hier
heraus, dass es nicht möglich ist, alle Teilmengen dieses Intervalls als Ereignisse zuzulassen. Eine Möglichkeit ist, als Ereignisse links offene und rechts abgeschlossene
Intervalle der Form ]a, b] mit −π ≤ a < b ≤ +π sowie die leere Menge, Vereinigungen von Folgen derartiger Mengen sowie die Komplementmengen derartiger Mengen
zuzulassen. Beachten Sie, dass man damit auch offene und abgeschlossene Intervalle
als Ereignisse bekommt mit
∞
\
1
[a, b] =
]a − ε, b],
k
k=1
]a, b[=
∞
[
1
]a, b − ε]
k
k=1
und einem geeignet gewählten ε > 0. Es ist ein plausibles Modell, dass die Wahrscheinlichkeit dafür, dass das Glücksrad in der Winkelposition ϕ mit ϕ ∈ ]a, b] stehen
bleibt, proportional zur Länge des Intervalls, also zu b − a ist. Aus der Normierungsbedingung ergibt sich sofort
b−a
P (]a, b]) =
2π
Beachten Sie, dass die Wahrscheinlichkeit, dass das Glücksrad in einer genau festgelegten Winkelposition stehen bleibt, verschwindet, also beispielsweise P ({ π6 }) = 0.
(e) Nadelexperiment von Buffon. Hier war schon früher als Grundraum
Ω = [0, 1[×] −
π π
,+ ]
2
2
angegeben worden (siehe auch Abb. 1). Auch hier hat man die technische Schwierigkeit, dass man nicht alle Teilmengen als Ereignisse zulassen kann. Man kann jedoch
Rechtecken analog zu den Intervallen beim Glücksrad und Vereinigungen von Folgen
derartiger Mengen als Ereignisse zulassen und so alle vernünftigen“ Teilmengen von
”
Ω erhalten. Eine sinnvolle Wahrscheinlichkeit einer Teilmenge von Ω sollte proportional zur Fläche dieser Teilmenge sein. Wir bezeichnen mit F (A) die Fläche einer
Teilmenge von Ω. Aus der Normierungsbedingung und der Gesamtfläche F (Ω) = π
ergibt sich die Wahrscheinlichkeit
P (A) =
F (A)
π
Wir hatten schon früher das Ereignis Die Nadel trifft keine Parallele“ als die Teil”
menge
A = {(a, ϕ) ∈ Ω | a > 12 cos(ϕ) und (1 − a) > 12 cos(ϕ)}
charakterisiert. Eine kleine Aufgabe zum Knobeln: Wie groß ist die Wahrscheinlichkeit P (A) dieses Ereignisses? Hierzu empiehlt es sich, eine Zeichnung anzufertigen
und die Randkurven der Fläche, die sich aus den beiden Bedingungen in der Definition von A ergeben, einzuzeichnen. Mit Hilfe von Symmetrieüberlegungen sieht
man, dass sich die Menge A aus vier kleineren Teilmengen derselben Fläche zusammensetzen lässt. Die Fläche dieser kleineren Teilmenge ergibt sich durch eine
einfache Integration, und als Ergebnis erhält man
P (A) = 1 −
10
2
π
(f) Zufallszahlen aus dem Computer. In vielen Programmen ist es möglich, Zufallszahlen x zu berechnen mit x ∈ ]0, 1[. In Scilab erhält man nach Initialisierung durch den
Aufruf rand(’u’) bei jedem Aufruf der Form x=rand() eine Zahl in ]0, 1[. Dies ist
strenggenommen kein Zufallsexperiment. Wenn man den Algorithmus kennt, so lässt
sich jede so erzeugte Zufallszahl exakt vorhersagen (es genügt, das Quellprogramm
zu kennen!). Aber für viele Zwecke kann man mit diesen Zufallszahlen Zufallsexperimente simulieren, bei denen die Wahrscheinlichkeit für das Ereignis x ∈ ]a, b[
durch
P (]a, b[) = b − a
für 0 ≤ a < b ≤ 1
ist. Beachten Sie, dass auch hier die Wahrscheinlichkeit, dass die Zufallszahl einen
genau festgelegten Wert annimmt, verschwindet, also beispielsweise P ({ 21 }) = 0.
1.3
Laplace-Modelle, Kombinatorik
Für viele Ergebnisräume Ω mit endlich vielen Elementen ist das folgende Wahrscheinlichkeitsmaß ein sinnvolles Modell
P (A) =
|A|
Zahl der Elemente in A
=
Zahl der Elemente in Ω
|Ω|
P heißt dann diskrete Gleichverteilung oder Laplace-Verteilung, das zugehörige Experiment Laplace-Experiment, das zugehörige Modell Laplace-Modell. Man hat jedoch sorgfältig zu überprüfen, ob die darin ausgedrückte völlige Gleichberechtigung aller Elemente
des Grundraums wirklich berechtigt ist, wie das erste Beispiel zeigt.
Beispiele:
(a) Werfen von zwei Münzen (oder zweimaliges Werfen einer Münze). Wir bezeichnen
die Ergebnismenge für eine Münze mit Ω = {W, Z} (für Wappen oder Zahl). Wir haben zwei verschiedene Varianten, das Zufallsexperiment durchzuführen, also streng
genommen zwei verschiedene Zufallsexperimente mit zwei Münzen:
(a) ohne Unterscheidung der beiden Münzen oder der Reihenfolge:
ΩA = {(W, W )A , (W, Z)A , (Z, Z)A }
(nach dem Mathematiker d’Alembert)
(b) mit Unterscheidung der Münzen oder der Reihenfolge
ΩL = {(W, W ), (W, Z), (Z, W ), (Z, Z)}
(nach dem Mathematiker Laplace)
Wenn man ohne Überlegung auf ΩA ein Laplace-Modell anwendet, dann erhält man
für die Wahrscheinlichkeit, dass Wappen und Zahl geworfen wird, die falsche Wahrscheinlichkeit 31 . Die Ereignisse A = {(W, Z)A } und B = {(W, W )A } sind jedoch
nicht gleichberechtigt, denn man erhält beim Vergleich der beiden Beschreibungen
A = {(W, Z)A } = {(W, Z), (Z, W )},
11
B = {(W, W )}A = {(W, W )}
Also das eine Ereignis ist ein Elementarereignis bei der Beschreibung nach Laplace,
das andere hat nach Laplace zwei Elemente! Die richtige Wahrscheinlichkeit, dass
Wappen und Zahl geworfen wird, ist also
P (A) =
1
2
Dies ist sinnvoll, weil es zwei Möglichkeiten für Wappen und Zahl gibt (erste Münze
Wappen, zweite Münze Zahl und umgekehrt) dagegen nur eine Möglichkeit dafür,
dass zweimal Wappen auftritt. Wenn man immer noch zweifelt, dann kann man in
Gedanken das Experiment von zwei verschiedenen Beobachtern durchführen lassen,
von denen der eine die beiden Münzen unterscheiden kann, (beispielsweise durch eine
Spezialbrille) und der andere sie nicht unterscheiden kann. Der Ausgang des Zufallsexperiments sollte nicht von der Anwesenheit des Beobachters mit der Spezialbrille
abhängen. Auf dem Grundraum ΩL ist also die Beschreibung durch ein LaplaceModell sinnvoll, auf dem Grundraum ΩA ist das sinnvolle Wahrscheinlichkeitsmaß
durch
1
1
1
P {(W, W )A }) = , P {(W, Z)A }) = , P {(Z, Z)A }) =
4
2
4
gegeben. Die Beschreibung nach Laplace mit ΩL ist jedoch einfacher!
(b) Würfeln mit drei Würfeln (oder dreimaliges Würfeln). Für einen Würfel haben wir
den Grundraum
Ω0 = {1, 2, 3, 4, 5, 6}
und damit für drei Würfel
Ω = Ω0 × Ω0 × Ω0 = {(i, k, l) | i, k, l ∈ Ω0 }
Beachten Sie, dass wir das kartesische Produkt von Mengen so definiert haben, dass
Tripel mit denselben Elementen und unterschiedlicher Reihenfolge als unterschiedliche Elemente anzusehen sind. Also ist hier (3, 2, 1) 6= (2, 3, 1) und unser Grundraum
hat insgesamt 63 = 216 Elemente. Nach Laplace erhält jedes Elementarereignis die
Wahrscheinlichkeit
1
P ({(i, k, l)}) =
216
1
Die Wahrscheinlichkeit, dreimal eine Sechs zu würfeln, ist also 216
. Das Ereignis,
dass die Augenzahl 1, 2, 3 ohne Berücksichtigung der Reihenfolge gewürfelt wird, ist
also die Teilmenge
A = {(1, 2, 3), (1, 3, 2), (3, 1, 2), (2, 1, 3)(2, 3, 1)(3, 2, 1)}
mit 6 Elementen und der Wahrscheinlichkeit P (A) =
6
216
=
(1)
1
.
36
Das letzte Beispiel gibt Anlass zur Definition
Definition 1.3.1 Eine Umordnung der Zahlen (1, 2, 3, 4, . . . n) (alle Zahlen verschieden!)
in eine andere Reihenfolge heißt Permutation, genauer n-Permutation ohne Wiederholung. Mathematisch ist eine Umordnung“eine bijektive Abbildung von
”
{1, 2, 3, 4, . . . n} → {1, 2, 3, 4, . . . n}
Auch eine Umordnung von n verschiedenen Elementen einer Menge (z.B. n verschiedenen
Buchstaben eines Alphabets) heißt Permutation.
12
Das letzte Beispiel legt die Frage nahe, wieviel Permutationen es gibt (in Abhängigkeit
von n). In (1) sind alle 6 = 3 · 2 Permutationen für n = 3 aufgeführt. Aus einer beliebigen
Permutation (i, k, l) für n = 3 erhält man für n = 4 die Permutationen
(4, i, k, l), (i, 4, k, l), (i, k, 4, l), (i, k, l, 4)
und man kann sich überzeugen, dass man aus allen Permutationen für n = 3 auf diese
Weise alle 4 · 6 = 24 Permutationen für n = 4 erhält. Entsprechend erhält man aus einer
beliebigen Permutation (i, k, l, m) für n = 4 die Permutationen für n = 5
(5, i, k, l, m), (i, 5, k, l, m), (i, k, 5, l, m), (i, k, l, 5, m), (i, k, l, m, 5)
und man erhält auf diese Weise alle 5 · 4 · 3 · 2 = 5! = 120 Permutationen für n = 5. Wir
erhalten so das Ergebnis (genauer Beweis durch vollständige Induktion):
Satz 1.3.1 Für beliebiges n ∈ N existieren genau n! verschiedene Permutationen der
Zahlen (1, 2, 3, 4. . . . n).
weiteres Beispiel:
(c) Lotto 6 aus 49. Die Lottozahlen werden nach dem Ziehen sortiert, die Reihenfolge
beim Ziehen wird also nicht berücksichtigt. Der Grundraum ist hier
Ω = {(k1 , k2 , k3 , k4 , k5 , k6 ) | 1 ≤ kl ≤ 49}
und dem Ereignis A, dass die Lottozahlen (i1 < i2 < i3 < i4 < i5 < i6 ) betragen,
entspricht also die Menge
A = {(k1 , k2 , . . . k6 ) | (k1 , k2 , . . . k6 ) ist Permutation von (i1 < i2 < · · · < i6 )}
mit 6! = 720 verschiedenen Elementen. 720 verschiedene Ziehungen führen also zu
denselben Lottozahlen. Für die Ziehung der ersten Zahl k1 gibt es 49 Möglichkeiten,
für die Ziehung von k2 gibt es 48 Möglichkeiten, für k3 47 Möglichkeiten. Für die
Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge gibt es also
insgesamt
NR = 49 · (49 − 1) · (49 − 2) · (49 − 3) · (49 − 4) · (49 − 5)
Möglichkeiten. Legt man ein Laplace-Modell zugrunde, so ist die Wahrscheinlichkeit
für die Ziehung von (k1 , k2 , k3 , k4 , k5 , k5 , k6 ) in der angegebenen Reihenfolge N1R . Das
Ereignis A besteht aber aus 6! derartigen Elementen. Für das Ereignis Lottozahlen
”
(i1 < i2 < i3 < i4 < i5 < i6 )“ erhalten wir also die Wahrscheinlichkeit
P (A) =
6!
1
=
49 · (49 − 1) · (49 − 2) · (49 − 3) · · · (49 − 5)
13 983 816
Dies ist die Wahrscheinlichkeit, 6 Richtige im Lotto zu haben!
13
Zur Erinnerung:
Die Binomialkoeffizienten
n
k
sind durch
(
1
falls k = 0
n
:=
n!
falls 1 ≤ k ≤ n
k
k!(n − k)!
definiert. Sie haben die Eigenschaften
n
n
n
n
n
= 1,
=
= n,
=
,
n
1
n−1
k
n−k
n
n
n+1
+
=
k−1
k
k
Sie stehen in der n. Zeile des Pascal-Dreiecks an der k. Position von links, wenn man
jeweils mit 0 anfängt zu zählen. Kürzen in der Definition liefert für k ≥ 1
n
1 · 2 · 3 · · · (n − k) · (n − k + 1) · · · n
(n − k + 1) · (n − k + 2) · · · (n − 1) · n
=
=
k
k! · 1 · 2 · 3 · · · (n − k)
k!
n · (n − 1) · (n − 2) · · · (n − k + 1)
=
k!
Wir erhalten also für die Wahrscheinlichkeit 6 Richtige beim Lotto“
”
1
P (A) = 49
6
und allgemeiner für die Wahrscheinlichkeit, bei der zufälligen Auswahl von k Zahlen aus
den Zahlen {1, 2, 3, . . . n} eine vorgegebene Menge A von k Zahlen zu erhalten
P (A) =
1
n
k
allgemeinere Permutationen:
Definition 1.3.2 M sei eine Menge mit n Elementen, beispielsweise M = {1, 2, 3, . . . n}
und k ∈ N.
Eine k-Permutation aus M mit Wiederholung ist ein k-Tupel (a1 , a2 , a3 , . . . ak ) mit ak ∈
M . Die Menge Ω der k-Permutationen aus M mit Wiederholung ist also
Ω = Mk = M
{z × · · · × M}
| ×M ×M
k mal
d.h. das k-fache kartesische Produkt von M .
Wenn k ≤ n, dann ist eine k-Permutation aus M ohne Wiederholung ein k-Tupel
(a1 , a2 , a3 , . . . ak ) mit ak ∈ M und ai 6= ak für i 6= k
Hinweise:
(a) Beachten Sie, dass es bei k-Tupeln grundsätzlich auf die Reihenfolge der Elemente
ankommt.
(b) Es gibt nk k-Permutationen mit Wiederholung (das k-fache kartesische Produkt
einer Menge mit n Elementen hat nk Elemente).
14
(c) Die Zahl der möglichen k-Permutationen ohne Wiederholung ist
n · (n − 1) · (n − 2) · · · (n − k + 1)
Für k = n spricht man von einer n-Permutation in Übereinstimmung mit Definition
1.3.1 und Satz 1.3.1.
(d) Beim Ausmultiplizieren von
(a + b)n = (a + b) · (a + b) · (a + b) · · · (a + b)
{z
}
|
n Faktoren
entspricht die Zahl der Summanden an−k bk der Zahl der Möglichkeiten der Zie”
hung“ von k Faktoren b aus den Klammern der gedachten Nummern 1, 2, . . . n ohne
Berücksichtigung der Reihenfolge der Ziehung“. Dies erklärt das Auftauchen der
”
Binomialkoeffizienten bei Problemen der Art der Ziehung von Lottozahlen.
1.4
Rechenregeln für Wahrscheinlichkeiten
Aus den Grundregeln für die Wahrscheinlichkeit ergeben sich folgende enfache Rechenregeln:
Satz 1.4.1 P sei ein Wahrscheinlichkeitsmaß über dem Grundraum Ω und A, B seien
ein Ereignisse. Dann gilt
(a) P (∅) = 0
(b) P (A) = 1 − P (A)
(c) B ⊂ A =⇒ P (A \ B) = P (A) − P (B) und P (B) ≤ P (A)
(d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B)
Beweis: (a) ergibt sich aus Ω = Ω ∪ ∅. Anwendung der Grundregeln ergibt 1 = P (Ω) =
P (Ω) + P (∅) = 1 + P (∅) und daraus folgt P (∅) = 0.
(b) ergibt sich aus Ω = A ∪ A = A ∪ (Ω \ A). Anwendung der Grundregeln ergibt
1 = P (A) + P (Ω \ A) und damit P (Ω \ A) = P (A) = 1 − P (A)
(c): Wenn B ⊂ A dann ist A = (A \ B) ∪ B. Die Mengen A \ B und B sind disjunkt,
also hat man nach Grundregel (c) P (A) = P (A \ B) + P (B) und daraus ergibt sich
P (A \ B) = P (A) − P (B) und P (A) ≥ P (B).
(d): Hierfür benutzen wir die Identität
A ∪ B = (A \ (A ∩ B)) ∪ (B \ (A ∩ B)) ∪ (A ∩ B)
die man sich leicht an einem Venn-Diagramm klarmachen kann. Die drei Mengen auf
der rechten Seite sind disjunkt (sie sind gerade so konstruiert). Aus (A ∩ B) ⊂ A folgt
nach (c) P (A \ (A ∩ B)) = P (A) − P ((A ∩ B), analog folgt aus (A ∩ B) ⊂ B, dass
P (B \ (A ∩ B)) = P (B) − P ((A ∩ B). Damit erhalten wir aus der obigen Mengenidentität
P (A ∪ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B)
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B)
= P (A) + P (B) − P (A ∩ B)
15
Satz 1.4.2
(a) Wenn Ω aus endlich vielen Elementen besteht, also Ω = {ω1 , ω2 , ω3 , . . . ωn }, dann
ist das Wahrscheinlichkeitsmaß durch die Wahrscheinlichkeiten der Elementarereignisse gegeben mit
pk = P ({ωk }),
0 ≤ pk ≤ 1
und
n
X
pk = 1
(2)
k=1
erfüllen. Umgekehrt definieren beliebige Zahlen p1 , p2 , p3 , . . . pn , die (2) erfüllen,
ein Wahrscheinlichkeitsmaß auf Ω. Die Wahrscheinlichkeit beliebiger Ereignisse ist
durch
k
X
P ({ωi1 , ωi2 , ωi3 . . . ωik }) =
p il
mit 1 ≤ k ≤ n
l=1
gegeben.
(b) Wenn Ω = {ω1 , ω2 , ω3 , . . .} aus einer Folge unendlich vieler Elemente besteht (also
die Elemente von Ω durchnummeriert werden können), dann ist das Wahrscheinlichkeitsmaß analog durch pk = P ({ωk }) gegeben mit
0 ≤ pk ≤ 1
und
∞
X
pk = 1
k=1
und umgekehrt definiert jede Folge pk , die diesen Bedingungen genügt, ein Wahrscheinlichkeitsmaß auf Ω.
Hinweise:
(a) Der Beweis ist leicht mit Hilfe der Grundregeln zu führen.
(b) Man kann nachweisen, dass die reellen Zahlen und nichtleere Intervalle nicht die
Eigenschaft haben, dass man ihre Elemente durchnummerieren kann!
Definition 1.4.1 Wenn Ω die Voraussetzungen einer der beiden Teilaussagen des Satzes 1.4.2 erfüllt, dann heißt P diskretes Wahrscheinlichkeitsmaß und Ω heißt diskreter
Wahrscheinlichkeitsraum. Wenn eine Menge unendlich viele Elemente hat und man die
Elemente einer Menge durchnummerieren kann, dann sagt man, sie habe abzählbar (unendlich) viele Elemente.
2
2.1
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Definitionen und wichtige Folgerungen
Beispiel: In einem Nachbarraum wird mit 2 Würfeln gewürfelt und es soll erraten werden,
ob das Ereignis A eingetreten ist, dass mindestens eine 6 gewürfelt wurde. Um dieses etwas
zu erleichtern, wird mitgeteilt, ob das Ereignis B eingetreten ist, dass die Augensumme
mindestens 8 ist, oder ob dieses nicht der Fall ist. Wir haben also eine Wahrscheinlichkeit
16
Abbildung 2: Zwei Würfel, Ereignis A: Mindestens eine 6“ grau unterlegt, Ereignis B:
”
Augensumme mindestens 8“ eingerahmt
”
für das Ereignis A anzugeben, unter der Zusatzinformation, dass das Ereignis B eingetreten ist. Dabei ist der ursprüngliche Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3 . . . 6}
und
A = {(i, k) ∈ Ω | i = 6 oder k = 6}, B = {(i, k) ∈ Ω | i + k ≥ 8}
Die Idee ist, dass wir aufgrund der Zusatzinformation, das Ereignis B ist eingetreten, den
Grundraum verkleinern und als neuen Grundraum B wählen können. Dieser ist in Abb. 2
eingerahmt. Das Ereignis A ist in der Abb. 2 grau unterlegt. Um die Wahrscheinlichkeit
des Ereignisses A unter der Bedingung B zu bestimmen, brauchen wir jetzt nur alle
Elemente aus B abzuzählen, die zu A gehören (in der Abb. alle eingerahmten und grau
unterlegten Elemente, also 9) und diese durch die Gesamtzahl aller Elemente von B (aller
eingerahmten, also 15) zu dividieren. Einfaches Abzählen ergibt also als die gesuchte
9
= 35 .
bedingte Wahrscheinlichkeit 15
Allgemein möchten wir, dass die bedingte Wahrscheinlichkeit von A unter der Bedingung B proportional zur ursprünglichen Wahrscheinlichkeit sein soll, wenn man sie
auf B als neuem Grundraum einschränkt. Also haben wir als Ansatz für diese bedingte Wahrscheinlichkeit c · P (A ∩ B). Sie soll auf B ein Wahrscheinlichkeitsmaß sein. Die
1
. Dies motiviert die
Normierungsbedingung ergibt dann sofort c · P (B) = 1, also c = P (B)
folgende Definition:
Definition 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und B ⊂ Ω
ein Ereignis mit P (B) 6= 0. Dann ist die bedingte Wahrscheinlichkeit von A unter der
Bedingung B durch
P (A ∩ B)
P (A|B) :=
P (B)
definiert.
Hinweise:
(a) Für Elementarereignisse A = {ω} erhalten wir aus der Definition
(
0
falls ω 6∈ B
P ({ω}|B) =
P ({ω})
falls ω ∈ B
P (B)
17
Die bedingte Wahrscheinlichkeit ist in diesem Fall dann größer als die ursprüngliche,
wenn P (B) < 1 und P ({ω}) > 0.
(b) Trivialerweise erhalten wir P (Ω|B) = 1.
Aus der Definition ergibt sich sofort der Multiplikationssatz:
Satz 2.1.1 Sei P ein Wahrscheinlichkeitsmaß auf dem Grundraum Ω und seien A ⊂ Ω
und B ⊂ Ω Ereignisse mit P (A) 6= 0 und P (B) =
6 0. Dann gilt
P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A)
Definition 2.1.2 Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
Drei Ereignisse A, B, C heißen (stochastisch) unabhängig, wenn
P (A ∩ B) = P (A) · P (B), P (A ∩ C) = P (A) · P (C),
P (A ∩ B ∩ C) = P (A) · P (B) · P (C)
P (B ∩ C) = P (B) · P (C)
Die Ereignisse A1 , A2 , A3 . . . An heißen (stochastisch) unabhängig, wenn für alle Nummern i1 < i2 < i3 < · · · < ik mit k ≤ n gilt
P (Ai1 ∩ Ai2 ∩ Ai3 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · P (Ai3 ) · · · P (Aik )
Hinweis: Wenn A und B unabhängig sind, dann ist P (A|B) = P (A), falls P (B) 6= 0,
und P (B|A) = P (B) falls P (A) 6= 0, die bedingten Wahrscheinlichkeiten stimmen dann
mit den ursprünglichen überein.
Beispiel: Würfeln mit zwei Würfeln. A sei das Ereignis, dass die Augensumme ungerade
ist und B sei das Ereignis, dass die Augenzahl beim 1. Würfel gerade ist. Eine einfache
Überlegung oder Abzählen der Elemente in Abb. 2 ergibt
1
P (A) = ,
2
1
P (B) = ,
2
P (A ∩ B) =
1
4
Die beiden Ereignisse sind also unabhängig, obwohl anschaulich ein Zusammenhang“ des
”
einen Ereignisses mit dem andern besteht.
2.2
Produktwahrscheinlichkeitsmaß
Führt man zwei einzelne Zufallsexperimente mit den Grundräumen Ω1 und Ω2 und den
Wahrscheinlichkeitsmaßen P1 und P2 , die sich nicht gegenseitig beeinflussen, gleichzeitig
oder zeitlich nacheinander durch, so kann man dies auch als ein einziges Experiment
beschreiben mit dem Grundraum
Ω = Ω1 × Ω2
Beispielsweise wählen wir für das gleichzeitige Werfen einer Münze und eines Würfels den
Grundraum
Ω = {W, Z} × {1, 2, . . . 6}
Als Ereignisse lässt man Teilmengen der Form
A = A1 × A2
18
sowie Vereinigungen von Folgen derartiger Ereignisse sowie Komplementmengen derartiger Ereignisse zu, wobei mit A1 zugelassene Ereignisse in Ω1 und mit A2 zugelassene
Ereignisse in Ω2 bezeichnet sind. Durch
P (A) = P1 (A1 ) · P2 (A2 )
erhält man aus den Wahrscheinlichkeitsmaßen in Ω1 und Ω2 ein Wahrscheinlichkeitsmaß
auf Ω, das man Produktwahrscheinlichkeitsmaß nennt. Im angegebenen Beispiel ist
die Wahrscheinlichkeit, Wappen“ und 6 Augen“ zu erhalten
”
”
1
1 1
P ({W } × {6}) = P1 ({W }) · P2 ({6}) = · =
2 6
12
Bei dieser Beschreibung entspricht dem Ereignis: In Experiment 1 tritt A1 auf“ ohne
”
Berücksichtigung von Experiment 2 die Teilmente
A = A1 × Ω2
und entsprechend gehört zum Ereignis In Experiment 2 tritt Ereignis A2 auf“ ohne
”
Berücksichtigung von Experiment 1 die Teilmenge
B = Ω1 × A2
Derartige Ereignisse sind in der Tat unabhängig in Bezug auf das Produktwahrscheinlichkeitsmaß, denn
P (A1 × A2 ) = P (A1 × Ω2 ) ∩ (Ω1 × A2 ) = P1 (A1 ) · P2 (A2 )
= P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 )
Für n nacheinander oder gleichzeitig durchgeführte unabhängige Zufallsexperimente wird
analog vorgegangen.
Beispiel: Bereits früher wurde das Zufallsexperiment Übertragen eines Bits über einen
”
unzuverlässigen Kanal“ erwähnt (siehe Beispiel (c) in Abschnitt 1.2) mit Ω = {g, e}und
g“ für korrekte Übertragung, e“ für Übertragungsfehler und 21 < P0 ({g}) < 1 für eine
”
”
akzeptable Übertragung. In der Praxis überträgt man nicht 1 Bit sondern n Bits. Man
wiederholt dieses Experiment also n mal. Ein entsprechendes Einzelexperiment (mit 2
möglichen Ausgängen) heißt Bernoulli-Experiment. Die n-fache Wiederholung eines
Bernoulli-Experiments wird also durch das Produktwahrscheinlichkeitsmaß beschrieben
mit
Ω = {g, e}n
und P (A1 × A2 × A3 × · · · × An ) = P0 (A1 ) · P0 (A2 ) · P0 (A3 ) · · · P0 (An )
Beispielsweise wird das Ereignis, dass nur beim 3. und 5. Bit ein Übertragungsfehler
auftritt, durch
A = (g, g, e, g, e, g, g, g . . . g)
beschrieben, seine Wahrscheinlichkeit ist
P (A) = p · p · (1 − p) · p · (1 − p) · p · p · p · · · p = pn−2 · (1 − p)2
Wenn bei einem derartigen Elementarereignis k Bits korrekt übertragen werden und bei
(n − k) Bits ein Fehler auftritt, dann ist seine Wahrscheinlichkeit pk · (1 − p)n−k . In der
19
Praxis interessiert man sich meist nicht, bei welchen Bits die Fehler auftreten. Die Frage,
wieviele derartige Elementarereignisse es gibt, also wieviele Möglichkeiten es gibt, k Bits
aus insgesamt n Bits auszusuchen ohne Berücksichtigung
der Reihenfolge des Aussuchens
entspricht demselben Problem beim Lotto: Es sind nk Möglichkeiten. Wir haben also
das für die Praxis wichtige Ergebnis: Die Wahrscheinlichkeit, k von n Bits fehlerfrei zu
übertragen, ist
n k
n
n−k
PB (n, k) =
p (1 − p)
=
pk (1 − p)n−k
k
n−k
Als Zahlenwerte erhält man für p = 0, 99 und n = 1024 die Wahrscheinlichkeit für 5
Fehler 0,0331, für 10 Fehler 0,125, für 15 Fehler 0,0388. Wir werden uns später genauer
mit diesem Ergebnis befassen.
2.3
Anwendungen von bedingten Wahrscheinlichkeiten
Bei der Einführung der bedingten Wahrscheinlichkeit P (A|B) war diese in einem Beispiel
berechnet worden, in dem die Wahrscheinlichkeiten P (Ak ) bekannt waren. In der Praxis
ist es häufig umgekehr: Man kennt bedingte Wahrscheinlichkeiten und möchte daraus die
Wahrscheinlichkeiten berechnen. Hierzu benutzt man eine Zerlegung des Grundraums in
disjunkte Ereignisse und den folgenden Satz:
Satz 2.3.1 Seien A1 , A2 , A3 . . . An Ereignisse mit
Ω=
n
[
Ak
k=1
mit P (Ak ) 6= 0 und
Dann gilt für alle Ereignisse B
n
P
P (Ak ) · P (B|Ak )
(a) P (B) =
k=1
Ai ∩ Ak = ∅ für alle 1 ≤ i, k ≤ n mit i 6= k
( Formel von der totalen Wahrscheinlichkeit“)
”
(b) Wenn P (B) 6= 0, dann gilt für alle k = 1, 2, 3, . . . n die Formel von Bayes“
”
P (Ak ) · P (B|Ak )
P (Ak |B) = P
n
P (Al ) · P (B|Al )
l=1
Beweis:
(a) Die Regel
(C ∪ D) ∩ E = (C ∩ E) ∪ (D ∩ E)
kann man sich leicht an einem Venn-Diagramm klarmachen und durch eine Wahrheitstafel beweisen (siehe das 1. und 2. Übungsblatt zur Mathematik 1, Analysis).
Man kann sie (Beweis durch vollständige Induktion) auf den Fall der Vereinigung
von n Mengen verallgemeinern. Wir wenden sie hier an:
n
n
X
n
S
S
P (B) = P (Ω ∩ B) = P
Ak ∩ B = P
(Ak ∩ B) =
P (Ak ∩ B)
k=1
=
n
X
k=1
k=1
P (Ak ) · P (B|Ak )
Dabei wurde am Schluß Satz 2.1.1 benutzt.
20
k=1
(b) Nach Satz 2.1.1 gilt
P (B) · P (Ak |B) = P (B|Ak ) · P (Ak )
und damit
P (Ak |B) =
P (B|Ak ) · P (Ak )
P (B)
Ersetzt man den Nenner nach der Formel von der totalen Wahrscheinlichkeit durch
die rechte Seite dieser Formel, dann erhält man die behauptete Formel von Bayes.
Anwendungsbeispiele:
Abbildung 3: Baumdiagramm zum Beispiel zur Formel von Bayes aus der Medizin
(a) Bei vielen Krankheiten, die im Frühstadium ohne Symptome verlaufen, gibt es einen
Früherkennungstest, meist durch eine Blutuntersuchung. Das hier angeführte Beispiel stammt von
http://de.wikipedia.org/wiki/Bayes-Theorem
Gehen wir davon aus, dass die Wahrscheinlichkeit, dass eine zufällig ausgesuchte
Testperson an der Krankheit leidet, P (A) = 0, 0002 ist. B bezeichne das Ereignis,
dass der Test für diese Person positiv verläuft. Der Hersteller des Tests versichert,
dass die Wahrscheinlichkeit, dass der Test falsch positiv ist
P (B|A) = 0, 01
beträgt und die Wahrscheinlichkeit, dass die Krankheit erkannt wird
P (B|A) = 0, 99
Wie groß ist die Wahrscheinlichkeit P (B), dass der Test positiv verläuft? Wie groß
ist die Wahrscheinlichkeit, dass die Testperson erkrankt ist, wenn der Test positiv
verläuft? P (B) erhält man aus der Formel von der totalen Wahrscheinlichkeit, wenn
man die Zerlegung
Ω = A ∪ A = A ∪ (Ω \ A)
21
benutzt:
P (B) = P (A) · P (B|A) + P (A) · P (B|A) ≈ 0, 0102
Aus der Formel von Bayes erhält man
P (A|B) =
P (A) · P (B|A)
≈ 0, 0194193
P (A) · P (B|A) + P (A) · P (B|A)
Die Wahrscheinlichkeit, bei positivem Test tatsächlich erkrankt zu sein, ist recht
klein. Man kann sich den entsprechenden Sachverhalt auch graphisch klarmachen
mit Hilfe eines Baumdiagramms oder Ereignisbaumes wie in Abb. 3. Wir erhalten
zunächst
P (B) = P (positiv getestet) = P (krank) · P (positiv getestet | krank)
+P (gesund) · P (positiv getestet | gesund)
was mit der Anwendung der Formel von der totalen Wahrscheinlichkeit identisch
ist. Aus der Definition bedingter Wahrscheinlichkeiten erhält man dann
P (krank ∩ positiv getestet)
P (positiv getestet)
0, 0002 · 0, 99
=
≈ 0, 0194193
0, 0002 · 0, 99 + 0, 9998 · 0, 01
P (krank|positiv getestet) =
In der medizinischen Praxis sollte ein entsprechender Test viel besser sein! So liefert
P (B|A) = 0, 0001 und P (B|A) = 0, 9999 bei gleichem P (A) den eher akzeptablen
Wert P (A|B) ≈ 0, 667.
Abbildung 4: Baumdiagramm für die Übertragung über einen unsicheren Kanal
(b) Übertragung über einen unsicheren Kanal, genaueres Modell (siehe auch Abb. 4).
Wir haben für das Senden ΩS = {0, 1} und für das Empfangen ΩE = {0, 1}, für
beides also Ω = Ωs × ΩE . Das Ereignis, dass Null gesendet wird, ist also
A0 = {0} × ΩE
mit
P (A0 ) = r0
und das Ereignis, dass Eins gesendet wird, ist
A1 = {1} × ΩE
mit
22
P (A1 ) = r1 = 1 − r0
denn A0 ∩ A1 = ∅ und Ω = A0 ∪ A1 . Als bekannt werden vorausgesetzt
p0 = P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE )
p1 = P (0 empfangen|1 gesendet) = P (ΩS × {0}|{1} × ΩE )
Weil
(ΩS × {0}) ∩ (ΩS × {1}) = ∅
und
Ω = (ΩS × {0}) ∪ (ΩS × {1})
haben wir
1 − p0 = P (0 empfangen|0 gesendet) = P (ΩS × {0}|{0} × ΩE )
und analog
1 − p1 = P (1 empfangen|1 gesendet) = P (ΩS × {1}|{1} × ΩE )
Das Ereignis, dass ein Übermittlungsfehler auftritt, sei
B = (0, 1), (1, 0) = ({0} × {1}) ∪ ({1} × {0})
Wir erwarten anschaulich
P (B|A0 ) = P (Fehler|0 gesendet) = P (1 empfangen|0 gesendet) = p0
Dies ist in der Tat richtig, denn
P (Fehler|0 gesendet) = P ({(0, 1), (1, 0)}|{0} × ΩE )
P {(0, 1), (1, 0)} ∩ ({0} × ΩE )
P ({(0, 1)}
=
=
P ({0} × ΩE )
P ({0} × ΩE )
und
P (1 empfangen|0 gesendet) = P (ΩS × {1}|{0} × ΩE )
P (ΩS × {1}) ∩ ({0} × ΩE )
P ({(0, 1)}
=
=
P ({0} × ΩE )
P ({0} × ΩE )
Analog erhält man
P (B|A1 ) = P (Fehler|1 gesendet) = P (0 empfangen|1 gesendet) = p1
Nach der Formel für die totale Wahrscheinlichkeit erhalten wir somit
P (B) = P (A0 ) · P (B|A0 ) + P (A1 )P (B|A1 ) = r0 · p0 + r1 · p1
Wir bezeichnen nun mit C0 das Ereignis, dass wir 0 empfangen, also
C0 = Ωs × {0}
Nach der Formel von Bayes erhält man für P (1 gesendet|0 empfangen)
P (A1 ) · P (C0 |A1 )
P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 )
r1 p1
=
r0 (1 − p0 ) + r1 p1
P (A1 |C0 ) =
23
und für P (0 gesendet|0 empfangen)
P (A0 ) · P (C0 |A0 )
P (A0 ) · P (C0 |A0 ) + P (A1 )P (C0 |A1 )
r0 (1 − p0 )
=
r0 (1 − p0 ) + r1 p1
P (A0 |C0 ) =
Man kann die Formel von der totalen Wahrscheinlichkeit auch durch die folgende Regel
über die Baumdiagramme ausdrücken, die man sich leicht anhand der Beispiele plausibel
machen kann:
Die totale Wahrscheinlichkeit eines Ereignisses erhält man aus dem Baumdiagramm, indem man über die Wahrscheinlichkeiten aller zu dem Ereignis
führenden Pfade summiert. Die entlang der Pfade auftretenden Wahrscheinlichkeiten sind dabei zu multiplizieren.
Die Formel von Bayes kann man entsprechend durch die Regel ausdrücken:
Die bedingte Wahrscheinlichkeit P (Ak |B) erhält man aus dem Baumdiagramm,
indem man die Wahrscheinlichkeit längs des Pfades über Ak nach B bestimmt
(durch Multiplikation der entsprechenden Wahrscheinlichkeiten) und diese
dann durch die Wahrscheinlichkeit dividiert, die sich nach der Formel für die
totale Wahrscheinlichkeit für P (B) nach der entsprechenden Diagrammregel
ergibt.
3
3.1
Zufallsvariable
Beispiele, Verteilungsfunktion, Dichtefunktion
Häufig interessiert man sich nicht für das ursprüngliche Zufallsexperiment, sondern für
eine Funktion, die aus dem Ergebnis des Experiments berechnet wird. Beim Würfeln mit
zwei Würfeln könnte dies die Augensumme beider Würfel sein. Man hat in diesem Fall
den Grundraum Ω = Ω0 × Ω0 mit Ω0 = {1, 2, 3, . . . 6} und die Funktion
X : Ω → R,
(ω1 , ω2 ) 7→ ω1 + ω2
Man kann dann nach der Wahrscheinlichkeit fragen, dass die Augensumme kleiner oder
gleich 6 ist, also das Ereignis
A = {ω ∈ Ω | X(ω) ≤ 6}
betrachten (dieses Beispiel wird in den Übungen näher untersucht). Dies motiviert die
folgende Definition:
Definition 3.1.1 Gegeben sei ein Grundraum Ω und als Ereignisse zugelassene Teilmengen von Ω, die die Bedingungen der Definition 1.2.1 erfüllen. Dann heißt eine Funktion
X : Ω → R,
ω 7→ X(ω)
Zufallsvariable oder Zufallsgröße, wenn für alle Intervalle I die Menge
{ω ∈ Ω | X(ω) ∈ I}
24
ein zugelassenes Ereignis ist. Man benutzt dann die folgenden Kurzschreibweisen
{X = a} := {ω ∈ Ω | X(ω) = a}
{X < a} := {ω ∈ Ω | X(ω) < a}
und analoge Kurzschreibweisen für ≤, > und ≥.
Hinweise:
(a) Zuweilen werden allgemeinere Abbildungen mit der Definitionsmenge Ω und einer
von R verschiedenen Menge als Zielmenge Zufallsvariable genannt und der Name
Zufallsgröße bleibt den Abbildungen mit der Zielmenge R vorbehalten. Wir werden
uns zunächst nicht mit solchen allgemeineren Abbildungen beschäftigen.
(b) Um zu überprüfen, ob eine auf Ω definierte Funktion eine Zufallsvariable ist, genügt
es festzustellen, dass {X ≤ b} für alle b ∈ R ein zugelassenes Ereignis ist. Denn wir
können beispielsweise
{a < X ≤ b} = {X ≤ a}c ∩ {X ≤ b}
schreiben und durch die Vereinigung von Folgen von Intervallen mit einem Randpunkt erhält man Intervalle ohne den Randpunkt und umgekehrt erhält man durch
den Durchschnitt von Intervallen ohne den Randpunkt Intervalle mit dem Randpunkt, wie das am Beispiel der Ereignisse für das Glücksrad erklärt wurde.
Definition 3.1.2 Wenn wir R als Ereignisraum für ein Wahrscheinlichkeitsmaß ansehen, dann vereinbaren wir, dass zunächst alle Intervalle und dann alle Teilmengen, die
aus bereits zugelassenen Ereignissen mit den in Definition 1.2.1 aufgeführten Operationen
konstruiert werden können, als Ereignisse zugelassen sind. Also alle Teilmengen, die sich
— wie in Definition 1.2.1 angegeben — mit Vereinigungen von Folgen von Teilmengen und
Bildung des Komplements aus Intervallen konstruieren lassen, sind in R als Ereignisse
zugelassen.
Für in Ω definierte Zufallsvariable X und als Ereignisse zugelassene Teilmengen A ⊂ R
vereinbaren wir die allgemeine Schreibabkürzung
{X ∈ A} := {ω ∈ Ω | X(ω) ∈ A}
Hinweis: Weil {a} = [a − 1, a] ∩ [a, a + 1], sind damit auch Teilmengen mit nur einem
Element zugelassen; solche Ereignisse sind die Elementarereignisse in R.
Die Definitionen 3.1.1 und 3.1.2 erlauben es nun, mit jeder Zufallsvariable ein Wahrscheinlichkeitsmaß in R einzuführen:
Satz 3.1.1 Sei Ω ein Grundraum mit einem Wahrscheinlichkeitsmaß P und einer in Ω
definierten Zufallsvariable X. Dann wird durch
PX (A) := P {ω ∈ Ω | X(ω) ∈ A} = P {X ∈ A}
für beliebige als Ereignisse zugelassenen Teilmengen A von R ein Wahrscheinlichkeitsmaß
in R definiert. Dieses Wahrscheinlichkeitsmaß wird auch Verteilung oder Wahrscheinlichkeitsverteilung von X genannt.
25
Hinweise:
(a) Beachten Sie, dass speziell für Intervalle A =]a, b] gilt
PX ]a, b]) = P ({a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b}
(b) Der Beweis ist leicht aufgrund der Definitionen zu führen, wenn man beachtet, dass
für beliebige Ereignisse A, B ⊂ R gilt
{X ∈ Ac } = {X ∈ A}c
{X ∈ A ∪ B} = {X ∈ A} ∪ {X ∈ B}
und
Beispiele
(a) Für einen Würfel mit dem Grundraum Ω = {1, 2, 3 . . . 6} haben wir die triviale
Zufallsvariable Ω → R, ω 7→ ω. Wir erhalten das Wahrscheinlichkeitsmaß in R, das
PX (A) =
1
· |A ∩ Ω|
6
für alle als Ereignis zugelassene Mengen A ⊂ R erfüllt. Dabei bezeichnet |A ∩ Ω| die
Zahl der in A ∩ Ω enthaltenen Elemente.
(b) Für das Würfeln mit zwei Würfeln und die Augensumme“ als Zufallsvariable X
”
erhalten wir das Wahrscheinlichkeitsmaß
1
PX (A) = |{(ω1 , ω2 ) | ω1 + ω2 ∈ A}|
36
wobei auch hier |M | die Zahl der Elemente der Menge M bezeichnet. Weitere Einzelheiten dieses Beispiels werden in einer Übungsaufgabe behandelt.
(c) Für das Glücksrad haben wir die triviale Zufallsvariable
X : Ω = ] − π, +π] → R,
ω 7→ ω
und das Wahrscheinlichkeitsmaß
PX (I) =
1
· l I∩ ] − π, +π]
2π
für alle Intervalle I ⊂ R, wobei l(K) die Länge des Intervalls K bezeichnet. Ein
Wahrscheinlichkeitsmaß auf R ist bereits dadurch gegeben, dass wir den Wert für
Intervalle kennen, denn für Ereignisse, die aus Intervallen konstruiert sind, können
wir die Wahrscheinlichkeit nach den Rechenregeln aus Definition 1.2.2 und Satz
1.4.1 berechnen.
(d) Übertragung von n Bits über einen unzuverlässigen Kanal. Hier ist Ω = {g, e}n
und wir betrachten bei festgehaltenem n die Gesamtzahl der Einzelereignisse g der
fehlerfreien Übertragung in ω als Zufallsvariable X(Ω), also
X(ω) = |{1 ≤ k ≤ n | ωk = g}|
Wir haben bereits früher die Wahrscheinlichkeit (bei festgehaltenem n)
n k
n
n−k
p (1 − p)
=
pk (1 − p)n−k
P {X = k} =
k
n−k
berechnet. Wir werden uns später genauer mit diesem Beispiel beschäftigen.
26
(3)
Für die Behandlung von Zufallsvariablen ist die folgende Definition von entscheidender
Bedeutung:
Definition 3.1.3 Sei X eine auf dem Grundraum Ω definierte Zufallsvariable. Dann
heißt die Funktion FX : R → R, die durch
FX (t) := P {X ≤ t} = P {ω ∈ Ω | X(ω) ≤ t}
definiert ist, Verteilungsfunktion von X.
Beispiele:
Abbildung 5: Verteilungsfunktion für einen Würfel
(a) Für die triviale Zufallsvariable bei einem Würfel erhalten wir die Verteilungsfunktion


0 falls t < 1


1


falls 1 ≤ t < 2

6




2
falls 2 ≤ t < 3
FX (t) =
6

..
..


.
.



5

falls 5 ≤ t < 6


 16 falls 6 ≤ t
Diese Verteilungsfunktion ist in Abb. 5 grafisch dargestellt.
(b) Für das Glücksrad erhalten wir die Verteilungsfunktion

0
falls t < −π

1
(t
+
π)
falls
−π ≤ t < π
FX (t) =
 2π
1
falls t ≥ π
Diese ist in Abb. 6 gezeigt.
27
Abbildung 6: Verteilungsfunktion für das Glücksrad
Folgende allgemeine Eigenschaften von Verteilungsfunktionen sind wichtig:
Satz 3.1.2 Sei X eine Zufallsvariable und FX ihre Verteilungsfunktion. Dann gilt
(a) FX ist monoton wachsend.
(b) lim FX (t) = 0, lim FX (t) = 1.
t→−∞
t→+∞
(c) lim FX (t) = FX (a) für alle a ∈ R (also FX ist rechtsseitig stetig).
t→a+
(d) Für alle a < b gilt
P {a < X ≤ b} = P {ω ∈ Ω | a < X(ω) ≤ b} = FX (b) − FX (a)
(e) Für alle a ∈ R gilt
P {X = a} = P {ω ∈ Ω | X(ω) = a} = FX (a) − lim FX (t)
t→a−
Hinweise zum Beweis:
• (a) und (b) folgen unmittelbar aus der Definition, für den Beweis von (c) und (e)
muß man die Grundregel der Additivität für Folgen von disjunkten Ereignissen
ausnutzen.
• (d) ergibt sich aus
{X ≤ b} = {X ≤ a} ∪ {a < X ≤ b} und {X ≤ a} ∩ {a < X ≤ b} = ∅
28
also
P {X ≤ b} = P {X ≤ a} + P {a < X ≤ b}
wegen der Grundregel der Additivität. Damit hat man
FX (b) = FX (a) + P {a < X ≤ b}
Das durch die Zufallsvariable X definierte Wahrscheinlichkeitsmaß ist durch die Verteilungsfunktion FX eindeutig bestimmt. Dies folgt unmittelbar aus Teilaussage (d). Wir
haben sogar den Satz:
Satz 3.1.3 Sei F : R → R eine Funktion, die die folgenden Bedingungen erfüllt:
(a) F ist monoton wachsend
(b) lim F (t) = 0, lim F (t) = 1
t→−∞
t→+∞
(c) lim F (t) = F (a) für alle a ∈ R
t→a+
Dann gilt: Durch
P (]a, b]) := F (b) − F (a)
wird ein Wahrscheinlichkeitsmaß auf Ω = R definiert, das
P {a} = FX (a) − lim FX (t)
t→a−
für alle a ∈ R erfüllt.
Der Beweis ist elementar, man hat für kompliziertere Ereignisse A ⊂ R die Wahrscheinlichkeit P (A) gemäß den Rechenregeln aus Definition 1.2.2 und Satz 1.4.1 zu definieren.
Abbildung 7: Verteilungsfunktion für die Lebensdauer eines elektronischen Bauelements
Beispiel: Für die Lebensdauer eines elektronischen Bauteils erhalten wir mit einer vom
Bauteil abhängigen Zeitkonstante τ > 0 ein sinnvolles Wahrscheinlichkeitsmaß durch die
Verteilungsfunktion
0
falls t < 0
FT (t) =
− τt
1−e
falls t ≥ 0
Diese ist in Abb. 7 gezeigt. Die Wahrscheinlichkeit, dass die Lebensdauer T (die wir als
Zufallsvariable auffassen können) im Intervall [a, b] liegt, ist also
a
b
P {T ∈ [a, b]} = F (b) − F (a) = e− τ − e− τ
29
Da F stetig ist, haben wir hier P {T ∈ [a, b]} = P {T ∈]a, b]} = P {T ∈]a, b[} für
alle a < b und P {T = a} = 0 für alle a ∈ R.
Für Zufallsvariable, die auf diskreten Wahrscheinlichkeitsräumen definiert sind, die
den Voraussetzungen einer der beiden Teilaussagen von Satz 1.4.2 genügen, haben wir
das Ergebnis:
Satz 3.1.4
(a) Sei Ω = {ω1 , ω2 , ω3 , . . . ωn }, und das Wahrscheinlichkeitsmaß sei durch
pk = P ({ωk }),
mit
0 ≤ pk ≤ 1
und
n
X
pk = 1
k=1
gegeben und X sei eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion
X
FX (t) =
pk
k = 1, . . . n
X(ωk ) ≤ t
Sie besitzt an den Funktionswerten von X, also für t = X(ωk ) Sprungstellen und
ist dort rechtsseitig stetig; die Differenz zwischen dem rechts- und dem linksseitigen
Grenzwert ist pk . Zwischen diesen Sprungstellen ist FX (t) konstant.
(b) Sei Ω = {ω1 , ω2 , ω3 , . . .} (also eine Folge unendlich vieler Elemente) und sei das
Wahrscheinlichkeitsmaß durch pk = P ({ωk }) gegeben mit
0 ≤ pk ≤ 1
und
∞
X
pk = 1
k=1
und sei X eine auf Ω definierte Zufallsvariable. Dann erfüllt die Verteilungsfunktion
X
FX (t) =
pk
k∈N
X(ωk ) ≤ t
und sie hat dieselben Eigenschaften wie in Teilaussage (a) mit dem Unterschied,
dass hier eine Folge unendlich vieler Sprungstellen in t = X(ωk ) vorliegt.
Definition 3.1.4 Wir nennen eine Zufallsvariable X eine diskrete Zufallsvariable, wenn
die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen Elementen besteht oder durchnummeriert werden kann (aus einer Folge von Elementen besteht, also
abzählbar unendlich viele Elemente hat).
Hinweise:
(a) Beachten Sie, dass die Elemente eines reellen Intervalls [a, b] mit a < b nicht durchnummeriert werden können!
(b) Wenn X eine diskrete Zufallsvariable ist, dann wissen wir nicht, ob der Grundraum Ω
endlich viele oder abzählbar unendlich viele Elemente besitzt. Wir haben dennoch
eine Situation, die analog zu der des Satzes 1.4.2 ist. Wir können die Menge der
30
möglichen Funktionswerte durchnummerieren und bezeichnen diese mit xk (k läuft
von 1 bis n oder durchläuft ganz N). Wir definieren dann die Zahlen
pk := P {X = xk } = P {ω ∈ Ω | X(ω) = xk } = PX (xk )
Weil Ω =
∞
S
{ω ∈ Ω | X(ω) = xk }, haben wir
k=1
1 = P (Ω) = P
∞
[
{ω ∈ Ω | X(ω) = xk } =
k=1
∞
X
k=1
P {ω ∈ Ω | X(ω) = xk } =
∞
X
pk
k=1
Weiterhin gilt für alle Ereignisse A ⊂ R
P (X ∈ A) = 0 wenn xk 6∈ A für alle k
und insbesondere
P {x} = 0 für alle x 6= xk
und allgemeiner
P (X ∈ A) =
X
pk
k∈N
xk ∈ A
Die Verteilungsfunktion ist dann gegeben durch
FX (t) = P {X ≤ t} =
X
pk
k∈N
xk ≤ t
Wenn die Menge der möglichen Werte {X(ω) | ω ∈ Ω} nur aus endlich vielen
Elementen besteht, dann hat die Verteilungsfunktion die Gestalt einer Treppen”
funktion“ ähnlich wie beim Würfel (siehe Abb. 5); zwischen den Werten xk ist sie
konstant, bei jedem xk macht sie einen Sprung um pk (sie ist dabei rechtsseitig
stetig). Statt FX (t) kann man auch die Zahlen pk grafisch darstellen, dies erfolgt
häufig als Balken- oder Stabdiagramm. Ein Beispiel für eine diskrete Zufallsvariable
wurde als Beispiel (d) nach Satz 3.1.1 (Übertragung von n Bits über einen unzuverlässigen Kanal) angegeben. Diese Zufallsvariable X kann die Werte 0, 1, 2, . . . n
annehmen, ist also eine diskrete Zufallsvariable (wir haben hier n + 1 mögliche Werte und müssen berücksichtigen,
dass die Numerierung bei 0 anfängt). Die Zahlen
pk = P {X = k} sind in Gleichung (3) angegeben. Aus dem binomischen Lehrsatz
n
P
ergibt sich sofort, dass tatsächlich
pk = 1.
k=0
(c) Wenn die Verteilungsfunktion FX (t) in Gestalt einer Treppenfunktion“ vorliegt,
”
dann sind die möglichen Werte {X(ω) | ω ∈ Ω} die Sprungstellen xk von FX (t) und
die zugehörigen Wahrscheinlichkeiten ergeben sich aus der Höhe des Sprungs in xk :
pk = P {X = xk } = FX (xk ) − lim FX (t)
t→xk −
31
FX(t)
p3 = 1 −
p2 =
p1 =
p0 =
3
5
−
1
2
=
3
5
=
2
5
1
10
1
4
1
4
t
Abbildung 8: Zur Bestimmung der Wahrscheinlichkeiten pk aus der Höhe der Sprünge“
”
der Verteilungsfunktion
Beispiel:
FX (t) =


0



1


4
1
2


3


5


1
falls
falls
falls
falls
falls
führt auf x0 = 0, p0 = 14 , x1 = 1, p1 =
p3 = 1 − 53 = 25 (siehe auch die Abb. 8).
1
,
4
t<0
0≤t<1
1≤t<2
2≤t<3
3≤t
x2 = 2, p2 =
3
5
−
1
2
=
1
,
10
x3 = 3,
(d) Wenn eine diskrete
Zufallsvariable X die Werte x1 , x2 , x3 . . . xn annimmt und pk =
P {X = xk } , dann heißt das n-tupel p1 , p2 , p3 . . . pn Verteilung von X.
Die meisten Zufallsvariablen, die in der Praxis vorkommen, sind diskret oder erfüllen die
in der folgenden Definition genannte Bedingung:
Definition 3.1.5 Wenn eine Verteilungsfunktion einer Zufallsvariablen X die Eigenschaft hat, dass
Zt
FX (t) =
f (u)du
für alle t ∈ R
(4)
−∞
wobei die Funktion f stückweise stetig ist sowie
f (t) ≥ 0 für alle t ∈ R
und
Z+∞
f (t)dt = 1
(5)
−∞
erfüllt, dann heißt f (t) Wahrscheinlichkeitsdichte, Dichtefunktion oder Dichte. Wir werden dann sagen, die Zufallsvariable X besitzt eine Dichtefunktion.
32
Hinweise:
(a) Wenn FX durch (4) gegeben ist und f (t) in einem Intervall ]a, b[ stetig ist, dann gilt
zusätzlich nach dem Hauptsatz der Differential- und Integralrechnung
FX0 (t) = f (t)
für alle t ∈]a, b[
(b) Eine Verteilungsfunktion, die mit einer Dichte gemäß (4) gegeben ist, ist stetig. Das
zugehörige Wahrscheinlichkeitsmaß erfüllt damit
P {X = a} = 0
für alle a ∈ R
(c) Wenn FX durch (4) gegeben ist, dann gilt
P (a ≤ X ≤ b} =
Zb
f (x)dx
a
Dies folgt aus Satz 3.1.2 sowie Hinweis b).
(d) Betrachten wir ein Intervall ]a, b[, in dem die Dichtefunktion stetig ist (wir haben
vorausgesetzt, dass sie stückweise stetig ist). Nach Hinweis c) haben wir für die
Wahrscheinlichkeit, dass X(ω) zwischen x0 und x0 + ∆x liegt
P (x0 ≤ X ≤ x0 + ∆x} =
x0Z+∆x
f (x)dx
x0
und falls a < x0 < x0 + ∆x < b haben wir für kleine Werte von ∆x die Näherung
P (x0 ≤ X ≤ x0 + ∆x} ≈ f (x0 )∆x
Diese Wahrscheinlichkeit ist also für genügend kleine ∆x näherungsweise proportional zur Länge des Intervalls ∆x mit einem Proportionalitätsfaktor f (x0 ). Dies
begründet den Namen Dichte“.
”
(e) Jede stückweise stetige und in ganz R definierte Funktion f (t), die die beiden Bedingungen
Z+∞
f (t) ≥ 0 für alle t ∈ R
und
f (t)dt = 1
−∞
erfüllt, definiert durch
Zt
FX (t) :=
f (u)du
für alle t ∈ R
−∞
die Verteilungsfunktion einer Zufallsvariablen X. Wenn nur die Verteilungsfunktion
FX (t) gegeben ist, dann kann man stets als Grundraum Ω = R wählen und durch
P ]a, b] := FX (b) − FX (a)
ein Wahrscheinlichkeitsmaß auf R definieren (siehe Satz 3.1.3).
33
(f) Zahlreiche Wahrscheinlichkeitsmaße der Praxis werden durch ihre Wahrscheinlichkeitsdichte charakterisiert.
(g) Wenn umgekehrt eine Zufallsvariable X die Eigenschaft
P {X = a} = 0
für alle a ∈ R
hat, dann ist ihre Verteilungsfunktion FX (t) stetig (wegen Teilaussage (e) von Satz
3.1.2). Dies bedeutet jedoch nicht, dass notwendigerweise eine stückweise stetige
(oder etwas allgemeinere vernünftige“) Dichtefunktion existiert, die die Vertei”
lungsfunktion nach Gleichung (4) liefert. Allerdings scheinen derartige exotische
Zufallsvariable, die zwar eine stetige Verteilungsfunktion FX (t) haben, aber keine
Wahrscheinlichkeitsdichte besitzen, in praktischen Anwendungen recht selten vorzukommen.
FX (t)
!"ω#
t
ω
Abbildung 9: Beispiel mit {X(ω) | ω ∈ Ω} = [0, 23 ] (links), zugehörige Verteilungsfunktion
FX (t) (rechts)
(h) Man könnte meinen, dass eine Zufallsvariable, bei der die Menge der möglichen
Werte ein nichtleeres Intervall enthält, also bei der
[a, b] ⊂ {X(ω) | ω ∈ Ω} mit a < b
eine stetige Verteilungsfunktion oder gar eine Dichtefunktion besitzt. Dies ist nicht
der Fall, wie das folgende Gegenbeispiel zeigt: Wir nehmen als Grundraum Ω = [0, 1]
mit dem durch P (]a, b]) = b − a gegebenen Wahrscheinlichkeitsmaß. Als Zufallsvariable nehmen wir

falls ω ∈ [0, 13 [
 ω
1
falls ω ∈ [ 13 , 23 [
X(ω) =
 3
ω − 31 falls ω ∈ [ 32 , 1]
Diese Zufallsvariable ist in Abb. 9 (links) grafisch dargestellt. Offensichtlich ist
2
{X(ω) | ω ∈ Ω} = [0, ]
3
1
1 2
1
aber P {X = 3 } = P ([ 3 , 3 ]) = 3 und die Verteilungsfunktion FX (t) hat einen
Sprung in t = 31 . Man kann sie explizit angeben (siehe auch Abb. 9 rechts):

0
falls t < 0



t
falls t ∈ [0, 13 [
FX (t) =
t + 13 falls t ∈ [ 13 , 32 [



1
falls t ≥ 23
34
Beispiele:
(a) Beim Glücksrad haben wir die Wahrscheinlichkeitsdichte
0 falls t ≤ −π oder t > π
f (t) =
1
falls −π < t ≤ +π
2π
Die konstante Dichte drückt aus, dass die Wahrscheinlichkeit über den Winkelbereich ] − π, π] gleichverteilt ist. Verteilungsfunktion FX (t) und Dichtefunktion f (t)
sind in Abb. 10 gezeigt. Beachten Sie, dass f (t) nur unter dem Integral von Bedeutung ist. Damit kann der Funktionswert f (t) ohne irgendwelche Änderungen
bei der Verteilungsfunktion FX (t) an einzelnen Punkten abgeändert werden. Man
kann die Dichte beim Glücksrad also beispielsweise in t = −π abändern, indem man
1
setzt. An den Sprungstellen von f (t) in t = ±π ist FX (t) nicht
f (−π) = 2π
differenzierbar, außerhalb der Sprungstellen, d.h. für t 6= ±π gilt FX0 (t) = f (t).
Abbildung 10: Verteilungsfunktion FX (t) und zugehörige Wahrscheinlichkeitsdichte f (t)
für das Glücksrad
(b) Bei der Lebensdauer von elektronischen Bauelementen haben wir die Dichte
0
falls t ≤ 0
f (t) =
1
− τt
·e
falls t > 0
τ
(6)
Diese Dichte drückt aus, dass die Wahrscheinlichkeit für große Lebensdauern exponentiell abnimmt. Auch hier können wir ohne Auswirkung auf die Verteilungsfunktion FT (t) die Dichtefunktion abändern durch f (0) = τ1 . An der Sprungstelle
t = 0 von f (t) ist FT (t) nicht differenzierbar, für t 6= 0 gilt FT0 (t) = f (t) (siehe auch
Abb. 11).
35
T
t
Abbildung 11: Verteilungsfunktion FT (t) und zugehörige Wahrscheinlichkeitsdichte f (t)
für die Lebensdauer von elektronischen Bauelementen (Zahlenwert τ = 5)
3.2
Erwartungswert und Varianz
Definition 3.2.1 (a) Wenn X eine diskrete Zufallsvariable mit endlich vielen Werten
xk ist, dann ist ihr Erwartungswert durch
n
n
X
X
E(X) :=
P {X = xk } · xk =
p k · xk
(7)
k=1
k=1
definiert.
(b) Wenn X eine diskrete Zufallsvariable mit abzählbar unendlich vielen Werten xk ist,
dann ist ihr Erwartungswert durch
∞
∞
X
X
p k · xk
(8)
E(X) :=
P {X = xk } · xk =
k=1
k=1
definiert, wenn diese Reihe absolut konvergent ist, d.h.
!
n
X
lim
pk · |xk |
n→∞
k=1
existiert.
(c) Wenn X eine Zufallsvariable mit stückweise stetiger Wahrscheinlichkeitsdichte f (x)
ist, dann ist ihr Erwartungswert durch
Z+∞
E(X) :=
f (x) · x dx
(9)
−∞
definiert, wenn dieses uneigentliche Integral absolut konvergent ist, d.h.
Z+∞
f (x) · |x| dx < ∞
−∞
36
Hinweise:
(a) Der Erwartungswert wird hier nur für die in den Anwendungen fast ausschließlich vorkommenden Sonderfälle definiert. Eine allgemeinere Definition für beliebige
Zufallsvariablen ist möglich, aber ihre Formulierung würde erheblichen Platz und
erhebliche Zeit beanspruchen
(b) Aus der absoluten Konvergenz einer Reihe folgt die Konvergenz der Reihe, aber umgekehrt gibt es konvergente Reihen, die konvergieren, aber nicht absolut konvergent
∞
P
sind, z.B. die alternierende harmonische Reihe
(−1)k+1 · k1 . Entsprechend folgt
k=1
aus der absoluten Konvergenz eines uneigentlichen Integrals, dass das uneigentliche
Integral selbst existiert (auch dabei ist die Umkehrung falsch). Es ist üblich und
hat technische Vorteile, hier etwas mehr zu fordern, als für die bloße Existenz der
in der Definition auftretenden unendlichen Reihe bzw. des uneigentlichen Integrals
notwendig wäre.
(c) Es gibt Zufallsvariable, für die der Erwartungswert nicht existiert (Beispiele in den
Übungen und am Schluss dieses Unterabschnitts). Sie kommen in der Praxis jedoch
recht selten vor.
(d) Hier werden nicht immer die Gleichungen für den Fall endlich vieler Werte xk und
abzählbar unendlich vieler xk getrennt aufgeschrieben, sondern es wird in vielen
Fällen nur die allgemeinere Form (8) angeben. Wenn notwendig, erhält man daraus
die Form (7), indem man pk = 0 für k > n setzt.
Beispiele:
(a) Bei einem Würfel ist Ω = {1, 2, . . . 6}, X(ω) = ω und P {X = k} = pk =
alle k = 1, 2, . . . 6. Wir erhalten
E(X) =
6
X
k=1
pk · k =
6
X
1
k=1
6
·k =
1
6
für
6
1 X
21
7
·
k=
= = 3, 5
6 k=1
6
2
Der Erwartungswert ist hier also einfach der Mittelwert. Man kann (7) auch als
gewichteten Mittelwert ansehen. Eine andere Zufallsvariable führt hier zum selben
Erwartungswert: X2 (1) = X2 (2) = X2 (3) = 3, X2(4) = X2 (5) = X2 (6) = 4 nimmt
die Werte x1 = 3 und x2 = 4 mit p1 = P {X2 = 3} = 12 und p2 = P {X2 = 4} = 12
an und wir erhalten denselben Erwartungswert
1
1
7
E(X2 ) = P {X2 = 3} · 3 + P {X2 = 4} · 4 = · 3 + · 4 =
2
2
2
(b) Für das Glücksrad mit der auf ] − π, +π] konstanten Dichte haben wir
Z+∞
Z+π
1
E(X) =
f (x) · x dx =
· x dx = 0
2π
−π
−∞
und wir haben tatsächlich den Mittelwert der möglichen Winkel erhalten.
37
(c) Bei der Lebensdauer eines elektronischen Bauelements haben wir die Dichtefunktion
in (6) angegeben. Für den Erwartungswert erhalten wir hier
Z∞
E(T ) =
x ∞
1 −x
e τ x dx = −e− τ 0 −
τ
0
Z∞
x ∞
x
(−e− τ )dx = −τ e− τ 0 = τ
0
Die Zeitkonstante τ hat hier also die Rolle des Erwartungswertes der Lebensdauer.
Bei zwei reellwertigen Funktionen können wir deren Summe dadurch definieren, dass wir
die Funktionswerte addieren, entsprechendes gilt für das Vielfache einer Funktion. Dies
ist für Zufallsvariable genauso möglich:
Definition 3.2.2 Sei X eine Zufallsvariable, die im Ereignisraum Ω definiert ist und sei
c ∈ R und sei g : R → R eine stückweise stetige Funktion. Dann wird definiert:
c · X : Ω → R,
|X| : Ω → R,
g(X) : Ω → R,
ω→
7 c · X(ω)
ω→
7 |X(ω)|
ω→
7 g X(ω)
Insbesondere für jede in ganz R definierte stetige Funktion g wird mit dieser Definition für
jede Zufallsvariable X eine neue Zufallsvariable g(X) erklärt. Für deren Erwartungswert
gilt der folgende
Satz 3.2.1 Sei g : R → R stetig, X : Ω → R, ω 7→ X(ω) eine diskrete Zufallsvariable
oder eine Zufallsvariable mit stückweise stetiger Dichtefunktion fX (t). Die Zufallsvariable
Y sei durch Y = g(X) definiert und es sei
∞
X
k=0
|g(xk )| ·
pX
k
<∞
Z+∞
|g(u)|fX (u)du < ∞
bzw.
−∞
Dann gilt für den Erwartungswert
∞
X
g(xk ) · pX
E(Y ) = E g(X) =
k
k=1
wenn X eine diskrete Zufallsvariable mit pX
k = P {X = xk } ist bzw.
Z+∞
E(Y ) = E g(X) = g(u)fX (u)du
−∞
wenn fX (u) die Dichtefunktion von X ist.
Beweisskizze: (nur für den Fall einer diskreten Zufallsvariablen X) Wenn X diskret ist,
dann ist auch Y = g(X) diskret. Wir bezeichnen die möglichen Werte von Y mit yl und
definieren die Mengen
Il := {k ∈ N | g(Xk ) = yl }
38
Falls g injektiv ist, enthält jede solche Menge genau ein Element, ansonsten kann sie
mehrere, auch unendlich viele Elemente enthalten. Wir haben für alle vorkommenden l
X
X X
P {Y = yl } = P {g(X) = yl } =
P {X = xk } =
pk
k∈Il
k∈Il
Für den Erwartungswert gilt damit
∞
X
E(Y ) = E g(X) =
yl P {Y = yl }
l=1
=
∞
X
l=1
yl
X
k∈Il
pX
k
=
∞ X
X
l=1 k∈Il
g(xk )pX
k
=
∞
X
g(xk )pX
k
k=1
Satz 3.2.2 Sei X eine diskrete Zufallsvariable oder eine Zufallsvariable mit stückweise
stetiger Dichtefunktion, deren Erwartungswert E(X) existiert.
Dann existiert der Erwartungswert der Zufallsvariablen aX + b und |X| und es gilt
und
E(aX + b) = aE(X) + b
E(|X|) ≥ E(X)
Der Beweis ist elementar und mit Hilfe der Rechenregeln für Summen, Reihen und Integrale leicht zu führen. E(|X|) existiert, weil bei der Definition des Erwartungswertes die
absolute Konvergenz der Reihe bzw. des Integrals vorausgesetzt wurde.
Der Erwartungswert gibt nur eine sehr eingeschränkte Information über X. So besagt
E(X) = 0 nur, dass die Ereignisse X = x oder X ∈ [x, x+∆x] mit ihrer Wahrscheinlichkeit
gewichtet, symmetrisch zum Ursprung liegen. Es ist aber auch von Interesse, wie sehr sie
streuen:
Definition 3.2.3 Sei X eine Zufallsvariable und sei µ := E(X), µ ∈ R (die Existenz des
Erwartungswertes wird also vorausgesetzt). Dann wird die Varianz von X definiert als
Var(X) := E (X − µ)2
wenn dieser Erwartungswert existiert. In diesem Fall wird die Streuung oder Standardabweichung von X als
p
σ(X) := Var(X)
definiert.
Hinweise:
(a) Aufgrund der Definition ist klar, dass für alle Zufallsvariable, für die die Varianz
existiert, Var(X) ≥ 0 gilt.
(b) Für jede Zufallsvariable mit einer stückweise stetigen Wahrscheinlichkeitsdichte f (x)
ist
Z+∞
Var(X) =
f (x)(x − µ)2 > 0
−∞
39
wenn die Varianz existiert. Für eine diskrete Zufallsvariable ist
∞
X
Var(X) =
pk (xk − µ)2
k=1
und der Fall Var(X) = 0 kann nur auftreten, wenn für ein k die Wahrscheinlichkeit
pk = P {X = µ} = 1
ist, das Wahrscheinlichkeitsmaß PX also trivial ist.
(c) In den Anwendungen wird meist die Standardabweichung angegeben, da die Maßeinheit von X (Länge, Spannung, Stromstärke) und von σ(X) übereinstimmen.
Satz 3.2.3 Sei X eine Zufallsvariable, für die Var(X) existiert, und seien a, b ∈ R.
Dann existiert auch der Erwartungswert E(X 2 ) und es gilt:
2
Var(aX + b) = a2 Var(X)
und
Var(X) = E(X 2 ) − E(X)
Beweisskizze: Sei µ := E(X). Wir haben (X − µ)2 = X 2 − 2µX + µ2 und damit
muss
2
2
aufgrund von Satz 3.2.1 und Satz 3.2.2 auch E(X ) existieren, wenn E (X −µ) existiert.
Aufgrund von Satz 3.2.2 gilt
E(aX + b) = aE(X) + b = aµ + b
2 Var(aX + b) = E aX + b − E(aX + b)
= E (aX + b − aµ − b)2
= E a2 (X − µ)2 = a2 E (X − µ)2 ) = a2 Var(X)
Var(X) = E(X 2 − 2µX + µ2 ) = E(X 2 ) − 2µE(X) + µ2
2
= E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 = E(X 2 ) − E(X)
Beispiele:
(a) Bei einem Würfel war µ =
Varianz erhält man
Var(X) =
7
2
= E(X) = E(X2 ) (siehe das frühere Beispiel). Für die
6
X
k=1
6
pk (k − µ)2 =
1
7
(3 − )2 +
2
2
Die beiden Zufallsvariablen haben also
unterschiedliche Varianz.
Var(X2 ) =
1X
7
35
(k − )2 =
6 k=1
2
12
1
7
1 1 1 1
1
(4 − ) = · + · =
2
2
2 4 2 4
4
denselben Erwartungswert, aber eine sehr
(b) Beim Glücksrad haben wir
1
Var(X) =
2π
Z+π
1 1 3 +π π 2
x2 dx =
x
=
2π 3 −π
3
−π
(c) Bei der Lebensdauer eines elektronischen Bauelements haben wir
Z∞
t
1
Var(T ) =
(t − τ )2 e− τ dt = τ 2
τ
0
Also erhält man hier σ(T ) = τ (der Erwartungswert war ebenfalls E(T ) = τ ).
40
Anmerkungen:
(a) Es gibt Zufallsvariable, für die kein Erwartungswert existiert. Wir betrachten als
Beispiel die durch die Dichtefunktion
(
0
falls x < 1
f (x) = 1
falls x ≥ 1
x2
gegebene Verteilung. Der zugehörige Erwartungswert existiert nicht, weil das uneiR∞
nicht existiert.
gentliche Integral dx
x
1
(b) Wenn wir das gerade angegebene Beispiel etwas abändern, erhalten wir eine Verteilung, für die zwar E(X) existiert, aber E(X 2 ) nicht existiert. Wir betrachten die
Dichtefunktion
(
0
falls x < 1
f (x) = 2
falls x ≥ 1
x3
Für die dadurch gegebene Verteilung existiert der Erwartungswert
Z∞
2
µ = E(X) =
dx = 2
x2
1
aber die Varianz sowie E(X 2 ) existieren nicht, weil das uneigentliche Integral
R∞ dx
1
nicht existiert.
x
(c) Wie die beiden vorangegangenen Beispiele zeigen, existiert der Erwartungswert
nicht, wenn die Wahrscheinlichkeiten für große Werte von X nicht stark genug abfallen. Wir haben allgemein
E(X 2 ) existiert =⇒ E(X) existiert
Man erhält diese Aussage für diskrete Zufallsvariable durch eine Aufspaltung der
Summe und mit Hilfe einer einfachen Abschätzung
∞
∞
∞
X
X
X
X
X
pk x2k = 1 + E(X 2 )
pk |xk | =
pk |xk | +
pk |xk | ≤
pk +
k=1
k=1
k=1
k∈N
|xk | > 1
k∈N
|xk | ≤ 1
und für Zufallsvariable mit Dichtefunktion, indem man analog das Integral aufspaltet:
Z+∞
Z−1
Z+1
Z+∞
f (x) · |x| dx =
f (x) · |x| dx + f (x) · |x| dx +
f (x) · |x| dx
−∞
−∞
≤
Z−1
−1
f (x) · x2 dx +
−∞
≤
Z+∞
f (x) dx +
−∞
−∞
41
Z+∞
f (x) · x2 dx
f (x) dx +
−1
Z+∞
+1
Z+1
+1
f (x) · x2 dx = 1 + E(X 2 )
3.3
Quantil und Median
In vielen praktischen Beispielen gibt man eine Wahrscheinlichkeit vor,
beispielsweise q =
0, 99 und fragt, für welches t ∈ R die Wahrscheinlichkeit P {X ≤ t} = FX (t) = q erfüllt.
Die Frage lautet also, wie groß muss ich t wählen, damit mit Wahrscheinlichkeit q die
Zufallsvariable X ≤ t erfüllt.
Beispiel:
Lebensdauermodell mit X = T und
0
falls t < 0
FT : R → [0, 1],
t 7→ FT (t) =
− τt
falls t ≥ 0
1−e
Es wird die Zeit t gesucht mit P {T ≤ t} = FT (t) = q = 0, 99. Wir erhalten die Lösung
durch Auflösen der Gleichung
t
1 − e− τ = q
t
nach t, also e− τ = 1 − q und damit − τt = ln(1 − q). Wir erhalten als Ergebnis:
t = −τ · ln(1 − q)
falls q ∈ ]0, 1[
Wenn FX (t) injektiv ist, dann wird die Aufgabe, zu gegebenem q ein t ∈ R mit
FX (t) = q zu finden, durch die Umkehrfunktion gelöst. In der Wahrscheinlichkeitsrechnung
ist eine besondere Sprechweise üblich:
Definition 3.3.1 Sei X eine Zufallsvariable mit der Verteilungsfunktion FX (t) und einer
stückweise stetigen Wahrscheinlichkeitsdichte und sei 0 < q < 1.
Dann heißt eine Zahl xq ∈ R, die
FX (xq ) = q
erfüllt, Quantil der Ordnung q oder q-Quantil. Ein Quantil der Ordnung
1
2
heißt Median.
Hinweise:
(a) Aufgrund der Voraussetzung ist FX (t) stetig. Wenn FX injektiv ist (wie im obigen
Beispiel), dann gilt
xq = FX−1 (q)
Wenn FX nicht injektiv ist, kann die Lösungsmenge von FX (xq ) = q bei vorgegebenem q ∈ ]0, 1[ ein Intervall sein (FX (t) ist monoton wachsend). Dann wird häufig
der linke Randpunkt als Quantil ausgewählt, also der kleinstmögliche Wert.
(b) Die obige Definition kann für nicht stetige Verteilungsfunktionen FX (t) verallgemeinert werden. Wenn FX (t) = q gar keine Lösung t ∈ R hat (bei einer Sprungstelle
kann FX (t) über den Wert q hinwegspringen“), dann wird meist der Wert als Quan”
til xq genommen, an dem FX von einem Funktionswert unterhalb von q auf einen
Funktionswert oberhalb von q springt. In diesem Sonderfall haben wir
lim FX (t) < q
t→xq −
und
lim FX (t) = FX (xq ) > q
t→xq +
In allen Fällen kann man durch die Vorschrift
xq = min{t ∈ R | FX (t) ≥ q}
42
(10)
ein Quantil eindeutig auswählen (min bedeutet das Minimum). Das so gewählte
Quantil xq erfüllt stets
FX (xq ) ≥ q
Wir vereinbaren hier, dass wir diesen Wert in all den Fällen, in denen FX (t) = q
keine oder mehrere Lösungen hat, als das Quantil der Ordnung q ansehen.
(c) Beim Würfel (siehe Abb. 5) ist xq = 5 das Quantil der Ordnung q = 0, 7. Denn
FX (5) = 56 > 0, 7 und FX (t) ≤ 64 = 32 < 0, 7 für alle t < 5.
(d) Die praktische Berechnung erfolgt meist durch ein entsprechendes Computerprogramm. In Scilab gibt es Funktionen zur Berechnung der Quantile für viele häufig
vorkommenden Verteilungen. Ansonsten kann man die Gleichung FX (t) = q bzw.
FX (t) − q = 0 mit fsolve lösen.
(e) Wenn die Wahrscheinlichkeitsdichte fX (t) symmetrisch bezüglich dem Erwartungswert µ = E(X) ist, wenn also
fX (µ + t) = fX (µ − t)
für alle t ∈ R
dann stimmt der Median m mit dem Erwartungswert µ überein (Übungsaufgabe!),
i.a. ist er aber verschieden!
(f) In vielen praktischen Fällen ist der Median m weniger empfindlich gegenüber Aus”
reißern“ als der Erwartungswert µ. Dies wird durch das folgende Beispiel verdeutlicht.
X1 sei gegeben durch
1
(1)
pk = ,
5
(1)
xk = k
für k = 1, 2, . . . 5
X2 sei gegeben durch
(2)
pk =
1
1
−
,
5 10 000
(2)
xk = k
für k = 1, 2, . . . 5
mit einem unwahrscheinlichen Ausreißer“
”
5
(2)
(2)
p6 =
, x6 = 20 000
10 000
Wir haben für X1
1
µ1 = (1 + 2 + 3 + 4 + 5) = 3,
5
weil
FX1 (2) =
2
1
<
5
2
und
m1 = 3
FX1 (3) =
3
1
>
5
2
dagegen für X2
5
1
1
25997
µ2 =
−
(1 + 2 + 3 + 4 + 5) +
· 20 000 =
= 12, 9985
5 10 000
10 000
2000
bei unverändertem Median m2 = 3, weil
FX2 (2) =
2
2
3998
1
−
=
<
5 10 000
10 000
2
und FX2 (3) =
43
3
3
5997
1
−
=
>
5 10 000
10 000
2
4
Spezielle Verteilungen
Zur Erinnerung: Jede Zufallsvariable X : Ω → R definiert durch
PX ]a, b] = P {a < X ≤ b}
ein Wahrscheinlichkeitsmaß auf R, das Wahrscheinlichkeitsverteilung von X genannt
wird. Wenn X eine diskrete Zufallsvariable ist, dann nennt man die zugehörige Verteilung
auch eine diskrete Wahrscheinlichkeitsverteilung. In den Anwendungen kümmert man sich
meist nicht so sehr um den Grundraum Ω, sondern um die Verteilung von Zufallsvariablen.
Die Verteilung PX ist durch die Verteilungsfunktion FX (t) eindeutig
gegeben, diskrete
Verteilungen sind durch die Wahrscheinlichkeiten pk = P {X = xk } eindeutig bestimmt.
Entsprechend sind Verteilungen mit Dichtefunktion durch ihre Wahrscheinlichkeitsdichte
f (x) eindeutig festgelegt. Wir behandeln hier spezielle Verteilungen, die in der Praxis
häufig vorkommen.
4.1
Binomialverteilung
Mehrfach wurde auf das Beispiel der Übertragung von n Bits über einen unzuverlässigen
Kanal hingewiesen. Betrachten wir etwas allgemeiner ein Zufallsexperiment mit 2 möglichen Ausgängen, das durch Ω = {0, 1} beschrieben werden kann. Häufig wird {1} als
Erfolg“ (z.B. fehlerfreie Übertragung) und {0} als Mißerfolg“ (z.B. Übertragungsfehler)
”
”
interpretiert. Jedes Wahrscheinlichkeitsmaß ist durch
p
:=
P
{1}
gegeben mit 0 ≤
0
p ≤ 1. Dann ist aufgrund der Rechenregeln P0 {0} = 1 − p. Die n-fache Wiederholung
(oder parallele Ausführung) von n unabhängigen derartigen Zufallsexperimenten heißt
Bernoulli-Experiment, es wird durch
Ω = Ω0 × Ω0 × Ω0 · · · Ω0
n-faches kartesisches Produkt von Ω0
mit dem Produktwahrscheinlichkeitsmaß
P {ω} = P0 {ω1 } · P0 {ω2 } · P0 {ω3 } · · · P0 {ωn }
beschrieben. Von Interesse ist die Zufallsvariable X, die die Zahl der Erfolge bei einem
solchen n-fachen Experiment zählt, also in der hier angegebenen Schreibweise
X(ω) =
n
X
ωk
k=1
Durch Analogie zum Lotto hatten wir bereits früher die zugehörige Wahrscheinlichkeitsverteilung herausgefunden, sie hat einen speziellen Namen:
Definition 4.1.1 Sei n ∈ N. Dann heißt die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariable X, die durch
n k
pk = P {X = k} =
p (1 − p)n−k für k = 0, 1, 2, . . . n
k
gegeben ist, Binomialverteilung mit Parametern n und p.
44
Satz 4.1.1 Sei X eine diskrete Zufallsvariable und ihre Wahrscheinlichkeitsverteilung sei
eine Binomialverteilung mit Parametern n und p.
Dann gilt
E(X) = n · p
und
Var(X) = n · p · (1 − p)
Beweis der linken Identität:
n
n
n
X
X
X
n k
n!
n−k
pk (1 − p)n−k
E(X) =
k · pk =
k·
p (1 − p)
=
k·
k!(n
−
k)!
k
k=0
k=0
k=0
=
n
X
k=1
n·p·
(n − 1)!
pk−1 (1 − p)n−k
(k − 1)!(n − k)!
n−1
X
n−1 X
(n − 1)!
n−1 i
i
n−i−1
= n·p
p (1 − p)
=n·p
p (1 − p)n−1−i
i
!(n
−
i
−
1)!
i
i=0
i=0
n−1
= n · p · p + (1 − p)
=n·p
Dabei wurde der Index gemäß i = k − 1 bzw. k = i + 1 umbenannt. Var(X) = E(X 2 ) −
E(X)2 = n · p · (1 − p) kann man durch eine ähnliche Rechnung beweisen.
Hinweis: Dass der Erwartungswert p = E(X)
erfüllt, rechtfertigt die anschauliche Intern
pretation der Wahrscheinlichkeit bei Bernoulli-Experimenten als relative Häufigkeit: Bei
einer großen Zahl von Experimenten sollte die Zahl der Ereignisse dividiert durch die
Gesamtzahl der Einzelexperimente annähernd mit der Wahrscheinlichkeit für das Einzelereignis übereinstimmen.
Abbildung 12: Binomialverteilung mit den Parametern n = 1024 und p = 0, 01, links
Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t)
Beispiel: Kehren wir zurück zu unserem früheren Beispiel der Übertragung von n Bits
über einen unzuverlässigen Kanal. Für eine grafische Darstellung ist es sinnvoll, die Notation zu wechseln und das Auftreten eines Übertragungsfehlers mit {1} zu bezeichnen,
dessen Wahrscheinlichkeit p sehr klein ist (äquivalent zum früheren Zahlenbeispiel ist
p = 0, 01). Wir hatten früher n = 1024 gewählt. Für diese Wahl erhalten wir als Erwartungswert für die Zahl der Fehler und als Standardabweichung
p
p
E(X) = n · p = 10, 24;
σ(X) = Var(X) = n · p · (1 − p) ≈ 3, 184
In Abb. 12 sind links die zugehörigen Wahrscheinlichkeiten pk in einem Stabdiagramm
dargestellt, rechts ist die Verteilungsfunktion FX (t) gezeigt.
45
4.2
Poissonverteilung
Die Poissonverteilung entsteht als Grenzwert einer Folge von Binomialverteilungen mit
konstantem Erwartungswert. Betrachten wir hierfür eine Folge von Bernoulli-Experimenten, bei der die Gesamtzahl der Einzelexperimente n ist und die Wahrscheinlichkeit für
das Einzelereignis pn = nµ immer kleiner wird, aber so, dass der Erwartungswert für die
Anzahl des Auftretens des Erfolgs“ {1} gleich bleibt mit E(Xn ) = n · pn = µ. Wir
”
erhalten mit Hilfe einiger Rechentricks
n(n − 1)(n − 2) · · · (n − k + 1) k
n k
· pn (1 − pn )n−k
P {Xn = k} =
pn (1 − pn )n−k =
k!
k
n(n − 1)(n − 2) · · · (n − k + 1) µ k µ −k µ n
=
·
· 1−
· 1−
k!
n
n
n
k
−k
µ n
µ n(n − 1)(n − 2) · · · (n − k + 1)
µ
·
·
1
−
=
·
1
−
k!
nk
n
n
Für die Grenzwerte der auftretenden Folgen für n → ∞ haben wir
n(n − 1)(n − 2) · · · (n − k + 1)
2
k−1
1
· 1−
··· 1 −
→1
=1· 1−
nk
n
n
n
n
µ −k
(−µ)
1−
→ e−µ
→ 1,
1+
n
n
Damit erhalten wir das Ergebnis für die Folge von Binomialverteilungen
pn =
µ
µk
=⇒ lim P {Xn = k} = e−µ ·
n→∞
n
k!
Definition 4.2.1 Sei µ > 0. Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X,
die für alle k ∈ N0 durch
µk
P {X = k} = pk = e−µ ·
k!
gegeben ist, heißt Poisson-Verteilung mit Parameter µ.
Satz 4.2.1 Sei X eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung die PoissonVerteilung mit Parameter µ > 0 ist. Dann gilt für Erwartungswert und Varianz
E(X) = Var(X) = µ
Beweis:
E(X) =
∞
X
k=0
= e
−µ
−µ µ
k·e
µ
k!
∞
X
µk
k=0
k
k!
=e
−µ
∞
∞
∞
X
X
X
k k
µk
µk−1
−µ
−µ
µ =e
=e µ
k!
(k − 1)!
(k − 1)!
k=1
k=1
k=1
= e−µ µeµ = µ
46
E(X 2 ) =
∞
X
k=0
−µ
= e
k 2 · e−µ
µ
∞
X
k=1
−µ
= e
∞
X
µk−1
µk
= e−µ µ
k
k!
(k − 1)!
k=1
(k − 1 + 1)
∞
X
µk−1
µk−1
−µ
µ
+e µ
(k − 1)
(k − 1)!
(k − 1)!
k=1
k=1
= e−µ µ
∞
X
µk−1
(k − 1)!
∞
∞
X
X
µk
µk
= µ2 + µ
k + e−µ µ
k!
k!
k=0
k=0
Aufgrund von Satz 3.2.3 haben wir Var(X) = E(X 2 ) − µ2 = µ2 + µ − µ2 = µ.
Abbildung 13: Poissonverteilung mit dem Parameter µ = 10.24, links Wahrscheinlichkeiten pk , rechts die zugehörige Verteilungsfunktion FX (t). Der Parameter ist so gewählt,
dass der Erwartungswert mit dem der Binomialverteilung in Abb. 12 übereinstimmt.
Hinweis: Aufgrund des Ergebnisses, dass eine Folge von Binomialverteilungen mit pn = nµ
gegen eine Poisson-Verteilung konvergiert, kann die Poisson-Verteilung auch als Näherung
für eine Binomialverteilung mit großem n und kleinem p benutzt werden, wenn man den
Parameter µ = n · p wählt. Dies ist in Abb. 13 verdeutlicht. Dort sind die Wahrscheinlichkeiten pk und die Verteilungsfunktion FX (t) einer Poissonverteilung gezeigt, wobei der
Parameter µ = 10, 24 so gewählt wurde, dass der Erwartungswert mit dem der Binomialverteilung n · p in Abb. 12 übereinstimmt. Die Standardabweichung ist hier jedoch
√
√
σ(X) = µ = n · p = 3, 2, also etwas größer (der Faktor (1 − p) fehlt hier).
4.3
Normalverteilung
Definition 4.3.1 Sei µ ∈ R und σ > 0 und sei X eine Zufallsvariable, die die Wahrscheinlichkeitsdichte
(x−µ)2
1
f (x) = √ · e− 2σ2
(11)
σ 2π
hat. Dann heißt die Wahrscheinlichkeitsverteilung von X Normalverteilung; man sagt,
die Zufallsvariable X ist normalverteilt, und man schreibt symbolisch X ∼ N (µ, σ 2 ). Im
47
Sonderfall µ = 0 und σ = 1, also für die Dichtefunktion
1 2
1
ϕ(x) = √ · e− 2 x
2π
(12)
heißt die zugehörige Wahrscheinlichkeitsverteilung Standardnormalverteilung und man
schreibt symbolisch X ∼ N (0, 1). Die zugehörige Verteilungsfunktion wird mit
Zt
Φ(t) =
−∞
1
ϕ(x)dx = √
2π
Zt
1 2
e− 2 x dx
(13)
−∞
bezeichnet.
Hinweise:
(a) Es ist bekannt, dass die Stammfunktion F (x) =
Rx
2
2
e−t dt von f (x) = e−x nicht ex-
0
plizit durch bekannte elementare Funktionen ausgedrückt werden kann. Man kann
sie aber numerisch problemlos ausrechnen (z.B. durch eine Potenzreihenentwicklung). Man kann allerdings, ohne numerische Approximationen zu Hilfe zu nehmen,
überprüfen, dass die durch (13) definierte Dichtefunktion tatsächlich der Normierungsbedingung von Definition 3.1.5 genügt. Hierzu berechnet man

  +∞
2  +∞
 +∞
Z
Z+∞ Z+∞
Z
Z
2
2
2
2
2
−y
−x
−x

e dy  =
e−(x +y ) dx dy = π
e dx · 
e dx = 
−∞
−∞
−∞
−∞ −∞
nach den Rechenregeln für Mehrfachintegrale (Übergang zu Polarkoordinaten). Die
ausführliche Rechnung steht im Anhang A.1, siehe insbesondere (51) bis (53). Damit
erhält man
Z+∞
√
2
e−x dx = π
(14)
−∞
√
Mit der Substitution x = 2v kann man sich dann überzeugen, dass die durch (13)
definierte Dichte tatsächlich der Normierungsbedingung genügt. Das Integral für
den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man durch die Substitution u = x−µ
auf
σ
den Sonderfall X ∼ N (0, 1) zurückführen.
(b) Die Verteilungsfunktion (13) kann ebenfalls nicht durch bekannte elementare Funktionen ausgedrückt werden. In einigen Büchern ist sie direkt tabelliert. Häufig ist
sie mit einer andern Funktion zu berechnen. Aus Symmetriegründen haben wir
1
√
2π
Z0
1 2
e− 2 x dx = Φ(0) =
1
2
−∞
und damit
1
1
Φ(t) = + √
2
2π
48
Zt
0
1 2
e− 2 x dx
Diese Gleichung ist auch
√ für t < 0 gültig (Rechenregeln für die Integration). Durch
die Substitution x = 2v erhalten wir
√t
Φ(t) =
1
1
+√
2
π
Z2
2
e−x dx
0
Die Fehlerfunktion (error function) ist durch
2
erf(t) := √
π
Zt
2
e−x dx
0
definiert und steht in Scilab und MATLAB zur Verfügung. In Mathematica ist diese
Funktion durch Erf[t] aufzurufen. Damit kann die Verteilungsfunktion mit
t
1 1
Φ(t) = + · erf √
2 2
2
berechnet werden. Es muß jedoch davor gewarnt werden, dass die Konventionen
hinsichtlich der Definition der Fehlerfunktion unterschiedlich sind.
(c) Aus erf(−t) = − erf(t) folgen die nützlichen für alle t ∈ R gültigen Rechenregeln
Φ(t) − Φ(−t) = 2Φ(t) − 1
Φ(−t) = −Φ(t) + 1
(15)
(16)
(d) Den allgemeinen Fall X ∼ N (µ, σ 2 ) kann man erneut durch die Substitution u = x−µ
σ
auf den Sonderfall X ∼ N (0, 1) zurückführen. Damit erhält man für die Verteilungsfunktion
Zt
t−µ
Zσ
1 2
1
e
dx = √
e− 2 u du = Φ
2π
−∞
−∞
t−µ
1 1
√
+ · erf
=
2 2
σ 2
1
√
FX (t) =
σ 2π
(x−µ)2
−
2σ 2
t−µ
σ
(e) Die Normalverteilung ist eine der wichtigsten Verteilungen in der Praxis. Dies liegt
darin begründet, dass sie in sehr allgemeinen Situationen als Grenzwert auftritt
(zentraler Grenzwertsatz, wird später behandelt). Sie stellt daher in vielen praktischen Anwendungen eine gute Näherung an die vorliegende unbekannte Verteilung
dar.
(f) Für einige Parameter ist die Dichtefunktion und die Verteilungsfunktion der Normalverteilung in Abb. 14 grafisch dargestellt. Die Abbildungen stammen von
http://en.wikipedia.org/wiki/Normal_distribution
Satz 4.3.1 Sei X eine normalverteilte Zufallsvariable, also X ∼ N (µ, σ 2 ). Dann gilt:
(a) E(X) = µ, Var(X) = σ 2 .
49
Abbildung 14: Normalverteilung, links Dichtefunktionen f (x), rechts die zugehörigen Verteilungsfunktionen für verschiedene Parameter µ und σ
(b) Die Wahrscheinlichkeitsverteilung der Zufallsvariable
U :=
X −µ
σ
ist die Standardnormalverteilung, also U ∼ N (0, 1).
(c) Es gilt
P {a ≤ X ≤ b} = Φ
b−µ
σ
−Φ
a−µ
σ
Hinweise zum Beweis:
(a) beweist man durch Integration mit geeigneten Substitutionen und partieller Integration unter Beachtung von (14).
(b) Wegen { X−µ
≤ t} = {X ≤ tσ + µ} gilt für die Verteilungsfunktion (Substitution
σ
u = x−µ
)
σ
tσ+µ
Z
(x−µ)2
1
FU (t) = √
e− 2σ2 dx = Φ(t)
σ 2π
−∞
Da die Wahrscheinlichkeitsverteilung durch die Verteilungsfunktion eindeutig gegeben ist, folgt U ∼ N (0, 1).
(c) folgt aus Satz 3.1.3.
Hinweis zur Standardabweichung: Wegen Var(X) = σ 2 gilt für die Standardabweichung σ(X) = σ. Aufgrund von Teilaussage (c) gilt
P {µ − σ ≤ X ≤ µ + σ} = Φ(1) − Φ(−1) ≈ 0, 6826895
P {µ − 2σ ≤ X ≤ µ + 2σ} = Φ(2) − Φ(−2) ≈ 0, 9544997
P {µ − 3σ ≤ X ≤ µ + 3σ} = Φ(3) − Φ(−3) ≈ 0, 9973002
50
Eine normalverteilte Messgröße wird in den technischen Anwendungen daher oft in der
Form µ ± σ angegeben, wobei σ als der Messfehler angesehen wird.
In der Praxis hat man oft auch die umgekehrte Fragestellung. Man sucht v ∈ R mit
P {µ − v · σ ≤ X ≤ µ + v · σ} = Φ(v) − Φ(−v) = 2Φ(v) − 1 = p
mit vorgegebenem p ∈ ]0, 1[, beispielsweise p = 0, 8. Man sucht also das Intervall
[µ − v · σ, µ + v · σ], in dem die Zufallsvariable X mit vorgegebener Wahrscheinlichkeit p
liegt. Hierzu ist
1
Φ(v) = (p + 1)
2
aufzulösen nach v. Da Φ(t) injektiv ist, kommt hier die Umkehrfunktion ins Spiel. In
der Wahrscheinlichkeitsrechnung ist eine besondere Sprechweise üblich, die bereits in Abschnitt 3.3 eingeführt wurde. Das gesuchte v ist das Quantil der Ordnung q = 12 (p + 1)
der Standardnormalverteilung. Dieses ist beispielsweise durch cdfnor("X",0,1,q,1-q)
in Scilab erhältlich. Für das Beispiel p = 0, 8 erhält man v ≈ 1, 282, also
P {µ − 1, 3 · σ ≤ X ≤ µ + 1, 3 · σ} ≈ 0, 8
5
Mehrere Zufallsvariable mit demselben Grundraum
Hier werden Mehrfachintegrale benötigt. Da diese in der Mathematik-Lehrveranstaltung
nicht behandelt werden, werden diese im Anhang A behandelt. Dieser ist zum Verständnis
dieses Abschnitts notwendig.
5.1
Zwei Zufallsvariable mit demselben Grundraum
Wir betrachten hier Paare von Zufallsvariablen X1 , X2 , die auf demselben Grundraum
definiert sind.
Definition 5.1.1 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind. Dann wird definiert
X + Y : Ω → R,
X≥Y
⇐⇒
ω 7→ X(ω) + Y (ω)
X(ω) ≥ Y (ω) für alle
ω∈Ω
Durch die Zuordnungsvorschrift
ω 7→ X1 (ω), X2 (ω)
wird jedem Element des Grundraums Ω ein Punkt der Ebene zugeordnet, wir haben also
eine Abbildung von unserem Grundraum Ω in R2 . Mit diesem Paar von Zufallsvariablen
können wir dann Wahrscheinlichkeiten in R2 definieren. Beispielsweise können wir dem
Rechteck [a, b] × [c, d] die Wahrscheinlichkeit
P(X1 ,X2 ) ([a, b] × [c, d]) := P {X1 ∈ [a, b]} ∩ {X2 ∈ [c, d]}
(17)
zuordnen.
51
Wir vereinbaren analog zur Kurzschreibweise, die wir in Definition 3.1.2 eingeführt
haben, für Teilmengen A ⊂ R2 die Schreibweise
o
n
(18)
(X1 , X2 ) ∈ A := (ω1 , ω2 ) ∈ Ω × Ω X1 (ω1 ), X2 (ω2 ) ∈ A
Mit dieser Abkürzung können wir mit A = [a, b] × [c, d] für (17) auch schreiben
P(X1 ,X2 ) (A) := P {(X1 , X2 ) ∈ A}
(19)
Wir müssen noch klären, welche Teilmengen von R2 wir als Ereignisse zulassen. Wie bei
R selbst ist es leider nicht möglich, alle Teilmengen von R2 als Ereignisse zuzulassen.
Wir gehen hier pragmatisch vor und lassen — analog zu Definition 3.1.2 alle Rechtecke
(mit oder ohne Rand, auch unendlich ausgedehnte Rechtecke) zu. Weiterhin lassen wir
alle Teilmengen zu, die wir durch die in Definition 3.1.2 genannten Operationen (Bildung
des Komplements, Vereinigung von Folgen) aus zugelassenen Teilmengen bilden können.
Damit ist tatsächlich durch (17) ein Wahrscheinlichkeitsmaß in R2 definiert. Man kann
zeigen, dass damit alle vernünftigen“ Teilmengen von R2 zugelassene Ereignisse sind. Als
Beispiele sind einzelne Punkte (x1 , x2 ) sowie Kurven, Dreiecke und Kreise zu nennen.
Bei Kreisen hat man beispielsweise Vereinigungen von Folgen immer kleiner werdender
Rechtecke zu bilden.
Mit Hilfe jedes Paares von Zufallsvariablen können wir die durch (17) definierte Wahrscheinlichkeit auf beliebige zugelassene Ereignisse in R2 ausdehnen, indem wir vereinbaren,
dass für aus Intervallen konstruierte Ereignisse die Rechenregeln für Wahrscheinlichkeiten
anzuwenden sind.
Wir hatten für Paare von Ereignissen den wichtigen Begriff der stochastischen Unabhängigkeit behandelt. Hier wird dieser auf Paare von Zufallsvariablen verallgemeinert:
Definition 5.1.2 Seien X1 und X2 : Ω → R Zufallsvariable (die auf demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 und X2 , stochastisch unabhängig, wenn für alle in R als Ereignis zugelassenen Teilmengen A1 ⊂ R und A2 ⊂ R
gilt
P {X1 ∈ A1 } ∩ {X2 ∈ A2 } = P {X1 ∈ A1 } · P {X2 ∈ A2 }
Hinweise:
(a) Die Zufallsvariablen X1 , X2 sind genau dann stochastisch unabhängig, wenn beliebige Ereignisse der Art {X1 ∈ A1 }, {X2 ∈ A2 } stochastisch unabhängig nach
Definition 2.1.2 sind.
(b) Wenn I1 und I2 Intervalle sind, dann ist P {X1 ∈
I
}
∩
{X
∈
I
}
die Wahr1
2
2
scheinlichkeit, dass der durch ω 7→ X1 (ω), X2 (ω) gegebene Punkt im Rechteck
I1 × I2 liegt. Wenn X1 und X2 unabhängig sind, dann ist diese Wahrscheinlichkeit
das Produkt der Einzelwahrscheinlichkeiten:
P {X1 ∈ I1 } ∩ {X2 ∈ I2 } = P {X1 ∈ I1 } · P {X2 ∈ I2 }
Dies kann aber beispielsweise nicht der Fall sein, wenn dieser Punkt mit ganz hoher
Wahrscheinlichkeit nahe der Hauptdiagonalen x1 = x2 liegt.
52
Beispiel: Zwei Würfel mit Ω0 = {1, 2, . . . 6}, Ω = Ω0 × Ω0 . Sei X1 die Augenzahl des
ersten, X2 die des zweiten Würfels. Dann sind X1 und X2 stochastisch unabhängig. Weiterhin betrachten wir die Summe Xs = X1 + X2 und die Differenz Xd = X1 − X2 der
Augenzahlen. Nun ist
P {Xs = 12} ∩ {Xd = 5} = 0,
1
1
und P {Xd = 5} =
aber P {Xs = 12} =
36
36
wie man sich leicht an Abb. 2 klarmachen kann. Also sind Xs und Xd nicht unabhängig.
Bei der Untersuchung von Zufallsvariablen haben wir in R nicht direkt die Wahrscheinlichkeiten von Intervallen und daraus konstruierten Teilmengen studiert, sondern
die Verteilungsfunktion benutzt. Hier wird analog vorgegangen:
Definition 5.1.3 Seien X1 und X2 auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch
F (x1 , x2 ) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 }
definiert.
Hinweise:
(a) Weil P (X1 , X2 ) ∈ R2
= 1, haben wir für gemeinsame Verteilungsfunktionen
das asymptotische Verhalten
lim
lim F (x1 , x2 ) = lim
lim F (x1 , x2 ) = 1
x1 →∞
x2 →∞
x2 →∞
x1 →∞
und aus P (∅ = 0) folgt
lim F (x1 , x2 ) = lim F (x1 , x2 ) = 0
x1 →−∞
x2 →−∞
(b) Bezeichnen wir die Verteilungsfunktionen der beiden Zufallsvariablen mit FX1 (t)
und FX2 (t), so erhalten wir
FX1 (t) = lim F (t, x2 )
x2 →∞
und
FX2 (t) = lim F (x1 , t)
x1 →∞
In diesem Zusammenhang werden die beiden Verteilungsfunktionen FX1 (t) und
FX2 (t) Randverteilungsfunktionen“ genannt. Diese Sprechweise kommt von der No”
tation der Wahrscheinlichkeiten bei Paaren von diskreten Zufallsvariablen in Tabellen, die in einem später behandelten Beispiel verwandt wird (siehe Tabelle 1).
(c) Mit der in (19) definierten Schreibweise gilt für die gemeinsame Verteilungsfunktion
F (x1 , x2 ) = P(X1 ,X2 ) ] − ∞, x1 ]×] − ∞, x2 ]
und damit ist sie monoton wachsend in beiden Variablen, d.h. für alle h > 0 und
x1 , x2 ∈ R gilt
F (x1 + h, x2 ) ≥ F (x1 , x2 )
und
53
F (x1 , x2 + h) ≥ F (x1 , x2 )
(d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in beiden Variablen, d.h.
für alle x1 , x2 ∈ R gilt
lim F (x1 + h, x2 ) = F (x1 , x2 )
h→0+
und
lim F (x1 , x2 + h) = F (x1 , x2 )
h→0+
Beispiel: Gleichverteilung auf dem Einheitsquadrat“, siehe Abb. 15)
”


0
falls x1 < 0 oder x2 < 0





x1 · x2 falls 0 ≤ x1 ≤ 1 und 0 ≤ x2 ≤ 1
F (x1 , x2 ) = x1
falls 0 ≤ x1 ≤ 1 und x2 > 1



x2
falls x1 > 1 und 0 ≤ x2 ≤ 1



1
falls x1 > 1 und x2 > 1
Abbildung 15: gemeinsame Verteilungsfunktion F (x1 , x2 ) für die Gleichverteilung auf
”
dem Einheitsquadrat“
Satz 5.1.1 Seien FX1 (t) und FX2 (t) die Verteilungsfunktionen der auf demselben Grundraum Ω definierten Zufallsvariablen X1 und X2 und sei F (x1 , x2 ) die gemeinsame Verteilungsfunktion dieser Zufallsvariablen.
Dann gilt: X1 und X2 sind genau dann stochastisch unabhängig, wenn
F (x1 , x2 ) = FX1 (x1 ) · FX2 (x2 )
für alle (x1 , x2 ) ∈ R2 gilt.
Der Beweis ist elementar.
Beispiel: Für die Gleichverteilung auf dem Einheitsquadrat“ gilt
”
F (x1 , x2 ) = FX1 (x1 ) · FX1 (x2 )
mit


0
FX1 (t) = FX2 (t) = t


1
54
falls t < 0
falls 0 ≤ t ≤ 1
falls t > 1
Satz 5.1.2 Seien X und Y auf demselben Grundraum Ω definierte diskrete Zufallsvariable mit den Werten xi und yk . Dann sind X und Y genau dann stochastisch unabhängig,
wenn
P {X = xi } ∩ {Y = yk } = P {X = xi } · P {Y = yk }
für alle als Werte auftretenden xi und yk gilt.
Der Beweis ist ebenfalls elementar.
Wenn die diskreten und auf demselben Grundraum definierten Zufallsvariablen X und
Y die Werte x1 , x2 , x3 , . . . xm und y1 , y2 , y3 , . . . yn haben, dann kann man die Wahrscheinlichkeiten
qik := P {X = xi } ∩ {Y = yk }
zu einer Matrix Q oder in Form einer Tabelle zusammenfassen. Diese Matrix von Wahrscheinlichkeiten wird dann gemeinsame Verteilung der Zufallsvariablen X und Y genannt. Weil
Ω = {X = x1 } ∪ {X = x2 } ∪ {X = x3 } ∪ · · · {X = xm }
erhalten wir
P {Y = yk } = P Ω ∩ {Y = yk } = q1k + q2k + q3k + · · · qmk
Wir erhalten also durch Addition der in der k. Spalte der Matrix stehenden Zahlen die
Wahrscheinlichkeit pYk = P {Y = yk } . Analog erhalten wir
P {X = xi } = P {X = xi } ∩ Ω = qi1 + qi2 + qi3 + · · · qin
demnach ergibt die
Summe der in der i. Zeile stehenden Zahlen die Wahrscheinlichkeit
X
pi = P {X = xi } . Da die Summen der Zeilen und Spalten in Tabellen häufig am Rand
Y
notiert werden, heißen die Verteilungen pX
i und pk Randverteilungen.
Nach Satz 5.1.2 sind also X und Y genau dann stochastisch unabhängig, wenn für die
Y
Matrixelemente von Q gilt qik = pX
i · pk . Für den k. Spaltenvektor von Q gilt dann
 
 
q1k
pX
1
 q2k 
pX 
 
 2
 ..  = pYk ·  .. 
 . 
 . 
qmk
pX
m
Wir haben also hier den
Satz 5.1.3 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind. Wir nehmen an, dass X die Werte x1 , x2 , x3 , . . . xm und Y die Werte y1 , y2 , y3 , . . . yn
annimmt. Die (m × n)-Matrix Q sei durch
qik := P {X = xi } ∩ {Y = yk }
definiert.
Dann sind X und Y genau dann stochastisch unabhängig, wenn die Matrix Q den Rang 1
hat.
55
Für das schon mehrfach behandelte Beispiel von zwei Würfeln mit den Zufallsvariablen
X1 (Augenzahl des 1. Würfels), X2 (Augenzahl des 2. Würfels) sowie Xs = X1 + X2 und
Xd = X1 − X2 sind die gemeinsame Verteilung von Xs und Xd und die beiden Randverteilungen in Tabelle 1 dargestellt. Die dort angegebenen Wahrscheinlichkeiten erhält man
leicht, indem man beachtet, dass die Elemente des Grundraums für 2 Würfel wie in Abb. 2
als Matrix dargestellt werden können. Die Diagonalen parallel zur Hauptdiagonale liefern
die Ereignisse {Xd = k}, die Diagonalen in der anderen Richtung liefern die Ereignisse
{Xs = i}.
Xs
Xd
P
2
3
4
5
6
7
8
9
10 11 12
−5
0
0
0
0
0
1
36
0
0
0
0
0
1
36
−4
0
0
0
0
1
36
0
1
36
0
0
0
0
2
36
−3
0
0
0
1
36
0
1
36
0
1
36
0
0
0
3
36
−2
0
0
1
36
0
1
36
0
1
36
0
1
36
0
0
4
36
−1
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
5
36
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
6
36
1
0
1
36
0
1
36
0
1
36
0
1
36
0
1
36
0
5
36
2
0
0
1
36
0
1
36
0
1
36
0
1
36
0
0
4
36
3
0
0
0
1
36
0
1
36
0
1
36
0
0
0
3
36
4
0
0
0
0
1
36
0
1
36
0
0
0
0
2
36
5
P
0
0
0
0
0
1
36
0
0
0
0
0
1
36
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
36
36
Tabelle 1: Gemeinsame Verteilung und Randverteilungen für Augensumme und -differenz
bei zwei Würfeln
Definition 5.1.4 Zwei Zufallsvariable X und Y mit der gemeinsamen Verteilungsfunktion F (x, y) besitzen eine gemeinsame Dichtefunktion f (x, y), wenn diese in R2 definierte
Funktion f (x, y) ≥ 0 erfüllt und durch
 x

Zy
Z

F (x, y) =
f (u, v)du dv
−∞
−∞
die gemeinsame Verteilungsfunktion erzeugt.
Hinweise:
(a) Für das hier auftretende Mehrfachintegral gilt
 x

 y

Zy
Z
Zx
Z


f (u, v)du dv =
f (u, v)dv  du
−∞
−∞
−∞
56
−∞
und daher wird die Klammer meist weggelassen und
Zy Zx
F (x, y) =
f (u, v)du dv
−∞ −∞
geschrieben.
(b) Weil P (X, Y ) ∈ R2 = 1, haben wir die Normierungsbedingung
Z+∞ Z+∞
Z+∞ Z+∞
f (u, v)du dv =
f (u, v)dv du = 1
−∞ −∞
(20)
−∞ −∞
(c) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, in diesem Zusammenhang
auch Randverteilungen genannt, erhält man aus der gemeinsamen Dichtefunktion.
Wir nennen die Dichtefunktion von X hier g(u), sie erfüllt
Zt
g(u)du
FX (t) =
−∞
und andererseits
 +∞

Zt
Z

FX (t) = P {X ≤ t} = P (X, Y ) ∈ ] − ∞, t] × R =
f (u, v)dv  du
−∞
Ein Vergleich liefert
−∞
Z∞
g(x) =
f (x, y)dy
−∞
Diese Dichtefunktion wird in diesem Zusammenhang Randdichte genannt. Wir
bezeichnen die Dichtefunktion von Y mit h(y).
Zt
FY (t) =
h(v)dv = P {Y ≤ t} = P (X, Y ) ∈ R× ] − ∞, t]
−∞
Zt
=
−∞

Z+∞

f (u, v)du dv

−∞
liefert für diese Randdichte
Z∞
h(y) =
f (x, y)dx
−∞
57
Beispiele:
(a) Die Normalverteilung für 2 Zufallsvariable X und Y ist gegeben durch die gemeinsame Dichtefunktion mit ρ ∈ ] − 1, 1[
f (x, y) =
1√
2πσ1 σ2 1−ρ2
·e
−
1
2(1−ρ2 )
x−µ1
σ1
2
2 x−µ
y−µ2
y−µ
−2ρ σ 1
+ σ 2
σ
1
2
2
(21)
Im Spezialfall µ1 = µ2 = 0, σ1 = σ2 = 1 erhalten wir (siehe Abb. 16)
f (x, y) =
2π
√1
1−ρ2
·e
−
1
2(1−ρ2 )
(x2 −2ρxy+y2 )
Abbildung 16: Dichtefunktion der Normalverteilung für µ1 = µ2 = 0, σ1 = σ2 = 1 und
ρ = 0, 9 (links) sowie ρ = 0 (rechts)
(b) Die Gleichverteilung auf dem Einheitsquadrat“ ist gegeben durch die gemeinsame
”
Dichtefunktion
(
1 falls 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1
f (x, y) =
0 sonst
(c) Die Gleichverteilung auf dem Einheitskreis“ ist gegeben durch die gemeinsame
”
Dichtefunktion
(
1
falls x2 + y 2 ≤ 1
f (x, y) = π
0 sonst
Bei einer Zufallsvariablen X mit der Dichtefunktion g(x) gilt
P {X ∈ [a, b]} =
Zb
g(x)dx
a
Analog hierzu haben wir den Satz
58
Satz 5.1.4 Seien X, Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind
und die gemeinsame Dichtefunktion f (x, y) besitzen und sei A eine als Ereignis zugelassene Teilmenge von R2 . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen
ist, dass das auftretende Mehrfachintegral existiert. Dann gilt
ZZ
P (X, Y ) ∈ A =
f (x, y)dx dy
(22)
A
Hinweise:
(a) Für den Sonderfall, dass A ein Rechteck ist, also A = [a1 , b1 ] × [a2 , b2 ] lautet die
Aussage des Satzes
Zb1 Zb2
f (x, y)dy dx
P (X, Y ) ∈ [a1 , b1 ] × [a2 , b2 ] =
(23)
a1 a2
Man kann diese Aussage mit Hilfe von Verallgemeinerungen von Zerlegungen der
Art
] − ∞, b] = ] − ∞, a] ∪ ]a, b]
auf den zweidimensionalen Fall sowie mit Hilfe der Rechenregeln für Wahrscheinlichkeiten beweisen. Dabei hat man zu berücksichtigen,
dass analog dazu, dass bei
Zufallsvariablen X mit Dichtefunktion P {X = a} = 0 hier
P (X, Y ) ∈ {a1 } × [a2 , b2 ] = P (X, Y ) ∈ [a1 , b1 ] × {a2 } = 0
gilt. Zum Beweis der allgemeinen Aussage des Satzes für beliebige als Ereignis zugelassene Teilmengen A hat man dann auszunutzen, dass A aus Rechtecken konstruiert
ist (eventuell mit Vereinigungen von Folgen von Rechtecken).
(b) Wenn wir speziell ein Rechteck der Form [x0 , x0 + ∆x] × [y0 , y0 + ∆y] betrachten
und annehmen, dass ∆x und ∆y so klein gewählt sind, dass sich die Dichtefunktion
in diesem Rechteck so wenig nähert, dass die Näherung
f (x, y) ≈ f (x0 , y0 )
für alle (x, y) ∈ [x0 , y0 ] × [x0 + ∆x, y0 + ∆y]
berechtigt ist, dann erhalten wir
P
(X, Y ) ∈ [x0 , x0 + ∆x] × [y0 , y0 + ∆y]
x0Z+∆x y0Z+∆y
=
f (x, y)dy dx
x0
≈ f (x0 , y0 )
y0
x0Z+∆x y0Z+∆y
dy dx = f (x0 , y0 ) · ∆x · ∆y
x0
y0
Nun ist ∆x · ∆y die Fläche des betrachteten Rechtecks; diese Näherung rechtfertigt
die Bezeichnung Wahrscheinlichkeitsdichte“ für f (x, y).
”
59
(c) Jede bis auf Kanten“ stetige Funktion f mit 2 Variablen, die in ganz R2 definiert
”
ist, f (x, y) ≥ 0 für alle (x, y) ∈ R2 sowie die Normierungsbedingung (20) erfüllt,
definiert durch (22) oder (23) ein Wahrscheinlichkeitsmaß in R2 . Mit Ω = R2 und
den Zufallsvariablen
X : R2 → R,
(x, y) 7→ x,
Y : R2 → R,
und
(x, y) 7→ y
erhält man dann zwei Zufallsvariable auf dem Grundraum Ω = R2 , deren gemeinsame Dichtefunktion f (x, y) ist. Beispiele für bis auf Kanten“ stetige Funktionen
”
sind die gemeinsamen Dichtefunktionen der Gleichverteilung auf dem Einheitskreis
oder dem Einheitsquadrat. Sie sind bis auf den Rand des Einheitskreises oder Einheitsquadrates als Kanten“ stetig.
”
Satz 5.1.5 Seien X, Y Zufallsvariable mit den stetigen Dichtefunktionen g(t) und h(t),
d.h die einzelnen Verteilungsfunktionen erfüllen
Zt
FX (t) =
Zt
g(u)du,
FY (t) =
−∞
h(u)du
−∞
und sei f (x, y) die gemeinsame stetige Dichtefunktion.
Dann sind X und Y genau dann stochastisch unabhängig, wenn
f (x, y) = g(x) · h(y)
für alle x, y ∈ R2 gilt.
Hinweis zum Beweis: Wenn f (x, y) = g(x) · h(y), dann gilt für die gemeinsame Verteilungsfunktion
Zx Zy
F (x, y) =
g(u) · h(v)dv du =
−∞ −∞
Zx
g(u)du ·
−∞
Zy
h(v)dv = FX (x) · FY (y)
−∞
und daraus folgt mit Satz 5.1.1 die Unabhängigkeit von X und Y .
Wenn umgekehrt X und Y stochastisch unabhängig sind, dann gilt
F (x, y) = FX (x) · FY (y) =
Zx
g(u)du ·
−∞
Zy
Zx Zy
h(v)dv =
−∞
g(u) · h(v)dv du
−∞ −∞
Zx Zy
=
f (u, v)dv du
−∞ −∞
Daraus folgt
Zx Zy
f (u, v) − g(u) · h(v) dv du = 0
−∞ −∞
2
für alle x, y ∈ R . Wir haben vorausgesetzt, dass f , g und h stetig sind. Es ist also
plausibel, dass diese Gleichung nur möglich ist, wenn
f (u, v) − g(u) · h(v) = 0
für alle u, v ∈ R2 ist.
60
Beispiele:
(a) Bei der Gleichverteilung auf dem Einheitsquadrat“ sind die beiden Zufallsvariablen
”
stochastisch unabhängig, denn die gemeinsame Dichtefunktion erfüllt
f (x, y) = g(x) · g(y)
wobei
(
1
g(x) =
0
falls 0 ≤ x ≤ 1
sonst
die Dichtefunktion der Gleichverteilung auf [0, 1] ist.
(b) Für die Normalverteilung erhält man als Randdichten die Dichtefunktionen der
Normalverteilung (mühsame Integration). Mit Satz 5.1.5 erhält man dann, dass
normalverteilte Zufallsvariable genau dann stochastisch unabhängig sind, wenn ρ =
0.
(c) Für die Gleichverteilung auf dem Einheitskreis“ erhält man (Übungsaufgabe) die
”
Randdichten
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
g(x) = h(x) = π
0
sonst
und da f (x, y) 6= g(x) · h(y), sind X und Y nicht stochastisch unabhängig.
Definition 5.1.5 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert sind und sei g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler.
Dann wird die neue Zufallsvariable g(X, Y ) durch
g(X, Y ) : Ω → R, ω 7→ g X(ω), Y (ω)
definiert.
Für die so definierte Zufallsvariable gilt der folgende
Satz 5.1.6 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen, und sei
g : R2 → R, (x, y) 7→ g(x, y) eine stetige Funktion zweier Variabler. Dann gilt für den
Erwartungswert der Zufallsvariable g(X, Y )
∞ X
∞
X
E g(X, Y ) =
P {X = xi } ∩ {Y = yk } g(xi , yk )
i=1 k=1
bzw.
E g(X, Y ) =
Z+∞ Z+∞
f (x, y) · g(x, y)dx dy
−∞ −∞
falls diese Summe bzw. dieses Integral absolut konvergent ist.
Hinweis: Dieser Satz ist eine Verallgemeinerung von Satz 3.2.1 auf Funktionen von zwei
Variablen.
Im Spezialfall g(x, y) = ax + by mit a, b ∈ R sowie g(x, y) = x − y erhalten wir
61
Satz 5.1.7 Seien X und Y Zufallsvariable, die auf demselben Grundraum Ω definiert
sind und die diskret sind oder eine gemeinsame Dichtefunktion f (x, y) besitzen und deren
Erwartungswerte E(X) und E(Y ) existieren.
Dann gilt
E(aX + bY ) = a · E(X) + b · E(Y )
und
X ≥ Y =⇒ E(X) ≥ E(Y )
Definition 5.1.6 Es wird vorausgesetzt, dass X und Y Zufallsvariable sind, die auf demselben Grundraum Ω definiert sind. Wenn E(X 2 ) und E(Y 2 ) existieren, dann wird die
Kovarianz von X und Y durch
Cov(X, Y ) := E X − E(X) Y − E(Y )
definiert. Falls Var(X) > 0 und Var(Y ) > 0, dann wird der Korrelationskoeffizient
definiert durch
Cov(X, Y )
Cov(X, Y )
=
ρ(X, Y ) := p
σ(X)σ(Y )
Var(X) Var(Y )
X und Y heißen unkorreliert, wenn ρ(X, Y ) = 0.
Hinweise:
(a) Die Kovarianz hat tatsächlich etwas mit der Varianz zu tun. Für die Summe zweier
Zufallsvariablen X und Y mit µX := E(X) und µY := E(Y ) gilt
2 Var(X + Y ) = E X + Y − E(X + Y )
= E (X + Y − µX − µY )2
= E (X − µX )2 + E (Y − µY )2 + 2E (X − µX )(Y − µY )
und damit
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )
(24)
(b) Definiert man die Abkürzungen µX := E(X) und µY := E(Y ), dann erhält man
durch Ausmultiplizieren
Cov(X, Y ) = E (X − µx )(Y − µY ) = E(XY ) − µX E(Y ) − µY E(X) + µX µY
und damit
Cov(X, Y ) = E(XY ) − E(X) · E(Y )
(25)
(c) Man kann zeigen, dass
E(|XY |) ≤
p
E(X 2 ) · E(Y 2 )
(26)
falls E(X 2 ) und E(Y 2 ). Also folgt aus der Existenz von E(X 2 ) und E(Y 2 ) tatsächlich
die Existenz von Cov(X, Y ).
62
(d) Mit der Abschätzung (26) und Satz 3.2.2 erhalten wir
|Cov(X, Y )| ≤ E(|X − E(X)| · |Y − E(Y )|)
q
≤
E (X − E(X))2 · E (Y − E(Y ))2
p
Var(X) · Var(Y ) = σ(X) · σ(Y )
=
und damit für den Korrelationskoeffizienten
|ρ(X, Y )| ≤ 1
(e) Im Spezialfall, dass Y = aX + b mit a, b ∈ R und a 6= 0, erhalten wir mit der
Abkürzung µ := E(X)
Var(X) = E(X 2 ) − µ2
Var(Y ) = a2 Var(X) = a2 (E(X 2 ) − µ2 )
und
sowie nach (25)
Cov(X, Y ) = E X · (aX + b) − µE(Y ) = aE(X 2 ) + bµ − µ(aµ + b) = a(E(X 2 ) − µ2 )
und somit
a
a(E(X 2 ) − µ2 )
a
ρ(X, Y ) = p
=√ =
2
|a|
Var(X) · a Var(X)
a2
Wenn also Y = aX + b, dann ist |ρ(X, Y )| maximal und ρ(X, Y ) = 1 wenn a > 0
und ρ(X, Y ) = −1 wenn a < 0.
(f) Wir haben
Cov(X, Y ) = Cov(Y, X)
und
Cov(X, X) = Var(X)
(g) Wenn X und Y normalverteilt sind, dann ergibt eine aufwändige Integration, dass
der Korrelationskoeffizient ρ(X, Y ) mit dem Parameter ρ in der durch (21) gegebenen gemeinsamen Dichtefunktion übereinstimmt. Dies begründet die übliche Wahl
des Buchstabens ρ für diesen Parameter.
Satz 5.1.8 Wenn X, Y stochastisch unabhängige Zufallsvariable sind, für die E(X 2 ) und
E(Y 2 ) existieren, dann gilt
Cov(X, Y ) = 0
und
Var(X + Y ) = Var(X) + Var(Y )
Hinweis zum Beweis: Wenn X und Y stochstisch unabhängige diskrete Zufallsvariable
mit den Werten xi und yk sind, dann gilt
E(XY ) =
=
=
∞
∞ X
X
i=1 k=1
∞ X
∞
X
i=1 k=1
∞
X
i=1
P {X = xi } ∩ {Y = yk }xi yk
P {X = xi } · P {Y = yk } · xi · yk
!
P {X = xi } · xi
·
63
∞
X
k=1
!
P {Y = yk } · yk
= E(X) · E(Y )
und damit Cov(X, Y ) = E(XY ) − E(X) · E(Y ) = 0. Die zweite Gleichung folgt unmittelbar aus (24). Für Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x, y) kann
der Beweis analog geführt werden.
Hinweis zum Satz: Die Umkehrung der Aussage gilt nicht: Es gibt Zufallsvariable X, Y ,
die nicht stochastisch unabhängig sind, aber Cov(X, Y ) = 0 erfüllen. Ein Beispiel hierfür
ist die Augensumme Xs und die Differenz der Augenzahl Xd bei zwei Würfeln. Es war
schon in einem früheren Beispiel (nach Def. 5.2.1) gezeigt worden, dass Xs und Xd nicht
unabhängig sind. Aufgrund der Definition und der Rechenregeln für Erwartungswerte
kann man leicht zeigen (siehe die Übungen), dass
Cov(Xs , Xd ) = Cov(X1 + X2 , X1 − X2 ) = 0
da X1 und X2 unabhängig sind. Lediglich für normalverteilte Zufallsvariable gilt eine
entsprechende Umkehrung. Wie schon angemerkt, stimmt der Parameter ρ in der durch
(21) gegebenen gemeinsamen Dichtefunktion mit dem Korrelationskoeffizienten überein.
Damit folgt in diesem Fall aus Cov(X, Y ) = 0 die stochastische Unabhängigkeit von X
und Y .
Beispiele:
(a) Bei der Gleichverteilung auf dem Einheitskreis“ mit der gemeinsamen Dichtefunk”
tion
(
1
falls x2 + y 2 ≤ 1
f (x, y) = π
0 sonst
haben wir bereits herausgefunden, dass die zugehörigen Zufallsvariablen X und Y
nicht stochastisch unabhängig sind. Die Randdichten sind
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
π
g(x) = h(x) =
0
sonst
und aus Symmetriegründen haben wir E(X) = E(Y ) = 0. Damit gilt für die Kovarianz
Cov(X, Y ) = E(XY )
und diese Größe muss aus Symmetriegründen verschwinden. Rechnerisch haben wir
hier
Z+∞ Z+∞
ZZ
1
x · y dx dy
x · y · f (x, y)dx dy =
E(XY ) =
π
−∞ −∞
x2 +y 2 ≤1
und wir können Polarkoordinaten x = r cos ϕ, y = r sin ϕ einführen (beim Einheitskreis ist dann 0 ≤ r ≤ 1 und −π < ϕ ≤ π). liefert Die Substitutionsregel von
Abschnitt A.1 (dx dy durch r dr dϕ ersetzen) liefert dann
Z1 Z+π
Z1
Z+π
1
3
3
E(XY ) =
r cos ϕ sin ϕ dϕ dr = r dr
sin(2ϕ)dϕ = 0
2
0 −π
0
64
−π
1.0
0.5
- 1.5 - 1.0
- 0.5
0.0
0.0
0.5
1.0
- 0.5
- 1.0
- 1.5
Abbildung 17: Viertelkreise B1 und B2
(b) Wir ändern die Gleichverteilung auf dem Einheitskreis“ ein wenig ab und betrach”
ten die Gleichverteilung auf zwei Viertelskreisen“, die durch folgende gemeinsame
”
Dichtefunktion gegeben ist:
(
2
falls x2 + y 2 ≤ 1 und xy ≥ 0
f (x, y) = π
0 sonst
Diese Dichtefunktion ist auf den beiden in Abb. 17 markierten Viertelkreisen konstant, ansonsten ist sie Null. Wir bezeichnen hier mit B = B1 ∪ B2 die Vereinigung
der beiden Viertelkreise, mit
B1 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≥ 0 und y ≥ 0
B2 := (x, y) ∈ R2 | x2 + y 2 ≤ 1 und x ≤ 0 und y ≤ 0
Beachten Sie die Symmetrie
(x, y) ∈ B2 ⇐⇒ (−x, −y) ∈ B1
Wir erhalten dieselben Randdichten (Übungsaufgabe!)
( √
2
1 − x2 falls − 1 ≤ x ≤ +1
g(x) = h(x) = π
0
sonst
und aus Symmetriegründen erhalten wir wieder E(X) = E(Y ) = 0. Für die Kovarianz macht sich hier aber eine Asymmetrie bemerkbar, denn die Wahrscheinlichkeit,
dass X und Y unterschiedliche Vorzeichen annehmen, ist hier Null! Es ist sinnvoll,
das Integral über B in eine Summe über Integrale über B1 und B2 aufzuspalten (siehe die Rechenregeln von Abschnitt A.1. Wenn wir dann noch die schon erwähnte
Symmetrie ausnutzen und beachten, dass (−x) · (−y) = x · y, erhalten wir
Z+∞ Z+∞
Cov(X, Y ) = E(XY ) =
x · y · f (x, y)dx dy
−∞ −∞
1
=
π
ZZ
1
x · y dx dy +
π
B1
ZZ
B2
65
2
x · y dx dy =
π
ZZ
B1
x · y dx dy
Auch hier ist es sinnvoll, Polarkoordinaten einzuführen. Für B1 erhalten wir den
Bereich 0 ≤ r ≤ 1 und 0 ≤ ϕ ≤ π2 . Somit erhalten wir hier das Ergebnis
π
Cov(X, Y ) =
2
π
ZZ
x · y dx dy =
0
B1
Z1
=
π
2
3
Z
r dr
0
Z1 Z2
0
r3 cos ϕ sin ϕ dϕ dr
0
1 π2
1
1
1
1 4
· − cos(2ϕ) =
sin(2ϕ)dϕ = r
2
4 0
4
8
0
Da E(X) = E(Y ) = 0 und die beiden Randdichten übereinstimmen, haben wir
nach einer etwas mühsamen Integration (Übungsaufgabe!)
2
Var(X) = Var(Y ) = E(X ) =
π
2
Z+1
√
1
x2 · 1 − x2 dx =
4
−1
Damit erhalten wir für den Korrelationskoeffizienten
Cov(X, Y )
ρ(X, Y ) = p
=
Var(X) · Var(Y )
5.2
1
8
1
4
=
1
2
Mehr als zwei Zufallsvariable auf demselben Grundraum
In diesem Unterabschnitt verallgemeinern wir eine Reihe von Begriffen aus dem vorherigen Unterabschnitt. Die Vorgehensweise ist zwar naheliegend, doch leider versagt die
Anschauung in vielen Fällen. Wir benötigen diese Verallgemeinerung für den zentralen
Grenzwertsatz. Wir betrachten hier also Zufallsvariable X1 , X2 , . . . Xn : Ω → R, die auf
demselben Grundraum Ω definiert sind. Mit diesen erhalten wir durch
ω 7→ X1 (ω), X2 (ω), X3 (ω), . . . Xn (ω)
eine Abbildung von unserem Grundraum Ω in den Rn . Wir gehen hier ganz analog zum
vorherigen Unterabschnitt vor und haben lediglich den R2 durch den Rn zu ersetzen. Hier
kann n-dimensionalen Quadern“ der Form [a1 , b1 ]×[a2 , b2 ]×· · ·×[an , bn ] die Wahrschein”
lichkeit
P(X1 ,X2 ,...Xn ) ([a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ])
:= P {X1 ∈ [a1 , b1 ]} ∩ {X2 ∈ [a2 , b2 ] ∩ · · · ∩ {Xn ∈ [an , bn ]}
(27)
zugeordnet werden. Aus n-dimensionalen Quadern kann man durch Komplementbildung
und Vereinigung von Folgen allgemeinere Teilmengen des Rn bilden, die man als Ereignisse
zulässt. Unter Beachtung der Rechenregeln für Wahrscheinlichkeiten kann man dann mit
Hilfe von (27) ein Wahrscheinlichkeitsmaß auf Rn definieren.
Definition 5.2.1 Sei n ∈ N und seien X1 , X2 , . . . Xn : Ω → R Zufallsvariable (die auf
demselben Grundraum Ω definiert sind). Dann heißen die Zufallsvariablen X1 , X2 , . . . Xn
stochastisch unabhängig, wenn für alle als Ereignis zugelassenen Teilmengen A1 , A2 ,
. . . An ⊂ R gilt
P {X1 ∈ A1 } ∩ {X2 ∈ A2 } ∩ · · · ∩ {Xn ∈ An }
= P {X1 ∈ A1 } · P {X2 ∈ A2 } · · · P {Xn ∈ An }
66
Hinweis:
Die Zufallsvariablen X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn die
Ereignisse {X1 ∈ A1 }, {X2 ∈ A2 } . . . {Xn ∈ An } stochastisch unabhängig nach Definition
2.1.2 sind.
Definition 5.2.2 Sei n ∈ N und seien X1 , X2 , . . . Xn auf demselben Grundraum Ω definierte Zufallsvariable. Dann ist die gemeinsame Verteilungsfunktion der Zufallsvariablen durch
F (~x) := P {X1 ≤ x1 } ∩ {X2 ≤ x2 } ∩ · · · ∩ {Xn ≤ xn }
definiert.
Hinweise:
(a) Auch hier haben wir das asymtotische Verhalten
lim
lim · · · lim F (~x) · · · = 1
x1 →∞
x2 →∞
xn →∞
und entsprechend für jede mögliche andere Reihenfolge der Grenzwerte.
(b) Weiterhin gilt
lim F (~x) = 0
xk →−∞
für jedes beliebige k = 1, 2, . . . n.
(c) Die gemeinsame Verteilungsfunktion ist monoton wachsend in jedem Argument, d.h.
für alle h > 0 und alle k = 1, 2, . . . n gilt
F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) ≥ F (x1 , x2 , x3 , . . . xn )
(d) Die gemeinsame Verteilungsfunktion ist rechtsseitig stetig in jedem Argument, d.h.
für alle k = 1, 2, . . . n gilt
lim F (x1 , x2 , . . . xk−1 , xk + h, xk+1 , . . . xn ) = F (x1 , x2 , x3 , . . . xn )
h→0+
(e) Die Verteilungsfunktionen der einzelnen Zufallsvariablen, die Randverteilungsfunk”
tionen“ genannt werden, erhalten wir durch
FX1 (t) = lim
lim · · · lim F (~x) · · ·
x2 →∞ x3 →∞
xn →∞
FX2 (t) = lim
lim · · · lim F (~x) · · ·
x1 →∞
x3 →∞
xn →∞
und analog für k = 3, 4, . . . n (um FXk (t) zu erhalten, ist der Grenzwert xl → ∞ für
alle l = 1, 2, . . . n, l 6= k zu bilden).
67
Satz 5.2.1 Sei n ∈ N und seien F1 (t), F2 (t) . . . Fn (t) die Verteilungsfunktionen der auf
demselben Grundraum Ω definierten Zufallsvariablen X1 , X2 , . . . Xn und sei F (~x) die
gemeinsame Verteilungsfunktion dieser Zufallsvariablen.
Dann gilt: X1 , X2 , . . . Xn sind genau dann stochastisch unabhängig, wenn
F (~x) = F1 (x1 ) · F2 (x2 ) · · · Fn (xn )
für alle ~x ∈ Rn gilt.
Der Beweis ist elementar.
Definition 5.2.3 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω. Die
gemeinsame Verteilungsfunktion F (~x) hat eine gemeinsame Dichtefunktion f (~x), wenn
Zxn xZn−1 Zx1
F (x1 , x2 , . . . xn ) =
···
f (u1 , u2 , . . . un ) du1 du2 · · · dun
−∞ −∞
−∞
Hinweise
(a) Dies ist nur möglich, wenn die gemeinsame Dichtefunktion nicht negativ ist, d.h.
für alle ~x ∈ Rn
f (~x) ≥ 0
(b) Außerdem muss analog zum Fall n = 2 die Normierungsbedingung
Z+∞ Z+∞ Z+∞
···
f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn = 1
−∞ −∞
(28)
−∞
erfüllt sein
Satz 5.2.2 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω, f (~x) sei
die zugehörige gemeinsame Dichtefunktion und A sei eine als Ereignis zugelassene Teilmenge von Rn . Wir setzen weiterhin voraus, dass die Teilmenge A so beschaffen ist, dass
das auftretende Mehrfachintegral existiert. Dann gilt
ZZ Z
P (X1 , X2 , . . . Xn ) ∈ A =
· · · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
(29)
A
Hinweise:
(a) Für n-dimensionale Quader A = [a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ] lautet die Aussage
des Satzes
P
(X1 , X2 , . . . Xn ) ∈ A =
Zbn bZn−1
an an−1
···
Zb1
f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
(30)
a1
(b) Jede bis auf Kanten“ stetige Funktion, die f (~x) ≥ 0 für alle ~x ∈ Rn erfüllt und
”
der Normierungsbedingung (28) genügt, definiert durch (29) oder (30) ein Wahrscheinlichkeitsmaß in Rn . Man kann also dann Ω = Rn wählen. Die zugehörigen
Zufallsvariablen erhält man dann für k = 1, 2, . . . n durch
Xk : Rn → R,
(x1 , x2 , . . . xk−1 , xk , xk+1 , . . . xn ) 7→ xk
68
Beispiele:
(a) Gleichverteilung im n-dimensionalen Einheitswürfel. Wir betrachten die durch
(
1 falls ~x ∈ [0, 1]n
f (~x) :=
0 sonst
definierte gemeinsame Dichtefunktion. Sie erfüllt f (~x) ≥ 0, genügt der Normierungsbedingung (28) und definiert damit ein Wahrscheinlichkeitsmaß in Rn . Sie ist ein
Beispiel dafür, was mit bis auf Kanten“ stetig gemeint ist. Die Kanten“ sind hier
”
”
die Randflächen des Einheitswürfels.
(b) Gleichverteilung in der Einheitskugel. Wir definieren die gemeinsame Dichtefunktion
f (~x) für ~x ∈ R3 durch
(
3
falls |~x| ≤ 1
f (~x) := 4π
0
falls |~x| > 1
Sie erfüllt ebenfalls f (~x) ≥ 0, genügt der Normierungsbedingung, denn
ZZZ
4π
dx1 dx2 dx3 =
3
|~
x|≤1
ist das Volumen einer dreidimensionalen Kugel mit Radius 1. Damit ist mit dieser
Dichtefunktion ein Wahrscheinlichkeitsmaß in R3 definiert. Diese Funktion ist bis
auf den Rand der Kugel als Kante“ stetig. Dieses Beispiel lässt sich auf den Rn
”
verallgemeinern.
Definition 5.2.4 Seien X1 , X2 , . . . Xn Zufallsvariable mit demselben Grundraum Ω.
(a) Die Zufallsvariablen X1 , X2 , . . . Xn heißen identisch verteilt, wenn die Verteilungsfunktionen
FX1 (t) = P {X1 ≤ t} = FX2 (t) = P {X2 ≤ t} = · · · = FXn (t) = P {Xn ≤ t}
für alle t ∈ R erfüllen, ihre Wahrscheinlichkeitsverteilungen also identisch sind.
Insbesondere haben sie dann denselben Erwartungswert und dieselbe Varianz (wenn
diese existieren).
(b) Sei
g : Rn → R,
(x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn )
eine stetige Funktion. Die Zufallsvariable g(X1 , X2 , . . . Xn ) ist durch
g(X1 , X2 , . . . Xn ) : Ω → R,
ω 7→ g X1 (ω), X2 (ω), . . . Xn (ω)
definiert.
Diese Definition der Zufallsvariablen g(X1 , X2 , . . . Xn ) ist eine Verallgemeinerung von Definition 5.1.5, und wir haben als Verallgemeinerung von Satz 5.1.6:
69
Satz 5.2.3 Seien X1 , X2 , . . . Xn diskrete Zufallsvariable mit den Werten x1 (k1 ), x2 (k2 ),
x3 (k3 ), . . . xn (kn ) oder Zufallsvariable mit einer gemeinsamen Dichtefunktion f (x1 , . . . xn )
und sei g : Rn → R, (x1 , x2 , . . . xn ) 7→ g(x1 , x2 . . . xn ) eine stetige Funktion. Dann gilt für
den Erwartungswert der Zufallsvariablen g(X1 , X2 , . . . Xn )
X E g(X1 , X2 , . . . Xn ) =
g x1 (k1 ), x2 (k2 ), . . . xn (kn )
k1 ,k2 ,...kn
·P {X1 = x1 (k1 )} ∩ · · · ∩ {Xn = xn (kn )}
wenn diese Reihe absolut konvergiert bzw.
E g(X1 , X2 , . . . Xn ) =
Z+∞ Z+∞ Z+∞
···
g(x1 , x2 . . . xn ) · f (x1 , x2 , . . . xn ) dx1 dx2 · · · dxn
−∞ −∞
−∞
wenn dieses Integral absolut konvergent ist.
5.3
Summen von Zufallsvariablen, Grenzwertsatz
In diesem Unterabschnitt wird grundsätzlich vorausgesetzt, dass alle Zufallsvariable auf
demselben Grundraum Ω definiert sind.
Satz 5.3.1 Seien X1 , X2 , . . . Xn Zufallsvariable. Dann ist
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn )
und
Var(X1 + X2 + · · · + Xn ) =
n
X
Var(Xk ) +
k=1
n
X
Cov(Xi , Xk )
(31)
i, k = 1
i 6= k
wenn die entsprechenden Werte existieren. Wenn die Zufallsvariablen X1 , X2 , . . . Xn stochastisch unabhängig sind, dann gilt
Var(X1 + X2 + · · · + Xn ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xn )
(32)
Hinweis: Die Gleichung (32) ist auch unter der schwächeren Voraussetzung, dass die
Zufallsvariablen X1 , X2 , . . . Xn unkorreliert sind, gültig, d.h. wenn Cov(Xi , Xk ) = 0 für
alle i 6= k. Dies ist aus Gleichung (31) unmittelbar einsichtig.
Die folgenden beiden Sätze sind von großer Bedeutung.
Satz 5.3.2 (Schwaches Gesetz der großen Zahlen) Sei X1 , X2 , X3 . . . eine Folge
identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz σ 2 existiert.
Dann gilt für alle ε > 0
X1 + X 2 + · · · + Xn
− µ > ε
=0
lim P
n→∞
n
70
Hinweis: Dieser Satz rechtfertigt die Berechnung des Mittelwerts n1 (X1 + X2 + · · · + Xn )
als Schätzung für den Erwartungswert der Zufallsvariablen.
Beispiel: Wiederholtes Würfeln, Xk = 1, wenn ωk = 6 und Xk = 0, wenn ωk 6= 6.
Dann ist X1 + X2 + · · · + Xn die Zahl der gewürfelten
Die
5
1 Sechsen bei n Versuchen.
Wahrscheinlichkeitsverteilung ist durch P {Xk = 1} = 6 und P {Xk = 0} = 6 gegeben
mit Erwartungswert µ = 16 . Dann ist
Zahl der gewürfelten Sechsen 1 − >ε
lim P
=0
n→∞
Zahl der Versuche
6
In diesem Sinn stimmt die Wahrscheinlichkeit mit der relativen Häufigkeit bei vielen
Versuchen überein.
Satz 5.3.3 (Zentraler Grenzwertsatz) Sei X1 , X2 , X3 . . . eine Folge identisch verteilter stochastisch unabhängiger Zufallsvariabler mit Erwartungswert µ, deren Varianz
σ 2 existiert. Sei Sn∗ die standardisierte Summe
n
P
Sn∗
:=
(Xk − µ)
n 1 X Xk − µ
X1 + X2 + · · · + X n − n · µ
√
√
=√
=
σ
σ n
n k=1
σ n
k=1
(33)
und sei
Fn (t) := P {Sn∗ ≤ t}
die Verteilungsfunktion der standardisierten Summe.
Dann gilt
Zt
1 2
1
e− 2 u du = Φ(t)
lim Fn (t) = √
n→∞
2π
−∞
d.h. die Verteilungsfunktion der standardisierten Summe nähert sich für große n der Verteilungsfunktion der Standardnormalverteilung an.
Hinweise:
(a) Dies bedeutet, dass für große n die Zufallsvariable
X1 − µ + X2 − µ + · · · + Xn − µ =
n
X
k=1
Xk − n · µ
näherungsweise normalverteilt mit Erwartungswert 0 und Varianz nσ 2 ist. Die Summe X1 + X2 + · · · + Xn ist also näherungsweise normalverteilt mit Erwartungswert
n · µ und Varianz nσ 2 . Die Verteilung der Summe X1 + X2 + · · · + Xn wird demnach
näherungsweise durch die Dichtefunktion
(t−nµ)2
1
· e− 2nσ2
f (t) = √
σ n · 2π
beschrieben. Dies erklärt die große Bedeutung der Normalverteilung.
71
(34)
(b) Für identisch verteilte Zufallsvariable Xk mit Erwartungswert µ gilt
!
n
n
n
X
X
X
E
(Xk − µ) =
E(Xk − µ) =
E(Xk ) − µ = 0
k=1
k=1
k=1
Wenn die Xk stochastisch unabhängig sind, dann sind auch die Zufallsvariablen
Xk −µ stochastisch unabhängig (dies folgt unmittelbar aus der Definition). In diesem
Fall haben wir also, falls die Varianz Var(Xk ) = σ 2 existiert,
!
n
n
n
X
X
X
Var
(Xk − µ) =
Var(Xk − µ) =
Var(Xk ) = nσ 2
k=1
k=1
k=1
Die durch (33) definierte standardisierte Summe stochastisch unabhängiger identisch
verteilter Zufallsvariabler erfüllt also für alle n ∈ N
E(Sn∗ ) = 0,
Var(Sn∗ ) = 1
Beachten Sie, dass hier das Gleichheitszeichen steht, der Erwartungswert also exakt
0 und die Varianz exakt 1 sind.
Abbildung 18: Binomialverteilung mit
den Parametern n = 1024 und p = 0, 01, links
Wahrscheinlichkeiten P {Yn = k} , rechts die zugehörige Verteilungsfunktion FYn (t),
blau: exakte Werte, rot: Näherung mit Hilfe des zentralen Grenzwertsatzes
Beispiele:
(a) Betrachten wir die schon im Abschnitt 4.1 behandelte Binomialverteilung. Sie
ensteht aus dem Grundraum
Ω = {0, 1} × {0, 1} × {0, 1} × · · · × {0, 1}
(n-faches kartesisches Produkt)
dem Wahrscheinlichkeitsmaß P0 {1} = p auf {0, 1} und dem Produktwahrscheinlichkeitsmaß P auf Ω sowie den identisch verteilten diskreten stochastisch unabhängigen
Zufallsvariablen Xk (ω) = ωk für ω = (ω1 , ω2 , . . . ωn ) mit ωk ∈ {0, 1}. Um die
72
Abhängigkeit von n in der Schreibweise sichtbar zu machen, schreiben wir hier für
ω∈Ω
n
n
X
X
Yn (ω) =
Xk (ω) =
ωk
k=1
k=1
Mit Hilfe der Analogie zum Lotto hatten wir früher hergeleitet, dass
n k
P {Yn = k} =
p (1 − p)n−k für k = 0, 1, 2, . . . n
k
und außerdem E(Yn ) = n · p sowie Var(Yn ) = n · p · (1 − p) in Übereinstimmung mit
E(Xk ) = p und
Var(Xk ) = E (X − p)2 = p(1 − p)2 + (1 − p)(−p)2 = p(1 − p) (1 − p) + p = p(1 − p)
Nach der anschaulichen Interpretation der durch (34) gegebenen Wahrscheinlichkeitsdichte ist also für großes n die Wahrscheinlichkeit näherungsweise gegeben
durch
(k−np)2
1 1
1
· e− 2np(1−p)
P {Yn = k} = P {Yn ∈ [k − , k + ]} ≈ p
2
2
np(1 − p) · 2π
Für die zugehörige Verteilungsfunktion haben wir die Näherung
!
!
t − np
1 1
t − np
FYn (t) = P {Yn ≤ t} ≈ Φ p
= + · erf p
2 2
np(1 − p)
2np(1 − p)
In Abb. 18 ist diese Näherung (in rot) zusammen mit den exakten Werten (in blau)
für die Wahrscheinlichkeiten und die Verteilungsfunktion grafisch dargestellt.
(b) Gleichverteilung auf [0, 1]: Die stochastisch unabhängigen Zufallsvariablen Xk
seien alle identisch verteilt mit der Dichtefunktion
(
1 falls t ∈ [0, 1]
f (t) =
0 sonst
mit E(Xk ) =
1
2
und Var(Xk ) =
1
12
(Übungsaufgabe!) Wir betrachten
Yn = X 1 + X2 + X 3 + · · · Xn
mit E(Yn ) = n2 und Var(Yn ) =
näherungsweise durch die Dichte
n
.
12
fn (t) =
Die Wahrscheinlichkeitsdichte von Yn wird
q
6
nπ
· e−
2
6(t− n
2)
n
beschrieben. Die Wahrscheinlichkeitsdichten von Yn sind in der Mathematik bekannt
( B-Splines“), die Funktionswerte sind leicht zu berechnen. Für einige Werte von n
”
sind sie in Abb. 19 und Abb. 20 gezeigt (teilweise zusammen mit der Näherung).
73
Abbildung 19: Wahrscheinlichkeitsdichte für Xk und Y1 (Gleichverteilung auf [0, 1], links)
sowie für Y2 = X1 + X2 (rechts)
Abbildung 20: blau: Wahrscheinlichkeitsdichte für Y3 = X1 + X2 + X3 (links) sowie für
Y4 = X1 + X2 + X3 + X4 (rechts), rot: Näherung nach dem zentralen Grenzwertsatz
Satz 5.3.4 Seien X1 , X2 , . . . Xn stochastisch unabhängige normalverteilte Zufallsvariable
mit den Erwartungswerten E(Xk ) = µk und den Varianzen Var(Xk ) = σk2 und sei
Y =
n
X
Xk
k=1
Dann ist Y normalverteilt mit
E(Y ) =
n
X
µk
und
k=1
Var(Y ) =
n
X
σk2
k=1
Hinweis: Der Wert von Erwartungswert und Varianz folgt aus Satz 5.3.1. Die entscheidende Aussage des Satzes ist jedoch, dass die Summe wieder normalverteilt ist. Der Beweis
dieser Aussage kann mit Hilfe der (hier nicht behandelten) momentenerzeugenden Funktion oder durch aufwändige Auswertung eines Faltungsintegrals erfolgen.
74
6
Grundbegriffe der Statistik
6.1
Histogramm, Mittelwert, Stichprobenvarianz
Die Statistik beschäftigt sich mit der Interpretation großer Datenmengen, die experimentell, also beispielsweise durch Messungen oder durch Befragungen von Personen gewonnen
werden. Ziel ist dabei, Rückschlüsse aus diesen Daten zu ziehen vor dem Hintergrund eines
Modells. Das Modell benutzt meist Ideen aus der Wahrscheinlichkeitsrechnung. Beispiele
für Daten, die statistisch interpretiert werden können:
• Ergebnisse des Mathematik-Eingangstests des Arbeitskreises Ingeniermathematik,
konkret: Zahl der erhaltenen Punkte xk des Teilnehmers Nr. k
• Grauwerte eines digitalisierten Bildes, konkret xk mit 0 ≤ xk ≤ 255, xk gibt die
Helligkeit des k. Pixels an (xk = 0 schwarz, xk = 255 weiß)
• Messungen zum radioaktiven Zerfall, beispielsweise xk Zahl der Zählimpulse in jeweils 10 Sekunden, k Nummer der Messung
• Messungen von elektrischen Spannungen in einer Schaltung, xk in der k. Messung
gemessene Spannung
• Zahl der Übertragungsfehler bei der Übertragung des k. Blocks von 512 Zeichen zu
8 Bit
In einfachen Fällen hat man also Zahlenwerte xk , die mit k durchnummeriert sind und
experimentell gewonnen wurden.
Arbeitskreis Ingenieurmathematik NRW
Eingangstest WS 2005/06
5%
%
25 %
50 %
75 %
95 %
22.0
20
18.2
17.0
15
11.4
10.6
10
8.7
5.0
5
2.6
2.4
1.4
0.6
0
0
1
2
3
keine Angabe
Sonstige Zugangsberechtigung
Fachhochschulreife
Abitur, Grundkurs
Abitur, Leistungskurs
4
5
6
7
8
9
10
Punkte
Ergebnisse:
(27 Tests, 1626 Stud. = 100 %)
© 19.11.2005 AK Ingenieurmathematik
c/o baszenski@fh dortmund.de
Abbildung 21: Beispiel für ein Histogramm
Ein Histogramm ist eine grafische Darstellung der absoluten oder relativen Häufigkeit, dass bestimmte Zahlenwerte aufgetreten sind. Wenn die Messwerte xk als wenige
75
diskrete Werte vorliegen (z.B. Punktzahlen bei einem Test), ist dies unproblematisch. Nehmen die Messwerte jedoch kontinuierliche oder sehr viele fein verteilte Werte an, so ist es
notwendig, den Wertebereich in möglichst gleichlange Intervalle einzuteilen und grafisch
darzustellen, wieviele Messwerte im entsprechenden Intervall liegen. Eine solche Einteilung wird Klasseneinteilung geannt, die Länge der Einzelintervalle heißt Klassenbreite.
Als Beispiel für Histogramme ist in Abb. 21 das Ergebnis des Mathematik-Eingangstests
des Arbeitskreises Ingeniermathematik 2005 in Nordrhein-Westfalen, in Abb. 22 die relative Häufigkeit der Grauwerte des Testbilds Lena“gezeigt. Häufig werden die Messungen
”
Abbildung 22: weiteres Beispiel für ein Histogramm: relative Häufigkeit der Grauwerte
des Testbilds Lena“
”
mit Methoden der Wahrscheinlichkeitsrechnung interpretiert. Die relative Häufigkeit wird
meist als Näherung an die Wahrscheinlichkeit angesehen. Eine gängige Vorstellung ist es,
die Messwerte xk als Funktionswerte von stochastisch unabhängigen, identisch verteilten
Zufallsvariablen Xk anzusehen. Die Messwerte x1 , x2 , x3 , . . . xn heißen dann Stichprobe
vom Umfang n. Die gemessene Größe wird Merkmal genannt. So kann das Aussehen eines Histogramms einen Anhaltspunkt dafür geben, welche Verteilung als Modell infrage
kommt.
Um ähnliche Messreihen vergleichen zu können (beispielsweise Testergebnisse aus verschiedenen Jahren), ist es sinnvoll bestimmte charakteristische Zahlen, Kennwerte genannt, aus den Messwerten zu berechnen.
Definition 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n. Dann ist
n
1X
xk
x :=
n k=1
der empirische Mittelwert und
n
1 X
s :=
(xk − x)2
die empirische Varianz sowie
n − 1 k=1
v
u
n
√
u 1 X
2
t
s :=
s =
(xk − x)2
die empirische Standardabweichung
n − 1 k=1
2
der Stichprobe. Die empirische Standardabweichung wird auch empirische Streuung genannt.
1
Hinweis: Der Faktor n−1
bei der empirischen Varianz mag überraschen, denn man erwartet vielleicht in Analogie zum Mittelwert den Faktor n1 . Eine anschauliche, aber unbefriedigende Begründung ist, dass die empirische Varianz und damit auch die empirische
76
Streuung unsinnig sind für einen einzigen Messwert und dass dies in der Formel auch sichtbar sein sollte. Eine genauere und befriedigendere Begründung erhalten wir im nächsten
Unterabschnitt. Für den empirischen Mittelwert und die bei der empirischen Varianz auftretende Summe gilt folgende nützliche Rechenregel:
Satz 6.1.1 Sei x1 , x2 , x3 , . . . xn eine Stichprobe vom Umfang n und x der empirische
Mittelwert. Dann gilt
n
n
X
X
2
x2k − nx2
(xi − x) =
k=1
k=1
Beweis:
n
X
k=1
n
n
n
X
X
X
2
2
2
=
(xk − 2xk x + x ) =
xk − 2x
xk + nx2
2
(xk − x)
k=1
=
n
X
k=1
k=1
x2k − 2x · n · x + nx2 =
k=1
n
X
k=1
x2k − nx2
Folgerung: Die empirische Varianz kann auch durch
n
1 X 2
n
s =
x2
xk −
n − 1 k=1
n−1
2
berechnet werden.
Hinweis: Wenn man die Stichprobe skaliert und um einen Offset verschiebt, also die neue
Stichprobe
yk = a + bxk
bildet, so gilt für die empirischen Mittelwerte und die empirische Varianz
s2y = b2 s2x
y = a + bx,
denn
n
P
(yk − y)2 = b2
k=1
6.2
n
P
(xk − x)2 .
k=1
Parameterschätzungen
Unsere Modellvorstellung ist es, dass die Werte der Stichprobe x1 , x2 , x3 , . . . xn Funktionswerte der stochastisch unabhängigen, identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn
sind. Diese Variablen heißen Stichprobenvariablen. Die zugehörige Messgröße oder physikalische Größe wird in der Statistik Merkmal genannt (beispielsweise die elektrische
Spannung oder die Anzahl der Übertragungsfehler). Die Verteilungen dieser Zufallsvariablen (denken Sie an die Poisson- oder die Normalverteilung), also deren Verteilungsfunktion
oder Wahrscheinlichkeitsdichte, sind meist durch den Erwartungswert µ sowie die Varianz
σ 2 gekennzeichnet. Es gibt aber auch Verteilungen, die durch mehr Parameter charakterisiert sind. Man kennt den konkreten Zahlenwert dieser Parameter für das Merkmal oder
die Messgröße meist nicht und möchte diese Parameter mit Hilfe der Stichprobe schätzen.
Es ist naheliegend, den unbekannten Erwartungswert µ einer Verteilung der identisch
verteilten, stochastisch unabhängigen Zufallsvariablen durch den Mittelwert zu schätzen,
also µ ≈ x anzunehmen. Man nennt dann die Funktion
n
1X
g(x1 , x2 , x3 , . . . xn ) :=
xk
n k=1
77
die Schätzfunktion. Wir können keine Übereinstimmung des geschätzten Parameters mit
dem exakten erwarten, bei verschiedenen Messreihen werden wir meist verschiedene Schätzungen erhalten. Man stellt jedoch gewisse Güteanforderungen an die Schätzfunktion.
Einer Schätzfunktion g(x1 , x2 , x3 , . . . xn ) kann man die
Schätzvariable g(X1 , X2 , X3 , . . . Xn )
zuordnen (die eine Zufallsvariable ist). Wir nennen die Schätzfunktion erwartungstreu,
wenn der Erwartungswert der Schätzvariablen mit dem tatsächlichen Wert des Parameters übereinstimmt. Für die angegebene Schätzfunktion für den Erwartungswert ist die
Schätzvariable
n
1X
X=
Xk
n k=1
Hierfür erhalten wir
n
1X
Xk
n k=1
E g(X1 , X2 , X3 , . . . Xn ) = E(X) = E
!
n
1X
1
=
E(Xk ) = · n · µ = µ
n k=1
n
Dabei haben wir die Rechenregeln für Erwartungswerte aus Satz 3.2.2 und die Annahme
benutzt, dass alle Stichprobenvariablen identisch verteilt sind. Aufgrund dieser Annahme
sind alle Erwartungswerte E(Xk ) = µ gleich. Beachten Sie, dass wir nur vorausgesetzt
haben, dass die Erwartungswerte existieren, aber keinerlei Annahme über die konkrete
Verteilung gemacht haben. Wir merken uns:
Der empirische Mittelwert ist eine erwartungstreue Schätzfunktion für den Erwartungswert.
Untersuchen wir nun die empirische Varianz. Wir prüfen, ob sie eine erwartungstreue
Schätzfunktion für die Varianz ist. Wir betrachten also die Funktion
n
g(x1 , x2 , x3 , . . . xn ) =
n
1 X
1 X 2
n
(xk − x)2 =
xk −
x2
n − 1 k=1
n − 1 k=1
n−1
Für die Umformung der Funktion wurde Satz 6.1.1 verwandt. Die zugehörige Schätzvariable
ist
n
n
1 X
1 X 2
n
2
S := g(X1 , X2 , X3 , . . . Xn ) =
(Xk − x)2 =
Xk −
X
n − 1 k=1
n − 1 k=1
n−1
2
Für deren Erwartungswert erhalten wir
n
1 X 2
n
2
E(S 2 ) = E
Xk −
X
n − 1 k=1
n−1
n
n
2
=
E(X12 ) −
E(X )
n−1
n−1
!
n
=
1 X
n
2
E(Xk2 ) −
E(X )
n − 1 k=1
n−1
Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als identisch verteilt angenommen
wurden, also E(Xk2 ) = E(X12 ) für alle k gilt. Wir vereinbaren die Schreibabkürzungen
µ := E(Xk ) = E(X1 )
und
78
σ 2 := Var(Xk ) = Var(X1 )
2
Nach Satz 3.2.3 gilt Var(X) = E(X 2 ) − E(X) , also
2
E(X12 ) = Var(X1 ) + E(X1 ) = σ 2 + µ2
Analog haben wir nach Satz 3.2.3
2
E(X ) = Var(X) + E(X)
n
X
1
Var
=
Xk
n2
k=1
2
= Var
!
n
+
!
n
1X
Xk +
n k=1
!2
1X
E(Xk )
n k=1
E
n
X
!!2
Xk
k=1
1
= 2 · nσ 2 +
n
1
· nµ
n
2
=
1 2
σ + µ2
n
Dabei wurde ausgenutzt, dass die Zufallsvariablen Xk als stochastisch unabhängig vorn
n
P
P
ausgesetzt werden und damit nach Satz 5.3.1 Var
Xk =
Var(Xk ) = nσ 2 gilt.
k=1
Wir haben nun für den Erwartungswert der Schätzvariablen S 2
k=1
n
n
n
n
n
1 2
2
2
2
2
2
E(S ) =
E(X1 ) −
E(X ) =
σ +
µ −
σ +µ
n−1
n−1
n−1
n−1
n−1 n
n
n
1
n
n
1
2
2
2
2
2
σ +
µ −
σ −
µ =σ
−
=
n−1
n−1
n−1
n−1
n−1 n−1
n−1
= σ2 ·
= σ2
n−1
2
Wir haben damit das folgende Ergebnis gewonnen:
Die empirische Varianz s2 ist eine erwartungstreue Schätzfunktion für die Varianz.
1
Aus der Rechnung ist auch sichtbar geworden, dass der Faktor n−1
nicht durch n1 ersetzt
werden kann, wenn
√ die Schätzfunktion erwartungstreu sein soll. Die empirische Standardabweichung s = s2 selbst ist keine erwartungstreue Schätzung der Standardabweichung,
i.a. ist der Erwartungswert der entsprechenden Schätzvariablen kleiner als die Standardabweichung der Verteilung. Dies sieht man daran, dass nach Satz 3.2.3 für die Schätzvariable
S gilt
2
2
Var(S) = E(S 2 ) − E(S) = σ 2 − E(S)
2
und damit E(S) = σ 2 − Var(S). Für den Erwartungswert von S selbst erhält man also
p
E(S) = σ 2 − Var(S) < σ
denn in den Hinweisen nach Def. 3.2.3 wurde erläutert, dass für eine Zufallsvariable
Y
nur möglich ist, dass Var(Y ) = 0, wenn die Wahrscheinlichkeit P {Y (ω) = E(Y )} = 1
ist, das zugehörige Wahrscheinlichkeitsmaß also trivial ist.
Erwartungstreue ist nicht das einzige Gütekriterium, nach dem man eine Schätzfunktion
beurteilen sollte. Für den Erwartungswert könnten wir statt des Mittelswertes die völlig
unsinnige Schätzfunktion
g(x1 , x2 , . . . xn ) = x1 nehmen. Auch diese Schätzfunktion liefert
E g(X1 , X2 , . . . Xn ) = E(X1 ) = µ, die Schätzung ist also erwartungstreu. Der empirische
Mittelwert ist die bessere Schätzung, weil seine Werte weniger streuen. Die Varianz der
zugehörigen Schätzvariable X erfüllt
!
n
n
1X
1 X
1
σ2
Var(X) = Var
Xk = 2
Var(Xk ) = 2 · n · σ 2 =
n k=1
n k=1
n
n
79
Dagegen ist Var(X1 ) = σ 2 . Dies wird bei vielen Messungen ausgenutzt, indem man mehrmals misst und den Mittelwert bildet, um die Genauigkeit zu erhöhen. Die Standardabweichung für den Mittelwert von Messungen ist also √σn , wenn σ die Standardabweichung
der einzelnen Messungen ist. Beachten Sie, dass die Annahme, dass die Messfehler Werte
einer Zufallsvariablen sind, eine Modellvorstellung ist. Der Erwartungswert der Messwerte muss nicht unbedingt mit der gesuchten physikalischen Größe übereinstimmen (wenn
beispielsweise alle Messwerte aufgrund einer zu hohen Temperatur erheblich kleiner sind).
Eine erwartungstreue Schätzung heißt wirksam oder effizient, wenn die zugehörige
Schätzvariable unter allen erwartungstreuen Schätzvariablen die kleinste Varianz besitzt.
Man kann zeigen, dass der empirische Mittelwert eine wirksame Schätzung des Erwartungswerts darstellt.
n
P
Xk für
Nach dem zentralen Grenzwertsatz ist der empirische Mittelwert X = n1
k=1
2
große n näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Die Wahrscheinlichkeit, dass der empirische Mittelwert sich betragsmäßig um weniger als eine vorgegebene Fehlerschranke ε > 0 vom Erwartungswert µ unterscheidet, ist also näherungsweise
gegeben durch
√ √ √ Z+ε
2
n
nε
nε
− nx2
−Φ −
e 2σ dx = Φ
P { X − µ < ε} ≈ √
σ
σ
σ 2π
−ε
√ √ nε
nε
1
= 2 Φ
−
= 2Φ
−1
σ
2
σ
Dabei wurden die Symmetrieeigenschaften der Verteilungsfunktion Φ(t) benutzt. Wir haben demnach
lim P {X − µ < ε} = 1
n→∞
Also ist für jede Fehlerschranke ε > 0 die Wahrscheinlichkeit, dass der Abstand des
empirischen Mittelwerts vom Erwartungswert größer als ε ist, im Grenzwert Null, also
lim P {X − µ > ε} = 0
n→∞
Dieses Ergebnis ist gerade die Aussage des schwachen Gesetzes der großen Zahlen. Schätzungen mit einer derartigen Eigenschaft heißen konsistent. Verlangt ist hierfür, dass
die Wahrscheinlichkeit, dass der Abstand der Schätzvariable vom tatsächlichen Wert des
Parameters größer als ε ist, im Grenzwert n → ∞ verschwindet. Die Aussage des schwachen Gesetzes der großen Zahlen ist also, dass der empirische Mittelwert eine konsistente
Schätzung des Erwartungswertes darstellt.
Fehlerfortpflanzung:
Aus den Messwerten x1 , x2 , . . . xn wird häufig eine neue Größe y = f (x1 , x2 , . . . xn ) berechnet. So kann die Spannung U = R·I aus dem gemessenen Widerstand und der gemessenen
Stromstärke berechnet werden. Ein mögliches wahrscheinlichkeitstheoretisches Modell ist,
dass wir die Messwerte x1 , x2 , . . . xn als Funktionswerte der Zufallsvariablen X1 , X2 , . . . Xn
mit den Erwartungswerten µ1 , µ2 , . . . µn und den Varianzen σ12 , σ22 , . . . σn2 ansehen.
Dann ist die Größe y ein Funktionswert der Zufallsvariablen Y = f (X1 , X2 , . . . Xn ).
Von Interesse ist eine Näherung für die Varianz Var(Y ). Hierzu wird meist die Funktion f
80
durch ihr Taylorpolynom ersten Grades ersetzt, also eine lineare Näherung vorgenommen:
n
X
∂f
(x1 , x2 , . . . xn )hk
f (x1 + h1 , x2 + h2 , . . . xn + hn ) = f (x1 , x2 , . . . xn ) +
∂x
k
k=1
Statt der Zufallsvariablen f (X1 , X2 , . . . Xn ) betrachten wir also die Zufallsvariable
Y = f (µ1 , µ2 , . . . µn ) +
n
X
∂f
(µ1 , µ2 , . . . µn )(Xk − µk )
∂x
k
k=1
Wenn die Zufallsvariablen Xk stochastisch unabhängig sind, dann erhalten wir nach
Satz 3.2.3 und 5.3.1
2
2
n n X
X
∂f
∂f
(µ1 , µ2 , . . . µn ) Var(Xk ) =
(µ1 , µ2 , . . . µn ) σk2
Var(Y ) =
∂x
∂x
k
k
k=1
k=1
und damit für die Standardabweichung
v
u n 2
uX ∂f
(µ1 , µ2 , . . . µn ) σk2
σ(Y ) = t
∂x
k
k=1
Dies ist die bekannte Formel für die Fehlerfortpflanzung nach Gauß (siehe das AnalysisSkript, Abschnitt 8.3.4, Gleichung (125)). Eine plausible Schätzung erhält man, wenn man
die unbekannten Varianzen σk2 durch die entsprechenden empirischen Varianzen ersetzt.
Beachten Sie, dass hierbei die Annahme der stochastischen Unabhängigkeit von X1 ,
X2 , . . . Xn eingeht. Bei zwei Variablen, also im Sonderfall n = 2, erhält man ohne diese
Voraussetzung mit den Schreibabkürzungen
a1 :=
∂f
(µ1 , µ2 ),
∂x1
a2 :=
∂f
(µ1 , µ2 )
∂x2
q
q
2 2
2 2
a1 σ1 + a2 σ2 + 2a1 a2 Cov(X1 , X2 ) ≤ a21 σ12 + a22 σ22 + 2|a1 ||a2 | |Cov(X1 , X2 )|
σ(Y ) =
q
p
≤
a21 σ12 + a22 σ22 + 2|a1 ||a2 |σ1 σ2 = (|a1 |σ1 + |a2 |σ2 )2
= |a1 |σ1 + |a2 |σ2
Diese Abschätzung ist im Analysis-Skript, Abschnitt 8.3.4, als die pessimistische Ab”
schätzung“ angegeben worden. An dieser Rechnung ist auch sichtbar, dass für die Anwendbarkeit der Formel für die Fehlerfortpflanzung nach Gauß es ausreicht, dass die Variablen
Xk unkorreliert sind, d.h. dass Cov(Xi , Xk ) = 0 für alle i 6= k. Dies ist eine schwächere
Voraussetzung als die stochastische Unabhängigkeit.
6.3
Allgemeine Prinzipien zur Gewinnung von Schätzungen
Maximum Likelihood: Eine Möglichkeit zur Gewinnung von Parameterschätzungen ist
die Maximum-Likelihood-Methode. Nach unserer Modellvorstellung besteht die
81
Stichprobe x1 , x2 , . . . xn aus Funktionswerten der stochastisch unabhängigen identisch verteilten Zufallsvariablen X1 , X2 , . . . Xn . Es soll nun ein unbekannter Parameter δ dieser Verteilung geschätzt werden. In der Praxis ist häufig δ = µ, der Erwartungswert oder δ = σ 2 , die Varianz. Die zugrunde liegende Idee zur Schätzung von
δ ist, diesen Parameter so zu wählen, dass die Wahrscheinlichkeit, dass die Werte
x1 , x2 , . . . xn der konkreten Stichprobe auftreten, maximal ist. Um die Abhängigkeit
vom Paramter δ zu verdeutlichen, bezeichnen wir häufig die zugehörige Wahrscheinlichkeit mit Pδ .
Betrachten wir zunächst den Fall, dass die Zufallsvariablen X1 , X2 , . . . Xn diskret
sind. Dann versuchen wir den Parameter δ so zu bestimmen, dass die Wahrscheinlichkeit
L(δ) = Pδ (X1 = x1 ) · Pδ (X2 = x2 ) · · · Pδ (Xn = xn )
maximal ist. Die Funktion L(δ) wird Likelihood-Funktion genannt. Ein häufig verwandter Rechentrick besteht
darin, statt das Maximum von L(δ) direkt zu suchen,
das Maximum von ln L(δ) zu suchen, da ln eine streng monoton wachsende Funktion ist, unddaher δ0 genau dann ein Maximum von L(δ) ist, wenn δ0 ein Maximum
von ln L(δ) ist.
Beispiel: Wir betrachten ein Bernoulli-Experiment, beispielsweise die Übertragung
von Bits über einen unsicheren Übertragungskanal. xk = 1 soll bedeuten, dass ein
Übertragungsfehler bei der Übertragung des k. Bits aufgetreten ist, xk = 0, dass
kein Fehler aufgetreten ist. Wir haben als Parameter p, wobei
P {Xk = 1} = p
und
P {Xk = 0} = 1 − p
Dies kann zu der einheitlichen Formel
P {Xk = xk } = pxk · (1 − p)1−xk
zusammengefaßt werden. Aufgrund der Unabhängigkeit der Xk haben wir als Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn
n
P
x1
1−x1
L(p) = p · (1 − p)
x2
· p · (1 − p)
1−x2
···p
xn
· (1 − p)
1−xn
= p k=1
xk
n−
· (1 − p)
n
P
xk
k=1
Wir suchen das Maximum der Funktion
n
P
n
P
!
n
X
!
xk
n−
xk
f (p) = ln L(p) = ln p k=1 · (1 − p) k=1
= ln(p) ·
n
X
k=1
Ableitung liefert
xk + ln(1 − p) ·
n
P
n−
xk
k=1
0
n
P
k=1
n−
xk
k=1
xk
−
p
1−p
Die notwendige Bedingung für das Auftreten eines Maximums im Innern des Definitionsbereichs ist f 0 (p) = 0, und daraus folgt
f (p) =
n
P
xk
k=1
p
=
82
n−
n
P
k=1
1−p
xk
und damit erhalten wir als Schätzung für den Parameter p
n
1 X
p= ·
xk
n k=1
also die relative Häufigkeit des Auftretens eines Fehlers. Dies ist auch mit der anschaulichen Interpretation der Wahrscheinlichkeit verträglich. Die zugehörige Schätzn
P
Xk .
variable ist n1 ·
k=1
Untersuchen wir nun den Fall von Zufallsvariablen X1 , X2 , . . . Xn mit einer stückweise
stetigen Dichtefunktion fδ (x). Dann wird — in Verallgemeinerung von Satz 5.1.5 —
die Wahrscheinlichkeit für die Stichprobe x1 , x2 , . . . xn durch die Dichtefunktion
Lδ (x1 , x2 , . . . xn ) = fδ (x1 ) · fδ (x2 ) · · · fδ (xn )
beschrieben. Auch hier ist es häufig rechnerisch einfacher, das Maximum von
n
X
g(δ) = ln Lδ (x1 , x2 , . . . xn ) =
ln fδ (xk )
k=1
zu suchen.
Beispiel: Für normalverteilte Zufallsvariable haben wir für den Parameter δ = µ
das Maximum von
n
√
1 X
(xk − µ)2
g(µ) = ln Lµ (x1 , x2 , . . . xn ) = −n ln(σ 2π) − 2
2σ k=1
zu bestimmen. Ableiten ergibt
g 0 (µ) =
n
n
1 X
1 X
nµ
(x
−
µ)
=
x
−
k
k
σ 2 k=1
σ 2 k=1
σ2
Die notwendige Bedingung für das Auftreten eines Maximums g 0 (µ) = 0 liefert die
n
P
schon bekannte Schätzung von µ durch den empirischen Mittelwert µ = n1
xk = x.
k=1
Führt man die entsprechende Rechnung für den Parameter δ = σ 2 durch, so erhält
man mit der Maximum-Likelihood-Methode aus der notwendigen Bedingung für
n
P
das Auftreten eines Maximums σ 2 = n1
(xk − x)2 . Dies ist keine erwartungstreue
k=1
Schätzung aufgrund des Vorfaktors n1 , der allerdings für große n sich nicht wesent1
lich von dem Vorfaktor n−1
der erwartungstreuen Schätzung durch die empirische
Varianz unterscheidet.
Kleinste Quadrate: Die Abweichungen xk − µ von zufälligen Werten xi von einem
erwünschten oder erwarteten Wert µ haben meist unterschiedliches Vorzeichen. Man
erwartet, dass ihre Beträge |xk − µ| möglichst klein sind. Man könnte daher fordern,
n
P
dass die Summe
|xk − µ| möglichst klein ist, also ein Minimum hat. Die Betragsk=1
funktion ist aber nicht ableitbar. Es ist daher sinnvoll zu fordern, dass
n
X
f (µ) =
(xi − µ)2
k=1
83
minimal ist. Dies wird das Prinzip der kleinsten Quadrate genannt. Die notwendige Bedingung für ein Minimum im Innern des Definitionsbereiches f 0 (µ) = 0
liefert
!
n
n
X
X
f 0 (µ) = −2
(xi − µ) = −2
xk − n · µ = 0
k=1
k=1
Daraus erhält man die bekannte Schätzfunktion für den Erwartungswert
n
1X
xk
µ=x=
n k=1
Wir werden dieses Prinzip im nächsten Unterabschnitt auf den Fall anwenden, dass
man Paare von Messwerten hat.
6.4
Lineare Regression
Abbildung 23: Infolge von Messfehlern liegen die Messpunkte nicht auf der Geraden, auf
der sie nach den physikalischen Gesetzen liegen sollten, z.B. x = I, y = U in der rechts
abgebildeten Schaltung.
Bei Paaren xk , yk von Messwerten erwartet man häufig aufgrund von physikalischen
Gesetzen der Form y = ax + b, dass diese bei einer grafischen Darstellung auf einer Geraden liegen. Aufgrund von Messfehlern ist aber meist yk 6= axk + b. Diese Situation
wurde bereits im Analysis-Skript im Abschnitt 8.4.3 als Anwendungsbeispiel behandelt.
Die dortige Abbildung 81 ist hier als Abb. 23 nochmal wiedergegeben. Führt man mehr
Messungen durch als zur Berechnung der beiden Parameter a, b notwendig wäre, dann
führt die Forderung yk = axk + b für k = 1, 2, . . . n mit n > 2 aufgrund von Messfehlern zu
einem überbestimmten und unlösbaren linearen Gleichungssystem für die beiden Unbekannten a und b. Das Prinzip der kleinsten Quadrate führt zu der erfüllbaren Forderung,
dass
n
X
S(a, b) :=
(yk − b − axk )2
(35)
k=1
minimal ist. Wir erhalten als Ergebnis der im Analysis-Skript behandelten Rechnungen
den
84
Satz 6.4.1 Seien x1 , x2 . . . xn ∈ R und y1 , y2 . . . yn ∈ R und seien mindestens zwei der
Werte xk verschieden, also xi 6= xl für ein i 6= l und sei die Funktion S(a, b) durch (35)
gegeben. Ferner sei x der empirische Mittelwert und seien
∆xk := xk − x
n
X
∆ := n ·
(∆xk )2
und
k=1
Dann gilt ∆ > 0 und S(a, b) nimmt sein Minimum genau dann an, wenn
! n
!!
n
n
X
X
X
1
n
xk yk −
a =
xk
yk
und
∆
k=1
k=1
k=1
!
!
! n
!!
n
n
n
X
X
X
X
1
x2k
yk −
xk
b =
xk yk
∆
k=1
k=1
k=1
k=1
(36)
(37)
Definition 6.4.1 Wenn verschiedene Arten von Messwerten
x1 , x2 . . . xn ∈ R
y1 , y2 . . . yn ∈ R
und
untersucht werden, dann schreiben wir zur Verdeutlichung für die empirische Varianz von
x1 , . . . xn das Symbol s2x , analog für die empirische Varianz von y1 , . . . yn das Symbol s2y .
Entsprechend schreiben wir sx und sy für die zugehörigen empirischen Standardabweichungen. Analog zur Abkürzung ∆xk in der Voraussetzung von Satz 6.4.1 definieren wir
∆yk := yk − y
Der durch (36) gegebene Koeffizient a heißt empirischer Regressionskoeffizient und
wir nennen
n
1 X
sxy :=
(xk − x)(yk − y)
die empirische Kovarianz sowie
n − 1 k=1
sxy
den empirischen Korrelationskoeffizienten.
r :=
sx · sy
Dabei ist vorausgesetzt, dass mindestens zwei der Werte yk verschieden sind und damit
sy > 0.
Hinweise:
(a) Für die Abkürzung aus der Voraussetzung von Satz 6.4.1 haben wir
∆ = n · (n − 1) · s2x
(38)
(b) Mit Hilfe der Umformung
n
n
X
k=1
(xk − x)(yk − y) = n
= n
n
X
k=1
n
X
k=1
xk yk − nx
2
n
X
k=1
yk − ny
xk yk − n · x · y = n
85
n
X
k=1
n
X
k=1
x k + n2 · x · y
xk yk −
n
X
k=1
!
xk
n
X
k=1
!
yk
sowie mit Satz 6.1.1 und (38) erhalten wir für den empirischen Regressionskoeffizienten
n
n
P
P
(xk − x)(yk − y)
n (xk − x)(yk − y)
sxy
k=1
k=1
=
=
(39)
a=
n · (n − 1) · s2x
(n − 1) · s2x
s2x
(c) Wir benutzen xk = x + ∆xk (analog für yk ) sowie
n
P
∆xk = 0 (analog für yk ) und
k=1
n
X
x2k =
n
X
k=1
(x + ∆xk )2 = nx2 + 2x
k=1
sowie
n
X
∆xk +
k=1
n
X
n
X
xk yk =
k=1
n
n
X
X
(∆xk )2
(∆xk )2 = nx2 +
k=1
k=1
(x + ∆xk )(y + ∆yk ) = nxy +
n
X
∆xk ∆yk
k=1
k=1
und vereinfachen damit die in Satz 6.4.1 angegebene Berechnung des Koeffizienten:
n
n
P
P
2
2
nx +
(∆xk ) ny − nx(nxy +
∆xk ∆yk )
k=1
k=1
b =
n
P
n (∆xk )2
k=1
ny
n
P
(∆xk )2 − nx
k=1
=
n
n
P
n
P
n
P
∆xk ∆yk
k=1
=y−
(∆xk )2
∆xk ∆yk
x k=1
n
P
k=1
(∆xk )2
=y−
k=1
(n − 1)sxy
x
(n − 1)s2x
= y − ax
Zusammen mit (39) erhalten wir damit eine einfachere Formulierung von Satz 6.4.1
Unter den Voraussetzungen von Satz 6.4.1 hat die durch (35) gegebene Funktion
S(a, b) genau dann ein Minimum, wenn die Koeffizienten a und b
sxy
s2x
a=
und
b = y − ax
(40)
erfüllen.
(d) Aus
n
P
x2k = nx2 +
k=1
n
P
(∆xk )2 (siehe c) bekommt man die nützliche Gleichung
k=1
∆=n
n
X
(∆xk )2 = n
k=1
n
X
k=1
x2k − n2 x2
Hiermit, mit der Umformung von (b) sowie mit
n
n
n
n
X
X
X
X
(xk − x)(yk − y) =
(xk − x)yk − y
(xk − x) =
(xk − x)yk
k=1
k=1
k=1
86
k=1
erhält man die nützliche Umformung für den linearen Regressionskoeffizienten
n
a=
n
P
(xk − x)(yk − y)
k=1
n
n
P
(xk −
n
P
=
x)2
(xk − x)yk
k=1
n
P
x2k
k=1
k=1
− nx
2
n
nX
=
(xk − x)yk
∆ k=1
(41)
(e) Aus der Definition der empirischen Standardabweichung und der Abkürzung ∆xk
in der Voraussetzung von Satz 6.4.1 erhält man
v
uP
u n
u (∆xk )2
t
sx = k=1
n−1
Mit einer analoge Formel für sy erhält man für den Korrelationskoeffizienten
n
P
r=s
∆xk ∆yk
k=1
n
P
(∆xk )2
k=1
n
P
(∆yk )2
k=1
Definieren wir die Vektoren



∆x1
 ∆x2 


~u :=  .. 
 . 
und

∆y1
 ∆y2 


~v :=  .. 
 . 
∆yn
∆xn
so erhalten wir
r=
~u · ~v
|~u|
Aus der Cauchy-Schwarz-Ungleichung |~u · ~v | ≤ |~u| · |~v | (die auch für Vektoren im Rn
gültig ist) folgt dann
|r| ≤ 1
Eine kurze Rechnung (Übungsaufgabe!) zeigt, dass |r| = 1, wenn für alle k =
1, 2, . . . n gilt yk = a · xk + b, und zwar r = 1, wenn a > 0 und r = −1, wenn
a < 0. Wenn die Messwerte alle auf einer Geraden liegen, dann ist r = ±1, wenn
die Steigung der Geraden positiv ist, dann ist r = 1, wenn sie negativ ist, dann ist
r = −1. Und man kann zeigen, dass nur dann r = ±1 auftreten kann. Daran, wie
nahe |r| an 1 liegt, kann man ablesen, wie gut“ die Werte (xk , yk ) auf einer Geraden
”
liegen. Man sollte sich hüten, aus einem Wert |r| ≈ 1 zu schließen, dass große Werte
für |xk | die Ursache für große Werte von |yk | sind. Bei einem häufig als Warnung
angeführten Beispiel ist xk die Zahl der Storchennester im Landkreis k und yk die
Zahl der Geburten in einem Jahr.
Bisher haben wir uns darauf beschränkt, nach dem Prinzip der kleinsten Fehlerquadrate
eine Gerade durch die Messpunkte (xk , yk ) zu legen. Wir wollen nun ein einfaches wahrscheinlichkeitstheoretisches Modell betrachten. Wir nehmen zur Vereinfachung an, dass
87
die Messfehler bei den Werten xk vernachlässigbar klein sind gegenüber dem bei den
Werten yk . Wir gehen also davon aus, dass
yk = axk + b + zk
und die unbekannten Fehler zk Funktionswerte von identisch verteilten und stochastisch
unabhängigen Zufallsvariablen Zk sind mit dem Erwartungswert E(Zk ) = 0 und der
Varianz Var(Zk ) = σ 2 . Damit sind die Messwerte yk Funktionswerte der Zufallsvariablen
Yk = axk + b + Zk
und wir haben nach Satz 3.2.3 Var(Yk ) = Var(Zk ) = σ 2 . Wir können die Koeffizienten a
und b aufgrund von (40) und (41) als Funktionswerte der Zufallsvariablen
n
P
A=
(xk − x)Yk
k=1
n
P
x2k
k=1
− nx
2
n
nX
=
(xk − x
∆ k=1
n
und
1X
B=
Yk − xA
n k=1
ansehen. Aufgrund von Satz 3.2.3 erhalten wir daraus
n
P
(xk − x)2 Var(Yk )
σ2
σ2
n 2
Var(A) = k=1
=
=
=
σ
n
n
2
P 2
P
n
∆
P
2
2
xk − nx
(∆xk )
x2k − nx2
k=1
k=1
wobei die Umformung
n
P
(xk − x)2 =
k=1
n
P
k=1
k=1
x2k − nx2 (Satz 6.1.1) ausgenutzt wurde. Für die
Berechnung von Var(B) ist es geschickter, von der ursprünglich in Satz 6.4.1 angegebenen
Form, also von (37) auszugehen. Da wir hier b als Funktionswert der Zufallsvariablen B
ansehen, haben wir
!
n
n
1 X X 2
x − nx · xk Yk
B=
∆ k=1 l=1 l
und damit
!2
n
n
1 X X 2
Var(B) =
xl − nx · xk · σ 2
2
∆ k=1 l=1


!2
!
n
n
n
2 X
X
X
σ

=
x2l
−2
x2l nx · xk + n2 x2 x2k 
2
∆ k=1
l=1
l=1

!
!
!
2
n
n
n
2
X
X
X
σ 
2
2 2
2
2 2
x
x
+
n
x
x2l 
=
n
x
−
2n
l
l
∆2
l=1
l=1
k=1
!
n
n
n
n
X
σ2 X 2
σ2 X 2
σ2 X 2
2
2 2
=
x n
xl − n x = 2
xl · ∆ =
xl
∆2 k=1 l
∆
∆
k=1
k=1
k=1
In praktischen Anwendungen ist die Varianz der Messfehler Var(Zk ) = σ 2 meist unbekannt. Diese unbekannte Varianz kann man aufgrund der Messungen schätzen:
88
Satz 6.4.2 Seien x1 , x2 . . . xn ∈ R bekannt und seien mindestens zwei der Werte xk verschieden. Wir nehmen weiterhin an, dass die Zufallsvariablen Yk stochastisch unabhängig
sind und die Erwartungswerte E(Yk ) = axk +b sowie dieselbe Varianz Var(Yk ) = σ 2 haben.
n
P
Außerdem sei ∆ := n ·
(xk − x)2
k=1
Dann sind
n
n
nX
(xk − x)Yk
A=
∆ k=1
1X
B=
Yk − xA
n k=1
und
Schätzvariablen einer erwartungstreuen Schätzung für die Parameter a und b, d.h.
E(A) = a
Weiterhin ist
n
P
SZ2 :=
E(B) = b
und
k=1
(Yk − xk A − B)2
n−2
eine erwartungstreue Schätzung für die unbekannte Varianz σ 2 , d.h. E(SZ2 ) = σ 2 und wir
haben für die Varianzen von A und B
n
Var(A) = σ 2
∆
und
n
σ2 X 2
Var(B) =
x
∆ k=1 k
Hinweise:
(a) Der Satz kann mit Methoden der Linearen Algebra bewiesen werden. Die bisherigen
umständlichen Rechnungen mit dem Summenzeichen legen nahe, dass eine Formulierung mit Hilfe der Linearen Algebra zur Vereinfachung führt. Man definiert die
Datenmatrix X, den Datenvektor y sowie den Parametervektor b durch

 

1 x1
y1
 1 x2 
 y2 
b

 

X :=  .. ..  ,
y :=  ..  ,
b :=
a
. . 
.
1 xn
yn
Das durch xk · a + b = yk für k = 1, 2, . . . n gegebene und für n > 2 überbestimmte
lineare Gleichungssystem lautet dann Xb = y und die Summe der Fehlerquadrate
ist dann
S(b) = |y − Xb|2 = (y − Xb)T (y − Xb)
Man kann allein mit Hilfsmitteln der Linearen Algebra (also ohne partielle Ableitungen) beweisen, dass das Minimum genau dann angenommen wird, wenn b Lösung
des Gleichungssystems
XT Xb = XT y
ist. Die Voraussetzung, dass mindestrens zwei der Werte xk verschieden sind, ist
äquivalent dazu, dass Rang(X) = 2. Der Beweis von Satz 6.4.2 selbst kann mit
dieser Formulierung unter Benutzung zahlreicher Ergebnisse der Linearen Algebra
durchgeführt werden. Er ist jedoch ziemlich umfangreich und wird daher hier nicht
angegeben.
89
(b) In der Praxis berechnet man aus den Daten x1 , x2 , . . . xn und y1 , y2 , . . . yn zunächst
nach (36) und (36) die Koeffizienten a und b und danach den Schätzwert für σ 2
durch
n
P
(yk − xk a − b)2
(42)
s2z := k=1
n−2
p
Mit s2z wird dann die Standardabweichung und damit der Messfehler jeder einzelnen Messung abgeschätzt (diese Schätzung ist jedoch nicht erwartungstreu). Die
Standardabweichung (und damit den Einfluss der Messfehler) von a und b kann man
dann durch
v
u
r
n
u s2z X
n 2
t
s
und
sb =
sa =
x2
∆ z
∆ k=1 k
abschätzen.Der durch s2z geschätzte Parameter σ 2 wird auch Restvarianz genannt.
(c) Es ist plausibel, dass die gemittelte Summe der Fehlerquadrate in (42) die Varianz
von Yk schätzt. Vergleichen Sie (42) mit der empirischen Varianz! Dass hier im
Nenner n−2 auftritt (statt n−1 bei der empirischen Varianz), kann man anschaulich
dadurch begründen, dass die Schätzung im Fall n = 2 keinen Sinn macht, da durch
zwei Punkte stets eine Gerade gelegt werden kann. Eine befriedigendere Begründung
erhält man durch einen mathematischen Beweis von Satz 6.4.2.
(d) Die Methoden dieses Unterabschnitts können verallgemeinert werden:
• Statt davon auszugehen, dass die Messpunkte auf einer Geraden liegen, kann
man als Modell auch zugrunde legen, dass sie auf einer Parabel liegen, oder,
noch allgemeiner, dass ein Zusammenhang der Form
yk = a0 + a1 xk + a2 x2k + · · · + am xm
k
gilt. Auch hier führt die Forderung, dass
n
X
2
(yk − a0 − a1 xk − a2 x2k − · · · − am xm
S(a0 , a1 , . . . am ) =
k )
k=1
minimal ist, zu einem linearen Gleichungssystem für die Koeffizienten a0 , a1 ,
a2 , . . . am .
• Die Größe y kann von mehreren Arten von Messgrößen, also von mehreren
Merkmalen, abhängen, also beispielsweise
yk = a + buk + cvk
was aufgrund von Messfehlern bei mehr als drei Messungen nicht exakt erfüllbar
ist. Auch hier liefert die Forderung, dass
S(a, b, c) =
n
X
k=1
(yk − a − buk − cvk )2
minimal ist, ein lineares Gleichungssystem für die unbekannten Parameter
a, b, c. Auch hier kann y statt von drei von m Größen abhängen.
90
In allen diesen Verallgemeinerungen ist eine Formulierung mit Matrizen, wie sie in
Hinweis (a) angedeutet wurde, dringend zu empfehlen.
(e) In vielen Fällen besteht zunächst kein linearer, sondern ein exponentieller Zusammenhang zwischen den Messgrößen. So erwartet man bei der Entladung eines Kondensators, dass die Spannungen uk zu den Zeitpunkten tk
1
uk = u0 · e− τ tk
erfüllen. Hier kann man die Methoden dieses Unterabschnitts anwenden, indem man
1
yk = ln(uk ) = ln(u0 ) − tk
τ
und xk = tk setzt. Dann erhält man a = − τ1 und b = ln(u0 ).
6.5
Intervallschätzungen, Konfidenzintervalle
Bei den bisherigen Schätzungen haben wir eine Funktion angegeben, mit deren Hilfe wir
aus den Messwerten oder aus der Stichprobe einen den Wert eines unbekannten Parameters geschätzt haben. Zur Verdeutlichung kann man von einer Punktschätzung sprechen,
da ein einziger Wert, beispielsweise der unbekannte Erwartungswert durch Berechnung des
Mittelwerts, geschätzt wird. Wir können jedoch nicht erwarten, dass die Schätzung, also
im Beispiel x mit dem Erwartungswert µ exakt übereinstimmt. Neue Messwerte, d.h. eine
neue Stichprobe, werden in der Regel einen andern Wert liefern. Statt also einen einzelnen Wert oder einen Punkt als Schätzung anzugeben, kann es sinnvoll sein, ein Intervall
anzugeben, in dem der Parameter mit einem gewissen Grad des Vertrauens“ liegt.
”
Beispiel: Wir betrachten als erstes einfaches (dafür aber unrealistisches) Beispiel die
Schätzung des unbekannten Erwartungswertes µ von stochastisch unabhängigen normalverteilten Zufallsvariablen mit Xk mit bekannter Varianz σ 2 durch eine Stichprobe
x1 , x2 , . . . xn . Wir wissen aufgrund von Satz 5.3.4, dass die Schätzvariable X normalver2
teilt ist mit Erwartungswert µ und Varianz Var(X) = σn . Also ist die Zufallsvariable
Z=
X −µ
√σ
n
√
n(X − µ)
=
σ
standardnormalverteilt. Wir legen nun einen Grad des Vertrauens“ mit beispielsweise p =
”
0, 95 bzw. 95 % fest und suchen ein Intervall ]a, b[ mit der Eigenschaft, dass der unbekannte
Erwartungswert µ mit 95 % Vertrauen“ a < µ < b erfüllt. Wir haben aber hier das
”
Problem, dass µ keine Zufallsvariable ist, und die Frage nach der Wahrscheinlichkeit
dafür, dass a < µ < b erfüllt ist, unsinnig ist! Als Ausweg suchen wir stattdessen ein
c > 0 mit der Eigenschaft, dass die Wahrscheinlichkeit
P {X − c < µ < X + c} = 0, 95
(43)
Wenn wir ein solches c gefunden haben, ist es plausibel, dass mit dem gewählten Grad des
Vertrauens von 95 % für das zufällig gewonnene Stichprobenmittel
x−c < µ < x+c erfüllt
√
n
ist. Wir können die Ungleichung in (43) mit mit Z = σ (X − µ) äquivalent umformen:
√
√
n
n
<Z<c
X −c < µ < X +c ⇐⇒ −c < µ−X < c ⇐⇒ −c < X −µ < c ⇐⇒ −c
σ
σ
91
Da Z standardnormalverteilt ist, gilt für die Wahrscheinlichkeit
√ √ √
√ n
n
n
n
<Z<c
=Φ c
− Φ −c
P
−c
σ
σ
σ
σ
√
1
1
Da Φ(t) = 2 + 2 · erf √t2 und erf(−x) = − erf(x) haben wir mit ξ := c σn
Φ(ξ) − Φ(−ξ) = erf
ξ
√
2
= 2Φ(ξ) − 1 = p = 0, 95
nach ξ aufzulösen. Diese Gleichung ist äquivalent zu
2Φ(ξ) = 1 + p
bzw.
1
Φ(ξ) = (1 + p)
2
D.h. ξ ist das Quantil der Ordnung q = 12 (1 + p) der Standardnormalverteilung (siehe Abschnitt 3.3). Dieses kann beispielsweise in Scilab durch cdfnor("X",0,1,q,1-q)
berechnet werden. Wir erhalten hier
σ
ξ ≈ 1, 96
und damit
c ≈ 1, 96 · √
n
und
σ
σ
P
X − 1, 96 · √ < µ < X + 1, 96 · √
= 0, 95
n
n
Als Ergebnis erhalten wir das Konfidenzintervall
σ
σ
x − 1.96 · √ , x + 1, 96 · √
n
n
mit 95 % Vertrauen. Man sieht, dass es mit wachsendem Umfang n der Stichprobe kleiner
wird.
Praktisches Anwendungsbeispiel: Eine Messgröße wird in ein analoges Spannungssignal umgewandelt und anschließend über eine verrauschte Leitung übertragen. Wir
nehmen an, dass man weiß, dass das Rauchen normalverteilt ist mit Mittelwert 0 und
Standardabweichung σ = 5 mV. Also ist das das übertragene Signal normalverteilt,
X ∼ N (µ, 25) mit der ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Durch zehnmaliges Übertragen des analogen Signals erhält man einen Mittelwert
von beispielsweise 42 mV. Dann kann man nach der obigen Rechnung sagen, dass die
ursprüngliche Spannung mit 95 % Vertrauen im Intervall ]38, 9 mV, 45, 1 mV[ liegt.
Wir möchten allgemein einen Parameter aufgrund einer Stichprobe x1 , x2 , . . . xn schätzen, der meist mit θ bezeichnet wird (in den häufigsten Anwendungen ist θ = µ = E(X)
der Erwartungswert oder θ = σ 2 = Var(X) die Varianz einer Zufallsvariable). Statt nur
einen einzigen Wert anzugeben, wollen wir ein Intervall angeben mit a < θ < b. Wir
müssen dabei das Problem umgehen, dass wir hierfür keine Wahrscheinlichkeit angeben
können, denn θ ist keine Zufallsvariable, sondern wir wissen nicht, ob θ ∈ ]a, b[ wahr oder
falsch ist. Wir behelfen uns auf folgende Weise:
Definition 6.5.1 Gegeben seien
• eine Stichprobe x1 , x2 , . . . xn und die zugehörigen identisch verteilten stochastisch
unabhängigen Zufallsvariablen X1 , X2 , . . . Xn
92
• θ ein (in der Praxis unbekannter und zu schätzender) Parameter der Verteilung der
Xk
• Schätzfunktionen gu (x1 , x2 , . . . xn ) und go (x1 , x2 , . . . xn ) mit den zugehörigen Schätzvariablen Gu (X1 , X2 , . . . Xn ) und Go (X1 , X2 , . . . Xn )
• eine Zahl 0 < p < 1, die Vertrauensniveau oder Konfidenznieveau genannt wird (in
der Praxis ist meist p = 0, 95, p = 0, 99 oder p = 0, 999)
Wenn dann die Wahrscheinlichkeit
P {Gu (X1 , X2 , . . . Xn ) < θ < Go (X1 , X2 , . . . Xn )} = p
erfüllt, dann heißt das Intervall
]gu (x1 , x2 , . . . xn ), go (x1 , x2 , . . . xn )[
Konfidenzintervall oder Vertrauensintervall zum Vertrauensniveau p.
Abbildung 24: Wahrscheinlichkeitsdichtefunktion fk (x) der Student-Verteilung für verschiedene Werte von k (Zahl der Freiheitsgrade), k=infini“ steht für den Grenzwert
”
g(x) = lim fk (x)
k→∞
Im Beispiel zu Beginn dieses Unterabschnitts hatten wir die unrealistische Annahme
gemacht, dass die Varianz σ 2 der Verteilungen von Xk bekannt sei. In der Praxis wird
man diese durch die empirische Varianz schätzen mit der Schätzvariable
n
P
S2 =
(Xk − X)2
k=1
n−1
√
Die Zufallsvariable S ist dann durch S = S 2 gegeben. Wir bezeichnen den Erwartungswert mit µ = E(Xk ). Dann hat man auszunutzen, dass die Verteilungsfunktion der
Zufallsvariablen
√ X −µ
Tn−1 := n
S
93
bekannt ist. Diese Verteilung heißt Student-Verteilung oder t-Verteilung mit m = n − 1
Freiheitsgraden. Ihre Wahrscheinlichkeitsdichte ist bei m Freiheitsgraden durch
Γ 12 (m + 1)
1
·
fm (x) = √
1
m
1
mπΓ 2
(1 + m x2 ) 2 (m+1)
gegeben. Dabei ist die Gamma-Funktion Γ(x) für x > 0 durch
Z∞
Γ(x) :=
tx−1 e−t dt
0
definiert. Sie erfüllt Γ(n + 1) = n! für alle n ∈ N und für halbzahlige Argumente können
die Funktionswerte durch
√
√ Γ(2n)
1
1
Γ
= π,
= 21−2n π ·
für alle n ∈ N
Γ n+
2
2
Γ(n)
berechnet werden. Die Dichtefunktion fm (x) ist für mehrere Werte von m in Abb. 24
grafisch dargestellt. Die Abbildung stammt aus
http://en.wikipedia.org/wiki/Student%27s_t_distribution
Die Verteilungsfunktion von Tm ist
Zx
Fm (x) =
fm (t)dt
−∞
Da — wie bei der Normalverteilung — die Wahrscheinlichkeitsdichte gerade ist, erfüllt
sie dieselbe nützliche Rechenregel wie Φ(x):
Fm (x) − Fm (−x) = 2Fm (x) − 1
für alle x ∈ R
Für die praktische Berechnung eines Konfidenzintervalls benötigt man Quantile dieser
Verteilungsfunktion. Das Quantil der Ordnung q bei m Freiheitsgraden kann in Scilab
durch x=cdft("T",m,q,1-q) berechnet werden. Damit kann ein Konfidenzintervall analog
zu den Überlegungen bei bekannter Varianz zu Beginn dieses Unterabschnitts bestimmt
werden.
6.6
Tests von Hypothesen
Wir betrachten hier zunächst ein einfaches Beispiel einer Stichprobe x1 , x2 , . . . xn und
nehmen an, dass dies die Funktionswerte von stochastisch unabhängigen normalverteilten
Zufallsvariablen Xk sind. Wir machen außerdem wieder die unrealistische Annahme, dass
wir die Varianz Var(Xk ) = σ 2 kennen, denn dies vereinfacht viele Überlegungen. Beim
Test von Hypothesen geht man meist von einer Hypothese aus, die man die Nullhypothese nennt. Wir betrachten hier als Nullhypothese, dass der unbekannte Erwartungswert
E(Xk ) = µ mit einem vermuteten Wert µ0 übereinstimmt, also
H0 :
µ = µ0
94
Als Alternativhypothese wählen wir
µ 6= µ0
H1 :
Man kann auch mehrere Alternativhypothesen testen. Beachten Sie, dass der unbekannte
Erwartungswert µ selbt keine Zufallsvariable ist! Es macht also keinen Sinn, nach der
Wahrscheinlichkeit zu fragen, ob die Nullhypothese wahr ist. Wie man beim Schätzen
eine Schätzfunktion benutzt, so benutzt man hier eine Testfunktion g(x1 , x2 , . . . xn ) und
die zugehörige Testvariable Y = g(X1 , X2 , . . . Xn ). Für den Erwartungswert werden wir
den Mittelwert x als Testfunktion und X als Testvariable benutzen. Es ist naheliegend,
dass wir als Test für H0 eine kritische Bedingung der Form
|x − µ0 | > c
festlegen und H0 verwerfen, wenn diese Bedingung erfüllt ist. Wir nennen hier die Menge
{x ∈ R | |x − µ0 | > c}
den Verwerfungsbereich, die Menge
{x ∈ R | |x − µ0 | ≤ c}
den Annahmebereich. Da es sich hier um Zufallsexperimente handelt, können beim
Testen der Nullhypothese zwei Fehler auftreten:
(a) Ein Fehler 1. Art (englisch type I error) liegt vor, wenn wir die Nullhypothese
aufgrund des zufälligen Testergebnisses ablehnen, obwohl sie in Wirklichkeit richtig
ist.
(b) Ein Fehler 2. Art (englisch type II error) liegt vor, wenn wir die Nullhypothese
aufgrund des zufälligen Testergebnisses akzeptieren, obwohl sie nicht erfüllt ist.
Beachten Sie, dass wir die Nullhypothese verwerfen, wenn unser Test mit einer Bedingung der Art |x − µ0 | > c erfüllt, also positiv“ ist. Häufig wird ein derartiger Test
”
(anstelle der Nullhypothese) in den Vordergrund gestellt. Dies ist vor allem bei medizinischen Anwendungen der Fall. Dann wird ein Fehler 1. Art auch ein falsch positives“
”
Testergebnis und ein Fehler 2. Art ein falsch negatives“ Testergebnis genannt.
”
Man legt nun eine kleine maximale Wahrscheinlichkeit α dafür fest, dass ein Fehler
1. Art auftritt, also ist α durch die Forderung für die Wahrscheinlichkeit
P {H0 wird verworfen, obwohl H0 gilt} ≤ α
festgelegt. Diese Wahrscheinlichkeit wird Signifikanzniveau genannt. Meist wird α =
0.05, α = 0, 01 oder α = 0, 001 gewählt. Hierfür wird ziemlich einheitlich der Buchstabe
α gewählt. Fehler 1. Art werden daher auch α-Fehler genannt. Wir bestimmen also die
Zahl c unseres Tests so, dass
Pµ0 {X − µ0 > c} = α
Hierzu ist zu beachten, dass X normalverteilt ist mit Erwartungswert µ0 und Varianz
Var(X) = n1 σ 2 . Also ist die Zufallsvariable
√
n(X − µ0 )
(44)
Z0 :=
σ
95
standardnormalverteilt, Z0 ∼ N (0, 1). Weiterhin gilt
√
X − µ0 > c ⇐⇒ |Z0 | > c n
σ
und damit haben wir
√ √ √ √ c n
c n
c n
c n
= 1− Φ
−Φ −
= 1 − 2Φ
−1
P
|Z0 | >
σ
σ
σ
σ
√ c n
= 2 1−Φ
=α
σ
nach c aufzulösen. Wir erhalten
√ c n
α
Φ
=1−
σ
2
und müssen also die Gleichung Φ(ξ) = 1 − α2 auflösen nach ξ. In der Sprache der Wahrscheinlichkeitsrechnung heißt dies, dass wir das Quantil ξ = zq der Ordnung
q = 1 − α2
√
der Standardnormalverteilung berechnen müssen. Danach haben wir ξ = c σ n nach c aufzulösen und erhalten für den Zahlenwert α = 0.05 mit ξ = zq ≈ 1, 959964
σ
σ
c = ξ · √ ≈ 1, 96 · √
n
n
Es ist sinnvoll, die kritische Bedingung für unseren Test für die durch (44) gegebene
Zufallsvariable Z0 umzuformulieren, da diese standardnormalverteilt ist. Sie bewertert in
standardisierter Form die Abweichung des Zufallsexperiments von der Nullhypothese, ein
großer Absolutwert von Z0 ist also unwahrscheinlich, wenn die Nullhypothese wahr ist.
Wir berechnen somit aus der Stichprobe die zu Z0 gehörige standardisierte Testfunktion
√
n(x − µ0 )
z=
σ
und erhalten damit unseren Test (zq ist Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung):
H0 ist zu verwerfen, wenn
H0 ist zu akzeptieren, wenn
|z| > zq ≈ 1, 96
|z| ≤ zq ≈ 1, 96
Dies ist in Abb. 25 (links) verdeutlicht. Die Abbildung zeigt die Wahrscheinlichkeitsdichte ϕ(z) der Testvariablen Z0 . Der Verwerfungsbereich ist grau markiert, die Summe
der beiden grauen Flächen entspricht der Wahrscheinlichkeit α = 0, 05 für einen Fehler 1.
Art.
Betrachten wir erneut das im Unterabschnitt 6.5 angegebene Anwendungsbeispiel
der Übertragung eines analogen Spannungssignals über eine verrauschte Leitung, bei
der das übertragene Spannungssignal normalverteilt ist, also X ∼ N (µ, 25) mit der
ursprünglichen analogen Spannung als unbekanntem Erwartungswert µ. Wir testen die
Nullhypothese, dass diese Spannung 40 mV beträgt, und behalten als Signifikanzniveau
96
Abbildung 25: Wahrscheinlichkeitsdichte der Testvariablen Z0 , der Verwerfungsbereich ist
der zur grau markierten Fläche gehörende Teil der z-Achse, die Summe der beiden grauen
Flächen ist das Signifikanzniveau α (links α = 0, 05, rechts α = 0, 001)
α = 0, 05 bei. Wenn wir nach zehnmaliger Übertragung den Mittelwert 42 mV erhalten
haben, dann bekommen wir für unsere standardnormalverteilte Zufallsvariable Z0 den
Wert z ≈ 1, 26. Weil |z| ≤ zq , haben wir die Nullhypothese µ = 40 mV zu akzeptieren.
Wenn jedoch nach 64 Übertragungen den Mittelwert 42 mV beträgt, dann ist
|z| = 3, 2 > zq
und wir müssen die Nullhypothese verwerfen. Dies ist plausibel, denn bei einer so erheblich höheren Zahl von Übertragungen ist es unwahrscheinlicher, dass wir bei einem
tatsächlichen Erwartungswert von 40 mV einen Mittelwert von 42 mV feststellen.
Beachten Sie den Einfluss des Signifikanzniveaus α auf das Testergebnis. Wir akzeptieren die Nullhypothese, auch wenn das zufällige Ergebnis eines Experiments eigentlich
dagegen spricht, wenn dieses Zufallsergebnis zu einem Ereignis der Art {|Z0 | ≤ |z|} gehört,
dessen Wahrscheinlichkeit nicht kleiner als das Signifikanzniveau ist und bringen dann sozusagen als Entschuldigung vor, dass wir eben Pech hatten. Wir akzeptieren die Nullhypothese, solange der Absolutbetrag des Werts für die Zufallsvariable Z (die die Abweichung“
”
von der Nullhypothese bewertet) nicht oberhalb des Quantils zq liegt. Wenn wir das Signifikanzniveau absenken, dann akzeptieren wir eher eine derartige Entschuldigung, dass
eben ein sehr unwahrscheinliches Ereignis eingetreten ist und die Nullhypothese trotzdem
wahr ist.
Wenn wir in dem gerade betrachteten Zahlenbeispiel das Signifikanzniveau von α =
0, 05 auf α = 0, 001 absenken, dann erhöht sich das Quantil zq der Ordnung q = 1 − α2
auf zq ≈ 3, 29 und wir können unsere Nullhypothese µ = 40 mV trotz eines Mittelwerts
von 42 mV bei 64 Übertragungen noch akzeptieren, weil |z| = 3, 2 < zq .
Dies ist in Abb. 25 (rechts) verdeutlicht. Die Grenzen −zq und zq für den Verwerfungsbereich sind erheblich weiter außen, und die Summe der grau markierten Flächen
entspricht dem erheblich kleineren Wert von α. Beachten Sie, dass der Maßstab verändert
wurde, um diese Flächen überhaupt sichtbar zu machen. Es ist verständlich, dass eine
derartige Abhängigkeit vom Parameter Signifikanzniveau“ zu Manipulationen einlädt.
”
Als Beispiel für kritische Anmerkungen zu statistischen Tests sei hier auf
http://www.npwrc.usgs.gov/resource/methods/statsig/stathyp.htm
verwiesen.
97
Wenden wir uns nun Fehlern 2. Art zu. Wir setzen also voraus, dass die Nullhypothese
falsch ist, in unserem Beispiel also, dass µ 6= µ0 . Die Wahrscheinlichkeit dafür, dass man
aufgrund des Testergebnisses die Nullhypothese trotzdem akzeptiert, wird in der Regel
mit β bezeichnet. Also ist
β := P {H0 wird akzeptiert, obwohl H0 falsch ist}
(45)
Fehler 2. Art heißen auch β-Fehler. Beachten Sie, dass diese Wahrscheinlichkeit in unserem
Beispiel eine Funktion des unbekannten tatsächlichen Erwartungswertes µ ist. Um dies zu
verdeutlichen, werden wir β(µ) schreiben. Diese Funktion ist streng genommen für µ = µ0
nicht definiert, da in diesem Fall H0 wahr ist. Wir erwarten jedoch, dass der Grenzwert
für µ → µ0 existiert und werden dann β(µ) stetig fortsetzen. Dieser Grenzwert β(µ0 ) ist
die Wahrscheinlichkeit, dass die Hypothese akzeptiert wird, wenn µ = µ0 , wenn sie also
wahr ist.
Wir haben die Wahrscheinlichkeit, dass sie in diesem Fall verworfen wird, mit α festgelegt. Also gilt
β(µ0 ) = 1 − α
Wir erwarten, dass β(µ) das Maximum in µ = µ0 annimmt. Die Funktion β(µ) wird Operationscharakteristik des Tests genannt. Die Funktion 1 − β(µ) heißt die Macht des
Tests. Beachten Sie, dass diese Funktionen vom gewählten Signifikanzniveau abhängen.
Unglücklicherweise wird diese Bezeichnungsweise nicht von allen akzeptiert, und manche nennen die Wahrscheinlichkeit in (45) 1 − β. Sie können dies daran erkennen, dass
dann — im Gegensatz zur hier gewählten Bezeichnungsweise — β(µ) besonders klein ist,
wenn µ ≈ µ0 . Dann ist die Funktion 1 − β(µ) die Operationscharakteristik.
Wir wollen nun die Operationscharakteristik in unserem Beispiel einer normalverteilten Zufallsvariablen X mit bekannter Varianz σ 2 , aber unbekanntem Erwartungswert µ
berechnen. Das durch X gegebene Wahrscheinlichkeitsmaß bezeichnen wir hier mit Pµ ,
um zu verdeutlichen, dass es vom Erwartungswert abhängt. Es ist sinnvoll, statt des
Stichprobenmittelwerts X die standardnormalverteilte Variable
√
n
Z=
(X − µ) ∼ N (0, 1)
σ
zu benutzen. Nur für µ = µ0 stimmt diese Variable mit der bisher benutzten Variablen
Z0 überein, die bei der Diskussion des Fehlers 1. Art in (44) definiert wurde. Unsere
Testbedingung für die Annahme von H0 ist, ausgedrückt durch den Funktionswert z der
Testvariablen Z0
−zq ≤ z ≤ zq
wobei zq das Quantil der Ordnung q = 1 − α2 der Standardnormalverteilung ist. Es ist
durch Φ(zq ) = q gegeben. Zur Berechnung von β(µ) ist es nützlich, die bisher benutzte
Variable Z0 durch die hier neu eingeführte Variable Z auszudrücken. Denn im Fall µ 6= µ0
ist Z standardnormalverteilt, Z0 jedoch nicht. Wir haben
√
√
√
n
n
n
Z0 =
(X − µ0 ) =
(X − µ − µ0 + µ) = Z −
(µ0 − µ)
σ
σ
σ
98
Damit erhalten wir für die Operationscharakteristik
√
n
(µ0 − µ) ≤ zq
β(µ) = Pµ ({−zq ≤ Z0 ≤ zq }) = Pµ
−zq ≤ Z −
σ
√
√
n
n
(µ0 − µ) − zq ≤ Z ≤
(µ0 − µ) + zq
= Pµ
σ
σ
√
√
n
n
= Φ
(µ0 − µ) + zq − Φ
(µ0 − µ) − zq
σ
σ
Abbildung 26: links: Operationscharakteristik β(µ) für das Beispiel µ0 = 40 mV, σ = 5
und n = 10 für α = 0, 05 (blau, untere Kurve) und α = 0, 001 (rot, obere Kurve); rechts:
standardisierte“ Operationscharakteristik fOC (d) für α = 0, 05 (blau, untere Kurve) und
”
α = 0, 001 (rot, obere Kurve)
Für das hier schon mehrfach angeführte Zahlenbeispiel des verrauschten Spannungssignals mit µ0 = 40 mV, σ = 5 und 10 Übertragungen ist die Operationscharakteristik
β(µ) für α = 0.05 und α = 0, 001 in Abb. 26 (links) gezeigt. Im Fall α = 0.05 hat
man bei 10 Übertragungen nur eine vernünftige Chance, mit dem Test eine Abweichung
von der Nullhypothese festzustellen, wenn die Abweichung mehr als 2 bis 3 mV beträgt,
bei α = 0, 001 kann man nur eine Abweichung von etwa 5 mV feststellen. Bei kleineren
Abweichungen ist die Wahrscheinlichkeit für einen Fehler 2. Art größer als 21 . Beachten
Sie, dass man bei größerem n (also mehr Übertragungen desselben Signals) auch kleinere
Abweichungen feststellen kann.
Damit die Darstellung nicht von der Zahl der Messungen, vom Erwartungswert und
der Varianz abhängt, ist es sinnvoll, statt µ die Variable
√
n
d :=
(µ − µ0 )
σ
einzuführen und die Funktion
fOC (d) := Φ(zq − d) − Φ(−zq − d)
zu betrachten. Dann erhält man die Operationscharakteristik durch β(µ) = fOC d(µ) .
Diese Funktion ist in Abb. 26 (rechts) gezeigt, und zwar für die beiden bisher betrachteten Werte für α. Mit Hilfe der Symmetrieeigenschaften der Verteilungsfunktion Φ(x)
99
der Standardnormalverteilung kann man zeigen (Übungsaufgabe, siehe (16)), dass fOC (d)
eine gerade Funktion ist. Zuweilen wird daher auch |d| als Parameter eingeführt.
Betrachten wir ein Zahlenbeispiel: Wir legen α = 0, 05 fest und fordern für unsere
Anwendung, dass man bei einer Abweichung von mehr als 2 mV vom Wert µ0 = 40 mV
mit einer Wahrscheinlichkeit von höchstens 0, 1 die Nullhypothese akzeptiert. Damit ergibt
sich aus der Abbildung ein Wert von |d| ≈ 3, 2. Da σ = 5 gegeben ist, kann man die
Forderung erfüllen, indem man n = 64 (oder größer) wählt.
Wir sind hier von der unrealistischen Annahme ausgegangen, dass wir die Varianz σ 2
kennen. In der Praxis kennt man diese nicht. Man hat dann — wie bei den Konfidenzintervallen erläutert wurde — eine Testvariable, die der Student-Verteilung genügt. Die
grundlegende Vorgehensweise ist aber dieselbe wie im hier betrachteten Beispiel.
7
Zufallszahlen, Simulation von Zufallsexperimenten
Bei vielen Programmiersprachen und Mathematik-Programmen besteht die Möglichkeit,
Zufallszahlen zu erzeugen. Unter Scilab kann man durch den Aufruf rand(’uniform’) eine Gleichverteilung im Intervall [0, 1] als die gewünschte Verteilung wählen und dann durch
x=rand() eine Zufallszahl zwischen 0 und 1 erzeugen. Die Einstellung auf eine Gleichverteilung bleibt dann erhalten, bis sie explizit geändert wird. Durch rand(’normal’) wird
eine Standardnormalverteilung eingestellt, danach erhält man durch x=rand() standardnormalverteilte Zufallszahlen. Mit dem Kommando x=rand(1,2000); erhält man einen
Zeilenvektor von 2000 Zufallszahlen. Abb. 27 zeigt als Ergebnis die Histogramme von 2000
auf diese Weise erzeugten Zufallszahlen für beide mögliche Verteilungen. Das Verfahren,
das von rand verwendet wird, gilt heute als veraltet. Es wird daher empfohlen, für wissenschaftliche Zwecke (beispielsweise Diplomarbeiten) die etwas aufwändigere Funktion
grand zu nehmen, näheres hierzu siehe das Help-Menu (erhältlich mit help grand).
Abbildung 27: Histogramme von 2000 mit Scilab erzeugten Zufallszahlen, links gleichverteilte, rechts standardnormalverteilte Zufallszahlen
Man sollte sich jedoch darüber im klaren sein, dass der Computer kein echtes Zufallsexperiment durchführt. Es ist daher zutreffender, von Pseudozufallszahlen zu sprechen. Das
Ergebnis von Rechnungen im Computer ist stets eindeutig bestimmt. Man kann jedoch
durch bestimmte Rechenoperationen versuchen, Folgen von Zahlen zu erzeugen, deren
relative Häufigkeit innerhalb gleichlanger kleiner Teilintervalle von [0, 1] annähernd gleich
ist. Ein beliebtes Rechenschema hierzu ist, zunächst eine Folge ganzer Zahlen durch eine
100
Vorschrift der Art
nk := (a · nk−1 + c)
mod m
für k > 0
(46)
mit einem beliebigen Startwert n0 ∈ {0, 1, 2, 3, . . . m − 1} zu erzeugen. Dabei kommt es
entscheidend auf eine geschickte Wahl der Zahlen a, c ∈ {0, 1, 2, 3, . . . m − 1} an. n mod m
ist der positive ganzzahlige Rest, der bei Division von n durch m entsteht. Eigentlich ist
durch dieses Symbol die entsprechende Restklasse gemeint, wir gehen aber hier davon aus,
dass wir stets einen Vertreter in {0, 1, 2, 3, . . . m − 1} aus der Restklasse auswählen (siehe
Abschnitt 8.1 im Skript zur Linearen Algebra). Bei günstiger Wahl der Zahlen a, c und m
kann man hoffen, dass sich die so erzeugten Zahlen mit einer Periode von m wiederholen.
Dann erhält man durch
nk
xk :=
m
Zahlen, die in [0, 1[ liegen und eine Gleichverteilung einigermaßen simulieren. Beachten Sie,
dass man damit höchstens m verschiedene Zufallszahlen erzeugen kann. Eine ungeschickte
Wahl der Parameter wie beispielsweise a = c = n0 = 5 und m = 10 führt auf die Folge
5, 0, 5, 0, 5, 0, . . ., die zur Simulation von gleichverteilten Zahlen völlig ungeeignet ist. Bei
einer geschickten Wahl dieser Parameter verhalten sich die auf diese Weise erzeugten
Zahlen in vielerlei Hinsicht so, als ob sie Funktionswerte unabhängiger identisch verteilter
Zufallsvariabler seien, deren Dichtefunktion und Verteilungsfunktion

(

0 falls x < 0
1 falls x ∈ [0, 1[
und
FX (t) = t falls x ∈ [0, 1]
(47)
f (x) =

0 sonst

1 falls x > 1
erfüllen.
Bekannte günstige Parameter sind:
• m = 231 , a = 65539, c = 0, n0 = 1 (RANDU genannt, gilt heute als veraltet)
• m = 235 , a = 513 , c = 0, n0 = 1 (von Apple verwandt)
• m = 1012 − 11, a = 427419669081, c = 0, n0 = 1 (von Maple verwandt)
• m = 259 , a = 1313 , c = 0, n0 = 123456789(232 +1) (von der NAG-Fortran-Bibliothek
verwandt)
• m = 232 , a = 3141592653, c = 1, n0 = 0 (vom Programm Derive verwandt)
• m = 231 − 1, a = 75 , c = 0, n0 = 1
Fasst man zwei aufeinanderfolgende auf diese Weise erzeugte Zufallszahlen (xk , xk+1 )
als Koordinaten eines Punktes in der Ebene auf, dann sollten diese Punkte im Einheitsquadrat möglichst gleich verteilt liegen. Analog kann man drei oder allgemein n aufeinanderfolgende Zahlen als Koordinaten eines Punktes im Raum R3 oder allgemein Rn auffassen, die eigentlich möglichst gleichverteilt im (allgemein n-dimensionalen) Einheitswürfel
liegen sollten. Derartige Anforderungen zu erfüllen, ist mit Zufallsgeneratoren der angegebenen Art nicht möglich. Das fällt nicht auf, wenn man bedeutend weniger als m
Zufallszahlen benutzt. Wenn man jedoch alle m Zufallszahlen benutzt, dann ist es deutlich sichtbar, dass die damit erzeugten Punkte im Rn nicht zufällig verteilt sind. Dies ist
101
in Abb. 28 demonstriert für Zufallszahlen, die gemäß (46) mit m = 500, a = 41, c = 343
und n0 = 251 erzeugt wurden. Links sind die Punkte (xk , xk+1 ) für k = 0, . . . 48 (also
insgesamt 25 Punkte) grafisch dargestellt. Sie scheinen zufällig über das Einheitsquadrat
verteilt. Rechts sind dagegen alle möglichen 250 Punkte (also für k = 0, . . . 498) gezeigt.
Sie liegen auf wenigen zueinander parallelen Geraden und entsprechen daher in keiner
Weise dem, was man anschaulich unter zufällig verteilt“ versteht. Die hier angegebenen
”
Verfahren zur Erzeugung von Zufallszahlen sind daher weiter verfeinert und verbessert
worden. Es muss hierzu auf die Spezialliteratur verwiesen werden.
Abbildung 28: Punkte (xk , xk+1 ), die nach (46) und xk := nmk mit m = 500, a = 41,
c = 343 und n0 = 251 erzeugt wurden. Die ersten 25 Punkte (links) scheinen zufällig
verteilt, alle 250 möglichen Punkte (rechts) liegen auf wenigen parallelen Geraden.
Wenn man auf die beschriebene oder eine ähnliche Weise in [0, 1[ gleichverteilte Zufallszahlen xk erzeugt, dann kann man diese benutzen, um Zufallszahlen zu erzeugen, die nach
einer anderen, beispielsweise durch ihre Verteilungsfunktion F (t) gegebenen Verteilung,
verteilt sind. Besonders einfach ist dies, wenn die vorgegebene Verteilungsfunktion F (t)
injektiv und stetig ist und damit eine Umkehrfunktion F −1 existiert. Dann simulieren die
Werte
yk = F −1 (xk )
Funktionswerte von unabhängigen identisch verteilten Zufallsvariablen, deren Verteilungsfunktion F (t) ist. In der Fachsprache der Wahrscheinlichkeitsrechnung bedeutet dies, dass
wir als neue Zufallszahl yk das xk -Quantil zur vorgegebenen Verteilungsfunktion F (t)
wählen. Falls xk = 0 oder xk = 1, dann wäre F −1 (xk ) nicht definiert. Eine solche Zufallszahl ist dann einfach zu überspringen,
sollten (wenn überhaupt)
diese beiden Werte
sehr selten auftreten, denn P {X = 0} = P {X = 1} = 0. Um zu überprüfen, ob
diese Zahlen tatsächlich nach der durch F (t) gegebenen Verteilungsfunktion verteilt sind,
haben wir nachzuweisen, dass für die durch Y := F −1 (X) definierte Zufallsvariable
FY (t) = P {Y ≤ t} = F (t)
erfüllt ist, wenn die Verteilung von X durch (47) gegeben ist. Nun ist jede Verteilungsfunktion F (t) monoton wachsend, also
a ≤ b ⇐⇒ F (a) ≤ F (b)
und damit
102
F −1 (x) ≤ t ⇐⇒ x ≤ F (t)
Also haben wir {F −1 (X) ≤ t} = {X ≤ F (t)}. Die Verteilungsfunktion der Variablen
X
ist laut Voraussetzung durch (47) gegeben, also haben wir hier P {X ≤ c} = c, wenn
c ∈ [0, 1] . Weil F (t) ∈ [0, 1], erhalten wir das gewünschte Ergebnis
FY (t) = P {Y ≤ t} = P {F −1 (X) ≤ t} = P {X ≤ F (t)} = F (t)
Auch wenn die vorgegebene Verteilungsfunktion F (t) nicht injektiv oder nicht stetig ist,
dann kann durch (10) stets eindeutig ein Quantil ausgewählt werden, falls q ∈]0, 1[ liegt.
Wir können also aus in ]0, 1[ gleichverteilten Zufallszahlen xk (Werte xk = 0 und xk = 1
sind zu überspringen) stets nach F (t) verteilte Zufallszahlen yk erhalten, indem wir
yk = min{t ∈ R | F (t) ≥ xk }
setzen. Man kann sich durch eine analoge Rechnung (wie im Sonderfall, dass F (t) injektiv und stetig ist) davon überzeugen, dass diese Zufallszahlen tatsächlich nach der
gewünschten Verteilung verteilt sind. Hierzu geht man von der Zufallsvariablen
Y (ω) := min{ξ ∈ R |F (ξ) ≥ X(ω)}
aus, wobei X durch (47) gegeben ist. Durch eine analoge Überlegung
wie im schon behandelten Spezialfall hat man zu beweisen, dass FY (t) = P {Y ≤ t} = F (t). Dies kann
man durchführen, wenn man sich klarmacht, dass F Y (ω) ≥ X(ω) und
Y (ω) ≤ t ⇐⇒ X(ω) ≤ F (t)
Hierzu kann man auch eine Zeichnung anfertigen. Beachten Sie, dass F (t) monoton wachsend ist, Sprungstellen haben kann, jedoch stets
lim F (t) = F (a)
t→a+
erfüllt.
Statt die Zufallszahlen yk auf diese Weise zu berechnen, sollte man in der Praxis
überprüfen, ob für die gewünschte Verteilung ein einfacheres Verfahren existiert, entsprechende Zufallszahlen aus gleichverteilten Zahlen zu erhalten. Dies ist beispielsweise für die
Normalverteilung der Fall. Hierzu wird auf die Literatur verwiesen. Für die meisten in der
Praxis benutzten Verteilungen existieren frei verfügbare Programme, um zugehörige Zufallszahlen zu erzeugen. In Scilab können mit der Funktion grand alle üblichen Verteilungen simuliert werden, die gewünschte Verteilung muss durch Übergabe eines betreffenden
Schlüsselworts als Argument eingestellt werden (siehe das Help-Menu).
A
A.1
Anhang: Mehrfachintegrale
Funktionen von 2 Variablen: Zweifachintegrale
Die anschauliche Bedeutung des Integrals
Rb
f (x)dx ist die mit dem Vorzeichen der Funk-
a
tion versehene Fläche zwischen dem Graphen der Funktion und der x-Achse. Wir wollen
dies hier zunächst für Funktionen von 2 Variablen verallgemeinern. Der Graph z = f (x, y)
ist eine gekrümmte Fläche, und wir wollen durch einen analogen Grenzübergang das mit
103
dem Vorzeichen von z versehene Volumen zwischen der xy-Ebene und dieser gekrümmten
Fläche berechnen.
Rb
Beim Integral f (x)dx hatten wir uns auf ein Intervall als besonders einfache Teila
menge von R2 beschränkt und das Intervall [a, b] in Teilintervalle unterteilt und dann den
Grenzwert immer kleiner werdender Teilintervalle betrachtet. Hier haben wir es statt mit
Intervallen [a, b] mit Teilmengen der xy-Ebene zu tun, und auch hier werden wir uns nur
mit mathematisch vernünftigen“ Teilmengen B ⊂ R2 beschäftigen. In der Praxis sind
”
das häufig Rechtecke (besonders einfach)
[a, b] × [c, d]
Dreiecke, Kreise (das Innere) oder Ellipsen. Wie wir bei Intervallen auch [a, ∞[ zugelassen
haben, werden wir dann mit einem weiteren Grenzübergang auch unendlich ausgedehnte
Teilmengen in R2 zu behandeln haben, als einfaches Beispiel sei die Menge
[−∞, b] × [−∞, d]
genannt. Wir werden auch Teilmengen als vernünftig“ ansehen, die als Vereinigung einer
”
Folge von Rechtecken zustandekommen.
Abbildung 29: Zerlegung einer Teilmenge B ⊂ R2 in kleine Rechtecke (links), wir betrach(n)
ten den Grenzwert max{∆Ak )} → 0 (rechts)
Wir gehen davon aus, dass wir eine auf einer derartigen Teilmenge definierte vernünf”
tige“ Funktion haben, betrachten also beispielsweise auf B ⊂ R2 stetige und beschränkte
Funktionen. Unsere frühere Unterteilung des Intervalls in Teilintervalle ersetzen wir durch
eine Unterteilung der Teilmenge B in kleine Rechtecke der Kantenlängen ∆xk und ∆yk .
Wir werden dann Folgen solcher Unterteilungen betrachten, die so gewählt sind, dass
die jeweils maximale Kantenlänge gegen Null konvergiert, wir also immer mehr kleinere
Rechtecke haben. Dies ist in Abb. 29 angedeutet. Die Fläche der Rechtecke bezeichnen
wir mit
∆Ak = ∆xk · ∆yk
(n)
Wir nehmen also Folgen solcher Unterteilungen, so dass max{∆Ak )} → 0. Wir nähern
das Volumen zwischen xy-Ebene und der gekrümmten Fläche z = f (x, y) durch das
Volumen von kleinen Quadern an, deren Grundfläche durch die kleinen Flächen mit dem
Flächeninhalt ∆Ak und deren Höhe durch den Funktionswert im kleinen Rechteck gegeben
104
2
2
Abbildung 30: Fläche z = e−x −y , eingeschränkt auf den Einheitskreis (links), grobe
Näherung des Volumens zwischen der xy-Ebene und dieser Fläche (rechts)
ist. Im Grenzwert kleiner Rechtecksflächen sollte es keine Rolle spielen, an welcher Stelle
des Rechtecks wir den Funktionswert berechnen.
In jedem der Rechtecke wählen wir einen Punkt (ξk , ηk ) aus. Dies kann der Mittelpunkt
sein, aber auch der Punkt, an dem innerhalb des Rechtecks die Funktion ihr Minimum
oder ihr Maximum annimmt. Das Volumen des kleinen Quaders ist also durch
∆Vk = ∆Ak · f (ξk , ηk )
gegeben, wenn f (ξk , ηk ) positiv ist. Ansonsten erhalten wir das mit dem Vorzeichen der
Funktion behaftete Volumen. Das gesamte, mit dem Vorzeichen behaftete Volumen zwischen der Teilmenge B der xy-Ebene und der gekrümmten Fläche z = f (x, y) ist dann
näherungsweise gegeben durch die Riemannsche Summe
X
X
f (ξk , ηk )∆xk · ∆yk
f (ξk , ηk )∆Ak =
k
k
und diese Näherung sollte umso besser sein, je kleiner die Rechtecke gewählt sind. Dies
ist in Abb. 30 und Abb. 31 veranschaulicht. Dabei ist als Beispiel
B := {(x, y) ∈ R2 | x2 + y 2 ≤ 1},
(x, y) 7→ f (x, y) = e−x
f : B → R,
2 −y 2
gewählt.
Wir definieren das Integral als den Grenzwert dieser Riemannschen Summen, wobei
wir die immer feiner werdenden Zerlegungen mit n nummerieren (zur Erinnerung, immer
(n)
feiner heißt hier max{∆Ak )} → 0)
ZZ
f (x, y)dA =
B
!
ZZ
f (x, y)dx dy := lim
n→∞
B
X
(n)
(n)
(n)
f (ξk , ηk )∆Ak
k
Analog zum Integral für Funktionen einer Variablen erhalten wir die folgenden Rechen-
105
Abbildung 31: Verbesserung der Näherung des Volumens zwischen dem Einheitskreis auf
2
2
der xy-Ebene und der Fläche z = e−x −y durch Verfeinerung der Unterteilung in kleine
Rechtecke
regeln:
ZZ
f (x, y) + g(x, y) dx dy =
ZZ
ZZ
f (x, y)dx dy +
g(x, y)dx dy
B
B
B
und für alle Konstanten c ∈ R
ZZ
ZZ
c · f (x, y)dx dy = c ·
f (x, y)dx dy
B
B
sowie für Teilmengen B1 ⊂ R2 und B2 ⊂ R2 mit B1 ∩ B2 = ∅
ZZ
ZZ
ZZ
f (x, y)dx dy =
f (x, y)dx dy +
f (x, y)dx dy
B1 ∪B2
B1
B2
Ausrechnen lassen sich Flächenintegrale meist mit dem folgenden Satz:
RR
Satz A.1.1 (Satz von Fubini) Wenn B = [a, b] × [c, d] und
|f (x, y)|dx dy existiert
B
RR
(also
|f (x, y)|dx dy < ∞), dann gilt
B
Zb
ZZ
f (x, y)dx dy =

c
Zb
f (x, y)dx dy =
B

B

Zb
f (x, y)dx dy
a
|f (x, y)|dx dy < ∞, dann gilt

Zd
Zd
f (x, y)dy  dx =

−∞
RR


c
analog wenn B = ] − ∞, b]× ] − ∞, d] und
ZZ
Zd
f (x, y)dy  dx =

a
B

Zd
−∞

Zb
f (x, y)dx dy

−∞

−∞
und entsprechend für die anderen Möglichkeiten unendlicher Rechtecke“ B ⊂ R2 .
”
106
y
B
x
Abbildung 32: Teilmenge B oben und unten durch den Graphen von Funktionen begrenzt
In vielen praktischen Fällen ist die Menge B ⊂ R2 durch die Graphen der Funktionen
y = fo (x) oben“ und y = fu (x) unten“ begrenzt, also
”
”
B = {(x, y) | a ≤ x ≤ b und fu (x) ≤ y ≤ fo (x)}
RR
wie dies in Abb. 32 verdeutlicht ist. Wenn
|f (x, y)|dx dy < ∞, dann kann in diesem
B
Fall das Integral ausgerechnet werden durch
Zb
ZZ
f (x, y)dx dy =

fZo (x)

f (x, y)dy  dx


a
B

(48)
fu (x)
Beachten Sie dabei, dass x = c die Ebene senkrecht zur x-Achse ist. Der Wert des Integrals
fZo (x)
f (x, y)dy
fu (x)
ist für den Fall f (x, y) ≥ 0 die von x abhängige Querschnittsfläche senkrecht zur x-Achse
durch das zu berechnende Volumen. Diese Querschnittsfläche ist in y-Richtung durch
fu (x) und fo (x) begrenzt, wie aus der Abb. 32 ersichtlich ist. Es ist plausibel, dass man
dann das gesamte Volumen durch eine Integration über x erhält.
Wenn die Menge B ⊂ R2 durch die Graphen der Funktionen x = gl (y) links“ und
”
x = gr (y) rechts“ begrenzt ist (siehe hierzu Abb. 33), also
”
B = {(x, y) | c ≤ y ≤ d und gl (y) ≤ x ≤ gr (y)}
RR
und wenn |f (x, y)|dx dy < ∞, dann erhält man das Integral durch
B
Zd
ZZ
f (x, y)dx dy =
B

gZr (y)

f (x, y)dx dy


c
107

gl (y)
(49)
y
B
x
Abbildung 33: Teilmenge B links und rechts durch den Graphen von Funktionen begrenzt
Dies ist ebenfalls für f (x, y) ≥ 0 plausibel, denn
gZr (y)
f (x, y)dx
gl (y)
stellt die von y abhängige Querschnittsfläche durch das zu berechnende Volumen dar
(y = c ist die Ebene senkrecht zur y-Achse).
Substitutionsregel:
Bei der Substitution
x = gx (u, v),
y = gy (u, v)
ist dx dy zu ersetzen durch
∂gx
(u, v)
∂u
∂gx
(u, v)
∂v
du dv
∂gy
∂gy
(u,
v)
(u,
v)
∂u
∂v
(50)
Bei einer konkreten Berechnung nach dem Satz von Fubini bzw. (48) oder (49) hat man
dann die Grenzen bezüglich der neuen Variablen u und v so umzurechnen, dass die Integration über die vorgegebene Teilmenge B erfolgt!
Ein häufig vorkommender Spezialfall ist die Einführung von Polarkoordinaten
x = gx (r, ϕ) = r cos ϕ,
Hierfür erhalten wir
∂gx (r, ϕ)
∂r
∂gy
∂r (r, ϕ)
y = gy (r, ϕ) = r sin ϕ
cos ϕ −r sin ϕ
=
∂gy
(r, ϕ) sin ϕ r cos ϕ
∂ϕ
∂gx
(r, ϕ)
∂ϕ
108
= r(cos2 ϕ + sin2 ϕ) = r
Damit haben wir die folgende nützliche Regel gewonnen:
Bei der Substitution
ersetzen.
x = r cos ϕ, y = r sin ϕ
ist
dx dy
durch
r dr dϕ
zu
Polarkoordinaten sind besonders dann nützlich, wenn das Integrationsgebiet B rotationssymmetrisch ist wie beispielsweise das Innere des Einheitskreises:
B = {(x, y) | x2 + y 2 ≤ 1}
Dann ergeben sich die neuen“ Grenzen zu r ∈ [0, 1] und ϕ ∈ ] − π, +π]. Im Sonderfall
”
B = R2 haben wir r ∈ [0, ∞[.
Beispiele:
+∞
R
(a) Berechnung des Integrals
2
e−x dx
−∞
2  +∞
  +∞

Z+∞
Z
Z
2
2
2

e−x dx = 
e−x dx · 
e−y dy 

−∞
−∞
(51)
−∞
Nach dem Satz von Fubini haben wir




Z+∞ Z+∞
Z+∞ Z+∞
Z+∞ Z+∞
2
2
 e−(x2 +y2 ) dx dy =
 e−x2 · e−y2 dx dy
e−(x +y ) dx dy =
−∞ −∞
−∞
−∞
−∞
−∞
Z+∞
 +∞

Z
2
2
e−y  e−x · dx dy
=
−∞

−∞
Z+∞

Z+∞
2
2
e−x dx · 
e−y dy 
= 
 
−∞
(52)
−∞
da Konstante vor das Integral gezogen werden können. Damit haben wir
 +∞
2
 +∞
  +∞

Z
Z
Z
Z+∞ Z+∞
2
2
2
2
2
−x
−x
−y

e dx = 
e dx · 
e dy  =
e−(x +y ) dx dy
−∞
−∞
−∞
Z+πZ∞
Z∞
=
2
e−r r dr dϕ =
−π 0
0
−∞ −∞

Z+π
Z+∞
2
2
−r
 re dϕ dr = 2π
re−r dr

−π
0
Z+∞
∞
e−u du = π −e−u 0 = π
= π
(53)
0
wobei die Substitution r2 = u, r dr = 21 du angewandt wurde. Wir erhalten damit
das Ergebnis
Z+∞
√
2
e−x dx = π
−∞
109
das bei Rechnungen mit der Wahrscheinlichkeitsdichte der Normalverteilung häufig
benutzt wird.
(b) Weiteres Beispiel für die Anwendung von Mehrfachintegralen in der Stochastik: Wir
betrachten zwei stochastisch unabhängige Zufallsvariable X und Y über demselben
Grundraum. Wir nehmen an, dass diese eine Wahrscheinlichkeitsdichte besitzen, bezeichnen die Wahrscheinlichkeitsdichte von X mit fX (t) und die von Y mit fY (t)
sowie die gemeinsame Wahrscheinlichkeitsdichte mit f (x, y). Diese ist also nach
Satz 5.1.5 gegeben durch f (x, y) = fX (x) · fY (y). Wir wollen daraus die Wahrscheinlichkeitsdichte der Zufallsvariablen Z = X + Y berechnen, d.h. hierzu eine
allgemeine Formel aufstellen. Schließlich wollen wir diese dann anwenden auf das
konkrete Beispiel der Gleichverteilung auf [0, 1], d.h. für
(
1 falls 0 ≤ t ≤ 1
fX (t) = fY (t) =
(54)
0 sonst
Die Verteilungsfunktion FZ (t) erfüllt
FZ (t) = P {Z ≤ t} = P {X+Y ≤ t} =
ZZ
ZZ
fX (x)·fY (y)dx dy
f (x, y)dx dy =
Bt
Bt
wobei Bt = {(x, y) | x + y ≤ t} ein unendliches Dreieck“ darstellt, das nach oben
”
Abbildung 34: Teilmenge Bt = {(x, y) | x + y ≤ t} (gelb, hier für t = 2, 5)
durch die Gerade y = −x + t begrenzt ist (siehe hierzu auch die Abb. 34). Damit
können wir das Mehrfachintegral nach (48) ausrechnen, wobei wir hier ] − ∞, +∞[
statt [a, b] und −∞ statt fu (x) zu nehmen haben:


 t−x

ZZ
Z+∞ Zt−x
Z+∞
Z

fX (x) 
fY (y)dy  dx
fX (x)·fY (y)dx dy =
fX (x) · fY (y)dy  dx =
Bt
−∞
−∞
−∞
110
−∞
Die Substitution u = y + x, du = dy mit der Umrechnung der Grenzen nach
y → −∞ ⇐⇒ u → −∞
y = t − x ⇐⇒ u = t
und
liefert
 t−x

 t

Z+∞
Z
Z+∞
Z
fX (x) 
fY (y)dy  dx =
fX (x) 
fY (u − x)du dx
−∞
−∞
−∞
Zt
=
−∞

Z+∞
fX (x)fY (u − x)dx du

−∞

−∞
wobei wir zuletzt die Integrationsreihenfolge nach dem Satz von Fubini vertauscht
haben, denn ] − ∞, t] × ] − ∞, +∞[ stellt ein unendliches Rechteck“ dar.
”
Insgesamt haben wir dadurch erhalten
 +∞

Z
Zt
Zt

fX (x)fY (u − x)dx du
FZ (t) = P {Z ≤ t} =
fZ (u)du =
−∞
−∞
−∞
und wir erhalten durch Vergleich die gesuchte Wahrscheinlichkeitsdichte von Z =
X +Y:
Z+∞
fZ (u) =
fX (x)fY (u − x)dx
(55)
−∞
Ein derartiges Integral heißt Faltungsintegral“ oder Faltung“ von fX und fY .
”
”
Wir haben nun noch das Integral (55) für unser durch (54) gegebenes Beispiel auszurechnen:
Z+∞
Z1
fZ (u) =
fX (x)fY (u − x)dx = fY (u − x)dx
−∞
0
Für x ∈ [0, 1] ist fY (u − x) = 0 falls u < 0 oder u > 2. Wir haben also noch die
Fälle zu unterscheiden
(a) u ∈ [0, 1]: Dann ist (weil x ∈ [0, 1])
(
1
fY (u − x) =
0
falls x ≤ u
falls x > u
Für diesen Fall ist
Z1
fZ (u) =
fY (u − x)dx =
0
Zu
dx = u
0
111
Abbildung 35: Wahrscheinlichkeitsdichte von X und Y (links) sowie von Z = X + Y
(rechts)
(b) u ∈ ]1, 2]: Dann ist (weil x ∈ [0, 1])
(
0 falls u > 1 + x, also falls x < u − 1
fY (u − x) =
1 falls u ≤ 1 + x, also falls x ≥ u − 1
Für diesen Fall ist
Z1
fZ (u) =
fY (u − x)dx =
0
Z1
dx = 1 − (u − 1) = 2 − u
u−1
Wir haben also als Ergebnis dieser mühsamen Überlegungen die Wahrscheinlichkeitsdichte


falls u ∈ [0, 1]
u
fZ (u) = 2 − u falls u ∈ ]1, 2]


0
sonst
Sie ist in Abb. 35 (rechts) gezeigt, links ist die Wahrscheinlichkeitsdichte von X und
Y.
A.2
Funktionen von 3 und mehr Variablen
Bei Funktionen von drei Variablen kann man sich den Graphen der Funktion nicht mehr
anschaulich vorstellen, wohl aber den Integrationsbereich als Teilmenge B ⊂ R3 . Wie
wir uns bei einer Variablen auf Intervalle als besonders einfache Teilmengen beschränkt
haben, werden wir auch hier nur vernünftige“ Teilmengen des R3 betrachten, wie das
”
Innere von Quadern
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ]
oder unendlich ausgedehnte Mengen der Form
B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ]
112
oder das Innere von Kugeln, Pyramiden, Zylindern. Wir werden die Teilmenge B dann in
kleine Quader mit den Kantenlängen ∆xk , ∆yk und ∆zk unterteilen. Das Volumen eines
solchen Quaders bezeichnen wir mit
∆Vk = ∆xk · ∆yk · ∆zk
(n)
Und wir betrachten Folgen solcher Unterteilungen, so dass max{∆Vk )} → 0. In jedem
der kleinen Quader wählen wir einen Punkt (ξk , ηk , µk ) aus. Dies kann der Mittelpunkt
sein, aber auch der Punkt, an dem innerhalb des Quaders die Funktion ihr Minimum
oder ihr Maximum annimmt. Das im vorigen Unterabschnitt betrachtete Volumen ist hier
durch das mit dem Vorzeichen der Funktion behaftete Volumen“ eines vierdimensionalen
”
Quaders zu ersetzen,
∆Vk · f (ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · f (ξk , ηk , µk )
Auch wenn das Ergebnis keine anschauliche geometrische Bedeutung hat, so kommt es
in vielen Anwendungen vor. Wenn die Dichte ρ eines Gegenstands vom Ort abhängt und
durch die Funktion f beschrieben ist, dann stellt
∆Vk · ρ(ξk , ηk , µk ) = ∆xk · ∆yk · ∆zk · ρ(ξk , ηk , µk )
näherungsweise die Masse des Quaders mit dem Volumen Vk dar, und die Näherung ist
gerechtfertigt, wenn sich die Funktion ρ(x, y, z) im betrachteten kleinen Quader nur wenig
ändert.
(n)
Für Folgen von Unterteilungen in kleine Quader mit max{∆Vk )} → 0 definieren wir
das Dreifachintegral durch den Grenzwert
ZZZ
!
ZZZ
f (x, y)dV =
B
f (x, y, z)dx dy dz := lim
n→∞
B
X
(n)
(n)
(n)
(n)
f (ξk , ηk , µk )∆Vk
k
und wir erhalten analog die Rechenregeln
ZZZ
f (x, y, z)+g(x, y, z) dx dy dz =
B
ZZZ
ZZZ
f (x, y, z)dx dy dz+
g(x, y, z)dx dy dz
B
B
und für alle Konstanten c ∈ R
ZZZ
ZZZ
c · f (x, y, z)dx dy dz = c ·
f (x, y, z)dx dy dz
B
B
sowie für Teilmengen B1 ⊂ R3 und B2 ⊂ R3 mit B1 ∩ B2 = ∅
ZZZ
ZZZ
ZZZ
f (x, y, z)dx dy dz =
f (x, y, z)dx dy dz +
f (x, y, z)dx dy dz
B1 ∪B2
B1
B2
113
In unserem Beispiel der vom Ort abhängigen Dichte ρ(x, y, z) stellt
ZZZ
ρ(x, y, z)dx dy dz
B
die Masse des durch die Teilmenge B ⊂ R3 beschriebenen Gegenstands dar. Zum Ausrechnen ist hier die Verallgemeinerung von Satz A.1.1 nützlich:
Satz A.2.1 (Satz von Fubini) Wenn
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ]
RRR
RRR
und
|f (x, y, z)|dx dy dz existiert (also
|f (x, y, z)|dx dy < ∞), dann gilt
B
B
Zb1
ZZZ
f (x, y, z)dx dy dz =

Zb3
a2
=

Zb2

a3


f (x, y, z)dz  dy  dx
a3


Zb1

f (x, y, z)dx dy  dz

a2

Zb3


a1
B
Zb2
a1
und analog für die anderen Möglichkeiten, die Reihenfolge der Integration zu ändern.
Entsprechend gilt, wenn
B = ] − ∞, b1 ]× ] − ∞, b2 ]× ] − ∞, b3 ]
und
RRR
B
|f (x, y, z)|dx dy dz < ∞
Zb1
ZZZ
f (x, y, z)dx dy dz =
Zb2

−∞
B

Zb3
=
Zb2

−∞
Zb3
−∞


f (x, y, z)dz  dy  dx

−∞


−∞

Zb1



f (x, y, z)dx dy  dz
−∞
und entsprechend für die anderen Möglichkeiten, die Reihenfolge zu vertauschen und für
andere unendliche Quader“ B ⊂ R3 .
”
Die Verallgemeinerung auf Funktionen von n Variablen und vernünftige“ Teilmengen
”
B ⊂ Rn ist naheliegend. Besonders angenehm sind n-dimensionale Quader
B = [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] × · · · × [an , bn ]
und in der Wahrscheinlichkeitsrechnung spielen unendlich ausgedehnte Quader“ der Form
”
B = ] − ∞, b1 ] × ] − ∞, b2 ] × ] − ∞, b3 ] × · · · × ] − ∞, bn ]
eine wichtige Rolle. Wir unterteilen vernünftige“ Teilmengen B ⊂ Rn in kleine Quader
”
mit den Kantenlängen ∆x1 , ∆x2 , ∆x3 , . . . ∆xn mit dem Volumen“
”
∆x1 · ∆x2 · ∆x3 · · · ∆xn
114
Wir beschränken uns auf vernünftige“ Funktionen, beispielsweise solche, die in B stetig
”
und beschränkt sind. In jedem kleinen Quader wählen wir einen Punkt (ξ1 , ξ2 , ξ3 , . . . ξn )
aus. Dies kann der Mittelpunkt oder der Punkt sein, an dem die Funktion ihr Minimum
oder Maximum annimmt oder ein willkürlich gewählter Punkt. Grundbausteine“ der
”
Riemannschen Summen haben dann die Form
f (ξ1 , ξ2 , ξ3 , . . . ξn )∆x1 · ∆x2 · ∆x3 · · · ∆xn
Wir betrachten Folgen von Unterteilungen von B in kleine Quader, die immer feiner wer(m)
den in dem Sinn, dass max{∆xk )} → 0 für alle k. Wir haben dabei zur Nummerierung
dieser Unterteilungen den Buchstaben m gewählt, da n hier die Zahl der Variablen der
Funktion angibt. Wir definieren dann das Mehrfachintegral als Grenzwert
Z Z Z
···
Z
f (x1 , x2 , x3 , . . . xn )dx1 dx2 dx3 . . . dxn :=
B
!
lim
m→∞
X
(m)
(m) (m) (m)
f (ξ1 , ξ2 , ξ3 , . . . ξn(m) )∆x1
k
·
(m)
∆x2
·
(m)
∆x3
· · · ∆x(m)
n
Es wird hier sichtbar, dass die bisher benutzte Notation zwar anschaulich, aber für n
Variable sehr schwerfällig ist.
Der Satz von Fubini gilt auch für n Variable und sagt aus, dass das Integral über einen
n-dimensionalen Quader B in jeder beliebigen Reihenfolge durch eine Integration über die
einzelnen Variablen ausgerechnet werden kann, wenn
Z Z Z
Z
· · · |f (x1 , x2 , x3 , . . . xn )|dx1 dx2 dx3 . . . dxn < ∞
B
und dies gilt auch, wenn der Quader B unendlich ausgedehnt ist.
Mathematische Anmerkung:
Es wurde in diesem Abschnitt darauf verzichtet, genaue mathematische Voraussetzungen anzugeben dafür, dass die angegebenen Sätze gelten, schon bei der Definition des
Mehrfachintegrals wurde einfach unterstellt, dass der entsprechende Grenzwert existiert.
Es hat sich herausgestellt, dass geeignete Voraussetzungen für den hier benutzten Riemannschen Integralbegriff (Grenzwert von Riemannschen Summen) sehr schwerfällig zu
formulieren sind und daher unbefriedigend sind. In der modernen Mathematik hat sich
daher der Integralbegriff von Lebesgue durchgesetzt, für den die Formulierung und vor
allem auch die Beweise der entsprechenden Sätze sehr viel einfacher sind. Er wird in der
Lehrveranstaltung Höhere Mathematik“ der Masterstudiengänge behandelt.
”
letzte Änderung am 4. Februar 2012
115
Herunterladen