Anmerkungen zu den Fußnoten Die folgenden Seiten enthalten

5
Anmerkungen zu den Fußnoten
Die folgenden Seiten enthalten zahlreiche Fußnoten.
Diese Fußnoten enthalten:
• Querverweise, Referenzen,
• Ergänzungen,
• Präzisierungen, Erläuterungen,
• Hinweise auf weiterführende Resultate oder Begriffe,
• Beweise und
• Definitionen.
Sie sind gedacht
• nicht als Haupttext,
• aber als Hilfestellung zum Verständnis des Haupttextes,
• zur Verdeutlichung von Verbindungen innerhalb der Vorlesung und
• für Ausblicke auf Resultate im späteren Verlauf der Vorlesung, bzw. in
weiterführenden Veranstaltungen.
28. Januar 2011
KAPITEL 1
Einleitung und Überblick
Die Wahrscheinlichkeitstheorie und die Statistik, die gelegentlich auch unter
dem Namen Stochastik 1.1 zusammengefaßt werden, sind Disziplinen der Mathematik, die der Beschreibung und der Untersuchung von Gesetzmäßigkeiten, die durch
den 1.2 Zufall“ beeinflußt werden, gewidmet sind.
”
Beispiel 1.1 (Gesetzmäßigkeit in einem zufälligen Geschehen). Eine sehr oft geworfene faire Münze zeigt in etwa der Hälfte aller Fälle Kopf“. Diese Gesetz”
mäßigkeit wird im sog. Gesetz der großen Zahlen, einem zentralen Resultat der
Wahrscheinlichkeitstheorie, mathematisch gefaßt 1.3.
Beispiel 1.2 (Auswertung zufälliger Beobachtungen). Eine nicht notwendigerweise
faire Münze werde mehrmals geworfen. Mit Hilfe der konkreten Wurfergebnisse soll
entschieden werden, ob
• die Münze fair ist, bzw.
• wie groß die Wahrscheinlichkeit 1.4 p ist, daß bei einem einzigen Wurf
Zahl“ erscheint 1.5.
”
Methoden zur Beantwortung solcher Fragen werden durch die Statistik bereitgestellt. Beispielsweise können Schätzer oder Konfidenzintervalle für p bestimmt werden. Es besteht auch die Möglichkeit, durch einen Test zu prüfen, ob die Münze
fair ist 1.6.
Beispiel 1.3 (Zufälliges Geschehen ohne eine erkennbare Gesetzmäßigkeit). 1.7
Öffentliche Diskussionsbeiträge von Politikern und Funktionären zur Steuer- oder
1.1In der Einleitung zu [5] findet sich eine Deutung des Wortes Stochastik aus Ursprüngen
im Altgriechischen.
1.2Ein fundamentaler Beitrag der Wahrscheinlichkeitstheorie ist insbesondere eine Beantwortung der Frage, wie Zufall“ mathematisch überhaupt beschrieben werden soll. Die Antwort wird
”
durch die Kolmogorovschen Axiome (2.1) und (2.2) gegeben.
1.3Das Gesetz der großen Zahlen exisitiert in vielen Variationen. Im vorliegenden Fall beschreibt es die Asymptotik bei Wurfanzahl N → ∞ der relativen Anzahl von Kopf“, d.h. des
”
Quotienten (Anzahl von Kopf“)/N . Insbesondere wird die Konvergenz dieses Quotienten gegen
”
seinen Erwartungswert, der bei einer fairen Münze 1/2 ist, festgehalten.
Eine vergleichbar grundlegende Bedeutung hat der Zentrale Grenzwertsatz, der im Zusammenhang dieses Beispiels die Asymptotik der zufälligen√Fluktuationen der relativen Anzahl
von Kopf“ um den Erwartungswert 1/2, d.h. genauer von N ((Anzahl von Kopf“)/N − 1/2),
”
”
charakterisiert.
1.4Dieser zentrale Begriff ist zunächst formal zu verstehen. Später wird genauer erläutert
werden, wie Ereignissen gewisse Wahrscheinlichkeiten ∈ [0, 1] zugeordnet werden. Es gilt: Ein
Ereignis mit Wahrscheinlichkeit 0 tritt (fast) sicher nicht ein, ein Ereignis mit Wahrscheinlichkeit 1 tritt (fast) sicher ein, allgemein tritt ein Ereignis mit größerer Sicherheit ein, je höher seine
Wahrscheinlichkeit ist.
1.5Die zu bestimmende Wahrscheinlichkeit ist 1/2, falls die Münze fair ist.
1.6Die Begriffe Schätzer, Konfidenzintervall und Test sind in der Statistik grundlegend. Sie
beschreiben spezielle Methoden, beobachtete Daten auszuwerten.
1.7Solche Phänomene, denen keine Gesetzmäßigkeit zugrundeliegt, werden in der Stochastik
nicht behandelt.
7
8
Rentengesetzgebung sind gelegentlich durch unkalkulierbare Einflüsse wie Wahlkampfvorbereitungen, Profilierungssucht, Lobbytätigkeit, . . . bestimmt. Eine Bearbeitung derartiger Äußerungen mit Methoden der Stochastik scheint nicht möglich
zu sein.
Mathematische Gesetzmäßigkeiten z.B. in der Natur, der Technik oder der
Wirtschaft 1.8 werden mit Hilfe von Modellen formuliert 1.9 und untersucht 1.10.
Daher ist das zentrale Thema dieser Vorlesung die Bildung und Untersuchung von
Modellen in der Wahrscheinlichkeitstheorie und der Statistik 1.11.
1.1. Konzepte und Methoden in Wahrscheinlichkeitstheorie und
Statistik
Im Rahmen einer speziellen Anwendung werden in diesem Abschnitt 1.1 einige
typische Fragestellungen und übliche Vorgehensweisen in der Wahrscheinlichkeitstheorie und der Statistik erläutert 1.12.
Es sei angenommen, daß in einem Industriebetrieb N gleichartige Produktionsstücke 1.13 zufällig ausgewählt und auf ihre Fehlerfreiheit getestet werden.
• Zunächst soll die Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke, d.h. die Struktur und die Eigenschaften
dieser Daten, analysiert werden 1.14.
• Weiterhin soll untersucht werden, wie aus konkreten Prüfungsergebnissen
Rückschlüsse auf die Verarbeitungsqualität des Betriebs gezogen werden
können 1.15.
1.1.1. Einfache Modellannahmen. 1.16 Es sei angenommen, daß
(i) ein einzelnes Produktionsstück mit einer vorerst noch unbekannten Wahrscheinlichkeit p ∈ [0, 1] fehlerhaft ist 1.17, und daß
(ii) die Qualitätseigenschaften der jeweiligen Produktionsstücke voneinander
unabhängig 1.18 sind.
1.8Dies betrifft alle Arten von Anwendungen, auch solche in denen kein Zufall involviert ist.
1.9Bei der Formulierung eines Modells werden alle bekannten, für wichtig erachteten Merkma-
le der jeweiligen Anwendung mathematisch formuliert. Vermeintlich unwesentliche Details werden
ignoriert, wie z.B. bei der Modellierung des Wurfs eines Würfels dessen Farbe.
1.10Nicht offensichtliche, sich als Konsequenzen spezieller Voraussetzungen, bzw. Modellannahmen ergebende Eigenschaften werden bewiesen.
1.11Eine mathematische Behandlung von Beispiel 1.3 scheitert an der Schwierigkeit, bzw. Unmöglichkeit ein vernünftiges Modell für die dort angesprochenen Diskussionsbeiträge zu entwerfen.
1.12Damit ist dieser Abschnitt 1.1 ein Ausblick auf die folgenden Kapitel 2 - 9.
1.13Je nach Branche könnten dies Glühlampen, Speicherchips oder auch PKW’s sein.
1.14In diesem Kontext werden insbesondere Methoden der Wahrscheinlichkeitstheorie angewandt.
1.15Bei diesem Vorhaben kommen Methoden der Statistik zur Geltung.
1.16Die nun vorgestellten Modellannahmen bilden die Basis der in den Abschnitten 1.1.2 und
1.1.4 eingeführten mathematischen Modelle. Derartige mathematische Modelle gehen immer von
Annahmen aus, die plausibel, widerspruchsfrei und mit der zugrundeliegenden Realität verträglich
sein sollen. Zur Klärung der Frage, ob diese Annahmen ausreichend sind oder aber verändert bzw.
ergänzt werden sollten, müssen vorhandene Daten und Fakten berücksichtigt, evtl. weitere Messungen und Experimente vorgenommen und auch die mathematischen Konsequenzen des Modells
mit der Realität verglichen werden.
1.17Mit dieser Annahme wird u.a. auch zum Ausdruck gebracht, daß die Qualität des Herstellungsprozesses keinen systematischen Schwankungen unterliegt: Jedes Produktionsstück besitzt
die gleiche Chance“, fehlerfrei zu sein.
”1.18
Der Begriff der Unabhängigkeit oder auch stochastischen Unabhängigkeit, der in der Umgangssprache eine klare Bedeutung hat, bzw. seine mathematisch präzisierte Formulierung wird
in der Stochastik außerordentlich oft verwendet. Die Unabhängigkeit von zwei Ereignissen A und
28. Januar 2011
9
Bemerkung 1.4. Völlig analoge Modellannahmen machen auch in anderen Situationen einen Sinn, z.B. bei Alkoholkontrollen im Straßenverkehr, beim Prüfen der
Wirksamkeit eines neuen Medikaments durch seine Verabreichung an Testpersonen oder bei der Untersuchung von Schlachtvieh auf eine spezielle Krankheit. In
diesen Fällen wären die Produktionsstücke durch Autofahrer, Testpersonen, bzw.
Schlachttiere zu ersetzen. Außerdem wäre dann p die Wahrscheinlichkeit für einen
festgestellten Alkoholkonsum, eine positive Wirkung des Medikaments, bzw. das
Vorliegen einer Erkrankung 1.19.
Die Modellannahmen (i) und (ii) kann man zunächst
• innerhalb der Wahrscheinlichkeitstheorie in ein mathematisches Modell
der Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke umsetzen. Für dieses wahrscheinlichkeitstheoretische Modell lassen sich mathematische Resultate herleiten, beispielsweise über Erwartungswerte oder die Asymptotik bei N → ∞ 1.20. Aufbauend auf dem
wahrscheinlichkeitstheoretischen Modell und den hierzu gewonnenen Erkenntnissen kann in einem weiteren Schritt
• innerhalb der Statistik 1.21 ein mathematisches Modell zur Auswertung
real vorliegender Prüfungsergebnisse entwickelt werden. Im Rahmen dieses
statistischen Modells können z.B. Verfahren erarbeitet werden, die eine
Schätzung des wahren“ Parameters p = pw 1.22 aus konkret erhobenen
”
Daten 1.23 ermöglichen.
1.1.2. Ein wahrscheinlichkeitstheoretisches Modell. Die Annahmen (i)
und (ii) in Abschnitt 1.1.1 können in einer mathematischen Struktur (ΩN , FN , PN,p )
zusammengefaßt werden 1.24:
• ΩN = {0, 1}N = (ω1 , ω2 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N beschreibt die Menge der möglichen Stichproben. ωk = 1, bzw. ωk = 0,
bedeutet, daß das k-te Produktionsstück 1.25 defekt, bzw. nicht defekt ist.
ΩN wird Stichprobenraum genannt.
B besagt, daß die Wahrscheinlichkeit, mit der A eintritt, sich nicht ändert, wenn bekannt wird,
daß B eingetreten ist.
Hier beschreibt die Unabhängigkeit der . . . Produktionsstücke“ eine gewisse Optimalität“
”
”
des Herstellungsprozesses: Auch wenn ein defektes Produktionsstück gefunden wird, so hat dennoch das nächste wieder alle Chancen“, fehlerfrei zu sein.
”
1.19Um alle diese möglichen
unterschiedlichen Situationen gleichzeitig behandeln zu können
und um irrelevante, spezielle Details aus dem Blickfeld zu drängen, wird in der Stochastik oft
der mehrmalige, unabhängige Wurf einer Münze betrachtet, die mit Wahrscheinlichkeit p Zahl“
”
zeigt. Wenn p = 1/2 ist, nennt man diese Münze fair, sonst wird sie als unfair bezeichnet.
1.20In jenen Überlegungen nimmt die Fehlerwahrscheinlichkeit p einen fest vorgegebenen
Wert an.
1.21Genaugenommen ist hier die mathematische, induktive oder schließende Statistik gemeint. Im Gegensatz dazu werden in der deskriptiven, beschreibenden oder empirischen Statistik
die Prüfungsdaten nur geeignet zusammengefaßt, beispielsweise in graphischen Darstellungen oder
Kennzahlen.
1.22Hiermit ist dasjenige p gemeint, das dem speziellen Produktionsprozeß, für den die
Prüfungen durchgeführt werden, zugeordnet ist.
1.23
D.h. aus den Prüfungsergebnissen für N ausgewählte Produktionsstücke.
1.24Mit der Struktur (Ω , F , P
N
N
N,p ) und den Eigenschaften ihrer Komponenten werden auf
eine elementare Weise die Kolmogorovschen Axiome erfüllt. Insbesondere erlaubt diese Struktur,
ein sog. Wahrscheinlichkeitsraum, die Modellannahmen (i) und (ii) aus Abschnitt 1.1.1 und die
dadurch ausgedrückten Zufallsmechanismen“ im Rahmen der Mathematik zu realisieren.
”
1.25Hier wird implizit
angenommen, daß die Produktionsstücke durchnumeriert werden.
28. Januar 2011
10
• Die Menge 1.26 FN = {A : A ⊆ ΩN } = Pot(ΩN ) beschreibt die Familie
aller Ereignisse. Beispielsweise sind
(1.1)
Ar =
N
X
ωi = r ,
ω ∈ ΩN :
r = 0, . . . , N,
i=1
die Ereignisse, daß jeweils genau r der getesteten Produktionsstücke defekt
sind 1.27.
• Jedem Ereignis A ∈ FN wird durch PN,p [A] ∈ [0, 1] seine Wahrscheinlichkeit zugeordnet 1.28. In Übereinstimmung mit der Modellannahme (i)
wird beispielsweise
PN,p {ω ∈ ΩN : ωi = 1} = p,
PN,p {ω ∈ ΩN : ωi = 0} = 1 − p,
(1.2)
i = 1, . . . , N,
festgesetzt. Weiterhin ist
PN,p [Ar ] = PN,p
(1.3)
"
[
ω∈Ar
#
{ω} =
1.29
X
PN,p [{ω}],
ω∈Ar
wobei
(1.4)
PN,p [{ω}] =
N
Y
1.30
i=1
= p
PN
pωi (1 − p)1−ωi
{z
}
|
(
p,
falls ωi = 1,
=
1 − p, falls ωi = 0,
i=1
ωi
(1 − p)N −
= pr (1 − p)N −r ,
PN
i=1
ωi
ω ∈ Ar .
1.26Pot(S) bezeichnet die Potenzmenge, d.h. die Menge aller Teilmengen einer Menge S.
1.27In einer anderen Sprechweise ist A das Ereignis, daß die gezogene Stichprobe genau r
r
”
defekte Produktionsstücke umfaßt“.
1.28Bei einem festen N hängt die Wahrscheinlichkeit eines Ereignisses von dem zwar innerhalb dieses wahrscheinlichkeitstheoretischen Modells als fest, sonst aber beliebig betrachteten
Parameter p ab. ΩN und FN hingegen sind von p unabhängig.
1.29Die Wahrscheinlichkeiten disjunkter Mengen addieren sich, d.h., wenn Ereignisse A und
B aufgrund von A ∩ B = ∅ sich gegenseitig ausschließen, gilt
(∗)
PN,p [A oder B] = PN,p [A ∪ B] = PN,p [A] + PN,p [B].
Somit addieren sich in diesem Fall die Einzelwahrscheinlichkeiten. Die Beziehung (∗) entspricht der
Anschauung, d.h., dem intuitiven Verständnis des Begriffs Wahrscheinlichkeit“. Im Rahmen der
”
Wahrscheinlichkeitstheorie wird (∗) als ein Bestandteil der Kolmogorovschen Axiome gefordert.
Im konkreten
hierbetrachteten Fall muß berücksichtigt werden, daß Ar aus den disjunkten
Mengen {ω} : ω ∈ Ar besteht.
28. Januar 2011
11
Es gibt Nr Möglichkeiten für die Einordnung“ von r defekten Produkti”
onsstücken in die Folge aller N geprüften Produktionsstücke 1.31, d.h. 1.32
|Ar | = Nr . Mit (1.3) und (1.4) folgt daher
N r
(1.5)
PN,p [Ar ] =
p (1 − p)N −r , r = 0, . . . , N.
r
Somit ist die Anzahl der defekten Produktionsstücke binomialverteilt mit
den Parametern N und p 1.33.
Die nun konstruierte Struktur (ΩN , FN , PN,p ) ist ein einfaches Beispiel eines
Wahrscheinlichkeitsraums. Mit ihm liegt ein wahrscheinlichkeitstheoretisches Modell für die hier behandelte Qualitätsprüfung von Produktionsstücken vor 1.34.
Mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) sind auch Zufallsvariablen,
d.h. gewisse reellwertige Funktionen auf ΩN , gegeben 1.35, wie z.B.:
• Yi : ΩN → R, i = 1, . . . , N , mit
(1.6)
Yi (ω) = ωi , ω = (ω1 , . . . , ωN ) ∈ ΩN ,
i = 1, . . . , N.
Yi gibt das Testergebnis für das i-te Produktionsstück an
• ZN : ΩN → R mit
(1.7)
ZN (ω) =
N
1 X
ω i , ω ∈ ΩN ,
N i=1
d.h., ZN =
1.36
.
N
1 X
Yi .
N i=1
1.30Wenn allgemein zwei Ereignisse A und B stochastisch unabhängig sind, gilt die Beziehung
(∗1 )
PN,p [A und B] = PN,p [A ∩ B] = PN,p [A]PN,p [B],
d.h. die Einzelwahrscheinlichkeiten werden multipliziert. (∗1 ) entspricht der Anschauung, d.h.,
dem intuitiven Verständnis von Unabhängigkeit“. Im Rahmen der Wahrscheinlichkeitstheorie
”
wird (∗1 ) als Definition der Unabhängigkeit von zwei Ereignissen benutzt, vgl. (3.16).
Da nach der Modellannahme (ii) die Qualitätseigenschaften der Produktionsstücke unabhängig sind, gilt insbesondere
PN,p [1. Produktionsstück defekt, 2. Produktionsstück nicht defekt]
= PN,p [{ω ∈ ΩN : ω1 = 1, ω2 = 0}]
= PN,p [{ω ∈ ΩN : ω1 = 1} ∩ {ω ∈ ΩN : ω2 = 0}] = p(1 − p).
1.31Die Anzahl der Möglichkeiten für die Einordnung“ . . . kann mit kombinatorischen Me-
”
thoden bestimmt werden, vgl. Abschnitt 5.1 und insbesondere (5.4).
1.32Mit |M | wird die Mächtigkeit einer endlichen Menge M bezeichnet.
1.33Die Binomialverteilung ist eine der klassischen Wahrscheinlichlichkeitsmaße oder -verteilungen, die in der Stochastik häufig betrachtet werden.
1.34Nach der axiomatischen Begründung der Wahrscheinlichkeitstheorie u.a. durch A.N. Kolmogorov liegt jedem wahrscheinlichkeitstheoretischen Modell ein Wahrscheinlichkeitsraum zugrunde. Für einen allgemeinen Wahrscheinlichkeitsraum (Ω, F, P) ist nach den Kolmogorovschen Axiomen, vgl. (2.1), (2.2), Ω eine Menge, F eine σ-Algebra bestehend aus der Menge aller Ereignisse,
d.h. einer geeigneten Menge von Teilmengen von Ω, und P ein Wahrscheinlichkeitsmaß, das jedem A ∈ F eine Wahrscheinlichkeit P[A] ∈ [0, 1] zuweist. Ein Wahrscheinlichkeitsraum kann
auch betrachtet werden als ein meßbarer Raum (Ω, F), der durch ein Wahrscheinlichkeitsmaß eine
Gewichtung der meßbaren Mengen F erfährt.
Im allgemeinen ist F 6= Pot(Ω), da andernfalls eine vernünftige Definition von P nicht möglich
zu sein braucht, vgl. Abschnitt 2.5.
1.35Allgemein müssen diese Funktionen meßbar sein und damit eine in der Stochastik übliche
Minimalforderung für Funktionen erfüllen. Da im vorliegenden Fall die σ-Algebra FN alle Teilmengen von ΩN umfaßt, sind automatisch alle reellwertigen Funktionen auf ΩN meßbar.
1.36Wenn man die Zufallsvariablen Y , i = 1, . . . , N , als eine Gesamtheit (Y )
i
i i=1,...,N betrachtet, erhält man ein einfaches Beispiel eines stochastischen Prozesses.
Im allgemeinen sind stochastische Prozesse (Yt )t∈T Familien Yt , t ∈ T, von Zufallsvariablen,
die durch eine Menge T ⊆ R indiziert sind, welche als ein Bereich von Zeitpunkten betrachtet
werden kann. Stochastische Prozesse dienen u.a. der Modellierung vom Zufall beeinflußter, dynamischer Vorgänge.
28. Januar 2011
12
ZN gibt die relative Anzahl defekter Produktionsstücke an.
• TN : ΩN → R mit
TN (ω) =
(
inf i ∈ {1, ..., N } : ωi = 1 ,
N + 1,
TN modelliert den Zeitpunkt
Produktionsstücks.
1.37
PN
falls
i=1 ωi > 0,
sonst,
ω ∈ ΩN .
der ersten Beobachtung eines defekten
Solche Zufallsvariablen können als Darstellungen von Verfahren zur Erhebung
von Daten betrachtet werden 1.38 1.39. Vor allem auch durch das Studium von Zufallsvariablen kann das durch (ΩN , FN , PN,p ) gegebene wahrscheinlichkeitstheoretische
Modell genauer untersucht werden 1.40.
1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen. In der Wahrscheinlichkeitstheorie werden primär für einen gegebenen Wahrscheinlichkeitsraum
darauf definierte Zufallsvariablen mathematisch studiert 1.41. Detaillierte Überlegungen, die reale Meßwerte einschließen, treten in den Hintergrund.
Für das in Abschnitt 1.1.2 beschriebene mathematische Modell können in der
Wahrscheinlichkeitstheorie beispielsweise Kenngrößen wie Erwartungswerte oder
Varianzen spezieller auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) definierter
Zufallsvariablen berechnet werden. Man kann auch die Fälle N → ∞ und / oder
p → 0 betrachten und Resultate ableiten, die das asymptotische Verhalten charakterisieren. In den folgenden Beispielen 1.5 - 1.8 werden insbesondere die Zufallsvariablen 1.42 ZN untersucht.
Beispiel 1.5 (Erwartungswert). Allgemein ist der Erwartungswert E[X] einer reellwertigen Zufallsvariable X definiert als ein gewichtetes Mittel über den Wertebereich von X. Die Gewichte sind hierbei gegeben durch die Wahrscheinlichkeiten,
mit der die jeweiligen Werte von X angenommen werden, d.h. durch die Verteilung
1.37Es sei angenommen, daß die Tests in aufeinanderfolgenden Zeitpunkten durchgeführt
werden. Aufgrund von (1.6) ist in diesem Zusammenhang die Identifizierung der Folge der Zufallsvariablen Yi , i = 1, . . . , N , mit dem stochastischen Prozeß (Yi )i=1,...,N naheliegend, vgl.
Fußnote 1.36. Insbesondere kann
TN =
(
inf i ∈ {1, ..., N } : Yi = 1 ,
N + 1,
PN
falls
i=1 Yi > 0,
sonst,
geschrieben werden.
1.38
Für jede mögliche Stichprobe ω ∈ ΩN ist z.B. mit ZN (ω) die relative Anzahl der defekten
Produktionsstücke gegeben.
1.39
Im mathematischen Gebiet der Statistik werden Zufallsvariablen auch als Statistiken
bezeichnet.
1.40Aus diesem Grund ist es auch sinnvoll, alle oder zumindest eine als wichtig erachtete
Familie von Zufallsvariablen zusammen mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) als
wahrscheinlichkeitstheoretisches Modell zu bezeichnen.
1.41
Beispielsweise werden Sätze bewiesen, Verbesserungen und Verallgemeinerungen bekannter Resultate gesucht oder Verbindungen zu anderen Teilgebieten der Mathematik hergestellt.
1.42Vgl. (1.7).
28. Januar 2011
13
von X
(1.8)
1.43 1.44 1.45
.
EN,p [ZN ] =
N
hn
X
k oi
k
PN,p ω ∈ ΩN : ZN (ω) =
N |
N }
{z
k=0
= 1.46 PN,p [ZN = k/N ]
N
1 X
kPN,p [Ak ]
N
k=0
N
X
N
1.48 1
k
=
pk (1 − p)N −k
N
k
k=1 | {z }
N!
N −1
=k
=N
k!(N − k)!
k−1
N
X N −1
=p
pk−1 (1 − p)N −1−(k−1)
k−1
k=1
{z
}
|
N
−1 X
N −1 l
=
p (1−p)N −1−l = (p + (1−p))N −1 = 1
l
=
1.47
=
1.49
l=0
p.
Beispiel 1.6 (Varianz). Die Varianz Var(X) einer reellwertigen Zufallsvariable
X ist definiert als der Erwartungswert der quadratischen Abweichung von X von
ihrem Erwartungswert E[X], d.h., Var(X) = E[(X − E[X])2 ]. Sie charakterisiert
1.43Der Erwartungswert entspricht somit dem intuitiven Begriff des Mittelwerts“.
”
1.44Der Erwartungswert existiert, wenn jenes gewichtete Mittel wohldefiniert
ist. Das ist z.B.
für integrable, bzw. für nicht-negative Zufallsvariablen der Fall.
1.45Um die zugrundeliegenden Parameter N und p, d.h. den Bezug zum Wahrscheinlichkeitsmaß PN,p hervorzuheben, wird im folgenden die Notation EN,p [. . . ] benutzt. Allgemein wird der
Erwartungswert einer reellwertigen Zufallsvariable X mit E[X] bezeichnet.
1.46
Dies ist eine abkürzende Schreibweise.
1.47
Vgl. (1.1) und (1.7). Insbesondere ist {ω ∈ ΩN : ZN (ω) = k/N } = Ak , k = 1, . . . , N .
1.48
Vgl. (1.5).
1.49Eine einfachere Begründung von (1.8) wäre folgende:
(a) Die Zuordnung X → E[X], die jeder reellwertigen Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzt, diesen Erwartungswert
E[X] zuordnet, ist ein linearer Operator, d.h., es gilt
X, Y Zufallsvariablen, α, β ∈ R.
E[αX + βY ] = αE[X] + βE[Y ],
(b) Bei Berücksichtigung von (1.7) folgt somit
EN,p [ZN ] =
N
1 X
EN,p [Yi ],
N i=1
wobei die Zufallsvariablen Yi , i = 1, . . . , N , in (1.6) eingeführt wurden.
(c) Aufgrund von (1.2) ist
EN,p [Yi ] = PN,p [Yi = 1] · 1 + PN,p [Yi = 0] · 0 = p,
i = 1, . . . , N.
(d) Zusammenfassend folgt nun
EN,p [ZN ] =
N
1 X
p = p.
N i=1
Durch wenige simple Berechnungen wie in (c) und (d) und ein allgemeines Resultat der Stochastik, genauer der Maß- und Integrationstheorie, wie in (a) erübrigen sich somit aufwendigere,
langweilige Berechnungen wie bei der obigen Herleitung von (1.8).
28. Januar 2011
14
die Größe der Schwankungen von X um E[X] 1.50.
(1.9)
VarN,p (ZN ) = EN,p (ZN − EN,p [ZN ])2
=
N X
k
N
k=0
= ...
=
1.51
−p
2
PN,p [ZN = k/N ]
1
p(1 − p).
N
Beispiel 1.7 (Gesetz der großen Zahlen). 1.52 Die Beziehungen (1.8) und (1.9)
besagen, daß die Schwankungen der Zufallsvariablen ZN um ihren Erwartungswert
p mit wachsendem N immer kleiner werden. Mit Hilfe eines allgemeinen Resultats
aus der Wahrscheinlichkeitstheorie, der Čebyšev’schen Ungleichung 1.53
(1.10)
1
P |X − E[X]| ≥ ǫ ≤ 2 Var(X),
ǫ
X Zufallsvariable, ǫ > 0,
läßt sich diese Aussage genauer fassen. Es ergibt sich die Konvergenz von ZN gegen
p bei N → ∞ in der Form
(1.11)
1
PN,p |ZN − p| ≥ ǫ ≤ 2 VarN,p (ZN )
ǫ
1
N →∞
= 2 p(1 − p) −−−−→ 0,
ǫ N
ǫ > 0.
1.50Nicht für alle Zufallsvariablen X ist Var(X) < ∞. Eine Zufallsvariable X mit Var(X) = 0
nimmt fast-sicher nur den Wert E[X] an, d.h., X ist deterministisch.
1.51Zur Begründung von (1.9) könnte man detaillierte Berechnungen wie bei der Herleitung
von (1.8) in Beispiel 1.5 durchführen. Andererseits könnte mit Hilfe allgemeiner Zusammenhänge
der Wahrscheinlichkeitstheorie auch wie folgt argumentiert werden.
P
(a) Gemäß (1.7) ist ZN = (1/N ) N
i=1 Yi eine gewichtete Summe der Zufallsvariablen Yi ,
i = 1, . . . , N . In Übereinstimmung mit der Modellannahme (ii) in Abschnitt 1.1.1 sind
diese Zufallsvariablen (stochastisch) unabhängig.
(b) Für unabhängige Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum
(Ω, F, P) und α, β ∈ R gilt allgemein die Beziehung:
Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ).
(c) Wegen (1.2), weil EN,p [Yi ] = p, i = 1, . . . , N , vgl. Fußnote 1.49(c), und wegen der
Linearität des Operators EN,p [ . ], vgl. Fußnote 1.49(a), ergibt sich:
VarN,p (Yi ) = EN,p [(Yi − p)2 ]
= EN,p [Yi2 ] − 2EN,p [Yi ]p + p2 = p − p2 = p(1 − p),
i = 1, . . . , N.
(d) Zusammenfassend folgt (1.9), d.h.,
VarN,p (ZN ) =
N
N
1 X
1
1 X
VarN,p (Yi ) = 2
p(1 − p) =
p(1 − p).
2
N i=1
N i=1
N
1.52
In diesem Beispiel 1.7 ist N nicht mehr fest, sondern kann beliebige Werte in N annehmen.
Um insbesondere große N zu behandeln, wird der Grenzübergang N → ∞ diskutiert.
1.53Damit (1.10) eine brauchbare Information liefert, sollte Var(X) < ∞ vorausgesetzt werden. Die Čebyšev’sche Ungleichung ist eine der vielen Ungleichungen, die in den mathematischen
Untersuchungen in der Stochastik unverzichtbar sind.
28. Januar 2011
15
Das in (1.11) beschriebene Konvergenzresultat ist auch als schwaches Gesetz der
großen Zahlen bekannt 1.54 1.55.
Beispiel 1.8 (Zentraler Grenzwertsatz). Eine Präzisierung der durch (1.11) beschriebenen Konvergenz von ZN wird durch den Zentralen Grenzwertsatz gegeben.
Während das Gesetz der großen Zahlen ohne Angabe einer KonvergenzgeschwinN →∞
digkeit nur besagt, daß ZN − p −−−−→ 0 bzgl. eines geeigneten Konvergenzbegriffs,√identifiziert der Zentrale Grenzwertsatz diese Konvergenzgeschwindigkeit
als
√
∼ 1/ N . In einer genauen Formulierung wird festgestellt, daß die mit N skalierten Fluktuationen von ZN um den Erwartungswert p für N → ∞ normalverteilt
sind, d.h. 1.56 1.57 1.58 1.59
p
(1.12)
lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b]
N →∞
Z b
1
dx exp(−x2 /2), a, b ∈ R, a < b.
= √
2π a
1.54Es gibt auch ein starkes Gesetz der großen Zahlen für Z , N ∈ N. Die beiden VariN
anten des Gesetzes der großen Zahlen unterscheiden sich durch den jeweils zur Feststellung der
Konvergenz von ZN gegen p verwendeten Konvergenzbegriff. Während bei der Formulierung des
schwachen Gesetzes der großen Zahlen wie in (1.11) die stochastische Konvergenz benutzt wird,
findet beim starken Gesetz der großen Zahlen die fast-sichere Konvergenz Verwendung.
Die hier genannten und auch andere Konvergenzbegriffe werden in der Maß- und Integrationstheorie genauer untersucht. U.a. werden dort die Beziehungen zwischen den unterschiedlichen
Konvergenzkonzepten verdeutlicht. So folgt beispielsweise die stochastische Konvergenz aus der
fast-sicheren. Daher impliziert das starke Gesetz der großen Zahlen das schwache, wodurch insbesondere die gewählte Namensgebung gerechtfertigt wird.
1.55
In einer allgemeineren Form wird beim Gesetz der großen Zahlen die Konvergenz
N
1 X
N→∞
Xk −−−−→ E[X1 ]
N k=1
für unabhängige, identisch verteilte, integrable Zufallsvariablen X1 , X2 , . . . festgestellt. Eine weitere Variante des Gesetzes der großen Zahlen wird in Satz 7.1 und Bemerkung 7.2 vorgestellt.
1.56Die Normalverteilung N(µ, σ2 ) mit Erwartungswert µ und Varianz σ2 ist ein Wahrscheinlichkeitsmaß auf R, das einem Intervall [a, b], −∞ ≤ a < b ≤ ∞, jeweils die Wahrscheinlichkeit
R
(2πσ2 )−1/2 ab dx exp(−(x − µ)2 /2σ2 ) zuordnet. Die Verteilung N(0, 1), die auf der rechten Seite
von (1.12) auftaucht, wird als standard Normalverteilung bezeichnet.
1.57
Mit (1.12) wird ein weiterer, in der Stochastik üblicher Konvergenzbegriff vorgestellt,
nämlich die sog. Konvergenz
in Verteilung.
Diese Namensgebung wird verständlich, wenn bedacht
wird, daß die Größen P X ∈ [a, b] , a, b ∈ R, a < b, die Verteilung einer reellwertigen Zufallsvariable X kennzeichnen.
p
Insbesondere wird durch (1.12) festgehalten, daß die Zufallsvariablen N/p(1 − p)(ZN − p)
bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallvariable konvergieren. Die
standard Normalverteilung N(0, 1) wird in Fußnote 1.56 beschrieben.
1.58
In einer allgemeineren Form besagt der Zentrale Grenzwertsatz, daß für unabhängige,
identisch verteilte, quadratintegrable Zufallsvariablen X1 , X2 , . . . mit Varianz σ2 ∈ (0, ∞) die
Zufallsvariablen
!
r
N
N
1 X
Xk − E[X1 ] , N = 1, 2, . . . ,
ηN =
σ2 N k=1
bei N → ∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergieren, vgl.
Satz 9.3.
1.59
Als Präzisierung des Gesetzes der großen Zahlen (1.11) besagt der Zentrale Grenzwertsatz
p
N→∞
(1.12) zumindest formal, daß ZN ∼ p + p(1 − p)/N Z, wobei Z eine normalverteilte Zufallsvariable mit Erwartungswert
√ 0 und Varianz 1 ist. Insbesondere tendiert der Abstand zwischen ZN
und p bei N → ∞ wie 1/ N gegen 0.
28. Januar 2011
16
1.1.4. Ein statistisches Modell. Die Aufgabe, die Qualität des Produktionsverfahrens zu prüfen 1.60, soll nun mit Methoden der Statistik bearbeitet werden. Basierend auf dem in Abschnitt 1.1.2 eingeführten und in Abschnitt 1.1.3 untersuchten wahrscheinlichkeitstheoretischen Modell der Gesamtheit der möglichen
Prüfungsdaten für die einzelnen Produktionsstücke sei angenommen 1.61, daß
• diesem Produktionsprozeß eine wahre“, allerdings unbekannte Fehler”
wahrscheinlichkeit pw zugeordnet ist, und daß somit
• aufgrund von Qualitätskontrollen vorliegende Prüfungsergebnisse y1 , . . . ,
yN mit
yi =
(
1, falls das i-te Produktionsstück fehlerhaft ist,
0, sonst,
i = 1, ..., N,
Realisierungen 1.62 der Zufallsvariablen Yi , i = 1, . . . , N , auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,pw ) sind.
Die Aufgabe besteht nun darin, pw zu schätzen, wobei nur die empirisch bestimmten
Daten y1 , . . . , yN der Schätzung zugrundegelegt werden können.
Vor der Lösung der Aufgabe kann ein Statistiker seine Situation folgendermaßen
zusammenfassen 1.63:
• Es gibt eine Menge XN = {0, 1, 2, . . . , N }, die die möglichen Werte für die
Anzahl der fehlerhaften Produktionsstücke umfaßt. XN wird Stichprobenraum genannt 1.64.
• Die σ-Algebra GN = Pot(XN ) der Teilmengen von XN repräsentiert die
Menge der Ereignisse, auf denen der Statistiker seine Entscheidungen aufbauen kann.
• Auf dem meßbaren Raum (XN , GN ) gibt es mit (QN,p )p∈[0,1] eine Familie von Wahrscheinlichkeitsmaßen, wobei für eine zugrundeliegende Fehlerwahrscheinlichkeit p durch QN,p die zugehörige Wahrscheinlichkeitsverteilung der Anzahl fehlerhafter Produktionsstücke bei N Stichproben
beschrieben wird. Aufgrund von (1.5) gilt
(1.13)
QN,p = B(N, p),
p ∈ [0, 1],
wobei B(N, p) die Binomialverteilung mit den Parametern N und p ist.
1.60Diese Aufgabe war eine Motivation für die Überlegungen dieses Abschnitts 1.1.
1.61Sobald ein mit der Lösung der Aufgabe der Qualitätsprüfung betrauter Statistiker auf-
grund der Auskünfte der am Produktionsprozeß beteiligten Personen mit den Modellannahmen
(i) und (ii) in Abschnitt 1.1.1 einverstanden ist, kann er bei seinen Überlegungen das genannte
wahrscheinlichkeitstheoretische Modell akzeptieren und sich auf die daraus folgenden mathematischen Konsequenzen verlassen. In den Beispielen 1.5 - 1.8 werden einige solcher Konsequenzen
vorgestellt.
1.62Eine Realisierung einer Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, F, P)
ergibt sich als X(ω) nach Auswahl eines zufälligen, dann aber als fest betrachteten ω ∈ Ω.
1.63Offensichtlich reicht nach der Prüfung einer festen Anzahl N von Produktionsstücken
zur Einschätzung der Verarbeitungsqualität, d.h. zu einer vernünftigen Schätzung pc
w von pw ,
allein die Kenntnis der Anzahl fehlerhafter Produktionsstücke. Weitere Details wie die genaue
Reihenfolge ihres Auftretens, sind nicht notwendig.
1.64In der hier betrachteten speziellen Situation, in der nicht das detaillierte Ergebnis der
Prüfung von N Produktionsstücken, sondern nur die Anzahl der fehlerhaften Teile von Interesse
ist, wird es sinnvoll, mit XN einen Stichprobenraum zu wählen, der übersichtlicher“ ist als der
”
in den Abschnitten 1.1.2 und 1.1.3 benutzte Stichprobenraum ΩN .
28. Januar 2011
17
Die Struktur (XN , GN , (QN,p )p∈[0,1] ) ist ein Beispiel eines statistischen Modells 1.65. In jeder Anwendungssituation ist die Bestimmung eines derartigen statistischen Modells die erste Aufgabe eines Statistikers. Seine mathematischen Überlegungen kann er dann im Rahmen dieses statistischen Modells ausführen.
1.1.5. Statistische Untersuchungen. 1.66 In der Realität sind die Ziele und
die Methoden statistischer Überlegungen stark von der konkreten Anwendungssituation abhängig. Für den vorliegenden Fall einer Prüfung der Verarbeitungsqualität sollen drei typische Fragestellungen und ihre jeweilige Lösung durch Methoden
der Statistik vorgestellt werden.
Beispiel 1.9 (Maximum-Likelihood-Schätzer). Ein mögliches Verfahren zur Bestimmung eines Schätzers 1.67 pc
w für pw basiert auf dem sog. Maximum-Likelihood-Prinzip: Für eine beobachtete Anzahl x fehlerhafter Produktionsstücke wird
pc
w dadurch charakterisiert, daß unter der zugehörigen Verteilung, d.h. unter der
Binomialverteilung 1.68 QN,b
c
w ), jener Wert x die maximale Wahrscheinpw = B(N, p
1.70
lichkeit hat 1.69. pc
löst
somit
w
N x
N
x
N −x
p (1 − p)N −x .
(1.14)
c
= sup
pc
w)
w (1 − p
x
x
p∈[0,1]
Als Maximum-Likelihood-Schätzer, d.h. als Lösung von (1.14), ergibt sich mit
x
(1.15)
pc
w =
N
1.71
1.65Genaugenommen liegt hier ein parametrisches Modell mit dem Parameterbereich Θ =
[0, 1] vor. Θ parametrisiert die unterschiedlichen Wahrscheinlichkeitsverteilungen QN,p , p ∈ [0, 1],
die als mögliche Kandidaten für die real zugrundeliegende Wahrscheinlichkeitsverteilung QN,pw
der Daten in Frage kommen.
1.66
In diesem Abschnitt 1.1.5 sei die Anzahl N der geprüften Produktionsstücke fest.
1.67
Mit pc
w soll die wahre Fehlerwahrscheinlichkeit pw des Produktionsverfahrens geschätzt
werden.
1.68Vgl. (1.13).
1.69Unter allen möglichen p ∈ [0, 1] ist also der beobachtete Wert x für jenes pc am wahrw
”
scheinlichsten“.
1.70Für ein etwas allgemeineres statistisches Modell (X, G, (Q )
),
wobei
X
höchstens
p p∈Θ
abzählbar, G = Pot(X) und Qp , p ∈ Θ, eine Familie von Wahrscheinlichkeitsmaßen auf (X, G)
sei, ist bei einer Anwendung des Maximum-Likelihood-Prinzips zu x ∈ X eine Lösung pb = pb(x)
von
(∗)
Qpb[{x}] = sup Qp [{x}]
p∈Θ
zu suchen. Für ein festes x ∈ X bezeichnet man übrigens die Funktion Θ ∋ p → Qp [{x}] = Lx (p) ∈
[0, 1] als Likelihood-Funktion zum Beobachtungswert x. Aufgrund von (∗) ist zur Bestimmung von
pb(x) das Maximum der Likelihood-Funktion Lx zu suchen.
1.71Zur Lösung von (1.14) ist für x ∈ X
N das Maximum der Likelihood-Funktion p →
N x
N−x = L (p), bzw. in einer äquivalenten Formulierung das Maximum der Logp
(1
−
p)
x
x
Likelihood-Funktion
x
p → log(Lx (p)) = log N
p (1 − p)N−x = log N
+ x log(p) + (N − x) log(1 − p) = ℓx (p)
x
x
zu suchen. (1.15) ergibt sich nun aus
N −x
x
x
−
= 0 ⇐⇒ p =
,
p
1−p
N
x
N −x
ℓ′′
< 0, p ∈ (0, 1),
x (p) = − 2 −
p
(1 − p)2
ℓ′x (p) =
und
lim ℓx (p) = lim ℓx (p) = −∞.
pց0
pր1
28. Januar 2011
18
die relative Anzahl der defekten Produktionsstücke in der auszuwertenden Stichprobe vom Umfang N .
Der Schätzer pc
w ist insofern zunächst unbefriedigend, als mit ihm keine Angabe
über seine Zuverlässigkeit verbunden ist.
Beispiel 1.10 (Konfidenzbereich). 1.72 Eine vertrauenswürdige, bzw. zuverlässige
Schätzung für pw liegt dann vor, wenn ein möglichst kleiner sog. Konfidenzbereich
angegeben wird, innerhalb dessen mit einer vorgegebenen hinreichend großen Si”
cherheit“ 1.73 dieses pw erwartet werden kann. Eine sinnvolle Vorgehensweise besteht
darin,
• zunächst ein Irrtumsniveau s ∈ (0, 1) 1.74 zu wählen und dann
• eine Zuordnung XN ∋ x → C(x) = [pu (x), po (x)] ⊆ [0, 1] so zu bestimmen,
daß für alle x das jeweilige Intervall C(x) möglichst klein ist und
• für jedes mögliche pw ∈ [0, 1] bzgl. des zugehörigen Wahrscheinlichkeitsmaßes QN,pw solche x, für die C(x) 6∋ pw gilt, höchstens mit Wahrscheinlichkeit s beobachtet werden 1.75.
Wegen (1.13) sollte daher
X N (1.16)
sup
px (1 − p)N −x ≤ s
x
p∈[0,1]
x=0,1,...,N
C(x)6∋p
gelten 1.76 1.77.
Für einen festen Beobachtungswert x und nach der Bestimmung von C(x) kann
nun der Statistiker sein Ergebnis in der folgenden Form präsentieren: Mit einer
”
Sicherheit von mindestens (1 − s) · 100 % liegt pw in dem Intervall C(x)“ 1.78.
Beispiel 1.11 (Testen einer Hypothese). 1.79 Durch einen Vertrag sei der Hersteller
der Produktionsstücke zur Zahlung einer Konventionalstrafe verpflichtet, wenn bei
einer Lieferung eine Fehlerquote 1.80 pf ∈ [0, 1] überschritten wird. Das Risiko,
jene maximale Fehlerwahrscheinlichkeit pf unbemerkt zu überschreiten, soll für den
1.72In den Überlegungen dieses Beispiels wird auf den möglichen Wunsch des Herstellers,
die Einschätzung der Verarbeitungsqualität seines Produkts mit einer Angabe zur Zuverlässigkeit
jener Einschätzung zu verbinden, eingegangen.
1.73Eine derartige Phrase muß natürlich mathematisch gefaßt werden.
1.74Man könnte auch von einem Sicherheitsniveau 1 − s sprechen.
1.75Damit wären die umgangssprachlich formulierten Aussagen p 6∈ C(x) für höchstens
” w
s·100 % aller Beobachtungen x“ und pw ∈ C(x) für mindestens (1−s)·100 % aller Beobachtungen
”
x“ zutreffend. Diese Aussagen sind dann unabhängig vom genauen Wert von pw korrekt.
1.76Für C(x) = [0, 1], x ∈ X , ist (1.16) zwar erfüllt, jedoch liefert ein solcher KonfidenzbeN
reich offensichtlich keine brauchbare Information und sollte daher verkleinert werden.
1.77
In einer allgemeineren, im Rahmen eines statistischen Modells (X, G, (Qp )p∈Θ ) gewählten
Formulierung sollte die Zuordnung X ∋ x → C(x) ⊆ Θ so bestimmt werden, daß
sup Qp {x ∈ X : C(x) 6∋ p} ≤ s.
p∈Θ
1.78Die häufig umgangssprachlich verwendete Aussage Mit einer Wahrscheinlichkeit von
”
mindestens (1 − s) · 100 % liegt pw in dem Intervall C(x)“ ist unpräzise und irreführend, da sie
suggeriert, daß pw zufällig ist, was nicht der Fall ist.
1.79
Die nun diskutierte Problemstellung kann für den Hersteller dann relevant werden, wenn
er beim Unterschreiten einer vorher vereinbarten Qualitätsgrenze, d.h. beim Überschreiten einer vorgegebenen Fehlerwahrscheinlichkeit, zur Vermeidung von Regreßforderungen der Kunden
informiert werden will.
1.80
Die Fehlerquote“ pf sei der relative Anteil der defekten Produktionsstücke in einer Lie”
ferung an einen Kunden. Nach dem Gesetz der großen Zahlen, vgl. Beispiel 1.7, wird für große
Liefermengen diese Fehlerquote durch die Fehlerwahrscheinlichkeit p, d.h. die Wahrscheinlichkeit,
daß ein beliebiges Produktionsstück defekt ist, approximiert.
28. Januar 2011
19
Hersteller unter einem vorgegebenen, gerade noch akzeptablen Niveau bleiben 1.81.
In einem systematischen statistischen Verfahren zur Risikobegrenzung besteht
• ein erster Schritt darin, ein Irrtumsniveau t ∈ (0, 1) und
• eine Nullhypothese 1.82
Θ0 = {p ∈ [0, 1] : p ≥ pf }
(1.17)
festzulegen.
• Für das noch genauer zu bestimmende Entscheidungsschema, einen sog.
Test φ, mit 1.83
(
0, falls p ∈ Θ0 angenommen wird 1.84,
XN ∋ x → φ(x) =
(1.18)
1, falls p 6∈ Θ0 vermutet wird 1.85,
(1.19)
sollte dann einerseits die maximale Irrtumswahrscheinlichkeit bei einer zu
großen Fehlerquote, d.h. bei Gültigkeit der Nullhypothese Θ0 , nicht größer
als t sein 1.86, d.h., es sollte
X
N x
p (1 − p)N −x ≤ t
sup
x
p∈Θ0
{x∈XN :φ(x)=1}
1.87
gelten
.
• Andererseits sollte auch im Fall einer eigentlich akzeptablen Fehlerquote p < pf die entsprechende Irrtumswahrscheinlichkeit möglichst klein
sein 1.88, d.h. 1.89
X
N x
(1.20)
p (1 − p)N −x
x
{x∈XN :φ(x)=0}
1.81Ein
akzeptables Niveau“ ist im folgenden bestimmt durch die für den Hersteller noch
”
vertretbare Wahrscheinlichkeit“, bzw. Ungewißheit, mit der die Zahlung der Konventionalstrafe
”
fällig wird.
1.82Die Gültigkeit der Nullhypothese Θ sollte nur auf einem geringen Irrtumsniveau unent0
deckt bleiben, da ihr Übersehen mit hohen Kosten verbunden sein kann.
1.83Bei der genauen Bestimmung von φ(.) werden die Mengen A = {x ∈ X : φ(x) = 0}
0
N
und A1 = {x ∈ XN : φ(x) = 1} = XN \ A0 spezifiziert.
1.84Der Statistiker, der die Datenauswertung vornimmt, kommt zum Ergebnis, daß die Fehlerwahrscheinlichkeit pf überschritten wird. Er schlägt nun dem Betrieb vor, Verbesserungen im
Produktionsprozeß vorzunehmen.
1.85
Der Statistiker kommt zum Schluß, daß die Fehlerwahrscheinlichkeit pf nicht erreicht
wird. Der Produktionsprozeß könnte dann unverändert bleiben.
1.86Die maximale Wahrscheinlichkeit für einen sog. Fehler 1. Art sollte das Niveau t nicht
überschreiten.
1.87In einem allgemeineren, im Rahmen eines statistischen Modells (X, G, (Q )
p p∈Θ ) formulierten Testproblem sollte für eine gegebene Nullhypothese Θ0 ⊆ Θ der Test φ : X → {0, 1} so
bestimmt werden, daß
sup Qp [{x ∈ X : φ(x) = 1}] ≤ t
p∈Θ0
gilt. Analog zu (1.18) hat auch hier φ die Bedeutung
(
0, falls Θ0 akzeptiert wird,
φ(x) =
1, falls Θ0 verworfen wird,
x ∈ X.
1.88Durch diese Forderung soll der sog. Fehler 2. Art möglichst unwahrscheinlich“ werden.
”
Die Gefahr eines falschen Alarms soll möglichst klein werden. Damit soll eine evtl. kostenintensive,
aber überflüssige Änderung des Produktionsprozesses vermieden werden. Insbesondere soll die
Verwendung des trivialen Tests φ ≡ 0, einer offensichtlichen Lösung von (1.19), ausgeschlossen
werden.
1.89
Für alle p < pf soll in der Klasse aller Tests, die (1.19) erfüllen, das Minimum der linken
Seite von (1.20) durch den zu suchenden Test φ angenommen werden.
28. Januar 2011
20
!!
= minimal für den zu suchenden Test φ, falls p < pf .
Nach der Bestimmung eines Tests φ, der (1.18) - (1.20) löst, kann ein Statistiker dessen Wirkungsweise folgendermaßen charakterisieren: Die Nullhypothese Θ0 wird
”
in höchstens t · 100 % aller Fälle übersehen“ oder auch die Nullhypothese wird
”
mit einer Sicherheit von mindestens (1 − t) · 100 % erkannt“ 1.90. Zusätzlich wird
auf das eventuelle Vorliegen der Alternative p < pf mit maximaler Zuverlässigkeit
”
hingewiesen“.
1.1.6. Zusammenfassung und Ausblick. In der Stochastik werden Gesetzmäßigkeiten in zufälligen Vorgängen mathematisch beschrieben. Hierbei wird mit
mathematischen Modellen gearbeitet.
Im Teilgebiet der Wahrscheinlichkeitstheorie werden die Eigenschaften fest vorgegebener wahrscheinlichkeitstheoretischer Modelle studiert.
Im Teilgebiet der Statistik werden im Rahmen statistischer Modelle reale Beobachtungsdaten interpretiert.
In diesem Abschnitt 1.1 wurden u.a. folgende Begriffe, Konzepte und Resultate
der Stochastik vorgestellt 1.91:
• Wahrscheinlichkeitsraum
(Stichprobenraum, σ-Algebra der Ereignisse, Wahrscheinlichkeitsmaß)
• Zufallsvariable, Verteilung einer Zufallsvariable, stochastischer Prozeß
• Unabhängigkeit
• Erwartungswert, Varianz
• (schwaches bzw. starkes) Gesetz der großen Zahlen
• Zentraler Grenzwertsatz
• Čebyšev’sche Ungleichung
• stochastische bzw. fast-sichere Konvergenz, Konvergenz in Verteilung
• Binomialverteilung, Normalverteilung
• deskriptive und mathematische Statistik
• (parametrisches) statistisches Modell
• Maximum-Likelihood-Prinzip, Schätzer
• Konfidenzbereich
• Testen einer Hypothese
• Maß- und Integrationstheorie
Diese Begriffe spielen zentrale Rollen in den mathematischen Disziplinen Wahrscheinlichkeitstheorie und Statistik. Sie werden im weiteren Verlauf der Vorlesung
immer wieder auftauchen und dann auch mathematisch präzisiert werden.
1.2. (∗) Geschichte der Wahrscheinlichkeitstheorie und der Statistik
Um die Einordnung der Wahrscheinlichkeitstheorie und der Statistik in den
allgemeinen Rahmen der Mathematik und ihre außermathematische Bedeutung anzudeuten, werden in diesem Abschnitt 1.2 einige wenige Entwicklungsphasen und
markante Zeitpunkte festgehalten.
Antike und Mittelalter. Da völlig unklar ist, wie Begriffe wie Zufall oder Wahrscheinlichkeit mathematisch faßbar sind, kann sich noch keine Wahrscheinlichkeitstheorie entwickeln. Einzelne Abhandlungen über Glücksspiele sind
bekannt.
ca. 1655. Ein Briefwechsel zwischen B. Pascal und P. de Fermat u.a. über kombinatorische Probleme bei Glücksspielen wird als Beginn der mathematischen
1.90Eine Verwendung des Wortes Wahrscheinlichkeit“ anstelle von Sicherheit“ wäre un”
”
präzise, da sie eine nicht vorhandene Zufälligkeit von p suggerieren würde.
1.91Zum Teil wurden diese Begriffe nur in Fußnoten erwähnt.
28. Januar 2011
21
Disziplin Wahrscheinlichkeitstheorie betrachtet. In einer Abhandlung ebenfalls über Glücksspiele führt Ch. Huygens den Erwartungswert ein.
ca. 1710. U.a. durch Arbeiten von J. Bernoulli (Gesetz der großen Zahlen) und A.
de Moivre (Zentraler Grenzwertsatz) gibt es Fortschritte in der elementaren“
”
Stochastik. Es entwickelt sich das Gebiet der Statistik.
18. und Beginn des 19. Jahrhunderts. In den mathematischen Auseinandersetzungen mit der Stochastik bleiben große Probleme mit kontinuierlichen Wahrscheinlichkeitsverteilungen bestehen. In philosphischen Überlegungen wird
u.a. von d’Alembert und P.S. Laplace versucht, den Zufall“ zu verstehen.
”
T. Bayes (bedingte Wahrscheinlichkeit) begründet die angelsächsische Schu”
le“ der mathematischen Statistik. C.F. Gauß und A.M. Legendre erarbeiten
die Methode der kleinsten Quadrate.
Ende des 19. Jahrhunderts. Die Mengenlehre (G. Cantor) und die Maß- und Integrationstheorie (E. Borel, H. Lebesgue) werden entwickelt. Sie erweisen sich
später als die Basis der modernen“ Stochastik.
”
Beginn des 20. Jahrhunderts. Vielfältige theoretische Untersuchungen und Anwendungen konvergieren“ letztendlich zum noch heute akzeptierten Gebäude“
”
”
der Wahrscheinlichkeitstheorie. Durch Arbeiten von L. Bachelier (Modellierung von Aktienkursen, 1900) und A. Einstein (Molekularbewegung, 1905)
findet mit der Brownschen Bewegung ein stochastischer Prozeß erste wichtige
Anwendungen.
1933. A.N. Kolmogorov veröffentlicht das Axiomensystem der Wahrscheinlichkeitstheorie. In den folgenden zwei Jahrzehnten sind schnelle Fortschritte möglich
(Stochastische Prozesse, Stochastische Differentialgleichungen, Martingale).
2. Hälfte des 20. Jahrhunderts. Erst durch Anwendungen von Resultaten der modernen Wahrscheinlichkeitstheorie werden viele technische oder wirtschaftliche Entwicklungen möglich, wie z.B.
• Manhattan-Projekt, Entwicklung der H-Bombe (Monte-Carlo Simulationen u.a. von S. Ulam, E. Fermi, J. v. Neumann),
• Steuerung von Satelliten und Raketen, bzw. Satellitennavigationssysteme (Kalman-Bucy Filter),
• Bestimmung des Preises für gewisse Finanzderivate (z.B. Terminkontrakte, Aktienoptionen) (u.a. Black-Scholes Modell).
28. Januar 2011
KAPITEL 2
Wahrscheinlichkeitsräume
Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei
• Ω eine Menge,
• F eine σ-Algebra 2.1, d.h. eine spezielle Familie von Teilmengen von Ω
und
• P ein Wahrscheinlichkeitsmaß 2.3 auf (Ω, F) ist.
2.2
,
Ω heißt Stichprobenraum. Die Elemente 2.4 A ∈ F beschreiben Ereignisse, welche
durch P eine Wahrscheinlichkeit P[A] ∈ [0, 1] zugewiesen bekommen.
Während Stichprobenräume keinerlei Einschränkungen unterliegen 2.5, müssen
σ-Algebren und Wahrscheinlichkeitsmaße den im folgenden beschriebenen Kolmogorovschen Axiomen (2.1) und (2.2) genügen.
Sei Ω 6= ∅ eine Menge. Eine Familie F ⊆ Pot(Ω) heißt σ-Algebra, wenn
Ω ∈ F,
(2.1a)
(2.1b)
A∈F
(2.1c)
A1 , A2 , · · · ∈ F
Ω \ A ∈ F,
=⇒
=⇒
∞
[
k=1
Ak ∈ F.
Nun wird (Ω, F) als meßbarer Raum bezeichnet.
Im Rahmen eines wahrscheinlichkeitstheoretischen Modells lassen sich die Bedingungen (2.1) wie folgt interpretieren.
• Mit (2.1a) wird festgehalten, daß durch Ω das Ereignis irgendetwas ge”
schieht“ beschrieben wird.
• (2.1b) besagt, daß mit A auch A geschieht nicht“ ein Ereignis ist.
”
• Aufgrund von (2.1c) ist mit A1 , A2 , . . . auch A1 oder A2 oder . . .“ ein
”
Ereignis 2.6 2.7.
Für einen meßbaren Raum (Ω, F) heißt eine Funktion P : F → [0, 1] Wahrscheinlichkeitsmaß, wenn
(2.2a)
P[Ω] = 1,
2.1Die genaue Definition von σ-Algebren folgt in (2.1).
2.2I. allg. ist F eine echte Teilmenge der Potenzmenge Pot(Ω) von Ω, vgl. Abschnitt 2.5.
2.3Die genaue Definition von Wahrscheinlichkeitsmaßen folgt in (2.2).
2.4Die Elemente A ∈ F sind Teilmengen von Ω.
2.5In konkreten Anwendungen sollten Stichprobenräume einfach nur groß genug“ sein, d.h.,
”
eine hinreichend detaillierte Struktur besitzen.
2.6Man beachte, daß in (2.1c) nur abzählbare Vereinigungen betrachtet werden.
2.7Aus (2.1) können weitere Eigenschaften von σ-Algebren, wie z.B.
A1 , A2 , · · · ∈ F
=⇒
∞
\
k=1
abgeleitet werden, vgl. Abschnitt 2.3.1.
23
Ak ∈ F,
24
"
(2.2b) P
∞
[
k=1
Ak
#
2.8
=
∞
X
k=1
P[Ak ],
A1 , A2 , . . . ∈ F, Ak ∩ Al = ∅, k, l ∈ N, k 6= l.
Die Eigenschaft (2.2b) wird als σ-Additivität von P bezeichnet. Man beachte, daß
die Gültigkeit dieser Beziehung nur für abzählbar viele, paarweise disjunkte A1 , A2 ,
· · · ∈ F gefordert wird 2.9.
Die Eigenschaften (2.2) sind mit einem anschaulichen Begriff der Wahrschein”
lichkeit“ vereinbar 2.10. Beispielsweise besagt (2.2a), daß mit Wahrscheinlichkeit 1
2.11
“irgendetwas geschieht“
. Mit der σ-Additivität (2.2b) von P wird verlangt,
daß sich die Wahrscheinlichkeiten abzählbar vieler, sich gegenseitig ausschließender
Ereignisse addieren 2.12 2.13.
2.1. Elementare wahrscheinlichkeitstheoretische Modelle
Die Bildung einfacher wahrscheinlichkeitstheoretischer Modelle wird in diesem
Abschnitt mit einigen Beispielen für unterschiedliche Varianten des Wurfs einer
Münze, bzw. eines Würfels erläutert 2.14.
Beispiel 2.1 (Wurf einer fairen Münze). Bei einem Wurf einer fairen Münze kann
sich Kopf oder Zahl ergeben, wobei diese beiden Möglichkeiten die gleiche Wahrscheinlichkeit besitzen. Zur mathematischen Modellierung dieses Vorgangs kann
Kopf“ mit der Zahl 0 und Zahl“ mit 1 identifiziert werden und dann
”
”
Ω = {0, 1},
F = ∅, {0}, {1}, Ω = Pot(Ω),
1
1
P[∅] = 0, P[{0}] = , P[{1}] = , P[Ω] = 1
2
2
gewählt werden.
Die Menge Ω faßt die möglichen Ausgänge des Münzwurfs zusammen. Mit
diesen Ausgängen sind die durch F beschriebenen Ereignisse
∅ , Es
”
{0} , Es
”
{1} , Es
”
Ω , Es
”
wird weder Kopf noch Zahl geworfen“
2.15
,
wird Kopf geworfen“,
wird Zahl geworfen“,
wird Kopf oder Zahl geworfen“
2.8Als Folge von (2.1c) ist mit A , A , · · · ∈ F auch S∞ A ∈ F, d.h., die linke Seite von
1
2
k=1 k
(2.2b) ist wohldefiniert.
2.9Für beliebige, nicht notwendigerweise paarweise disjunkte A , A , · · · ∈ F gilt (2.2b) i. allg.
1
2
nicht. Vielmehr liegt dann σ-Subadditivität vor, d.h.,
#
"∞
∞
[
X
Ak ≤
P[Ak ], A1 , A2 , · · · ∈ F.
(∗)
P
k=1
k=1
Zum Beweis der Einschränkung von (∗) auf zwei Ereignisse vgl. (2.12).
2.10
Es ist bemerkenswert, daß (2.2a) und (2.2b) ausreichen, um auf eine eindeutige Weise
Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω, F) zu charakterisieren.
2.11Das Ereignis Ω umfaßt “alles mögliche, das eintreten kann“. Man beachte, daß P[Ω]
aufgrund von (2.1a) wohldefiniert ist.
2.12Sich ausschließende Ereignisse entsprechen disjunkten Mengen.
2.13Es ist wesentlich, daß (2.2b) für abzählbar viele und nicht nur für endliche viele disjunkte
A1 , . . . , AN ∈ F, N ∈ N, gefordert wird. Jene endliche Additivität von P kann als Konsequenz
von (2.2) bewiesen werden, vgl. (2.10). Zusammen mit (2.10) werden weitere Konsequenzen aus
(2.2) in Abschnitt 2.3.2 zusammengestellt.
2.14
Insbesondere wird beschrieben, wie in diesen Fällen zur Modellierung geeignete Wahrscheinlichkeitsräume angegeben werden können.
28. Januar 2011
25
verbunden. Da die Münze als fair vorausgesetzt wurde, besitzen diese Ereignisse
offensichtlich“ 2.16 die durch P angegebenen Wahrscheinlichkeiten.
”
Mit dem hier beschriebenen wahrscheinlichkeitstheoretischen Modell (Ω, F, P)
kann offenbar auch jedes andere Experiment“ mit zwei möglichen, gleichwahr”
scheinlichen Ausgängen beschrieben werden 2.17.
Beispiel 2.2 (Wurf einer unfairen Münze). Bei einem Wurf einer Münze, die bevorzugt auf eine der beiden Seiten fällt, d.h. einer unfairen Münze, können Ω und
F wie in Beispiel 2.1 gewählt werden. Mit einem geeigneten p ∈ [0, 1] 2.18 ist dann
allerdings P gemäß
P[∅] = 0, P[{0}] = 1 − p, P[{1}] = p, P[Ω] = 1
zu modifizieren.
Mit einem derartigen Wahrscheinlichkeitsraum (Ω, F, P) können Experimente
mit zwei möglichen, unterschiedlich wahrscheinlichen Ausgängen modelliert werden 2.19.
Beispiel 2.3 (Wurf eines fairen Würfels). Im Gegensatz zu den Fällen in den
Beispielen 2.1 und 2.2 sind in diesem Fall sechs Ausgänge möglich, wobei diese wie
in Beispiel 2.1 gleichwahrscheinlich sind. Nun kann durch
Ω = {1, 2, . . . , 6},
F = Pot(Ω),
1
P[{k}] = ,
6
P[A] =
2.20
k = 1, . . . , 6,
X
k∈A
P[{k}] =
|A|
|A|
=
,
6
|Ω|
A ∈ F,
ein zur Modellierung geeigneter Wahrscheinlichkeitsraum (Ω, F, P) definiert werden.
Beispiel 2.4 (Wurf eines unfairen Würfels). Ein Würfel sei so manipuliert, daß die
sechs Seiten mit unterschiedlichen Wahrscheinlichkeiten pk , k = 1, . . . , 6, geworfen
werden. Hierbei sollte
pk ∈ [0, 1], k = 1, . . . , 6,
6
X
pk = 1
k=1
2.15Mit ∅ ∈ F werden hier auch unwahrscheinliche“ Ereignisse wie die Münze bleibt in der
”
”
Luft hängen“ oder im Zeitpunkt ihres Wurfs schlägt ein Blitz in die Münze ein und sie verdampft“
”
modelliert.
2.16
Hier wird auf die menschliche Erfahrung Bezug genommen. In mathematischen Modellen
realer Phänomene geht diese menschliche Erfahrung immer ein.
2.17Beispiele sind ein Wurf eines fairen Würfels, bei dem gefragt wird, ob eine gerade oder
”
eine ungerade Augenzahl auftritt“ oder eine Ultraschalluntersuchung eines Embryos, dessen Ge”
schlecht festgestellt werden soll“.
2.18p = 0 oder p = 1 wird dann benutzt, wenn die Münze so präpariert ist, daß sie immer
auf die gleiche Seite fällt.
2.19Weitere Beispiele wären der Wurf eines Reißnagels“, bei dem die glatte Seite, bzw.
”
der Stift nach oben zeigen kann, die Frage an einen zufällig ausgewählten Passanten, ob er im
”
kommenden Sommer Urlaub machen wird oder nicht“ oder die Untersuchung einer Blutkonserve,
”
ob diese HIV-positiv ist oder nicht“.
2.20Hier wird benutzt, daß sich die Wahrscheinlichkeiten endlich vieler, sich gegenseitig ausschließender, d.h. disjunkter Ereignisse zu ihrer Gesamtwahrscheinlichkeit addieren, vgl. Fußnote 1.29, bzw. (2.2b) oder (2.10).
28. Januar 2011
26
gelten. Zur Modellierung kann in diesem Fall (Ω, F) wie in Beispiel 2.3 gewählt und
das Wahrscheinlichkeitsmaß P durch
X
X
P[A] =
P[{k}] =
pk , A ∈ F,
k∈A
k∈A
definiert werden.
Beispiel 2.5 (Mehrmaliger, unabhängiger Wurf einer fairen Münze). 2.21 Ausgehend von den Überlegungen in Beispiel 2.1 kann die Menge der Sequenzen von N
Würfen der Münze durch
Ω = {0, 1}N = {(ω1 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N }
beschrieben werden. Wie in den Beispielen 2.1 - 2.4 ist weiterhin die Wahl
F = Pot(Ω)
2.22
sinnvoll
. Bei der Bestimmung der Wahrscheinlichkeit P[{ω}] für das Auftreten
einer einzelnen festen Wurfsequenz ω = (ω1 , . . . , ωN ) ∈ Ω muß beachtet werden,
daß für alle k = 1, . . . , N die Wahrscheinlichkeit für den Wurf von 0, bzw. 1 beim
k-ten Wurf unabhängig von den Resultaten der restlichen Würfe l 6= k jeweils 1/2
ist. Somit folgt zunächst
(2.3)
P[{ω}] = P[1. Wurf , ω1 , 2. Wurf , ω2 , . . . , N . Wurf , ωN ]
2.23
P[1. Wurf , ω1 ]P[2. Wurf , ω2 ] . . . P[N . Wurf , ωN ]
1 N
1
= 2.24
, ω ∈ Ω,
=
2
|Ω|
=
und dann als Ergänzung
(2.4)
P[A] =
X
ω∈A
P[{ω}] =
|A|
,
|Ω|
A ∈ F.
Beispiel 2.6 (Mehrmaliger, unabhängiger Wurf einer unfairen Münze). 2.25 Die
Menge der möglichen Wurfsequenzen ist offensichtlich die gleiche wie in Beispiel 2.5,
d.h., es kann
Ω = {0, 1}N
gewählt werden. Ebenso sind die gleichen Ereignisse wie in Beispiel 2.5 zu betrachten, so daß
F = Pot(Ω)
2.21Der Begriff der Unabhängigkeit in der Wahrscheinlichkeitstheorie wird noch erläutert
werden. Analog zu den zu (1.4) führenden Überlegungen, vgl. insbesondere Fußnote 1.30, sei
vorerst damit gemeint, daß die einzelnen Würfe nicht durch die Ausgänge der anderen Würfe
”
beeinflußt werden“.
Bei der rigorosen Definition der Unabhängigkeit zweier Ereignisse wird die intuitiv einleuchtende Beziehung
P[A und B] = P[A ∩ B] = P[A]P[B]
für unabhängige“ Ereignisse A und B benutzt, vgl. Abschnitt 3.2.3.
”2.22
Einer Menge A von Wurfsequenzen entspricht das Ereignis, daß die geworfene Wurfse”
quenz in A enthalten ist“.
2.23Wegen der Unabhängigkeit der Würfe, vgl. Fußnote 2.21.
2.24Dieser Zusammenhang ergibt sich aus der Tatsache, daß Ω insgesamt 2N Elemente
enthält, d.h., |Ω| = 2N .
2.25Das nun vorgestellte wahrscheinlichkeitstheoretische Modell wurde schon bei der Untersuchung einer anderen Fragestellung (Prüfung der Qualität von Produktionsstücken) in Abschnitt 1.1.2 eingeführt.
28. Januar 2011
27
definiert werden sollte. Wenn allerdings 2.26 p 6= 1/2 ist, so besitzen jene Ereignisse
nun andere Wahrscheinlichkeiten als in Beispiel 2.5, d.h., P ist zu modifizieren.
Wenn die Unabhängigkeit der einzelnen Würfe berücksichtigt wird, so führt die in
Beispiel 2.2 festgehaltene Wahrscheinlichkeitsverteilung 2.27 für das Ergebnis eines
einzelnen Wurfs zu 2.28
(2.5a)
P[{ω}] =
N
Y
i=1
pωi (1 − p)1−ωi = p
PN
i=1
ωi
(1 − p)N −
PN
i=1
ωi
,
ω ∈ Ω,
bzw.,
(2.5b)
P[A] =
X
P[{ω}],
ω∈A
A ∈ F.
Bemerkungen 2.7. (i) Wie in den Beispielen 2.1 - 2.6 ist i. allg. bei endlichen
oder abzählbar unendlichen Stichprobenräumen Ω die Wahl F = Pot(Ω) üblich.
Wenn aber Ω überabzählbar unendlich ist, kann eine derartige Wahl von F zu einem
Widerspruch führen 2.29.
(ii) Wenn |Ω| < ∞ und P[{ω}] = 1/|Ω|, ω ∈ Ω, wie in den Beispielen 2.1, 2.3
und 2.5, wird P als Gleichverteilung auf Ω bezeichnet 2.30. Nun ist (Ω, F, P) ein
Laplacescher Wahrscheinlichkeitsraum.
2.2. Diskrete Wahrscheinlichkeitsmaße
Die in diesem Abschnitt 2.2 vorgestellten Wahrscheinlichkeitsmaße tauchen sehr
oft in den klassischen Beispielen der elementaren Wahrscheinlichkeitstheorie auf. Sei
zunächst allgemein
wobei
• Ω eine endliche oder abzählbar unendliche Menge,
• F = Pot(Ω)
P und
• P[A] = a∈A pa , A ∈ F,
pa = P[{a}] ∈ [0, 1], a ∈ Ω,
mit
X
pa = 1.
a∈Ω
In einem solchen Fall wird (Ω, F, P) als diskreter Wahrscheinlichkeitsraum und
P als diskretes Wahrscheinlichkeitsmaß bezeichnet 2.31. Spezielle Beispiele sind in
folgender Liste zusammengestellt:
Bernoulli-Verteilung mit Parameter p ∈ [0, 1]:
Ω = {0, 1};
p0 = 1 − p, p1 = p.
Anwendung: Modellierung eines Münzwurfs (fair, wenn p = 1/2, sonst unfair) 2.32.
2.26p ∈ [0, 1] ist die Wahrscheinlichkeit für den Wurf von 1 ,
Zahl“ bei einem einzelnen
”
Wurf der Münze, vgl. Beispiel 2.2.
2.27Wahrscheinlichkeitsverteilung ist ein Synonym für Wahrscheinlichkeitsmaß.
2.28Vgl. die entsprechende Bestimmung von P
N,p in Abschnitt 1.1.2 und insbesondere auch
die Herleitung von (1.4).
2.29Vgl. Abschnitt 2.5.
2.30In diesen Fällen hat jedes einpunktige Elementarereignis“ {ω}, ω ∈ Ω, die gleiche Wahr”
scheinlichkeit.
2.31Die in Abschnitt 2.1 beschriebenen Wahrscheinlichkeitsräume sind alle diskret.
2.32Vgl. Beispiele 2.1 und 2.2. Auch andere Experimente“ mit zwei möglichen Ausgängen
”
können mit Hilfe einer Bernoulli-Verteilung modelliert werden. Beispiele wären der Test einer
Person auf eine HIV-Infektion oder eine Funktionsprüfung einer Glühbirne.
28. Januar 2011
28
Binomial-Verteilung B(N, p) mit Parametern N ∈ N und p ∈ [0, 1]:
N k
Ω = {0, 1, . . . , N }; pk =
p (1 − p)N −k , k ∈ Ω.
k
Anwendung: Mit B(N, p) kann die Anzahl der Erfolge beim N -maligen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p modelliert werden 2.33.
Geometrische Verteilung (auf N) mit Parameter p ∈ (0, 1) 2.34:
Ω = N = {1, 2, . . . };
pk = (1 − p)k−1 p, k ∈ Ω.
Anwendung: Modellierung des Zeitpunkts des ersten Wurfs von Zahl“ bei
”
dem ∞-fachen, unabhängigen Wurf einer Münze mit Wahrscheinlichkeit p
2.35 2.36
für Zahl“ beim einmaligen Wurf
.
”
Negative Binomial-Verteilung mit Parametern r ∈ N und p ∈ (0, 1):
k+r−1 r
Ω = N0 = {0, 1, 2, . . . }; pk =
p (1 − p)k , k ∈ Ω.
k
Anwendung: Modellierung der Anzahl der Mißerfolge vor dem r-ten Erfolg
bei einem beliebig oft unabhängig wiederholten Bernoulli-Experiment“ mit
”
Erfolgswahrscheinlichkeit p 2.37 2.38. Die Negative Binomial-Verteilung, die
auch als Pascal-Verteilung bezeichnet wird, ist eine Verallgemeinerung der
sich für r = 1 ergebenden geometrischen Verteilung 2.39 2.40.
2.33Vgl. auch Abschnitt 1.1.2, insbesondere (1.5). Die Anzahl der defekten Produktionsstücke
bei N Prüfungen ist binomialverteilt mit den Parametern N und der Fehlerwahrscheinlichkeit p.
2.34In [5] wird auch die Wahrscheinlichkeitsverteilung auf N = {0, 1, 2, . . . } mit p = (1 −
0
k
k
p) p, k ∈ N0 , als geometrische Verteilung bezeichnet.
2.35Wegen der Unabhängigkeit der Würfe, vgl. Fußnote 2.21, gilt insbesondere
P zum Zeitpunkt n wird das erste Mal Zahl“ geworfen
”
= P 1. Wurf , Kopf“, . . . , (n − 1)-ter Wurf , Kopf“, n-ter Wurf , Zahl“
”
”
”
= P[1. Wurf , Kopf“] . . . P[(n − 1)-ter Wurf , Kopf“]P[n-ter Wurf , Zahl“]
”
”
”
= (1 − p)n−1 p, n ∈ N.
2.36
Die Modellierung des ∞-fachen, unabhängigen Wurf einer Münze wird ausführlich in
Abschnitt 2.4.2 erläutert.
2.37Bei einem Bernoulli-Experiment“ denke man nicht nur an einen Wurf einer Münze.
”
2.38Das Ereignis,
daß k (durch 0“ beschriebene) Mißerfolge vor dem r-ten (durch 1“ be”
”
schriebenen) Erfolg eintreten, wird repräsentiert durch die Menge der Sequenzen der Länge k + r
mit Werten in {0, 1}, die mit einer 1 enden und in den vorangehenden k + r − 1 Stellen genau k
mal eine 0 und r − 1 mal eine 1 haben. Somit zeigt sich, wenn wie bei der Herleitung von (1.5)
argumentiert wird, daß die Wahrscheinlichkeit für dieses Ereignis
k + r − 1
pr (1 − p)k
k
ist.
2.39Mit geometrischer Verteilung ist hier die in Fußnote 2.34 beschriebene Variante gemeint.
2.40Der Name negative Binomial-Verteilung“ bezieht sich auf die Darstellung
”
−r
k + r − 1
(−1)k pr (1 − p)k , k ∈ N0 , r ∈ N,
pr (1 − p)k =
k
k
die sich ergibt, wenn
m
= 1,
0
m
m(m − 1) . . . (m − l + 1)
=
, l = 1, 2, . . . ,
l
l!
für beliebige m ∈ Z definiert wird.
28. Januar 2011
29
Laplacesche Verteilung (Gleichverteilung) auf einer endlichen Menge M
Ω = M;
pm =
2.41
:
1
, m ∈ Ω.
|M |
Anwendung: Modellierung von Experimenten mit einer endlichen Anzahl
möglicher Ausgänge, die evtl. aufgrund eingeschränkter Vorkenntnisse alle
als gleichwahrscheinlich erscheinen.
Poissonverteilung P (λ) mit Parameter λ > 0:
Ω = N0 = {0, 1, 2, . . . };
pk =
λk
exp(−λ), k ∈ Ω.
k!
Anwendung: Modellierung der Anzahl von total zufälligen“ Zeitpunkten 2.42
”
in einem Zeitintervall [0, T ], z.B. der Anzahl eingehender Anrufe in einer
2.43
Telefonzentrale
.
Multinomialverteilung und hypergeometrische Verteilung 2.44 sind weitere diskrete
Wahrscheinlichkeitsmaße, die auf endlichen Teilmengen eines geeigneten Zd ,
d = 2, 3, . . . , konzentriert sind. Sie treten auf bei der Modellierung der Resultate von mehrmaligen Ziehungen aus einer Urne, die endlich viele Kugeln
mit teilweise unterschiedlichen Farben enthält. Verschiedenartige Situationen
ergeben sich, je nachdem ob die gezogenen Kugeln zurückgelegt oder nicht
zurückgelegt werden.
Bemerkung 2.8. (i) Sei Ω ⊂ Rd höchstens abzählbar. Ein diskretes Wahrscheinlichkeitsmaß P auf Ω kann auch als ein Wahrscheinlichkeitsmaß auf 2.45 (Rd , B(Rd ))
betrachtet werden. Man definiert dann
X
P[A] =
P[{a}], A ∈ B(Rd ).
a∈Ω∩A
(ii) Für ein allgemeines Wahrscheinlichkeitsmaß P 2.46 auf (Rd , B(Rd )) bezeichnet
man Punkte a ∈ Rd mit P[{a}] > 0 auch als Atome von P. Offensichtlich ist ein
diskretes Wahrscheinlichkeitsmaß auf seinen Atomen konzentriert 2.47.
2.41In den Beispielen 2.1, 2.3 und 2.5 wurden Laplacesche Verteilungen betrachtet. Später,
vgl. Abschnitte 2.4.1 und 2.6, wird auch die Gleichverteilung auf [0, 1], bzw. einem beschränkten
Gebiet G ⊆ Rd eingeführt werden.
2.42Sowohl die Anzahl als auch die Lage jener Zeitpunkte innerhalb von [0, T ] seien zufällig“.
”
Außerdem seien keine Wechselwirkungen zwischen den einzelnen Zeitpunkten vorhanden.
2.43Weitere Beispiele wären jeweils in einem Zeitintervall [0, T ] die Anzahl der bei einem
Mailserver eingehenden E-Mails, die Anzahl der Verkehrsunfälle auf einem festen Straßenabschnitt,
der Vulkaneruptionen auf der Erde, der von Astronomen beobachteten Supernova-Explosionen,
....
Die Tatsache, daß in derartigen Situationen mit Hilfe der Poissonverteilung eine vernünftige
mathematische Modellierung vorgenommen werden kann, ergibt sich aus der Gültigkeit der
Poisson-Approximation der Binomialverteilung. Dieses Resultat besagt, daß bei N → ∞ die
Binomialverteilung B(N, pN ) gegen die Poissonverteilung P (λ) konvergiert“, falls N pN → λ,
”
vgl. Abschnitt 2.7. Die Entwicklung eines Poissonschen Modells in einem konkreten Beispiel wird
in Abschnitt 2.7.1 diskutiert.
2.44
Vgl. Abschnitt 5.4.
2.45Die Borelsche σ-Algebra B(Rd ) ist die kleinste σ-Algebra in Rd , die alle d-dimensionalen
Rechtecke in Rd enthält, vgl. Abschnitt 2.4.3.
2.46P muß nicht diskret sein.
2.47Für ein Wahrscheinlichkeitsmaß auf (Rd , B(Rd )) mit einer Dichte f , vgl. Abschnitt 2.6,
R
gilt P[{a}] = {a} dx f (x) = 0, a ∈ Rd . Ein solches Wahrscheinlichkeitsmaß hat daher keine
Atome.
28. Januar 2011
30
2.3. Konsequenzen aus den Kolmogorovschen Axiomen
In diesem Abschnitt 2.3 wird die Struktur allgemeiner σ-Algebren und Wahrscheinlichkeitsmaße ein wenig detaillierter betrachtet 2.48.
2.3.1. Weitere Eigenschaften von σ-Algebren. Sei (Ω, F) ein meßbarer
Raum. Unmittelbar aus (2.1) folgt zunächst 2.49
∅ ∈ F.
(2.6)
Weiterhin ist F auch unter endlichen Vereinigungen abgeschlossen, d.h.,
(2.7)
A1 , . . . , AN ∈ F, N ∈ N
=⇒
N
[
k=1
Ak ∈ F.
Schließlich läßt sich (2.1c) auf eine natürliche Weise durch
A1 , A2 , · · · ∈ F
(2.8)
=⇒
∞
\
k=1
2.50
2.51
Ak ∈ F
ergänzen.
2.3.2. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen. Sei ein
allgemeiner Wahrscheinlichkeitsraum (Ω, F, P) gegeben. Komplementär zu (2.2a)
2.48Insbesondere werden einfache Folgerungen aus (2.1) und (2.2), welche σ-Algebren und
Wahrscheinlichkeitsmaße eindeutig charakterisieren, zusammengestellt.
2.49Zum Beweis von (2.6) beachte man
∅ = Ω \ Ω ∈ F (vgl. (2.1b)).
|{z}
∈ F (vgl. (2.1a))
2.50Aufgrund von (2.1c) scheint (2.7)
offensichtlich“ zu sein. Diese Beziehung sollte aber
”
dennoch einmal präzise bewiesen werden. Wenn hierzu
A′k =
(
Ak ,
k = 1, . . . , N,
∅,
k = N + 1, N + 2, . . . ,
gesetzt wird, folgt
N
[
Ak =
k=1
∞
[
k=1
A′k ∈ F (aufgrund von (2.6) und (2.1c)).
2.51(2.8) folgt aus
∞
\
k=1
Ak = Ω \
( Ω \ Ak ) ∈ F (vgl. (2.1b)).
| {z }
k=1
∈ F (vgl. (2.1b))
|
{z
}
∈ F (vgl. (2.1c))
[
∞
28. Januar 2011
31
ist
2.52 2.53
(2.9)
P[∅] = 0.
Natürlich ist neben der σ-Additivität
d.h., 2.55
"N
#
N
X
[
(2.10) P
P[Ak ],
Ak =
k=1
2.54
auch die endliche Additivität von P,
k=1
A1 , . . . , AN ∈ F, Ak ∩Al = ∅, k, l = 1, . . . , N, k 6= l, N ∈ N,
zu erwarten. Für sich nicht gegenseitig ausschließende Ereignisse kann (2.10) beispielsweise durch 2.56
(2.11)
P[A ∪ B] = P[A] + P[B] − P[A ∩ B],
A, B ∈ F,
ergänzt werden. Als Konsequenzen von (2.11) ergeben sich mit
P[A ∪ B] ≤ P[A] + P[B],
(2.12)
die Subadditivität von P und mit
A, B ∈ F,
2.58
P[A] ≤ P[B],
(2.13)
2.57
A, B ∈ F, A ⊆ B,
die Monotonie von P.
2.52(2.9) besagt, daß die Wahrscheinlichkeit, daß nichts geschieht“ 0 ist.
2.53
”
Man beachte, daß ∅ ∈ F, vgl. (2.6). Damit ist P[∅] wohldefiniert. Nun gilt
(∗)
1 = P[Ω]
(vgl. (2.2a))
.
.
.
= P[ Ω ∪ ∅ ∪ ∅ ∪ . . . ]
|
{z
}
disjunkte Vereinigung
∞
X
P[∅] (vgl. (2.2b)).
= P[Ω] +
| {z } k=2
= 1 (vgl. (2.2a))
(∗) kann nur gelten, wenn (2.9) richtig ist.
2.54Vgl. (2.2b).
2.55Zum Beweis von (2.10) beachte man
" N
#
" N
[
[
Ak = P
Ak ∪
P
k=1
k=1
∞
[
k=N+1
∅
#
|
{z
}
disjunkte Vereinigung
=
N
X
P[Ak ] +
k=1
∞
X
k=N+1
P[∅] (vgl. (2.2b)).
|{z}
= 0 (vgl. (2.9))
.
.
2.56Zum Beweis von (2.11) beachte man daß A∪B = (A\B) ∪
(B \A) ∪ (A∩B) eine disjunkte
Vereinigung ist. Mit (2.10) folgt nun
P[A ∪ B] + P[A ∩ B] = (P[A \ B] + P[A ∩ B]) + (P[B \ A] + P[A ∩ B]),
{z
}
{z
}
|
|
= P[A]
= P[B]
womit (2.11) bewiesen ist.
2.57Da P[A ∩ B] ≥ 0, folgt (2.12) aus (2.11).
2.58(2.13) folgt aus
P[B] = P[A] + P[B \ A]
≥ P[A]
(vgl. (2.10))
(da P[B \ A] ≥ 0).
28. Januar 2011
32
2.4. Konstruktion von σ-Algebren und Wahrscheinlichkeitsmaßen
In diesem Abschnitt 2.4 wird erläutert, wie in komplexen Situationen, wenn
mit sehr großen Stichprobenräumen Ω zu arbeiten ist, geeignete σ-Algebren F und
Wahrscheinlichkeitsmaße P konstruiert werden können 2.59. Wenn insbesondere Ω
überabzählbar unendlich ist und daher i. allg. die Wahl F = Pot(Ω) nicht sinnvoll
ist 2.60, bietet sich die folgende Vorgehensweise an 2.61:
(i) Angabe einer Menge F∗ von elementaren“, dem menschlichen Verständnis
”
leicht zugänglichen Ereignissen 2.62.
(ii) Angabe einer Funktion P∗ : F∗ → [0, 1] mit den Eigenschaften (2.2a) und
(2.2b) 2.63.
In dieser Vorlesung wird im wesentlichen im Rahmen von (i) und (ii) gearbeitet.
Dies ist gerechtfertigt, falls der nächste Schritt (iii) gelingt.
(iii) Nachweis der eindeutigen Fortsetzbarkeit von P∗ zu einem Wahrscheinlichkeitsmaß P : F → [0, 1], wobei F = σ(F∗ ) die kleinste, F∗ umfassende
σ-Algebra ist 2.64.
Der Schritt (iii) wird in weiterführenden Vorlesungen behandelt 2.65.
Letztendlich ist dann (Ω, F, P) der Wahrscheinlichkeitsraum, mit dem mathematisch rigoros für wahrscheinlichkeitstheoretische Untersuchungen gearbeitet
wird.
2.4.1. Gleichverteilung auf [0, 1]. Sei Ω = [0, 1], F∗ = {[a, b] : 0 ≤ a ≤ b
≤ 1} 2.66 und P∗ : F∗ → [0, 1] mit P∗ [[a, b]] = b − a, 0 ≤ a ≤ b ≤ 1.
2.59Hierbei ist beispielsweise die Modellierung von sehr umfangreichen realen Geschehnissen
gemeint, wenn die Verwendung von endlichen oder abzählbar unendlichen Stichprobenräumen
ausgeschlossen ist.
2.60Vgl. Abschnitt 2.5. Der dort vorgestellte Satz von Vitali verdeutlicht, wie in dem in
Abschnitt 2.4.2 entworfenen Modell für den ∞-fachen, unabhängigen, fairen Münzwurf die Wahl
F = Pot(Ω) zu einem Widerspruch führt.
2.61
Diese allgemeine Vorgehensweise wird in den in den Abschnitten 2.4.1 - 2.4.3 behandelten
Beispielen konkretisiert werden.
2.62Im Rahmen einer Modellbildung sollte a priori klar sein, daß die Wahrscheinlichkeiten
der Ereignisse in F∗ auf jeden Fall bekannt, bzw. einfach zu berechnen sein sollten.
2.63Die Bedingung (2.2b) muß bei P∗ nur für paarweise disjunkte Mengen A , A , · · · ∈ F ∗
1
2
S∞
mit k=1 Ak ∈ F∗ gelten.
2.64σ(F ∗ ) existiert immer auf eine eindeutige Weise. Insbesondere kann nachgewiesen werden,
T
daß σ(F∗ ) = G∈F∗ G, wobei F∗ die Menge alle σ-Algebren G mit G ⊇ F∗ ist. Die Fortsetzung P
von P∗ auf σ(F∗ ) braucht jedoch nicht immer zu existieren, bzw. nicht eindeutig zu sein.
2.65
Die eindeutige Existenz eines Wahrscheinlicheitsmaßes P, das P∗ fortsetzt, wird z.B.
mit dem Satz von Carathéodory gesichert, vgl. [3], Appendix A.1. Jenes Resultat besagt, daß
eine Funktion P∗ : F∗ → [0, 1], welche die in (2.2) angegebenen Eigenschaften besitzt, vgl. dazu
Fußnote 2.63, sich dann auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Ω, σ(F∗ ))
fortsetzen läßt, wenn F∗ eine Algebra ist.
Hierbei wird eine Familie F∗ von Teilmengen von Ω als Algebra bezeichnet, wenn F∗ die
Eigenschaften (2.1a) und (2.1b) besitzt und wenn für A, B ∈ F∗ auch A ∪ B ∈ F∗ gilt.
2.66F ∗ ist die Menge der abgeschlossenen Intervalle in [0, 1].
28. Januar 2011
33
σ(F∗ ) =: B([0, 1]) 2.67 ist die Borelsche σ-Algebra in [0, 1]. P∗ besitzt eine
eindeutige Fortsetzung 2.68 λ = λ[0,1] auf B([0, 1]), das sog. Lebesguemaß auf [0, 1].
λ[0,1] wird auch als Gleichverteilung auf [0, 1] bezeichnet 2.69.
Beispiel 2.9. In B([0, 1]) sind u.a. einpunktige Mengen 2.70 {a}, a ∈ [0, 1], oder
auch abzählbare Teilmengen 2.71 {ak : k ∈ N}, ak ∈ [0, 1], k ∈ N, von [0, 1] enthalten.
Weil
"∞
#
[
λ[{ak : k ∈ N}] = λ
{ak }
=
k=1
∞
X
2.72
k=1
λ[{ak }] = 0, ak ∈ [0, 1], k ∈ N,
| {z }
= |ak − ak | = 0
besitzen alle abzählbaren Teilmengen von [0, 1] das Lebesguemaß 0
2.73
.
2.4.2. ∞-facher, unabhängiger Münzwurf. Bei manchen Experimenten
mit unabhängigen Würfen einer Münze, wie z.B. beim Bestimmen des ersten Zeitpunkts, an dem Kopf“ geworfen wird, steht anfangs nicht fest, wie oft die Münze
”
überhaupt geworfen werden muß 2.74. Um derartige Situationen zu untersuchen, ist
es sinnvoll, zu p ∈ [0, 1] den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p zu modellieren 2.75.
2.67B([0, 1]) ist die kleinste σ-Algebra, die alle abgeschlossenen Intervalle in [0, 1] umfaßt.
B([0, 1]) ist ebenso die kleinste σ-Algebra, die alle offenen, bzw. halboffenen Intervalle in [0, 1]
enthält.
2.68Zum Nachweis der eindeutigen Existenz von λ kann der in Fußnote 2.65 beschriebene Satz
von Carathéodory nicht direkt angewandt werden, da F∗ keine Algebra ist. Allerdings könnte man
e ∗ der endlichen Vereinigungen disjunkter Elemente von F∗ , d.h. durch die
F∗ durch die Menge F
Menge
e ∗ = [a1 , b1 ] ∪ · · · ∪ [an , bn ] : 0 ≤ a1 ≤ b1 < a2 ≤ · · · < an ≤ bn ≤ 1, n ∈ N
F
ersetzen und anschließend mit
n
X
e ∗ [a1 , b1 ] ∪ · · · ∪ [an , bn ] =
|bk − ak |,
P
k=1
0 ≤ a1 ≤ b1 < a2 ≤ · · · < an ≤ bn ≤ 1, n ∈ N,
e ∗ erweitern. F
e ∗ ist eine Algebra und in der Tat ist es mit dem Satz von Carathéodory
P∗ auf F
e ∗ definierten
möglich, zu zeigen, daß mit λ eine eindeutige Fortsetzung auf B([0, 1]) der auf F
∗
e
Funktion P existiert.
2.69In Abschnitt 2.2 war die Gleichverteilung auf einer endlichen Menge beschrieben worden.
Die beiden Gleichverteilungen besitzen aus offensichtlichen Gründen den gleichen Namen, sind
aber völlig unterschiedlich strukturierte Wahrscheinlichkeitsmaße.
2.70Da {a} = [a, a] ∈ F ∗ .
2.71Da {a } ∈ B([0, 1]), k = 1, 2, . . . , ist wegen (2.1c) auch {a : k ∈ N} = S∞ {a } ∈
k
k
k
k=1
B([0, 1]).
2.72Wegen der σ-Additivität von λ, vgl. (2.2b). O.E.d.A. sei hierzu angenommen, daß alle
ak , k ∈ N, verschieden sind.
2.73Es gibt auch Mengen M ∈ B([0, 1]), die die gleiche Mächtigkeit wie R haben und damit
überabzählbar sind, mit λ[M ] = 0, z.B. gewisse Cantormengen.
2.74Andere Beispiele sind die Bestimmung des ersten Zeitpunkts, an dem insgesamt 104 mal
Zahl“ geworfen wurde, die Bestimmung des ersten Zeitpunkts, an dem eine ununterbrochene
”
Sequenz von mehr als 105 Würfen von Kopf“ beendet wird, oder auch die Beantwortung der
”
Frage, mit welcher Wahrscheinlichkeit, zumindest einmal Zahl“ geworfen wird. Bei der Lösung
”
dieser Probleme muß man bereit sein, die Münze evtl. unendlich oft zu werfen.
2.75Mit einem Modell“ ist hier ein Wahrscheinlichkeitsraum (Ω, F, P) gemeint, so daß ins”
besondere unendlich lange Wurfsequenzen der Münze durch die Elemente ω von Ω repräsentiert
werden.
28. Januar 2011
34
Wenn die Überlegungen in den Beispielen 2.5 und 2.6 als Ausgangspunkt genommen werden, ist es naheliegend, als Stichprobenraum 2.76
(2.14)
Ω = {0, 1}N := (ω1 , ω2 , . . . ) : ωk ∈ {0, 1}, k ∈ N
zu wählen. Ω ist insbesondere überabzählbar unendlich 2.77.
Mit einem vernünftigen Modell für den ∞-fachen, unabhängigen Münzwurf
sollte es auch möglich sein, jede endliche Folge von Würfen zu beschreiben. Aus
diesem Grund wird F∗ als eine Menge von Ereignissen, die durch Würfe der Münze
an endlich vielen festen Zeitpunkten bestimmt sind, gewählt, d.h.,
(2.15) F∗ = {ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn = ηkn } 2.78 :
k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N .
Um eine Funktion P∗ : F∗ → [0, 1] zur Angabe von Wahrscheinlichkeiten P∗ [A]
von Ereignissen A ∈ F∗ zu definieren, können die Überlegungen in Beispiel 2.6
herangezogen werden. Daher setzt man 2.79
(2.16)
P∗ [{ω ∈ Ω : ωk1 = ηk1 , . . . , ωkn = ηkn }]
=
n
Y
l=1
pηkl (1 − p)1−ηkl = p
Pn
l=1
ηkl
(1 − p)n−
Pn
l=1
ηkl
,
k1 , . . . , kn ∈ N, 1 ≤ k1 < . . .< kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N.
Zu dieser Funktion P∗ : F∗ → [0, 1] existiert als Fortsetzung ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P auf (Ω, F), wobei F = σ(F∗ ).
Beispiel 2.10. Für den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ (0, 1) ist die Wahrscheinlichkeit q1 , daß der erste Wurf von Kopf“ in
”
einem geraden“ Zeitpunkt, d.h. zu einem Zeitpunkt 2k mit k ∈ N eintritt, zu
”
bestimmen 2.80. Es gilt:
q1 = P erster Wurf von Kopf“ in einem der Zeitpunkte 2k, k ∈ N
”
= P ω ∈ Ω : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0 für ein k ∈ N
"
#
∞
[
= P 2.81
{ω ∈ {0, 1}N : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0}
k=1
=
2.82
∞
X
P {ω ∈ {0, 1}N : ωl = 1, l = 1, . . . , 2k − 1; ω2k = 0}
{z
}
|
k=1
∈ F∗ 2.83
2.76
{0, 1}N ist die Menge der {0, 1}-wertigen Folgen. Für ein ω ∈ Ω und k ∈ N beschreibt ωk
das Ergebnis des k-ten Wurfs.
2.77Zur Begründung sei daraufhingewiesen, daß durch die Abbildung
Ω ∋ (ωk )k∈N →
∞
X
k=1
ωk 2−k ∈ [0, 1]
Ω surjektiv auf [0, 1] abgebildet werden kann.
2.78Hier wird das Ereignis, daß beim k -ten Wurf η , . . . und beim k -ten Wurf η
n
1
k1
kn geworfen
wird, betrachtet.
2.79Während Ω und F ∗ und somit auch F = σ(F ∗ ) von p ∈ [0, 1] unabhängig sind, hängt P∗
und folglich auch P von p ab.
2.80Für den ∞-fachen, unabhängigen, fairen Münzwurf, d.h., für p = 1/2, mag eine sehr
naive Vorgehensweise mit dem Argument genau die Hälfte der Zeitpunkte ist gerade“ zu q1 = 1/2
”
führen. Da aber zunächst in dem ungeraden“ Zeitpunkt 1, dann erst in dem geraden“ Zeitpunkt 2
”
”
. . . Kopf“ oder Zahl“ geworfen wird, zeigt sich bald, daß q1 < 1/2 sein muß.
”
”
28. Januar 2011
35
=
2.84
∞
X
k=1
=
p2k−1 (1 − p) =
p
.
1+p
∞
1−p X 2 k
(p )
p
k=1
| {z }
p2
p2
1
−1=
=
=
2
2
1−p
1−p
(1 − p)(1 + p)
Speziell ergibt sich q1 = 1/3 für p = 1/2, d.h. für den ∞-fachen, unabhängigen,
fairen Münzwurf 2.85.
Beispiel 2.11. Für den ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ [0, 1) ist die Wahrscheinlichkeit q2 , daß nur endlich oft Kopf“ geworfen
”
wird, zu bestimmen 2.86.
Die gesuchte Wahrscheinlichkeit q2 könnte zunächst auch experimentell durch
wiederholtes Werfen einer realen Münze oder auch mit Hilfe einer Computersimulation 2.87 bestimmt“ werden 2.88. Es würde sich andeuten, daß 2.89 q2 = 0 ist.
”
Bei einem mathematisch präzisen Vorgehen ergibt sich
(2.17)
q2 =
2.90
"
#
∞
[
N
P
ω ∈ {0, 1} : ωk = ωk+1 = · · · = 1
k=1
∞
X
≤
P ω ∈ Ω : ωk = ωk+1 = · · · = 1 ,
{z
}
|
k=1
= Bk
2.81Hier liegt eine Zerlegung in disjunkte, d.h. sich ausschließende Ereignisse vor.
2.82Wegen der σ-Additivität von P, vgl. (2.2b).
2.83
Dieses Ereignis wird durch die ersten 2k Würfe der Münze bestimmt, d.h., seine Wahrscheinlichkeit kann in einem Modell für den 2k-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p, vgl. Beispiel 2.6, berechnet werden.
2.84
Vgl. (2.16).
2.85In vielen wahrscheinlichkeitstheoretischen Untersuchungen wird die Asymptotik von Modellen betrachtet. In diesem Beispiel ist evtl. das Verhalten von q1 = q1 (p) für p → 0, bzw. für
p → 1 interessant.
Zunächst gilt limp→0 q1 (p) = 0. Dies ist plausibel, da bei p → 0 mit gegen 1 strebender
Wahrscheinlichkeit gleich beim 1. Wurf, d.h. in einem ungeraden Zeitpunkt, Kopf“ geworfen
”
wird.
Weiterhin ist limp→1 q1 (p) = 1/2. Da bei p → 1 bei jedem einzelnen Wurf mit nahe bei 1
liegender Wahrscheinlichkeit Zahl“ geworfen wird, dauert es i. allg. extrem lang, bis irgendwann
”
mal Kopf“ erscheint. Die Tatsache, daß in dem ungeraden Zeitpunkt 1 mit dem Werfen begonnen
”
wurde, ist dann längst vergessen“. In dieser fernen Zukunft wird dann jeweils mit Wahrschein”
lichkeit 1/2 Kopf“ erstmals in einem geraden, bzw. einem ungeraden Zeitpunkt geworfen.
”
Im Fall p = 1 wird immer Zahl“ geworfen, so daß q1 (1) = 0 ist. Daher ist limp→1 q1 (p) =
”
1/2 6= 0 = q1 (1), d.h., die Funktion [0, 1] ∋ p → q1 (p) ∈ [0, 1] ist unstetig für p = 1.
2.86Da p < 1, ist insbesondere für jeden einzelnen Wurf die Wahrscheinlichkeit 1 − p, daß
Kopf“ geworfen wird, von 0 verschieden.
”
2.87Es ist eine beliebig lange Folge von unabhängigen, {0, 1}-wertigen Zufallszahlen“, die
”
mit Wahrscheinlichkeit p den Wert 1 und mit Wahrscheinlichkeit 1 − p den Wert 0 annehmen, zu
simulieren. Hinweise zur Durchführung einer solchen Simulation finden sich in Beispiel 3.4.
2.88
Eine mathematisch korrekte Aussage kann mit derartigen Mitteln natürlich nicht gewonnen werden.
2.89
Wenn die Münze lange genug geworfen wird, erscheint immer wieder irgendwann mal“
”
Kopf“.
”
28. Januar 2011
36
wobei mit der σ-Subadditivität von P die abzählbare“ Variante der Subadditivität
”
von P 2.91 benutzt wird.
Weiterhin folgt
P[Bk ] ≤ 2.92 P ω ∈ Ω : ωk = · · · = ωk+N = 1 = 2.93 pN +1 , k, N ∈ N,
d.h., 2.94 P[Bk ] = 0, k ∈ N.
Aus (2.17) ergibt sich somit
2.95
q2 = 0.
2.4.3. Lebesguemaß in Rd , d = 1, 2, . . . . Sei Ω = Rd , F∗ = [a1 , b1 ] × · · · ×
[ad , bd ] : −∞ < ak ≤ bk < ∞, k = 1, . . . , d und 2.96 λ∗ : F∗ → [0, ∞) mit
Q
λ∗ [a1 , b1 ] × · · · × [ad , bd ] = dk=1 (bk − ak ), −∞ < ak ≤ bk < ∞, k = 1, . . . , d.
σ(F∗ ) =: B(Rd ) ist die Borelsche σ-Algebra in Rd 2.97. Die eindeutig existierende Fortsetzung λ(= λRd ) : B(Rd ) → [0, ∞] von λ∗ auf den meßbaren Raum
(Rd , B(Rd )) ist das Lebesguemaß auf Rd .
λRd ist kein Wahrscheinlichkeitsmaß, da offensichtlich (2.2a) nicht gilt. Allerdings wird das Maß λRd bei der Arbeit mit Wahrscheinlichkeitsmaßen mit einer
Dichte (bzgl. des Lebesguemaßes), wie z.B. der Normalverteilung oder der Exponentialverteilung benötigt 2.98.
2.5. Satz von Vitali
Das in diesem Abschnitt 2.5 vorgestellte Resultat deutet an, daß in überabzählbaren Stichprobenräumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinen
nicht sinnvoll ist 2.99.
2.90Es wird nur endlich oft Kopf“ geworfen“ genau dann, wenn ein k ∈ N existiert, so daß
”
”
nach dem Zeitpunkt k nur noch Zahl“ geworfen wird.
”
2.91Vgl. (2.12). Die σ-Subadditivität
eines Wahrscheinlichkeitsmaßes wurde bereits in Fußnote 2.9 beschrieben.
2.92Wegen der Monotonie von P, vgl. (2.13). Man beachte, daß ω ∈ Ω : ω = ω
k
k+1 = · · · =
1 ⊆ ω ∈ Ω : ωk = ωk+1 = · · · = ωk+N = 1 .
2.93
Vgl. (2.16).
2.94
Man beachte, daß p < 1.
2.95Damit wäre eine experimentelle“ Bestimmung von q bestätigt.
2
”
2.96λ∗ weist jedem d-dimensionalen
Rechteck A in Rd sein Volumen Vol(A) zu.
2.97Für ein Gebiet G in Rd definiert man auf analoge Weise B(G) als die kleinste σ-Algebra,
die alle in G enthaltenen Rechtecke umfaßt.
2.98Vgl. Abschnitt 2.6. Eine hinreichend reguläre Funktion f : Rd → [0, ∞) ist eine WahrR
scheinlichkeitsdichte, wenn Rd dx f (x) = 1. Durch
Z
dx f (x), A ∈ B(Rd ),
P[A] =
A
definiert f ein Wahrscheinlichkeitsmaß P auf (Rd , B(Rd )). Jenes P wird als das Wahrscheinlichkeitsmaß mit der Dichte f bzgl. des Lebesguemaßes auf Rd bezeichnet.
Beispiele für Wahrscheinlichkeitsdichten auf R sind
(x − µ)2
1
exp −
, µ ∈ R, σ2 > 0.
fµ,σ 2 : x → √
2σ2
2πσ2
fµ,σ 2 ist die Dichte der Normalverteilung mit Erwartungswert µ und Varianz σ2 , vgl. Beispiel 1.8.
Weitere Wahrscheinlichkeitsdichten sind beispielsweise
(
λ exp(−λx), x ≥ 0,
, λ > 0.
gλ : x →
0,
x < 0,
gλ ist die Dichte der Exponentialverteilung mit Parameter λ > 0.
2.99Die Einführung von σ-Algebren durch (2.1) und auch die Überlegungen in Abschnitt 2.4
zur Konstruktion von σ-Algebren werden letztendlich erst aufgrund jenes Resultats notwendig.
28. Januar 2011
37
Wie in Abschnitt 2.4.2 sei zur Modellierung des ∞-fachen, unabhängigen Wurfs
einer fairen Münze der Stichprobenraum Ω = {0, 1}N = {ω = (ωi )i∈N : ωi ∈
{0, 1}, i ∈ N} 2.100 gewählt.
Mit
Tn ω = (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . ),
(2.18a)
sei
ω ∈ Ω, n ∈ N,
2.101
Tn A = {Tn ω : ω ∈ A},
(2.18b)
A ⊆ Ω, n ∈ N.
Auf Ω sei weiterhin eine σ-Algebra F von Ereignissen gegeben 2.102.
Wegen der Fairness der Münze sollte ein vernünftiges Wahrscheinlichkeitsmaß
P auf (Ω, F) insbesondere die Invarianzeigenschaft
(2.18c)
besitzen
P[A] = P[Tn A],
A ∈ F, n ∈ N,
2.103
.
Satz 2.12 (Vitali). 2.104 Für F = Pot({0, 1}N ) kann kein Wahrscheinlichkeitsmaß auf dem meßbaren Raum ({0, 1}N , F) existieren, das neben den üblichen, in
(2.2) geforderten Eigenschaften eines Wahrscheinlichkeitsmaßes auch die bei der
Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze erwartete Invarianzeigenschaft (2.18) besitzt.
Zum Beweis dieses Satzes kann mit Hilfe des Auswahlaxioms 2.105 eine Menge A1 ∈ Pot({0, 1}N) konstruiert werden, die sich dadurch auszeichnet, daß jeder
mögliche Wert für P[A1 ] zu einem Widerspruch führt.
Auf Ω = {0, 1}N muß folglich zur Beschreibung des ∞-fachen, unabhängigen
Wurfs einer fairen Münze mit einer σ-Algebra F gearbeitet werden, die kleiner als
Pot(Ω) ist, d.h. weniger Elemente enthält 2.106.
2.100Ω ist die Menge aller {0, 1}-wertigen Folgen. Dieser Raum ist überabzählbar unendlich,
vgl. Fußnote 2.77.
2.101Für ω ∈ Ω ist T ω ist eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf
n
das Ergebnis von 0 nach 1, bzw. von 1 nach 0 verändert ist. Für A ⊆ Ω geht Tn A aus A durch
Änderung des n-ten Wurfergebnisses für alle ω ∈ A hervor.
2.102In diesem Moment sei die σ-Algebra F noch nicht festgelegt. Es folgen nun Überlegungen
zur Wahl von F.
2.103(2.18c) besagt, daß beim ∞-fachen, unabhängigen Wurf einer fairen Münze die Wahrscheinlichkeit eines Ereignisses sich nicht ändern sollte, wenn man in einem festgelegten Wurfzeitpunkt die Rollen von Kopf“ und Zahl“ vertauscht.
”
”
2.104
Vgl. [5], Satz (1.5).
2.105Sei M eine Menge von nichtleeren Mengen. Das Auswahlaxiom besagt, daß es eine Funktion F mit Definitionsbereich M und
F (ξ) ∈ ξ,
ξ ∈ M,
gibt. F wählt also aus jeder Menge ξ ∈ M genau ein Element aus.
2.106Damit der obengenannte Widerspruch nicht auftritt, darf F insbesondere nicht die Menge
A1 enthalten. Mit der in Abschnitt 2.4.2 angegebenen σ-Algebra F = σ(F∗ ), wobei F∗ in (2.15)
definiert ist, ist eine geeignete σ-Algebra gefunden.
28. Januar 2011
38
2.6. Wahrscheinlichkeitsmaße mit einer Dichte bzgl. des
Lebesguemaßes
Eine hinreichend reguläre
f : Rd → [0, ∞) mit
(2.19)
2.107
, z.B. stetige oder stückweise stetige Funktion
Z
dx f (x) = 1
Rd
heißt Wahrscheinlichkeitsdichte. Sei 2.108 Ω = Rd , F∗ = 2.109 [a1 , b1 ] × · · · × [ad , bd ] : −∞ < ak ≤ bk < ∞, k =
1, . . . , d und
Z
∗
dx f (x), A ∈ F∗ .
(2.20)
P [A] =
A
Wenn f stetig oder stückweise stetig ist, können die Integrale in (2.19) und (2.20)
als Riemann-Integrale aufgefaßt werden. Wenn allgemeiner f nur eine meßbare 2.110
Funktion ist, so sind jene Integrale als Lebesgue-Integrale zu betrachten 2.111.
Die eindeutig existierende Fortsetzung P von P∗ auf 2.112 B(Rd ) ist das Wahrscheinlichkeitsmaß mit der Dichte f (bzgl. des Lebesguemaßes auf Rd ) 2.113.
Es folgt eine Zusammenstellung einiger wichtiger Wahrscheinlichkeitsmaße mit
einer Dichte auf R, bzw. Rd .
Normalverteilung N(µ, σ 2 ) mit Erwartungswert 2.114 µ ∈ R und Varianz σ 2 > 0:
(x − µ)2
1
exp −
, x ∈ R.
fµ,σ2 (x) = √
2σ 2
2πσ 2
Anwendung: Modellierung vom Meßfehlern, bzw. von Beobachtungen“, die
”
durch Rauschen“ gestört sind. Der Hintergrund solcher Anwendungen ist die
”
Tatsache, daß die Normalverteilung die Asymptotik beim Zentralen Grenzwertsatz 2.115 beschreibt.
2.107
Im allgemeinen Fall wird als Regularität“ die Meßbarkeit der Abbildung f : (Rd , B(Rd ))
”
→ ([0, ∞), B([0, ∞))) benötigt, vgl. (3.1). Die Meßbarkeit ist der in der Stochastik übliche Regularitätsbegriff für Funktionen oder Zufallsvariablen. Borelsche σ-Algebren wie hier B(Rd ), bzw.
B([0, ∞)) werden in den Abschnitten 2.4.1 und 2.4.3 vorgestellt.
2.108Nun wird ausgehend von einer Wahrscheinlichkeitsdichte f gemäß der in Abschnitt 2.4
beschriebenen Vorgehensweise ein Wahrscheinlichkeitsmaß konstruiert.
2.109F ∗ ist die Menge der abgeschlossenen, beschränkten Rechtecke in Ω = Rd .
2.110Vgl. Fußnote 2.107.
2.111Eine Einführung des abstrakten Lebesgue-Integrals wird in [8], § 12, gegeben. Das dort
beschriebene Verfahren entspricht der in den Abschnitten 6.1 - 6.3 vorgestellten Einführung des Erwartungswerts reellwertiger Zufallsvariablen, vgl. Kapitel
R 3. Für eine meßbare, reellwertige Funktion, vgl. Fußnote 2.107, f auf [0, 1] gilt beispielsweise 01 dx f (x) = E[f ], wobei auf der rechten
Seite f als eine Zufallsvariable auf dem in Abschnitt 2.4.1 eingeführten Wahrscheinlichkeitsraum
([0, 1], B([0, 1]), λ[0,1] ) zu betrachten ist.
2.112Die Borelsche σ-Algebra B(Rd ) ist die kleinste σ-Algebra, die F ∗ enthält, vgl. Abschnitt 2.4.3.
2.113Wie in den Ausführungen am Anfang von Abschnitt 2.4 angedeutet, wird in dieser Vorlesung im wesentlichen nur mit P∗ , d.h. mit (2.20) gearbeitet, wenn Wahrscheinlichkeitsmaße mit
einer Dichte betrachtet werden. Darüberhinaus sind im folgenden alle Wahrscheinlichkeitsdichten
stetig, bzw. stückweise stetig.
2.114Die Begriffe Erwartungswert und Varianz wurden in Abschnitt 1.1.3 kurz angesprochen,
vgl. Beispiele 1.5 und 1.6. Detaillierte Erläuterungen folgen in Kapitel 6. Zunächst genügt es, µ
und σ2 als Parameter zu betrachten. Später in Beispiel 6.12 werden µ und σ2 als Erwartungswert,
bzw. Varianz identifiziert.
2.115Vgl. Beispiel 1.8 und insbesondere Abschnitt 9.3.
28. Januar 2011
39
Exponentialverteilung mit Parameter λ > 0:
(
λ exp(−λx),
fλ (x) =
0,
x ≥ 0,
x < 0.
Anwendung: Modellierung von Wartezeiten in kontinuierlicher Zeit 2.116. Der
Hintergrund solcher Anwendungen ist die Gedächtnislosigkeit der Exponentialverteilung 2.117 2.118.
Gleichverteilung 2.119 auf einem beschränkten Gebiet 2.120 G ⊆ Rd :
(
1/Vol(G) 2.121, x ∈ G,
fG (x) =
0,
x 6∈ G.
Anwendung: Modellierung einer zufälligen Position in einem beschränkten
Bereich des Rd , wenn z. B. aufgrund eingeschränkter Vorkenntnisse kein Teilbereich als bevorzugt erscheint.
Cauchy-Verteilung mit Parameter a > 0 2.122:
a
, x ∈ R.
fa (x) =
π(a2 + x2 )
Gamma-Verteilung mit Parametern α, r > 0 2.123:
 r
 α xr−1 exp(−αx),
2.124
Γ(r)
fα,r (x) =

0,
x ≥ 0,
x < 0.
Für n ∈ N heißt die Gamma-Verteilung mit den Parametern 1/2 und n/2
auch χ2 -Verteilung mit n Freiheitsgraden oder auch kurz χ2n -Verteilung.
Anwendung: Die χ2 -Verteilungen werden sehr häufig in der Statistik benötigt 2.125.
2.116Man nehme an, daß ein Anfangszeitpunkt festgelegt wird. Nun eignet sich die Exponentialverteilung mit einem jeweils geeignet zu wählenden λ > 0, um die Wartezeit bis zum ersten
Telefonanruf, zum Eingang der ersten E-Mail, zum ersten Vulkanausbruch, zum ersten Einschlag
eines Asteroiden, . . . zu modellieren.
2.117
Vgl. Beispiel 8.3. Die Gedächtnislosigkeit einer Wartezeit besagt, daß die Wahrschein”
lichkeitsverteilung“ der verbleibenden Wartezeit nicht davon abhängt, wie lang man schon wartet.
Mit anderen Worten, die Wartezeit bis zu einem Hauptgewinn beim Zahlenlotto wird nicht kürzer,
wenn man jahrelang keinen Gewinn erzielt hat.
2.118
Die Exponentialverteilung ist ein kontinuierliches“ Analogon zur geometrischen Vertei”
lung, die zur Modellierung von Wartezeiten in diskreter Zeit geeignet ist, vgl. Abschnitt 2.2.
2.119
Ein Spezialfall der nun beschriebenen Wahrscheinlichkeitsmaße mit G = [0, 1] wird in
Abschnitt 2.4.1 betrachtet. Diskrete Gleichverteilungen werden in Abschnitt 2.2 vorgestellt.
2.120
Ein Gebiet ist eine einfach zusammenhängende Teilmenge des Rd mit einem glatten“
”
Rand.
2.121Vol(G) bezeichnet das Volumen von G.
2.122Die Cauchy-Verteilung zeichnet sich dadurch aus, daß Zufallsvariablen mit dieser Verteilung keinen Erwartungswert besitzen, vgl. Beispiel 6.11. Die Graphen der Dichten der Normalverteilung und der Cauchy-Verteilung haben beide eine glockenförmige“ Gestalt. Jedoch fällt der
”
Graph der Dichte der Cauchy-Verteilung im Unendlichen wesentlich langsamer ab als der Graph
der Dichte der Normalverteilung.
2.123Offensichtlich sind die Gamma-Verteilungen mit r = 1 Exponentialverteilungen.
2.124Γ : (0, ∞) → (0, ∞) mit Γ(r) = R ∞ ds sr−1 exp(−s), r > 0, ist die Eulersche Gamma0
Funktion.
2.125Für n ∈ N besitzt die Summe Pn X 2 der Quadrate von unabhängigen, standard nori=1 i
malverteilten Zufallsvariablen X1 , . . . , Xn eine χ2n -Verteilung, vgl. [5], Satz (9.11). Daher spielen
2
χ -Verteilungen eine große Rolle sowohl bei der Untersuchung normalverteilter Daten, als auch
in einigen Situationen, wo große Datenmengen als Folge des Zentralen Grenzwertsatzes auf normalverteilte Größen reduziert werden können. Beispiele derartiger Anwendungen werden in [5],
Abschnitt 11.1 - 11.3, vorgestellt.
28. Januar 2011
40
2.6.1. (∗) Anwendung“ der Gleichverteilung. 2.126 Es ist die Wahr”
scheinlichkeit pM zu bestimmen, daß der nächste Meteorit mit einem Durchmesser
größer als 100 m, der auf Deutschland stürzt, Baden-Württemberg trifft.
Eine Standardvorgehensweise zur Lösung wäre:
Modellierung des Einschlagspunktes des Meteoriten durch die Gleichverteilung auf
Deutschland 2.127.
Lösung:
pM =
35.752 km2
Fläche von Baden-Württemberg
= 0,1
=
Fläche von Deutschland
357.050 km2
Bei einer Diskussion der Fragestellung und ihrer Lösung ergeben sich folgende
Aspekte 2.128.
• Meteorite mit einem Durchmesser größer als 100 m schlagen sehr selten in Deutschland ein. Mit dem nächsten Einschlag ist im Mittel“ erst
”
in mehreren Millionen Jahren zu rechnen 2.129. Es kann nicht angenommen werden, daß nach Ablauf dieser Zeit Baden-Württemberg oder auch
Deutschland noch existieren, bzw. überhaupt noch bekannt sind.
• Jeder Einschlag eines Meteoriten mit einem Durchmesser größer als 100 m
hat katastrophale Auswirkungen, die i. allg. weit über Deutschlands Grenzen hinaus reichen 2.130. Allerdings hängt das Ausmaß der Katastrophe
stark von der Zusammensetzung und nicht nur von der Größe des Meteoriten ab.
2.126Die Anführungszeichen deuten an, daß der Sinn dieser zunächst vernünftig erscheinenden
Anwendung letztendlich fraglich ist.
2.127Kleine Meteorite haben in dichter besiedelten Gegenden eine größere Chance, entdeckt
zu werden. Wenn also nur Objekte berücksichtigt werden sollen, die auch beobachtet werden, wäre
die Gleichverteilung für kleine Meteorite keine gute Wahl. Hingegen werden Meteorite mit einem
Durchmesser größer als 100 m immer bemerkt.
2.128Die folgenden Überlegungen basieren auf teilweise unsicheren Schätzungen, die aus dem
Internet entnommen wurden.
2.129Beispielsweise wird die durchschnittliche Zeit bis zum nächsten Einschlag eines Meteoriten mit einem Durchmesser größer als 75 m auf der Erdoberfläche auf 1000 Jahre geschätzt. Da
die Fläche Deutschlands nur 0, 07 % der Erdoberfläche beträgt, ergeben sich 1428571 Jahre für
die mittlere Zeit bis zum nächsten Einschlag eines solchen Meteoriten in Deutschland. Meteorite
mit einem Durchmesser größer als 100 m kommen natürlich noch seltener vor.
2.130Einige Beispiele derartiger Einschläge von Meteoriten:
– Tunguska-Einschlag (1908, westl. Sibirien). Durchmesser des Meteoriten ca. 60 m, lose zusammengepreßtes Material; Zerstörung des Objekts in ca. 8 km Höhe; kein Krater; 10 - 15
Megatonnen TNT Sprengkraft; massive Verwüstungen im Umkreis von 30 km; Lärm der
Explosion war in London zu hören.
– Barringer-Krater (vor ca. 50000 Jahren, Arizona). 50 m Durchmesser, 300000 t Gewicht,
im wesentlichen aus Eisen; Krater ursprünglich mit 1200 m Durchmesser und 170 m Tiefe;
Feuerball bis 10 km Entfernung, Schockwelle mit 2000 km/h bis 40 km Entfernung.
– Chiemgau-Impakt (vor ca. 2500 Jahren, Chiemgau). Ca. 1 km Durchmesser, geringe Dichte; Explosion in 70 km Höhe, Zerfall in kleinere Objekte; viele Krater mit bis zu 370 m
Durchmesser in einem Bereich von 27 km Breite und 70 km Länge. Wahrscheinlich seit
dem Einschlag dieses Meteoriten hatten die sonst furchtlosen Kelten Angst, daß ihnen der
”
Himmel auf den Kopf fällt“ (Bericht eines Chronisten Alexanders des Großen).
– Nördlinger Ries (vor 15 Millionen Jahren, Bayern). Ca. 1 km Durchmesser, 70000 km/h Einschlagsgeschwindigkeit; Krater mit 25 km Durchmesser und 4 km Tiefe; 140000 Megatonnen
TNT Sprengkraft; Auslöschung allen Lebens im Umkreis von 100 km.
– Chicxulub-Impakt (vor 65 Millionen Jahren, Yukatán-Halbinsel in Mexiko). 10 - 15 km Durchmesser; Krater mit 190 km Durchmesser; 100 Millionen Megatonnen TNT Sprengkraft; vermutl. verantwortlich für weltweite Auslöschung der Dinosaurier.
Zur besseren Einschätzung der Sprengkraft jener Meteoriten sei erwähnt, daß die stärkste jemals
gezündete Wasserstoffbombe ein Sprengkraft von ca. 57 Megatonnen TNT hatte.
28. Januar 2011
41
Die Größe der Wahrscheinlichkeit pM wird dann interessant, wenn das Ereignis
E, daß ein Meteorit mit einem Durchmesser größer als 100 m auf Deutschland
stürzt, eintritt. Mit dem Eintreten von E in nächster Zeit sollte man aber nicht
rechnen 2.131. Wenn allerdings E wirklich eingetreten sein wird, wird das Wissen
um den Wert von pM relativ nutzlos sein, da es dann für die meisten Bewohner
Deutschlands, wenn es überhaupt noch exisitieren sollte, keine Rolle spielen wird,
wo genau der Meteorit aufgetroffen ist.
Die Berechnung von pM beantwortet eine oberflächlich vielleicht interessant“
”
erscheinende Frage, ist aber genaugenommen völlig nutzlos und gleicht hierin vielen
anderen Modellen“ und Studien“, die durch die Medien geistern 2.132.
”
”
2.7. Poissonapproximation der Binomialverteilung
In diesem Abschnitt 2.7 wird nachgewiesen, daß unter gewissen Voraussetzungen die für explizite Berechnungen schwer zugängliche Binomialverteilung durch
die leichter handhabbare Poissonverteilung 2.133 approximiert werden kann. Diese
Approximation ist der Hintergrund der vielfältigen Anwendungsmöglichkeiten der
Poissonverteilung.
Satz 2.13. Sei pn , n ∈ N, eine Folge in (0, 1) mit
lim npn = λ ∈ (0, ∞).
(2.21)
n→∞
Dann gilt:
λk
exp(−λ) ,
lim B(n, pn )[{k}] =
n→∞ |
{z
}
|k! {z
}
n k
n−k
=
P
(λ)[{k}]
=
p (1 − pn )
k n
(2.22)
k = 0, 1, 2, . . .
Beweis. Sei k = 0, 1, 2, . . . fest. Dann ist zunächst
n −k
n(n − 1) · · · (n − k + 1)
1
(2.23)
lim
n = lim
=
n→∞ k
n→∞
k! nk
k!
und weiterhin
(2.24)
Somit folgt:
npn
lim (1 − pn )n = lim (1 − pn )1/pn
=
n→∞
n→∞ |
{z
}
→ 2.134 exp(−1)
2.135
exp(−λ).
lim B(n, pn )[{k}]
n→∞
→ 2.138 exp(−λ)
z }| {
n −k
(npn )k (1 − pn )n (1 − pn )−k
n
= lim
n→∞ k
| {z }
| {z }
| {z }
2.137 k
→ 2.139 1
→
λ
→ 2.136 1/k!
=
λk
exp(−λ).
k!
2.131Man hätte dann viele schlaflose Nächte vor sich, da die mittlere Zeit“ bis zum nächsten
”
Einschlag recht groß ist.
2.132Oft wird wahrscheinlich der Wert derartiger Studien“ aber erst durch ihre oberflächliche
”
Darstellung in den Medien gemindert.
2.133Die Poissonverteilung wurde in Abschnitt 2.2 vorgestellt.
2.134Aufgrund der Definition der Zahl e. Man beachte, daß (2.21) zu p → 0 bei n → ∞
n
führt.
2.135
Da npn → λ bei n → ∞, vgl. (2.21).
28. Januar 2011
42
2.7.1. Anwendung der Poissonapproximation. 2.140 In einer Steppe 2.141
sei eine rechteckige Versuchsfläche A betrachtet. Gesucht ist ein mathematisches
Modell für die Anzahl der Bäume in A. Zu diesem Zweck ist das folgende Vorgehen
sinnvoll:
• In einem Diskretisierungsschritt wird für jedes n ∈ N die Versuchsfläche
A in kleine Rechtecke Rkn , k = 1, . . . , n, mit der Fläche αn 2.142 aufgeteilt,
d.h.,
nαn = |A| = Fläche von A.
αn sei so klein, daß unter den gegebenen Bedingungen (Bodenbeschaffenheit, Klima, . . . ) in jedem Rechteck Rkn , k = 1, . . . , n, i. allg. höchstens
ein Baum steht.
• In einem vorläufigen Modell 2.143 sei
– für k = 1, . . . , n die Wahrscheinlichkeit für einen Baum in Rkn proportional zur Fläche |Rkn | = αn , d.h.,
P[ein Baum in Rkn ] = µαn ,
P[kein Baum in Rkn ] = 1 − µαn ,
k = 1, . . . , n,
für ein µ > 0 2.144.
– Die Baumbestände in den verschiedenen Rechtecken Rkn , k = 1, . . . , n,
seien stochastisch unabhängig.
Als Konsequenz besitzt in diesem vorläufigen Modell die Anzahl der Bäume in A eine Binomialverteilung B(n, µαn ) 2.145.
• Wenn die Diskretisierung von A immer feiner wird, d.h. bei n → ∞, folgt:
n
P[k Bäume in A] =
(µαn )k (1 − µαn )n−k = B(n, µαn )[{k}]
k
n→∞ 2.146
≈
P (µ|A|)[{k}] =
(µ|A|)k
exp(−µ|A|),
k!
k = 0, 1, 2, . . .
• Obige Überlegungen führen zu einem endgültigen Modell und zeigen, daß
die Wahl der Poissonverteilung P (µ|A|) zur Modellierung der Anzahl der
in A wachsenden Bäume sinnvoll ist 2.147.
2.136Wegen (2.23).
2.137Wegen (2.21).
2.138Wegen (2.24).
2.139Da p → 0 bei n → ∞.
n
2.140
In diesem Abschnitt 2.7.1 wird für eine realistische“ Situation eine typische Anwendung
”
der Poissonverteilung bei der mathematischen Modellierung beschrieben.
2.141
Eine Steppe ist durch eine spärliche Vegetation charakterisiert. Insbesondere wachsen
dort nur sehr wenige, vereinzelt zu findende Bäume.
2.142Alle kleinen Rechtecke sollen die gleiche Fläche α haben. Da letztendlich sehr große n
n
betrachtet werden, ist αn im Verhältnis zur Gesamtfläche |A| sehr klein.
2.143In den später folgenden Überlegungen wird aus diesem vorläufigen Modell ein end”
gültiges“ Modell hergeleitet.
2.144Da α = |A|/n, ist µα < 1, wenn n hinreichend groß ist.
n
n
2.145Die Anzahl der Bäume in A bestimmt sich im vorliegenden Modell genauso wie die
Anzahl der Erfolge bei einem n-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit
µαn , vgl. Abschnitt 2.2 und insbesondere auch die Herleitung von (1.5) in Abschnitt 1.1.2.
2.146Mit der Poissonapproximation der Binomialverteilung, vgl. (2.22). Man beachte hierbei,
daß nµαn = µ|A| für alle n ∈ N.
2.147In diesem endgültigen Modell ist die zwar hilfreiche, aber dennoch künstliche Einteilung
der Fläche A in kleine Rechtecke nicht mehr vorhanden.
28. Januar 2011
43
Das soeben beschriebene Verfahren ist auch in vielen ähnlichen Situationen anwendbar. Sich hieraus ergebende Beispiele für Anwendungen der Poissonverteilung
sind:
• Modellierung der Anzahl der Zerfälle eines radioaktiven Präparats in einem festen Zeitintervall [0, t] durch eine Poissonverteilung mit einem Parameter µt 2.148.
• Modellierung der Anzahl der Anfragen an einen Mail-Server 2.149 in einem
vorgegebenen Zeitintervall [s, t] durch eine Poissonverteilung mit einem
Parameter µ(t − s) 2.150.
• Modellierung der Anzahl der Sterne in einem hinreichend großen Bereich
A des Weltalls 2.151 durch eine Poissonverteilung mit einem Parameter
µ|A| 2.152.
In diesen verschiedenen Situationen ist jeweils ein geeigneter Parameter µ > 0 zu
verwenden 2.153.
Allgemein findet die Poissonverteilung Anwendungen bei der Modellierung der
Anzahl von zufälligen, sich gegenseitig nicht beeinflußenden Punkten“ in einem
”
festen Bereich von Raum oder Zeit 2.154 2.155.
2.148Damit die obigen Überlegungen auf die hier vorliegende Situation übertragen werden
können, müssen die physikalischen Bedingungen innerhalb des Zeitintervalls [0, t] im wesentlichen
konstant bleiben. Insbesondere sollte t kleiner als die Halbwertszeit des radioaktiven Materials sein.
Weiterhin dürfen die Zerfälle möglicher kurzlebiger Zerfallsprodukte nicht berücksichtigt werden.
2.149Ein Mail-Server ist ein Rechner, der E-Mails verwaltet, d.h. entgegennimmt, speichert,
verschickt, weiterleitet, usw. Anfragen“ beziehen sich auf das Verschicken oder Entgegenneh”
men von Mails durch einzelne User, oder auch auf Aktionen zur Verwaltung des jeweiligen MailAccounts.
2.150In einem präziseren Modell sollte µ abhängig von der Tageszeit sein. Evtl. sollte auch ein
deterministischer Beitrag in das Modell hinzugenommen werden, um regelmäßige, automatische
Anfragen zu modellieren.
2.151Damit in dem Bereich A räumlich homogene Bedingungen“ vorliegen, sollte
”
Durchmesser eines Sonnensystems ≪ Durchmesser von A ≪ Durchmesser einer Galaxie
angenommen werden.
2.152Hier bezeichnet |A| das Volumen von A.
2.153Gegebenenfalls kann µ ausgehend von einigen Beobachtungen geschätzt werden, vgl.
Beispiel 4.2.
2.154
Die Modellierung der genauen Lage dieser Punkte“ steht hier nicht zur Debatte. Hierzu
”
werden sog. Poissonprozesse verwendet. Ein Teilproblem in diesem Zusammenhang (Lage des
ersten Punktes“) wird in Beispiel 8.3 angesprochen.
”
2.155
Aufgrund ihrer breiten Anwendungspalette ist die Poissonverteilung eine der wichtigsten
Wahrscheinlichkeitsverteilungen.
28. Januar 2011
KAPITEL 3
Zufallsvariablen
Mit Zufallsvariablen können Beobachtungsgrößen“, die zufällige Werte anneh”
men, modelliert werden. Der für die Modellierung benötigte Zufall“ wird durch
”
einen Wahrscheinlichkeitsraum, auf dem diese Zufallsvariablen als Funktionen 3.1
3.2
definiert sind, erzeugt“ .
”
Zunächst seien (Ω, F) und (Ω′ , F′ ) meßbare Räume 3.3. Weiterhin sei 3.4 X :
′
(Ω, F) → (Ω , F′ ) eine Funktion. X wird meßbar genannt, wenn
(3.1)
X −1 (A′ ) :=
3.5
{ω ∈ Ω : X(ω) ∈ A′ } =:
3.6
{X ∈ A′ } ∈ F,
A′ ∈ F′ .
Wenn P ein Wahrscheinlichkeitsmaß auf dem Definitionsbereich (Ω, F) von X ist,
schreibt man X : (Ω, F, P) → (Ω′ , F′ ) und bezeichnet X als (Ω′ - oder auch (Ω′ , F′ )wertige) Zufallsvariable, wenn (3.1) gilt 3.7 3.8 3.9.
3.1
Funktionen, die eine Zufallsvariable darstellen, müssen mit der Meßbarkeit, vgl. (3.1), eine
spezielle Eigenschaft besitzen.
3.2
Jener Wahrscheinlichkeitsraum dient als Zufallsgenerator“.
”
3.3Vgl. (2.1).
3.4Die Schreibweise X : (Ω, F) → (Ω′ , F ′ ) ist im Vergleich zu X : Ω → Ω′ vorzuziehen, da die
für das folgende wesentlichen σ-Algebren F und F′ hervorgehoben werden.
3.5X −1 (A′ ) ist das Urbild von A′ unter X. X muß keine invertierbare Funktion sein.
3.6
Diese Abkürzung wird im folgenden häufig verwendet werden.
3.7In der Definition des Begriffs Zufallsvariable ist das Wahrscheinlichkeitsmaß P noch bedeutungslos. Es wird allerdings wesentlich, wenn mit X gearbeitet wird.
3.8
Bei den in dieser Vorlesung in Erscheinung tretenden Zufallsvariablen X ist oft
• der Definitionsbereich (Ω, F, P) ein anonymer Zufallsgenerator“, der im Hintergrund
”
bleibt, während
• der Wertebereich (Ω′ , F′ ) und insbesondere die Verteilung PX von X, vgl. Abschnitt 3.1, im Zentrum des Interesses steht. PX ist ein Wahrscheinlichkeitsmaß auf
(Ω′ , F′ ), welches angibt, mit welchen Wahrscheinlichkeiten die Zufallsvariable X ihre
”
verschiedenen Werte annimmt“.
• In den allermeisten konkreten Fällen ist (Ω′ , F′ ) = (G, B(G)) oder (Ω′ , F′ ) =
(M, Pot(M )), wobei G ein Gebiet in einem Rd , d = 1, 2, . . . , und M höchstens abzählbar
unendlich ist.
3.9
Die Begriffe meßbarer Raum und Zufallsvariable, die fundamental für die Stochastik sind,
erinnern an die ähnlich erscheinenden Begriffe topologischer Raum, bzw. stetige Funktion, die
grundlegend für viele mathematische Disziplinen sind.
Ein topologischer Raum (M, O) besteht aus einer Menge M und einer Topologie O auf M .
Hierbei ist O eine Familie von Teilmengen von M , die die Bedingungen
∅, M ∈ O,
Oi ∈ O, i ∈ I
O1 , . . . , On ∈ O
=⇒
=⇒
[
Oi ∈ O,
i∈I
n
\
i=1
Oi ∈ O
mit jeder beliebigen Menge I und n ∈ N erfüllt. Die Mengen O ∈ O werden offene Mengen
genannt. Während σ-Algebren abzählbare Vereinigungen und abzählbare Durchschnitte ihrer Elemente enthalten, sind in Topologien beliebige Vereinigungen, aber nur endliche Durchschnitte von
Elementen enthalten.
45
46
Wenn Ω höchstens abzählbar unendlich und F = Pot(Ω) ist, gilt die Meßbarkeitsbedingung (3.1) immer 3.10.
Wenn andererseits Ω′ höchstens abzählbar unendlich ist, ist eine Funktion X :
(Ω, F) → (Ω′ , Pot(Ω′ )) genau dann meßbar, wenn 3.11
(3.2)
X −1 ({ω ′ }) = {ω ∈ Ω : X(ω) = ω ′ } = {X = ω ′ } ∈ F,
In diesem Fall ist X eine diskrete meßbare Funktion.
ω ′ ∈ Ω′ .
Beispiel 3.1. Um den Begriff der Meßbarkeit näher zu beleuchten, werden nun
nicht-meßbare Funktionen vorgestellt 3.12.
Seien (Ω, F) und (Ω′ , F′ ) meßbare Räume. Weiterhin sei X : (Ω, F) → (Ω′ , F′ )
eine Funktion. Offensichtlich kann die Meßbarkeit (3.1) von X verloren gehen, wenn
F zu klein ist.
In einem ersten Beispiel sei Ω = {0, 1} und F = {∅, Ω} 3.13. Weiterhin sei
Ω′ = {0, 1} = Ω, F′ = Pot(Ω′ ) und X : Ω → Ω′ die Identität, d.h., X(ω) = ω,
ω ∈ Ω. Da {1} ∈ F′ und X −1 ({1}) = {1} ∈
/ F, ist Xnicht meßbar.
In einem zweiten Beispiel sei Ω = [0, 1] und F = ∅, Ω, [0, 1/2], (1/2, 1] 3.14. Sei
außerdem Ω′ = R, F′ = B(R) 3.15 und X wiederum die Identität, d.h., X(ω) = ω,
ω ∈ Ω. Da [1/4, 3/4] ∈ F′ und X −1 ([1/4, 3/4]) = [1/4, 3/4] ∈
/ F, ist auch in diesem
Fall X nicht meßbar.
Hätte man in den beiden Situationen in Ω die jeweils übliche σ-Algebra, d.h.,
F = Pot({0, 1}), bzw. F = B([0, 1]), gewählt, wären die Funktionen X natürlich
meßbar gewesen.
3.1. Verteilung von Zufallsvariablen
Sei X : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable 3.16. Die Meßbarkeitsbedingung
(3.1) besagt, daß die X zugeordneten Mengen X −1 (A′ ), A′ ∈ F′ , Elemente von F
sind, d.h. Ereignisse 3.17, die jeweils eine durch P bestimmte Wahrscheinlichkeit
besitzen. Man faßt diese Wahrscheinlichkeiten in der Verteilung PX von X mit
(3.3)
PX [A′ ] := P[{ω ∈ Ω : X(ω) ∈ A′ }]
{z
}
|
−1
′
3.18
= X (A ) ∈
F
Die zur Meßbarkeit (3.1) analoge Bedingung
f −1 (O ′ ) = {m ∈ M : f (m) ∈ O ′ } ∈ O,
O ′ ∈ O′ ,
zeichnet stetige Funktionen f : (M, O) → (M ′ , O′ ) eines topologischen Raums (M, O) in einen
weiteren topologischen Raum (M ′ , O′ ) aus.
3.10Zur Begründung beachte man, daß für alle Mengen Ω′ , alle A′ ⊆ Ω′ und alle Funktionen
X : Ω → Ω′ immer X −1 (A′ ) ∈ Pot(Ω) = F gilt.
3.11Offensichtlich folgt aus (2.1c), (3.2) und der Tatsache, daß A′ ⊆ Ω′ höchstens abzählbar
unendlich ist, insbesondere
[
X −1 (A′ ) = {ω ∈ Ω : X(ω) ∈ A′ } =
{ω ∈ Ω : X(ω) = ω ′ } ∈ F, A′ ∈ F′ .
|
{z
}
ω ′ ∈A′
= X −1 ({ω ′ }) ∈ F
3.12In der Mathematik sollte man immer auch versuchen, die Bedeutung neu eingeführter
Begriffe durch Gegenbeispiele zu erhellen.
3.13Für dieses triviale Mengensystem sind die Eigenschaften einer σ-Algebra, vgl. (2.1), offensichtlich erfüllt.
3.14Diese σ-Algebra in [0, 1] wird üblicherweise natürlich nicht betrachtet.
3.15Die Wahl der Borelschen σ-Algebra, d.h. der kleinsten σ-Algebra, die alle Intervalle
enthält, ist für R üblich.
3.16In den nun folgenden Überlegungen wird insbesondere das Wahrscheinlichkeitsmaß P eine
entscheidende Rolle spielen.
3.17Diese Ereignisse beschreiben das Verhalten der Zufallsvariable X.
28. Januar 2011
47
=:
3.19
P[X ∈ A′ ],
A′ ∈ F′ ,
zusammen. PX ist ein Wahrscheinlichkeitsmaß auf (Ω′ , F′ ) 3.20, d.h., (Ω′ , F′ , PX ) ist
ein Wahrscheinlichkeitsraum. Dieses Wahrscheinlichkeitsmaß PX beschreibt, mit
”
welchen Wahrscheinlichkeiten die Zufallsvariable X ihre verschiedenen möglichen
Werte in Ω′ annimmt“.
Bemerkung 3.2. Sei X : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable, wobei Ω′
abzählbar und F′ = Pot(Ω′ ) ist 3.21. Die Verteilung PX ist dann eindeutig bestimmt durch 3.22
PX [{η}] = P[{ω ∈ Ω : X(ω) = η}] = P[X = η],
η ∈ Ω′ .
Insbesondere gilt:
′
PX [A ] = PX
"•
[
η∈A′
#
3.23
{η} =
X
PX [{η}],
η∈A′
A′ ∈ F′ .
Beispiel 3.3. Zur Modellierung des ∞-fachen, unabhängigen Münzwurfs mit Erfolgswahrscheinlichkeit p ∈ (0, 1) wird der in Abschnitt 2.4.2 eingeführte Wahrscheinlichkeitsraum (Ω, F, P) benutzt. Insbesondere ist Ω = {0, 1}N und 3.24 F =
σ(F∗ ). Außerdem ist das Wahrscheinlichkeitsmaß P durch seine durch (2.16) beschriebene Einschränkung P∗ auf F∗ bestimmt.
3.18Da X meßbar ist, vgl. (3.1).
3.19
P[X ∈ A′ ] ist eine Abkürzung für P[{ω ∈ Ω : X(ω) ∈ A′ }].
3.20Zur Begründung ist zu zeigen, daß P
X die Eigenschaften (2.2) erfüllt. Zunächst folgt
(2.2a) aus
PX [Ω′ ] = P[{ω ∈ Ω : X(ω) ∈ Ω′ }]
{z
}
|
=Ω
= 1 (da (2.2a) für P gilt).
Zum Nachweis der σ-Additivität (2.2b) von PX seien A′1 , A′2 , · · · ∈ F′ mit A′k ∩ A′l = ∅, k, l ∈ N,
k 6= l. Dann gilt:
#
"•∞
[
•∞
′
PX
Ak (die Notation ∪k=1 . . . bezeichnet eine disjunkte Vereinigung)
k=1
"(
=P
|
=
=
=
∞
X
k=1
∞
X
ω ∈ Ω : X(ω) ∈
• ∞
[
k=1
{z
• ∞
[
A′
k=1 k
)#
}
{ω ∈ Ω : X(ω) ∈ A′k }
(da für k 6= l und ω ∈ Ω nicht gleichzeitig X(ω) ∈ A′k und X(ω) ∈ A′l )
P[{ω ∈ Ω : X(ω) ∈ A′k }] (wegen (2.2b) für P)
PX [A′k ] (wegen (3.3)).
k=1
3.21X ist somit eine diskrete Zufallsvariable.
3.22P ist in diesem Fall durch seine Einschränkung auf die einpunktigen Teilmengen von
X
Ω′ charakterisiert.
3.23Wegen der σ-Additivität von P .
X
3.24Ω ist der Raum der {0, 1}-wertigen Folgen und F die kleinste σ-Algebra, die die Menge
F∗ jener Ereignisse, die durch endlich viele Würfe der Münze bestimmt sind, vgl. (2.15), enthält.
28. Januar 2011
48
Zunächst sind Xk : (Ω, F, P) → ({0, 1}, Pot({0, 1})), k ∈ N, mit 3.25 Xk (ω) =
ωk , ω ∈ Ω, k ∈ N, Zufallsvariablen. Offensichtlich modelliert für k ∈ N die Zufallsvariable Xk das Ergebnis des k-ten Wurfs der Münze 3.26.
Durch T (ω) := inf{k ∈ N : Xk (ω) = 1}, ω ∈ Ω, wird nun eine (N, Pot(N))wertige Funktion T auf (Ω, F, P) definiert. Da
(3.4)
{T = n} = {ω ∈ Ω : T (ω) = n}
= {ω ∈ Ω : X1 (ω) = · · · = Xn−1 (ω) = 0, Xn (ω) = 1}
= {ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1} ∈ F∗ ⊂ F,
n ∈ N,
ist T eine diskrete Zufallsvariable 3.27. Diese Zufallsvariable modelliert den Zeitpunkt des ersten Wurfs von Zahl“. Ihre Verteilung PT ist eindeutig bestimmt
”
durch 3.28 PT [{n}] = P[T = n], n ∈ N. Weil
P[T = n] =
3.29
=
3.30
P[{ω ∈ Ω : ω1 = · · · = ωn−1 = 0, ωn = 1}]
(1 − p)n−1 p,
n ∈ N,
ist T geometrisch verteilt mit Parameter p 3.31.
Auch bei anderen, beliebig oft unabhängig wiederholten, identischen Experi”
menten“ mit zwei möglichen Ausgängen Erfolg“, bzw. Mißerfolg“ ist der Zeit” 3.32
”
punkt des ersten Erfolgs geometrisch verteilt
.
3.1.1. Konstruktion und Simulation diskreter Zufallsvariablen. 3.33
Auf 3.34 N sei ein Wahrscheinlichkeitsmaß 3.35 µ = (µn )n∈N gegeben. Gesucht ist eine
N-wertige Zufallsvariable mit der Verteilung µ. Damit ist insbesondere ein Wahrscheinlichkeitsraum (Ω, F, P) und eine meßbare 3.36 (N, Pot(N))-wertige Funktion
X auf (Ω, F, P) anzugeben, d.h. zu konstruieren 3.37, so daß
PX [{n}] = P[X = n] = µn ,
n ∈ N.
3.25Beachte, daß ω = (ω , ω , . . . ), ω ∈ Ω. X ist somit die Projektion auf die k-te Koordinate
1
2
k
von Ω.
3.26Wenn die Familie der Zufallsvariablen X , k ∈ N, zu einem Objekt (X )
k
k k∈N zusammengefaßt wird, ergibt sich ein einfaches Beispiel eines stochastischen Prozesses. Insbesondere
liegt hier ein Bernoulli-Prozeß vor. Allgemein sind bei einem Bernoulli-Prozeß Y = (Yk )k∈N die
Zufallsvariablen Yk , k ∈ N, unabhängig und identisch verteilt.
3.27Man beachte, daß die Funktion T die Bedingung (3.2) erfüllt.
3.28Vgl. Bemerkung 3.2.
3.29Wegen (3.4).
3.30Aufgrund von (2.16).
3.31Mit den hier durchgeführten Überlegungen sind die eher formal einzuschätzenden
Ausführungen in Fußnote 2.35 auf eine mathematisch korrekte Basis gestellt.
3.32Der Parameter dieser geometrischen Verteilung stimmt mit der Erfolgswahrscheinlichkeit
bei der einmaligen Durchführung des Experiments überein. Beispielsweise ist beim ∞-fachen, unabhängigen Wurf eines Würfels der Zeitpunkt des ersten Wurfs einer 5 geometrisch mit Parameter
1/6 verteilt.
3.33
Zum besseren Verständnis mathematischer Objekte ist es hilfreich, wenn geklärt wird,
wie derartige Strukturen konkret erzeugt“, bzw. konstruiert werden können. Hierbei kann die”
se Konstruktion rein abstrakt in einem mathematischen Umfeld oder auch real“ mit Hilfe eines
”
Computers vorgenommen werden. In diesem Abschnitt 3.1.1 sollen auf diese Weise speziell diskrete
Zufallsvariablen, d.h. Zufallsvariablen, deren Wertebereich höchstens abzählbar ist, erzeugt“ wer”
den. Als Ausgangspunkt ist die Verteilung der zu konstruierenden Zufallsvariable fest vorgegeben.
3.34
Die folgenden Überlegungen lassen sich leicht modifizieren, wenn N durch eine beliebige,
höchstens abzählbare Menge Ω′ ersetzt wird.
3.35Insbesondere ist µ ≥ 0, n ∈ N, und P
n
n∈N µn = 1.
3.36Auf der abzählbaren Menge N wird üblicherweise die σ-Algebra Pot(N) verwendet.
3.37A priori ist nicht klar, ob es zu jedem Wahrscheinlichkeitsmaß µ auch eine Zufallsvariable
X gibt, deren Verteilung PX gleich µ ist.
28. Januar 2011
49
Eine erste Möglichkeit besteht darin, zunächst Ω = N, F = Pot(N) und P = µ
zu wählen und anschließend X : (Ω, F, P) → (N, Pot(N)) durch 3.38 X(ω) = ω,
ω ∈ Ω, zu definieren. Da
PX [{n}] =
3.39
=
3.40
P[{ω ∈ Ω : X(ω) = n}]
P[{ω ∈ Ω : ω = n}] = P[{n}] =
3.41
µn ,
n ∈ N,
wird damit das Konstruktionsproblem gelöst.
Es 3.42 wäre auch möglich, 3.43 (Ω, F, P) = ([0, 1], B([0, 1]), λ[0,1] ) zu wählen und
X1 durch 3.44
Pn−1
Pn
(3.5)
X1 (ω) = n, ω ∈
k=1 µk ,
k=1 µk , n ∈ N,
zu definieren. Da
(3.6)
PX1 [{n}] =
3.45
=
3.46
=
3.47
λ[0,1] [{ω ∈ [0, 1] : X1 (ω) = n}]
Pn−1
Pn
λ[0,1] ω ∈ [0, 1] : k=1 µk ≤ ω < k=1 µk
Pn
Pn−1
| k=1 µk − k=1 µk | = µn , n ∈ N,
löst auch dieser Ansatz mit der Zufallsvariablen X1 das vorgegebene Konstruktionsproblem 3.48.
Beispiel 3.4 (Simulation einer Folge unabhängiger 3.49, N-wertiger Zufallsvariablen mit einer vorgegebenen Verteilung). Als Basis zur Verwendung von Statistik-Software erzeugen Computer, bzw. sog. Zufallsgeneratoren, die auf diesen Computern implementiert sind, üblicherweise unabhängige“ Folgen von Zufallszahlen
”
3.38X ist die Identität auf Ω = N.
3.39Aufgrund der Definition (3.3) der Verteilung P einer Zufallsvariable X.
X
3.40
Wegen der speziellen Definition der Zufallsvariable X als Identität auf Ω = N.
Da P = µ gewählt wird.
3.42
Es folgt nun eine zweite Konstruktion einer N-wertigen Zufallsvariable mit der vorgegebenen Verteilung µ. Diese zweite Konstruktion wird sich in Beispiel 3.4 als nützlich herausstellen,
wenn diese Zufallsvariable mit Hilfe eines Computers simuliert werden soll.
3.43
Vgl. Abschnitt 2.4.1
3.44Der Funktion X sollte auch ein Wert X (ω) für ω = 1 zugewiesen werden. Da
1
1
λ[0,1] [{1}] = 0, ist der genaue Wert X1 (1) allerdings irrelevant. Allgemein werden zwei auf einem
Wahrscheinlichkeitsraum (Ω, F, P) definierte Zufallsvariablen X und Y als identisch betrachtet,
d.h. miteinander identifiziert, wenn
3.41
P[{ω ∈ Ω : X(ω) = Y (ω)}] = P[X = Y ] = 1.
In diesem Fall schreibt man X = Y , f.s. (fast-sicher). Verschiedene Gleichheitsbegriffe für Zufallsvariablen werden in Abschnitt 3.2.5 diskutiert.
3.45Weil die Zufallsvariable X auf dem Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ
1
[0,1] ) definiert ist.
3.46
Aufgrund von (3.5).
3.47
Da das Lebesguemaß eines Intervalls dessen Länge ist, vgl. Abschnitt 2.4.1
3.48Ist (Ω, F, P) ein Wahrscheinlichkeitsraum und X : (Ω, F, P) → ([0, 1], B([0, 1])) eine Zufallsvariable mit PX = λ[0,1] , so folgt wie in (3.6), daß
PX1 (X) [{n}] = P[{ω ∈ Ω : X1 (X(ω)) = n}]
Pn−1
Pn
(wegen (3.5))
= P ω ∈ Ω : X(ω) ∈
k=1 µk
k=1 µk ,
Pn−1
Pn
= λ[0,1]
µ
,
µ
(da
P
=
λ
X
[0,1] )
k=1 k
k=1 k
= µn ,
n ∈ N.
Insbesondere besitzt die transformierte Zufallsvariable X1 (X) = X1 ◦ X : (Ω, F, P) → (N, Pot(N))
die Verteilung PX1 (X) = µ. Von dieser Beobachtung ausgehend wird im folgenden Beispiel 3.4
die Zufallsvariable X durch eine Simulation x einer in [0, 1] gleichverteilten Zufallsvariable ersetzt,
um mit X1 (x) eine Simulation einer Zufallsvariable mit der Verteilung µ zu erhalten.
3.49Der Begriff der Unabhängigkeit von Zufallsvariablen wird erst in Abschnitt 3.2 eingeführt
werden, vgl. (3.8). Zum Verständnis der Überlegungen in diesem Beispiel sollte allerdings ein
intuitives Verständnis der Unabhängigkeit ausreichen.
28. Januar 2011
50
x1 , x2 , . . . , die in [0, 1] gleichverteilt“ sind, d.h., mit den Zahlen x1 , x2 , . . . wird
”
eine 3.50 Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter 3.51 Zufallsvariablen simuliert. Genaugenommen sind diese Zahlen aber in keiner Weise
unabhängig oder zufällig, da sie durch spezielle, i. allg. rekursive Algorithmen berechnet werden und somit völlig deterministisch sind. Nur aufgrund ihrer Komplexität scheinen sie jene Eigenschaften zu besitzen. Sie werden daher auch als
Pseudozufallszahlen bezeichnet 3.52.
Die Überlegungen zu (3.6) demonstrieren 3.53, daß durch die transformierten
Zufallszahlen 3.54 X1 (x1 ), X1 (x2 ), . . . unabhängige, N-wertige Zufallsvariablen mit
der Verteilung µ simuliert werden können.
Bemerkung 3.5. Auf den üblichen Computern sind Zufallsgeneratoren und auch
Befehle zur Simulation von unabhängigen Zufallsvariablen mit einer vorgegebenen
Verteilung meistens direkt verfügbar, evtl. als Teil des Betriebssystems oder im
Rahmen von Softwarepaketen wie Maple, Mathematica oder R 3.55.
In R können beispielsweise unabhängige, geometrisch verteilte Zufallsvariaben 3.56 mit dem Befehl rgeom simuliert werden. Wenn R interaktiv genutzt wird,
ergibt sich z.B. 3.57:
> rgeom(60,0.3)
[1] 0 0 1 0 3 2 3 0 3 3 1 1 3 2 1 10 1 7 3 18 2 0 0 0 1
[26] 1 2 0 2 1 2 2 3 5 0 0 5 13 0 0 8 1 0 0 20 2 1 3 2 8
[51] 0 4 5 3 7 1 0 2 1 7
3.50Eine Realisierung einer Familie X , X , . . . von Zufallsvariablen, die auf einem Wahr1
2
scheinlichkeitsraum (Ω, F, P) definiert sind, ergibt sich, wenn eine Folge X1 (ω), X2 (ω), . . . für ein
festes, aber beliebiges ω ∈ Ω betrachtet wird.
3.51Die Gleichverteilung in [0, 1] wird in Abschnitt 2.4.1 eingeführt.
3.52
Ein bekanntes Verfahren zur Erzeugung von Pseudozufallszahlen ist die lineare Kongruenzmethode, vgl. z.B. [7], Abschnitt 10.2. Zu vorgegebenen Parametern m ∈ N, a = 1, . . . , m − 1,
c = 0, 1, . . . , m − 1 und einem Startwert y0 = 0, 1, . . . , m − 1 betrachtet man zunächst die Folge
yn , n ∈ N0 , mit
(∗)
yn+1 = (ayn + c)
mod m,
n = 0, 1, 2, . . . ,
und bildet diese anschließend mit xn = yn /m, n = 0, 1, 2, . . . , in das Intervall [0, 1] ab. Wenn m,
a, c und y0 geschickt“ gewählt werden, hat die Folge xn , n = 0, 1, 2, . . . , ein Erscheinungsbild wie
”
eine typische“ Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen.
”
Bei einer unglücklichen Wahl der Parameter erhält man aber u.U. eine sehr regelmäßige Folge
y0 , y1 , y2 , . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . für a = c = y0 = 5, m = 10. Allgemein
besitzt eine durch eine Relation wie (∗) bestimmte Zahlenfolge immer eine endliche Periode, die
höchstens gleich m ist.
Etliche klassische, ältere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode.
Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren,
deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualität besitzen. Hingegen gibt es
mit dem Mersenne Twister einen modernen Zufallsgenerator, der in einer gut bewährten Variante
mit 219937 − 1 eine extrem große Mersennesche Primzahl als Periode besitzt, vgl. z.B. [11].
3.53
Vgl. insbesondere auch Fußnote 3.48.
3.54
Die Funktion X1 wird in (3.5) definiert.
3.55Vgl. z.B. http://www.maplesoft.com/products/Maple/index.aspx, http://www.wolfram.com/products/mathematica/index.html, bzw. http://www.r-project.org. Auch einige wissenschaftliche Software-Bibliotheken, wie beispielsweise die GNU Scientific Library (GSL), vgl.
http://www.gnu.org/software/gsl/, enthalten derartige Software zur Simulation von Zufallsvariaben mit gegebener Verteilung.
3.56Mit geometrischer Verteilung ist hier die in Fußnote 2.34 beschriebene Verteilung gemeint.
3.57Mit dem R-Befehl rgeom(n, p) werden n unabhängige, geometrisch mit Parameter p verteilte Zufallsvariaben simuliert, vgl. Fußnote 3.56.
28. Januar 2011
51
3.2. Familien von Zufallsvariablen und deren gemeinsame Verteilung
In diesem Abschnitt 3.2 wird insbesondere dargelegt, wie sich Zusammen”
hänge“ 3.58 zwischen mehreren Zufallsvariablen und auch deren Unabhängigkeit 3.59
mathematisch beschreiben lassen.
Beispiel 3.6 (Abhängige Zufallsvariablen). Für k = 1, 2, . . . sei Tk der Tip eines
Lottospielers 3.60 in der k-ten Woche. Insbesondere seien Tk , k = 1, 2, . . . , auf einem
Wahrscheinlichkeitsraum (Ω, F, P) definierte Zufallsvariablen mit Werten in 3.61
Ω′ = {M ⊂ {1, . . . , 49} : |M | = 6}. Wie es für einen endlichen Stichprobenraum
üblich ist, wird Ω′ mit der σ-Algebra F′ = Pot(Ω′ ) versehen 3.62.
Für ein p ∈ [0, 1] habe der Lottospieler folgendes spezielle Tip-Verfahren:
• T1 sei gleichverteilt auf Ω′ , d.h., P[T1 = ν] = 1/|Ω′ |, ν ∈ Ω′ 3.63.
• Die Tips Tk für k = 2, 3, . . . werden sukzessive folgendermaßen bestimmt:
– Sei Tk−1 = µ für ein µ ∈ Ω′ .
– Mit Wahrscheinlichkeit 1 − p sei Tk = µ.
– Mit Wahrscheinlichkeit p werde ein
· l ∈ µ 3.64 gemäß der Gleichverteilung auf 3.65 µ und ein
· l′ ∈ {1, . . . , 49} \ µ gemäß der Gleichverteilung auf 3.66 {1, . . . ,
49} \ µ ausgewählt 3.67.
– Nun sei Tk = (µ \ {l}) ∪ {l′ } 3.68.
Man beobachtet, daß
−1
• P[Tk = ν] = 1/|Ω′ | = 3.69 49
, ν ∈ Ω′ , für alle k = 1, 2, . . . . Die
6
Zufallsvariablen Tk , k = 1, 2, . . . , besitzen daher die gleiche Verteilung 3.70.
3.58Dieser vage Begriff wird durch das Konzept der gemeinsamen Verteilung von Zufallsvariablen präzisiert.
3.59Unabhängigkeit liegt vor, wenn sich Zufallsvariablen nicht gegenseitig beeinflussen“. Der
”
bisher verwendete intuitive Zugang zu diesem Begriff muß nun in eine mathematisch korrekte
Form gebracht werden.
3.60Es sei das Spiel 6 aus 49“ gemeint.
”
3.61|A| bezeichnet die
Mächtigkeit einer Menge A.
3.62(Ω′ , F ′ ) ist somit ein meßbarer Raum. In dieser Situation ist es bemerkenswert, daß Ω′
eine Menge von Mengen und daher Pot(Ω′ ) die Menge aller Teilmengen einer Menge von Mengen
ist.
3.63|Ω′ | ist die Anzahl der Möglichkeiten, aus einer Menge mit 49 Elementen eine 6-elementige
Teilmenge auszuwählen, d.h., |Ω′ | = 49
, vgl. Abschnitt 5.1, insbesondere (5.4).
6
3.64Man beachte, daß µ als Element von Ω′ eine Teilmenge von {1, . . . , 49} ist.
3.65
An diese Stelle wird mit dem Wahrscheinlichkeitsraum (µ, Pot(µ), Pµ ) gearbeitet, wobei
Pµ die Gleichverteilung auf der Menge µ ist.
3.66An diese Stelle wird mit dem Wahrscheinlichkeitsraum ({1, . . . , 49} \ µ, Pot({1, . . . , 49} \
µ), P{1,...,49}\µ ) gearbeitet, wobei P{1,...,49}\µ die Gleichverteilung auf der Menge {1, . . . , 49} \ µ
ist.
3.67Die Wahrscheinlichkeitsräume (µ, Pot(µ), P ) und ({1, . . . , 49} \ µ, Pot({1, . . . , 49} \ µ),
µ
P{1,...,49}\µ ), die bei der Wahl von l und l′ verwendet werden, sind nur Hilfsmittel bei der Beschreibung der Zufallsvariablen Tk , k = 1, 2, . . . . Der eigentliche“ Wahrscheinlichkeitsraum, auf
”
dem die Zufallsvariablen Tk , k = 1, 2, . . . , definiert sind, ist der eingangs genannte (Ω, F, P), der
nicht näher spezifiziert wird, allerdings groß genug“ sein muß, damit die beschriebene Konstruk”
tion der Zufallsvariablen Tk , k = 1, 2, . . . , durchführbar wird.
3.68Mit Wahrscheinlichkeit p wird also bei der Bestimmung des zukünftigen Tips eine Zahl
des aktuellen Tips zufällig ausgewählt und durch eine aktuell nicht getippte Zahl ersetzt. Hierbei
werden die zu ersetzende und die neue Zahl jeweils gemäß einer Gleichverteilung ausgewählt.
3.69Vgl. Fußnote 3.63.
3.70Die Zufallsvariablen T , k = 1, 2, . . . , sind somit identisch verteilt.
k
28. Januar 2011
52
• Wenn p = 0 3.71, so ist Tk = T1 für alle k = 2, 3, . . . , d.h., die Zufallsvariablen Tk , k = 1, 2, . . . , sind stark voneinander abhängig“. Diese
”
Abhängigkeit sinkt“ mit wachsendem p 3.72.
”
Die Basis einer quantitativen Beschreibung der Abhängigkeit von Zufallsvariablen
ist deren gemeinsame Verteilung 3.73.
Es wäre übrigens zweckmäßig die Familie der Zufallsvariablen Tk , k = 1, 2, . . . ,
zusammenzufassen und als als einen stochastischen Prozeß 3.74 (Tk )k∈N zu betrachten 3.75.
Sei nun (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′λ , Fλ′ ), λ ∈ Λ, eine Familie meßbarer Räume 3.76. Außerdem seien Xλ : (Ω, F, P) → (Ω′λ , Fλ′ ), λ ∈ Λ,
Zufallsvariablen 3.77. Die gemeinsame Verteilung der Zufallsvariablen Xλ , λ ∈ Λ,
ist charakterisiert durch die Größen 3.78 3.79
(3.7)
P Xλ1 ∈ A′λ1 , Xλ2 ∈ A′λ2 , . . . , Xλm ∈ A′λm
= P ω ∈ Ω : Xλ1 (ω) ∈ A′λ1 , . . . , Xλm (ω) ∈ A′λm ,
{λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λm ∈ Fλ′ m , m ∈ N.
Falls die gemeinsame Verteilung der Zufallsvariablen Xλ , λ ∈ Λ, faktorisiert, d.h.,
wenn 3.80
(3.8)
P Xλ1 ∈ A′λ1 , Xλ2 ∈ A′λ2 , . . . , Xλm ∈ A′λm
= P[Xλ1 ∈ A′λ1 ] P[Xλ2 ∈ A′λ2 ] . . . P[Xλm ∈ A′λm ]
3.71In diesem Fall wird zu keinem Zeitpunkt eine der aktuell getippten Zahlen modifiziert.
3.72Mit wachsendem p steigt die Wahrscheinlichkeit, daß beim Zusammenstellen eines neuen
Tips eine der getippten Zahlen ausgetauscht wird. Da niemals alle Zahlen des aktuellen Tips
ausgetauscht werden, besteht allerdings auch für p = 1, wenn mit Sicherheit genau eine der Zahlen
des aktuellen Tips geändert wird, eine gewisse Abhängigkeit zwischen aufeinanderfolgenden Tips
Tk und Tk+1 .
3.73
Der Begriff der gemeinsamen Verteilung einer Familie von Zufallsvariablen wird in diesem
Abschnitt 3.2 eingeführt, vgl. (3.7).
3.74Vgl. Abschnitt 3.4. Ein stochastischer Prozeß ist eine durch Zeitpunkte“ indizierte Fa”
milie von Zufallsvariablen.
3.75Offensichtlich ist bei Kenntnis des gegenwärtigen Tips T die Kenntnis der Tips T
k
k−1 ,
Tk−2 , . . . in der Vergangenheit nicht notwendig, um den zukünftigen Tip Tk+1 zu beschreiben.
Daher ist (Tk )k∈N sogar ein Markovprozeß, vgl. Abschnitt 8.2.
3.76Λ ist eine beliebige Menge, die auch überabzählbar sein kann. Die meßbaren Räume
′ ), λ ∈ Λ, können durchaus verschieden sein.
(Ω′λ , Fλ
3.77Um die nun folgenden Erläuterungen der Begriffe gemeinsame Verteilung und Unabhängigkeit in (3.7), bzw. in (3.8) besser zu verstehen, kann man zuerst |Λ| = 2, 3, . . . und
′ ) = (R, B(R)), λ ∈ Λ, annehmen. Insbesondere sollte man auch den folgenden Ab(Ω′λ , Fλ
schnitt 3.2.1, in dem eine endliche Menge diskreter Zufallsvariablen betrachtet wird, beachten.
3.78Für alle endlichen Teilmengen Λ = {λ , . . . , λ } ⊆ Λ wird in (3.7) festgehalten, mit
e
m
1
Q
′
welchen Wahrscheinlichkeiten die m
k=1 Ωλ -wertige Zufallsvariable (Xλ1 , . . . , Xλm ) ihre Werte
k
′
′ , . . . , A′
in den Mengen A′λ1 × · · · × A′λm , A′λ1 ∈ Fλ
λm ∈ Fλm , annimmt.
1
3.79
Charakterisiert durch . . . “ heißt nicht definiert durch . . . “. In (3.7) wird nur eine Familie
”
”
von Wahrscheinlichkeiten angegeben. Die vollständige Definition der gemeinsamen Q
Verteilung der
Zufallsvariablen Xλ , λ ∈ Λ, als ein Wahrscheinlichkeitsmaß auf dem Produktraum λ∈Λ Ω′λ wird
in weiterführenden Vorlesungen angegeben.
Es sei nur erwähnt, daß für ein beliebiges Λ die gemeinsame Verteilung der Zufallsvaria′ ), λ ∈ Λ, ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum
blen Xλ : (Ω, F, P) → (Ω′λ , Fλ
N
Q
′ , dem Produkt der meßbaren Räume (Ω′ , F ′ ), λ ∈ Λ, ist. Die Produkt′ ,
F
Ω
λ∈Λ λ N λ∈Λ λ
λ
λ
′
σ-Algebra
λ∈Λ Fλ ist hierbei die kleinste σ-Algebra, die die endlich-dimensionalen Rechtecke
′
′ , . . . , A′
{ω = (ωλ )λ∈Λ : ωλ1 ∈ A′λ1 , . . . , ωλm ∈ A′λm }, {λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ
λm ∈ Fλm ,
1
m ∈ N, enthält.
3.80Genaugenommen wird in (3.8) verlangt, daß alle gemeinsamen Verteilungen von jeweils
endlich vielen der Zufallsvariablen Xλ , λ ∈ Λ, faktorisieren.
28. Januar 2011
53
{λ1 , . . . , λm } ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λm ∈ Fλ′ m , m ∈ N,
werden diese Zufallsvariablen unabhängig genannt 3.81.
In den einfachsten Varianten vieler klassischer Resultate der Wahrscheinlichkeitstheorie, z.B. dem Gesetz der großen Zahlen oder dem Zentralen Grenzwertsatz 3.82, wird mit Folgen 3.83 Xk , k ∈ N, unabhängiger, identisch verteilter Zufallsvariablen gearbeitet. Hierbei sind Zufallsvariablen Xλ , λ ∈ Λ, identisch verteilt, wenn
sie die gleiche Verteilung besitzen, d.h., wenn 3.84 PXλ1 = PXλ2 , λ1 , λ2 ∈ Λ 3.85.
Als Abkürzung für unabhängig, identisch verteilt “ benutzt man häufig auch
”
i.i.d. 3.86. Mit i.i.d. Zufallenvariablen kann ein mehrmals, unabhängig unter gleichbleibenden Bedingungen wiederholtes Experiment modelliert werden 3.87.
3.2.1. Gemeinsame Verteilung endlich vieler diskreter Zufallsvariablen. 3.88 Seien Xk : (Ω, F, P) → (Mk , Pot(Mk )), k = 1, . . . , n, Zufallsvariablen,
wobei Mk , k = 1, . . . , n, höchstens abzählbare Mengen sind. Die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn wird eindeutig charakterisiert durch 3.89
(3.9)
P {ω ∈ Ω : X1 (ω) = m1 , . . . , Xn (ω) = mn }
= P[X1 = m1 , . . . , Xn = mn ],
Durch Addition solcher Terme, d.h., mit
(3.10) PX1 ,...,Xn [A] := P[(X1 , . . . , Xn ) ∈ A]
X
P[X1 = m1 , . . . , Xn = mn ],
= 3.90
(m1 ,...,mn )∈A
m1 ∈ M 1 , . . . , mn ∈ M n .
A ∈ Pot(M1 ×. . .×Mn ),
erhält man ein Wahrscheinlichkeitsmaß 3.91 PX1 ,...,Xn auf (M1 × · · ·× Mn , Pot(M1 ×
· · · × Mn )). Dieses Wahrscheinlichkeitsmaß PX1 ,...,Xn ist die (gemeinsame) Verteilung von X1 , . . . , Xn 3.92.
Faßt man übrigens die Zufallsvariablen X1 , . . . , Xn zu einer einzigen n-dimensionalen Zufallsvariable X = (X1 , . . . , Xn ) zusammen, so ist
PX1 ,...,Xn = PX ,
3.81Um den Unterschied zur linearen Unabhängigkeit zu betonen, bezeichnet man die Zufallsvariablen Xλ , λ ∈ Λ, auch als stochastisch unabhängig.
3.82
Diese beiden Resultate werden in den Beispielen 1.7 und 1.8 vorgestellt. Ausführlichere
Diskussionen folgen in den Kapiteln 7 und 9.
3.83
Somit ist Λ = N.
3.84P bezeichnet die Verteilung einer Zufallsvariablen X, vgl. (3.3).
X
3.85Man beachte: Zufallsvariablen, die die gleiche Verteilung besitzen, müssen nicht, aber
können gleichverteilt sein! Zufallenvariablen X werden gleichverteilt genannt, wenn ihre Verteilung
PX die Gleichverteilung auf einer endlichen Menge, vgl. Abschnitt 2.2, oder die Gleichverteilung
in einem beschränkten Gebiet eines Rd , vgl. Abschnitt 2.6, ist.
3.86
i.i.d. bedeutet independent, identically distributed“.
”
3.87
Ein Beispiel ist der ∞-fache, unabhängige Münzwurf mit einer festen Erfolgswahrscheinlichkeit.
3.88
Zur Illustration der allgemeinen in (3.7), bzw. (3.8) betrachteten Situation wird nun ein
übersichtlicher“ Spezialfall vorgestellt.
”
3.89Vgl. (3.7). Dort werden in einer allgemeinen Situation analoge Wahrscheinlichkeiten
betrachtet.
•
3.90Beachte die Tatsache, daß {(X , . . . , X ) ∈ A} = S
n
1
(m1 ,...,mn )∈A {X1 = m1 , . . . , Xn =
mn }, und die σ-Additivität von P.
3.91
Wie in den Überlegungen in Fußnote 3.20 beim Nachweis, daß die Verteilung PX einer
einzelnen Zufallsvariable X ein Wahrscheinlichkeitsmaß ist, kann gezeigt werden, daß die Eigenschaften (2.2) für PX1 ,...,Xn gelten.
3.92Zumindest für eine endliche Menge diskreter Zufallsvariablen X , . . . , X wird hier die
n
1
gemeinsame Verteilung PX1 ,...,Xn definiert. In (3.7) wird diese gemeinsame Verteilung nur charakterisiert. Vgl. hierzu Fußnote 3.79.
28. Januar 2011
54
wobei PX die mit (3.3) eingeführte Verteilung von X ist.
Die Zufallsvariablen X1 , . . . , Xn sind unabhängig, genau dann wenn die Terme
in (3.9) faktorisieren 3.93, d.h., wenn
(3.11)
P[X1 = m1 , . . . , Xn = mn ]
= P[X1 = m1 ] · · · P[Xn = mn ],
m1 ∈ M 1 , . . . , mn ∈ M n .
Beispiel 3.7 (Gemeinsame Verteilung von zwei Zufallsvariablen). Wie in Beispiel 2.6 wird der N -fache, unabhängige Wurf einer Münze mit der Wahrscheinlichkeit p für den Wurf von Zahl“ , 1 betrachtet 3.94.
”
Gesucht ist die gemeinsame Verteilung der Zufallsvariablen Z und T mit 3.95
Z(ω) = ω1 + · · · + ωN , bzw.
(
inf{i ∈ {1, . . . , N } : ωi = 1}, falls Z(ω) > 0,
T (ω) =
N + 1,
falls Z(ω) = 0,
für ω = (ω1 , . . . , ωN ) ∈ Ω = {0, 1}N . Dazu ist
P[Z = k, T = n],
zu bestimmen
(3.12)
k = 0, 1, . . . , N, n = 1, . . . , N + 1,
3.96
. Zunächst gilt:
P[Z = 0, T = N + 1] =
3.97
P[Z = 0, T = n] =
3.98
P[Z = k, T = N + 1] =
3.99
P[Z = k, T = n] =
(1 − p)N ,
0,
n = 1, . . . , N,
0,
k = 1, . . . , N,
3.100
0,
n = 1, . . . , N, k = N − n + 2, . . . , N.
Wenn für ein ω ∈ Ω weiterhin T (ω) = n und Z(ω) = k für n = 1, . . . , N und
k = 1, . . . , N − n + 1 ist, so folgt
• ωi = 0, i = 1, . . . , n − 1,
• ωn = 1,
• ωl = 1 für genau k − 1 verschiedene l ∈ {n + 1, . . . , N }.
−n
Es gibt 3.101 Nk−1
derartige ω ∈ Ω, wobei jedes die Wahrscheinlichkeit pk (1−p)N −k
besitzt. Somit ist
N −n k
(3.13)
P[Z = k, T = n] =
p (1 − p)N −k ,
k−1
n = 1, . . . , N, k = 1, . . . , N − n + 1.
Durch (3.12) - (3.13) ist die gemeinsame Verteilung der Zufallsvariablen Z und T
bestimmt 3.102.
3.93Vgl. (3.8).
3.94Insbesondere wird nun auch mit dem in Beispiel 2.6 betrachteten Wahrscheinlichkeits-
raum (Ω, F, P), wobei Ω = {0, 1}N , F = Pot(Ω) und P durch (2.5) definiert ist, gearbeitet.
3.95Z beschreibt die Anzahl der Würfe von Zahl“, während T den Zeitpunkt des ersten
”
Wurfs von Zahl“ modelliert.
”
3.96Nach
(3.9) und (3.10) ist die gemeinsame Verteilung von Z und T durch diese Größen
eindeutig bestimmt.
3.97Hier wird nach der Wahrscheinlichkeit für N Würfe von Kopf“ gefragt.
”
3.98
Wenn Z = 0 ist, so kann nicht T ≤ N sein.
3.99
Wenn Z > 0 ist, so ist T ≤ N .
3.100
Wenn T = n, können in den nachfolgenden Zeitpunkten n, n+1, . . . , N höchstens N −n+1
Würfe von Zahl“ auftreten.
”
3.101Die
Anzahl dieser ω’s ist gleich der Anzahl der Möglichkeiten aus einer Menge mit N − n
Elementen eine Teilmenge mit k−1 Elementen auszuwählen, vgl. Abschnitt 5.1, insbesondere (5.4).
3.102Zur Kontrolle der obigen Ausführungen kann nachgewiesen werden, daß die berechneten Koeffizienten νk,n = P[Z = k, T = n], k = 0, 1, . . . , N , n = 1, . . . , N + 1, in der
28. Januar 2011
55
3.2.2. Unabhängige Zufallsvariablen mit einer Dichte. Für ein N ∈ N
seien X1 , . . . , XN unabhängige 3.103, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Für k = 1, . . . , N habe die Verteilung PXk von Xk
die Dichte 3.104 fk bzgl. des Lebesguemaßes auf (R, B(R)).
Dann hat die gemeinsame Verteilung PX1 ,...,XN von X1 , . . . , XN die Dichte
QN
RN ∋ (y1 , . . . , yN ) → k=1 fk (yk ) ∈ [0, ∞) bzgl. des Lebesguemaßes auf (RN ,
B(RN )) 3.105.
Zur Begründung dieser Behauptung beachte man, daß
P[(X1 , . . . , XN ) ∈ A1 × · · · × AN ] =
(3.14)
=
3.107
=
3.109
=
Z
3.106
P[X1 ∈ A1 , . . . , XN ∈ AN ]
P[X1 ∈ A1 ] · · · P[XN ∈ AN ] = 3.108 PX1 [A1 ] . . . PXn [An ]
Z
Z
dy1 f1 (y1 ) · · ·
dyN fN (yN )
A1
A1 ×···×AN
AN
dy1 · · · dyN f1 (y1 ) · · · fN (yN ),
A1 , . . . , AN ∈ B(R).
Da in einem weiteren Schritt gefolgert werden kann 3.110, daß (3.14) nicht nur für
Rechtecke“ A1 × · · · × AN = {y = (y1 , . . . , yN ) ∈ RN : y1 ∈ A1 , . . . , yN ∈ AN } ∈
” N
B(R ), sondern für beliebige A ∈ B(RN ) gilt, ist die Behauptung bewiesen.
Beispiel 3.8 (Unabhängige, normalverteilte Zufallsvariablen). Seien X1 , . . . , XN
unabhängige, normalverteilte Zufallsvariablen mit den Dichten 3.111
(x − µk )2
1
, x ∈ R, k = 1, . . . , N,
exp −
fk (x) = p
2σk2
2πσk2
2
wobei µ1 , . . . , µN ∈ R und σ12 , . . . , σN
> 0. Um die Dichte f : RN → [0, ∞) der
gemeinsamen Verteilung PX1 ,...,XN von X1 , . . . , XN mit
f (x) = f (x1 , . . . , xN ) =
N
Y
fk (xk )
k=1
=
N
Y
k=1
1
(xk − µk )2
p
,
exp −
2σk2
2πσk2
x = (x1 , . . . , xN ) ∈ RN ,
in einer kompakten“ Form darstellen zu können, wird der Vektor µ = (µ1 , . . . , µN )
”
∈ RN und die N × N -Matrix σ 2 = (σk2 δk,l )k,l=1,...,N 3.112 eingeführt. Nun ist die
Tat in Übereinstimmung mit den Überlegungen zu (3.9) und (3.10) ein Wahrscheinlichkeitsmaß auf {0, 1, . . . , N } × {1, . . . , N + 1} beschreiben. Offensichtlich ist νk,n ≥ 0, k = 0, 1, . . . , N ,
P
PN+1
n = 1, . . . , N + 1. Weiterhin zeigt sich, daß N
k=0
n=1 νk,n = 1.
3.103Vgl. (3.8).
3.104Für alle k = 1, . . . , N sei P
Xk ein Wahrscheinlichkeitsmaß auf (R, B(R)) mit der Dichte
fk , vgl. Abschnitt 2.6.
3.105Somit hat die gemeinsame Verteilung endlich vieler, unabhängiger Zufallsvariablen mit
einer Dichte ebenfalls eine Dichte. Jene gemeinsame Dichte ist das Produkt der einzelnen Dichten.
3.106Hier wird nur die Schreibweise geändert.
3.107Da die Zufallsvariablen X , . . . , X unabhängig sind, vgl. (3.8).
1
N
3.108
Vgl. (3.3).
3.109
Da für k = 1, . . . , N die Verteilung PXk der Zufallsvariable Xk die Dichte fk besitzt.
3.110
Hierzu kann Satz (1.12) in [5] benutzt werden.
3.111Vgl. Abschnitt 2.6.
3.112
δk,l =
(
1,
0,
falls k = l,
falls k 6= l,
ist das Kronecker-Symbol. Somit ist σ 2 eine Diagonalmatrix, deren Diagonalelemente durch die
Varianzen σk2 , k = 1, . . . , N , der Zufallsvariablen X1 , . . . , XN gegeben sind.
28. Januar 2011
56
Dichte f von PX1 ,...,XN darstellbar in der Form 3.113 3.114
1
1
exp − (x − µ)(σ 2 )−1 (x − µ)T ,
(3.15)
f (x) = p
2
(2π)N det(σ 2 )
x ∈ RN ,
d.h., die Zufallsvariablen X1 , . . . , XN sind gemeinsam normalverteilt mit Erwartungswert µ und Kovarianzmatrix σ 2 3.115. Man schreibt PX1 ,...,XN = N(µ, σ 2 ).
3.2.3. Unabhängigkeit von Ereignissen. 3.116 Mit (Ω, F, P) sei ein Wahrscheinlichkeitsraum und mit Aλ , λ ∈ Λ, eine Menge von Ereignissen gegeben. Diese
heißen unabhängig, wenn 3.117
"
#
Y
\
(3.16)
P
P[Aλ ], ∆ ⊆ Λ, |∆| < ∞.
Aλ =
λ∈∆
λ∈∆
Wenn Ereignisse A und B unabhängig sind, so sind auch A und Ω \ B, bzw. Ω \ A
und B, bzw. Ω \ A und Ω \ B unabhängig 3.118. Daher folgt insbesondere, daß die
Unabhängigkeit der Ereignisse Aλ , λ ∈ Λ, gleichbedeutend mit der Unabhängigkeit
der ({0, 1}, Pot({0, 1}))-wertigen Zufallsvariablen 3.119 IAλ , λ ∈ Λ, ist.
Beispiel 3.9 (Paarweise Unabhängigkeit von Ereignissen). Sei (Ω, F, P) ein Wahrscheinlichkeitsraum. Ereignisse A1 , A2 , . . . ∈ F sind paarweise (stochastisch) unabhängig, wenn
(3.17)
P[Ak1 ∩ Ak2 ] = P[Ak1 ] · P[Ak2 ],
1 ≤ k1 < k2 < ∞.
QN
3.113Da (σ 2 )−1 = ((σ2 )−1 δ )
2
2
k,l k,l=1,...,N und weil det(σ ) =
k=1 σk .
k
3.114
Zu y ∈ RN bezeichnet y T den zu y transponierten Vektor. Für einen Zeilenvektor y ist
y T der entsprechende Spaltenvektor.
3.115Wenn eine allgemeine N -dimensionale Normalverteilung eine Dichte f besitzt, so hat
diese die Gestalt
1
1
exp − (x − ν)(A)−1 (x − ν)T , x ∈ RN ,
(∗)
f (x) = p
2
(2π)N det(A)
wobei ν ∈ RN der Erwartungswert und A die Kovarianzmatrix ist. A ist eine positiv-definite,
symmetrische N × N -Matrix.
Es gibt zu jedem ν ∈ RN und jeder positiv-semidefiniten, symmetrischen N × N -Matrix A
eine Normalverteilung N(ν, A) auf RN mit dem Erwartungswert ν und der Kovarianzmatrix A.
Diese besitzt genau dann eine Dichte fµ,A : RN → [0, ∞), die in diesem Fall durch (∗) gegeben
ist, wenn A positiv-definit ist.
Wenn eine Normalverteilung im RN eine nur positiv-semidefinite, nicht aber positiv-definite
Kovarianzmatrix besitzt, ist sie auf einer niederdimensionalen, linearen Untermannigfaltigkeit des
RN konzentriert“ und besitzt somit keine Dichte.
”3.116
Die Unabhängigkeit von Ereignissen, mit der auf eine formale Weise schon mehrfach
gearbeitet wurde, z.B. in den Fußnoten 1.30 und 2.35, ist ein Spezialfall der Unabhängigkeit von
Zufallsvariablen, vgl. (3.8).
3.117T
λ∈∆ Aλ , Aλ1 und . . . und Aλm , falls ∆ = {λ1 , . . . , λm }. Die Faktorisierungseigenschaft (3.16) muß für alle endlichen Teilmengen ∆ der beliebigen Menge Λ gelten.
3.118Beispielsweise gilt
P[A ∩ (Ω \ B) ] = P[A] − P[A ∩ B] (Additivität von P)
{z
}
| {z }
|
= A \ (A ∩ B)
= P[A] · P[B] (Unabhängigkeit von A und B)
= P[A](1 − P[B]).
| {z }
= P[Ω \ B]
3.119Für A ⊆ Ω bezeichnet I mit
A
IA (ω) =
(
1,
0,
ω ∈ A,
ω ∈ Ω \ A,
die Indikatorfunktion von A.
28. Januar 2011
57
Offensichtlich impliziert die Unabhängigkeit von Ereignissen ihre paarweise Unabhängigkeit. Wie nun gezeigt wird, gilt der umgekehrte Schluß nicht 3.120.
Wir betrachten den 2-fachen, unabhängigen Wurf einer fairen Münze, d.h., wir
arbeiten mit dem Wahrscheinlichkeitsraum (Ω, F, P) mit 3.121
Ω = {0, 1}2 ,
1
P[{ω}] = ,
4
F = Pot(Ω),
ω ∈ Ω.
Für die Ereignisse
A=
3.122
B=
3.123
C=
3.124
{(1, 0), (1, 1)},
{(0, 1), (1, 1)},
{(0, 0), (1, 1)}
gilt
(3.18a)
(3.18b)
(3.18c)
(3.18d)
(3.18e)
P[A] = P[B] = P[C] =
1
4
1
P[A ∩ C] = P[{(1, 1)}] =
4
1
P[B ∩ C] = P[{(1, 1)}] =
4
1
P[A ∩ B ∩ C] = P[{(1, 1)}] =
4
P[A ∩ B] = P[{(1, 1)}] =
1
,
2
= P[A] · P[B],
= P[A] · P[C],
= P[B] · P[C],
6=
1
= P[A] · P[B] · P[C].
8
Die Beziehungen (3.18b) - (3.18d) zeigen, daß die Ereignisse A, B und C paarweise unabhängig sind. Aufgrund von (3.18e) sind sie allerdings nicht unabhängig.
Die Unabhängigkeit zweier Ereignisse bedeutet nicht, daß sie nichts miteinan”
der zu tun haben“. So sind wegen (3.18c) die Ereignisse A und C zwar unabhängig,
allerdings kann, wenn bekannt ist, daß A geschieht, das Ereignis C nur eintreten,
wenn der zweite Wurf Zahl“ , 1 ergibt 3.125.
”
3.120Beachte, daß die Ereignisse A , A , . . . unabhängig sind, wenn die in (3.17) beschriebene
1
2
Faktorisierungseigenschaft nicht nur für zwei sondern für jeweils endlich viele A... ’s gilt, vgl. (3.16).
3.121Vgl. Beispiel 2.5.
3.122A beschreibt das Ereignis, daß der erste Wurf Zahl“ , 1 ergibt.
”
3.123
B beschreibt das Ereignis, daß der zweite Wurf Zahl“ ergibt.
”
3.124
C beschreibt das Ereignis, daß die Ergebnisse der beiden Würfe übereinstimmen.
3.125Von einem intuitiven Standpunkt aus sind zwei Ereignisse D und E stochastisch unabhängig, wenn das Wissen über das Eintreten von D (bzw. E) die Wahrscheinlichkeit für das
Eintreten von E (bzw. D) nicht ändert. Mathematisch rigoros bedeutet dies, daß
P[E|D] = P[E]
(bzw. P[D|E] = P[D]),
wobei P[E|D] die bedingte Wahrscheinlichkeit des Ereignisses E unter der Bedingung D bezeichnet, vgl. Abschnitt 8.1.
28. Januar 2011
58
3.2.4. Verteilung von Summen unabhängiger Zufallsvariablen. 3.126
Für unabhängige, reellwertige Zufallsvariablen X und Y ist die Verteilung der Summe X + Y zu bestimmen 3.127. Zur Vereinfachung der Berechnungen werden im folgenden zwei Spezialfälle betrachtet, wobei sowohl X als auch Y Zufallsvariablen mit
Werten in Z 3.128, bzw. Zufallsvariablen mit einer Dichte bzgl. des Lebesguemaßes
auf R sind.
Falls die unabhängigen Zufallsvariablen X und Y Werte in Z annehmen, gilt:
"•∞
#
[
P[X + Y = m] = 3.129 P
(3.19)
{X = n, Y = m − n}
n=−∞
=
=
∞
X
3.130
n=−∞
∞
X
3.131
n=−∞
P[X = n, Y = m − n]
P[X = n]P[Y = m − n],
m ∈ Z.
Die Faltung p ∗ q zweier reellwertiger Sequenzen p = (pn )n∈Z und q = (qn )n∈Z
ist durch
(3.20)
(p ∗ q)m :=
=
∞
X
pn qm−n
n=−∞
3.132
∞
X
pm−l ql =
3.133
l=−∞
(q ∗ p)m ,
m ∈ Z,
definiert. Daher zeigt (3.19), daß die Verteilung PX+Y der Summe zweier unabhängiger, Z-wertiger Zufallsvariablen X und Y die Faltung von PX und PY
ist.
Beispiel 3.10. Wenn Folgen
führt (3.20) zu
(3.21)
(p ∗ q)m =
∞
X
n=−∞
3.134
p = (pn )n∈N0 und q = (qn )n∈N0 gefaltet werden,
pn qm−n IN0 (n)IN0 (m − n) =
m
X
n=0
pn qm−n ,
m ∈ N0 .
Für die Verteilung der Summe X + Y zweier unabhängiger, geometrisch 3.135
mit Parameter p ∈ (0, 1) verteilter Zufallsvariablen X und Y ergibt sich daher
3.126
In vielen Anwendungen ist eine zufällige Beobachtungsgröße, d.h. eine reellwertige
Zufallsvariable X, eine Summe von mehreren unabhängigen, kleineren Beiträgen X1 , . . . , Xn .
Oft treten diese nicht als individuelle Größen, sondern nur als Bestandteil von X in Erscheinung. Beispielsweise kann X ein Gesamtertrag (eine Gesamtwartezeit) sein, der (die) als Summe
X = X1 + · · · + Xn einzelner Erträge (Wartezeiten) darstellbar ist. In diesem Abschnitt 3.2.4 soll
geklärt werden, wie aus den Verteilungen von X1 , . . . , Xn die Verteilung von X berechnet werden
kann.
3.127Die Verteilung beliebiger endlicher Summen unabhängiger, reellwertiger Zufallsvariablen
kann anschließend mit einem Iterationsverfahren bestimmt werden.
3.128Somit sind in diesem Fall X und Y diskrete Zufallsvariablen.
•∞
3.129S
n=−∞ {X = n, Y = m − n} ist eine disjunkte Zerlegung des Ereignisses {X + Y = m}.
3.130
Wegen der σ-Additivität von P.
3.131
Da X und Y unabhängig sind.
3.132Mit der Substitution l = m − n.
3.133
Die Faltung ist somit kommutativ, d.h., p ∗ q = q ∗ p.
3.134Durch solche Folgen sind z.B. die Verteilungen N -wertiger Zufallsvariablen bestimmt.
0
3.135Hier ist die in Fußnote 2.34 beschriebene Variante der geometrischen Verteilung gemeint.
28. Januar 2011
59
insbesondere
P[X + Y = m] =
3.136
m
X
n=0
P[X = n] P[Y = m − n]
| {z }
= 3.137 (1 − p)n p
= (m + 1) p2 (1 − p)m ,
| {z }
m+1
=
m
m ∈ N0 .
Somit ist die Verteilung von X + Y eine negative Binomialverteilung
Parametern r = 2 und p.
3.138
mit den
Falls die Verteilungen unabhängiger, reellwertiger Zufallsvariablen X und Y
Dichten f , bzw. g bzgl. des Lebesguemaßes besitzen, so ist
Z ∞
Z ∞
3.139
P[X + Y ≤ z] =
(3.22)
dx
dy I(−∞,z] (x + y)f (x)g(y)
−∞
−∞
Z z
Z ∞
= 3.140
du
dv f (v)g(u − v)
−∞
−∞
Z z
du (f ∗ g)(u), z ∈ R,
=
−∞
wobei
(3.23)
(f ∗ g)(u) =
Z
∞
−∞
dv f (v)g(u − v) = (g ∗ f )(u),
u ∈ R,
die Faltung der Wahrscheinlichkeitsdichten f und g bezeichnet.
Aus (3.22) und (3.23) kann geschlossen werden, daß die Summe X + Y zweier unabhängiger, reellwertiger Zufallsvariablen X und Y mit Dichten f , bzw. g
ebenfalls eine Dichte besitzt, nämlich f ∗ g 3.141 3.142 3.143.
3.136Vgl. (3.19) und (3.21).
3.137Vgl. Fußnote 2.34.
3.138Vgl. Abschnitt 2.2.
3.139Da die gemeinsame Verteilung von X und Y die Dichte f · g hat, vgl. Abschnitt 3.2.2.
3.140
Mit der Substitution u = x + y, v = x.
3.141In (3.22) wird die Verteilungsfunktion F
X+Y der Zufallsvariable X + Y berechnet. All-
gemein ist die Verteilungsfunktion FZ : R → [0, 1] einer reellwertigen Zufallsvariable Z durch
FZ (ζ) = P[Z ≤ ζ] = PZ [(−∞, ζ]], ζ ∈ R, definiert, vgl. Abschnitt 3.3. Durch FZ ist die Verteilung PZ von Z eindeutig bestimmt.
3.142
Die in (3.20), (3.21) oder (3.23) beschriebenen Faltungen sind Spezialfälle der Faltung
von Wahrscheinlichkeitsmaßen auf R, die durch
Z
P(dx)Q[A − x], A ∈ B(R), P, Q Wahrscheinlichkeitsmaße auf (R, B(R)),
(P ∗ Q)[A] =
R
mit A − x = {y ∈ R : y = a − x für ein a ∈ A} definiert ist.
Allgemein ist die Verteilung PX+Y einer Summe X + Y unabhängiger, reellwertiger Zufallsvariablen X und Y mit den Verteilungen PX , bzw. PY durch deren Faltung gegeben, d.h.,
PX+Y = PX ∗ PY .
3.143
Die Berechnung von Faltungen wie in (3.20), (3.21), (3.23) oder auch im allgemeinen,
in Fußnote 3.142 betrachteten Fall kann wesentlich vereinfacht werden, wenn erzeugende bzw.
charakteristische Funktionen verwendet werden, vgl. z.B. (9.3).
Insbesondere ist die charakteristische Funktion ψZ : R → C einer reellwertigen Zufallsvariable Z durch ψZ (λ) = E[exp(iλZ)], λ ∈ R, definiert. Durch ψZ ist die Verteilung PZ von Z
eindeutig bestimmt. Für unabhängige Zufallsvariablen X und Y gilt außerdem die Faktorisierungseigenschaft ψX+Y (λ) = ψX (λ) · ψY (λ), λ ∈ R. Somit brauchen in einem solchen Fall zur
Identifizierung der Verteilung PX+Y von X + Y nur die charakteristischen Funktionen ψX und
ψY multipliziert werden.
28. Januar 2011
60
Beispiel 3.11. Die Zufallsvariablen X1 und X2 seien unabhängig mit den Verteilungen 3.144 N(µi , σi2 ), i = 1, 2. Dann besitzt X + Y die Verteilung N(µ1 + µ2 , σ12 +
σ22 ) 3.145.
3.2.5. Gleichheitsbegriffe für Zufallsvariablen. 3.146 In diesem Abschnitt
werden zwei verschiedene Gleichheitsbegriffe für Zufallsvariablen vorgestellt.
Gleichheit in Verteilung. Seien X : (Ω, F, P) → (Ω′ , F′ ) und Y : (Ω1 , F1 , P1 ) →
(Ω′ , F′ ) Zufallsvariablen 3.147. Wenn X und Y die gleiche Verteilung besitzen,
d.h., wenn 3.148 PX = PY , bzw.
PX [A′ ] = P[X ∈ A′ ] =
3.149
P1 [Y ∈ A′ ] = PY [A′ ],
A′ ∈ F′ ,
so bezeichnet man X und Y als gleich in Verteilung oder identisch verteilt.
Man schreibt 3.150
L
d
X = Y oder X = Y.
Fast-sichere Gleichheit. Seien X, Y : (Ω, F, P) → (Ω′ , F′ ) Zufallsvariablen
Man bezeichnet X und Y als fast-sicher gleich und schreibt
3.151
.
X = Y, f.s.,
wenn
3.152 3.153
P[X = Y ] = P[{ω ∈ Ω : X(ω) = Y (ω)}] = 1.
Zwei Zufallsvariablen, die auf dem gleichen Wahrscheinlichkeitsraum definiert sind und fast-sicher gleich sind, werden üblicherweise miteinander identifiziert, d.h. als identisch betrachtet.
d
Bemerkungen 3.12. (i) Wenn X = Y , f.s., so folgt X = Y . Wenn umgekehrt
d
X = Y , so braucht X = Y , f.s., nicht zu gelten 3.154.
3.144N(µ, σ2 ) ist die Normalverteilung mit Erwartungswert µ ∈ R und Varianz σ2 > 0, vgl.
Abschnitt 2.6.
3.145Ein Beweis dieser Aussage mit der Berechnung eines Integrals wie in (3.23) findet sich
in [10], Satz 11.9.
Wenn allerdings charakteristische Funktionen, vgl. Fußnote 3.143, benutzt werden, wird die
Folgerung dieses Beispiels 3.11 trivial“. Da als Folge von (9.5) und (9.6) eine Zufallsvariable Z
”
mit PZ = N(µ, σ2 ) die charakteristische Funktion ψZ (λ) = exp(iλµ − λ2 σ2 /2), λ ∈ R, besitzt,
folgt mit der Unabhängigkeit von X1 und X2 die Beziehung ψX1 +X2 (λ) = ψX1 (λ)ψX2 (λ) =
exp(iλ(µ1 + µ2 ) − λ2 (σ12 + σ22 )/2), λ ∈ R, d.h., PX1 +X2 = N(µ1 + µ2 , σ12 + σ22 ).
3.146
Die Zufallsvariablen Tk , k = 1, 2, . . . , in Beispiel 3.6 sind identisch verteilt, d.h., sie
besitzen die gleiche Verteilung und sind daher in einem speziellen Sinn gleich“. Andererseits sind
”
sie zumindest für p > 0 natürlich unterschiedliche Zufallsvariablen. Nur für p = 0 gilt Tk = T1 für
alle k ∈ N. Somit gibt es verschiedene Möglichkeiten, die Gleichheit zwischen zwei Zufallsvariablen
zu definieren.
3.147Die Definitionsbereiche (Ω, F, P), bzw. (Ω , F , P ) der Zufallsvariablen X und Y
1
1
1
können verschieden sein. Allerdings besitzen X und Y den gleichen Wertebereich (Ω′ , F′ ).
3.148Die Verteilung P einer Zufallsvariable X wird in (3.3) definiert.
X
3.149Es ist hier zu beachten, daß die Zufallsvariable Y eine Funktion auf dem Wahrscheinlichkeitsraum (Ω1 , F1 , P1 ) ist.
L
d
3.150Die Notationen = und = erinnern an die englischen Bezeichnungen law und distribution
für Verteilung.
3.151Nun sind X und Y auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert.
3.152Die Menge A = {ω ∈ Ω : X(ω) 6= Y (ω)} braucht nicht leer zu sein. Allerdings muß
P[A] = 0 sein, wenn X = Y , f.s.
3.153
Auf eine analoge Weise ist die Bedeutung von Ausdrücken wie X 6= Y , f.s., oder X ≤ Y ,
f.s., definiert.
3.154Diese Aussage kann z.B. mit Hilfe der Zufallsvariablen T , k = 1, 2, . . . , in Beispiel 3.6
k
im Fall p > 0 begründet werden. Wenn X und Y auf verschiedenen Wahrscheinlichkeitsräumen
definiert sind, so macht es sowieso überhaupt keinen Sinn zu fragen, ob X = Y , f.s.
28. Januar 2011
61
(ii) Die unterschiedlichen Gleichheitsbegriffe deuten an, daß es auch verschiedene
Konvergenzbegriffe für Zufallsvariablen gibt 3.155.
3.3. Verteilungsfunktionen reellwertiger Zufallsvariablen
Die Verteilung 3.156 einer Zufallsvariable X : (Ω, F, P) → (R, B(R)) ist eindeutig
bestimmt durch die Größen 3.157
PX [A′ ] = P[X ∈ A′ ],
A′ ⊆ R, A′ Intervall
3.158
.
Insbesondere ist es ausreichend, die Intervalle (−∞, y], y ∈ R, zu betrachten.
Dementsprechend führt man zur eindeutigen Charakterisierung der Verteilung
einer (R, B(R))-wertigen Zufallsvariable X deren Verteilungsfunktion FX : R →
[0, 1] mit
(3.24)
ein.
FX (y) = PX [(−∞, y]] = P[X ≤ y],
y ∈ R,
3.3.1. Eigenschaften von Verteilungsfunktionen. Die Verteilungsfunktion FX einer reellwertigen Zufallsvariable X zeichnet sich durch die folgenden Eigenschaften aus:
(i) Es gilt
(3.25)
PX [(a, b]] =
3.159
=
3.160
P[X ∈ (a, b]]
P[X ≤ b] − P[X ≤ a]
= FX (b) − FX (a),
(ii) FX ist monoton wachsend, d.h.,
(3.26)
−∞ < a < b < ∞.
3.161
FX (a) ≤ FX (b),
−∞ < a < b < ∞.
(iii) Das Verhalten von FX an den Rändern des Definitionsbereichs R wird
durch 3.162
(3.27)
lim FX (y) = 0,
y→−∞
beschrieben.
(iv) FX ist rechtsstetig, d.h.,
(3.28)
3.163
lim FX (y)
yցy0
lim FX (y) = 1
y→∞
3.164
= FX (y0 ),
y0 ∈ R.
3.155
Beim schwachen Gesetz der großen Zahlen, beim starken Gesetz der großen Zahlen und
beim Zentralen Grenzwertsatz, drei Hauptresultaten der Wahrscheinlichkeitstheorie, werden in
der Tat die unterschiedlichen Konvergenzbegriffe der stochastischen Konvergenz, der fast-sicheren
Konvergenz, bzw. der Konvergenz in Verteilung verwendet, vgl. Beispiel 1.7 und 1.8 und insbesondere Satz 7.1, Bemerkung 7.2 und Satz 9.3. Die genannten drei Konvergenzbegriffe werden in
Abschnitt 6.8 gegenübergestellt.
3.156
Vgl. (3.3).
3.157Vgl. [5], Satz (1.12). Man beachte, daß die Menge der offenen (oder abgeschlossenen
oder . . . ) Intervalle durchschnittsstabil ist.
3.158Es reicht, offene, bzw. abgeschlossene, bzw. halboffene Intervalle zu betrachten.
3.159Es werden hier spezielle, halboffene Intervalle betrachtet.
3.160Da sich aus der Additivität von P, vgl. (2.10),
ergibt.
P[X ≤ a] + P[X ∈ (a, b]] = P[X ≤ b]
3.161Zur Begründung beachte man, daß die linke Seite von (3.25) immer ≥ 0 ist.
3.162Die Eigenschaften (3.27), (3.28) und (3.29) von Verteilungsfunktionen können aus
gewissen Stetigkeitseigenschaften von Wahrscheinlichkeitsmaßen abgeleitet werden, vgl. [5],
Satz (1.11)(e).
3.163Vgl. Fußnote 3.162.
28. Januar 2011
62
(v) FX besitzt linksseitige Grenzwerte, d.h.,
(3.29)
lim FX (y)
3.166
yրy0
3.165
−
= P[X < y0 ] =: FX
(y0 ),
y0 ∈ R.
Es gilt:
(3.30)
FX (y0 ) −
−
FX
(y0 ) ≤ FX (y0 ),
−
FX
(y0 )
y0 ∈ R,
= P[X = y0 ] = PX [{y0 }],
y0 ∈ R.
Somit ist FX in y0 ∈ R genau dann stetig, wenn y0 kein Atom 3.167 von PX ist 3.168.
(vi) Besitzt PX eine stetige Dichte 3.169 f bzgl. des Lebesguemaßes auf R, so
folgt
Z y
dx f (x), y ∈ R,
(3.31)
FX (y) = PX [(−∞, y]] =
−∞
′
d.h., 3.170 f = FX
. Wenn umgekehrt FX eine stetige Ableitung f besitzt, so hat
PX die Dichte f bzgl. des Lebesguemaßes 3.171.
3.3.2. Beispiele für Verteilungsfunktionen. Die Struktur und die Anwendungsmöglichkeiten von Verteilungsfunktionen reellwertiger Zufallsvariablen werden in diesem Abschnitt 3.3.2 anhand einiger Beispiele erläutert.
Beispiel 3.13. Sei X eine in [a, b] gleichverteilte Zufallsvariable 3.172. PX besitzt
somit die Dichte f (y) = (b − a)−1 I[a,b] (y), y ∈ R. In diesem Fall ist
FX (y) = 3.173 PX (−∞, y]


0,
y < a,

Z y
y − a
3.174
3.175
, y ∈ [a, b),
=
dz f (z) =

b−a
−∞


1,
y ≥ b.
Beispiel 3.14. SeiP
A eine höchstens abzählbare Teilmenge von R und seien pa ∈
(0, 1], a ∈ A, mit
a∈A pa = 1. Sei außerdem X eine A-wertige Zufallsvariable
3.164Mit lim
yցy0 . . .“ wird der Grenzwert bei monoton gegen y0 fallenden y beschrieben.
3.165Vgl. ”Fußnote 3.162.
3.166Mit lim
yրy0 . . .“ wird der Grenzwert bei monoton gegen y0 steigenden y beschrieben.
3.167Der ”
Begriff Atom wird in Bemerkung 2.8(ii) eingeführt.
3.168M.a.W., F hat genau in den Atomen von P Sprungstellen. Die Wahrscheinlichkeit
X
X
eines Atoms von PX gibt die Größe des entsprechenden Sprungs von FX an.
3.169Vgl. Abschnitt 2.6.
3.170Nach dem Hauptsatz der Differential- und Integralrechnung.
3.171Man beachte, daß f = F ′ ≥ 0 wegen der Monotonie von F , vgl. (3.26), und daß
X
X
Z y
Z ∞
dx f (x) = lim FX (y) = 1,
dx f (x) = lim
−∞
y→∞
−∞
y→∞
′ eine Wahrscheinlichkeitsdichte.
vgl. (3.27). Somit ist in der Tat f = FX
3.172D.h., P ist die Gleichverteilung auf [a, b], vgl. Abschnitte 2.4.1 und 2.6.
X
3.173Nach der Definition (3.24) der Verteilungsfunktion F einer reellwertigen ZufallsvariaX
ble X.
3.174
Da PX die Dichte f besitzt.
3.175
Links von a ist FX ≡ 0, während FX ≡ 1 rechts von b. Zwischen a und b steigt FX linear
an.
28. Januar 2011
63
mit
3.176 3.177
(3.32)
P[X = a] =
Es folgt nun
3.180
3.178
3.179
PX [{a}] =
pa ,
a ∈ A.
X
pa ,
:
FX (y) = PX (−∞, y]
X
= 3.181
PX [{a}] =
a∈A∩(−∞,y]
a∈A∩(−∞,y]
y ∈ R.
Beispiel 3.15. Sei zunächst X eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Verteilung von X habe eine stetige Dichte ψ.
Nun ist Z = X 2 eine positive reellwertige Zufallsvariable auf (Ω, F, P) 3.182. Es
zeigt sich, daß
FZ (y) = 0,
y ≤ 0,
FZ (y) = P[Z ≤ y] = P X 2 ∈ [0, y]
Z √y
√ √ = P X ∈ [− y, y] = √ dζ ψ(ζ),
y > 0.
− y
Insbesondere besitzt auch die Verteilung PZ von Z eine Dichte, nämlich ϕ mit

0,
y ≤ 0,
1
ϕ(y) = 3.183
√
√
FZ′ (y) = √ ψ(− y) + ψ( y) , y > 0.
2 y
3.176X ist eine diskrete, reellwertige Zufallsvariable. Ihre Verteilung P ist auf der Menge
X
A ihrer Atome konzentriert, vgl. Bemerkung 2.8(ii).
3.177
Man könnte sich hier wie in Abschnitt 3.1.1 die Frage stellen, ob eine derartige Zufallsvariable X überhaupt existiert. Um diese Frage mit ja“ beantworten zu können, kann man
”
beispielsweise durch Modifikation der ersten in Abschnitt 3.1.1 beschriebenen Methode folgendermaßen eine solche Zufallsvariable konstruieren:
Man betrachtet den diskreten WahrscheinlichkeitsP
raum (A, Pot(A), P1 ), wobei P1 [A′ ] = a∈A′ pa , A′ ∈ Pot(A), und definiert X durch X(ω) = ω,
ω ∈ A.
3.178Aufgrund der Definition (3.3) der Verteilung P von X.
X
3.179
Dies ist eine Annahme, die in diesem Beispiel gemacht wird.
3.180
Wenn beispielsweise A = {ak : k ∈ N} mit −∞ < a1 < a2 < · · · < ∞, kann FX auch in
der Form


y < a1 ,
0,
P
FX (y) =
,
y ∈ [am−1 , am ), m = 2, 3, . . . ,
p
a
k
k≤m−1


1,
y ≥ sup{ak : k ∈ N},
geschrieben werden.
Eine derart übersichtliche Struktur hat die Verteilungsfunktion FX natürlich nicht für jede
diskrete reellwertige Zufallsvariable X. Wenn z.B. X eine Q-wertige Zufallsvariable ist und wenn
P[X = q] > 0 für alle q ∈ Q, liegen die Sprungstellen von FX dicht in R und es gibt kein nichtleeres
offenes Intervall, in dem FX konstant ist.
3.181Vgl. Bemerkung 2.8(i).
3.182Die Meßbarkeitsbedingung (3.1) läßt sich für die reellwertige Funktion Z auf (Ω, F, P)
leicht nachprüfen.
3.183Vgl. Abschnitt 3.3.1(vi). Die Tatsache, daß F ′ (y) für y = 0 nicht existiert, ist letztZ
endlich nicht problematisch, da die Funktion FZ absolutstetig ist und daher dem Hauptsatz der
Differential- und Integralrechnung genügt. Hierbei
heißt eine Funktion h : R → R absolutstetig,
Pn
wenn zu ε > 0 ein δ > 0 existiert, so daß
k=1 |h(dk )
P−n h(ck )| < ε für jede endliche Menge
(ck , dk ), k = 1, . . . , n, disjunkter, offener Intervalle mit
k=1 |dk − ck | < δ. Der Hauptsatz der
Differential- und Integralrechnung besagt, daß zu jeder absolutstetigen Funktion h : R → R eine
R
R
Funktion h′ : R → R mit ab dx |h′ (x)| < ∞ und h(b) = h(a) + ab dx h′ (x), −∞ < a < b < ∞,
existiert. Für weitere Informationen zu absolutstetigen Funktionen sei auf [8], § 18, verwiesen.
28. Januar 2011
64
Beispiel 3.16 (Dichtetransformation 3.184). Sei X eine reellwertige Zufallsvariable, deren Verteilung eine stetige Dichte ψ hat. Weiterhin sei H : R → R stetig differenzierbar und streng monoton steigend mit limx→−∞ H(x) = −∞ und
limx→∞ H(x) = ∞. Insbesondere sei H ′ (x) > 0, x ∈ R. Somit besitzt die Funktion
H eine streng monoton steigende und stetig differenzierbare Inverse H −1 : R → R
mit 3.185
(3.33)
(H −1 )′ (x) =
1
,
H ′ (H −1 (x))
Die Verteilungsfunktion FZ der Zufallsvariable
die Darstellung
FZ (y) = P[H(X) ≤ y]
= P[X ≤ H
−1
(y)] =
Z
x ∈ R.
3.186
Z = H(X) hat in diesem Fall
H −1 (y)
y ∈ R.
dx ψ(x),
−∞
Da
FZ′ (y) = ψ(H −1 (y))(H −1 )′ (y) =
3.187
ψ(H −1 (y))
besitzt die Verteilung PZ von Z die Dichte ψH mit
(3.34)
ψH (y) =
ψ(H −1 (y))
,
H ′ (H −1 (y))
Für a > 0 und b ∈ R ist insbesondere
(3.35)
1
H ′ (H −1 (y))
,
y ∈ R,
3.188
y ∈ R.
3.189
1
y−b
ψH (y) = ψ
,
a
a
y ∈ R,
die Dichte der Zufallsvariable H(X) = aX + b.
Die in Abschnitt 3.3.1 aufgeführten Eigenschaften einer Verteilungsfunktion
lassen sich in den in den Beispielen 3.13 - 3.16 vorgestellten Fällen leicht nachprüfen. Insbesondere ist in Beispiel 3.14 die Verteilungsfunktion FX rechtsstetig
und besitzt linksseitige Grenzwerte, ist aber nicht stetig 3.190. Hingegen sind die
Verteilungsfunktionen FX und FZ in den Beispielen 3.13, 3.15 und 3.16 stetig 3.191.
3.184
In diesem Beispiel wird erläutert, wie die Dichte einer Zufallsvariable X transformiert
wird, wenn X durch H(X) ersetzt wird, wobei H eine glatte“, evtl. nichtlineare Abbildung ist.
3.185Wenn die Identität H(H −1 (x)) = x, x ∈ R, ”auf beiden Seiten differenziert wird, folgt
′
H (H −1 (x))(H −1 )′ (x) = 1, x ∈ R, woraus (3.33) geschlossen werden kann.
3.186Wenn X : (Ω, F, P) → (Ω′ , F ′ ) eine Zufallsvariable und ϕ : (Ω′ , F ′ ) → (Ω′′ , F ′′ ) meßbar
ist, so ist auch ϕ ◦ X = ϕ(X) : (Ω, F, P) → (Ω′′ , F′′ ) eine Zufallsvariable.
3.187Wegen (3.33).
3.188Vgl. Abschnitt 3.3.1(vi). Wenn nur |H ′ (x)| =
6 0, x ∈ R, verlangt wird, ergibt sich
ψH (y) =
ψ(H −1 (y))
,
|H ′ (H −1 (y))|
y ∈ R,
als Dichte der Verteilung der Zufallsvariable Z = H(X).
3.189Nun ist H(x) = ax + b, x ∈ R, bzw. H −1 (y) = (y − b)/a, y ∈ R.
3.190In jedem a ∈ A besitzt F einen Sprung der Größe p .
a
X
3.191Allgemein ist F immer stetig, wenn P eine Dichte bzgl. des Lebesguemaßes auf R
X
X
hat. Umgekehrt gibt es allerdings auch Zufallsvariablen X mit einer stetigen Verteilungsfunktion
FX , deren Verteilung PX weder eine Dichte besitzt noch diskret ist.
28. Januar 2011
65
3.3.3. Simulation einer Folge von i.i.d. Zufallsvariablen mit einer
Dichte. 3.192 Es sei mit Hilfe eines Computers eine Folge X1 , X2 , . . . von unabhängigen, reellwertigen Zufallsvariablen, die die Verteilung µ = PX1 = PX2 =
. . . besitzen, zu simulieren. Hierbei sei angenommen, daß µ eine Dichte f > 0
besitzt. Damit ist die Verteilungsfunktion 3.193 3.194 Fµ : R → (0, 1) von µ stetig
und streng monoton steigend. Als Konsequenz besitzt Fµ eine stetige und streng
monoton steigende Umkehrfunktion Fµ−1 : (0, 1) → R.
Seien nun U1 , U2 , . . . unabhängige, (0, 1)-wertige, gleichverteilte 3.195 Zufallsvariablen. Dann sind Fµ−1 (U1 ), Fµ−1 (U2 ), . . . unabhängige, identisch verteilte Zufallsvariablen. Da
(3.36)
P[Fµ−1 (Uk ) ≤ y] =
3.196
=
3.197
P[Uk ≤ Fµ (y)]
Z Fµ (y)
dx = Fµ (y),
0
y ∈ R, k = 1, 2, . . . ,
besitzen diese Zufallsvariablen die Verteilungsfunktion Fµ und somit die Verteilung
µ 3.198 3.199 3.200.
Wie in Beispiel 3.4 sei jetzt x1 , x2 , . . . eine durch einen Computer erzeugte
unabhängige Folge in [0, 1] gleichverteilter“ Pseudozufallszahlen. Die Überlegungen
”
in (3.36) deuten an, daß durch die transformierten Zufallszahlen Fµ−1 (x1 ), Fµ−1 (x2 ),
. . . unabhängige Zufallsvariablen mit der Verteilung µ simuliert werden können.
3.192
Zufallsvariablen X1 , X2 , . . . , die alle die gleiche Verteilung besitzen, werden als identisch
verteilt bezeichnet. Wenn solche Zufallsvariablen auch unabhängig sind, wird die Notation i.i.d.
benutzt, vgl. Fußnote 3.86. Während die Simulation von diskreten i.i.d. Zufallsvariablen in Beispiel 3.4 diskutiert wird, sollen nun die zu simulierenden Zufallsvariablen eine Dichte bzgl. des
Lebesguemaßes auf R besitzen, vgl. Abschnitt 2.6.
3.193Die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist analog zur Verteilungsfunktion einer Zufallsvariable zu definieren. Insbesondere ist unter der Verteilungsfunktion Fµ eines
Wahrscheinlichkeitsmaßes µ die Verteilungsfunktion einer Zufallsvariable X mit der Verteilung
PX = µ zu verstehen.
Rx
3.194
Da f (y) > 0, y ∈ R, ist 0 < −∞
dy f (y) = Fµ (x) < 1, x ∈ R, vgl. Abschnitt 3.3.1(vi).
Die Werte 1 und 0 werden durch Fµ asymptotisch bei x → ±∞ angenommen, vgl. Abschnitt
3.3.1(iii).
3.195Die Zufallsvariablen U , U , . . . sind somit i.i.d. und in (0, 1) gleichverteilt.
1
2
3.196Da F streng monoton steigend ist.
µ
3.197
Vgl. Abschnitt 3.3.1(vi). Hier wird benutzt, daß die Gleichverteilung auf (0, 1) die Dichte
I(0,1) (.) hat.
3.198Da die Verteilung einer reellwertigen Zufallsvariablen durch ihre Verteilungsfunktion
eindeutig bestimmt ist.
3.199Die bisher in diesem Abschnitt 3.3.3 präsentierten Überlegungen zeigen, wie eine i.i.d.
Folge von Zufallsvariablen mit einer vorgegebenen, strikt positiven Dichte mit Hilfe einer i.i.d.
Folge von in (0, 1) gleichverteilten Zufallsvariablen konstruiert werden kann.
3.200
(3.36) zeigt, daß die Zufallsvariablen Fµ−1 (Uk ), k = 1, 2, . . . , die Verteilung µ und daher
die Dichte f haben. Dieses Resultat kann auch mit Hilfe von Beispiel 3.16 begründet werden.
Allerdings ist diese Begründung nur formal, da die in Beispiel 3.16 angegebenen Voraussetzungen
nicht erfüllt sind.
Zu dieser Begründung von (3.36) sei H = Fµ−1 und U eine in (0, 1) gleichverteilte Zufallsvariable. U hat somit die Dichte ψ = I(0,1) . Da nun H −1 = Fµ und
1
(vgl. (3.33))
(Fµ )′ (Fµ−1 (x))
1
, x ∈ (0, 1), (da (Fµ )′ = f )
=
f (Fµ−1 (x))
H ′ (x) = (Fµ−1 )′ (x) =
führen (3.34), Fµ−1 (Fµ (y)) = y, y ∈ R, und Fµ (.) ∈ (0, 1) zu
ψH (y) =
I(0,1) (Fµ (y))
ψ(H −1 (y))
=
= f (Fµ−1 (Fµ (y))) = f (y),
H ′ (H −1 (y))
(Fµ−1 )′ (Fµ (y))
d.h., H(U ) = Fµ−1 (U ) hat die Dichte f .
28. Januar 2011
y ∈ R,
66
Die vorgestellte Simulationsmethode wird aufgrund der Verwendung der Inversen der Verteilungsfunktion als Inversionsmethode bezeichnet 3.201.
3.3.4. Quantile reellwertiger Zufallsvariablen. 3.202 Sei X eine (R, B(R))wertige Zufallsvariable 3.203 und α ∈ (0, 1). Ein qα ∈ R mit
(3.37)
P[X ≤ qα ] ≥ α
| {z }
= FX (qα )
und P[X ≥ qα ] ≥ 1 − α
wird als α-Quantil von X bezeichnet 3.204. Ein 1/2-Quantil wird auch Median genannt.
Ein α-Quantil qα einer Zufallsvariable X ist dadurch gekennzeichnet, daß X mit
mindestens der Wahrscheinlichkeit α (1 − α) einen Wert ≤ qα (≥ qα ) annimmt 3.205.
Quantile sind i. allg. nicht eindeutig. Wenn z.B. P[X ≤ a] = α′ und P[X ∈
(a, b]] = 0 für −∞ < a < b < ∞, so sind alle q ∈ [a, b] offensichtlich α′ -Quantile von
X. Andererseits, wenn die Verteilungsfunktion FX von X streng monoton wachsend
ist 3.206, so sind alle Quantile eindeutig bestimmt.
Beispiel 3.17. Sei X eine exponentiell mit Parameter λ > 0 verteilte Zufallsvariable 3.207, d.h.,

0,
Z
FX (y) =
λ
0
y ≤ 0,
y
dx exp(−λx) = 1 − exp(−λy), y > 0.
Da FX in [0, ∞) streng monoton von 0 nach 1 anwächst, ist für jedes α ∈ (0, 1) das
α-Quantil qα von X eindeutig bestimmt und erfüllt α = 1 − exp(−λqα ), d.h.,
1 1
1
,
qα = − log(1 − α) = log
λ
λ
1−α
α ∈ (0, 1).
Beispiel 3.18. Sei X eine reellwertige Zufallsvariable und α ∈ (0, 1). Dann ist
(3.38)
qf
α := inf y ∈ R : P[X ≤ y] = FX (y) ≥ α
3.201Eine Diskussion dieser und anderer Verfahren zur Simulation von Zufallsvariablen findet
sich in [7], Abschnitt 10.2. Dort wird insbesondere auch eine allgemeinere Form der Inversionsmethode betrachtet, mit welcher die Simulation von reellwertigen Zufallsvariablen mit beliebiger
Verteilung möglich ist. Die in Beispiel 3.4 vorgestellte Methode zur Simulation diskreter, N-wertiger
Zufallsvariablen ist übrigens auch eine Variante jener allgemeinen Inversionsmethode.
3.202
Quantile werden in der Statistik, insbesondere auch zur Bestimmung von Konfidenzintervallen benötigt, vgl. z.B. Beispiel 4.7.
3.203Wie häufig in der Wahrscheinlichkeitstheorie findet der Wahrscheinlichkeitsraum (Ω, F,
P), auf dem eine Zufallsvariable X definiert ist, keine Beachtung.
3.204Auf eine analoge Weise definiert man α-Quantile von Wahrscheinlichkeitsmaßen.
3.205Ein Median wird von X mit mindestens der Wahrscheinlichkeit 1/2 unter-, bzw. überschritten.
3.206Dies ist z.B. der Fall, wenn X eine strikt positive Dichte hat.
3.207Vgl. Abschnitt 2.6.
28. Januar 2011
67
das kleinste α-Quantil von X
3.208 3.209
.
Beispiel 3.19 (Quantile einer diskreten Gleichverteilung 3.210). Für L ∈ Z und M ∈
N sei PL,M die Gleichverteilung auf {L, L + 1, . . . , L + M } 3.211. Zur Bestimmung
der α-Quantile von PL,M reicht es, den Fall L = 0 zu behandeln, denn qα ist genau
dann ein α-Quantil von P0,M auf {0, 1, . . . , M }, wenn qα + L ein α-Quantil von
PL,M auf {L, L + 1, . . . , L + M } ist 3.212.
Zunächst ist

0,
x < 0,

(3.39)
P0,M (−∞, x] = k/(M + 1), x ∈ [k − 1, k), k = 1, 2, . . . , M,


1,
x ≥ M,
und

1,
x ≤ 0,

(3.40) P0,M [x, ∞) = (M +1−k)/(M +1), x ∈ (k − 1, k], k = 1, 2, . . . , M,


0,
x > M.
Bei der Bestimmung der α-Quantile qα , α ∈ (0, 1), von P0,M müssen im folgenden je
nachdem, ob α ein Vielfaches von 1/(M + 1) ist oder nicht, zwei Fälle unterschieden
werden.
(a) Sei α = m/(M + 1) für ein m = 1, . . . , M . In dieser Situation gilt
(3.41a)
P0,M (−∞, q] ≥ α ⇐⇒ 3.213 q ≥ m − 1
und
M +1−m
P0,M [q, ∞) ≥ 1 − α =
M +1
(3.41b)
⇐⇒
3.214
q ≤ m.
3.208Zur Begründung betrachte man zunächst y > y > · · · > qf mit lim
f
α
n→∞ yn = q
α.
1
2
Dann gilt:
(∗1 )
P[X ≤ qf
α]
{z
}
|
= FX (f
qα )
= lim P[X ≤ yn ] (da FX rechtsstetig ist, vgl. Abschnitt 3.3.1(iv))
n→∞ |
{z
}
= FX (yn ) ≥ α
≥ α.
(da yn > qf
α und weil FX monoton steigend ist, vgl. Abschnitt 3.3.1(ii))
Nun sei y1 < y2 < · · · < qf
f
α mit limn→∞ yn = q
α . Es ergibt sich zuerst
−
P[X < qf
qα ) = lim P[X ≤ yn ] (vgl. Abschnitt 3.3.1(v))
α ] = FX (f
n→∞ |
{z
}
< α (da yn < qf
α und wegen (3.38))
≤α
und anschließend
(∗2 )
P[X ≥ qf
f
α ] = 1 − P[X < q
α ] ≥ 1 − α.
Wegen (∗1 ) und (∗2 ) ist (3.37) für qf
f
α erfüllt, d.h., q
α ist in der Tat ein α-Quantil. Aufgrund von
(3.38) ist es jetzt offensichtlich, daß qf
α das kleinste α-Quantil ist.
3.209
Da limy→−∞ FX (y) = 0, bzw. limy→∞ FX (y) = 1, vgl. Abschnitt 3.3.1(iii), ist nun
insbesondere auch die Existenz eines α-Quantils für alle α ∈ (0, 1) bewiesen.
3.210
In einer anderen Formulierung sind die Quantile einer Zufallsvariablen, die auf einer
endlichen Menge äquidistanter Punkte in R gleichverteilt ist, zu berechnen.
3.211Vgl. Abschnitt 2.2. Jeder der M + 1 Punkte in {L, L + 1, . . . , L + M } hat die gleiche
Wahrscheinlichkeit 1/(M + 1).
3.212Im folgenden wird P
0,M als ein Wahrscheinlichkeitsmaß auf R betrachtet, vgl. Bemerkung 2.8(i)
28. Januar 2011
68
Als Konsequenz von (3.41) zeigt sich, daß für α = m/(M + 1) jedes q ∈ [m − 1, m]
ein α-Quantil von P0,M ist 3.215.
(b) Sei 3.216 α(M + 1) ∈
/ {1, . . . , M } und seien 3.217 m′ = ⌈α(M + 1)⌉, bzw.
′
′
α = m /(M + 1). In diesem Fall ist
P0,M (−∞, q] ≥ α ⇐⇒ 3.218 P0,M (−∞, q] ≥ α′ ⇐⇒ 3.219 q ≥ m′ − 1
und
P0,M [q, ∞) ≥ 1 − α
⇐⇒
3.220
⇐⇒
3.222
⌈(1 − α)(M + 1)⌉
=
P0,M [q, ∞) ≥
M +1
q ≤ m′ − 1.
3.221
M + 2 − m′
M +1
Nun kann gefolgert werden, daß das α-Quantil eindeutig bestimmt und durch
m′ − 1 = ⌈α(M + 1)⌉ − 1 = ⌊α(M + 1)⌋ gegeben ist.
3.223
3.4. Stochastische Prozesse
Mit stochastischen oder zufälligen Prozessen können zeitliche Entwicklungen
modelliert werden, die vom Zufall beeinflußt sind“.
”
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, (Ω′ , F′ ) ein meßbarer Raum und 3.224
T ⊆ R. Für alle t ∈ T sei Xt : (Ω, F, P) → (Ω′ , F′ ) eine Zufallsvariable. Ein
stochastischer Prozeß X = (Xt )t∈T ergibt sich, wenn die Familie {Xt : t ∈ T}
dieser Zufallsvariablen zu einem Objekt zusammengefaßt wird. Der gemeinsame
Wertebereich (Ω′ , F′ ) der Zufallsvariablen Xt , t ∈ T, wird auch als Zustandsraum
von X bezeichnet.
Unter der Verteilung eines stochastischen Prozesses X = (Xt )t∈T versteht man
die gemeinsame Verteilung der Zufallsvariablen {Xt : t ∈ T} 3.225.
Beispiel 3.20 (Bernoulli-Prozeß 3.226). Zu p ∈ [0, 1] seien Yn , n ∈ N, unabhängige,
{−1, 1}-wertige Zufallsvariablen mit
P[Yn = 1] = p = 1 − P[Yn = −1],
(3.42)
n ∈ N.
Der stochastische Prozeß Y = (Yn )n∈N wird als Bernoulli-Prozeß (mit Parameter
p) bezeichnet. Mit einem derartigen Prozeß kann z.B. der zeitliche Verlauf eines
3.213Wegen (3.39).
3.214Wegen (3.40).
3.215Vgl. die Definition der Quantile in (3.37).
3.216α hat nicht die Gestalt α = m/(M + 1) für ein m = 1, . . . , M .
3.217⌈x⌉ = inf{n ∈ Z : n ≥ x}, x ∈ R. Für x ∈ R ist ⌈x⌉ die kleinste ganze Zahl, die ≥ x ist.
3.218Da P
[ . ] nur Werte der Form k/(M + 1), k = 0, 1, . . . , M + 1, annehmen kann, gilt
0,M
für ein A ∈ B(R) und y ∈ [0, 1] genau dann P0,M [A] ≥ y, wenn P0,M [A] ≥ ⌈y(M + 1)⌉/(M + 1).
Hierbei ist zu beachten, daß ⌈y(M + 1)⌉/(M + 1) die kleinste Zahl der Form k/(M + 1), k =
0, 1, . . . , M + 1, ist, welche größer oder gleich y ist.
3.219
Aufgrund der Überlegungen in (3.41a).
3.220Vgl. Fußnote 3.218.
3.221Da α(M + 1) ∈
/ {1, . . . , M }, gilt
⌈(1 − α)(M + 1)⌉
⌈M + 1 − α(M + 1)⌉
M + 1 − ⌈α(M + 1)⌉ + 1
M + 2 − m′
=
=
=
.
M +1
M +1
M +1
M +1
3.222
Aufgrund der Überlegungen in (3.41b).
3.223⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Für x ∈ R ist ⌊x⌋ die größte ganze Zahl, die ≤ x ist.
3.224In den konkreten Beispielen dieser Vorlesung ist üblicherweise T = N oder N oder Z.
0
3.225Die gemeinsame Verteilung einer Familie von Zufallsvariablen ist durch Terme wie in
(3.7) charakterisiert.
3.226Dieser Typ stochastischer Prozesse wurde bereits in Fußnote 3.26 angesprochen.
28. Januar 2011
69
beliebig oft unabhängig wiederholten Münzwurfs mit Erfolgswahrscheinlichkeit p
modelliert werden 3.227. Die Verteilung von Y wird durch die Größen 3.228
(3.43) P[Yk1 = ηk1 , . . . , Ykn = ηkn ] =
3.229
n
Y
P[Ykl = ηkl ]
l=1
=
3.230
=
3.231
n
Y
p(1+ηkl )/2 (1 − p)(1−ηkl )/2
l=1
Pn
p
l=1 (1+ηkl )/2
Pn
(1 − p)
l=1 (1−ηkl )/2
,
k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {−1, 1}, n ∈ N,
charakterisiert 3.232.
Beispiel 3.21 (Irrfahrt). Sei Y = (Yn )n∈N der Bernoulli-Prozeß zum Parameter
p ∈ [0, 1] aus Beispiel 3.20. Weiterhin sei
(
0,
k = 0,
(3.44)
Xk =
P
Xk−1 + Yk = kl=1 Yl , k = 1, 2, . . . .
Der stochastische Prozeß X = (Xk )k∈N0 wird als Irrfahrt (auf Z) bezeichnet. Für
p = 1/2 ergibt sich die symmetrische Irrfahrt.
Auf eine anschauliche Weise läßt sich die Irrfahrt X folgendermaßen beschreiben:
• X startet zum Zeitpunkt 0 im Ursprung 0.
• Zu jedem späteren Zeitpunkt k = 1, 2, . . . springt X mit Wahrscheinlichkeit p nach rechts, bzw. mit Wahrscheinlichkeit 1 − p nach links 3.233.
• Zwischen zwei aufeinanderfolgenden Zeitpunkten in N0 bewegt sich X
nicht.
Für p ∈ (0, 1) kann die Irrfahrt als ein einfaches Modell für ein eindimensiona”
les diffundierendes Teilchen“ betrachtet werden. In den Fällen p 6= 1/2 hat dieses
Teilchen eine Drift“.
”
3.4.1. Stationäre stochastische Prozesse. 3.234 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′ , F′ ) ein meßbarer Raum. Weiterhin sei Xn : (Ω, F, P) →
(Ω′ , F′ ), n ∈ N0 , eine Familie von Zufallsvariablen. Der stochastische Prozeß X =
(Xn )n∈N0 heißt stationär, wenn für alle m ∈ N und alle k1 , . . . , km ∈ N0 mit
3.227Vgl. hierzu Abschnitt 2.4.2. Im hier beschriebenen Modellierungsansatz kann −1 mit
Mißerfolg“ und 1 mit Erfolg“ identifiziert werden.
”
3.228(3.43) ergibt ”
sich aus (2.16), wenn berücksüchtigt wird, daß {−1, 1} der Wertebereich
der Zufallsvariablen Yn , n ∈ N, ist.
3.229Da die Zufallsvariablen Y , n ∈ N, unabhängig sind.
n
3.230
Man beachte, daß (1 + η)/2 = 1 und (1 − η)/2 = 0, falls η = 1, bzw. (1 + η)/2 = 0 und
(1 − η)/2 P
= 1, falls η = −1.
Pn
n
3.231
l=1 (1−
l=1 (1+ηkl )/2 ist die Anzahl der l’s mit ηkl = 1, d.h. die Anzahl der Erfolge;
ηkl )/2 ist die Anzahl der l’s mit ηkl = −1, d.h. die Anzahl der Mißerfolge.
3.232
Allgemein wird ein (Ω′ , F′ )-wertiger stochastischer Prozeß ζ = (ζt )t∈T als BernoulliProzeß bezeichnet, wenn die Zufallsvariablen ζt , t ∈ T, i.i.d. sind.
3.233Im Zeitpunkt n ∈ N beschreibt die Bernoulli-verteilte Zufallsvariable Y
0
n+1 , wie die
unmittelbar folgende Bewegung von X verläuft.
3.234Stationäre stochastische Prozesse bilden eine spezielle Klasse stochastischer Prozesse.
Andere solche Klassen sind Markovprozesse, Diffusionsprozesse, Martingale, . . . . Markovprozesse in diskreter Zeit mit diskretem Zustandsraum werden in den Abschnitten 8.2 und 8.3 etwas
ausführlicher behandelt.
28. Januar 2011
70
0 ≤ k1 < · · · < km < ∞ die gemeinsame Verteilung von Xk+k1 , . . . , Xk+km unabhängig von k ∈ N0 ist 3.235, d.h., wenn
(3.45) P Xk+k1 ∈ A′k1 , . . . , Xk+km ∈ A′km = P Xk1 ∈ A′k1 , . . . , Xkm ∈ A′km ,
0 ≤ k1 < · · · < km < ∞, A′k1 , . . . , A′km ∈ F′ , m ∈ N, k ∈ N0 .
Ein stochastischer Prozeß ist somit stationär, wenn sein Verhalten in einem end”
lichen Zeitintervall“ 3.236 nicht von der genauen Lage dieses Zeitintervalls auf der
Zeitachse abhängt.
Beispiel 3.22. Der in Beispiel 3.20 vorgestellte Bernoulli-Prozess Y = (Yn )n∈N
mit Parameter p ∈ [0, 1] ist stationär. In der Tat sind die Größen
P Yk+k1 = ηk1 , . . . , Yk+km = ηkm
=
3.237
p
Pm
r=1 (1+ηkr )/2
Pm
(1 − p)
r=1 (1−ηkr )/2
,
1 ≤ k1 < · · · < km < ∞, ηk1 , . . . , ηkm ∈ {−1, 1}, m ∈ N, k ∈ N0 ,
welche die endlich-dimensionalen Verteilungen von Y charakterisieren, von k unabhängig.
Beispiel 3.23. Die in Beispiel 3.21 beschriebene Irrfahrt X = (Xn )n∈N0 ist nicht
stationär, da z.B.
P[X0 = 0] = 1 6= 0 = P[X1 = 0]
gilt.
Beispiel 3.24. An einem festen äquatornahen Ort werde an jedem Tag k =
1, 2, . . . zur Mittagszeit die Temperatur und die Luftfeuchtigkeit gemessen. In einem vernünftigen Modell der Meßreihe scheint die Verwendung eines stationären
Prozesses Y = (Yn )n∈N sinnvoll zu sein 3.238.
3.5. Wahrscheinlichkeitsräume und Zufallsvariablen in der
Modellbildung
3.239
In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Modellen für vom Zufall beeinflußte Phänomene dient typischerweise ein allgemeiner
Wahrscheinlichkeitsraum (Ω, F, P) als ein Zufallsgenerator“, während Zufallsvaria”
blen Messungen oder Beobachtungen mit zufälligem Ausgang modellieren. (Ω, F, P)
muß so groß“ sein, daß alle benötigten Zufallsvariablen mit den von ihnen erwar”
teten Eigenschaften konstruiert werden können. Insbesondere muß die gemeinsame
Verteilung dieser Zufallsvariablen 3.240 den Wünschen und Vorstellungen des modellbildenden Mathematikers gerecht werden.
Beim Entwurf eines mathematischen Modells für einen physikalischen oder
technischen Vorgang ist nur die realistische Nachbildung“ der möglichen Beob”
achtungsergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende allgemeine
3.235Auf die gleiche Weise lassen sich natürlich auch stationäre stochastische Prozesse wie
(Xn )n∈N , (Xn )n∈Z oder (Xn )n∈Zd mit N, Z oder Zd , wobei d = 2, 3, . . . , als Indexmenge
charakterisieren.
3.236Dies ist (3.45) entsprechend in einem speziellen wahrscheinlichkeitstheoretischen Sinn
gemeint. Insbesondere wird die Invarianz des Verhaltens des Prozesses“ mit Hilfe des Begriffs der
”
Verteilung von Zufallsvariablen formuliert.
3.237Vgl. (3.43).
3.238Der in Beispiel 3.6 betrachtete Prozeß T = (T )
k k∈N , der die Tips eines eine spezielle
Strategie anwendenden Lotto-Spielers beschreibt, ist auch ein Beispiel eines stationären Prozesses.
3.239
In diesem Abschnitt 3.5 sind einige Bemerkungen zu allgemeinen Prinzipien der Struktur
mathematischer Modelle, die auf der Wahrscheinlichkeitstheorie aufbauen, zu finden.
3.240Vgl. (3.7). Durch ihre gemeinsame Verteilung werden die Abhängigkeiten“ zwischen
”
verschiedenen Zufallsvariablen Xλ , λ ∈ Λ, ausgedrückt.
28. Januar 2011
71
Wahrscheinlichkeitsraum (Ω, F, P) in den Hintergrund tritt, d.h. sein detaillierter
Aufbau irrelevant bleibt, solange nur die für die Modellbildung benutzten Zufallsvariablen die richtige Verteilung besitzen 3.241.
Beispiel 3.25. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen
Münze könnte anstelle des in Beispiel 2.5 vorgestellten Wahrscheinlichkeitsraums
(Ω, F, P) mit
Ω = {0, 1}N ,
e P)
e F,
e mit
ebenso (Ω,
F = Pot(Ω),
P[{ω}] = 2−N , ω ∈ Ω,
e = Pot(Ω),
e
F
e ω}] = 2−N , ω
e 3.242
P[{e
e ∈ Ω,
ei , i = 1, . . . , N ,
benutzt werden. Nun sind z.B. die {0, 1}-wertigen Zufallsvariablen X
mit 3.243
ω
e
e i = 1, . . . , N,
ei (e
e ∈ Ω,
X
ω ) = i−1 mod 2, ω
2
unabhängig 3.244 mit der Verteilung
eX
ei = 1] = P e [{1}], i = 1, . . . , N,
eX
ei = 0] = 1 = P[
PXei [{0}] = P[
Xi
2
ei das Ergebnis des i-ten Wurfs der Münze.
d.h., für i = 1, . . . , N modelliert X
e = {0, 1, . . . , 2N − 1},
Ω
Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrscheinlichkeitsräume meistens dann in Erscheinung, wenn letztendlich die Verteilungen
von Zufallsvariablen untersucht werden sollen 3.245. Wenn diese beispielsweise nur
endlich viele Werte annehmen können und wenn außerdem diese Werte alle die
gleiche Wahrscheinlichkeit besitzen 3.246, kann man mit den Laplaceschen Wahrscheinlichkeitsräumen 3.247 arbeiten 3.248 3.249.
3.241Diese Tatsache äußert sich u.a. durch die übliche Verwendung der Phrase Sei (Ω, F, P)
”
ein Wahrscheinlichkeitsraum . . . “ am Anfang vieler mathematischer Beiträge zur wahrscheinlichkeitstheoretischen Modellbildung. Auf die genaue Struktur von (Ω, F, P) wird dann in keiner Weise
eingegangen.
3.242Für beliebige A
e folgt P[
e∈F
e A]
e = |A|2
e −N aus der σ-Additivität von Wahrscheinlichkeitsmaßen, vgl. (2.2b).
3.243⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Damit gibt X
ei (e
ω ) die i-te Stelle in der Entwicklung
von ω
e im Dualsystem an.
3.244Vgl. (3.8).
3.245Für eine Zufallsvariable X : (Ω, F, P) → (Ω′ , F ′ ) ist die Verteilung P ein WahrscheinX
lichkeitsmaß auf dem meßbaren Raum (Ω′ , F′ ), vgl. Abschnitt 3.1 und insbesondere Fußnote 3.20.
Damit ist (Ω′ , F′ , PX ) ein Wahrscheinlichkeitsraum.
3.246
Man denke z.B. an den Wurf einer fairen Münze oder eines fairen Würfels.
3.247
Vgl. Abschnitt 2.2.
3.248
Insbesondere in der Statistik wird mit speziellen Wahrscheinlichkeitsräumen gearbeitet.
In klassischen Anwendungen ist dann
• Ω = M , wobei M höchstens abzählbar ist, und F = Pot(M ), bzw.
• Ω ∈ B(Rn ) für ein n ∈ N und F = B(Ω) = {A ∩ Ω : A ∈ B(Rn )}.
In (Ω, F) ist weiterhin eine Familie Pλ , λ ∈ Λ, von Wahrscheinlichkeitsmaßen, die geeignet sind, ein
zu untersuchendes zufallsbeeinflußtes Phänomen zu charakterisieren, gegeben. Mit der Struktur
(Ω, F, (Pλ )λ∈Λ ) liegt ein statistisches Modell vor, vgl. Abschnitte 1.1.4 und 4.1. Ziel statistischer
Überlegungen könnte nun die Identifizierung eines wahren“ Wahrscheinlichkeitsmaßes Pλw sein.
”
3.249
Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahrscheinlichkeitsraums auch durch dessen Brauchbarkeit für die mathematischen Überlegungen oder die
Beweise der Resultate bestimmt. Es ist dann zu prüfen, ob die Zufallsvariablen, mit denen gearbeitet werden muß, auf diesem Wahrscheinlichkeitsraums auch wirklich konstruiert werden können.
28. Januar 2011
KAPITEL 4
Schätztheorie
4.1
Bei vielen zufallsbeeinflußten Phänomenen im menschlichen Umfeld 4.2 wird
aufgrund von logischen Überlegungen schnell deutlich, daß ein gewisser Typ wahrscheinlichkeitstheoretischer Modelle, z.B. eine besondere Klasse von Zufallsvariablen
oder stochastischen Prozessen, zu einer mathematischen Beschreibung, d.h. Modellierung, jenes Phänomens in Frage kommt. Allerdings ist oft der genaue Wert gewisser Parameter, die innerhalb der möglichen Klasse von Modellen das am besten
geeignete charakterisieren, unklar.
Beispiel 4.1. Eine Reihe gleichartiger Produktionsstücke, die unabhängig voneinander mit einer Wahrscheinlichkeit p ∈ (0, 1) defekt sind, wird solange geprüft, bis
zu einem Zeitpunkt n ∈ N das erste fehlerhafte Produktionsstück beobachtet wird.
Ausgehend von dem beobachteten Zeitpunkt n ist die Fehlerwahrscheinlichkeit p
zu bestimmen, d.h. zu schätzen.
Aufgrund der Analogie zum ∞-fachen, unabhängigen Münzwurf mit Erfolgswahrscheinlichkeit p ∈ (0, 1) 4.3 ist die Annahme, daß die zufällige Größe n durch
eine geometrisch mit Parameter p verteilte Zufallsvariable modelliert werden kann,
naheliegend.
Das ursprüngliche Problem kann nun folgendermaßen umformuliert werden:
Eine geometrisch mit Parameter p ∈ (0, 1) verteilte Zufallsvariable X ist zu beobachten. Basierend auf dieser Beobachtung 4.4 ist anschließend p zu schätzen.
Die Statistik stellt vernünftige“ Methoden zur Lösung solcher Schätzprobleme
”
zur Verfügung, z.B. das Maximum-Likelihood-Prinzip 4.5 oder die Methode der Konfidenzbereiche 4.6. Diese und andere Methoden der Statistik werden in einem speziellen Arbeitsumfeld, einem statistischen Modell benutzt.
4.1. Statistische Modelle
Wenn ein Statistiker mathematische Schlüsse aus vorliegenden Daten 4.7 zieht,
arbeitet er üblicherweise im Rahmen eines statistischen Modells 4.8. Ein derartiges
statistisches Modell ist ein Tripel (X, G, (Pλ )λ∈Λ ), wobei (X, G) ein meßbarer Raum
und (Pλ )λ∈Λ eine Familie von Wahrscheinlichkeitsmaßen auf (X, G) ist. Für Λ ⊆ Rd ,
d = 1, 2, . . . , liegt ein parametrisches Modell vor 4.9. In dieser Vorlesung wird speziell
mit zwei Standardmodellen gearbeitet, d.h. mit
• diskreten Modellen, wenn X diskret und G = Pot(X) ist, bzw. mit
4.1
Dieses Kapitel ist ein Abstecher in die mathematische Statistik. Als Vorbereitung können
die Abschnitte 1.1.4 und 1.1.5 betrachtet werden.
4.2
Es könnte ein technisches Phänomen, ein Geschehnis in der Natur oder auch der
Wirtschafts- oder Arbeitswelt sein.
4.3Vgl. Beispiel 3.3.
4.4Insbesondere werden keine weiteren Informationen eingeholt.
4.5Vgl. Beispiel 1.9 und Abschnitt 4.2.
4.6Vgl. Beispiel 1.10 und Abschnitt 4.3.
4.7Diese Daten können beispielsweise Meßwerte oder Umfrageergebnisse sein.
4.8Ein einfaches statistisches Modell wurde in Abschnitt 1.1.4 vorgestellt.
4.9Für d = 1 ergeben sich eindimensionale oder einparametrige Modelle.
73
74
• kontinuierlichen Modellen, wenn X eine Borelsche Teilmenge eines Rn ist
und alle Wahrscheinlichkeitsmaße Pλ , λ ∈ Λ, eine Dichte bzgl. des Lebesguemaßes auf X besitzen.
Entscheidungsverfahren eines Statistikers, der mit einem statistischen Modell
(X, G, (Pλ )λ∈Λ ) arbeitet, werden durch Statistiken beschrieben. Hierbei wird als
Statistik jede meßbare Funktion S : (X, G) → (Σ, S) mit einem geeigneten meßbaren
Raum (Σ, S) bezeichnet.
Der Aufbau von wahrscheinlichkeitstheoretischen und statistischen Modellen,
weiterhin deren Interpretation und auch die Arbeit mit ihnen kann nun folgendermaßen zusammengefaßt werden:
Wahrscheinlichkeitstheoretische Modelle. Als ein Zufallsmechanismus im Hinter”
grund“ dient ein Wahrscheinlichkeitsraum (Ω, F, P) 4.10. Durch Zufallsvariablen X auf (Ω, F, P) werden zufällige, gemäß PX verteilte Beobachtungswerte modelliert. Bei der Untersuchung eines solchen wahrscheinlichkeitstheoretischen Modells versucht ein Wahrscheinlichkeitstheoretiker Eigenschaften
verschiedener gegebener Zufallsvariablen und Zusammenhänge zwischen diesen zu ermitteln.
Statistische Modelle. Eine Menge X beschreibt die möglichen Beobachtungswerte eines Experiments“ und eine σ-Algebra G in X die Menge der Ereig”
nisse, die mit diesen Beobachtungswerten verbunden sind 4.11. I. allg. gibt
es viele mögliche Wahrscheinlichkeitsmaße Pλ , λ ∈ Λ, auf (X, G), die zur
Beschreibung der Verteilung der Beobachtungswerte in Frage kommen 4.12.
Auf Beobachtungsdaten basierende Schlüsse 4.13 werden durch Statistiken auf
(X, G) repräsentiert. Beim Entwurf seiner Statistiken, d.h. seiner Entscheidungsschemata, nutzt ein Statistiker aus, daß unter verschiedenen Pλ ’s die
”
möglichen Beobachtungswerte unterschiedlich häufig“ 4.14 auftreten 4.15.
4.2. Maximum-Likelihood-Schätzer
b
Sei zunächst (X, G, (Pλ )λ∈Λ ) ein diskretes statistisches Modell. Als Schätzer λ
für den wahren“ Parameter λw ∈ Λ ist das nach einer Beobachtung plausibelste“
”
”
b ∈ Λ als
λ eine sinnvolle Wahl. Insbesondere wird für x ∈ X ein λ
MaximumLikelihood-Schätzer (zum Beobachtungswert x) bezeichnet, wenn
(4.1)
Pλb [{x}] = sup Pλ [{x}]
λ∈Λ
gilt 4.16. Die in (4.1) zu maximierende Funktion Λ ∋ λ → Pλ [{x}] =: Lx (λ) wird
Likelihood-Funktion (zum Beobachtungswert x) genannt.
4.10Vgl. Abschnitt 3.5 zur Wahl von (Ω, F, P). Im Prinzip könnte (Ω, F, P) so groß sein, daß
hiermit aller Zufall dieser Welt repräsentiert wird“.
4.11”Auf den Beobachtungswerten, bzw. den zugehörigen Ereignissen sollte ein Statistiker seine
Entscheidungen, d.h., seine Schätzungen, Vorhersagen, . . . aufbauen.
4.12Durch logische Überlegungen mit wahrscheinlichkeitstheoretischen Methoden kann evtl.
gefolgert werden, daß die Pλ , λ ∈ Λ, zu einer speziellen Klasse von Wahrscheinlichkeitsmaßen,
z.B. Normalverteilungen, geometrischen Verteilungen, . . . gehören.
4.13
Z.B. Schätzungen für den wahren“ Parameter λw ∈ Λ.
4.14D.h. mit unterschiedlichen”Wahrscheinlichkeiten.
4.15Beim Maximum-Likelihood-Schätzer, vgl. Abschnitt 4.2, wird z.B. das wahre“ λ durch
w
”
b
ein λ geschätzt, das sich unter allen λ ∈ Λ dadurch auszeichnet, daß unter dem zugehörigen
Wahrscheinlichkeitsmaß Pλ
b der vorliegende Beobachtungswert am wahrscheinlichsten“ ist.
”
4.16λ
b zeichnet sich dadurch aus, daß unter Pb der Beobachtungswert x maximale Wahrλ
scheinlichkeit hat.
28. Januar 2011
75
Beispiel 4.2. Die Anzahl der Anfragen an einer Telefonhotline innerhalb eines
Tages besitze eine Poissonverteilung mit einem Parameter λ > 0 4.17. Aus der
Anzahl k der eingegangenen Anrufe ist λ zu schätzen.
Es sei k > 0 angenommen 4.18. Die zu maximierende Likelihood-Funktion 4.19
b genau dann
ist (0, ∞) ∋ λ → λk exp(−λ)/k! = Lk (λ). Offensichtlich wird Lk in λ
maximal, wenn die Funktion (0, ∞) ∋ λ → log Lk (λ) = k log λ − λ − log k! =: ℓk (λ)
dort maximal wird. Da 4.20
k
− 1 = 0 ⇐⇒ λ = k,
λ
k
ℓ′′k (λ) = − 2 < 0, λ > 0,
λ
ℓ′k (λ) =
und
lim ℓk (λ) = lim ℓk (λ) = −∞,
λց0
λր∞
b = k ein globales Maximum der Likelihood-Funktion Lk , d.h., λ
b = k ist der
ist λ
Maximum-Likelihood-Schätzer für λ.
Wie in diesem Beispiel 4.2 ist es zur Bestimmung eines Maximum-LikelihoodSchätzers häufig zweckmäßig, anstelle der Likelihood-Funktion Lx ( . ) mit der LogLikelihood-Funktion ℓx ( . ) = log Lx ( . ) (zum Beobachtungswert x) zu arbeiten 4.21.
Für alle x ∈ X werden beide Funktionen für die gleichen Parameter maximal.
Sei nun (X, G, (Pλ )λ∈Λ ) ein kontinuierliches statistisches Modell 4.22. Somit ist
X ∈ B(Rn ) für ein n = 1, 2, . . . . Außerdem besitzt Pλ für alle λ ∈ Λ eine Dichte
ρλ bzgl. des Lebesguemaßes auf X 4.23. In diesem Fall ist ein Maximum-Likelihoodb zum Beobachtungswert x ∈ X als Lösung von
Schätzer λ
(4.2)
ρλb (x) = sup ρλ (x)
λ∈Λ
definiert. Analog zum diskreten Fall bezeichnet man nun für x ∈ X die Funktion Λ ∋
λ → ρλ (x) =: Lx (λ) als Likelihood-Funktion (zum Beobachtungswert x). Weiterhin
ist ℓx ( . ) = log Lx ( . ) die Log-Likelihood-Funktion (zum Beobachtungswert x).
Beispiel 4.3. Die Zufallsvariablen X1 , . . . , Xn seien unabhängig und exponentiell
mit Parameter λ > 0 verteilt 4.24. Ausgehend von einer Beobachtung (x1 , . . . , xn ) ∈
[0, ∞)n dieser Zufallsvariablen ist λ zu schätzen.
Als statistisches Modell kann man (X, G, (Pλ )λ>0 ) wählen, wobei X = [0, ∞)n ,
G = B([0, ∞)n ) und Pλ das Wahrscheinlichkeitsmaß auf ([0, ∞)n , B([0, ∞)n )) mit
4.17Aufgrund von Überlegungen wie sie in Abschnitt 2.7.1 vorgestellt werden ist diese Annahme gerechtfertigt, falls angenommen werden kann, daß die Telefonanrufe unabhängig voneinander
sind und gleichmäßig über den Tag verteilt eingehen.
4.18Aus wirtschaftlichen Gründen wird eine Telefonhotline, bei der es möglich ist, daß
während eines ganzen Tages niemand anruft, nicht existieren.
4.19Zum Beobachtungswert k.
4.20Eine ähnliche Argumentation ist in Beispiel 1.9, vgl. insbesondere Fußnote 1.71, bei der
Bestimmung eines anderen Maximum-Likelihood-Schätzers zu finden.
4.21In vielen Fällen ist L ( . ) ein Produkt relativ komplizierter Funktionen, während ℓ ( . )
x
x
eine Summe einfacherer Terme ist.
4.22Vgl. Abschnitt 4.1. Bisher wurden in diesem Abschnitt 4.2 nur diskrete statistische Modelle betrachtet.
4.23D.h., P [A] = R dx ρ (x), A ∈ B(Rn ), A ⊆ X.
λ
λ
A
4.24Die Zufallsvariablen X , . . . , X könnten bei einer Modellierung unabhängiger Wartezein
1
ten auftauchen, vgl. Abschnitt 2.6 und insbesondere Fußnote 2.116.
28. Januar 2011
76
Qn
der Dichte [0, ∞)n ∋ (y1 , . . . , yn ) → k=1 (λ exp(−λyk )) = λn exp(−λ(y1 +· · ·+yn ))
ist 4.25.
Die Likelihood-Funktion zum Beobachtungswert (x1 , . . . , xn ) ∈ [0, ∞)n ist daher (0, ∞) ∋ λ → λn exp(−λ(x1 + · · · + xn )). Für die Log-Likelihood-Funktion
(0, ∞) ∋ λ → n log λ − λ(x1 + · · · + xn ) = ℓx1 ,...,xn (λ) gilt nun 4.26:
n
n
,
ℓ′x1 ,...,xn (λ) = − (x1 + · · · + xn ) = 0 ⇐⇒ λ =
λ
x1 + · · · + xn
n
ℓ′′x1 ,...,xn (λ) = − 2 < 0, λ ∈ (0, ∞),
λ
lim ℓx1 ,...,xn (λ) = lim ℓx1 ,...,xn (λ) = −∞.
λց0
λ→∞
b = n/(x1 + · · · + xn ) der gesuchte Maximum-Likelihood-Schätzer für λ.
Somit ist λ
Beispiel 4.4 (Regressionsgerade). Der Ausgabewert y einer Meßapparatur sei linear abhängig von der Eingabe x und zusätzlich durch einen additiven Rauschterm
gestört 4.27. Um das System quantitativ genau zu charakterisieren 4.28, wird für n
Eingaben x1 , . . . , xn , von denen zumindest zwei verschieden sein sollen 4.29, der zugehörige Ausgabewert y1 , . . . , yn gemessen. Wenn der jeweilige Wert des Rauschens
durch z1 , . . . , zn beschrieben wird, ist somit 4.30
(4.3)
yk = α + βxk + zk ,
k = 1, . . . , n.
Anschließend sind die Systemparameter α, β ∈ R zu schätzen 4.31.
Im folgenden sei angenommen, daß für ein festes σ 2 > 0 die Rauschterme zk ,
k = 1, . . . , n, Realisierungen 4.32 von unabhängigen, N(0, σ 2 )-verteilten Zufallsvariablen Zk , k = 1, . . . , n, sind 4.33 4.34. Dann besitzt für k = 1, . . . , n die Zufallsvariable 4.35 Yk = α + βxk + Zk bzgl. des Lebesguemaßes auf R die Dichte 4.36
fk : R → [0, ∞) mit fk (y) = (2πσ 2 )−1/2 exp(−(y − α − βxk )2 /2σ 2 ), y ∈ R, und
somit die Verteilung N(α + βxk , σ 2 ). Aus der Unabhängigkeit der Zk , k = 1, . . . , n,
4.25Nach Abschnitt 3.2.2 ist die Dichte der gemeinsamen Verteilung von unabhängigen Zufallsvariablen mit einer Dichte bzgl. des Lebesguemaßes das Produkt der jeweiligen Dichten.
4.26Da exponentiell verteilte Zufallsvariablen f.s. strikt positiv sind, kann x + · · · + x > 0
n
1
angenommen werden.
4.27Unter Rauschen versteht man eine zufällige Größe Z, die symmetrisch um 0 verteilt ist
und somit keinen systematischen Anteil mehr enthält. Mathematisch präziser charakterisieren
kann man Z als eine Zufallsvariable mit Erwartungswert E[Z] = 0. Eine kurze Beschreibung des
Erwartungswerts einer Zufallsvariable findet sich in Beispiel 1.5. Detailliert wird dieser Begriff in
den Abschnitten 6.1 bis 6.3 eingeführt.
4.28
D.h. zur Bestimmung der Koeffizienten, die die lineare Abhängigkeit bestimmen. Damit
sind α und β in (4.3) gemeint.
4.29Durch diese Forderung wird letztendlich sichergestellt, daß (4.7) eine eindeutige Lösung
b hat. Hierzu beachte man insbesondere auch Fußnote 4.43.
(b
α, β)
4.30In (4.3) könnte x beispielsweise auch die Menge des auf einer landwirtschaftlich genutzk
ten Fläche Ak verteilten Düngers und yk der Ernteertrag sein. zk kann eine Schwankung des Ernteertrags repräsentieren, der auf unvorhersehbare Witterungs- oder Bodeneinflüsse zurückzuführen
ist. Damit die Ergebnisse vergleichbar sind, sollten die Größen |Ak |, k = 1, . . . , n, der verschiedenen
Flächen alle gleich groß sein.
4.31Nur wenn die Rauschterme z , . . . , z verschwinden und die angenommene Linearität des
n
1
Systems genau der Realität entspricht, können α und β exakt berechnet werden.
4.32Vgl. Fußnote 1.62.
4.33Es stellt sich heraus, vgl. (4.6), daß der genaue Wert von σ2 die Schätzung von α und β
nicht beeinflußt. Daher wird hier auch nicht versucht, ein unbekanntes σ2 zu schätzen.
4.34
Die Annahme, daß das Rauschen normalverteilt ist, kann in vielen Anwendungen mit dem
Zentralen Grenzwertsatz, vgl. Abschnitt 9.3, begründet werden.
4.35α, β und x , k = 1, . . . , n, sind nicht zufällig. Allerdings sind α und β unbekannt.
k
4.36Zur Bestimmung der Dichte von Y = α + βx + Z kann zurückgegriffen werden auf
k
k
k
(3.35), wobei a = 1, b = α + βxk und X = Zk zu wählen ist.
28. Januar 2011
77
folgt die Unabhängigkeit der Zufallsvariablen Yk , k = 1, . . . , n. Daher besitzt deren
gemeinsame Verteilung die Dichte 4.37
(4.4) fα,β (y) = fα,β (y1 , . . . , yn ) =
n
Y
fk (yk )
k=1
(yk − α − βxk )2
1
√
exp −
2σ 2
2πσ 2
k=1
n
1
1 X
2
=
(yk −α−βxk ) ,
exp − 2
2σ
(2πσ 2 )n/2
=
n
Y
y = (y1 , . . . , yn ) ∈ Rn ,
k=1
bzgl. des Lebesguemaßes auf Rn . fα,β ist die Dichte der n-dimensionalen Normalverteilung 4.38 N(µα,β , σ 2 ) mit dem Erwartungswert µα,β = (α + βx1 , . . . , α + βxn )
und der Kovarianzmatrix σ 2 = (σ 2 δk,l )k,l=1,...,n .
Somit kann als Basis der sich anschließenden Überlegungen das kontinuierliche
statistische Modell (Rn , B(Rn ), (N(µα,β , σ 2 ))α,β∈R ) betrachtet werden.
Aus (4.4) ergibt sich zum Beobachtungswert y = (y1 , . . . , yn ) ∈ Rn die LogLikelihood-Funktion 4.39
n
1 X
n
(4.5)
ℓy (α, β) = − 2
(yk − α − βxk )2 − log(2πσ 2 ), α, β ∈ R.
2σ
2
k=1
b für (α, β) folgt
Bei der Bestimmung eines Maximum-Likelihood-Schätzers 4.40 (b
α, β)
aus (4.5) zunächst
σ2
(4.6)
σ2
n
X
∂
ℓy (α, β) =
(yk − α − βxk ) = 0,
∂α
∂
ℓy (α, β) =
∂β
k=1
n
X
k=1
xk (yk − α − βxk ) = 0.
Wenn P
für v, w ∈ Rn die Bezeichnungen 4.41 M (v) = (1/n)
n
(1/n) k=1 vk wk eingeführt werden, führt (4.6) zu 4.42
M (y) − α − βM (x) = 0,
(4.7)
Pn
k=1
vk und M (vw) =
M (xy) − αM (x) − βM (xx) = 0.
Da
4.43
(4.8)
b mit
M (xx) − M (x)2 > 0 hat (4.7) eine eindeutige Lösung (b
α, β)
α
b=
M (xx)M (y) − M (xy)M (x)
,
M (xx) − M (x)2
M (xy) − M (x)M (y)
βb =
.
M (xx) − M (x)2
4.37Vgl. Beispiel 3.8.
4.38Die Notation N(ν, A) für ν ∈ Rn und eine symmetrische, positiv-semidefinite n×n-Matrix
A wird in Fußnote 3.115 erläutert.
4.39Da ℓ (α, β) = log f
n
y
α,β (y), α, β ∈ R, y = (y1 , . . . , yn ) ∈ R .
4.40Es ist zu beachten, daß der zu schätzende Parameter (α, β) in diesem Beispiel 4.4 in R2
variiert. Daher wird in (4.6) mit partiellen Ableitungen gearbeitet.
4.41M (v) ist der Mittelwert der Komponenten v , . . . , v von v.
n
1
4.42Wenn die beiden Gleichungen in (4.6) durch n dividiert und anschließend die Summationen ausgeführt werden, folgt (4.7).
4.43Man kann zeigen, daß
!2
n
n
n
1 X
1 X
1 X 2
=
xk −
xk
(xk − M (x))2 .
M (xx) − M (x)2 =
n k=1
n k=1
n k=1
Wenn mindestens zwei der xi , i = 1, . . . , n, verschieden sind, ist (xk − M (x))2 > 0 für zumindest
ein k = 1, . . . , n. Somit ist M (xx) − M (x)2 > 0.
28. Januar 2011
78
Weil der Graph der in (4.5) angegebenen quadratischen Log-Likelihood-Funktion ℓy
ein nach unten geöffnetes“ Paraboloid ist, zeigen die zu (4.8) führenden Überlegun”
b ein eindeutig bestimmtes Maximum von ℓy vorliegt.
gen, daß an der Stelle (b
α, β)
b
Somit ist (b
α, β) in der Tat ein Maximum-Likelihood-Schätzer für (α, β).
b nennt man Regressionsgerade 4.44. βb wird
Die Gerade R ∋ x → y = α
b + βx
auch als empirischer Regressionskoeffizient bezeichnet. Dieser Koeffizient gibt an,
ob und wie stark die Ausgabewerte y typischerweise“ ansteigen oder abnehmen,
”
wenn die Eingabewerte x erhöht werden 4.45.
In dem nächsten Beispiel wird sich der Maximum-Likelihood-Schätzer als unbefriedigend herausstellen. Allerdings bieten sich sinnvolle Alternativen an.
Beispiel 4.5 (Taxiproblem). In einer Stadt gebe es N Taxis mit den vom Straßenrand aus lesbaren Nummern 1, . . . , N . Ein Passant stehe eine gewisse Zeit lang an
einer viel befahrenen Straße und notiere sich die Nummern x1 , . . . , xk der vorbeifahrenden Taxis. Es sei angenommen, daß 4.46 x1 < · · · < xk und daß der Passant
ein mehrmals vorbeifahrendes Taxi nur einmal zählt. Unter der Annahme, daß im
Beobachtungszeitraum alle Taxis in Betrieb sind, ist die Anzahl N aller Taxis der
Stadt zu schätzen.
Als statistisches Modell kann 4.47 (Xk , Gk , (Pk;N )N ∈N, N ≥k ) mit
Xk = Menge der k-elementigen Teilmengen von N
4.48
,
Gk = Pot(Xk ),
Pk;N = Gleichverteilung auf der Menge der k-elementigen
Teilmengen von {1, . . . , N },
N ∈ N, N ≥ k
4.49
,
gewählt werden. Dieser Ansatz führt zur Likelihood-Funktion
(
4.50 N −1
, falls xk ≤ N,
L(k;x1 ,...,xk ) (N ) = 4.51 k
0,
falls xk > N,
4.44Diese Regressionsgerade ergibt sich offensichtlich auch, wenn mit der Methode der kleinsten Quadrate die Meßpunkte“ (xk , yk ), k = 1, . . . , n, durch eine Gerade approximiert werden.
P
”
2
In diesem Fall ist (α, β) ∈ R2 so zu bestimmen, daß Q(α, β) = n
k=1 (yk − α − βxk ) minimiert
wird. Die quadratische Funktion Q besitzt ein eindeutig bestimmtes Minimum, das ebenfalls als
die eindeutige Lösung (4.8) von (4.6) bestimmt ist.
4.45Da der Nenner M (xx) − M (x)2 > 0 ist, vgl. Fußnote 4.43, wird das Vorzeichen von β
b
durch den Zähler M (xy) − M (x)M (y) bestimmt. Weil
!
!
n
n
n
1 X
1 X
1X
M (xy) − M (x)M (y) =
x k yk −
xk
yl
(∗)
n k=1
n k=1
n l=1
=
n
1 X
(xk − M (x))(yk − M (y)),
n k=1
besitzen die Fluktuationen xk − M (x) der Eingabe und die Fluktuationen yk − M (y) der Ausgabe um den jeweiligen Mittelwert M (x), bzw. M (y) typischerweise“ genau dann das gleiche
”
Vorzeichen, wenn βb > 0 ist. Aufgrund von (∗) kann man M (xy) − M (x)M (y) auch als empirische Kovarianz der Datensequenzen x1 , . . . , xn und y1 , . . . , yn bezeichnen. Die Kovarianz
Cov(X,Y) = E[(X − E[X])(Y − E[Y ])] von zwei Zufallsvariablen X und Y wird in (6.23) eingeführt.
4.46Die Nummern der vorbeifahrenden Taxis werden in aufsteigender Reihenfolge notiert.
4.47Die Anzahl k der beobachteten Taxis wird nicht als eine Beobachtungsgröße, die zu den
statistischen Schlußfolgerungen herangezogen wird, betrachtet. Nach dem Ende der Beobachtungen steht k fest und wird dann vor dem eigentlichen Beginn der statistischen Überlegungen als
eine deterministische, d.h. nicht als zufällig zu behandelnde Zahl festgehalten.
4.48Beachte, daß X abzählbar ist.
k
4.49
Hier geht die Annahme ein, daß alle Taxis gleichmäßig im Stadtgebiet im Einsatz sind.
28. Januar 2011
79
zur Beobachtung von k Taxis mit den Nummern x1 < x2 < · · · < xk . Da für jedes
−1
xk die Funktion {xk , xk + 1, . . . } ∋ N → N
monoton fällt, ist 4.52
k
S1 = xk
der Maximum-Likelihood-Schätzer für die Gesamtzahl N der Taxis.
Der Maximum-Likelihood-Schätzer S1 ist in der vorliegenden Situation unbefriedigend, da offensichtlich immer S1 ≤ N gilt, d.h., die wahre Anzahl aller Taxis
wird systematisch unterschätzt. Mit heuristischen Argumenten können jedoch zwei
weitere, evtl. 4.53 plausiblere Schätzer vorgeschlagen werden.
• Aus Symmetriegründen“ sollte 4.54 x1 − 1 ≈ N − xk gelten. Als Schätzer
”
für N ergibt sich dann:
S2 = xk + x1 − 1.
• Es wäre auch sinnvoll, den Ansatz
N − xk ≈
4.55
k
1
1X
(xr − xr−1 − 1) = (xk − k),
k r=1
k
zu wählen. Diese Überlegung führt nun zu
xk − k
S3 = xk +
k
4.57
als Schätzer für N
.
4.56
4.50In der Menge {1, . . . , N } existieren N Teilmengen mit k Elementen.
k
4.51
Offensichtlich kann die Anzahl N aller Taxis nicht kleiner als die größte beobachtete
Nummer xk sein.
4.52Der Maximum-Likelihood-Schätzer für die Gesamtzahl aller Taxis ist somit die größte
der beobachteten Nummern.
4.53Dies ist natürlich Ansichtssache.
4.54Die Lücke bis zur kleinsten beobachteten Nummer x , bzw. die Lücke nach der größten
1
beobachteten Nummer xk sollten in etwa gleich sein. Diese Vermutung sollte zumindest im Mittel
”
bei vielen Beobachtungsreihen“ gelten.
4.55In der Summe ist x = 0 zu setzen. Die Größe der Lücke nach der größten beobachteten
0
Nummer xk wird nun durch die mittlere Größe aller anderen Lücken“ geschätzt. Auch diese
”
Vermutung sollte im Mittel bei vielen Beobachtungsreihen“ gelten.
”
4.56In der Praxis
kann S3 durch die am nächsten an xk + (xk − k)/k liegende ganze Zahl S3′
ersetzt werden.
4.57Die drei Schätzer S , S und S für die Gesamtzahl N der Taxis besitzen unterschiedliche
1
2
3
Eigenschaften, vgl. [10], Abschnitte 4.2 - 4.4. Zunächst kann nachgewiesen werden, daß S2 und
S3 erwartungstreue Schätzer sind, d.h., für i = 2, 3 gilt:
(∗)
Ek;N [Si ] :=
∞
X
l=k
l · Pk;N [Si = l] = N,
N ∈ N, N ≥ k.
Andererseits ist S1 nicht erwartungstreu, d.h., S1 erfüllt (∗) nicht. Im Mittel“ wird daher durch
”
die Schätzer S2 und S3 der wahre Wert von N gefunden. Hingegen wird durch S1 im Mittel“ ein
”
falscher Wert geschätzt.
Beim Vergleich von S2 und S3 zeigt sich, daß der mittlere quadratische Fehler für S3 kleiner
als für S2 ist, d.h.,
∞
X
Ek;N (S3 − N )2 =
(l − N )2 · Pk;N [S3 = l] < Ek;N (S2 − N )2 ,
l=k
N ∈ N, N ≥ k.
Der Schätzer S3 schwankt daher im quadratischen Mittel“ weniger als S2 um den wahren Wert
”
von N .
Zusammenfassend ist also der Schätzer S3 gegenüber den beiden anderen Schätzern zu bevorzugen.
Erwartungstreue und die Größe des mittleren quadratischen Fehlers sind spezielle Kriterien,
mit denen die Qualitäten verschiedener Schätzer verglichen werden können. Auf diese Begriffe
wird in den Abschnitten 6.6 und 6.6.1 eingegangen werden.
28. Januar 2011
80
4.3. Konfidenzbereiche
b eines Parameters λ gibt nur einen ersten Anhaltspunkt für den
Der Schätzwert λ
wahren“ Wert λw . Eine Präzisierung ergibt sich aus den Angabe eines möglichst
”
b ⊆ Λ, innerhalb dessen λw mit einer hinreichend großen Sicherkleinen Bereichs Λ
”
heit“ erwartet werden kann 4.58.
Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell und α ∈ (0, 1). Eine Abbildung
X ∋ x → C(x) ⊆ Λ heißt Konfidenzbereich zum Irrtumsniveau α, wenn 4.59
(4.9)
sup Pλ [{x ∈ X : C(x) 6∋ λ}] ≤ α.
λ∈Λ
Die Bedingung (4.9) bedeutet, daß unabhängig vom real vorliegenden Wert
von λ die Wahrscheinlichkeit unter Pλ , daß die Menge 4.60 C( . ) jenes λ nicht
enthält 4.61, höchstens gleich α ist. Man kann sagen: Mit einer Sicherheit 4.62 von
”
mindestens (1 − α) · 100% liegt (der wahre Parameter) λw in C( . )“.
Beispiel 4.6. Für C(x) = Λ, x ∈ X, gilt offensichtlich (4.9) für alle α ∈ (0, 1). Zu
einem Erkenntnisgewinn führt diese Wahl eines Konfidenzbereichs allerdings nicht.
Man sollte daher C( . ) immer möglichst klein“ wählen 4.63.
”
Beispiel 4.7. Eine exponentiell mit einem zu schätzenden Parameter λ > 0 verteilte Zufallsvariable 4.64 X werde beobachtet. Anschließend sei zu α ∈ (0, 1) ein
Konfidenzbereich zum Irrtumsniveau α zu bestimmen 4.65.
Als statistisches Modell kann ((0, ∞), B((0, ∞)), (Pλ )λ>0 ), gewählt werden, wobei Pλ die Exponentialverteilung zum Parameter λ ist.
Beim Entwurf eines Konfidenzbereichs soll zunächst gefordert werden, daß
große Parameter λ nicht übersehen werden sollten 4.66. Somit sollte ein Konfidenzintervall der Gestalt X = (0, ∞) ∋ x → [k(x), ∞) = C(x) mit einer geeigneten
Funktion k : (0, ∞) → (0, ∞) bestimmt werden.
Sei qα (λ) das α-Quantil von Pλ , d.h. 4.67,
(4.10)
qα (λ) = inf y ∈ (0, ∞) : Pλ [[0, y]] ≥ α
1
= − log(1 − α), α ∈ (0, 1), λ ∈ (0, ∞).
λ
Für festes α ∈ (0, 1) ist die Funktion qα : (0, ∞) → (0, ∞) stetig und streng monoton
fallend und hat somit eine stetige und streng monoton fallende Umkehrfunktion
4.58Durch die Angabe von Λ
b der i. allg. innerhalb von Λ
b gewinnt der Schätzer λ,
b liegt, an
Vertrauenswürdigkeit“. Die englische Bezeichnung hierfür ist confidence.
”
4.59Die Meßbarkeit von {x ∈ X : C(x) 6∋ λ}, d.h. die Zugehörigkeit zu G sei stillschweigend
vorausgesetzt.
4.60Der Bereich C(x) hängt vom Beobachtungswert x ab, ist also zufällig.
4.61D.h., daß ein Irrtum geschieht.
4.62Die Verwendung von Wahrscheinlichkeit“ anstelle von Sicherheit“ wäre irreführend, da
”
”
λ nicht zufällig, sondern fest, aber unbekannt ist.
4.63Mit möglichst klein“ können unterschiedliche Bedeutungen verbunden sein, je nachdem
”
welche Prioritäten bei der Suche nach dem wahren λw gesetzt werden. Man könnte einerseits
an einer objektiven“ Bestimmung von λw interessiert sein. Andererseits sind z.B. Situationen
”
vorstellbar, in denen ein Überschätzen, bzw. ein Unterschätzen von λw weitestgehend vermieden
werden sollte. Auf diese Problematik wird in Beispiel 4.7 eingegangen
4.64Vgl. Abschnitt 2.6. X könnte beispielsweise eine Wartezeit modellieren. Der mathematische Hintergrund solcher Anwendungen, d.h. die Gedächtnislosigkeit der Exponentialverteilung,
wird in Beispiel 8.3 erklärt.
4.65Die Bestimmung eines Maximum-Likelihood-Schätzers für λ wird in Beispiel 4.3 diskutiert.
4.66Kleine λ’s dürfen mit einer Fehlerquote von höchsten α · 100% unerkannt bleiben.
4.67Vgl. Beispiele 3.17 und 3.18. Im vorliegenden Fall ist insbesondere für alle α ∈ (0, 1) und
alle λ > 0 das α-Quantil qα (λ) von Pλ eindeutig bestimmt.
28. Januar 2011
81
κα : (0, ∞) → (0, ∞) mit
κα (q) = inf λ ∈ (0, ∞) : qα (λ) ≤ q
1
= − log(1 − α), α ∈ (0, 1), q ∈ (0, ∞).
q
(4.11)
Zu einer Beobachtung 4.68 x ∈ (0, ∞) und α ∈ (0, 1) sei nun Cα (x) = [κα (x), ∞).
Aus (4.10) und (4.11) folgt
λ ∈ Cα (x)
⇐⇒
λ ≥ κα (x)
⇐⇒
qα (λ) ≤ x,
α ∈ (0, 1), λ ∈ (0, ∞),
bzw.
(4.12) λ 6∈ Cα (x)
⇐⇒
⇐⇒
λ < κα (x)
qα (λ) > x,
α ∈ (0, 1), λ ∈ (0, ∞).
Daher gilt
Pλ [{x ∈ (0, ∞) : Cα (x) 6∋ λ}] =
4.69
=
4.70
=
4.71
Pλ [{x ∈ (0, ∞) : x < qα (λ)}]
Pλ [{x ∈ (0, ∞) : x ≤ qα (λ)}]
α,
α ∈ (0, 1), λ ∈ (0, ∞),
d.h., für α ∈ (0, 1) ist durch [0, ∞) ∋ x → Cα (x) = [κα (x), ∞) ein Konfidenzintervall zum Irrtumsniveau α gegeben.
Wenn der Parameter λ zuverlässig sowohl nach oben als auch nach unten abgegrenzt werden soll, ist es naheliegend, Konfidenzintervalle der Gestalt X = (0, ∞) ∋
x → [k(x), k(x)] = C ′ (x) mit geeigneten Funktionen k, k : (0, ∞) → (0, ∞) zu suchen. Als Konfidenzintervall zum Irrtumsniveau α kann in diesem Fall beispielsweise
Cα′ (x) = [κα/2 (x), κ1−(α/2) (x)],
x ∈ (0, ∞),
gewählt werden 4.72.
Da die Funktionen qα und κα streng monoton sind, können die in diesem Beispiel bestimmten Konfidenzintervalle Cα ( . ), bzw. Cα′ ( . ) nicht durch kleinere Konfidenzbereiche 4.73 in (0, ∞) ersetzt werden, d.h., diese Konfidenzbereiche können
als optimal bezeichnet werden.
Im nächsten Beispiel 4.8 wird gezeigt, wie auf eine zwar nicht optimale, allerdings einfache Weise Konfidenzintervalle bestimmt werden können.
4.68x ist als beobachtete Realisierung der Zufallsvariable X zu betrachten.
4.69Vgl. (4.12).
4.70Da P eine Dichte bzgl. des Lebesguemaßes hat.
λ
4.71
Da qα (λ) ein α-Quantil von Pλ ist.
4.72Weil die Funktionen q , κ : (0, ∞) → (0, ∞), α ∈ (0, 1), stetig und streng monoton
α
α
fallend sind und weil qα (κα (x)) = x, x ∈ (0, ∞), α ∈ (0, 1), gilt:
Pλ {x ∈ (0, ∞) : [κα/2 (x), κ1−(α/2) (x)] 6∋ λ}
= Pλ {x ∈ (0, ∞) : κα/2 (x) > λ oder κ1−(α/2) (x) < λ}
= Pλ {x ∈ (0, ∞) : x < qα/2 (λ) oder x > q1−(α/2) (λ)}
= Pλ [(0, qα/2 (λ))] + Pλ [(q1−(α/2) (λ), ∞)]
{z
} |
{z
}
|
= α/2
= 1 − Pλ [(0, q1−(α/2) (λ)]]
|
{z
}
= 1 − (α/2)
= α,
λ > 0.
4.73Seien D( . ) und D ′ ( . ) Konfidenzbereiche zum Irrtumsniveau α. Wenn D(x) $ D ′ (x)
für alle x ∈ (0, ∞) ist, kann man sagen, daß D( . ) kleiner als D ′ ( . ) ist.
28. Januar 2011
82
Beispiel 4.8. Ein zu einem Erfolg oder zu einem Mißerfolg führendes Experiment
wird unter gleichbleibenden Bedingungen N mal unabhängig wiederholt 4.74. Es ist
ein Konfidenzbereich für die Erfolgswahrscheinlichkeit p ∈ [0, 1] zu bestimmen.
Sei Z die Anzahl der Erfolge in den N Experimenten. Z ist binomialverteilt
mit den Parametern N und p 4.75. Man kann daher mit dem statistischen Modell
(X, Pot(X), (Pp )p∈[0,1] ), wobei X = {0, 1, . . . , N } und Pp = B(N, p), p ∈ [0, 1],
arbeiten. In dieser Situation ist Z die durch Z(x) = x, x ∈ X, gegebene Statistik.
Ausgangspunkt der folgenden Überlegungen ist die sich als Konsequenz der
Čebyšev’schen Ungleichung 4.76 ergebende Abschätzung
Z
1
1
, ǫ > 0, p ∈ [0, 1].
(4.13) Pp − p ≥ ǫ ≤ 4.77 2 p(1 − p) ≤ 4.78
N
ǫ N
4N ǫ2
Setzt man
"
x
−
C(x) =
N
r
x
1
,
+
4N α N
r
#
1
∩
4N α
4.79
[0, 1],
x ∈ X,
so folgt
Pp [{x ∈ X : C(x) 6∋ p}]
"(
)#
r
r
1
1
x
x
= Pp x ∈ X : p >
+
oder p <
−
N
4N α
N
4N α
)#
"(
r
x
1
= Pp x ∈ X : − p >
N
4N α
"
#
r
Z
1
= Pp − p >
≤ 4.80 α, p ∈ [0, 1],
N
4N α
d.h., {0, 1, . . . , N } = X ∋ x → C(x) ist ein Konfidenzintervall zum Irrtumsniveau α 4.81 4.82.
4.74M.a.W., man betrachtet den N -fachen, unabhängigen Münzwurf mit einer Erfolgswahrscheinlichkeit p ∈ [0, 1].
4.75Vgl. Abschnitt 1.1.2, insbesondere (1.5).
4.76Vgl. (1.10) und Satz 6.18.
4.77Vgl. (1.11).
4.78Da q(1 − q) ≤ 1/4, q ∈ [0, 1].
4.79Es sollte C(x) ⊆ [0, 1] sein.
√
4.80Zum Nachweis dieser Ungleichung setze ǫ = 1/ 4N α in (4.13).
4.81Zum Beobachtungswert x ist x/N der Maximum-Likelihood-Schätzer für p, vgl. Beispiel 1.9. Im vorliegenden Fall ist daher C(x) symmetrisch bzgl. des Maximum-LikelihoodSchätzers.
4.82
In Beispiel 4.7 wird sehr detailliert auf die spezielle Struktur des zugrundeliegenden statistischen Modells, insbesondere auf die Eigenschaften der Exponentialverteilung eingegangen.
Hingegen wird in Beispiel 4.8 im Rahmen einer speziellen Anwendung eine allgemeine, auf der
Čebyšev’schen Ungleichung basierende Methode zur Bestimmung von Konfidenzintervallen vorgestellt. Eine andere allgemeine Methode, die auf dem Zentralen Grenzwertsatz beruht, wird in
Abschnitt 9.5 anhand von zwei Beispielen erläutert.
28. Januar 2011
KAPITEL 5
Laplacesche Wahrscheinlichkeitsräume und
Kombinatorik
Sei (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum 5.1, d.h.,
1
|Ω| < ∞, F = Pot(Ω), P[{ω}] =
, ω ∈ Ω.
|Ω|
Zur genauen Bestimmung von
5.2
(5.1)
P[A] =
|A|
,
|Ω|
A ∈ F,
sind durch kombinatorische Überlegungen Abzählmethoden zu entwickeln.
Beispiel 5.1. 5.3 Es sei angenommen, daß vier faire Würfel unabhängig voneinander geworfen werden. Zur Modellierung dieses Geschehens kann mit dem Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω = {1, . . . , 6}4 5.4, F = Pot(Ω) und P die
Gleichverteilung auf (Ω, F) ist, gearbeitet werden.
Zu beantworten sei zunächst die Frage nach der Wahrscheinlichkeit p1 , daß alle
vier Augenzahlen verschieden sind. Aufgrund von (5.1) ist
|{ω ∈ Ω : ωi 6= ωj , falls i 6= j}|
|Ω|
Anzahl der Wurfsequenzen mit vier verschiedenen Augenzahlen
=
Anzahl aller Wurfsequenzen
6
·
5
·
4
·
3
5
= 5.5
=
.
64
18
p1 =
Die Würfel seien nun durchnumeriert 5.6. Bei der Klärung der Frage nach der
Wahrscheinlichkeit p2 , daß die geworfenen Augenzahlen streng monoton steigend
sind 5.7, führt (5.1) zu
|{ω ∈ Ω : ω1 < ω2 < ω3 < ω4 }|
|Ω|
Anzahl der 4-elementigen Teilmengen von {1, . . . , 6}
= 5.8
|Ω|
p2 =
5.1Vgl. Abschnitt 2.2.
5.2Für Terme wie auf der rechten Seite von (5.1) muß die Anzahl der Elemente in Ω, bzw. in
A bestimmt werden.
5.3Auf die Fragestellungen dieses Beispiels wird unter leicht veränderten Blickwinkeln auch
in den folgenden Beispielen 5.2, 5.3 und 5.7 eingegangen.
5.4Ω = {1, . . . , 6}4 = {(ω , . . . , ω ) : ω , . . . , ω = 1, 2, . . . , 6}. Für i = 1, . . . , 4 beschreibt ω
1
4
1
4
i
die Augenzahl des i-ten Würfels.
5.5Der Zähler ergibt sich folgendermaßen: Für den ersten Wurf gibt es 6 Möglichkeiten, danach
verbleiben für den zweiten Wurf noch 5 Möglichkeiten. Für den dritten und den vierten Wurf gibt
es schließlich noch 4, bzw. 3 Möglichkeiten.
5.6Bei der Lösung der ersten Frage war auch implizit angenommen worden, daß die Würfel
numeriert sind.
5.7D.h., daß ω < ω < ω < ω .
1
2
3
4
83
84
=
5.9
6
1
6!
5
4
= 4·
=
.
4
6
6 4! · 2!
432
Die Lösungen der Abzählprobleme in diesen und vielen anderen Beispielen der
elementaren Wahrscheinlichkeitstheorie 5.10 können häufig mit Hilfe der im folgenden Abschnitt 5.1 eingeführten sog. Urnenmodelle bestimmt werden.
5.1. Urnenmodelle
Einige Klassen von Abzählproblemen können gelöst werden durch die Bestimmung der Anzahl der Möglichkeiten, aus einer Urne, die N unterscheidbare Kugeln
enthält, n Kugeln zu ziehen. Hierbei entsprechen die unterschiedlichen Klassen der
Abzählprobleme verschiedenen Ziehungsstrategien. Es gibt:
• zwei
• zwei
-
Auswahlverfahren zum Ziehen der Kugeln:
gezogene Kugeln werden nach ihrer Ziehung zurückgelegt,
gezogene Kugeln werden nach ihrer Ziehung nicht zurückgelegt.
Anordnungsverfahren für die gezogenen Kugeln:
der Reihenfolge der gezogenen Kugeln wird Beachtung geschenkt 5.11,
der Reihenfolge der gezogenen Kugeln wird keine Beachtung geschenkt 5.12.
Damit ergeben sich vier verschiedene Ziehungsstrategien oder Urnenmodelle:
(U1 ) Ziehung mit Zurücklegen und mit Berücksichtigung der Reihenfolge der
gezogenen Kugeln,
(U2 ) Ziehung ohne Zurücklegen und mit Berücksichtigung der Reihenfolge der
gezogenen Kugeln,
(U3 ) Ziehung mit Zurücklegen und ohne Berücksichtigung der Reihenfolge der
gezogenen Kugeln,
(U4 ) Ziehung ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge der
gezogenen Kugeln.
Für k = 1, 2, 3, 4 sei Wk (N, n) die Menge der für (Uk ) möglichen Ziehungsresultate 5.13. Während W1 (N, n) und W3 (N, n) für alle N, n ∈ N definiert sind, muß für
W2 (N, n) und W4 (N, n) die Einschränkung n ≤ N berücksichtigt werden 5.14.
5.1.1. Darstellung der Mengen Wk (N, n), k = 1, . . . , 4. Die Elemente
von Wk (N, n), k = 1 . . . , 4, besitzen eine Darstellung w = (w1 , . . . , wn ), wobei
5.8Die Augenzahl des ersten Wurfs wird identifiziert mit dem kleinsten Element einer 4elementigen Teilmenge von {1, . . . , 6}, die Augenzahl des zweiten Wurfs mit dem zweitkleinsten
Element . . . .
5.9
Details zur Berechnung der Anzahl
r-elementiger Teilmengen einer N -elementigen Menge
mit Hilfe des Binomialkoeffizienten N
folgen in Abschnitt 5.1.2. Insbesondere wird in Beispiel 5.3
r
ein weiteres Mal auf die Bestimmung von p2 eingegangen.
5.10
Ein solches Beispiel wäre die Frage nach der Wahrscheinlichkeit, daß in einer Gruppe von
100 Personen zwei am gleichen Tag Geburtstag haben, vgl. Beispiel 5.5.
5.11Beispielsweise wird die Ziehung der Kugeln 1, 4, 2, 7, . . . (in dieser Reihenfolge) von der
Ziehung der Kugeln 1, 2, 7, 4, . . . (in dieser Reihenfolge) unterschieden.
5.12Beispielsweise wird die Ziehungssequenz 1, 4, 2, 7, . . . (in dieser Reihenfolge) mit der
Ziehungssequenz 1, 2, 7, 4, . . . (in dieser Reihenfolge) identifiziert.
5.13In Abschnitt 5.1.2 wird |W (N, n)|, k = 1, 2, 3, 4, N, n ∈ N, d.h., die Anzahl der jeweils
k
möglichen, unterschiedlichen Ziehungsresultate berechnet.
5.14Offensichtlich können mit den Ziehungsstrategien (U ) und (U ) höchstens N Kugeln der
2
4
Urne entnommen werden.
28. Januar 2011
85
wl ∈ {1, . . . , N } 5.15. Allerdings sind für die verschiedenen Urnenmodelle 5.16 evtl.
nicht alle w’s möglich 5.17, bzw. sind unterschiedliche w’s miteinander zu identifizieren 5.18. Insbesondere ergeben sich die folgenden Darstellungen:
• W1 (N, n) = (w1 , . . . , wn ) : wl ∈ {1, . . . , N }, l = 1, . . . , n 5.19.
• W2 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : wi 6= wj für i 6= j 5.20.
• W3 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : 1 ≤ w1 ≤ w2 ≤ · · · ≤ wn ≤ N . Da
die Reihenfolge der gezogenen Kugeln keine Rolle spielt, können o.E.d.A.
die Ziehungszeitpunkte“ 5.21 so umgeordnet werden, daß die wl ’s monoton
”
ansteigend sind.
• W4 (N, n) = (w1 , . . . , wn ) ∈ W1 (N, n) : 1 ≤ w1 < w2 < . . . < wn ≤ N .
Nach einer Umordnung der Ziehungszeitpunkte“ sind die wl ’s streng mo”
noton ansteigend 5.22.
5.1.2. Berechnung von |Wk (N, n)|, k = 1, . . . , 4.
5.23
Zu |W1 (N, n)|: Es gibt
• N Möglichkeiten für die Wahl der 1. Kugel,
• N Möglichkeiten für die Wahl der 2. Kugel 5.24,
• ...
• N Möglichkeiten für die Wahl der n. Kugel.
Somit ist
(5.2)
|W1 (N, n)| = N n ,
N, n ∈ N.
Zu |W2 (N, n)|: Es gibt
• N Möglichkeiten für die Wahl der 1. Kugel,
• N − 1 Möglichkeiten für die Wahl der 2. Kugel 5.25,
• ...
• N − (n − 1) Möglichkeiten für die Wahl der n. Kugel 5.26.
Somit ist
N!
, N, n ∈ N, n ≤ N.
(5.3) |W2 (N, n)| = N (N − 1) · · · (N − (n − 1)) =
(N − n)!
Beispiel 5.2 (Rückblick auf Beispiel 5.1). Die Würfe des Würfels können modelliert
werden, als Ziehungen aus einer Urne mit 6 Kugeln, wobei nach jeder Ziehung die
gezogene Kugel wieder zurückgelegt wird. Damit folgt
p1 =
|W2 (6, 4)|
|W1 (6, 4)|
5.27
5.28
=
5
6! 1
· 4 =
.
2! 6
18
5.15w gibt die Nummer der im l-ten Zeitpunkt gezogenen Kugel an. Offensichtlich kann in
l
den hier vorgestellten Überlegungen angenommen werden, daß die Kugeln in aufeinanderfolgenden
Zeitpunkten gezogen werden.
5.16
Damit sind die in Abschnitt 5.1 unter (U1 ) - (U4 ) aufgeführten Ziehungsvarianten gemeint.
5.17Beispielsweise, wenn die Kugeln nicht mehr zurückgelegt werden.
5.18Beispielsweise, wenn es auf die Reihenfolge der gezogenen Kugeln nicht ankommt.
5.19Für k 6= l kann w = w sein, da die Kugeln zurückgelegt werden.
k
l
5.20Man beachte, daß die Kugeln nicht zurückgelegt werden, und daher alle w ’s verschieden
l
sind.
5.21D.h. die Koordinaten von w = (w , . . . , w ).
n
1
5.22Da die Kugeln nicht zurückgelegt werden, ist Gleichkeit zwischen zwei w ’s ausgeschlossen.
l
5.23Nach der Bestimmung von |W (N, n)|, k = 1, . . . , 4, sind Lösungen für Abzählprobleme,
k
wie sie beispielsweise in Beispiel 5.1 angesprochen wurden, möglich.
5.24Man beachte, daß die 1. Kugel wieder zurückgelegt wird.
5.25Nach der Entnahme der 1. Kugel verbleiben noch N − 1 Kugeln in der Urne.
5.26Nach dem Ziehen von n − 1 Kugeln sind noch N − (n − 1) Kugeln in der Urne.
28. Januar 2011
86
Zu |W4 (N, n)| 5.29 : Jedes w = (w1 , . . . , wn ) ∈ W4 (N, n) repräsentiert alle w′ =
(w1′ , . . . , wn′ ) ∈ W2 (N, n), deren Komponenten w1′ , . . . , wn′ sich durch eine
Permutation, d.h. Umordnung aus den Komponenten w1 , . . . , wn von w ergeben 5.30. Für alle w ∈ W4 (N, n) gibt es n! derartige Permutationen 5.31 5.32.
Andererseits ergibt sich jedes w′ ∈ W2 (N, n) aus genau einem w ∈ W4 (N, n)
durch eine Permutation 5.33.
Folglich zerfällt W2 (N, n) in disjunkte Klassen mit jeweils n! Elementen.
Jede Klasse entspricht genau einem Element in W4 (N, n). Daher ist
|W2 (N, n)|
=
(5.4) |W4 (N, n)| =
n!
5.34
N!
1
·
=:
(N −n)! n!
N
,
n
N, n ∈ N, n ≤ N.
Beispiel 5.3 (Weiterer Rückblick auf Beispiel 5.1 5.35). Eine streng monoton ansteigende Folge von Augenzahlen bei 4 Würfen eines Würfels entspricht genau einer
in aufsteigender Reihenfolge angeordneten, 4-elementigen Teilmenge von {1, . . . , 6}.
Daher ist
|W4 (6, 4)| 5.36
1
6
5
p2 =
=
· 4 =
.
4
6
432
|W1 (6, 4)| 5.37
Zu |W3 (N, n)|: Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der Mengen W3 (. . . ) und W4 (. . . ) benutzt werden, wird deutlich, daß die Abbildung
W3 (N, n) ∋ (w1 , w2 , . . . , wn )
τ (N,n)
→
(w1 , w2 + 1, . . . , wn + n − 1) ∈ W4 (N + n − 1, n)
5.27Eine Wurfsequenz mit verschiedenen Augenzahlen entspricht einer Ziehungssequenz mit
verschiedenen gezogenen Kugeln, wobei in beiden Fällen die Reihenfolge beachtet wird.
5.28Jede Wurfsequenz entspricht genau einer Ziehungssequenz.
5.29Die etwas schwierigere Berechnung von |W (N, n)| wird zurückgestellt.
3
5.30In W (N, n) und W (N, n) werden Ziehungen ohne Zurücklegen betrachtet. In W (N, n)
2
4
4
wird allerdings die Reihenfolge nicht berücksichtigt, d.h., unterschiedliche Ziehungssequenzen aus
W2 (N, n) können in W4 (N, n) zusammenfallen.
5.31w kann an n Stellen in w ′ eingeordnet werden. Anschließend kann w noch an n − 1
1
2
Positionen gebracht werden. . . .
5.32
Jede Permutation entspricht einer Möglichkeit, aus n Objekten (Kugeln) ohne Zurücklegen n Objekte (Kugeln) mit Berücksichtigung der Reihenfolge auszuwählen. Folglich ist
Anzahl der Permutationen = |W2 (n, n)| =
n!
= n!,
0!
vgl. (5.3).
5.33Wenn die in Abschnitt 5.1.1 angegebenen Darstellungen der W (N, n), k = 1, . . . , 4,
k
′ in aufsteigender
benutzt werden, entsteht jenes w ∈ W4 (N, n) durch Anordnung von w1′ , . . . , wn
Reihenfolge.
5.34Vgl. (5.3).
5.35Vgl. auch Beispiel 5.2.
5.36|W (6, 4)| ist die Anzahl aller 4-elementigen Teilmengen von {1, . . . , 6}, d.h. aller Wurf4
sequenzen der Länge 4 mit streng monoton ansteigenden Augenzahlen.
5.37
|W1 (6, 4)| ist die Anzahl aller Wurfsequenzen der Länge 4.
28. Januar 2011
87
bijektiv ist
5.38
. Diese Beobachtung führt zu
N +n−1
,
|W3 (N, n)| = |W4 (N + n − 1, n)| = 5.39
n
(5.5)
N, n ∈ N.
5.2. Anwendungen von Urnenmodellen
Vor allem in Beispielen der elementaren Wahrscheinlichkeitstheorie, wenn mit
Laplaceschen Wahrscheinlichkeitsräumen gearbeitet wird, finden die verschiedenen
Urnenmodelle Anwendungen, um mit Hilfe von (5.1) Wahrscheinlichkeiten zu berechnen.
Beispiel 5.4 (Ein Problem zum Skatspiel 5.40). Beim Skatspiel kann es für den
Spieler, der das Spiel macht“ ein großer Vorteil sein, wenn zwei Buben im Skat
”
sind. Es ist die Frage nach der Wahrscheinlichkeit p3 dieses Ereignisses zu beantworten 5.41.
Bei der Berechnung von p3 ist zu beachten, daß
• der Skat sich durch Auswahl von 2 aus 32 Karten ergibt und daß es somit |W4 (32, 2)| Möglichkeiten für seine Zusammensetzung gibt. Da alle
Möglichkeiten die gleiche Wahrscheinlichkeit besitzen, kann mit einem Laplaceschen Wahrscheinlichkeitsraum mit |W4 (32, 2)| Elementen gearbeitet
werden.
• Da 4 Buben im Spiel enthalten sind, gibt es weiterhin |W4 (4, 2)| Möglichkeiten, einen Skat mit zwei Buben zusammenzustellen.
Folglich ist
4
3
|W4 (4, 2)|
2
= =
≈ 0, 012.
p3 =
32
|W4 (32, 2)|
248
2
Beispiel 5.5 (Zusammenfallen zweier Geburtstage). Es ist die Frage nach der
Wahrscheinlichkeit p4,M , daß in einer Gruppe von M Personen mindestens zwei am
gleichen Tag des Jahres Geburtstag haben, zu beantworten 5.42.
Der Fall M > 365 ist trivial. Dann ist p4,M = 1. Für M ≤ 365 gilt:
p4,M = 1 − P[alle M Personen haben an verschiedenen Tagen Geburtstag]
=
5.43
1−
Anzahl der Möglichkeiten für M verschiedene Geburtstage 5.44
Anzahl aller Möglichkeiten für die Geburtstage von M Personen 5.45
5.38Wenn w ≤ w
l
l+1 für ein Element w ∈ W3 (N, n), so gilt wl +l−1 < wl +l ≤ wl+1 +l. Durch
die Abbildung τ (N, n) wird Luft“ in die Sequenz (w1 , . . . , wn ) hineingeblasen“. Eine monoton
”
”
ansteigende Folge mit Werten in {1, . . . , N } wird daher in eine streng monoton ansteigende Folge
mit Werten in {1, . . . , N + n − 1} abgebildet. Die Umkehrabbildung von τ (N, n) ist durch
′
W4 (N + n − 1, n) ∋ (w1′ , w2′ , . . . , wn
)
τ (N,n)−1
→
′
(w1′ , w2′ − 1, . . . , wn
− n + 1) ∈ W3 (N, n)
gegeben.
5.39Vgl. (5.4).
5.40Es sei daran erinnert, daß 32 Karten (4 Asse, 4 Könige, . . . , 4 Buben,. . . , 4 Siebener)
im Spiel sind. Diese werden gut gemischt. 3 Spieler erhalten dann jeweils 10 Karten. 2 Karten
verbleiben im Skat und werden später demjenigen Spieler, der das Spiel macht“ zugeteilt.
”
5.41p ist unter der Voraussetzung, daß die Spieler die ihnen
jeweils zugeteilten Karten noch
3
nicht kennen, zu bestimmen.
5.42Es sei angenommen, daß für einen Geburtstag jeder Tag des Jahres gleichwahrscheinlich
ist, d.h., ein Phänomen wie die Häufung von Geburtstagen im November im Rheinland als Folge
des Karnevals sei nicht berücksichtigt. Außerdem seien Schaltjahre vernachlässigt.
28. Januar 2011
88
|W2 (365, M )|
|W1 (365, M )|
365!
= 1−
365M · (365 − M )!
365 365 − 1 365 − 2
365 − M + 1
= 1−
.
·
·
···
365
365
365
365
|
{z
}
2 M − 1
1 · 1−
··· 1 −
=1· 1−
365
365
365
= 1−
Da
0 < 1 − x ≤ exp(−x),
ergibt sich
x ∈ [0, 1),
k exp −
365
k=1
M−1 1 X
M (M − 1)
= 1 − exp −
.
k = 5.46 1 − exp −
365
730
p4,M ≥ 1 −
M−1
Y
k=1
Speziell für M = 100 ist somit p4,100 ≥ 0.9999987.
Beispiel 5.6 (Gewinnchancen beim Zahlenlotto). Beim Zahlenlotto 6 aus 49“
”
werden aus 49 numerierten Kugeln mit gleicher Wahrscheinlichkeit 6 Kugeln aus5.47
gewählt
. Für r = 1, . . . , 6, ist die Wahrscheinlichkeit p5,r , daß ein Tip mit 6
Zahlen genau r Richtige“ enthält, zu berechnen 5.48.
”
Ein Tip mit genau r Richtigen“ enthält auch 6 − r falsch getippte Zahlen.
”
Daher gilt:
p5,r = (Anzahl aller Ziehungsmöglichkeiten)−1
×(Anzahl aller Möglichkeiten, r der 6 gezogenen Zahlen zu tippen)
×(Anzahl aller Möglichkeiten, 6−r der 43 nicht gezogenen Zahlen zu tippen)
5.43Es wird nun so getan, als würden die M Personen in einer festen Reihenfolge nach Ihrem Geburtstag gefragt. Diese Reihenfolge wird im folgenden berücksichtigt. Da es insbesondere
|W1 (365, M )| Möglichkeiten gibt, die Geburtstage der M Personen festzulegen, wird letztendlich
in einem Laplaceschen Wahrscheinlichkeitsraum mit |W1 (365, M )| Elementen gearbeitet.
Wenn man sich auf den Standpunkt stellt, daß die Reihenfolge der Personen keine Rolle spielt,
könnte man versucht sein, mit einem Wahrscheinlichkeitsraum mit |W3 (365, M )| Elementen zu arbeiten. Allerdings haben dann die 1-elementigen Ereignisse unterschiedliche Wahrscheinlichkeiten,
d.h., die Arbeit mit einem Laplaceschen Wahrscheinlichkeitsraum wäre nun nicht möglich.
Beispielsweise haben für M = 2 die Ereignisse E1 = {(w1 , w1 )} und E2 = {(w1 , w2 )} mit
w1 < w2 die Wahrscheinlichkeiten P[E1 ] = 365−2 , bzw. P[E2 ] = 2 · 365−2 . Es ist zu beachten,
daß E1 eintritt, wenn beide Personen am Tag w1 Geburtstag haben und daß E2 eintritt, wenn
Person 1 am Tag w1 und Person 2 am Tag w2 oder wenn Person 1 am Tag w2 und Person 2 am
Tag w1 Geburtstag haben.
Auf die in dieser Fußnote 5.43 angesprochene Problematik wird im Rahmen einer Diskussion
von Beispiel 5.1 ausführlicher in Beispiel 5.7 eingegangen.
5.44
Dies ist die Anzahl der Möglichkeiten, unter Berücksichtigung der Reihenfolge aus einer
Menge von 365 Objekten (Tagen) M verschiedene auszuwählen.
5.45
Dies ist die Anzahl der Möglichkeiten, unter Berücksichtigung der Reihenfolge M mal
eines (einen) von 365 Objekten (Tagen) auszuwählen.
5.46Da PL l = L(L + 1)/2.
l=1
5.47Die Ziehung einer weiteren Kugel mit der Zusatzzahl bleibt hier unberücksichtigt.
5.48Da es insgesamt |W (49, 6)| gleichwahrscheinliche Möglichkeiten gibt, aus 49 Kugeln
4
6 auszuwählen, kann mit einem Laplaceschen Wahrscheinlichkeitsraum mit |W4 (49, 6)| Elementen
gearbeitet werden.
28. Januar 2011
89
6
43
·
|W4 (6, r)| · |W4 (43, 6 − r)|
r
6−r
.
=
=
49
|W4 (49, 6)|
6
Insbesondere ist
p5,3
p5,5
p5,6
6
43
·
3
3
=
≈ 1, 77 · 10−2 ,
49
6
6
43
·
5
1
=
≈ 1, 845 · 10−5 ,
49
6
6
43
·
1
6
0
= ≈ 7, 15 · 10−8 .
=
49
49
6
6
Das nächste Beispiel demonstriert insbesondere, daß auch bei elementaren Fragen, die üblicherweise auf Abzählprobleme reduziert und mit kombinatorischen Methoden behandelt werden, Sorgfalt geboten ist, und daß eine leichtfertige Argumentation schnell zu falschen Resultaten führt.
Beispiel 5.7 (Noch ein Rückblick auf Beispiel 5.1). Bei der Untersuchung des unabhängigen Wurfs von 4 Würfeln in Beispiel 5.1, bzw. in Beispiel 5.2 ergab sich 5.49
(5.6)
|W2 (6, 4)|
p1 = P1 alle Augenzahlen sind verschieden =
|W1 (6, 4)|
5.50
5.51
=
5
.
18
Bei den Berechnungen in (5.6) wird in dem Wahrscheinlichkeitsraum (W1 (6, 4),
Pot(W1 (6, 4)), P1 ) gearbeitet, wobei P1 die Gleichverteilung auf W1 (6, 4) ist 5.52.
Durch die Verwendung von W1 (. . . ) wird stillschweigend für die Würfe eine Reihenfolge festgelegt, die zunächst eigentlich nicht vorgegeben ist.
Es wäre daher naheliegend, wenn auf die Festlegung der Reihenfolge der Würfe
verzichtet werden soll, die Menge der möglichen Wurfkombinationen durch den
Stichprobenraum Ω = W3 (6, 4) 5.53 zu beschreiben. Wie die folgenden Überlegungen
zeigen, kann dieser Stichprobenraum zur Bestimmung von p1 in der Tat zwar verwendet, dann allerdings nicht mehr mit der Struktur eines Laplaceschen Wahrscheinlichkeitsraums versehen werden 5.54.
5.49Bei der Argumentation wurde der Wurf eines Würfels mit dem Ziehen einer Kugel aus
einer Urne mit 6 unterscheidbaren Kugeln identifiziert.
5.50Anzahl der Wurfsequenzen mit 4 verschiedenen Augenzahlen.
5.51Anzahl aller Wurfsequenzen.
5.52Damit ist (W (6, 4), Pot(W (6, 4)), P ) ein Laplacescher Wahrscheinlichkeitsraum.
1
1
1
5.53W (6, 4) ist die Menge der möglichen Resultate bei 4 Ziehungen mit Zurücklegen aus
3
einer Urne mit 6 Kugeln (4 Würfe eines Würfels) ohne Berücksichtigung der Reihenfolge, vgl.
Abschnitt 5.1.
5.54Die einzelnen Elemente ω ∈ Ω = W (6, 4) sind dann nicht gleichwahrscheinlich.
3
28. Januar 2011
90
Wenn zunächst auf Ω = W3 (6, 4) die Gleichverteilung P3 betrachtet werden
würde, ergäbe sich die (5.6) widersprechende Beziehung 5.55
6
5
|W4 (6, 4)| 5.56
4
= 5.57 =
.
(5.7)
p1 =
9
|W3 (6, 4)|
42
4
Zur Korrektur von (5.7) kann folgendermaßen vorgegangen werden.
(a) Es sei angenommen, daß irgendeine Möglichkeit einer Unterscheidung der
vier Würfel
besteht 5.58.
6
(b) Die 4 in Ω = W3 (6, 4) paarweise verschiedenen Zustände ((1, 2, 3, 4)),
((1, 2, 3, 5)), ((1, 2, 3, 6)), . . . 5.59, die vier Würfe mit unterschiedlichen Augenzahlen beschreiben, sind Makrozustände 5.60, die jeweils 4! verschiedene Mikrozustände aus W1 (6, 4) 5.61 zusammenfassen. Diese Mikrozustände
werden nur dann unterscheidbar, wenn die in (a) genannten feinen Unterschiede zwischen den Würfeln sichtbar werden 5.62.
Beispielsweise faßt der Makrozustand ((1, 2, 3, 5)) solche Mikrozustände wie (1, 2, 3, 5), (1, 2, 5, 3), (1, 5, 2, 3), . . . zusammen, die im mit der
Gleichverteilung P1 versehenen Raum W1 (6, 4) jeweils die Wahrscheinlichkeit 6−4 besitzen 5.63.
(c) Einem Makrozustand wie ((1, 2, 3, 5)) muß damit in Ω = W3 (6, 4) die
Wahrscheinlichkeit 5.64 P2 [{((1, 2, 3, 5))}] = 4! · 6−4 = 1/54 zugewiesen
werden 5.65.
(d) Alternativ kann nun p1 gemäß
X
(5.8)
P2 [{((ω1 , . . . , ω4 ))}]
p1 = 5.66
((w1 ,...,w4 ))∈W3 (6,4),
1≤w1 <w2 <w3 <w4 ≤6
=
5
6·5·4·3
6
=
· 4! · 6−4 =
4
6
18
4
5.55Es ist leicht einzusehen, daß die Annahme der Gleichverteilung auf W (6, 4) nicht
3
vernünftig ist. Beispielsweise ist es offensichtlich schwieriger“, d.h. unwahrscheinlicher“, vier
”
”
mal eine 1 zu werfen als je zwei mal eine 1, bzw. eine 2 zu erhalten. Im zweiten Fall gibt es mehr
Möglichkeiten, das beschriebene Resultat zu erzielen. Ein ähnliches Argument wird in Fußnote 5.43
vorgebracht.
5.56W (6, 4) ist die Teilmenge jener Elemente von W (6, 4), die 4 verschiedenen Augenzahlen
4
3
darstellen.
5.57
Vgl. (5.4) und (5.5).
5.58
Beispielsweise bestehen die Würfel vermutlich aus unterschiedlich vielen Atomen.
5.59Die Notation ω = ((w , w , w , w )) für Elemente in Ω = W (6, 4) soll daraufhinweisen,
1
2
3
4
3
daß die Reihenfolge der Würfe nicht berücksichtigt zu werden braucht, d.h., daß o.E.d.A. 1 ≤
w1 ≤ w2 ≤ w3 ≤ w4 ≤ 6 angenommen werden kann, vgl. Abschnitt 5.1.1.
5.60
In den Makrozuständen ist keine Reihenfolge der Würfel ausgezeichnet.
5.61In den Mikrozuständen ist eine Reihenfolge der Würfel ausgezeichnet. Die Menge aller
Mikrozustände wird durch W1 (6, 4) repräsentiert.
5.62
Makro- und Mikrozustände sind bildliche Begriffsbildungen zur Erleichterung der mathematischen Argumentation.
5.63Offensichtlich sind alle Mikrozustände gleichwahrscheinlich.
5.64Die Wahrscheinlichkeit eines Makrozustandes ist die Summe der Wahrscheinlichkeiten
der durch ihn zusammengefaßten, sich gegenseitig ausschließenden Mikrozustände.
5.65Das Wahrscheinlichkeitsmaß P unterscheidet sich von der Gleichverteilung P auf
2
3
−1
= 1/126, ω ∈ W3 (6, 4).
(W3 (6, 4), Pot(W3 (6, 4))). Z.B. gilt P3 [{ω}] = |W3 (6, 4)|−1 = 94
28. Januar 2011
91
berechnet werden, d.h., (5.6) wird bestätigt.
Solche ω ∈ W3 (6, 4), über die in (5.8) nicht summiert wird, besitzen i. allg.
verschiedene andere Wahrscheinlichkeiten unter P2 . Beispielsweise gilt:
P2 [{((1, 1, 1, 1))}] =
5.67
6−4 = 1/1296,
P2 [{((1, 2, 2, 4))}] =
5.68
4 · 3 · 6−4 = 1/108.
Die Überlegungen dieses Beispiels verdeutlichen wieder einmal, daß in konkreten Anwendungen immer unterschiedliche Wahrscheinlichkeitsräume benutzt werden können 5.69. Die Kunst besteht dann darin, einen für das jeweilige mathematische Vorhaben optimal geeigneten Wahrscheinlichkeitsraum herauszufinden 5.70.
5.3. Eine Alternative zu den Urnenmodellen
Die Urnenmodelle (U1 ) - (U4 ) 5.71 repräsentieren mathematische Modelle zur
Lösung gewisser Abzählprobleme. Diese Lösungen können auch mit Hilfe der in
diesem Abschnitt 5.3 vorgestellten und zu den Urnenmodellen äquivalenten Verteilungsmodelle gewonnen werden.
Gegeben seien N unterscheidbare Zellen, auf welche n Murmeln 5.72 verteilt
werden. Hierbei können die Zellen und die Murmeln folgende unterschiedliche physikalische Eigenschaften besitzen:
• Die Zellen erlauben nur Einfach-, bzw. auch Mehrfachbesetzungen.
• Die Murmeln sind unterscheidbar, bzw. nicht unterscheidbar.
Entsprechend den vier Urnenmodellen gibt es nun vier Verteilungsvarianten:
(V1 ) Für unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen erlaubt.
(V2 ) Für unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen nicht
erlaubt.
(V3 ) Für nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen
erlaubt.
(V4 ) Für nicht unterscheidbare Murmeln ist eine Mehrfachbelegung der Zellen
nicht erlaubt.
fk (N, n) der Verteilungsmöglichkeiten
Für k = 1, . . . , 4 entspricht die Menge W
unter (Vk ) genau der Menge Wk (N, n) der Ziehungsmöglichkeiten unter (Uk ). Dazu
muß
• jede der N Kugeln in den Urnenmodellen mit einer der N Zellen und
5.66Die Summation erstreckt sich über die Menge der 6 unterschiedlichen Elemente ω von
4
W3 (6, 4), deren Komponenten paarweise verschieden sind, und die damit durch W4 (6, 4) beschrieben werden können. Im Gegensatz zu den zu (5.7) führenden Überlegungen haben aufgrund von
(a) - (c) diese ω’s allerdings nicht mehr die Wahrscheinlichkeit |Ω3 (6, 4)|−1 sondern 4! · 6−4 .
5.67Dem Makrozustand ((1, 1, 1, 1)) entspricht nur der eine Mikrozustand (1, 1, 1, 1) in
W1 (6, 4), der die Wahrscheinlichkeit 6−4 besitzt.
5.68
Dem Makrozustand ((1, 2, 2, 4)) entsprechen 4 · 3 verschiedene Mikrozustände (1, 2, 2, 4),
(1, 2, 4, 2), (1, 4, 2, 2), . . . . Diese werden durch Wahl eines von 4 · 3 möglichen geordneten
Würfelpaaren für die Augenzahlen 1 und 4 bestimmt. Die zwei restlichen Würfel zeigen dann
automatisch 2.
5.69
Diese Beobachtung konnte auch in Beispiel 3.25 gemacht werden.
5.70
Zur Bestimmung von p1 ist offensichtlich die in Beispiel 5.1 vorgestellte Argumentation
leichter nachvollziehbar und daher besser geeignet als die zu (5.8) führenden Überlegungen (a) - (d)
dieses Beispiels.
5.71Vgl. Abschnitt 5.1
5.72Der Name Kugeln“ wird hier nicht gewählt, weil die nun benutzten Murmeln eine andere
”
mathematische Bedeutung als die Kugeln in den Urnenmodellen haben.
28. Januar 2011
92
• jede der n Ziehungen in den Urnenmodellen mit der Einordnung einer der
n Murmeln identifiziert werden 5.73.
Beispielsweise entspricht nun
• das Ziehen der r-ten Kugel bei der k-ten Ziehung dem Einlegen der k-ten
Murmel in die r-te Zelle,
• das k-fache Ziehen einer bestimmten Kugel dem Einlegen von k Murmeln
in die der Kugel zugeordnete Zelle,
• das Nichtberücksichtigen der Reihenfolge der gezogenen Kugeln der Verwendung ununterscheidbarer Murmeln,
• ...
Beispiel 5.8. Das Zahlenlotto 5.74 6 aus 49 läßt sich auch darstellen als die Verteilung von 6 ununterscheidbaren Murmeln auf 49 Zellen, wobei eine Mehrfachbelegung der Zellen verboten ist.
5.4. Multinomialverteilung und hypergeometrische Verteilung
Die in diesem Abschnitt 5.4 vorgestellten Wahrscheinlichkeitsmaße sind auf
gewissen endlichen Teilmengen von Zn , n ∈ N, konzentriert. In ihren klassischen
Anwendungen 5.75 dienen sie der Modellierung der Resultate von Ziehungen aus
einer Urne, die Gruppen von Kugeln verschiedener Farben enthält. Je nachdem,
ob man gezogene Kugeln wieder zurücklegt oder nicht, beschreibt die Multinomialverteilung, bzw. die hypergeometrische Verteilung die Verteilung der möglichen
Ziehungsresultate 5.76.
Die Multinomialverteilung
Pn Mn (N, q1 , . . . , qn ) ist durch Parameter n, N ∈ N
und q1 , . . . , qn ∈ [0, 1] mit k=1 qk = 1 gekennzeichnet. Mn (N, q1 , . . . , qn ) ist ein
diskretes Wahrscheinlichkeitsmaß 5.77 auf
n
X
(5.9) Ωn,N = ω = (ω1 , . . . , ωn ) : ωk ∈ {0, 1, ..., N }, k = 1, . . . , n;
ωk = N
k=1
mit
5.78
(5.10)
Mn (N, q1 , . . . , qn )[{ω}] =
Die Größen
N
N!
,
(5.11)
:=
l1 ! . . . ln !
l1 , . . . , ln
N!
q ω1 . . . qnωn ,
ω1 ! . . . ωn ! 1
l1 , . . . , ln = 0, 1, . . . , N,
n
X
k=1
werden als Multinomialkoeffizienten bezeichnet.
ω ∈ Ωn,N .
lk = N, n, N ∈ N,
5.73Insbesondere haben die Murmeln in den Verteilungsmodellen die Bedeutung der Ziehungszeitpunkte in den Urnenmodellen.
5.74Vgl. Beispiel 5.6.
5.75Auf diese klassischen“ Anwendungen wird in den Beispielen 5.10 und 5.12 eingegangen.
”
5.76Ein Ziehungsresultat“
gibt für alle Farben die jeweilige Anzahl gezogener Kugeln an.
”
Auf die Reihenfolge, in der die Kugeln mit den verschiedenen Farben gezogen werden, wird nicht
eingegangen.
5.77Vgl. Abschnitt 2.2.
5.78Da
N!
ωn
≥ 0, ω ∈ Ωn,N ,
q ω1 . . . q n
ω1 ! . . . ωn ! 1
und weil
X
N!
ωn
= (q1 + · · · + qn )N = 1,
q ω1 . . . q n
ω
!
.
. . ωn ! 1
1
ω∈Ω
n,N
ist durch (5.9) und (5.10) in der Tat ein Wahrscheinlichkeitsmaß definiert.
28. Januar 2011
93
Beispiel 5.9. Sei n = 2, q1 = q und q2 = 1 − q für ein q ∈ [0, 1]. Dann ist
N!
q k q N −k
k!(N −k)! 1 2
N k
=
q (1−q)N −k = B(N, q)[{k}],
k
5.79
M2 (N, q1 , q2 )[{(k, N −k)}] =
k = 0, 1, . . . , N.
Daher entspricht die Multinomialverteilung M2 (N, q, 1 − q) der Binomialverteilung
B(N, q) 5.80. I. allg. ist die Multinomialverteilung eine Verallgemeinerung der Binomialverteilung.
Beispiel 5.10. Gegeben sei eine Urne mit Kugeln der Farben 1, . . . , n. Für k =
1, . . . , n sei qk der Anteil der Kugeln der Farbe k 5.81. Aus der Urne wird N mal
eine Kugel gezogen und anschließend wieder zurückgelegt. Es gilt
wobei
P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] 5.82
! n
Y
N
N − l1
N − l1 − · · · − ln−2
lk
,
···
=
qk
l1
l2
ln−1
k=1
|
|
|
{z
}
{z
}
{z
}
| {z }
...
= (∗1 ) |= (∗2 ) = (∗3 )
{z
}
= (∗)
• (∗1 ) die Wahrscheinlichkeit, in einer fest vorgegebenen Reihenfolge für
k = 1, . . . , n jeweils lk Kugeln der Farbe k zu ziehen 5.83,
• (∗2 ) die Anzahl der Möglichkeiten, l1 Zeitpunkte für das Ziehen einer
Kugel der Farbe 1 aus der Menge aller N Ziehungszeitpunkte auszuwählen,
• (∗3 ) die Anzahl der Möglichkeiten, l2 Zeitpunkte für das Ziehen einer
Kugel der Farbe 2 aus der Menge der verbliebenen N − l1 Ziehungszeitpunkte 5.84 auszuwählen, . . . , ist 5.85.
Da
N!
(N − l1 )!
(N − l1 − · · · − ln−2 )!
·
···
l1 !(N − l1 )! l2 !(N − l1 − l2 )!
ln−1 !(N − (l1 + · · · + ln−1 ))!
{z
}
|
= ln
N!
=
,
l1 ! . . . ln !
(∗) =
ist
P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]
= Mn (N, q1 , . . . , qn )[{(l1 , . . . , ln )}],
l1 , . . . , ln = 0, 1, . . . , N,
n
X
lk = N,
k=1
5.79Offensichtlich ist Ω
2,N = {(k, N − k) : k = 0, 1, . . . , N }, N ∈ N.
5.80Sicherlich wäre die Folgerung M (N, q, 1 − q) = B(N, q) falsch, da M (N, q, 1 − q) auf
2
2
einer Teilmenge von Z2 und B(N, q) auf einer Teilmenge von Z konzentriert ist.
5.81Für die hier behandelte Fragestellung ist die Zahl der Kugeln in der Urne irrelevant.
Die Struktur des Urneninhalts wird durch die Anteile q1 , . . . , qn beschrieben. Für k = 1, . . . n
entspricht qk der Wahrscheinlichkeit, beim einmaligen Ziehen einer Kugel die Farbe k zu erhalten.
5.82Die Reihenfolge, in der die Kugeln gezogen werden, spielt keine Rolle.
5.83P[Farbe der 1. Kugel = α, Farbe der 2. Kugel = β, . . . ] = q q . . . .
α β
5.84In l Zeitpunkten war schon vorher die Farbe 1 gewählt worden.
1
5.85
Bei der Bestimmung der Anzahl der Möglichkeiten für die Wahl der Zeitpunkte zum Ziehen von Kugeln der verschiedenen Farben 1, 2, . . . wird iterativ das Urnenmodell (U4 ) angewandt.
28. Januar 2011
94
d.h., die Farbverteilung“ der gezogenen Kugeln ist durch die Multinomialverteilung
”
Mn (N, q1 , . . . , qn ) gegeben.
Die hypergeometrische Verteilung Hn,M (N, m1 , . . . , mn ) P
mit den Parametern n,
n
M, N ∈ N, m1 , . . . , mn ∈ {1, . . . , M } mit n, N ≤ M und k=1 mk = M ist ein
5.86
Wahrscheinlichkeitsmaß auf
m1 ,...,mn
(5.12) Ωn,N
= ω = (ω1 , . . . , ωn ) :
ωk ∈ {0, 1, . . . , mk }, k = 1, . . . , n;
mit
(5.13)
Hn,M (N, m1 , . . . , mn )[{(ω1 , . . . , ωn )}]
mn
m2
m1
...
ωn
ω2
ω1
,
=
M
N
Beispiel 5.11. Beim Zahlenlotto 6 aus 49“ ist
”
6
43
r
6−r
P[r Richtige] = 5.87
49
6
=
5.88
H2,49 (6, 6, 43)[{(r, 6 − r)}],
n
X
k=1
ωk = N ,
1 ,...,mn
.
ω ∈ Ωm
n,N
r = 0, 1, . . . , 6.
Beispiel 5.12. Eine naheliegende Modifikation von Beispiel 5.10 ergibt sich nach
der Forderung, die gezogenen Kugeln nicht wieder zurückzulegen 5.89.
Gegeben sei daher eine Urne mit M Kugeln der Farben 1, . . . , n. Für k =
1, . . . , n sei mk die Anzahl der Kugeln der Farbe k 5.90. Aus der Urne wird N mal
eine Kugel gezogen und anschließend nicht wieder zurückgelegt. Es gilt 5.91
P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]
5.92
= Hn,M (N, m1 , . . . , mn )[{(l1 , . . . , ln )}],
m1 ,...,mn
5.86Wenn die Stichprobenräume Ω
der Multinomialvertein,N , vgl. (5.9), und Ωn,N
lung Mn (N, q1 , . . . , qn ), bzw. der hypergeometrischen Verteilung Hn,M (N, m1 , . . . , mn ) verglichen werden, fällt auf, daß ω = (ω1 , . . . , ωn ) ∈ Ωn,N durch ωk ∈ {0, 1, ..., N }, k = 1, . . . , n, aber
1 ,...,mn
durch ωk ∈ {0, 1, . . . , mk }, k = 1, . . . , n, eingeschränkt werden.
ω ∈ Ωm
n,N
5.87Vgl. Beispiel 5.6.
5.88Vgl. (5.12) und (5.13).
5.89Anders als in Beispiel 5.10 ist es nun unerläßlich, für die verschiedenen Farben die Anzahl
der Kugeln mit dieser Farbe festzulegen.
5.90Offensichtlich muß M = Pn
k=1 mk gelten.
5.91Wenn die Kugeln nach dem Ziehen zurückgelegt werden würden, könnte
P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]
m1
mn = Mn N,
[{(l1 , . . . , ln )}],
,...,
M
M
n
X
l1 , . . . , ln ∈ {0, 1, . . . , N },
lk = N,
k=1
aus Beispiel 5.10 geschlossen werden. Es ist hierbei zu beachten, daß für alle k = 1, . . . , n durch
qk = mk /M der Anteil der Kugeln der Farbe k gegeben ist.
28. Januar 2011
95
lk ∈ {0, 1, . . . , mk }, k = 1, . . . , n,
n
X
lk = N.
k=1
Beispiel 5.13 (Multinomialapproximation der hypergeometrischen Verteilung).
5.93
Wenn von jeder Farbe, verglichen mit der Anzahl der Ziehungen sehr viele“
”
Kugeln in der Urne sind, spielt es keine wesentliche Rolle, ob nach ihrem Ziehen die
5.94
Kugeln wieder zurückgelegt werden oder nicht
. Daher wird in diesem Grenzfall
die hypergeometrische Verteilung durch die Multinomialverteilung approximiert.
Sei n, N ∈ N. Für α ∈ N sei außerdem
N ≤ Mα ∈ N
und
α
α
mα
1 , . . . , mn ∈ {0, 1, . . . , M } mit
Es gelte
5.95
n
X
α
mα
k = M .
k=1
lim M α = ∞
α→∞
und
lim mα
k = ∞,
k = 1, . . . , n,
mα
k
= qk ,
α→∞ M α
k = 1, . . . , n.
α→∞
wobei
5.96
lim
Dann folgt
α
lim Hn,M α (N, mα
1 , . . . , mn )[{(l1 , . . . , ln )}]
α→∞
= Mn (N, q1 , . . . , qn )[{(l1 , . . . , ln )}],
l1 , . . . , ln ∈ {0, 1, . . . , N },
n
X
lk = N.
k=1
5.92Wie in Beispiel 5.10 spielt die Reihenfolge, in der die Kugeln gezogen werden, keine Rolle.
5.93Vgl. [5], Satz (2.14).
5.94Beispielsweise ist es eine vernachlässigbare Änderung, wenn in einer Urne mit 106 Kugeln
nach dem Ziehen einer Kugel nicht mehr 105 von 106 Kugeln sondern nur noch 105 − 1 von
106 − 1 Kugeln eine gegebene Farbe f besitzen. Da 105 /106 ≈ (105 − 1)/(106 − 1) ändert sich die
Wahrscheinlichkeit, eine Kugel mit der Farbe f zu ziehen, nicht merklich.
5.95Man betrachtet eine Folge (Uα )
α∈N von Urnen, die asymptotisch bei α → ∞ für jede
Farbe eine unbeschränkt wachsende Anzahl von Kugeln enthalten.
5.96Bei α → ∞ stabilisiert“ sich für alle Farben k = 1, . . . , n der Anteil der Kugeln der
”
Farbe k bei qk .
28. Januar 2011
KAPITEL 6
Erwartungswert und Varianz
Beim üblichen Arbeiten mit zufälligen Meßwerten oder sonstigen, durch reelle
Zahlen beschriebenen Beobachtungen werden Mittelwerte“ zur Beschreibung ty”
”
pischer Beobachtungswerte“ verwendet. Dem Mittelwert“ entspricht in der Wahr”
scheinlichkeitstheorie der Erwartungswert. Die Genauigkeit der Approximation eines zufälligen Werts durch seinen Mittelwert kann durch seine mittlere quadrierte
”
Abweichung“ 6.1 von diesem Mittelwert charakterisiert werden. Diese Größe ent6.2
spricht der Varianz .
In den folgenden Abschnitten 6.1 - 6.5 sei (Ω, F, P) ein gegebener Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen, mit denen gearbeitet wird, definiert
sind. Diese Zufallsvariablen seien reellwertig 6.3.
6.1. Erwartungswert für diskrete Zufallsvariablen
Sei X eine diskrete Zufallsvariable, d.h., X(Ω) = {X(ω) : ω ∈ Ω} sei eine
höchstens abzählbare Teilmenge von R 6.4. Dann besitzt X einen (endlichen) Erwartungswert, wenn 6.5
X
|x| P[X = x] < ∞.
(6.1)
x∈X(Ω)
Wenn (6.1) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungswert von X durch
X
X
x PX [{x}].
x P[X = x] = 6.7
(6.2)
E[X] := 6.6
x∈X(Ω)
x∈X(Ω)
Der Erwartungswert E[X] ist damit eine gewichtete Summe über den Wertebereich
X(Ω) von X, wobei die möglichen Werte von X mit den Wahrscheinlichkeiten, mit
denen sie angenommen werden, gewichtet werden 6.8.
6.1Man betrachtet quadrierte Abweichungen, damit nicht beispielsweise große negative und
große positive Abweichungen nach ihrer Mittelung ein geringe Ungenauigkeit bei der Approximation durch den Mittelwert vortäuschen.
6.2Erwartungswert und Varianz einer reellwertigen Zufallsvariable X wurden erstmals in den
Beispielen 1.5 und 1.6 vorgestellt.
6.3D.h., ihr Wertebereich ist (R, B(R)).
6.4In diesem Abschnitt 6.1 wird der Erwartungswert nur für diskrete Zufallsvariablen definiert. Zur Erweiterung auf beliebige (R, B(R))-wertige Zufallsvariablen vgl. Abschnitt 6.3.
6.5In (6.1) muß P[X = x] wohldefiniert sein, d.h., {X = x} ∈ F, x ∈ X(Ω). Diese Eigenschaft
folgt aus {x} = [x, x] ∈ B(R), x ∈ R, vgl. Abschnitt 2.4.3, und aus der Meßbarkeit von X :
(Ω, F) → (R, B(R)), vgl. (3.1).
6.6Wenn (6.1) gilt, konvergiert diese Reihe absolut, d.h., E[X] ist wohldefiniert.
6.7
Die Verteilung PX einer Zufallsvariable X wird in Abschnitt 3.1 beschrieben.
6.8Offensichtlich hängt der Erwartungswert E[X] nur von der Verteilung P ab. Der WahrX
scheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesondere
die zweite Summe in (6.2) andeutet, nur indirekt in Erscheinung. Allgemeinere Überlegungen
in Abschnitt 3.5 zur Bedeutung von Wahrscheinlichkeitsräumen, auf denen zur Modellbildung
benutzte Zufallsvariablen X definiert sind, und deren Verteilung PX werden somit hier bestätigt.
97
98
Bemerkungen 6.1. (i) Für A ∈ F ist
(6.3)
E[IA ]
6.9
= 1 · P[IA = 1] + 0 · P[IA = 0] =
6.10
P[A].
(ii) Wenn 6.11 X ≥ 0, f.s., so ist die rechte Seite von (6.2) immer eindeutig
definiert 6.12, d.h., für positive, diskrete Zufallsvariablen X kann immer durch (6.2)
der Erwartungswert E[X] definiert werden. Allerdings kann in einem solchen Fall
E[X] = ∞ sein.
(iii) Da
X
X
(6.4)
y (P[X = −y] + P[X = y])
|x| P[X = x] = 6.13
y∈|X|(Ω)
x∈X(Ω)
=
6.14
X
y∈|X|(Ω)
=
6.15
E[|X|],
y P[X ∈ {−y, y}]
{z
}
|
= P[|X| = y]
ist eine Zufallsvariable X genau dann integrabel, wenn
6.16
E[|X|] < ∞ ist.
Beispiel 6.2. Die Zufallsvariable X habe eine Poissonverteilung mit Parameter
λ > 0. Dann folgt 6.17:
E[X] =
6.18
∞
X
k P[X = k] =
k=0
∞
X
k=0
k·
λk
exp(−λ)
k!
∞
X
λk−1
= λ.
= λ exp(−λ)
(k − 1)!
k=1
|
{z
}
∞
X
λn
= exp(λ)
=
n!
n=0
6.19
6.2. Eigenschaften der Abbildung X → E[X]
Seien X, Y , X1 , X2 , . . . , Y1 , Y2 , . . . diskrete, integrable, reellwertige Zufallsvariablen.
6.9I
A ist die Indikatorfunktion von A.
Man beachte, daß {IA = 1} = A.
6.11
Vgl. Abschnitt 3.2.5, insbesondere Fußnote 3.153.
6.12Höchstens abzählbare Summen positiver Zahlen sind immer wohldefiniert.
6.13|X|(Ω) ist der Wertebereich der Zufallsvariable |X|.
6.14
Für y ∈ |X|(Ω) mit y 6= 0 ist offensichtlich {|X| = y} = {X ∈ {−y, y}} = {X =
.
−y} ∪ {X = y}.
6.15
Vgl. die Definition des Erwartungswerts in (6.2).
6.16Da |X| eine positive Zufallsvariable ist, ist E[|X|] immer wohldefiniert, vgl. (ii).
6.17Da X ≥ 0, f.s., ist E[X] wohldefiniert, vgl. Bemerkung 6.1(ii).
6.18Vgl. (6.2).
6.19Die Abbildung X → E[X] ist auf einer Teilmenge A der Menge aller reellwertigen Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) definiert. A enthält zumindest die diskreten,
integrablen und die diskreten, positiven Zufallsvariablen, vgl. Abschnitt 6.1 und dort insbesondere
Bemerkung 6.1(ii). Weitere Zufallsvariablen in A werden in Abschnitt 6.3 vorgestellt.
6.10
28. Januar 2011
99
Monotonie des Erwartungswerts. Ist X ≤ Y , f.s.
6.20
, so folgt
6.21
:
E[X] ≤ E[Y ].
(6.5)
Linearität des Erwartungswerts. Die Zufallsvariablen 6.22 X+Y , bzw. cX mit c ∈ R
sind integrabel. Es gilt:
E[cX] =
6.23
cE[X],
E[X + Y ] =
6.24
E[X] + E[Y ].
(6.6a)
(6.6b)
6.20D.h., P[{ω ∈ Ω : X(ω) ≤ Y (ω)}] = 1.
6.21
Es gilt:
X
E[X] =
x∈X(Ω)
X
=
(∗)
x P[X = x]
| {z }
[
•
= P[X = x, Y ∈ Y (Ω)] = P
X
x∈X(Ω) y∈Y (Ω)
≤
X
X
x P[X = x, Y = y]
|
{z
}
(
= 0, wenn x > y,
≥ 0,
wenn x ≤ y,
y∈Y (Ω)
{X = x, Y = y}
(σ-Additivität von P)
(da X ≤ Y , f.s.)
y P[X = x, Y = y]
x∈X(Ω) y∈Y (Ω)
= E[Y ].
Im letzten Schritt wird hier die zu (∗) führende Argumentation in umgekehrter Reihenfolge wiederholt. Da die Zufallsvariablen X und Y integrabel sind, konvergieren alle Reihen absolut, d.h.,
es ist gerechtfertigt, hierbei die Summationsreihenfolge zu vertauschen.
6.22Die Zufallsvariable X + Y ist durch (X + Y )(ω) = X(ω) + Y (ω), ω ∈ Ω, definiert.
6.23O.E.d.A. sei c 6= 0. Da
X
X
(∗1 )
|z| P[cX = z] =
|cx| P[cX = cx] (man setze z = cx)
{z
}
|
z∈(cX)(Ω)
x∈X(Ω)
= P[X = x]
X
= |c|
|x| P[X = x],
x∈X(Ω)
folgt nun die Integrabilität von cX aus der Integrabilität von X. Wenn anschließend in (∗1 ) die
Betragsstriche weggelassen werden, ergibt sich (6.6a).
6.24
Wie X und Y ist auch X + Y eine Zufallsvariable. Diese ist diskret, da (X + Y )(Ω) =
X(Ω) + Y (Ω) = {z ∈ R : z = x + y, x ∈ X(Ω), y ∈ Y (Ω)}. Weiterhin ist
X
E[|X + Y |] =
|z| P[X + Y = z] (vgl. (6.4))
z∈(X+Y )(Ω)
X
=
X
z∈(X+Y )(Ω) x∈X(Ω),y∈Y (Ω)
x+y=z
(∗2 )
|x + y| P[X = x, Y = y]
•
S
da {X + Y = z} = x∈X(Ω),y∈Y (Ω),x+y=z {X = x, Y = y}
X
≤
(|x| + |y|) P[X = x, Y = y]
x∈X(Ω),y∈Y (Ω)
X
=
|x| P[X = x, Y = y] +
x∈X(Ω),y∈Y (Ω)
|
=
X
x∈X(Ω)
{z
...
|x| P[X = x] +
}
X
y∈Y (Ω)
X
x∈X(Ω),y∈Y (Ω)
|
=
X
y∈Y (Ω)
|y|
28. Januar 2011
{z
X
x∈X(Ω)
}
P[X = x, Y = y]
{z
}
|
= P[X ∈ X(Ω), Y = y] = P[Y = y]
|y| P[Y = y] < ∞
d.h., die Zufallsvariable X + Y ist integrabel.
|y| P[X = x, Y = y]
(da X und Y integrabel sind),
100
σ-Additivität des Erwartungswerts, bzw. Satz
von der monotonen Konvergenz. Sei
P∞
Xk ≥ 0, f.s., k ∈ N, und sei 6.25 X = n=1 Xn , f.s. In diesem Fall ist 6.26
(6.7)
E[X] =
∞
X
E[Xk ].
k=1
Wenn Yk ր Y , f.s., d.h., Y1 ≤ Y2 ≤ . . . , f.s., und
so folgt 6.28
(6.8)
6.27
limk→∞ Yk = Y , f.s.,
lim E[Yk ] = E[Y ].
k→∞
Die beiden Beziehungen (6.7) und (6.8) gehören zu jener Klasse mathematischer Resultate, die die Vertauschbarkeit von Limiten, unendlichen Summen
und Integralen beschreiben.
Produktregel für unabhängige Zufallsvariablen. Die Zufallsvariablen X und Y seien
unabhängig 6.29. Dann ist X · Y integrabel 6.30 mit
6.31
E[X · Y ] =
(6.9)
E[X] · E[Y ].
In den obigen Berechnungen gilt weiterhin überall Gleichheit, insbesondere auch in (∗2 ), wenn
die Betragsstriche weggelassen werden. Damit ist (6.6b) nachgewiesen.
6.25Diese Annahmen bedeuten, daß es ein Ω ∈ F mit P[Ω ] = 1 gibt, so daß X (ω) ≥ 0,
1
1
k
P
k ∈ N, und ∞
n=1 Xn (ω) = X(ω) für alle ω ∈ Ω1 .
6.26Vgl. [5], Satz (4.7)(c).
6.27Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) genau beschrieben.
6.28Zum Beweis von (6.8) mit Hilfe von (6.7) definiere man X := Y und X := Y − Y
n
n
1
1
n−1 ,
n = 2, 3, . . . . Bei den nun folgenden Argumenten spielt es keinePRolle, daß Y1 = X1 nicht unbedingt
f.s. nichtnegativ ist. Da Xk ≥ 0, f.s., k = 2, 3, . . . , und Yn = n
k=1 Xk , f.s., n ∈ N, gilt zunächst
(∗)
Y = lim
n→∞
n
X
k=1
Xk =
∞
X
Xk , f.s.
k=1
Mit
E[Y ] =
∞
X
E[Xk ]
(vgl. (∗) und (6.7))
k=1
= lim
n→∞
n
X
E[Xk ]
k=1
= lim E[Yn ]
n→∞
(da E[Xk ] ≥ 0, k = 2, 3, . . . )
(wegen (6.6b) und da Yn =
Pn
k=1
Xk )
ist dann (6.8) bewiesen.
6.29Vgl. (3.8).
6.30Die Integrabilität von X und Y war vorausgesetzt worden. Falls X und Y nicht unabhängig sind, braucht übrigens X · Y nicht integrabel zu sein. Wenn beispielsweise X integrabel
mit E[X 2 ] = ∞ ist, so ist X · Y mit Y = X nicht integrabel.
28. Januar 2011
101
Normierung des Erwartungswerts. Die Zufallsvariable X mit X = 1, f.s., ist integrabel mit
(6.10)
E[X] =
6.32
1.
6.3. Erwartungswert für allgemeine, reellwertige Zufallsvariablen
Zur Berechnung von E[X] wird eine allgemeine, nicht notwendigerweise diskrete, reellwertige Zufallsvariable X hinreichend fein diskretisiert“ und anschließend
”
die Asymptotik für die Erwartungswerte der Diskretisierungen untersucht.
Zu m ∈ N sei eine diskrete Zufallsvariable X(m) : (Ω, F, P) → (R, B(R))
gemäß 6.33
1
(6.11)
X(m) (ω) = ⌊mX(ω)⌋, ω ∈ Ω,
m
definiert. X(m) ist die größte diskrete Zufallsvariable, die Werte k/m, k ∈ Z, annimmt und kleiner oder höchstens gleich X ist.
Satz 6.3. (a) Bei n → ∞ konvergiert X(n) gegen die Zufallsvariable X. Insbesondere ist
1
(6.12)
X(n) ≤ X ≤ X(n) + , n ∈ N.
n
(b) Wenn X(n0 ) für ein n0 ∈ N integrabel 6.34 ist, so sind alle Zufallsvariablen
X(n) , n ∈ N, integrabel. In diesem Fall ist E[X(n) ], n ∈ N, eine Cauchy-Folge 6.35.
Satz 6.3 legt nahe, die Zufallsvariable X als integrabel zu bezeichnen, wenn für
ein n0 ∈ N ihre diskrete Approximation X(n0 ) integrabel ist. In diesem Fall kann
(6.13)
E[X] := lim E[X(n) ]
n→∞
definiert werden.
6.31Zunächst ist es offensichtlich, daß mit X und Y auch XY eine diskrete Zufallsvariable
ist. Da
X
X
X
|z| P[XY = z] =
|z|
P[X = x, Y = y]
z∈(XY )(Ω)
z∈(XY )(Ω)
x∈X(Ω),y∈Y (Ω)
xy=z
•
S
(da {XY = z} = x∈X(Ω),y∈Y (Ω),xy=z {X = x, Y = y})
X
=
|xy| P[X = x, Y = y]
{z
}
|
x∈X(Ω),y∈Y (Ω)
= P[X = x]P[Y = y] (X, Y unabhängig)
!
!
X
X
=
|x| P[X = x]
|y| P[Y = y]
x∈X(Ω)
y∈Y (Ω)
= E[|X|] · E[|Y |]
(vgl. (6.4)),
folgt die Integrabilität von XY aus der Integrabilität von X und Y . (6.9) ergibt sich nun, wenn
in diesen Berechnungen auf die Betragsstriche verzichtet wird.
6.32Man beachte, daß
E[|X|] = E[X] = 1 · P[X = 1] = 1.
| {z }
= P[Ω] = 1
6.33Für z ∈ R ist ⌊z⌋ = sup{n ∈ Z : n ≤ z}. ⌊z⌋ ist die größte ganze Zahl, die kleiner oder
höchstens gleich z ist.
6.34Vgl. (6.1) zur Definition der Integrabilität einer diskreten Zufallsvariable.
6.35Damit existiert lim
n→∞ E[X(n) ].
28. Januar 2011
102
Beweis (von Satz 6.3). (a) Die Abschätzungen (6.12) folgen aus
nX(n) (ω) =
6.36
⌊nX(ω)⌋ ≤ nX(ω)
≤ ⌊nX(ω)⌋ + 1 =
6.36
nX(n) (ω) + 1,
ω ∈ Ω,
nach Division durch n.
(b) Es sei nun angenommen, daß X(n0 ) integrabel ist, d.h., daß E[|X(n0 ) |] <
∞ 6.37. Aus (6.12) folgt für alle n ∈ N weiterhin
1
1
(6.14)
≤ |X(n0 ) | +
,
X(n) ≤ X ≤ X(n0 ) +
n0
n0
1
1
1
−X(n) ≤ −X + ≤ −X(n0 ) + ≤ |X(n0 ) | + ,
n
n
n
d.h.,
n1 1 o
|X(n) | ≤ |X(n0 ) | + max
, n ∈ N.
,
n n0
Wegen der Monotonie des Erwartungswerts für diskrete Zufallsvariablen 6.38 ist
somit
E[|X(n) |] ≤ E[|X(n0 ) |] + 1, n ∈ N.
Daher sind alle Zufallsvariablen X(n) , n ∈ N, integrabel 6.39.
Wenn n0 in (6.14) durch m ∈ N ersetzt wird, ergibt sich 6.40
1
E[X(n) ] ≤ E[X(m) ] + ,
m
1
−E[X(n) ] ≤ − E[X(m) ] + , n, m ∈ N,
n
woraus
n1 1 o
, n, m ∈ N,
|E[X(n) ] − E[X(m) ]| ≤ max ,
n m
folgt. Somit ist gezeigt, daß E[X(n) ], n ∈ N, eine Cauchy-Folge ist.
Bemerkungen 6.4. (i) Die in Abschnitt 6.2 zunächst nur für diskrete Zufallsvariablen vorgestellten Eigenschaften des Erwartungswerts gelten auch für allgemeine,
integrable Zufallsvariablen mit Werten in (R, B(R)) 6.41.
(ii) Den durch (6.5), (6.6) und (6.8) repräsentierten Eigenschaften 6.42 des Erwartungswerts, d.h., der reellwertigen Abbildung Y → E[Y ] auf dem Raum der reellwertigen, integrablen Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P)
d
entsprechen völlig
R analoge Eigenschaften des Integrals auf R , d.h., der reellwertigen
Abbildung f → Rd dx f (x) auf dem Raum der integrablen, reellwertigen Funktionen auf Rd 6.43. Insbesondere definiert die Zuordnung Y → E[Y ] ein abstraktes
6.36Vgl. (6.11).
6.37Vgl. Bemerkung 6.1(iii).
6.38Vgl. (6.5). Hier wird außerdem noch max{1/n, 1/n } ≤ 1, die Linearität des Erwartungs0
werts, vgl. (6.6), und die Normierung des Erwartungswerts, vgl. (6.10), berücksichtigt.
6.39Vgl. Bemerkung 6.1(iii).
6.40Insbesondere müssen hier noch die Monotonie, die Linearität und die Normierung des
Erwartungswerts für diskrete Zufallsvariablen, vgl. (6.5), (6.6) und (6.10), benutzt werden.
6.41Zum Beweis vgl. [5], Satz (4.11).
6.42Damit sind die Monotonie, die Linearität und die Gültigkeit des Satzes von der monotonen Konvergenz gemeint.
6.43Die durch (6.9) beschriebene Faktorisierungseigenschaft des Erwartungswerts eines
R R
Produkts unabhängiger
Zufallsvariablen entspricht der Beziehung Rd Rd dx dy f (x)g(y) =
R
R
Rd dx f (x) · Rd dy g(y).
Die Normierungseigenschaft (6.10) spiegelt die Tatsache wider, daß das zugrundeliegende
Maß P, bzgl. dessen bei der Bestimmung des Erwartungswerts auf (Ω, F) integriert“ wird, vgl.
”
(6.15), ein Wahrscheinlichkeitsmaß ist.
28. Januar 2011
103
Integral 6.44. Wenn in der Stochastik in komplexen Situationen Erwartungswerte
zu bearbeiten sind, wird somit die allgemeine Integrationstheorie oder Maßtheorie
benötigt.
(iii) Um die in (ii) genannte Integraleigenschaft des Erwartungswerts zu betonen, schreibt man für den Erwartungswert E[X] einer (R, B(R))-wertigen Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) auch
Z
Z
X dP.
X(ω) P(dω) =
(6.15)
E[X] =
Ω
Ω
Beispiel 6.5 (Erwartungswert für eine reellwertige Zufallsvariable mit Dichte). Die
Verteilung PX einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. des
Lebesguemaßes 6.45, d.h.,
Z
dx f (x), A ∈ B(R).
(6.16)
PX [A] = P[X ∈ A] =
A
Es sei vorausgesetzt, daß X integrabel ist. Dies ist genau dann der Fall, wenn
Z ∞
dx |x|f (x) < ∞.
(6.17)
6.46
−∞
Nun folgt
E[X] =
6.47
=
6.48
=
6.49
=
6.50
=
6.51
lim E[X(2n ) ]
n→∞
k
k
P X(2n ) = n
lim
n→∞
2n
2
k=−∞
|
{z
}
−n
= PX [k2 , (k + 1)2−n )
Z (k+1)2−n
∞
X
k
lim
dx f (x)
n→∞
2n k2−n
k=−∞
Z ∞
1
lim
dx n ⌊x2n ⌋f (x)
n→∞ −∞
2
| {z }
ր x, falls n → ∞
Z ∞
dx xf (x).
∞
X
−∞
6.44Ein abstraktes Integral ist eine monotone, lineare Abbildung auf einem Stoneschen Vek-
torverband, für die eine geeignete Variante des Satzes von der monotonen Konvergenz gilt, vgl.
[2], §39.
6.45Vgl. Abschnitt 2.6.
6.46Nach (6.1) und Satz 6.3 ist zu prüfen, ob
(∗)
∞>
∞ ∞
X
X
k k+1
k
|k|
k P X∈
,
=
P X(n0 ) =
n0
n0
n
n0 n0
k=−∞
k=−∞ 0
Z ∞
Z
∞
X |k| (k+1)/n0
|⌊xn0 ⌋|
dx
dx f (x) =
f (x)
=
n
n0
0
−∞
k/n0
k=−∞
für ein n0 ∈ N. Da
|x| −
1
|⌊xn⌋|
1
≤
≤ |x| + ,
n
n
n
gilt (∗) genau dann, wenn (6.17) zutrifft.
28. Januar 2011
x ∈ R, n ∈ N,
104
Beispiel 6.6. Für eine Rd -wertige Zufallsvariable X mit Dichte f und eine meßbare
Funktion H : (Rd , B(Rd )) → (R, B(R)) ist die Zufallsvariable H(X) integrabel,
wenn
Z
E[|H(X)|] =
Rd
In diesem Fall ist
E[H(X)] =
dx |H(x)|f (x) < ∞.
Z
dx H(x)f (x).
Rd
Für eine beliebige 6.52, positive Zufallsvariable kann man die Definition E[X] :=
∞ einführen, wenn E[X(n0 ) ] = ∞ 6.53 für ein n0 ∈ N 6.54.
Eine beliebige reellwertige Zufallsvariable X hat die Zerlegung X = X+ − X− ,
wobei X+ = max{X, 0} und X− = max{−X, 0} 6.55. Der Erwartungswert E[X] ist
nun auf eine eindeutige Weise durch 6.56
E[X] = E[X+ ] − E[X− ]
(6.18)
definierbar
6.57
, wenn nicht
E[X+ ] = E[X− ] = ∞.
(6.19)
Wenn (6.19) zutrifft, existiert der Erwartungswert von X nicht 6.58.
Eine Zufallsvariable X besitzt genau dann einen endlichen Erwartungswert
E[X], wenn E[X+ ] + E[X− ] = E[|X|] < ∞, d.h., wenn X integrabel ist 6.59.
6.47Vgl. (6.13). Die Folge X , k ∈ N, diskreter Approximationen für die Zufallsvariable X
(k)
wird in (6.11) beschrieben.
6.48
Hier wird die Definition des Erwartungswerts für diskrete Zufallsvariablen benutzt, vgl.
(6.2). Außerdem findet die Tatsache Verwendung, daß X(2n ) die Werte k2−n , k ∈ Z, jeweils
annimmt, wenn X ∈ [k2−n , (k + 1)2−n ), d.h. mit der Wahrscheinlichkeit P[X ∈ [k2−n , (k +
1)2−n )] = PX [[k2−n , (k + 1)2−n )].
6.49
Vgl. (6.16).
6.50
Beachte, daß k = ⌊x2n ⌋, falls x ∈ [k2−n , (k + 1)2−n ).
6.51
Nach dem Satz von der monotonen Konvergenz, vgl. (6.8). Beachte, daß dieser Satz auch
für allgemeine, reellwertige Zufallsvariablen gilt, vgl. Bemerkung 6.4(i). Er wird hier angewandt
auf die reellwertigen Zufallsvariablen Yn , n ∈ N, und Y auf (R, B(R), PX ) mit Yn (y) = ⌊y2n ⌋/2n ,
y ∈ R, n ∈ N, und Y (y) = y, y ∈ R.
Um die Anwendung des Satzes von der monotonen Konvergenz zu ermöglichen, wurde
übrigens die Folge (X(2n ) )n∈N zur Approximation von X benutzt. Bei Verwendung von (X(n) )n∈N
hätte sich die Tatsache, daß die Funktionen Yen , n ∈ N, mit Yen (y) = ⌊yn⌋/n, y ∈ R, nicht monoton
steigend gegen Y konvergieren, als Problem erwiesen.
6.52D.h. nicht notwendigerweise diskrete Zufallsvariable.
6.53In diesem Fall sollte also P
x∈X
(Ω) x P[X(n0 ) = x] = ∞ sein, vgl. Bemerkung 6.1(ii).
(n0 )
Diese Summe ist wohldefiniert, weil X(n) (Ω) ⊂ [0, ∞), n ∈ N.
P
6.54Nach Satz 6.3(b) ist dann E[X
(n) ] =
x∈X
(Ω) x P[X(n) = x] = ∞ für alle n ∈ N.
6.55X
(n)
und X− sind positive Zufallsvariablen.
6.56Bei der Definition (6.18) wird die allgemeine Gültigkeit der Linearität des Erwartungswerts, vgl. (6.6) und Bemerkung 6.4(i), zugrundegelegt.
6.57Die Werte ∞ oder −∞ für E[X] sind nun möglich.
6.58In Beispiel 6.11 wird (6.19) nachgewiesen für eine Zufallsvariable X mit einer CauchyVerteilung, d.h. mit einer Dichte f (x) = a/(π(a2 + x2 )), x ∈ R, für ein a > 0, vgl. Abschnitt 2.6.
6.59Angeregt durch Satz 6.3 wurde eine Zufallsvariable X als integrabel bezeichnet, wenn
eine diskrete Approximation X(n0 ) integrabel ist, d.h., wenn E[|X(n0 ) |] < ∞ für ein n0 ∈ N. Nun
impliziert (6.12), daß |X(n0 ) | − 1/n0 ≤ |X| ≤ |X(n0 ) | + 1/n0 , d.h., es gilt E[|X(n0 ) |] < ∞, genau
dann, wenn E[|X|] < ∞.
+
28. Januar 2011
105
6.4. Varianz und verwandte Begriffe
Neben dem Erwartungswert gibt es weitere Kenngrößen, die reellwertigen Zufallsvariablen, bzw. einer endlichen Menge X1 , . . . , Xn solcher Zufallsvariablen zu
deren Charakterisierung zugeordnet werden können 6.60.
Wenn für eine reellwertige Zufallsvariable X und ein r ∈ N die Zufallsvariable
X r einen Erwartungswert besitzt 6.61, so bezeichnet man E[X r ] als das r-te Moment
von X. Wenn |X|r integrabel 6.62 ist, d.h., wenn E[|X|r ] < ∞ ist, gilt E[X r ] ∈
(−∞, ∞), d.h., X besitzt eine endliches r-tes Moment.
Bemerkungen 6.7. (i) Wenn eine Zufallsvariable X für ein r ∈ N ein endliches
r-tes Moment besitzt, so besitzt X auch für alle s ∈ N mit s ≤ r ein endliches s-tes
Moment 6.63.
(ii) Für einen Wahrscheinlichkeitsraum (Ω, F, P) und p ∈ [1, ∞) ist Lp (Ω, F, P)
die Menge der reellwertigen Zufallsvariablen mit E[|X|p ] < ∞. Hierbei werden zwei
Zufallsvariablen X und X ′ mit X = X ′ , f.s., als identisch betrachtet. Ausgestattet
mit der Norm kXkp := E[|X|p ]1/p bildet Lp (Ω, F, P) einen Banachraum 6.64.
Der Raum L2 (Ω, F, P) ist sogar ein Hilbertraum, wenn durch hX, Y i := E[XY ],
X, Y ∈ L2 (Ω, F, P) ein Skalarprodukt definiert wird 6.65.
Für X ∈ L2 (Ω, F, P) bezeichnet
(6.20)
Var(X) := E[(X − E[X])2 ] =
6.66
E[X 2 ] − E[X]2
dieVarianz von X. Offensichtlich ist Var(X) ≥ 0, X ∈ L2 (Ω, F, P). Daher folgt aus
(6.20) die Cauchysche Ungleichung
(6.21)
E[X]2 ≤ E[X 2 ],
X ∈ L2 (Ω, F, P).
Weiterhin ist Var(X) = 0, genau dann, wenn X = E[X], f.s., d.h., wenn X deterministisch ist.
(6.22)
σX :=
p
Var(X)
heißt Standardabweichung oder Streuung von X. Sowohl Var(X) als auch σX charakterisieren die Größe der Abweichungen“ der Zufallsvariablen X von ihrem
”
Erwartungswert E[X] 6.67. Im Gegensatz zu Var(X) ist σX von der “gleichen
6.60Eine eindeutige Charakterisierung von X , . . . , X ist mit diese Kenngrößen nicht
n
1
möglich. Allerdings können sie über gewisse Eigenschaften jener Zufallsvariablen informieren.
6.61Die Existenz des Erwartungswerts einer Zufallsvariable wird am Ende von Abschnitt 6.3
diskutiert.
6.62Die Integrabilität einer Zufallsvariable wird insbesondere am Anfang von Abschnitt 6.1,
unmittelbar nach Satz 6.3, bzw. am Ende von Abschnitt 6.3 erläutert.
6.63Es gilt |X|s ≤ 1 + |X|r , 1 ≤ s ≤ r < ∞, d.h., die Monotonie des Erwartungswerts, vgl.
(6.5), die Linearität des Erwartungswerts, vgl. (6.6), und die Normierung des Erwartungswerts,
vgl. (6.10), ergeben
E[|X|s ] ≤ 1 + E[|X|r ] < ∞, 1 ≤ s ≤ r < ∞.
6.64Ein Banachraum ist ein vollständiger, normierter Vektorraum.
6.65Allgemein ist ein Hilbertraum H ein mit einem Skalarprodukt h., .i versehener Banach-
raum, dessen Norm k.k durch kxk =
6.66Diese Gleichheit folgt aus
p
hx, xi, x ∈ H, gegeben ist.
E[(X − E[X])2 ] = E[X 2 − 2XE[X] + E[X]2 ]
= E[X 2 ] − 2E[X]E[X] + E[X]2
(vgl. (6.6) und (6.10))
= E[X 2 ] − E[X]2 .
6.67Der Erwartungswert E[X] beschreibt einen typischen“ Wert von X.
”
28. Januar 2011
106
Größenordnung“ wie X − E[X]. Allerdings ist Var(X) in mathematischen Berechnungen leichter als σX zu bearbeiten.
Für X, Y ∈ L2 (Ω, F, P) bezeichnet
(6.23)
Cov(X, Y ) := E[(X − E[X])(Y − E[Y ])] =
die Kovarianz von X und Y .
(6.24)
ρX,Y :=
6.69
6.68
E[XY ] − E[X]E[Y ]
Cov(X, Y )
σX · σY
heißt Korrelation von X und Y .
Zufallsvariablen X, Y ∈ L2 (Ω, F, P) mit Cov(X, Y ) = ρX,Y = 0 werden unkorreliert genannt. Andererseits sind X und Y positiv korreliert, wenn 6.70 ρX,Y > 0,
d.h., wenn typischerweise“ X und Y gleichzeitig größer, bzw. kleiner als ihre Er”
wartungswerte E[X] und E[Y ] sind. Negative Korrelation ρX,Y < 0 bedeutet, daß
typischerweise“ X genau dann größer als E[X] ist, wenn Y kleiner als E[Y ] ist 6.71.
”
In (6.24) werden durch die Division durch σX und σY die Abweichungen X −
E[X], bzw. Y −E[Y ] der Zufallsvariablen X und Y von ihrem jeweiligen Erwartungswert normiert 6.72. Als Folge ist ρX,Y unabhängig“ 6.73 von den Größenordnungen
”
von X − E[X] und Y − E[Y ] und damit gut zu einer quantitativen Charakterisierung der Abhängigkeiten zwischen diesen Fluktuationen von X und Y geeignet 6.74.
Andererseits ist in mathematischen Berechnungen mit Cov(X, Y ) wesentlich besser
zu arbeiten.
Um Zusammenhänge“ in einer endlichen Menge X1 , . . . , Xn reellwertiger Zu”
fallsvariablen darzustellen, können die Kovarianzen für Paare dieser Zufallsvariablen
zu einer Kovarianzmatrix
Cov(X1 , . . . , Xn ) := Cov(Xk , Xl ) k,l=1,...,n
zusammengefaßt werden
6.75
.
Beispiel 6.8 (Unkorreliertheit und Unabhängigkeit). Unkorreliertheit, bzw. Unabhängigkeit haben in anwendungsorientierten Überlegungen eine ähnliche Bedeutung. Als mathematische Begriffe betrachtet, sind sie jedoch sehr unterschiedlich.
Seien zunächst X und Y zwei unabhängige, reellwertige Zufallsvariablen mit
E[X 2 ], E[Y 2 ] < ∞. Dann ist ρX,Y = 0, d.h., X und Y sind unkorreliert 6.76.
6.68Diese Gleichheit folgt aus
E[(X − E[X])(Y − E[Y ])] = E[XY − XE[Y ] − E[X]Y + E[X]E[Y ]]
= E[XY ] − 2E[X]E[Y ] + E[X]E[Y ]
(vgl. (6.6) und (6.10))
= E[XY ] − E[X]E[Y ].
6.69Die Streuung σ einer Zufallsvariable X ∈ L2 (Ω, F, P) wird in (6.22) definiert.
X
6.70Aus (6.24) und der Positivität von σ und σ folgt, daß ρ
X
Y
X,Y > 0 genau dann, wenn
Cov(X, Y ) > 0.
6.71Die hier beschriebene Interpretation der Korrelation zweier Zufallsvariablen wird in Beispiel 6.9 verdeutlicht werden.
6.72Insbesondere ist (X − E[X])/σ ∼ 1, gleichgültig ob typischerweise“ (X − E[X]) ∼ 1010
X
”
oder (X − E[X]) ∼ 10−10 .
6.73 Unabhängigkeit“ ist hier in einem umgangssprachlichen und nicht mathematisch rigo”
rosen Sinn gemeint.
6.74Mit ρ
X,Y können Zusammenhänge zwischen X und Y verdeutlicht werden, auch wenn die
Werte jener Zufallsvariablen völlig unterschiedliche Größenordnungen besitzen, vgl. Fußnote 6.72.
6.75Für endlich viele gemeinsam normalverteilte, reellwertige Zufallsvariablen ist deren Kovarianzmatrix ein die gemeinsame Verteilung, eine mehrdimensionale Normalverteilung kennzeichnender Parameter, vgl. (3.15) und Fußnote 3.115.
6.76Nach der Produktregel für unabhängige Zufallsvariablen, vgl. (6.9), ist E[XY ] =
E[X]E[Y ]. Somit ist Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 0, vgl. (6.23).
28. Januar 2011
107
Wie das folgende Beispiel zeigt, folgt umgekehrt aus der Unkorreliertheit nicht die
Unabhängigkeit.
Sei Ω = {1, 2, 3}, F = Pot(Ω) und P die Gleichverteilung auf (Ω, F). Die
reellwertigen Zufallsvariablen X und Y auf (Ω, F, P) seien durch
X(1) = 1,
X(2) = 0,
Y (1) = 0,
Y (2) = 1,
X(3) = −1,
Y (3) = 0,
gegeben. Diese Zufallsvariablen sind unkorreliert, da
E[XY ] = 0 = E[X] = E[X] · E[Y ],
aber nicht unabhängig, denn
P[X = 1, Y = 1] = 0 6=
1
= P[X = 1] · P[Y = 1].
9
Beispiel 6.9 (Korrelationen in einem Populationsmodell). 6.77 Ein Modell für
die zeitliche Entwicklung einer Population pflanzenfressender Tiere in einem abgeschlossenen Areal 6.78 ist zu entwerfen 6.79. Als Modell sei ein stochastischer Prozeß X = (Xn )n∈N0 mit Xn = (Pn , Nn , Vn , νn ), n ∈ N0 , zu bestimmen, wobei Pn
die Populationsgröße, Nn das Nahrungsangebot, Vn der Nahrungsverbrauch und
νn (≈ Nn /Pn ) das durchschnittliche Nahrungsangebot zur Zeit n ∈ N0 ist.
Auf eine konkrete Beschreibung eines geeigneten Prozesses X soll hier nicht
eingegangen werden. Allerdings sollen Eigenschaften festgehalten werden, die ein
vernünftiges“, die Realität widerspiegelndes Modell evtl. besitzen könnte. Insbe”
sondere sollen einige Korrelationen zwischen den einzelnen Zufallsvariablen Pn , Nn ,
Vn , νn , n ∈ N0 , diskutiert werden.
1. Fall. Für spezielle Populationen kann beispielsweise erwartet werden, daß 6.80
• ρPn ,Nn = 0 6.81 (Alternative: ρPn ,Nn+1 < 0 6.82),
• ρPn ,Vn > 0 6.83,
• ρPn ,νn < 0 6.84,
• ρNn ,νn ≥ 0 6.85, . . .
Wenn in einem vorgeschlagenen Modell eine dieser Beziehungen verletzt ist,
könnte dies ein Grund sein, jenes Modell zu überdenken und evtl. zu modifizieren.
6.77In diesem Beispiel soll erläutert werden, wie heuristische Überlegungen Eigenschaften
von Korrelationen zwischen zufälligen beobachtbaren Größen x1 , . . . , xn in einem realen Umfeld
aufdecken können. Zur Überprüfung eines mathematischen Modells wäre es dann notwendig, diese
Eigenschaften für jene Zufallsvariablen X1 , . . . , Xn , die x1 , . . . , xn modellieren, zu verifizieren.
6.78
Z.B. eine Insel.
6.79
Es sollen hier nur einige Gedankengänge vorgestellt werden, die bei der Entwicklung und
der Überprüfung eines Modells brauchbar sein können, vgl. Fußnote 6.77.
6.80Diese Beziehungen sollten zumindest dann gelten, wenn sich ein gewisses Gleichgewicht“
”
in dem betrachteten System eingestellt hat, also für große Zeiten n.
6.81Die Anzahl der Tiere hat keinen Einfluß auf das Wachstum der Pflanzen.
6.82Ein negativer Einfluß einer großen Tierpopulation auf das zukünftige Nahrungsangebot
kann dann eintreten, wenn die Tiere die Wurzeln der Pflanzen zerstören oder die jungen Triebe
wegfressen.
6.83Viele Tiere fressen viel.
6.84In einer größeren Population steht den einzelnen Tieren ein kleinerer Anteil des gesamten
Nahrungsangebots zur Verfügung.
6.85Wenn ein größeres Nahrungsangebot zur Verfügung steht, fällt für jedes einzelne Tier
mehr ab.
28. Januar 2011
108
2. Fall. In anderen Situationen könnte die Populationsgröße aufgrund externer Einflüsse 6.86 ständig auf einem relativ niedrigen Niveau bleiben. Dann sollten
die zeitlichen Entwicklungen der Tierpopulation und des Nahrungsangebots
unabhängig werden und somit Korrelationen wie ρPn ,Nk oder ρPn ,νk für alle n, k ∈ N0 verschwinden. Es könnte nun ausreichen, ein Modell für die
Dynamik von (Pn )n∈N0 allein zu entwerfen 6.87.
6.4.1. Rechenregeln für Varianz und Kovarianz. X, Y, X1 , . . . , Xn : (Ω,
F, P) → (R, B(R)) seien Zufallsvariablen in L2 (Ω, F, P) 6.88.
(a) Für a, b, c, d ∈ R gilt
(6.25)
Cov(aX + b, cY + d) = ac Cov(X, Y ).
Insbesondere ist
6.89
Var(aX + b) = a2 Var(X).
(6.26)
Varianz und Kovarianz sind daher invariant unter der Addition von Konstanten 6.90.
Beweis. Offensichtlich ist
Cov(aX + b, cY + d) = E (aX + b − E[aX + b])(cY + d − E[cY + d])
= 6.91 E (aX − E[aX])(cY − E[cY ])
= 6.92 ac E (X − E[X])(Y − E[Y ])
= ac Cov(X, Y ).
(b) Es gilt
(6.27)
Var(X1 + · · · + Xn ) =
n
X
Var(Xk ) +
k=1
X
Cov(Xk , Xl ).
k,l=1,...,n
k6=l
Insbesondere addieren sich für unkorrelierte Zufallsvariablen X1 , . . . , Xn ihre Varianzen, d.h.,
n
X
Var(Xk ).
(6.28)
Var(X1 + · · · + Xn ) =
k=1
Beweis. Einfache Überlegungen zeigen, daß
2 Var(X1 + · · · + Xn ) = E X1 + · · · + Xn − E[X1 + · · · + Xn ]
|
{z
}
= E[X1 ] + · · · + E[Xn ]
n
X = 6.93
E (Xk − E[Xk ])(Xl − E[Xl ])
k,l=1
6.86Beispielsweise als Resultat der Verfolgung durch Raubtiere oder durch Stress, bzw.
Anfälligkeit gegenüber Krankheiten bei größeren Populationsdichten.
6.87In einer derartigen Situation kann die das Nahrungsangebot bestimmende Umwelt als
zeitlich konstant betrachtet werden. Somit kann angenommen werden, daß die zeitliche Entwicklung von (Pn )n∈N0 nicht durch äußere Kräfte“ beeinflußt ist, d.h. einer autonomen Dynamik
”
unterliegt.
6.88Vgl. Bemerkung 6.7(ii).
6.89Man beachte, daß Var(Z) = Cov(Z, Z), Z ∈ L2 (Ω, F, P).
6.90Da Varianz und Kovarianz die Fluktuationen von Zufallsvariablen um ihren Erwartungswert beschreiben, ist dieses Verhalten auch zu erwarten.
6.91Wegen der Linearität des Erwartungswerts, vgl. (6.6), und der Normierung des Erwartungswerts, vgl. (6.10).
6.92Wegen der Linearität des Erwartungswerts, vgl. (6.6).
28. Januar 2011
109
n
X
=
X
Var(Xk ) +
k=1
Cov(Xk , Xl ).
k,l=1,...,n
k6=l
(c) Als Verallgemeinerung der Cauchyschen Ungleichung
6.94
gilt
2
Cov(X, Y ) ≤ Var(X) Var(Y ).
(6.29)
e = X − E[X] und Ye = Y − E[Y ] ergibt sich
Beweis. Mit X
Cov(X, Y )2 =
6.95
≤
6.98
e Ye )2 =
Cov(X,
6.96
e Ye ]2 =
E[X
6.97
e Ye i2
hX,
e 2 kYe k2 = E[X
e 2 ]E[Ye 2 ] = Var(X) Var(Y ).
kXk
2
2
(d) Als Anwendung von (6.29) folgt
6.99
|Cov(X, Y )|
p
|ρX,Y | = p
≤ 1,
Var(X) Var(Y )
(6.30)
d.h., für alle Zufallsvariablen X, Y mit E[X 2 ], E[Y 2 ] < ∞ ist ρX,Y ∈ [−1, 1].
6.5. Beispiele zum Erwartungswert und zur Varianz
Beispiel 6.10 (Exponentialverteilung). Sei X eine exponentiell verteilte Zufallsvariable 6.100, d.h., für ein λ > 0 besitze PX die Dichte
f (x) = I[0,∞) (x)λ exp(−λx),
Dann gilt
6.101
:
E[X] =
6.102
λ
Z
∞
x ∈ R.
dx x exp(−λx)
0
6.93Aufgrund der Linearität des Erwartungswerts, vgl. (6.6).
6.94Vgl. (6.21).
6.95Wegen (6.25).
6.96Da E[X]
e = E[Ye ] = 0.
6.97
Hier wird mit dem Skalarprodukt h., .i in L2 (Ω, F, P) gearbeitet, vgl. Bemerkung 6.7(ii).
k.k2 bezeichnet die Norm in dem Hilbertraum L2 (Ω, F, P). Hier findet die CauchySchwarzsche Ungleichung, d.h.,
6.98
|hU, V i| ≤ kU k2 kV k2 ,
U, V ∈ L2 (Ω, F, P),
Verwendung. Diese folgt aus
s
s
2
kV k2
kU k2 0 ≤ U
±V
kU k2
kV k2 2
s
s
s
* s
+
kV k2
kU k2
kV k2
kU k2
±V
,U
±V
= U
kU k2
kV k2
kU k2
kV k2
kU k2
kV k2
+ kV k22
± 2hU, V i
kU k2
kV k2
= 2kU k2 kV k2 ± 2hU, V i.
= kU k22
6.99
Die Korrelation ρX,Y zweier Zufallsvariablen X, Y ∈ L2 (Ω, F, P) ist in (6.24) definiert.
6.100Vgl. Abschnitt 2.6. Solche Zufallsvariablen können z.B. zur Modellierung des Zeitpunktes
eines ersten Telefonanrufs verwendet werden.
6.101Als positive Zufallsvariable besitzt X auf jeden Fall einen Erwartungswert, der zunächst
allerdings gleich ∞ sein könnte, vgl. die Erläuterungen am Ende von Abschnitt 6.3.
28. Januar 2011
110
=
6.103
=
1
,
λ
2
E[X ] =
6.104
=
6.105
=
2
.
λ2
∞
Z ∞
−y exp(−λy)
+
dx exp(−λx)
0
y=0
{z
}
|
{z
}
|
=
1/λ
=0
Z
∞
dx x2 exp(−λx)
∞
Z ∞
2
−y exp(−λy)
+2
dx x exp(−λx)
0
y=0
|
{z
}
|
{z
}
= E[X]/λ = 1/λ2
=0
λ
0
Folglich ist
Var(X) = E[X 2 ] − E[X]2 =
1
.
λ2
Beispiel 6.11 (Cauchy-Verteilung 6.106). Die Verteilung PX einer Zufallsvariable
X besitze für ein a > 0 die Dichte 6.107
a
f (x) =
, x ∈ R.
2
π(a + x2 )
Da
Z
Z
a ∞
x
= ∞,
dx xf (x) =
dx 2
π
a
+
x2
0
0
ist 6.108 E[X+ ] = ∞. Ebenso ist E[X− ] = ∞. Folglich besitzt X keinen Erwartungswert 6.109.
Zur Beschreibung eines typischen, mittleren Werts“ bietet sich für Cauchy”
verteilte Zufallsvariablen der Median 6.110 m = 0 an.
∞
Beispiel 6.12 (Normalverteilung 6.111). Die Verteilung PX der Zufallsvariable X
besitze die Dichte
(x − µ)2 1
exp −
f (x) = √
, x ∈ R,
2σ 2
2πσ 2
wobei µ ∈ R und σ 2 > 0.
6.102Vgl. Beispiel 6.5.
6.103Mit Hilfe partieller Integration.
6.104Nach Beispiel 6.6. Im hier betrachteten Fall wird H(x) = x2 benutzt.
6.105
Mit Hilfe partieller Integration.
6.106Vgl. Abschnitt 2.6.
6.107Es wird hier nicht bewiesen, daß diese Funktion f eine Wahrscheinlichkeitsdichte auf R
R
∞
dx f (x) = 1.
ist, d.h., daß −∞
6.108X = max{X, 0}, bzw. X = max{−X, 0}, ist der Positivteil, bzw. der Negativteil einer
+
−
Zufallsvariablen X. Da X+ und X− nichtnegative Zufallsvariablen sind, sind E[X+ ] und E[X− ]
wohldefiniert, vgl. die Erläuterungen am Ende von Abschnitt 6.3.
6.109Man beachte, daß X 2 als nichtnegative Zufallsvariable sehr wohl einen Erwartungswert
besitzt. Allerdings ist E[X 2 ] = ∞.
6.110
Vgl. Abschnitt 3.3.4. Im vorliegenden Fall ist der Median m eindeutig durch
Z ∞
Z m
1
dx f (x) = .
dx f (x) =
2
m
−∞
bestimmt. Wegen der Symmetrie von f gilt m = 0.
6.111Vgl. Abschnitt 2.6.
28. Januar 2011
111
Existenz endlicher Momente. Für alle r ≥ 1 gilt:
xµ x2 |x|r f (x) ≤ C|x|r exp − 2 exp 2
2σ | {zσ }
1 x2
+ µ2
C1 exp 2
σ
4
x2 x2 ≤ C2 |x|r exp − 2 exp − 2
8σ
{z 8σ }
|
≤
6.112
≤ C3 , gleichmäßig in x ∈ R
x2 ≤ C4 exp − 2 , x ∈ R,
8σ
wobei
C,
C
,
.
.
.
nur
von
r, µ und σ 2 abhängige positive Konstanten sind.
1
R∞
2
Da −∞ dx exp(−βx ) < ∞ für alle β > 0, ist |X|r für alle r ≥ 1 integrabel.
Insbesondere besitzt eine normalverteilte Zufallsvariable X für alle r ∈ N ein
endliches r-tes Moment.
Erwartungswert der Normalverteilung.
Z ∞
(6.31)
dx xf (x)
E[X] =
−∞
Z
(x − µ)2 dx (x − µ) exp −
2σ 2
−∞
{z
}
|
6.113
=
0
Z ∞
(x − µ)2 1
dx exp −
+µ√
2σ 2
2πσ 2 −∞
{z
}
|
= 6.114 1
= µ.
1
= √
2πσ 2
∞
Varianz der Normalverteilung.
(6.32) Var(X) = E (X − E[X])2
Z ∞
(x − µ)2 1
6.115
√
=
dx (x − µ)2 exp −
2σ 2
2πσ 2 −∞
2 Z ∞
2
σ
z
dz z 2 exp −
= 6.116 √
2
2π −∞
Z ∞
y 2 ∞
z2 2
1
σ
2
√
dz
exp
−
+σ
= 6.117 − √ y exp −
2 y=−∞
2
2π
2π −∞
{z
}
|
{z
}
|
=0
= 6.118 1
= σ2 .
6.112Beachte die Abschätzung
|ab| ≤
die aus der Beziehung
1 a2
+ αb2 ,
2 α
a, b ∈ R, α > 0,
2
√
|a|
a2
=
+ αb2 − 2|ab|,
0 ≤ √ − α|b|
α
α
a, b ∈ R, α > 0,
folgt. Hier wird a = x, b = µ und α = 2 benutzt.
6.113Da der Integrand antisymmetrisch bzgl. µ ist.
6.114
Hier wird eine Wahrscheinlichkeitsdichte über den ganzen Raum R integriert.
28. Januar 2011
112
Die Parameter µ und σ 2 der Normalverteilung sind jetzt als Erwartungswert,
bzw. Varianz identifiziert worden.
Weiterhin ist nun das zweite Moment der Normalverteilung durch 6.119
E[X 2 ] = Var(X) + E[X]2 = σ 2 + µ2
gegeben.
6.6. Erwartungstreue Schätzer
Sei (X, G, (Pλ )λ∈Λ ) ein statistisches Modell 6.120, wobei Λ ⊆ R 6.121. Sei außerdem T : (X, G) → (R, B(R)) eine Statistik 6.122, die zur Schätzung von λ dient 6.123.
Z
6.124
6.125
(6.33)
Eλ [T ]
−λ=
Pλ (dx) T (x) − λ =: bλ (T ), λ ∈ Λ,
X
6.126
wird als Bias
0, λ ∈ Λ 6.127.
des Schätzers T bezeichnet. T heißt erwartungstreu, wenn bλ (T ) =
Beispiel 6.13. Für N ∈ N 6.128 sei X = {0, 1, . . . , N } und G = Pot(X). Für
q ∈ [0, 1] sei außerdem Pq die Binomialverteilung B(N, q) mit Parametern N und
q 6.129. T : X → [0, 1] mit T (x) = x/N , x ∈ X, ist der Maximum-Likelihood-Schätzer
für q 6.130. Da
Eq [T ] =
N
X
l N l
q (1 − q)N −l =
N l
6.131
l=0
q,
q ∈ [0, 1],
ist T erwartungstreu.
6.115Wegen (6.31) und Beispiel 6.6. Hier wird H mit H(x) = (x − µ)2 benutzt.
6.116
6.117
√
Mit der Substitution z = (x − µ)/ σ2 .
Mit partieller Integration
Z
b
a
b Z
f ′ g = f g −
a
b
f g′ .
a
Hier wird f (x) = − exp(−x2 /2) und g(x) = x benutzt.
6.118
Hier wird eine Wahrscheinlichkeitsdichte über den ganzen Raum integriert.
6.119Vgl. (6.20).
6.120Vgl. Abschnitt 4.1.
6.121Insbesondere liegt ein eindimensionales parametrisches statistisches Modell vor.
6.122Vgl. Abschnitt 4.1.
6.123T könnte z.B. ein Maximum-Likelihood-Schätzer, vgl. Abschnitt 4.2, sein.
6.124Für λ ∈ Λ bezeichnet E [T ] den Erwartungswert von T , falls auf (X, G) das Wahrscheinλ
lichkeitsmaß Pλ zugrundegelegt wird.
6.125
Diese Notation wird in Bemerkung 6.4(iii) eingeführt.
6.126
Der Bias bλ (T ) ist der mittlere oder auch systematische Fehler des Schätzers T , wenn
Pλ die zugrundeliegende Wahrscheinlichkeitsverteilung ist.
6.127Für einen erwartungstreuen Schätzer T von λ verschwindet für alle möglichen Parameter
λ der mittlere Fehler.
6.128N wird in diesem Beispiel als fest betrachtet.
6.129In diesem Beispiel wird daher mit dem statistischen Modell (X, G, (P )
q q∈[0,1] ) gearbeitet.
6.130Vgl. Beispiel 1.9.
6.131Vgl. Beispiel 1.5.
28. Januar 2011
113
Beispiel 6.14. Sei X = N und G = Pot(X). Für M ∈ N sei PM die Gleichverteilung
auf {1, . . . , M } 6.132. Durch T : X → N mit T (x) = x, x ∈ X, ist der MaximumLikelihood-Schätzer für M bestimmt 6.133. Da
EM [T ] =
M
M
M +1
1 X
1 M (M + 1)
1 X
=
,
T (l) =
l=
M
M
M
2
2
l=1
l=1
ist T nicht erwartungstreu.
Verwendet man andererseits T1 : X → N mit T1 (x) = 2x−1, x ∈ X, als Schätzer
für M 6.134, so beobachtet man
EM [T1 ] =
M
M
1 X
1 X
2 M (M + 1)
− 1 = M.
T1 (l) =
(2l − 1) =
M
M
M
2
l=1
l=1
T1 ist daher ein erwartungstreuer Schätzer für M .
Beispiel 6.15. Nicht für alle Schätzprobleme existiert ein erwartungstreuer Schätzer. Gegeben sei beispielsweise das statistische Modell (X, G, (Pq )q∈[0,1] ), wobei 6.135
X = {0, 1, . . . , N }, G = Pot(X) und Pq die Binomialverteilung B(N, q) mit Parametern N und q ist. Dann
Schätzer 6.136 T : X → R der Erwartungswert
ist für jeden
PN
N l
N −l
Eq [T ] = l=0 T (l) l q (1 − q)
ein Polynom in q ∈ [0, 1]. Da andererseits die
p
Standardabweichung 6.137 σq = N q(1 − q) von Pq kein Polynom in q ∈ [0, 1] ist,
existiert für sie kein erwartungstreuer Schätzer 6.138.
Beispiel 6.16 (Erwartungstreue Schätzung von Erwartungswert und Varianz von
i.i.d. Zufallsvariablen). Eine zufällige reelle Größe G werde N mal unabhängig gemessen 6.139. Zu einer quantitativen Beurteilung von G ist es naheliegend, zunächst
den Mittelwert“ und die Größe der Schwankungen“ der Messungen von G zu
”
”
schätzen 6.140.
6.132Da {1, . . . , M } ⊆ X kann P
M als ein Wahrscheinlichkeitsmaß auf (X, G) betrachtet werden. Dementsprechend wird in diesem Beispiel mit dem statistischen Modell (X, G, (PM )M ∈N )
gearbeitet.
6.133Wenn P
M als ein Wahrscheinlichkeitsmaß auf X betrachtet wird, ist
(
1/M, falls y = 1, . . . , M,
PM [{y}] =
0,
falls y = M + 1, M + 2, . . . .
Die Likelihood-Funktion zum Beobachtungswert x ist daher
(
0,
falls M = 1, . . . , x − 1,
Lx (M ) = PM [{x}] =
1/M, falls M = x, x + 1, . . . .
c für M zu gegebenem Beobachtungswert x durch
Somit ist der Maximum-Likelihood-Schätzer M
c = x gegeben.
M
6.134Dieser Schätzer ergibt sich aus der Vermutung, daß im Fall der Beobachtung von x die
Lücke“ x − 1 zum kleinsten Element 1 ähnlich groß ist, wie die Lücke“ M − x zum größten
”
”
c = 2x − 1
Element M , d.h., daß x − 1 ≈ M − x. Damit ergibt sich M
als Schätzer.
6.135N ∈ N sei fest.
6.136D.h., für jede Statistik.
6.137Vgl. Beispiel 1.6 und (6.22).
p
6.138In diesem Beispiel wird nicht direkt der Parameter q sondern mit
N q(1 − q) eine
Funktion dieses Parameters geschätzt. Damit liegt eine Verallgemeinerung der bisher behandelten
Schätzprobleme vor.
6.139In einer konkreten Anwendung könnte G die Lebensdauer eines speziellen Gebrauchsgegenstandes, z.B. eines Autoreifens oder einer Kinderschaukel, oder die Hitzebeständigkeit einer
Keramik sein.
6.140Dieses umgangssprachlich beschriebene Ziel muß jetzt mathematisch formuliert werden.
28. Januar 2011
114
In einer mathematisch präziseren Formulierung seien X1 , . . . , XN i.i.d. Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 6.141. Die Verteilung der Zufallsvariablen X1 , . . . , XN sei unbekannt, zu schätzen seien µ und σ 2 6.142.
Als Schätzer von µ und σ 2 seien 6.143
µ
e :=
(6.34)
definiert. Da
6.144
N
1 X
Xk
N
k=1
Eµ,σ2 [e
µ] =
6.145
f2 :=
und σ
k=1
N
N
1 X
1 X
Eµ,σ2 [Xk ] =
µ=µ
N
N
k=1
und
N
1 X
(Xk − µ
e)2
N −1
k=1
N
1 X
Eµ,σ2 [Xk2 ] − 2Eµ,σ2 [Xk µ
e] + Eµ,σ2 [e
µ2 ]
N −1
k=1
N
σ2
σ2
1 X 6.146 2
=
+ µ2 + 6.148
+ µ2
(σ + µ2 ) − 6.147 2
N −1
N
N
f2 ] =
Eµ,σ2 [σ
6.145
k=1
=
N
1 2
1 X
σ = σ2 ,
1−
N −1
N
k=1
6.141Insbesondere sei angenommen, daß E[X 2 ] < ∞.
1
6.142Als statistisches Modell könnte hier (RN , B(RN ), (P )
R λ λ∈Λ ) benutzt werden, wobei Λ die
Menge aller Wahrscheinlichkeitsmaße λ auf (R, B(R)) mit R λ(dx) |x|2 < ∞ und Pλ die gemeinsame Verteilung von unabhängigen, reellwertigen, identisch verteilten Zufallsvariablen Y1 , . . . , YN
mit PY1 = λ ist. Zu schätzen ist nicht, wie dies in den meisten bisher behandelten Schätzproblemen
üblich war, der wahre Parameter“ λw und damit ein Wahrscheinlichkeitsmaß
auf (R, B(R)). HinR
”
gegen sind mit dem wahren Erwartungswert“ µ = Eλw = R λw (dx) x, bzw. der wahren Varianz“
R
”
”
σ2 = Vλw = R λw (dx) (x−Eλw )2 zwei spezielle Funktionale von λw zu bestimmen. Eine einfachere Variante eines solchen verallgemeinerten Schätzproblems wird auch in Beispiel 6.15 diskutiert.
Man vergleiche hierzu insbesondere auch Fußnote 6.138.
Um die im vorangehenden Absatz angedeutete komplizierte Formulierung des Schätzproblems
dieses Beispiels zu umgehen, wird einfach das Ziel verfolgt, als Schätzer von µ und σ2 geeignete Funktionen T = T (X1 , . . . , XN ) (der beobachteten Realisierungen) der Zufallsvariablen
X1 , . . . , XN zu suchen, bzw. zu untersuchen.
6.143Als empirischer Mittelwert ist µ
e ein naheliegender Schätzer für µ. Ebenso ist der Mittelwert der quadrierten Schwankungen der Zufallsvariablen X1 , . . . , XN um den geschätzten ErwarP
P
tungswert µ
e ein erster Kandidat als Schätzer für σ2 . Da aber N
µ) = N
e = 0,
k=1 (Xk −e
k=1 Xk −N µ
sind die Zufallsvariablen X1 − µ
e, . . . , XN − µ
e nicht linear unabhängig. Beispielsweise ist X1 − µ
e
PN
eine Linearkombination von Xk − µ
e, k = 2, . . . , N . Somit besitzt
e)2 nur N − 1
k=1 (Xk − µ
Freiheitsgrade“. Dadurch wird die Normierung mit (N − 1)−1 anstelle von N −1 verständlich.
”
6.144Die Bezeichnung E
µ,σ 2 [. . . ] deutet an, daß hier angenommen wird, daß die (unbekannte)
Verteilung von X1 , . . . und XN den Erwartungswert µ und die Varianz σ2 hat. Bezüglich dieser
Verteilung wird der Erwartungswert betrachtet.
6.145Wegen der Linearität des Erwartungswerts, vgl. (6.6).
6.146Da σ2 = Var
2
2
2
2
µ,σ 2 (Xk ) = Eµ,σ 2 [Xk ] − Eµ,σ 2 [Xk ] = Eµ,σ 2 [Xk ] − µ , k = 1, . . . , N .
6.147
Da
Eµ,σ 2 [Xk µ
e] =
=
N
1 X
1
1
E 2 [Xk Xl ] =
E 2 [Xk2 ] +
N l=1 µ,σ
N µ,σ
N
X
Eµ,σ 2 [Xk ]Eµ,σ 2 [Xl ]
l=1,...,N
l6=k
1
1 2
N −1 2
(Varµ,σ 2 (Xk ) + Eµ,σ 2 [Xk ]2 ) +
µ =
σ + µ2 ,
N
N
N
k = 1, . . . , N,
wobei die Überlegung in Fußnote 6.146 und die Unabhängigkeit der Zufallsvariablen X1 , . . . , XN
benutzt wurden. Insbesondere findet die Produktregel für unabhängige Zufallsvariablen, vgl. (6.9),
Verwendung.
28. Januar 2011
115
f2 erwartungstreue Schätzer
sind µ
e und σ
6.149
.
6.6.1. Mittlerer quadratischer Fehler eines Schätzers. Ein statistisches
Modell (X, G, (Pλ )λ∈Λ ) mit Λ ⊆ R sei gegeben. Außerdem sei T : (X, G) → (R, B(R))
eine Statistik, die zur Schätzung von λ dient. Die Genauigkeit dieses Schätzers kann
durch den mittleren quadratischen Fehler
Z
Pλ (dx) (T (x) − λ)2 =: s2λ (T ), λ ∈ Λ,
(6.35)
Eλ (T − λ)2 =
X
ausgedrückt werden. Offensichtlich sollte von zwei sonst gleichwertigen“ Schätzern
”
derjenige mit dem kleineren mittleren quadratischen Fehler als der bessere bewertet
werden. Da
2 (6.36)
s2λ (T ) = Eλ (T − Eλ [T ]) + ( Eλ [T ] − λ )
| {z }
= 6.150 bλ (T )
= Eλ (T − Eλ [T ])2 + 2bλ (T ) Eλ T − Eλ [T ] +bλ (T )2
|
{z
}
6.151
=
0
= Varλ (T ) + bλ (T )2 , λ ∈ Λ,
fallen für erwartungstreue Schätzer mittlerer quadratischer Fehler und Varianz zusammen 6.152.
Beispiel 6.17 (Untere Abschätzung des mittleren quadratischen Fehlers bei erwartungstreuen Schätzern 6.153). Sei (X, G, (Pλ )λ∈Λ ) ein diskretes statistisches Modell 6.154. Weiterhin sei Λ ein Intervall in R und T : X → Λ ein erwartungstreuer
Schätzer für λ, d.h.,
X
Eλ [T ] =
T (x)Pλ [{x}] = λ, λ ∈ Λ.
x∈X
Zum Beobachtungswert x ∈ X ist die Likelihood-Funktion Lx durch Λ ∋ λ →
Pλ [{x}] = Lx (λ) und weiterhin die Log-Likelihood-Funktion 6.155 ℓx ( . ) = log Lx ( . )
gegeben 6.156. Betrachtet man nun für festes λ ∈ Λ die Log-Likelihood-Funktion
6.148Aus Fußnote 6.146 und mit der Unabhängigkeit der Zufallsvariablen X , . . . , X ergibt
1
N
sich
Eµ,σ 2 [e
µ2 ] =
=
N
1
1 X
E 2 [Xk Xl ] = 2
2
N k,l=1 µ,σ
N
N
X
Eµ,σ 2 [Xk2 ] +
k=1
X
k,l=1,...,N
l6=k
Eµ,σ 2 [Xk ]Eµ,σ 2 [Xl ]
!
1 2
1 2
σ + µ2 + (N − 1)µ2 =
σ + µ2 .
N
N
6.149Durch die Überlegungen in diesem Beispiel werden letztendlich die Definitionen (A.1)
und (A.2) von empirischem Mittelwert, bzw. empirischer Varianz reller Daten begründet.
6.150b (T ) ist der Bias des Schätzers T , vgl. (6.33).
λ
6.151
Aufgrund der Linearität des Erwartungswerts, vgl. (6.6), und der Normierung des Erwartungswerts, vgl. (6.10).
6.152
Man beachte, daß erwartungstreue Schätzer T durch bλ (T ) = 0, λ ∈ Λ, charakterisiert
sind.
6.153
In diesem Beispiel soll erläutert werden, wie gut“ ein erwartungstreuer Schätzer sein
”
kann. M.a.W., es soll untersucht werden, wie klein der mittlere quadratische Fehler eines solchen
Schätzers werden kann. Eine detailliertere Darstellung findet sich in [10], Abschnitt 4.5.
6.154Vgl. Abschnitt 4.1. Diese Annahme wird zur Vereinfachung der Notation gemacht.
6.155Damit ℓ ( . ) > −∞ sei P [{x}] = L (λ) > 0, x ∈ X, λ ∈ Λ, angenommen.
x
x
λ
6.156Beim Bestimmen eines Maximum-Likelihood-Schätzers für λ betrachtet man L, bzw. ℓ
zu einem festen x ∈ X als Funktion von λ ∈ Λ, vgl. Abschnitt 4.2.
28. Januar 2011
116
ℓ = ℓ. (λ) und auch deren Ableitung ℓ′ = ℓ′. (λ) 6.157 als Funktionen von x ∈ X, so
läßt sich mit
X
I(λ) = Eλ [ℓ′ (λ)2 ] =
ℓ′x (λ)2 Pλ [{x}], λ ∈ Λ,
x∈X
die Fisher-Information einführen. Ist
I(λ) ∈ (0, ∞),
λ ∈ Λ,
so gilt für jeden erwartungstreuen Schätzer T von λ die sog. Informationsungleichung
1
, λ ∈ Λ.
(6.37)
Varλ (T ) ≥
I(λ)
Die Varianz und damit der mittlere quadratische Fehler eines erwartungstreuen
Schätzers 6.158 des Parameters λ kann daher niemals kleiner als das Inverse der
Fisher-Information sein.
Die Informationsungleichung ist optimal, d.h., es gibt es Fälle mit Gleichheit.
I. allg. kann daher die Abschätzung (6.37) nicht durch die Angabe einer größeren
rechten Seite präzisiert werden.
6.7. Elementare Ungleichungen in der Wahrscheinlichkeitstheorie
Oft werden in wahrscheinlichkeitstheoretischen Überlegungen keine exakten
Wahrscheinlichkeiten oder Erwartungswerte benötigt, sondern nur evtl. relativ einfach zu bestimmende Abschätzungen. Aus diesem Grund sind in der Wahrscheinlichkeitstheorie viele verschiedene Ungleichungen abgeleitet worden. Speziell werden in diesem Abschnitt mit der Markov-Ungleichung und der daraus folgenden
Čebyšev-Ungleichung zwei einfache, aber nützliche Ungleichungen eingeführt 6.159.
Satz 6.18. (a) Markov-Ungleichung. Sei X eine reellwertige Zufallsvariable und
f : [0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0.
Dann gilt 6.160:
(6.38)
P[|X| ≥ ǫ] ≤
E[f (|X|)]
,
f (ǫ)
ǫ > 0.
(b) Čebyšev-Ungleichung. Für jede reellwertige Zufallsvariable X gilt:
(6.39)
P[|X| ≥ ǫ] ≤
E[X 2 ]
,
ǫ2
ǫ > 0.
Beweis. Offensichtlich folgt (b) aus (a), wenn f mit f (x) = x2 , x ∈ [0, ∞),
verwendet wird. (a) ergibt sich aus
f (ǫ)P[|X| ≥ ǫ] =
6.161
=
6.162
≤
6.164
f (ǫ)E[I{|X|≥ǫ} ]
E[ f (ǫ)I{|X|≥ǫ} ]
|
{z
}
≤ 6.163 f (|X|), f.s.
E[f (|X|)].
6.157ℓ′ bezeichnet die Ableitung der Funktionen Λ ∋ λ → ℓ (λ), x ∈ X, nach λ. In den
x
folgenden Ausführungen werden ℓ und ℓ′ für festes λ als Funktionen von x ∈ X betrachtet.
6.158Mit (6.36) wurde verdeutlicht, daß bei erwartungstreuen Schätzern Varianz und mittlerer
quadratischer Fehler übereinstimmen. Für einen erwartungstreuen Schätzer T ist bλ (T ) = 0.
6.159Mit der Cauchyschen Ungleichung war eine weitere Ungleichung in (6.21), bzw. in (6.29)
vorgestellt worden.
6.160Da f (|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite von (6.38) immer definiert.
Wenn allerdings E[f (|X|)] = ∞, ist diese Ungleichung nutzlos.
28. Januar 2011
117
Für eine reellwertige Zufallsvariable X ∈ L2 (Ω, F, P) gibt es mit
P[|X − E[X]| ≥ ǫ] ≤
(6.40)
Var(X)
,
ǫ2
6.165
ǫ > 0,
eine Variante der Čebyšev-Ungleichung.
6.8. Konvergenzbegriffe in der Wahrscheinlichkeitstheorie
In der Wahrscheinlichkeitstheorie werden etliche unterschiedlich starke“ Kon”
vergenzbegriffe benutzt. In diesem Abschnitt 6.8 werden die wichtigsten beschrie6.166
ben
.
(a) Stochastische Konvergenz 6.167. Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert stochastisch oder in Wahrscheinlichkeit gegen X, wenn
(6.41)
lim P[|Xn − X| > ǫ] = 0,
n→∞
ǫ > 0.
P
Man schreibt dann auch 6.168 Xn → X.
(b) Fast-sichere Konvergenz 6.169. Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert fast sicher (f.s.) gegen X, wenn 6.170
hn
oi
h
i
(6.42)
P ω ∈ Ω : lim Xn (ω) = X(ω) = P lim Xn = X = 1.
n→∞
n→∞
f.s.
Man schreibt dann auch Xn → X, f.s., oder Xn → X.
Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zum
stochastischen der fast-sichere Konvergenzbegriff der stärkere 6.171.
Beispiel 6.19. Sei (Ω, F, P) = ([0, 1), B([0, 1)), λ), wobei λ das Lebesguemaß auf
[0, 1) bezeichnet. Für k = 2n + m mit n ∈ N0 und m = 0, 1, . . . , 2n − 1 sei
Xk (ω) = I[m2−n ,(m+1)2−n ) (ω), ω ∈ [0, 1). Der Graph dieser Zufallsvariablen ist eine
Rechtecksfunktion“, die mit wachsendem n immer enger“ wird und mit steigen”
”
dem m von 0 nach rechts“ gegen 1 wandert und dann wieder nach 0 zurückspringt.
”
6.161Vgl. (6.3).
6.162Wegen der Linearität des Erwartungswerts, vgl. (6.6).
6.163Da f eine monoton wachsende, positive Funktion ist.
6.164
Aufgrund der Monotonie des Erwartungswerts, vgl. (6.5).
6.165Zum Beweis ist (6.39) für die Zufallsvariable X−E[X] anzuwenden und E[(X−E[X])2 ] =
Var(X), vgl. (6.20), zu beachten.
6.166Die vorgestellten Konvergenzbegriffe sind genau diejenigen, die im schwachen Gesetz
der großen Zahlen, beim starken Gesetz der großen Zahlen, bzw. im Zentralen Grenzwertsatz
verwendet werden.
6.167Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen verwendet, vgl. Beispiel 1.7 und Abschnitt 7.1.
6.168Diese Notation erinnert an die englische Bezeichnung Convergence in Probability“.
”
6.169Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz
der großen Zahlen in Erscheinung, vgl. Bemerkung 7.2.
6.170Es kann nachgewiesen werden, daß die Menge {ω ∈ Ω : lim
n→∞ Xn (ω) = X(ω)} meßbar
ist. Damit ist insbesondere P ω ∈ Ω : limn→∞ Xn (ω) = X(ω) wohldefiniert.
6.171Damit sind die Bezeichnungen schwaches, bzw. starkes Gesetz der großen Zahlen gerechtfertigt, vgl. Fußnoten 6.167 und 6.169.
28. Januar 2011
118
Die Folge Xk , k ∈ N, konvergiert stochastisch 6.172 aber nicht f.s.
gegen die Zufallsvariable X mit X ≡ 0.
6.173
gegen 0, d.h.
Satz 6.20. 6.174 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt existiert zu einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn ,
n ∈ N, von Zufallsvariablen eine Teilfolge Xnr , r ∈ N, die f.s. gegen X konvergiert 6.175.
(c) Konvergenz in Verteilung 6.176. Die in (a) und (b) vorgestellten Konvergenzbegriffe beziehen sich auf Zufallsvariablen Xn , n ∈ N, die alle auf dem gleichen
Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Wenn die Zufallsvariablen Xn ,
n ∈ N, verschiedene Wahrscheinlichkeitsräume als Definitionsbereiche besitzen, ist
das Konzept der Konvergenz in Verteilung nützlich.
Für n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ). Die Folge Xn , n ∈ N, konvergiert in Verteilung gegen eine
Zufallsvariable X, wenn 6.177 6.178
(6.43)
lim E[h(Xn )] = E[h(X)],
n→∞
h ∈ Cb (R).
d
Man schreibt dann auch 6.179 Xn → X.
Zur Verifizierung der Konvergenz in Verteilung kann in vielen Fällen der folgende Satz 6.21 verwendet werden. In jenem Resultat werden insbesondere auch
charakteristische Funktionen benutzt, wobei für eine reellwertige Zufallsvariable Y
deren charakteristische Funktion ψY : R → C durch 6.180 6.181
(6.44)
definiert ist
ψY (z) = E[exp(izY )],
6.182
z ∈ R,
.
6.172λ[{ω ∈ [0, 1) : |X (ω)| > ǫ}] = 2−n , falls k = 2n + m mit m = 0, 1, . . . , 2n − 1 und
k
ǫ ∈ (0, 1).
6.173
Zu einem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk (ω) = 1, nämlich k =
n
2 + ⌊ω2n ⌋, n ∈ N. Ebenso ist Xk (ω) = 0 für beliebig große k. Die Existenz von limk→∞ Xk bzgl.
der fast-sicheren Konvergenz ist daher ausgeschlossen.
6.174Vgl. [9], Lemma 4.2.
6.175Für die in Beispiel 6.19 diskutierte Folge X , n ∈ N von Zufallsvariablen, erhält man
n
mit nr = 2r , r ∈ N, eine f.s. gegen X ≡ 0 konvergente Teilfolge Xnr = I[0,2−r ) , r ∈ N.
6.176
Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl.
Beispiel 1.8 und Abschnitt 9.3.
6.177Mit C (R) wird der Raum der stetigen, beschränkten, reellwertigen Funktionen auf R
b
bezeichnet. Für eine nicht-stetige Funktion h braucht (6.43) nicht zu gelten.
6.178
Um anzudeuten, daß E[h(Xn )] einen Erwartungswert bzgl. des Wahrscheinlichkeitsmaßes
Pn auf dem meßbaren Raum (Ωn , Fn ) bezeichnet, könnte auch die Notation En [h(Xn )] verwendet
werden.
6.179Diese Notation erinnert an Convergence in Distribution“.
6.180Offensichtlich ist exp(izY ) ”= cos(zY ) + i sin(zY ) eine beschränkte, C-wertige Zufallsvariable. Für eine beliebige integrable, C-wertige Zufallsvariable Z = Z1 + iZ2 mit dem Realteil
Z1 und dem Imaginärteil Z2 definiert man unter Verwendung der Linearität des Erwartungswerts
E[Z] := E[Z1 ] + iE[Z2 ].
6.181
Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßes
besitzt, so folgt aus Beispiel 6.6 die Darstellung
Z
dx exp(izx)f (x), z ∈ R,
ψY (z) =
R
von ψY . Die charakteristische Funktion der Zufallsvariable Y entspricht somit der Fouriertransformierten der Dichte ihrer Verteilung.
6.182In Abschnitt 9.3 werden charakteristische Funktionen als wesentliches Hilfsmittel beim
Beweis des Zentralen Grenzwertsatzes in Erscheinung treten. Insbesondere wird die Äquivalenz
zwischen (1) und (3) in Satz 6.21 verwendet werden.
28. Januar 2011
119
Satz 6.21. 6.183 Für reellwertige Zufallsvariablen X, Xn , n ∈ N, sind die folgenden
Aussagen äquivalent:
d
(1) Xn → X.
(2) limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y
(3) limn→∞ ψXn (y) = ψX (y), y ∈ R.
6.184
.
Das nächste Resultat verdeutlicht den Zusammenhang zwischen stochastischer
Konvergenz und Konvergenz in Verteilung.
Satz 6.22. 6.185. Eine stochastisch gegen eine Zufallsvariable X konvergente Folge
von Zufallsvariablen Xn , n ∈ N, konvergiert auch in Verteilung gegen X.
Satz 6.20 und Satz 6.22 lassen sich zusammenfassen in
(6.45)
f.s.
Xn → X
=⇒
P
Xn → X
=⇒
d
Xn → X.
6.183Vgl. [9], Theorem 4.25, und [6], Section 5.9, Theorem (5).
6.184F ist die Verteilungsfunktion der Zufallsvariable Y , vgl. Abschnitt 3.3. Die hier beY
schriebene Konvergenz muß nur in den Stetigkeitspunkten von FX gelten.
6.185Vgl. [9], Lemma 4.7.
28. Januar 2011
KAPITEL 7
Gesetz der großen Zahlen
Ein Hauptthema der Wahrscheinlichkeitstheorie ist die zusammenfassende Beschreibung einer großen Menge von Zufallsvariablen 7.1. In diesem Zusammenhang
wird in diesem Kapitel mit einem schwachen Gesetz der großen Zahlen ein erstes
Resultat vorgestellt 7.2.
7.1. Ein schwaches Gesetz der großen Zahlen
Unter dem Begriff schwaches Gesetz der großen Zahlen“ kann man eine ganze
”
Klasse von Resultaten zusammenfassen. In diesen Resultaten wird für eine Folge Xn , n ∈ N, von Zufallsvariablen die Asymptotik der empirischen Mittelwerte
PN
(1/N ) k=1 Xk bzgl. der stochastischen Konvergenz 7.3 bei N → ∞ untersucht.
Daher sollte das nun vorgestellte Resultat nur als eine Variante des schwachen Gesetzes der großen Zahlen verstanden werden 7.4.
Satz 7.1. 7.5 Seien X1 , X2 , . . . reellwertige, paarweise unkorrelierte 7.6 Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[Xk2 ] < ∞, k ∈ N.
Sei 7.7
v := sup Var(Xn ) < ∞.
(7.1)
n∈N
Dann gilt
(7.2)
7.8
:
#
"
N
1 X
v
Xk − E[Xk ] ≥ ǫ ≤
P N
N ǫ2
k=1
N →∞
→ 0,
ǫ > 0.
Wenn E[Xk ] = µ, k ∈ N, für ein µ ∈ R, so folgt insbesondere 7.9:
"
#
N
1 X
v N →∞
(7.3)
P → 0, ǫ > 0.
X k − µ ≥ ǫ ≤
N
N ǫ2
k=1
7.1Das Ziel ist die Komprimierung von Informationen und damit auch die Herausarbeitung
der wesentlichen Details.
7.2Vgl. Satz 7.1. Weitere Beiträge sind z.B. das starke Gesetz der großen Zahlen, vgl. (7.4),
und der Zentrale Grenzwertsatz, vgl. Satz 9.3.
7.3Vgl. Abschnitt 6.8(a).
7.4Schon in Beispiel 1.7 wurde für i.i.d., {0, 1}-wertige Zufallsvariablen, d.h., in einem Spezialfall, das schwache Gesetz der großen Zahlen hergeleitet. Die dort angedeutete, auf der ČebyševUngleichung, vgl. Satz 6.18 und (6.40), basierende Methode eines Beweises ist auch in allgemeineren Fällen wie dem nun folgenden Satz 7.1 anwendbar.
7.5
Vgl. [5], Satz (5.6).
7.6Vgl. Abschnitt 6.4. Es wird gefordert, daß Cov(X , X ) = 0 für k, l ∈ N mit k 6= l.
k
l
7.7Da E[X 2 ] < ∞, k ∈ N, ist Var(X ) < ∞, k ∈ N. In (7.1) wird zusätzlich gefordert, daß
k
k
die Varianzen der Zufallsvariablen Xk , k ∈ N, gleichmäßig beschränkt sind.
7.8(7.2) besagt, daß die Zufallsvariablen (1/N ) PN (X − E[X ]) bei N → ∞ stochastisch
k
k
k=1
gegen 0 konvergieren.
7.9(7.3) besagt, daß die Zufallsvariablen (1/N ) PN X bei N → ∞ stochastisch gegen µ
k=1 k
konvergieren.
121
122
PN
Beweis. Sei ZN = (1/N ) k=1 (Xk − E[Xk ]), N ∈ N. Offenbar ist
L2 (Ω, F, P), N ∈ N, mit 7.11 E[ZN ] = 0, N ∈ N, und
X
N
2
7.12 1
Var
Xk
E[ZN ] = Var(ZN ) =
N2
7.10
ZN ∈
k=1
=
7.13
N
1 X
Var(Xk ) ≤
N2
k=1
7.14
v
.
N
(7.2) folgt nun durch eine Anwendung der Čebyšev-Ungleichung (6.39) auf die Zufallsvariablen ZN , N ∈ N.
Bemerkung 7.2. Unter den Voraussetzungen von Satz 7.1 gilt sogar das starke
Gesetz der großen Zahlen, d.h., 7.15
N
1 X
Xk − E[Xk ] = 0, f.s.
N →∞ N
(7.4)
lim
k=1
7.2. Anwendungen des schwachen Gesetzes der großen Zahlen
In diesem Abschnitt werden zwei Anwendungen des Gesetzes der großen Zahlen
beschrieben. Es wird mit der Berechnung des Integrals einer meßbaren Funktion ein
Problem der Numerik und mit der Approximation einer stetigen Funktion durch
Polynome ein Problem der Analysis mit Methoden der Wahrscheinlichkeitstheorie,
genauer dem schwachen Gesetz der großen Zahlen, gelöst. Beide Probleme haben
primär nichts mit Stochastik zu tun, d.h., der Zufall“ wird als ein mathematisches
”
Hilfsmittel benutzt.
7.2.1. Monte-Carlo-Integration. Für eine meßbare Funktion 7.16 h : ([0, 1],
B([0, 1])) → ([−c, c], B([−c, c])), wobei c ∈ (0, ∞) eine Konstante ist, soll 7.17
R1
0 dx h(x) berechnet werden.
Hierzu seien Xk , k ∈ N, unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen.
In diesem Fall sind die Zufallsvariablen h(Xk ), k ∈ N, unabhängig und identisch
verteilt 7.18 mit 7.19
Z 1
E[h(X1 )] = 7.20
(7.5)
dx h(x) := µh ,
0
Var(h(X1 )) = E[(h(X1 ) − µh )2 ] = E[h(X1 )2 ] − µ2h
Z 1
2
Z 1
2
7.20
=
dx h(x) −
dx h(x) ≤ c2 .
0
0
7.10Weil E[X 2 ] < ∞, k ∈ N.
k
7.11Aufgrund von (6.6) und (6.10).
7.12Wegen (6.26).
7.13Wegen (6.28). Man beachte, daß die Zufallsvariablen X , k ∈ N, unkorreliert sind.
k
7.14
Aufgrund der Annahme (7.1).
7.15Vgl. [5], Satz (5.15). Die fast-sichere Konvergenz wird in Abschnitt 6.8(b) erläutert. Da
die fast-sichere Konvergenz stärker“ als die stochastische Konvergenz ist, folgt (7.4) nicht aus
”
Satz 7.1.
7.16Die Meßbarkeit einer Funktion wird in (3.1) definiert.
7.17R 1 dx h(x) ist als Lebesgue-Integral aufzufassen. Die Annahme, daß h beschränkt ist,
0
könnte abgeschwächt werden. Ebenso könnte auch mit einem allgemeineren Integrationsbereich
gearbeitet werden.
7.18I. allg. besitzen h(X ), k ∈ N, natürlich keine Gleichverteilung.
k
7.19
Da die Zufallsvariablen h(Xk ), k ∈ N, identisch verteilt sind, reicht es, E[h(X1 )] und
Var(h(X1 )) zu untersuchen.
28. Januar 2011
123
Somit sind für die Zufallsvariablen h(Xk ), k ∈ N, die Voraussetzungen von Satz 7.1
erfüllt und es folgt 7.21:
#
"
Z 1
N
1 X
c2 N →∞
→ 0, ǫ > 0.
h(Xk ) −
dx h(x) ≥ ǫ ≤
(7.6)
P N
N ǫ2
0
k=1
Die zu (7.6) führenden Überlegungen können in einem Verfahren zur numeriR1
schen Bestimmung des Integrals 0 dx h(x) mit Hilfe von Simulationen zusammengefaßt werden. Dieses Verfahren wird als Monte-Carlo-Integration 7.22 bezeichnet.
(1) Bestimmung einer Folge x1 , x2 , . . . unabhängiger, in [0, 1] gleichverteilter
”
Pseudozufallszahlen“R 7.23.
PN
1
(2) Approximation von 0 dx h(x) durch (1/N ) k=1 h(xk ) mit einem hin”
reichend großen“ N ∈ N 7.24.
Bemerkungen 7.3 (zur Qualität der Monte-Carlo-Integration). (i) Das MonteCarlo-Verfahren ist besser als es (7.6) erkennen läßt. Da unter den Voraussetzungen
von Satz 7.1 auch das starke Gesetz der großen Zahlen gilt 7.25, ergibt sich sogar
Z 1
N
1 X
h(Xk ) =
dx h(x), f.s.
(7.7)
lim
N →∞ N
0
k=1
(ii) Die Konvergenzgeschwindigkeit kann mit Hilfe des Zentralen Grenzwertsatzes bestimmt werden 7.26. Es gilt:
Z 1
N
1 X
(7.8)
h(Xk ) −
dx h(x) = O(N −1/2 ), N → ∞.
N
0
k=1
(iii) Das Monte-Carlo-Verfahren zur Integration ist sinnvoll, wenn h keine Regularitätseigenschaften besitzt und wenn Wert auf einfache Programmierbarkeit
gelegt wird. Für reguläre (d.h., stetige, differenzierbare, . . . ) Integranden h stellt
R1
die Numerik wesentlich bessere Methoden zur Bestimmung von 0 dx h(x) bereit.
Insbesondere sind dann höhere Konvergenzgeschwindigkeiten als in (7.8) erreichbar 7.27.
7.2.2. (∗) Bernstein-Polynome und Approximationssatz von Weierstraß. 7.28 Eine stetige Funktion f : [0, 1] → R ist durch Polynome gleichmäßig in
7.20Vgl. Beispiel 6.6. Es ist zu beachten, daß die Gleichverteilung auf [0, 1] die Dichte f = I
[0,1]
besitzt.
7.21(7.6) ist eine Konsequenz von (7.3).
7.22Dieser Name verweist auf Monte Carlo mit seinem Casino. Dort werden am Roulette-
Tisch insbesondere auch Zufallszahlen erzeugt.
7.23Vgl. Fußnote 3.52.
7.24Zur Wahl von N in einer konkreten Anwendung muß die Konvergenzgeschwindigkeit
der Monte-Carlo-Integration bestimmt werden. Für eine vorgegebene Approximationsgenauigkeit
kann dann N bestimmt werden. Vgl. hierzu (7.8).
7.25
Vgl. Bemerkung 7.2.
7.26Vgl. Beispiel 9.7.
7.27Die Theorie hinter diesen Methoden aus der Numerik ist allerdings ebenso wie der Programmieraufwand zu ihrer Implementierung i. allg. wesentlich aufwendiger.
7.28Der Weierstraß’sche Approximationssatz sichert zu jeder stetigen Funktion f : [0, 1] → R
und jeder vorgegebenen Approximationsgenauigkeit ǫ > 0 die Existenz eines Polynoms fP,ǫ , so
daß
sup |f (x) − fP,ǫ (x)| ≤ ǫ.
x∈[0,1]
28. Januar 2011
124
[0, 1] zu approximieren 7.29. Hierzu werden Methoden der Wahrscheinlichkeitstheorie und insbesondere das schwache Gesetz der großen Zahlen angewandt.
7.2.2.1. Ein wahrscheinlichkeitstheoretischer Rahmen. 7.30 Sei Ω = {0, 1}N 7.31
und sei außerdem Xn , n ∈ N, mit
Xn (ω) = ωn ,
ω = (ωk )k∈N ∈ Ω, n ∈ N,
die Familie der Projektionen von Ω auf die einzelnen Komponenten {0, 1}.
Die übliche σ-Algebra F in Ω wird durch die Funktionen Xn , n ∈ N, erzeugt.
Dies bedeutet, daß F die kleinste σ-Algebra ist, die die Mengen 7.32
e ∗ = {ω ∈ Ω : Xk (ω) = ηk , . . . , Xk (ω) = ηk } :
F
n
n
1
1
k1 , . . . , kn ∈ N, 1 ≤ k1 < . . . < kn , ηk1 , . . . , ηkn ∈ {0, 1}, n ∈ N
enthält. Insbesondere sind die Projektionen Xn , n ∈ N, meßbare, {0, 1}-wertige
Funktionen auf (Ω, F).
Auf dem meßbaren Raum (Ω, F) ist für jedes p ∈ [0, 1] ein Wahrscheinlichkeitsmaß Pp definiert, so daß der Wahrscheinlichkeitsraum (Ω, F, Pp ) den ∞-fachen,
unabhängigen Wurf einer Münze mit Erfolgswahrscheinlichkeit“ p beschreibt 7.33.
”
Die Funktionen Xn , n ∈ N, auf Ω sind von p unabhängig. Werden sie hingegen als
Zufallsvariablen auf den Wahrscheinlichkeitsräumen (Ω, F, Pp ), p ∈ [0, 1], betrachtet, so hängt ihre Verteilung natürlich von p ab. Sie modellieren dann jeweils für
die Erfolgswahrscheinlichkeit p die Ergebnisse der einzelnen Würfe der Münze 7.34.
Im folgenden sei ein bzgl. des Wahrscheinlichkeitsmaßes Pp definierter Erwartungswert mit Ep [ . ] bezeichnet.
7.2.2.2. Anmerkungen zur Funktion f und Einführung der Bernstein-Polynome.
Wenn der Wahrscheinlichkeitsraum (Ω, F, Pp ) zugrundegelegt wird, besitzt die ZuP
7.35
fallsvariable N
. Insbesondere ist
n=1 Xn die Binomialverteilung B(N, p)
X
N
N
k N X
1
(7.9)
pk (1 − p)N −k
=
f
Ep f
Xn
N n=1
N
k
k=0
= : fN (p),
p ∈ [0, 1], N ∈ N.
Die Funktionen [0, 1] ∋ p → fN (p), N ∈ N, sind Polynome. Man bezeichnet sie als
Bernstein-Polynome 7.36.
7.29Da diese Polynome explizit angegeben werden, wird im folgenden sogar eine konstruktive
Version des Weierstraß’schen Satzes behandelt.
7.30Zunächst werden für die spätere Arbeit in diesem Abschnitt 7.2.2 Wahrscheinlichkeitsräume (Ω, F, Pp ), p ∈ [0, 1], und Zufallsvariablen Xn , n ∈ N, vorgestellt. Die Wahrscheinlichkeitsräume wurden bereits in Abschnitt 2.4.2 betrachtet, um den ∞-fachen, unabhängigen
Münzwurf zu beschreiben. Die Zufallsvariablen wurden hierzu passend in Beispiel 3.3 eingeführt,
um die Ergebnisse der einzelnen Würfe der Münze zu modellieren.
7.31{0, 1}N = {(ω )
k k∈N : ωk ∈ {0, 1}, k ∈ N} ist die Menge der {0, 1}-wertigen Folgen.
7.32F
e ∗ und das in (2.15) eingeführte Mengensystem F∗ sind identisch.
7.33Die Wahrscheinlichkeitsmaße P , p ∈ [0, 1], werden in Abschnitt 2.4.2 eingeführt. Sie sind
p
e ∗ = F∗ , vgl. (2.16), eindeutig charakterisert.
durch ihre Einschränkung auf Ereignisse in F
7.34Vgl. Beispiel 3.3.
7.35Vgl. Abschnitt 1.1.2, insbesondere (1.5). Die dort bestimmte Verteilung der Anzahl defekter Produktionsstücke ist gleich der Verteilung der Anzahl der Erfolge in der hier betrachteten
Situation.
7.36Die Definition (7.9) von f läßt schon jetzt die Konvergenz von f gegen f bei N → ∞
N
N
vermuten:
P
N→∞
• (1/N ) N
n=1 Xn −−−−→ Ep [X1 ] = p aufgrund des Gesetzes der großen Zahlen (bzgl.
(Ω, F, Pp )) und daher
P
N→∞
• fN (p) = Ep [f ((1/N ) N
∼ Ep [f (p)] = f (p), p ∈ [0, 1].
n=1 Xn )]
Im folgenden werden diese formalen Argumente präzisiert.
28. Januar 2011
125
Auf dem kompakten Intervall [0, 1] ist die stetige Funktion f sogar gleichmäßig
stetig, d.h., zu ǫ > 0 gibt ein δ > 0, so daß
|f (x) − f (y)| ≤ ǫ,
(7.10)
Daher gilt:
falls |x − y| ≤ δ.
7.37 7.38
N
X
f 1
Xn − f (p) ≤ ǫ + 2kf k∞I{|(1/N ) PN Xn −p|≥δ} .
N
n=1
(7.11)
n=1
7.2.2.3. Anwendung des schwachen Gesetzes der großen Zahlen. Nun kann die
gleichmäßige Konvergenz der Polynome fN gegen die Funktion f bei N → ∞, d.h.,
(7.12)
lim
sup |fN (p) − f (p)| = 0
N →∞ p∈[0,1]
nachgewiesen werden. Hierzu ergibt sich zunächst
|fN (p) − f (p)| =
(7.13)
=
≤
≤
N
X
Ep f 1
− f (p)
Xn
N n=1
X
N
Ep f 1
Xn − f (p) N n=1
X
N
1
7.40
Ep f
Xn − f (p)
N n=1
i
h
7.41
ǫ + 2kf k∞ Ep I{|(1/N ) PN Xn −p|≥δ}
n=1
|
{z
}
X
1 N
= Pp Xn − p ≥ δ
N n=1
7.39
1
ǫ + 2kf k∞ Varp (X1 )
| {z } N δ 2
= p(1 − p) ≤ 1/4
kf k∞
≤ ǫ+
, p ∈ [0, 1].
2N δ 2
≤
7.42
7.37kf k
7.38
∞ = sup{|f (x)| : x ∈ [0, 1]}.
Die Beziehung (7.11) ist eine abgekürzte Version von
N
X
f 1
Xn (ω) − f (p) ≤ ǫ + 2kf k∞ I{ω ′ ∈Ω:|(1/N) PN Xn (ω ′ )−p|≥δ} (ω),
n=1
N
n=1
ω ∈ Ω.
P
P
Für jedes ω ∈ Ω ist entweder |(1/N ) N
− p| < δ oder |(1/N ) N
n=1 Xn (ω)
n=1 Xn (ω) − p| ≥ δ.
PN
Aufgrund von (7.10) gilt im ersten Fall |f ((1/N ) n=1 Xn (ω)) − f (p)| ≤ ǫ, während im zweiten
P
Fall |f ((1/N ) N
n=1 Xn (ω)) − f (p)| ≤ 2kf k∞ ist.
28. Januar 2011
126
Zu einer vorgegebenen Approximationsgenauigkeit η > 0 in (7.12) ist nun zuerst
• ǫ = η/2 zu definieren, dann zu diesem ǫ ein
• δ > 0 so zu bestimmen, daß (7.10) gilt, und letztendlich ein
• N ≥ kf k∞ /(ηδ 2 ) zu wählen.
Dann führt (7.13) zu
|fN (p) − f (p)| ≤ η, p ∈ [0, 1].
Damit ist der Approximationssatz von Weierstraß bewiesen.
(∗)
7.39Wegen (7.9).
7.40Für eine Zufallsvariable Z in L1 (Ω, F, P), d.h. mit E[|Z|] < ∞, gilt:
|E[Z]| ≤ E[|Z|].
Beweis. Da Z ≤ |Z| und −Z ≤ |Z|, folgen aus der Monotonie und der Linearität des
Erwartungswerts, vgl. (6.5), (6.6) und die Bemerkung 6.4(i), die Beziehungen E[Z] ≤ E[|Z|] und
−E[Z] = E[−Z] ≤ E[|Z|]. Damit ist (∗) bewiesen.
Bemerkung. Wie die Cauchysche Ungleichung (6.21) ist (∗) ein Spezialfall der Jensenschen
Ungleichung, die besagt, daß
ϕ(E[X]) ≤ E[ϕ(X)],
falls ϕ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit E[|ϕ(X)|] < ∞ ist.
7.41
Wegen (7.11) und der Monotonie, der Linearität und der Normierung des Erwartungswerts, vgl. (6.5), (6.6) und (6.10).
7.42
Wegen des schwachen Gesetzes der großen Zahlen, vgl. (7.3). Beachte, daß auf dem Wahrscheinlichkeitsraum (Ω, F, Pp ) die Zufallsvariablen Xn , n ∈ N, unabhängig und identisch verteilt
mit Ep [X1 ] = p und Varp (X1 ) = p(1 − p) sind.
28. Januar 2011
KAPITEL 8
Bedingte Wahrscheinlichkeiten
I. allg. muß die Wahrscheinlichkeit eines Ereignisses A neu bewertet werden,
wenn bekannt wird, daß ein anderes Ereignis B eingetreten ist. Dies ist insbesondere
dann der Fall, wenn eine Abhängigkeit zwischen A und B besteht 8.1.
Man bezeichnet mit P[A|B] die Wahrscheinlichkeit für A unter der Bedingung,
daß B eingetreten ist 8.2.
Beispiel 8.1. Für k = 1, . . . , N beschreibe die {0, 1}-wertige Zufallsvariable Xk das
Ergebnis des k-ten Wurfs einer fairen Münze, wobei die einzelnen Würfe unabhängig
sind. Sei 8.3 A = {X1 + · · · + XN = N } und 8.4 B = {X1 = 0}.
Es gilt 8.5 P[A] = 2−N , aber 8.6 P[A|B] = 0 8.7.
Beispiel 8.2. 8.8 Den Überlegungen in Abschnitt 2.1 folgend wird zur Modellierung
des 2-maligen, unabhängen Wurfs eines fairen Würfels mit dem Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω = {1, . . . , 6}2 , F = Pot(Ω) und P die Gleichverteilung auf
(Ω, F) ist, gearbeitet. (Ω, F, P) ist ein Laplacescher Wahrscheinlichkeitsraum, d.h.,
(8.1)
P[C] =
|C|
|C|
=
,
|Ω|
36
C ∈ F.
Sei A = {ω = (ω1 , ω2 ) ∈ Ω : ω1 + ω2 = 6} und B = {ω ∈ Ω : ω1 = 3}. In diesem
Beispiel soll speziell P[A|B] und allgemeiner P[C|B], C ∈ F, bestimmt werden.
Wenn der 1. Wurf durchgeführt worden ist und 3 ergeben hat, d.h., wenn B eingetreten ist, müssen, wenn die dann gewonnene Information nicht ignoriert werden
soll, die Wahrscheinlichkeiten der Ereignisse in F neu bestimmt werden. Es ergibt
sich ein Wahrscheinlichkeitsmaß PB = P[ . |B] auf dem meßbaren Raum (Ω, F) 8.9.
Intuitiv wird beispielsweise erwartet, daß
(i) PB [{ω ∈ Ω : ω1 6= 3}] = PB [Ω \ B] = 0 8.10,
(ii) PB [{ω ∈ Ω : ω1 = 3}] = PB [B] = 1 8.11 und
(iii) PB [{ω ∈ Ω : ω2 = k}] = 1/6, k = 1, . . . , 6 8.12.
Als Präzisierung von (i) - (iii) kann
(
0,
falls l 6= 3,
(8.2)
PB [{ω ∈ Ω : ω1 = l, ω2 = k}] =
k = 1, . . . , 6,
1/6, falls l = 3,
8.1D.h., wenn A und B nicht stochastisch unabhängig sind, vgl. Abschnitt 3.2.3.
8.2Ein erstes Problem ist die Bestimmung von P[A|B], d.h. die Angabe einer Formel“.
”
8.3A , es wird N mal Zahl“ geworfen“.
”
”
beim ersten Wurf wird Kopf“ geworfen“.
”
”
(2.3).
8.6Wenn X = 0, kann niemals X + · · · + X = N sein.
1
1
N
8.7Beispiel 8.1 verdeutlicht somit, daß i. allg. P[A] und P[A|B] verschieden sind.
8.8
Mit diesem Beispiel soll die allgemeine Formel (8.4) zur Berechnung bedingter Wahrscheinlichkeiten motiviert werden.
8.9Man betrachtet hier die bedingten Wahrscheinlichkeiten P[C|B] simultan für alle C ∈ F.
8.10Die bedingte Wahrscheinlichkeit, daß B nicht eintritt unter der Bedingung, daß B eingetreten ist, sollte 0 sein.
8.11P ist daher auf B konzentriert.
B
8.12Da die beiden Würfe unabhängig sind.
8.4B ,
8.5Vgl.
127
128
festgehalten werden.
Aus (8.2) folgt zunächst
"
P[A|B] = PB [A] = PB
=
[
k,l=1,...,6; l+k=6
X
k,l=1,...,6
l+k=6
{ω ∈ Ω : ω1 = l, ω2 = k}
#
PB [{ω ∈ Ω : ω1 = l, ω2 = k}]
= PB [{ω ∈ Ω : ω1 = 3 = ω2 }] =
1 5
6=
=
6
36
8.13
Weiterhin bedeutet (8.2), daß die
• ω ∈ B 8.14 unter PB gleichwahrscheinlich sind, und die
• ω 6∈ B 8.15 unter PB die Wahrscheinlichkeit 0 besitzen.
Somit gilt
(8.3)
P[C|B] = PB [C] =
8.16
=
8.17
P[A] .
|C ∩ B|/|Ω|
|C ∩ B|
=
|B|
|B|/|Ω|
P[C ∩ B]
, C ∈ F,
P[B]
für die bedingte Wahrscheinlichkeit von C ∈ F unter der Bedingung B
8.18
.
8.1. Bestimmung bedingter Wahrscheinlichkeiten
8.19
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum. Allgemein ist für ein B ∈ F mit
P[B] > 0 8.20 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) 8.21. Für dieses Wahrscheinlichkeitsmaß
P[ . |B] sind außerdem folgende Eigenschaften zu erwarten:
(i) P[B|B] = 1 8.22.
(ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cB P[A], falls A ∈ F,
A ⊆ B 8.23 8.24.
8.13Vgl. (8.1). Es ist zu beachten, daß |A| = 5.
8.14Ein ω ∈ B zeichnet sich durch ω = 3 aus.
1
8.15Ein ω 6∈ B zeichnet sich durch ω 6= 3 aus.
1
8.16Nur die ω ∈ B besitzen unter P eine positive Wahrscheinlichkeit. Diese ist 1/|B|, da
B
unter PB alle solchen ω’s gleichwahrscheinlich sind. Man beachte hier auch, daß genau |C ∩ B|
Elemente von C auch in B enthalten sind.
8.17
Vgl. (8.1).
8.18Im nächsten Abschnitt 8.1 wird demonstriert, daß (8.3) allgemeingültig ist.
8.19In diesem Abschnitt werden die Überlegungen aus Beispiel 8.2 in einem allgemeinen
Rahmen wiederholt. Insbesondere wird die Allgemeingültigkeit von (8.3) nachgewiesen.
8.20Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakterisierenden Beziehung (8.4).
8.21Insbesondere erfüllt P[ . |B] die Beziehungen (2.2).
8.22Wenn B eingetreten ist, ist B ein sicheres Ereignis.
8.23Mit dem Beobachten, daß B eingetreten ist, sind keine weiteren Erkenntnisse über tiefergehende Details, d.h. Ereignisse A ⊆ B, verbunden. Für A, A′ ∈ F mit A, A′ ⊆ B sollte folglich
das Verhältnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintreten
von B gleich sein, d.h.,
P[A]
P[A|B]
=
,
P[A′ ]
P[A′ |B]
A, A′ ∈ F, A, A′ ⊆ B.
Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′ |B]/P[A′ ] für ein beliebiges, fest
gewähltes A′ ⊆ B mit P[A′ ] > 0.
8.24
Im Rahmen des Beispiel 8.2 sind die dortigen vor (8.3) aufgeführten Eigenschaften
äquivalent zu (i) und (ii).
28. Januar 2011
129
Aus (i) und (ii) für A = B folgt 1 = P[B|B] = cB P[B], d.h., cB = 1/P[B].
Damit ergibt sich
(8.4)
8.25
P[A ∩ B|B] + P[A ∩ (Ω \ B)|B]
{z
}
|
8.26
=
0
= cB P[A ∩ B]
P[A|B] =
=
P[A ∩ B]
,
P[B]
A ∈ F.
Diese Überlegungen zeigen, daß für B ∈ F mit P[B] > 0 durch (i) und (ii)
ein eindeutiges Wahrscheinlichkeitsmaß P[ . |B] auf (Ω, F) bestimmt wird. Dieses
Wahrscheinlichkeitsmaß genügt der Beziehung (8.4). Es wird die unter B bedingte
Wahrscheinlichkeit genannt 8.27.
Beispiel 8.3 (Gedächtnislose Wartezeiten). Gewisse regelmäßig wiederkehrende
Ereignisse können jederzeit eintreten, unabhängig davon, welche Zeitspanne seit ihrem letzten Auftreten schon verstrichen ist 8.28. Somit ist die verbleibende Wartezeit
T bis zum nächsten Eintreten eines derartigen Ereignisses gedächtnislos.
Diese Gedächtnislosigkeit bedeutet, daß
P[T > t + s|T > t] = P[T > s],
0 < s, t < ∞,
und folglich
P[T > t + s] =
8.29
P[T > t]P[T > t + s|T > t]
= P[T > t]P[T > s],
0 < s, t < ∞.
Daher ist die durch w(t) = P[T > t], t > 0, definierte Funktion w : (0, ∞) → [0, 1]
eine rechtsstetige 8.30 und monoton fallende 8.31 Lösung der Funktionalgleichung
(8.5)
w(t + s) = w(t)w(s),
0 < s, t < ∞.
.
8.25Wegen der Additivität des Wahrscheinlichkeitsmaßes P[ . |B] und weil A = (A ∩ B) ∪
(A ∩ (Ω \ B)).
8.26
Wegen (i) ist die gesamte Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen”
triert, d.h., P[C|B] = 0, falls C ⊆ Ω \ B.
8.27Gelegentlich wird auch einfach (8.4) als Definition der unter B bedingten Wahrscheinlichkeit P[ . |B] benutzt.
8.28
Beispiele wären Telefonanrufe, Zerfälle in einem radioaktiven Präparat, Meteoriteneinschläge, . . .
8.29Vgl. (8.4). Man beachte, daß {T > t + s} ⊆ {T > t} und damit
P[T > t + s|T > t] =
P[T > t + s]
P[{T > t + s} ∩ {T > t}]
=
.
P[T > t]
P[T > t]
8.30Da
w(t) = P[T > t] = 1 − P[T ≤ t] = 1 − FT (t),
t > 0,
mit der Verteilungsfunktion FT von T , ist die Rechtsstetigkeit von w eine Konsequenz der Rechtsstetigkeit beliebiger Verteilungsfunktionen, vgl. Abschnitt 3.3.1.
8.31
Offensichtlich ist w(t1 ) = P[T > t1 ] ≥ P[T > t2 ] = w(t2 ), 0 < t1 ≤ t2 < ∞.
28. Januar 2011
130
w hat daher notwendigerweise die Darstellung
(8.6)
8.32
w(t) = exp(−λt),
t > 0,
für ein λ > 0. Als Konsequenz hat die Verteilungsfunktion FT von T die Gestalt
FT (t) = P[T ≤ t] = 1 − P[T > t] = 1 − exp(−λt),
d.h., T ist exponentiell verteilt mit Parameter λ
t > 0,
8.33
.
8.1.1. Rechenregeln für bedingte Wahrscheinlichkeiten. Beim konkreten Arbeiten mit bedingten Wahrscheinlichkeiten muß häufig auf die im folgenden
Satz zusammengefaßten Rechenregeln zurückgegriffen werden 8.34.
•
S
Satz 8.4. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und Ω = i∈I Bi eine höchstens abzählbare Zerlegung von Ω in disjunkte Ereignisse Bi ∈ F mit P[Bi ] > 0,
8.32Für eine Lösung w von (8.5) führt zunächst eine Iteration zu
(∗1 )
Insbesondere ist
w(p/q) = w(1/q) . . . w(1/q) = w(1/q)p ,
|
{z
}
p mal
w(1) = w(q/q) = w(1/q)q ,
p, q ∈ N.
q ∈ N,
d.h.,
w(1/q) = w(1)1/q ,
(∗2 )
q ∈ N.
Aus (∗1 ) ergibt sich ebenso
(∗3 )
w(p) = w(1)p ,
p ∈ N.
Ist w(1) = 0, bzw. w(1) = 1, so kann aus (∗2 ), bzw. (∗3 ), und der Rechtsstetigkeit und der
Monotonie von w gefolgert werden, daß
w(s) = 0, s > 0,
bzw.
w(s) = 1, s > 0.
Wenn w(s) = P[T > s] = 0, s > 0, ergibt sich aus der Rechtsstetigkeit der Verteilungsfunktion
FT von T , vgl. Abschnitt 3.3.1(iv), weiterhin
(∗4 )
P[T = 0] = P[T ≤ 0] = FT (0) = lim FT (s) = lim (1 − P[T > s]) = 1.
sց0
sց0
Andererseits, wenn w(s) = P[T > s] = 1, s > 0, wird aufgrund der σ-Subadditivität von P, vgl.
Fußnote 2.9, deutlich, daß
" ∞
#
[
(∗5 )
P[T = ∞] = 1 − P[T < ∞] = 1 − P
{T ≤ n}
n=1
≥ 1−
∞
X
n=1
P[T ≤ n] = 1 −
∞
X
n=1
(1 − P[T > n]) = 1.
In real interessierenden Anwendungen trifft (∗4 ), bzw. (∗5 ), nicht zu. Somit ist w(1) ∈ (0, 1),
d.h. λ := − log w(1) ∈ (0, ∞). Nun folgt
w(p/q) = w(1)p/q = exp(−λ)p/q = exp(−λp/q),
p, q ∈ N,
aus (∗1 ) und (∗2 ). Somit ist (8.6) für t ∈ Q ∩ (0, ∞) nachgewiesen. Die Gültigkeit dieser Beziehung
für alle t > 0 ist dann eine Konsequenz der Rechtsstetigkeit von w.
8.33Man beachte, daß F in (0, ∞) stetig differenzierbar mit F ′ (t) = λ exp(−λt), t > 0, ist,
T
T
und berücksichtige Abschnitt 3.3.1(vi).
8.34
In Beispiel 8.5 werden diese Regeln benutzt werden, um aus gegebenen bedingten Wahrscheinlichkeiten andere zunächst unbekannte, nützliche Informationen liefernde bedingte Wahrscheinlichkeiten zu berechnen.
28. Januar 2011
131
i ∈ I. Dann gilt die Fallunterscheidungsformel, d.h. 8.35,
X
(8.7)
P[A] =
P[Bi ]P[A|Bi ], A ∈ F,
i∈I
und die Formel von Bayes (1763), d.h.,
(8.8)
P[Bk ]P[A|Bk ]
P[A]
P[Bk ]P[A|Bk ]
,
= P
i∈I P[Bi ]P[A|Bi ]
P[Bk |A] =
8.36
k ∈ I, A ∈ F, P[A] > 0.
Beweis. (8.7) folgt aus
X
X
P[Bi ] P[A|Bi ] =
P[A ∩ Bi ]
| {z }
i∈I
i∈I
P[A ∩ Bi ]
= 8.37
P[Bi ]
" •
#
[
= 8.38 P
(A ∩ Bi ) =
| i∈I {z
}
[
•
=A∩
Bi
8.39
P[A].
i∈I
Die erste Beziehung in (8.8) ist eine Konsequenz aus
P[Bk |A] =
8.40
P[Bk ∩ A] P[Bk ∩ A] P[Bk ]
=
.
·
P[A]
P[Bk ]
P[A]
| {z }
= 8.40 P[A|Bk ]
Die zweite Identität in (8.8) ergibt sich nun mit (8.7).
Beispiel 8.5 (Verwendung eines medizinischen Diagnoseverfahrens). 8.41 Eine spezielle Krankheit trete bei 4% der Bevölkerung auf. Ein auf diese Krankheit zugeschnittenes Diagnoseverfahren ergebe bei 90% (20%) der Erkrankten (Gesunden)
ein positives Ergebnis.
Wichtige Fragen zu diesem Verfahren sind beispielsweise:
• Was ist die Bedeutung eines positiven (negativen) Befundes für einen Patienten? 8.42
• Was kann das Diagnoseverfahren in der Praxis leisten?
8.35Man beachte, daß genau ein B eintreten muß, wenn das Ereignis A geschieht. Daher
i
ergibt sich P[A] durch Summation über alle i ∈ I der Wahrscheinlichkeiten P[Bi ] für das Eintreten
von Bi jeweils multipliziert mit der Wahrscheinlichkeit P[A|Bi ] für A unter der Bedingung, daß
Bi schonPeingetreten ist. M.a.W., da jeder Weg nach A genau durch ein Bi führt, ist P[A] die
”
Summe i∈I P[Bi ]P[A|Bi ] der Wahrscheinlichkeiten für die verschiedenen möglichen Wege“.
8.36Hier wird der Zusammenhang zwischen P[B |A] und P[A|B ] dargelegt.
k
k
8.37Vgl. (8.4).
8.38Da die Ereignisse B , i ∈ I, und daher auch A ∩ B , i ∈ I, disjunkt sind und aufgrund
i
i
der σ-Additivität von P.
•
S
8.39
Da i∈I Bi = Ω.
8.40Vgl. (8.4).
8.41Das hier vorgestellte Beispiel ist eine etwas ausführlichere Version von Beispiel (3.4) in [5].
8.42Ein Arzt will wissen, was er einem Patienten bei einem positiven, bzw. einem negativen Befund mitteilen soll. Einerseits sollte er diesen Patienten beim Vorliegen einer Erkrankung
aufklären, aber andererseits sollte er ihn auch nicht unnötig verunsichern.
28. Januar 2011
132
Zu einer wissenschaftlich fundierten Beantwortung dieser Fragen werden die
vorliegenden Kenntnisse zunächst in ein mathematisches, d.h. wahrscheinlichkeitstheoretisches Modell übersetzt. Anschließend werden die Fragen im Rahmen dieses
Modells beantwortet.
Wenn bei der Modellbildung Einfachheit“ 8.43 angestrebt wird, bietet es sich
”
an, ein Laplacesches Modell mit der Gesamtbevölkerung als Stichprobenraum Ω zu
verwenden. In diesem Rahmen werden Personen ω ∈ Ω gemäß der Gleichverteilung
auf Ω ausgewählt und getestet.
In Ω können die Ereignisse 8.44
Tk =
8.45
Tg =
8.46
T+ =
8.47
{ω ∈ Ω : ω krank},
{ω ∈ Ω : ω gesund} und
{ω ∈ Ω : ω mit positivem Befund}
beschrieben werden. Aufgrund der vorliegenden Informationen sind hierzu zunächst
die folgenden bedingten, bzw. unbedingten Wahrscheinlichkeiten bekannt:
P[Tk ] = 0.04,
P[T+ |Tk ] = 0.9,
P[Tg ] = 0.96,
P[T+ |Tg ] = 0.2.
Als Konsequenzen können darüberhinaus folgende Schlüsse gezogen werden 8.48:
(8.9)
P[Tk |T+ ]
8.49
P[Tk |Ω \ T+ ]
8.51
P[Tk ]P[T+ |Tk ]
P[Tk ]P[T+ |Tk ] + P[Tg ]P[T+ |Tg ]
0.04 · 0.9
=
0.04 · 0.9 + 0.96 · 0.2
≈ 0.158,
=
8.50
P[Tk ]P[Ω \ T+ |Tk ]
P[Tk ]P[Ω \ T+ |Tk ] + P[Tg ]P[Ω \ T+ |Tg ]
0.04 · 0.1
=
0.04 · 0.1 + 0.96 · 0.8
≈ 0.0052.
=
Bei der Untersuchung beliebiger, zufällig ausgewählter Patienten bedeutet dies,
daß
8.43Bei der mathematischen Modellierung realer Vorgänge sollte man immer zuerst versuchen, mit möglichst elementaren Modellen zu arbeiten. Dadurch bleiben alle mathematischen
Überlegungen und Berechnungen übersichtlicher“ und einfacher zu überprüfen. Insbesondere
”
wird es dann auch leichter, einem Anwender“ die Ergebnisse der Modellierung zu vermitteln.
”
Erst wenn ein elementares Modell nicht mehr mit der Realität in Einklang gebracht werden kann,
sollten komplexere Modelle in Betracht gezogen werden.
8.44Man beachte, daß wie üblich Ereignisse mit Teilmengen des Stichprobenraums identifiziert
werden.
8.45T ist das Ereignis, daß eine zufällig ausgewählte Person krank ist.
k
8.46
Tg ist das Ereignis, daß eine zufällig ausgewählte Person gesund ist.
8.47
T+ ist das Ereignis, daß eine zufällig ausgewählte Person einen positiven Befund hat.
8.48Die nun berechneten bedingten Wahrscheinlichkeiten ergeben sich durch Anwendung der
Formel von Bayes, vgl. (8.8).
8.49Dies ist die Wahrscheinlichkeit für das Vorliegen einer Erkrankung, falls sich ein positiver
Befund ergibt.
8.50Setze hierzu B = T , B = T und A = T in (8.8).
g
1
2
+
k
8.51
Dies ist die Wahrscheinlichkeit für eine Erkrankung, falls ein negativer Befund vorliegt.
28. Januar 2011
133
• ein positiver Befund nur mit geringer Wahrscheinlichkeit 0.158 auf eine
Erkrankung hindeutet 8.52, während
• bei einem negativen Befund mit hoher Wahrscheinlichkeit 0.9948 = 1 −
0.0052 eine Erkrankung ausgeschlossen werden kann.
Folglich eignet sich das vorliegende Diagnoseverfahren, um
• bei einem negativen Befund eine Erkrankung auszuschließen, während
• bei einem positiven Befund eine weitere Beobachtung des Patienten zu
empfehlen ist.
8.2. Markovketten
Ein stochastischer Prozeß 8.53 X = (Xt )0≤t<∞ wird Markovprozeß genannt,
wenn in jedem Zeitpunkt s ≥ 0 die zukünftige Entwicklung, d.h., Xu , u > s, bei
gegebenem gegenwärtigen Zustand Xs nicht von der Vergangenheit Xu , u < s,
abhängt. Die elementarsten Beispiele für solche Prozesse sind Markovketten, d.h.
Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h., höchstens
abzählbaren Raum.
Ein stochastischer Prozeß 8.54 X = (Xn )n∈N0 in diskreter Zeit 8.55 mit Werten
in einem höchstens abzählbaren Zustandsraum 8.56 S heißt Markovkette, falls 8.57
(8.10) P Xn+k = s′ | X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn
|
{z
}
{z
}
| {z } |
Gegenwart
Zukunft
Vergangenheit
′
= P Xn+k = s |Xn = sn , n ∈ N0 , k ∈ N, s0 , s1 , . . . , sn , s′ ∈ S.
Zur Charakterisierung der zukünftigen Entwicklung einer Markovkette reicht also
die Kenntnis des gegenwärtigen Zustandes aus. Die Kenntnis der zeitlichen Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informationsgewinn.
Die Größen
(8.11)
Pn (s1 , s2 ) = P Xn+1 = s2 |Xn = s1 , s1 , s2 ∈ S, n ∈ N0 ,
heißen (1-Schritt-)Übergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-)
Übergangsmatrizen Pn = (Pn (s, s′ ))s,s′ ∈S , n ∈ N0 , zusammengefaßt. Eine Markovkette besitzt stationäre Übergangswahrscheinlichkeiten, falls Pn = P unabhängig
von n ist 8.58 8.59.
Im folgenden werden nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet werden.
8.52Die Ursache für diese vielleicht überraschende Eigenschaft des Diagnoseverfahrens ist die
Tatsache, daß ein relativ hoher Anteil der Bevölkerung gesund ist und daß bei diesen Gesunden
mit einer nicht vernachlässigbaren Wahrscheinlichkeit sich ein positiver Befund ergibt, vgl. (8.9).
Ein positiver Befund hat somit bei diesem Diagnoseverfahrens nur eine geringe Aussagekraft.
8.53Vgl. Abschnitt 3.4.
8.54Die Zufallsvariablen X , n ∈ N , seien auf einem Wahrscheinlichkeitsraum (Ω, F, P)
n
0
definiert.
8.55Als Menge aller Zeitpunkte kommt oft auch N oder Z vor.
8.56
Als abzählbare Menge wird S natürlich mit der σ-Algebra Pot(S) versehen.
8.57Stillschweigend sei darüberhinweggesehen, daß aufgrund von (8.4) die linke Seite von
(8.10) nur wohldefiniert ist, wenn P[X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn ] > 0. In diesem Fall ist
auch die rechte Seite von (8.10) wohldefiniert und stimmt mit der linken Seite überein, wenn X
eine Markovkette ist.
8.58In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik.
8.59
Man beachte, daß eine Markovkette mit stationären Übergangswahrscheinlichkeiten kein
stationärer stochastischer Prozeß, vgl. Abschnitt 3.4.1, zu sein braucht. Für die in Beispiel 3.21
und dem folgenden Beispiel 8.7 beschriebene Irrfahrt in Z wird dies in Beispiel 3.23 demonstriert.
28. Januar 2011
134
Beispiel 8.6. Zum Parameter p ∈ (0, 1) seien Yn , n ∈ N, unabhängige, Bernoulliverteilte Zufallsvariablen in {−1, 1}, d.h. mit P[Yn = 1] = 1 − P[Yn = −1] = p, n ∈
N. Der Bernoulli-Prozeß 8.60 Y = (Yn )n∈N (mit Parameter p) ist eine Markovkette
mit Werten in S = {−1, 1}. Es gilt P (a, 1) = p, P (a, −1) = 1 − p, a ∈ S 8.61.
P
Beispiel 8.7. Die Irrfahrt 8.62 X = (Xn )n∈N0 , wobei Xn = Xn−1 + Yn = nk=1 Yk ,
n ∈ N0 , für die Zufallsvariablen Yn , n ∈ N, aus Beispiel 8.6, ist eine Markovkette
mit Werten in S = Z. Es gilt 8.63


falls k ∈ S, l = k + 1,
p,
P (k, l) = 1 − p, falls k ∈ S, l = k − 1,


0,
sonst.
Beispiel 8.8 (Verallgemeinerte Irrfahrt). Sei ζn , n ∈ N, eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Werten in Z, wobei P[ζ1 = k] = ak ,
k ∈ Z.
Weiterhin sei X = (Xn )n∈N0 durch
X0 = 0,
Xk = Xk−1 + ζk =
k
X
ζl ,
k = 1, 2, . . . ,
l=1
definiert. X ist offensichtlich eine Verallgemeinerung der in Beispiel 8.7 beschriebenen Irrfahrt 8.64. Insbesondere ist X eine Markovkette mit dem Zustandsraum Z
und der Übergangsmatrix 8.65

..
..
..
.
.
 .
..
 . a0
a1

. . . a−1 a0
P =
. . . . . . . . . a−1

. . . . . . . . . . . . . . .

.............
a2
a1
a0
a−1
....................
.......
a2 . . .
a1 . . .
a0 . . .
.. ..
.
.






.




8.60Vgl. Beispiel 3.20.
8.61Offensichtlich sind, wenn die anschauliche Beschreibung von Markovprozessen am Anfang
dieses Abschnitts 8.2 zugrundegelegt wird, auch die in Fußnote 3.232 erwähnten verallgemeinerten
Bernoulli-Prozesse markovsch. In diesen Fällen braucht weder die Menge der Zeitpunkte noch der
Zustandsraum diskret zu sein.
8.62Vgl. Beispiel 3.21.
8.63Die Irrfahrt springt in ihrem Zustandsraum Z in jedem Zeitpunkt jeweils mit Wahrscheinlichkeit p um 1 nach rechts, bzw. mit Wahrscheinlichkeit 1 − p um 1 nach links. Andere Sprünge
sind nicht möglich.
8.64Wie bei der Irrfahrt ergibt sich in jedem Zeitpunkt n ∈ N der zukünftige Zustand X
0
n+1
aus dem gegenwärtigen Zustand Xn durch Addieren eines Zuwachses ζn+1 , wobei diese Zuwächse
unabhängige, identisch verteilte Zufallsvariablen sind.
8.65Da P (k, k + l) = P[X
n+1 = k + l|Xn = k] = P[ζn+1 = l] = P[Xn+1 = k + 1 + l|Xn =
k + 1] = P (k + 1, k + l + 1), n ∈ N0 , k, l ∈ Z, entsteht die (k + 1)-te Zeile in der Matrix P aus der
k-ten Zeile durch eine Verschiebung um 1 nach rechts“.
”
28. Januar 2011
135
Die Verteilung PX einer Markovkette 8.66 X = (Xn )n∈N0 ist durch ihre Übergangsmatrix und ihre Anfangsverteilung PX0 eindeutig bestimmt. Es gilt
(8.12) P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= PX0 [{s0 }]P (s0 , s1 ) · · · P (sn−1 , sn ),
8.67
s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Diese Beziehung ergibt sich aus
P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= P X0 = s0 , . . . , Xn−1 = sn−1 P Xn = sn |X0 = s0 , . . . , Xn−1 = sn−1
= P X0 = s0 , . . . , Xn−2 = sn−2 P Xn−1 = sn−1 |X0 = s0 , . . . , Xn−2 = sn−2
P Xn = sn |Xn−1 = sn−1
= ...
= P[X0 = s0 ]P X1 = s1 |X0 = s0 . . . P (sn−1 , sn )
= PX0 [{s0 }]P (s0 , s1 ) · · · P (sn−1 , sn ),
s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Als Verallgemeinerung der (1-Schritt-)Übergangswahrscheinlichkeiten werden
die n-Schritt-Übergangswahrscheinlichkeiten durch 8.68
(8.13)
P n (s1 , s2 ) = P[Xn+m = s2 |Xm = s1 ],
8.69
0
m, n ∈ N0 , s1 , s2 ∈ S,
definiert. Für n = 0 setzt man hierbei
P (s1 , s2 ) = δs1 ,s2 , s1 , s2 ∈ S. Die
n-Schritt-Übergangswahrscheinlichkeiten genügen der Chapman-Kolmogorov-Gleichung, d.h., 8.70
X
(8.14)
P k+l (s1 , s2 ) =
P k (s1 , s)P l (s, s2 ), k, l ∈ N0 , s1 , s2 ∈ S.
s∈S
Bemerkungen 8.9. (i) Die Übergangsmatrix P = (P (s, s′ ))s,s′ ∈S einer S-wertigen
Markovkette X = (Xn )n∈N0 ist eine stochastische Matrix, d.h., es gilt 8.71
′
′
(a) P
P(s, s ) ≥ 0, ′s, s ∈ S,
8.72
.
(b)
s′ ∈S P (s, s ) = 1, s ∈ S
8.66Mit der Verteilung P einer Markovkette oder allgemeiner der Verteilung eines stochastiX
schen Prozesses X = (Xn )n∈N0 ist die gemeinsame Verteilung der Zufallsvariablen {Xn : n ∈ N0 },
vgl. (3.7), gemeint. Für ein festes n ∈ N0 beschreiben die Größen auf der linken Seite von (8.12) die
gemeinsame Verteilung von X0 , X1 , . . . , Xn . Diese gemeinsamen Verteilungen werden als endlichdimensionale Verteilungen von X bezeichnet. Sie bestimmen eindeutig die Verteilung PX des
stochastischen Prozesses X.
8.67Hier wird insbesondere mehrmals die bedingte Wahrscheinlichkeiten charakterisierende
Relation (8.4) und die Markoveigenschaft (8.10) benutzt.
8.68Da hier nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet werden, ist die rechte Seite von (8.13) von m unabhängig.
8.69δ bezeichnet das Kronecker-Symbol, d.h.,
.,.
(
1, falls s = s′ ,
δs,s′ =
0, sonst.
8.70Der Übergang von s nach s in k + l Schritten führt durch einen Zwischenzustand s ∈ S
1
2
nach k Schritten. Wegen der Markoveigenschaft (8.10), bzw. wegen (8.12) hat für alle m ∈ N0
k Schritte
l Schritte
bedingt unter Xm = s1 der Weg s1 −−−−−−−→ s −−−−−−→ s2 für ein festes s die Wahrscheinlichkeit
P[Xm+k = s, Xm+k+l = s2 |Xm = s1 ] = P[Xm+k = s|Xm = s1 ] · P[Xm+k+l = s2 |Xm+k = s] =
P k (s1 , s)P l (s, s2 ). Die Übergänge durch verschiedene Zwischenzustände s entsprechen disjunkten
Ereignissen, d.h., ihre jeweiligen Wahrscheinlichkeiten addieren sich zur Gesamtwahrscheinlichkeit
P k+l (s1 , s2 ).
8.71Die Komponenten von P sind nichtnegativ und ihre Zeilen addieren sich zu 1.
P
8.72Weil P
′
′
s′ ∈S P (s, s ) =
s′ ∈S P[Xn+1 = s |Xn = s] = P[Xn+1 ∈ S|Xn = s] = 1 für alle
s ∈ S und n ∈ N0 .
28. Januar 2011
136
(ii) Für n ∈ N ist die Matrix P n der n-Schritt-Übergangswahrscheinlichkeiten
das n-fache Matrixprodukt der 1-Schritt-Übergangsmatrix P 8.73.
(iii) Das zeitliche Verhalten einer S-wertigen Markovkette X = (Xn )n∈N0 wird
durch die algebraischen Eigenschaften ihrer Übergangsmatrix P = (P (s, s′ ))s,s′ ∈S
bestimmt. Sei beispielsweise µ = (µs )s∈S ein linker Eigenvektor von P mit Eigenwert 1, d.h. mit
X
(8.15)
µs P (s, s′ ) = µs′ , s′ ∈ S,
s∈S
wobei außerdem
8.74
µs ≥ 0, s ∈ S,
(8.16)
und
X
µs = 1
s∈S
gelte. Dann beschreibt µ eine invariante Verteilung von X, d.h., PX0 [{s}] = P[X0 =
s] = µs , s ∈ S, impliziert 8.75
(8.17)
PXn [{s}] = P[Xn = s] = µs ,
s ∈ S, n ∈ N0 .
8.73Dies folgt durch vollständige Induktion aus (8.14). Offensichtlich zeigt (8.14), daß die
Matrix P k+l das Produkt der Matrizen P k und P l ist.
8.74µ entspricht damit einem Wahrscheinlichkeitsmaß auf S.
8.75(8.17) folgt zunächst für n = 1 aus
X
PX1 [{s}] = P[X1 = s] = P[X0 ∈ S, X1 = s] =
P[X0 = s′ , X1 = s]
=
X
s′ ∈S
′
′
PX0 [{s }]P (s , s) =
X
s′ ∈S
s′ ∈S
µs′ P (s′ , s) = µs ,
s ∈ S,
wobei u.a. (8.12) Verwendung findet. Durch Iteration dieser Argumente ergibt sich (8.17) schließlich für alle weiteren n = 2, 3, . . . .
28. Januar 2011
KAPITEL 9
Zentraler Grenzwertsatz
Ein Ziel dieses Kapitels ist die Präzisierung der im Gesetz der großen Zahlen
formulierten Konvergenz. Insbesondere wird für i.i.d., reellwertige,
quadratintegra√
ble Zufallsvariablen Xn , n ∈ N, gezeigt, daß der mit N multiplizierte Abstand
P
9.1
zwischen dem empirischen Mittelwert (1/N ) N
E[X1 ]
k=1 Xk und dem Grenzwert
9.2
asymptotisch bei N → ∞ normalverteilt ist .
9.1E[X ] wird im Gesetz der großen Zahlen als Grenzwert von (1/N ) PN X bei N → ∞
1
k=1 k
identifiziert, vgl. Satz 7.1.
9.2Vgl. Satz 9.3. Somit wird nachgewiesen, daß für i.i.d., reellwertige, quadratintegrable ZuP
fallsvariablen Xn , n ∈ N, die Differenz zwischen dem empirischen Mittelwert (1/N ) N
k=1 Xk und
√
E[X1 ] bei N → ∞ wie 1/ N klein wird.
141
144
9.2. Eigenschaften charakteristischer Funktionen
In diesem Abschnitt werden einige Eigenschaften von charakteristischen Funktionen 9.16 vorgestellt, die im folgenden Abschnitt 9.3 beim Beweis des Zentralen
Grenzwertsatzes für i.i.d., reellwertige, quadratintegrable Zufallsvariablen mit positiver Varianz benötigt werden.
(i) Seien X und Y unabhängige, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Dann gilt 9.17
(9.3)
ψX+Y (z) = ψX (z)ψY (z),
z ∈ R.
Beweis. (9.3) folgt aus
ψX+Y (z) = E[exp(iz(X + Y ))] = E[exp(izX) exp(izY )]
=
9.18
E[exp(izX)]E[exp(izY )]
= ψX (z)ψY (z),
z ∈ R.
(ii) Sei X eine reellwertige Zufallsvariable mit E[|X|2 ] < ∞. Dann ist ψX ∈
und es gilt insbesondere
Cb2 (R)
ψX (z) = 1 + izE[X] −
(9.4)
z2
E[X 2 ] + o(|z|2 ),
2
bei |z| → 0.
Begründung. Nach einem formalen Vertauschen von Differentiation und Erwartungswert folgt 9.19
′
′′
ψX
(z) = iE[X exp(izX)], ψX
(z) = −E[X 2 exp(izX)],
z ∈ R,
d.h.,
′
′′
ψX (0) = 1, ψX
(0) = iE[X], ψX
(0) = −E[X 2 ].
(9.4) ist damit die Taylorentwicklung der Ordnung 2 von ψX in 0.
(iii) Sei X eine reellwertige Zufallsvariable. Weiterhin sei Y = aX + b für
a, b ∈ R. Dann ist
(9.5)
ψY (z) = exp(izb)ψX (az),
z ∈ R.
Beweis.
ψY (z) = E[exp(iz(aX + b))] = E[exp(izb) exp(izaX)]
= exp(izb)E[exp(izaX)] = exp(izb)ψX (az),
z ∈ R.
9.16
Charakteristische Funktionen wurden in (6.44) eingeführt. Insbesondere zeigt Satz 6.21,
daß die Konvergenz in Verteilung reellwertiger Zufallsvariablen mit Hilfe der Konvergenz ihrer
charakteristischen Funktionen nachgewiesen werden kann.
9.17(9.3) besagt, daß die charakteristische Funktion einer Summe unabhängiger Zufallsvariablen faktorisiert.
9.18Wegen der Unabhängigkeit von X und Y , vgl. (6.9) und Bemerkung 6.4(i). Man beachte, daß für jedes feste z ∈ R mit X und Y auch die Zufallsvariablen exp(izX) und exp(izY )
unabhängig sind.
9.19Bei einem rigorosen Beweis kann der Satz von der beschränkten Konvergenz, vgl. [3],
Appendix A.5, Theorem (5.3), herangezogen werden.
28. Januar 2011
145
(iv) Eine reellwertige Zufallsvariable X sei gemäß der standard Normalverteilung N(0, 1) verteilt. Dann gilt 9.20
ψX (z) = exp(−z 2 /2),
(9.6)
Begründung.
z ∈ R.
9.21
1
√
2π
Z
∞
dx exp(izx) exp(−x2 /2)
|
{z
}
2
= exp(izx − x /2) = exp((−(x − iz)2 − z 2 )/2)
Z ∞
1
dx exp(−(x − iz)2 /2) .
= exp(−z 2 /2) √
2π −∞
|
{z
}
Z ∞−iz
1
= 9.23 √
dy exp(−y 2 /2)
2π −∞−iz
|
{z
}
Z ∞
1
dy exp(−y 2 /2) = 1
= 9.24 √
2π −∞
ψX (z) =
9.22
−∞
(v) Durch die charakteristische Funktion ψX ist die Verteilung PX einer reellwertigen Zufallsvariable X eindeutig bestimmt.
Begründung. Schreibt man
(9.7)
ψX (z) = E[exp(izX)]
Z
= 9.25
PX (dx) exp(izx),
R
z ∈ R,
so wird deutlich, daß die charakteristische Funktion ψX einer Zufallsvariable X
der Fouriertransformierten ihrer Verteilung PX entspricht. Die Behauptung (v)
folgt daher aus der Tatsache, daß ein endliches Maß auf (R, B(R)) durch seine
Fouriertransformierte eindeutig charakterisiert ist.
Details zu den obigen Überlegungen und weitere Eigenschaften charakteristischer Funktionen finden sich beispielsweise in [6], Abschnitte 5.7 - 5.9.
9.20Wegen (9.6) haben für die standard Normalverteilung die Dichte und die charakteristische
Funktion die gleiche Struktur. Aufgrund von (9.5) gilt dies auch für andere Normalverteilungen.
Mit der hyperbolischen Cosinusverteilung wird in [4], Chapter XV, Section 2, ein weiteres Wahrscheinlichkeitsmaß mit dieser Eigenschaft angegeben. Es besitzt die Dichte R ∋ x → (π cosh(x))−1
und die charakteristische Funktion R ∋ z → (cosh(πz/2))−1 mit cosh(x) = (exp(x) + exp(−x))/2,
x ∈ R.
9.21Ein mathematisch korrekter Beweis von (9.6) ergibt sich z.B. aus [3], Section 2.3, Example 3.3, und Appendix A.9, Example 9.1.
9.22Diese Darstellung von ψ ergibt sich aus Beispiel 6.6. Vgl. dazu auch Fußnote 6.181.
X
9.23
Mit der Variablentransformation y = x − iz. Nach dieser Transformation ist der Integrationsbereich die Gerade {ζ = η − iz : η ∈ R} in C.
R ∞−iz
9.24
dy exp(−y 2 /2) von z ∈ R kann mit dem
Die Unabhängigkeit des Integrals −∞−iz
Cauchyschen Integralsatz, vgl. z.B. [1], Chapter 4, Section 1.4, bewiesen werden.
9.25Auf der rechten Seite von (9.7) ist der Erwartungswert E[W ] der Zufallsvariable W =
exp(izX) als ein Integral bzgl. des Wahrscheinlichkeitsmaßes PX dargestellt. Diese Darstellung
ist eine offensichtliche Verallgemeinerung der in Bemerkung 6.4(iii) erläuterten Schreibweise des
Erwartungswerts. Falls PX eine Dichte bzgl. des Lebesguemaßes besitzt, so ist (9.7) äquivalent
zu der in Fußnote 6.181 angegebenen Darstellung von ψX .
28. Januar 2011
146
9.3. Zentraler Grenzwertsatz für i.i.d. Zufallsvariablen
Das am Anfang dieses Kapitels 9 angekündigte Resultat wird nun präzisiert.
Satz 9.3. Seien Xn , n ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = σ 2 ∈ (0, ∞). Sei weiter ZN =
PN
(1/N ) k=1 Xk , N ∈ N. Dann gilt
r
N
(ZN − µ) = X in Verteilung, wobei PX = N(0, 1).
(9.8)
lim
N →∞
σ2
Beweis. Im folgenden werden insbesondere verschiedene Eigenschaften von
charakteristischen Funktionen 9.26 verwendet.
Sei Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn , n ∈ N, sind i.i.d. und
quadratintegrabel mit E[Y1 ] = 0 und Var(Y1 ) = 1. Weiterhin gilt 9.27
! r
r
N
N
N 1 X
N
1 X
√
Yk =
(9.9)
(ZN − µ), N ∈ N,
(Xk − µ) =
2
2
σ
N
σ
N k=1
k=1
und
(9.10)
ψ(1/√N ) PN
k=1
Yk (z)
=
9.28
=
9.29
ψPN
k=1
N
Y
Yk (z/
√
N)
√
ψYk (z/ N )
k=1
|z|2 N
z2
= 9.30 1 −
+o
2N
N
N
2
z
N →∞ 9.31
1−
∼
2N
N →∞ 9.32
→
exp(−z 2 /2),
z ∈ R.
p
Mit (9.9) und (9.10) ist gezeigt, daß die charakteristische Funktion von N/σ 2 (ZN
−µ) bei N → ∞ gegen die charakteristische Funktion einer gemäß N(0, 1) verteilten
Zufallsvariablen X konvergiert 9.33, d.h., Satz 9.3 ist nun bewiesen 9.34.
9.26Die hier benutzten Eigenschaften von charakteristischen Funktionen werden in Satz 6.21
und in Abschnitt 9.2 erläutert.
√
9.27Zum Beweis von (9.8) muß somit die Asymptotik von (1/ N ) PN Y bei N → ∞
k=1 k
untersucht werden.
√
9.28Hier wird (9.5) mit X = PN Y , a = 1/ N und b = 0 angewandt.
k=1 k
9.29
Da ebenso wie Xn , n ∈ N, auch die Zufallsvariablen Yn , n ∈ N, unabhängig sind, vgl.
(9.3).
9.30
Aufgrund von (9.4). Hier ist zu beachten, daß E[Yn ] = 0, n ∈ N, und Var(Yn ) = E[Yn2 ] =
1, n ∈ N.
9.31
Man beachte, daß für festes z ∈ R und ǫ ∈ (0, 1) für hinreichend großes N ∈ N die
Abschätzungen
|z|2 z 2 (1 − ǫ)
z2
z 2 (1 + ǫ)
≤1−
≤1−
+o
1−
2N
2N
N
2N
gelten. Wenn außerdem mit
x N
(∗)
lim 1 +
= exp(x), x ∈ R,
N→∞
N
eine der möglichen Definitionen der Exponentialfunktion berücksichtigt wird, wird deutlich, daß
für jedes feste z der Term o(|z|2 /N ) bei N → ∞ vernachlässigt werden kann.
9.32
Vgl. (∗) in Fußnote 9.31.
9.33Vgl. (9.6) und Abschnitt 9.2(v).
9.34Vgl. Satz 6.21.
28. Januar 2011
147
Bemerkungen 9.4. (i) Für eine Folge Xn , n ∈ N, paarweise unabhängiger 9.35,
identisch verteilter, reellwertiger Zufallsvariablen braucht der Zentrale Grenzwertsatz, d.h. die Beziehung (9.8), nicht zu gelten 9.36. Andererseits gibt es unzählige
Verallgemeinerungen von Satz 9.3. In jenen Resultaten werden gewisse Zufallsvariablen ζN , N ∈ N, die darstellbar sind als Summen vieler kleiner Beiträge, die
hinreichend wenig voneinander abhängig sind, betrachtet. Unter geeigneten Bedingungen konvergieren diese Zufallsvariablen bei N → ∞ in Verteilung gegen eine
normalverteilte Zufallsvariable ζ 9.37.
(ii) Der Zentrale Grenzwertsatz ist ein herausragendes Resultat in der Mathematik.
• Ausgehend von recht allgemeinen Annahmen 9.38 wird eine bemerkenswerte Konsequenz nachgewiesen 9.39.
• Nachdem eine geeignete Methode feststeht 9.40, kann in überraschend wenigen, einfachen Schritten der Beweis abgeschlossen werden 9.41.
• Der Zentrale Grenzwertsatz besitzt vielfältige Anwendungsmöglichkeiten
in zahlreichen Bereichen der menschlichen Erfahrung 9.42.
(iii) Die Konvergenz in Verteilung kann auf unterschiedliche Weise formuliert
werden 9.43. Insbesondere besagt (9.8), daß 9.44 9.45
(9.11)
"r
lim P
N →∞
#
Z a
1
N
dx exp(−x2 /2),
(ZN − µ) ≤ a = √
σ2
2π −∞
a ∈ R,
9.35Eine Folge Y , n ∈ N, von Zufallsvariablen heißt paarweise unabhängig, wenn Y und
n
k
Yl für alle k, l ∈ N mit k 6= l (stochastisch) unabhängig sind. Der Begriff der paarweisen Unabhängigkeit von Ereignissen wurde in Beispiel 3.9 eingeführt.
9.36
Ein Gegenbeispiel wird in [3], Section 2.4, Example 4.5, angegeben.
9.37Vgl. z.B. [3], Section 2.4, Theorem (4.5). In komplexeren Verallgemeinerungen des hier
vorgestellten Zentralen Grenzwertsatzes nehmen die Zufallsvariablen ζN , N ∈ N, und ζ Werte in
hochdimensionalen Räumen wie z.B. in Funktionenräumen an, vgl. z.B. [3], Section 7.6, Theorem (6.6) oder [3], Section 7.7, Theorem (7.8).
9.38Der Ausgangspunkt der Überlegungen ist eine beliebige Folge X , n ∈ N, von i.i.d.,
n
quadratintegrablen Zufallsvariablen mit positiver Varianz.
9.39
In der im Limes N → ∞ in Erscheinung tretenden Normalverteilung spielen Details der
Verteilung der Zufallsvariablen Xn , n ∈ N, keine Rolle mehr.
9.40Damit ist die Verwendung von charakteristischen Funktionen gemeint.
9.41Natürlich gibt es auch viele andere Beweise des Zentralen Grenzwertsatzes, vgl. z.B. [10],
Abschnitt 12.3, oder den Beweis von Satz (5.28) in [5].
9.42Wenn eine zufällige reellwertige Größe G die Summe vieler kleiner, wenig voneinander
abhängiger Beiträge ist, können ihre Schwankungen um ihren mittleren Wert durch eine normalverteilte Zufallsvariable modelliert werden. Beispielsweise ist es gerechtfertigt,
– die Schwankungen vieler quantitativer Merkmale der Mitglieder der Bevölkerung eines Landes (Körpergröße, -gewicht, . . . von Männern, bzw. Frauen einer bestimmten Altersklasse),
– die Fluktuationen der Meßwerte von Temperatur, Luftdruck, . . . an einer Wetterstation (in
einem nicht zu großen Zeitraum des Kalenderjahres) oder auch
– die Schwankungen des Kurses einer Aktie (in einem Zeitraum ohne Börsencrash, bzw. ohne
gravierende wirtschaftliche Probleme des Unternehmens)
durch normalverteilte Zufallsvariablen zu modellieren.
9.43
Vgl. Satz 6.21.
9.44
Bei
von Satz 6.21 beachte man, daß die Verteilungsfunktion R ∋ y →
R y der Anwendung
dx exp(−x2 /2) der standard Normalverteilung in ganz R stetig ist.
(2π)−1/2 −∞
9.45
Die Formulierung (9.11), bzw. (9.12) des Zentralen Grenzwertsatzes wurde auch schon in
Beispiel 1.8 gewählt.
28. Januar 2011
148
bzw.
9.46
"r
(9.12) P
#
Z b
1
N
N →∞
√
dx exp(−x2 /2),
(Z
−µ)
∈
(a,
b)
∼
N
σ2
2π a
−∞ < a < b < ∞.
9.4. (∗) Lokale Normalapproximation
9.47
In vielen Fällen gilt eine lokale Variante des Zentralen Grenzwertsatzes.
Insbesondere bleibt√dann (9.12) auch gültig, wenn die Länge des Intervalls (a, b)
bei N → ∞ wie 1/ N klein wird.
Satz 9.5. 9.48 Seien Xn , n ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 9.49 9.50
|ψX1 (λ)| < 1,
(9.13)
falls λ 6= 0.
PN
Sei weiter ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt
"r
#
√
α
β
N
(ZN − µ) ∈ x + √ , x + √
lim N P
(9.14)
N →∞
σ2
N
N
β−α
exp(−x2 /2),
= √
2π
x ∈ R, −∞ < α < β < ∞.
Insbesondere kann (9.14) in der an (9.12) erinnernden Form
"r
#
α
β
N
P
(ZN − µ) ∈ x + √ , x + √
(9.15)
σ2
N
N
N →∞
∼
präsentiert werden
β−α 1
√
√ exp(−x2 /2),
2π
N
9.51 9.52
x ∈ R, −∞ < α < β < ∞,
9.53
.
9.46Wie in Abschnitt 9.4 erläutert werden wird, gilt (9.12) auch für Intervalle (a, b) =
√
(aN , bN ), deren Längen bei N → ∞ wie 1/ N immer kleiner werden.
9.47Das in diesem Abschnitt vorgestellte Resultat wird auch als Lokaler Zentraler Grenzwertsatz bezeichnet.
9.48Vgl. [3], Section 2.5, Theorem (5.4).
9.49ψ mit ψ (λ) = E[exp(iλY )], λ ∈ R, ist die charakteristische Funktion einer reellwerY
Y
tigen Zufallsvariable Y , vgl. (6.44) und insbesondere Abschnitt 9.2. Es sei daran erinnert, daß in
Abschnitt 9.3 charakteristische Funktionen das wesentliche Hilfsmittel beim Beweis des Zentralen
Grenzwertsatzes waren.
9.50
Nach Theorem (5.1) in [3], Section 2.5, besagt die Bedingung (9.13), daß die Zufallsvariable X1 nicht f.s. konstant ist und auch nicht auf einem Gitter in R konzentriert ist, d.h., es gibt
kein b ∈ R und kein h > 0, so daß P[X1 ∈ {b + hk : k ∈ Z}] = 1.
9.51(9.14) zeigt, daß der Quotient der beiden Seiten von (9.15) bei N → ∞ gegen 1
konvergiert.
√
√
9.52
Wenn in (9.12) das Intervall (a, b) durch (x + (α/ N ), x + (β/ N )) ersetzt und die
2
Stetigkeit von R ∋ x → exp(−x /2) mit der Konsequenz
Z x+(β/√N)
1
N→∞ β − α 1
√
√
√
exp(−x2 /2)
dy exp(−y 2 /2) ∼
√
2π x+(α/ N )
2π
N
berücksichtigt wird, ergibt sich (9.15) auf eine formale Weise.
9.53Wenn (9.13) nicht gilt und wenn X nicht f.s. konstant ist, gibt es ein Gitter G
1
b,h = {b +
hk : k ∈ Z} ⊂ R mit b ∈ R und h > 0, so daß P[X1 ∈ Gb,h ] = 1, vgl. [3], Section 2.5, Theorem (5.1).
Auch in diesem Fall gilt ein (9.14) entsprechendes Resultat, vgl. [3], Section 2.5, Theorem (5.2).
Der Fall von i.i.d. Zufallsvariablen Xn , n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auch
in [5], Satz (5.19), betrachtet.
28. Januar 2011
149
9.5. Bestimmung von Konfidenzintervallen
In diesem Abschnitt werden Anwendungen des Zentralen Grenzwertsatzes in
der Statistik vorgestellt. Insbesondere werden in zwei Beispielen Situationen betrachtet, wo eine zufällige Größe N mal unabhängig gemessen und ein Parameter
durch den empirischen Mittelwert dieser N Messungen
geschätzt wird. Aufgrund
√
des Zentralen Grenzwertsatzes sind die mit N reskalierten Fluktuationen jenes
empirischen Mittelwerts für N → ∞ normalverteilt. Als Konsequenz können in
diesem Grenzfall Konfidenzintervalle mit Hilfe der standard Normalverteilung bestimmt werden 9.54 9.55.
Beispiel 9.6 (Konfidenzintervalle für den Erwartungswert von i.i.d. Zufallsvariablen). Eine zufällige reelle Größe werde wiederholt unabhängig gemessen. Die Meßwerte seien durch durch i.i.d. Zufallsvariablen X1 , X2 , . . . mit E[X1 ] = µ ∈ R und
Var(X1 ) = σ 2 ∈ (0, ∞) modelliert. σ 2 sei bekannt 9.56, während µ durch Angabe
eines Konfidenzintervalls zu schätzen sei.
PN
Nach N Messungen ist µ
eN = (1/N ) k=1 Xk ein erwartungstreuer Schätzer für
µ 9.57. Nun soll zu α ∈ (0, 1) für große N ein Konfidenzintervall zum Irrtumsniveau
α für µ 9.58 bestimmt werden.
Aus dem Zentralen Grenzwertsatz 9.59 folgt:
#
"r
N
(9.16)
(e
µN − µ) ∈ (a, b)
P
σ2
Z b
1
N →∞
dx exp(−x2 /2), −∞ < a < b < ∞.
∼ √
2π a
Wählt man zu α ∈ (0, 1) nun U (α) mit 9.60
Z U(α)
1
√
dx exp(−x2 /2) = 1 − α,
(9.17)
2π −U(α)
9.54Konfidenzbereiche wurden in Beispiel 1.10 erstmals vorgestellt und dann in Abschnitt 4.3
detaillierter betrachtet.
9.55Die Überlegungen in den folgenden Beispielen 9.6 und 9.7 ähneln jenen in Beispiel 4.8.
Nun wird allerdings der Zentrale Grenzwertsatz und nicht die Čebyšev’sche Ungleichung als Basis benutzt. Als Konsequenz ergeben sich kleinere“ Konfidenzintervalle, d.h., die statistischen
”
Aussagen werden präziser.
9.56Dies ist eine in vielen Fällen unrealistische Annahme, die jedoch die Überlegungen in
diesem Beispiel wesentlich vereinfacht. Vgl. Fußnote 9.64 für den Fall eines unbekannten Parameters σ2 .
9.57Vgl. Beispiel 6.16.
9.58Zur Erläuterung vgl. (4.9). Ein statistisches Modell, mit dem in diesem Beispiel 9.6 gearbeitet werden könnte, wird in Fußnote 6.142 beschrieben. Zur Vereinfachung der Argumentation
wird allerdings wie schon in Beispiel 6.16 auch im folgenden ein derartiges statistisches Modell
stillschweigend umgangen.
9.59Vgl. insbesondere (9.12).
9.60U (α) kann statistischen Tabellen entnommen, bzw. mit Hilfe von Statistik-Software ermittelt werden.
Ra
dx exp(−x2 /2), a ∈ R, der standard
Oft ist die Verteilungsfunktion φ(a) = (2π)−1/2 −∞
Normalverteilung tabelliert, vgl. z.B. Tabelle II in [10]. Da
Z U
1
dx exp(−x2 /2) = φ(U ) − φ(−U ) = 2φ(U ) − 1, U > 0,
√
| {z }
2π −U
= 1 − φ(U ) (Symmetrie von x → exp(−x2 /2))
ist U (α) so zu bestimmen, daß
1 − α = 2φ(U (α)) − 1,
d.h.,
gilt.
28. Januar 2011
φ(U (α)) = 1 −
α
,
2
150
und definiert dann
r r
σ2
σ2
, N ∈ N,
,µ
eN + U (α)
(9.18)
CN (e
µN ) = µ
eN − U (α)
N
N
so ergibt sich
r
r σ2
σ2
9.61
P[CN (e
µN ) 6∋ µ]
=P µ≤µ
eN − U (α)
oder µ ≥ µ
eN + U (α)
N
N
r r
σ2
σ2
, U (α)
=P µ
eN − µ 6∈ −U (α)
N
N
r
N
=P
(e
µN − µ) 6∈ (−U (α), U (α))
σ2
Z U(α)
1
N →∞ 9.62
dx exp(−x2 /2)
∼
1− √
2π −U(α)
=
9.63
α.
Für große N ist somit CN (e
µN ) ein Konfidenzintervall zum Irrtumsniveau α für
µ 9.64.
9.61Eigentlich könnte hier eine Notation wie P [ . ] benutzt werden, um anzudeuten, daß µ
µ
als wahrer“ Parameter zugrunde gelegt wird.
” 9.62
Vgl. (9.16).
9.63
Vgl. (9.17).
9.64Für den Fall von i.i.d., normalverteilten Zufallsvariablen X , . . . , X , wobei neben
1
N
µ = E[X1 ] auch σ2 = Var(X1 ) unbekannt ist, wird in [5], Beispiel (8.4) und Satz (8.5), ein Konfidenzintervall für µ angegeben. Hierbei findet insbesondere auch der in Beispiel 6.16 eingeführte
erwartungstreue Schätzer für die Varianz eine Anwendung.
Wenn nun für allgemeinere, i.i.d., quadratintegrable Zufallsvariablen X1 , . . . , XN sowohl µ =
E[X1 ] als auch σ2 = Var(X1 ) unbekannt sind, bleiben jene Überlegungen in [5] zur Bestimmung
eines Konfidenzintervalls für µ zumindest bei N → ∞ anwendbar. Zur Begründung kann wie in
diesem Beispiel 9.6 der Zentrale Grenzwertsatz herangezogen werden.
28. Januar 2011
Literaturverzeichnis
[1] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966.
[2] H. Bauer. Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie, 2. Auflage. De Gruyter,
1974.
[3] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1995.
[4] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edition. Wiley, 1971.
[5] H.-O. Georgii. Stochastik. De Gruyter, 2002.
[6] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford University Press, 2003.
[7] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003.
[8] E. Hewitt, K. Stromberg. Real and Abstract Analysis, Springer Verlag, 1965.
[9] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002.
[10] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, 7. Auflage. Vieweg
Verlag, 2003.
[11] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform
pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation 8 (Special issue on uniform random number generation), 3 - 30, 1998.
[12] J. Stoer. Numerische Mathematik 1, 5. Auflage. Springer, 1989.
169