Mathematik IV (Stochastik) für Informatiker

Werbung
Bausteine zur Vorlesung von Prof. Dr. Bernd Hofmann
Mathematik IV (Stochastik) für Informatiker
Fakultät für Mathematik der Technischen Universität Chemnitz
Sommersemester 2017
Dieser Text soll die Nacharbeit der Vorlesung erleichern und an Definitionen, Sätze, Zusammenhänge und Beispiele erinnern. Hinweise zu
Tippfehlern und Unstimmigkeiten werden gern entgegengenommen.
Textstand: 20.06.2017.
2
Inhaltsverzeichnis
1 Einführung in die Wahrscheinlichkeitsrechnung
1.1
1.2
1.3
1.4
1.5
5
Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.1.1
Rechnen mit zufälligen Ereignissen . . . . . . . . . . . . . . . . . . . . .
6
1.1.2
Rechnen mit Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . .
8
1.1.3
Grundformeln der Kombinatorik . . . . . . . . . . . . . . . . . . . . . .
10
Bedingte Wahrscheinlichkeiten
. . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.2.1
Multiplikationsregel, totale Wahrscheinlichkeit, Satz von Bayes . . . . .
12
1.2.2
Stochastische Unabhängigkeit zufälliger Ereignisse . . . . . . . . . . . .
14
1.2.3
Methode der geometrischen Wahrscheinlichkeit . . . . . . . . . . . . . .
16
1.2.4
Ergänzende Beispiele zur Einführung von Wahrscheinlichkeiten . . . . .
16
Zufallsgrößen und Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . .
19
1.3.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.3.2
Diskrete Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.3.3
Stetige Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
Das Gesetz der großen Zahlen und Grenzverteilungssätze . . . . . . . . . . . . .
43
1.4.1
Das Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . .
43
1.4.2
Grenzverteilungssätze . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Mehrdimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
1.5.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
1.5.2
Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
1.5.3
Erwartungswertevektor, Kovarianzmatrix, Normalverteilung . . . . . . .
54
2 Einführung in die mathematische Statistik
56
2.1
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
2.2
Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
2.3
Verteilungen wichtiger Stichprobenfunktionen . . . . . . . . . . . . . . . . . . .
59
2.3.1
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
2.3.2
Weitere stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
60
2.3.3
Stichprobenfunktionen bei binomialverteilter Grundgesamtheit . . . . .
62
3
2.3.4
2.4
2.5
2.6
Stichprobenfunktionen bei normalverteilter Grundgesamtheit . . . . . .
62
Bereichsschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
2.4.1
Konfidenzintervalle bei binomialverteilter Grundgesamtheit . . . . . . .
63
2.4.2
Konfidenzintervalle bei normalverteilter Grundgesamtheit . . . . . . . .
64
2.4.3
Einseitige Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . .
66
Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
2.5.1
Allgemeines Schema für Parametertests . . . . . . . . . . . . . . . . . .
66
2.5.2
Parametertests bei binomialverteilter Grundgesamtheit . . . . . . . . . .
67
2.5.3
Parametertests bei normalverteilter Grundgesamtheit . . . . . . . . . . .
68
2.5.4
Vergleich zweier normalverteilter Grundgesamtheiten . . . . . . . . . . .
71
2.5.5
χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Spezielle Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
2.6.1
Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . . .
73
2.6.2
Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
2.6.3
Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . .
76
4
1 Einführung in die
Wahrscheinlichkeitsrechnung
Ziel dieses Kapitels ist die Einführung in mathematische Modelle zur Behandlung von zufallsbeeinflussten Vorgängen (Zufallssituationen). Dazu betrachten wir zunächst zwei einfache
Beispiele.
Beispiel (Geburtstagsaufgabe). In einem Raum befinden sich n Personen. Wie groß ist die
Wahrscheinlichkeit, dass mindestens zwei der n Personen am selben Tag Geburtstag haben?
Wie muss n gewählt werden, damit die Wahrscheinlichkeit dafür größer als 12 ist? Wir werden
diese Aufgabe in Abschnitt 1.1.3 lösen.
Beispiel. Zwei Personen A und B spielen mehrere Runden eines Spiels mit Geldeinsatz, bei
dem jeder Spieler gleiche Gewinnchancen hat. Gesamtsieger ist, wer zuerst 4 Siege erreicht. Bei
einem Stand von 3 : 1 für A wird das Spiel abgebrochen und die beiden Spieler teilen das Geld
anhand der Wahrscheinlichkeit eines Gesamtsieges unter sich auf. Wie viel bekommt jeder?
Lösung: Um Gesamtsieger zu werden, müsste B die nächsten 3 Spiele gewinnen: 12 · 12 · 12 = 18 .
In allen anderen Fällen gewinnt A als erster 4 Spiele. Somit erhält Spieler A 87 und Spieler B
1
8 des Einsatzes.
Anwendung der Wahrscheinlichkeitsrechnung
• Statistische Qualitätskontrolle,
• Fehlerrechnung,
• Versicherungswesen,
• stochastische Finanzmathematik.
1.1 Wahrscheinlichkeitsräume
Zufallssituation: Eine Zufallssituation ist dadurch gekennzeichnet, dass sie (zumindest gedanklich) beliebig oft wiederholbar ist und das Ergebnis absolut nicht vorhersagbar ist.
Wahrscheinlichkeitsraum: Ein Wahrscheinlichkeitsraum ist die Zusammenfassung aller Teile
eines mathematischen Modells zur Beschreibung einer Zufallssituation. Verschiedene Zufallssituationen führen im Allgemeinen auch auf verschiedene Wahrscheinlichkeitsräume.
Versuch: Ein Versuch ist die Realisierung einer Zufallssituation.
Mit Ω bezeichnen wir die Ergebnismenge eines Versuchs, d.h. die Menge aller möglichen
Ergebnisse, und mit ω ein konkretes Ergebnis, also ω ∈ Ω. Dabei gehen wir davon aus, dass
jedem Ergebnis eines Versuchs eindeutig ein Element ω der Ergebnismenge Ω zugeordnet ist.
5
Beispiel. Beim Werfen eines idealen Würfels ist Ω = {1, 2, 3, 4, 5, 6} eine endliche Ergebnismenge mit 6 möglichen verschiedenen Ergebnissen.
Beispiel. Ein Fahrzeug kann mit einem begrenzten Treibstoffvorrat nur eine bestimmte Strecke
zurücklegen. Somit ist Ω = {ω ∈ R : ω ≥ 0} eine überabzählbar unendliche Ergebnismenge.
Beispiel. Es soll der Zustand von n elektrischen Geräten überprüft werden. Wir bezeichnen
den Zustand des i-ten Gerätes mit
{
1, Gerät in Ordnung
ωi =
.
0, Gerät defekt
{
}
Somit ist Ω = (ω1 , . . . , ωn ) ∈ Rn : ωi ∈ {0, 1} eine endliche Ergebnismenge mit n Elementen.
Beispiel. Bei der Bestimmung der Lebensdauer von n Lampen, wobei ωi die Lebensdauer der
i-ten Lampe bezeichnet, ist die Ergebnismenge Ω = {(ω1 , . . . , ωn ) ∈ Rn : ωi ≥ 0} überabzählbar
unendlich.
Definition 1.1.1. Ein zufälliges Ereignis ist eine Teilmenge A ⊂ Ω der Ergebnismenge. Man
sagt, dass das Ereignis A eingetreten ist, wenn das Versuchsergebnis ω in A liegt, d.h. wenn
ω ∈ A gilt.
Nicht jede Teilmenge A ⊂ Ω muss sich als zufälliges Ereignis betrachten lassen, aber alle
zufälligen Ereignisse sind Teilmengen von Ω.
Beispiel. Wir betrachten beim Würfeln mit einem idealen Würfel das Ereignis „gerade Zahl
gewürfelt“. Haben also A = {2, 4, 6}.
Beispiel. Für ein Fahrzeug mit begrenztem Treibstoffvorrat interessiert das Ereignis „fährt
mindestens 150 km“. Haben dann A = {ω ∈ R : ω ≥ 150}.
Beispiel. Bei der Überprüfung von n Geräten sollen „mindestens 2 in Ordnung“ sein, d.h.
A = {(ω1 , . . . , ωn ) ∈ Rn : ωi ∈ {0, 1} und ω1 + . . . + ωn ≥ 2}.
Beispiel. Die mittlere Brenndauer von n Lampen soll „zwischen 500 und 5000 Stunden“ ben
tragen, d.h. A = {(ω1 , . . . , ωn ) ∈ Rn : 500 ≤ ω1 +...+ω
≤ 5000}.
n
1.1.1 Rechnen mit zufälligen Ereignissen
Oder-Ereignis: Das Ereignis C = „A oder B“ tritt ein, wenn entweder A oder B oder beide
eintreten, d.h. C = A ∪ B.
Und-Ereignis: Das Ereignis C = „A und B“ tritt ein, wenn sowohl A als auch B eintritt, d.h.
C = A ∩ B.
Komplementärereignis (Gegenereignis): Das Ereignis C = A = „nicht A“ tritt ein, wenn A
nicht eintritt, d.h. C = Ω \ A.
Sicheres Ereignis: A = Ω.
Unmögliches Ereignis: A = Ω = ∅.
Elementarereignis: A = {ω}, d.h. A enthält genau ein Element der Ergebnismenge Ω.
6
Unvereinbare Ereignisse: A und B heißen unvereinbar, wenn A ∩ B = ∅ gilt.
Man kann „oder“ und „und“ auch auf endlich bzw. abzählbar unendlich viele Ereignisse anwenden:
n
n
∞
∞
∪
∩
∪
∩
Ai und
Ai
bzw.
Ai und
Ai .
i=1
i=1
i=1
i=1
Definition 1.1.2. Eine Menge A von Ereignissen, d.h. von Teilmengen der Ergebnismenge Ω,
heißt bezogen auf eine feste Zufallssituation Ereignisfeld (auch Ereignisalgebra oder σ-Algebra),
wenn die folgenden drei Bedingungen erfüllt sind:
• Ω∈A
(sicheres Ereignis gehört dazu),
• A ∈ A ⇒ A ∈ A ∀A ∈ A
• A1 , A2 , . . . ∈ A ⇒
∞
∪
(mit Ereignis gehört auch Komplementärereignis dazu),
Ai ∈ A ∀A1 , A2 , . . . ∈ A
(abzählbare Vereinigungen ebenfalls).
i=1
Satz 1.1.3 (Rechenregeln). Für zufällige Ereignisse A und B bzw. A1 , A2 , . . . gilt:
•
A∪B =B∪A
(Kommutativität),
A∩B =B∩A
•
(A ∪ B) ∪ C = A ∪ (B ∪ C)
(Assoziativität),
(A ∩ B) ∩ C = A ∩ (B ∩ C)
•
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(Distributivität),
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
•
A∪B =A∩B
( De Morgan’sche Regeln),
A∩B =A∪B
n
∪
•
i=1
n
∩
Ai =
Ai =
i=1
n
∩
i=1
n
∪
Ai ,
Ai ,
i=1
∞
∪
i=1
∞
∩
∞
∩
Ai =
Ai =
i=1
• A ∪ ∅ = A,
A ∩ ∅ = ∅,
• A ∪ Ω = Ω,
A ∩ Ω = A.
i=1
∞
∪
Ai
(verallgemeinerte De Morgan’sche Regeln),
Ai
i=1
Falls ω ∈ A ⇒ ω ∈ B für alle ω ∈ A gilt, so sagen wir „A zieht B nach sich“ und schreiben
A ⊂ B. Dazu äquivalente mathematische Beschreibungen sind
A⊂B
⇔
A∩B =A
⇔
A∪B =B
⇔
A∩B =∅
⇔
Venn-Diagramme sind hilfreich bei der Illustration des Ereignis-Kalküls!
7
B ⊂ A.
1.1.2 Rechnen mit Wahrscheinlichkeiten
Definition 1.1.4. Sei A ∈ A ein festes Ereignis innerhalb einer Zufallssituation. Wir Bezeichnen dann mit n die Anzahl der ausgeführten Versuche, mit nA die Anzahl der Versuche, bei
denen A eingetreten ist, und mit
nA
Hn = Hn (A) =
n
die relative Häufigkeit für das Eintreten von A bei n Versuchen. Erfahrungsgemäß strebt Hn (A)
unter Verwendung eines speziell zugeschnittenen Grenzwertbegriffs gegen eine feste Zahl, die
Wahrscheinlichkeit P (A) für das Eintreten von A:
P (A) = lim Hn (A).
n→∞
Beispiel. Beim Werfen einer Münze wird das Ereignis A = „Kopf liegt oben“ betrachtet. Schon
in den vergangenen Jahrhunderten galten Münzexperimente als interessant. Sie wurden z.B. von
Comte de Buffon (1707-1788) und K. Pearson (1857-1936) durchgeführt.
Buffon
Pearson
n
4040
24000
nA
2048
12012
Hn (A)
0,5069
0,5005
P (A)
0,5
0,5
Eigenschaften der relativen Häufigkeit
• Offenbar ist 0 ≤ Hn (A) ≤ 1.
• Ebenfalls offenbar ist Hn (Ω) = 1.
• Für unvereinbare Ereignisse A und B, d.h. A∩B = ∅, addieren sich offenbar die relativen
Häufigkeiten:
Hn (A ∪ B) =
nA + nB
nA nB
nA∪B
=
=
+
= Hn (A) + Hn (B).
n
n
n
n
Diese Eigenschaften der relativen Häufigkeit bilden die Grundlage des Axiomensystems zum
Rechnen mit Wahrscheinlichkeiten nach Kolmogorov (veröffentlicht 1933 im Springer-Verlag
in seinem in deutscher Sprache verfassten Buch Grundbegriffe der Wahrscheinlichkeitsrechnung).
Definition 1.1.5 (Kolmogorov’sches Axiomensystem). Gegeben sei eine Zufallssituation,
die durch eine Ergebnismenge Ω und ein Ereignisfeld A beschrieben wird. Jedem A ∈ A ist dann
eindeutig eine reelle Zahl P (A), die Wahrscheinlichkeit für das Eintreten von A, zugeordnet.
Dabei gelten die folgenden Axiome.
A1: Es gelte 0 ≤ P (A) ≤ 1.
A2: Es gelte P (Ω) = 1.
A3: Für paarweise unvereinbare Ereignisse Ai ∈ A, d.h. Ai ∩ Aj = ∅ mit i ̸= j gelte stets
(∞ )
∞
∪
∑
P
Ai =
P (Ai ).
i=1
i=1
8
Folgerungen aus den Kolmogorov’schen Axiomen Für beliebige Ereignisse A, B ∈ A
gilt:
• P (∅) = 0.
Beweis. Seien A1 = ∅ und A2 = ∅ unvereinbare Ereignisse (A1 ∩ A2 = ∅). Haben dann
unter Verwendung von A1 ∪ A2 = ∅ und Axiom A3
P (A1 ∪ A2 ) = P (A1 ) + P (A2 )
⇒
P (∅) = 2P (∅) = 0.
• P (A) = 1 − P (A).
Beweis. Es gilt A ∪ A = Ω und A ∩ A = ∅. Axiom A3 liefert also P (Ω) = P (A) + P (A)
und aus Axiom A2 folgt somit 1 = P (A) + P (A).
• P (A ∩ B) = P (A) − P (A ∩ B).
Beweis. Es gilt A = A ∩ Ω = A ∩ (B ∪ B) = (A ∩ B) ∪ (A ∩ B). Aus Axiom A3 folgt
somit P (A) = P (A ∩ B) + P (A ∩ B).
• P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Beweis. Es gilt A ∪ B = (A ∩ B) ∪ B = (A ∩ A ∩ B) ∪ B und somit ist nach dem
vorhergehenden Punkt und Axiom A3
P (A ∪ B) = P (A ∩ A ∩ B) + P (B) = P (A) − P (A ∩ B) + P (B).
Methode der klassischen Wahrscheinlichkeit Für eine endliche Ergebnismenge Ω mit N
Elementen ω1 , . . . , ωN und
P ({ω1 }) = · · · = P ({ωN }) =
1
N
(Laplace-Annahme)
gilt mit A = {ωi1 , . . . , ωiM }
P (A) =
M
Anzahl der günstigen Fälle
=
.
N
Anzahl der möglichen Fälle
Beispiel. Beim Würfeln mit einem idealen Würfel wird das Ereignis A = „Primzahl gewürfelt“
betrachtet. Haben dann A = {2, 3, 5}, M = 3, N = 6 und somit P (A) = 36 = 12 .
Definition 1.1.6. Durch die Ergebnismenge Ω, das Ereignisfeld A und das Wahrscheinlichkeitsmaß P sei eine Zufallssituation gegeben. Das Tripel (Ω, A, P ) heißt Wahrscheinlichkeitsraum
dieser Zufallssituation.
9
1.1.3 Grundformeln der Kombinatorik
Aus einem Gefäß mit n Kugeln, die (z.B. durch Nummerierung) unterscheidbar sind, sollen
m Kugeln entnommen werden. Uns interessiert die Anzahl der möglichen Ergebnisse. Dabei
berücksichtigen wir, ob die Reihenfolge eine Rolle spielt und ob eine entnommene Kugel vor
der Entnahme der nächsten wieder zurückgelegt wird.
• Variationen (Reihenfolge wichtig):
m
Anzahl mit Zurücklegen1 = w V m
n =n ,
Anzahl ohne Zurücklegen = Vnm = n(n − 1)(n − 2) . . . (n − m + 1) =
• Kombinationen (Reihenfolge unwichtig):
Anzahl mit Zurücklegen = w C m
n =
Anzahl ohne Zurücklegen = Cnm =
(n+m−1)
m
(n)
m
=
n!
(n−m)! .
,
n!
m!(n−m)! .
Beispiel. In einem Raum befinden sich n Personen, von denen keine am 29. Februar Geburtstag
hat. An sei das Ereignis, dass mindestens 2 der n Personen am gleichen Tag Geburtstag haben,
wobei wir davon ausgehen, dass alle 365 möglichen Tage gleichwahrscheinlich sind. Wir betrachten An und berechnen dann P (An ) durch P (An ) = 1 − P (An ). Wir ziehen unter Beachtung der
Reihenfolge und mit Zurücklegen n Tage aus 365 und erhalten somit N = 365n mögliche Fälle.
Ziehen von n Tagen aus 365 ohne Zurücklegen und unter Beachtung der Reihenfolge ergibt
M = 365 · 364 · . . . · (365 − n + 1) günstige Ergebnisse. Haben somit
P (An ) =
M
365 · 364 · . . . · (366 − n)
=
.
N
365n
Für konkrete n erhalten wir die folgenden Wahrscheinlichkeiten.
n
1
2
3
4
5
10
P (An )
0
0,003
0,008
0,016
0,027
0,117
n
15
20
22
23
30
40
P (An )
0,253
0,411
0,476
0,507
0,706
0,891
n
50
60
70
80
90
100
P (An )
0,970
0,9941
0,99916
0,999914
0,9999938
0,99999969
Ab n = 23 Personen im Raum ist die Wahrscheinlichkeit, dass zwei am gleichen Tag Geburtstag
haben, also größer als 50 %.
Beispiel. Es werden 6 aus 49 nummerierten Kugeln ohne Zurücklegen und ohne Beachtung der
Reihenfolge gezogen. Zuvor wird ein Tipp abgegeben, welche Kugeln dies sein werden. Ak mit
k = 0, . . . , 6 bezeichne das Ereignis, dass genau k Kugeln richtig getippt wurden. Wir erhalten
(6)( 43 )
(6)( 43 )
günstige Fälle
k 6−k
P (Ak ) =
= (49) = k 6−k .
mögliche Fälle
13983816
6
Dies ergibt die folgenden Wahrscheinlichkeiten.
1
w steht für „mit Wiederholung“
10
k
0
1
2
3
günstige Fälle
6096454
5775588
1851150
246820
P (Ak )
0,436
0,413
0,132
0,018
günstige Fälle
13545
258
1
k
4
5
6
P (Ak )
0,0009686
0,00001845
0,000000072
1.2 Bedingte Wahrscheinlichkeiten
In bestimmten Zufallssituationen kann es vorkommen, dass sich die Wahrscheinlichkeit für
das Eintreten eines Ereignisses ändert, wenn man beachtet, dass ein anderes Ereignis bereits
eingetreten ist.
Als Motivation für die Einführung bedingter Wahrscheinlichkeiten betrachten wir die relative
Häufigkeit: Es werden n Versuche durchgeführt. Die relative Häufigkeit für das Eintreten von
Ereignis A als Folge des Eintretens von B berechnet sich durch
nA∩B
Hn (A|B) :=
=
nB
nA∩B
n
nB
n
=
Hn (A ∩ B)
.
Hn (B)
Definition 1.2.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und seien A und B zwei zufällige
Ereignisse mit P (B) > 0. Dann heißt die Größe
P (A|B) :=
P (A ∩ B)
P (B)
bedingte Wahrscheinlichkeit für das Eintreten von Ereignis A unter der Bedingung, dass B
bereits eingetreten ist.
Beispiel. Mit einem idealen Würfel werden zwei Würfe ausgeführt. Wir betrachten die beiden
Ereignisse
A = „erster Wurf ist eine 6“ = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)},
B = „Augensumme beider Würfe ist 8“ = {(6, 2), (5, 3), (4, 4), (3, 5), (2, 6)}.
Offensichtlich ist P (A) =
6
36
= 16 , P (B) =
5
36
und P (A ∩ B) =
1
36 .
Somit ist P (A|B) = 15 .
Rechenregeln für bedingte Wahrscheinlichkeiten
• P (A|C) = 1 − P (A|C).
Beweis.
P (A ∩ C) P (A ∩ C)
+
P (C)
P (C)
P ((A ∩ C) ∪ (A ∩ C))
P ((A ∪ A) ∩ (A ∪ C) ∩ (C ∪ A) ∩ (C ∪ C))
=
P (C)
P (C)
P (Ω ∩ (A ∪ C) ∩ (C ∪ A) ∩ C)
P (Ω ∩ C ∩ C)
P (C)
=
=
= 1.
P (C)
P (C)
P (C)
P (A|C) + P (A|C) =
=
=
11
• P (A ∪ B|C) = P (A|C) + P (B|C) − P (A ∩ B|C).
Beweis.
P ((A ∪ B) ∩ C)
P ((A ∩ C) ∪ (B ∩ C))
=
P (C)
P (C)
P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C)
=
P (C)
P (A ∩ C) P (B ∩ C) P ((A ∩ B) ∩ C)
=
+
−
P (C)
P (C)
P (C)
= P (A|C) + P (B|C) − P (A ∩ B|C).
P (A ∪ B|C) =
• P (C|C) = 1
Beweis.
P (C|C) =
P (C ∩ C)
P (C)
=
= 1.
P (C)
P (C)
Beispiel. Torsten durchsucht 7 gleichgroße CD-Stapel nach einer ganz bestimmten CD. Die
Wahrscheinlichkeit, dass die gesuchte CD überhaupt in einem der Stapel vorhanden ist, sei
4
5 . Er hat bereits 6 Stapel erfolglos durchsucht. Wie groß ist die Wahrscheinlichkeit, die CD
im 7. Stapel zu finden? Ai mit i = 1, . . . , 7 sei das Ereignis „CD im i-ten Stapel“, wobei
P (A1 ) = . . . = P (A7 ). Haben dann
1
1
1 4
4
P (Ai ) = (P (A1 ) + . . . + P (A7 )) = P (A1 ∪ . . . ∪ A7 ) = · =
7
7
7 5
35
und somit
P (A7 |A1 ∩ . . . ∩ A6 ) =
4
P (A7 ∩ A1 ∩ . . . ∩ A6 )
P (A7 )
35
=
=
1 − P (A1 ∪ . . . ∪ A6 )
1−6·
P (A1 ∩ . . . ∩ A6 )
4
35
=
4
.
11
1.2.1 Multiplikationsregel, totale Wahrscheinlichkeit, Satz von Bayes
Stellt man die Formel für die bedingte Wahrscheinlichkeit P (A|B) (siehe Definition 1.2.1) nach
P (A∩B) um, so erhält man die einfache Multiplikationsregel :
P (A ∩ B) = P (A|B)P (B) = P (B|A)P (A).
Beispiel. An einer Universität schließen 70 % eines Jahrgangs das Fach Mathematik wenigstens
mit der Note 3 ab (Ereignis B). Unter diesen Studenten erreichen 25 % sogar eine der Noten 1
oder 2 (Ereignis A). Mit welcher Wahrscheinlichkeit schließt ein beliebig ausgewählter Student
7
des Jahrgangs das Fach mit 1 oder 2 ab? Lösung: Mit P (B) = 10
und P (A|B) = 14 liefert die
Multiplikationsregel
P (A) = P (A ∩ B) = P (A|B)P (B) =
12
1 7
7
·
=
= 0,175.
4 10
40
Satz 1.2.2 (erweiterte Multiplikationsregel). Seien A1 , A2 , . . . , An Ereignisse aus dem Ereignisfeld A einer festen Zufallssituation mit P (A1 ∩ A2 ∩ . . . ∩ An−1 ) > 0. Dann gilt
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ).
Beweis. Der Satz folgt durch vollständige Induktion aus der einfachen Multiplikationsregel:
P (A1 ∩ . . . ∩ An ) = P (An |A1 ∩ . . . ∩ An−1 )P (A1 ∩ . . . ∩ An−1 )
P (A1 ∩ . . . ∩ An−1 ) = P (An−1 |A1 ∩ . . . ∩ An−2 )P (A1 ∩ . . . ∩ An−2 )
..
.
P (A1 ∩ A2 ∩ A3 ) = P (A3 |A1 ∩ A2 )P (A1 ∩ A2 )
P (A1 ∩ A2 ) = P (A2 |A1 )P (A1 ).
Definition 1.2.3. Eine Menge von Ereignissen B1 , B2 , . . . , Bn heißt vollständiges Ereignissystem, wenn gilt:
• B1 ∪ B2 ∪ . . . ∪ Bn =
n
∪
Bi = Ω,
i=1
• die Ereignisse sind paarweise unvereinbar (disjunkt), d.h. Bi ∩ Bj = ∅ für i ̸= j.
Satz 1.2.4 (Satz von der totalen Wahrscheinlichkeit). Sei die Menge der Ereignisse B1 , . . . , Bn
ein vollständiges Ereignissystem. Dann gilt für ein beliebiges (anderes) Ereignis A die Formel
P (A) =
n
∑
P (A|Bi )P (Bi ).
i=1
Beweis. Es gilt
A = A ∩ Ω = A ∩ (B1 ∪ . . . ∪ Bn ) = (A ∩ B1 ) ∪ . . . ∪ (A ∩ Bn )
und da die Ereignisse A ∩ Bi (i = 1, . . . , n) paarweise unvereinbar sind, können wir die Multiplikationsregel anwenden und erhalten
P (A) = P ((A ∩ B1 ) ∪ . . . ∪ (A ∩ Bn )) =
n
∑
P (A ∩ Bi ) =
i=1
n
∑
P (A|Bi )P (Bi ).
i=1
Satz 1.2.5 (Satz von Bayes). Sei die Menge der Ereignisse B1 , . . . , Bn ein vollständiges Ereignissystem. Dann gilt für ein beliebiges (anderes) Ereignis A mit P (A) > 0 und für j = 1, . . . , n
die Formel
P (Bj |A) =
P (A|Bj )P (Bj )
P (A|Bj )P (Bj )
= ∑n
P (A)
i=1 P (A|Bi )P (Bi )
( Bayes’sche Formel).
Beweis. Der Satz ist eine direkte Folgerung aus der Multiplikationsregel und aus dem Satz von
13
der totalen Wahrscheinlichkeit:
P (A ∩ Bj ) = P (A|Bj )P (Bj ) = P (Bj |A)P (A)
⇒
P (Bj |A) =
P (A|Bj )P (Bj )
.
P (A)
Beispiel. Aus der Jahresstatistik einer großen deutschen Pannenhilfsorganisation geht hervor,
dass bei vorgefundenen Schäden im Bereich der Motorausfälle die folgende Schadenstypenverteilung zu verzeichnen war:
• 50 % Störungen der Zündanlage (davon 50 % vor Ort behoben),
• 30 % Störungen der Kraftstoffzufuhr (davon 30 % vor Ort behoben),
• 20 % sonstige Störungen (davon 5 % vor Ort behoben).
Uns interessiert nun, wie viel Prozent der Motorausfälle vor Ort behoben werden konnten und
wie sich die vor Ort behobenen Motorausfälle auf die einzelnen Schadensarten verteilen.
Wir bezeichnen die Ereignisse einer Störung mit B1 (Zündanlage), B2 (Kraftstoffzufuhr)
und B3 (sonstige Störungen) und das Ereignis, dass ein Motorausfall vor Ort behoben werden
konnte mit A. Die Ereignisse B1 , B2 , B3 bilden ein vollständiges Ereignissystem. Aus dem Satz
von der totalen Wahrscheinlichkeit erhalten wir
P (A) = P (A|B1 ) P (B1 ) + P (A|B2 ) P (B2 ) + P (A|B3 ) P (B3 ) = 0,35,
| {z } | {z } | {z } | {z } | {z } | {z }
0,5
0,5
0,3
0,3
0,05
0,2
d.h. in 35 % aller Fälle konnte vor Ort geholfen werden. Die Aufteilung der vor Ort behobenen
Motorausfälle auf die einzelnen Schadensarten erhalten wir mit dem Satz von Bayes:
P (A|B1 )P (B1 )
= 0,714,
P (A)
P (A|B2 )P (B2 )
P (B2 |A) =
= 0,257,
P (A)
P (A|B3 )P (B3 )
= 0,029.
P (B3 |A) =
P (A)
P (B1 |A) =
1.2.2 Stochastische Unabhängigkeit zufälliger Ereignisse
Definition 1.2.6. Zwei Ereignisse A, B ∈ A heißen stochastisch unabhängig, wenn gilt
P (A ∩ B) = P (A)P (B).
Bemerkung. „Stochastisch unabhängig“ bedeutet also P (A|B) = P (A) und P (B|A) = P (B),
d.h. der Zufallscharakter der Ereignisse A und B beeinflusst sich nicht.
Satz 1.2.7. Wenn die Ereignisse A und B stochastisch unabhängig sind, so sind auch die
Ereignisse A und B stochastisch unabhängig.
Beweis. Es gilt
P (A ∩ B) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B),
14
d.h. A und B sind stochastisch unabhängig, woraus analog die stochastische Unabhängigkeit
von A und B folgt.
Beispiel. Ein elektrisches Gerät besteht aus zwei Bauteilen T1 und T2 , bei denen unabhängig
voneinander Defekte auftreten können. Wir betrachten die stochastisch unabhängigen Ereignisse A1 = „Bauteil T1 funktioniert“ mit P (A1 ) = p1 und A2 = „Bauteil T2 funktioniert“ mit
P (A2 ) = p2 .
Eine Serienschaltung der beiden Bauteile funktioniert, wenn sowohl T1 als auch T2 funktioniert:
P (A1 ∩ A2 ) = P (A1 )P (A2 ) = p1 p2 .
Für das Zahlenbeispiel p1 = p2 = 0,9 ergibt dies eine Wahrscheinlichkeit für das Funktionieren
des Geräts von 0,81.
Eine Parallelschaltung funktioniert, wenn T1 oder T2 oder beide funktionieren:
P (A1 ∪ A2 ) = 1 − P (A1 ∪ A2 ) = 1 − P (A1 ∩ A2 ) = 1 − (1 − p1 )(1 − p2 ).
Für das Zahlenbeispiel p1 = p2 = 0,9 ergibt dies eine Wahrscheinlichkeit für das Funktionieren
des Geräts von 0,99.
Definition 1.2.8. Die Ereignisse A1 , . . . , An heißen vollständig stochastisch unabhängig, wenn
für jede Auswahl von k Ereignissen aus den n gegebenen gilt:
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).
Aus dieser Definition ergibt sich für vollständig stochastisch unabhängige Ereignisse der
folgende wichtige Zusammenhang:
P (A1 ∪ · · · ∪ An ) = 1 − P (A1 ∪ · · · ∪ An ) = 1 − P (A1 ∩ · · · ∩ An )
= 1 − (1 − P (A1 )) · · · (1 − P (An )).
Beispiel. Paarweise stochastisch unabhängige Ereignisse müssen nicht gleichzeitig vollständig
stochastisch unabhängig sein. Sei z.B. Ω = {1, 2, 3, 4} mit
P ({1}) = P ({2}) = P ({3}) = P ({4}) =
Dann ist P (A) = P (B) = P (C) =
1
2
1
4
und A = {1, 2}, B = {1, 3}, C = {2, 3}.
und
1
= P (A)P (B),
4
1
P (A ∩ C) = P ({2}) = = P (A)P (C),
4
1
P (B ∩ C) = P ({3}) = = P (B)P (C).
4
P (A ∩ B) = P ({1}) =
Also sind die Ereignisse A, B, C paarweise stochastisch unabhängig, aber
P (A ∩ B ∩ C) = P (∅) = 0 ̸=
1
= P (A)P (B)P (C),
8
d.h. die Ereignisse A, B, C sind nicht vollständig stochastisch unabhängig.
15
1.2.3 Methode der geometrischen Wahrscheinlichkeit
Die Methode der geometrischen Wahrscheinlichkeit ist ein Spezialfall der klassischen Wahrscheinlichkeit (siehe Abschnitt 1.1.2). Die Ergebnismenge Ω ist überabzählbar unendlich und
verkörpert ein geometrisches Objekt, d.h. eine Menge von Punkten in der Ebene oder im Raum,
wobei die folgenden zwei Bedingungen gelten:
• Ω lässt sich als geometrisches Objekt mit endlichem Inhalt darstellen,
• Teilmengen von Ω mit gleichem Inhalt sind gleiche Wahrscheinlichkeiten zugeordnet.
Exemplarisch kann das Schießen auf eine Dartscheibe Ω betrachtet werden. Das Ereignis A
tritt ein, wenn ein bestimmtes Feld (z.B. innerer Ring) getroffen wird, d.h. A ist die Fläche
dieses Feldes als Teilmenge von Ω. Dann gilt
P (A) =
günstige Fälle
Inhalt von A
=
.
mögliche Fälle
Inhalt von Ω
Dabei gibt es Ereignisse A mit Inhalt 0 (und damit P (A) = 0), die aber keine unmöglichen
Ereignisse sind, z.B. Kurvenstücke in der Ebene oder Flächenstücke im Raum.
Beispiel. Eine Funkstation sendet zu zwei zufälligen Zeiten t1 und t2 im Zeitintervall [0, T ] je
ein punktförmiges Signal aus. Ein Empfänger kann diese beiden Signale getrennt empfangen,
wenn für ihre Zeitdifferenz |t1 − t2 | ≥ τ > 0 gilt. Wie groß ist die Wahrscheinlichkeit, dass die
beiden Signale getrennt empfangen werden können? Wir haben
Ω = {(t1 , t2 ) ∈ [0, T ] × [0, T ]}
und betrachten das Ereignis
A = {(t1 , t2 ) ∈ Ω : |t1 − t2 | ≥ τ }.
t2
T
A
τ
0
Ω\A
τ
T
Dann gilt
Fläche von A
(T − τ )2
P (A) =
=
=
Fläche von Ω
T2
(
t1
T −τ
T
)2
(
τ )2
= 1−
.
T
1.2.4 Ergänzende Beispiele zur Einführung von Wahrscheinlichkeiten
Beispiel. In einem Rechnerpool befinden sich 75 Computer an festen Standorten. Genau einmal
im Jahr wird der Pool modernisiert. Jeder Computer wird regulär nach zwei Jahren durch
16
ein moderneres Modell ersetzt. Falls jedoch ein Computer im ersten Jahr durch mindestens
fünf erforderliche Reparaturen auffällt, so wird er bereits nach einem Jahr ausgetauscht. Das
Ereignis A = „Computer fällt im ersten Jahr auf“ habe die Wahrscheinlichkeit p und Ak =
„Computer wird im k-ten Jahr ausgetauscht“ habe die Wahrscheinlichkeit pk . Wie groß ist die
Wahrscheinlichkeit pk , dass an einem fixierten Standort im k-ten Jahr ein Computeraustausch
stattfindet?
Es gilt Ak = Ak−1 ∪ (Ak−1 ∩ A) und somit ist
pk = P (Ak ) = P (Ak−1 ) + P (Ak−1 ∩ A) = 1 − P (Ak−1 ) + P (A|Ak−1 ) P (Ak−1 )
| {z }
p
= 1 − pk−1 + ppk−1 = 1 − (1 − p)pk−1 = 1 + (p − 1)pk−1 .
Aus dieser Rekursionsvorschrift ergibt sich
p1 = p = 1 + (p − 1)
(ohne Rekursionsformel)
p2 = 1 + (p − 1) + (p − 1)2
p3 = 1 + (p − 1) + (p − 1)2 + (p − 1)3
..
.
pk =
k
∑
(p − 1)i
(endliche Summe einer geometrischen Reihe)
i=0
=
1 − (p − 1)k+1
1 − (p − 1)k+1
=
.
1 − (p − 1)
2−p
Für p = 0,1 ergeben sich die folgenden Wahrscheinlichkeiten.
k
pk
1
0,1
2
0,91
3
0,181
4
0,837
5
0,247
10
0,691
20
0,584
21
0,474
∞
0,526
Beispiel. Wir betrachten die Geschlechterverteilung bei der Geburt von Zwillingen. Dabei
sind die Ereignisse K1 ∩ K2 (zwei Knaben), K1 ∩ M2 (erst Knabe, dann Mädchen), M1 ∩ M2
(zwei Mädchen) und M1 ∩ K2 (erst Mädchen, dann Knabe) möglich. Es sind die folgenden
statistischen Informationen bekannt:
• Die Wahrscheinlichkeit, dass bei einer Geburt ein Knabe zur Welt kommt, beträgt 51 %,
d.h. P (K1 ) = P (K2 ) = 0,51.
• Bei Zwillingsgeburten ist die Wahrscheinlichkeit gleichgeschlechtlicher Zwillinge 64 %,
d.h. P ((K1 ∩ K2 ) ∪ (M1 ∩ M2 )) = 0,64.
• Bei einer Zwillingsgeburt sind K1 ∩ M2 und M1 ∩ K2 gleichwahrscheinliche Ereignisse,
d.h. P (K1 ∩ M2 ) = P (M1 ∩ K2 ).
Wie groß ist die Wahrscheinlichkeit, dass der zweite geborene Zwilling ein Knabe ist, wenn der
zuerst geborene Zwilling auch ein Knabe war?
Wir haben Ω = (K1 ∩ K2 ) ∪ (M1 ∩ M2 ) ∪ (K1 ∩ M2 ) ∪ (M1 ∩ K2 ). Zusammen mit der zweiten
und dritten statistischen Information folgt daraus
P (K1 ∩ M2 ) = P (M1 ∩ K2 ) =
17
1 − 0,64
= 0,18
2
und unter Verwendung von P (K1 ) = P ((K1 ∩ M2 ) ∪ (K1 ∩ K2 )) und der ersten statistischen
Information ergibt sich
P (K1 ∩ K2 ) = P (K1 ) − P (K1 ∩ M2 ) = 0,51 − 0,18 = 0,33.
Somit ist unsere gesuchte Wahrscheinlichkeit
P (K2 |K1 ) =
P (K1 ∩ K2 )
0,33
=
= 0,647.
P (K1 )
0,51
Weiterhin gilt
P (M2 |M1 ) = 0,633,
P (M2 |K1 ) = 0,353,
18
P (K2 |M1 ) = 0,367.
1.3 Zufallsgrößen und Verteilungsfunktionen
1.3.1 Einführung
Vielfach sind die Ergebnisse von Zufallsversuchen Zahlenwerte. Häufig möchte man aber auch in
den Fällen, wo dies nicht so ist, Zahlenwerte zur Charakterisierung der Ergebnisse von Zufallssituationen verwenden. Dies geschieht mit Hilfe von Zufallsgrößen X, indem jedem Ergebnis ω
aus der Ergebnismenge Ω eine relle Zahl X(ω) als Wert der Zufallsgröße zugeordnet wird.
Definition 1.3.1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum zu einer festen Zufallssituation.
Dann heißt eine Abbildung X : Ω 7→ R Zufallsgröße oder Zufallsvariable über (Ω, A, P ), wenn
für alle Intervalle I ⊂ R gilt:
{ω ∈ Ω : X(ω) ∈ I} ∈ A.
Für die Wahrscheinlichkeit P ({ω ∈ Ω : X(ω) ∈ I}) schreiben wir verkürzt P (X ∈ I).
Beispiel. In einer Hühnerhaltung wird das Gewicht von Eiern in Gramm ermittelt. Das Gewicht ω eines Eies ist eine zufällige positive reelle Zahl. Die Zufallsgröße X = X(ω) ordnet den
Eiern eine der drei Gewichtsklassen 1, 2 oder 3 zu:


1, ω ≤ 40
X(ω) := 2, 40 < ω ≤ 60 .


3, ω > 60
Beispiel. Beim Werfen zweier idealer Würfel erhält man die Ergebnismenge
{
}
Ω = (i, j) : i, j ∈ {1, 2, 3, 4, 5, 6} .
Die Augensumme X(ω) := i + j ist dann eine Zufallsgröße.
Beispiel. Es wird die Lebensdauer von n Glühlampen betrachtet, wobei ωi die Brenndauer
der i-ten Glühlampe in Stunden bezeichnet. Haben also
Ω = {ω = (ω1 , . . . , ωn ) : ωi ≥ 0}
als Ergebnismenge. Sowohl X(ω) := ωk (Lebensdauer der k-ten Glühlampe) als auch X(ω) :=
ω1 +...+ωn
(mittlere Lebensdauer der Glühlampen) stellen Zufallsgrößen dar.
n
1.3.2 Diskrete Zufallsgrößen
Definition 1.3.2. Eine Zufallsgröße X heißt diskret, wenn sie nur endlich oder abzählbar
unendlich viele Werte annehmen kann.
Definition 1.3.3. Sei X eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . (endlich oder
abzählbar unendlich viele) und pi := P (X = xi ). Dann heißt die Zuordnung xi 7→ pi Wahrscheinlichkeitsfunktion der Zufallsgröße X.
Eine diskrete Zufallsgröße wird vollständig durch ihre Wahrscheinlichkeitsfunktion bestimmt.
Beispiel. Beim Werfen eines idealen Würfels ist die Anzahl der möglichen Augenzahlen xi
endlich. Somit kann man die Wahrscheinlichkeitsfunktion als Tabelle darstellen.
19
i
xi
pi
1
1
2
2
3
3
4
4
5
5
6
6
1
6
1
6
1
6
1
6
1
6
1
6
Eigenschaften der Wahrscheinlichkeitsfunktion
• 0 ≤ pi ≤ 1,
∑
•
pi = 1,
i
• P (a ≤ X < b) =
∑
pi .
a≤xi <b
Definition 1.3.4. Sei X eine Zufallsgröße. Dann heißt die Funktion F (x) := P (X < x)
Verteilungsfunktion von X. Für eine diskrete Zufallsgröße X mit den Werten x1 , x2 , . . . gilt also
∑
F (x) =
pi .
xi <x
Bei diskreten Zufallsgrößen ist die Verteilungsfunktion immer eine reine Treppenfunktion.
Die Punkte xi kennzeichnen die Sprungpunkte und die Werte pi die zugehörigen Sprunghöhen.
Eigenschaften der Verteilungsfunktion
•
lim F (x) = 0,
x→−∞
• lim F (x) = 1,
x→∞
• x1 < x2 ⇒ F (x1 ) ≤ F (x2 ), d.h. F ist monoton wachsend (nicht notwendigerweise streng),
•
lim F (x) = F (x0 ), d.h. F ist linksseitig stetig.
x→x0 −0
Bekannte Zahlenreihen Wir setzen die folgenden drei Zahlenreihen als bekannt voraus und
werden sie im Weiteren benutzen:
∞
∑
xi =
i=0
∞
∑
für |x| < 1,
(1.3.1)
ixi−1 =
1
(1 − x)2
für |x| < 1,
(1.3.2)
i(i − 1)xi−2 =
2
(1 − x)3
für |x| < 1.
(1.3.3)
i=1
∞
∑
1
1−x
i=2
1.3.2.1 Erwartungswert und Varianz
Beispiel. Eine neue Maschine zur Produktion elektronischer Bauteile wird über eine Dauer
von n Tagen getestet, um herauszufinden, wie viele fehlerfreie Teile sie im Durchschnitt am
20
Tag liefert. Dabei bezeichne ni die
∑ Anzahl der Tage, an denen genau i funktionstüchtige Teile
hergestellt wurden. Es gilt also ∞
i=0 ni = n und wir erhalten als Ergebnis
∞
∞
∞
∑
∑
ni ∑
n→∞
i =
iHn (X = i) −−−−→
iP (X = i).
n
i=0
i=0
i=0
Definition 1.3.5. Ist pi = P (X = xi ) die Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße X, so wird
∑
EX :=
xi pi
i
Erwartungswert oder Mittelwert der Zufallsgröße X genannt. Der Erwartungswert ist eine endliche reelle Zahl, falls gilt
∑
|xi |pi < ∞.
i
Beispiel. Beim Würfeln mit einem idealen Würfel sei X die gewürfelte Augenzahl. Dann ist
6
∑
1
EX =
i = 3,5,
6
i=1
d.h. im Mittel wird die Augenzahl 3,5 erreicht.
Neben dem Erwartungswert für eine Zufallsgröße X kann auch der Erwartungswert von
Funktionen g(X) einer Zufallsgröße X betrachtet werden, z.B. für g(X) = X 2 oder g(X) =
sin(X).
Definition 1.3.6. Ist pi = P (X = xi ) die Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße X, so wird
∑
Eg(X) :=
g(xi )pi
i
Erwartungswert der Funktion g(X) genannt. Der Erwartungswert einer Funktion ist eine endliche reelle Zahl, falls gilt
∑
|g(xi )|pi < ∞.
i
Definition 1.3.7. Die Größe
σ 2 := D2 X := E(X − EX)2
heißt Varianz (oder Streuung oder Dispersion) der Zufallsgröße X und gibt die mittlere quadratische
Abweichung der Zufallsgröße X von ihrem Erwartungswert EX an. Die Größe σ :=
√
2
D X heißt Standardabweichung der Zufallsgröße X.
Beispiel. Wir betrachten nochmals das Würfeln mit einem idealen Würfel (siehe vorhergehendes Beispiel). Haben also EX = 3,5. Setzen wir g(X) := (X − EX)2 , so erhalten wir als
Varianz der Zufallsgröße X
D2 X = E(X − EX)2 = Eg(X) =
6
∑
1
i=1
21
6
1∑
(i − 3,5)2 = 2,92.
6
6
g(i) =
i=1
Die Standardabweichung beträgt somit σ = 1,71.
Hilfssatz 1.3.8. Für eine Zufallsgröße X gilt mit a, b ∈ R:
E(aX + b) = aEX + b.
Beweis (für diskrete Zufallsgrößen).
∑
∑
∑
∑
∑
pi = aEX + b.
E(aX + b) =
(axi + b)pi =
axi pi +
bpi = a
xi pi +b
i
i
i
| i {z }
| i{z }
EX
1
Hilfssatz 1.3.9. Für zwei Funktionen f (X) und g(X) einer Zufallsgröße X gilt:
E(f (X) + g(X)) = Ef (X) + Eg(X).
Beweis (für diskrete Zufallsgrößen).
∑
∑
∑
E(f (X) + g(X)) =
(f (xi ) + g(xi ))pi =
f (xi )pi +
g(xi )pi = Ef (X) + Eg(X).
i
i
i
Hilfssatz 1.3.10. Für eine Zufallsgröße X gilt mit a, b ∈ R:
D2 (aX + b) = a2 D2 X.
Beweis.
D2 (aX + b) = E(aX + b − E(aX + b))2 = E(aX − aEX)2 = a2 E(X − EX)2 = a2 D2 X.
| {z }
aEX+b
Satz 1.3.11. Für eine Zufallsgröße X gilt:
D2 X = EX 2 − (EX)2 .
Beweis.
D2 X = E(X − EX)2 = E(X 2 − 2XEX + (EX)2 )
= EX 2 − E(2XEX) +(EX)2 = EX 2 − (EX)2 .
| {z }
2(EX)2
Definition 1.3.12. Die Größen
mk = EX k
für k = 1, 2, . . . heißen k-te Momente der Zufallsgröße X und die Größen
µk = E(X − EX)k
22
für k = 1, 2, . . . heißen k-te zentrale Momente der Zufallsgröße X.
Offensichtlich ist m1 = EX und µ2 = E(X − EX)2 = D2 X. Weiterhin gilt µ1 = E(X −
EX) = EX − EX = 0 und nach Satz 1.3.11 ist µ2 = m2 − m21 . Häufig wird für den Erwartungswert m1 = EX ebenfalls das Symbol µ verwendet.
Definition 1.3.13. Eine Folge von Zufallsgrößen X1 , X2 , . . . , Xn heißt vollständig unabhängig,
wenn sich der zufällige Charakter aller beteiligten Zufallsgrößen nicht beeinflusst.
Hilfssatz 1.3.14. Seien X1 , . . . , Xn n Zufallsgrößen mit endlichen Erwartungswerten EXi und
endlichen Streuungen D2 Xi . Dann gilt für beliebige reelle Zahlen ai :
E(a1 X1 + · · · + an Xn ) = a1 EX1 + · · · + an EXn .
Falls die Zufallsgrößen X1 , . . . , Xn vollständig unabhängig sind, gilt außerdem:
D2 (a1 X1 + · · · + an Xn ) = a21 D2 X1 + · · · + a2n D2 Xn .
Satz 1.3.15 (Tschebyscheff’sche Ungleichung). Für alle ε > 0 gilt:
P (|X − EX| > ε) <
Setzt man k :=
√ ε
D2 X
D2 X
.
ε2
= σε , so erhält man:
P (|X − EX| > kσ) <
1
.
k2
Beweis (für diskrete Zufallsgrößen). Sei M := {i : |xi − EX| > ε}. Dann gilt
∑
∑
∑
D2 X =
(xi − EX)2 pi ≥
(xi − EX)2 pi > ε2
pi = ε2 P (|X − EX| > ε)
i
i∈M
i∈M
und somit ist
P (|X − EX| > ε) <
D2 X
.
ε2
Nachweis der schwachen Konvergenz der relativen Häufigkeit Wir werden nun die Tschebyscheff’sche Ungleichung zum Nachweis der schwachen Konvergenz (Konvergenz im Sinne
der Wahrscheinlichkeit) der relativen Häufigkeit eines Ereignisses gegen die Wahrscheinlichkeit
dieses Ereignisses nutzen.
Dazu realisieren wir n unabhängige Versuche zu einer Zufallssituation mit dem Wahrscheinlichkeitsraum (Ω, A, P ). Hn (A) sei die relative Häufigkeit des Eintretens eines Ereignisses
A ∈ A. Zu zeigen ist nun, dass Hn (A) in einem gewissen Sinn gegen die Wahrscheinlichkeit
p := P (A) strebt. Wir setzen
{
1, wenn A im i-ten Versuch eintritt
Xi =
0, wenn A im i-ten Versuch nicht eintritt
23
und erhalten somit eine Zufallsgröße
X̄n := Hn (A) =
X1 + . . . + Xn
.
n
Aus P (Xi = 1) = p und P (Xi = 0) = 1 − p folgt
EXi = 1p + 0(1 − p) = p,
EXi2 = 12 p + 02 (1 − p) = p,
D2 Xi = EXi2 − (EXi )2 = p − p2 = p(1 − p)
und nach Hilfssatz 1.3.14 gilt
EX̄n =
1
1
1
EX1 + · · · + EXn = n · p = p = P (A)
n
n
n
und ebenfalls nach Hilfssatz 1.3.14 ist
D2 X̄n =
1 2
1
1
p(1 − p)
D X1 + · · · + 2 D2 Xn = n · 2 p(1 − p) =
.
2
n
n
n
n
Die Tschebyscheff’sche Ungleichung liefert somit
P (|Hn (A) − P (A)| > ε) = P (|X̄n − EX̄n | > ε) <
D2 X̄n
p(1 − p)
=
2
ε
nε2
und daraus erhalten wir
lim P (|Hn (A) − P (A)| > ε) ≤ lim
n→∞
n→∞
p(1 − p)
= 0,
nε2
d.h. Hn (A) strebt für n → ∞ gegen P (A) (Konvergenz im Sinne der Wahrscheinlichkeit):
stoch
Hn (A) −−−−→ P (A).
n→∞
1.3.2.2 Geometrische Verteilung
Als erste diskrete Wahrscheinlichkeitsverteilung wollen wir die recht einfache geometrische Verteilung und ihre Kenngrößen betrachten und an ihr die Verwendung der obigen Begriffe demonstrieren.
Als Standardbeispiel für die geometrische Verteilung dient ein Automat, der sofort anhält,
wenn er ein fehlerhaftes Teil produziert hat, wobei die Qualität der einzelnen Teile von den
anderen Teilen unabhängig ist. Wir verwenden die folgenden Bezeichnungen:
Wahrscheinlichkeit p – Wahrscheinlichkeit, dass ein Teil fehlerhaft ist;
Zufallsgröße X – Anzahl der produzierten fehlerfreien Teile;
Ereignis Ai – i-tes produziertes Teil ist defekt.
24
Also ist P (Ai ) = p und P (Ai ) = 1 − p. Somit ergibt sich
P (X = 0) = P (A1 ) = p,
P (X = 1) = P (A1 ∩ A2 ) = (1 − p)p,
P (X = 2) = P (A1 ∩ A2 ∩ A3 ) = (1 − p)2 p,
P (X = 3) = P (A1 ∩ A2 ∩ A3 ∩ A4 ) = (1 − p)3 p,
..
.
und allgemein erhalten wir als Wahrscheinlichkeitsfunktion
P (X = i) = p(1 − p)i
(i = 0, 1, 2, . . .).
Definition 1.3.16. Ein diskrete Zufallsgröße X mit der obigen Wahrscheinlichkeitsfunktion
heißt geometrisch verteilt mit dem Parameter p.
Wie bereits am Anfang des Abschnitts über diskrete Zufallsgrößen∑erwähnt, muss für diskrete
Zufallsgrößen zum einen 0 ≤ P (X = xi ) ≤ 1 und zum anderen i P (X = xi ) = 1 gelten.
Ersteres ist offensichtlich bei der geometrischen Verteilung erfüllt:
0 ≤ p(1 − p)i ≤ 1.
Und auch die zweite Eigenschaft gilt:
∞
∑
p(1 − p) = p ·
i
i=0
∞
∑
(1 − p)i = p ·
|i=0 {z
}
p
1
= = 1.
1 − (1 − p)
p
geometrische
Reihe
P (X = x)
0
1
2
3
4
5
6
7
x
Beispiel. Für das Zahlenbeispiel p = 0,01 ist die Wahrscheinlichkeit dafür gesucht, dass wenigstens 50 fehlerfreie Teile produziert werden. Wir erhalten
P (X ≥ 50) =
∞
∑
i=50
p(1 − p) = p(1 − p)
i
50
∞
∑
(1 − p)
i−50
= p(1 − p)
i=50
1
= p(1 − p)50
= (1 − p)50 = 0,9950 = 0,605.
1 − (1 − p)
25
50
∞
∑
j=0
(1 − p)j
Erwartungswert Wir berechnen nun den Erwartungswert einer geometrisch verteilten Zufallsgröße:
EX =
∞
∑
iP (X = i) =
i=0
∞
∑
ip(1 − p)i
i=0

= p(1 − p) 0(1 − p)−1 +
| {z }
i=0
= p(1 − p)
=
1−p
.
p
1
(1 − (1 − p))2
∞
∑

i(1 − p)i−1 
i=1
(nach Formel (1.3.2))
Beispiel. Für p = 0,01 produziert die Maschine also im Mittel
0,99
0,01
= 99 fehlerfreie Teile.
Für die Berechnung der Varianz benötigen wir neben EX auch noch die Größe EX 2 :
2
EX =
∞
∑
∞
∞
∑
∑
2
i
i p(1 − p) =
(i − i)p(1 − p) +
ip(1 − p)i
2
i
i=0
i=0
|i=0
{z
}
EX

= p(1 − p)2 0(1 − p)−2 + 0(1 − p)−1 +
| {z } | {z }
i=0
i=1
∞
∑

i(i − 1)(1 − p)i−2  + EX
i=2
2
+ EX
(nach Formel (1.3.3))
p3
(p − 1)(p − 2)
2(1 − p)2 1 − p
=
=
+
.
p2
p
p2
= p(1 − p)2
Varianz Die Varianz einer geometrisch verteilten Zufallsgröße ist somit:
D2 X = EX 2 − (EX)2 =
(p − 1)(p − 2) (1 − p)2
1−p
−
=
.
p2
p2
p2
1.3.2.3 Binomialverteilung
Beispiel. Ein Automat erzeugt nacheinander Teile mit einer Ausschusswahrscheinlichkeit von
jeweils p = 0,01. Die Produktionsqualität ist von Teil zu Teil unabhängig. Gesucht ist die
Wahrscheinlichkeit, dass unter n = 10 kontrollierten Teilen genau ein fehlerhaftes Teil ist.
Die Zufallsgröße X sei die Anzahl der Ausschussteile unter den n kontrollierten Teilen. Sie
kann also die Werte 0, 1, 2, . . . , n annehmen. Mit Ai bezeichnen wir das Ereignis, dass das i-te
Teil fehlerhaft ist. Dann gilt:
(
)
P (X = 1) = P (A1 ∩ A2 ∩ · · · ∩ A10 ) ∪ (A1 ∩ A2 ∩ · · · ∩ A10 ) ∪ · · · ∪ (A1 ∩ A2 ∩ · · · ∩ A10 )
= 10p(1 − p)9 = 0,091.
26
Verallgemeinerung Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum zu einer Zufallssituation und
A ∈ A sei ein festes Ereignis. Wiederholen wir einen dieser Situation entsprechenden Versuch
(unabhängig) n mal und bezeichnen wir mit der Zufallsgröße X die Anzahl der Versuche, bei
denen A eintritt, dann gilt mit P (A) = p:
( )
n k
P (X = k) =
p (1 − p)n−k
(k = 0, 1, . . . , n).
(1.3.4)
k
Definition 1.3.17. Eine Zufallsgröße X mit der obigen Wahrscheinlichkeitsfunktion heißt binomialverteilt mit den Parametern n (Zahl der Freiheitsgrade) und p (Fehlerrate). Ist X binomialverteilt, so schreiben wir X ∼ B(n, p).
P (X = k)
0
1
2
3
4
5
6
7
k
Beispiel. Ein idealer Würfel wird n = 20 mal geworfen. Gesucht ist die Wahrscheinlichkeit,
dass mindestens zweimal eine 6 gewürfelt wird. Die Zufallsgröße X ist die Anzahl der geworfenen
Sechsen und A sei das Ereignis, dass eine 6 gewürfelt wird. Dann ist p = P (A) = 16 und
X ∼ B(20, 16 ). Wir erhalten somit als Ergebnis
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − P (X = 0) − P (X = 1)
( ) ( )0 ( )20 ( ) ( )1 ( )19
5
20
1
5
20
1
−
= 0,8696.
=1−
6
6
1
6
6
0
Erwartungswert Der Erwartungswert für X ∼ B(n, p) beträgt:
( )
n
n
∑
∑
n k
n(n − 1)(n − 2) · · · (n − k + 1) k
k
p (1 − p)n−k =
EX =
p (1 − p)n−k
k
(k − 1)!
k=0
= np
k=1
n
∑
(n − 1)(n − 2) · · · ((n − 1) − (k − 1) + 1)
k=1
(k − 1)!
)
n (
∑
n − 1 k−1
= np
p (1 − p)n−k
k−1
k=1
n−1
∑ (n − 1)
= np
pj (1 − p)(n−1)−j
j
pk−1 (1 − p)n−k
(binomischer Satz)
j=0
= np(p + (1 − p))n−1 = np · 1n−1
= np.
27
Um die Varianz zu berechnen, berechnen wir zunächst EX 2 (analog zu EX):
( )
( )
n
∑
n k
n k
n−k
k
p (1 − p)
=
k(k − 1)
p (1 − p)n−k + EX
EX =
k
k
k=0
k=2
(
)
n
∑ n−2
= n(1 − n)p2
pk−2 (1 − p)n−k + EX
k−2
k=2
n−2
∑ (n − 2)
2
= n(n − 1)p
pj (1 − p)(n−2)−j + EX
j
2
n
∑
2
j=0
= n(n − 1)p (p + (1 − p))n−2 + np = n(n − 1)p2 + np.
2
Varianz Die Varianz für X ∼ B(n, p) beträgt:
D2 X = EX 2 − (EX)2 = n(n − 1)p2 + np − n2 p2 = np − np2
= np(1 − p).
Beispiel. Im obigen Würfelbeispiel ist EX = 20 · 16 = 3,33. Es werden also bei 20 Würfen
im Mittel 3 bis 4 Sechsen gewürfelt. Die Varianz beträgt D2 X = 20 · 61 · 56 = 25
9 = 2,78.
Nun interessiert uns noch, mit welcher Wahrscheinlichkeit die tatsächlich erreichte Anzahl von
Sechsen um mehr als 3 vom Mittelwert abweicht. Dazu nutzen wir die Tschebyscheff’sche
Ungleichung:
1 25
1
= 0,31.
P (|X − EX| > 3) < D2 X = ·
9
9 9
Somit tritt in durchschnittlich 31 % aller Fälle eine so große Abweichung vom Mittelwert auf.
Wenn wir diese Wahrscheinlichkeit exakt berechnen, so erhalten wir:
P (X = 0) + P (X = 7) + P (X = 8) + · · · + P (X = 20) = 0,063.
Es sind also in Wirklichkeit nur reichlich 6 % aller Fälle, bei denen eine Abweichung von mehr
als 3 vom Mittelwert auftritt. Die Tschebyscheff’sche Ungleichung liefert insofern eine recht
grobe Abschätzung.
Rekursionsformel Für eine binomialverteilte Zufallsgröße X ∼ B(n, p) gilt:
P (X = k + 1) =
n−k
p
·
· P (X = k).
k+1 1−p
∑
Somit ist nk=m P (X = k) von der unteren Indexgrenze beginnend leicht mit einem Taschenrechner auszuwerten.
28
1.3.2.4 Poisson-Verteilung
Als Referenzmodell für die Poisson-Verteilung dient eine Telefonzentrale: Innerhalb eines Zeitintervalls der Länge t kommen Xt Anrufe (= Ereignisse) an und es gelten die sogenannten
Poisson’schen Voraussetzungen:
• Stationarität: Die Wahrscheinlichkeit für das Eintreten einer bestimmten Anzahl von
Ereignissen im betrachteten Zeitintervall hängt nur von der Intervalllänge und nicht von
der Lage des Intervalls auf der Zeitachse ab.
• Homogenität: Die Ereignisfolge ist nachwirkungsfrei, d.h. die Anzahl von Ereignissen im
Zeitintervall [t0 , t1 ] hat keinen Einfluss auf die Anzahl von Ereignissen in einem späteren
Zeitintervall [t2 , t3 ], wobei t1 < t2 .
• Ordinarität: Die Ereignisse treten für hinreichend kleine Zeitintervalle einzeln auf, d.h. für
genügend kleine ∆t gilt entweder X∆t = 0 oder X∆t = 1. Zudem gilt P (X∆t = 1) = µ∆t
mit 0 < µ < ∞. Der Parameter µ heißt Intensität.
Unter diesen Voraussetzungen gilt:
P (Xt = k) =
(µt)k −µt
e
k!
(1.3.5)
(k = 0, 1, 2, . . .).
Diese Formel erhalten wir, indem wir die beschriebene Verteilung als Grenzfall der Binomialverteilung auffassen: Wir teilen das Zeitintervall der Länge t in n hinreichend kleine Teilintervalle mit Länge ∆t = nt und betrachten den Fall n → ∞. Für endliches n ist Xt binomialverteilt (k Teilintervalle mit einem Anruf, n − k Teilintervalle mit null Anrufen) und mit
p = P (X∆t = 1) = µ∆t erhalten wir aus Formel (1.3.4):
( )
( ) ( )k (
)
n
n
µt
µt n−k
k
n−k
P (Xt = k) =
(µ∆t) (1 − µ∆t)
=
1−
k
k
n
n
( )k (
)n−k
n!
µt
µt
=
1−
k!(n − k)! n
n
(
) (
)
k
µt n
µt −k
(µt) n(n − 1) · · · (n − k + 1)
·
1−
1−
=
k
k!
n
n
n
|
{z
}|
{z
}|
{z
}
→1
−−−−→
n→∞
(µt)k
k!
→e−µt
→1
e−µt .
Definition 1.3.18. Eine Zufallsgröße Xt mit der Wahrscheinlichkeitsfunktion (1.3.5) heißt
Poisson-verteilt und wir schreiben Xt ∼ πµt . Oft wird λ := µt gesetzt. Ist Xt Poisson-verteilt
mit dem Parameter λ, so schreiben wir Xt ∼ πλ .
Die Wahrscheinlichkeiten πλ (k) = P (Xt = k) findet man für übliche Parameterwerte λ in
Tabellen.
29
P (X = k)
0
1
2
3
4
5
6
7
k
Beispiel. Wir betrachten die Anzahl der eingehenden Anrufe in einer Telefonzentrale. Wir
rechnen in Minuten und setzen µ = 13 , d.h. mit einer Wahrscheinlichkeit von 13 kommt innerhalb einer Minute genau ein Anruf an. Gesucht ist die Wahrscheinlichkeit dafür, dass in einer
Viertelstunde wenigstens 3 und höchstens 7 Anrufe ankommen. Unsere Zufallsgröße Xt ist also
die Anzahl der innerhalb von t = 15 Minuten eingehenden Anrufe und λ = µt = 5. Da Xt ∼ π5 ,
erhalten wir:
7
7
∑
∑
(15µ)k −15µ
π5 (k) =
e
= 0,742.
P (3 ≤ Xt ≤ 7) =
k!
k=3
k=3
Rekursionsformel Für eine Poisson-verteilte Zufallsgröße Xt ∼ πλ gilt:
P (Xt = k + 1) =
λ
λk
λ
λk+1 −λ
e =
· e−λ =
P (Xt = k).
(k + 1)!
k + 1 k!
k+1
∑
Somit ist nk=m P (Xt = k) von der unteren Indexgrenze beginnend leicht mit einem Taschenrechner auszuwerten.
Erwartungswert Der Erwartungswert für Xt ∼ πλ beträgt:
∞
∞
∞
∑
∑
∑
λk−1
λj
λk −λ
−λ
−λ
k e = λe
= λe
= λe−λ eλ = λ.
EXt =
k!
(k − 1)!
j!
j=0
k=1
k=0
t
Somit gibt der Parameter µ = λt = EX
t die mittlere Ereignisanzahl pro Zeiteinheit an. Um die
Varianz zu berechnen, benötigen wir noch EXt2 :
EXt2
=
∞
∑
k
k
2 λ −λ
k=0
= λ2 e−λ
k!
e
=
∞
∑
k=0
∞
∑
λj
j=0
j!
∞
∑ λk−2
λk
k(k − 1) e−λ + EXt = λ2 e−λ
+ EXt
k!
(k − 2)!
k=2
+ EXt = λ2 E −λ eλ + EXt = λ2 + λ.
Varianz Die Varianz für Xt ∼ πλ beträgt:
D2 Xt = EXt2 − (EXt )2 = λ2 + λ − λ2 = λ.
30
1.3.2.5 Hypergeometrische Verteilung
Als Referenzmodell dient die bereits bekannte Urne mit N Kugeln, von denen M Kugeln
schwarz und N − M Kugeln weiß sind. Wir ziehen ohne Zurücklegen n Kugeln, wobei unsere
Zufallsgröße X die Anzahl der entnommenen schwarzen Kugeln ist. Dann gilt:
(M )(N −M )
P (X = m) =
m
,
(Nn−m
)
n
wobei max(0, n − (N − M )) ≤ m ≤ min(n, M ) ist.
Definition 1.3.19. Eine Zufallgröße X mit der obigen Wahrscheinlichkeitsfunktion heißt hypergeometrisch verteilt und wir schreiben X ∼ H(n, N, M ).
P (X = m)
0
1
2
3
4
5
6
7
m
Erwartungswert Der Erwartungswert für X ∼ H(n, N, M ) beträgt:
EX = n
M
.
N
Varianz Die Varianz für X ∼ H(n, N, M ) beträgt:
(
)
M N −n
M
2
D X=n
1−
.
N
N N −1
1.3.3 Stetige Zufallsgrößen
Im Abschnitt über Wahrscheinlichkeitsräume haben wir bereits die Brenndauer einer Glühlampe und die Reichweite eines Fahrzeugs bei begrenztem Treibstoffvorrat als Beispiele für stetige
Zufallsgrößen betrachtet. Da stetige Zufallsgrößen überabzählbar unendlich viele Werte besitzen und somit deren Werte ganze Intervalle der reellen Achse ausfüllen können, ist es nicht mehr
möglich, die Wahrscheinlichkeit für jeden einzelnen Wert in einer Wahrscheinlichkeitsfunktion
auszudrücken. Jedoch kann man mit Hilfe sogenannter Dichtefunktionen die Verteilung der
Wahrscheinlichkeitsmasse auf der reellen Achse angeben und so die Wahrscheinlichkeit dafür
charakterisieren, dass der Wert der Zufallsgröße in einem gegebenen Intervall liegt.
31
Definition 1.3.20. Eine Zufallsgröße X heißt stetig, wenn es eine integrierbare reelle Funktion
f gibt, so dass für beliebige reelle Zahlen a ≤ b gilt:
∫b
P (a ≤ X ≤ b) =
f (x) dx.
a
Die Funktion f heißt Dichtefunktion der Zufallsgröße X.
Eigenschaften von Dichtefunktionen
• f (x) ≥ 0 für alle x ∈ R,
•
∫∞
f (x) dx = 1.
−∞
Das Integral ist dabei im Sinne von Riemann oder Lebesgue zu verstehen. Als Dichtefunktionen f treten vorzugsweise stetige und stückweise stetige Funktionen auf, die auch schwache
Polstellen besitzen dürfen. Die Fläche unter dem Graphen von f bleibt mit dem Wert 1 jedoch
stets endlich. Wegen
∫a
P (X = a) = P (a ≤ X ≤ a) =
f (x) dx = 0
a
ist die Wahrscheinlichkeit, dass X genau einen festen Wert annimmt, immer gleich Null.
Definition 1.3.21. Die durch
∫x
F (x) = P (X < x) =
f (t) dt
−∞
definierte reelle Funktion F heißt Verteilungsfunktion der stetigen Zufallsgröße X.
Eigenschaften der Verteilungsfunktion
•
lim F (x) = 0.
x→−∞
• lim F (x) = 1.
x→∞
• x1 < x2 ⇒ F (x1 ) ≤ F (x2 ), d.h. F ist monoton wachsend (nicht notwendigerweise streng).
• P (a ≤ X ≤ b) = F (b) − F (a).
• F ist stetig in allen Punkten x ∈ R.
• Falls die Dichtefunktion f in x0 stetig ist, so ist F in x0 differenzierbar und es gilt
F ′ (x0 ) = f (x0 ).
32
1.3.3.1 Erwartungswert und Varianz
Definition 1.3.22. Der Erwartungswert einer stetigen Zufallsgröße X ist gegeben durch
∫∞
EX :=
xf (x) dx.
−∞
EX ist eine endliche Zahl, wenn gilt
∫∞
|x|f (x) dx < ∞.
−∞
Definition 1.3.23. Sei X eine stetige Zufallsgröße. Der Erwartungswert einer Funktion g(X)
ist gegeben durch
∫∞
Eg(X) :=
g(x)f (x) dx.
−∞
Eg(X) ist eine endliche Zahl, wenn gilt
∫∞
|g(x)|f (x) dx < ∞.
−∞
Definition 1.3.24. Die Varianz (oder Streuung) einer stetigen Zufallsgröße X ist wie im
diskreten Fall definiert durch
σ 2 := D2 X := E(X − EX)2 .
Die folgenden Sätze aus Abschnitt 1.3.2.1 gelten auch für stetige Zufallsgrößen:
• Hilfssatz 1.3.8: E(aX + b) = aEX + b.
• Hilfssatz 1.3.10: D2 (aX + b) = a2 D2 X.
• Satz 1.3.11: D2 X = EX 2 − (EX)2 .
• Satz 1.3.15 (Tschebyscheff’sche Ungleichung): Für ε > 0 gilt:
P (|X − EX| > ε) <
D2 X
.
ε2
Beweis. Sei M := {x : |x − EX| > ε}. Dann gilt:
∫∞
∫
(x − EX) f (x) dx ≥
2
(x − EX)2 f (x) dx
2
D X=
−∞
M
∫
f (x) dx = ε2 P (M ) = ε2 P (|x − EX| > ε).
> ε2
M
33
1.3.3.2 Gleichverteilung
Als erste stetige Wahrscheinlichkeitsverteilung betrachten wir die recht einfache Gleichverteilung. Wir nennen eine Zufallsgröße X gleichverteilt auf dem Intervall [a, b], wenn X nur Werte
aus dem Intervall annehmen kann und diese gleichwahrscheinlich über das Intervall verteilt
sind. Für die Dichtefunktion ergibt sich also:
{
c, x ∈ [a, b]
f (x) =
,
0, x ̸∈ [a, b]
wobei c = const eine Konstante ist. Wegen
∫b
c(b − a) =
∫b
c dx =
a
erhalten wir c =
∫∞
f (x) dx =
f (x) dx = 1
−∞
a
1
b−a .
Definition 1.3.25. Ein stetige Zufallsgröße X mit der Dichtefunktion
{
1
, x ∈ [a, b]
f (x) = b−a
0,
x ̸∈ [a, b]
heißt gleichverteilt mit den beiden Parametern a und b.
f (x)
a
b
x
Die Verteilungsfunktion F nimmt offensichtlich für x < a den Wert 0 und für x > b den Wert 1
an. Für a ≤ x ≤ b ergibt sich:
∫x
F (x) =
∫x
f (t) dt =
−∞
a
t x x − a
1
=
dt =
,
b−a
b − a a
b−a
34


0,
also ist
F (x) =
x−a
,
 b−a

1,
x<a
a≤x≤b.
x>b
Erwartungswert Für den Erwartungswert einer gleichverteilten stetigen Zufallsgröße X erhalten wir:
b
∫∞
∫b
x
x2 b 2 − a2
a+b
EX =
xf (x) dx =
dx =
=
=
.
b−a
2(b − a) a 2(b − a)
2
−∞
a
Zur Berechnung der Varianz benötigen wir noch EX 2 .
∫b
2
EX =
a
b
x2
x3 b3 − a3
a2 + ab + b2
dx =
=
=
.
b−a
3(b − a) a 3(b − a)
3
Varianz Für die Varianz einer gleichverteilten stetigen Zufallsgröße X erhalten wir also:
D2 X = EX 2 − (EX)2 =
a2 + ab + b2 a2 + 2ab + b2
a2 − 2ab + b2
(a − b)2
−
=
=
.
3
4
12
12
1.3.3.3 Exponentialverteilung
Definition 1.3.26. Besitzt eine stetige Zufallsgröße X die Dichtefunktion
{
0,
x≤0
f (x) =
,
−λx
λe
, x>0
so nennen wir X exponentialverteilt mit dem Parameter λ > 0 und schreiben X ∼ Ex(λ).
f (x)
0
x
Aus der Dichtefunktion f erhält man die Verteilungsfunktion
{
0,
x≤0
F (x) =
.
−λx
1−e
, x>0
35
Zusammenhang zwischen Exponential- und Poisson-Verteilung Im Unterabschnitt über
die Poisson-Verteilung haben wir als Modell eine Telefonzentrale betrachtet, wobei die Zufallsgröße Xt die Anzahl der Anrufe in einem Zeitintervall der Länge t beschrieb. Xt war Poissonverteilt mit dem Parameter µ. Dabei gab µ die durchschnittliche Anrufanzahl pro Zeiteinheit
an. Dieses Modell können wir auch nutzen, um die Exponentialverteilung zu veranschaulichen.
Betrachten wir als Zufallsgröße T die Länge des Zeitintervalls zwischen zwei eingehenden Anrufen, so ist T exponentialverteilt mit demselben Parameter µ wie bei der Poisson-Verteilung.
Beispiel. In einer Telefonzentrale kommen im Mittel 20 Anrufe pro Stunde an. Gesucht ist
die Wahrscheinlichkeit, dass zwischen zwei Anrufen 3 bis 6 Minuten vergehen. Rechnen wir in
1
Minuten, so ist µ = 20
60 = 3 . Wir erhalten dann:
(
) (
)
P (3 ≤ T ≤ 6) = F (6) − F (3) = 1 − e−6µ − 1 − e−3µ = e−1 − e−2 = 0,2325.
Exponentialverteilung als Lebensdauerverteilung Wartezeiten, Reparaturzeiten und die Lebensdauer von Bauelementen können als exponentialverteilt angenommen werden. Wie die
folgende Überlegung zeigt, muss dabei jedoch beachtet werden, dass keine Alterungseffekte
modelliert werden können: Für X ∼ Ex(λ) gilt
F (x0 + x) − F (x0 )
P (x0 ≤ X ≤ x0 + x)
=
P (X ≥ x0 )
1 − F (x0 )
(
)
(
)
1 − e−λ(x0 +x) − 1 − e−λx0
e−λx0 − e−λ(x0 +x)
=
=
1 − (1 − e−λx0 )
e−λx0
P (X ≤ x0 + x|X ≥ x0 ) =
= 1 − e−λx = P (X ≤ x),
d.h. wenn wir als Zufallsgröße X die Lebensdauer eines Bauelements betrachten, so ist die
Wahrscheinlichkeit, dass das Bauelement innerhalb einer Zeitdauer x eine Störung aufweist,
unabhängig davon, ob es bereits über eine Zeitdauer x0 in Betrieb war oder ob es neu ist.
Erwartungswert Der Erwartungswert für X ∼ Ex(λ) beträgt:


∫∞
∫∞
∫∞
(
)
1
1
1
∞
te−t dt =  t −e−t 0 + e−t dt = .
EX = xλe−λx dx =
λ
λ
λ
0
0
In ähnlicher Weise berechnet man EX 2 =
0
2
.
λ2
Varianz Die Varianz für X ∼ Ex(λ) beträgt:
D2 X = EX 2 − (EX)2 =
1
1
2
− 2 = 2.
2
λ
λ
λ
Beispiel. Als Zufallsgröße X betrachten wir die Zeitdauer für eine PKW-Inspektion in einer
Werkstatt. Im Mittel dauert eine Inspektion 2 Stunden. Wie groß ist die Wahrscheinlichkeit,
dass eine Inspektion länger als 3 Stunden dauert? Als Einheit für unsere Berechnung wählen
wir Stunden und es sei X ∼ Ex(λ). Somit erhalten wir aus EX = 2 den Parameter λ = 12 . Es
36
ergibt sich
(
)
3
P (X > 3) = P (X ≥ 3) = P (3 ≤ X < ∞) = F (∞) − F (3) = 1 − 1 − e−3λ = e− 2 = 0,223,
d.h. in durchschnittlich 22,3 % aller Fälle dauert die Inspektion länger als 3 Stunden.
1.3.3.4 Normalverteilung
Die Normalverteilung (oder auch Gauß’sche Verteilung) ist die wichtigste stetige Verteilung,
da sie in der Praxis eine Vielzahl von Anwendungen hat.
Definition 1.3.27. Besitzt eine stetige Zufallsgröße X die Dichtefunktion
−(x−µ)2
1
f (x) = √
e 2σ2 ,
2πσ
so nennen wir X normalverteilt mit den Parametern µ und σ 2 (σ > 0) und schreiben X ∼
N(µ, σ 2 ).
Interpretation der Parameter Die Dichtefunktion der Normalverteilung wird aufgrund ihrer
Form als Glockenkurve bezeichnet. Glockenkurven sind symmetrische, eingipfelige Kurven mit
Wendestellen bei x = µ ± σ und einem auf der Symmetrieachse liegenden Maximum (Top der
1
Glocke) von √2πσ
. Wir nennen µ ∈ R den Lageparameter, da µ die Lage der Symmetrieachse
2
angibt, und σ > 0 den Formparameter, da σ 2 den Breitenverlauf der Glockenkurve festlegt.
Bei großem σ ist die Glockenkurve breit gezogen, bei kleinem σ ist sie nadelförmig.
f (x)
µ−σ
µ+σ
µ
x
Verteilungsfunktion Die Verteilungsfunktion F einer normalverteilten Zufallsgröße ist gegeben durch
∫x
∫x
−(t−µ)2
1
√
F (x) =
f (t) dt =
e 2σ2 dt.
2πσ
−∞
−∞
F ist nicht durch einen geschlossenen analytischen Ausdruck darstellbar. Die Funktionswerte
müssen mittels numerischer Integration oder durch andere Techniken näherungsweise bestimmt
werden. Weiter unten werden wir sehen, dass es genügt, die Werte der Verteilungsfunktion für
µ = 0 und σ = 1 zu kennen. Diese sind in Tabellen erfasst.
37
Erwartungswert und Varianz Für X ∼ N(µ, σ 2 ) ist der Erwartungswert EX = µ und die
Varianz beträgt D2 X = σ 2 .
Standardisierung einer Zufallsgröße Die lineare Transformation
X − EX
Y := √
D2 X
einer Zufallsgröße X heißt Standardisierung von X. Aufgrund der Linearität dieser Transformation besitzt Y die gleiche Verteilungsart wie X. Für den Erwartungswert von Y erhalten
wir
X − EX
1
EY = E √
= 2 (EX − EX) = 0
2
D X
D X
und die Varianz beträgt
D2 Y = EY 2 = E
(X − EX)2
1
1
= 2 E(X − EX)2 = 2 D2 X = 1.
2
D X
D X
D X
Standardisierung einer normalverteilten Zufallsgröße Wenden wir das beschriebene Standardisierungsverfahren auf eine Zufallsgröße X ∼ N(µ, σ 2 ) an, so erhalten wir die entsprechende
standardisiert normalverteilte Zufallsgröße Y ∼ N(0, 1) mit Y = X−µ
σ . Als Dichtefunktion der
standardisierten Normalverteilung ergibt sich
x2
1
φ(x) = √ e− 2
2π
und somit ist die Verteilungsfunktion
∫x
Φ(x) =
−∞
t2
1
√ e− 2 dt.
2π
Für x ≥ 0 sind die Funktionswerte von Φ tabelliert. Für x < 0 nutzt man den aus der Symmetrie
der Glockenkurve resultierenden Zusammenhang Φ(−x) = 1 − Φ(x).
Berechnung von Wahrscheinlichkeiten In der Praxis müssen oft Wahrscheinlichkeiten des
Typs P (a ≤ X ≤ b) mit einer Zufallsgröße X ∼ N(µ, σ 2 ) berechnet werden. Durch Ausnutzung
der Standardisierung einer Zufallsgröße führt man solche Berechnungen auf die Berechnung
einer Differenz zweier Werte der Verteilungsfunktion Φ der standardisierten Normalverteilung
zurück, da diese Werte in Tabellen erfasst sind:
(
)
(
)
a−µ
X −µ
b−µ
a−µ
b−µ
P (a ≤ X ≤ b) = P
≤
≤
=P
≤Y ≤
σ
σ
σ
σ
σ
(
)
(
)
b−µ
a−µ
=Φ
−Φ
.
σ
σ
Anwendung normalverteilter Zufallsgrößen Stetige Fehlergrößen (Messfehler usw.) können
im Allgemeinen in guter Näherung als normalverteilt angenommen werden. Die Normalverteilung ist insbesondere dann für die Beschreibung von stochastischen Modellen geeignet, wenn
38
sich die betrachtete Zufallsgröße als Summe einer großen Anzahl von unabhängigen Einflüssen
ergibt (z.B. als Summe zahlreicher kleiner Fehler oder Störungen).
Satz 1.3.28 (Additionssatz). Seien Xi ∼ N(µi , σi2 ) für i = 1, 2, . . . , n vollständig unabhängige
normalverteilte Zufallsgrößen. Dann gilt
)
( n
n
n
∑
∑
∑
2
Z :=
Xi ∼ N
µi ,
σi ,
i=1
i=1
i=1
d.h. die Summe Z ist wieder eine normalverteilte Zufallsgröße.
Beispiel. Der Kern eines Transformators bestehe aus 25 Blechen und 24 zwischen diesen Blechen liegenden Isolierschichten. Für die Dicken (in Millimeter) Xi der Bleche und Yj der Isolierschichten gelte Xi ∼ N(0,8; 0,042 ) und Yj ∼ N(0,2; 0,032 ). Uns interessieren die folgenden
beiden Fragen:
1. Wie groß ist die Wahrscheinlichkeit, dass zwei Bleche und eine Isolierschicht zusammen
dicker als 1,85 mm sind?
2. Die Spulenöffnung sei 25,3 mm breit. Wie groß ist die Wahrscheinlichkeit, dass der Kern
zu dick ist?
Wir wissen aus dem vorhergehenden Satz, dass Z := X1 + Y1 + X2 ∼ N(1,8; 0,0041) ist. Somit
erhalten wir als Antwort auf Frage 1:
)
(
Z − 1,8
1,85 − 1,8
= 1 − Φ(0,7809) = 0,2174.
P (Z > 1,85) = P √
≥ √
0,0041
0,0041
Mit Z :=
25
∑
i=1
Xi +
24
∑
Yj ∼ N(24,8; 0,0616) ergibt sich für Frage 2:
j=1
(
P (Z > 25,3) = P
Z − 24,8
25,3 − 24,8
√
≥ √
0,0616
0,0616
)
= 1 − Φ(2,015) = 0,022.
1.3.3.5 Schiefe und Exzess
Wir betrachten neben der Varianz σ 2 = D2 X, d.h. neben dem zweiten zentralen Moment µ2
(siehe Definition 1.3.12), nun auch die dritten und vierten zentralen Momente µ3 = E(X −EX)3
und µ4 = E(X − EX)4 einer Zufallsgröße X.
Definition 1.3.29. Sei X eine Zufallsgröße. Dann heißen
γ1 :=
µ3
µ3
= (√ )3
3
σ
µ2
und
γ2 :=
µ4
−3
σ4
Schiefe von X und Exzess von X.
Die Schiefe γ1 ist ein Maß für die Asymmetrie der Verteilung, also für die Abweichung des
Verhaltens der Zufallsgröße X von dem einer symmetrischen Verteilung. Da bei einer symmetrischen stetigen Zufallsgröße X für alle x ∈ R f (µ − x) = f (µ + x) gilt, wobei x = µ = EX
39
die Symmetrieachse der (symmetrischen) Dichtefunktion f ist, erhalten wir
∫∞
µ3 = E(X − EX) =
∫µ
(x − µ) f (x) dx =
3
3
−∞
−∞
∫∞
=−
∫∞
(x − µ) f (x) dx + (x − µ)3 f (x) dx
3
µ
∫∞
x3 f (µ − x) dx +
0
x3 f (µ + x) dx = 0
0
und somit ist die Schiefe γ1 einer symmetrischen Zufallsgröße gleich Null.
Der Exzess γ2 ist ein Maß für die Abweichung der Zufallsgröße X von der Normalverteilung.
Den Quotienten σµ44 nennt man Wölbung. Der Exzess ist also die um 3 verminderte Wölbung.
Wie wir weiter unten sehen werden, gilt für eine normalverteilte Zufallsgröße µ4 = 3σ 4 . Somit
ist der Exzess einer normalverteilten Zufallsgröße gleich Null.
Satz 1.3.30. Schiefe und Exzess einer Zufallsgröße X bleiben bei Standardisierung unverändert,
d.h. mit Y := X−µ
gilt γ1 (X) = γ1 (Y ) und γ2 (X) = γ2 (Y ).
σ
Beweis. Da Y eine standardisierte Zufallsgröße ist, gilt EY = 0 und D2 Y = 1. Somit erhalten
wir
(
)
X − µ 3 E(X − EX)3
E(Y − EY )3
µ3
3
γ1 (Y ) = (√
=
= 3 = γ1 (X).
)3 = EY = E
3
σ
σ
σ
D2 Y
Der Beweis für γ2 erfolgt analog.
Satz 1.3.31. Existieren für eine Zufallsgröße X die ersten vier zentralen Momente, so gilt
γ2 ≥ γ12 − 2.
Satz 1.3.32. Sei X ∼ N(µ, σ 2 ) eine normalverteilte Zufallsgröße. Dann gilt für k = 1, 2, . . .
µ2k−1 = 0,
µ2k =
(2k)! 2k
σ
2k k!
und γ1 = γ2 = 0.
1.3.3.6 Die charakteristische Funktion
Zur Charakterisierung der Verteilung einer Zufallsgröße X kann neben der Verteilungsfunktion F (x) auch die (komplexwertige) charakteristische Funktion φX (t) verwendet werden. Wir
betrachten dies für stetige Zufallsgrößen X.
Definition 1.3.33. Sei X eine stetige Zufallsgröße. Dann heißt
φX (t) := EeitX
(t ∈ R)
∫∞
=
eitx f (x)dx
−∞
charakteristische Funktion von X. Dabei bezeichnet f (x) die Dichtefunktion von X.
40
Bemerkung.
a) Aus der trigonometrischen Darstellung einer komplexen Zahl folgt
φX (t) = E(cos tX + i sin tX) = E
| cos
{z tX} +i E
| sin
{z tX}
Realteil
=⇒ |φX (t)| ≤
∫∞
−∞
=
|eitx |
| {z }
√
∫∞
f (x)dx =
Imaginärteil
∀t ∈ R
f (x)dx = 1
−∞
cos2 φ+sin2 φ=1
b) φX (t) = φX (−t) = E cos tX + iE sin tX
c) Sei Y = aX + b. Dann ist φY (t) = Eeit(aX+b) = eitb EeitaX = eitb φX (at)
µit
Speziell bei der Standardisierung: b = − σµ , a = σ1 : ⇒ φY (t) = e− σ φX ( σt )
d) φX (t) ist eine gleichmäßig stetige Funktion, d. h. es gilt
|φX (t) − φX (t′ )| < ε, sobald |t − t′ | < δ(ε)
Beispiel. Sei X ∼ N(0, 1). Unter Benutzung des komplexen Integrals
gilt
∫∞
φX (t) =
−∞
x2
1
1
eitx √ e− 2 dx = √
2π
2π
1
=√
2π
∫∞
e−
(x−it)2
2
∫∞
eitx−
x2
2
∫∞
−∞ e
−
(x−it)2
2
dx =
dx
−∞
t2
e− 2 dx
−∞
2
=e
− t2
Daraus berechnet man die charakteristische Funktion für X̃ ∼ N(µ, σ), X̃ = σX + µ:
φX̃ (t) = eitµ φX (σt)
= eitµ e−
= eitµ−
σ 2 t2
2
σ 2 t2
2
(reellwertig für µ)
Die charakteristische Funktion wird zudem zur Berechnung von Momenten genutzt:
∫∞
eitx f (x)dx
φX (t) =
φ′X (t) =
−∞
∫∞
ixeitx f (x)dx
−∞
∫∞
φ′X (0) = i
xf (x)dx = iEX
−∞
41
⇒ m1 = EX =
φ′X (0)
i
√
2π
Analog folgt:
[
(k)
φ (0)
mk = EX k = X k
i
]
(k = 1, 2, . . .)
Bemerkung.
)2
φ′′X (0) ( ′
− φX (0)
2
i
]
D2 X = m2 − m21 =
[
D2 X = −φ′′X (0) + (φ′X (0))2
Beispiel. Sei X ∼ N(µ, σ) eine normalverteilte Zufallsgröße. Die zugehörige charakteristische
Funktion ist
φX (t) = eitµ−
σ 2 t2
2
und die erste Ableitung ist
φ′X (t) = (iµ − σ 2 t)eitµ−
σ 2 t2
2
.
Mit obiger Formel berechnet sich der Erwartungswert durch
EX =
φ′X (0)
iµ
=
= µ
i
i
sowieso analog die Varianz als D2 X = σ 2 .
Die charakteristische Funktion ist auch interessant für Summen von Zufallsgrößen:
Satz 1.3.34. Seien X und Y stochastisch unabhängige Zufallsgrößen mit den charakteristischen
Funktionen φX (t) und φY (t). Dann gilt für die charakteristische Funktion der Zufallsgröße
Z =X +Y
φZ (t) = φX (t)φY (t).
2 ) und Y ∼ N(µ , σ 2 ) normalverteilte Zufallsgrößen mit den
Beispiel. Seien X ∼ N(µX , σX
Y
Y
charakteristischen Funktionen φX (t) = eiµX t−
2 t2
σX
2
und φY (t) = eiµY t−
φZ (t) = ei(µX +µY )t−
2 +σ 2 )t2
(σX
Y
2
2
⇒ Z ∼ N(µX + µY , σX
+ σY2 ).
Satz 1.3.35. Existieren alle Momente, so gilt
φX (t) = 1 +
∞
∑
mk
k=1
k!
(it)k =
42
∞
(k)
∑
φ (0)
X
k=0
k!
tk ,
2 t2
σY
2
. Dann folgt
falls die charakteristische Funktion in t0 = 0 in eine Potenzreihe entwickelt werden kann.
Bemerkung. Die charakteristische Funktion ist die Fourriertransformierte der Dichtefunktion.
Die Rücktransformation ist möglich:
fX (x) =
1
2π
∫∞
e−itx φX (t)dt.
−∞
1.4 Das Gesetz der großen Zahlen und Grenzverteilungssätze
In vielen Anwendungen, vor allem in der mathematischen Statistik, treten Folgen von Zufallsgrößen X1 , X2 , . . . , Xn und deren Linearkombinationen
Yn := a1 X1 + a2 X2 + · · · + an Xn
auf. Dabei gilt nach Hilfssatz 1.3.14
EYn =
n
∑
ai EXi
i=1
und, falls X1 , . . . , Xn vollständig unabhängig sind,
D2 Yn =
n
∑
a2i D2 Xi .
i=1
Definition 1.4.1. Die Zufallsgrößen X1 , . . . , Xn heißen unabhängig und identisch verteilt oder
vom Typ i.i.d. (von „independent and identically distributed“), wenn sie vollständig unabhängig
sind, identische Verteilungen aufweisen und die Erwartungswerte und Streuungen existieren. Es
gilt also
EX1 = · · · = EXn =: µ ∈ R,
D2 X1 = · · · = D2 Xn =: σ 2 < ∞.
Sind X1 , . . . , Xn Zufallsgrößen vom Typ i.i.d. und ist
X̄n =
X1 + · · · + Xn
n
ihr arithmetisches Mittel, so gilt
EX̄n =
n
∑
1
µ = µ,
n
D2 X̄n =
n
∑
1 2 σ2
σ =
.
n2
n
(1.4.1)
i=1
i=1
1.4.1 Das Gesetz der großen Zahlen
Satz 1.4.2 (schwaches Gesetz der großen Zahlen). Sind X1 , . . . , Xn Zufallsgrößen vom Typ
i.i.d. und ist µ = EX̄n = EXi deren einheitlicher Erwartungswert, so gilt für alle ε > 0
(
)
lim P |X̄n − µ| ≤ ε = 1,
n→∞
43
d.h. das arithmetische Mittel X̄n konvergiert für wachsendes n im Sinne der Wahrscheinlichkeit
gegen den einheitlichen Erwartungswert der Zufallsgrößen X1 , . . . , Xn .
Beweis. Mit σ 2 = D2 X1 = · · · = D2 Xn erhalten wir aus der Tschebyscheff’schen Ungleichung und den Formeln (1.4.1):
(
)
(
)
D2 X̄n
σ2
P |X̄n − µ| ≤ ε = 1 − P |X̄n − EX̄n | > ε > 1 −
=
1
−
.
ε2
nε2
Für n gegen unendlich ergibt sich also:
)
(
σ2
1 − 2 = 1.
n→∞
nε
(
)
1 ≥ lim P |X̄n − µ| ≤ ε ≥ lim
n→∞
Am Ende von Abschnitt 1.3.2.1 haben wir die Aussage des obigen Satzes bereits verwendet,
um zu zeigen, dass die relative Häufigkeit Hn (A) = X̄n eines Ereignisses A für wachsendes n
(Versuchsanzahl) gegen die Wahrscheinlichkeit p = P (A) strebt. Dabei waren X1 , . . . , Xn mit
{
1, wenn A im i-ten Versuch eintritt
Xi =
0, wenn A im i-ten Versuch nicht eintritt
Zufallsgrößen vom Typ i.i.d. und es galt µ = EX̄n = p und σ 2 = D2 X̄n =
obigem Satz
lim P (|Hn (A) − p| ≤ ε) = 1.
p(1−p)
n .
Also ist nach
n→∞
Beispiel. Uns interessiert, wie viele Versuche zu einer Zufallssituation durchgeführt werden
müssen, damit mit einer Wahrscheinlichkeit von mindestens 95 % die relative Häufigkeit Hn (A)
und die Wahrscheinlichkeit p = P (A) eines Ereignisses A bis zwei Stellen nach dem Komma
übereinstimmen. Wir setzen also ε = 0,005 und erhalten mit p(1 − p) = −(p − 21 )2 + 41 ≤ 14
analog zum obigen Beweis:
P (|Hn (A) − p| ≤ ε) > 1 −
p(1 − p)
1
10000
D2 (Hn (A))
.
=1−
≥1−
=1−
ε2
nε2
4nε2
n
Wenn für ein n die Gleichung 1 − 10000
= 0,95 erfüllt ist, so können wir also sicher sein, dass
n
P (|Hn (A) − p| ≤ ε) ≥ 0,95 gilt. Wir erhalten somit als Lösung n = 200000 (oder größer). Wie
wir weiter unten sehen werden, ist diese Abschätzung sehr grob.
1.4.2 Grenzverteilungssätze
1.4.2.1 Zentraler Grenzverteilungssatz
Das schwache Gesetz der großen Zahlen liefert nur eine Aussage über den stochastischen Grenzwert des arithmetischen Mittels X̄n einer Folge von Zufallsgrößen X1 , . . . , Xn . In vielen Anwendungen wird aber auch die Grenzverteilung des standardisierten arithmetischen Mittels
X̄n − EX̄n
X̄n − µ
X̄n − µ √
Ȳn = √
=
=
n.
σ
√
σ
D2 X̄n
n
benötigt.
44
Satz 1.4.3 (Zentraler Grenzverteilungssatz von Lindeberg/Levy). Sei X̄n das arithmetische
Mittel einer Folge X1 , . . . , Xn von Zufallsgrößen vom Typ i.i.d., µ = EXi ∈ R und 0 < σ 2 =
√
D2 X < ∞. Weiter sei Fn (x) die Verteilungsfunktion der Zufallsgröße Ȳn = X̄nσ−µ n, d.h.
(
Fn (x) = P
X̄n − µ √
n<x
σ
)
(
=P
)
X1 + · · · + Xn − nµ
√
<x
nσ 2
für alle x ∈ R. Dann gilt für alle x ∈ R
lim Fn (x) = Φ(x),
n→∞
wobei Φ die Verteilungsfunktion der standardisierten Normalverteilung bezeichnet. Die Standardisierung Ȳn von X̄n ist also asymptotisch N(0, 1)-verteilt (Schreibweise: X̄n ≈ N(0, 1)).
Anwendung Das arithmetische Mittel einer Folge von Zufallsgrößen kann also in guter Näherung als normalverteilt angenommen werden. Somit motiviert der zentrale Grenzverteilungssatz
die Annahme, dass eine durch Überlagerung zahlreicher unabhängiger Einzeleinflüsse entstehende Zufallsgröße (z.B. Messfehler) als normalverteilt aufgefasst werden kann.
1.4.2.2 Grenzverteilungssatz von Moivre/Laplace
Wir betrachten nun einen Spezialfall des zentralen Grenzverteilungssatzes. Zu einer Zufallssituation werden n Versuche durchgeführt, wobei die Zufallsgrößen Xi angeben, ob das Ereignis A im
i-ten Versuch eingetreten ist (Xi = 1) oder nicht (Xi = 0). Wir setzen p = P (A) = P (Xi = 1)
und Yn = X1 +· · ·+Xn . Die Zufallsgröße Yn gibt also an, wie oft das Ereignis A bei n Versuchen
eingetreten ist. Es gilt Yn ∼ B(n, p) und somit EYn = np und D2 Yn = np(1 − p). Für genügend
n
= Ynn aus dem zentralen Grenzverteilungssatz die
große n erhalten wir mit X̄n = X1 +···+X
n
Beziehung
X̄n − p √
Yn − np
Yn − EYn
X̄n − EX̄n √
n= √
n= √
= √ 2
,
N(0, 1) ≈ √
D Yn
p(1 − p)
np(1 − p)
D2 X̄n
d.h. Yn ≈ N(np, np(1 − p)). Damit haben wir die Aussage des Grenzverteilungssatzes von
Moivre/Laplace hergeleitet.
Satz 1.4.4 (Grenzverteilungssatz von Moivre/Laplace). Sei X ∼ B(n, p) eine binomialverteilte Zufallsgröße und Fn (x) die Verteilungsfunktion der standardisierten Zufallsgröße
Y = √X−np . Dann gilt für alle x ∈ R
np(1−p)
lim Fn (x) = Φ(x),
n→∞
wobei Φ die Verteilungsfunktion der standardisierten Normalverteilung bezeichnet. Die binomialverteilte Zufallsgröße X ist also asymptotisch N (np, np(1 − p)) verteilt.
Faustregel Der Grenzverteilungssatz von Moivre/Laplace ist in guter Näherung anwendbar, wenn np(1 − p) > 9 gilt. Selbst für np(1 − p) > 4 erhält man noch eine brauchbare
Näherung.
45
Anwendung Die Berechnung von Wahrscheinlichkeiten ist bei binomialverteilten Zufallsgrößen extrem rechenaufwändig. Mit Hilfe des obigen Satzes kann man diese aufwändigen Rechnungen auf die einfacher handhabbare Normalverteilung zurückführen.
Beispiel. Nun haben wir eine weitere Möglichkeit zur Lösung des Problems aus dem vorhergehenden Beispiel. Gesucht war die Versuchsanzahl n, die benötigt wird, damit mit einer
Wahrscheinlichkeit von mindestens 95 % die relative Häufigkeit Hn (A) und die Wahrscheinlichkeit p = P (A) eines Ereignisses A bis zwei Stellen nach dem Komma übereinstimmen. Wir
suchen also ein n, so dass P (|Hn (A) − p| ≤ ε) ≥ 0,95 gilt, wobei ε = 0,005 ist. Unter Verwendung des Grenzverteilungssatzes von Moivre/Laplace und den Bezeichnungen aus dessen
Herleitung erhalten wir zunächst:
P (|Hn (A) − p| ≤ ε) = P (|X̄n − p| ≤ ε) = P (|Yn − np| ≤ nε)
(
)
Y − np nε
n
= P √
≤ √
np(1 − p) np(1 − p)
(
)
−nε
Yn − np
nε
=P √
≤√
≤√
np(1 − p)
np(1 − p)
np(1 − p)
)
(
)
( √
)
( √
√
− nε
nε
nε
−Φ √
= 2Φ √
− 1.
=Φ √
p(1 − p)
p(1 − p)
p(1 − p)
(
Es muss also 2Φ
√
√
√ nε
p(1−p)
)
(
− 1 ≥ 0,95 gelten, d.h. Φ
√
√ nε
p(1−p)
)
≥ 0,975. Dies ist äquivalent
zu √ nε ≥ 1,96. Da p(1 − p) = −(p − 12 )2 + 41 ≤ 14 , ist letztere Beziehung erfüllt, wenn
√ p(1−p)
2 nε ≥ 1,96 gilt. Als Ergebnis erhalten wir also n = 38416 (oder größer). Diese Abschätzung ist
deutlich besser als die vorhergehende, die wir mit Hilfe der Tschebyscheff’schen Ungleichung
erhalten hatten.
Methode der Stetigkeitskorrektur Mit der hier vorgestellten Methode erhält man bessere
numerische Ergebnisse bei Verwendung des Grenzverteilungssatzes von Moivre/Laplace zur
näherungsweisen Berechnung von Wahrscheinlichkeiten der Form P (a ≤ Yn ≤ b) einer binomialverteilten Zufallsgröße Yn ∼ B(n, p), wobei a und b positive ganze Zahlen sind. Es gilt also
Yn ≈ N(np, np(1 − p)). Die Idee der Methode der Stetigkeitskorrektur ist, die Grenze a um 12
zu verringern und b um 21 zu erhöhen. Wir erhalten also:
(
)
(
)
1
1
b
+
−
np
a
−
−
np
P (a ≤ Yn ≤ b) ≈ P (a − 12 ≤ Yn ≤ b + 21 ) = Φ √ 2
−Φ √ 2
.
np(1 − p)
np(1 − p)
Beispiel. Wir wollen nun die Verbesserung der Ergebnisse durch die Methode der Stetigkeitskorrektur an konkreten Zahlen demonstrieren. Sei dazu Yn ∼ B(100; 0,25), a = 15 und b = 30.
Da np(1 − p) = 18,75 > 9 gilt, ist der Grenzverteilungssatz von Moivre/Laplace in guter
Näherung anwendbar. Es gilt also Yn ≈ N(25; 18,75). Als exaktes, aber sehr rechenaufwändiges
Ergebnis erhalten wir:
P (15 ≤ Yn ≤ 30) =
)
30 (
∑
100
0,25k 0,75100−k = 0,8908.
k
k=15
46
Ohne Stetigkeitskorrektur liefert die standardisierte Normalverteilung:
(
)
(
)
15 − 25
30 − 25
P (15 ≤ Yn ≤ 30) ≈ Φ √
−Φ √
= 0,8645.
18,75
18,75
Unter Verwendung der Methode der Stetigkeitskorrektur erhalten wir:
(
)
(
)
14,5 − 25
30,5 − 25
P (14,5 ≤ Yn ≤ 30,5) ≈ Φ √
−Φ √
= 0,8903.
18,75
18,75
Wir sehen also deutlich, dass durch die Methode der Stetigkeitskorrektur eine bessere Näherung
erreicht wird.
1.4.2.3 Grenzverteilungssatz von Poisson
Wir haben bereits zur Herleitung der Wahrscheinlichkeitsfunktion der Poisson-Verteilung
einen Zusammenhang zwischen Binomial- und Poisson-Verteilung hergestellt. Allgemeiner erhalten wir den folgenden Satz.
Satz 1.4.5 (Grenzverteilungssatz von Poisson). Gegeben sei eine Folge von binomialverteilten
Zufallsgrößen Yn ∼ B(n, pn ) mit pn → 0 und npn → λ > 0 für n → ∞. Dann gilt
lim P (Yn = k) = πλ (k),
n→∞
d.h. die Zufallsgrößen Yn sind asymptotisch Poisson-verteilt mit dem Parameter λ.
Beweis. Es gilt
( )
n k
lim P (Yn = k) = lim
pn (1 − pn )n−k
n→∞
n→∞ k
n(n − 1) · · · (n − k + 1) (npn )k (
npn )n
1
= lim
1
−
k
k
n→∞
n
k!
n
(1
−
|
{z
} | {z } |
{z
} | {zpn ) }
→1
=
λk
k!
k
→ λk!
e−λ
→1
e−λ = πλ (k).
Faustregel Den Grenzverteilungssatz von Poisson kann man ohne Bedenken anwenden, wenn
die Ungleichungen np ≤ 10 und 1500p ≤ n erfüllt sind.
Anwendung Wie der Grenzverteilungssatz von Moivre/Laplace, so verringert auch der
Grenzverteilungssatz von Poisson den Rechenaufwand bei einer binomialverteilten Zufallsgröße erheblich. Sollte der Parameter p der Binomialverteilung zu klein sein, um mit dem
Grenzverteilungssatz von Moivre/Laplace eine ausreichend gute Näherung zu erzielen, so
kann der Grenzverteilungssatz von Poisson genutzt werden.
Beispiel. Für eine binomialverteilte Zufallsgröße X ∼ B(100; 0,01) soll die Wahrscheinlichkeit
P (2 ≤ X ≤ 10) berechnet werden. Wegen np(1 − p) = 0,99 < 4 sollte der Grenzverteilungssatz von Moivre/Laplace nicht genutzt werden. Jedoch liefert der Grenzverteilungssatz von
47
Poisson eine gute Näherung, da np = 1 ≤ 10 und 1500p = 15 ≤ 100 = n. Wir erhalten somit
als Näherung
10
∑
P (2 ≤ X ≤ 10) =
π1 (k) = 0,264241.
k=2
Exakte Rechnung ergibt
)
10 (
∑
100
P (2 ≤ X ≤ 10) =
0,01k 0,99100−k = 0,264238.
k
k=2
1.4.2.4 Bemerkung zur hypergeometrischen Verteilung
Es lassen sich auch Grenzverteilungssätze für eine hypergeometrisch verteilte Zufallsgröße X ∼
H(n, N, M ) formulieren. Wenn z.B. N → ∞, M → ∞ und M
N → p für n → ∞ gilt, so nutzt
man die Näherung
(M )(N −M ) ( )
n k
P (X = k) = k (Nn−k
≈
p (1 − p)n−k ,
)
k
n
d.h man ersetzt die hypergeometrische Verteilung näherungsweise durch eine entsprechende
Binomialverteilung. Es gibt jedoch keine handhabbaren Faustregeln für die Nutzung dieser
Approximation. Um die so erhaltene Binomialverteilung auszuwerten, kann man dann den
Grenzverteilungssatz von Moivre/Laplace oder den Grenzverteilungssatz von Poisson verwenden.
1.5 Mehrdimensionale Verteilungen
Bisher wurden ausschließlich reellwertige, d.h. eindimensionale, Zufallsgrößen betrachtet. Wir
haben also stets nur ein Merkmal des zu beobachtenden Objekts bei unseren Untersuchungen
berücksichtigt. Häufig sind aber bei praktischen Modellierungsproblemen mehrere Merkmale
der Beobachtungsobjekte gleichermaßen von Interesse. Somit benötigen wir mehrdimensionale
Zufallsgrößen.
1.5.1 Einführung
Definition 1.5.1. Sei X = (X1 , X2 , . . . , Xn ) eine Zusammenfassung von n Zufallsgrößen
X1 , X2 , . . . , Xn . Dann heißt das Objekt X n-dimensionale Zufallsgröße oder zufälliger Vektor.
Definition 1.5.2. Die durch
F (x1 , . . . , xn ) := P (X1 < x1 , . . . , Xn < xn )
für alle Vektoren (x1 , . . . , xn ) ∈ Rn definierte reelle Funktion F heißt Verteilungsfunktion des
zufälligen Vektors X = (X1 , . . . , Xn ).
Wir werden im Folgenden nicht immer den allgemeinen Fall X = (X1 , . . . , Xn ) betrachten,
sondern uns auf n = 2, d.h. X = (X, Y ), beschränken, wenn dies das Verständnis erleichtert.
Ein Großteil der Aussagen gilt dann analog für allgemeines n.
48
Definition 1.5.3. Für einen zufälligen Vektor X = (X, Y ) heißen die Funktionen
FX (x) := lim F (x, y)
y→∞
und
FY (y) := lim F (x, y)
x→∞
Randverteilung von X bzw. Y . Die zu einer Randverteilung gehörende Wahrscheinlichkeitsbzw. Dichtefunktion bezeichnen wir ebenfalls als Randverteilung.
Eigenschaften der Verteilungsfunktion
• 0 ≤ F (x, y) ≤ 1 ∀x, y ∈ R.
•
lim F (x, y) = 0 ∀y ∈ R,
x→−∞
lim F (x, y) = 0 ∀x ∈ R.
y→−∞
• Die Randverteilungen FX und FY sind die Verteilungsfunktionen der eindimensionalen
Zufallsgrößen X und Y , d.h.
FX (x) = P (X < x) ∀x ∈ R
und
FY (y) = P (Y < y) ∀y ∈ R.
• x→∞
lim F (x, y) = 1.
y→∞
• F (x, y) ist in beiden Komponenten monoton wachsend, d.h.
x1 < x2 ⇒ F (x1 , y) ≤ F (x2 , y) ∀y ∈ R,
y1 < y2 ⇒ F (x, y1 ) ≤ F (x, y2 ) ∀x ∈ R.
• F (x, y) ist in beiden Komponenten linksseitig stetig, d.h.
lim F (x − h, y) = F (x, y) = lim F (x, y − h) ∀x, y ∈ R.
h→0
h>0
h→0
h>0
1.5.1.1 Kovarianz und Korrelationskoeffizient
Für einen zufälligen Vektor (X, Y ) bezeichnen wir mit µX := EX den Erwartungswert und mit
2 := D2 X die Varianz der Randverteilung von X. Analog µ := EY und σ 2 := D2 Y für die
σX
Y
Y
Randverteilung von Y .
Definition 1.5.4. Seien X und Y zwei Zufallsgrößen. Dann heißt die Größe
σXY := Cov(X, Y ) := E(X − EX)(Y − EY )
Kovarianz der Zufallsgrößen X und Y . Die Kovarianz ist ein Maß für das stochastische Verhalten der Zufallsgrößen zueinander. Die Zufallsgrößen X und Y heißen unkorreliert, wenn
Cov(X, Y ) = 0 gilt.
Eigenschaften der Kovarianz
• Cov(X, Y ) = E(XY ) − EXEY = Cov(Y, X),
• Cov(a + bX, c + dY ) = bdCov(X, Y ),
49
• Cov(X, X) = D2 X.
Satz 1.5.5. Existieren die zweiten Momente der Randverteilungen von X und Y , so existiert
auch die Kovarianz Cov(X, Y ).
Definition 1.5.6. Besitzen die beiden Zufallsgrößen X und Y endliche Streuungen, so heißt
die Größe
σXY
ρXY :=
σX σY
Korrelationskoeffizient von X und Y .
Satz 1.5.7. Für den Korrelationskoeffizienten zweier Zufallsgrößen X und Y gilt
−1 ≤ ρXY = ρY X ≤ 1.
Der Korrelationskoeffizient ρXY zweier Zufallsgrößen X und Y ist also ein normiertes Maß
für das stochastische Verhalten beider Zufallsgrößen zueinander. X und Y sind offensichtlich
genau dann unkorreliert, wenn ρXY = 0 gilt. ρXY ≈ −1 drückt starke negative Korrelation und
ρXY ≈ 1 starke positive Korrelation aus.
1.5.1.2 Diskrete Verteilungen
Definition 1.5.8. Ein zufälliger Vektor X = (X1 , . . . , Xn ) heißt diskret verteilt, wenn alle
eindimensionalen Randverteilungen diskrete Verteilungen sind.
Die Komponenten eines diskret verteilten zufälligen Vektors X = (X1 , . . . , Xn ) nehmen die
Werte X1 = x1i1 , . . . , Xn = xnin an, wobei für endliches Xj ij ∈ {1, . . . , lj } =: IXj mit lj ∈ N
und für abzählbar unendliches Xj ij ∈ N =: IXj gilt. Die Wahrscheinlichkeitsfunktion von X
lässt sich als n-dimensionales Feld schreiben:
pi1 ...in = P (X1 = x1i1 , . . . , Xn = xnin ).
Im Fall n = 2 bezeichnen wir die Werte der beiden Komponenten X und Y des zufälligen
Vektors X mit xj und yk , wobei j ∈ IX und k ∈ IY . Die Wahrscheinlichkeitsfunktion von X
lässt sich dann als endliche oder unendliche Matrix mit Einträgen der Form
pjk = P (X = xj , Y = yk )
schreiben. Für die Randverteilungen von X und Y erhalten wir
∑
∑
pj· =
pjk
und
p·k =
pjk .
j∈IX
k∈IY
Für Erwartungswert, Varianz und Kovarianz von X und Y gilt:
∑
∑
• EX = µX =
xj pj· ,
EY = µY =
yk p·k ,
j∈IX
2 =
• D2 X = σX
∑
k∈IY
(xj − µX )2 pj· ,
j∈IX
• Cov(X, Y ) = σXY =
∑ ∑
D2 Y = σY2 =
∑
k∈IY
(xj − µX )(yk − µY )pjk .
j∈IX k∈IY
50
(yk − µY )2 p·k ,
Beispiel. In einer Urne befinden sich 12 Lose: 2 Geldgewinne, 4 Freilose und 6 Nieten. Es
werden ohne Zurücklegen 2 Lose gezogen. Wir bezeichnen mit X die Anzahl der gezogenen
Geldgewinne und mit Y die Anzahl der gezogenen Freilose. Gesucht werden die Wahrscheinlichkeitsfunktion pjk = P (X = xj , Y = yk ) des zufälligen Vektors (X, Y ) und die zugehörigen
Randverteilungen pj· und p·k seiner Komponenten X und Y . Aus kombinatorischen Überlegungen ergibt sich:
 2 4
6
 (xj )(yk )(2−xj −yk )
, 0 ≤ x j + yk ≤ 2
(12
pjk =
.
2)

0,
x j + yk > 2
Die Wahrscheinlichkeitsfunktion lässt sich zusammen mit den Randverteilungen wie folgt als
Tabelle darstellen:
0
yj
5
22
4
11
1
11
15
22
0
1
2
pj· →
xk
1
2
11
4
33
p·k
↓
2
1
66
0
0
0
10
33
1
66
∑
14
33
16
33
1
11
=1
Die Randverteilung pj· bzw. p·k von X bzw. Y erhält man dabei aus den Spalten- bzw. Zeilensummen der 3 × 3-Matrix. Da die Randverteilungen eindimensionale Wahrscheinlichkeitsfunktionen sind, sind die Summen der Werte der Randverteilungen stets 1.
1.5.1.3 Stetige Verteilungen
Definition 1.5.9. Ein zufälliger Vektor X = (X1 , . . . , Xn ) heißt stetig verteilt mit der Verteilungsfunktion F , wenn es eine integrierbare Dichtefunktion f gibt mit
∫x1
∫xn
···
F (x1 , . . . , xn ) = P (X1 < x1 , . . . , Xn < xn ) =
−∞
f (t1 , . . . , tn ) dt1 · · · dtn .
−∞
Definition 1.5.10. Sei g eine reelle Funktion von n reellen Veränderlichen und sei X =
(X1 , . . . , Xn ) eine stetig verteilte n-dimensionale Zufallsgröße. Dann ist der Erwartungswert
Eg(X) gegeben durch
∫∞
∫∞
···
Eg(X) :=
−∞
g(x1 , . . . , xn )f (x1 , . . . , xn ) dx1 · · · dxn .
−∞
Definition 1.5.11. Sei (X, Y ) ein stetig verteilter zufälliger Vektor und f seine Dichtefunktion.
Dann heißen die Funktionen
∫∞
fX (x) =
∫∞
f (x, y) dy
und
−∞
fY (y) =
f (x, y) dx
−∞
Randdichten der Komponenten X und Y .
51
Die Randdichten sind eindimensionale Dichtefunktionen. Für Erwartungswert, Varianz und
Kovarianz von X und Y erhalten wir:
• EX = µX =
∫∞
−∞
2 =
• D2 X = σX
xfX (x) dx,
∫∞
−∞
EY = µY =
(x − µX )2 fX (x) dx,
• Cov(X, Y ) = σXY =
∫∞ ∫∞
−∞ −∞
∫∞
−∞
yfY (y) dy,
D2 Y = σY2 =
∫∞
−∞
(y − µY )2 fY (y) dy,
(x − µX )(y − µY )f (x, y) dx dy.
Beispiel. Als Beispiel für eine mehrdimensionale Verteilung betrachten wir die zweidimensionale Normalverteilung. Ein zufälliger Vektor (X, Y ) ist normalverteilt, wenn er die Dichtefunktion
(
[(
)2
(
)(
) (
)2 ])
x−µX
x−µX
y−µY
y−µY
−1
exp 2(1−ρ2 )
− 2ρ σX
+ σY
σX
σY
√
f (x, y) =
2πσX σY 1 − ρ2
mit den Parametern σX > 0, σY > 0 und −1 < ρ < 1 besitzt. Als Randdichten ergeben sich
die Funktionen
(
)
(
)
1
(x − µX )2
1
(y − µY )2
√
√
fX (x) =
exp −
und
fY (y) =
exp −
,
2
2σX
2σY2
2πσX
2πσY
d.h. die Randverteilungen sind eindimensionale Normalverteilungen. Der Parameter ρ = ρXY =
σXY
σX σY ist der Korrelationskoeffizient und somit ist Cov(X, Y ) = σXY = ρσX σY . Ist ρ = 0, so
sind X und Y also unkorreliert und für die Dichtefunktion f gilt die Produktdarstellung
(
)
1
(x − µX )2 (y − µY )2
f (x, y) =
exp −
−
= fX (x)fY (y).
2
2πσX σY
2σX
2σY2
1.5.1.4 Stochastische Unabhängigkeit
Definition 1.5.12. Zwei Zufallsgrößen X und Y heißen stochastisch unabhängig, wenn für den
zufälligen Vektor (X, Y ) gilt:
F (x, y) = FX (x)FY (y) ∀x, y ∈ R.
Bemerkung. Handelt es sich bei den stochastisch unabhängigen Zufallsgrößen X und Y um
diskrete Verteilungen, so gilt
pjk = pj· p·k ∀x, y ∈ R.
Im stetigen Fall gilt analog
f (x, y) = fX (x)fY (y) ∀x, y ∈ R.
Satz 1.5.13. Seien X und Y stochastisch unabhängige Zufallsgrößen mit D2 X < ∞ und
D2 Y < ∞. Dann gilt Cov(X, Y ) = 0, d.h. aus der stochastischen Unabhängigkeit folgt stets
die Unkorreliertheit.
52
Beweis (für stetige Zufallsgrößen). Da X und Y stochastisch unabhängig sind, gilt:
∫∞ ∫∞
(x − µX )(y − µY )f (x, y) dx dy
Cov(X, Y ) =
−∞ −∞
∫∞ ∫∞
(x − µX )(y − µY )fX (x)fY (y) dx dy
=
−∞ −∞
∫∞
∫∞
(x − µX )fX (x) dx
=
−∞
(y − µY )fY (y) dx
−∞
= (E(X − µX ))(E(Y − µY )) = (µX − µX )(µY − µY ) = 0
Wie wir am vorhergehenden Beispiel gesehen haben, folgt im Falle einer zweidimensionalen Normalverteilung aus der Unkorreliertheit der beiden Komponenten deren stochastische
Unabhängigkeit. Zusammen mit dem vorhergehenden Satz erhalten wir also die nachfolgende
Aussage.
Satz 1.5.14. Sei (X, Y ) ein (zweidimensional) normalverteilter zufälliger Vektor. Dann sind
die Komponenten X und Y genau dann stochastisch unabhängig, wenn sie unkorreliert sind.
1.5.2 Bedingte Verteilungen
In diesem Abschnitt betrachten wir nur den Fall n = 2, d.h. zufällige Vektoren der Form
X = (X, Y ). X und Y seien dabei stetig verteilte Zufallsgrößen.
Bei bedingten Verteilungen wird nur eine der beiden Komponenten eines zufälligen Vektors
betrachtet, d.h. die andere Komponente bleibt konstant. Wir erhalten also z.B. Aussagen über
die Verteilung der Zufallsgröße X, wenn Y einen festen Wert hat.
Definition 1.5.15. Seien X und Y stetig verteilte Zufallsgrößen mit den Randdichten fX und
fY , wobei fX (x) > 0 und fY (y) > 0 für alle x, y ∈ R. Dann heißen die Funktionen
fX|Y =y (x) =
f (x, y)
fY (y)
und
fY |X=x (y) =
f (x, y)
fX (x)
bedingte Dichten.
Bemerkung. fX|Y =y (x) ist eine eindimensionale Dichtefunktion, da fX|Y =y (x) ≥ 0 und
∫∞
∫∞
fX|Y =y (x) dx =
−∞
−∞
f (x, y)
1
dx =
fY (y)
fY (y)
∫∞
f (x, y) dx =
−∞
fY (y)
= 1.
fY (y)
fX|Y =y ist also die Dichtefunktion der Zufallsgröße X unter der Bedingung Y = y. Analoges
gilt für fY |X=x (y)
53
Definition 1.5.16. Die Größe
∫∞
E(X|Y = y) =
xfX|Y =y (x) dx
−∞
heißt bedingter Erwartungswert der Zufallsgröße X unter der Bedingung, dass Y den Wert y
annimmt.
Beispiel. Wir betrachten nochmals einen normalverteilten Zufallsvektor (X, Y ). Als bedingte
Dichte haben wir

(
) 2 

σX
f (x, y)
1
 1 x − µX + ρ σY (y − µY )  
√
√
exp − 
fX|Y =y (x) =
=√
.
fY (y)
2
2πσX 1 − ρ2
σX 1 − ρ2
Daraus ergibt sich der bedingte Erwartungswert
E(X|Y = y) = µX + ρ
σX
(y − µY ).
σY
Die Gerade x = E(X|Y = y) heißt Regressionsgerade im (x, y)-Koordinatensystem und gibt
für jedes y den Wert (x, y) des Zufallsvektors an, für den X den Erwartungswert unter der
Bedingung Y = y annimmt. Ist ρ = 0, d.h. X und Y sind unkorreliert und damit stochastisch
unabhängig, so ist die Regressionsgerade x = µx parallel zur y-Achse und es gilt fX|Y =y (x) =
fX (x).
1.5.3 Erwartungswertevektor, Kovarianzmatrix, Normalverteilung
Da wir in diesem Abschnit mit Matrizen rechnen, schreiben wir Vektoren immer als Spaltenvektoren. Wir betrachten den n-dimensionalen Fall, d.h.
 
X1
 .. 
X =  . .
Xn
Definition 1.5.17. Den Vektor

 

µ1
EX1
  

µ = EX =  ...  =  ... 
µn
EXn
der Erwartungswerte der Komponenten X1 , . . . , Xn eines zufälligen Vektors X nennen wir Erwartungswertevektor von X.
Definition 1.5.18. Sei X ein zufälliger Vektor mit den Komponenten X1 , . . . , Xn . Dann heißt
die Matrix
(
)
Σ = CovX = Cov(Xi , Xj )
= E(X − EX)(X − EX)T
i,j=1...n
Kovarianzmatrix von X.
54
Satz 1.5.19. Existiert die Kovarianzmatrix Σ des Zufallsvektors X, so ist sie symmetrisch,
d.h. Σ = ΣT , und positiv semidefinit, d.h. für alle v ∈ Rn gilt ⟨Σ v, v⟩ = v T Σ v ≥ 0.
Beweis. Die Symmetrie der Kovarianzmatrix folgt direkt aus Cov(Xi , Xj ) = Cov(Xj , Xi ) und
es gilt
(
)
(
)2
v T Σ v = v T E(X − EX)(X − EX)T v = E v T (X − EX) ≥ 0.
Definition 1.5.20. Ein Zufallsvektor X mit den Komponenten X1 , . . . , Xn heißt nichtsingulär
n-dimensional normalverteilt mit den Parametern µ = EX und Σ = Cov(X), geschrieben
X ∼ N(µ, Σ), wenn Σ symmetrisch und positiv definit ist und die Dichtefunktion f die Form
√
f (x) =
|Σ−1 |
(2π)
n
2
(
)
exp − 21 (x − µ)T Σ−1 (x − µ)
besitzt, wobei |Σ−1 | die Determinante der Inversen der Kovarianzmatrix bezeichnet.
Falls für X ∼ N(µ, Σ) die Komponenten Xi ∼ N(µi , σi2 ) paarweise disjunkt sind, d.h.


Σ=
σ12
0
..
so gilt
|Σ−1 | =
1
σ1 ···σn

,
σn2
0
√
.

und
(
)
1
(xi − µi )2
√
f (x) =
exp −
.
2σi2
2πσi
i=1
n
∏
Die Dichte f des Zufallsvektors X ist also in diesem Fall gleich dem Produkt der Randdichten
seiner Komponenten Xi .
55
2 Einführung in die mathematische Statistik
Die Hauptaufgabe der mathematischen Statistik ist es, anhand der Eigenschaften eines Teils
einer Menge von Objekten auf die Eigenschaften aller Objekte in dieser Menge zu schließen.
Diese Objekte können zum Beispiel Glühlampen sein und wir betrachten deren Lebensdauer.
Jeder Glühlampenhersteller möchte natürlich wissen, wie lang seine Glühlampen brennen. Um
dies exakt herauszubekommen, müsste man die Lebensdauer jeder Lampe bestimmen. Auf
Grund der hohen Anzahl (z.B. Tagesproduktion), aber auch weil die Glühlampen dabei zerstört
werden, ist dies nicht möglich. Stattdessen wählt man zufällig einige Glühlampen aus und
schließt aus deren Brenndauer mit Hilfe der Methoden der mathematischen Statistik auf die
durchschnittliche Lebensdauer. Weiter unten werden wir dieses Beispiel genauer betrachten.
2.1 Grundbegriffe
Grundgesamtheit: Eine Menge von gleichartigen Objekten, die hinsichtlich einer bestimmten
Eigenschaft untersucht werden sollen, nennen wir Grundgesamtheit. Diese Eigenschaft beschreiben wir dabei durch eine Zufallsgröße X. Die Verteilungsfunktion von X bezeichnen
wir mit Fϑ , d.h. Fϑ (x) = P (X < x), wobei ϑ für einen oder mehrere noch zu bestimmende
Parameter der Verteilung steht.
Stichprobe: Seien X1 , . . . , Xn n Realisierungen der Zufallsgröße X, d.h. X1 , . . . , Xn und X
sind unabhängig und weisen identische Verteilungen auf, kurz: sie sind vom Typ i.i.d.
Dann bezeichnen wir den zufälligen Vektor (X1 , . . . , Xn ) als Stichprobe vom Umfang n.
Auch ein konkreter Wert (x1 , . . . , xn ) ∈ Rn dieses Vektors wird als (konkrete) Stichprobe
bezeichnet.
Stichprobenraum: Sei (X1 , . . . , Xn ) eine Stichprobe vom Umfang n. Dann bezeichnen wir mit
Xn die Menge aller möglichen Werte dieses zufälligen Vektors. Diese Menge heißt Stichprobenraum und es gilt Xn ⊂ Rn .
Parameterraum: Die Menge aller möglichen Parameterwerte ϑ der Verteilungsfunktion Fϑ der
Zufallsgröße X heißt Parameterraum und wird mit Θ bezeichnet.
Stichprobenfunktion: Eine Funktion Tn : Xn → R heißt Stichprobenfunktion. Es handelt sich
also um eine Funktion, die einer konkreten Stichprobe eine reelle Zahl Tn (x1 , . . . , xn )
zuordnet.
Beispiel. Nachdem wir nun die grundlegenden Begriffe der mathematischen Statistik kennen,
wollen wir nochmals auf das obige Beispiel der Glühlampenproduktion eingehen. Als Grundgesamtheit betrachten wir die an einem festen Tag hergestellten Glühlampen. Deren zufällige Lebensdauer bezeichnen wir mit X. Uns interessiert nun, wie die Lebensdauer der Lampen verteilt
ist, d.h. wir suchen die Verteilungsfunktion Fϑ von X. Dazu wählen wir zufällig n Glühlampen
aus und bestimmen deren Lebensdauer, wir entnehmen also eine Stichprobe (X1 , . . . , Xn ) vom
56
Umfang n. Der Stichprobenraum Xn umfasst somit alle n-dimensionalen Vektoren mit nichtnegativen Komponenten. Ist die Art der Verteilung bekannt (z.B. X ∼ N(µ, σ 2 ) und somit
ϑ = (µ, σ 2 ) ∈ Θ = R × R), können wir den Parameter mit Hilfe einer konkreten Stichprobe
(x1 , . . . , xn ) schätzen. Wie dies genau funktioniert, behandeln wir weiter unten.
Beispiel. Als weiteres einführendes Beispiel betrachten wir analog zum obigen Beispiel die
Produktion von elektrischen Sicherungen. Als Grundgesamtheit wählen wir die Tagesproduktion
und untersuchen die Zufallsgröße
{
1, Sicherung defekt
X=
,
0, Sicherung funktioniert
deren Verteilungsfunktion Fϑ gesucht ist. X ∼ B(1, p) ist eine binomialverteilte Zufallsgröße
mit dem Parameter ϑ = p ∈ Θ = (0, 1), wobei p die Wahrscheinlichkeit für einen Defekt angibt.
Es ist also P (X = 1) = p und P (X = 0) = 1 − p. Als Stichprobenraum erhalten wir
{
}
Xn = (x1 , . . . , xn ) ∈ Rn : xi = 1 ∨ xi = 0 .
Ein Beispiel für eine Stichprobenfunktion ist das arithmetische Mittel X̄n = n1 (X1 + · · · + Xn ).
Im Folgenden bezeichnen wir mit ϑ̂ den Schätzwert eines Parameters ϑ. Um die Parameter
einer Verteilung zu schätzen, gibt es zwei grundlegende Herangehensweisen, die wir in den
folgenden Abschnitten behandeln werden:
Punktschätzung: Aus einer Stichprobe (x1 , . . . , xn ) wird ein konkreter Wert ϑ̂ für den Parameter ϑ berechnet.
Bereichsschätzung: Aus einer Stichprobe (x1 , . . . , xn ) werden zwei Zahlen U (x1 , . . . , xn ) und
O(x1 , . . . , xn ) berechnet, so dass für ein kleines gegebenes α der wirkliche Parameter ϑ
mit einer Wahrscheinlichkeit von 1 − α im Intervall [U (x1 , . . . , xn ), O(x1 , . . . , xn )], dem
sogenannten Konfidenz- oder Vertrauensintervall, liegt.
2.2 Punktschätzung
Eine Stichprobenfunktion Tn : Xn → Θ mit Werten im Parameterraum bezeichnen wir als
Schätzfunktion. Ziel der Punktschätzung ist es, auf Grundlage einer solchen Schätzfunktion für
den unbekannten Parameter ϑ ∈ Θ der Grundgesamtheit (genauer: der Verteilungsfunktion
der in Zusammenhang mit der Grundgesamtheit betrachteten Zufallsgröße X) einen möglichst
guten Schätzwert ϑ̂ = Tn (X1 , . . . , Xn ) zu bestimmen. Wann eine Schätzung „gut“ ist, müssen
wir noch näher untersuchen.
Häufig wird nicht der Parameter ϑ selbst geschätzt, sondern eine Funktion τ (ϑ). Für X ∼
N(µ, σ 2 ) und ϑ = (µ, σ 2 ) können wir zum Beispiel durch getrennte Betrachtung von µ = τ1 (ϑ)
und σ 2 = τ2 (ϑ) die Schätzung in die zwei Schätzprobleme τˆ1 (ϑ) und τˆ2 (ϑ) zerlegen.
Eine Schätzfunktion Tn für den Parameter ϑ ist als Funktion der einzelnen Komponenten
X1 , . . . , Xn einer Stichprobe (X1 , . . . , Xn ) selbst wieder eine Zufallsgröße. Somit können wir
den Erwartungswert ETn und die Varianz D2 Tn betrachten.
57
Definition 2.2.1. Eine Schätzfunktion Tn für eine Funktion τ (ϑ) des unbekannten Parameters
ϑ heißt erwartungstreu, wenn für jeden Parameterwert ϑ ∈ Θ gilt:
ETn = τ (ϑ).
Satz 2.2.2. Existieren in einer Grundgesamtheit X sowohl der Erwartungswert EX als auch
die Varianz D2 X und ist (X1 , . . . , Xn ) eine Stichprobe, so gilt:
a) Eine erwartungstreue Schätzfunktion für τ (ϑ) = EX ist
1∑
X̄n =
Xi .
n
n
i=1
b) Eine erwartungstreue Schätzfunktion für τ (ϑ) = D2 X ist
1 ∑
=
(Xi − X̄n )2 .
n−1
n
Sn2
i=1
Beweis.
a) Es gilt
(
EX̄n = E
1∑
Xi
n
n
)
1∑
1
=
EXi = · n · EX = EX = τ (ϑ).
n
n
n
i=1
i=1
b) Für i = 1, . . . , n gilt
E(Xi − X̄n )2 = E(Xi − X̄n − (EX − EX))2 = E(Xi − X̄n − (EXi − X̄n ))2
= E(Xi − X̄n − E(Xi − X̄n ))2 = D2 (Xi − X̄n )
n
1 ∑ 2
n
n−1 2
= D2 Xi − 2
D Xk = D2 X − 2 D2 X =
D X
n
n
n
k=1
und somit ist
(
ESn2
=E
1 ∑
(Xi − X̄n )2
n−1
n
i=1
)
1 ∑
=
E(Xi − X̄n )2
n−1
n
i=1
1
n−1 2
=
·n·
D X = D2 X = τ (ϑ).
n−1
n
Bei der Konstruktion von Sn2 sind wir davon ausgegangen, dass der Erwartungswert EX
unbekannt ist. Sollte der Erwartungswert µ = EX jedoch bekannt sein, so kann man an Stelle
von Sn2 als Schätzfunktion für τ (ϑ) = D2 X auch
1∑
(Xi − µ)2
n
n
Vn2 =
i=1
58
verwenden. Vn2 ist ebenfalls erwartungstreu (Beweis: Übung!).
Definition 2.2.3. Eine Schätzfunktion Tn für eine Funktion τ (ϑ) des unbekannten Parameters
ϑ heißt konsistent, wenn für alle ϑ ∈ Θ und beliebig kleines reelles ε > 0 gilt:
lim = P (|Tn (X1 , . . . , Xn ) − ϑ| > ε) = 0.
n→∞
Satz 2.2.4. Die Schätzfunktion X̄n für τ (ϑ) = EX ist konsistent. Gilt EX 4 < ∞, so ist auch
die Schätzfunktion Sn2 für τ (ϑ) = D2 X konsistent.
Bemerkung. Für X̄n folgt die Behauptung unmittelbar aus dem Gesetz der großen Zahlen. Für
normalverteiltes X ∼ N(µ, σ 2 ) ist EX 4 < ∞ erfüllt.
Definition 2.2.5. Besitzt die erwartungstreue Schätzfunktion Tn unter allen erwartungstreuen
Schätzfunktionen für τ (ϑ) die kleinste Varianz, so heißt Tn wirksamste Schätzfunktion.
Satz 2.2.6. Ist X ∼ N(µ, σ 2 ) normalverteilt, so ist X̄n die wirksamste Schätzfunktion für
τ (ϑ) = EX.
2.3 Verteilungen wichtiger Stichprobenfunktionen
Bevor wir einige wichtige Stichprobenfunktionen betrachten, führen wir zunächst neben den
schon bekannten stetigen Verteilungen Gleich-, Exponential- und Normalverteilung noch drei
weitere stetige Verteilungen und den Begriff des Quantils ein.
2.3.1 Quantile
Definition 2.3.1. Sei X eine stetige Zufallsgröße mit der Dichtefunktion f und α ∈ (0, 1).
Dann heißt die Zahl qα α-Quantil zur Zufallsgröße X, wenn gilt:
∫qα
f (x) dx = α.
−∞
Bemerkung. α-Quantile werden in der Literatur manchmal auch als α-Fraktile bezeichnet. Zudem sind in einigen Büchern und Tabellen die Größen qα und q1−α vertauscht.
Beispiel. Für α = 0,5 ist das α-Quantil q0,5 gleich dem Median der Zufallsgröße X, d.h. es gilt
P (X < q0,5 ) = P (X > q0,5 ).
Im Fall einer symmetrischen Verteilung liegt der Median auf der Symmetrieachse.
Bemerkung. Das α-Quantil der Normalverteilung wird mit zα bezeichnet.
59
2.3.2 Weitere stetige Verteilungen
2.3.2.1 χ2 -Verteilung
Zur Definition der χ2 -Verteilung (Chi-Quadrat-Verteilung) benötigen wir die Gammafunktion
∫∞
Γ(x) =
tx−1 e−t dt.
0
Für n = 0, 1, 2, . . . gilt Γ(n + 1) = n!.
Definition 2.3.2. Besitzt die stetige Zufallsgröße X die Dichtefunktion

0,
x≤0
n
x
fn (x) =
,
1
−1
−
 n n x2 e 2, x > 0
2 2 Γ( 2 )
so nennen wir X χ2 -verteilt mit n Freiheitsgraden oder kurz χ2n -verteilt und schreiben X ∼ χ2n .
fn (x)
0
x
Bemerkung. Die α-Quantile der χ2 -Verteilung werden mit χ2n,α bezeichnet.
Die χ2 -Verteilung wird später bei der Bestimmung der Varianz einer normalverteilten Zufallsgröße eine wichtige Rolle spielen.
60
2.3.2.2 t-Verteilung
Definition 2.3.3. Besitzt die stetige Zufallsgröße X die Dichtefunktion
Γ( n+1
2 )
√
fn (x) =
Γ( n2 ) πn
(
)− n+1
2
x2
1+
,
n
so nennen wir X t-verteilt mit n Freiheitsgraden und schreiben X ∼ tn . Die t-Verteilung wird
auch als Student-Verteilung 1 bezeichnet.
fn (x)
x
0
Bemerkung. Die α-Quantile der t-Verteilung werden mit tn,α bezeichnet.
Die t-Verteilung wird später bei der Bestimmung des Erwartungswertes einer normalverteilten Zufallsgröße eine wichtige Rolle spielen.
2.3.2.3 F-Verteilung
Zur Definition der F-Verteilung benötigen wir die Betafunktion
∫1
ta−1 (1 − t)b−1 dt =
B(a, b) =
Γ(a)Γ(b)
.
Γ(a + b)
0
Für k, l ∈ N gilt B(k, l) =
(k−1)!(l−1)!
(k+l−1)! .
Definition 2.3.4. Besitzt die stetige Zufallsgröße X die Dichtefunktion

0,
x≤0
fm,n (x) = ( m ) m2 ·x m2 −1 (
,
m+n
)
− 2
m
 n m n
1
+
x
,
x
>
0
n
B( , )
2
2
so nennen wir X F-verteilt mit den Parametern m und n und schreiben X ∼ Fm,n . Die
F-Verteilung wird auch als Fisher’sche Verteilung bezeichnet.
1
Diese Verteilung wurde vom Mathematiker Gosset unter dem Pseudonym Student veröffentlicht
61
fn (x)
0
x
Bemerkung. Die α-Quantile der F-Verteilung werden mit Fm,n,α bezeichnet und es gilt
Fm,n,α =
1
Fm,n,1−α
.
2.3.3 Stichprobenfunktionen bei binomialverteilter Grundgesamtheit
Im Folgenden sei X ∼ B(1, p) eine binomialverteilte Grundgesamtheit und (X1 , . . . , Xn ) eine
Stichprobe. Xi und X sind also Zufallsgrößen vom Typ i.i.d. für i = 1, . . . , n. Dann gilt
Tn(0) =
n
∑
Xi ∼ B(n, p)
i=1
(0)
und für hinreichend großes n ist nach dem Grenzverteilungssatz von Moivre/Laplace Tn ≈
N(np, np(1 − p)) und somit
(
)
n
1∑
p(1 − p)
Xi ≈ N p,
.
n
n
Tn(1) = X̄n =
i=1
(1)
Durch Standardisierung von Tn
erhalten wir
X̄n − p √
Tn(2) = √
n ≈ N(0, 1).
p(1 − p)
2.3.4 Stichprobenfunktionen bei normalverteilter Grundgesamtheit
Sei X ∼ N(µ, σ 2 ) eine normalverteilte Grundgesamtheit und (X1 , . . . , Xn ) eine Stichprobe. Xi
und X sind also Zufallsgrößen vom Typ i.i.d. für i = 1, . . . , n. Dann gilt
X̄n =
(
)
n
1∑
σ2
Xi ∼ N µ,
n
n
i=1
und durch Standardisierung erhalten wir
Tn(3) =
X̄n − µ √
n ≈ N(0, 1).
σ
62
Weiter gilt
Tn(4) =
n
1 ∑
(Xi − µ)2 ∼ χ2n
σ2
i=1
und
Tn(5) =
Mit Sn =
√
n
(n − 1)Sn2
1 ∑
2
(X
−
X̄
)
=
∼ χ2n−1 .
i
n
σ2
σ2
i=1
Sn2 ist
Tn(6) = √
√
X̄n − µ
X̄n − µ √
n=
n ∼ tn−1
∑
n
Sn
1
2
(X
−
X̄
)
i
n
i=1
n−1
Allgemein gilt für stochastisch unabhängige Zufallsgrößen X ∼ N(0, 1) und Y ∼ χ2n
X
Tn(7) = √ ∼ tn .
Y
n
Sind X ∼ N(µ1 , σ12 ) und Y ∼ N(µ2 , σ22 ) stochastisch unabhängige, normalverteilte Grundgesamtheiten und (X1 , . . . , Xn1 ) und (Y1 , . . . , Yn2 ) entsprechende Stichproben, so ist
Tn1 ,n2 =
σ22 Sn21
∼ Fn1 −1,n2 −1 .
σ12 Sn22
2.4 Bereichsschätzung
Ziel der Bereichsschätzung ist es, mit Hilfe einer Stichprobe (X1 , . . . , Xn ) zur Grundgesamtheit
X mit der Verteilungsfunktion Fϑ zwei Schätzfunktionen U : Xn → Θ und O : Xn → Θ für den
unbekannten Parameter ϑ ∈ Θ der Verteilung von X zu finden, so dass ϑ mit einer Wahrscheinlichkeit von mindestens 1 − α im Intervall [U (X1 , . . . , Xn ), O(X1 , . . . , Xn )], dem sogenannten
Konfidenz- oder Vertrauensintervall, liegt. Dabei heißt die Zahl α ∈ (0, 1) Irrtumswahrscheinlichkeit und der Wert 1 − α heißt Konfidenzniveau. Als Formel ausgedrückt soll also gelten:
(
)
P U (X1 , . . . , Xn ) ≤ ϑ ≤ O(X1 , . . . , Xn ) ≥ 1 − α.
Die Irrtumswahrscheinlichkeit α ist dabei stets vorzugeben. Typische Werte sind zum Beispiel
α = 0,05 und α = 0,01.
2.4.1 Konfidenzintervalle bei binomialverteilter Grundgesamtheit
Im Folgenden sei X ∼ B(1, p) eine mit dem Parameter ϑ = p = P (X = 1) ∈ Θ = (0, 1) binomialverteilte Grundgesamtheit und (X1 , . . . , Xn ) eine Stichprobe. Wir suchen nun die Grenzen eines Konfidenzintervalls für das Konfidenzniveau 1 − α. Dazu nutzen wir die für hin(2)
reichend großes n standardnormalverteilte Stichprobenfunktion Tn ≈ N(0, 1) aus Abschnitt
2.3.3 und das Quantil z1−α/2 der Standardnormalverteilung. Unter Verwendung der Beziehung
63
Φ(za−α/2 ) = 1 −
(
P
−z1−α/2
α
2
ergibt sich daraus zunächst
X̄n − p √
n ≤ z1−α/2
≤√
p(1 − p)
)
= Φ(z1−α/2 ) − Φ(−z1−α/2 ) = 2Φ(z1−α/2 ) − 1 = 1 − α.
Durch Umrechnung in die Form
(
)
P U (X1 , . . . , Xn ) ≤ p ≤ O(X1 , . . . , Xn ) = 1 − α
erhalten wir für die Grenzen des Konfidenzintervalls:
]
[
√
2
z1−α/2
n
X̄n (1 − X̄n ) ( z1−α/2 )2
,
U (X1 , . . . , Xn ) =
X̄n +
− z1−α/2
+
2
2n
n
2n
n + z1−α/2
[
]
√
2
z1−α/2
n
X̄n (1 − X̄n ) ( z1−α/2 )2
O(X1 , . . . , Xn ) =
X̄n +
+ z1−α/2
+
.
2
2n
n
2n
n + z1−α/2
Beispiel. Aus der laufenden Produktion von Sicherungen wird eine Stichprobe vom Umfang
n = 100 entnommen und überprüft. Dabei erweisen sich 2 Sicherungen als defekt, also ist
2
p̂ = X̄n = 100
= 0,02. Gesucht wird ein Konfidenzintervall zum Konfidenzniveau 1 − α =
0,95. Aus einer Tabelle entnehmen wir z1−α/2 = z0,975 = 1,96 und somit erhalten wir durch
Einsetzen in die beiden Formeln das Intervall [0,0055; 0,0700]. Bei einer Stichprobe vom Umfang
n = 1000 mit 20 defekten Sicherungen ist p = X̄n = 0,02 und für 1 − α = 0,95 ergibt sich das
Konfidenzintervall [0,0130; 0,0304]. Wir sehen, dass mit steigendem n die Länge des Intervalls
abnimmt, d.h. je größer die Stichprobe, desto genauer die Schätzung.
2.4.2 Konfidenzintervalle bei normalverteilter Grundgesamtheit
Im Folgenden sei X ∼ N(µ, σ 2 ) eine normalverteilte Grundgesamtheit und (X1 , . . . , Xn ) eine
Stichprobe. Wir suchen Konfidenzintervalle zum Konfidenzniveau 1−α für die beiden Parameter
µ und σ 2 der Normalverteilung.
2.4.2.1 Konfidenzintervall für µ bei bekanntem σ 2
(3)
Wir verwenden die aus Abschnitt 2.3.4 bekannte Stichprobenfunktion Tn
Quantil z1−α/2 der Standardnormalverteilung. Aus
P
ergibt sich dann
mit
∼ N(0, 1) und das
(
)
X̄n − µ √
n ≤ z1−α/2 = 1 − α
−z1−α/2 ≤
σ
(
)
P U (X1 , . . . , Xn ) ≤ µ ≤ O(X1 , . . . , Xn ) = 1 − α
σ
U (X1 , . . . , Xn ) = X̄n − z1−α/2 √ ,
n
σ
O(X1 , . . . , Xn ) = X̄n + z1−α/2 √ .
n
64
2.4.2.2 Konfidenzintervall für µ bei unbekanntem σ 2
Der Parameter σ 2 sei unbekannt und mittels Sn2 geschätzt. Wir verwenden die aus Abschnitt
(6)
2.3.4 bekannte Stichprobenfunktion Tn ∼ tn−1 und das Quantil tn−1,1−α/2 der t-Verteilung.
Aus
(
)
X̄n − µ √
P −tn−1,1−α/2 ≤
n ≤ tn−1,1−α/2 = 1 − α
Sn
ergibt sich dann
(
)
P U (X1 , . . . , Xn ) ≤ µ ≤ O(X1 , . . . , Xn ) = 1 − α
mit
Sn
U (X1 , . . . , Xn ) = X̄n − tn−1,1−α/2 √ ,
n
Sn
O(X1 , . . . , Xn ) = X̄n + tn−1,1−α/2 √ .
n
2.4.2.3 Konfidenzintervall für σ 2 bei bekanntem µ
(4)
Wir verwenden die aus Abschnitt 2.3.4 bekannte Stichprobenfunktion Tn ∼ χ2n und die Quantile χn,1−α/2 und χn,α/2 der χ2 -Verteilung. Aus
(
P
χn,α/2
n
1 ∑
≤ 2
(Xi − µ)2 ≤ χn,1−α/2
σ
)
=1−α
i=1
ergibt sich dann
(
)
P U (X1 , . . . , Xn ) ≤ σ 2 ≤ O(X1 , . . . , Xn ) = 1 − α
mit
U (X1 , . . . , Xn ) =
1
χ2n,1−α/2
n
∑
(Xi − µ) ,
2
O(X1 , . . . , Xn ) =
i=1
1
n
∑
χ2n,α/2
i=1
(Xi − µ)2 .
2.4.2.4 Konfidenzintervall für σ 2 bei unbekanntem µ
Der Parameter µ sei unbekannt und mittels X̄n geschätzt. Wir verwenden die aus Abschnitt
(5)
2.3.4 bekannte Stichprobenfunktion Tn ∼ χ2n−1 und die Quantile χn−1,1−α/2 und χn−1,α/2 der
χ2 -Verteilung. Aus
(
)
(n − 1)Sn2
P χn−1,α/2 ≤
≤ χn−1,1−α/2 = 1 − α
σ2
ergibt sich dann
(
)
P U (X1 , . . . , Xn ) ≤ σ 2 ≤ O(X1 , . . . , Xn ) = 1 − α
mit
U (X1 , . . . , Xn ) =
(n − 1)Sn2
,
χ2n−1,1−α/2
O(X1 , . . . , Xn ) =
65
(n − 1)Sn2
.
χ2n−1,α/2
2.4.3 Einseitige Konfidenzintervalle
In manchen Fällen sind nur einseitige Konfidenzintervalle gesucht, d.h. es interessiert die Wahrscheinlichkeit
(
)
(
)
P U (X1 , . . . , Xn ) ≤ ϑ = 1 − α
oder
P ϑ ≤ O(X1 , . . . , Xn ) = 1 − α.
Um solche einseitigen Konfidenzintervalle zu berechnen, nutzt man die Formel für die entsprechende Intervallgrenze mit α statt α2 .
2.5 Tests
Wir betrachten eine Grundgesamtheit X mit der uns unbekannten Verteilungsfunktion Fϑ und
eine entsprechende Stichprobe (X1 , . . . , Xn ). Sinn und Zweck von Tests ist es nun, anhand der
Stichprobe Aussagen über die Art der Verteilung der Grundgesamtheit (parameterfreie Tests)
oder, bei bekannter Verteilungsart, über den Parameter ϑ ∈ Θ der Verteilung (Parametertests)
zu überprüfen. Es wird also getestet, ob die aufgestellte Behauptung über die Grundgesamtheit bzw. über deren Verteilungsparameter in signifikanter Weise von den aus der Stichprobe
gewonnenen Informationen abweicht oder nicht. Daher heißen solche Tests auch Signifikanztests.
2.5.1 Allgemeines Schema für Parametertests
Jeder Parametertest wird nach dem folgenden Schema durchgeführt:
1. Wir formulieren unsere Behauptung über den unbekannten Parameter ϑ der Verteilung
der Grundgesamtheit X als sogenannte Nullhypothese H0 und stellen die entsprechende Alternativhypothese H1 auf; diese ist das Komplement der Nullhypothese H0 . Für
bekanntes ϑ0 kommen zum Beispiel die folgenden Hypothesen in Frage:
H0 : ϑ = ϑ0
H0 : ϑ ≤ ϑ0
H0 : ϑ ≥ ϑ0
und H1 : ϑ ̸= ϑ0 ,
und H1 : ϑ > ϑ0 ,
und H1 : ϑ < ϑ0 .
Wir möchten nun wissen, ob die Behauptung H0 mit den in der Stichprobe (X1 , . . . , Xn )
enthaltenen Informationen vereinbar ist oder ob wir H0 ablehnen müssen und somit H1
für richtig befinden.
2. Wir wählen eine sogenannte Irrtumswahrscheinlichkeit α. Dies ist die Wahrscheinlichkeit
dafür, dass H0 auf Grund der Stichprobe abgelehnt wird, obwohl H0 richtig ist.
3. Wir wählen eine Stichprobenfunktion Tn (Testfunktion), deren Verteilung bei Gültigkeit
von H0 bekannt ist. Mit Hilfe dieser Testfunktion erhalten wir in Form einer reellen
Zahl Informationen über die Stichprobe. (Im Folgenden werden wir für die Zufallsgröße
Tn (X1 , . . . , Xn ) und die konkreten Funktionswerte Tn (x1 , . . . , xn ) zur besseren Übersicht
kurz Tn schreiben.)
4. Wir wählen einen kritischen Bereich K für die Werte der Testfunktion Tn , so dass
PH0 (Tn ∈ K) ≤ α gilt. D.h. falls die Nullhypothese H0 richtig ist, soll die Wahrscheinlichkeit dafür, dass der Wert der Testfunktion im kritischen Bereich liegt, kleiner oder gleich
der Irrtumswahrscheinlichkeit sein.
66
5. Sollte für die konkrete, zum Zwecke des Tests entnommene Stichprobe der Funktionswert der Testfunktion Tn in den kritischen Bereich fallen, so müssen wir H0 ablehnen.
Andernfalls spricht die Stichprobe nicht gegen die Hypothese H0 . In Formeln:
• Tn ̸∈ K ⇒ H0 wird angenommen,
• Tn ∈ K ⇒ H0 wird abgelehmt.
Da das Ergebnis eines Parametertests nur auf Stichproben beruht, können die zwei folgenden
Fehler auftreten.
Fehler 1. Art: Die Hypothese H0 ist richtig, wird aber auf Grund der Stichprobe abgelehnt.
Die Wahrscheinlichkeit für diesen Fehler beträgt α.
Fehler 2. Art: Die Hypothese H0 ist falsch, wird aber nicht abgelehnt, da die Stichprobe für
H0 spricht. Die Wahrscheinlichkeit für das Auftreten dieses Fehlers ist im Allgemeinen
unbekannt.
2.5.2 Parametertests bei binomialverteilter Grundgesamtheit
Sei X ∼ B(1, p) eine mit dem Parameter p binomialverteilte Grundgesamtheit und sei der
Wert p0 gegeben. Als Beispiel für einen Parametertest möchten wir anhand einer Stichprobe
(X1 , . . . , Xn ) vom Umfang n die Hypothese
H0 : p ≤ p0
überprüfen. Die entsprechende Alternativhypothese ist H1 : p > p0 . α sei die Irrtumswahrscheinlichkeit. Eine geeignete Testfunktion ist die uns bereits bekannte Stichprobenfunktion
Tn(0) =
n
∑
Xi ∼ B(n, p).
i=1
Entscheidend für das Testergebnis ist nun die Wahrscheinlichkeit
PH0 (Tn(0)
≥ c) = 1 −
PH0 (Tn(0)
< c) = 1 −
c−1
∑
PH0 (Tn(0)
k=0
c−1 ( )
∑
n k
p (1 − p0 )n−k .
= k) = 1 −
k 0
k=0
Ist diese kleiner oder gleich α, so müssen wir H0 ablehnen; ist sie größer als α, so können wir
davon ausgehen, dass H0 richtig ist.
Beispiel. Wir betrachten nochmals die Produktion von Sicherungen, d.h. X ∼ B(1, p), wobei p
die Wahrscheinlichkeit für einen Defekt angibt. Unsere Hypothese sei H0 : p ≤ p0 mit p0 = 0,01.
Wir setzen α = 0,05 und entnehmen eine Stichprobe (x1 , . . . , x100 ) vom Umfang n = 100
(0)
mit c = Tn (x1 , . . . , x100 ) = 2; es sind also zwei Sicherungen defekt in unserer Stichprobe.
Sprechen zwei defekte Sicherungen bei 100 überprüften für unsere Hypothese H0 oder nicht?
Durch Einsetzen der gegebenen Werte in obige Gleichung erhalten wir
(
)
(
)
100
100
(0)
0
100
PH0 (Tn ≥ 2) = 1 −
0,01 · 0,99 −
0,011 · 0,9999 = 0,264238 > 0,05 = α.
0
1
67
Somit können wir die Hypothese p ≤ 0,01 als richtig annehmen. Analog können wir die Rechnung für Stichproben mit c = 3 oder c = 4 usw. durchführen. Ab c = 4 müssen wir die
Hypothese dann jedoch ablehnen.
Gehen wir nach dem oben beschriebenen allgemeinen Schema für Parametertests vor, so
können wir zum Test der drei Hypothesen




p
=
p
0
p ̸= p0

mit
H1 : p > p0
H0 : p ≤ p0




p < p0
p ≥ p0
bei hinreichend großem n die Testfunktion
X̄n − p0 √
Tn(2) = √
n ≈ N(0, 1)
p0 (1 − p0 )
und den kritischen Bereich


|Tn | > z1−α/2
K = Tn > z1−α


Tn < −z1−α
verwenden.
2.5.3 Parametertests bei normalverteilter Grundgesamtheit
Sei X ∼ N(µ, σ 2 ) eine normalverteilte Grundgesamtheit und (X1 , . . . , Xn ) eine Stichprobe und
sei die Irrtumswahrscheinlichkeit α vorgegeben. Wir betrachten im Folgenden Hypothesen über
den Erwartungswert µ bei bekannter und unbekannter Varianz σ 2 und über die Varianz bei unbekanntem Erwartungswert. Auf Hypothesen über die Varianz bei bekanntem Erwartungswert
gehen wir nicht ein.
2.5.3.1 Hypothesen über µ bei bekanntem σ 2
Sei σ 2 bekannt und der Wert µ0 vorgegeben. Wir testen drei verschiedene Nullhypothesen H0
mit der jeweiligen Alternativhypothese H1 :




̸ µ0
µ =
µ = µ0
und
H1 : µ > µ0 .
H0 : µ ≤ µ0




µ < µ0
µ ≥ µ0
Als Testfunktion wählen wir
Tn(3) (X1 , . . . , Xn ) =
X̄n − µ0 √
n ∼ N(0, 1).
σ
68
Als kritischer Bereich ergibt sich


{x : |x| > z1−α/2 }
K = {x : x > z1−α }


{x : x < −z1−α }
,
da gilt:

)
(
X̄n −µ0 √ 
n
≤
z
1
−
P

σ

 (
) 1−α/2
X̄n −µ0 √
n > z1−α
PH0 (Tn ∈ K) = P

( σ √
)


P X̄n −µ0 n < −z1−α
σ




2 − 2Φ(z1−α/2 )
α
= α
= α .




1 − Φ(z1−α )
α


1 − (Φ(zα/2 ) − Φ(−z1−α/2 ))
= 1 − Φ(z1−α )


Φ(−z1−α )
2.5.3.2 Hypothesen über µ bei unbekanntem σ 2
Sei σ 2 unbekannt und durch Sn2 geschätzt und der Wert µ0 vorgegeben. Wir testen drei verschiedene Nullhypothesen H0 mit der jeweiligen Alternativhypothese H1 :




µ ̸= µ0
µ = µ0
und
H1 : µ > µ0 .
H0 : µ ≤ µ0




µ < µ0
µ ≥ µ0
Als Testfunktion wählen wir
Tn(6) (X1 , . . . , Xn ) =
X̄n − µ0 √
n ∼ tn−1 .
Sn
Als kritischer Bereich ergibt sich


{x : |x| > tn−1,1−α/2 }
K = {x : x > tn−1,1−α }


{x : x < −tn−1,1−α }
.
Beispiel. Zur Beurteilung der Qualität eines neuen Streckenmessgeräts wird eine 1 km lange
Referenzstrecke n = 10 mal gemessen. Das Messgerät liefert dabei für x1 , . . . , xn die folgenden
Werte (in Meter):
998,0;
1001,0;
1003,0;
1000,5;
999,0;
997,5;
1000,0;
999,5;
996,0;
998,5.
Wir nehmen die Zufallsgröße „gemessene Länge“ als normalverteilt an. Aus den Messwerten
erhalten wir
X̄n = 999,3 m,
s2n = 3,9 m2 ,
sn = 1,975 m.
Uns interessiert nun, ob das Gerät im Mittel die korrekte Entfernung liefert, d.h. wir testen die
69
Hypothese H0 : µ = µ0 = 1000 m. Die Alternativhypothese ist H1 : µ ̸= µ0 . Die Irrtumswahrscheinlichkeit sei α = 0,05 und als kritischen Bereich haben wir
K = {x : |x| > t9;0,975 = 2,262} = (−∞; −2,262) ∪ (2,262; ∞).
Die Testfunktion liefert
Tn(6) (x1 , . . . , xn ) =
X̄n − µ0 √
999,3 − 1000 √
n=
10 = −1,12 ̸∈ K.
sn
1,975
Die Messwerte sprechen also nicht gegen unsere Behauptung. Wir können somit annehmen,
dass das Messgerät im Mittel korrekt arbeitet.
2.5.3.3 Hypothesen über σ 2 bei unbekanntem µ
Sei µ unbekannt und durch X̄n geschätzt und der Wert σ02 vorgegeben. Wir testen drei verschiedene Nullhypothesen H0 mit der jeweiligen Alternativhypothese H1 :


2
2
2
2


σ ̸= σ0
σ = σ 0
und
H1 : σ 2 > σ02 .
H0 : σ 2 ≤ σ02


 2
 2
σ < σ02
σ ≥ σ02
Als Testfunktion wählen wir
Tn(5) (X1 , . . . , Xn ) =
n
1 ∑
(n − 1)Sn2
2
(X
−
X̄
)
=
∼ χ2n−1 .
i
n
σ2
σ2
i=1
Als kritischer Bereich ergibt sich

2
2

{x : x < χn−1,α/2 ∨ x > χn−1,1−α/2 }
K = {x : x > χ2n−1,1−α }


{x : x < χn−1,α }
.
Beispiel. Wir betrachten nochmals das vorhergehende Beispiel des Streckenmessgeräts. Wir
möchten nun weitere Aussagen über die Qualität des Geräts machen, indem wir die Hypothese
H0 : σ 2 ≥ σ02 = 4 m testen. Dann ist H1 : σ 2 < σ02 und mit α = 0,05 und
K = {x : x < χ29;0,05 = 3,325} = (0; 3,325)
liefert die Testfunktion
Tn(5) (x1 , . . . , xn ) =
(n − 1)Sn2
9 · 3,9
=
= 8,775 ̸∈ K,
σ2
4
d.h. die Messwerte sprechen nicht gegen die Hypothese. Aus praktischer Sicht ist die hohe
Varianz ein Merkmal für schlechte Messqualität.
70
2.5.4 Vergleich zweier normalverteilter Grundgesamtheiten
Wir betrachten die zwei normalverteilten Grundgesamtheiten X (1) ∼ N(µ1 , σ12 ) und X (2) ∼
(1)
(1)
(2)
(2)
N(µ2 , σ22 ). Die zufälligen Vektoren (X1 , . . . , Xn1 ) und (X1 , . . . , Xn2 ) seien entsprechende Stichproben. Wir gehen davon aus, dass σ12 = σ22 gilt und möchten wissen, ob die Erwartungswerte der beiden Grundgesamtheiten übereinstimmen, d.h. wir testen die Hypothese
H0 : µ1 = µ2 . Die Alternativhypothese ist H1 : µ1 ̸= µ2 und α sei die Irrtumswahrscheinlichkeit.
Wir verwenden als Testfunktion
√
X̄n1 − X̄n2
n1 · n2
(1)
(2)
(2)
√
)
=
,
.
.
.
,
X
,
X
Tn (X1 , . . . , Xn(1)
∼ tn1 +n2 −2
n2
1
1
2 +(n −1)S 2
(n2 −1)Sn
n
2
n2
1 + n2
1
n1 +n2 −2
und als kritischen Bereich
K = {x : |x| > tn1 +n2 −2,1−α/2 }.
Beispiel. Ein TV-Gerätehersteller bezieht Transistoren von zwei verschiedenen Lieferanten.
Die gelieferten Transistoren sollen einen Stromverstärkungsfaktor von 100 haben. Uns interessiert nun, ob die Mittelwerte µ1 und µ2 der Stromverstärkungsfaktoren bei beiden Lieferanten
übereinstimmen, wenn wir davon ausgehen, dass σ12 = σ22 gilt. Es sei α = 0,05 und die beiden
Stichproben liefern
n1 = 36, x̄n1 = 108,1, s2n1 = 13,6,
n2 = 28, x̄n2 = 99,8, s2n2 = 16,7.
Der kritische Bereich ist
K = {x : |x| > t62;0,975 = 1,999} = (−∞; -1,999) ∪ (1,999; ∞)
und aus der Testfunktion erhalten wir
Tn = 8,519 ∈ K.
Somit wird die Hypothese abgelehnt, d.h. die Erwartungswerte der Stromverstärkungsfaktoren
beider Lieferanten stimmen nicht überein.
Beim Test der Erwartungswerte der beiden Grundgesamtheiten auf Gleichheit haben wir die
Gleichheit der beiden Streuungen vorausgesetzt. Auch dies können wir als Hypothese verwenden, d.h. wir testen H0 : σ12 = σ22 mit der entsprechenden Alternativhypothese H1 : σ12 ̸= σ22 .
Als Testfunktion nutzen wir
(1)
(2)
Tn (X1 , . . . , Xn(1)
, X1 , . . . , Xn(2)
)=
1
2
Sn21
∼ Fn1 −1,n2 −1
Sn22
und als kritischen Bereich
K = {x : x < Fn1 −1,n2 −1,α/2 ∨ x > Fn1 −1,n2 −1,1−α/2 }.
Beispiel. Für das vorhergehende Beispiel erhalten wir beim Test auf Streuungsgleichheit mit
α = 0,1
K = {x : x < F35;27;0,05 ∨ x > F35;27;0,95 } = (0; 0,553) ∪ (1,857; ∞)
71
und
Tn = 0,814 ̸∈ K.
Wir können somit davon ausgehen, dass die Streuungen bei beiden Lieferanten gleich sind. Für
α = 0,05 erhält man K = (0; 0,493) ∪ (2,097; ∞).
2.5.5 χ2 -Test
Beim χ2 -Test (Chi-Quadrat-Test) handelt es sich um einen parameterfreien Test, d.h. wir testen
anhand einer Stichprobe (X1 , . . . , Xn ), ob die Verteilungsfunktion F einer Grundgesamtheit X
mit einer vorgegebenen Verteilungsfunktion F0 übereinstimmt. Das Testschema für Parametertests kann mit geringen Anpassungen auch für parameterfreie Tests verwendet werden. Als
Nullhypothese haben wir H0 : F (x) = F0 (x) mit der Alternativhypothese H1 : F (x) ̸= F0 (x).
Hauptproblem bei parameterfreien Tests ist das Finden einer geeigneten Testfunktion.
Vorgehensweise. Als ersten Schritt unterteilen wir die reellen Zahlen in r paarweise disjunkte
Intervalle I1 , . . . , Ir :
R = I1 ∪ · · · ∪ Ir = (−∞, a1 ) ∪ [a1 , a2 ) ∪ · · · ∪ [ar−2 , ar−1 ) ∪ [ar−1 , ∞).
Dann bestimmen
wir für jedes Intervall die Anzahl yi der Stichprobenelemente im Intervall Ii
∑
(es gilt ri=1 yi = n) und die „ideale“ Anzahl yi0 von Stichprobenelementen im Intervall Ii , d.h.
die der vorgegebenen Verteilung F0 entsprechende Anzahl. Unter der Annahme, dass H0 richtig
ist, gilt also yi0 = n · PH0 (X ∈ Ii ). Als Testfunktion verwenden wir
T =
r
∑
(yi − y 0 )2
i
i=1
yi0
∼ χ2r−1−m ,
wobei m die Anzahl der unbekannten und somit zu schätzenden Parameter der angenommenen
Verteilung ist. Bezeichnen wir mit α die Irrtumswahrscheinlichkeit, so erhalten wir als kritischen
Bereich
K = {x : x > χ2r−1−m,1−α }.
Bemerkung. Um den bei dieser Vorgehensweise gemachten Fehler gering zu halten, sollte die
Faustregel yi0 ≥ 5 beachtet werden.
Beispiel. Beim maschinellen Zuschnitt von Holzleisten wird anhand einer Stichprobe die Abweichung der tatsächlichen Länge vom Nennmaß untersucht. Wir vermuten, dass es sich bei
der Zufallsgröße „Betrag der Abweichung vom Nennmaß“ um eine normalverteilte Zufallsgröße
handelt. Die Nullhypothese ist also
)
(
X −µ
H0 : F (x) = Φ
σ
und wir haben m = 2 (die Parameter µ und σ 2 sind unbekannt und müssen geschätzt werden).
Aus der Stichprobe erhalten wir die folgenden Daten:
n = 150,
µ ≈ x̄n = 40,48,
72
σ ≈ sn = 5,71.
Wir wählen als Irrtumswahrscheinlichkeit α = 0,1 und zerlegen die reellen Zahlen in r = 8
Intervalle wie in der Tabelle angegeben:
i
1
2
3
4
5
6
7
8
Ii
0 – 30,5
30,5 – 33,5
33,5 – 36,5
36,5 – 39,5
39,5 – 42,5
42,5 – 45,5
45,5 – 48,5
48,5 – ∞
yi
5
13
23
22
29
29
16
13
yi0
6,03
10,59
19,81
28,35
30,94
25,81
16,44
12,01
Der kritische Bereich ist
K = {x : x > χ2r−1−m,1−α = χ25;0,9 = 9,27} = (9,27; ∞)
und die Testfunktion liefert
T =
8
∑
(yi − y 0 )2
i
i=1
yi0
= 3,27 ̸∈ K.
Wir können also davon ausgehen, dass die betragsmäßige Abweichung vom Nennwert normalverteilt ist.
2.6 Spezielle Schätzverfahren
2.6.1 Maximum-Likelihood-Methode
Im Folgenden sei X eine Grundgesamtheit mit der Verteilungsfunktion Fϑ und (X1 , . . . , Xn )
eine Stichprobe. Der Parameter ϑ ∈ Θ der Verteilung der Grundgesamtheit ist unbekannt
und soll geschätzt werden. Ziel der Maximum-Likelihood-Schätzung (kurz: MLS) ist es, den
Schätzwert ϑ̂M L für ϑ so zu wählen, dass die zur Schätzung verwendete Stichprobe unter allen
denkbaren Stichproben die höchste Wahrscheinlichkeit aufweist.
Dazu drückt man die Wahrscheinlichkeit der Stichprobe als Funktion von ϑ aus und sucht
das Maximum. Eine solche Funktion heißt Likelihood-Funktion und wird mit like(ϑ) bezeichnet.
Meist ist es einfacher, das Maximum der Funktion L(ϑ) := ln like(ϑ) zu bestimmen. Da die
Logarithmusfunktion streng monoton wachsend ist, ändert sie nichts an den Extremwerten. Die
Maximierung erfolgt wie üblich durch Nullsetzen der ersten Ableitung L′ (ϑ).
Eigenschaften der Maximum-Likelihood-Schätzung
• Alle MLS sind konsistent.
• Existiert eine wirksamste Schätzfunktion, so erhält man diese durch die MLS.
• MLS sind asymptotisch normalverteilt mit dem Erwartungswert ϑ.
73
2.6.1.1 Diskreter Fall
Sei (x1 , . . . , xn ) eine konkrete Stichprobe. Verwenden wir die Bezeichnung pxi (ϑ) = P (X = xi ),
so ist die Likelihood-Funktion gegeben durch
like(ϑ) = P (X1 = x1 , . . . , Xn = xn ) =
n
∏
pxi (ϑ).
i=1
Beispiel. Der Parameter ϑ = p ∈ (0, 1) einer binomialverteilten Grundgesamtheit X ∼ B(1, p)
ist zu bestimmen. In der dazu entnommenen Stichprobe (x1 , . . . , xn ) vom Umfang n tritt l mal
die 1 und n − l mal die 0 auf. Somit ist
like(p) = pl (1 − p)n−l
und
L(p) = ln(pl (1 − p)n−l ) = l ln p + (n − l) ln(1 − p).
Daraus erhalten wir
L′ (p) =
l
n−l
−
=0
p 1−p
⇔
l(1 − p) = p(n − l)
⇔
p=
l
= x̄n =: p̂M L .
n
Die Maximum-Likelihood-Methode liefert uns also als Schätzung die bereits bekannte erwartungstreue und konsistente Schätzfunktion X̄n .
2.6.1.2 Stetiger Fall
Sei (x1 , . . . , xn ) eine konkrete Stichprobe. Ist f = f (x, ϑ) die vom unbekannten Parameter
ϑ abhängige Dichtefunktion der stetig verteilten Grundgesamtheit X, so ist die LikelihoodFunktion
n
∏
like(ϑ) =
f (xi , ϑ)
i=1
und durch Logarithmieren erhalten wir
L(ϑ) = ln like(ϑ) =
n
∑
ln f (xi , ϑ).
i=1
Beispiel. Für eine normalverteilte Grundgesamtheit X ∼ N(µ, ϑ) ist anhand der Stichprobe
(x1 , . . . , xn ) der Parameter ϑ = (µ, σ 2 ) der Verteilung zu bestimmen. Es ist
)
(
n
1
1 ∑
2
2
like(µ, σ ) =
(xi − µ)
exp − 2
2σ
(2πσ 2 )n/2
i=1
und
n
n
1 ∑
2
L(µ, σ ) = − ln(2πσ ) − 2
(xi − µ)2 .
2
2σ
2
i=1
74
Daraus erhalten wir zum einen
n
∂L(µ, σ 2 )
1 ∑
= 2
(xi − µ) = 0
∂µ
σ
⇔
n
∑
−nµ +
i=1
1∑
xi = x̄i =: µ̂M L ,
n
n
xi = 0
⇔
µ=
i=1
i=1
d.h. die Maximum-Likelihood-Methode liefert für µ die bereits bekannte Schätzfunktion X̄n ,
und zum anderen (σ 2 ist hier als Symbol zu verstehen)
n
∂L(µ, σ 2 )
n
1 ∑
=− 2 + 4
(xi − µ)2 = 0
∂σ 2
2σ
2σ
i=1
⇔
n
n
1∑
1∑
2
2
2
(xi − µ) =
(xi − x̄n )2 =: σ̂M
σ =
L.
n
n
i=1
i=1
Diese Schätzung ist im Gegensatz zur schon bekannten Schätzfunktion Sn2 für die Varianz nicht
erwartungstreu.
2.6.2 Momentenmethode
Sei X eine Grundgesamtheit mit der Verteilungsfunktion Fϑ und (X1 , . . . , Xn ) eine Stichprobe.
Der unbekannte Parameter ϑ ist zu schätzen. Neben dem bereits bekannten k-ten Moment
mk = EX k der Zufallsgröße X führen wir noch das sogenannte k-te Stichprobenmoment
1∑ k
Xi
n
n
Mk =
i=1
ein. Die Schätzung nach der Momentenmethode besteht darin, die Momente von X mit den
Stichprobenmomenten gleichzusetzen. Besteht ϑ = (ϑ1 , ϑ2 ) zum Beispiel aus zwei einzelnen
Parametern, so löst man das Gleichungssystem m1 = M1 und m2 = M2 für eine konkrete
Stichprobe (x1 , . . . , xn ) und erhält daraus eine Schätzung ϑ̂M M für den gesuchten Parameter
ϑ. Bei Bedarf können auch die k-ten zentralen Momente µk = E(X − EX)k von X mit den
entsprechenden Schätzungen M̃k verwendet werden.
Beispiel. Sei X ∼ πλ eine mit dem Parameter ϑ = λ Poisson-verteilte Grundgesamtheit und
(x1 , . . . , xn ) eine Stichprobe. Dann ist
1∑
M1 =
xi .
n
n
m1 = EX = λ
und
i=1
Setzen wir m1 = M1 , so erhalten wir die Schätzung
1∑
xi .
n
n
λ̂M M =
i=1
Beispiel. Sei X eine auf dem Intervall [a, b] gleichverteilte Grundgesamtheit und (x1 , . . . , xn )
eine Stichprobe. Wir möchten aus dieser Stichprobe die Parameter a und b bestimmen. Dazu
75
verwenden wir
m1 = EX =
a+b
,
2
1∑
xi = x̄n ,
n
n
M1 =
µ2 = D2 X =
i=1
(b − a)2
,
12
M̃2 = s2n .
Aus dem Gleichungssystem m1 = M1 und µ2 = M̃2 ergeben sich die Schätzungen
√
√
âM M = x̄n − 3sn
und
b̂M M = x̄n + 3sn .
2.6.3 Methode der kleinsten Quadrate
Gegeben sei eine Funktion ϕ = ϕ(t, β) (z.B. Temperatur einer Flüssigkeit) mit einem frei
wählbaren Parameter t (z.B. Zeit) und einem unbekannten Parameter β = (β1 , . . . , βr ). Der Typ
der Funktion (z.B. linear) sei bekannt. Um β zu bestimmen werden für n verschiedene Werte
t1 , . . . , tn von t durch Messung die entsprechenden Funktionswerte yi bestimmt, wobei n ≫ r ist.
Bei den Messungen treten Messfehler auf, d.h. es gibt bei jeder Messung eine Abweichung ηi =
ϕ(ti , β) − yi zwischen Funktionswert und Messwert. Dabei gilt η = (η1 , . . . , ηn ) ∼ N(0, Covη).
Sinn und Zweck der Methode der kleinsten Quadrate ist es nun, den Parameter β der Funktion
ϕ so zu wählen, dass die Summe der Quadrate der Abweichungen ηi möglichst klein ist. Es soll
also eine Schätzung β̂ M KQ für β gefunden werden, für die
n
∑
(ϕ(ti , β) − yi )2
i=1
minimal wird.
76
Herunterladen