Statistik II

Werbung
Statistik II
Klaus Ritter
TU Kaiserslautern
Sommersemester 2017
Inhalt
1. Einleitung
2. Diskrete Modelle
2.1. Diskrete Wahrscheinlichkeitsräume
2.2. Wahrscheinlichkeitsfunktionen
2.3. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
2.4. Zufallsvariablen
2.5. Empirische Wahrscheinlichkeitsverteilungen
2.6. Wichtige Klassen diskreter Verteilungen
2.7. Erwartungswert und Varianz
3. Allgemeine Modelle
3.1. Stetige Verteilungen
3.2. Allgemeine Begriffsbildung
3.3. Verteilungsfunktionen und Quantile
3.4. Grenzwertsätze
4. Schätzung von Verteilungsparametern
4.1. Punktschätzung
4.2. Intervallschätzung
5. Statistische Entscheidungsverfahren
5.1. Tests unter Normalverteilungsannahmen
5.2. Anpassungstests
6. Anhang: Kombinatorik
1
1. Einleitung
Beispiel 1
Zwei Varianten einer Fragestellung:
Wie groß ist gegenwärtig in D die Wahrscheinlichkeit einer
Mädchengeburt?
Ist gegenwärtig in D eine Jungengeburt wahrscheinlicher als eine
Mädchengeburt?
Empirische Daten aus einer Stichprobe: Geschlecht bei N Geburten,
k Mädchen (1), N − k Jungen (0).
Relative Häufigkeiten
k
N −k
, pb(0) =
= 1 − pb(1)
N
N
als Kennzahlen der Daten (deskriptive Statistik).
pb(1) =
Naive Antworten:
Die gesuchte Wahrscheinlichkeit ist pb(1).
Ja, falls pb(0) > pb(1), sonst nein.
2
Kritik: Die Antworten berücksichtigen nicht
die Tatsache, daß nur eine Stichprobe erhoben wurde,
die Größe der Stichprobe,
die Variabilität in den Daten.
Deshalb
Einsatz von Methoden der induktiven Statistik, hier
Konfidenzintervalle und Signifikanztests.
Dies erfordert die
Modellierung (mathematische Beschreibung) des zugrunde
liegenden Zufallsmechanismus.
Beispiel 2
Eine komplexe, unscharfe Fragestellung eines Handelskonzerns:
Für welche Artikel liegt eine Wetterabhängigkeit der
Abverkaufszahlen vor? Wie ist ggf. diese Abhängigkeit?
3
Mengen dienen zur Beschreibung der möglichen Ausgänge eines
Zufallsexperimentes.
Beispiel 3
Besonders wichtig sind die Menge N = {1, 2, . . . } bzw. N0 = {0, 1, . . . }
der natürlichen Zahlen und die Menge R der reellen Zahlen.
Die Notation
ω ∈ Ω,
ω∈
/Ω
heißt: das Objekt ω gehört zur Menge Ω ( ω ist ein Element von Ω“)
”
bzw. ω gehört nicht zu Ω.
Beispiel 4
Die Maximallänge der Warteschlage vor einem Aufzug an einem Tag ist
ein Element aus N0 .
Die maximale Wartezeit einer Person vor dem Aufzug wird sinnvollerweise
durch eine nichtnegative reelle Zahl gemessen.
4
Die Notation
A⊆B
heißt: jedes Element der Menge A ist ein Element der Menge B ( A ist
”
eine Teilmenge von B“).
Die Notation
A=B
heißt: A ⊆ B und B ⊆ A ( A und B sind gleich“).
”
Die Notation ∅ steht für die leere Menge, d.h. für die Menge, die kein
Element enthält.
Eine Menge Ω der Form
Ω = {ω1 , . . . , ωn } heißt endlich; Notation |Ω| für die Anzahl ihrer
Elemente ( Mächtigkeit von Ω“),
”
Ω = {ω1 , ω2 , . . . } mit ωi 6= ωj für i 6= j heißt abzählbar unendlich.
5
2. Diskrete Modelle
Ziel:
Modellierung und Analyse von Zufallsexperimenten mit endlich
vielen oder abzählbar unendlich vielen möglichen Ausgängen.
Im Folgenden sei dementsprechend Ω eine endliche oder abzählbar
unendliche Menge, die die o.g. Ausgänge enthält.
6
2.1. Grundbegriffe
Definition 1
Die Elemente ω ∈ Ω heißen Ergebnisse und Ω heißt Ergebnismenge. Die
Teilmengen A ⊆ Ω von Ω heißen Ereignisse.
Beispiel 2
2-maliges Werfen einer Münze mit den Seiten 1 und 0:
Ω = {(1, 1), (1, 0), (0, 1), (0, 0)} = {1, 0}2 ,
A = {(1, 1), (1, 0)} = beim ersten Wurf fällt 1“.
”
Analog für 2-stufigen Produktionsprozeß: Toleranzen werden ein- bzw.
nicht eingehalten.
Sprechweisen: das Ereignis A tritt ein“ bedeutet ω ∈ A, das sichere
”
”
Ereignis“ ist Ω, das unmögliche Ereignis“ ist ∅.
”
7
Definition 3
Für Ereignisse A, B ⊆ Ω heißen
A ∪ B = {ω ∈ Ω : ω ∈ A oder ω ∈ B},
A ∩ B = {ω ∈ Ω : ω ∈ A und ω ∈ B},
A \ B = {ω ∈ Ω : ω ∈ A und ω ∈
/ B},
Ac = Ω \ A = {ω ∈ Ω : ω ∈
/ A}
die Vereinigung, der Schnitt, die Differenz von A und B
( A ohne B“) bzw. das Komplement ( Gegenereignis“) von A.
”
”
Satz 4 (Rechenregeln für Ereignisse)
Für alle Ereignisse A, B, C ⊆ Ω gilt
A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C ),
A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C ),
(A ∩ B)c = Ac ∪ B c ,
(A ∪ B)c = Ac ∩ B c ,
B \ A = B ∩ Ac .
8
Definition 5
Die Vereinigung der Ereignisse A1 , A2 , A3 , . . . ⊆ Ω ist
∞
[
Ai = A1 ∪ A2 ∪ . . .
i=1
= {ω ∈ Ω : es existiert ein i ∈ N, so daß ω ∈ Ai }.
Die Ereignisse A1 , A2 , A3 , . . . ⊆ Ω heißen paarweise disjunkt, falls
Ai ∩ Aj = ∅
für alle i 6= j.
Bemerkung 6
Wichtiger Spezialfall: endliche Vereinigungen
A1 ∪ . . . ∪ An = A1 ∪ . . . ∪ An ∪ ∅ ∪ ∅ ∪ . . .
9
Nun: Zuordnung von Wahrscheinlichkeiten P(A) zu allen Ereignissen
A ⊆ Ω. Frage: Sinnvolle Eigenschaften jeder solchen Zuordnung?
Definition 7
Die Menge
Pot(Ω) = {A : A ⊆ Ω}
aller Teilmengen von Ω heißt die Potenzmenge von Ω.
Definition 8
Eine Funktion P : Pot(Ω) → R heißt W’verteilung (auf Ω), falls
(i) 0 ≤ P(A) ≤ 1 für alle A ⊆ Ω und
(ii) P(Ω) = 1 sowie P(∅) = 0 und
(iii) für alle paarweise disjunkten A1 , A2 , . . . ⊆ Ω gilt
P
∞
[
!
Ai
=
i=1
Ggf. heißt (Ω, P) ein diskreter W’raum.
∞
X
P(Ai ).
i=1
10
Satz 9 (Rechenregeln für W’keiten)
Sei P eine W’verteilung auf Ω.
Falls A1 , . . . , An ⊆ Ω paarweise disjunkt sind, gilt
P(A1 ∪ . . . ∪ An ) = P(A1 ) + . . . + P(An ).
Falls A ⊆ B ⊆ Ω, gilt
P(B \ A) = P(B) − P(A)
und insbesondere
P(A) ≤ P(B)
sowie
P(Ac ) = 1 − P(A).
Für alle A, B ⊆ Ω gilt
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
11
2.2. Wahrscheinlichkeitsfunktionen
Frage: Wie konstruiert man W’verteilungen auf Ω auf der Basis von
empirischen Daten oder
theoretischen Überlegungen?
Definition 1
Sei P eine W’verteilung auf Ω. Die durch
p(ω) = P({ω})
definierte Funktion p : Ω → R heißt W’funktion (zur W’verteilung P).
Satz 2 (W’verteilungen und W’funktionen)
Für P und p wie oben sowie A ⊆ Ω gilt
P(A) =
X
p(ω).
ω∈A
Insbesondere ist P durch p bereits eindeutig bestimmt.
12
Frage: Welche Eigenschaften besitzen W’funktionen?
Bemerkung 3
Jede W’funktion p : Ω → R erfüllt
0 ≤ p(ω) ≤ 1
für alle ω ∈ Ω
(1)
und
X
p(ω) = 1.
(2)
ω∈Ω
Satz 4 (Konstruktion von W’verteilungen)
Jede Funktion p : Ω → R mit (1) und (2) definiert gemäß
P(A) =
X
p(ω)
ω∈A
für A ⊆ Ω eine W’verteilung P auf Ω.
13
Beispiel 5
Sei Ω endlich mit n = |Ω|. Für ω ∈ Ω sei
p(ω) =
1
.
n
Die zugehörige W’verteilung erfüllt für alle Ereignisse A ⊆ Ω
P(A) =
|A|
.
|Ω|
Definition 6
P wie oben heißt die Gleichverteilung ( Laplace-Verteilung“) auf der
”
endlichen Menge Ω.
Bemerkung 7
Die Berechung von Wahrscheinlichkeiten bzgl. einer Gleichverteilung
geschieht prinzipiell durch Abzählen.
14
Beispiel 8
2-maliges unabhängiges“ Werfen einer fairen Münze, vgl. Bsp. 2.1.2.
”
Schritt 1: Modellierung durch die Gleichverteilung P auf
Ω = {(1, 1), (1, 0), (0, 1), (0, 0)}.
Schritt 2: Betrachte die Ereignisse
A = {(1, 1), (1, 0)} = beim ersten Wurf fällt 1“,
”
B = {(1, 1), (0, 1)} = beim zweiten Wurf fällt 1“.
”
Schritt 3: Es gilt
2
1
= = P(B),
4
2
1
P(A ∩ B) = P({(1, 1)}) = = P(A) · P(B),
4
3
P(A ∪ B) = P({(1, 1), (1, 0), (0, 1)}) = .
4
P(A) =
15
Beispiel 9
2-stufiger Produktionsprozeß: Toleranzen werden ein- bzw. nicht
eingehalten (1 bzw. 0). Modellierung durch
Ω = {(1, 1), (1, 0), (0, 1), (0, 0)}
und die (fiktive) W’funktion
ω
(1, 1)
(1, 0)
(0, 1)
(0, 0)
p(ω)
0.8
0.09
0.01
0.1
Betrachte
A = {(1, 1), (1, 0)} = in der 1. Stufe wird die Toleranz eingehalten“,
”
B = {(1, 1), (0, 1)} = in der 2. Stufe wird die Toleranz eingehalten“.
”
Es gilt
P(A) = 0.89,
P(B) = 0.81,
P(A ∩ B) = 0.8 6= P(A) · P(B).
16
2.3. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Betrachte einen diskreten W’raum (Ω, P). Frage: Wie ist die W’verteilung
P zu ändern, wenn man weiß, daß ein Ereignis B ⊆ Ω eingetreten ist?
Definition 1
Für A, B ⊆ Ω mit P(B) > 0 heißt
P(A | B) =
P(A ∩ B)
P(B)
die bedingte Wahrscheinlichkeit von A gegeben B.
Beispiel 2
Sei P die Gleichverteilung auf einer endlichen Menge Ω. Für A, B ⊆ Ω mit
B 6= ∅ gilt
|A ∩ B| |Ω|
|A ∩ B|
P(A | B) =
·
=
.
|Ω|
|B|
|B|
17
In Bsp. 2.2.8 (2-maliges unabhängiges“ Werfen einer fairen Münze) gilt
”
also
1
P(A | B) = P(B | A) =
2
für
A = {(1, 1), (1, 0)}
und
B = {(1, 1), (0, 1)}.
Beispiel 3
In Bsp. 2.2.9 (2-stufiger Produktionsprozeß) gilt
P(A | B) =
P({(1, 1)})
0.8
=
≈ 0.9876
P({(1, 1), (0, 1)})
0.81
P(B | A) =
P({(1, 1)})
0.8
=
≈ 0.8988
P({(1, 1), (1, 0)})
0.89
und
für A, B wie oben, während
P(A) = 0.89
und
P(B) = 0.81.
18
Bemerkung 4
Sei p die W’funktion zu P, und sei B ⊆ Ω mit P(B) > 0. Für A ⊆ Ω gilt
P(A | B) =
X
X
1
·
q(ω),
p(ω) =
P(B) ω∈A∩B
ω∈A
wobei
q(ω) =


 p(ω) ,
P(B)

0,
falls ω ∈ B,
sonst.
Durch
Q(A) = P(A | B)
wird eine W’verteilung auf Ω mit W’funktion q definiert.
19
Definition 5
Ereignisse A, B ⊆ Ω heißen unabhängig, falls
P(A ∩ B) = P(A) · P(B).
Bemerkung 6
Im Fall P(B) > 0 sind A und B genau dann unabhängig, wenn
P(A | B) = P(A).
Beispiel 7
In Bsp. 2.2.8 (2-maliges unabhängiges“ Werfen einer fairen Münze) sind
”
A und B unabhängig.
In Bsp. 2.2.9 (2-stufiger Produktionsprozeß) sind A und B abhängig.
20
2.4. Zufallsvariablen
Betrachte einen diskreten W’raum (Ω, P). Frage: Wie lassen sich einzelne
Aspekte des entsprechenden Zufallsexperimentes beschreiben?
Beispiel 1
2-maliges unabhängiges Werfen eines fairen Würfels, also Gleichverteilung
P auf Ω = {1, . . . , 6}2 . Teilaspekte:
Augenzahl beim ersten Wurf“,
”
Augenzahl beim zweiten Wurf“,
”
Augensumme aus beiden Würfen“.
”
Beispiel 2
Stochastisches Finanzmarktmodell. Teilaspekte: Jahreshöchstwerte der 30
DAX-Aktien in 2017.
21
Im Folgenden sei X ⊆ R endlich oder abzählbar unendlich. In der Regel
betrachten wir X ⊆ N0 .
Definition 3
Eine Funktion
X :Ω→X
heißt Zufallsvariable mit Werten in X, ihre Funktionswerte x = X (ω) ∈ X
heißen Realisierungen von X .
Beispiel 4 (Fortsetzung von Bsp. 1)
Die ersten beiden Teilaspekte werden durch X = {1, . . . , 6} und
X1 (ω) = ω1 ,
X2 (ω) = ω2
für ω = (ω1 , ω2 ) ∈ Ω beschrieben. Der dritte Teilaspekt wird beschrieben
durch S = {2, . . . , 12} und S = X1 + X2 , also
S(ω) = X1 (ω) + X2 (ω) = ω1 + ω2 .
22
Im Folgenden sei X : Ω → X eine Zufallsvariable. Statt aller Details von
(Ω, P) und X sind oft nur die W’keiten
PX (A) = P({ω ∈ Ω : X (ω) ∈ A})
für A ⊆ X und speziell
pX (x ) = PX ({x }) = P({ω ∈ Ω : X (ω) = x })
für x ∈ X von Interesse.
Beispiel 5 (Fortsetzung von Bsp. 4)
Für x ∈ {1, . . . , 6} gilt
1
pX1 (x ) = pX2 (x ) = ,
6
und pS ist gegeben durch
s
2
3
4
5
6
7
8
9
10
11
12
ps (s)
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
23
Satz 6 (Verteilung und W’funktion einer Zufallsvariable)
Es gilt
pX : X → R ist eine W’funktion,
PX ist die zugehörige W’verteilung auf X, d.h. für A ⊆ X
PX (A) =
X
pX (x ).
x ∈A
Definition 7
PX und pX heißen die Verteilung bzw. die W’funktion von X .
24
Stabdiagramm zur graphischen Darstellung von pX : Jedem Element
x ∈ X wird ein Stab“, dessen Höhe proportional zu pX (x ) ist, zugeordnet.
”
Beispiel 8 (Fortsetzung von Bsp. 5)
W’funktion pS der Augensumme S
pS (s)
0.2
0.1
0
2
3
4
5
6
7
8
9
10
11
12
s
25
Definition 9
Zufallsvariablen X1 , X2 : Ω → X heißen identisch verteilt, falls
PX1 (A) = PX2 (A) für alle A ⊆ X.
Beispiel 10 (Fortsetzung von Bsp. 5)
PX1 und PX2 sind jeweils die Gleichverteilung auf {1, . . . , 6}.
Dies zeigt: Unterschiedliche Zufallsvariablen können identisch verteilt sein.
Satz 11 (Kriterium für identische Verteilungen)
X1 , X2 : Ω → X sind genau dann identisch verteilt, wenn
pX1 (x ) = pX2 (x )
für alle x ∈ X.
26
Bemerkung 12
Den Fall von Zufallsvektoren
X = (X1 , . . . , Xn ) : Ω → X
mit einer endlichen oder abzählbar unendlichen Menge
X ⊆ Rn
behandelt man völlig analog. Jetzt sind die Komponenten Xi von X
Zufallsvariablen.
27
Beispiel 13 (Fortsetzung von Bsp. 4)
Für
X = {1, . . . , 6}2
und x = (x1 , x2 ) = X gilt
p(X1 ,X2 ) (x ) = P({ω ∈ Ω : ω = x }) = P({x }) =
1
.
36
Fazit: P(X1 ,X2 ) ist die Gleichverteilung auf X.
Für
X = {(x1 , s) ∈ N2 : 1 ≤ x1 ≤ 6 und x1 + 1 ≤ s ≤ x1 + 6}
und (x1 , s) ∈ X gilt
p(X1 ,S) (x1 , s) = P({ω ∈ Ω : ω1 = x1 und ω1 + ω2 = s}) =
1
.
36
Fazit: P(X1 ,S) ist die Gleichverteilung auf X.
28
Wir verwenden fortan Kurzschreibweisen wie
{X = x } = {ω ∈ Ω : X (ω) = x },
{X ∈ A} = {ω ∈ Ω : X (ω) ∈ A},
und wir betrachten nun Zufallsvariablen
X1 , . . . , Xn
auf (Ω, P), die jeweils Werte in X annehmen.
Definition 14
X1 , . . . , Xn heißen unabhängig, falls für alle A1 , . . . , An ⊆ X
P
n
\
!
{Xi ∈ Ai }
i=1
=
n
Y
P({Xi ∈ Ai }).
i=1
29
Beispiel 15 (Fortsetzung von Bsp. 4)
Für X = {1, . . . , 6} und A1 , A2 ⊆ X gilt
P({X1 ∈ A1 } ∩ {X2 ∈ A2 }) = P({ω ∈ Ω : ω1 ∈ A1 und ω2 ∈ A2 })
|A1 | · |A2 |
|A1 | · |A2 |
=
=
|Ω|
36
sowie gemäß Bsp. 10 für i = 1, 2
P({Xi ∈ Ai }) =
|Ai |
.
6
Fazit: X1 und X2 sind unabhängig.
Für X = {1, . . . , 12}, A1 = {6} und B = {2} gilt
P({X1 ∈ A1 } ∩ {S ∈ B}) = P({ω ∈ Ω : ω1 = 6 und ω1 + ω2 = 2})
= P(∅) = 0
sowie P({X1 ∈ A1 }) > 0 und P({S ∈ B}) > 0.
Fazit: X1 und S sind nicht unabhängig.
30
Satz 16 (Kriterium für Unabhängigkeit)
X1 , . . . , Xn sind genau dann unabhängig, wenn für alle x1 , . . . , xn ∈ X
P
n
\
!
{Xi = xi }
=
i=1
n
Y
pXi (xi ).
i=1
Bemerkung 17
Betrachte den Spezialfall n = 2 und X = {0, . . . , k} mit k ∈ N. Setze
pi,j = P({X1 = i} ∩ {X2 = j})
sowie
pi,• = P({X1 = i}}) und p•,j = P({X2 = j}})
für i, j ∈ {0, . . . , k}. Klar
pi,• =
k
X
j=0
pi,j
und p•,j =
k
X
i=0
pi,j
für alle i, j ∈ {0, . . . , k}.
31
Zugehöriges Tableau
X2
X1
p0,0
...
..
.
p0,k
p0,•
..
.
..
.
pk,•
pk,0
...
pk,k
p•,0
...
p•,k
Satz 16 zeigt: X1 und X2 sind genau dann unabhängig, wenn
pi,j = pi,• · p•,j
für alle i, j ∈ {0, . . . , k}.
Modellierung: Vorgabe von p0,• , . . . , pk,• ≥ 0 und p•,0 , . . . , p•,k ≥ 0 mit
Pk
i=0 pi,• = 1 und
j=0 p•,j = 1.
Pk
32
Bemerkung 18
Sind X1 , . . . , Xn unabhängig, so lassen sich alle W’keiten der Form
P({(X1 , . . . , Xn ) ∈ A}) = P({ω ∈ Ω : (X1 (ω), . . . , Xn (ω)) ∈ A})
mit A ⊆ Xn prinzipiell aus Werten der W’funktionen pX1 , . . . , pXn
berechnen.
33
2.5. Empirische Wahrscheinlichkeitsverteilungen
Betrachte ein Zufallsexperiment, beschrieben durch
eine Zufallsvariable X : Ω → X auf einem diskreten W’raum (Ω, P),
wobei
die endliche oder abzählbar unendliche Menge X ⊆ R bekannt,
aber
die Verteilung PX unbekannt ist.
Verfügbar ist ferner eine Stichprobe (Daten)
x1 , . . . , xN ∈ X
(1)
aus einer N-maligen unabhängigen Wiederholung des Zufallsexperiments.
Frage: Näherungsweise Bestimmung der W’funktion pX von X ?
34
Antwort: Betrachte für x ∈ X die relative Häufigkeit
|{` ∈ {1, . . . , N} : x` = x }|
N
Anzahl Versuche mit Ergebnis x
=
.
N
pb(x ) =
Bemerkung 1
Für p = pb gelten (2.2.1) und (2.2.2) aus Bem. 2.2.3, so daß Satz 2.2.4
b auf
anwendbar ist, siehe auch Satz 2.4.6. Man erhält eine W’verteilung P
X, und für A ⊆ X gilt
b
P(A)
=
X
x ∈A
=
pb(x ) =
|{` ∈ {1, . . . , N} : x` ∈ A}|
N
Anzahl Versuche mit Ergebnis in A
.
N
Definition 2
b heißt die empirische W’verteilung zur Stichprobe (1).
P
35
Stabdiagramm zur graphischen Darstellung (empirischer) W’verteilungen:
1. Fall: nominale Skala
Die Elemente von X stehen in keinerlei Beziehung; Zahlen dienen nur der
Bezeichnung. Bsp.: Studiengang.
2. Fall: ordinale Skala
Die Elemente von X sind in natürlicher Weise angeordnet; Zahlen erlauben
nur den Vergleich. Bsp.: höchster Bildungsabschluß.
3. Fall: metrische Skala
Die Differenzbildung für die Elemente von X ist sinnvoll.
Bsp.: Abverkaufszahlen.
Die Elemente von X werden als Ausprägungen des durch X beschriebenen
Merkmals bezeichnet.
36
Beispiel 3
Studiengänge der 348 Übungsteilnehmer (Totalerhebung), nominale Skala
37
0.6
relative Häufigkeit
0.5
0.4
0.3
0.2
0.1
0
B
B
W
In
g
B
B
B
B
M B
B
B
B
B
B
D
M
BW BW In AI Bi
So Ma Ch EI MV MK VE ipl. W
nf o
em T
ET Ing
T
zI
t
T
L
L f
nf h
TQ
38
Beispiel 4
Allgemeiner Schulabschluß (Mikrozensus 2014, Statistisches Bundesamt),
im wesentlichen ordinale Skala
39
Beispiel 5
Tagesabverkauf von Speiseeis“ an einem Tag in N = 2165 Märkten,
”
metrische Skala
0.06
relative Häufigkeit
0.05
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
120
140
160
Abverkauf
40
Beispiel 6
Tagesabverkauf von Speiseeis“ an einem anderen Tag in denselben
”
N = 2165 Märkten, metrische Skala
0.2
0.18
0.16
relative Häufigkeit
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
10
20
30
40
50
60
70
80
Abverkauf
41
Vergleich der Beispiele 5 und 6
0.2
0.18
0.16
relative Häufigkeit
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
20
40
60
80
100
120
140
160
Abverkauf
42
Bemerkung 7
Den Fall eines Zufallsvektors
X = (X1 , . . . , Xn ) : Ω → X
mit X ⊆ Rn behandelt man völlig analog.
43
Beispiel 8
Computer-Simulation des 2-maligen unabhängigen Münzwurfs, relative
Häufigkeiten, d.h. die Werte von pb, für eine Stichprobe der Größe
N = 1000.
relative Häufigkeit
0.3
0.25
0.2
(1,1)
(1,0)
(0,1)
(0,0)
44
Bemerkung 9
Das Gegenstück zu Bemerkung 2.4.17: Betrachte den Spezialfall n = 2
und X = {0, . . . , k}2 mit k ∈ N. Setze
pbi,j =
|{` ∈ {1, . . . , N} : x` = (i, j)}|
N
sowie
pbi,• =
|{` ∈ {1, . . . , N} : x`,1 = i}|
,
N
pb•,j =
|{` ∈ {1, . . . , N} : x`,2 = j}|
N
für i, j ∈ {0, . . . , k}. Klar
pbi,• =
k
X
j=0
pbi,j
und pb•,j =
k
X
pbi,j
für alle i, j ∈ {0, . . . , k}.
i=0
45
Zugehörige Kontingenztafel
X2
X1
pb0,0
...
..
.
pb0,k
pb0,•
..
.
..
.
pbk,•
pbk,0
...
pbk,k
pb•,0
...
pb•,k
Man vermutet genau dann die Unabhängigkeit von X1 und X2 , wenn pbi,j
für alle i, j ∈ {0, . . . , k} nahe bei“ pbi • · pb•,j liegt.
”
46
Beispiel 10
Computer-Simulation des 2-maligen unabhängigen Münzwurfs,
Kontingenztafel für eine Stichprobe der Größe N = 1000.
X2
0
1
0
0.246
0.276
0.522
1
0.233
0.245
0.478
0.479
0.521
X1
47
Beispiel 11
Computer-Simulation des 2-stufigen Produktionsprozeß, Kontingenztafel
für eine Stichprobe der Größe N = 1000.
X2
0
1
0
0.112
0.012
0.124
1
0.096
0.780
0.876
0.208
0.792
X1
48
2.6. Wichtige Klassen diskreter Verteilungen
Die Binomialverteilung
Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments
mit zwei möglichen Ausgängen: 1 ( Erfolg“) oder 0 ( Mißerfolg“).
”
”
Modellierung durch
die Parameter n ∈ N und 0 ≤ p ≤ 1 ( Erfolgswahrscheinlichkeit“)
”
sowie
unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß
P({Xi = 1}) = 1 − P({Xi = 0}) = p
für i = 1, . . . , n.
Frage: Verteilung der Anzahl der Erfolge?
Bsp.: Unfallfreie Fahranfänger innerhalb des ersten Jahres.
49
Setze S =
Pn
i=1 Xi .
Für ω ∈ Ω gilt also
S(ω) = |{i ∈ {1, . . . , n} : Xi (ω) = 1}|.
Satz 1
Für k = 0, . . . , n gilt
!
P({S = k}) =
n
· p k · (1 − p)n−k .
k
Definition 2
Eine Zufallsvariable X heißt binomialverteilt mit Parametern n ∈ N und
0 ≤ p ≤ 1, falls
!
P({X = k}) =
n
· p k · (1 − p)n−k
k
für k = 0, . . . , n. Notation: X ∼ B(n, p).
Statistische Problemstellung: Gegeben n und k, schätze p.
50
Beispiel 3
Die W’funktionen von X ∼ B(10, p) mit p = 1/2 und p = 1/4.
0.3
P(fX = kg)
P(fX = kg)
0.3
0.15
0.15
0
0
0
2
4
6
k
8
10
0
2
4
6
8
10
k
51
Beispiel 4
Die W’funktionen von X ∼ B(100, p) mit p = 1/2 und p = 1/20.
0.2
P(fX = kg)
P(fX = kg)
0.1
0.05
0
0.1
0
0
20
40
60
k
80
100
0
20
40
60
80
100
k
52
Satz 5
Seien X und Y unabhängig mit X ∼ B(n, p) und Y ∼ B(m, p) für
m, n ∈ N und 0 ≤ p ≤ 1. Dann gilt
X + Y ∼ B(n + m, p).
53
Die Multinomialverteilung
Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments
mit den möglichen Ausgängen 0, . . . , m − 1.
Modellierung durch
die Parameter n, m ∈ N mit m ≥ 2 und pj ≥ 0 für j = 0, . . . , m − 1
Pm−1
mit j=0
pj = 1
sowie
unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß
P({Xi = j}) = pj
für i = 1, . . . , n und j = 0, . . . , m − 1.
Frage: Verteilung der absoluten Häufigkeiten für jeden der Ausgänge?
Bsp.: Fahranfänger mit 0, 1, 2 oder mehr als 2 Unfällen innerhalb des
ersten Jahres.
54
Setze
Sj (ω) = |{i ∈ {1, . . . , n} : Xi (ω) = j}|
für ω ∈ Ω und j = 0, . . . , m − 1 sowie
S = (S0 , . . . , Sm−1 ).
Bemerkung 6
Für j = 0, . . . , m − 1 gilt Sj ∼ B(n, pj ).
Die Zufallsvariablen S0 , . . . , Sm−1 sind i.A. nicht unabhängig.
Satz 7
Für k = (k0 , . . . , km−1 ) ∈ Nm
0 mit
P({S = k}) =
Pm−1
j=0
kj = n gilt
n!
km−1
· p k0 · · · pm−1
.
k0 ! · · · km−1 ! 0
55
Definition 8
Eine Zufallsvariable X heißt multinomialverteilt mit Parametern n und
p0 , . . . , pm−1 wie oben, falls
P({X = k}) =
n!
km−1
· p0k0 · · · pm−1
k0 ! · · · km−1 !
für alle k wie oben. Notation: X ∼ M(n, p0 , . . . , pm−1 ).
56
Die hypergeometrische Verteilung
Betrachte eine Stichprobe vom Umfang n aus einer Menge mit K
Elementen vom Typ defekt“ und N − K Elementen vom Type intakt“.
”
”
Modellierung durch
die Parameter N, K , n ∈ N mit n ≤ N und K ≤ N
sowie
die Gleichverteilung P auf Ω = {ω ⊆ {1, . . . , N} : |ω| = n}.
Frage: Verteilung der Anzahl der defekten Elemente in der Stichprobe?
Bsp.: Qualitätskontrolle.
Bemerkung 9
Satz 6.5 sichert
!
|Ω| =
N
.
n
57
Setze
X (ω) = |ω ∩ {1, . . . , K }|
für ω ∈ Ω, d.h. ω ⊆ {1, . . . , N} mit |ω| = n.
Satz 10
Für k ∈ N0 mit
n − N + K ≤ k ≤ min(n, K )
(1)
gilt
P({X = k}) =
K
k
·
N−K n−k
.
N
n
(2)
Definition 11
Eine Zufallsvariable X heißt hypergeometrisch verteilt mit Parametern
N, K , n ∈ N wie oben, falls (2) für alle k ∈ N0 mit (1) gilt. Notation:
X ∼ H(N, K , n).
58
Statistische Problemstellungen:
Gegeben N, n und k, schätze K .
Gegeben K , n und k, schätze N.
Beispiel 12
Die W’funktion von X ∼ H(100, 20, 10).
P(fX = kg)
0.4
0.2
0
0
2
4
6
8
10
k
59
Die W’funktionen von X ∼ H(100, 20, 10) (blau) und Y ∼ B(10, 1/5)
(orange).
P(fX = kg), P(fY = kg)
0.4
0.2
0
0
2
4
6
8
10
k
60
Satz 13
Seien XN ∼ H(N, KN , n) für N ∈ N, so daß
KN
∈ ]0, 1[ .
N→∞ N
lim
Dann gilt
!
lim P({XN = k}) =
N→∞
n
· p k · (1 − p)n−k
k
für alle k ∈ {0, . . . , n}, wobei p = limN→∞
KN
N .
61
Die Poisson-Verteilung
Bemerkung 14
Für alle konvergenten Folgen λ1 , λ2 , . . . ∈ R und λ = limn→∞ λn gilt
lim
n→∞
1+
λn
n
n
= exp(λ).
Satz 15 (Poissonscher Grenzwertsatz)
Seien Xn ∼ B(n, pn ) für n ∈ N, so daß
lim n · pn ∈ ]0, ∞[ .
n→∞
Dann gilt
lim P({Xn = k}) = exp(−λ) ·
n→∞
λk
k!
für alle k ∈ N0 , wobei λ = limn→∞ n · pn .
62
Bemerkung 16
Für alle λ ∈ R gilt
∞
X
λk
k=0
k!
= exp(λ).
Definition 17
Eine Zufallsvariable X heißt Poisson-verteilt mit Parameter λ > 0, falls
P({X = k}) = exp(−λ) ·
λk
k!
für alle k ∈ N0 . Notation: X ∼ Poi(λ).
Bsp.: Anzahl Anrufe in einem Call-Center an einem Tag.
63
Beispiel 18
Die W’funktionen von X ∼ Poi(λ) mit λ = 1/2 (orange) und λ = 7/2
(blau).
0.7
0.6
P(fX = kg)
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
k
64
Die W’funktionen von X ∼ B(50, 1/10) (blau) und Y ∼ Poi(5) (orange).
P(fX = kg), P(fY = kg)
0.2
0.1
0
0
5
10
15
k
65
Die geometrische Verteilung
Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments
mit zwei möglichen Ausgängen: 1 ( Erfolg“) oder 0 ( Mißerfolg“).
”
”
Modellierung durch
die Parameter n ∈ N und 0 < p ≤ 1 ( Erfolgswahrscheinlichkeit“)
”
sowie
unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß
P({Xi = 1}) = 1 − P({Xi = 0}) = p
für i = 1, . . . , n.
Frage: Verteilung des Zeitpunktes des ersten Erfolgs?
Bsp.: Wartezeit (diskret) bis zum Eintreten eines Ereignisses“.
”
66
Sei ω ∈ Ω. Setze
Tn (ω) = k ∈ {1, . . . , n},
falls
X1 (ω) = · · · = Xk−1 (ω) = 0
und Xk (ω) = 1,
und
Tn (ω) = 0,
falls
X1 (ω) = · · · = Xn (ω) = 0.
Bemerkung 19
Für n ∈ N
P({Tn = k}) = (1 − p)k−1 · p,
falls k = 1, . . . , n, und
P({Tn = 0}) = (1 − p)n .
Insbesondere limn→∞ P({Tn = 0}) = 0.
67
Bemerkung 20
Für 0 < p ≤ 1 gilt
∞
X
(1 − p)k−1 =
k=1
1
.
p
Definition 21
Eine Zufallsvariable X heißt geometrisch verteilt mit Parameter
0 < p ≤ 1, falls
P({X = k}) = (1 − p)k−1 · p
für alle k ∈ N. Notation: X ∼ Geo(p).
68
2.7. Erwartungswert und Varianz
Betrachte eine Zufallsvariable X auf einem diskreten W’raum (Ω, P).
Der Erwartungswert von X wird als gewichtetes Mittel der Funktionswerte
von X definiert.
Definition 1
Falls die Reihe
P
ω∈Ω P({ω})
· |X (ω)| konvergiert, heißt
E(X ) =
X
X (ω) · P({ω})
ω∈Ω
der Erwartungswert von X .
Bemerkung 2
Ist Ω endlich, so ist die Voraussetzung in Definition 1 für alle X erfüllt.
Andernfalls setzen wir fortan stillschweigend die erforderliche Konvergenz
voraus.
69
Beispiel 3
Sei Ω endlich, und sei P die Gleichverteilung auf Ω. Dann gilt
E(X ) =
1 X
·
X (ω).
|Ω| ω∈Ω
Speziell für Ω = {0, . . . , 36} und
(
X (ω) =
1,
−1,
falls ω ungerade,
falls ω gerade,
(Roulette, einfache Chance) ergibt sich
E(X ) = −
1
.
37
Beispiel 4
Ist X konstant gleich b, gilt E(X ) = b ·
P
ω∈Ω P({ω})
= b.
70
Frage: Wie verhalten sich Erwartungswerte unter affin-linearen
Transformationen?
Bsp.: Wechsel zwischen den Temperaturskalen Celsius“ und Fahrenheit“.
”
”
Betrachte allgemeiner Zufallsvariablen X und Y auf (Ω, P).
Satz 5 (Rechenregeln)
Es gilt
E(X + Y ) = E(X ) + E(Y )
und
E(c · X ) = c · E(X )
für alle c ∈ R. Falls
X (ω) ≤ Y (ω) für alle ω ∈ Ω,
so gilt
E(X ) ≤ E(Y ).
71
Im Folgenden sei X ⊆ R endlich oder abzählbar unendlich, so daß
X (ω) ∈ X
für alle ω ∈ Ω.
Satz 6 (Erwartungswert und Verteilung)
Für jede Funktion g : R → R gilt
E(g(X )) =
X
g(x ) · pX (x ).
x ∈X
Insbesondere hängt der Erwartungswert einer Zufallsvariable nur von ihrer
Verteilung ab.
Bemerkung 7
Obiger Satz erlaubt es vom Erwartungswert einer Verteilung zu sprechen.
72
Satz 8 (Erwartungswerte spezieller Verteilungen)
Falls X ∼ B(n, p) mit n ∈ N und 0 ≤ p ≤ 1, gilt
E(X ) = n · p.
Falls X ∼ H(N, K , n) mit N, K , n ∈ N und n ≤ N sowie K ≤ N, gilt
E(X ) =
n·K
.
N
Falls X ∼ Poi(λ) mit λ > 0, gilt
E(X ) = λ.
Falls X ∼ Geo(p) mit 0 < p ≤ 1, gilt
E(X ) =
1
.
p
73
Satz 9 (Produkte unabhängiger Zufallsvariablen)
Falls X und Y unabhängig sind, gilt
E(X · Y ) = E(X ) · E(Y ).
74
Die Varianz von X wird als mittlere quadratische Abweichung zwischen X
und E(X ) definiert. Beachte auch hier Bemerkung 2.
Definition 10
Die Varianz und die Standardabweichung von X sind definiert als
σX2 = Var(X ) = E
bzw.
σX =
q
X − E(X )
2 Var(X ).
Bemerkung 11
Satz 6 mit g(x ) = (x − E(X ))2 zeigt
Var(X ) =
X
(x − E(X ))2 · pX (x ).
x ∈X
Insbesondere hängt die Varianz einer Zufallsvariable nur von ihrer
Verteilung ab, so daß man von der Varianz einer Verteilung sprechen kann.
75
Beispiel 12
Für X ∼ B(1, p) mit 0 ≤ p ≤ 1 gilt
Var(X ) = (0 − p)2 · P({X = 0}) + (1 − p)2 · P({X = 1})
= p 2 · (1 − p) + (1 − p)2 · p = p · (1 − p).
Somit ist Var(X ) maximal für p = 1/2 und minimal für p = 0 und p = 1.
Satz 13 (Rechenregeln)
Es gilt
2
Var(X ) = E X 2 − E(X ) .
Für a, b ∈ R gilt
Var(X + a) = Var(X )
und
Var(b · X ) = b 2 · Var(X ).
Satz 14 (Summen unabhängiger Zufallsvariablen)
Falls X und Y unabhängig sind, gilt
Var(X + Y ) = Var(X ) + Var(Y ).
76
Satz 15 (Varianzen spezieller Verteilungen)
Falls X ∼ B(n, p) mit n ∈ N und 0 ≤ p ≤ 1, gilt
Var(X ) = n · p · (1 − p).
Falls X ∼ H(N, K , n) mit N, K , n ∈ N und n ≤ N, K ≤ N sowie N ≥ 2,
gilt
n · (N − n) · (N − K ) · K
Var(X ) =
.
N 2 · (N − 1)
Falls X ∼ Poi(λ) mit λ > 0, gilt
Var(X ) = λ.
Falls X ∼ Geo(p) mit 0 < p ≤ 1, gilt
Var(X ) =
1−p
.
p2
77
Betrachte wie in Abschnitt 2.5 eine Stichprobe
x1 , . . . , xN ∈ X
mit den zugehörigen relativen Häufigkeiten pb(x ) für x ∈ X.
Definition 16
Das Stichprobenmittel x (arithmetisches Mittel der Stichprobe,
empirisches Mittel) ist definiert als
N
1 X
x=
·
xi .
N i=1
Bemerkung 17
Es gilt
x=
X
1 X
·
x · |{` ∈ {1, . . . , N} : x` = x }| =
x · pb(x ).
N x ∈X
x ∈X
Somit ist x der Erwartungswert der zugehörigen empirischen W’verteilung.
78
Beispiel 18
Die Stichprobenmittel in den Beispielen 2.5.5 (blau) und 2.5.6 (orange)
sind
x ≈ 30.62 bzw. x ≈ 11.83.
0.2
0.18
relative HBau-gkeit
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0
x
7
20
x
7
40
60
80
100
120
140
160
Abverkauf
79
Gelte N ≥ 2 für den Umfang der Stichprobe.
Definition 19
Die Stichprobenvarianz (empirische Varianz) und die empirische
Standardabweichung sind definiert als
s2 =
N
X
1
·
(xi − x )2
N−1 i=1
bzw.
√
s=
s 2.
Bemerkung 20
Es gilt
N
X
1
s =
xi2 − N · x 2 .
·
N −1
i=1
!
2
Ferner ist (N − 1)/N · s 2 die Varianz der zugehörigen emp. W’verteilung.
80
Beispiel 21
Die empirischen Standardabweichungen in den Beispielen 2.5.5 (blau) und
2.5.6 (orange) sind
s ≈ 23.5 bzw. s ≈ 11.6.
0.2
0.18
relative HBau-gkeit
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-40
-20
0
20
40
60
80
100
120
140
Abverkauf - empirisches Mittel
81
3. Allgemeine Modelle
Bislang studiert: W’räume (Ω, P) und Zufallsvariablen X : Ω → X, wobei
Ω und X ⊆ R endlich oder abzählbar unendlich sind.
Im Folgenden: keinerlei Einschränkungen an Ω und X. Dann ist es i.A.
nicht mehr möglich
allen Teilmengen A ⊆ Ω eine W’keit P(A) zuzuordnen,
und insbesondere nicht
für alle Teilmengen A ⊆ R die W’keiten P({X ∈ A}) zu definieren.
Wir ignorieren dies, da die betroffenen Teilmengen für unsere Zwecke
belanglos sind.
82
3.1. Stetige Verteilungen
Grundidee: Integration statt Summation.
Definition 1
f : R → R heißt W’dichte, falls
f (x ) ≥ 0
und
für alle x ∈ R
Z ∞
f (x ) dx = 1.
−∞
Beispiel 2
Für a < b definiert
(
f (x ) =
eine W’dichte.
1
b−a ,
0,
falls x ∈ [a, b],
sonst,
83
Beispiel 3
Für λ > 0 definiert
(
f (x ) =
λ · exp(−λ · x ),
0,
falls x ≥ 0,
sonst,
eine W’dichte.
Die W’dichten f für λ = 2 (grün), λ = 1 (blau) und λ = 1/2 (orange).
2
f (x)
1.5
1
0.5
0
-1
0
1
2
3
x
4
5
6
84
Beispiel 4
Für µ ∈ R und σ > 0 definiert
(x − µ)2
f (x ) = √
· exp −
2σ 2
2πσ 2
1
!
eine W’dichte.
Die W’dichten f für µ = 0 und σ = 2 (grün), σ = 1 (blau) sowie σ = 1/2
1
(orange).
0.9
0.8
0.7
f (x)
0.6
0.5
0.4
0.3
0.2
0.1
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
x
85
Im Folgenden seien (Ω, P) ein W’raum und X : Ω → R eine Zufallsvariable.
Definition 5 (vgl. Satz 2.4.6)
X heißt stetig verteilt, falls eine W’dichte fX existiert, so daß
P({X ∈ A}) =
Z
A
fX (x ) dx
für alle“ A ⊆ R.
”
Ggf. heißt fX die Dichte von X .
Bemerkung 6
Zu den hier und im Folgenden betrachteten Mengen A gehören
insbesondere alle Intervalle und deren Komplemente.
Bemerkung 7
Sei X stetig verteilt. Dann gilt
P({X = x }) = 0
für alle x ∈ R.
86
Definition 8
X mit Dichte f = fX gemäß
Beispiel 2 heißt gleichverteilt auf [a, b].
Notation: X ∼ U(a, b).
Beispiel 3 heißt exponentialverteilt mit Parameter λ.
Notation: X ∼ Exp(λ).
Beispiel 4 heißt normalverteilt mit Parametern µ und σ 2 .
Notation: X ∼ N(µ, σ 2 ).
Im Fall µ = 0 und σ = 1 heißt X standard-normalverteilt.
87
Bemerkung 9
Gelte X ∼ Exp(λ) mit λ > 0, und seien s, t ≥ 0. Dann
P({X ≥ t}) =
Z ∞
t
λ · exp(−λx ) dx = − exp(−λ · x )|xx =∞
=t = exp(−λ · t).
Somit gilt die Gedächtnislosigkeit“
”
P({X ≥ s + t} | {X ≥ t}) =
P({X ≥ s + t})
= P({X ≥ s}).
P({X ≥ t}
Anwendung: Modellierung von Wartezeiten oder Lebensdauern.
88
Bemerkung 10
Sei
Z =σ·X +µ
mit µ ∈ R, σ > 0 und X ∼ N(0, 1). Die Substitutionsregel für Integrale
sichert
!
Z
1
(x − µ)2
P({Z ∈ A}) = √
· exp −
dx
2σ 2
2πσ 2 A
für alle“ A ⊆ R. Fazit: Z ∼ N(µ, σ 2 ).
”
89
Im Folgenden sei X stetig verteilt mit Dichte fX .
Definition 11 (vgl. Satz 2.7.6 u. Bem. 2.7.11)
Falls das Integral
R∞
−∞ |x |
· fX (x ) dx existiert, heißt
Z ∞
E(X ) =
−∞
x · fX (x ) dx
der Erwartungswert von X .
Falls das Integral
R∞
−∞ x
2
· fX (x ) dx existiert, heißen
σX2 = Var(X ) =
Z ∞
−∞
die Varianz und
σX =
(x − E(X ))2 · fX (x ) dx
q
Var(X )
die Standardabweichung von X .
Bemerkung 12
Wir setzen fortan stillschweigend die erforderliche Integrierbarkeit voraus.
90
Satz 13 (Erwartungswerte und Varianzen spezieller Verteilungen)
Falls X ∼ U(a, b) mit a < b, gilt
E(X ) =
a+b
,
2
Var(X ) =
(b − a)2
.
12
Falls X ∼ Exp(λ) mit λ > 0, gilt
E(X ) =
1
,
λ
Var(X ) =
1
.
λ2
Falls X ∼ N(µ, σ 2 ) mit µ ∈ R und σ > 0, gilt
E(X ) = µ,
Var(X ) = σ 2 .
Bemerkung 14
Die Sätze 2.7.5 und 2.7.9 über Erwartungswerte sowie 2.7.13 und 2.7.14
über Varianzen gelten auch für stetig verteilte Zufallsvariablen.
91
3.2. Allgemeine Begriffsbildung
Im Folgenden seien (Ω, P) ein W’raum und X : Ω → R eine Zufallsvariable.
Satz 1 (vgl. Satz 2.4.6)
Durch
PX (A) = P({X ∈ A})
für alle“ A ⊆ R
”
wird eine W’verteilung PX auf R definiert.
Definition 2 (vgl. Def. 2.4.7)
PX wie oben heißt die Verteilung von X .
Definition 3
X heißt diskret verteilt, falls eine endliche oder abzählbar unendliche
Menge X ⊆ R existiert, so daß
PX (X) = 1.
92
Definition 4 (vgl. Def. 2.4.9)
Zufallsvariablen X1 , X2 : Ω → R heißen identisch verteilt, falls
PX1 (A) = PX2 (A)
für alle“ A ⊆ R.
”
Bemerkung 5
Satz 2.4.11 gilt nicht für beliebige Zufallsvariablen X1 , X2 : Ω → R.
Definition 6 (vgl. Def. 2.4.14)
Zufallsvariablen X1 , . . . , Xn : Ω → R heißen unabhängig, falls für alle“
”
A1 , . . . , An ⊆ R
P
n
\
!
{Xi ∈ Ai }
i=1
=
n
Y
P({Xi ∈ Ai }).
i=1
Bemerkung 7
Satz 2.4.16 gilt nicht für beliebige Zufallsvariablen X1 , . . . , Xn : Ω → R.
93
3.3. Verteilungsfunktionen und Quantile
Im Folgenden seien (Ω, P) ein W’raum und X , Y : Ω → R Zufallsvariablen.
Definition 1
Die durch
FX (x ) = P({X ≤ x })
definierte Funktion FX : R → R heißt die Verteilungsfunktion von X .
Bemerkung 2
Für x ∈ R gilt
P({X > x }) = 1 − P({X ≤ x }) = 1 − FX (x ).
Für u, v ∈ R mit u < v gilt
P({X ∈ ]u, v ]}) = P({X ≤ v } \ {X ≤ u}) = FX (v ) − FX (u).
Satz 3 (Eindeutigkeitssatz)
Aus FX = FY folgt PX = PY .
94
Satz 4
Sei Z = c · X + d mit c > 0 und d ∈ R. Dann folgt für alle x ∈ R
FZ (x ) = FX ((x − d)/c)).
Wir betrachten zunächst stetig verteilte Zufallsvariablen.
Satz 5
Ist X stetig verteilt mit Dichte fX , so gilt für alle x ∈ R
Z x
FX (x ) =
−∞
fX (y ) dy ,
und FX ist stetig. Ist fX überdies stetig in x , so sichert der Hauptsatz der
Differential- und Integralrechnung
FX0 (x ) = fX (x ).
95
Beispiel 6
Seien a, b ∈ R mit a < b. Für Y ∼ U(a, b) gilt
FY (x ) =


0,


x − a

b−a


1,
falls x < a,
, falls a ≤ x ≤ b,
falls x > b.
Für X ∼ U(0, 1) und Z = (b − a) · X + a folgt Z ∼ U(a, b), siehe Sätze 3
und 4.
96
Beispiel 7
Für Y ∼ Exp(λ) mit λ > 0 gilt
(
FY (x ) =
0,
falls x < 0,
1 − exp(−λ · x ), falls x ≥ 0.
W’dichten und Verteilungsfunktionen für λ = 2 (grün), λ = 1 (blau) und
λ = 1/2 (orange).
2
1
0.9
0.8
1.5
FY (x)
fY (x)
0.7
1
0.6
0.5
0.4
0.3
0.5
0.2
0.1
0
-1
0
0
1
2
3
x
4
5
6
-1
0
1
2
3
4
5
6
x
Für X ∼ Exp(1) und Z = 1/λ · X gilt Z ∼ Exp(λ), siehe Sätze 3 und 4.
97
Bemerkung 8
Die Verteilungsfunktion von X ∼ N(0, 1) wird mit Φ bezeichnet; für x ∈ R
gilt also
Z x
1
Φ(x ) = √ ·
exp(−y 2 /2) dy .
2π −∞
Für x ∈ R folgt
Φ(−x ) = 1 − Φ(x ).
0.5
1
0.45
?(x)
0.4
0.35
?(y)
f (y)
0.3
0.25
0.5
0.2
0.15
0.1
?(!x)
0.05
0
0
-5
!x
0
y
x
5
-5
!x
0
y
x
5
Es gibt keine explizite Darstellung von Φ. Funktionswerte Φ(x ) werden
numerisch bestimmt und sind für x ≥ 0 tabelliert.
98
Verteilungsfunktion der Standardnormalverteilung
Φ( x) =
x
∫
−∞
1
2π
e
−1 z2
2
dz
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8461
0.8485
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
1.5
0.9332
0.9345
0.9357
0.9370
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.8
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.9
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
2.0
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
2.1
0.9821
0.9826
0.9830
0.9834
0.9838
0.9842
0.9846
0.9850
0.9854
0.9857
2.2
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.9890
2.3
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
2.4
0.9918
0.9920
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
2.5
0.9938
0.9940
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
2.6
0.9953
0.9955
0.9956
0.9957
0.9959
0.9960
0.9961
0.9962
0.9963
0.9964
2.7
0.9965
0.9966
0.9967
0.9968
0.9969
0.9970
0.9971
0.9972
0.9973
0.9974
2.8
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.9980
0.9981
2.9
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
3.0
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.9990
0.9990
3.1
0.9990
0.9991
0.9991
0.9991
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
3.2
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
3.3
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
3.4
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
99
Für die Verteilungsfunktion FZ von Z ∼ N(µ, σ 2 ) mit µ ∈ R und σ > 0 gilt
FZ (x ) = Φ
x −µ
σ
für x ∈ R, siehe Bemerkung 3.1.10 und Satz 4.
W’dichten und Verteilungsfunktionen für µ = 0 und σ = 2 (grün), σ = 1
(blau) sowie σ = 1/2 (orange).
1
1
0.9
0.9
0.8
0.8
0.7
0.7
FZ (x)
fZ (x)
0.6
0.5
0.4
0.6
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
-5
0
-4
-3
-2
-1
0
x
1
2
3
4
5
-5
-4
-3
-2
-1
0
1
2
3
4
5
x
100
Wir betrachten nun eine diskret verteilte Zufallsvariable X . Der
Einfachheit halber gelte
PX (N0 ) = 1.
Satz 9
Es gilt
pX (0) = FX (0)
sowie
pX (k) = FX (k) − FX (k − 1)
und
FX (x ) =
k
X
pX (i)
i=0
für alle k ∈ N und x ∈ [k, k + 1[.
101
Beispiel 10
W’funktion und Verteilungsfunktion für X ∼ B(6, 1/2).
0.35
1
0.9
0.3
0.8
0.7
0.2
FX (x)
P(fX = kg)
0.25
0.15
0.6
0.5
0.4
0.3
0.1
0.2
0.05
0.1
0
0
0
1
2
3
k
4
5
6
0
1
2
3
4
5
6
x
102
Beispiel 11
W’funktion und Verteilungsfunktion für X ∼ Poi(7/2).
0.3
1
0.9
0.7
FX (x)
P(fX = kg)
0.8
0.15
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0
2
4
6
k
8
10
0
2
4
6
8
10
x
103
Gegeben: Verteilungsfunktion FX und p ∈ ]0, 1[. Gesucht: q ∈ R mit
FX (q) = p.
(1)
Beispiel 12
Sei X ∼ Exp(λ) mit λ > 0. Für jedes p ∈ ]0, 1[ existiert genau ein q ∈ R
mit (1), nämlich
1
q = − · ln(1 − p).
λ
Speziell für λ = 1 und p = 3/4 gilt q = ln(4) ≈ 1.3863.
1
FX (x)
p
0.5
0
0
1
q
2
3
4
5
6
x
104
Beispiel 13
Sei X ∼ B(2, 1/2). Für p = 1/4 und für p = 3/4 existieren jeweils
unendlich viele q ∈ R mit FX (q) = p.
1
FX (x)
0.75
0.5
0.25
0
-1
-0.5
0
0.5
1
1.5
2
2.5
3
x
Für p ∈ ]0, 1[ \ {1/4, 3/4} existiert kein q ∈ R mit FX (q) = p.
105
Definition 14
Das p-Quantil q von FX (bzw. PX oder X ) ist definiert als
q = min{x ∈ R : FX (x ) ≥ p}.
Das p-Quantil mit p = 1/2 heißt Median von FX (bzw. PX oder X ).
Notation: m(X ).
Beispiel 15
Sei X ∼ Exp(λ) mit λ > 0. Dann ist das p-Quantil von FX gegeben als
q= −
1
· ln(1 − p).
λ
Beispiel 16
Sei X ∼ B(2, 1/2). Dann ist das p-Quantil von FX gegeben als
q=



0,
1,


2,
falls 0 < p ≤ 1/4,
falls 1/4 < p ≤ 3/4,
falls 3/4 < p < 1.
106
Satz 17
Für das p-Quantil q von X gilt
P({X ≤ q}) ≥ p
und P({X ≥ q}) ≥ 1 − p.
Ferner gilt
|E(X ) − m(X )| ≤ σX .
107
Betrachte wie in Abschnitt 2.5 eine Stichprobe
x1 , . . . , xn ∈ R.
Definition 18
Die empirische Verteilungsfunktion Fb : R → R ist definiert durch
Fb (x ) =
|{` ∈ {1, . . . , n} : x` ≤ x }|
.
n
Bemerkung 19
Die empirische Verteilungsfunktion ist die Verteilungsfunktion der
b
empirischen W’verteilung P.
Die angeordneten Daten
x(1) ≤ · · · ≤ x(n)
der Stichprobe erlauben die einfache Berechnung der relativen
Häufigkeiten pb(x ) und damit auch von Fb (x ) und zugehörigen Quantilen.
108
Beispiel 20
Tagesabverkauf von Speiseeis“ an zwei Tagen in denselben n = 2165
”
Märkten. Empirische Wahrscheinlichkeits- und Verteilungsfunktionen.
0.2
1
0.18
0.9
0.16
empirische Verteilungsfunktion
0.8
relative Häufigkeit
0.14
0.12
0.1
0.08
0.06
0.04
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.02
0
0
0
20
40
60
80
Abverkauf
100
120
140
160
0
20
40
60
80
Abverkauf
100
120
140
160
Die (empirischen) Mediane sind x̃ = 26 bzw. x̃ = 8. Zum Vergleich die
Stichprobenmittel x ≈ 30.62 bzw. x ≈ 11.83.
Die (empirischen) 0.95-Quantile sind x̃ = 74 bzw. x̃ = 34.
109
Bemerkung 21
Betrachte das Stichprobenmittel x und den empirischen Median
(
x̃ =
x((n+1)/2) , falls n ungerade,
x(n/2) ,
falls n gerade.
Frage: Wieviel Werte x` muß man mindestens ändern, damit x bzw. x̃
jeden beliebigen Wert annehmen kann?
Antwort:
Für x genügt ein Wert.
Aus
|{` ∈ {1, . . . , n} : a ≤ x` ≤ b}|
> 1/2
n
folgt x̃ ∈ [a, b], siehe Satz 17. Für x̃ benötigt man also mindestens
die Hälfte aller Werte.
Damit ist x̃ gegenüber Ausreißern viel robuster als x .
110
3.4. Grenzwertsätze
Betrachte Zufallsvariablen X1 , X2 , . . . auf einem W’raum (Ω, P).
Definition 1
X1 , X2 , . . . heißen unabhängig, falls X1 , . . . , Xn für jedes n ∈ N
unabhängig sind.
Im Folgenden seien X1 , X2 , . . . unabhängig und identisch verteilt (u.i.v.,
i.i.d.) mit existierendem Erwartungswert E(X1 ).
Betrachte das arithmetische Mittel
Xn =
n
1 X
·
Xi .
n i=1
Beispiel 2
X n mittlere Lebensdauer, falls X1 ∼ Exp(λ).
X n relative Anzahl von Erfolgen, falls X1 ∼ B(1, p).
111
Frage: Konvergiert für alle ω ∈ Ω die Folge der arithmetischen Mittel
X 1 (ω), X 2 (ω), . . .?
Beispiel 3
Computer-Simulation mit X1 ∼ Exp(2).
n
1
2
3
Xn (ω) 0.3410 0.9477 0.4283
X n (ω) 0.3410 0.6444 0.5732
10
100
1000
0.4982
0.4716
0.5027
X n (!)
0.75
0.5
0.25
0
200
400
600
n
800
1000
112
Satz 4 (Starkes Gesetz der großen Zahlen für Erwartungswerte)
Für die Menge K ⊆ Ω aller ω ∈ Ω mit
n
1 X
·
Xi (ω) = E(X1 )
n→∞ n
i=1
lim
gilt
P(K ) = 1.
P
Sprechweise: n1 · ni=1 Xi konvergiert mit W’keit eins gegen E(X1 )“.
”
113
Für B ⊆ R und i ∈ N betrachten wir die Indikatorvariable
(
1, falls Xi ∈ B,
0, falls Xi 6∈ B.
1B (Xi ) =
Bemerkung 5
Für alle“ B ⊆ R ist die Folge 1B (X1 ), 1B (X2 ), . . . unabhängig und
”
identisch verteilt mit 1B (X1 ) ∼ B(1, p), wobei
p = P({X1 ∈ B}).
Insbesondere gilt E(1B (X1 )) = p.
Satz 6 (Starkes Gesetz der großen Zahlen für W’keiten)
Für alle“ B ⊆ R konvergiert
”
1
n
·
Pn
i=1 1B (Xi )
mit W’keit eins gegen p.
114
Beispiel 7
Computer-Simulation mit X1 ∼ Exp(2) und B = [1, ∞[.
p
1
n
Pn
i=1
1B (Xi (!))
0.2
0
0
200
400
600
800
1000
n
Es gilt p ≈ 0.1353.
115
Bemerkung 8
Betrachte die empirische Verteilungsfunktion
Fbn (·, ω) : R → R
zu den Realisierungen X1 (ω), . . . , Xn (ω). Für x ∈ R und B = ]−∞, x ] gilt
n
1 X
|{i ∈ {1, . . . , n} : Xi (ω) ≤ x }|
= ·
1B (Xi (ω)).
Fbn (x , ω) =
n
n
i=1
Satz 9 (Starkes Gesetz der großen Zahlen für Verteilungsfunktionen)
Für alle x ∈ R konvergiert Fbn (x , ·) mit W’keit eins gegen FX1 (x ).
Bemerkung 10
Es gilt sogar mit W’keit eins die gleichmäßige Konvergenz (Hauptsatz der
Statistik).
116
Beispiel 11
Computer-Simulation mit X ∼ Exp(2) für n = 50 (orange) und n = 100
(grün). Verteilungsfunktion FX in blau.
1
0.9
0.8
F^n (x; !)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.5
0
0.5
1
1.5
2
2.5
3
x
117
Das starke Gesetz der großen Zahlen behandelt die
Konvergenz von Ergebnissen von Zufallsexperimenten.
Wie in den Sätzen 2.6.13 und 2.6.15 untersuchen wir nun die
Konvergenz von Wahrscheinlichkeiten in stochastischen Modellen.
118
Im Folgenden setzen wir die Existenz der Varianz von X1 voraus und
nehmen σX2 1 > 0 an. Setze
µ = E(X1 )
und σ = σX1 .
Betrachte die standardisierten Summenvariablen
√ n
X
Xi − µ
n
∗
√
Xn =
=
· Xn − µ .
n·σ
σ
i=1
Bemerkung 12
Sei Yi,n =
Xi −µ
√
.
n·σ 2
Für alle n ∈ N gilt
Y1,n , . . . , Yn,n sind unabhängig und identisch verteilt,
E(Yi,n ) = 0 und Var(Yi,n ) = 1/n.
Es folgt
∗
E(X n ) = 0
und
∗
Var(X n ) = 1.
Beachte
X n − µ konvergiert mit W’keit eins gegen null,
√
aber limn→∞ n/σ = ∞.
119
Frage: Konvergiert für alle“ A ⊆ R die Folge der Wahrscheinlichkeiten
”
∗
∗
P({X 1 ∈ A}), P({X 2 ∈ A}), . . .?
Beispiel 13
Für X1 ∼ Exp(2) und A = [1, 2]
n
∗
P({X n ∈ A})
1
2
3
10
100
1000
0.0855
0.0986
0.1049
0.1185
0.1304
0.1342
Für X1 ∼ B(1, 1/10) und A = [1, 2]
n
∗
P({X n ∈ A})
1
2
3
10
100
1000
0.0000
0.0000
0.0000
0.3487
0.1093
0.1351
120
Satz 14 (Zentraler Grenzwertsatz)
Für jedes Intervall A ⊆ R gilt
1
∗
lim P({X n ∈ A}) = √ ·
n→∞
2π
Z
exp(−x 2 /2) dx .
A
Insbesondere gilt für alle x ∈ R
∗
lim P({X n ≤ x }) = Φ(x ).
n→∞
Sprechweisen:
∗
X n ist asymptotisch standardnormalverteilt,
X n ist asymptotisch N(µ, σ 2 /n)-verteilt,
Pn
i=1 Xi
ist asymptotisch N(n · µ, n · σ 2 )-verteilt.
121
Beispiel 15
∗
Dichten und Verteilungsfunktionen von X n für X1 ∼ Exp(2).
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
n
FX $ (x)
n
fX $ (x)
n=1
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
122
n=2
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
123
n=3
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
124
n=4
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
125
n=5
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
126
n=6
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
127
n=7
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
128
n=8
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
129
n=9
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
130
n = 10
0.6
1
0.9
0.5
0.8
0.7
0.4
n
FX $ (x)
n
fX $ (x)
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
0
-5
0
x
5
0
-5
0
5
x
131
Beispiel 16 (vgl. Übung 5.2)
Gegeben: K ∈ N und 0 < p, α < 1. Gelte X1 ∼ B(1, p). Gesucht: n > K ,
so daß
n
X
P
Xi > K
≈ α.
i=1
Es gilt
nP
n
i=1 Xi > K
o
∗
= X n > cn ( Standardisieren“) mit
”
q
cn = (K − n · p)/ n · p · (1 − p).
Der zentrale Grenzwertsatz zeigt
P
X
n
Xi > K
≈ 1 − Φ(cn ).
i=1
Fazit: Wähle n > K , so daß 1 − Φ(cn ) ≈ α, d.h.
cn ≈ Φ−1 (1 − α).
132
Für K = 555, p = 0.98 und α = 0.01 ergibt sich cn ≈ 2.33 und
n ≈ 558.
Hiermit gilt
E max
n
X
i=1
Xi − K , 0
≤3·P
n
nX
Xi > K
o
≈ 0.03.
i=1
133
Beispiel 17
Standardisierter Prognosefehler für Bananen“, Stichprobengröße
”
n = 116435
0.025
relative Häufigkeit
0.02
0.015
0.01
0.005
0
-4
-3
-2
-1
0
1
standardisierter Prognosefehler
2
3
4
134
Anwendung
stochastisches Modell
Zufallsexperiment
Zufallsvariable X auf W’raum
(Ω, P)
n unabhängige Wiederholungen
des Zufallsexperimentes
X1 , . . . , Xn unabhängig,
PX = PX1 = · · · = PXn
Daten x1 , . . . , xn
Realisierung X1 (ω), . . . , Xn (ω)
relative Häufigkeit
1
n · |{i ∈ {1, . . . , n} : xi ∈ A}|
Wahrscheinlichkeit P({X ∈ A})
empirisches Mittel
1
n
Pn
i=1 xi
emp. Verteilungsfunktion
1
n · |{i ∈ {1, . . . , n} : xi ≤ x }|
Erwartungswert E(X )
Verteilungsfunktion FX (x )
135
4. Schätzung von Verteilungsparametern
Betrachte ein Zufallsexperiment, beschrieben durch
eine Zufallsvariable X : Ω → R,
deren
Verteilung PX = PXϑ nur bis auf einen Parameter ϑ ∈ Θ bekannt
ist.
Bestimme die Verteilung PX , d.h. den unbekannten Parameter ϑ.
Verfügbar ist eine Stichprobe
x1 , . . . , xn ∈ R,
die als Realisierung von unabhängigen, identisch wie X verteilten
Zufallsvariablen
X1 , . . . , Xn
angesehen wird.
136
Beispiel 1
X ∼ B(m, p) mit bekanntem m ∈ N und mit
p = ϑ ∈ Θ = [0, 1].
Beachte, daß
ϑ=
1
· E(X ).
m
Beispiel 2
X ∼ H(N, K , m) mit bekannten N ∈ N und m ∈ {1, . . . , N} und mit
K = ϑ ∈ Θ = {0, . . . , N}.
Beachte, daß
ϑ=
N
· E(X ).
m
137
Beispiel 3
X ∼ Poi(λ) mit
λ = ϑ ∈ Θ = ]0, ∞[ .
Beachte, daß
ϑ = E(X ).
Beispiel 4
X ∼ Exp(λ) mit
λ = ϑ ∈ Θ = ]0, ∞[ .
Beachte, daß
ϑ=
1
.
E(X )
Bemerkung 5
In obigen Beispielen ist im wesentlichen E(X ) zu bestimmen.
138
Beispiel 6
X ∼ N(µ, σ 2 ) mit bekanntem σ > 0 und mit
µ = ϑ ∈ Θ = R.
Beachte, daß
ϑ = E(X ).
Beispiel 7
X ∼ N(µ, σ 2 ) mit
(µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ .
Beachte, daß
ϑ = E(X ),
q
Var(X ) .
139
4.1. Punktschätzung
Notation: Eϑ Erwartungswert und Varϑ Varianz, falls PX = PXϑ .
Problemstellung: Schätzung des Erwartungswertes oder der Varianz
Eϑ (X ) bzw.
Varϑ (X ).
Allgemein: Schätzung von γ(ϑ) mit einer bekannten Funktion γ : Θ → R.
Definition 1
Eine Funktion
gn : Rn → R
heißt Schätzfunktion, und gn (X1 , . . . , Xn ) heißt die zugehörige
Schätzvariable. Funktionswerte gn (x1 , . . . , xn ) heißen Schätzwerte.
Frage: Gütekriterien für Schätzfunktionen gn ?
140
Definition 2
Der Bias von gn ist
biasϑ (gn ) = Eϑ (gn (X1 , . . . , Xn )) − γ(ϑ).
gn heißt erwartungstreu, falls für jedes ϑ ∈ Θ
biasϑ (gn ) = 0.
Eine Folge g1 , g2 , . . . heißt stark konsistent, falls gn (X1 , . . . , Xn ) für
jedes ϑ ∈ Θ mit W’keit eins gegen γ(ϑ) konvergiert.
Der mittlere quadratische Fehler (mean squared error) von gn ist
mseϑ (gn ) = Eϑ
gn (X1 , . . . , Xn ) − γ(ϑ)
2 .
Bemerkung 3
Für jede Schätzfunktion gn und jedes ϑ ∈ Θ gilt
2
mseϑ (gn ) = Varϑ gn (X1 , . . . , Xn ) + biasϑ (gn )
.
141
1. Fall: Schätzung des Erwartungswertes γ(ϑ) = Eϑ (X ). Betrachte das
empirische Mittel
n
1 X
xi .
gn (x1 , . . . , xn ) = x n = ·
n i=1
Satz 4
gn ist erwartungstreu, und g1 , g2 , . . . ist stark konsistent. Ferner gilt
mseϑ (gn ) =
1
· Varϑ (X ).
n
Beispiel 5
Gelte X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1]. Dann
mseϑ (gn ) =
1
· ϑ · (1 − ϑ).
n
Gelte X ∼ Exp(λ) mit λ = ϑ ∈ Θ = ]0, ∞[. Dann
mseϑ (gn ) =
1 1
· .
n ϑ2
142
Beispiel 6
Gelte X ∼ N(µ, 1) mit µ = ϑ ∈ Θ = R.
Eine Computer-Simulation mit µ = 2 und n = 10 liefert die Daten
i
xi
1
2.5377
2
3.8339
3
−0.2588
i
xi
6
0.6923
7
1.5664
8
2.3426
4
2.8622
9
5.5784
5
2.3188
10
.
4.7694
Es gilt
x 10 = 2.6243.
143
Für n = 10 und n = 50 die Verteilungsfunktion von N(x n , 1) (orange) und
die empirische Verteilungsfunktion (grün).
Zum Vergleich die Verteilungsfunktion von N(2, 1) (blau).
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
-1
0
0
1
2
3
x
4
5
6
-1
0
1
2
3
4
5
6
x
144
Satz 7 (Optimalität des emp. Mittels)
Gelte X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1], und sei hn eine weitere
erwartungstreue Schätzfunktion. Dann gilt
mseϑ (gn ) ≤ mseϑ (hn )
für jedes ϑ ∈ Θ.
145
2. Fall: Schätzung der Varianz γ(ϑ) = σ 2 (ϑ). Gelte n ≥ 2. Betrachte
die empirische Varianz
n 2
X
1
gn (x1 , . . . , xn ) = sn2 =
·
xi − x n
n − 1 i=1
n
X
2
1
.
·
xi2 − n x n
=
n−1
i=1
!
Satz 8
gn ist erwartungstreu, und g2 , . . . ist stark konsistent.
Beweis der Erwartungstreue: Verwende


n
2 X
Eϑ  Xi2  = n · Eϑ (X 2 ) = n · Varϑ (X ) + Eϑ (X )
i−1
und
2
Eϑ X n = Varϑ X n + Eϑ X n
2
=
2
1
· Varϑ (X ) + Eϑ (X ) .
n
146
4.2. Intervallschätzung
Setze x = (x1 , . . . , xn ) und X = (X1 , . . . , Xn ).
Gesucht:
ein Intervall [an (x), bn (x)], in dem γ(ϑ) mit hoher W’keit liegt,
statt
eines Punktes gn (x) als Schätzwert für γ(ϑ).
Definition 1
Sei α ∈ ]0, 1[. Funktionen
an , bn : Rn → R
definieren ein Konfidenzintervall zum Niveau 1 − α, falls
Pϑ
n
o
γ(ϑ) ∈ [an (X), bn (X)]
≥1−α
für alle ϑ ∈ Θ.
Ziel: Konfidenzintervalle mit möglichst kleiner“ Länge bn (X) − an (X).
”
147
1. Fall: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, mit µ = ϑ ∈ Θ = R und
γ(ϑ) = ϑ = Eϑ (X ).
Satz 2
2
Sind
X1 , . . . , X
n unabhängig und jeweils N(µ, σ )-verteilt mit σ > 0, so ist
√
n
σ · X n − µ N(0, 1)-verteilt.
Satz 3
Sei
q1−α/2 = Φ−1 (1 − α/2)
das (1 − α/2)-Quantil von N(0, 1). Dann definieren
σ
σ
an (x) = x n − q1−α/2 · √ , bn (x) = x n + q1−α/2 · √
n
n
ein Konfidenzintervall zum Niveau 1 − α.
148
Beispiel 4
Computer-Simulation von 20 Konfidenzintervallen mit α = 0.05,
unabhängig erzeugt“, für X ∼ N(µ, 1) mit µ = 2 und n = 10 sowie
”
n = 100.
3.5
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
5
10
15
20
0
5
10
15
20
Der Anteil von Konfidenzintervallen, die den Parameter ϑ = µ nicht
enthalten, beträgt 0.05 bzw. 0.1.
149
2. Fall: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ und
γ(ϑ) = µ = Eϑ (X ).
Ferner sei n ≥ 2. Setze
v
u
u
Sn = t
n
X
1
·
(Xi − X n )2 .
n − 1 i=1
Satz 5
2
Sind X1 , . . . , Xn unabhängig
und
jeweils N(µ, σ )-verteilt mit σ > 0, so
√
n
hängt die Verteilung von Sn · X n − µ nur von n (und nicht von µ oder
σ) ab.
Definition 6
Obige Verteilung heißt t-Verteilung mit n − 1 Freiheitsgraden. Notation:
t(n − 1).
150
Bemerkung 7
t(n − 1) besitzt eine symmetrische, strikt positive Dichte.
Für die Verteilungsfunktion Fn−1 von t(n − 1) folgt
Fn−1 (−x ) = 1 − Fn−1 (x ) für alle x ∈ R,
Fn−1 (x ) = p ist für alle p ∈ ]0, 1[ eindeutig lösbar,
−1
−1
Fn−1
(1 − p) = −Fn−1
(p) für alle p ∈ ]0, 1[.
−1
Es gibt keine explizite Darstellung von Fn−1 oder Fn−1
.
Funktionswerte von Fn−1 und Quantile werden numerisch bestimmt und
sind tabelliert.
151
γ-Quantile der tn-Verteilung
n
0.90
0.95
γ
0.975
0.99
0.995
1
2
3
4
5
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
6
7
8
9
10
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
11
12
13
14
15
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
16
17
18
19
20
1.337
1.333
1.330
1.328
1.325
1.746
1.740
1.734
1.729
1.725
2.120
2.110
2.101
2.093
2.086
2.583
2.567
2.552
2.539
2.528
2.921
2.898
2.878
2.861
2.845
21
22
23
24
25
1.323
1.321
1.319
1.318
1.316
1.721
1.717
1.714
1.711
1.708
2.080
2.074
2.069
2.064
2.060
2.518
2.508
2.500
2.492
2.485
2.831
2.819
2.807
2.797
2.787
26
27
28
29
1.315
1.314
1.313
1.311
1.282
1.706
1.703
1.701
1.699
1.645
2.056
2.052
2.048
2.045
1.960
2.479
2.473
2.467
2.462
2.326
2.779
2.771
2.763
2.756
2.576
∞
Die letzte Zeile „∞“ enthält die Quantile der Standardnormalverteilung und gilt in guter Näherung für die
tn -Verteilung mit n ≥ 30.
152
Satz 8
Sei q1−α/2 das (1 − α/2)-Quantil von t(n − 1). Dann definieren
sn
an (x) = x n − q1−α/2 · √ ,
n
sn
bn (x) = x n + q1−α/2 · √
n
ein Konfidenzintervall zum Niveau 1 − α.
153
Beispiel 9
Computer-Simulation von 20 Konfidenzintervallen mit α = 0.05,
unabhängig erzeugt“, für X ∼ N(µ, σ 2 ) mit µ = 2, σ = 1 und n = 10
”
sowie n = 100.
3.5
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
5
10
15
20
0
5
10
15
20
Der Anteil von Konfidenzintervallen, die den Parameter ϑ = µ nicht
enthalten, beträgt 0.05 bzw. 0.1.
154
3. Fall: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ und
γ(ϑ) = σ 2 = Varϑ (X ).
Ferner sei n ≥ 2.
Satz 10
Sind X1 , . . . , Xn unabhängig und jeweils N(µ, σ 2 )-verteilt mit σ > 0, hängt
die Verteilung von n−1
· Sn2 nur von n (und nicht von µ oder σ) ab.
σ2
Definition 11
Obige Verteilung heißt χ2 -Verteilung mit n − 1 Freiheitsgraden. Notation:
χ2 (n − 1).
155
Bemerkung 12
Es gibt keine einfache Darstellung der Verteilungsfunktion von χ2 (n − 1).
Funktionswerte der Verteilungsfunktion und Quantile werden numerisch
bestimmt und sind tabelliert.
156
γ-Quantile der χ n2 -Verteilung
0.05
γ
0.90
0.95
0.975
0.99
0.995
0.001
0.051
0.216
0.484
0.831
0.004
0.103
0.352
0.711
1.145
2.706
4.605
6.251
7.779
9.236
3.841
5.991
7.815
9.488
11.070
5.024
7.378
9.348
11.143
12.833
6.635
9.210
11.345
13.277
15.086
7.879
10.597
12.838
14.860
16.750
0.872
1.239
1.646
2.088
2.558
1.237
1.690
2.180
2.700
3.247
1.635
2.167
2.733
3.325
3.940
10.645
12.017
13.362
14.684
15.987
12.592
14.067
15.507
16.919
18.307
14.449
16.013
17.535
19.023
20.483
16.812
18.475
20.090
21.666
23.209
18.548
20.278
21.955
23.589
25.188
2.603
3.074
3.565
4.075
4.601
3.053
3.571
4.107
4.660
5.229
3.816
4.404
5.009
5.629
6.262
4.575
5.226
5.892
6.571
7.261
17.275
18.549
19.812
21.064
22.307
19.675
21.026
22.362
23.685
24.996
21.920
23.337
24.736
26.119
27.488
24.725
26.217
27.688
29.141
30.578
26.757
28.300
29.819
31.319
32.801
16
17
18
19
20
5.142
5.697
6.265
6.844
7.434
5.812
6.408
7.015
7.633
8.260
6.908
7.564
8.231
8.907
9.591
7.962
8.672
9.390
10.117
10.851
23.542
24.769
25.989
27.204
28.412
26.296
27.587
28.869
30.144
31.410
28.845
30.191
31.526
32.852
34.170
32.000
33.409
34.805
36.191
37.566
34.267
35.718
37.156
38.582
39.997
21
22
23
24
25
8.034
8.643
9.260
9.886
10.520
8.897
9.542
10.196
10.856
11.524
10.283
10.982
11.689
12.401
13.120
11.591
12.338
13.091
13.848
14.611
29.615
30.813
32.007
33.196
34.382
32.671
33.924
35.172
36.415
37.652
35.479
36.781
38.076
39.364
40.646
38.932
40.289
41.638
42.980
44.314
41.401
42.796
44.181
45.559
46.928
26
27
28
29
30
11.160
11.808
12.461
13.121
13.787
12.198
12.879
13.565
14.256
14.953
13.844
14.573
15.308
16.047
16.791
15.379
16.151
16.928
17.708
18.493
35.563
36.741
37.916
39.087
40.256
38.885
40.113
41.337
42.557
43.773
41.923
43.195
44.461
45.722
46.979
45.642
46.963
48.278
49.588
50.892
48.290
49.645
50.993
52.336
53.672
40
50
60
70
80
90
100
20.707
27.991
35.534
43.275
51.172
59.196
67.328
22.164
29.707
37.485
45.442
53.540
61.754
70.065
24.433
32.357
40.482
48.758
57.153
65.647
74.222
26.509 51.805 55.758 59.342 63.691 66.766
34.764 63.167 67.505 71.420 76.154 79.490
43.188 74.397 79.082 83.298 88.379 91.952
51.739 85.527 90.531 95.023 100.425 104.215
60.391 96.578 101.879 106.629 112.329 116.321
69.126 107.565 113.145 118.136 124.116 128.299
77.929 118.498 124.342 129.561 135.807 140.169
n
0.005
0.01
0.025
–5
–4
4⋅10 1.6⋅10
0.010
0.020
0.072
0.115
0.207
0.297
0.412
0.554
6
7
8
9
10
0.676
0.989
1.344
1.735
2.156
11
12
13
14
15
1
2
3
4
5
157
Satz 13
Seien q1−α/2 und qα/2 das das (1 − α/2)-Quantil bzw. das (α/2)-Quantil
von χ2 (n − 1). Dann definieren
an (x) =
n−1
· s 2,
q1−α/2 n
bn (x) =
n−1 2
·s
qα/2 n
ein Konfidenzintervall zum Niveau 1 − α.
158
4. Fall: PX = PXϑ mit ϑ ∈ Θ und
γ(ϑ) = Eϑ (X ).
Es gelte Varϑ (X ) > 0 für alle ϑ ∈ Θ.
Satz 14 (asymptotische Konfidenzintervalle)
Sei
q1−α/2 = Φ−1 (1 − α/2)
das (1 − α/2)-Quantil von N(0, 1). Ferner seien
sn
an (x) = x n − q1−α/2 · √ ,
n
sn
bn (x) = x n + q1−α/2 · √ .
n
Dann gilt für alle ϑ ∈ Θ
lim P ϑ
n→∞
n
o
Eϑ (X ) ∈ [an (X), bn (X)]
= 1 − α.
159
Beispiel 15
Geschlecht eines Neugeborenen. Also X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1].
Empirische Daten aus einer Stichprobe der Größe
n = 25 171 123.
Das empirische Mittel und die empirische Varianz sind
xn =
12 241 392
= 0.486326 . . .
25 171 123
bzw.
sn2 = 0.2498 . . .
Als asymptotisches Konfidenzintervall für α = 0.001 erhält man
[an (x), bn (x)] = [x n − 3.27 · 10−4 , x n + 3.27 · 10−4 ]
= [0.4859 . . . , 0.4866 . . . ]
160
5. Statistische Entscheidungsverfahren
Betrachte ein Zufallsexperiment, beschrieben durch
eine Zufallsvariable X : Ω → R,
deren
Verteilung PX unbekannt ist.
Entscheide zwischen
einer Hypothese H0 über PX und
einer Alternative H1 .
Verfügbar ist eine Stichprobe
x1 , . . . , xn ∈ R,
die als Realisierung von unabhängigen, identisch wie X verteilten
Zufallsvariablen
X1 , . . . , Xn
angesehen wird.
161
Fehler 1. Art: H0 ist korrekt, wird aber verworfen.
Fehler 2. Art: H1 ist korrekt, aber H0 wird nicht verworfen.
Formal: PX = PXϑ mit unbekanntem Parameter ϑ ∈ Θ,
Hypothese: ϑ ∈ Θ0 mit Θ0 ⊆ Θ,
Alternative: ϑ ∈ Θ1 mit Θ1 = Θ \ Θ0 .
Beispiel 1
Geschlecht eines Neugeborenen (Mädchen (1), Junge (0)).
H0 : PXϑ ∼ B(1, p) mit p = ϑ ∈ Θ0 = [0, 1/2[ ( Eine Jungengeburt ist
”
wahrscheinlicher als eine Mädchengeburt“),
H1 : PXϑ ∼ B(1, p) mit p = ϑ ∈ Θ1 = [1/2, 1].
Stichprobe: Geschlecht bei n Geburten.
162
Naheliegende Entscheidungsregel mit geeigneter Wahl eines kritischen
Wertes 0 ≤ ckrit < n: Verwirf H0 genau dann, wenn
n
X
xi > ckrit .
i=1
Erinnerung: Falls X ∼ B(1, p), gilt Yn ∼ B(n, p) für Yn =
Pn
i=1 Xi .
Ziel: Gegeben ε > 0 wähle ckrit , so daß die W’keiten für die Fehler 1. und
2. Art höchstens ε betragen, d.h.
P({Yn > ckrit }) ≤ ε für jedes p < 1/2 und
P({Yn ≤ ckrit }) ≤ ε für jedes p ≥ 1/2.
Es gilt:
Unter H0 kann P({Yn > ckrit }) beliebig nah an P({Z > ckrit }) mit
Z ∼ B(n, 1/2) liegen.
Unter H1 kann P({Yn ≤ ckrit }) gleich P({Z ≤ ckrit }) sein.
Dilemma: P({Z > ckrit }) + P({Z ≤ ckrit }) = 1, so daß das Ziel für kein
ε < 1/2 erreichbar ist.
163
Die Werte der Verwerfungswahrscheinlichkeiten P({Yn > ckrit }) als
Funktion von p für n = 11 und ckrit = 1/2 · n bzw. ckrit = 3/4 · n.
1
1
Fehler 2. Art
0.9
0.8
0.8
0.7
0.7
P (fYn > ckrit g)
P (fYn > ckrit g)
0.9
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
Fehler 1. Art
0
0
0
0.5
H0
p
1
H1
0
0.5
H0
p
1
H1
164
Deshalb: Zu gegebenem α ∈ ]0, 1[ bestimmt man ckrit , so daß
P({Z > ckrit }) ≤ α und
P({Z ≤ ckrit }) möglichst klein.
Lösung: ckrit ist das (1 − α)-Quantil von B(n, 1/2).
Die Werte von P({Yn > ckrit }) als Funktion von p für n = 11 und
ckrit = 3/4 · n bzw. n = 104 und ckrit = 0.5082 · n.
1
0.9
0.8
0.8
0.7
0.7
P (fYn > ckrit g)
P (fYn > ckrit g)
1
0.9
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0
0.5
H0
p
1
H1
0
0.5
H0
p
1
H1
165
Definition 2
Ein statistischer Test ist gegeben durch eine Teststatistik
Tn = gn (X1 , . . . , Xn )
mit gn :
Rn
→ R und einen Verwerfungsbereich
Vn ⊆ R.
Entscheidungsregel: Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) ∈ Vn .
Definition 3
Ein Test wie oben heißt Signifikanztest zum Niveau α ∈ ]0, 1[, falls für
alle ϑ ∈ Θ0
P ϑ ({Tn ∈ Vn }) ≤ α.
Beispiel 4
In Bsp. 1
gn (x ) =
Pn
i=1 xi
und Vn = ]ckrit , ∞[,
das (1 − α)-Quantil ckrit von B(n, 1/2) definiert einen Signifikanztest
zum Niveau α.
166
Bemerkung 5
Beachte die ungleiche Behandlung von Fehlern 1. und 2. Art bei
Signifikanztests.
Man wählt Hypothese und Alternative derart, daß ein Fehler 1. Art die
schwerwiegendere Fehlentscheidung ist.
Beispiel 6
Füllmengenkontrolle mit der Hypothese, daß die Mindestfüllmenge nicht
eingehalten wird.
Bemerkung 7
Mit Blick auf die W’keit für Fehler 2. Art sucht man bei gegebenem
Niveau Signifikanztest mit möglichst großem“ Verwerfungsbereich.
”
167
5.1. Tests unter Normalverteilungsannahmen
Zweiseitiger Gauß-Test
Für µ0 ∈ R und σ > 0 ist zu entscheiden, ob
H0 : X ∼ N(µ0 , σ 2 ) oder
H1 : X ∼ N(µ, σ 2 ) mit µ 6= µ0 .
Formal: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, µ = ϑ ∈ Θ = R, Θ0 = {µ0 }.
Satz 1
Sei q1−α/2 das (1 − α/2)-Quantil von N(0, 1), und sei
gn (x1 , . . . , xn ) =
x n − µ0
√ .
σ/ n
Dann definiert die Entscheidungsregel
Verwirf H0 genau dann, wenn |gn (x1 , . . . , xn )| > q1−α/2
einen Signifikanztest zum Niveau α.
168
Einseitiger Gauß-Test
Für µ0 ∈ R und σ > 0 ist zu entscheiden, ob
H0 : X ∼ N(µ, σ 2 ) mit µ ≤ µ0 (µ < µ0 ) oder
H1 : X ∼ N(µ, σ 2 ) mit µ > µ0 (µ ≥ µ0 ).
Formal: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, µ = ϑ ∈ Θ = R,
Θ0 = ]−∞, µ0 ].
Satz 2
Sei q1−α das (1 − α)-Quantil von N(0, 1), und sei
gn (x1 , . . . , xn ) =
x n − µ0
√ .
σ/ n
Dann definiert die Entscheidungsregel
Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α
einen Signifikanztest zum Niveau α.
169
Beispiel 3
Füllmengenkontrolle mit
Mindestfüllmenge µ0 = 5 und
bekannter Standardabweichung σ = 0.1.
Der Produzent will zum
Niveau α = 0.01
belegen, daß die Mindestfüllmenge eingehalten wird.
Modell
X ∼ N(µ, σ 2 ) mit µ = ϑ ∈ Θ = R,
X1 , . . . , Xn unabhängig identisch wie X verteilt.
Hypothese und Alternative
H0 : µ < µ0 ,
H1 : µ ≥ µ 0 .
Teststatistik
gn (X1 , . . . , Xn ) =
X n − µ0
√ .
σ/ n
170
Eine Stichprobe vom
Umfang n = 20
liefert das
empirische Mittel x 20 = 5.07.
Es gilt also
g20 (x1 , . . . , x20 ) =
√
20 ·
5.07 − 5
≈ 3.130
0.1
und q0.99 ≈ 2.326.
Die Hypothese µ < µ0 wird somit verworfen.
Für obige Werte von µ0 , σ, α und n wird die Hypothese µ < µ0 genau
dann verworfen, wenn
0.01
x n ≥ 5 + √ · q0.99 ≈ 5.005.
20
171
Beispiel 4
Betrachte bei gleichen Parametern die Hypothese µ ≥ µ0 . Diese wird
genau dann verworfen, wenn
0.01
x n ≤ 5 − √ · q0.99 ≈ 4.994.
20
172
Nun: Normalverteilungen mit unbekannter Varianz.
Im Folgenden gelte n ≥ 2.
Zweiseitiger t-Test
Für µ0 ∈ R ist zu entscheiden, ob
H0 : X ∼ N(µ0 , σ 2 ) mit σ > 0 oder
H1 : X ∼ N(µ, σ 2 ) mit µ 6= µ0 und σ > 0.
Formal: X ∼ N(µ, σ 2 ) mit
(µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ ,
Θ0 = {µ0 } × ]0, ∞[ .
Bemerkung 5
Unter H0 ist
X n −µ
√0
Sn / n
t-verteilt mit n − 1 Freiheitsgraden, siehe Satz 4.1.5.
173
Satz 6
Sei q1−α/2 das (1 − α/2)-Quantil von t(n − 1), und sei
gn (x1 , . . . , xn ) =
x n − µ0
√ .
sn / n
Dann definiert die Entscheidungsregel
Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α/2
einen Signifikanztest zum Niveau α.
174
Einseitiger t-Test
Für µ0 ∈ R ist zu entscheiden, ob
H0 : X ∼ N(µ, σ 2 ) mit µ ≤ µ0 (µ < µ0 ) und σ > 0 oder
H1 : X ∼ N(µ, σ 2 ) mit µ > µ0 (µ ≥ µ0 ) und σ > 0.
Formal: X ∼ N(µ, σ 2 ) mit
(µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ ,
Θ0 = ]−∞, µ0 ] × ]0, ∞[ .
Satz 7
Sei q1−α das (1 − α)-Quantil von t(n − 1), und sei
gn (x1 , . . . , xn ) =
x n − µ0
√ .
sn / n
Dann definiert die Entscheidungsregel
Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α
einen Signifikanztest zum Niveau α.
175
Beispiel 8
Füllmengenkontrolle mit
Mindestfüllmenge µ0 = 5 und
und unbekannter Standardabweichung.
Der Produzent will zum
Niveau α = 0.01
belegen, daß die Mindestfüllmenge eingehalten wird.
Modell
X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[,
X1 , . . . , Xn unabhängig identisch wie X verteilt.
Hypothese und Alternative
H0 : µ < µ0 ,
H1 : µ ≥ µ 0 .
Teststatistik
gn (X1 , . . . , Xn ) =
X n − µ0
√ .
Sn / n
176
Eine Stichprobe vom
Umfang n = 20
liefert das
empirische Mittel x 20 = 5.07
und die
empirische Standardabweichung s 20 = 0.124.
Es gilt also
g20 (x1 , . . . , x20 ) =
√
20 ·
5.07 − 5
≈ 2.524
0.124
und q0.99 ≈ 2.539.
Die Hypothese µ < µ0 wird somit nicht verworfen.
177
5.2. Anpassungstests
Im Folgenden sei m ∈ N mit m ≥ 2, und X sei diskret verteilt mit Werten
in {0, . . . , m − 1} (nominale Skala, m mögliche Werte). Für die verfügbare
Stichprobe gilt also
x1 , . . . , xn ∈ {0, . . . , m − 1}.
Notation, vgl. W’funktionen,
n
P = (p0 , . . . , pm−1 ) ∈ Rm : p0 , . . . , pm−1 ≥ 0,
m−1
X
o
pj = 1 ,
j=0
pX = (PX ({0}), . . . , PX ({m − 1})) ∈ P.
Für p ∈ P ist zu entscheiden, ob
H0 : pX = p oder
H1 : pX = p̃ mit p̃ ∈ P \ {p}.
178
Beispiel 1
Ist ein Würfel fair? Sind m Artikel gleichattraktiv?
Hier gilt
p(0) = (1/m, . . . , 1/m),
und die Stichprobe besteht aus n Ergebnissen beim Würfeln bzw. n
Kaufentscheidungen.
Beispiel 2
Sei Y stetig verteilt, und sei f : R → R eine W’dichte. Besitzt Y die
Dichte f ?
Verfügbar sei eine Stichprobe
y1 , . . . , yn ∈ R,
die als Realisierung von unabhängigen, identisch wie Y verteilten
Zufallsvariablen angesehen wird.
179
Wähle Klassengrenzen
a1 < · · · < am−1 ,
und setze a0 = −∞ sowie am = ∞. Definiere p ∈ P durch
Z aj+1
pj =
f (t) dt.
aj
Definiere für j = 0, . . . , m − 2
xi = j,
falls yi ∈ ]aj , aj+1 ],
sowie xi = m − 1, falls yi ∈ ]am−1 , am [.
Definiere analog die Zufallsvariable X .
Entscheide statt der eingangs gestellten Frage, ob (schwächere Hypothese)
H0 : pX = p oder
H1 : pX = p̃ mit p̃ ∈ P \ {p}.
180
Bemerkung 3
Naheliegend: Entscheidungsregel auf Basis der absoluten Häufigkeiten
hj = |{i ∈ {1, . . . , n} : xi = j}|
für j = 0, . . . , m − 1. Definiere gn : {0, . . . , m − 1}n → Nm
0 durch
gn (x1 , . . . , xn ) = (h0 , . . . , hm−1 ).
(0)
(0)
Unter H0 gilt gn (X1 , . . . , Xn ) ∼ M n, p0 , . . . , pm−1 .
Hiermit läßt sich prinzipiell ein Signifikanztest zum Niveau α konstruieren:
Pm−1
Wähle An ⊆ {(k0 , . . . , km−1 ) ∈ Nm
0 :
j=0 kj = n} möglichst klein mit
X
(k0 ,...,km−1 )∈An
n!
km−1
≥ 1 − α.
· p k0 · · · pm−1
k0 ! · · · km−1 ! 0
Entscheidungsregel: Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) 6∈ An .
181
Beispiel 4
Seien m = 3 und p = (1/3, 1/3, 1/3). Betrachte für n = 10 bzw. n = 50
n!
1
· n
k0 ! · k1 ! · (n − k0 − k1 )! 3
als Funktion von k0 , k1 ∈ N0 mit k0 + k1 ≤ n.
0.07
10
9
50
0.016
45
0.014
0.06
40
8
0.03
4
3
0.02
2
k1
5
1
3n
0.01
30
25
0.008
20
0.006
15
"
35
"
0.04
n!
k0 !"k1 !"(n!k0 !k1 )!
k1
6
n!
k0 !"k1 !"(n!k0 !k1 )!
1
3n
0.012
0.05
7
0.004
10
0.01
1
0.002
5
0
0
0
2
4
6
k0
8
10
0
0
0
10
20
30
40
50
k0
182
Für α = 0.05 sind die Verwerfungsbereiche jeweils durch rote Kreuze
markiert.
0.07
10
9
0.016
45
0.014
40
0.06
0.012
0.03
4
3
0.02
2
k1
"
0.04
5
n!
k0 !"k1 !"(n!k0 !k1 )!
6
0.01
30
25
0.008
20
0.006
15
"
1
3n
0.05
7
1
3n
35
n!
k0 !"k1 !"(n!k0 !k1 )!
8
k1
50
0.004
10
0.01
1
0
0
0
2
4
6
k0
8
10
0.002
5
0
0
0
10
20
30
40
50
k0
Die W’keiten für Fehler 1. Art betragen 0.048 für n = 10 und 0.0498 für
n = 50.
183
Bemerkung 5
Nachteile der Vorgehensweise gemäß Bemerkung 3: Abhängigkeit von n, m
und p sowie hoher Rechenaufwand, falls n groß.
Stattdessen verwendet man
gn (x1 , . . . , xn ) = n ·
m−1
X
j=0
(rj − pj )2
.
pj
mit den relativen Häufigkeiten rj = hj /n. Unter H0 ist gn (X1 , . . . , Xn )
näherungsweise χ2 -verteilt mit m − 1 Freiheitsgraden.
Satz 6 (χ2 -Anpassungstest)
Sei q1−α das (1 − α)-Quantil von χ2 (m − 1). Dann gilt unter H0
lim P({gn (X1 , . . . , Xn ) > q1−α }) = α.
n→∞
184
Bemerkung 7
Die Entscheidungsregel
Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α
definiert also einen Test, dessen W’keit für einen Fehler 1. Art für große n
nahe bei α ist.
Beispiel 8
Seien m = 3, p = (1/3, 1/3, 1/3) und α = 0.05. Für die vorliegende
Stichprobe gelte
(r0 , r1 , r2 ) = (0.3, 0.4, 0.3).
Man erhält q0.95 ≈ 5.991 sowie
gn (x1 , . . . , xn ) = 3 · n · 2 · (3/10 − 1/3)2 + (4/10 − 1/3)2 =
n
.
5
Genau für
n > 50 · 5.991 = 299.55
verwirft der Test die Hypothese.
185
6. Anhang: Kombinatorik
Urnenmodelle: k-maliges Ziehen eines Elementes aus Ω = {1, . . . , n}.
Modell I: Ziehen in Reihenfolge mit Zurücklegen.
Modell II: Ziehen in Reihenfolge ohne Zurücklegen.
Modell III: Ziehen ohne Reihenfolge ohne Zurücklegen.
Modell IV: Ziehen ohne Reihenfolge mit Zurücklegen.
Satz 1 (Modell I)
Für endliche Mengen Ω1 , . . . , Ωk gilt
|Ω1 × · · · × Ωk | = |Ω1 | · · · |Ωk |.
Insbesondere
|Ωk | = nk .
186
Beispiel 2
Ausstattungsvarianten eines E-Bike
Ω1
Ω2
Ω3
Ω4
= {46, 49, 53}
= {D, H}
= {K, N}
= {25, 45}
..
.
Rahmengröße
Rahmentyp
Schaltung
Motor
..
.
Satz 3 (Modell II)
Für 1 ≤ k ≤ n gilt
|{ω ∈ Ωk : ω1 , . . . , ωk paarweise verschieden}|
= n · (n − 1) · · · (n − (k − 1)).
Insbesondere
|{ω ∈ Ωn : ω1 , . . . , ωn paarweise verschieden}| = n!.
187
Beispiel 4
Die Anzahl der möglichen Bundesliga-Schlußtabellen in der kommenden
Saison ist
18! = 6 402 373 705 728 000 ≈ 6.4 · 1015 .
Satz 5 (Modell III)
Für 0 ≤ k ≤ n gilt
!
|{A ⊆ Ω : |A| = k}| =
n
.
k
Beispiel 6
Die Anzahl der Tippreihen im Lotto ist
!
49
6
= 13 983 816 ≈ 1.4 · 107 .
188
Satz 7
Es gilt
| Pot(Ω)| = 2n
und
n
n
o
X
xi = k =
x ∈ {0, 1}n :
i=1
!
n
.
k
189
Satz 8 (Modell IV)
Es gilt
n
n
o
X
hi = k =
(h1 , . . . , hn ) ∈ Nn0 :
i=1
!
n+k −1
.
k
Beispiel 9
Tagesverkauf der Mensa: k = 2500 Gäste, n = 4 Menüs, also
!
2503
4
= 1 631 513 281 875 ≈ 1.6 · 1012 .
190
Herunterladen