Computerorientierte Statistik (CoSta) Peter Mathé Version: 10

Werbung
Computerorientierte Statistik
(CoSta)
Peter Mathé
Version: 10. August 2013
Inhaltsverzeichnis
Ziel des Kurses
v
Kapitel
1.1.
1.2.
1.3.
1.4.
1.5.
1. Wahrscheinlichkeitstheoretische Grundlagen
Wahrscheinlichkeitsräume
Reelle Zufallsvariable
Unabhängigkeit
Grenzwertsätze
Aufgaben
1
1
4
8
10
12
Kapitel
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2. Simulation von Zufallsexperimenten
Zufallszahlengenerator der Gleichverteilung auf [0, 1]
Simulation diskreter Verteilungen
Simulation stetiger Verteilungen
Hit-or-run
Verwerfungsverfahren
Aufgaben
15
15
16
19
22
23
26
Kapitel
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3. Beschreibende Statistik
Grundlegende Fragestellungen der Datenanalyse
Datentypen (statistische Merkmale)
Umwandeln von Datentypen
Visualisierung verschiedener univariater Daten(typen)
Visualisierung gruppierter Daten
Aufgaben
31
31
31
32
36
37
38
Kapitel
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
4.9.
4. Schließende Statistik
Fragestellung
Punktschätzer
Maximum-likelihood Methode
Beste Schätzer: Cramér–Rao Ungleichung
Die Kleinste-Quadrate-Methode: das Regressionsproblem
Verteilungen: Normalverteilung und Co.
Parameterschätzung im Gauß-Experiment
Konfidenzbereiche
Aufgaben
43
43
44
46
49
51
55
59
60
66
iii
iv
INHALTSVERZEICHNIS
Kapitel
5.1.
5.2.
5.3.
5.4.
5. Testtheorie
Pragmatischer Zugang
p-Wert
Neyman–Pearson Theorie
Aufgaben
71
71
78
79
82
Kapitel
6.1.
6.2.
6.3.
6.4.
6. Lineare Modelle
Statistische Modelle
Satz von Gauß–Markoff
Die ANOVA-Tabelle in linearen Modellen
Diagnostik
83
83
87
93
97
Kapitel
7.1.
7.2.
7.3.
7.4.
7. Verteilungsfreie Tests
Rangtests
Kolmogoroff–Smirnoff–Test
Daten in Tabellenform: asymptotische χ2 -Tests
Aufgaben
99
99
103
106
111
Anhang
A.1.
A.2.
A.3.
A.4.
A. Ergänzungen zur Wahrscheinlichkeitstheorie
Bedingte Wahrscheinlichkeit
Gemeinsame und bedingte Verteilungen
Kovarianz, Korrelation
Verteilung der Summe zweier Zufallsvariable
113
113
115
116
118
Anhang B. Euklidische Räume
119
Anhang C. Multivariate Normalverteilungen
123
Literaturverzeichnis
127
ZIEL DES KURSES
v
Ziel des Kurses
Dies ist ein rudimentäres Skript zum Kurs Computerorientierte
”
Statistik (Costa)“.
Ziel dieses Kurses ist es, die Studenten mit grundlegenden Fragen
der Statistik vertraut zu machen, und anhand von Datensätzen einfache statistische Analysen vorzunehmen. Dazu wird die Programmiersprache R verwendet [3].
Um einen gemeinsamen Stand zu erarbeiten, werden im Kapitel 1
die grundlegenden Konzepte der Stochastik bereit gestellt. Es folgt
das Kapitel 2 zur stochastischen Simulation, einem Gegenstand, der
in den wahrscheinlichkeitstheoretischen Vorlesungen üblicherweise kurz
kommt.
Erst in den anschließenden Kapiteln wird auf die Beschreibende
Statistik, Kapitel 3, und später auf die Schließende Statistik, Kapitel 4 eingegangen. Die behandelten statistischen Fragestellungen versuchen den Kanon abzudecken, sprich er kommen die Schätztheorie,
Testtheorie, die linearen Modelle, und letztlich einige Parameter-freie
(nicht-parametrische) Modelle vor. Es wird darauf wertgelegt, daß die
zentralen Begriffe der Statistik vorgestellt werden. Hierbei wird immer
die Verbindung zur Umsetzung in R hervorgehoben, so daß es leicht
möglich sein wird, die Dinge anhand von Datensätzen zu vertiefen.
Aufgrund der Vielfalt des Materials kann die mathematische Ausarbeitung in vielen Fällen nur kursorisch erfolgen. Es wird versucht, die
konzeptionellen Ideen herauszustellen. Besonderes Augenmerk liegt darauf, R-spezifische Aspekte einzuarbeiten. An vielen Stellen des Textes
wird exemplarischer R-code eingebunden. Graphiken, wie sie in R typischerweise bereitgestellt werden, sind Bestandteil des Kurses.
Es gibt viel Literatur, die sich mit ähnlichen Fragen widmet. Viele
Quellen, auch nicht-genannte sind eingeflossen. Daher ist dieses Material auch nicht für die Öffentlichkeit bestimmt. Vielmehr soll es den
Teilnehmern erleichtern, die Vorlesung zu verfolgen. Ich nenne trotzdem einige der Quellen, die besonderen Eingang gefunden haben.
Es gibt eine Reihe von Textbüchern zu verwandten Themen,
hier seien genannt, P. Dalgaard [1], aber auch J. Verzani [4]. Besonderen Eingang fanden die Vorlesungen über Mathematische Statis”
tik“von H. Pruscha [2], die meines Erachtens didaktisch bemerkenswert
an die wichtigsten Fragen der Statistik heranführen.
Darüber hinaus gibt es elektronisch verfübares Material. Verwendet
wurden die Skripte Elementare Stochastik“, sowie Elementare Statis”
”
tik“ von E. Behrends, FU Berlin. Eine ergiebige Quelle von Texten und
vi
INHALTSVERZEICHNIS
Datensätzen ist das Seminar für Statistik“ der Eidgenösischen Tech”
nischen Hochschule, Zürich, http://stat.ethz.ch/. Insbesondere seien
das Mini-Skript Wahrscheinlichkeitstheorie und Statistik“,
”
stat.ethz.ch/education/semesters/ss2012/statBau/miniskript-wkeit.
pdf, sowie die Ausarbeitung Computational Statistics“,
”
http://stat.ethz.ch/education/semesters/ss2012/CompStat/sk.
pdf erwähnt.
Zuletzt wird auch auf die oft informativen Angaben in wikipedia
hingewiesen. Für viele statistische Fragen gibt es sehr detailliertes Material, sowie in deutscher, als auch in englischer Sprache.
Berlin, 10. August 2013 (Peter Mathé)
KAPITEL 1
Wahrscheinlichkeitstheoretische Grundlagen
1.1. Wahrscheinlichkeitsräume
(1) Menge Ω der möglichen Ereignisse,
(2) ein Mengensystem F von Ereignissen, die abgefragt werden
dürfen, und
(3) eine σ-additive Mengenfunktion P : F → [0, 1], d.h., es gilt
• P (Ω) = 1,
• P (A
t B) = P (A)
P∞+ P (B), A, B ∈ F (Additivität), und
F∞
• P ( j=1 Aj ) = j=1 P (Aj ) (σ-Additivität).
Definition 1 (Wahrscheinlichkeitsraum). Ein solches Tripel (Ω, F, P )
heißt Wahrscheinlichkeitsraum.
Beispiel 1.1 (Münzautomat).
• Ω = {“Kopf”, “Zahl”},
• F = {∅, Ω, {“Kopf”} , {“Zahl”}}, #F = 4.
1.1.1. Diskrete Wahrscheinlichkeitsräume.
(1) Ω ist diskret (höchstens abzählbar),
(2) F = P(Ω),
(3) px = P ({x}), x ∈ Ω.
Bemerkung 1. Wie sind die px zu verstehen? Betätigen
den Zufallsautomaten sehr häufig, N mal. Dann setzen wir
# {Ergebnis = x}
= pN,x .
N
Dann gilt
P
(a) pN.x ≥ 0, x∈Ω pN,x = 1.
(b) Für N → ∞ gilt pN,x → px (wird später präzisiert).
Visualisierung des Experiments als Histogramm. Beim Würfeln
etwa
Beispiel 1.2. Ω = {1}, d.h., Experiment mit sicherem
Ausgang.
1
2
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
data.sample6
1 2 3 4 5 6
14 20 13 15 17 21
0.00
0.05
0.10
0.15
0.20
Haeufigkeiten beim Wuerfeln
1
2
3
4
5
6
Abbildung 1. Visualisierung beim Würfeln. 100 Versuche.
Beispiel 1.3 (Laplace-Raum,Laplace 1812).
• Ω = {1, . . . , n}
• pj = 1/n, j = 1, . . . , n.
Beispiel 1.4 (Bernoulli Verteilung).
• Ω = {0, 1} (’1’ ist Ërfolg”, ’0’ ist Misserfolg”),
• Zu gegebenem 0 ≤ p ≤ 1 sei p1 = p, p0 = 1 − p.
Beispiel 1.5 (Poisson-Verteilung).
• Ω = N0 ,
j
• Zu gegebenem λ > 0 sei pj := λj! e−λ , j ∈ N0 ,
• Zählen von zufälligen Ereignissen.
• Die Poisson’schen Annahmen sind:
1.1. WAHRSCHEINLICHKEITSRÄUME
3
– Eintreten von Ereignissen ’selten’, d.h., im Intervall
[x, x + ∆x] höchstens ein Ereignis;
– W-keit eines Ereignisses proportional zur Intervalllänge, Faktor g, und
– Eintreten in einem Intervall ist unabängig von vorherigen Intervallen (geschichtslos).
Dann genügt die W-keit p0 (x), kein Ereignis bis zum Zeitpunkt x zu haben der Dgl. p00 (x) = −gp0 (x).
• Das Eintreten von k Ereignissen bis zum Zeitpunkt x
genügt dann der Dgl. p0k (x) = −gpk (x) + gpk−1 (x), mit
k
der Lösung pk (x) = (gx)
e−gx . Setzen λ := gx, dann erk!
halten wir die Poisson-Verteilung pois(λ).
Beispiel 1.6 (geometrische Verteilung).
• Ω = N0 .
• Zu 0 ≤ p < 1 sei pj = (1 − p)j p, j = 0, 1, 2, . . .
• Warten auf den ersten Erfolg im Bernoulli-Experiment
mit Erfolgswahrscheinlichkeit p.
1.1.2. Stetige Wahrscheinlichkeitsräume.
(1) Betrachten zuerst nur Ω = R.
(2) Das Mengensystem F sei die Borel-σ-Algebra,
(3) Zu einer
R nichtnegativen stückweise stetigen
R Funktion f : R →
+
R , f (y) dx = 1, setzen wir P (A) := A f (x) dx, A ∈ F.
(4) Die Funktion f heißt Dichte von der
R Verteilung P .
(5) Die Stammfunktion F mit F (x) := (−∞,x] f (τ ) dτ heißt Verteilungsfunktion (cdf).
(6) Die W-Verteilung P ist durch ihre Werte P ([c, d)) = F (d) −
F (c), c < d eindeutig bestimmt.
Beispiel 1.7 (Gleichverteilung auf [0, 1]).
• f (x) = χ[0,1] (x), x ∈ R,
• Der wichtigste Zufall überhaupt! Jeder andere Zufall läßt sich
daraus erzeugen, siehe Kapitel 2.
Beispiel 1.8 (Exponentialverteilung).
• Zu gegebenem λ > 0 sei f (x) = λe−λx , x ≥ 0.
• Wartezeiten sind oft so verteilt. Es gilt die Nichtalterungseigenschaft, siehe § 1.3.
Beispiel 1.9 (Normalverteilung norm (µ, σ 2 )).
• Zu gegebenem µ ∈ R, σ 2 ≥ 0 sei
(x−µ)2
1
f (x) = √
e− 2σ2 , x ∈ R.
2πσ 2
4
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
• Grenzverteilung bei vielen Experimenten, siehe Kapitel 1.4.
1.2. Reelle Zufallsvariable
Beginnen mit Beispielen.
Beispiel 1.10 (Münze vs. Würfel).
• Haben Würfel, wollen Münzwurf. Wie?
• Haben Münze(n), wollen Würfeln. Wie?
Beispiel 1.11 (Zwei Würfel).
• Ω = {1, . . . , 6}2 ,
• Zu x = (x1 , x2 ) sei px = 1/36 (Laplaceraum).
• Interessieren uns für X(x) := x1 +x2 (Summe beim Münzwurf).
• (gewollter) Verlust von Information.
Beispiel 1.12 (Gleichverteilung auf [a, b]).
• Nehmen Gleichverteilung P auf [0, 1], mit Realisierung u.
• Zu gegebenem Paar a < b betrachten wir Transformation
X(u) := a + u ∗ (b − a).
• Es gilt für a ≤ c ≤ d ≤ b die Beziehung
c−a
d−a
d−c
P (c < X(u) ≤ d) = P
<u≤
.
=
b−a
b−a
b−a
Definition 2 (meßbare Abbildung). Seien (Ω, F), (Ω0 , F 0 ) zwei
meßbare Räume. Eine Abbildung X : Ω → Ω0 heißt meßbar, falls für
jede Menge B ∈ F 0 gilt: X −1 (B) ∈ F (vollständiges Urbild).
Definition 3 (Zufallsvariable). Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine (Borel-meßbare) Abbildung X : Ω → (R, B) heißt (reelle)
Zufallsvariable.
Satz 1.1. Jede reelle Zufallsvariable X : Ω → (R, B) induziert ein
Wahrscheinlichkeitsmaß PX gemäß
PX ((B)) = P (X −1 (B)),
B ∈ B.
Bemerkung 2. Wir schreiben oft PX (B) = P (”X ∈ B”), auch
X ∼ PX , X ∼ f etc.
Definition 4 (Verteilungsfunktion einer Zufallsvariable). Sei X : (Ω, F, P ) →
R eine reelle Zufallsvariable. Dann ist
FX (x) = P (”X ≤ x”) = P ({ω ∈ Ω, X(ω) ≤ x}),
die Verteilungsfunktion der Zufallsvariable X.
Beispiel 1.13 (Zwei Würfel).
x ∈ R,
1.2. REELLE ZUFALLSVARIABLE
•
•
•
•
Ω0 = {2, . . . , 12},
Zu x = (x1 , x2 ) gilt dann PX (B) = #{x,
2
1
PX ({3}) = 36
6= 11
.
3
(kein Laplaceraum).
PX ({2, 3}) = 36
5
x1 +x2 ∈B}
.
36
Wie bestimmt man induzierte Verteilungen von stetigen Zufallsvariablen?
Satz 1.2. Gegeben sei eine Dichte f mit VF F . Sei X : R → R eine
streng monotone differenzierbare Zufallsvariable. Dann hat PX ebenfalls eine Dichte, die sich durch (F ◦ X −1 )0 berechnet.
Beweis. Sei B = (c, d] eine Borel-Menge. Dann gilt
Z d
0
−1
−1
−1
PX (B) = P (X (B)) = F (X (d))−F (X (c)) =
F ◦ X −1 (τ ) dτ
c
Beispiel 1.14 (Gleichverteilung auf [a, b]).
• Sei P Gleichverteilung auf [0, 1] mit Ergebnis u.
• Sei X(u) = a + u ∗ (b − a) wie gehabt, ergo X −1 (x) = x−a
.
b−a
• Die VF von P ist F (x) = x, 0 ≤ x ≤ 1, F (x) = 1, x >
1, F (x) = 0, x < 0.
1
• Es folgt (F ◦ X −1 )(x) = F x−a
, ergo Ableitung ist b−a
χ[a,b] .
b−a
Beispiel 1.15.
• Sei P Gleichverteilung auf [0, 1].
• X(u) = u2 .
• Dann folgt Dichte von PX ist f (x) =
1
√
,
2 x
0 < x ≤ 1.
Beispiel 1.16.
• f (x) = x2 χ[0,2] (x), x ∈ R,
• X(x) = ex ,
• Dann folgt als Dichte von PX die Funktion g(u) =
u ≤ e2 .
1 log u
,
2 u
1≤
1.2.1. Quantitative Charakteristiken reeller Zufallsvariable.
1.2.1.1. Momente von Verteilungen, Zufallsvariablen. Die grundlegende Art, vorgegebene Verteilungen zu beschreiben ist durch seine
Momente. Sei also X : (Ω, F, P ) → R eine Zufallsvariable.
Erwartungswert:
6
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
Definition 5 (Erwartungswert diskreter ZV). Ist die Verteilung
von X diskret, sprich #Ω ist (höchstens) abzählbar, so bezeichnet
X
E(X) :=
X(x)px
x∈X
den Erwartungswert der ZV X.
Definition 6 (Erwartungswert stetiger ZV). Hat P eine
Dichte f so bezeichnet
Z
E(X) := X(x)f (x) dx
den Erwartungswert von X (falls E(|X|) < ∞).
Beispiel 1.17 (Interpretation). Führen das Experiment in
(Ω, F, P ) N mal durch, und erhalten so ω1 , . . . , ωN . Hatten im
#{j, ωj =x}
diskreten Fall daß px =: pN,x (relative Häufigkeit).
N
Dann gilt
X
X
# {j, ωj = x}
X(x)
X(x)pN,x =
E(X) N
x∈Ω
x∈Ω
=
X
x∈Ω
X(x)
N
1 X
χ{x} (ωj )
N j=1
N
N
1 X
1 XX
X(x)χ{x} (ωj ) =
X(ωj ),
=
N j=1 x∈Ω
N j=1
das heißt, der Erwartungswert misst den Mittelwert der ZV X.
Bemerkung 3. Erwartungswerte müssen nicht existieren,
siehe Cauchy-Verteilung!
Varianz: Das zentrierte zweite Moment
V(X) := E(X − E(X))2
(= E(X 2 ) − (E(X))2 )
heißt Varianz der ZV X.
p
V(X) heißt Streuung, StanDie Quadratwurzel σ(X) :=
dardabweichung. (hat gleiche Maßeinheit wie X).
Schiefe: Das zentrierte dritte Moment
skew(X) := E(X − E(X))3
heißt Schiefe der Verteilung (von X).
1.2. REELLE ZUFALLSVARIABLE
7
Wölbung: Das zentrierte vierte Moment
kurt(X) := E(X − E(X))4
heißt die Wölbung der Verteilung von X.
Bemerkung 4. Schiefe und Wölbung eignen sich, um Abweichungen von der Normalverteilung zu beschreiben. Insbesondere gilt für die Normalverteilung norm (µ, σ 2 ) dass, wegen der
Symmetrie skew = 0, und wegen E(X −E(X))4 = 3σ 4 , deshalb
wird die normalisierte Variante
kurt(X)
−3
σ4
als Excess Kurtosis bezeichnet.
1.2.1.2. Momente diskreter Verteilungen. Wir diskutieren jetzt Beispiele
diskreter Verteilungen.
Beispiel 1.18 (Laplace-Raum sample(n)). Sei Ω = {1, . . . , n},
.
pj = 1/n, und sei X(j) = j. Dann gilt E(X) = n+1
2
Beobachtung: E(X) 6∈ Ω.
Beispiel 1.19 (Bernoulli-Verteilung mit Parameter p, bern(p)).
Hier gilt E(X) = 1 ∗ p = p, und V(X) = p − p2 = p(1 − p).
Beispiel 1.20 (Poissonverteilung mit Parameter λ, pois(λ)). Hatj
ten pj = λj! e−λ . Also folgt
∞
∞
∞
X
X
X
λj −λ
λj−1 −λ
λj −λ
e =λ
e =λ
j e =λ
j!
(j − 1)!
j!
j=1
j=0
j=0
Gleiches gilt für die Varianz der Poissonverteilung!
Beispiel 1.21 (Geometrische Verteilung mit Parameter p, geom(p)).
Hatten pj := (1 − p)j p, j = 0, 1, 2, . . . . dann gilt
∞
X
j=0
∞
X
d
(1 − p)j
dp
j=1
j=1
∞
d X
d 1
1
j
(1 − p) = −p(1 − p)
= −p(1 − p)
− 1 = − 1.
dp j=1
dp p
p
j(1 − p)j p = p(1 − p)
∞
X
j(1 − p)j−1 = −p(1 − p)
1.2.1.3. Momente stetiger Verteilungen. Nun Beispiele stetiger Verteilungen.
Beispiel 1.22 (Gleichverteilung unif(0, 1)). Es gilt E(X) = 1/2, V(X) =
1/12.
8
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
Beispiel 1.23 (Exponentialverteilung mit Parameter λ, exp λ).
Hatten Dichte f (x) = λe−λx , ergo
Z ∞
1
xλe−λx dx =
E(X) =
λ
0
(Variabl.-Substitution). Analog folgt V(X) = 1/λ2 .
Beispiel 1.24 (Normalverteilung norm (µ, σ 2 )). Es gilt E(X) =
µ, V(X) = σ 2 .
1
Beispiel 1.25 (Cauchy-Verteilung). f (x) = π1 1+x
2 , x ∈ R.
Es existieren keine Momente, obwohl die Cauchy-Verteilung symmetrisch
ist!
1.2.2. Zusammenfassung. Die folgenden Größen, Funktionen beschreiben
Eigenschaften von Verteilungen (ZV).
(1) Punktwahrscheinlichkeiten/Dichten
(2) die (kumulative) Verteilungsfunktion,
(3) bei stetigen Verteilungen sind die Quantile wichtig: Zu 0 ≤
q ≤ 1 bezeichne z, mit F (z) = q das q-Quantil der Verteilung.
(4) Generierung der ZV
(5) Erwartungswert
(6) Varianz/Streuung
Bemerkung 5. Die ersten vier Charakteristiken sind in R in den
Formen d*, p*, q*,r* realisiert, z.B. für die Gleichverteilung unif
als dunif(), punif(), qunif(), runif().
1.3. Unabhängigkeit
1.3.1. Unabhängigkeit von Ereignissen.
Definition 7. Sei (Ω, F, P ) ein W-Raum. Zwei Ereignisse A, B ∈
F heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A) ∗ P (B).
Bemerkung 6. Falls P (B) > 0 und A ∈ F unabhängig von B so
folgt
P (A ∩ B)
P (A)P (B)
P (A/B) =
=
= P (A),
P (B)
P (B)
d.h., die Kenntnis daß Ereignis B eingetreten war hat keinen Einfluß
auf Häufigkeit von A!
Beispiel 1.26. Würfeln. A = {gerade Zahl} , B = {j ≥ 5}. Dann
gilt P (A ∩ B) = P ({6}) = 1/6 und P (A) = 1/2, P (B) = 1/3, somit
liegt Unabhängigkeit vor!
1.3. UNABHÄNGIGKEIT
9
Beispiel 1.27. Gleichverteilung auf [0, 1]. A = [0, 3/4], B = [0, 1/2].
Dann ist P (A/B) = 2/3 < 3/4 = P (A), also keine Unabhängigkeit.
Definition 8 (Unabhängigkeit von Familien von Ereignissen). Eine
Familie (Bi )i∈I heißt stochastisch unabhängig, falls für jedes n, und jede
Auswahl i1 , . . . , in gilt
n
Y
P (Bi1 ∩ Bi2 ∩ · · · ∩ Bin ) =
P (Bij ).
j=1
Bemerkung 7. Insbesondere sind je zwei Ereignisse in dieser Familie unabhängig (paarweise Unabhängigkeit). Umkehrung gilt nicht!
Beispiel 1.28. Ω = {1, 2, 3, 4} Laplace-Raum.
A1 = {1, 2} , A2 = {2, 3} , A3 = {3, 4}.
Es gilt P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0, aber es herrscht paarweise Unabhängigkeit vor, da P (A1 ∩ A2 ) = 1/4 = P (A1 )P (A2 ).
Definition 9 (Unabhängigkeit von Familien von ZV). Seien X1 , . . . , Xn
reelle ZV. Die ZV heißen unabhängig, falls für jede Auswahl B1 , . . . , Bn ∈
B die Ereignisse “X1 ∈ B1 ”,. . . , “Xn ∈ Bn ” unabhängig sind.
1.3.2. Folgerungen aus der Unabhängigkeit.
Satz 1.3. Seien X, Y unabhängige ZV mit endlicher Erwartung
und Varianz. Dann gilt
(1) E(XY ) = E(X)E(Y ), und
(2) V(X + Y ) = V(X) + V(Y ).
Beweis. Zuerst für Erwartung: Beweis in mehreren Schritten.
(1) X = χA , Y = χB , dann o.k.
(2) X, Y Treppenfunktionen, dann auch o.k.
(3) Jede ZV läßt sich durch Treppenfunktionen approximieren (Maßtheorie).
Nun zur Varianz:
V(X + Y ) = E(X + Y )2 − (E(X) + E(Y ))2
= E(X 2 ) + 2E(XY ) + E(Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (E(Y ))2
= E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 = V(X) + V(Y ).
1.3.3. i.i.d. Folgen.
Definition 10. Sei X eine ZV auf einem W-Raum (Ω, F, P ). Eine
Folge Xi , i ∈ N reeller ZV heißt i.i.d. (independent, identically distributed) gemäß PX , falls
10
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
(1) die ZV Xi unabhängig sind, und
(2) PXi = PX für alle i ∈ N.
Satz 1.4. Sei (Ω, F, P ) ein beliebiger W-Raum, und sei X : Ω → R
eine ZV. Dann existiert eine i.i.d. Folge, die gemäß PX verteilt ist.
Beweis. Wir bilden den Produktraum
Q
• ΩN = ∞
j=1 Ω,
• die Produkt-σ-Algebra F N , und
• die Produkt-W-keit P N (technisch schwierig!).
Wir betrachten nun die Familie Xi , i ∈ N reeller ZV, die gegeben ist
durch Xi (ω) = X(ωi ), ω = (ω1 , . . . ).
Bemerkung 8. Dies liefert die mathematische Beschreibung für
die Wiederholung von Zufallsexperimenten!
1.4. Grenzwertsätze
Seien X1 , X2 , . . . i.i.d. Die abgeleiteten ZV
Sn := X1 + X2 + · · · + Xn ,
1
X̄n := Sn ,
n
haben i.A. eine komplizierte Verteilung. Es gibt jedoch positive Ausnahmen:
Beispiel 1.29.
(1) Xi ∼ bern(p), dann Sn ∼ binom(n, p).
(2) Xi ∼ pois(λ), dann Sn ∼ pois(nλ).
(3) Xi ∼ norm(µ, σ 2 ) dann Sn ∼ norm(nµ, nσ 2 )
Es gilt jedoch der folgende einfache Zusammenhang:
Satz 1.5. Seien X1 , X2 , . . . i.i.d. mit EX1 = µ, V(X1 ) = σ 2 . Dann
gilt
√
ESn = nµ, V(Sn ) = nσ 2 , sd(Sn ) = nσ
2
EX̄n = µ, V(X̄n ) = σn , sd(X̄n ) = √σn .
1.4.1. Tschebyscheff-Ungleichung.
Satz 1.6 (Tschebyscheff, 1874). Sei X eine ZV mit Erwartungswert
µ und Varianz σ 2 . Für beliebige t > 0 gilt
P (|X − µ| ≥ t) ≤
σ2
.
t2
1.4. GRENZWERTSÄTZE
11
Beweis. Es gilt
Z
2
σ = |x − µ|2 f (x) dx
Z
Z
2
|x − µ| f (x) dx +
|x − µ|2 f (x) dx
=
|x−µ|≥t
|x−µ|<t
Z
|x − µ|2 f (x) dx ≥ t2 P (|X − µ| ≥ t).
≥
|x−µ|≥t
Bemerkung 9. Wenn X exponentielle Momente hat Ee|X| < ∞,
dann gilt die exponentielle Tschebyscheff-Ungleichung:
E exp(|X − µ|)
.
et
Dies zeigt, daß die einfache Tschebyscheff-Variante i. A. viel zu grob
ist! Zum Beispiel liefert die einfache Variante für X ∼ norm (0, 1) und
t=2, 3, 4 die Schranken 0.25, 0.1111, 0.0625. Die wahren Werte können,
für t > 0, durch die Verteilungsfunktion ausgedrückt werden: P (|X| >
t) = P (X > t) + P (X < −t) = 1 − FX (t) + FX (−t) = 2FX (−t), was für
t=2, 3, 4 die Werte 4.55 × 10−2 , 2.6998 × 10−3 , 6.3342 × 10−5 ergeben.
P (|X − µ| ≥ t) ≤
1.4.2. Gesetz der großen Zahlen.
Satz 1.7. Seien Xi i.i.d. mit Erwartunsgwert µ und Varianz σ 2 .
Dann gilt
σ2
P (X̄n − µ > t) ≤ 2 .
nt
Beispiel 1.30. Seien Xi ∼ bernoulli(p). Dann ist
#{j, Xj =1}
n
Xj =1}
−
n
• X̄n =
#{j,
• P (
(relative
Häufigkeit), also
p ≥ t) ≤ p(1−p)
.
nt2
1.4.3. Zentraler Grenzwertsatz.
Satz 1.8 (De Moivre, 1733, Laplace, 1812). Seien Xi i.i.d. mit
Erwartungswert µ und Varianz σ 2 . Wir betrachten die standardisierten
ZV
√ X̄n − µ
Zn := n
(Z-Transformation).
σ
• Die Zufallsvariable Zn haben Erwartungswert Null und Varianz Eins.
12
1. WAHRSCHEINLICHKEITSTHEORETISCHE GRUNDLAGEN
• Falls Xi zusätzliche Bedingung erfüllen (höhere Momente), so
gilt für alle a ≤ b
Z b
1
2
P (a < Zn < b) −→ √
e−x /2 dx.
2π a
Bemerkung 10. Seien Xi i.i.d Wiederholungen eines Experiments.
Dann haben die ZV Zn (asymptotisch) immer die gleiche Verteilung
(Standard-Normalverteilung). Dies ist ein universeller Zusammenhang,
daher der Name zentraler Grenzwertsatz.
Beispiel 1.31 (Simulation der Normalverteilung). Seien X1 , . . . , X12
i.i.d. gemäß unif(). Dann ist
12
X
Xi − 6 ≈ norm (0, 1) .
j=1
P
Beachte jedoch: −6 ≤ 12
j=1 Xi − 6 ≤ 6, man kann also keine großen
Abweichungen simulieren.
1.5. Aufgaben
Aufgabe 1.1. Folgende Reisezeiten (in Minuten) wurden beim
Weg zur Uni gesammelt 17,16,20,24,22,15,21,15,17,22.
(1) Bestimme die längste Anreisezeit.
(2) Bestimme die mittlere Zeit.
(3) Der Eintrag ’24’ war ein Fehler und muss korrekt ’18’ lauten,
Korrigiere dies.
(4) Wie ist die korrigierte mittlere Reisezeit?
(5) Wie oft war die Zeit länger als 20 Minuten?
Aufgabe 1.2.
(1) Bestimmen Sie das gegenwärtige Arbeitsverzeichnis.
(2) Gibt es in Ihrem Arbeitsverzeichnis die Datei students.dat?
(3) Laden Sie den Datensatz, und bestimmen Sie die beobachteten
Variable.
(4) Ist der so geladene Datensatz richtig formatiert?
(5) Fügen Sie die neue Beobachtung eines Studenten, der neun
Semester bis zum Bachelor-Abschluss gebraucht hat, und dann
doch e1600 verdient hat, hinzu. hinzu.
(6) Überprüfen Sie, ob die neue Beobachtung korrekt eingetragen
wurde.
(7) Speichern Sie den veränderten Datensatz unter dem Namen
students-new.dat
1.5. AUFGABEN
13
Aufgabe 1.3. Im vergangenen Jahr betrugen die Fon-Kosten monatlich
jeweils e46,33,39,37,46,30,48,32,49,35,30,48.
(1) Lege einen Datensatz namens fon an, der diese Rechnungen
enthält.
(2) Wie teuer war das Telefonieren insgesamt?
(3) In welchem Monat war die Rechnung am geringsten, wann am
größten?
(4) Wie oft war die Rechnung größer als e40?
(5) Wie teuer war das Telefonieren im Mittel? Bestimmen Sie den
Median.
KAPITEL 2
Simulation von Zufallsexperimenten
2.1. Zufallszahlengenerator der Gleichverteilung auf [0, 1]
• muß schnell sein, daher kein “echter” Zufall, sondern PseudoZufall, daher der Name Pseudo-Zufallszahlen.
• die gebräuchlichsten Zufallszahlengeneratoren sind linear congruential random number generators (lcrng).
• in vielen Sprachen random(),
• in R jedoch runif(1), standardmäßig mit Mersenne-Twister
RNG.
• Schreiben u ∼ unif(0, 1).
Wir diskutieren kurz die Möglichkeiten, die R bei der Nutzung der
Pseudo-Zufallszahlen bietet. Die Abfrage lautet
RNGkind()
[1] "Mersenne-Twister" "Inversion"
Die erste Information gibt den verwendeten Zufallszahlengenerator
für die Gleichverteilung an, während die zweite Information den Generator für die Normalverteilung ausgibt. Die Standardwerte sind oben
angezeigt. Alle implementierten Generatoren bekommt man durch ?RNG
angezeigt. Der Mersenne-Twister Generator hat sich in den letzten
Jahren als Standard erwiesen, seine Periode ist 219937 − 1, sollte also
für die meisten Anwendungen reichen.
Bei der verwendung von Zufallszahlen in Experimenten ist die Frage
der Reproduzierbarkeit wichtig. Die Pseudo-Zufallszahlengeneratoren
verwenden alle einen seed (Startwert), und mit set.seed(integer)
kann die Reproduzierbarkeit erzwungen werden.
set.seed(4711)
# erste Abfrage
runif(4)
[1] 0.9656 0.5606 0.9147 0.1830
# zweite Abfrage
runif(4)
15
16
2. SIMULATION VON ZUFALLSEXPERIMENTEN
[1] 0.8842 0.6181 0.3420 0.1619
# mit altem seed gleiches Ergebnis:
set.seed(4711)
runif(4)
[1] 0.9656 0.5606 0.9147 0.1830
2.2. Simulation diskreter Verteilungen
Beispiel 2.1 (Laplace-Raum {1, . . . , n}).
• Sei U ∼ unif(0, 1).
• X(U ) := bn ∗ U c + 1 (ganzzahliger Anteil).
• Es gilt
PX ({k}) = Pu (
k
1
k−1
≤U < )= .
n
n
n
(mit Wkt Null ist der Wert n + 1 möglich, jedoch nicht bei
lcrng!
• in R die Funktion sample(n,1), wir werden schreiben sample(n)
Beispiel 2.2 (Bernoulli Experiment mit Parameter p).
• U ∼ unif(0, 1)
• X(U ) = ifelse(U ≤ p, Erfolg, Mißerfolg)
• In R rbinom(1,p,1)
Beispiel 2.3 (allg. diskrete Verteilung).
P
Hier sind W-keiten p1 , . . . , pk > 0,
pj = 1 gegeben. Betrachten parPl
tialsummen: S0 = 0; Sl = j=1 pj , l = 1, k. Zu U ∼ unif(0, 1) bilden
wir
k
X
F (u) :=
χ[0,Sj+1 ) (U ).
j=0
Dann gilt P (F (U ) = j) = P (sj ≤ U < sj+1 ) = pj
In R bilden wir sample(k,size=1,prob=c(p1 , . . . , pk ))
sample(6, size = 10, replace = TRUE)
[1] 6 4 3 1 2 1 1 4 5 2
# bzw, fuer allg. Gewichte
probs <- c(1, 1, 4, 3, 1, 1)
data <- sample(6, size = 100, replace = TRUE, prob = probs)
barplot(table(data))
17
0
5 10
20
30
2.2. SIMULATION DISKRETER VERTEILUNGEN
1
2
3
4
5
6
Beispiel 2.4 (Geometrische Verteilung mit Parameter q).
Dies ist ja ein Spezialfall, wir können die Partialsummen explizit berechnen als
Sl = p
l
X
(1 − p)j = 1 − (1 − p)l+1 , l = 0, . . . , ∞.
j=0
Wählen nun U ∼ unif(0, 1). Dann ist auch 1 − U ∼ unif(0, 1). Der
wert 1 − U fällt in das Intervall [1 − (1 − p)l , 1 − (1 − p)l+1 ) gdw.
log U
< l + 1,
(1 − p)l+1 < U ≤ (1 − p)l , und dies ist der Fall wenn l ≤ log(1−p)
also bilden wir
log U
L :=
.
log(1 − p)
Die Simulation der obigen Zufallsvariable L resultiert in folgendem Histogramm.
18
2. SIMULATION VON ZUFALLSEXPERIMENTEN
0.4
●
●
0.2
Density
0.6
Histogramm der geometrischen Verteilung
Parameter 0.4
●
●
0.0
●
0
2
4
●
●
6
●
●
●
8
Werte von L
In R bilden wir rgeom(1,p). Die Implementation ist aber anders.
Allg. Prinzip: Inversion der Verteilungsfunktion!
Beispiel 2.5 (Geometrische Verteilung mit Parameter p, alternativ).
Hatten pj = p(1 − p)j , j = 0, 1, 2, . . . .
Interpretation: Seien X1 , X2 , · · · ∼ bern(p) i.i.d. mit Erfolgsw-keit p.
Dann ist pj die W-keit, daß erster Erfolg (Wert 1) nach genau j Versuchen: Haben P (X1 = 1) = p, und
P (X0 = 0, . . . , Xj−1 = 0, Xj = 1) = (1−p)j−1 p wegen Unabhängigkeit
Setzen also
Y := min {j, Xj = 1} − 1.
Beispiel 2.6 (Binomial-Verteilung). Seien X1 , . . . , Xn ∼bern(p),
Pn
n k
und sei Sn := j=1 Xj deren Summe. Dann gilt P (Sn = k) =
p (1−
k
p)n−k (Laplace-Raum {0, 1}n ).
Beispiel 2.7 (Poisson-Verteilung mit Parameter λ).
j
Hatten pj := λj! e−λ .
Interpretation: Betrachten eine Folge X1 , X2 , . . . i.i.d. gemäß exp(λ).
2.3. SIMULATION STETIGER VERTEILUNGEN
19
Dann gilt
(
Y := max j,
j
X
)
Xi < 1
i=1
ist Poisson verteilt.
log
Erinnern uns: Verteilung der Xi ∼ − λui , mit u1 , u2,... i.i.d gemäß
unif(). P
Qj
−λ
Dann ist ji=1 X
<
1
gdw.
i
i=1 u
n Q
oi > e .
Also Y := max j, ji=1 ui > e−λ ∼ pois(λ).
2.3. Simulation stetiger Verteilungen
Satz 2.1. Sei X eine ZV gemäß Dichte f , mit streng monotoner
stetiger VF F . Sei U ∼ unif(0, 1). Dann ist X = F −1 (U ) gemäß f
verteilt.
Beweis. Es gilt
P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x).
Daher folgt für beliebige Rechtecke [c, d) daß
P (F
−1
Z
([c, d))) = F (d) − F (c) =
d
f (x) dx.
c
Daraus folgt die Behauptung.
Beispiel 2.8 (Exponentialverteilung mit Parameter λ).
Hier ist f (x) = λe−λx , x ≥ 0. Die VF ist damit gegeben durch F (x) =
1 − e−λx , mit der inversen Funktion F −1 (u) = − log(1 − u)/λ. Deshalb
U ∼ unif(0, 1). Dann ist E := − logλ U exponentialverteilt mit Parameter λ.
In R: rexp(1,lambda).
Beispiel 2.9. Wir demonstrieren den Zugang aus Satz 2.1 in Abbildung 1.
2.3.1. Simulation der Standard-Normalverteilung. Erinnern
uns, die Dichte ist
1
2
f (x) = √ e−x /2 , x ∈ R.
2π
Arbeiten uns sachte voran:
(1) Sei (X, Y ) unabhängig standard-normal. Dann ist gemeinsame
Dichte (Produkt der einzelnen Dichten)
1 −(x2 +y2 )/2
fX,Y (x, y) =
e
, x, y ∈ R2 .
2π
20
2. SIMULATION VON ZUFALLSEXPERIMENTEN
ecdf(sample[1:20])
0.8
0.6
0.0
0.2
0.4
Fn(x)
0.6
0.4
0.2
0.0
Density
0.8
1.0
Histogram of sample
0.0
0.5
1.0
sample
1.5
2.0
0.0
0.5
1.0
1.5
2.0
x
Abbildung 1. Visualisierung der Dichte (r) und der inversen VF (l)
(2)
Satz 2.2. Seien X, Y unabhängig standard-normal.. Dann
gilt
√
(a) Die ZV R := X 2 + Y 2 und φ := arctan( xy ) sind unabhängig mit Verteilungen
• φ ∼ unif(0, 2π), und
2
• VF von R ist FR (r) = 1 − e−r /2 .
Beweis.
mittels Polarkoordinaten!o
n Rechnung
p
2
Sei A = (x, y), x + y 2 ≤ r, arctan(y/x) ≤ ϕ . Dies führt
zu
ZZ
1
2
2
e−(x +y )/2 dxdy
F(R,φ) (r, ϕ) = P (R ≤ r, φ ≤ ϕ) =
2π
A
Z ϕZ r
1
2
=
se−s /2 dsdϕ
2π 0 0
ϕ
2
=
(1 − e−r /2 ) = Fφ (ϕ)FR (r).
2π
Die VF zerfällt, daher Unabhängigkeit!
2.3. SIMULATION STETIGER VERTEILUNGEN
Details
durch
Koord-Trafo
21
(3) Können daher standard-normalv. ZV paarweise erzeugen:
• Seien (U, V ) i.i.d ∼ unif(),
p
• dann sind 2πV ∼ unif(0, 2π) und −2 log(V ) ∼ FR .
• das Paar
p
(X, Y ) := (R cos φ, R sin φ) = −2 log V (cos(2πV ), sin(2πV ))
ist unabhängig standard-normalverteilt.
(4) Das ist die Box–Muller-Methode, 1958.
Die folgende Routine ist eine Implementation des Box–Muller -Verfahrens.
rboxmuller <- function(size) {
n <- ceiling(size/2)
V <- runif(n, 0, 1)
U <- runif(n, 0, 1)
c <- sqrt(-2 * log(V))
return(c(c * cos(2 * pi * U), c * sin(2 * pi * U))[1:size])
}
0.3
0.2
0.1
0.0
dnorm(x)
0.4
0.5
Hier ist ein Histogramm beim Stichprobenumfang 2000 in Abbildung 2.
−4
−2
0
2
4
x
Abbildung 2. Simulation beim Box–Muller Verfahren
22
2. SIMULATION VON ZUFALLSEXPERIMENTEN
2.4. Hit-or-run
Das hit-or-run Verfahren wird genutzt, wenn es nicht möglich ist,
direkt gemäß der Dichte eine Stichprobe zu erzeugen, und wenn auch
das Inversionsverfahren nicht anwendbar ist. Die einzigen Voraussetzungen sind die, daß die Dichte f auf einem beschränkten Intervall
definiert ist, und daß sie dort auch beschränkt ist.
Bild
Satz 2.3. Sei f : [a, b] → R+ eine durch M > 0 beschränkte Dichte.
Wir bestimmen folgende Zufallsvariable X:
Erzeuge (U, V ) ∼ unif(a, b) × [0, M ].
hit: Falls f (U ) ≥ V setze X := U .
run: Falls f (U ) < V gehe zu hit
Die so erzeugte Zufallsvariable X ist gemäß f verteilt. Die mittlere
Anzahl der Versuche im hit-or-run Verfahren ist 1/(M (b − a)).
Beweis. Die Zufallsvariable X wird erzeugt, falls die Bedingung
in hit erfüllt ist. Daher bestimmen wir die Wahrscheinlichkeit
P (U ≤ x|f (U ) ≥ V ) =
P (00 U ≤ x00 ∩00 f (U ) ≥ V 00 )
.
P (00 f (U ) ≥ V 00 )
Der Zähler wird wie folgt berechnet.
Z bZ M
dv du
00
00 00
00
P ( U ≤ x ∩ f (U ) ≥ V ) =
χ(a,x] (u)χ(0,f (u)] (v)
M b−a
Za x 0
f (u) du
=
, a ≤ x ≤ b.
M b−a
a
Setzen wir hier x := b, so erhalten wir, da f Dichte ist, daß
P (f (U ) ≥ V ) =
1
.
M (b − a)
Rx
Daraus folgt erstens, daß P (00 U ≤ x00 ∩00 f (U ) ≥ V 00 ) = a f (v)dv
(beachte: automatisch gilt M (b − a) ≥ 1!), aber auch die zweite Aussage, denn ein einzelnes Experiment ist binomialverteilt mit der Erfol1
gswahrscheinlichkeit p = M (b−a)
, also ist die mittlere Wartezeit geometrisch verteilt, und somit der Erwartungswert gleich 1/p, siehe
Beispiel 1.21.
Dieses Verfahren ist also dann effektiv, wenn die Dichte f das
Rechteck [a, b] × [0, M ] gut ausfüllt!
2.5. VERWERFUNGSVERFAHREN
23
2.5
hit−or−run−Verfahren
2.0
●
f(3.24)=2.01
●
1.5
●
( 3.24 1.64 )
●
●
1.0
●
0.5
●
●
●
●
0.0
Dichte f
1
2
3
4
5
Abbildung 3. Sampling using the hit-or-run method
2.5. Verwerfungsverfahren
Das obige hit-or-run Verfahren gestattet folgende Verallgemeinerung.
Dieses Verfahren ist sinnvoll, wenn die gegebene Dichte eine Majorante
besitzt, von der einfach eine Stichprobe erzeugt werden kann.
Sei also f eine gegebene Dichte, und wir nehmen an, daß eine Dichte
g gefunden wird, so daß 0 ≤ f (x) ≤ M g(x), x ∈ R.
Satz 2.4. Sei 0 ≤ f (x) ≤ M g(x), x ∈ R. Wir betrachten folgendes
Verfahren zur Erzeugung einen Zufallsvariable X.
(V )
propose: Erzeuge V ∼ g. Bilde h(V ) := Mf g(V
.
)
accept: Erzeuge U ∼ unif(0, 1). Falls U ≤ h(V ) accept, ansonsten reject (gehe zu propose).
Dann ist die so erzeugte Zufallsvariable X gemäß f verteilt. Die mittlere Wartezeit beträgt M .
Bemerkung 11. Dies ist eine Verallgemeinerung des hit-or-run
Verfahrens. Jenes ergibt sich, wenn f ≤ M und g ∼ unif(0, 1) gewählt
wird.
24
2. SIMULATION VON ZUFALLSEXPERIMENTEN
Beweis. Der Beweis ist analog zu hit-or-run. Wir berechnen
P (00 V ≤ x00 ∩00 U ≤ h(V )00 )
P (V ≤ x|U ≤ h(V )) =
.
P (U ≤ h(V ))
Der Zähler berechnet sich als
Z x Z 1
00
00 00
00
χ(0,h(v)] (u) dug(v) dv
P ( V ≤ x ∩ U ≤ h(V ) ) =
−∞ 0
Z x
h(v)g(v) dv
=
−∞
Z x
1
=
f (v) dv.
M −∞
Für x = ∞ ergibt sich der Nenner als 1/M , so daß
Z x
P (V ≤ x|U ≤ h(V )) =
f (v) dv = Pf (x).
−∞
Daraus ergeben sich beide Behauptungen.
Beispiel 2.10 (Simulation der Normalverteilung mittels eines Verwerfungsverfahrens). Wir demonstrieren, wie die Standard-Normalverteilung durch ein derartiges Verfahren simuliert werden kann. Betrachten wir die Vorschlags-Dichte g ∗ (x) = exp(− |x|)/2. Die Abbildung 4
verdeutlicht, daß die Voraussetzungen des Satzes erfüllt sind. Von der
Vorschschlagsdichte g ∗ kann man einfach mittels der Exponentialverteilung
Stichproben ziehen gemäß folgender Vorschrift.
rgstern <- function(size) {
return(sample(c(-1, 1), size, repl = TRUE) * rexp(size, 1))
}
Die Implementation des Algorithmus, und das Ergebnis einer Stichprobe vom Umfang 1000 visualisieren wir in Abbildung 5. Die mittlere
Wartezeit betrug 1.315, gegenüber dem theoretischen Wert von 1.3155.
2.5. VERWERFUNGSVERFAHREN
25
Situation beim Verwerfungsverfahren
0.0
0.2
0.4
0.6
Dichte f
M Dichte g
−10
−5
0
5
10
0.3
0.2
0.1
0.0
gstern(x)
0.4
0.5
empirische Vorschlagsdichte
−10
−5
0
5
10
x
Abbildung 4. Vorschlagsdichte oberhalb der Normalverteilungsdichte (oben), empirische Vorschlagsdichte (unten)
26
2. SIMULATION VON ZUFALLSEXPERIMENTEN
algorithmus <- function(size) {
num <- 1
count <- 1
reject <- FALSE
res <- numeric(size)
h <- function(v) ff(v)/(M * gstern(v))
while (!reject && num <= size) {
v <- rgstern(1)
if (runif(1) <= h(v)) {
res[num] <- v
reject <- FALSE
num <- num + 1
}
count <- count + 1
}
return(list(result = res, rate = size/count))
}
0.3
0.2
0.1
0.0
Density
0.4
0.5
Simulation der Normalverteilung mittels acceptance rejection
−3
−2
−1
0
1
2
3
samples$result
Abbildung 5. Algorithmus (oben), Empirische Dichte
der Stichprobe (unten)
2.6. Aufgaben
Aufgabe 2.1.
(1) Erzeugen Sie einhundert standard normalverteilte
Zufallsvariable.
2.6. AUFGABEN
27
(2) Ermitteln Sie, wieviel Prozent der Daten sich innerhalb des
einfachen, zweifachen und dreifachen der Standardabweichung
befinden?
(3) Wie müssen diese Anteile theoretisch sein? Sind Ihre Ergebnisse konsistent mit der Theorie?
(4) Wiederholen Sie dieses Experiment mit einhundert auf dem Intervall [−3, 3] gleichverteilten Zufallsvariable. Diskutieren Sie
die Ergebnisse.
Aufgabe 2.2 (Simulation zum zentralen Grenzwertzatz).
(1)
Erzeugen Sie entlang einer Folge von n = 1, 10, 20, 50, 100, 200, 500, 1000
jeweils 1000 Poisson-verteilte Zufallsvariable mit dem Parameter λ = 0.4.
(2) Bilden Sie jeweils (spaltenweise) die standardisierten Mittel
(jeweils 1000 Stück).
(3) Vergleichen Sie die empirischen mit den theoretischen (der
Normalverteilung) Quantilen.
Aufgabe 2.3.
(1) Simulieren Sie einhundert Ergebnisse beim
paarweisen Würfeln (zwei Würfel gleichzeitig).
(2) Erstellen Sie Histogramme für die folgenden Ergebnisse
• individuelle Paare in (1, 1), . . . , (6, 6).
• für die paarweisen Summen der Ergebnisse.
(3) Vergleichen Sie dies mit den ermittelten theoretischen Wahrscheinlichkeiten.
Aufgabe 2.4.
(1) Überlegen Sie sich, wie Sie mit Hilfe dreier
Münzen einen Würfel simulieren können.
(2) Schreiben Sie eine R-Routine, die Ihr Vorgehen implementiert.
(3) Erstellen Sie ein Histogramm, um die Korrektheit zu veranschaulichen.
(4) Erstellen Sie eine Tabelle (table), in der die Ergebnisse von
1000 simulierten Ergebnissen festgehalten werden.
Aufgabe 2.5. Testen Sie den (standard-mäßig verwendeten MersenneTwister Zufallszahlengenerator.
(1) Bestimmen Sie die Zeit, die zur Erzeugung von 1000000 Zufallszahlen benötigt wird.
(2) Visualisieren Sie die erhaltene Trajektorie, d. h., die durch
Geradenstücke verbundenen Paare (i, xi ), i = 1, . . . , 1000000.
(3) Visualsisieren Sie die Verteilungsfunktion.
(4) Visualisieren Sie die paarweisen Korrelationen (xi , xi+1 ), i =
1, . . . 1000000 − 1.
28
2. SIMULATION VON ZUFALLSEXPERIMENTEN
(5) Wählen Sie δ = 10−7 und bestimmen Sie die Anteile der Zufallszahlen in den Intervallen (0, δ) bzw. (1 − δ, 1).
Aufgabe 2.6. Gegeben Sie die

c,



2c,
g(x) :=

c/3,



0,
folgende Funktion
0 ≤ x < 0.1,
0.1 ≤ x < 0.7,
0.7 ≤ x < 1,
sonst.
(1) Wie muß die Konstante c gewählt werden, damit g zur Dichte
wird?
(2) Erzeugen Sie einhundert Zuallsvariable gemäß der erhaltenen
Verteilung.
(3) Visualisieren Sie dies in einer Graphik, die Histogramm und
Dichte (in rot) übereinanderlegt.
Aufgabe 2.7. Schreiben Sie eine R-Routine, die es gestattet Zufallsvariable mit der Dichte fn (x) = nxn−1 , x ∈ [0, 1], zu erzeugen, für
geliebige Parameter n ∈ N+ .
Erzeugen Sie, für n = 2, 20, jeweils 1000 Zufallsvariable gemäß fn
und erstellen Sie eine Graphik in einer Zeile mit zwei Spalten, in der
Histogramm und Dichte gemeinsam veranschaulicht werden.
Aufgabe 2.8. Gegeben sie die Dichte g(x) = (x − 2)/12 − (x −
6)/24, 2 ≤ x ≤ 6 und 0 sonst.
(1) Erzeugen Sie 100000 Zufallsvariable gemäß dieser Dichte,
(a) mittels Inversion,
(b) durch rejection sampling.
(2) Vergleichen Sie die Ergebnisse hinsichtlich der Geschwindigkeit.
(3) Visualisieren Sie die Ergebnisse in einer Graphik, die Histogramm und Dichte enthält.
Aufgabe 2.9. Gegeben sei die Funktion f (x) = cx2 e−x , x ≥ 0,
mit einer Konstanten c, so daß diese zur Dichte wird.
(1) Finden Sie eine oberhalb liegende Funktion, M g mit einer
Dichte g, von der einfach eine Stichprobe bestimmt werden
kann.
(2) Erzeugen Sie 1000 Zufallsvariable durch rejection sampling.
(3) Visualisieren Sie das Ergebnis.
Aufgabe 2.10 (Marsaglia-Bray Verfahren).
Sie das Marsaglia–Bray Verfahren.
(1) Implementieren
2.6. AUFGABEN
29
(2) Erzeugen Sie eine Stichprobe vom Umfang 1000 und visualisieren Sie das Ergebnis in inem Histogramm. Legen Sie zur
Kontrolle die Dichte der Normalverteilung in rot darunter.
(3) Vergleichen Sie die Implementationen von Box–Muller und
Marsaglia-Bray hinsichtlich der Rechenzeit zur Erzeugung einer Stichprobe vom Umfang 1000000.
Aufgabe 2.11 (Simulation einer Modellgleichung). Es sollen folgendermaßen n = 50 Zufallsvariable (Beobachtungen) y1 , . . . , y50 erzeugt
werden.
(1) Sie genügen der Modellgleichung y = 5 + 2x1 + x2 .
(2) Der additive zufällige Fehler soll als normalverteilt mit Mittelwert Null und Varianz σ 2 = 0.2 angenommen werden.
(3) Die Beobachtungen erfolgen bei äquidistanten im Intervall [0, 4.9]
Werten x1,1 , . . . , x1,50 und zufälligen, im Intervall [−1, 1] gleichverteilten, Werten x2,1 , . . . , x2,50 .
KAPITEL 3
Beschreibende Statistik
3.1. Grundlegende Fragestellungen der Datenanalyse
Das grundlegende Problem der Statistik kann wie folgt beschrieben
werden: Ein unbekannter Zufallsautomat liefert uns i.i.d. Daten. Können
wir anhand der Daten auf Eigenschaften des Automaten schließen?
Beispiel 3.1. Der Automat liefert 100 Mal das Ergebnis “1”. Schluss:
Es werden immer “1” kommen (konstanter Zufallsautomat). Falsch. Es
könnte auch der Automat geom(0.0001) sein.
Beispiel 3.2 (Würfelautomat). Ergebnisse: 3, 1, 4, 6, 3, 2, 5, 1, . . . .
Welche Frage kann man stellen? Ist der Würfel fair ?
Beispiel 3.3. Im Kurs sind 20 Teilnehmer, davon 7 Studentinnen.
Frage: Ist Interesse von weibl. und männl. Studenten gleich groß?
Beispiel 3.4 (Kaffeetrinkende Ehefrauen).
Verbrauch
Status
0 1-150 151-300 >300
verheirated 652 1537
598 242
geschieden
36
46
38
21
Single
218
327
106
67
Frage: Gibt es einen Zusammenhang zwischen Familienstand und
Koffeinverbrauch?
3.2. Datentypen (statistische Merkmale)
Datensammlungen können/sollten folgende Merkmale aufweisen:
numeric: Zahlenkolonnen
character: Zeichenketten “verheiratet”, “single”
ordered: Anordnungen “1.”, “2.”
logical: Logischer Art “wahr”, “falsch”
Datum: Datumsangaben nach ISO-8601-Standard, 2012-09-06,
oder manuell.
31
32
3. BESCHREIBENDE STATISTIK
Bemerkung 12. Formal kann man natürlich alles als reelle Zahlen
kodieren. Aber, in R hängt die Art der Auswertung vom Datentyp
ab! Außerdem erhöht sich die Lesbarkeit/Interpretierbarkeit der Ergebnisse.
Definition 11. Merkmale mit nur wenigen Ausprägungen, typischerweise Zeichenketten, heißen kategorielle Merkmale. In R heißen
diese factor mit label.
Die grundlegende Struktur sind data frames und table.
3.2.1. Data frames. Hier werden Ergebnisse einer Versuchsreihe
zusammengefaßt, Abb. 1: Die erste Spalte nummeriert die Stichproben.
1
2
3
4
5
6
sex age smoker
w 29
TRUE
w 30
TRUE
w 21
TRUE
m 22
TRUE
m 30 FALSE
w 24
TRUE
'data.frame': 100 obs. of 3 variables:
$ sex
: Factor w/ 2 levels "m","w": 2 2 2 1 1 2 2 2 1 1 ...
$ age
: num 29 30 21 22 30 24 26 27 28 29 ...
$ smoker: logi TRUE TRUE TRUE TRUE FALSE TRUE ...
Abbildung 1. typischer data frame, mal als head(),
mal als structure str().
Jede Stichprobe ist ein Vektor, z. B., 2, 29, T RU E. Insgesamt ergibt
sich eine matrix-artige Anordnung, missing values “NA” sind erlaubt.
3.2.2. Tabellen (tables). Für einige Auswertungen sind zusammengefaßte Tabellen sinnvoll, siehe Abb. 2
3.2.3. Zusammenfassung (summary). Sei data ein data frame.
In R gibt es die Funktion summary(data), die einen kurzen Überblick
über die vorliegenden Daten gibt. Pro vorliegendem Merkmal werden
hier folgende Informationen gesammelt, siehe Abb. 3.
3.3. Umwandeln von Datentypen
Zur korrekten Erzeugung/Umwandlung von Datensätzen stellt R
einige nützliche Funktionen bereit, die hier kurz besprochen werden
sollen.
3.3. UMWANDELN VON DATENTYPEN
33
data.tbl <- with(data.smoker, table(sex, smoker))
data.tbl
smoker
sex FALSE TRUE
m
24
30
w
16
30
Abbildung 2. Datenzusammenfassung in Tabellenform
summary(data.smoker)
sex
age
m:54
Min.
:20.0
w:46
1st Qu.:23.0
Median :24.0
Mean
:25.1
3rd Qu.:28.0
Max.
:30.0
smoker
Mode :logical
FALSE:40
TRUE :60
NA's :0
Abbildung 3. Die summary Funktion
3.3.1. Faktoren erstellen. Gelegentlich kommt es vor, daß vorhandene Faktoren als int bereitgestellt werden. Dies sei im folgenden
Datensatz illustriert.
Beispiel 3.5. zahnschmerzen <- c(0, 1, 1, 2, 3, 2, 0)
zahnschmerzen
[1] 0 1 1 2 3 2 0
fzschmerzen <- factor(zahnschmerzen, levels = 0:3)
levels(fzschmerzen) <- c("frei", "leicht", "mittel", "stark")
fzschmerzen
[1] frei
leicht leicht mittel stark mittel frei
Levels: frei leicht mittel stark
In diesem fall ist sogar ein geordnetes Merkmal angebracht.
fzschmerzen <- ordered(fzschmerzen)
fzschmerzen
[1] frei
leicht leicht mittel stark mittel frei
Levels: frei < leicht < mittel < stark
# Abfrage der levels
34
3. BESCHREIBENDE STATISTIK
levels(fzschmerzen)
[1] "frei"
"leicht" "mittel" "stark"
3.3.2. stack und unstack. Datens”2atze, die kategorielle Faktoren enthalten können in verschiedener Weise dargestellt werden. Hier
ein Beispiel1.
energy <- read.table("energy.dat")
head(energy)
expend stature
1
9.21
obese
2
7.53
lean
3
7.48
lean
4
8.08
lean
5
8.09
lean
6 10.15
lean
str(energy)
'data.frame': 22 obs. of 2 variables:
$ expend : num 9.21 7.53 7.48 8.08 8.09 ...
$ stature: Factor w/ 2 levels "lean","obese": 2 1 1 1 1 1 1 1 1 1 ...
energy.unstack <- unstack(energy)
head(energy.unstack)
$lean
[1] 7.53 7.48 8.08 8.09 10.15 8.40 10.88 6.13 7.90 7.05 7.48
[12] 7.58 8.11
$obese
[1] 9.21 11.51 12.79 11.85
9.97
8.79
9.69
9.68
str(energy.unstack)
List of 2
$ lean : num [1:13] 7.53 7.48 8.08 8.09 10.15 ...
$ obese: num [1:9] 9.21 11.51 12.79 11.85 9.97 ...
# und zurueck
energy.new <- stack(energy.unstack)
str(energy.new)
'data.frame': 22 obs. of 2 variables:
$ values: num 7.53 7.48 8.08 8.09 10.15 ...
1Dies
ist ein Datensatz aus ISwR.
9.19
3.3. UMWANDELN VON DATENTYPEN
35
$ ind
: Factor w/ 2 levels "lean","obese": 1 1 1 1 1 1 1 1 1 1 ...
# muessen nun die Variablennamen neu vergeben:
names(energy.new) <- c("expend", "stature")
str(energy.new)
'data.frame': 22 obs. of 2 variables:
$ expend : num 7.53 7.48 8.08 8.09 10.15 ...
$ stature: Factor w/ 2 levels "lean","obese": 1 1 1 1 1 1 1 1 1 1 ...
3.3.3. Klassenbildung. Wie wir beim caff.marital Datensatz
im Beispiel 3.4 gesehen haben, können numerische Variable (Koffeinaufnahme) in Klassen eingeteilt werden, um so eine neue kategorielle
Variable zu bilden. Dies wird mit der Funktion cut erreicht.
z <- rnorm(1000)
z.klassen <- table(cut(z, breaks = -3:3))
z.klassen
(-3,-2] (-2,-1] (-1,0]
(0,1]
(1,2]
(2,3]
18
142
336
330
146
25
str(z.klassen) # named vector
'table' int [1:6(1d)] 18 142 336 330 146 25
- attr(*, "dimnames")=List of 1
..$ : chr [1:6] "(-3,-2]" "(-2,-1]" "(-1,0]" "(0,1]" ...
sum(z.klassen) # sind welche kleiner als -3 oder groesser als 3?
[1] 997
3.3.4. Teilmengen von Datensätzen. In vielen Fällen möchte
man die verfügbaren Daten nach gewissen Kriterien einschränken.
WG <- data.frame(Name = c("Tanja", "Edgar", "Sina"), Geschlecht = factor(c("w",
"m", "w")), Alter = c(24, 26, 27))
WG
Name Geschlecht Alter
1 Tanja
w
24
2 Edgar
m
26
3 Sina
w
27
str(WG)
'data.frame': 3 obs. of 3 variables:
$ Name
: Factor w/ 3 levels "Edgar","Sina",..: 3 1 2
$ Geschlecht: Factor w/ 2 levels "m","w": 2 1 2
36
3. BESCHREIBENDE STATISTIK
$ Alter
: num 24 26 27
attach(WG)
Alter[1] <- 25
WG
Name Geschlecht Alter
1 Tanja
w
24
2 Edgar
m
26
3 Sina
w
27
# klappt wohhl nicht (wegen attach), daher:
WG$Alter[1] <- 25
WG
Name Geschlecht Alter
1 Tanja
w
25
2 Edgar
m
26
3 Sina
w
27
subset(WG, Alter >= 26)
Name Geschlecht Alter
2 Edgar
m
26
3 Sina
w
27
subset(Name, Alter >= 26)
[1] Edgar Sina
Levels: Edgar Sina Tanja
detach(WG)
3.4. Visualisierung verschiedener univariater Daten(typen)
3.4.1. Numerische Daten. Hier sind verschiedene Graphiken aussagekräftig.
Zuerst erzeugen wir einen numerischen Datensatz von 100 gleichverteilten Zufallsvariablen.
data.unif <- data.frame(x = runif(100))
Mittels Graphiken können wir nun die Dichte im Histogramm, die
Verteilung als Boxplot, und auch den Zusammenhang zur Normalverteilung darstellen. Das liefert Abbildung 4. Wir erkennen hier, daß
die Daten symmetrisch verteilt sind, aber im qqnorm wird deutlich, daß
die Schwänze der Verteilung nicht der Normalverteilung entsprechen.
Weitere Möglichkeiten der Visualisierung sind gegeben durch die empirische Verteilungsfunktion ecdf, siehe Abbildung 5.
3.5. VISUALISIERUNG GRUPPIERTER DATEN
0.4
0.8
x
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1.0
0.6
0.8
●● ●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
0.0
0.4
0.2
0.0
0.0
0.5
0.4
Density
0.0
Sample Quantiles
1.0
0.8
Normal Q−Q Plot
0.6
1.0
1.5
Histogram of x
37
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
● ●
−2
0
1
2
Theoretical Quantiles
Abbildung 4. Visualisierung der Daten als Histogramm hist, summarisch als boxplot, und mittels
qqnorm.
3.4.2. Kategorielle Merkmale. Greifen wieder auf die Daten
aus Beispiel 3.4 zurück. Visualisierung im barplot und auch im Tortendiagramm, siehe Abbildung 6.
3.5. Visualisierung gruppierter Daten
Im Datensatz Rauchen unter Frauen/Männern haben wir zwei kategorielle Merkmale (sex, smoker), und ein numerisches (age).
head(data.smoker)
sex age smoker
1
w 29
TRUE
2
w 30
TRUE
3
w 21
TRUE
4
m 22
TRUE
5
m 30 FALSE
6
w 24
TRUE
38
3. BESCHREIBENDE STATISTIK
1.0
empir. VF
●
0.8
●
●
0.6
●
●
0.4
Fn(x)
●
●
0.2
●
●
0.0
●
0.0
0.2
0.4
0.6
0.8
1.0
x
Abbildung 5. Empirische Verteilungsfunktion (erste
zehn Datenpunkte)
Deshalb kann man sich die Verteilung des numerischen Merkmals
hinsichtlich eines kategoriellen darstellen. Dies ist in Abbildung 7 visualisiert. Liegen mehrere kategorielle Merkmale vor, wie etwa in Beispiel 3.4,
so können diese in barplot nebeneinander gestellt werden, siehe Abbildung 8. Es gibt desweiteren noch stripcharts, wie in Abb. 9 dargestellt.
3.6. Aufgaben
Aufgabe 3.1.
• Lade den Datensatz homedata.
• Welche Struktur hat dieser Datensatz?
• Visualisiere die Daten als Histogramm, getrennt nach Jahren.
• Wie sieht dies im boxplot aus?
Aufgabe 3.2.
• Lade den Datensatz exec.pay.
• Welche Struktur hat dieser Datensatz?
• Visualisiere die Daten, sowohl als Histogramm als auch im qqplot.
• Visualisiere die logarithmierten Daten, sowohl als Histogramm,
als auch im qq-plot.
• Welche Schlußfolgerung ziehen Sie?
3.6. AUFGABEN
39
250
Koffeinverbrauch bei Singles
150
0
1−150
>300
0
50
151−300
0 1−150
>300
Abbildung 6. Barplot (l) und Tortendiagramm (r)
der Daten aus Beispiel 3.4. Tortendiagramme sind die
schlechteste Art, Daten zu visualisieren, da das Auge
Flächen schlecht einschätzen kann.
Aufgabe 3.3.
• Laden Sie den Datensatz mtcars.
• Stellen Sie die Daten der Variable mpg bereit. Welche Bedeutung hat diese?
• Transformieren Sie die Daten, so daß Sie den Verbrauch pro
100 km bereitstellen. Hinweis: Umrechungen sind 1 USMeile
entspricht 0.6237 km, 1 Gallone entspricht 3.79 l.
• Visualisieren Sie die neuen Daten sowohl als Histogramm, boxplot, und stripchart.
Aufgabe 3.4. Der DowJones ist ein Aktienindex. Gemäß der Black–
Scholes Theorie sollten die Zuwächse lognormal verteilt sind. Ziel dieser
Aufgabe ist es, dies visuell zu überprüfen.
• Laden Sie den Datensatz dowdata. Dieser beschreibt die DowJones
Werte von Januar 1999 bis Oktober 2000.
• Bestimmen Sie die logarithmierten Zuwächse.
• Sind diese lognormal verteilt?
40
3. BESCHREIBENDE STATISTIK
28
20
20
28
opar <- par(mfrow = c(2, 2))
with(data.smoker, boxplot(age ~ sex))
with(data.smoker, boxplot(age ~ smoker))
with(data.smoker, stripchart(age ~ smoker))
title(main = "Raucher/Nichtraucher nach Alter")
m
w
FALSE
TRUE
FALSE
Raucher/Nichtraucher nach Alter
20
22
24
26
28
30
age
par(opar)
Abbildung 7. Visualisierung gruppierter Daten im boxplot.
3.6. AUFGABEN
41
barplot(caff.marital, beside = TRUE, legend = rownames(caff.marital))
title(main = "Koffeinverbrauch nach Familienstand")
Koffeinverbrauch nach Familienstand
0
400
800
1200
verheirated
geschieden
Single
0
1−150
151−300
>300
Abbildung 8. Gruppierter barplot der Daten aus Beispiel 3.4.
Abbildung 9. Visualisierung gruppierter Daten in Streifen
Abbildung 10. Spritverbrauch bei US Autos im Jahr 1974
KAPITEL 4
Schließende Statistik
4.1. Fragestellung
Gegeben sind (im einfachen Fall)
• numerische i.i.d. Daten x1 , x2 , . . . , xn ,
• die mittels einer Zufallsvariable X unter Benutzung eines unbekannten Zufallsautomaten erzeugt wurde.
In der parametrischen Statistik gehört der Zufallsautomat zu einer
parametrischen Familie von Verteilungen, in der nur der konkrete Parameter unbekannt ist!
Definition 12 (Statistisches Modell).
Ein W-Raum (Ω, F, (Pϑ )ϑ∈Θ ) mit Familie von W-keiten (Pϑ )ϑ∈Θ heißt
statistisches Modell.
Definition 13 (statistisches Experiment).
Eine Zufallsvariable X : (Ω, F, (Pϑ )ϑ∈Θ ) beschreibt ein statistisches Experiment.
Definition 14 (Stichprobe, Stichprobenraum).
• Eine Realisierung einer i.i.d. Folge X1 , . . . , Xn heißt Stichprobe, im Stichprobenraum (Rn , B n ).
• Die Zahl n heißt Umfang der Stichprobe.
• Die Verteilung
der Stichprobe wird mit Q bezeichnet, also gilt
Q
Q = nj=1 Qi für eine (geeignete) W-keit Qi .
Definition 15 (parametrische Annahme). Es gibt eine Parametermenge Θ ⊂ Rd , so daß ϑ ∈ Θ.
In diesem Kontext gibt es zwei grundlegende Fragestellungen:
(1) Schätze den unbekannten Parameter ϑ!
(2) Teste, ob der Parameter gleich einem vorgegebenen Wert ϑ0
ist!
Beispiel 4.1. Seien die X1 , . . . , Xn i.i.d. gemäß norm (µ, σ 2 ). Zwei
Situationen sind denkbar:
(1) Die Varianz σ 2 istbekannt, und Θ = {µ, µ0 ≤ µ ≤ µ1 }.
43
44
4. SCHLIESSENDE STATISTIK
(2) Beide Parameter sind unbekannt, d.h.,
Θ = {(µ, σ 2 ), µ0 ≤ µ ≤ µ1 , σ0 ≤ σ ≤ σ1 }.
Beispiel 4.2. Seien die X1 , . . . , Xn i.i.d. gemäß pois(λ). Die Parametermenge sei Θ = {λ, λ > 0}.
Beispiel 4.3. Seien die X1 , . . . , Xn i.i.d. gemäß bern(p) verteilt.
Dann setzen wir Θ = {p, 0 ≤ p ≤ 1}.
4.2. Punktschätzer
4.2.1. Begriffsbildung.
Definition 16 (Punktschätzer). Eine meßbare Abbildung S vom
Stichprobenraum in den Parameterraum
S : (Rn , B n ) −→ (Rd , B d )
heißt Punktschätzer für den Parameter ϑ ∈ Θ.
In vielen Fällen schreiben wir ϑ̂ als Schätzer für den unbekannten Parameter ϑ.
Haben folgendes Bild
X1 ,...,Xn
S
(Ω, F, (Pϑ )ϑ∈Θ ) −→ (Rn , B n , (Qϑ )ϑ∈Θ ) −→ (Rd , B d )
Definition 17. Die Anwendung vom Schätzer S auf eine Realisierung (die Stichprobe) heißt Schätzung, also S(X1 (ω), . . . , Xn (ω))
für festes ω ∈ Ω.
Beispiel 4.4 (Gaußexperiment). Betrachten ein Gaußexperiment
S=X̄
X1 ,...,Xn
(Ω, F, norm µ, σ 2 ) −→ (Rn , B n , norm µI, σ 2 I ) −→n (R, B)
Dann ist
P
• X̄n = n1 nj=1 Xj ein Schätzer, und
P
• x̄n = n1 nj=1 xj die dazugehörige Schätzung. Gemäß Gesetz
der großen Zahlen wissen wir: x̄n → µ für n → ∞.
4.2.2. Eigenschaften von Schätzern.
Definition 18 (Erwartungstreue). Ein Schätzer S heißt erwartungstreu
(für den Parameter ϑ) falls für jedes ϑ ∈ Θ gilt
EQϑ (S) = ϑ.
Falls limn→∞ EQϑ (Sn ) = ϑ so heißt die Folge Sn von Schätzern asymptotisch erwartungstreu.
4.2. PUNKTSCHÄTZER
45
Beispiel 4.5. Haben beim Gesetz der großen Zahlen gesehen, daß
das Stichprobenmittel X̄n ein erwartungstreuer Schätzer für den Erwartungswert ist.
Definition 19 (Konsistenz). Eine Folge Sn von Schätzern heißt
konsistent falls
Qnϑ (|Sn − ϑ| > ε) → 0, falls n → ∞.
Satz 4.1. Sei Sn eine Folge erwartungstreuer Schätzer. Falls für
die Varianzen gilt Vϑ (Sn ) → 0 gilt, so ist die Folge Sn konsistent.
Beweis. Wir wenden die Tschebyscheff-Ungleichung an:
Vϑ (Sn )
Qnϑ (|Sn − ϑ| > ε) ≤
→ 0.
ε2
Beispiel 4.6. Hat die ZV X, die die Stichprobe generiert endliche
Varianz, so ist das Stichprobenmittel eine konsistente Schätzung für
den Erwartungswert, denn
1
Vϑ (X̄n ) = V(X1 ) → 0.
n
4.2.3. Fehlerkriterium. Die Fehlermessung bei Punktschätzern
beruht auf einem Abstandsbegriff R : (ϑ, ϑ0 ) ∈ Θ → R+ , der Verlustfunktion genannt wird. Wir werden im folgenden immer R(ϑ, ϑ0 ) =
kϑ − ϑ0 k wählen.
Definition 20 (RMS-Fehler). Sei S ein Schätzer für den Parameter ϑ. Der Quadratmittelfehler (RMS error) ist definiert als
1/2
EQϑ kS − ϑk2
.
Dieser wird auch Risiko genannt.
Die Größe
sup EQϑ kS − ϑk2
1/2
ϑ∈Θ
beschreibt den maximalen Fehler zur Schätzung des unbekannten Parameters.
Definition 21 (Minimax-Schätzer). Ein Schätzer S 0 , der den maximalen RMS-Fehler minimiert, d.h., für den gilt
1/2
1/2
sup EQϑ kS 0 − ϑk2
= min sup EQϑ kS − ϑk2
ϑ∈Θ
S
ϑ∈Θ
heißt Minimax-Schätzer. Der realisierte RMS-Fehler heißt MinimaxFehler.
46
4. SCHLIESSENDE STATISTIK
4.3. Maximum-likelihood Methode
Wie findet man “gute”Schätzer?
4.3.1. diskrete Verteilungen. Angenommen, die Stichprobenverteilung ist diskret mit Werten in Ω, also sind die Punktwahrscheinlichkeiten, bei gegebenem ϑ ∈ Θ gegeben als pϑ (x) = p(x, ϑ), x ∈ Ω.
Definition 22 (Likelihood-Funktion). Bei gegebener i.i.d. Stichprobe x1 , . . . , xn bezeichnet die gemeinsame Punktverteilung
Lx1 ,...,xn (ϑ) := p(x1 , ϑ) ∗ · · · ∗ p(xn , ϑ),
ϑ ∈ Θ,
die Likelihood-Funktion.
Bei der Maximum-likelihood-Methode wird diese Wahrscheinlichkeit
maximiert bzgl. ϑ. Da die Logarithmus-Funktion monoton wachsend
ist, und 0 ≤ L ≤ 1, wird oft zur log-likelihood übergegangen, und wir
bezeichnen
l(ϑ) = − log L(ϑ), ϑ ∈ Θ,
die ihrerseits minimiert werden muß.
Definition 23 (ML-Schätzer, Edgeworth, 1908, Fisher, 1922). Jeder Wert, bei dem das Minimum der log-likelihood angenommen wird
heißt Maximum-likelihood-Schätzer.
Unter Glattheits-Annahmen ist eine notwendige Bedingung für den
Minimierer:
∂
l(ϑ, x1 , . . . , xn ) = 0.
∂ϑ
Beispiel 4.7 (Bernoulli-Experiment). Hier ist p(1, ϑ) = ϑ, p(0, ϑ) =
1 − ϑ. Wir können dies aufschreiben als
p(x, ϑ) = ϑx (1 − ϑ)1−x , x ∈ {0, 1} , 0 < ϑ < 1.
P
Dann ist, mit k = nj=1 xj , die Likelihood-Funktion
L(ϑ) =
n
Y
ϑxj (1 − ϑ)1−xj = ϑk (1 − ϑ)n−k ,
0 < ϑ < 1.
j=1
log L(ϑ) = k log(ϑ) + (n − k) log(1 − ϑ),
das können wir umschreiben, mittels Stichprobenmittel x̄, als
1
log L(ϑ) = x̄ log(ϑ) + (1 − x̄) log(1 − ϑ).
n
1 ∂
x̄ 1 − x̄ !
l(ϑ, x1 , . . . , xn ) = −
= 0.
n ∂ϑ
ϑ 1−ϑ
4.3. MAXIMUM-LIKELIHOOD METHODE
47
Dies führt zu ϑ̂ = x̄ als ML-Schätzung für den unbekannten Parameter ϑ.
Wir veranschaulichen dies in folgender Rechnung.
Lfunct <- function(theta, n, k) theta^k * (1 - theta)^(n - k)
lfunct <- function(theta) -log(Lfunct(theta, n, k))
theta <- 0.4
n <- 50
data <- rbinom(n, 1, theta)
k <- sum(data)
# erster Datensatz
(min.wert <- optimize(lfunct, interval = c(0, 1))$min)
[1] 0.36
# Dies ist gleich
k/n
[1] 0.36
Umfang= 500
Minimum= 0.392
600
400
500
lfunct
40 60 80
lfunct
120
700
Umfang= 50
Minimum= 0.36
0.0
0.4
data
0.8
0.0
0.4
0.8
data
Abbildung 1. Veranschaulichung der MaximumLikelihood Methode. Der wahre Parameter ist ϑ = 0.4
(in blau).
48
4. SCHLIESSENDE STATISTIK
4.3.2. Stetige Verteilungen. Hier werden die Punktw-keiten durch
die Dichten ersetzt.
Definition 24 (Likelihood-Funktion). Bei gegebener i.i.d. Stichprobe x1 , . . . , xn bezeichnet die gemeinsame Dichte
n
Y
L(ϑ, x1 , . . . , xn ) :=
f (xj , ϑ), ϑ ∈ Θ,
j=1
die Likelihood-Funktion.
Definition 25 (Log-likelihood Funktion). Der negative Logarithmus
l(ϑ) := − log L(ϑ)
heißt log-likelihood.
Dies führt zum gleichen Begriff des ML-Schätzers als Minimierer
der log-likelihood.
n
X
l(ϑ, x1 , . . . , xn ) =
− log f (xj , ϑ) −→ MIN!
j=1
Unter Glattheitsannahmen suchen wir Minima als Nullstellen der Ableitung!
Beispiel 4.8 (Gauß-Experiment).
1
Haben Dichte f (x) = √2πσ
e−
2
den Erwartungswert µ.
(x−µ)2
2σ 2
, x ∈ R. Suchen zuerst Schätzer für
n
1 X
+ 2
l(µ, x1 , . . . , xn ) = −n log √
(xj − µ)2
2
2σ
2πσ
j=1
Pn
2
Das wird minimal gdw. j=1 (xj − µ) → MIN! Deshalb ist im GaußExperiment der ML-Schätzer gleich dem Kleinste-Quadrate-Schätzer
(KQ-Schätzer, siehe § 4.5), und der ergibt sich als µ̂ = x̄, wieder
das Stichprobenmittel. Wir können das Minimum per Differentiation
gewinnen, und dies ergibt
∂
n
[−l(µ, x1 , . . . , xn )] = 2 (x̄n − µ)
∂µ
σ
Zum Schätzen der Varianz σ 2 differenzieren wir die log-likelihood
nach σ 2 und erhalten
n
X
2
nσ −
(xj − µ)2 = 0.
1
j=1
(1) Ist µ bekannt, so ergibt dies einen erwartungstreuen Schätzer
der Varianz.
4.4. BESTE SCHÄTZER: CRAMÉR–RAO UNGLEICHUNG
49
(2) Bei unbekanntem µ ersetzen wir µ durch den Schätzer x̄ und
es ergibt sich
n
1X
σˆ2 = S 2 =
(xj − x̄)2 .
n j=1
Diese Schätzer ist nicht erwartungstreu! Das führt zur Korrektur
n
1 X
2
(xj − x̄)2
S =
n − 1 j=1
als erwartzungstreuen Schätzer für die Varianz im Gauß-Experiment,
er heißt empirische Varianz.
Vorrechnen!
Bemerkung 13. Obwohl wir i.A. Schätzer für einen Parameter
ϑ mit ϑ̂ bezeichnen, wird hier eine Ausnahme gemacht, denn σb2 sähe
schlecht aus. Diese Ausnahme hat sich in der Statistik eingebürgert.
Bemerkung 14. Die oben eingeführten Schätzer, Stichprobenmittel x̄n und empirische Varianz S 2 werden in R mittels mean() und
var() aufgerufen; es gibt auch sd() für die Standardabweichung.
4.4. Beste Schätzer: Cramér–Rao Ungleichung
Satz 4.2 (Rao, 1945, Cramér, 1946). Sei S ein erwartungstreuer
Schätzer in einem Modell mit diff ’barer Likelihood-Funktion Lx1 ,...,xn (ϑ) =
f (x1 , . . . , xn , ϑ), und der log-likelihood l(ϑ). Dann gilt
Vϑ (S) ≥
1
.
Vϑ (l0 )
Beweis. Wir setzen x := (x1 , . . . , xn ), und nehmen an, daß ϑ univariat ist.
R
• Wegen Erwartungstreue können wir schreiben: ϑ = S(x)f (x, ϑ) dx.
• Nach Differentiation erhalten wir:
Z
∂
1 = S(x) f (x, ϑ) dx
∂ϑ
Z
∂
= S(x) [−l(ϑ)]f (x, ϑ) dx.
∂ϑ
R
• Da f eine Dichte ist,R so gilt 1 = f (x, ϑ) dx,
R und nach Differ∂
entiation folgt: 0 = ∂ϑ
[l(ϑ)]f (x, ϑ) dx = l0 (x)f (x) dx.
• Daher ist V(l0 ) = Eϑ (l0 )2 .
50
4. SCHLIESSENDE STATISTIK
• Alles zusammen ergibt sich
Z
Z
0
1 = S(x)(−l) (x)f (x) dx = (S(x) − ϑ)(−l)0 (x)f (x) dx
Z
≤
1/2 Z
2
(S(x) − ϑ) f (x) dx
1/2
= (Vϑ (S))1/2 (Vϑ (l0 ))
0
2
1/2
(l (x)) f (x) dx
.
Das war zu zeigen.
Definition 26 (Fischer-Information). Die Größe
0
Z I(ϑ) := Vϑ (l ) =
2
∂
[l(ϑ)] f (x, ϑ) dx
∂ϑ
hängt nur von der zugrunde liegenden likelihood-Funktion ab, sie ist
also modellspezifisch. Daher hat sie den Namen Fisher-Information
bekommen.
Bemerkung 15. Da die Varianz eines erwartungstreuen Schätzers
gleich seinem RMS-Fehler ist, so liefert die Cramér–Rao-Ungleichung
eine untere Schranke für beliebige erwartungstreue Schätzer:
Eϑ (S − ϑ)2
1/2
≥
1
.
I(ϑ)
Definition 27 (BUE- und BLUE-Schätzer). Erwartungstreue Schätzer,
deren RMS-Fehler die untere Schranke annehmen heißen best unbiased
estimators (BUE). Ist der Schätzer linear in den Daten, wie etwa das
Stichprobenmittel, so heißt ein BUE-Schätzer auch BLUE.
2
2
1
Beispiel 4.9 (Gauß-Experiment). Sei f (x, µ) = √2πσ
e−(x−µ) /(2σ ) ,
2
wobei wir σ als bekannt voraussetzen. Wir haben in Beispiel 4.8 l0 bereits ausgerechnet: l0 = σn2 (x̄−µ). Daher ist die Fisher-Information I(µ) =
V(l0 ) = σn2 . Dies ist aber gleich dem Inversen der Varianz V(x̄) des
Stichprobenmittels, welcher deshalb BLUE ist (im Gauß-Experiment).
Wir sehen weiterhin zwei Dinge:
√
(1) Das Stichprobenmittel x̄n hat als RMS-Fehler den Wert σ/ n
(parametrische Rate).
(2) Kein anderer erwartungstreuer Schätzer kann einen kleineren
Fehler haben!
4.5. KQ-METHODE: DAS REGRESSIONSPROBLEM
51
4.5. Die Kleinste-Quadrate-Methode: das
Regressionsproblem
Gegeben sei eine Stichprobe von unabhängigen ZV Y1 , . . . , Yn . Wir
nehmen an, daß ein funktioneller Zusammenhang
Yi = β0 + β1 ∗ xi + εi ,
i = 1, . . . , n,
besteht, wobei die εi i.i.d, zentriert sind Eεi = 0, V(εi ) = σ 2 . Die
x1 , . . . , xn sind hierbei gegeben. Um den Modell-Parameter β = (β0 , β1 )
zu schätzen wählen wir die Methode der kleinsten Quadrate: Bei gegebenem Parameter β sei
Q(β) :=
n
X
(Yj − β0 − β1 xj )2
j=1
das Residuum (der Missfit). Ziel ist es den Missfit zu minimieren,
Q(β) −→ MIN!
Definition 28 (Lineare Regression, Legendre 1805, Gauß 1809).
Gegeben sei das obige Modell mit dem Parameter β. Das Minimieren
der quadratischen Funktion β → Q(β) wird als (lineare) Regression
bezeichnet. Die Minimierer β̂0 , β̂1 werden Regressionskoeffizienten genannt.
Die Funktion Q ist quadratisch in β, und der Minimierer kann durch
Differentiation erhalten werden. Dies führt, mit der Modell-Matrix, Designmatrix


1 x1
 1 x2 

X=
. . . . . . .
1 xn
zu folgendem Gleichungssystem (Normalengleichungen):
 
Y1

Y2 

X T Xβ = X T 
. . .
Yn
Damit ergibt sich der Regressionsparameter β̂ als
 
Y1

−1
Y2 

β̂ = X T X
XT 
. . . (Regressionsgleichung)
Yn
52
4. SCHLIESSENDE STATISTIK
Die Matrix X T X und die rechte Seite berechnen sich als
 
Y1
P P

n
Y2 
β0
Y

P x2j
= P j
= XT 
X T Xβ = P
. . . 
xj
xj
β1
Y j xj
Yn
Nach einigen Umformungen ergeben sich die Schätzer β̂0 , β̂1 als
β̂0 = Ȳ − β̂1 x̄ (Residuengleichung)
P
(xj − x̄)Yj
β̂1 = P
(xj − x̄)2
Desweiteren berechnet man
Eβ̂1 = β1
(Erwartungstreue)
σ2
.
2
j=1 (xj − x̄)
V(β̂1 ) = Pn
Wir sehen, daß dieser Schätzer konsistent ist, falls nur
∞ mit n → ∞.
Pn
2
j=1 (xj − x̄)
→
Definition 29 (empirische Korrelation). Der Koeffizient β̂1 kann
in anderer Form geschrieben werden, als
P
(xj − x̄)(Yj − Ȳ )
sxy
P
β̂1 =
.
=:
2
sx
(xj − x̄)
Formel
ausführen!
Der empirische Korrelationskoeffizient ist gegeben als
sxy
ρ(Y, x) := √ √ ,
sx sy
das ist “konsistent” mit der Definition der Korrelation zweier ZV.
In R bekommt man diesen mit cor(Y,x).
Bemerkung 16. Die KQ-methode macht keine Verteilungsannahmen! Nimmt man jedoch an, daß die Fehler ε1 , . . . , εn i.i.d. ∼ norm (0, σ 2 ),
so ergibt sich der in § 4.3 berechnete Maximum-likelihood-Schätzer,
siehe S. 48!
Beispiel 4.10. Wir demonstrieren die lineare Regression anhand
des Datensatzes thuesen aus ISwR, siehe Abbildung 2.
Bemerkung 17. Ähnlich kann man multiple Regression und polynomiale Regression durchführen.
4.5. KQ-METHODE: DAS REGRESSIONSPROBLEM
53
4.5.1. Das Simpson-Paradoxon. Bei der linearen Regression kann
es wichtig sein, weitere (kategorielle) faktoren zu berücksichtigen, und
iwr demonstrieren deis anhand des folgenden Datensatzes students.dat.
students <- read.table("students.dat", header = TRUE)
str(students)
'data.frame': 150 obs. of 3 variables:
$ semester: int 10 10 5 9 4 5 9 4 4 6 ...
$ degree : Factor w/ 2 levels "bachelor","master": 1 1 1 1 1 1 1 1 1 1 ...
$ income : int 1500 2100 1700 2500 2500 2100 1700 1900 1800 2500 ...
Wie verhält sich das (Anfangs)-Einkommen zur Studiendauer? Dies
lösen wir durch lineare Regression mit der Annahme income = a + b ·
semester:
2500
1500
income
3500
attach(students)
X <- cbind(1, semester)
hat.beta <- solve(t(X) %*% X) %*% t(X) %*% income
plot(income ~ semester, data = students, pch = 3)
abline(hat.beta, col = "red")
4
6
8
10
12
14
16
semester
detach(students)
Moral: Laenger Studieren bringt bares Geld! ABER, es gibt ja noch
den Faktor degree. Hat der Einfluß auf das Einkommen. Zu diesem
54
4. SCHLIESSENDE STATISTIK
Zwecke zerlegen wir die Daten anhand dieses Faktors und führen jeweils
getrennte Regression durch.
students.bachelor <- subset(students, degree == "bachelor")
students.master <- subset(students, degree == "master")
# Regression fuer bachelor
attach(students.bachelor)
X <- cbind(1, semester)
hat.beta.bachelor <- solve(t(X) %*% X) %*% t(X) %*% income
detach(students.bachelor)
attach(students.master)
X <- cbind(1, semester)
hat.beta.master <- solve(t(X) %*% X) %*% t(X) %*% income
detach(students.master)
# Finaler plot:
plot(income ~ semester, data = students, pch = 3)
title("Einkommensverteilung nach Studiendauer")
abline(hat.beta, col = "red")
income.master <- function(x) hat.beta.master[1] + hat.beta.master[2] * x
income.bachelor <- function(x) hat.beta.bachelor[1] + hat.beta.bachelor[2] *
x
segments(4, income.bachelor(4), 9, income.bachelor(9), col = "blue")
segments(9, income.master(9), 16, income.master(16), col = "blue")
2500
1500
income
3500
Einkommensverteilung nach Studiendauer
4
6
8
10
semester
12
14
16
4.6. VERTEILUNGEN: NORMALVERTEILUNG UND CO.
55
Dieser Effekt wird oft Simpson-Paradoxon genannt: Ohne Berücksichtigung zusätzlicher Faktoren wird die Regression verfälscht.
4.6. Verteilungen: Normalverteilung und Co.
Im weiteren Verlauf werden einige, von der Normalverteilung abgeleitete Verteilungen wichtig werden. Diese werden hier eingeführt.
4.6.1. Die Γ-Verteilung. Wir erinnern uns an die Γ-Funktion
Z ∞
tr−1 e−t dt, r > 0.
Γ(r) :=
0
Diese enthält die Fakultäten als Spezialfälle:
√
• Γ(1) = 1, Γ(1/2) = π;
• Γ(r + 1) = rΓ(r), und
• Γ(k) = (k − 1)!, k ∈ N.
Nach Substitution t ← αx erhalten wir
Z ∞
Γ(r) =
αr xr−1 e−αx dx.
0
Definition 30 (Gamma-Verteilung). Eine ZV mit der Dichte
αr r−1 −αx
γα,r :=
x e , x > 0,
Γ(r)
heißt Γα,r -verteilt.
Bemerkung 18. Wir werden im folgenden ZV und Verteilungssymbole identifizieren, d.h., γα,r kann auch selbst eine derartig verteilte
ZV sein.
4.6.2. Die β-Verteilung. Wir erinnern uns an die Eulersche βFunktion, die für a, b > 0 gegeben ist als
Z 1
B(a, b) :=
sa−1 (1 − s)b−1 ds.
0
Definition 31 (Beta-Verteilung). Zu gegebenen a, b > 0 sei
βa,b :=
xa−1 (1 − x)b−1
,
B(a, b)
0 < x < 1,
die Dichte der im Intervall (0, 1) verteilten βa,b -Verteilung.
Satz 4.3 (Kalkül für die Γ- und β-Verteilungen). Seien α, r, s > 0
, und sei X ∼ Γα,r , Y ∼ Γα,s unabhängige ZV. Dann gilt:
X
sind unabhängig,
(1) X + Y und X+Y
(2) X + Y ∼ Γα,r+s , und
56
4. SCHLIESSENDE STATISTIK
(3)
X
X+Y
∼ βr,s (kein α hier!).
Beweis. Die gemeinsame Dichte ist
vorrechnen
αr+s
fX,Y (x, y) = γα,r (x)γα,s (y) =
xr−1 y s−1 e−α(x+y) , x, y > 0.
Γ(r)Γ(s)
X
Definieren neue ZV ϕ(X, Y ) := X + Y, X+Y
. Der Transformationssatz für Integrale, mittels Jacobi-Matrix ϕ−1 , ergibt in den neuen Koordinaten u, v, u > 0, 0 < v < 1
αr+s
ur+s−1 v r−1 (1 − v)s−1 e−αu
Γ(r)Γ(s)
Γ(r + s)
=
B(r, s)γα,r+s (u)βr,s (v).
Γ(r)Γ(s)
ρ(uv, u(1 − v)) =
Bemerkung 19. Der Vorfaktor ist notwendiger-weise gleich Eins!
4.6.3. Die χ2 -Verteilung.
Korollar 4.1. Seien X1 , . . . , Xn ∼ norm (0, 1) i.i.d.
Dann ist X12 + · · · + Xn2 ∼ Γ1/2,n/2 .
Beweis. Wir beobachten folgendes: Falls X ∼ norm (0, 1) so gilt
X ∼ Γ1/2,1/2 (Koordinatentransformation u ← x2 ).
2
Definition 32 (χ2 -Verteilung). Eine ZV mit der Dichte
χ2n (x)
xn/2−1
= γ1/2,n/2 (x) = n/2
e−x/2 , x > 0
2 Γ(n/2)
heißt Xn2 -verteilt (χ2 -verteilt mit n Freiheitsgraden).
Bemerkung 20. Wie aus der Herleitung ersichtlich, ist dies die
typische Verteilung der Quadratsumme normalverteilter ZV.
Offensichtlich gilt folgende Additivität.
Korollar 4.2. X ∼ χ2m und Y ∼ χ2n unabhängig impliziert X +
Y ∼ χ2m+n .
Korollar 4.3.
(1) Es gilt Eχ2n = n, V(χ2n ) = 2n, und
2 −n
(2) Für große n ist χ√n2n
∼ norm (0, 1).
4.6. VERTEILUNGEN: NORMALVERTEILUNG UND CO.
57
0.10
0.20
df=1
df=5
df=15
0.00
fun(x)
0.30
Die Chi−Quadrat−Verteilung
0
5
10
15
20
25
30
x
4.6.4. Die F -Verteilung.
Definition 33 (F -Verteilung). Zu m, n ∈ N sei
fm,n (x) :=
mm/2 nn/2
xm/2−1
,
B( m2 , n2 ) (mx + n)(m+n)/2
x > 0,
die Dichte der Fm,n -Verteilung (F -Verteilung mit m und n Freiheitsgraden).
Satz 4.4. Seien X1 , . . . , Xm und Y1 , . . . , Yn i.i.d. ∼ norm (0, 1).
Dann ist die ZV
Pm
1
2
j=1 Xj
m
W := 1 Pn
2
j=1 Yj
n
Fm,n verteilt mit m und n Freiheitsgraden.
Korollar 4.4. Seien X ∼ χ2m und Y ∼ χ2n unabhängig. dann ist
die ZV
1
X
m
∼ Fm,n .
1
Y
n
4.6.5. Die t-Verteilung.
58
4. SCHLIESSENDE STATISTIK
Definition 34 (t-Verteilung, “Student” W. S. Gosset, 1908). Zu
n ∈ N sei
−(n+1)/2
1
x2
√
rn (x) =
1+
, x ∈ R.
n
B( 12 , n2 ) n
die Dichte der tn -Verteilung (t-Verteilung mit n Freiheitsgraden).
0.5
Die t−Verteilung
0.3
0.2
0.0
0.1
fun(x)
0.4
df=1
df=5
df=15
normal
−4
−2
0
2
4
x
Satz 4.5. Sei X, Y1 , . . . , Yn i.i.d. ∼ norm (0, 1). Dann ist
X
W =q P
n
1
n
j=1
Yj2
tn -verteilt.
√ 2 ∼
Korollar 4.5. Falls norm (0, 1) und χ2n unabhängig, so norm(0,1)
χn /n
tn .
Korollar 4.6. Für n → ∞ gilt χ2n /n → 1, daher tn → norm (0, 1)
für n → ∞.
Interessant ist die folgende Beziehung zur F -Verteilung.
Korollar 4.7. Sei X ∼ tn . Dann ist X 2 ∼ F1,n .
4.7. PARAMETERSCHÄTZUNG IM GAUSS-EXPERIMENT
59
1.0
Die F−Verteilung
0.6
0.4
0.0
0.2
fun(x)
0.8
df1=1, df2=5
df1=5, df2=5
df1=10, df2=15
0
1
2
3
4
5
6
x
4.7. Parameterschätzung im Gauß-Experiment
Satz 4.6 (Hauptsatz, “Student”, W. S. Gosset, 1908). Sei X1 , . . . , Xn
eine i.i.d. norm (µ, σ 2 ) verteilte Stichprobe. Wir betrachten die Schätzer
n
1X
X̄n =
Xj
n j=1
für den Erwartunsgwert, und
n
1 X
S =
(Xj − X̄n )2
n − 1 j=1
2
für die Varianz. Dann gilt.
(1) Die Schätzer X̄n und S 2 sind unabhängig.
(2) Die Verteilungen der Schätzer sind X̄n ∼ norm (µ, σ 2 /n) und
n−1 2
S ∼ χ2n−1 .
σ2
√
(3) Es gilt Tn := n X̄nS−µ ∼ tn−1 .
Beweis. Wir betrachten die normierten Yi := (Xi −µ)/σ ∼ norm (0, 1),
und die dafür gebildeten Schätzer Ȳn , SY2 , resp.
• Wenn wir den Satz für die Y1 , . . . , Yn bewiesen haben, dann folgt aus der Unabhängigkeit der Ȳn , SY2 auch die Unabhängigkeit
der eigentlichen Schätzer X̄n = σ Ȳn + µ, S 2 = σ 2 SY2 .
60
Einschub
hang C
An-
4. SCHLIESSENDE STATISTIK
• Desweiteren gilt für die Verteilungen: Hat Ȳn ∼ norm (0, 1/n),
so folgt X̄n ∼ norm (µ, σ 2 /n), aber auch (n − 1)SY2 ∼ χ2n−1
impliziert n−1
S 2 ∼ χ2n−1 , denn die ZV stimmen überein.
σ2
• Da
√ Ȳn
√ X̄n − µ
n
= n
SY
S
√ Ȳn
√
folgt aus n SY ∼ tn−1 das gleiche für n X̄nS−µ .
• Wir können also annehmen, daß µ = 0, σ 2 = 1 gelten. Es
genügt zu zeigen, daß X̄n und S 2 unabhängig sind. Zu diesem
Zwecke genügt es eine (maßerhaltende, orthogonale) Koordinatentransformation
O zu finden, die in der ersten Zeile kon√
stant = 1/ n ist. dann folgt
 √

  1 Pn



√
Y1
X1
nX̄n
j=1 Xj
n
  Y2 
 
 Y2 

Y2
=
 = O  X2  = 


. . . . . .
. . . . . .  
  ... .
...
Yn
Xn
Yn
Yn
Da die Abbildung orthogonal ist, so folgt aus X ∼ norm (0, I)
auch Y ∼ norm (0, I) (gemeinsame Dichte hängt nur von kxk2
ab). Mit diesen Y1 , . . . , Yn folgt jedoch
2
(n − 1)S =
n
X
2
(Xi − X̄n ) =
j=1
=
=
n
X
j=1
n
X
n
X
Xi2 − nX̄n2
j=1
Yi2 − nX̄n2 =
n
X
Yi2 + Y12 − nX̄n2
j=2
Yi2 ∼ χ2n−1 .
j=2
Insbesondere hängt S 2 nur von Y2 , . . . , Yn ab, und X̄n nur von
Y1 , die beiden sind somit unabhängig.
4.8. Konfidenzbereiche
Hier werden wir diskutieren, mit welcher Zuverlässigkeit bestimmte
Schätzer in der Nähe des (wahren) zugrunde liegenden Parameters
liegen. Dies wird mittels eines Konfidenz-Niveaus, einem Parameter
0 < α < 1 getan werden.
4.8. KONFIDENZBEREICHE
61
Definition 35 (Konfidenzbereich). Sei (Qϑ )ϑ∈Θ , Θ ⊂ Rd eine
Familie von Stichproben-Verteilungen. Eine Abbildung K : Rn → F d
mit der Eigenschaft, daß für all ϑ ∈ Θ gilt
Qϑ ({x, ϑ ∈ K(x)}) ≥ 1 − α
heißt Konfidenzbreich (zum Niveau 1 − α).
Bemerkung 21 (Interpretation). Für jede Realisierung x1 , . . . , xn
gemäß Qϑ liegt der wahre Parameter ϑ mit W-keit 1−α in K(x1 , . . . , xn ).
Für ein Bernulli-Experiment ist dieser Sachverhalt in Abb. 4 verdeutlicht.
Es geht hier darum, einen möglichst kleinen Bereich zu finden, der
dies leistet. Der ganze Rd würde es ja auch tun, wäre jedoch nicht sehr
informativ.
Beispiel 4.11 (Gauß-Experiment, σ 2 bekannt). Sei eine Familie
von Normalverteilungen gegeben, d.h.,
Qµ = norm µI, σ 2 I , (µ ∈ Θ = {µ ∈ R})
Es liege eine Stichprobe x1 , . . . , xn vor. Wir betrachten als Schätzung
das Stichprobenmittel x̄n . Dann kennen wir die Verteilung X̄n ∼ norm (µ, σ 2 /n),
also ist die normalisierte Größe
√ X̄n − µ
Tn := n
∼ norm (0, 1) .
σ
Es folgt P (−t0 ≤ Tn ≤ t0 ) = Φ(t0 ) − Φ(−t0 ) = 2Φ(t0 ) − 1, t0 > 0
(wegen Symmetrie). Wählen daher t0 = t1−α/2 := qnorm(1 − α/2), das Bild malen!
(1−α/2)-Quantil der Normal-Verteilung, und als Konfidenzbereich zum
Niveau 1 − α die Menge
σ
σ
K(x̄n , α) := µ, x̄n − t1−α/2 √ , x̄n + t1−α/2 √
.
n
n
Nach Konstruktion gilt Qϑ (K(x̄n , α)) = 1 − α.
Beispiel 4.12 (Gauß-Experiment, µ, σ 2 unbekannt). Wir gehen
genau so vor wie oben, diesmal gilt jedoch, nach dem Student’schen
√
Hauptsatz, daß Tn = n X̄nS−µ ∼ tn−1 , darin kommt die Schätzung s2
der Varianz vor. Wählen also diesmal das (1 − α/2)-Quantil tn−1,1−α/2
der tn−1 -Verteilung (die ja auch symmetrisch zur Null ist) und erhalten
für das Intervall
s
s
.
K(x̄n , α) := µ, x̄n − tn−1,1−α/2 √ , x̄n + tn−1,1−α/2 √
n
n
die Überdeckungsw-keit 1 − α.
62
4. SCHLIESSENDE STATISTIK
Die folgende Graphik veranschaulicht die Lage des Konfidenzbereichs im t-Test bei x̄n = 0.
0.4
Konfidenzintervall
0.2
0.3
t−Verteilung mit 28 FG
0.1
1−α
0.0
α 2
−3
α 2
−2
−1
0
1
2
3
Konfidenzbereich
Beispiel 4.13 (Blutplättchen beim Rauchen). Es wurde bei 11 Individuen die Aggregation von Blutplättchen vor und nach dem Rauchen
einer Zigarette gemessen. Die folgenden Daten geben den Anteil aggregierter Blutplättchen (in Prozent) nach einer Stimulation an.1 Die
Rechnungen sind In Abbildung 3 ersichtlich.
Beispiel 4.14 (Konfidenzbereich für Varianz-Schätzer im Gauß–
Experiment). Wie im Hauptsatz, § 4.7, gezeigt, gilt für den Schätzer
n
S2 =
1 X
(Xi − X̄n )2
n − 1 j=1
daß n−1
S 2 ∼ χ2n−1 . Die χ2n−1 -Verteilung ist nicht symmetrisch! Deshalb
σ2
wählen wir zwei Quantile qn−1,α/2 und qn−1,1−α/2 . Dann gilt
n−1 2
Qσ2 qn−1,α/2 ≤
s ≤ qn−1,1−α/2 = 1 − α.
σ2
1Dieser
Datensatz ist der Vorlesung Statistik für Biologie und Pharmazeutis”
che Wissenschaften“, ETH Zürich, 2009, entnommen.
4.8. KONFIDENZBEREICHE
63
Nach Umformung ergibt sich
n−1 2
n−1 2
2
2
K(s) = σ ,
s ≤σ ≤
s .
qn−1,1−α/2
qn−1,α/2
Beispiel 4.15 (Einseitiger Konfidenzbereich für Varianz-Schätzer
im Gauß-Experiment). Oft möchte man nur Sicherheit nach oben haben.
Dann sieht man
n−1 2
2
2
s = 1 − α.
Qσ 2 σ , σ ≤
qn−1,α
Beispiel 4.16 (Bernoulli-Experiment approximativ). Haben Stichprobe X1 , . . . , Xn i.i.d. gemäß bern(p) mit unbekanntem Parameter 0 <
p < 1. Als erwartungstreuen Schätzer wählen wir wieder das Stichprobenmittel (Maximum-likelihood Schätzer, siehe § 4.3.1), was sich in
diesem Fall als relative Häufigkeit entpuppt:
# {j, Xj = 1}
p̂ = X̄n =
.
n
Um ein Konfidenzintervall für den unbekannten Parameter p zu finden,
nutzen wir die Tatsache, daß die standardisierte Zufallsvariable
p̂ − p
z=
SE
q
wobei SE = p(1−p)
die Standardabweichung bestimmt. Die so stann
dardisierte Zufallsvariable z ist approximativ standard-normalverteilt,
und wir bestimmen das Konfidenzintervall wie im Gauss-experiment
bei bekannter Varianz, vgl. Bsp. 4.11. Dazu ersetzen wir die unbekanq
nte Standardabweichung durch die geschätzte, also durch S =
also als
p̂(1−p̂)
n
K(p̂) = [p̂ − qnorm(1 − α/2) · S, p̂ + qnorm(1 − α/2) · S]
Wir betrachten folgendes numerisches Beispiel: Bei einem Stichprobenumfang 100 wurde in 30 Fällen ein positives Ergebnis erzielt. Wie bestimmt sich das Konfidenzintervall für die unbekannte Erfolgsw-keit p?
In R sieht dies folgendermaßen aus:
n <- 100
k <- 30
alpha <- 0.05
p.hat <- k/n
S <- sqrt(p.hat * (1 - p.hat)/n)
zstar <- qnorm(1 - alpha/2)
c(p.hat - zstar * S, p.hat + zstar * S)
64
4. SCHLIESSENDE STATISTIK
[1] 0.2102 0.3898
Diese Art des approximativen Konfidenzintervalls (etwas verfeinert)
findet sich in R im prop.test.
prop.test(k, n)$conf.int[1:2]
[1] 0.2145 0.4011
Eine Simulation dieser Situation findet sich in Abb. 4.
Beispiel 4.17 (Bernoulli-Experiment, Clopper–Pearson-Intervall,
1934). Haben, wie oben, eine Stichprobe X1 , . . . , Xn i.i.d. gemäß bern(p)
mit unbekanntem Parameter 0 < p < 1.
Wir kennen die Verteilung nX̄n ∼ binom(n, p) (Anzahl der Erfolge
im Bernoulli-Experiment, siehe § 1.4). In diesem Fall ist die Verteilungsfunktion eine Treppenfunktion
F (k, n, p) :=
k
X
b(j, n, p),
k = 1, . . . , n.
j=0
Das Clopper-Pearson-Intervall [p.L, p.U ] bestimmt sich nun folgendermaßen.
• Für festes k ist die W-keit Pp (X ≥ k) eine stetige fallende
Funktion in p. Bei beobachtetem k bestimmen wir p.U =
p.U (k) derart, daß Pp.U (X ≥ k) = 1 − F (k − 1, n, p.U ) =
α/2. Analoges gilt für p.L(k), und wir bestimmen dies durch
Pp.L (X ≤ k) = F (k, n, p.L) = α/2.
• Es gilt Pp (p ∈ [p.L, p.U ]) = 1 − Pp (p < p.L(k)) − Pp (p >
p.U (k)).
• Wir beobachten daß
n
o
α
{k, p > p.U (k)} ⊆ {k, Pp.U (X ≤ k) ≥ Pp (X ≤ k)} ⊆ 0, qbinom( , n) .
2
Daher folgt
α
Pp (p > p.U (k)) ≤ Pp ({0, qbinom(α/2, n)}) ≤ .
2
Analoges folgt für p.L, so daß das Intervall [p.L(k), p.U (k)] ein
Konfidenzintervall zum Niveau 1 − α ist.
Wie bestimmt man das Clopper–Pearson-Intervall?
naiv: conf.binom <- function(k, n, alpha = 0.05) {
Fnk.p.U <- function(theta) sum(dbinom(0:k, n, theta)) - alpha/2
Fnk.p.L <- function(theta) sum(dbinom(k:n, n, theta)) - alpha/2
p.U <- uniroot(Fnk.p.U, c(0, 1))$root
4.8. KONFIDENZBEREICHE
65
p.L <- uniroot(Fnk.p.L, c(0, 1))$root
return(c(p.L, p.U))
}
k <- 30
n <- 100
alpha <- 0.05
conf.binom(k, n)
[1] 0.2124 0.3998
praktisch: Hier benutzen wir folgende Beobachtung. Es gilt
α
Fnk.p.U(p) + = pbeta(1 − p, k + 1, n − k)
2
Dies stellt einen Zusammenhang zur β-Verteilung, siehe § 4.6.2.
Demzufolge wird p.U bestimmt durch
p.U = qbeta(1 − α/2, k + 1, n − k),
und analog p.L = qbeta(α/2, k, n − k + 1).
c(qbeta(alpha/2, k, n - k + 1), qbeta(1 - alpha/2, k + 1, n - k))
[1] 0.2124 0.3998
Dies ist auch in R implementiert, siehe
p.L <- function(x, alpha) {
if (x == 0)
0
else qbeta(alpha, x, n - x + 1)
}
p.U <- function(x, alpha) {
if (x == n)
1
else qbeta(1 - alpha, x + 1, n - x)
}
Bemerkung 22. Im allgemeinen muß der kleinste Konfidenzbereich kein Intervall sein! Das ist nur der Fall, wenn Monotonie vorliegt.
Wir fassen die Konstruktion von Konfidenzintervallen kurz in Tabell 1
zusammen.
66
4. SCHLIESSENDE STATISTIK
Statistik
Verteilung
Konfidenzintervall
Zn :=
X̄n −µ
σ
norm (0, 1)
X̄n ± z1−α/2 √σn
Tn :=
X̄n −µ
S
tn−1
X̄n ± tn−1,1−α/2 √Sn
2
(n − 1) Sσ2
χ2n−1
σ2 ≤
n−1
S2
χ2n−1,α
(einseitig)
Tabelle 1. Übersicht über Konfidenzintervalle
4.9. Aufgaben
Aufgabe 4.1. Eine allgemeine Regel besagt, daß die maximale
Herzfrequenz altersabhängig mit der simplen Formel
maxrate = 220 − age
sein soll.2 In einer Studie3 wurden folgende Daten gemessen.
heartrate <- data.frame(age = c(18, 23, 25, 35, 65, 54, 34, 56, 72, 19, 23,
42, 18, 39, 37), maxrate = c(202, 186, 187, 180, 156, 169, 174, 172, 153,
199, 193, 174, 198, 183, 178))
• Veranschaulichen Sie die Rohdaten in einer Graphik.
• Führen Sie die Regression zur Überprüfung der oben genannten Formel durch.
• Fügen Sie die Regressionsgerade der Graphik in rot hinzu.
Aufgabe 4.2. Im Datensatz diamond.dat sind Diamantpreise in
Abhangigkeit von der Größe festgestellt.
• Laden Sie den Datensatz.
• Bestimmen Sie, ob der Preis (in $) eines Diamanten proportional zu seiner Größe ist.
Aufgabe 4.3. Simulieren Sie 100 zweidimensionale Zufallsvektoren,
die gemeinsam normalverteilt sind und die Korrelation ρ = 0.9 besitzen.
2Grundlage
ist die Arbeit “Age-predicted maximal heart rate revisited”,
H. Tanaka, K. D. Monahan, and D. R. Seals, J. Am. Coll. Cardiol., 37:1, 153–
156, 2001. Dort wurde der funktionelle Zusammenhang maxrate = 209 − 0.7age
bestätigt.
3
Simuliert von J. Verzani, UsingR.
4.9. AUFGABEN
67
require("ISwR")
Lade ntiges Paket: ISwR
data(thuesen)
head(thuesen)
blood.glucose short.velocity
1
15.3
1.76
2
10.8
1.34
3
8.1
1.27
4
19.5
1.47
5
7.2
1.27
6
5.3
1.49
# short.velocity = Herzkammerkontraktionsgeschwindigkeit
attach(thuesen)
X <- cbind(rep(1, dim(thuesen)[1]), blood.glucose)
hat.beta <- solve(t(X) %*% X) %*% t(X) %*% short.velocity
# veraltete Regression
lsfit(blood.glucose, short.velocity)$coef
Warning: 1 missing values deleted
Intercept
X
1.09781
0.02196
# moderne Variante
(lm.fit <- lm(short.velocity ~ blood.glucose)$coef)
(Intercept) blood.glucose
1.09781
0.02196
Datensatz: thuesen
●
1.6
●
●
●
1.4
●
●
● ●
1.2
short.velocity
1.8
●
●
1.0
●
●
●
●
●
●
●
●
●
●
●
●
●
5
10
15
blood.glucose
detach(thuesen)
Abbildung 2. Regression beim thuesen Datensatz.
Die berechneten Regressionskoeffizienten sind: (Inter-
20
68
4. SCHLIESSENDE STATISTIK
vorher
nachher
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11]
25
25
27
44
30
67
53
53
52
60
28
27
29
37
56
46
82
57
80
61
59
43
Hat das Rauchen einen signifikanten Einfluß auf die Konzentration
der Blutplättchen? Dazu bilden wir die Differenzen
diff <- blut.data$nachher - blut.data$vorher
Sollte kein Einfluß vorliegen, so müsste die Differenz gleich Null sein.
Daher setzen wir α=0.05, und wir berechnen das Konfidenzintervall
zum Niveau 0.95.
(1) In Falle, daß die Standardabweichung bekannt ist, nämlich 8,
bilden wir das Intervall im Gauss-Fall.
n <- length(diff)
z.q <- qnorm(1 - alpha/2)
h <- z.q * sigma/sqrt(n)
c(mean(diff) - h, mean(diff) + h)
[1] 5.545 15.000
(2) Im allgemeineren Fall, daß die Standardabweichung unbekannt
ist, berechnen wir das Intervall mit der t-Verteilung.
t.q <- qt(1 - alpha/2, n - 1)
h <- t.q * sd(diff)/sqrt(n)
c(mean(diff) - h, mean(diff) + h)
[1] 4.914 15.631
(3) Eigentlich ist für die Medizin nur wichtig zu wissen, ob die Differenz positiv ist. Daher ist das einseitige Intervall wichtiger.
t.q1 <- qt(1 - alpha, n - 1)
h <- t.q1 * sd(diff)/sqrt(n)
(confint <- c(mean(diff) - h, Inf))
[1] 5.914
Inf
Das heißt, der wahre Parameter ist mit 95%- W-keit größer
als 5.914.
In R können diese Informationen aus dem t.test gewonnen werden:
t.test(diff)$conf.int[1:2]
[1] 4.914 15.631
t.test(diff, alt = "greater")$conf.int[1:2]
[1] 5.914
Inf
Abbildung
3. Experiment
zur
BlutplättchenKonzentration vor und nach dem Rauchen
4.9. AUFGABEN
69
15
10
5
Versuchsnummer
20
Simulation der Ueberdeckungswahrscheinlichkeit
0.3
0.4
0.5
0.6
0.7
Konfidentzintervalle
Abbildung 4. Simulation der Überdeckungsw-keit im
Bernoulli-Experiment (à la Verzani). Farbig sind die
berechneten Konfidenz-Intervalle dargestellt. In den 20
Versuchen wird (zum Konfidenz-Niveau 90%) der wahre
Parameter 0.5 genau 2 Mal nicht getroffen.
KAPITEL 5
Testtheorie
5.1. Pragmatischer Zugang
Beispiel 5.1 (Motivation: Binomialtest). Angenommen, eine Firma entwickelt ein neues Produktions-Verfahren. Es soll nun getestet
werden, ob die Zuverlässigkeit (Erfolgsw-keit p eines korrekten Produkts) des neuen Verfahrens größer ist, als die des bisherigen, sagen
wir p0 , die durch jahrelangen Betrieb als bekannt vorausgesetzt wird.
• Wir formulieren dies mathematisch als Hypothese, in unserem
Falle
H0 : p ≥ p0
Null-Hypothese
H1 : p < p0 Alternativ-Hypothese
• Wir müssen nun eine Test-Prozedur entwickeln, die eine Entscheidung zwischen den Hypothesen ermöglicht.
• Wenn wir durch unseren Test die Null-Hypothese ablehnen,
dann ist das neue Verfahren dem bisherigen vorzuziehen.
• Das passende Experiment besteht in der Erzeugung von n Produkten gemäß des neuen Verfahrens; es wird kontrolliert, ob
Ergebnis korrekt/nicht korrekt. Dies ist ein Bernoulli-Experiment,
und liefert x1 , . . . , xn ∈ {0, 1}.
• Im Falle, daß die Hypothese H0 wahr ist, gilt für den MLSchätzer nX̂n = # {j, Xj = 1} ∼ binom(n, p), p ≥ p0 .
• Wir werden die Nullhypothese H0 ablehnen, falls p̂ zu klein
ist. Wir wollen also einen Verwerfungsbereich K = K(p̂) =
{0, . . . , k0 } finden, so daß H0 abgelehnt wird, wenn p̂ ≤ k0 /n.
Genauer, wir geben uns ein Signfikanz-Niveau 0 < α < 1 vor,
und bestimmen kα derart daß Qp (K(p̂)) ≤ α für alle p ≤ p0 .
(Andersherum: Mit großer W-keit wird H0 nicht verworfen,
falls ϑ̂ 6∈ B)
• Man überzeugt sich, daß dies immer dann der Fall ist, wenn
Qp0 (K(p̂)) ≤ α: In der Tat, die Definition des Verwerfungsbereichs ist so, daß
Qp (K(p̂)) =
kα
X
!
b(k, n, p0 ) = Fp0 (kα ) ≤ α,
j=1
71
72
5. TESTTHEORIE
wobei Fp0 die VF der Binomial-Verteilung binom(n, p0 ) ist.
Jetzt ist aber zu sehen (durch Differentiation), daß die Abbildung p → Fp (k) monoton fallend in p ist (für p ≥ k/n), d.h.,
falls Fp0 (k) ≤ α, so gilt dies auch für alle größeren p ≥ p0 .
• Wir bestimmen also kα von der Beziehung
F (k, n, p0 ) ≤ α < F (k + 1, n, p0 ).
• Dies ist der exakte Binomialtest zum Signifikanz-Niveau α.
Beispiel 5.2. Folgendes Beispiel sei hier vorgeführt: Sei Stichprobenumfang n=100, und p0 = 0.85. Im Experiment wird in success=82 Fällen erfolgreich produziert. Ist die wahre Erfolgsw-keit ≥ p0 ?
Geben uns das Signifikanz-Niveau α = 0.05 vor.
pbinom(78:80, n, p.0)
[1] 0.03928 0.06632 0.10654
Also ist k0 = 79, und wir werden die Null-Hypothese ablehnen, falls
p̂ ≤ 0.79.
binom.test(success, n, p = p.0, alternative = "less", conf.level = 1 - alpha)
Exact binomial test
data: success and n
number of successes = 82, number of trials = 100, p-value = 0.2367
alternative hypothesis: true probability of success is less than 0.85
95 percent confidence interval:
0.0000 0.8803
sample estimates:
probability of success
0.82
Zum Vergleich, bei der Anzahl 78 von Erfolgen bekommen wir den
p-Wert 0.0393
Was sagt uns das? Wir werden lernen, daß die wichtige Information
im p-value liegt. Ist dieser größer als α so wird die Null-Hypothese
nicht verworfen.
In obigem Test haben wir die W-keit supp≥p0 Qp (K(p̂)) ≤ α kontrolliert. Diese soll klein sein! Was heißt das? Dies ist die W-keit, die
Null-Hypothese abzulehnen, obgleich sie wahr ist!
Definition 36 (Fehler 1. Art). Die Ablehnung der Null-Hypothese,
obgleich sie wahr ist, wird Fehler 1. Art genannt.
5.1. PRAGMATISCHER ZUGANG
73
Es gibt also folgende Möglichkeiten.
Entscheidung
Wirklichkeit
H0 richtig
H0 falsch
H0 nicht verwerfen richtige Entscheidung
Fehler 2. Art
H0 verwerfen
Fehler 1. Art
richtige Entscheidung
Bemerkung 23. In der Statistik hat es sich eingebürgert, niemals
eine Hypothese anzunehmen!, sie wird entweder verworfen, oder nicht
verworfen: “absence of evidence is not evidence of absence”!
Es bleibt noch die Frage, welcher der Alternativen Hypothesen H0
sein sollte. Da wir nur den Fehler erster Art kontrollieren (klein halten),
sollte H0 so gewählt sein, daß eine fälschliche Annahme von H0 teurer
ist, als eine fälschliche Annahme von H1 .
Beispiel 5.3 (Feuerwehr). Anruf: Es brennt!
Schwerwiegend ist: es brennt, aber Feuerwehr kommt nicht. Daher H0 :
Es brennt!
Der andere Fall, daß die Feuerwehr kommt, obgleich es ein Fehlalarm
war, ist weniger kritisch.
Beispiel 5.4. Die schwedische Firma Hövding, siehe www.hovding.
com/de/how hat Airbags für Radfahrer entwickelt. Das wesentliche
Prinzip besteht darin in jeder Situation zu testen, ob ein Unfall vorliegt
oder nicht. Hier ist es auch so, daß die Null-Hypothese ’H0 : Unfall liegt
vor’ richtig ist.
Wir fassen also die pragmatische Prozedur zusammen:
(1) Formuliere eine Null-Hypothese H0 , z. B., H0 : ϑ = ϑ0 .
(2) Formuliere die Alternative H1 , z. B.,
(a) ϑ > ϑ0 oder ϑ < ϑ0 (einseitige Alternativen),
(b) ϑ 6= ϑ0 (zweiseitige Alternative).
(3) Wähle ein Signifikanz-Niveau α, typischerweise α = 0.01, 0.05, 0.1.
(4) Konstruiere einen Verwerfungsbereich B für H0 , so daß unter
ϑ ∈ H0 gilt Qϑ (B) ≤ α (Fehler 1. Art). Wie macht man das?
(a) Wähle einen geeigneten Schätzer, dessen Verteilung unter
H0 bekannt ist!
(b) Dann können wir B (typischerweise ein Intervall) so wählen,
daß supϑ∈H0 Qϑ (B) ≤ α.
(5) Ist ϑ̂ ∈ B, so wird H0 verworfen, ansonsten nicht!
Definition 37 (Fehler 2. Art, Macht eines Tests). Die Wahrscheinlichkeit des Fehlers 2. Art ist eine Funktion der Parameter in der Alternative H1 . Zu µ ∈ H1 bezeichnet
β(µ) := P (‘H0 wird nicht verworfen, wenn µ ∈ H1 ’)
74
5. TESTTHEORIE
Daher wird die Macht eines Tests bestimmt als
1 − β(µ) = P (‘H0 wird (richtigerweise) verworfen, wenn µ ∈ H1 ’).
Bemerkung 24. Wir sehen eine wichtige Beziehung zu den KonfidenzBereichen, wo ja Qϑ (ϑ ∈ K(x)) ≥ 1 − α. Das heißt: ϑ̂ ∈ B gdw.
ϑ ∈ K(x). der wichtige Unterschied: B wird anhand der Nullhypothese
gewählt, während der Konfidenzbereich anhand der Schätzung bestimmt wird. Dies läßt sich aber 1-1 übersetzen.
Beispiel 5.5 (Schätzen/Testen im Gauß-Experiment, σ 2 bekannt).
Die Schätzung ist das Stichprobenmittel x̄. Zu vorgegebenem α bestimmen wir das (1 − α/2)- Quantil z1−α/2 der Normalverteilung. Dann ist
der Konfidenzbereich
√ x̄ − µ ≤ z1−α/2 .
K(x̂) = µ, n
σ Beim Test H0 : µ = µ0 ergibt sich der Verwerfungsbereich zum SignifikanzNiveau α als
√ x̄ − µ ≥ z1−α/2
B(µ0 ) = x̂, n
σ Hier Bild!
Beispiel 5.6 (Gauß-Test). In einfachsten Fall liegt ein Gauß-Experiment mit der Stichproben-Verteilung norm (µIn , σ 2 In ) vor, d.h., die
Stichprobe x1 , . . . , xn ist Realisierung einer i.i.d. Folge Gaußscher ZV.
Im Gauß-Test wird angenommen, daß die Varianz σ 2 bekannt ist. Dann
ist der ML-Schätzer für den unbekannten Parameter µ gegeben durch
das Stichprobenmittel µ̂ = x̄n . Die Null-Hypothese sei H0 : µ = µ0 .
Wie in Beispiel 4.11 ausgeführt, gilt für die Test-Statistik
√ x̄ − µ0
Z := n
∼ norm (0, 1) .
σ
Der Test ist zwei-seitig, daher sei q1−α/2 das entsprechende Quantil der
Normal-Verteilung. Der Verwerfungsbreich ergibt sich dann als
B := x, |Z| > q1−α/2 .
Der einseitige Gauß-Test mit H0 : µ ≤ µ0 geht analog.
Dieser Test ist nicht in R implementiert, da er praktisch nicht oft
benutzt werden kann. Außerdem ist er einfach selbst zu implementieren.
Beispiel 5.7 (t-Test). Dies ist einer der wichtigsten Tests der parametrischen Statistik. Wie oben liegt ein Gauß-Experiment mit der Stichproben-Verteilung norm (µIn , σ 2 In ) vor, d.h., die Stichprobe x1 , . . . , xn
5.1. PRAGMATISCHER ZUGANG
75
ist Realisierung einer i.i.d. Folge Gaußscher ZV. Im t-Test wird angenommen, daß sowohl die Erwartung µ, als auch die Varianz σ 2 unbekannt
sind. Im Beispiel 4.12 wurde gezeigt, daß dann die Test-Statistik
√ x̄ − µ0
T := n
∼ tn−1 .
s
Mit Hilfe des Quantils tn−1,1−α/2 der t-Verteilung ergibt sich der Verwerfungsbreich als
B = x, |T | > tn−1,1−α/2 .
Dieser Test ist in R als t.test implementiert.
Wir stellen uns folgende Beispielsituation vor la Dalgaard [1, Chapt. 5]1.
daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230,
8770)
Die relevante Frage ist, ob die typische Energieaufnahme µ0 = 7725
ist (Signifikanzniveau α = 0.05).
n <- length(daily.intake)
(mean <- mean(daily.intake))
[1] 6754
sd <- sd(daily.intake)
(T <- sqrt(n) * (mean - mu.0)/sd)
[1] -2.821
df <- n - 1
(quant <- qt(1 - alpha/2, df))
[1] 2.228
(c(mean - quant * sd/sqrt(n), mean + quant * sd/sqrt(n)))
[1] 5986 7521
Die Nullhypothese muß verworfen werden, da der Wert µ0 = 7725
nicht im Konfidenzintervall liegt. R hat den t.test implementiert, und
wir bekommen folgende Auskunft.
t.test(daily.intake, mu = mu.0, conf.level = 1 - alpha)
One Sample t-test
1Diesen
Datensatz nutzte D. Altman Practical Statistics for Medical Research,
Chapman & Hall, 1991. Er beschreibt die gemessene Energieaufnahme (in kJ) von
elf Frauen.
76
5. TESTTHEORIE
data: daily.intake
t = -2.821, df = 10, p-value = 0.01814
alternative hypothesis: true mean is not equal to 7725
95 percent confidence interval:
5986 7521
sample estimates:
mean of x
6754
Die Nullhypothese muß verworfen werden. Dies sagen uns hier aber
zwei Dinge: 1) Der Wert µ0 = 7725 liegt nicht im Konfidenzintervall.
Aber, 2) der p-Wert p=0.0181 ist kleiner als 0.05. Zum p-Wert gibt es
weitere Ausführungen im § 5.2.
Beispiel 5.8 (Var-Test (1)). Wir haben eine normal-verteilte Stichprobe X1 , . . . , Xn ∼ norm (µ, σ 2 ) i.i.d, vorliegen. Die Null-Hypothese
lautet H0 : σ = σ0 bei gegebener Varianz σ02 . Wie in Beispiel 4.14
vorgerechnet, gilt unter H0 für die Test-Statistik
S2
∼ χ2n−1 .
2
σ0
Da diese Verteilung nicht symmetrisch ist, so ist der Verwerfungsbreich
zwei-geteilt (Komplement des Konfidenzbereichs), also
[
B = F < χ2n−1,α/2
F > χ2n−1,1α/2 .
F = (n − 1)
Analog kann der Fall einseitiger Tests behandelt werden, vgl. Beispiel 4.15.
Eine R-Implementation gibt es nicht.
Beispiel 5.9 (Var-Test (2)). Wir haben zwei normal-verteilte Stichproben X1 , . . . , Xm ∼ norm (µ1 , σ12 ), und Y1 , . . . , Yn ∼ norm (µ2 , σ22 ),
jeweils i.i.d, alle unabängig. Die Null-Hypothese ist H0 : σ12 = σ22 . Wir
berechnen die empirischen Varianzen
m
n
1 X
1 X
2
2
2
S1 :=
(Xj − X̄) und S2 :=
(Yj − Ȳ )2
m − 1 j=1
n − 1 j=1
Es ist leicht zu sehen, daß dann für den Quotienten gilt
S12
∼ Fm−1,n−1 .
S22
Wenn wir mit fm−1,n−1,1−α das entsprechende Quantil bezeichnen ergibt
sich als Verwerfungsbereich
B := x, F > fm−1,n−1,1−α/2 .
F :=
5.1. PRAGMATISCHER ZUGANG
77
Dieser Test ist in R als var.test(...,ratio=1,...) implementiert.
x <- rnorm(50, mean = 0, sd = 2)
y <- rnorm(30, mean = 1, sd = 1)
# von Hand:
var(x)/var(y)
[1] 5.501
# in R:
var.test(x, y)
F test to compare two variances
data: x and y
F = 5.501, num df = 49, denom df = 29, p-value = 5.555e-06
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
2.764 10.349
sample estimates:
ratio of variances
5.501
Die Hypothese gleicher Varianz mus verworfen werden, da 1) der
Wert 1 nicht im Konfidenzintervall liegt, und 2) der p-Wert zu klein
ist.
Wir fassen die besprochenen Tests folgendermaßen zusammen.
Gauß-Test
H0
µ = µ0
µ ≤ µ0
µ > µ0
σ = σ0
Teststatistik
T :=
√ x̄−µ0
n σ
2
F = (n − 1) σs 2
0
Var-Test (1)
2
1) σs 2
0
σ ≤ σ0 F = (n −
µ = µ0
√
0
t-Test
µ ≤ µ0 T := n x̄−µ
s
µ > µ0
s2
Var-Test (2) σ1 = σ2 F = s12
2
Verwerfung
|T | > q1−α/2
T > q1−α
T < qα
F < χ2n−1,α/2
oder F > χ2n−1,1α/2
F > χ2n−1,1−α
|T | > tn−1,1−α/2
T > tn−11−α
T < tn−1,α
F > fm−1,n−1,1−α/2
R-Aufruf
keiner
keiner
t.test
var.test
Abbildung 1. Zusammenfassung der Tests unter Normalverteilung
78
5. TESTTHEORIE
5.2. p-Wert
Erinnern uns an den Fehler 1. Art:
sup Qϑ (B) ≤ α
ϑ∈Θ0
Wir sehen: Wenn α kleiner wird, so muß auch B kleiner werden.
Bemerkung 25. Wenn wir mehr Sicherheit wollen, dann dürfen
wir seltener ablehnen.
Bei zweiseitigen t-Test war die Menge B = x, |T (x)| > tn−1,1−α/2 .
Duale Sicht: bei gegebener Teststatistik T können wir das kleinste α
bestimmen, für das |T (x)| = tn−1,1−α/2 .
Definition 38 (p-Wert). Wir nehmen an, daß die Null-Hypothese
H0 : ϑ = ϑ0 gilt. Sei T eine Teststatistik. Unter H0 hat diese die
Verteilung Qϑ0 . Im zweiseitigen t-Test ist der p-Wert definiert als
p = inf {α, Fϑ0 (|T |) ≥ 1 − α/2} .
Im Falle stetiger Verteilungen kann man dies umrechnen un erhält
p = 2(1 − Fϑ0 (|T |)).
Dies ist das kleinste Signifikanz-Niveau, zu dem der Test nicht verworfen wird. Der p-Wert ist eine Zufallsvariable!
Beispiel 5.10 (Beispiel 5.7 erneut). Dort wurde der p-Wert angegeben
als 0.0181. Er berechnet sich als
(pwert <- 2 * (1 - pt(abs(T), df = df)))
[1] 0.01814
Satz 5.1. Wir betrachten ein Gauß-Experiment mit unbekanntem
Mittel und unbekannter Varianz. Unter der Hypothese H0 ist der pWert gleichverteilt auf [0, 1], d.h., es gilt
Qϑ0 (p ≤ x) = x.
5.3. NEYMAN–PEARSON THEORIE
79
Beweis. Im t-Test ist die Stichproben-Verteilung tn−1 , wir bezeichnen diese mit F0 . Dann gilt
p
x
Qϑ0 (p ≤ x) = Qϑ0 (1 − ≥ 1 − )
2
2
x
= Qϑ0 (F0 (|T |) ≥ 1 − )
2
x
−1
= Qϑ0 (|T | ≥ F0 (1 − ))
2
x
−1
= 2Qϑ0 (T ≥ F0 (1 − )) (Symmetrie)
2
x
−1
= 2(1 − F0 (F0 (1 − ))) = x.
2
Bemerkung 26. In R wird beim Testen nur der p-Wert mitgeteilt,
d.h., ist p-Wert ≤ α, dann wird H0 abgelehnt!
5.3. Neyman–Pearson Theorie
Hier wird eine formale Test-Theorie entwickelt, die obigen pragmatischen Zugang substantiiert, und darüber hinaus theoretische Aussagen über beste Tests gestattet. Dies ist die Neyman–Pearson-Theorie.
(1) Wähle eine (nicht-leere) Teilmenge Θ0 ⊂ Θ, und 0 < α < 1.
(2)
H0 : ϑ ∈ Θ0
H1 : ϑ 6∈ Θ0 .
Beispiel: zwei-seitiger Test H0 : ϑ = ϑ0 ∈ Θ, dann ist H1 :
ϑ 6= ϑ0 .
ein-seitiger Test H0 : ϑ ≤ ϑ0 ∈ Θ, dann ist H1 : ϑ > ϑ0 .
(3) Wähle eine Teststatistik (ZV) T : (Rn , B n ) → R, und dazu
einen Verwerfungsbereich B, so daß
sup Qϑ (T ∈ B) ≤ α.
ϑ∈Θ0
(wichtig: Brauchen Teststatistik T mit bekannter Verteilung
unter H0 )
(4) H0 wird verworfen, falls T ∈ B.
In vielen Fällen ist Qϑ (B) = α nicht realisierbar. Deshalb müssen wir
den Begriff eines Tests erweitern.
Definition 39 (Randomisierter Test). Sei ϕ : (Rn , B n ) → [0, 1]
eine meßbare Funktion. Wir setzen B := {x, ϕ(x) = 1} den Verwerfungsbereich, A := {x, ϕ(x) = 0} den Annahmebereich, und C :=
80
5. TESTTHEORIE
{x, 0 < ϕ(x) < 1} den Randomisierungsbereich. Insbesondere wird, falls
x ∈ C ein Bernoulli-Experiment ∼ bern(p) durchgeführt, daß mit
p = ϕ(x) zur Verwerfung führt.
Definition 40 (Gütefunktion). Die Abbildung
Z
Gϑ (ϕ) := Eϑ (ϕ) = ϕ(x)f (x, ϑ) dx, ϑ ∈ Θ,
wird Gütefunktion genannt.
Bemerkung 27. Im nicht-randomisierten Test ist Gϑ (ϕ) = Qϑ (B),
und 1 − Gϑ (ϕ) die macht des Tests bei ϑ ∈ Θ1 .
Definition 41 (Umfang eines Tests). Die Zahl
sup Gϑ (ϕ)
ϑ∈Θ0
heißt Umfang des Tests ϕ.
Bemerkung 28. Jeder Test ist ein Signifikanztest zum Niveau
seines Umfangs! Der (unbrauchbare) Test ϕ(x) ≡ α ist ein Test zum
Niveau α.
Definition 42 (Gleichmäßig beste Tests). Sei Φ(α) eine Teilmenge
aller Tests zum Niveau α. Der Test ϕ1 ∈ Φ(α) heißt gleichmäßig besser
als ϕ2 ∈ Φ(α), falls
Gϕ1 (ϑ) ≥ Gϕ2 (ϑ),
ϑ ∈ Θ1 .
Ein Test ϕ∗ heißt gleichmäßig bester Test, falls Gϕ∗ (ϑ) ≥ Gϕ (ϑ), ϑ ∈
Θ1 für alle ϕ ∈ Φ(α).
Das Studium gleichmäßig bester Tests ist erschöpfend wenn sowohl
die Null-Hypothese als auch die Alternative ein-elementig sind. Sei jetzt
also für ϑ0 6= ϑ1
H0 = {ϑ0 }
H1 = {ϑ1 } .
Sprich Θ = {ϑ0 , ϑ1 }. Wir assoziieren die Stichprobenw-keiten Q0 =
Qϑ0 , Q1 = Qϑ1 , und wir nehmen an, daß diese Dichten f0 (x), f1 (x)
besitzen.
Definition 43 (Neyman-Pearson Test). Ein Test ϕ heißt NeymanPearson Test für Q0 gegen Q1 falls ein κ ≥ 0 existiert, so daß


1, falls f1 (x) > κf0 (x)
ϕ(x) = ϕκ (x) = γ, falls f1 (x) = κf0 (x)

0, falls f (x) < κf (x).
1
0
5.3. NEYMAN–PEARSON THEORIE
81
Wir definieren den Dichte-Quotienten (Teststatistik)
(
f1 (x)
, falls f0 (x) > 0
T (x) = f0 (x)
∞,
sonst.
Dann können wir schreiben (modulo Q0 -Nullmenge)


1, falls T (x) > κ
ϕ(x) = ϕκ (x) = γ, falls T (x) = κ

0, falls T (x) < κ.
Der Umfang eines NP-Tests ϕκ ist
Gϕκ (ϑ0 ) = Q0 (T > κ) + γQ0 (T = κ).
Satz 5.2. Seien κ und γ gegeben. Dann ist der NP-Test ϕκ bester
Test zum Niveau α = E0 (ϕκ ).
Beweis. Sei ϕ eine beliebiger anderer Test zum Niveau α. Wir
werden zeigen Gϕκ (ϑ1 ) ≥ Gϕ (ϑ1 ) (bessere Güte). Seien
M (+) = {x, ϕκ > ϕ} ,
M (−) = {x, ϕκ < ϕ} ,
M (#) = {x, ϕκ = ϕ} .
Wir beobachten folgendes:
• x ∈ M (+) impliziert ϕκ > 0, ergo f1 (x) ≥ κf0 (x).
• x ∈ M (−) impliziert ϕκ < 1, ergo f1 (x) ≤ κf0 (x).
Deshalb
Z
Z
Z
E1 (ϕκ − ϕ) =
(ϕκ − ϕ)f1 (x) +
(ϕκ − ϕ)f1 (x) +
(ϕκ − ϕ)f1 (x)
M (+)
M (−
M (#
Z
Z
≥
(ϕκ − ϕ)κf0 (x) +
(ϕκ − ϕ)κf0 (x)
M (+)
M (−
Z
= κ (ϕκ (x) − ϕ(x))f0 (x) dx = κ (Gϕκ (ϑ0 ) − α) = 0
Satz 5.3 (Fundamentallemma von Neyman–Pearson).
(1) Zu vorgegebenem α gibt es einen NP-Test zum Umfang α (der
dann auch bester Test ist).
(2) Jeder andere beste Test stimmt mit dem NP-Test fast sicher
überein (Eindeutigkeit).
82
5. TESTTHEORIE
Beweis. Wir zeigen nur den 1. Teil. Wir haben den Umfang zu
beliebigen ϕκ bereits ausgerechnet: Q0 (T > κ) + γQ0 (T = κ). Suchen
κ ≥ 0 und 0 ≤ γ ≤ 1 so daß
(5.1)
Q0 (T > κ) + γQ0 (T = κ) = α.
Sei F0 die VF der Teststatistik T , d.h., F0 (t) = Q0 (T ≤ t). Sei κ das
(1 − α)-Quantil von F0 (κ = inf {t, F0 (t) ≥ 1 − α}). F0 kann bei κ
einen Sprung haben, daher gilt nur (Rechtsstetigkeit)
F0 (κ−) ≤ 1 − α ≤ F0 (κ).
1. Fall: Falls F0 stetig in κ, so setzen wir γ = 0 und (5.1) gilt.
2. Fall: Falls Sprung, so setzen wir
F0 (κ) − (1 − α)
0 < γ :=
≤ 1.
F0 (κ) − F0 (κ−)
Damit gilt (5.1) ebenfalls.
Bemerkung 29. Die Randomisierung ist nur nötig, falls F0 beim
(1−α)-Quantil einen Sprung hat, typischerweise bei diskreten Verteilungen!
Ist dies der Fall, so wählen wir eine ZV U ∼ unif(0, 1), und lehnen
Test ab, falls U ≤ γ.
5.4. Aufgaben
Aufgabe 5.1. Ein PKW-Hersteller behauptet, daß ein gewisser
Wagentyp einen Normverbrauch von höchstens 6.9l/100km hat. Eine
Umfrage unter zehn Fahrern ergab einen mittleren Verbrauch von etwa
7.5l/100km miteiner Standardabweichung von 0.8l/100km. Kann man
dem Hersteller vertrauen?
Bemerkung: Wir können den implementierten Test nicht anwenden, da
kein Datensatz gegeben ist.
KAPITEL 6
Lineare Modelle
6.1. Statistische Modelle
Im abstrakten Sinne ist ein statistisches Modell eine Familie von
W-Verteilungen, d.h., (Ω, F, (Pϑ , ϑ ∈ Θ)), wie wir es schon vorher betrachtet hatten. Im gegebenen Kontext stellen wir uns jedes ω ∈ Ω als
Paar (Y, X) vor. Wir betrachten also die gemeinsame Verteilung von
Y und X, und diese hängt von unbekannten Parametern ϑ ∈ Θ ab.
Dann heißen die Y die (unabhängigen) response Variable, und die X
die (abhängigen) Regressor-Variable, Regressoren. Es wird ein Zusammenhang
Y = f (X) + ε
angenommen, d.h., die Beobachtungen (Y1 , X1 ), . . . , Yn , Xn ) werden als
unabhängig vorausgesetzt, und es soll gelten
Yj = f (Xj ) + εj ,
j = 1, . . . , n,
wobei die Fehler εj die bedingte Erwartung Null haben. Im folgenden werden wir nur den Fall betrachten, daß die Fehler εj i.i.d mit
Erwartung gleich Null und gemeinsamer Varianz gleich σ 2 vorliegen
(homo-skedastisch) (Homogenität der Varianzen). In solch einem statistischen Modell bildet der formale Zusammenhang
y = f (x)
die Modell-Gleichung.
In diesem Abschnitt spezifizieren wir das Modell folgendermaßen.
(1) Die Regressoren sind deterministisch, also gegeben.
(2) Die Zusammenhang ist linear, also, wenn x = (x1 , . . . , xp )
dann haben wir den Zusammenhang
(6.1)
y = β1 x1 + · · · + βp xp .
(Wir erinnern daran, daß konstante Regressoren durch x1 = 1
erfaßt werden können.)
83
84
6. LINEARE MODELLE
Für die beobachteten Daten (Yj , xj ) bedeutet dies, daß
Y1 = β1 x11 + · · · + βp x1p + ε1
(6.2)
...
Yn = β1 xn1 + · · · + βp xnp + εn ,
wobei wir xj = (x1j , . . . , xnj ), j = 1, . . . , p verstehen.
Definition 44 (Design-Matrix, Modell-Matrix). Die aus den Regressoren gebildete Matrix


x11 . . . x1p
X = . . . . . . . . . 
xn1 . . . xnp
heißt Design-Matrix.
Wir fassen die unbekannten Parameter im Vektor β = (β1 , . . . , βp )
zusammen. Dann können wir die Modell-Gleichung (6.1) schreiben als
(6.3)
y = Xβ,
und die Daten stellen wir dar als
 
 
Y1
ε1



(6.4)
Y = . . . = Xβ + . . .
Yn
εn
Definition 45 (Lineares Modell). Das statistische Modell y =
Xβ + ε, mit i.i.d. Fehlern εj , Eεj = 0, V(εj ) = σ 2 heißt lineares Modell
(LM).
Es ist gekennzeichnet durch
(1) den Stichprobenumfang n,
(2) die Anzahl p der Regressoren, und
(3) den Rang r = Rang(X).
Ist, darüber hinaus, die Fehlerverteilung Gaußsch, also εj ∼ norm (0, σ 2 )
i.i.d., so sprechen wir vom normal-verteilten linearen Modell (NLM).
Darin ist die Stichproben-Verteilung also


!n
p
X
Qβ,σ2 = norm 
βj xij
, σ 2 In 
j=1
i=1
Beispiel 6.1 (Mittelwert im Gauß-Experiment). In diesem Fall
wird vermutet daß y = µ · 1 (p = 1 konstanter Regressor). Dann ist die
6.1. STATISTISCHE MODELLE
85
Design-Matrix gegeben als


1
X = . . .  ,
1
d. h., sie hat den Rang r = 1.
Beispiel 6.2 (Lineare Regression). Lineare Modelle sind Spezialfälle
der linearen Regression, nämlich, wenn die Fehler normalverteilt angenommen werden. Dann soll gelten y = β0 + β1 x (p = 2 Regressoren), mit
der Design-Matrix


1 x1
X = 1 . . .  .
1 xn
Der Rang von X ist gleich 2, falls nicht alle xj gleich sind.
Beispiel 6.3 (Zwei-Stichproben Modell). Hier wird angenommen,
daß wir zwei (unabhängige) Stichproben (mit gemeinsamer Varianz σ 2 )
Y1i = µ1 + ε1i
Y2j = µ2 + ε2j
= 1µ1 + 0µ2 ,
= 0µ1 + 1µ2 ,
i = 1, . . . , n1
j = 1, . . . , n2
In diesem Falle ist die Design-Matrix


1 0
 1 0


. . . 


 1 0 ,


 0 1
. . . 
0 1
wobei n1 die Anzahl der Zeilen (1, 0), und n2 die Anzahl derer (1, 0)
ist. Es gibt also p = 2 Regressoren µ = (µ1 , µ2 ), und der Rang r = 2.
Der Stichprobenumfang ist dann n = n1 + n2 .
Beispiel 6.4. [Einweg-ANOVA (Analysis of Varianz)] Dies verallgemeinert den Zwei-Stichproben-Fall. Der Kontext ist der folgende.
Wir haben einen Datensatz mit einem kategoriellen Faktor, der p Ausprägungen hat, und beobachten Daten in jeder Kategorie. Das typische
Beispiel hierfür in der Literatur ist wie folgt: Wir wollen p Düngemethoden vergleichen. dazu betrachten wir s Felder F1 , . . . , Fp , und düngen
einzelne (gleich große) Bereiche Fi,1 , . . . , Fini , i = 1, . . . , p. Wir beobachten die Erträge, was zum Modell
(6.5)
Yij = µi + εij ,
j = 1, . . . , ni , i = 1, . . . , p,
86
6. LINEARE MODELLE
wobei die µi die mittleren Erträge auf dem Feld Fi bezeichnen, und
die Daten Yij den Ertrag auf dem Teilfeld Fij . Dies ergibt folgende
Design-Matrix


1 0 ... 0
. . .



 1 0 . . . 0


 0 1 . . . 0


. . .

X=
,
 0 1 . . . 0
. . .



 0 0 . . . 1


. . .

0 0 ... 1
wobei die einzelnen Blöcke jeweils die Längen n1 , . . . , np haben. Die
Gesamtanzahl von Beobachtungen ist n = n1 + · · · + np . Der Rang der
Design-Matrix ist Rang(X) = p.
Folgende Bemerkung ist angebracht. Das Model (6.5) hat auch eine
andere Interpretation. Es kann geschrieben werden als
(6.6)
Y1j = ν + ε1j ,
j = 1, . . . , ni ,
(6.7)
Yij = ν + ai + εij ,
j = 1, . . . , ni , i = 2, . . . , p.
In dieser Schreibweise verstehen wir als die erste Ausprägung des Faktors als no treatment, während die weiteren Ausprägungen als Einfluß
von treatment verstanden werden sollen. In dieser Interpretation erhält
die Design-Matrix die Form


1 0 ... 0
. . .



 1 0 . . . 0


 1 1 . . . 0


. . .

Y =
,
 1 1 . . . 0
. . .



 1 0 . . . 1


. . .

1 0 ... 1
Die Parameter µ = (µ1 , µ2 , . . . , µp ) und (ν, a2 , . . . , ap ) können umgerechnet werden mittels
  
 
 
µ1
1 0 ... 0
ν
ν
 µ2   1 1 . . . 0  a2 
 a2 
 =
  = U  .
. . .  . . .
 . . .
. . . 
µp
1 0 ... 1
ap
ap
6.2. SATZ VON GAUSS–MARKOFF
87
Nun sieht man leicht, daß Y = X · U gilt, und die Rechnungen, die wir
später sehen weden führen zum analogen Ergebnis. Diese treatmentcontrast-Variante ist in R implementiert, da sie eine einfache Interpretation hat.
Beispiel 6.5 (Quadratische Regression). Der vermutete Zusammenhang sei y = β0 + β1 x + β2 x2 , es sind also p = 3 Regressoren, und
die Design-Matrix ist


1 x1 x21
X = . . . . . . . . . ,
1 xn x2n
sie hat also den Rang r = 3, falls die xj verschieden sind.
Bemerkung 30 (Formeln in R). Die Darstellung obiger Zusammenhänge wird in R mittels Formeln formula gemacht. In den Beispielen würde dies führen zu
y ∼ 1,
y ∼ 1 + x oder auch y ∼ x,
y ∼ 1 + x + I(x2 ),
y ∼ . (alle Regressoren).
Der Operator I bedeutet dabei, daß die Variable x2 eine neue Unabhängige Variable bildet. Will man in einer Formel erzwingen, daß der
konstante Anteil nicht vorkommt (β0 = 0), so schreibt man y ∼ −1 + x
im Falle der linearen Regression mit Gerade durch den Ursprung.
Der Zusammenhang (6.5) in der Einweg-Analyse, oder auch im 2Stichprobenfall, wird in R durch die Formel y ∼ F veranschaulicht,
wobei F der Name des kategoriellen Faktors ist, im 2-Stichproben-Fall
müßte dieser erst erzeugt werden.
6.2. Satz von Gauß–Markoff
Für das Schätzen und Testen in linearen Modellen sind orthogonale Projektionen im Euklidischen Raum wichtig, wir verweisen auf
Anhang B
Wir bezeichnen mit L = {Xβ, β ∈ Rp } den Bildraum von X. Er
wird durch die p Spalten der Design-Matrix aufgespannt, insbesondere
ist µ = EY , der Vektor aus den Erwartungswerten) in L. Dann kann
die Gleichung
Y = Xβ + ε = µ + ε
so interpretiert werden, daß die Beobachtungen Y durch den Fehler ε
aus L abgelenkt werden.
Bild malen
88
6. LINEARE MODELLE
Satz 6.1 (Gauß–Markoff, KQ-version). Seien die Daten Y = (Y1 , . . . , Yn )
im linearen Modell (LM) gegeben, und sei die Design-matrix X vom
Rang Rang(X) = p.
(1) Der KQ-Schätzer für den unbekannten Parameter(vektor) β ∈
Rp ist gegeben durch
−1 T
(6.8)
β̂ := X T X
X Y.
Er ist ein erwartungstreuer Schätzer.
(2) Der Schätzer β̂ genügt den Normalen-Gleichungen
X T X β̂ = X T Y.
(3) Seien Ŷ = X β̂ = PL Y die Vorhersage, und r := Ŷ −Y = QL Y
das Residuum. Es gilt
−1
Cov(β̂, β̂) = σ 2 X T X
Cov(Ŷ , Ŷ ) = σ 2 PL
Cov(r, r) = σ 2 QL .
−1
(4) Ekβ − β̂k2 = σ 2 tr X T X ,
(5) Der Schätzer β̂ ist BLUE: Für jeden anderen Schätzer β̃ gilt
Ekβ − β̃k2 ≥ Ekβ − β̂k2 .
(6) Die Größe
(6.9)
kY − PL Y k2
V :=
n−p
∗
2
ist
√ ein erwartungstreuer Schätzer für die Varianz σ . Die Wurzel
V ∗ heißt residual standard error.
Beweis. Wegen der Voraussetzungen an die Design-Matrix X ist
die Matrix X T X invertierbar. Wegen Satz B.3 und Lemma B.2 ist
der KQ-Schätzer der Daten Y auf der Raum L = X(Rp ) gegeben als
−1 T
Projektor X X T X
X Y . Die eindeutige Lösbarkeit der Gleichung
−1 T
T
Xβ = X X X
X Y = PL y liefert als KQ-Schätzer gerade (6.8).
Sein Erwartungswert ergibt sich als
−1 T
−1 T
Eβ̂ = X T X
X EY = X T X
X Xβ = β.
Die letzte Aussage in Satz B.2 liefert hY − X β̂, Xzi = 0, z ∈ Rp , was
die Beziehung
X T (Y − X T β̂) = 0
impliziert, folglich Aussage (2).
6.2. SATZ VON GAUSS–MARKOFF
89
−1 T
Sei A := X T X
X , dann gilt β̂ − Eβ̂ = Aε. Für jedes Paar
i, j ∈ {1, . . . , p} gilt dann
Cov(β̂i , β̂j ) = E(Aε)i (Aε)j =
n
X
E (Aik εk Ajl εl )
k,l=1
=
n
X
Aik Ajl E (εk εl )
k,l=1
= σ2
n
X
Aik Ajl δkl = σ 2 Aik ATkj
k,l=1
2
= σ AAT ij .
−1 T
−1
−1
Wegen AAT = X T X
X X XT X
= XT X
folgt die erste
Gleichung in (3). Nun gilt Ŷ − EŶ = X(β̂ − Eβ̂), und man sieht leicht
daß dann Cov(Ŷ , Ŷ ) = X Cov(β̂, β̂)X T = σ 2 PL , und ähnliches gilt für
die letzte Beziehung. Aussage (4) folgt wegen
Ekβ − β̂k2 =
p
X
E |βj − Eβj |2 =
j=1
p
X
V(β̂j ) = tr(Cov(β̂, β̂)),
j=1
woraus die Behauptung folgt. Wir lassen den Beweis von (5) weg, und
widmen uns der letzten Aussage. Es genügt zu zeigen daß (n−p)EV ∗ =
(n−p)σ 2 . Nun gilt Y −PL Y = QL Y = QL (Xβ+ε) = QL ε, da QL X = 0.
Also ist
EkY − PL Y k2 = EkQL εk2 = σ 2 tr(QL ) = (n − p)σ 2 ,
was wie vorher bewiesen wird.
Wir schauen uns die vorherigen Beispiele noch einmal an, und bestimmen die KQ-Schätzer in diesen.
Beispiel 6.6. Im Beispiel 6.1 ist X T X = n (Rang gleich eins), und
der KQ-Schätzer ergibt sich als µ̂ = Ȳn .
Beispiel 6.7. Bei der linearen Regression vom Beispiel 6.2 ergibt
sich als
P P n
x
Y
j
T
T
P 2
X X= P
und X Y = P i
xj
xj
x i Yi
Das führt genau zum Schätzer in Abschnitt 4.5.
Wir betrachten zuletzt noch die Einweg-ANOVA, Beispiel 6.4.
90
6. LINEARE MODELLE
Beispiel 6.8. Man überprüft leicht, daß im Beispiel 6.4


n1 0 . . . 0
 0 n2 . . . 0 
.
XT X = 
. . .

0 0 . . . ns
daraus ergeben
sich als Schätzer für die Erträge µi die Größen
Pni
1
µ̂i = ni j=1 Yij , was nicht sehr verwundert.
Wir spezifizieren nun den Satz von Gauß–Markoff im Falle normalverteilter Beobachtungen.
Satz 6.2 (Gauß–Markoff, NLM-Version). Die folgenden Aussagen
gelten für den KQ-Schätzer β̂von (6.8) unter Normalverteilungs-Annahme.
−1 (1) β̂ ∼ norm β, σ 2 X T X
.
∗
(2) (n − p) Vσ2 ∼ χ2n−p .
2
(3) kX β̂−Xβk
∼ χ2p .
σ2
(4) Da X(β̂ − β) orthogonal zu Y − PL Y ist, so sind diese unabhängig. Folglich gilt
kX β̂ − Xβk2
∼ fp,n−p .
σ2V ∗
(5) Sei U ⊂ L ⊂ H ein weiterer Teilraum, dim(U ) = s < p. Falls
Xβ ∈ U so gilt
kPL Y − PU Y k2
∼ χ2p−s ,
σ2
und dies ist unabhängig von V ∗ .
Der Quotient
FU,L :=
(n − p)kPL Y − PU Y k2
∼ fp−s,n−p
(p − s)kY − PL Y k2
Beweis. Erwartungstreue und Kovarianz wurden bereits im Satz 6.1
hergeleitet, daraus folgt (1).
Im weiteren Beweis nutzen wir den Sätze aus dem Anhang C. Im
NLM gilt Y ∼ norm (Xβ, σ 2 In ). Wir wenden folgende Konstruktion an.
Es gibt eine Orthonormalbasis u1 , . . . , un , bzgl derer PU uj = uj , j =
1, . . . , s, PL uj = uj , j = 1, . . . , p, da U ⊂ L. Eine derartige ONB bildet
eine orthogonale Matrix O : H → H.
Die Variable V ∗ wird gebildet aus (I − PL )Y . Dies ist multivariat
normalverteilt
(I − PL )Y = (I − PL )Xβ + σ 2 (I − PL )ε.
6.2. SATZ VON GAUSS–MARKOFF
91
Es ist (I −PL )X = 0 nach Definition von L. Weiterhin gilt (I −PL )Y ∼
O−1 diag(0, . . . , 1, . . . , 1)Oε. Dann ist
k(I − PL )Y k2 = kO−1 diag(0, . . . , 1, . . . , 1)Oεk2
= k diag(0, . . . , 1, . . . , 1)Oεk2
∼ k diag(0, . . . , 1, . . . , 1)W k2 ,
also die Quadratsumme von (n − p) standard-normalverteilten ZV, das
zeigt (2). Ähnlich sieht man die folgende Aussage, da X(β̂ − β) ∈ L
folgt X(β̂ − β) ∼ norm (0, σ 2 PL ). Die Größe V ∗ wird bestimmt durch
die Projektion I −PL = QL , also sind Zähler und Nenner in Aussage (4)
unabhängig. Die restlichen Aussagen folgen analog.
Bislang wurde vorausgesetzt, daß alle Komponenten des Parameters β geschätzt werden sollen (die Design-Matrix X hat vollen Rang).
Die Ergebnisse des Satzes von Gauß–Markoff gestatten jedoch auch eine
Variante für schätzbare Funktionale, d.h., spezielle lineare Funktionen
des Parameters β. Von besonderem Interesse ist hier die Schätzung
einzelner Komponenten, und wir formulieren folgenden Satz. Im NLM
kennen wir vom Gauß–Markoff
Satz die empirische Varianz der Schät−1
2
T
zung V(β̂j ) = σ X X jj . Die zugehörige Standard-Abweichung wird
q
mit se(β̂j ) := s2 (X T X)−1
jj bezeichnet.
Korollar 6.1. Seien die Bedingungen von Satz 6.2 erfüllt. Dann
ist jede Komponente (β̂)j des Schätzers β̂ ein BLUE Schätzer von βj ,
d.h., βbj = (β̂)j . Die standardisierte Statistik T ist verteilt gemäß
T :=
β̂j
se(β̂j )
∼ tn−p
Beispiel 6.9. Bislang wurden die Parameter β geschätzt, wie z.
B. β̂ in der linearen Regression. Im Zusammenhang damit steht die
Frage der Signifikanz der Schätzung im Raum: Ist einer der geschätzten
Parameter β̂j gleich Null? Dies führt zu einem Testproblem gemeinsam
mit (jedem) Schätzproblem: H0 : βj = 0 vs. H1 : βj 6= 0.
Obiges Korollar legt hierzu einen t-Test nahe zur Signifikanz des
geschätzten Parameters. Dies ist in R standardmäßig vorgesehen.
Bemerkung 31. Es ist wichtig zu sehen, daß die Null-Hypothese
H0 fragt, ob der entsprechende Parameter gleich Null ist, also nicht
signifikant ist! Daher heißt kleiner p-Wert(Null-Hypothese wird verworfen): der Parameter ist signifikant von Null verschieden!
Hier ein R-output zu den folgendermaßen erzeugten Daten.
92
6. LINEARE MODELLE
set.seed(4711)
sample.size <- 25
x <- 1:sample.size
y <- 5 * x + rnorm(n = sample.size, mean = 0, sd = 1.5)
data.xy <- data.frame(x = x, y = y)
str(data.xy)
'data.frame': 25 obs. of 2 variables:
$ x: int 1 2 3 4 5 6 7 8 9 10 ...
$ y: num 7.73 12.06 16.79 19.39 24.08 ...
Die Regression wird durchgeführt mit
options(show.signif.stars = FALSE)
lm.fit <- lm(y ~ x, data = data.xy)
summary(lm.fit)
Call:
lm(formula = y ~ x, data = data.xy)
Residuals:
Min
1Q Median
-2.576 -0.972 0.195
3Q
1.118
Max
2.296
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.4590
0.6043
0.76
0.46
x
4.9756
0.0407 122.40
<2e-16
Residual standard error: 1.47 on 23 degrees of freedom
Multiple R-squared: 0.998,Adjusted R-squared: 0.998
F-statistic: 1.5e+04 on 1 and 23 DF, p-value: <2e-16
Wir sehen, daß im intercept (konstanten Anteil) die Null-Hypothese
zum Niveau 95% nicht verworfen werden kann, d.h., dieser Wert ist
nicht signifikant von Null verschieden. Tatsächlich ist kein konstanter
Anteil in den Daten.
Anders ist es beim Anstieg = 5. Dieser wird recht genau ermittelt. Wir können mit der Schätzung β̂0 = 4.9756 auch den standard
error ablesen se(β̂0 ) = 0.0407. Es ergibt sich als Test-Statistik T =
4.9756/0.0407 = 122.3986.
6.3. DIE ANOVA-TABELLE IN LINEAREN MODELLEN
93
Der residual standard error wird mit σ = 1.4657 angegeben, bei
23 = 25 − 2 Freiheitsgraden.
6.3. Die ANOVA-Tabelle in linearen Modellen
Bisher haben wir in Beispiel 6.4 nur das Konzept der EinwegANOVA vorgestellt. Wie aus dem dort skizzierten Kontext ersichtlich
ist, wird es darum gehen, die folgende Hypothese zu testen: H0 : µ1 =
· · · = µp , gegen die Alternative, daß in wenigstens einer Ausprägung
ein anderes Mittel vorliegt. Dies wird durch die Einführung des Unterraums U ⊂ L gelöst, der gegeben ist als
U := {x ∈ Rp , xi − xj = 0, i, j = 1, . . . , p} .
Dieser Raum U ist ein-dimensional (eine Komponente bestimmt den
ganzen Vektor µ).
Die Schätzer µ̂i , ı = 1, . . . , pPin den einzelnen Gruppen hatten wir
i
bereits identifiziert als µ̂i = n1i nj=1
Yij , vgl. Beispiel 6.8.
Der Satz von Gauß–Markoff 6.2 in der NLM-Version sagt, dass dann
die Größe F in Punkt (5) ibid. gemäß Fp−1,n−p verteilt ist. Wie berechnet man die Norm-Quadrate kPL Y − PU Y k2 und kY − PL Y k2 in der
Praxis? Wir erinnern und, daß PL Y = Ŷ = X β̂ ist.
(1) Der Vektor Ŷ = (µ̂1 , . . . , µ̂1 , . . . , µ̂p , . . . , µ̂p ) ist stückweise konstant.
(2) Der Vektor PH Y beschreibt das Gesamt-Mittel
(es muß ja ein
P
konstanter Vektor sein), also M := n1 i,j Yij .
(3) Daher ist (Bild!)
p
VzdG
1
1 X
=
kPL Y − PU Y k2 =
ni (M − µ̂i )2
p−1
p − 1 i=1
(4) Das Residuum Y − Ŷ wird berechnet als
p
n
i
1 XX
(Yij − µ̂i )2 .
V =
n − p i=1 j=1
∗
Wir vertiefen etwas. Die zentrale Idee der Varianz-Analyse ist die Zerlegung der Daten-Varianz ky − ȳk2 in den Teil, der durch das (lineare)
Modell erklärt wird kŷ − ȳk2 und den verbleibenden Rest, das Residuum, gegeben durch ky − ŷk2 . Dabei ist folgender Sachverhalt von Bedeutung.
Satz 6.3. Für jede Realisierung der Daten Y = y gilt
(6.10)
ky − ȳk2 = ky − ŷk2 + kŷ − ȳk2
94
6. LINEARE MODELLE
Beweis. Offenbar gilt doch
−1 T
y − ŷ = y − X X T X
X y = (I − PL )y = QL y ∈ L⊥ .
Da die erste Spalte in X konstant ist, ist der konstante Vektor ȳ ∈ L,
somit auch ŷ − ȳ ∈ L. Aus der Orthogonalität der Zerlegung folgt die
Behauptung.
In obiger Terminologie erhalten wir den für die Einweg-ANOVA
wichtigen Sachverhalt
(6.11)
(n − 1)Vtot = (n − p)V ∗ + (p − 1)VzdG .
Mit diesen Größen wird auch gemessen, inwiefern das zugrunde gelegte
Modell die Daten erklärt.
Definition 46 (Bestimmtheitsmaß R2 ). Der Quotient
R2 :=
kŷ − ȳk2
,
ky − ȳk2
wird Bestimmtheitsmaß genannt.
Bemerkung 32. Wegen Satz 6.3 gilt 0 ≤ R2 ≤ 1. Er beschreibt
den Anteil an der Gesamt-Varianz Vtot , der durch den Modell-Fit ŷ −
ȳ erklärt wird. Er sollte also groß sein, wenn das Modell den Daten
entspricht.
Im Falle der Regression ist R2 = r2 = ρ2 (y, x) der empirische
Korrelations-Koeffizient.
Die Berechnung dieser Größen erfolgt in der ANOVA-Tabelle.
Beispiel 6.10. Der Datensatz newcar.dat sammelt die beim Autokauf (auf Raten) anfallenden Zinssätze in Abhängigkeit vom Ort1.
newcar <- read.table("newcar.dat", header = TRUE)
str(newcar)
'data.frame': 54 obs. of 2 variables:
$ Rate: num 13.8 13.8 13.5 13.5 13 ...
$ City: int 1 1 1 1 1 1 1 1 1 2 ...
Wir sehen, daß der Ort nicht als Faktor ausgeweisen ist, sondern
als numerische Variable (integer). Deshalb korrigieren wir dies in
1New
Car Interest rates, Quelle: Hoaglin, D., Mosteller, F., and Tukey, J.
(1991). Fundamentals of Exploratory Analysis of Variance. Wiley, New York,
page 71.
6.3. DIE ANOVA-TABELLE IN LINEAREN MODELLEN
95
newcar$City <- as.factor(newcar$City)
str(newcar)
'data.frame': 54 obs. of 2 variables:
$ Rate: num 13.8 13.8 13.5 13.5 13 ...
$ City: Factor w/ 6 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 1 2 ...
15.0
Die statistische Frage lautet: Hat der Ort einen Einfluß auf die
Höhe des zu entrichtenden Zinssatzes? Wir schauen schon mal nach
im boxplot, siehe Abb. Wir ahnen schon, daß der Test auf Ort-
14.0
●
12.0
13.0
●
1
2
3
4
5
6
Abbildung 1. Veranschaulichung des newcar Datensatzes.
sunabhängigkeit abgelehnt werden wird. Also, machen wir formal eine
ANOVA.
anova(lm(Rate ~ City, data = newcar))
Analysis of Variance Table
Response: Rate
Df Sum Sq Mean Sq F value Pr(>F)
City
5
10.9
2.189
4.83 0.0012
Residuals 48
21.8
0.453
Wir rechnen dies von Hand nach:
96
6. LINEARE MODELLE
attach(newcar)
X <- model.matrix(Rate ~ City)
(sample.size <- dim(newcar)[1])
[1] 54
(p <- length(levels(City)))
[1] 6
(beta.hat <- solve(t(X) %*% X) %*% t(X) %*% Rate)
[,1]
(Intercept) 13.1944
City2
-0.5833
City3
0.1122
City4
0.0500
City5
0.2889
City6
-0.9944
y.hat <- X %*% beta.hat
(SSQ <- sum((mean(Rate) - y.hat)^2))
[1] 10.95
(MSQ <- sum((mean(Rate) - y.hat)^2)/(p - 1))
[1] 2.189
(SSR <- sum((Rate - y.hat)^2))
[1] 21.76
(MSR <- sum((Rate - y.hat)^2)/(sample.size - p))
[1] 0.4533
(F <- MSQ/MSR) # F-Statistik
[1] 4.829
1 - pf(F, p - 1, sample.size - p)
[1] 0.001175
detach(newcar)
Wir sehen sehr schön, daß die Städte 2 und 6 weit vom Mittel
abweichen, und daher der Test auf gleiche Mittel verworfen wird. Die
Zahl 10.9457 entspricht kŷ − ȳk2 , und ky − ŷk2 = 21.7581. Der Quotient
F ist exakt der Quotient in Satz 6.2(4), und er ist daher gemäß f5,48
verteilt.
6.4. DIAGNOSTIK
97
6.4. Diagnostik
Die Testtheorie in den linearen Modellen Y ∼ Xβ + ε basiert auf
folgenden Verteilungsannahmen für den Fehler: ε ∼ norm (0In , σ 2 In ),
d.h.,
(1) Alle Beobachtungsfehler haben gleiche Varianz σ 2 (Homoskedastizität),
(2) Die Fehler sind normalverteilt,
(3) Die Fehler sind unkorreliert.
Um in praktischen Anwendungen die vorgenommene Datenanalyse zu
rechtfertigen braucht es daher eine vernünftige Diagnostik. In R wird
dies standard-mäßig graphisch getan, in dem man das Ergebnis der
Statistik des linearen Modells druckt. Wir greifen auf die Daten aus
Beispiel 6.9 zurück. Das Ergebnis sieht aus wie in Abbildung 2.
Weitere diagnostische plots existieren (insgesamt sechs), wir werden
aber nur vier diskutieren.
6.4.1. Der Tukey-Anscombe Plot. Im ersten Panel der Abbildung 2 sehen wir die Residuen Y − Ŷ gegen die Werte Ŷ abgetragen.
Im Idealfall sollte ersichtlich sein, daß die Variabilität überall gleich ist
(gleiche Varianz). Es sollten keine Trends o. ä. zu sehen sein.
6.4.2. Der Q-Q-Plot. Im zweiten Panel sehen wir den Q-Q-Plot.
Auf der x-Achse werden die Quantile der Standard-Normalverteilung
abgetragen, während auf der y-Achse die (empirischen) Quantile der
Fehler-Verteilung abgetragen werden. Im Idealfall sollten die Quantile
auf einer Geraden liegen. Große Abweichungen davon deuten auf Abweichung von der Normal-Verteilung hin. Da in den Daten nur wenige
Beobachtungen in den Extremen liegen, wird die Zuverlässigkeit an den
Rändern abnehmen.
6.4.3. Korrelationen. Im dritten Panel werden nacheinander die
standardisierten Fehler für die einzelnen Beobachtungen aufgetragen.
Im Idealfall sollten keine Trends erkennbar sein. falls z. B. benachbarte
Werte immer zusammen liegen, so kann Korrelation vorliegen.
6.4.4. Cook’s Abstand. Zuletzt wird untersucht, ob einige einzelne
Beobachtungen einen besonderen Einfluß auf das Ergebnis der Schätzung
haben. Hierzu wird der Cook’sche Abstand, der definiert ist als
n
1 X
Dj := 2
(ŷ−j − yi )2 , j = 1, . . . , n.
2s i=1
Hierbei bezeichnet ŷ−j die Schätzung, die sich ergibt, wenn die j-te
Beobachtung weggelassen wird. Ist für ein j der Abstand Dj besonders
98
6. LINEARE MODELLE
●
−1 0
●
●
●
●
●
●
●
●
● ●
●
●
●
−3
20
●
12 ●
●6
40
60
80
2
1
●
●
●
0
●
●
−1
●
1
●
Residuals
Normal Q−Q
16 ●
Standardized residuals
2
Residuals vs Fitted
●
●6
120
−2
Fitted values
●
●
●
●
0.4
● ●
●
●
●
●
25
6
0.00
●
0.20
●
●
●
●
2
Cook's distance
●
●
●
●
1
0.10
●
0
1
Cook's distance
1.2
●
●
0.8
12 ●
0.0
Standardized residuals
●6
−1
Theoretical Quantiles
Scale−Location
●1
●
● 12
1●
●
●● ●
●
●
●●●
●●
●
●●
●●
●
●
●●
20
40
60
80
Fitted values
120
5
10
15
20
25
Obs. number
Abbildung 2. Diagnostische Plots in R
groß so kann es sich bei der Beobachtung um Ausreißer handeln. Im
obigen Falle betrifft dies die dritte und die elfte Beobachtungen. Der
Begriff des Ausreißers ist in der Statistik nicht genau fixiert, bei derartigen Beobachtungen sollte also nachgeprüft werden, ob Fehler in den
Eingaben,. . . vorliegen.
p
Bemerkung 33. Besser ist es die Quadratwurzel Dj , j = 1, . . . , n
abzutragen, da dies eine Norm ist.
KAPITEL 7
Verteilungsfreie Tests
Die bisherigen Test-Verfahren basierten alle auf der Annahme einer gemeinsamen Normal-Verteilung. Was ist, wenn eine vorgenommene
Diagnostik darauf hindeutet, daß diese Annahme nicht zutrifft? Dann
brauchen wir Tests, die unabhängig von einer Verteilungsannahme sind.
Ich habe hierfür den Begriff verteilungsfreie Tests gewählt. Oft werden
diese Tests auch unter nicht-parametrische Tests gefaßt. Letzterer Begriff ist aber auch anderweitig belegt.
7.1. Rangtests
Im folgenden setzen wir voraus, daß die Stichprobe i.i.d gemäß einer
reellen stetigen VF F gezogen wurde. Entscheidendes Hilfmittel bei
der Fundierung verteilungsfreier Tests ist der Begriff der geordneten
Stichprobe reeller ZV.
7.1.1. Ordnungsstatistiken. Seien X1 , . . . , Xn i.i.d. gemäß F .
Die geordnete Stichprobe ist diejenige Stichprobe, die aus X1 , . . . , Xn
durch punktweises Anordnen entsteht, d.h., für jedes ω ∈ Ω bilden wir
X(1) (ω) ≤ X(2) (ω) ≤ · · · ≤ X(n) (ω)
Wir schreiben verkürzt X(1) ≤ X(2) · · · ≤ X(n) .
Definition 47 (Ordnungsstatistik). Der Vektor X(1) , X(2) , . . . , X(n)
wird Ordnungsstatistik genannt. Das Element X(i) heißt i-te Ordnungsgröße.
Bemerkung 34. Dieses Ordnen ist meßbar, da es sukzessive durch
Minima und Maxima erzeugt werden kann.
Sei Gj (x) = P (X(j) ≤ x), x ∈ R die Verteilung der j-ten Ordnungsgröße. Diese hat eine einfache Gestalt.
Lemma 7.1. Es gilt
Gj (x) =
n
X
b(i, n, F (x)),
i=j
99
x ∈ R.
100
7. VERTEILUNGSFREIE TESTS
Pn
Beweis. Wir betrachten Y (x) :=
i=1 χ(−∞,x] (Xi ) (Anzahl der
Xi ≤ x). Wir fassen dies als Bernoulli Experiment auf mit p = P (”Xi ≤
x”) = F (x). dann ist Y (x) die Anzahl der Erfolge, und somit ∼
binom(n, F (x)). Die Behauptung folgt nun wegen X(j) ≤ x gdw. j ≤
Y (x) ≤ n.
7.1.2. Ränge. Sei X(1) , . . . , X(n) die zu einer Stichprobe X1 , . . . , Xn
gehörige Ordnungsstatistik.
Definition 48 (Rangzahl, Rangvektor). Die Abbildung (ZV) R,
die jedem 1 ≤ i ≤ n die Zahl (i) (Position in der O-Statistik) zuordnet
heißt Rang. Wir schreiben dann Ri = R(i).
Der zugehörige Vektor R = (R1 , . . . , Rn ) heißt Rangvektor.
Bemerkung 35. Es gilt also Ri (ω) = j gdw. Xi = X(j) , d.h., Xi =
X(R(i)) . Diese Zuordnung ist im allg. nicht eindeutig. Wir beschränken
uns aber auf stetige VF F , so daß dies mit Wk-t eins zutrifft. Der
Rangvektor ist dann auch fast sicher eindeutig bestimmt. Sollte die
Zuordnung nicht eindeutig sein so spricht man von Bindungen, diese
werden in R auch erwähnt.
Wir beobachten, daß der Rangvektor R eine zufällige Permutation
der Elemente {1, . . . , n} ist. Wir bezeichnen S(n) die Gruppe der Permutationen.
Satz 7.1. Der Rangvektor ist gleichverteilt auf S(n).
Beweis. Da wir i.i.d. Beobachtungen voraussetzen, ist die gemeinsame Verteilung eine Produktverteilung
n
Y
P (X1 ≤ x1 , . . . , Xn ≤ xn ) =
F (xi ).
i=1
Sei die Einheitspermutation. Wir zeigen daß P (R = σ) = P (R =
), σ ∈ S(n). Bilde τ = σ −1 die inverse Permutation. Es folgt
P (R = σ) = P (R1 = σ1 , . . . , Rn = σn )
= P (Rτ1 = 1, . . . , Rτn = n)
= P (Xτ1 ≤ Xτ2 ≤ · · · ≤ Xτn )
= P (X1 ≤ X2 ≤ · · · ≤ Xn ) = P (R = ).
Definition 49 (Rangstatistik). Eine meßbare Funktion T , die nur
von den Rängen abhängt heißt Rangstatistik. Die Verteilung hängt nach
obigem Satz nicht mehr von F ab, sie ist daher verteilungsfrei.
7.1. RANGTESTS
101
Beispiel 7.1. Es gilt
P (Ri = r) =
# {σ ∈ S(n), σi = r}
#S(n − 1)
1
=
= .
#S(n)
#S(n)
n
7.1.3. Der Zwei-Stichproben U-Test (Mann-Whitney Test).
Seien zwei Stichproben
X1 , . . . , Xn1 ∼ FX
und Y1 , . . . , Yn2 ∼ FY
gegeben. Wir wollen die Hypothese testen, ob beide Stichproben i.i.d.
von der gleichen Verteilung gezogen wurden, d.h., ob FX = FY gilt.
Wir fassen diese zusammen zu
X10 , . . . , Xn0 1 , Xn0 1 +1 = Y1 , . . . , Xn0 1+n2 = Yn2 ,
und wir bilden den gemeinsame Rangvektor R, sowie die daraus abgeleiteten separaten Rangsummen RX , RY , gegeben als
RX =
n1
X
Ri ,
und RY =
i=1
n
X
Ri .
i=n1 +1
Notwendiger-weise folgt RX ≥ n1 (n21 +1) und RY ≥ n2 (n22 +1) (Summe
der ersten n1 , bzw. n2 Einträge). Deshalb bilden wir die korrigierten
Summen
n1 (n1 + 1)
n2 (n2 + 1)
UX = RX −
, und UY = RY −
.
2
2
Bemerkung 36. Die korrigierten Rangsummen können interpretiert
werden als
n1 X
n2
X
UX =
χ(0,∞) (Xi − Yj ).
i=1 j=1
Der entscheidende Satz ist der folgende.
Satz 7.2. Falls FX = FY so gilt
P (RX = r) =
N (n, n1 , r)
,
n
n1
n
o
P
wobei N (n, n1 , r) = # A ⊂ {1, . . . , n} , #A = n1 ,
j
=
r
.
j∈A
Beweis. Da unter der Null-Hypothese der Rangvektor gleichverteilt
auf S(n) ist, so sind wir im Laplace-Raum, d.h., bilden “günstige
Ereignisse” / “alle Ereignisse”.
102
7. VERTEILUNGSFREIE TESTS
Bemerkung 37. Die Berechnung von P0 ist sehr aufwendig. Falls
0
n1 , n2 groß genug sind, so folgt UX∗ := UXσ−µ
∼ norm (0, 1), wobei
0
µ0 = EUX = n1 n2 /2 und σ02 = V(UX ) = n1 n2 (n + 1)/12.
Bemerkung 38. Die Verteilung P0 ist symmetrisch bzgl. ρ0 :=
n1 (n1 + 1)/2, deshalb ist UX = RX − ρ0 symmetrisch bzgl der Null.
Sei nun zu gegebenem γ die Zahl cγ das γ-Quantil von P0 .
Definition 50 (Mann-Whitney Test). Sei H0 : FX = FY , und sei
α ein Signifikanz-Niveau. Wir verwerfen H0 falls
UX ≤ cα/2
oder UY ≤ cα/2 .
Bemerkung 39. Da RX + RY = n(n + 1)/2 folgt UX + UY = n1 n2 .
Daher folgt UY ≤ cα/2 falls UX ≥ n1 n2 − cα/2 .
7.1.4. Der Wilcoxon Rangtest. Dies ist die “fortgeschrittene”
Variante von Rangtests. Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn ∼
F , und gegeben sei ϑ0 . Wir testen H0 : median = ϑ0 , wobei median
das 50%-Quantil der Verteilung F bezeichnet (F(median)=1/2). Unter
allgemeinen Voraussetzungen ist der Median ein robustes Maß für das
Zentrum einer Verteilung, im Gegensatz zum Erwartungswert.
Die Teststatistik beruht auf vorzeichenbehafteten (signierten)-Rangsummen
n
X
+
T :=
Ψi Ri+ ,
i=1
mit
(
1, Xi > ϑ0 ,
(1) Ψi =
0, sonst.
+
(2) Ri ist der i-te (absolute) Rang der Zahlen |Xi − ϑ0 |.
Satz 7.3. Es gilt
(1) Pϑ0 (Ψ0 = 1) = 1/2,
(2) R+ ist auf S(n) gleichverteilt, und
(3) die ZV Ψ1 , . . . , Ψn , R+ sind unabhängig.
Satz 7.4. Die Verteilung von T + ist gegeben durch
n(n + 1)
N (n, r)
, r = 0, . . . ,
,
P (T + = r) =
n
2
2
n
o
P
mit N (n, r) = # A ⊂ {1, . . . , n} ,
j
=
r
.
j∈A
Satz 7.5 (Wilcoxon, 1945). Zu gegebenem Signifikanz-Niveau α
wird H0 : median = ϑ0 verworfen, falls T + ≤ cα/2 oder T + > n(n +
1)/2 − cα/2 .
7.2. KOLMOGOROFF–SMIRNOFF–TEST
103
Anbei ein R-output. Die daten sind die folgenden.
x <- c(1.83, 0.5, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.3)
y <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29)
Die beiden Stichproben x, y sind wie folgt beschrieben.
# Hollander & Wolfe (1973), 29f.
Hamilton depression scale factor measurements in 9 patients
with mixed anxiety and depression, taken at the first (x) and
second (y) visit after initiation of a therapy
(administration of a tranquilizer).
Wilcoxon signed rank test
data: x and y
V = 40, p-value = 0.01953
alternative hypothesis: true location shift is greater than 0
7.2. Kolmogoroff–Smirnoff–Test
Im Abschnitt der beschreibenden Statistik, Kapitel 3, wurde schon
kurz auf die empirische Verteilungsfunktion eine Stichprobe eingegangen, als eine Möglichkeit die Verteilung eines nominellen Merkmals zu
beschreiben. Dies wird hier theoretisch vertieft.
Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn ∼ F , die gemäß F
verteilt ist.
Definition 51 (empirische Verteilungsfunktion). Die Treppenfunktion
n
1X
# {j, Xj ≤ x}
Fn (x) :=
χ(−∞,x] (Xj ) =
,
n j=1
n
ist die empirische Verteilungsfunktion der Stichprobe.
Bemerkung 40. Als Summe meßbarer Funktionen ist dies für
jedes x eine ZV, sogar mehr, es ist ein stochastischer Prozeß (zufällige
Funktion).
Wir wiederholen noch einmal die Graphik von Abbildung 5 als Abbildung 1 dieses Abschnitts. Die Funktion x 7→ Fn (x) ist rechtsseitig
stetig.
Lemma 7.2. Sei X1 , . . . , Xn ∼ F eine i.i.d. Stichprobe. Für jedes x
gilt nFn (x) ∼ binom(n, F (x)). Insbesondere folgt EFn (x) = F (x) und
V(Fn (x)) = n1 F (x)(1 − F (x)).
104
7. VERTEILUNGSFREIE TESTS
1.0
Darstellung der empir. Verteilungsfunktion
●
0.8
●
●
0.6
●
●
0.4
Fn(x)
●
●
0.2
●
●
0.0
●
0.0
0.5
1.0
1.5
2.0
x
Abbildung 1. Die ersten 10 Beobachtungen als VF.
Beweis. Dies folgt durch Interpretation als erwartungstreuer Schätzer
von p = F (x) im Bernoulli-Experiment.
Definition 52 (Kolmogoroff–Smirnoff Teststatistik). Die Größe
dn := sup |Fn (x) − F (x)|
x∈R
heißt Kolmogoroff–Smirnoff Teststatistik.
Sie mißt den gleichmäßigen Abstand zwischen der empirischen und
der wahren VF, diese Statistik kann also genutzt werden zum Testen,
ob eine Stichproben-Verteilung gleich einer vorgegebenen Verteilung
ist. Dazu müssen wir noch zeigen, daß dn als ZV einer bekannten
Verteilung, unabhängig von F genügt.
Dazu bedarf es einführender Betrachtungen. Wie kann man dn berechnen? Tatsächlich geht dies einfacher, als auf den ersten Blick vermutet.
7.2. KOLMOGOROFF–SMIRNOFF–TEST
105
Seien
d+
n := sup(Fn (x) − F (x)),
x
Dann ist dn =
−
max(d+
n , dn ).
und d−
n := sup(F (x) − Fn (x)).
x
Wir wissen sogar mehr.
Lemma 7.3. Sei X(1) ≤ · · · ≤ X(n) die Ordnungsstatistik. Dann gilt
i
i
+
−
dn = max
− F (X(i) ) , und dn = max F (X(i) ) −
,
1≤i≤n
1≤i≤n
n
n
die Teststatistik dn wird also genau an den Sprungstellen der ecdf entschieden.
Beweis. Wir setzten formal X(0) = −∞, X(n+1) = ∞. Dann folgt
d+
n = max
0≤i≤n X
sup
(Fn (x) − F (x))
(i) ≤x<X(i+1)
i
== max
sup
− F (x)
0≤i≤n X ≤x<X
n
(i)
(i+1)
i
F (X)
= max
−
inf
0≤i≤n
n X(i) ≤x<X(i+1)
i
= max
− F (X(i) ) .
0≤i≤n
n
Letztlich beobachten wir, daß wegen F (X(i) ) ≤ i/n, und F (X(0)) = 0
der erste Wert i = 0 nicht zum max beiträgt.
Wir werden nun sehen, daß die Verteilung der Test-Statistik dn
nicht von der Stichproben-Verteilung F abhängt.
Satz 7.6. Sei F0 eine vorgegebene VF. Unter H0 : F = F0 hängt
die Verteilung von dn nicht von F ab. Speziell gilt
∞
X
x
2 2
lim P (dn ≤ √ ) = 1 − 2
(−1)i−1 e−2i x , x > 0.
n→∞
n
i=1
Beweis. Wir werden nur die Unabhängigkeit zeigen. Wegen Lemma 7.2 gilt unter H0 : dn = dn (F0 (X(1) , . . . , F0 (X(n) )), es ist also eine
Funktion der Ordnungsstatistik. Da F0 monoton ist, ist diese auch
eine Funktion der Ordnungsstatistik von (F (X1 ), . . . , F (Xn )). Wegen
F (Xi ) ∼ unif(0, 1), hängt die gemeinsame Verteilung nicht von F = F0
ab.
Satz 7.7 (Ein-Stichproben-Test, Kolmogoroff, 1933, Smirnoff, 1948).
Sei H0 : F = F0 , und sein Signifikanz-Niveau α gegeben. Sei kn,1−α das
(1 − α)-Qunatil der Verteilung von dn . Die Hypothese H0 wird verworfen, falls dn > kn,1−α .
106
7. VERTEILUNGSFREIE TESTS
Beispiel 7.2. ks.test(x = data.unif, y = "pnorm")
One-sample Kolmogorov-Smirnov test
data: data.unif
D = 0.5001, p-value < 2.2e-16
alternative hypothesis: two-sided
# zum Vergleich: Referenz ist Gleichverteilung 'punif'
ks.test(x = data.unif, y = "punif")
One-sample Kolmogorov-Smirnov test
data: data.unif
D = 0.0741, p-value = 0.6425
alternative hypothesis: two-sided
Bemerkung 41. Es gibt eine wichtige Zwei-Stichproben Version
mit Test auf Gleichheit der Verteilungen zweier Stichproben. Hierbei
wird der Abstand beider empirischer VF herangezogen.
x <- runif(100)
y <- rnorm(77)
ks.test(x, y)
Two-sample Kolmogorov-Smirnov test
data: x and y
D = 0.5355, p-value = 5.209e-12
alternative hypothesis: two-sided
7.3. Daten in Tabellenform: asymptotische χ2 -Tests
Im Kapitel 3, speziell in § 3.4.2 zur Beschreibenden Statistik wurde
schon auf Daten die in Tabellenform vorliegen hingewiesen. Typischerweise sind Tabellen Zusammenfassungen von Beobachtungen eines oder
mehrerer kategorieller Merkmale. Die Tabelle
Color
Sex blue brown
7.3. DATEN IN TABELLENFORM: ASYMPTOTISCHE χ2 -TESTS
F
M
0
1
107
3
1
ist die Zusammenfassung eines data.frame zweier kategorieller Merkmale, hier Sex, Color, wie etwa
Sex
2
M
3
F
3.1
F
3.2
F
4
M
Color
blue
brown
brown
brown
brown
R bietet Funktionen, die aus derartigen data frames Tabellen erzeugen, so wie gerade geschehen.
Beispiel 7.3. Im einfachsten Fall wird ein Merkmal mit zwei Ausprägungen (“m”,”w”) abgefragt. Dies ist auch bei erfolgsw-kten im
Bernoulli-Experiment der Fall. Unter den Kurs-Teilnehmern seien 10
der 22 Teilnehmer Studentinnen. Dies ist die tabellarische Zusammenfassung der Erhebung bei jedem einzelnen Teilnehmer und resultiert in
der minimalen Tabelle
cdata
m w
10 12
Eine statistische Frage ist: Ist das Interesse von Studenten/Studentinnen
an CoSta gleichermaßen ausgeprägt? Dies resultiert im Binmomialtest
binom.test auf H0 : p = 0.5.
binom.test(10, 22)
Exact binomial test
data: 10 and 22
number of successes = 10, number of trials = 22, p-value = 0.8318
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.2439 0.6779
sample estimates:
probability of success
0.4545
Die Null-Hypothese kann also nicht verworfen werden.
108
7. VERTEILUNGSFREIE TESTS
Beispiel 7.4. [Fairer Würfel] In einem Würfelexperiment wurden
die Ergebnisse von 100 Versuchen gesammelt.
wurf.sample <- data.frame(Wurf = sample(x = 6, size = 100, replace = TRUE))
head(wurf.sample)
Wurf
1
4
2
1
3
4
4
4
5
1
6
4
wurf.table <- table(wurf.sample)
wurf.table
wurf.sample
1 2 3 4 5 6
16 19 18 13 13 21
Hier ist die Frage: Ist der Würfel fair, d.h., ist jedes Ergebnis gleich
wahrscheinlich?
Natürlich können wir obigen Binomialtest nutzen um die Hypothese
H0 : p1 = 1/6 zu prüfen. Allerdings müssten wir dies dann für jede der
Zahlen 1,. . . ,6 prüfen, und multiples Testen ist weniger aussagekräftig.
Besser ist es, einen Test zu haben, der prüft, ob eine Stichprobe
gemäß einer vorgegebenen (diskreten) Verteilung vorliegt. Derartige
Tests heißen Anpassungstest.
Beispiel 7.5 (Kontingenztafeln). Wir hatten bereits ein Beispiel,
wo zwei kategorielle Merkmale zusammen gefaßt wurden, siehe Beispiel 2.
Hier ist eine statistische Fragestellung: Sind beide Merkmale (statis(data.tbl <- with(data.smoker, table(sex, smoker)))
smoker
sex FALSE TRUE
m
24
30
w
16
30
Abbildung 2. Datenzusammenfassung als Tabelle
tisch) unabhängig?
Tests auf Unabhängigkeit von kategoriellen Merkmalen heißen Unabhängigkeitstests.
7.3. DATEN IN TABELLENFORM: ASYMPTOTISCHE χ2 -TESTS
109
7.3.1. Allgemeiner Zugang. Wir haben bereits gesehen, daß im
einfachsten Fall eines Merkmals mit zwei Auspr”agungen die Binomialverteilung relevant ist. Bei einem Merkmal mit k Ausprägungen, in denen jedes Ergebnis mit W-keit p1 , . . . , Pk eintritt, spielt die MultinomialVerteilung eine Rolle.
X
n!
rj = n.
P (X1 = r1 , . . . , Xk = rk ) =
pr11 . . . prkk , rj = 0, . . . , n,
r1 ! . . . rk !
Dies ist für k = 2 die Binomial-Verteilung.
7.3.2. χ2 -Anpassungstest. Beim Anpassungstest mit Realisierungen r1 , . . . , rn wird man vergleichen rj /n pj , oder äquivalent r1p/n
, . . . , rkp/n
1
k
1. Hierzu wird die Test-Statistik
2 X
k
k
X
(rj − npj )2
rj /n
−1 =
(7.1)
D :=
(npj )
pj
npj
j=1
j=1
Im Falle, daß die Daten tatsächlich gemäß p1 , . . . , pk erzeugt wurden
liefert ein Grenzwertsatz obiger Multinomial-verteilung, daß asymptotisch (n → ∞, rj /n groß genug) gilt:
D ∼ χ2k−1 .
Dies führt zu folgendem Test.
Definition 53 (χ2 -Anpassungstest, Pearson, 1900). Sei H0 : p =
p0 = (p1 , . . . , pk ). Zum Signifikanz-Niveau α bestimme man das Quantil χ2k−1,1−α der χ2 -Verteilung mit (k − 1) Freiheitsgraden. H0 wird
verworfen, falls D > χ2k−1,1−α .
Bemerkung 42. In R ist dieser Test als chisq.test verfügbar.
Im Falle obiger Daten aus dem Beispiel 7.4 liefert dies wie folgt.
chisq.test(wurf.table)
Chi-squared test for given probabilities
data: wurf.table
X-squared = 3.2, df = 5, p-value = 0.6692
Die Null-Hypothese kann nicht verworfen werden.
Bemerkung 43. Für den Test auf Gleichheit einer stetigen Verteilung
mit vorgegebener Verteilung kann durch Klassenbildung die obige Situation erreicht werden.
110
7. VERTEILUNGSFREIE TESTS
7.3.3. χ2 -Unabhängigkeitstest. Hier wird auf die Unabhängigkeit
zweier Merkmale getestet. Voraussetzung ist eine kXl-Kontingenztafel,
wie im Beispiel 7.5 mit einer 2X2-Kontingenztafel. Im allgemeinen liegt
folgende Tafel vor. Beim Unabhängigkeitstest wird folgendermaßen vorgek-Ausprägungen
n11
...
n1k
n1•
...
nl1
...
nlk
nl•
n•1
...
n•k n = n••
Abbildung 3. allgemeine Form einer kXl-Kontingenztafel
gangen. Unter der Nullhypothese, daß die beiden Merkmale unabhängig
sind, sollte doch gelten πij = πi πj0 . Anhand der vorliegenden Daten werden die Wahrscheinlichkeiten durch die relativen Häufigkeiten
approximiert, d.h., p̂ij = nij /n, und für die Randverteilungen π̂i :=
ni• /n, π̂j0 = n•j /n. Die erwartete Häufigkeit ist dann np̂i π̂j0 , also
ni• n•j
Eij :=
,
n
wohingegen die beobachtete Häufigkeit gegeben ist durch
nij
.
Oij :=
n
Die Güte wird nun gemessen mit der Teststatistik
X (Oij − Eij )2
X (nij − ni• n•j )2
(7.2)
T :=
=n
Eij
ni• n•j
i,j
i,j
Asymptotisch ist diese Teststatistik T gemäß χ2(k−1)(l−1) verteilt.
Definition 54 (χ2 -Unabhängigkeitstest). Es liege eine kXl-Kontingenztafel vor. Die Null-Hypothese lautet Ho : die beiden Merkmale
sind unabhängig. Zum Signifikanzniveau α bestimme man χ2(k−1)(l−1),(1−α)
das (1 − α)-Quantil. Die Null-Hypothese wird verworfen, falls T >
χ2(k−1)(l−1),(1−α) .
Beispiel 7.6. Beim Datensatz Raucher vs. Geschlecht vom Beispiel 2
in§ 3.2.2 liefert folgendes Ergebnis.
data.smoker <- read.table("data-smoker.dat", header = TRUE)
O <- data.tbl <- with(data.smoker, table(sex, smoker))
# am Rand der Tafel werden die Summen gebildet: ni. und n.j
nsex <- apply(data.tbl, 1, sum)
7.4. AUFGABEN
111
nsmoker <- apply(data.tbl, 2, sum)
(n <- sum(nsex)) # =sum(nsmoker)
[1] 100
# erwartete Haeufigkeiten Eij sind ni.*n.j/n = nsex[i]*nsmoker[j]/n
(E <- outer(nsex, nsmoker)/n)
FALSE TRUE
m 22.56 24.44
w 25.44 27.56
# Teststatistik: sum_i(sum_j((Oij-Eij)^2/Eij)) ist
# chisq((k-1)*(l-1))-verteilt
(CHISQ <- sum((O - E)^2/E))
[1] 0.3914
# H0 wird verworfen, wenn CHISQ > quantil
qchisq(1 - 0.05, (k - 1) * (l - 1))
[1] 3.841
# oder p.value
1 - pchisq(CHISQ, (k - 1) * (l - 1))
[1] 0.5316
# in R:
chisq.test(data.tbl, correct = FALSE)
Pearson's Chi-squared test
data: data.tbl
X-squared = 0.3914, df = 1, p-value = 0.5316
Das Rauchverhalten ist unabhängig vom Geschlecht.
7.4. Aufgaben
Aufgabe 7.1. In einer Umfrage wurden folgende Gesprächsdauern
beim Telefonieren gemessen. 12.8, 3.5, 2.9, 9.4, 8.7, 0.7, 0.2, 2.8, 1.9, 2.8, 3.1, 15.8
(in Minuten).
(1) Überprüfen Sie graphisch, ob diese Stichprobe normalverteilt
ist.
(2) Testen Sie, ob der Median 5 Minuten ist, oder ob er im allgemeinen größer ist.
Aufgabe 7.2. Bei einem Würfel-Experiment wurden folgende Häufigkeiten gemessen.
112
7. VERTEILUNGSFREIE TESTS
wuerfel
1 2 3 4 5 6
12 18 11 25 16 18
(1) Testen Sie, ob der Würfel die Gleichverteilung repräsentiert!
Leider stimmt dies nicht, denn die Daten sind mit den W-keiten
1/7, 1/7, 1/7, 2/7, 1/7, 1/7 erzeugt worden!
Aufgabe 7.3. In jeder Sprache ist die Verteilung der einzelnen
Buchstaben spezifisch. Für die englische Sprache gilt folgende prozentuale Häufigkeit der Buchstaben E,T,R,N,O: 29, 21, 17, 17, 16.
In einem vorliegenden Text werden folgende Häufigkeiten der Buchstaben E,T,R,N,O gezählt: 100, 110, 80, 55, 14.
Testen Sie, ob der vorliegende Text in englischer Sprache verfaßt
war.
Aufgabe 7.4. In der KFZ-Versicherungswirtschaft ist es wichtig zu
wissen, ob die Schwere eines Unfalls davon abhängt, ob der Autofahrer
einen Gurt angeschnallt hatte, oder nicht.
Folgende Daten wurden erhoben
None minimal minor major
Yes 12813
647
359
42
No 65963
4000 2642
303
Testen Sie, ob die Schwere eienes Unfalls davon abhängt, ob der
Autofahrer einen Gurt angeschnallt hatte, oder nicht.
ANHANG A
Ergänzungen zur Wahrscheinlichkeitstheorie
A.1. Bedingte Wahrscheinlichkeit
Sei (Ω, F, P ) ein W-Raum. Wir interessieren uns für P (A), haben
aber Informationen, daß das Ereignis B ∈ F eingetreten ist. Hat diese
Information Einfluß auf die Häufigkeit des Eintretens vom Ereignis A?
Beispiel A.1. Würfeln. Welche Zahl wurde gewürfelt? I. A. P ({j} =
1/6, z. B. A = {6}. Wissen aber, daß es eine gerade Zahl war, sprich
B = {2, 4, 6}. Wie sieht es aus mit A = {1}?
Definition 55 (Bedingte Wahrscheinlichkeit). Sei (Ω, F, P ) ein
W-Raum, und sei B ∈ F mit P (B) > 0. Dann ist
P (A/B) :=
P (A ∩ B)
,
P (B)
A ∈ F,
die bedingte Wahrscheinlichkeit für das Ereignis A unter der Bedingung B.
Bemerkung 44. Dadurch wird ein neuer W-Raum auf B erzeugt,
mit
• FB = {C ∩ B, C ∈ F}, und
• PB (A) := P (A/B).
• PB ist wieder ein W-Maß.
Beispiel A.2. Beispiel von oben:
P ({6})
P ({6} / {Ergebnis gerade}) =
= 1/3.
P ({Ergebnis gerade})
P (∅)
P ({1} / {Ergebnis gerade}) =
= 0.
P ({Ergebnis gerade})
Satz A.1 (Satz von der totalen Wahrscheinlichkeit). Sei (Ω, F, P )
ein W-Raum, und sei Ω = B1 t B2 t · · · t Bn eine disjunkte Zerlegung,
mit P (Bi ) > 0, i = 1, . . . , n. Dann gilt für ein beliebiges A ∈ F daß
P (A) =
n
X
P (A/Bi )P (Bi )
j=1
113
114
A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE
Beweis. Wegen A =
P (A) =
n
X
Fn
j=1 (A
∩ Bi ) folgt
P (A ∩ Bi ) =
j=1
n
X
P (A/Bi )P (Bi ).
j=1
Beispiel A.3 (Urnenmodell). Haben drei Urnen mit roten und
weißen Kugeln:
• in jeder Urne sind 100 Kugeln,
• jedoch in Urne 1 genau 20 rote, Urne 2 genau 50 rote, und in
Urne 3 genau 100 rote.
• W-keiten. daß Urnen gezogen werden sind 1/3, 1/2, 1/6 für
Urnen 1, 2, und 3.
Wie groß ist die W-keit eine rote Kugel zu ziehen?
P (rote Kugel ziehen) =
1
29
11 11
+
+1 = .
53 22
6
60
Satz A.2 (Satz von Bayes (1763)). Seien A, B Ereignisse mit P (A) >
0, P (B) > 0. Dann gilt
P (B/A) =
P (A/B)P (B)
.
P (A)
Beweis. Es gilt
P (A)P (B/A) = P (A ∩ B) = P (A/B)P (B).
Beispiel A.4 (Urnenmodell). Haben zwei Urnen.
•
•
•
•
mit je 100 Kugeln,
in Urne 1 genau 20 rote, Urne 2 genau 90 rote.
Urnen werden mit gleicher W-keit 1/2 gezogen.
Es wird eine rote Kugel gezogen.
Welche Urne wurde gewählt?
Sei A = rote Kugel gezogen, B = Urne 1 gewählt.
Dann
20 1
90 1
P (A) = P (A/B)P (B) + P (A/B c )P (B c ) =
+
= 0.55.
100 2 100 2
Also P (B/A) = P (A/B)P (B)/P (A) = 0.2 ∗ 0.5/0.55 = 10/55, analog
P (B c /A) = 45/55, also mit Wkt 0.89 wurde zweite Urne gewählt.
A.2. GEMEINSAME UND BEDINGTE VERTEILUNGEN
Bemerkung 45. Sei Ω =
lich). Es gilt dann
Fn
i=1
115
Bi , P (Bi ) = 1/n (gleich wahrschein-
P (Bi /A) ∝ P (A/Bi )P (Bi ) = P (A/Bi )/n.
dann ist diejenige bedingte W-keit am größten, die P (A/Bi ) maximiert!
A.2. Gemeinsame und bedingte Verteilungen
A.2.1. Diskrete Zufallsvariable.
Definition 56 (gemeinsame Verteilung zweier ZV).
Sei X, Y : (Ω, F, P ) → R ein Paar diskreter (reeller) ZV. Wir interessieren uns für die gemeinsame Verteilung
px,y := P (X = x, Y = y),
x, y ∈ R.
Satz A.3.
(1) Die Familie px,y ist eine diskrete W-keit.
(2) Falls px,y als W-keit gegeben, so definieren die Folgen
X
X
px :=
px,y , und py :=
px,y
y
x
die Randverteilungen von X, gegeben Y , und vice versa.
Definition 57 (Bedingte Verteilung). Sei px,y eine gemeinsame
Verteilung. Dann bezeichnet die Familie
P (X = x/Y = y) :=
P (X = x, Y = y)
,
P (Y = y)
y ∈ R,
die bedingte Verteilung (Übergangsw-keit).
A.2.2. Stetige Zufallsvariable.
Definition 58 (gemeinsame Verteilung zweier ZV). Seien X, Y
zwei stetige ZV, für die einen gemeinsame Dichte existiert, d.h.,
ZZ
P ((X, Y ) ∈ A) =
fX,Y (x, y) dxdy.
A
Dann bezeichnen
Z
fX (x) := fX,Y (x, y) dy,
Z
undfY (y) :=
die Randdichten.
Die bedingte Dichte fY /X ist gegeben als
fY /X :=
fX,Y (x, y)
,
fX (x)
y ∈ R.
fX,Y (x, y) dx,
116
A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE
Satz A.4. Die stetigen ZV X, Y sind unabhängig genau dann wenn
fX,Y (x, y) = fX (x)fY (y), x, y ∈ R.
Beweis. Sei A = (a, b] × (c, d] ein Rechteck. Dann haben wir
ZZ
P ((X, Y ) ∈ A) =
χ(a,b] (x)χ(c,d] (y)fX,Y (x, y) dxdy,
wegen der Unabhängigkeit aber auch
ZZ
PX ((a, b])PY ((c, d]) =
χ(a,b] (x)χ(c,d] (y)fX (x)fY (y) dxdy.
Definition 59 (gemeinsame Verteilungsfunktion). Sei (X, Y ) ein
Paar stetiger ZV mit gemeinsamer Dichte fX,Y . Dann bezeichnet die
Funktion
Z x Z y
ZZ
fX,Y (u, v) dudv
fX,Y (u, v) dudv =
FX,Y (x, y) :=
(−∞,x]×(−∞,y]
−∞
−∞
die gemeinsame VF.
Satz A.5. Sei (X, Y ) ein Paar stetiger ZV mit VF FX,Y . Das Paar
ist unabhängig gdw. Fx,y (x, y) = FX (x)FY (y), x, y, ∈ R.
Dies kann genutzt werden um die Nichtalterungseigenschaft der
Exponential-Verteilung zu zeigen.
Korollar A.1. Sei X ∼ exp λ. Dann gilt für alle s, t > 0 daß
P (X ≤ s + t/X ≥ s) = P (X ≤ t).
Beweis. Wir erinnern uns: FX (t) = 1 − e−λt , t ≥ 0. Deshalb
P (X ≤ s + t, X ≥ s)
P (X ≤ s + t/X ≥ s) = P (X ≤ t) =
P (X ≥ s)
FX (s + t) − Fx (s)
=
1 − FX (s)
−λs
e (1 − e−λt )
= 1 − e−λt .
=
e−λs
A.3. Kovarianz, Korrelation
Definition 60. Sei (X, Y ) ein paar reeller ZV mit gemeinsamer
Verteilung fX,Y , die jeweils eine endliche Varianz haben. Sei H : R2 →
R eine ZV. Es bezeichne
ZZ
EP(X,Y ) H(x, y) =
H(x, y)fX,Y (x, y) dxdy
A.3. KOVARIANZ, KORRELATION
117
den Erwartungswert von H.
Im Falle H(x, y) = x · y (Produkt) bilden wir
Cov(X, Y ) := E(X − EX)(Y − EY )
die Kovarianz der ZV X und Y .
Im Falle X = Y erhalten wir die Varianz Cov(X, X) = V(X).
Definition 61 (Kovarianzmatrix). Die Matrix
V(X)
Cov(X, Y )
Σ :=
Cov(X, Y )
V(Y )
bezeichnet die Kovarianzmatrix der ZV X und Y .
Bemerkung 46. Wegen Cauchy-Schwarz-Ungleichung reicht Existenz der Varianzen. Darüber hinaus gilt
det(Σ) = V(X)V(Y ) − Cov2 (X, Y ) ≥ 0.
Definition 62 (Korrelation zweier ZV). Die standardisierte Größe
ρ(X, Y ) :=
Cov(X, Y )
σ(X)σ(Y )
bezeichnet die Korrelation.
Definition 63 (Korrelationsmatrix). Die normierte Matrix
1
ρ(X, Y )
ρ(X, Y )
1
bezeichnet die Korrelationsmatrix der ZV X und Y .
Satz A.6. Es gilt (wegen Cauchy–Schwarz-Ungleichung)
• −1 ≤ ρ(X, Y ) ≤ 1, und
• ρ(X, Y ) = ρ(Y, X),
d.h., die Korrelationsmatrix ist symmetrisch, nicht-negativ definit.
Satz A.7. Seien X̃ = aX + b, Ỹ = cY + d affine Transformationen
der ZV X und Y . Dann gilt
ρ(X̃, Ỹ ) = sign(a) sign(b)ρ(X, Y ),
d.h. die Korrelation ist (bis auf Vorzeichen) invariant bzgl. Bewegung
und Skalierung.
Wir veranschaulichen den Einfluß der Korrelation im Falle der Normalverteilung, siehe Anhang C für Details, in Abbildung 1.
0.1
0.
0.3
0.
5
0.4
0.4
0.6
5
0.
0.4
0.1
0.3
3 0.4
0.
4
0.5
4
0.
0.2
0.2
0.4
0.8
0.0
0.0
0.0
0.1
0.0
0.6
0.2
0.8
0.8
A. ERGÄNZUNGEN ZUR WAHRSCHEINLICHKEITSTHEORIE
0.8
118
0.0
0.4
0.8
0.0
0.4
0.8
Abbildung 1. Konturen der Normalverteilung: negativ korreliert, ρ= -0.7 (links), unkorreliert, ρ= 0 (mitte),
positiv korreliert, ρ= 0.7 (rechts)
A.4. Verteilung der Summe zweier Zufallsvariable
(1) Wir betrachten zuerst den Fall diskreter ZV. Seien X, Y ZV
mit Werten in N0 . Seien pj , qj , resp. die Punktw-Kkeiten.
Wann ist X + Y = k?
Es gibt k + 1 Fälle:
0 k
p0 qk
1 k-1 p1 qk−1
...
k 0
pk q0
P
Daher gilt P (X+Y = k) = kj=0 pj qk−j (Faltungssumme).)
Beispiel A.5. Hatten schon Summe zweier Würfel. Wann
ist Summe gleich zehn? Es gibt drei Ereignisse (geordnete
Paare): (4, 6), (5, 5), (6, 4), ergo W-keit ist 3/36.
(2) Im Falle stetiger ZV gilt analog die Formel
Z
fX+Y (u) = fX,Y (x, u − x) du
(Faltungsintegral).
ANHANG B
Euklidische Räume
Grundlage für die Analysis der linearen statistischen Modelleist die
Geometrie in Euklidische Räumen.
Definition 64 (Euklidischer Raum). Der Vektorraum H := Rn ,
ausgestattet mit dem Skalarprodukt
n
X
hx, yi :=
xj y j
j=1
heißt (n-dimensionaler) Euklidischer Raum.
Der Abstand in Euklidischen Räumen wird gemessen in der Norm
p
kxk := hx, xi.
Definition 65 (Orthogonalität). Zwei Elemente x, y ∈ H heißen
orthogonal, falls hx, yi = 0.
Bemerkung 47. Dies verallgemeinert den Satz des Pythagoras:
Sind zwei Elemente x, y orthogonal, so gilt kx + yk2 = kxk2 + kyk2 .
Eine der wichtigsten Ungleichungen, ist die folgende Ungleichung,
die in größerer Allgemeinheit gilt, hier nur für den Euklidischen Raum
formuliert wird.
Satz B.1 (Cauchy-Schwarz-Ungleichung). Für je zwei Elemente
x, y ∈ H gilt hx, yi ≤ kxkkyk. Gleichheit gilt genau dann, wenn y
ein Vielfaches von x ist.
Im folgenden werden orthogonale Projektionen eine besondere Rolle
spielen. Zu diesem Zwecke sei L ⊂ H ein linearer Teilraum.
Definition 66 (Orthogonales Komplement). Sei L ⊂ H ein linearer Teilraum. Der Teilraum
L⊥ := {z,
hx, zi = 0,
x ∈ L}
heißt das orthogonale Komplement zu L in H.
Lemma B.1. Es gilt L ∩ L⊥ = {0} , H = L ⊕ L⊥ (direkte Summe).
Jedes Element x ∈ H besitzt eine eindeutige Zerlegung x = xL +
xL⊥ , xL ∈ L, xL⊥ ∈ L⊥
119
120
B. EUKLIDISCHE RÄUME
Beweis. Zum ersten Teil: Angenommen, x ∈ L ∩ L⊥ , dann folgt
hx, xi = 0, also sind alle Komponenten gleich Null.
Angenommen, wir hätten zwei Zerlegungen x = xL +xL⊥ = zL +zL⊥ .
Dann folgte doch xL − zL = zL⊥ − xL⊥ . Die linke Seite ist in L, und die
rechte in L⊥ , daher sind beide Seiten gleich Null.
Definition 67 (Orthogonale Projektion). Sei L ⊂ H ein linearer
Teilraum. Die Zuordnung
PL : x ∈ H −→ xL ∈ L ⊂ H
heißt orthogonale Projektion von H auf L. Sie bestimmt eine lineare
Abbildung PL : H → H.
Definition 68. Sei T : H → H eine lineare Abbildung. Durch die
Identität hT x, zi = hx, T T zi, x, z ∈ H wird eine lineare Abbildung
bestimmt, die adjungierte Abbildung (transponierte Matrix).
Satz B.2. Sei L ⊂ H ein linearer Teilraum. Dann ist die orthogonale Projektion PL eine idempotente (PL2 = PL ) und selbst-adjungierte
(PLT = PL ) Abbildung.
Die Abbildung QL := I − PL bestimmt die orthogonale Projektion
auf den Teilraum L⊥ .
Für jedes Paar y ∈ H, z ∈ L gilt
hy − PL y, zi = 0.
Bemerkung 48. Umgekehrt bestimmt jede idempotente, selbstadjungierte Abbildung P eine orthogonale Projektion auf den Bildraum
P (H).
Der folgende Zusammenhang zwischen KQ-Schätzung und orthogonaler Projektion ist zentral.
Satz B.3. Sei L ⊂ H ein linearer Teilraum. Dann gilt
kx − xL k = inf {kx − zk,
z ∈ L} ,
d.h., die orthogonale Projektion minimiert den Abstand zwischen x und
beliebigen Elementen aus L.
Beweis. Es gilt für ein beliebiges z ∈ L daß
kx − zk2 = kxL⊥ + xL − zk2 = kxL⊥ k2 + kxL − zk2 ≥ kxL⊥ k2 ,
das Minimum wird genau dann angenommen, wenn z = xL = PL x,
also es hat den Wert kx − xL k2 .
Wir kommen nun zum entscheidenden Darstellungssatz. Sei X : Rp →
H eine lineare Abbildung mit Rang(X) = p < n, und sei L := X(H)
der Bildraum.
B. EUKLIDISCHE RÄUME
121
Lemma B.2.
(1) Die Abbildung X T X ist invertierbar, und
−1 T
(2) PL = X X T X
X .
Beweis. Zum ersten Punkt: Sei 0 6= z ∈ Rp beliebig. Dann gilt
0 6= kXzk2 = hXz, Xzi = hX T Xz, zi.
Angenommen, es gäbe z 6= 0, X T Xz = 0, dann folgte kXzk2 = 0,
Wdpsr.
−1 T
Zum zweiten Punkt: Wir sehen sofort, daß die Abbildung X X T X
X
p
idempotent und selbst-adjungiert ist! Ihr Bild-Raum ist X(R )!
Folgende Eigenschaft orthogonaler Projektionen ist typisch. Sei tr(T )
die Spur der Abbildung T : H → H (Summe der Diagonal-Elemente,
die ist invariant bzgl. Festlegung einer Basis).
Satz B.4. Sei P : H → H eine orthogonale Projektion. Dann ist
tr(P ) = Rang(P ).
Beweis. Sei L = P (H) der Bildraum mit Dimension p, und sei
u1 , . . . , up eine Orthogonal-Basis von L, die ergänzt wird durch up+1 , . . . , un
zu einer ONB von H. Es folgt, daß P uj = uj , j = 1, . . . , p und
Puj = 0, j = p + 1, . . . , n. In dieser Basis ist die Matrix-Gestalt von P
gegeben als


1
0
... 0 ... 0
 0 1 . . . 0 0 . . . 0



. . .


0 1 . . . 0
P =  0 ...
 0 ...
0 0 . . . 0



. . .
0 ...
0 0 ... 0
Die Summe der Hauptdiagonal-Elemente ist gleich p.
ANHANG C
Multivariate Normalverteilungen
Wir hatten bisher schon viel mit normalverteilten ZV gearbeitet,
hier gibt es etwas systematische Material.
Definition 69 (Gemeinsam normal-verteilte ZV). Ein Zufalls-vektor
Y1 , . . . , Yn ∈ H = Rn heißt gemeinsam normal-verteilt, wenn es einen
Vektor m = (µ1 , . . . , µn , eine invertierbare Matrix B : H → H gibt,
und eine Folge W1 , . . . , Wn i.i.d ∼ norm (0, 1), so daß
 
   
Y1
W1
µ1
. . .  = B  . . .  + . . .  .
Yn
Wn
µn
Bemerkung 49. Normal-verteilte ZV sind also immer das Bild von
i.i.d. normal-verteilten ZV.
Gemeinsam normalverteilte ZV haben immer eine Dichte.
Satz C.1. Sei Y = (Y1 , . . . , Yn ) gemeinsam normalverteilt, mit Matrix B und Vektor µ. Sei Σ := BB T eine positiv-definite Matrix. Der
Vektor Y = Y1 , . . . , Yn hat eine Dichte, die durch
hy−µ,Σ−1 (y−µ)i
1
2
e−
fµ,Σ (y) = p
(2π)n det Σ
Weiterhin gilt
EYi = µi
und
Cov(Yi , Yj ) = Σij .
Beweis. Dies folgt aus dem Transformations-Satz der mehrdimensionalen Integration. Wir setzen x := B −1 (y − µ), dann ist die JacobiMatrix B −1 , mit Determinante |det B −1 |. und folglich, für eine Menge
A ∈ B n erhalten wir
Z
kxk2
1
−1
PY (Y ∈ A) = PW (W ∈ B (A − µ)) = p
e− 2 dx
(2π)n B −1 (A−µ)
Z
kB −1 (y−µ)k2
1
1
−
2
e
=p
dy.
(2π)n det B −1 A
123
124
C. MULTIVARIATE NORMALVERTEILUNGEN
√
Jetzt beobachten wir, daß det B −1 = det Σ−1/2 = 1/ det Σ, und daß
kB −1 (y − µ)k2 = hB −1 (y − µ), B −1 (y − µ)i = h(y − µ), (B −1 )T B −1 (y − µ)i
= h(y − µ), Σ−1 (y − µ)i.
Die Erwartungswerte und Kovarianzen ergeben sich daraus leicht.
Definition 70 (Dichte der multivariaten Normalverteilung). Zu
jedem Vektor µ ∈ H und symmetrischen positiv-definiten Matrix Σ
bezeichne die Funktion
hy−µ,Σ−1 (y−µ)i
1
2
fµ,Σ (y) = p
e−
, y ∈ Rn ,
n
(2π) det Σ
die Dichte der multivariaten Normalverteilung norm (µ, Σ).
Die folgende Abbildung veranschaulicht die Gestalt der Dichte der
bivariaten Normalverteilung.
1.0
0.8
0.6
0.4
0.2
0.0
0.0
1.0
0.2
0.8
0.4
0.6
X0.6
0.4Y
0.8
0.2
1.0
0.0
f(x, y)
f(x, y)
0.6
0.4
0.2
0.0
1.0
0.2
0.8
0.4
0.6
X0.6
0.4Y
0.8
0.2
1.0
0.0
Diese Darstellung hat einige Konsequenzen.
Korollar C.1. Sei A : Rn → Rm eine lineare Abbildung,
und sei
T
Y ∼ norm (µ, Σ). Dann gilt AY ∼ norm Aµ, AΣA .
Beweis. Wir haben ja AY = ABW + Aµ. Wegen Satz C.1 gilt
EAµ und Cov(Y, Y ) = AB (AB)T = ABB T AT = AΣAT .
Korollar C.2. Falls die ZV Y1 , . . . , Yn unkorreliert sind, d.h.,
Cov(Yi , Yj ) = 0, i 6= j, so sind die unabhängig.
C. MULTIVARIATE NORMALVERTEILUNGEN
125
Beweis. Wegen der Unkorreliertheit ist die Kovarianz-Matrix
diagonal, also Σ = diag(σ12 , . . . , σn2 ). Dann gilt
n
X
1
−1
hy − µ, Σ (y − µ)i =
(yi − µi )2 .
2
σ
j=1 j
Deshalb zerfällt die Dichte in ein Produkt, was die Unabhängigkeit
impliziert.
Korollar C.3. Sei O eine orthogonale Abbildung, d.h., es gilt
hOx, yi = hx, yi, x, y ∈ H. Dann ist mit Y ∼ norm (0, I) auch
OY ∼ norm (0, I), das heißt orthogonale Bilder einer i.i.d. Folge
normal-verteilter ZV sind wieder i.i.d. normalverteilt.
Literaturverzeichnis
1. Peter Dalgaard, Introductory statistics with R, Statistics and Computing,
Springer-Verlag, New York, 2002. MR 1949455
2. H. Pruscha, Vorlesungen über Mathematische Statistik, B.G. Teubner, 2000.
3. R Development Core Team, R: A language and environment for statistical
computing, R Foundation for Statistical Computing, Vienna, Austria, 2011,
ISBN 3-900051-07-0.
4. John Verzani, Using R for introductory statistics, Chapman & Hall/CRC, Boca
Raton, FL, 2005. MR 2158032
127
Herunterladen