Verallgemeinerte lineare Regressionsmodelle SS 2012

Werbung
Verallgemeinerte lineare
Regressionsmodelle
SS 2012
R. Dutter
8. März 2012
Dieses Skriptum dient zur Unterstützung der Vorlesung. Es ist
im Prinzip als Hilfestellung und auch als (allerdings sehr knappes) Nachschlagewerk gedacht. Durch Einbeziehung von Übungsbeispielen mit statistischen Computerprogrammsystemen sollte es
auch möglich sein, sich größtenteils selbständig in die Materie einzuarbeiten und Beispiele zu rechnen.
Das Stichwortverzeichnis (Index) sollte das formale Finden von
Prüfungsfragen (und eventuell deren Antworten) erleichtern.
Inhaltsverzeichnis
1 Regression und Korrelation
1.1 Das Regressionsproblem . . . . . . . . . . . . . .
1.2 Schätzung der Parameter . . . . . . . . . . . . . .
1.3 Schätzungen und Tests bei Normalverteilung . . .
1.3.1 Konfidenzintervalle der Parameter . . . . .
1.3.2 Schätzung der Mittelwerte und zukünftiger
1.3.3 Test auf Abhängigkeit . . . . . . . . . . .
1.4 Das Korrelationsproblem . . . . . . . . . . . . . .
2 Varianzanalyse
2.1 Einleitung . . . . . . . . . . . .
2.2 Varianzanalyse - Modell I . . .
2.2.1 Einfache Varianzanalyse
2.3 Das allgemeine lineare Modell .
3 Multiple lineare Regression
3.1 Lineare Regression . . . .
3.2 Auswahl von Variablen . .
3.3 Diagnostik . . . . . . . . .
3.4 Robuste Regression . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Beobachtungen
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
5
6
7
.
.
.
.
9
9
11
11
15
.
.
.
.
23
23
28
29
31
4 Verallgemeinerte Modelle
34
Literaturverzeichnis
35
i
Kapitel 1
Regression und Korrelation
Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens
eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtet die gemeinsame Verteilung von zwei Variablen, von denen keine durch den Experimentator fixiert wird, beide sind also zufällig. Typische
Regressionsprobleme sind z.B. beim Studium des Ernteertrages mit verschiedenen
Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen Strahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten,
und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das Studium des Zusammenhangs zwischen Intelligenzquotienten und
Schulleistung von Kindern.
1.1
Das Regressionsproblem
Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts
von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer zufällig aus und erhalten z.B. folgende Daten (siehe Abbildung 1.1).
Für jede gewählte Größe x bekommen wir eine gewisse Verteilung der Gewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µy.x und
2
Varianz σy.x
angegeben werden. Weil die Verteilung von Y von den Werten von
x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muss aber festgehalten werden, dass x hier keine Zufallsvariable darstellt.
2
Normalerweise wird die Varianz σy.x
als konstant über x angenommen.
In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit
der Mittelwerte von Y (µy.x ) von x im Bereich der x-Werte durch eine gerade Linie
angegeben werden. Man spricht von einfacher, linearer Regression und schreibt
z.B.
µy.x = a + b(x − x̄) ,
wobei a und b feste Parameter darstellen.
1
1.2. Schätzung der Parameter
x [cm]
150
150
150
155
155
155
155
160
160
175
175
175
y = Y (ω) [kg]
55
67.5
60
60
70
65
67.5
75
72.5
85
92.5
80
2
95
90
85
80
75
Y
(in kg) 70
65
60
55
150
160
x (in cm)
170
180
Abbildung 1.1: Körpergewichte über den Größen.
1.2
Schätzung der Parameter
Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden.
Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue Schätzung1 für a ist dann das arithmetische Mittel der Y -Werte,
â = ȳ ,
und für b
wobei s2x =
sxy
b̂ = 2 =
sx
1
n−1
(xi − x̄)(yi − ȳ)
,
P
(xi − x̄)2
P
(xi − x̄)2 die empirische Varianz der x-Werte und
P
sxy =
1 X
(xi − x̄)(yi − ȳ)
n−1
die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. Sei ŷx der
geschätzte mittlere Wert von Y an der Stelle x (also von µy.x ). Dann gilt
µ̂y.x = ŷx = â + b̂(x − x̄) .
2
Eine erwartungstreue Schätzung für σ 2 = σy.x
ist
s2 =
1
1 X
1 X
(yi − ŷi )2 =
[yi − â − b̂(xi − x̄)]2 .
n−2
n−2
: lm(y ∼ x) , aber Vorsicht: In
wird x̄ nicht abgezogen!
1.3. Schätzungen und Tests bei Normalverteilung
3
s heißt auch mittlerer Fehler oder Standardabweichung der Beobachtungen.
Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von
Männern ergibt sich folgendes:
P
x
P i
y
P i
xy
P i2 i
x
P 2i
s2x
s2y
sxy
b̂
s2
ŷx
yi
=
=
=
=
=
=
=
1 915
x̄ =
=
850
ȳ =
= 136 725
= 306 675
= 61 525
1
(306675
− 12 ∗ 159.582 )
11
1
(61525 − 12 ∗ 70.832 )
11
1
(136725 − 12 ∗ 159.38 ∗ 70.83)
11
98.11/97.54
11
(119.70 − 1.012 ∗ 97.54)
10
70.83 + 1.01(x − 159.58)
95
95
90
90
85
85
80
80
75
Y
(in kg) 70
75
Y
(in kg) 70
65
65
60
60
55
55
150
160
x (in cm)
170
180
159.58
70.83
= 97.54
= 119.70
= 98.11
= 1.01
= 23.12
150
160
x (in cm)
170
180
Abbildung 1.2: Regression der Körpergewichte über den Größen.
In der rechten Skizze der Abbildung 1.2 sind auch die Residuen yi − ŷi , also die
Differenzen zwischen den gemessenen und geschätzten Werten, angedeutet. Die Art
der obigen Berechnung der Parameter â und b̂ ergibt sich auch aus dem Prinzip
der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, dass die Summe
der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der
Ausgleichsrechnung.2
1.3
Schätzungen und Tests bei Normalverteilung
1.3.1
Konfidenzintervalle der Parameter
2
Bis jetzt wurde nur angenommen, dass die Varianz σy.x
= σ 2 für alle Werte von x
gleich und dass die Regression linear ist. Wenn wir nun zusätzlich die Verteilung
2
: summary(lm(y ∼ x))
1.3. Schätzungen und Tests bei Normalverteilung
4
von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für
die Parameter a, b, σ 2 und µy.x angeben. Es gilt dann, dass die Statistiken
√
(Ȳ − a) n
Ta =
S
und
√
(b̂ − b)sx n − 1
Tb =
S
eine t-Verteilung mit n − 2 Freiheitsgraden besitzen, die Verteilung von
(n − 2)
S2
σ2
ist χ2n−2 mit n − 2 Freiheitsgraden. Konfidenzintervalle3 mit der Konfidenzzahl α
erhält man folglich sofort als
S
S
Ȳ − tn−2;1− α2 √ < a < Ȳ + tn−2;1− α2 √ ,
n
n
b̂ − tn−2;1− α2
und
(n − 2)
S
S
√
< b < b̂ + tn−2;1− α2 √
sx n − 1
sx n − 1
S2
χ2n−2;1− α
< σ 2 < (n − 2)
2
S2
χ2n−2; α
.
2
Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als
s
s
23.12
23.12
70.83 − 1.81
< a < 70.83 + 1.81
12
12
oder
68.32 < a < 73.34 ,
für b
s
s
23.12
23.12
1.01 − 1.81
< b < 1.01 + 1.81
97.54 ∗ 11
97.54 ∗ 11
oder
.74 < b < 1.28 ,
und für σ 2
10
23.12
23.12
< σ 2 < 10
18.31
3.94
oder
12.63 < σ 2 < 58.68 .
3
: confint(lm(y ∼ x))
1.3. Schätzungen und Tests bei Normalverteilung
1.3.2
5
Schätzung der Mittelwerte und zukünftiger Beobachtungen
Ein Konfidenzintervall4 für den Mittelwert µy.x an der Stelle x erhält man mit der
Formel
v
u
u1
α St
ŷx − tn−2;1− 2
v
u
u1
(x − x̄)2
(x − x̄)2
α St
+
+
<
µ
<
ŷ
+
t
.
y.x
x
n−2;1−
2
n (n − 1)s2x
n (n − 1)s2x
In unserem Beispiel erhalten wir für Männer mit x = 162.5 cm Körpergröße
einen geschätzten mittleren Wert für das Körpergewicht
ŷ162.5 = 70.83 + 1.01(162.5 − 159.58) = 73.78
und ein 95%-Konfidenzintervall
s
73.78 − 2.23 23.12[
1
(162.5 − 159.58)2
+
] < µy.162.5
12
11 ∗ 97.54
s
< 73.78 + 2.23 23.12[
1
(162.5 − 159.58)2
+
]
12
11 ∗ 97.54
oder
70.54 < µy.162.5 < 77.02 .
Wollen wir eine Aussage über eine zukünftige Beobachtung y an der Stelle x
machen5 , so kommt zur Varianz von ŷx noch ein σ 2 dazu und wir erhalten
v
u
u
α S t1 +
ŷx − tn−2;1− 2
1
(x − x̄)2
+
<y
n (n − 1)s2x
v
u
u
α S t1 +
< ŷx + tn−2;1− 2
1
(x − x̄)2
+
.
n (n − 1)s2x
Dies ist ein Toleranzintervall für einen an der Stelle x zu beobachtenden Wert, das
auf Grund der Information aus der Stichprobe gefunden wurde. Für unser Beispiel
erhalten wir an der Stelle x = 162.5 (α = .05)
s
73.78 − 2.23 23.12[1 +
1
(162.5 − 159.58)2
+
] < yx < . . .
12
11 ∗ 97.54
oder
62.58 < yx < 84.98 .
4
5
: predict(lm(y ∼ x), interval=’confidence’)
: predict(lm(y ∼ x), interval=’prediction’)
1.3. Schätzungen und Tests bei Normalverteilung
1.3.3
6
Test auf Abhängigkeit
Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x.
Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen
Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen
Regression
Ho : b = 0 .
Algorithmisch würde ein Test so aussehen:
1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies auf Grund
der Stichprobe genügend Grund zur Annahme, dass Y von x abhängt.
2. Ho : b = 0 mit der Alternative b 6= 0 (oder > 0 oder < 0 ).
3. Man wähle ein α.
4. Die Teststatistik sei
√
(b̂ − 0)sx n − 1
.
T =
S
5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes
x ist, so besitzt T eine t-Verteilung mit n − 2 Freiheitsgraden.
6. Der kritische Bereich wird dann als (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , ∞) berechnet.
7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich
fällt.
8. Man verwerfe oder akzeptiere entsprechend die Nullhypothese.
9. Man ziehe die Schlussfolgerung über die Abhängigkeit oder Unabhängigkeit
zwischen Y und x.
In unserem numerischen Beispiel ergibt sich ein Wert für T als
s
1.01
97.54 × 11
= 6.88 ,
23.12
wobei der kritische Bereich (bei α = .05) mit T < −2.23 und T > 2.23 gegeben
ist, sodass wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen
müssen.
1.4. Das Korrelationsproblem
1.4
7
Das Korrelationsproblem
Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen
Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen.
In einer Stichprobe müssen hier immer paarweise Messungen vorliegen. Meistens
werden Analysen unter der Annahme, dass das Paar der betrachteten Zufallsvariablen (X, Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in
Abbildung 1.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen
Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittel2
werten µX , µY und den Varianzen σX
= E(X − µX )2 , σY2 = E(Y − µY )2 dient zur
Charakterisierung dieser bivariaten Verteilung als Maß der Abhängigkeit zwischen
X und Y noch die Kovarianz
σXY = E[(X − µX )(Y − µY )] .
y
Abbildung 1.3: Dichte der bivariaten Normalverteilung.
Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als
ρXY =
σXY
σX σY
definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen
bedeutet σXY = 0 und damit ρXY = 0. Als Schätzung für ρ dient meistens der
empirische Korrelationskoeffizient
rXY =
1
1 X
(xi − x̄)(yi − ȳ) .
sX sY n − 1
Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als em-
1.4. Das Korrelationsproblem
8
pirischen Korrelationskoeffizient errechnen wir
98.11
rXY = √
= .91 .
97.54 ∗ 119.70
Test auf Unkorreliertheit
Sind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die Statistik
s
T =R
n−2
1 − R2
eine tn−2 -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des
empirischen Korrelationskoeffizienten rXY annimmt. T kann sofort als Teststatistik
zum Testen der Nullhypothese Ho : ρ = 0 verwendet werden. Bei Spezifizierung
der Gegenhypothese H1 : ρ 6= 0 ergibt sich als kritischer Bereich
| T | > tn−2;1− α2
6
.
Beispiel 1.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm3 ), wie im Beispiel auf Seite ??. Nun
testen wir Ho : ρ = 0 gegen H1 : ρ 6= 0 mit α = .05. Der Wert des empirischen
Korrelationskoeffizienten R beträgt r = .69. Mit n = 9 ergibt sich der Wert der
Teststatistik T als
s
s
n−2
7
= .69
= 2.52 ,
t=r
2
1−r
1 − .692
was absolut größer als tn−2;1− α2 = t7;.975 = 2.365 ausfällt. Die Hypothese der Unkorreliertheit muss daher verworfen werden.
6
: cor.test(Daten1, Daten2)
Kapitel 2
Varianzanalyse
2.1
Einleitung
Die Varianzanalyse (analysis of variance - ANOVA) stellt ein häufig verwendetes und effizientes Verfahren der angewandten Statistik zur Auswertung komplexer
Versuche dar. Sie wurde von R.A. Fisher in den Zwanzigerjahren zur statistischen
Auswertung von Feldversuchen entwickelt und seither laufend zu einer wirkungsvollen Methode zur Analyse ähnlicher und auch komplexerer Versuchsanordnungen
verbessert und ausgebaut. Klassische und auch heute noch umfassende Werke sind
in erster Linie die Bücher von Scheffé (1959) und Cochran and Cox (1957). Neuere Bücher, auch mit multivariaten Modellen (MANOVA), wären Afifi and Azen
(1979), Hartung et al. (1984, 1986), Seber (1977) oder Winer (1971).
Die folgenden Beispiele stellen eine bescheidene Auswahl von Situationen dar,
die mit Modellen der Varianzanalyse behandelt werden können.
Beispiel 2.1: Vier Weizensorten werden hinsichtlich ihrer Erträge verglichen; bei
verschiedenen Landwirten ergaben sich nachfolgende Werte, wobei jeder Landwirt
bloß eine Sorte anbaut:
Sorte
1
2
3
4
82
83
96
88
94
78
110
98
100
68
107
82
Erträge
84
92
80
86
104 106
90
96
102
98
Liefern die Sorten durchschnittlich gleiche Erträge? Ist die Sorte 3 ertragreicher?
Beispiel 2.2: Für den Autobahnbau wurden im Raum Wr. Neustadt Voruntersuchungen für die Schottergewinnung durchgeführt. Dabei wurden an drei Plätzen
mehrere Proben genommen und (als eines von mehreren wichtigen Qualitätsmerkmalen) für jede Probe die durchschnittliche Korngröße ermittelt. Dabei fielen folgende Werte an:
9
2.1. Einleitung
10
Bereich
1
2
3
14
21
12
Probe (in
18 14
15 14
10 13
mm)
16 15
18 21
14 14
Beispiel 2.3: Im Zuge der Errichtung einer komplexen Reinigungsanlage wurden
unter anderem drei Typen einer speziellen Düsenart untersucht. Hiezu führten fünf
Ziviltechniker jeweils drei Messungen an allen drei Düsentypen durch. Dabei ergab
sich folgende Aufstellung, wobei die Werte als Durchflussindex kodiert sind:
Düsentype
A
B
C
6
13
10
1
6
6
10
-15
13
-11
26
4
-35
2
12
4
0
5
11
-14
Techniker
3
11
4
4
17
10
17
11 -10 -17
21
-5
12
4
14
2
-2
7
-5
-16
25
15
-4
5
18 25
8
1
10 24
Die angeführten Beispiele deuten bereits auf die unterschiedlichen Fragestellungen und damit auch Modelle der Varianzanalyse hin. Gemeinsam ist allen drei
Beispielen eine beobachtbare (abhängige) Größe (Ertrag, Korngröße, Durchflussindex), deren Beeinflussung durch externe Einflüsse zu untersuchen ist.
Im ersten Beipiel steht die Frage im Vordergrund, ob die vier Weizensorten
den gleichen durchschnittlichen Ernteertrag aufweisen. Es wird also der Einfluss
des Faktors Weizensorte“ auf den Ernteertrag untersucht, wobei die Stufen des
”
Faktors fix vorgegeben sind und daher einen bestimmten, allerdings durch andere
Unsicherheiten noch unbekannten Einfluss auf den Ernteertrag aufweisen. Man
spricht daher von einem Modell mit festen Effekten oder auch vom Modell I.
Der offensichtliche Unterschied in der Ausgangssituation zwischen dem ersten
und zweiten Beispiel liegt in der Art des Einflussfaktors. Während im ersten Fall
die Stufen (= Ausprägungen des Faktors) fest vorgegeben sind, fehlt diese Bestimmtheit im zweiten Fall. Die Gruppen (= Proben in einem konkreten Bereich)
stellen keine festen Stufen eines Faktors dar, sondern sind durch die mehr oder
weniger zufällige Auswahl von drei Probenbereichen entstanden. Der Einfluss, den
diese auf die durchschnittliche Korngröße ausüben, erklärt sich möglicherweise aus
der Entfernung eines Probenbereiches zu einem ehemaligen Flussverlauf, aus der
relativen Erhöhung gegenüber dessen Niveau oder ähnlichen meist unbekannten
Gründen. Diese Unkenntnis zusammen mit der willkürlichen Auswahl der Probenbereiche führt zu einem zufälligen Einfluss des Faktors Probenbereich“ auf die
”
durchschnittliche Korngröße, der dann noch durch kleine Unsicherheiten und Ungenauigkeiten wie im ersten Beispiel überlagert wird. Man spricht daher hier von
einem Modell mit zufälligen Effekten oder auch vom Modell II der Varianzanalyse. Eine typische Fragestellung ergibt die Analyse von Varianzkomponenten einer
beobachteten Größe, die dem Einfluss bestimmter Faktoren zugeschrieben werden
können.
Eine Mischung der beiden Aspekte treffen wir im dritten Beispiel. Die Düsentype hat (möglicherweise) einen festen Einfluss auf die Durchflussmenge, die
2.2. Varianzanalyse - Modell I
11
untersuchenden Techniker aber sicherlich einen zufälligen, da sie aus der (großen)
Zahl von in Frage kommenden Technikern (mit jeweils spezifischen Einfluss auf das
Messergebnis) willkürlich herausgegriffen wurden. Wir sprechen hier von einem gemischten Modell oder einem Modell III.
Allen Modellen gemeinsam ist das Prinzip, das zur Herleitung geeigneter Methoden für die Beantwortung aufgeworfener Fragen verwendet wird. In jedem Fall
wird die Gesamtvarianz“
X
”
const × (y − ȳ)2 ,
y
in der y alle Beobachtungen durchläuft und ȳ das (Gesamt-)Mittel darüber darstellt, in entsprechende Teile (Komponenten) aufgespaltet, die miteinander verglichen werden. Daraus leitet sich auch der Name dieser Verfahren ab.
2.2
2.2.1
Varianzanalyse - Modell I
Einfache Varianzanalyse
Wir untersuchen den Einfluss eines Faktors A mit I Stufen auf die abhängige und
beobachtbare Größe y. Dazu werden pro Stufe Ji Versuche durchgeführt;
yij
(i = 1, . . . , I,
j = 1, . . . , Ji )
bezeichne den beobachteten Wert von y im j-ten Versuch bei Behandlung (Stufe)
i.
Die Zufallsvariable yij wird dann üblicherweise als Summe eines für die Stufe i
spezifischen Mittelwertes µi und eines zufälligen Fehlers eij interpretiert:
yij = µi + eij
(i = 1, . . . , I,
j = 1, . . . , Ji ) .
Zumeist interessieren aber die Abweichungen αi von einem Gesamtmittel µ, die
durch die Behandlung i entstehen, sodass üblicherweise die Beziehung
yij = µ + αi + eij
(i = 1, . . . , I,
j = 1, . . . , Ji )
(2.1)
gewählt wird. Da in diesem Fall für die I + 1 Parameter µ, α1 , . . . , αI nur I Beziehungen (nämlich die Stufen des Faktors A) vorhanden sind, wählt man als Nebenbedingung meist
I
X
Ji αi = 0 .
(2.2)
i=1
Die Fehler eij werden in der Standardanalyse unabhängig normalverteilt mit konstanter Varianz σ 2 angenommen (Homoskedastizität). Damit lautet das Modell für
die einfache Varianzanalyse
yij = µ + αi + eij
(i = 1, . . . , I,
2
eij ∼ N (0, σ ) unabhängig.
j = 1, . . . , Ji )
(2.3)
2.2. Varianzanalyse - Modell I
12
Für die Frage, ob der Faktor A einen Einfluss auf die abhängige Größe hat,
testet man die Nullhypothese
HA :
α1 = α2 = . . . = αI = 0
(2.4)
(Gegenhypothese: mindestens ein Ungleichungszeichen). Zur Herleitung der Teststatistik versucht man, die Gesamtvariation der Beobachtungen aufzuspalten in
einen Teil, der die Schwankung der Gruppen (als Gruppe werden alle Beobachtungen zu einer Stufe des Faktors A aufgefasst) um einen gemeinsamen Mittelwert
beschreibt (Variation zwischen den Gruppen), und einen zweiten, der das Streuverhalten innerhalb der Gruppen erfasst. Wesentlich für die Untersuchung ist dann die
Schwankung der Gruppenmittel relativ zum Streuverhalten innerhalb der Gruppen
(die nur mehr die unkontrollierbare Zufälligkeit enthalten). Mit den Abkürzungen
ȳi. =
Ji
1 X
yij
Ji j=1
und
ȳ.. = PI
Ji
I X
X
1
i=1
Ji
yij
i=1 j=1
nützt man die Identität
(yij − ȳ.. ) = (yij − ȳi. ) + (ȳi. − ȳ.. )
|
{z
|
}
{z
}
zwischen
innerhalb
und erhält für die Gesamtquadratsumme
SST =
Ji
I X
X
i=1 j=1
2
(yij − ȳ.. )
=
Ji
I X
X
2
I
X
}
|
(yij − ȳi. ) +
i=1 j=1
|
Ji (ȳi. − ȳ.. )2
i=1
{z
SSe
+2
I
X
(ȳi. − ȳ.. )
i=1
{z
SSA
Ji
X
(yij − ȳi. )
j=1
|
= SSe + SSA
}
,
{z
0
}
(2.5)
also die oben erwähnte Aufspaltung in eine Quadratsumme (engl. sum of squares,
SS ) SSA zwischen den Gruppen und eine, nämlich SSe , innerhalb derselben. Bei
starken Gruppeneinflüssen wird SSA größer ausfallen als im Falle eines fehlenden
Gruppeneinflusses, wogegen SSe davon (theoretisch) unbeeinflusst bleibt. Daher
wird der Einwand gegen die Nullhypothese HA umso stärker sein, je größer SSA
relativ zu SSe ausfällt.
2.2. Varianzanalyse - Modell I
13
Für die exakte Formulierung der Teststatistik sind noch die statistischen Eigenschaften der Quadratsummen notwendig. Im Modell (2.3) gilt
Ji
X
(yij − ȳi. )2 ∼ σ 2 χ2Ji −1
,
j=1
da die Fehler eij unabhängig normalverteilt sind. Aus dem Additionstheorem der
χ2 –Verteilung folgt somit
SSe =
Ji
I X
X
(yij − ȳi. )2 ∼ σ 2 χ2P(Ji −1) = σ 2 χ2n−I
.
i=1 j=1
Als mittlere Quadratsumme (engl. mean squares, MS ) wird der Quotient einer SS
durch die Anzahl ihrer Freiheitsgrade bezeichnet. Damit erhält man mit M Se =
P
SSe /( Ii=1 Ji −I) einen erwartungstreuen Schätzer für σ 2 , d.h. der Erwartungswert
(engl. expected mean squares, EMS ) ist EM Se = σ 2 . Aus diesem Grund wird SSe
oft auch Fehler–Quadratsumme (engl. error sum of squares) genannt.
Unter der Nullhypothese HA gilt für die Verteilung von SSA
SSA =
I
X
Ji (ȳi. − ȳ.. )2 ∼ σ 2 χ2I−1
,
i=1
also eine χ2 –Verteilung mit I − 1 Freiheitsgraden (engl. degrees of freedom, df ),
wobei SSA und SSe unabhängig sind (Satz von Cochran). Daher ist dann die
Statistik
SSA /(I − 1)
M SA
F =
=
∼ FI−1,n−I
M Se
SSe /(n − I)
F–verteilt. Wie oben angedeutet, sind große Werte für diese Statistik signifikant,
sodass die Nullhypothese HA dann zum Signifikanzniveau α zu verwerfen ist, falls
F =
M SA
> FI−1,n−I;1−α
M Se
gilt. Wird HA hingegen nicht verworfen, nimmt man an, dass die I Stufen des Faktors A keinen (nennenswerten) Einfluss auf das Mittel der beobachteten Variable
y haben (Achtung vor einem Fehler 2. Art!)
> werner_bcd <- matrix(scan("werner_bcd.txt", na.strings = "*"),
+
ncol = 9, byrow = T)
> dimnames(werner_bcd) <- list(werner_bcd[, 1], c("ID", "AGE",
+
"HEIGHT", "WEIGHT", "BRTHPILL", "CHOLSTRL", "ALBUMIN", "CALCIUM",
+
"URICACID"))
> werner_bcd_corr <- werner_bcd[werner_bcd[, "CHOLSTRL"] > 150 &
+
werner_bcd[, "CHOLSTRL"] < 400, ]
2.2. Varianzanalyse - Modell I
>
>
>
>
>
>
14
werner_bcd_corr <- as.data.frame(werner_bcd_corr)
AGE_fac <- cut(werner_bcd_corr[, "AGE"], c(18, 25, 32, 42, 55))
werner_bcd_corr <- cbind(werner_bcd_corr, AGE_fac)
rm(AGE_fac)
r_aov <- aov(CHOLSTRL ~ AGE_fac, data = werner_bcd_corr)
anova(r_aov)
Analysis of Variance Table
Response: CHOLSTRL
Df Sum Sq Mean Sq F value
Pr(>F)
AGE_fac
3 39738 13246.1 8.1641 3.96e-05 ***
Residuals 182 295291 1622.5
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Die im Zuge einer Varianzanalyse berechneten Zwischen- und Testgrößen werden üblicherweise in Tabellenform nach dem Schema in Tab. 2.1 angeordnet. Dabei
Tabelle 2.1: Einfache Varianzanalyse
Ursprung der
Variabilität
A
SS
PI
i=1 Ji (ȳi.
− ȳ.. )2
d.f.
MS
F
p
I −1
SSA
I−1
M SA
M Se
pA
Fehler
PI
PJi
(yij − ȳi. )2 n − I
SSe
n−I
−
−
Total
PI
PJi
(yij − ȳ.. )2 n − 1
−
−
−
i=1
i=1
j=1
j=1
enthält die Spalte F“ den berechneten Wert der entsprechenden F–Statistik und
”
die Spalte p“ die Wahrscheinlichkeit, dass unter der jeweiligen Nullhypothese die
”
Teststatistik einen Wert größer oder gleich dem tatsächlich berechneten annimmt.
Um Schätzwerte für die in (2.3) verwendeten Parameter µ und αi zu berechnen,
wendet man die Methode der kleinsten Quadrate (engl. least squares, LS ) an und
minimiert die Summe der Residuenquadrate
S=
Ji
I X
X
(yij − µ − αi )2
.
i=1 j=1
Für die partiellen Ableitungen nach den Parametern gilt
Ji
I X
X
∂S
= (−2)
(yij − µ − αi )
∂µ
i=1 j=1
Ji
X
∂S
= (−2)
(yij − µ − αi ) .
∂αi
j=1
2.3. Das allgemeine lineare Modell
Aus der Nebenbedingung
PI
i=1
Ji αi = 0 erhält man sofort die LS –Schätzer
α̂i = ȳi. − ȳ..
µ̂ = ȳ..
>
>
>
>
+
+
>
>
15
.
attach(werner_bcd_corr)
mu <- mean(CHOLSTRL)
alpha <- levels(AGE_fac)
FUN <- function(x) {
fitted.values(r_aov)[AGE_fac == x][1] - mu
}
alpha <- apply(as.matrix(alpha), 1, FUN = FUN)
detach(werner_bcd_corr)
µ̂
α̂1
α̂2
α̂3
α̂4
2.3
Wert
236.15
-14.03
-11.03
4.75
22.41
Das allgemeine lineare Modell
Die Modelle der Varianzanalyse mit festen Effekten lassen sich in einen allgemeineren Ansatz einbinden, der als Konzept der linearen Modelle bekannt ist. Dabei
wird eine beobachtbare Zufallsgröße als linearer Ausdruck gegebener, bekannter
Größen und unbekannter (aber fester) Parameter dargestellt, dem eine zufällige,
additive Störgröße überlagert ist. Im Falle von n Beobachtungen y1 , . . . , yn ergibt
sich dann:
y1 = x11 β1 + x12 β2 + . . . + x1p βp + e1
y2 = x21 β1 + x22 β2 + . . . + x2p βp + e2
..
..
..
..
..
..
.
.
.
.
.
.
yn = xn1 β1 + xn2 β2 + . . . + xnp βp + en .
Die Fehlerterme ei werden üblicherweise mit Mittel 0 und gleicher Varianz σ 2 (Homoskedastizität) normalverteilt und unabhängig angenommen. Damit lässt sich der
obige Ansatz zu einem linearen Modell in Matrixschreibweise
y = Xβ+e
e ∼ N (0, σ 2 I n )
(2.6)
zusammenfassen mit
y = (y1 , . . . , yn )>
e = (e1 , . . . , en )>
β = (β1 , . . . , βp )>
2.3. Das allgemeine lineare Modell
16
und der Designmatrix X ∈ IRn×p

X=





x11 x12 · · · x1p
x21 x22 · · · x2p
..
..
..
..
.
.
.
.
xn1 xn2 · · · xnp






.
Beispiel 2.4: Der einfache lineare Regressionsansatz
yi = β1 + β2 xi + ei
i = 1, . . . , n
ist ein lineares Modell mit der Designmatrix
1 ··· 1
x1 · · · xn
X=
!>
und dem Parametervektor β = (β1 , β2 )> . Für den Rang von X gilt, wenn nicht
alle xi gleich sind, offensichtlich rg(X) = 2.
Beispiel 2.5: Der Ansatz der einfachen Varianzanalyse aus Abschnitt ?? stellt
in der Form
yij = µ + δ1i α1 + δ2i α2 + . . . + δIi αI + eij
und
(
δk` =
1
0
für k = `
sonst
ein lineares Modell mit der Designmatrix

X=








1 ...
1
0
..
.
1
1
0
..
.
1 ...
0
1
..
.
1 ...
0
1
..
.
1 ...
0
0
..
.
1
0
0
..
.
0 ... 0 0 ... 0 ... 1 ... 1
|
{z
J1
}
|
{z
J2
}
|
{z
JI
>

















I
.
}
Wie man unmittelbar erkennt, gilt rg(X) = I.
Um einen Schätzer für den unbekannten Parametervektor β zu erhalten, verwendet man - wie im vorigen Kapitel bereits angedeutet - die LS–Methode. Minimieren von
p
S(y, β) :=
n
X
i=1
(yi −
X
xij βj )2 = ky − Xβk2
j=1
führt nach dem Nullsetzen von
∂S(y, β)
= −2 X > y + 2 X > Xβ
∂β
(2.7)
2.3. Das allgemeine lineare Modell
17
auf die Normalgleichungen
X > Xβ = X > y.
(2.8)
Es existiert mindestens eine LS-Lösung β̂, für die die Gleichung (2.8) eine notwendige Bedingung darstellt. Geometrisch lässt sich
ŷ = X β̂
als Projektion von y ∈ IRn auf den durch die Spaltenvektoren von X erzeugten
linearen Unterraum des IRn interpretieren. Der Residuenvektor y − ŷ besitzt minimale euklidische Länge.
Es gilt nunmehr:
1. Falls rg(X) = p, so ist X > X regulär und es gilt für die nunmehr eindeutige
LS–Lösung
β̂ = (X > X)−1 X > y .
(2.9)
2. In diesem Fall gilt für die Kovarianzmatrix der LS–Lösung β̂
Σβ̂ = σ 2 (X > X)−1
.
(2.10)
3. Ein erwartungstreuer Schätzer für σ 2 ergibt sich durch
s2 = σc2 =
1
1
S(y, β̂) =
ky − X β̂k2
n−r
n−r
(2.11)
mit r = rg(X). Auf Grund der Normalverteilungsvoraussetzung in Modell
(2.6) ist (n − r) s2 /σ 2 dann χ2n−r –verteilt.
Falls rg(X) < p, ist die LS–Lösung nicht eindeutig. An Möglichkeiten zur
Behebung dieses Problems bieten sich an:
• Man betrachtet ein reduziertes Problem mit bloß r = rg(X) Parametern βj∗∗ ,
indem man aus den p Spaltenvektoren ξ j = (x1j , . . . , xnj )> von X, die einen
r–dimensionalen Unterraum Vr des IRn aufspannen, r linear unabhängige
auswählt und nur die entsprechenden βj betrachtet. Durch Streichen der übrigen Spalten hat die neue Matrix X ∗ Maximalrang und β ∗ = (β1∗ , . . . , βr∗ )>
kann nunmehr eindeutig aus (2.8) geschätzt werden. Diese Form stellt einen
Spezialfall der sogenannten Reparametrisierung dar.
• Man wählt q geeignete Linearkombinationen pj=1 h`j βj , ` = 1, . . . , q in den
βj und verlangt, dass ein LS–Schätzer für β auch die Bedingung
P
H β̂ = 0 ,
mit H = (h`j )`=1,...,q, j=1,...,p
(2.12)
erfüllt. Diese Lösung wird eindeutig, falls die Zeilen von X und H eine Zerlegung des IRp in zwei orthogonale Komponenten definieren. Dies stellt auch
die übliche Art zur Erzielung der Eindeutigkeit dar (siehe auch im vorigen
Abschnitt über die einfache Varianzanalyse).
2.3. Das allgemeine lineare Modell
18
• Man kann auch einfach vom numerischen Standpunkt her verallgemeinerte
Matrixinverse verwenden, die sich allerdings auch als Spezialfall des vorigen
darstellen lassen.
Schätzbare Funktionen
Unter einer Parameterfunktion ψ versteht man eine lineare Funktion der unbekannten Parameter β1 , . . . , βp
ψ = ψ(β) =
p
X
cj β j = c > β
,
(2.13)
j=1
wobei die Koeffizienten c1 , . . . , cp bekannt sind. Sie heißt schätzbar, falls für ψ ein
linearer, erwartungstreuer Schätzer ψ̂ = a> y mit a ∈ IRn existiert, für den also
E(a> y) = ψ
(2.14)
identisch für alle β gilt. Es lässt sich leicht zeigen, dass eine Parameterfunktion
genau dann schätzbar ist, falls ein Vektor a ∈ IRn existiert mit
c> = a> X
.
(2.15)
Einen Spezialfall schätzbarer Funktionen stellen in der Varianzanalyse (lineare)
Kontraste dar, für die
ψ = ψ(β) =
p
X
cj βj
j=1
außerdem pj=1 cj = 0 erfüllen muss.
Beispiel 2.6: Ergibt eine einfache Varianzanalyse, dass die Hypothese HA verworfen wird, also die αi nicht alle gleich (null) sind, stellt sich die Frage, welche
Stufenmittel von A besonders differieren: unterscheidet sich α1 von α3 , oder ist
zwischen den Gruppen mit Effekten α1 , α2 bzw. α4 , α5 , α6 ein Unterschied festzustellen? Zur Beantwortung dieser Fragen betrachtet man Kontraste der Form
ψ1 = α1 − α3 und ψ2 = 21 (α1 + α2 ) − 13 (α4 + α5 + α6 ). Dass es sich dabei um schätzbare Funktionen handelt, ergibt sich daraus, dass µ + αi , i = 1, . . . , I, schätzbar
sind (der dazugehörende Koeffizientenvektor c tritt sogar als Zeile in X auf) und
demnach auch alle Linearkombinationen davon.
P
Satz von Gauß–Markoff
Jede im Modell (2.6) schätzbare Funktion ψ = c> β besitzt einen erwartungstreuen,
in der Klasse der linearen Schätzer effizienten Schätzer ψb (engl. best linear unbiased
estimator, BLUE ) . Dieser ergibt sich als
ψb = a> y = c> β̂
,
(2.16)
2.3. Das allgemeine lineare Modell
19
indem man also einfach in die Parameterfunktion eine LS-Lösung β̂ von β anstelle
des Parametervektors einsetzt. Weiters gilt mit a aus (2.15) für die Varianz von ψ̂
σψ̂2
2
>
=σ a a=σ
2
n
X
a2i
.
i=1
Ein erwartungstreuer Schätzer dafür ergibt sich als
σcψ̂2 = s2
n
X
a2i
i=1
mit s2 aus (2.11).
Vertrauensbereiche für schätzbare Funktionen:
Für q schätzbare Funktionen
ψ` =
p
X
c`j βj
(` = 1, . . . , q)
(2.17)
j=1
im linearen Modell (2.6) mit den LS–Schätzern
c =
ψ
`
n
X
a`i yi
(` = 1, . . . , q)
(2.18)
i=1
gilt:
1. mit A = (a`i )`=1,...,q, i=1,...,n und ψ = (ψ1 , . . . , ψq )> ist
ψ̂ ∼ N (ψ, Σψ̂ ) ,
Σψ̂ = σ 2 AA>
;
(2.19)
2. die beiden Schätzer ψ̂ und s2 sind unabhängig.
Dabei geht die Annahme der Normalverteilung wesentlich ein. Falls die ψ` linear
unabhängig sind (d.h. A hat vollen Rang), folgt aus obigem zusammen mit (2.11)
(ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ)
∼ Fq,n−r
q s2
,
(2.20)
woraus man unmittelbar Tests und Konfidenzbereiche herleiten kann.
So ist etwa die Nullhypothese
H0 : ψ1 = . . . = ψq = 0
auf dem Signifikanzniveau α zu verwerfen, falls
>
ψ̂ (AA> )−1 ψ̂ > q s2 Fq,n−r;1−α
(2.21)
ausfällt. Ein gemeinsames, q–dimensionales Konfidenzellipsoid für ψ1 , . . . , ψq zur
Überdeckungswahrscheinlichkeit 1 − α erhält man als
(ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ) ≤ q s2 Fq,n−r;1−α
.
(2.22)
2.3. Das allgemeine lineare Modell
20
Simultane Konfidenzintervalle
Im Gegensatz zu den obigen (evtl. mehrdimensionalen) Konfidenzbereichen werden hier Verfahrensregeln angegeben, die gleichzeitig (simultan) für alle schätzbaren Funktionen aus einem von q linear unabhängigen schätzbaren Funktionen
ψ1 , . . . , ψq aufgespannten Raum L Konfidenzintervalle mit gemeinsamer Überdeckungswahrscheinlichkeit 1−α liefern. Diese stellen speziell für Modelle der Varianzanalyse eine Alternative zu den dabei verwendeten Tests simultaner Hypothesen
der Form H0 : β1 = β2 = . . . = βq dar (vgl. Kontraste in der Varianzanalyse).
Eine sehr allgemeines Verfahren zur Konstruktion ist die
S–Methode (nach
q Scheffé):
Mit k = q Fq,n−r;1−α gilt für simultane Konfidenzintervalle schätzbarer
Funktionen ψ ∈ L
√
√
ψb − k s a> a ≤ ψ ≤ ψb + k s a> a ,
(2.23)
wobei ψb = a> y den LS–Schätzer gemäß (2.14) darstellt.
In der Literatur ist daneben noch die T–Methode (nach Tukey) sehr verbreitet,
doch gilt diese nur für Kontraste und ist nur bei einfacher Gestalt derselben (z.B.
einfache Differenzen) der S–Methode vorzuziehen.
Hypothesen im linearen Modell
Ausgehend vom Modell (2.6), im folgenden mit Ω abgekürzt,
Ω :
y = Xβ+e
e ∼ N (0, σ 2 I n ) ,
betrachtet man eine (Null–) Hypothese H
H : ψ1 = ψ2 = . . . = ψq = 0
mit q linear unabhängigen, schätzbaren Funktionen ψ`
steht ein neues, eingeschränktes lineares Modell
ω =Ω∩H
.
(` = 1, . . . , q). Damit ent(2.24)
Während Ω in dem von den p Spalten von X aufgespannten r–dimensionalen Unterraum Vr ⊂ IRn (r = rg(X)) operiert, ist das neue Modell auf Grund der
Annahmen über H auf einen (r − q)–dimensionalen Unterraum Vr−q von Vr eingeschränkt (für Beweise siehe Scheffé, 1959).
Bezeichnen SΩ bzw. Sω die Minimalausdrücke für die Residuenquadratsumme
(2.7) und stehen ŷ bzw. ŷ ω für den LS–Schätzer jeweils im Modell Ω bzw. ω, so gibt
die Abb. 2.1 (aus Scheffé, 1959) den geometrischen Zusammenhang wieder. Mit den
für quadratische Formen normalverteilter Zufallsgrößen bekannten Eigenschaften
gilt nun im Modell Ω der geometrisch anschauliche Sachverhalt:
2.3. Das allgemeine lineare Modell
21
Abbildung 2.1: Geometrische Deutung im linearen Modell
y
^
y
0
y-y^ω
..
: Lange = Sω
y-y^
..
: Lange = SΩ =
^
y-y^
..
: Lange = Sω SΩ =
SSe
^
yω
ω
Vr-q
1. SΩ = SSe = ky − ŷk2 ∼ σ 2 χ2n−r
SSH
Vr
;
2. Sω −SΩ = SSH = kŷ− ŷ ω k2 ∼ σ 2 χ2q,δ , d.h. SSH besitzt eine nichtzentrale χ2 –
Verteilung mit Nichtzentralitätsparameter δ = kP Vq X βk/σ, wobei P Vq die
Projektion auf Vq mit Vr = Vq ⊕Vr−q darstellt. Im Modell ω, d.h. bei Gültigkeit
der Hypothese H, ist SSH dann zentral χ2 –verteilt mit q Freiheitsgraden;
3. y − ŷ und ŷ − ŷ ω sind statistisch unabhängig (orthogonal!).
Daraus folgt unmittelbar, dass bei gültiger Hypothese H
F =
n − r SSH
n − r Sω − SΩ
=
q
SΩ
q SSe
(2.25)
F–verteilt ist mit q und n−r Freiheitsgraden. Für theoretisch Interessierte sei angemerkt, dass es sich bei dieser F–Statistik um eine einfach transformierte Likelihood–
Quotienten–Statistik für die zwei in Betracht kommenden Modelle handelt.
Beispiel 2.7: Die für die einfache Varianzanalyse im Abschnitt ?? betrachtete
Hypothese HA : α1 = . . . = αq lässt sich nach dem obigen Schema durch die
q − 1 unabhängigen schätzbaren Funktionen ψl = αl − αl+1 (l = 1, . . . , q − 1)
beschreiben. Zusammen mit Beispiel 2.5 ergeben sich damit sofort die Aussagen
aus Abschnitt ??.
Offensichtlich scheint die Hypothese H wenig plausibel, wenn y − ŷ deutlich
kleiner als y − ŷ ω ausfällt, wenn also y im Modell Ω viel besser als im Modell ω
(d.h. unter der Hypothese H ) erklärt wird. Misst man mit der üblichen L2 –Norm,
so ist dies genau dann der Fall, wenn kŷ − ŷ ω k im Vergleich zu ky − ŷk groß wird,
bzw. wenn der Wert der F–Statistik groß ist. Damit ist die Hypothese auf dem
Signifikanzniveau α zu verwerfen, wenn
n − r SSH
> Fq,n−r;1−α
q SSe
gilt.
(2.26)
2.3. Das allgemeine lineare Modell
22
Geschachtelte Hypothesen im linearen Modell
Betrachtet man anstelle bloß einer Hypothese eine Reihe von h (≥ 1) Hypothesen
H1 , H2 , . . . , Hh , die jeweils qk (k = 1, . . . , h) schätzbare Funktionen gleich 0 setzen,
wobei die q1 + . . . + qh schätzbaren Funktionen linear unabhängig seien, so lässt
sich eine Folge geschachtelter“ Hypothesen bzw. Modelle der Form
”
Ω, ω1 = Ω ∩ H1 , ω2 = Ω ∩ H1 ∩ H2 , . . .
· · · , ωh = Ω ∩ H1 ∩ . . . ∩ Hh
definieren. Analog zum einfachen Fall ergibt sich eine zugehörende Folge
Vr = V 0 ⊃ V (1) ⊃ . . . ⊃ V (k)
von Aktionsräumen V (k) der Modelle ωk mit den Projektionen ŷ ωk von y auf eben
diese Räume.
Es gilt nunmehr, dass sich y durch
y = (y − ŷ) + (ŷ − ŷ ω1 ) + (ŷ ω1 − ŷ ω2 ) + . . . + (ŷ ωh−1 − ŷ ωh ) + ŷ ωh
,
(2.27)
in h + 2 paarweise orthogonale Vektoren zerlegt lässt, woraus
kyk2 = ky − ŷk2 +kŷ − ŷ ω1 k2 +kŷ ω1 − ŷ ω2 k2 +. . .+kŷ ωh−1 − ŷ ωh k2 +kŷ ωh k2 (2.28)
folgt. Diese Abstandsquadrate sind unabhängig und besitzen im Modell Ω eine
nichtzentrale χ2 –Verteilung mit
n − r, q1 , . . . , qh , r −
h
X
qk
k=1
Freiheitsgraden und den Nichtzentralitätsparametern
0,
1
1
kP V(k) Xβk (k = 1, . . . , h), kP V (h) Xβk ,
σ
σ
wobei P V(k) die Projektion auf V(k) mit V (k−1) = V(k) ⊕ V (k) darstellt. Damit lassen sich analog dem einfachen Fall sehr rasch die entsprechenden Testvorschriften
angeben. Die wichtigste Anwendung findet sich in der mehrfachen Varianzanalyse.
Kapitel 3
Multiple lineare Regression
3.1
Lineare Regression
Im linearen Modell, auf das wir uns im folgenden weiterhin konzentrieren wollen,
betrachten wir die Beziehung:
y = Xβ + e
(3.1)
wobei
y = (y1 , . . . , yn )> ,
e = (e1 , . . . , en )> ,
und



X=


x11 x12 · · · x1p
x21 x22 · · · x2p
..
..
..
..
.
.
.
.
xn1 xn2 · · · xnp
β = (β1 , . . . , βp )






.
Die y-Variable wird üblicherweise abhängige und die x-Variablen unabhängige
Variablen genannt, e bezeichnet den Fehlerterm. Üblicherweise werden die Fehlerterme ei als unabhängig normalverteilt mit Mittel 0 und gleicher Varianz σ 2
angenommen. Gesucht ist nun der Parametervektor β, der gewöhnlich durch die
Minimierung der quadratischen Abstände
2
S(y, β) := ky − Xβk =
n
X
(yi −
i=1
p
X
xij βj )2
(3.2)
j=1
gefunden wird. (Andere Möglichkeiten werden im Abschnitt 3.4 behandelt). Das
gewünschte Minimum bekommen wir durch Ableiten und Nullsetzen von S(y,β)
und wir erhalten die sogenannten Normalgleichungen:
X > Xβ = X > y.
Bei vollem Rang von X > X gibt es eine eindeutige Lösung:
β̂ = (X > X)−1 X > y.
23
(3.3)
3.1. Lineare Regression
24
Die Kovarianzmatrix der LS-Schätzung ergibt sich als
Σβ̂ = (X > X)−1 σ 2 ,
wobei σ 2 durch σˆ2 =
1
||y
n−p
− X β̂||2 geschätzt wird.
Konfidenzintervalle
Um Konfidenzintervalle für die geschätzten Parameter βj zu konstruieren, benutzen wir die Verteilungsannahmen: die Fehlerterme ei haben Mittel 0 und gleiche Varianz σ 2 (Homoskedastizität), sind unabhängig und normalverteilt, e ∼
N (0, σ 2 I n ). Damit gilt, dass
β̂j − βj
q
für j = 1, . . . , p
σ̂ 2 ((X > X)−1 )jj
Student-t-verteilt ist mit n − p Freiheitsgraden. Daraus lassen sich (1 − α) × 100%
Konfidenzintervalle für βj ableiten:
q
[ β̂j − t
n−p;1− α
2
σ̂ 2 ((X > X)−1 )jj
,
q
β̂j + t
n−p;1− α
2
σ̂ 2 ((X > X)−1 )jj
].
Weiters können wir über die einzelnen Parameter die x-Variablen auf ihre Wichtigkeit im Modell überprüfen. Wenn der Parameter β̂j nicht signifikant von 0 verschieden ist, dann trägt die j-te Variable nichts Wesentliches zu unserem Modell
bei. Wir testen also H0 : βj = 0 gegen H1 : βj 6= 0 mittels folgender Teststatistik:
T =q
β̂j
σ̂ 2 ((X > X)−1 )jj
.
Wird |T | größer als tn−p;1− α2 , so ist β̂j signifikant von 0 verschieden, d.h. die j-te
Variable ist für unser Modell wesentlich.
Zusätzlich zu Konfidenzintervallen für die einzelnen Parameter können wir auch
ein Konfidenzintervall für den mittleren Wert von y (den Erwartungswert µ) an
einer fixen Stelle x0 berechnen:
q
>
−1
[ ŷ0 − tn−p;1− α2 σ̂ x>
0 (X X) x0
,
q
>
−1
ŷ0 + tn−p;1− α2 σ̂ x>
0 (X X) x0
]
wobei ŷ0 = x>
0 β̂.
Das entprechende Toleranzintervall für die Beobachtung y0 ist
q
>
−1
[ ŷ0 −tn−p;1− α2 σ̂ 1 + x>
0 (X X) x0
,
q
>
−1
ŷ0 +tn−p;1− α2 σ̂ 1 + x>
0 (X X) x0
].
3.1. Lineare Regression
25
Bestimmtheitsmaß
Als Maß für die Güte der Anpassung der Regression dient der quadratische (empirische) Korrelationskoeffizient zwischen den beobachteten y und den geschätzten
ŷ: R2 = cor2 (y, ŷ). R2 wird auch Bestimmtheitsmaß genannt und kann auch durch
die äquivalente Formel
R2 = SSR /SST
berechnet werden, wobei am einfachsten die Definitionen für SSR und SST die Größen aus der folgenden Varianzanalysetafel der Quadratsummenzerlegung“ über”
nommen werden können, also
>
SSR = β̂ X > y = ŷ > ŷ und SST = y > y
Man bemerke aber, dass dabei keine echten Korrelationen (mit zentrierten Werten
¯ berechnet werden, sondern unzentrierte“, weil die Originalwerte
y − ȳ und ŷ − ŷ)
”
y (und ŷ) verwendet werden. Die entsprechenden Freiheitsgrade sind hier p bzw.
n.
Nimmt man die richtige“ Definition der Korrelation, so bekommt man
”
¯ > (y − ȳ)]2
[(ŷ − ŷ)
R2 =
¯ > (ŷ − ŷ)(y
¯
(ŷ − ŷ)
− ȳ)> (y − ȳ)
wobei y − ȳ (Subtraktion des Mittelwertes von y, einem Skalar von einem Vektor,
einfach komponentweise Subtraktion bedeutet.
Nun zeigt sich aber wieder, dass R2 als
R2 = SSR /SST
geschrieben werden kann, wobei jetzt
¯ > (ŷ − ŷ)
¯ und SST = (y − ȳ)> (y − ȳ) .
SSR (= SSp−1 ) = (ŷ − ŷ)
Beweis: Wir nehmen an, dass die Matrix X ein Spalte 1 mit nur Einsen enthält.
1. Beide Mittelwerte ŷ¯ und ȳ sind gleich:
Multipliziert man X auf ŷ = X(X > X)−1 X > y
X > ŷ = X > X(X > X)−1 X > y = X > y .
Dabei gilt natürlich auch die Gleichheit für die Spalte 1 von X:
¯ = 1> X(X > X)−1 X > y = 1> y = nȳ .
1> ŷ (= nŷ)
2. Die inneren Produkte ŷ > y und ŷ > ŷ sind gleich:
ŷ > y = y > X(X > X)−1 X > y
3.1. Lineare Regression
26
= y > X(X > X)−1 X > X(X > X)−1 X > y
= ŷ > ŷ .
3. Die Kovarianz von ŷ und y ist gleich der Kovarianz von ŷ und ŷ:
In exakter Matrizenform geschrieben gilt für das Produkt
¯ > (y − ȳ1) = ŷ > y − ŷ1
¯ > y − ŷ > ȳ1 + ŷ¯ȳ1> 1
(ŷ − ŷ1)
Mit den obigen Punkten 1. und 2. weitergerechnet, erhalten wir
¯ > (y − ȳ1) = ŷ > ŷ − nŷ¯2 = (ŷ − ŷ)
¯ > (ŷ − ŷ)
¯
(ŷ − ŷ1)
worauf sich die Formel für den Bestimmtheitsgrad auf
R2 = SSR /SST
zusammenkürzt.
R2 liegt naturgemäß zwischen 0 und 1; je größer R2 wird, desto besser passt
sich das gewählte Modell an die Daten an.
Gewichtete Regression
Es kann vorkommen, dass manche Beobachtungen weniger zuverlässig sind als
andere. Das bedeutet, dass die Varianz von e nicht Iσ 2 ist, sondern eine Diagonalmatrix mit unterschiedlichen Elementen (Verletzung der Homoskedastizität). Es
kann auch vorkommen, dass die Nichtdiagonalelemente ungleich sind, das bedeutet, dass die ei nicht unkorreliert sind (Verletzung der Unabhängigkeit). Beide Fälle
stellen eine Verletzung der Voraussetzungen dar und damit können obige Aussagen
nicht mehr aufrechterhalten werden. Die grundsätzliche Idee zur Beseitigung dieser
Schwierigkeit ist recht einfach: man versucht, y derart zu transformieren, dass die
Voraussetzungen für die transformierte Variable z wieder gelten.
Nehmen wir an, dass e ∼ N (0, V σ 2 ), wobei V eine bekannte, positiv definite
Matrix ist. Man kann für V eine Matrix P finden, sodass P P > = V gilt (siehe
Draper and Smith, 1981, pp. 108). Wenn wir die urprüngliche Regressionsgleichung
y = Xβ + e mit P −1 multiplizieren, erhalten wir
−1
−1
P −1 y = P
| {z X} β + P
| {z e}
| {z }
z
Q
f
bzw.
z = Qβ + f
mit den gewünschten Eigenschaften, weil
>
V ar(f ) = E(f f > ) = E(P −1 ee> P −1 )
>
>
= P −1 E(ee> )P −1 = P −1 P P > P −1 σ 2 = Iσ 2 .
3.1. Lineare Regression
27
Lineares Modell?
Als lineares Modell bezeichnen wir alle Modelle der Form:
y = β0 + β1 x1 + . . . + βp xp .
Man kann aber auch Regressionsansätze, die im ersten Moment nicht als linear
erscheinen, durch geeignete Transformationen linearisieren:
y = β0 + β1 x1 + β2 x2 + . . . + βp xp
kann durch Setzen von x̃i = xi−1 , i = 1, ..., p + 1, auf ein lineares Modell zurückgeführt werden. Auch
y = β0 eβ1 x
kann durch Logarithmieren linearisiert werden. Als nichtlinear bezeichnen wir Modelle, die nicht durch Transformationen auf die lineare Form gebracht werden können, wie etwa
y = β0 eβ1 x1 +β2 x2 + β3 x3 .
Quadratsummenzerlegung
Mit Hilfe einer Zerlegung der gesamten Quadratsumme SST = y > y können wir
folgende Varianzanalysetabelle erstellen (siehe auch Abschnitt 2.2):
Variationsquelle
FG
Quadratsumme
Regression
p
SSR = β̂ X > y
mittlere QS
F-Wert
>
ˆ
>y
M SR = β X
p
>
>
Residuen
n−p
SSe = y > y − β̂ X > y
Gesamt
n
SST = y > y
M Se =
MSR /MSe
ˆ>
(y > y −β X > y )
(n−p)
Aus Abschnitt 2.2 wissen wir, dass MSR /MSe F-verteilt ist. Als Hypothese nehmen wir H0 : β1 = β2 = . . . = βp = 0. Eine weitere Aufteilung der Quadratsummen
der Regression kann vorgenommen werden, wenn ein konstanter Term im Modell
vorhanden ist:
>
>
SSR = β̂ X > y = nȳ 2 + β̂ X > y − nȳ 2
|{z}
SSkons
|
{z
SSp−1
}
Diese Art der Zerlegung finden wir auch in den entsprechenden Programmen.
Wird die mittlere Quadratsumme der Regression MSR im Verhältnis zur mittleren Quadratsumme der Residuen zu groß, müssen wir H0 verwerfen, und es gilt,
dass zumindest ein βj 6= 0 sein muss.
3.2. Auswahl von Variablen
3.2
28
Auswahl von Variablen
In der Regressionsanalyse stellt sich oft die Frage, ob es sich gelohnt hat, gewisse
Variablen in das Modell einzubeziehen, bzw. welche Variablen am besten geeignet
erscheinen.
Die erste Frage lässt sich mit Hilfe jenes Teils der Quadratsumme der Regression, der auf die zur Diskussion stehenden Variablen zurückzuführen ist, untersuchen.
Man nennt das Prinzip nach dem dabei vorgegangen wird, Extra-Quadratsummenprinzip.
Dazu nehmen wir folgendes (volles) Modell Ω an: Ω : y = Xβ + e mit p
unabhängigen Variablen. Nun betrachten wir ein reduziertes Modell mit q (q >
0) Variablen mit der Hypothese (ohne Einschränkung der Allgemeinheit) βq+1 =
βq+2 = . . . = βp = 0. Damit wissen wir aus Abschnitt 2.2), dass
SSeω − SSeΩ n − p
∼ Fp−q,n−p .
×
SSeΩ
p−q
Die Differenz SSeω - SSeΩ der Quadratsummen des reduzierten und des vollen
Modells wird häufig als Extra-Quadratsumme bezeichnet.
Mit Hilfe von SSeω kann man einzelne Variablen auf ihren Wert für das Regressionsmodell überprüfen. Wir vergleichen dabei die Quadratsumme des Modells
ohne die i-te Variable mit der Quadratsumme des Modells mit der i-ten Variablen.
Dieses Verfahren kann Schritt für Schritt für jede in Frage kommende Variable
durchgeführt werden; deswegen wird es auch sequentieller F-Test genannt.
Im Programm für schrittweise Regression von beispielsweise BMDP werden
diese F-Statistiken ‘F-to-enter’ und ‘F-to-remove’ genannt, wobei die Größe der
F-Statistik bestimmt, welche Variable als nächste zum Modell hinzugefügt bzw.
weggenommen wird. Man bemerke, dass hier wegen der theoretischen Unzulässigkeit des ‘sequentiellen F-Tests’ keine Quantile mit gegebenen Wahrscheinlichkeiten,
sondern feste, aber willkürliche Werte genommen werden.
Durch Grenzwerte für die F-Werte kann man festlegen, bis zu welcher Größe
des F-Wertes eine Variable in das Modell aufgenommen wird. Es kann vorkommen,
dass eine Variable im Modell plötzlich unwesentlich wird. Diese soll dann aus dem
Modell genommen werden. Die Entscheidung wird sukzessive mit der Größe des
F-Wertes im Vergleich mit einem F-to-remove“ durchgeführt.
”
Wie wir in vielen Beispielen sehen, ist es nicht immer notwendig, alle zur Verfügung stehenden Variablen in das Modell einzubeziehen. Gerade bei mehreren
Variablen ist es möglich, dass manche Variablen ähnliche Dinge messen, bzw. dass
es Abhängigkeiten zwischen einzelnen Variablen gibt (Multikollinearität). Das kann
dazu führen, dass die Matrix X > X fast singulär wird.
Bei der Auswahl der Variablen gilt es, einen Kompromiss zu finden zwischen
folgenden Zielen:
• um eine möglichst gute Vorhersage treffen zu können, sollten möglichst viele
Variablen in unser Modell eingehen
3.3. Diagnostik
29
• um das Modell übersichtlich und einfach zu gestalten, sollten möglichst wenige Variablen in unser Modell eingehen.
Wir wollen nun einige Verfahren anführen, die sich mit einer möglichst guten
Auswahl der Variablen befassen.
Eine Möglichkeit haben wir bereits kennengelernt: die schrittweise Regression
mit einem Grenzwert für F-to-enter und einen für F-to-remove. Eine andere Möglichkeit besteht darin, die Regressionsanalyse für alle möglichen Variablenkombinationen durchzurechnen und dann die ‘beste’ Kombination zu wählen. Üblicherweise
wird als Kriterium dafür entweder R2 oder Mallows-Cp -Statistik herangezogen.
Für R2 sieht die Vorgangsweise folgendermaßen aus:
pro p (Anzahl der Variablen) werden die größten Werte R2 mit den entsprechenden
Variablen gelistet. Man kann nun entscheiden, ab welcher Anzahl von Variablen R2
nicht mehr wesentlich größer wird. Als ‘bestes’ Modell wird dann jenes gewählt,
das das größte R2 hat bei der Anzahl von Variablen, wobei durch Hinzunahme
einer weiteren Variablen nichts Entscheidendes mehr gewonnen wird.
Mallows-Cp -Statistik stellt die Restquadratsumme als Summe des quadrierten Fehlers und des quadrierten Bias (Verzerrung durch das falsche Modell) dar
und ist wie folgt definiert:
Cp0 = RSSp0 /s2 − (n − 2p0 ),
wobei RSS0p die Residuenquadratsumme eines Modells mit p0 Parametern darstellt,
s2 ist die mittlere Residuenquadratsumme des vollen, idealen Modells. Vorausgesetzt p0 Parameter reichen aus, dann gibt es keinen Mangel an Anpassung und
damit ist E(RSSp0 ) = (n − p0 )σ 2 . Da E(s2 ) = σ 2 gilt, folgt (approximativ), dass
E(RSSp0 /s2 ) = (n − p0 )σ 2 /σ 2 = n − p0 ,
sodass
E(Cp0 ) = n − p0 − (n − 2p0 ) = p0 .
Daraus folgt, dass ein Plot von Cp gegen p die geeigneten Modelle als Punkte
nahe der Cp = p-Linie zeigen wird. Modelle mit einem Mangel an Anpassung
(Modellfehler, Bias) werden deutlich über der Cp = p-Linie zu finden sein. Das
Kriterium der Auswahl des ‘optimalen’ Modells ist nun einerseits ein Cp -Wert nahe
dem p bei einer möglichst geringen Anzahl von Variablen.
( : Siehe Paket wle!)
3.3
Diagnostik
Bisher haben wir uns mit der Berechnung und der optimalen Zusammensetzung
von Modellen beschäftigt und dabei stillschweigend angenommen, dass alle Voraussetzungen, die wir postuliert haben, zutreffen. Wie aber können wir überprüfen, ob
3.3. Diagnostik
30
unsere Annahmen stimmen? Dazu gibt es eine Reihe von diagnostischen Verfahren
von denen wir im folgenden einige wichtige kennenlernen werden. Eine ausführliche
Diskussion von diagnostischen Routinen findet sich in Draper and Smith (1981), sowie in Atkinson (1985), eines der neueren Bücher auf diesem Gebiet ist Rousseeuw
and Leroy (1987).
Wahrscheinlichkeitspapier
Eine der Annahmen, die wir getroffen haben, war, dass die Residuen normalverteilt sind (e = N (0, Iσ 2 ). Eine Möglichkeit, diese Annahme anschaulich
zu testen, ist das Wahrscheinlichkeitspapier. Dabei werden die Residuen gegen
G−1 (Fn (Residuen)) aufgetragen, wobei G−1 die Inverse der Normalverteilungsfunktion und Fn die empirische Verteilungsfunktion der Residuen bezeichnet. Wenn
die Residuen in etwa normalverteilt sind, so liegen die entstehenden Punkte einer
Treppenfunktion ungefähr auf einer Geraden.
( : Siehe Paket e1071: probplot, qqplot ...!)
Andere Möglichkeiten, die Residuen auf Normalverteilung zu überprüfen, wären
etwa der χ2 -Test, Shapiro-Wilk oder der Kolmogorow-Smirnow-Test.
Residuen - ŷ- Plot
Eine weitere Annahme, die von uns getroffen wurde, ist die Annahme der Homoskedastizität, d.h. die Residuen besitzen alle die gleiche Varianz. Eine anschauliche Möglichkeit einer Überprüfung dieser Annahme bietet ein Plot der Residuen
e gegen die geschätzten Werte ŷ. Bei Homoskedastizität sollten die Residuen in
y-Richtung über die gesamte x-Achse in etwa die gleiche Streuung aufweisen. Darüberhinaus können wir mit dieser Grafik auch unser Modell prüfen: wenn es korrekt
ist, so dürfen die Residuen nur zufällig um die 0-Linie streuen; wenn die Residuen
aber noch eine Struktur erkennen lassen, so kann unser Modell nicht richtig sein.
Entdeckung von einflussreichen Beobachtungen
Es kann vorkommen, dass einzelne Beobachtungen die gesamte Schätzung sehr
stark beeinflussen; man spricht dann von einflussreichen Beobachtungen oder Ausreißern. Da in extremen Situationen eine einzelne ‘schlechte’ Beobachtung ausreicht, um die Schätzung gänzlich unsinnig zu machen, oder zumindest sehr stark
zu verfälschen, ist es wichtig, zu überprüfen, ob solche einflussreichen Beobachtungen vorhanden sind. Eine Testgröße, die von den meisten Programmpaketen als
Erkennungshilfe für Ausreißer angeboten wird, ist die Cook-Distanz1 :
b −β
d }> X > X{β
b −β
d }/(p × σ̂ 2 )
Di = {β
(i)
(i)
1
( : Siehe Funktion cooks.distance!)
3.4. Robuste Regression
31
wobei βd
(i) der geschätzte Parametervektor ist, der ohne die i-te Beobachtung berechnet wurde. Ein großer Wert Di für eine Beobachtung i weist auf eine einflussreiche Beobachtung hin. Auf diese Art kann man einzelne Ausreißer gut feststellen,
bei mehreren Ausreißern hingegen tritt ein sogenannter Maskierungseffekt zu Tage,
der die entsprechenden Abstände klein hält und damit Ausreißer ‘maskiert’.
Mit diagnostischen Hilfsmitteln - wie dem Cook-Abstand, oder der äquivalenten
Mahalanobisdistanz - ist es daher nicht möglich, eine Gruppe von Ausreißern zu
erkennen, man muss also sinnvollerweise das Problem der Ausreißererkennung auf
grundsätzlich andere Art anpacken.
Im nächsten Kapitel werden wir robuste Methoden in der Regressionsanalyse
kennenlernen, mit deren Hilfe sich auch dieses Problem lösen lässt.
3.4
Robuste Regression
Mit robusten statistischen Verfahren meint man Verfahren, die nicht sehr empfindlich auf Verletzungen der zugrundeliegenden Verteilungsannahmen reagieren.
Bisher haben wir für die Schätzung unserer Parameter praktisch nur die Methode der kleinsten Quadrate verwendet, es gibt aber noch verschiedene andere
Möglichkeiten, die Parameter zu schätzen. In der kleinsten Quadrate-Schätzung
minimieren wir ja folgenden Ausdruck (ri bezeichnet das i-te Residuum):
n
X
ri2 = min;
i=1
dabei geht jede Beobachtung mit demselben Gewicht in die Berechnung ein. Das
bedeutet, dass eine einzelne ‘schlechte’ Beobachtung (Ausreißer) die Schätzung
beliebig verzerren kann. Ein Ansatz, der von Huber (1981) und Hampel et al. (1986)
gewählt wurde, geht von einer Verallgemeinerung der quadratischen Schätzung der
Parameter aus. Wir versuchen dabei, folgenden Ausdruck zu minimieren:
n
X
i=1
ρ(
ri
)vi pi = min,
σpi
wobei σ den (robust geschätzten) Skalierungsfaktor bezeichnet, pi , vi sind Gewichtsfaktoren, die nur vom Faktorraum, also von den xi. = (xi1 , xi2 , ..., xip )> , abhängen
sollen und üblicherweise zunächst gleich 1 sind, und ρ ist eine Funktion, mit deren
Hilfe wir den Einfluss von den Residuen beschränken können. Diese verallgemeinerte Art der Schätzung nennt man auch M-Schätzung. Im folgenden sind einige
der gebräuchlichsten ρ-Funktionen durch ihre Ableitungen ψ angeführt:
ψLS (t) = t (kleinste Quadrate-Schätzung ).
3.4. Robuste Regression
32
ψL1 (t) = sgn(t), (L1 -Schätzung,
Minimierung der absoluten Abstände).
ψH (t) = max(−c, min(t, c)) mit c > 0 (Huber’s ψ).







t
wenn |t| ≤ a
sgn(t)a
wenn a < |t| ≤ b
ψHA (t) =
d−|t|




d−b sgn(t)a wenn b < |t| ≤ d


0
wenn d < |t|
mit 0 < a < b < d (Hampel’s ψ).
(
ψA (t) =
c sin(t/c) wenn |t| ≤ cπ
0
wenn |t| > cπ
mit c > 0 (Andrews’ ψ).
Die erste ψ-Funktion entspricht der kleinsten Quadrate-Schätzung. Durch die
Unbeschränktheit dieser Funktion lässt sich auch die Verwundbarkeit der Schätzung durch Ausreißer in den Residuen erklären. Die anderen ψ-Funktionen sind
beschränkt und damit robust gegen Ausreißer in den Residuen.
Unabhängig von der Gestalt der gewählten ψ-Funktion können Ausreißer im
Faktorraum (in den x-Variablen) die Schätzung immer noch ‘beliebig’ stark beeinflussen. Wir können aber die Gewichte pi und vi der M-Schätzung benutzen,
um den Einfluss der unabhängigen Variablen zu beschränken. Wählen wir die Gewichte identisch 1, so erhalten wir die Schätzung, wie wir sie bisher kennengelernt
haben - die x-Variablen bleiben ungewichtet, und damit ist ihr Einfluss weiter unbeschränkt. Diese Art der Schätzung wird auch Huber-Typ-Schätzung genannt.
Setzen wir nur pi gleich 1, so erhalten wir den sogenannten Mallows-Typ-Schätzer,
bei dem alle Beobachtungen, die im Faktorraum als ‘weit entfernt’ erkannt werden,
ungeachtet der Größe ihres Residuums ein kleineres Gewicht bekommen. Damit
bekommen aber auch Beobachtungen, die durchaus in die Schätzung passen würden, nur auf Grund ihrer Lage im Faktorraum ein niedriges Gewicht. Setzen wir
pi = vi , so erhalten wir die sogenannte Schweppe-Typ-Schätzung, bei der Beobachtungen nur dann ein niedriges Gewicht erhalten, wenn einerseits die Lage im
Faktorraum ‘extrem’ ist, und andererseits das Residuum dieser Beobachtung groß
ist. Die Mallows- und die Schweppe-Typ-Schätzung wird auch robuste Regression
mit beschränktem Einfluss der unabhängigen Variablen genannt (bounded influence
regression).
Als ein Maß der Robustheit eines Schätzers gilt der Bruchpunkt. Damit bezeichnet man jenen Anteil an Ausreißern, der ausreicht, um die Schätzung beliebig
zu beeinflussen und im schlechtesten Fall sinnlos zu machen. Rousseeuw (siehe
3.4. Robuste Regression
33
Rousseeuw and Leroy, 1987) zeigt, dass bei M -Schätzern der Bruchpunkt maximal
1/p werden kann, wobei p die Anzahl der unabhängigen Variablen bezeichnet. Mit
steigender Anzahl der Dimensionen sinkt also der Bruchpunkt rapide. Rousseeuw
schlägt daher eine Methode vor, die unabhängig von der Anzahl der Dimensionen
den Bruchpunkt nahe 0.5 hat, das bedeutet, dass bis zu 50% der Beobachtungen schlecht sein können, ohne dass deshalb die Schätzung zusammenbricht (0.5
ist auch der höchst mögliche Bruchpunkt, wie man sich leicht überlegen kann).
Dabei schlägt er vor, statt der Summe der quadrierten Residuen den Median der
quadrierten Residuen zu minimieren:
med(ri2 ) = min.
Wir suchen also jenes Band, das eine minimale Breite hat und 50% der Beobachtungen beinhaltet. Als praktischer Algorithmus bietet sich ein wiederholtes
Ziehen von Unterstichproben der Größe p an, wobei man entweder alle möglichen
Unterstichproben zieht, oder so viele, dass die Wahrscheinlichkeit z.B. 0.95 beträgt,
mindestens eine Probe mit ausschließlich guten Beobachtungen zu erhalten:
0.95 = 1 − (1 − (1 − ε)p )m ,
ε bezeichnet den Anteil der schlechten Beobachtungen im Datensatz, p die Anzahl
der unabhängigen Variablen und m die Anzahl der zu ziehenden Stichproben, damit
die gewünschte Wahrscheinlichkeit erreicht wird.
Die in diesem Kapitel beschriebenen Methoden sind in dem bisher verwendeten
Programmpaket BMDP nicht enthalten. Am Institut für Statistik und Wahrscheinlichkeitstheorie gibt es jedoch FORTRAN-Programme (BLINWDR und PROGRESS),
sowie ein APL-Programmpaket (GRIPS), in dem diese Methoden verwirklicht sind.
Auch S-PLUS und ROBSYS/ROBETH bieten diese Möglichkeiten. Als Lektüre
können die Bücher von Huber (1981), Hampel et al. (1986) und Rousseeuw and
Leroy (1987) empfohlen werden.
Kapitel 4
Verallgemeinerte Modelle
34
Literaturverzeichnis
A.A. Afifi and S.P. Azen. Statistical Analysis. A Computer Oriented Approach.
Acad. Press, New York, 1979.
F. Anscombe. Computing in Statistical Science through APL. Springer Verlag,
Berlin, 1981.
A.C. Atkinson. Plots, Transformations, and Regression. Clarendon Press, Oxford,
1985.
J.A. Brown, S. Pakin and R.P. Polivka. APL-2 at a Glance. Prentice-Hall Inc.,
New Jersey, 1988.
J.L. Bruning and B.L. Kintz. Computational Handbook of Statistics. Scott, Foresman & Co., Glenview, 1977.
J.M. Chambers. Computational Methods for Data Analysis. Wiley & Sons, New
York, 1977.
W.G. Cochran and G.M. Cox. Experimental Designs. Wiley & Sons, New York,
second edition, 1957.
P. Dalgaard. Introductory Statistics with R. Springer, New York, Berlin, 2002.
N.R. Draper and H. Smith. Applied Regression Analysis. Wiley & Sons, New York,
1981.
K. Enslein, A. Ralston and H.S. Wilf. Statistical Methods for Digital Computers.
Wiley & Sons, New York, 1977.
John Fox. Applied Regression Analysis, Linear Models, and Related Methods. Sage
Publications, Thousand Oaks, CA, USA, 1997. ISBN 0-8039-4540-X.
John Fox.
An R and S-Plus Companion to Applied Regression.
Sage Publications, Thousand Oaks, CA, USA, 2002.
URL
http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/index.html.
ISBN 0-761-92279-2.
35
LITERATURVERZEICHNIS
36
I. Francis, editor. A Comparative Review of Statistical Software. North Holland,
New York, 1981.
W. Freiberger and U. Grenander. A Short Course in Computational Probability
and Statistics. Springer Verlag, Berlin, 1971.
F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W. Stahel. Robust Statistics.
The Approach Based on Influence Functions. Wiley & Sons, New York, 1986.
J. Hartung, B. Elpelt und H.-K. Klösener. Statistik. Lehr- und Handbuch der
angewandten Statistik. Oldenbourg Verlag, München, 1984.
J. Hartung und B. Elpelt. Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 2. edition, 1986.
P.J. Huber. Robust Statistics. Wiley & Sons, New York, 1981.
W.J. Kennedy, Jr. and J.E. Gentle. Statistical Computing. Marcel Dekker, Inc.,
New York, 1980.
C.F. Kossack and C.I. Henschke. Introduction to Statistics and Computer Programming. Holden-Day Inc., San Francisco, 1975.
H. Küffner und R. Wittenberg. Datenanalysesystem für statistische Auswertungen.
Eine Einführung in SPSS, BMDP und SAS. G. Fischer Verlag, Stuttgart, 1985.
E. Lehmann. Fallstudien mit dem Computer. B.G. Teubner, Stuttgart, 1986.
P.R. Lohnes and W.W. Cooley. Introduction to Statistical Procedures: with Computer Exercises. Wiley & Sons, New York, 1986.
D.R. McNeil. Interactive Data Analysis, A Practical Primer. Wiley & Sons, New
York, 1977.
R.C. Milton and J.A. Nelder. Statistical Computation. Acad. Press, New York,
1969.
A. Ralston und H.S. Wilf. Mathematische Methoden für Digitalrechner. Oldenbourg
Verlag, München, 1960.
V.K. Rohatgi. Statistical Inference. Wiley & Sons, New York, 1984.
P.J. Rousseeuw and A.M. Leroy. Robust Regression and Outlier Detection. Wiley
& Sons, New York, 1987.
H. Scheffé. The Analysis of Variance. Wiley & Sons, New York, 1959.
S.R. Searle. Linear Models for Unbalanced Data. Wiley & Sons, New York, 1987.
LITERATURVERZEICHNIS
37
G.A.F. Seber. Linear Regression Analysis. Wiley & Sons, New York, 1977.
J.B. Siegel. Statistical Software for Microcomputers. A Guide to 40 Programs.
North Holland, New York, 1985.
E.J. Snell. Applied Statistics. A Handbook of BMDP Analysis. Chapman and Hall,
London, 1987.
J.W. Tukey. Exploratory Data Analysis. Addison-Wesley, Reading, Mass., 1977.
J.W. Tukey and F. Mosteller. Data Analysis and Regression, a second Course in
Statistics. Addison-Wesley, Reading, Mass., 1977.
G. Tutz. Regression for Categorical Data. Cambridge University Press, Cambridge,
2012.
W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, New
York, Berlin, 2002.
B.J. Winer. Statistical Principles in Experimental Design. McGraw-Hill Comp.,
New York, 1971.
S.J. Yakowitz. Computational Probability and Simulation. Addison-Wesley, Reading, Mass., 1977.
Herunterladen