Verallgemeinerte lineare Regressionsmodelle SS 2012

Verallgemeinerte lineare
Regressionsmodelle
SS 2012
R. Dutter
8. März 2012
Dieses Skriptum dient zur Unterstützung der Vorlesung. Es ist
im Prinzip als Hilfestellung und auch als (allerdings sehr knappes) Nachschlagewerk gedacht. Durch Einbeziehung von Übungsbeispielen mit statistischen Computerprogrammsystemen sollte es
auch möglich sein, sich größtenteils selbständig in die Materie einzuarbeiten und Beispiele zu rechnen.
Das Stichwortverzeichnis (Index) sollte das formale Finden von
Prüfungsfragen (und eventuell deren Antworten) erleichtern.
Inhaltsverzeichnis
1 Regression und Korrelation
1.1 Das Regressionsproblem . . . . . . . . . . . . . .
1.2 Schätzung der Parameter . . . . . . . . . . . . . .
1.3 Schätzungen und Tests bei Normalverteilung . . .
1.3.1 Konfidenzintervalle der Parameter . . . . .
1.3.2 Schätzung der Mittelwerte und zukünftiger
1.3.3 Test auf Abhängigkeit . . . . . . . . . . .
1.4 Das Korrelationsproblem . . . . . . . . . . . . . .
2 Varianzanalyse
2.1 Einleitung . . . . . . . . . . . .
2.2 Varianzanalyse - Modell I . . .
2.2.1 Einfache Varianzanalyse
2.3 Das allgemeine lineare Modell .
3 Multiple lineare Regression
3.1 Lineare Regression . . . .
3.2 Auswahl von Variablen . .
3.3 Diagnostik . . . . . . . . .
3.4 Robuste Regression . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Beobachtungen
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
5
6
7
.
.
.
.
9
9
11
11
15
.
.
.
.
23
23
28
29
31
4 Verallgemeinerte Modelle
34
Literaturverzeichnis
35
i
Kapitel 1
Regression und Korrelation
Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens
eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtet die gemeinsame Verteilung von zwei Variablen, von denen keine durch den Experimentator fixiert wird, beide sind also zufällig. Typische
Regressionsprobleme sind z.B. beim Studium des Ernteertrages mit verschiedenen
Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen Strahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten,
und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das Studium des Zusammenhangs zwischen Intelligenzquotienten und
Schulleistung von Kindern.
1.1
Das Regressionsproblem
Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts
von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer zufällig aus und erhalten z.B. folgende Daten (siehe Abbildung 1.1).
Für jede gewählte Größe x bekommen wir eine gewisse Verteilung der Gewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µy.x und
2
Varianz σy.x
angegeben werden. Weil die Verteilung von Y von den Werten von
x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muss aber festgehalten werden, dass x hier keine Zufallsvariable darstellt.
2
Normalerweise wird die Varianz σy.x
als konstant über x angenommen.
In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit
der Mittelwerte von Y (µy.x ) von x im Bereich der x-Werte durch eine gerade Linie
angegeben werden. Man spricht von einfacher, linearer Regression und schreibt
z.B.
µy.x = a + b(x − x̄) ,
wobei a und b feste Parameter darstellen.
1
1.2. Schätzung der Parameter
x [cm]
150
150
150
155
155
155
155
160
160
175
175
175
y = Y (ω) [kg]
55
67.5
60
60
70
65
67.5
75
72.5
85
92.5
80
2
95
90
85
80
75
Y
(in kg) 70
65
60
55
150
160
x (in cm)
170
180
Abbildung 1.1: Körpergewichte über den Größen.
1.2
Schätzung der Parameter
Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden.
Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue Schätzung1 für a ist dann das arithmetische Mittel der Y -Werte,
â = ȳ ,
und für b
wobei s2x =
sxy
b̂ = 2 =
sx
1
n−1
(xi − x̄)(yi − ȳ)
,
P
(xi − x̄)2
P
(xi − x̄)2 die empirische Varianz der x-Werte und
P
sxy =
1 X
(xi − x̄)(yi − ȳ)
n−1
die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. Sei ŷx der
geschätzte mittlere Wert von Y an der Stelle x (also von µy.x ). Dann gilt
µ̂y.x = ŷx = â + b̂(x − x̄) .
2
Eine erwartungstreue Schätzung für σ 2 = σy.x
ist
s2 =
1
1 X
1 X
(yi − ŷi )2 =
[yi − â − b̂(xi − x̄)]2 .
n−2
n−2
: lm(y ∼ x) , aber Vorsicht: In
wird x̄ nicht abgezogen!
1.3. Schätzungen und Tests bei Normalverteilung
3
s heißt auch mittlerer Fehler oder Standardabweichung der Beobachtungen.
Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von
Männern ergibt sich folgendes:
P
x
P i
y
P i
xy
P i2 i
x
P 2i
s2x
s2y
sxy
b̂
s2
ŷx
yi
=
=
=
=
=
=
=
1 915
x̄ =
=
850
ȳ =
= 136 725
= 306 675
= 61 525
1
(306675
− 12 ∗ 159.582 )
11
1
(61525 − 12 ∗ 70.832 )
11
1
(136725 − 12 ∗ 159.38 ∗ 70.83)
11
98.11/97.54
11
(119.70 − 1.012 ∗ 97.54)
10
70.83 + 1.01(x − 159.58)
95
95
90
90
85
85
80
80
75
Y
(in kg) 70
75
Y
(in kg) 70
65
65
60
60
55
55
150
160
x (in cm)
170
180
159.58
70.83
= 97.54
= 119.70
= 98.11
= 1.01
= 23.12
150
160
x (in cm)
170
180
Abbildung 1.2: Regression der Körpergewichte über den Größen.
In der rechten Skizze der Abbildung 1.2 sind auch die Residuen yi − ŷi , also die
Differenzen zwischen den gemessenen und geschätzten Werten, angedeutet. Die Art
der obigen Berechnung der Parameter â und b̂ ergibt sich auch aus dem Prinzip
der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, dass die Summe
der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der
Ausgleichsrechnung.2
1.3
Schätzungen und Tests bei Normalverteilung
1.3.1
Konfidenzintervalle der Parameter
2
Bis jetzt wurde nur angenommen, dass die Varianz σy.x
= σ 2 für alle Werte von x
gleich und dass die Regression linear ist. Wenn wir nun zusätzlich die Verteilung
2
: summary(lm(y ∼ x))
1.3. Schätzungen und Tests bei Normalverteilung
4
von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für
die Parameter a, b, σ 2 und µy.x angeben. Es gilt dann, dass die Statistiken
√
(Ȳ − a) n
Ta =
S
und
√
(b̂ − b)sx n − 1
Tb =
S
eine t-Verteilung mit n − 2 Freiheitsgraden besitzen, die Verteilung von
(n − 2)
S2
σ2
ist χ2n−2 mit n − 2 Freiheitsgraden. Konfidenzintervalle3 mit der Konfidenzzahl α
erhält man folglich sofort als
S
S
Ȳ − tn−2;1− α2 √ < a < Ȳ + tn−2;1− α2 √ ,
n
n
b̂ − tn−2;1− α2
und
(n − 2)
S
S
√
< b < b̂ + tn−2;1− α2 √
sx n − 1
sx n − 1
S2
χ2n−2;1− α
< σ 2 < (n − 2)
2
S2
χ2n−2; α
.
2
Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als
s
s
23.12
23.12
70.83 − 1.81
< a < 70.83 + 1.81
12
12
oder
68.32 < a < 73.34 ,
für b
s
s
23.12
23.12
1.01 − 1.81
< b < 1.01 + 1.81
97.54 ∗ 11
97.54 ∗ 11
oder
.74 < b < 1.28 ,
und für σ 2
10
23.12
23.12
< σ 2 < 10
18.31
3.94
oder
12.63 < σ 2 < 58.68 .
3
: confint(lm(y ∼ x))
1.3. Schätzungen und Tests bei Normalverteilung
1.3.2
5
Schätzung der Mittelwerte und zukünftiger Beobachtungen
Ein Konfidenzintervall4 für den Mittelwert µy.x an der Stelle x erhält man mit der
Formel
v
u
u1
α St
ŷx − tn−2;1− 2
v
u
u1
(x − x̄)2
(x − x̄)2
α St
+
+
<
µ
<
ŷ
+
t
.
y.x
x
n−2;1−
2
n (n − 1)s2x
n (n − 1)s2x
In unserem Beispiel erhalten wir für Männer mit x = 162.5 cm Körpergröße
einen geschätzten mittleren Wert für das Körpergewicht
ŷ162.5 = 70.83 + 1.01(162.5 − 159.58) = 73.78
und ein 95%-Konfidenzintervall
s
73.78 − 2.23 23.12[
1
(162.5 − 159.58)2
+
] < µy.162.5
12
11 ∗ 97.54
s
< 73.78 + 2.23 23.12[
1
(162.5 − 159.58)2
+
]
12
11 ∗ 97.54
oder
70.54 < µy.162.5 < 77.02 .
Wollen wir eine Aussage über eine zukünftige Beobachtung y an der Stelle x
machen5 , so kommt zur Varianz von ŷx noch ein σ 2 dazu und wir erhalten
v
u
u
α S t1 +
ŷx − tn−2;1− 2
1
(x − x̄)2
+
<y
n (n − 1)s2x
v
u
u
α S t1 +
< ŷx + tn−2;1− 2
1
(x − x̄)2
+
.
n (n − 1)s2x
Dies ist ein Toleranzintervall für einen an der Stelle x zu beobachtenden Wert, das
auf Grund der Information aus der Stichprobe gefunden wurde. Für unser Beispiel
erhalten wir an der Stelle x = 162.5 (α = .05)
s
73.78 − 2.23 23.12[1 +
1
(162.5 − 159.58)2
+
] < yx < . . .
12
11 ∗ 97.54
oder
62.58 < yx < 84.98 .
4
5
: predict(lm(y ∼ x), interval=’confidence’)
: predict(lm(y ∼ x), interval=’prediction’)
1.3. Schätzungen und Tests bei Normalverteilung
1.3.3
6
Test auf Abhängigkeit
Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x.
Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen
Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen
Regression
Ho : b = 0 .
Algorithmisch würde ein Test so aussehen:
1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies auf Grund
der Stichprobe genügend Grund zur Annahme, dass Y von x abhängt.
2. Ho : b = 0 mit der Alternative b 6= 0 (oder > 0 oder < 0 ).
3. Man wähle ein α.
4. Die Teststatistik sei
√
(b̂ − 0)sx n − 1
.
T =
S
5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes
x ist, so besitzt T eine t-Verteilung mit n − 2 Freiheitsgraden.
6. Der kritische Bereich wird dann als (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , ∞) berechnet.
7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich
fällt.
8. Man verwerfe oder akzeptiere entsprechend die Nullhypothese.
9. Man ziehe die Schlussfolgerung über die Abhängigkeit oder Unabhängigkeit
zwischen Y und x.
In unserem numerischen Beispiel ergibt sich ein Wert für T als
s
1.01
97.54 × 11
= 6.88 ,
23.12
wobei der kritische Bereich (bei α = .05) mit T < −2.23 und T > 2.23 gegeben
ist, sodass wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen
müssen.
1.4. Das Korrelationsproblem
1.4
7
Das Korrelationsproblem
Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen
Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen.
In einer Stichprobe müssen hier immer paarweise Messungen vorliegen. Meistens
werden Analysen unter der Annahme, dass das Paar der betrachteten Zufallsvariablen (X, Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in
Abbildung 1.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen
Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittel2
werten µX , µY und den Varianzen σX
= E(X − µX )2 , σY2 = E(Y − µY )2 dient zur
Charakterisierung dieser bivariaten Verteilung als Maß der Abhängigkeit zwischen
X und Y noch die Kovarianz
σXY = E[(X − µX )(Y − µY )] .
y
Abbildung 1.3: Dichte der bivariaten Normalverteilung.
Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als
ρXY =
σXY
σX σY
definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen
bedeutet σXY = 0 und damit ρXY = 0. Als Schätzung für ρ dient meistens der
empirische Korrelationskoeffizient
rXY =
1
1 X
(xi − x̄)(yi − ȳ) .
sX sY n − 1
Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als em-
1.4. Das Korrelationsproblem
8
pirischen Korrelationskoeffizient errechnen wir
98.11
rXY = √
= .91 .
97.54 ∗ 119.70
Test auf Unkorreliertheit
Sind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die Statistik
s
T =R
n−2
1 − R2
eine tn−2 -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des
empirischen Korrelationskoeffizienten rXY annimmt. T kann sofort als Teststatistik
zum Testen der Nullhypothese Ho : ρ = 0 verwendet werden. Bei Spezifizierung
der Gegenhypothese H1 : ρ 6= 0 ergibt sich als kritischer Bereich
| T | > tn−2;1− α2
6
.
Beispiel 1.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm3 ), wie im Beispiel auf Seite ??. Nun
testen wir Ho : ρ = 0 gegen H1 : ρ 6= 0 mit α = .05. Der Wert des empirischen
Korrelationskoeffizienten R beträgt r = .69. Mit n = 9 ergibt sich der Wert der
Teststatistik T als
s
s
n−2
7
= .69
= 2.52 ,
t=r
2
1−r
1 − .692
was absolut größer als tn−2;1− α2 = t7;.975 = 2.365 ausfällt. Die Hypothese der Unkorreliertheit muss daher verworfen werden.
6
: cor.test(Daten1, Daten2)
Kapitel 2
Varianzanalyse
2.1
Einleitung
Die Varianzanalyse (analysis of variance - ANOVA) stellt ein häufig verwendetes und effizientes Verfahren der angewandten Statistik zur Auswertung komplexer
Versuche dar. Sie wurde von R.A. Fisher in den Zwanzigerjahren zur statistischen
Auswertung von Feldversuchen entwickelt und seither laufend zu einer wirkungsvollen Methode zur Analyse ähnlicher und auch komplexerer Versuchsanordnungen
verbessert und ausgebaut. Klassische und auch heute noch umfassende Werke sind
in erster Linie die Bücher von Scheffé (1959) und Cochran and Cox (1957). Neuere Bücher, auch mit multivariaten Modellen (MANOVA), wären Afifi and Azen
(1979), Hartung et al. (1984, 1986), Seber (1977) oder Winer (1971).
Die folgenden Beispiele stellen eine bescheidene Auswahl von Situationen dar,
die mit Modellen der Varianzanalyse behandelt werden können.
Beispiel 2.1: Vier Weizensorten werden hinsichtlich ihrer Erträge verglichen; bei
verschiedenen Landwirten ergaben sich nachfolgende Werte, wobei jeder Landwirt
bloß eine Sorte anbaut:
Sorte
1
2
3
4
82
83
96
88
94
78
110
98
100
68
107
82
Erträge
84
92
80
86
104 106
90
96
102
98
Liefern die Sorten durchschnittlich gleiche Erträge? Ist die Sorte 3 ertragreicher?
Beispiel 2.2: Für den Autobahnbau wurden im Raum Wr. Neustadt Voruntersuchungen für die Schottergewinnung durchgeführt. Dabei wurden an drei Plätzen
mehrere Proben genommen und (als eines von mehreren wichtigen Qualitätsmerkmalen) für jede Probe die durchschnittliche Korngröße ermittelt. Dabei fielen folgende Werte an:
9
2.1. Einleitung
10
Bereich
1
2
3
14
21
12
Probe (in
18 14
15 14
10 13
mm)
16 15
18 21
14 14
Beispiel 2.3: Im Zuge der Errichtung einer komplexen Reinigungsanlage wurden
unter anderem drei Typen einer speziellen Düsenart untersucht. Hiezu führten fünf
Ziviltechniker jeweils drei Messungen an allen drei Düsentypen durch. Dabei ergab
sich folgende Aufstellung, wobei die Werte als Durchflussindex kodiert sind:
Düsentype
A
B
C
6
13
10
1
6
6
10
-15
13
-11
26
4
-35
2
12
4
0
5
11
-14
Techniker
3
11
4
4
17
10
17
11 -10 -17
21
-5
12
4
14
2
-2
7
-5
-16
25
15
-4
5
18 25
8
1
10 24
Die angeführten Beispiele deuten bereits auf die unterschiedlichen Fragestellungen und damit auch Modelle der Varianzanalyse hin. Gemeinsam ist allen drei
Beispielen eine beobachtbare (abhängige) Größe (Ertrag, Korngröße, Durchflussindex), deren Beeinflussung durch externe Einflüsse zu untersuchen ist.
Im ersten Beipiel steht die Frage im Vordergrund, ob die vier Weizensorten
den gleichen durchschnittlichen Ernteertrag aufweisen. Es wird also der Einfluss
des Faktors Weizensorte“ auf den Ernteertrag untersucht, wobei die Stufen des
”
Faktors fix vorgegeben sind und daher einen bestimmten, allerdings durch andere
Unsicherheiten noch unbekannten Einfluss auf den Ernteertrag aufweisen. Man
spricht daher von einem Modell mit festen Effekten oder auch vom Modell I.
Der offensichtliche Unterschied in der Ausgangssituation zwischen dem ersten
und zweiten Beispiel liegt in der Art des Einflussfaktors. Während im ersten Fall
die Stufen (= Ausprägungen des Faktors) fest vorgegeben sind, fehlt diese Bestimmtheit im zweiten Fall. Die Gruppen (= Proben in einem konkreten Bereich)
stellen keine festen Stufen eines Faktors dar, sondern sind durch die mehr oder
weniger zufällige Auswahl von drei Probenbereichen entstanden. Der Einfluss, den
diese auf die durchschnittliche Korngröße ausüben, erklärt sich möglicherweise aus
der Entfernung eines Probenbereiches zu einem ehemaligen Flussverlauf, aus der
relativen Erhöhung gegenüber dessen Niveau oder ähnlichen meist unbekannten
Gründen. Diese Unkenntnis zusammen mit der willkürlichen Auswahl der Probenbereiche führt zu einem zufälligen Einfluss des Faktors Probenbereich“ auf die
”
durchschnittliche Korngröße, der dann noch durch kleine Unsicherheiten und Ungenauigkeiten wie im ersten Beispiel überlagert wird. Man spricht daher hier von
einem Modell mit zufälligen Effekten oder auch vom Modell II der Varianzanalyse. Eine typische Fragestellung ergibt die Analyse von Varianzkomponenten einer
beobachteten Größe, die dem Einfluss bestimmter Faktoren zugeschrieben werden
können.
Eine Mischung der beiden Aspekte treffen wir im dritten Beispiel. Die Düsentype hat (möglicherweise) einen festen Einfluss auf die Durchflussmenge, die
2.2. Varianzanalyse - Modell I
11
untersuchenden Techniker aber sicherlich einen zufälligen, da sie aus der (großen)
Zahl von in Frage kommenden Technikern (mit jeweils spezifischen Einfluss auf das
Messergebnis) willkürlich herausgegriffen wurden. Wir sprechen hier von einem gemischten Modell oder einem Modell III.
Allen Modellen gemeinsam ist das Prinzip, das zur Herleitung geeigneter Methoden für die Beantwortung aufgeworfener Fragen verwendet wird. In jedem Fall
wird die Gesamtvarianz“
X
”
const × (y − ȳ)2 ,
y
in der y alle Beobachtungen durchläuft und ȳ das (Gesamt-)Mittel darüber darstellt, in entsprechende Teile (Komponenten) aufgespaltet, die miteinander verglichen werden. Daraus leitet sich auch der Name dieser Verfahren ab.
2.2
2.2.1
Varianzanalyse - Modell I
Einfache Varianzanalyse
Wir untersuchen den Einfluss eines Faktors A mit I Stufen auf die abhängige und
beobachtbare Größe y. Dazu werden pro Stufe Ji Versuche durchgeführt;
yij
(i = 1, . . . , I,
j = 1, . . . , Ji )
bezeichne den beobachteten Wert von y im j-ten Versuch bei Behandlung (Stufe)
i.
Die Zufallsvariable yij wird dann üblicherweise als Summe eines für die Stufe i
spezifischen Mittelwertes µi und eines zufälligen Fehlers eij interpretiert:
yij = µi + eij
(i = 1, . . . , I,
j = 1, . . . , Ji ) .
Zumeist interessieren aber die Abweichungen αi von einem Gesamtmittel µ, die
durch die Behandlung i entstehen, sodass üblicherweise die Beziehung
yij = µ + αi + eij
(i = 1, . . . , I,
j = 1, . . . , Ji )
(2.1)
gewählt wird. Da in diesem Fall für die I + 1 Parameter µ, α1 , . . . , αI nur I Beziehungen (nämlich die Stufen des Faktors A) vorhanden sind, wählt man als Nebenbedingung meist
I
X
Ji αi = 0 .
(2.2)
i=1
Die Fehler eij werden in der Standardanalyse unabhängig normalverteilt mit konstanter Varianz σ 2 angenommen (Homoskedastizität). Damit lautet das Modell für
die einfache Varianzanalyse
yij = µ + αi + eij
(i = 1, . . . , I,
2
eij ∼ N (0, σ ) unabhängig.
j = 1, . . . , Ji )
(2.3)
2.2. Varianzanalyse - Modell I
12
Für die Frage, ob der Faktor A einen Einfluss auf die abhängige Größe hat,
testet man die Nullhypothese
HA :
α1 = α2 = . . . = αI = 0
(2.4)
(Gegenhypothese: mindestens ein Ungleichungszeichen). Zur Herleitung der Teststatistik versucht man, die Gesamtvariation der Beobachtungen aufzuspalten in
einen Teil, der die Schwankung der Gruppen (als Gruppe werden alle Beobachtungen zu einer Stufe des Faktors A aufgefasst) um einen gemeinsamen Mittelwert
beschreibt (Variation zwischen den Gruppen), und einen zweiten, der das Streuverhalten innerhalb der Gruppen erfasst. Wesentlich für die Untersuchung ist dann die
Schwankung der Gruppenmittel relativ zum Streuverhalten innerhalb der Gruppen
(die nur mehr die unkontrollierbare Zufälligkeit enthalten). Mit den Abkürzungen
ȳi. =
Ji
1 X
yij
Ji j=1
und
ȳ.. = PI
Ji
I X
X
1
i=1
Ji
yij
i=1 j=1
nützt man die Identität
(yij − ȳ.. ) = (yij − ȳi. ) + (ȳi. − ȳ.. )
|
{z
|
}
{z
}
zwischen
innerhalb
und erhält für die Gesamtquadratsumme
SST =
Ji
I X
X
i=1 j=1
2
(yij − ȳ.. )
=
Ji
I X
X
2
I
X
}
|
(yij − ȳi. ) +
i=1 j=1
|
Ji (ȳi. − ȳ.. )2
i=1
{z
SSe
+2
I
X
(ȳi. − ȳ.. )
i=1
{z
SSA
Ji
X
(yij − ȳi. )
j=1
|
= SSe + SSA
}
,
{z
0
}
(2.5)
also die oben erwähnte Aufspaltung in eine Quadratsumme (engl. sum of squares,
SS ) SSA zwischen den Gruppen und eine, nämlich SSe , innerhalb derselben. Bei
starken Gruppeneinflüssen wird SSA größer ausfallen als im Falle eines fehlenden
Gruppeneinflusses, wogegen SSe davon (theoretisch) unbeeinflusst bleibt. Daher
wird der Einwand gegen die Nullhypothese HA umso stärker sein, je größer SSA
relativ zu SSe ausfällt.
2.2. Varianzanalyse - Modell I
13
Für die exakte Formulierung der Teststatistik sind noch die statistischen Eigenschaften der Quadratsummen notwendig. Im Modell (2.3) gilt
Ji
X
(yij − ȳi. )2 ∼ σ 2 χ2Ji −1
,
j=1
da die Fehler eij unabhängig normalverteilt sind. Aus dem Additionstheorem der
χ2 –Verteilung folgt somit
SSe =
Ji
I X
X
(yij − ȳi. )2 ∼ σ 2 χ2P(Ji −1) = σ 2 χ2n−I
.
i=1 j=1
Als mittlere Quadratsumme (engl. mean squares, MS ) wird der Quotient einer SS
durch die Anzahl ihrer Freiheitsgrade bezeichnet. Damit erhält man mit M Se =
P
SSe /( Ii=1 Ji −I) einen erwartungstreuen Schätzer für σ 2 , d.h. der Erwartungswert
(engl. expected mean squares, EMS ) ist EM Se = σ 2 . Aus diesem Grund wird SSe
oft auch Fehler–Quadratsumme (engl. error sum of squares) genannt.
Unter der Nullhypothese HA gilt für die Verteilung von SSA
SSA =
I
X
Ji (ȳi. − ȳ.. )2 ∼ σ 2 χ2I−1
,
i=1
also eine χ2 –Verteilung mit I − 1 Freiheitsgraden (engl. degrees of freedom, df ),
wobei SSA und SSe unabhängig sind (Satz von Cochran). Daher ist dann die
Statistik
SSA /(I − 1)
M SA
F =
=
∼ FI−1,n−I
M Se
SSe /(n − I)
F–verteilt. Wie oben angedeutet, sind große Werte für diese Statistik signifikant,
sodass die Nullhypothese HA dann zum Signifikanzniveau α zu verwerfen ist, falls
F =
M SA
> FI−1,n−I;1−α
M Se
gilt. Wird HA hingegen nicht verworfen, nimmt man an, dass die I Stufen des Faktors A keinen (nennenswerten) Einfluss auf das Mittel der beobachteten Variable
y haben (Achtung vor einem Fehler 2. Art!)
> werner_bcd <- matrix(scan("werner_bcd.txt", na.strings = "*"),
+
ncol = 9, byrow = T)
> dimnames(werner_bcd) <- list(werner_bcd[, 1], c("ID", "AGE",
+
"HEIGHT", "WEIGHT", "BRTHPILL", "CHOLSTRL", "ALBUMIN", "CALCIUM",
+
"URICACID"))
> werner_bcd_corr <- werner_bcd[werner_bcd[, "CHOLSTRL"] > 150 &
+
werner_bcd[, "CHOLSTRL"] < 400, ]
2.2. Varianzanalyse - Modell I
>
>
>
>
>
>
14
werner_bcd_corr <- as.data.frame(werner_bcd_corr)
AGE_fac <- cut(werner_bcd_corr[, "AGE"], c(18, 25, 32, 42, 55))
werner_bcd_corr <- cbind(werner_bcd_corr, AGE_fac)
rm(AGE_fac)
r_aov <- aov(CHOLSTRL ~ AGE_fac, data = werner_bcd_corr)
anova(r_aov)
Analysis of Variance Table
Response: CHOLSTRL
Df Sum Sq Mean Sq F value
Pr(>F)
AGE_fac
3 39738 13246.1 8.1641 3.96e-05 ***
Residuals 182 295291 1622.5
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Die im Zuge einer Varianzanalyse berechneten Zwischen- und Testgrößen werden üblicherweise in Tabellenform nach dem Schema in Tab. 2.1 angeordnet. Dabei
Tabelle 2.1: Einfache Varianzanalyse
Ursprung der
Variabilität
A
SS
PI
i=1 Ji (ȳi.
− ȳ.. )2
d.f.
MS
F
p
I −1
SSA
I−1
M SA
M Se
pA
Fehler
PI
PJi
(yij − ȳi. )2 n − I
SSe
n−I
−
−
Total
PI
PJi
(yij − ȳ.. )2 n − 1
−
−
−
i=1
i=1
j=1
j=1
enthält die Spalte F“ den berechneten Wert der entsprechenden F–Statistik und
”
die Spalte p“ die Wahrscheinlichkeit, dass unter der jeweiligen Nullhypothese die
”
Teststatistik einen Wert größer oder gleich dem tatsächlich berechneten annimmt.
Um Schätzwerte für die in (2.3) verwendeten Parameter µ und αi zu berechnen,
wendet man die Methode der kleinsten Quadrate (engl. least squares, LS ) an und
minimiert die Summe der Residuenquadrate
S=
Ji
I X
X
(yij − µ − αi )2
.
i=1 j=1
Für die partiellen Ableitungen nach den Parametern gilt
Ji
I X
X
∂S
= (−2)
(yij − µ − αi )
∂µ
i=1 j=1
Ji
X
∂S
= (−2)
(yij − µ − αi ) .
∂αi
j=1
2.3. Das allgemeine lineare Modell
Aus der Nebenbedingung
PI
i=1
Ji αi = 0 erhält man sofort die LS –Schätzer
α̂i = ȳi. − ȳ..
µ̂ = ȳ..
>
>
>
>
+
+
>
>
15
.
attach(werner_bcd_corr)
mu <- mean(CHOLSTRL)
alpha <- levels(AGE_fac)
FUN <- function(x) {
fitted.values(r_aov)[AGE_fac == x][1] - mu
}
alpha <- apply(as.matrix(alpha), 1, FUN = FUN)
detach(werner_bcd_corr)
µ̂
α̂1
α̂2
α̂3
α̂4
2.3
Wert
236.15
-14.03
-11.03
4.75
22.41
Das allgemeine lineare Modell
Die Modelle der Varianzanalyse mit festen Effekten lassen sich in einen allgemeineren Ansatz einbinden, der als Konzept der linearen Modelle bekannt ist. Dabei
wird eine beobachtbare Zufallsgröße als linearer Ausdruck gegebener, bekannter
Größen und unbekannter (aber fester) Parameter dargestellt, dem eine zufällige,
additive Störgröße überlagert ist. Im Falle von n Beobachtungen y1 , . . . , yn ergibt
sich dann:
y1 = x11 β1 + x12 β2 + . . . + x1p βp + e1
y2 = x21 β1 + x22 β2 + . . . + x2p βp + e2
..
..
..
..
..
..
.
.
.
.
.
.
yn = xn1 β1 + xn2 β2 + . . . + xnp βp + en .
Die Fehlerterme ei werden üblicherweise mit Mittel 0 und gleicher Varianz σ 2 (Homoskedastizität) normalverteilt und unabhängig angenommen. Damit lässt sich der
obige Ansatz zu einem linearen Modell in Matrixschreibweise
y = Xβ+e
e ∼ N (0, σ 2 I n )
(2.6)
zusammenfassen mit
y = (y1 , . . . , yn )>
e = (e1 , . . . , en )>
β = (β1 , . . . , βp )>
2.3. Das allgemeine lineare Modell
16
und der Designmatrix X ∈ IRn×p

X=





x11 x12 · · · x1p
x21 x22 · · · x2p
..
..
..
..
.
.
.
.
xn1 xn2 · · · xnp






.
Beispiel 2.4: Der einfache lineare Regressionsansatz
yi = β1 + β2 xi + ei
i = 1, . . . , n
ist ein lineares Modell mit der Designmatrix
1 ··· 1
x1 · · · xn
X=
!>
und dem Parametervektor β = (β1 , β2 )> . Für den Rang von X gilt, wenn nicht
alle xi gleich sind, offensichtlich rg(X) = 2.
Beispiel 2.5: Der Ansatz der einfachen Varianzanalyse aus Abschnitt ?? stellt
in der Form
yij = µ + δ1i α1 + δ2i α2 + . . . + δIi αI + eij
und
(
δk` =
1
0
für k = `
sonst
ein lineares Modell mit der Designmatrix

X=








1 ...
1
0
..
.
1
1
0
..
.
1 ...
0
1
..
.
1 ...
0
1
..
.
1 ...
0
0
..
.
1
0
0
..
.
0 ... 0 0 ... 0 ... 1 ... 1
|
{z
J1
}
|
{z
J2
}
|
{z
JI
>

















I
.
}
Wie man unmittelbar erkennt, gilt rg(X) = I.
Um einen Schätzer für den unbekannten Parametervektor β zu erhalten, verwendet man - wie im vorigen Kapitel bereits angedeutet - die LS–Methode. Minimieren von
p
S(y, β) :=
n
X
i=1
(yi −
X
xij βj )2 = ky − Xβk2
j=1
führt nach dem Nullsetzen von
∂S(y, β)
= −2 X > y + 2 X > Xβ
∂β
(2.7)
2.3. Das allgemeine lineare Modell
17
auf die Normalgleichungen
X > Xβ = X > y.
(2.8)
Es existiert mindestens eine LS-Lösung β̂, für die die Gleichung (2.8) eine notwendige Bedingung darstellt. Geometrisch lässt sich
ŷ = X β̂
als Projektion von y ∈ IRn auf den durch die Spaltenvektoren von X erzeugten
linearen Unterraum des IRn interpretieren. Der Residuenvektor y − ŷ besitzt minimale euklidische Länge.
Es gilt nunmehr:
1. Falls rg(X) = p, so ist X > X regulär und es gilt für die nunmehr eindeutige
LS–Lösung
β̂ = (X > X)−1 X > y .
(2.9)
2. In diesem Fall gilt für die Kovarianzmatrix der LS–Lösung β̂
Σβ̂ = σ 2 (X > X)−1
.
(2.10)
3. Ein erwartungstreuer Schätzer für σ 2 ergibt sich durch
s2 = σc2 =
1
1
S(y, β̂) =
ky − X β̂k2
n−r
n−r
(2.11)
mit r = rg(X). Auf Grund der Normalverteilungsvoraussetzung in Modell
(2.6) ist (n − r) s2 /σ 2 dann χ2n−r –verteilt.
Falls rg(X) < p, ist die LS–Lösung nicht eindeutig. An Möglichkeiten zur
Behebung dieses Problems bieten sich an:
• Man betrachtet ein reduziertes Problem mit bloß r = rg(X) Parametern βj∗∗ ,
indem man aus den p Spaltenvektoren ξ j = (x1j , . . . , xnj )> von X, die einen
r–dimensionalen Unterraum Vr des IRn aufspannen, r linear unabhängige
auswählt und nur die entsprechenden βj betrachtet. Durch Streichen der übrigen Spalten hat die neue Matrix X ∗ Maximalrang und β ∗ = (β1∗ , . . . , βr∗ )>
kann nunmehr eindeutig aus (2.8) geschätzt werden. Diese Form stellt einen
Spezialfall der sogenannten Reparametrisierung dar.
• Man wählt q geeignete Linearkombinationen pj=1 h`j βj , ` = 1, . . . , q in den
βj und verlangt, dass ein LS–Schätzer für β auch die Bedingung
P
H β̂ = 0 ,
mit H = (h`j )`=1,...,q, j=1,...,p
(2.12)
erfüllt. Diese Lösung wird eindeutig, falls die Zeilen von X und H eine Zerlegung des IRp in zwei orthogonale Komponenten definieren. Dies stellt auch
die übliche Art zur Erzielung der Eindeutigkeit dar (siehe auch im vorigen
Abschnitt über die einfache Varianzanalyse).
2.3. Das allgemeine lineare Modell
18
• Man kann auch einfach vom numerischen Standpunkt her verallgemeinerte
Matrixinverse verwenden, die sich allerdings auch als Spezialfall des vorigen
darstellen lassen.
Schätzbare Funktionen
Unter einer Parameterfunktion ψ versteht man eine lineare Funktion der unbekannten Parameter β1 , . . . , βp
ψ = ψ(β) =
p
X
cj β j = c > β
,
(2.13)
j=1
wobei die Koeffizienten c1 , . . . , cp bekannt sind. Sie heißt schätzbar, falls für ψ ein
linearer, erwartungstreuer Schätzer ψ̂ = a> y mit a ∈ IRn existiert, für den also
E(a> y) = ψ
(2.14)
identisch für alle β gilt. Es lässt sich leicht zeigen, dass eine Parameterfunktion
genau dann schätzbar ist, falls ein Vektor a ∈ IRn existiert mit
c> = a> X
.
(2.15)
Einen Spezialfall schätzbarer Funktionen stellen in der Varianzanalyse (lineare)
Kontraste dar, für die
ψ = ψ(β) =
p
X
cj βj
j=1
außerdem pj=1 cj = 0 erfüllen muss.
Beispiel 2.6: Ergibt eine einfache Varianzanalyse, dass die Hypothese HA verworfen wird, also die αi nicht alle gleich (null) sind, stellt sich die Frage, welche
Stufenmittel von A besonders differieren: unterscheidet sich α1 von α3 , oder ist
zwischen den Gruppen mit Effekten α1 , α2 bzw. α4 , α5 , α6 ein Unterschied festzustellen? Zur Beantwortung dieser Fragen betrachtet man Kontraste der Form
ψ1 = α1 − α3 und ψ2 = 21 (α1 + α2 ) − 13 (α4 + α5 + α6 ). Dass es sich dabei um schätzbare Funktionen handelt, ergibt sich daraus, dass µ + αi , i = 1, . . . , I, schätzbar
sind (der dazugehörende Koeffizientenvektor c tritt sogar als Zeile in X auf) und
demnach auch alle Linearkombinationen davon.
P
Satz von Gauß–Markoff
Jede im Modell (2.6) schätzbare Funktion ψ = c> β besitzt einen erwartungstreuen,
in der Klasse der linearen Schätzer effizienten Schätzer ψb (engl. best linear unbiased
estimator, BLUE ) . Dieser ergibt sich als
ψb = a> y = c> β̂
,
(2.16)
2.3. Das allgemeine lineare Modell
19
indem man also einfach in die Parameterfunktion eine LS-Lösung β̂ von β anstelle
des Parametervektors einsetzt. Weiters gilt mit a aus (2.15) für die Varianz von ψ̂
σψ̂2
2
>
=σ a a=σ
2
n
X
a2i
.
i=1
Ein erwartungstreuer Schätzer dafür ergibt sich als
σcψ̂2 = s2
n
X
a2i
i=1
mit s2 aus (2.11).
Vertrauensbereiche für schätzbare Funktionen:
Für q schätzbare Funktionen
ψ` =
p
X
c`j βj
(` = 1, . . . , q)
(2.17)
j=1
im linearen Modell (2.6) mit den LS–Schätzern
c =
ψ
`
n
X
a`i yi
(` = 1, . . . , q)
(2.18)
i=1
gilt:
1. mit A = (a`i )`=1,...,q, i=1,...,n und ψ = (ψ1 , . . . , ψq )> ist
ψ̂ ∼ N (ψ, Σψ̂ ) ,
Σψ̂ = σ 2 AA>
;
(2.19)
2. die beiden Schätzer ψ̂ und s2 sind unabhängig.
Dabei geht die Annahme der Normalverteilung wesentlich ein. Falls die ψ` linear
unabhängig sind (d.h. A hat vollen Rang), folgt aus obigem zusammen mit (2.11)
(ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ)
∼ Fq,n−r
q s2
,
(2.20)
woraus man unmittelbar Tests und Konfidenzbereiche herleiten kann.
So ist etwa die Nullhypothese
H0 : ψ1 = . . . = ψq = 0
auf dem Signifikanzniveau α zu verwerfen, falls
>
ψ̂ (AA> )−1 ψ̂ > q s2 Fq,n−r;1−α
(2.21)
ausfällt. Ein gemeinsames, q–dimensionales Konfidenzellipsoid für ψ1 , . . . , ψq zur
Überdeckungswahrscheinlichkeit 1 − α erhält man als
(ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ) ≤ q s2 Fq,n−r;1−α
.
(2.22)
2.3. Das allgemeine lineare Modell
20
Simultane Konfidenzintervalle
Im Gegensatz zu den obigen (evtl. mehrdimensionalen) Konfidenzbereichen werden hier Verfahrensregeln angegeben, die gleichzeitig (simultan) für alle schätzbaren Funktionen aus einem von q linear unabhängigen schätzbaren Funktionen
ψ1 , . . . , ψq aufgespannten Raum L Konfidenzintervalle mit gemeinsamer Überdeckungswahrscheinlichkeit 1−α liefern. Diese stellen speziell für Modelle der Varianzanalyse eine Alternative zu den dabei verwendeten Tests simultaner Hypothesen
der Form H0 : β1 = β2 = . . . = βq dar (vgl. Kontraste in der Varianzanalyse).
Eine sehr allgemeines Verfahren zur Konstruktion ist die
S–Methode (nach
q Scheffé):
Mit k = q Fq,n−r;1−α gilt für simultane Konfidenzintervalle schätzbarer
Funktionen ψ ∈ L
√
√
ψb − k s a> a ≤ ψ ≤ ψb + k s a> a ,
(2.23)
wobei ψb = a> y den LS–Schätzer gemäß (2.14) darstellt.
In der Literatur ist daneben noch die T–Methode (nach Tukey) sehr verbreitet,
doch gilt diese nur für Kontraste und ist nur bei einfacher Gestalt derselben (z.B.
einfache Differenzen) der S–Methode vorzuziehen.
Hypothesen im linearen Modell
Ausgehend vom Modell (2.6), im folgenden mit Ω abgekürzt,
Ω :
y = Xβ+e
e ∼ N (0, σ 2 I n ) ,
betrachtet man eine (Null–) Hypothese H
H : ψ1 = ψ2 = . . . = ψq = 0
mit q linear unabhängigen, schätzbaren Funktionen ψ`
steht ein neues, eingeschränktes lineares Modell
ω =Ω∩H
.
(` = 1, . . . , q). Damit ent(2.24)
Während Ω in dem von den p Spalten von X aufgespannten r–dimensionalen Unterraum Vr ⊂ IRn (r = rg(X)) operiert, ist das neue Modell auf Grund der
Annahmen über H auf einen (r − q)–dimensionalen Unterraum Vr−q von Vr eingeschränkt (für Beweise siehe Scheffé, 1959).
Bezeichnen SΩ bzw. Sω die Minimalausdrücke für die Residuenquadratsumme
(2.7) und stehen ŷ bzw. ŷ ω für den LS–Schätzer jeweils im Modell Ω bzw. ω, so gibt
die Abb. 2.1 (aus Scheffé, 1959) den geometrischen Zusammenhang wieder. Mit den
für quadratische Formen normalverteilter Zufallsgrößen bekannten Eigenschaften
gilt nun im Modell Ω der geometrisch anschauliche Sachverhalt:
2.3. Das allgemeine lineare Modell
21
Abbildung 2.1: Geometrische Deutung im linearen Modell
y
^
y
0
y-y^ω
..
: Lange = Sω
y-y^
..
: Lange = SΩ =
^
y-y^
..
: Lange = Sω SΩ =
SSe
^
yω
ω
Vr-q
1. SΩ = SSe = ky − ŷk2 ∼ σ 2 χ2n−r
SSH
Vr
;
2. Sω −SΩ = SSH = kŷ− ŷ ω k2 ∼ σ 2 χ2q,δ , d.h. SSH besitzt eine nichtzentrale χ2 –
Verteilung mit Nichtzentralitätsparameter δ = kP Vq X βk/σ, wobei P Vq die
Projektion auf Vq mit Vr = Vq ⊕Vr−q darstellt. Im Modell ω, d.h. bei Gültigkeit
der Hypothese H, ist SSH dann zentral χ2 –verteilt mit q Freiheitsgraden;
3. y − ŷ und ŷ − ŷ ω sind statistisch unabhängig (orthogonal!).
Daraus folgt unmittelbar, dass bei gültiger Hypothese H
F =
n − r SSH
n − r Sω − SΩ
=
q
SΩ
q SSe
(2.25)
F–verteilt ist mit q und n−r Freiheitsgraden. Für theoretisch Interessierte sei angemerkt, dass es sich bei dieser F–Statistik um eine einfach transformierte Likelihood–
Quotienten–Statistik für die zwei in Betracht kommenden Modelle handelt.
Beispiel 2.7: Die für die einfache Varianzanalyse im Abschnitt ?? betrachtete
Hypothese HA : α1 = . . . = αq lässt sich nach dem obigen Schema durch die
q − 1 unabhängigen schätzbaren Funktionen ψl = αl − αl+1 (l = 1, . . . , q − 1)
beschreiben. Zusammen mit Beispiel 2.5 ergeben sich damit sofort die Aussagen
aus Abschnitt ??.
Offensichtlich scheint die Hypothese H wenig plausibel, wenn y − ŷ deutlich
kleiner als y − ŷ ω ausfällt, wenn also y im Modell Ω viel besser als im Modell ω
(d.h. unter der Hypothese H ) erklärt wird. Misst man mit der üblichen L2 –Norm,
so ist dies genau dann der Fall, wenn kŷ − ŷ ω k im Vergleich zu ky − ŷk groß wird,
bzw. wenn der Wert der F–Statistik groß ist. Damit ist die Hypothese auf dem
Signifikanzniveau α zu verwerfen, wenn
n − r SSH
> Fq,n−r;1−α
q SSe
gilt.
(2.26)
2.3. Das allgemeine lineare Modell
22
Geschachtelte Hypothesen im linearen Modell
Betrachtet man anstelle bloß einer Hypothese eine Reihe von h (≥ 1) Hypothesen
H1 , H2 , . . . , Hh , die jeweils qk (k = 1, . . . , h) schätzbare Funktionen gleich 0 setzen,
wobei die q1 + . . . + qh schätzbaren Funktionen linear unabhängig seien, so lässt
sich eine Folge geschachtelter“ Hypothesen bzw. Modelle der Form
”
Ω, ω1 = Ω ∩ H1 , ω2 = Ω ∩ H1 ∩ H2 , . . .
· · · , ωh = Ω ∩ H1 ∩ . . . ∩ Hh
definieren. Analog zum einfachen Fall ergibt sich eine zugehörende Folge
Vr = V 0 ⊃ V (1) ⊃ . . . ⊃ V (k)
von Aktionsräumen V (k) der Modelle ωk mit den Projektionen ŷ ωk von y auf eben
diese Räume.
Es gilt nunmehr, dass sich y durch
y = (y − ŷ) + (ŷ − ŷ ω1 ) + (ŷ ω1 − ŷ ω2 ) + . . . + (ŷ ωh−1 − ŷ ωh ) + ŷ ωh
,
(2.27)
in h + 2 paarweise orthogonale Vektoren zerlegt lässt, woraus
kyk2 = ky − ŷk2 +kŷ − ŷ ω1 k2 +kŷ ω1 − ŷ ω2 k2 +. . .+kŷ ωh−1 − ŷ ωh k2 +kŷ ωh k2 (2.28)
folgt. Diese Abstandsquadrate sind unabhängig und besitzen im Modell Ω eine
nichtzentrale χ2 –Verteilung mit
n − r, q1 , . . . , qh , r −
h
X
qk
k=1
Freiheitsgraden und den Nichtzentralitätsparametern
0,
1
1
kP V(k) Xβk (k = 1, . . . , h), kP V (h) Xβk ,
σ
σ
wobei P V(k) die Projektion auf V(k) mit V (k−1) = V(k) ⊕ V (k) darstellt. Damit lassen sich analog dem einfachen Fall sehr rasch die entsprechenden Testvorschriften
angeben. Die wichtigste Anwendung findet sich in der mehrfachen Varianzanalyse.
Kapitel 3
Multiple lineare Regression
3.1
Lineare Regression
Im linearen Modell, auf das wir uns im folgenden weiterhin konzentrieren wollen,
betrachten wir die Beziehung:
y = Xβ + e
(3.1)
wobei
y = (y1 , . . . , yn )> ,
e = (e1 , . . . , en )> ,
und



X=


x11 x12 · · · x1p
x21 x22 · · · x2p
..
..
..
..
.
.
.
.
xn1 xn2 · · · xnp
β = (β1 , . . . , βp )






.
Die y-Variable wird üblicherweise abhängige und die x-Variablen unabhängige
Variablen genannt, e bezeichnet den Fehlerterm. Üblicherweise werden die Fehlerterme ei als unabhängig normalverteilt mit Mittel 0 und gleicher Varianz σ 2
angenommen. Gesucht ist nun der Parametervektor β, der gewöhnlich durch die
Minimierung der quadratischen Abstände
2
S(y, β) := ky − Xβk =
n
X
(yi −
i=1
p
X
xij βj )2
(3.2)
j=1
gefunden wird. (Andere Möglichkeiten werden im Abschnitt 3.4 behandelt). Das
gewünschte Minimum bekommen wir durch Ableiten und Nullsetzen von S(y,β)
und wir erhalten die sogenannten Normalgleichungen:
X > Xβ = X > y.
Bei vollem Rang von X > X gibt es eine eindeutige Lösung:
β̂ = (X > X)−1 X > y.
23
(3.3)
3.1. Lineare Regression
24
Die Kovarianzmatrix der LS-Schätzung ergibt sich als
Σβ̂ = (X > X)−1 σ 2 ,
wobei σ 2 durch σˆ2 =
1
||y
n−p
− X β̂||2 geschätzt wird.
Konfidenzintervalle
Um Konfidenzintervalle für die geschätzten Parameter βj zu konstruieren, benutzen wir die Verteilungsannahmen: die Fehlerterme ei haben Mittel 0 und gleiche Varianz σ 2 (Homoskedastizität), sind unabhängig und normalverteilt, e ∼
N (0, σ 2 I n ). Damit gilt, dass
β̂j − βj
q
für j = 1, . . . , p
σ̂ 2 ((X > X)−1 )jj
Student-t-verteilt ist mit n − p Freiheitsgraden. Daraus lassen sich (1 − α) × 100%
Konfidenzintervalle für βj ableiten:
q
[ β̂j − t
n−p;1− α
2
σ̂ 2 ((X > X)−1 )jj
,
q
β̂j + t
n−p;1− α
2
σ̂ 2 ((X > X)−1 )jj
].
Weiters können wir über die einzelnen Parameter die x-Variablen auf ihre Wichtigkeit im Modell überprüfen. Wenn der Parameter β̂j nicht signifikant von 0 verschieden ist, dann trägt die j-te Variable nichts Wesentliches zu unserem Modell
bei. Wir testen also H0 : βj = 0 gegen H1 : βj 6= 0 mittels folgender Teststatistik:
T =q
β̂j
σ̂ 2 ((X > X)−1 )jj
.
Wird |T | größer als tn−p;1− α2 , so ist β̂j signifikant von 0 verschieden, d.h. die j-te
Variable ist für unser Modell wesentlich.
Zusätzlich zu Konfidenzintervallen für die einzelnen Parameter können wir auch
ein Konfidenzintervall für den mittleren Wert von y (den Erwartungswert µ) an
einer fixen Stelle x0 berechnen:
q
>
−1
[ ŷ0 − tn−p;1− α2 σ̂ x>
0 (X X) x0
,
q
>
−1
ŷ0 + tn−p;1− α2 σ̂ x>
0 (X X) x0
]
wobei ŷ0 = x>
0 β̂.
Das entprechende Toleranzintervall für die Beobachtung y0 ist
q
>
−1
[ ŷ0 −tn−p;1− α2 σ̂ 1 + x>
0 (X X) x0
,
q
>
−1
ŷ0 +tn−p;1− α2 σ̂ 1 + x>
0 (X X) x0
].
3.1. Lineare Regression
25
Bestimmtheitsmaß
Als Maß für die Güte der Anpassung der Regression dient der quadratische (empirische) Korrelationskoeffizient zwischen den beobachteten y und den geschätzten
ŷ: R2 = cor2 (y, ŷ). R2 wird auch Bestimmtheitsmaß genannt und kann auch durch
die äquivalente Formel
R2 = SSR /SST
berechnet werden, wobei am einfachsten die Definitionen für SSR und SST die Größen aus der folgenden Varianzanalysetafel der Quadratsummenzerlegung“ über”
nommen werden können, also
>
SSR = β̂ X > y = ŷ > ŷ und SST = y > y
Man bemerke aber, dass dabei keine echten Korrelationen (mit zentrierten Werten
¯ berechnet werden, sondern unzentrierte“, weil die Originalwerte
y − ȳ und ŷ − ŷ)
”
y (und ŷ) verwendet werden. Die entsprechenden Freiheitsgrade sind hier p bzw.
n.
Nimmt man die richtige“ Definition der Korrelation, so bekommt man
”
¯ > (y − ȳ)]2
[(ŷ − ŷ)
R2 =
¯ > (ŷ − ŷ)(y
¯
(ŷ − ŷ)
− ȳ)> (y − ȳ)
wobei y − ȳ (Subtraktion des Mittelwertes von y, einem Skalar von einem Vektor,
einfach komponentweise Subtraktion bedeutet.
Nun zeigt sich aber wieder, dass R2 als
R2 = SSR /SST
geschrieben werden kann, wobei jetzt
¯ > (ŷ − ŷ)
¯ und SST = (y − ȳ)> (y − ȳ) .
SSR (= SSp−1 ) = (ŷ − ŷ)
Beweis: Wir nehmen an, dass die Matrix X ein Spalte 1 mit nur Einsen enthält.
1. Beide Mittelwerte ŷ¯ und ȳ sind gleich:
Multipliziert man X auf ŷ = X(X > X)−1 X > y
X > ŷ = X > X(X > X)−1 X > y = X > y .
Dabei gilt natürlich auch die Gleichheit für die Spalte 1 von X:
¯ = 1> X(X > X)−1 X > y = 1> y = nȳ .
1> ŷ (= nŷ)
2. Die inneren Produkte ŷ > y und ŷ > ŷ sind gleich:
ŷ > y = y > X(X > X)−1 X > y
3.1. Lineare Regression
26
= y > X(X > X)−1 X > X(X > X)−1 X > y
= ŷ > ŷ .
3. Die Kovarianz von ŷ und y ist gleich der Kovarianz von ŷ und ŷ:
In exakter Matrizenform geschrieben gilt für das Produkt
¯ > (y − ȳ1) = ŷ > y − ŷ1
¯ > y − ŷ > ȳ1 + ŷ¯ȳ1> 1
(ŷ − ŷ1)
Mit den obigen Punkten 1. und 2. weitergerechnet, erhalten wir
¯ > (y − ȳ1) = ŷ > ŷ − nŷ¯2 = (ŷ − ŷ)
¯ > (ŷ − ŷ)
¯
(ŷ − ŷ1)
worauf sich die Formel für den Bestimmtheitsgrad auf
R2 = SSR /SST
zusammenkürzt.
R2 liegt naturgemäß zwischen 0 und 1; je größer R2 wird, desto besser passt
sich das gewählte Modell an die Daten an.
Gewichtete Regression
Es kann vorkommen, dass manche Beobachtungen weniger zuverlässig sind als
andere. Das bedeutet, dass die Varianz von e nicht Iσ 2 ist, sondern eine Diagonalmatrix mit unterschiedlichen Elementen (Verletzung der Homoskedastizität). Es
kann auch vorkommen, dass die Nichtdiagonalelemente ungleich sind, das bedeutet, dass die ei nicht unkorreliert sind (Verletzung der Unabhängigkeit). Beide Fälle
stellen eine Verletzung der Voraussetzungen dar und damit können obige Aussagen
nicht mehr aufrechterhalten werden. Die grundsätzliche Idee zur Beseitigung dieser
Schwierigkeit ist recht einfach: man versucht, y derart zu transformieren, dass die
Voraussetzungen für die transformierte Variable z wieder gelten.
Nehmen wir an, dass e ∼ N (0, V σ 2 ), wobei V eine bekannte, positiv definite
Matrix ist. Man kann für V eine Matrix P finden, sodass P P > = V gilt (siehe
Draper and Smith, 1981, pp. 108). Wenn wir die urprüngliche Regressionsgleichung
y = Xβ + e mit P −1 multiplizieren, erhalten wir
−1
−1
P −1 y = P
| {z X} β + P
| {z e}
| {z }
z
Q
f
bzw.
z = Qβ + f
mit den gewünschten Eigenschaften, weil
>
V ar(f ) = E(f f > ) = E(P −1 ee> P −1 )
>
>
= P −1 E(ee> )P −1 = P −1 P P > P −1 σ 2 = Iσ 2 .
3.1. Lineare Regression
27
Lineares Modell?
Als lineares Modell bezeichnen wir alle Modelle der Form:
y = β0 + β1 x1 + . . . + βp xp .
Man kann aber auch Regressionsansätze, die im ersten Moment nicht als linear
erscheinen, durch geeignete Transformationen linearisieren:
y = β0 + β1 x1 + β2 x2 + . . . + βp xp
kann durch Setzen von x̃i = xi−1 , i = 1, ..., p + 1, auf ein lineares Modell zurückgeführt werden. Auch
y = β0 eβ1 x
kann durch Logarithmieren linearisiert werden. Als nichtlinear bezeichnen wir Modelle, die nicht durch Transformationen auf die lineare Form gebracht werden können, wie etwa
y = β0 eβ1 x1 +β2 x2 + β3 x3 .
Quadratsummenzerlegung
Mit Hilfe einer Zerlegung der gesamten Quadratsumme SST = y > y können wir
folgende Varianzanalysetabelle erstellen (siehe auch Abschnitt 2.2):
Variationsquelle
FG
Quadratsumme
Regression
p
SSR = β̂ X > y
mittlere QS
F-Wert
>
ˆ
>y
M SR = β X
p
>
>
Residuen
n−p
SSe = y > y − β̂ X > y
Gesamt
n
SST = y > y
M Se =
MSR /MSe
ˆ>
(y > y −β X > y )
(n−p)
Aus Abschnitt 2.2 wissen wir, dass MSR /MSe F-verteilt ist. Als Hypothese nehmen wir H0 : β1 = β2 = . . . = βp = 0. Eine weitere Aufteilung der Quadratsummen
der Regression kann vorgenommen werden, wenn ein konstanter Term im Modell
vorhanden ist:
>
>
SSR = β̂ X > y = nȳ 2 + β̂ X > y − nȳ 2
|{z}
SSkons
|
{z
SSp−1
}
Diese Art der Zerlegung finden wir auch in den entsprechenden Programmen.
Wird die mittlere Quadratsumme der Regression MSR im Verhältnis zur mittleren Quadratsumme der Residuen zu groß, müssen wir H0 verwerfen, und es gilt,
dass zumindest ein βj 6= 0 sein muss.
3.2. Auswahl von Variablen
3.2
28
Auswahl von Variablen
In der Regressionsanalyse stellt sich oft die Frage, ob es sich gelohnt hat, gewisse
Variablen in das Modell einzubeziehen, bzw. welche Variablen am besten geeignet
erscheinen.
Die erste Frage lässt sich mit Hilfe jenes Teils der Quadratsumme der Regression, der auf die zur Diskussion stehenden Variablen zurückzuführen ist, untersuchen.
Man nennt das Prinzip nach dem dabei vorgegangen wird, Extra-Quadratsummenprinzip.
Dazu nehmen wir folgendes (volles) Modell Ω an: Ω : y = Xβ + e mit p
unabhängigen Variablen. Nun betrachten wir ein reduziertes Modell mit q (q >
0) Variablen mit der Hypothese (ohne Einschränkung der Allgemeinheit) βq+1 =
βq+2 = . . . = βp = 0. Damit wissen wir aus Abschnitt 2.2), dass
SSeω − SSeΩ n − p
∼ Fp−q,n−p .
×
SSeΩ
p−q
Die Differenz SSeω - SSeΩ der Quadratsummen des reduzierten und des vollen
Modells wird häufig als Extra-Quadratsumme bezeichnet.
Mit Hilfe von SSeω kann man einzelne Variablen auf ihren Wert für das Regressionsmodell überprüfen. Wir vergleichen dabei die Quadratsumme des Modells
ohne die i-te Variable mit der Quadratsumme des Modells mit der i-ten Variablen.
Dieses Verfahren kann Schritt für Schritt für jede in Frage kommende Variable
durchgeführt werden; deswegen wird es auch sequentieller F-Test genannt.
Im Programm für schrittweise Regression von beispielsweise BMDP werden
diese F-Statistiken ‘F-to-enter’ und ‘F-to-remove’ genannt, wobei die Größe der
F-Statistik bestimmt, welche Variable als nächste zum Modell hinzugefügt bzw.
weggenommen wird. Man bemerke, dass hier wegen der theoretischen Unzulässigkeit des ‘sequentiellen F-Tests’ keine Quantile mit gegebenen Wahrscheinlichkeiten,
sondern feste, aber willkürliche Werte genommen werden.
Durch Grenzwerte für die F-Werte kann man festlegen, bis zu welcher Größe
des F-Wertes eine Variable in das Modell aufgenommen wird. Es kann vorkommen,
dass eine Variable im Modell plötzlich unwesentlich wird. Diese soll dann aus dem
Modell genommen werden. Die Entscheidung wird sukzessive mit der Größe des
F-Wertes im Vergleich mit einem F-to-remove“ durchgeführt.
”
Wie wir in vielen Beispielen sehen, ist es nicht immer notwendig, alle zur Verfügung stehenden Variablen in das Modell einzubeziehen. Gerade bei mehreren
Variablen ist es möglich, dass manche Variablen ähnliche Dinge messen, bzw. dass
es Abhängigkeiten zwischen einzelnen Variablen gibt (Multikollinearität). Das kann
dazu führen, dass die Matrix X > X fast singulär wird.
Bei der Auswahl der Variablen gilt es, einen Kompromiss zu finden zwischen
folgenden Zielen:
• um eine möglichst gute Vorhersage treffen zu können, sollten möglichst viele
Variablen in unser Modell eingehen
3.3. Diagnostik
29
• um das Modell übersichtlich und einfach zu gestalten, sollten möglichst wenige Variablen in unser Modell eingehen.
Wir wollen nun einige Verfahren anführen, die sich mit einer möglichst guten
Auswahl der Variablen befassen.
Eine Möglichkeit haben wir bereits kennengelernt: die schrittweise Regression
mit einem Grenzwert für F-to-enter und einen für F-to-remove. Eine andere Möglichkeit besteht darin, die Regressionsanalyse für alle möglichen Variablenkombinationen durchzurechnen und dann die ‘beste’ Kombination zu wählen. Üblicherweise
wird als Kriterium dafür entweder R2 oder Mallows-Cp -Statistik herangezogen.
Für R2 sieht die Vorgangsweise folgendermaßen aus:
pro p (Anzahl der Variablen) werden die größten Werte R2 mit den entsprechenden
Variablen gelistet. Man kann nun entscheiden, ab welcher Anzahl von Variablen R2
nicht mehr wesentlich größer wird. Als ‘bestes’ Modell wird dann jenes gewählt,
das das größte R2 hat bei der Anzahl von Variablen, wobei durch Hinzunahme
einer weiteren Variablen nichts Entscheidendes mehr gewonnen wird.
Mallows-Cp -Statistik stellt die Restquadratsumme als Summe des quadrierten Fehlers und des quadrierten Bias (Verzerrung durch das falsche Modell) dar
und ist wie folgt definiert:
Cp0 = RSSp0 /s2 − (n − 2p0 ),
wobei RSS0p die Residuenquadratsumme eines Modells mit p0 Parametern darstellt,
s2 ist die mittlere Residuenquadratsumme des vollen, idealen Modells. Vorausgesetzt p0 Parameter reichen aus, dann gibt es keinen Mangel an Anpassung und
damit ist E(RSSp0 ) = (n − p0 )σ 2 . Da E(s2 ) = σ 2 gilt, folgt (approximativ), dass
E(RSSp0 /s2 ) = (n − p0 )σ 2 /σ 2 = n − p0 ,
sodass
E(Cp0 ) = n − p0 − (n − 2p0 ) = p0 .
Daraus folgt, dass ein Plot von Cp gegen p die geeigneten Modelle als Punkte
nahe der Cp = p-Linie zeigen wird. Modelle mit einem Mangel an Anpassung
(Modellfehler, Bias) werden deutlich über der Cp = p-Linie zu finden sein. Das
Kriterium der Auswahl des ‘optimalen’ Modells ist nun einerseits ein Cp -Wert nahe
dem p bei einer möglichst geringen Anzahl von Variablen.
( : Siehe Paket wle!)
3.3
Diagnostik
Bisher haben wir uns mit der Berechnung und der optimalen Zusammensetzung
von Modellen beschäftigt und dabei stillschweigend angenommen, dass alle Voraussetzungen, die wir postuliert haben, zutreffen. Wie aber können wir überprüfen, ob
3.3. Diagnostik
30
unsere Annahmen stimmen? Dazu gibt es eine Reihe von diagnostischen Verfahren
von denen wir im folgenden einige wichtige kennenlernen werden. Eine ausführliche
Diskussion von diagnostischen Routinen findet sich in Draper and Smith (1981), sowie in Atkinson (1985), eines der neueren Bücher auf diesem Gebiet ist Rousseeuw
and Leroy (1987).
Wahrscheinlichkeitspapier
Eine der Annahmen, die wir getroffen haben, war, dass die Residuen normalverteilt sind (e = N (0, Iσ 2 ). Eine Möglichkeit, diese Annahme anschaulich
zu testen, ist das Wahrscheinlichkeitspapier. Dabei werden die Residuen gegen
G−1 (Fn (Residuen)) aufgetragen, wobei G−1 die Inverse der Normalverteilungsfunktion und Fn die empirische Verteilungsfunktion der Residuen bezeichnet. Wenn
die Residuen in etwa normalverteilt sind, so liegen die entstehenden Punkte einer
Treppenfunktion ungefähr auf einer Geraden.
( : Siehe Paket e1071: probplot, qqplot ...!)
Andere Möglichkeiten, die Residuen auf Normalverteilung zu überprüfen, wären
etwa der χ2 -Test, Shapiro-Wilk oder der Kolmogorow-Smirnow-Test.
Residuen - ŷ- Plot
Eine weitere Annahme, die von uns getroffen wurde, ist die Annahme der Homoskedastizität, d.h. die Residuen besitzen alle die gleiche Varianz. Eine anschauliche Möglichkeit einer Überprüfung dieser Annahme bietet ein Plot der Residuen
e gegen die geschätzten Werte ŷ. Bei Homoskedastizität sollten die Residuen in
y-Richtung über die gesamte x-Achse in etwa die gleiche Streuung aufweisen. Darüberhinaus können wir mit dieser Grafik auch unser Modell prüfen: wenn es korrekt
ist, so dürfen die Residuen nur zufällig um die 0-Linie streuen; wenn die Residuen
aber noch eine Struktur erkennen lassen, so kann unser Modell nicht richtig sein.
Entdeckung von einflussreichen Beobachtungen
Es kann vorkommen, dass einzelne Beobachtungen die gesamte Schätzung sehr
stark beeinflussen; man spricht dann von einflussreichen Beobachtungen oder Ausreißern. Da in extremen Situationen eine einzelne ‘schlechte’ Beobachtung ausreicht, um die Schätzung gänzlich unsinnig zu machen, oder zumindest sehr stark
zu verfälschen, ist es wichtig, zu überprüfen, ob solche einflussreichen Beobachtungen vorhanden sind. Eine Testgröße, die von den meisten Programmpaketen als
Erkennungshilfe für Ausreißer angeboten wird, ist die Cook-Distanz1 :
b −β
d }> X > X{β
b −β
d }/(p × σ̂ 2 )
Di = {β
(i)
(i)
1
( : Siehe Funktion cooks.distance!)
3.4. Robuste Regression
31
wobei βd
(i) der geschätzte Parametervektor ist, der ohne die i-te Beobachtung berechnet wurde. Ein großer Wert Di für eine Beobachtung i weist auf eine einflussreiche Beobachtung hin. Auf diese Art kann man einzelne Ausreißer gut feststellen,
bei mehreren Ausreißern hingegen tritt ein sogenannter Maskierungseffekt zu Tage,
der die entsprechenden Abstände klein hält und damit Ausreißer ‘maskiert’.
Mit diagnostischen Hilfsmitteln - wie dem Cook-Abstand, oder der äquivalenten
Mahalanobisdistanz - ist es daher nicht möglich, eine Gruppe von Ausreißern zu
erkennen, man muss also sinnvollerweise das Problem der Ausreißererkennung auf
grundsätzlich andere Art anpacken.
Im nächsten Kapitel werden wir robuste Methoden in der Regressionsanalyse
kennenlernen, mit deren Hilfe sich auch dieses Problem lösen lässt.
3.4
Robuste Regression
Mit robusten statistischen Verfahren meint man Verfahren, die nicht sehr empfindlich auf Verletzungen der zugrundeliegenden Verteilungsannahmen reagieren.
Bisher haben wir für die Schätzung unserer Parameter praktisch nur die Methode der kleinsten Quadrate verwendet, es gibt aber noch verschiedene andere
Möglichkeiten, die Parameter zu schätzen. In der kleinsten Quadrate-Schätzung
minimieren wir ja folgenden Ausdruck (ri bezeichnet das i-te Residuum):
n
X
ri2 = min;
i=1
dabei geht jede Beobachtung mit demselben Gewicht in die Berechnung ein. Das
bedeutet, dass eine einzelne ‘schlechte’ Beobachtung (Ausreißer) die Schätzung
beliebig verzerren kann. Ein Ansatz, der von Huber (1981) und Hampel et al. (1986)
gewählt wurde, geht von einer Verallgemeinerung der quadratischen Schätzung der
Parameter aus. Wir versuchen dabei, folgenden Ausdruck zu minimieren:
n
X
i=1
ρ(
ri
)vi pi = min,
σpi
wobei σ den (robust geschätzten) Skalierungsfaktor bezeichnet, pi , vi sind Gewichtsfaktoren, die nur vom Faktorraum, also von den xi. = (xi1 , xi2 , ..., xip )> , abhängen
sollen und üblicherweise zunächst gleich 1 sind, und ρ ist eine Funktion, mit deren
Hilfe wir den Einfluss von den Residuen beschränken können. Diese verallgemeinerte Art der Schätzung nennt man auch M-Schätzung. Im folgenden sind einige
der gebräuchlichsten ρ-Funktionen durch ihre Ableitungen ψ angeführt:
ψLS (t) = t (kleinste Quadrate-Schätzung ).
3.4. Robuste Regression
32
ψL1 (t) = sgn(t), (L1 -Schätzung,
Minimierung der absoluten Abstände).
ψH (t) = max(−c, min(t, c)) mit c > 0 (Huber’s ψ).







t
wenn |t| ≤ a
sgn(t)a
wenn a < |t| ≤ b
ψHA (t) =
d−|t|




d−b sgn(t)a wenn b < |t| ≤ d


0
wenn d < |t|
mit 0 < a < b < d (Hampel’s ψ).
(
ψA (t) =
c sin(t/c) wenn |t| ≤ cπ
0
wenn |t| > cπ
mit c > 0 (Andrews’ ψ).
Die erste ψ-Funktion entspricht der kleinsten Quadrate-Schätzung. Durch die
Unbeschränktheit dieser Funktion lässt sich auch die Verwundbarkeit der Schätzung durch Ausreißer in den Residuen erklären. Die anderen ψ-Funktionen sind
beschränkt und damit robust gegen Ausreißer in den Residuen.
Unabhängig von der Gestalt der gewählten ψ-Funktion können Ausreißer im
Faktorraum (in den x-Variablen) die Schätzung immer noch ‘beliebig’ stark beeinflussen. Wir können aber die Gewichte pi und vi der M-Schätzung benutzen,
um den Einfluss der unabhängigen Variablen zu beschränken. Wählen wir die Gewichte identisch 1, so erhalten wir die Schätzung, wie wir sie bisher kennengelernt
haben - die x-Variablen bleiben ungewichtet, und damit ist ihr Einfluss weiter unbeschränkt. Diese Art der Schätzung wird auch Huber-Typ-Schätzung genannt.
Setzen wir nur pi gleich 1, so erhalten wir den sogenannten Mallows-Typ-Schätzer,
bei dem alle Beobachtungen, die im Faktorraum als ‘weit entfernt’ erkannt werden,
ungeachtet der Größe ihres Residuums ein kleineres Gewicht bekommen. Damit
bekommen aber auch Beobachtungen, die durchaus in die Schätzung passen würden, nur auf Grund ihrer Lage im Faktorraum ein niedriges Gewicht. Setzen wir
pi = vi , so erhalten wir die sogenannte Schweppe-Typ-Schätzung, bei der Beobachtungen nur dann ein niedriges Gewicht erhalten, wenn einerseits die Lage im
Faktorraum ‘extrem’ ist, und andererseits das Residuum dieser Beobachtung groß
ist. Die Mallows- und die Schweppe-Typ-Schätzung wird auch robuste Regression
mit beschränktem Einfluss der unabhängigen Variablen genannt (bounded influence
regression).
Als ein Maß der Robustheit eines Schätzers gilt der Bruchpunkt. Damit bezeichnet man jenen Anteil an Ausreißern, der ausreicht, um die Schätzung beliebig
zu beeinflussen und im schlechtesten Fall sinnlos zu machen. Rousseeuw (siehe
3.4. Robuste Regression
33
Rousseeuw and Leroy, 1987) zeigt, dass bei M -Schätzern der Bruchpunkt maximal
1/p werden kann, wobei p die Anzahl der unabhängigen Variablen bezeichnet. Mit
steigender Anzahl der Dimensionen sinkt also der Bruchpunkt rapide. Rousseeuw
schlägt daher eine Methode vor, die unabhängig von der Anzahl der Dimensionen
den Bruchpunkt nahe 0.5 hat, das bedeutet, dass bis zu 50% der Beobachtungen schlecht sein können, ohne dass deshalb die Schätzung zusammenbricht (0.5
ist auch der höchst mögliche Bruchpunkt, wie man sich leicht überlegen kann).
Dabei schlägt er vor, statt der Summe der quadrierten Residuen den Median der
quadrierten Residuen zu minimieren:
med(ri2 ) = min.
Wir suchen also jenes Band, das eine minimale Breite hat und 50% der Beobachtungen beinhaltet. Als praktischer Algorithmus bietet sich ein wiederholtes
Ziehen von Unterstichproben der Größe p an, wobei man entweder alle möglichen
Unterstichproben zieht, oder so viele, dass die Wahrscheinlichkeit z.B. 0.95 beträgt,
mindestens eine Probe mit ausschließlich guten Beobachtungen zu erhalten:
0.95 = 1 − (1 − (1 − ε)p )m ,
ε bezeichnet den Anteil der schlechten Beobachtungen im Datensatz, p die Anzahl
der unabhängigen Variablen und m die Anzahl der zu ziehenden Stichproben, damit
die gewünschte Wahrscheinlichkeit erreicht wird.
Die in diesem Kapitel beschriebenen Methoden sind in dem bisher verwendeten
Programmpaket BMDP nicht enthalten. Am Institut für Statistik und Wahrscheinlichkeitstheorie gibt es jedoch FORTRAN-Programme (BLINWDR und PROGRESS),
sowie ein APL-Programmpaket (GRIPS), in dem diese Methoden verwirklicht sind.
Auch S-PLUS und ROBSYS/ROBETH bieten diese Möglichkeiten. Als Lektüre
können die Bücher von Huber (1981), Hampel et al. (1986) und Rousseeuw and
Leroy (1987) empfohlen werden.
Kapitel 4
Verallgemeinerte Modelle
34
Literaturverzeichnis
A.A. Afifi and S.P. Azen. Statistical Analysis. A Computer Oriented Approach.
Acad. Press, New York, 1979.
F. Anscombe. Computing in Statistical Science through APL. Springer Verlag,
Berlin, 1981.
A.C. Atkinson. Plots, Transformations, and Regression. Clarendon Press, Oxford,
1985.
J.A. Brown, S. Pakin and R.P. Polivka. APL-2 at a Glance. Prentice-Hall Inc.,
New Jersey, 1988.
J.L. Bruning and B.L. Kintz. Computational Handbook of Statistics. Scott, Foresman & Co., Glenview, 1977.
J.M. Chambers. Computational Methods for Data Analysis. Wiley & Sons, New
York, 1977.
W.G. Cochran and G.M. Cox. Experimental Designs. Wiley & Sons, New York,
second edition, 1957.
P. Dalgaard. Introductory Statistics with R. Springer, New York, Berlin, 2002.
N.R. Draper and H. Smith. Applied Regression Analysis. Wiley & Sons, New York,
1981.
K. Enslein, A. Ralston and H.S. Wilf. Statistical Methods for Digital Computers.
Wiley & Sons, New York, 1977.
John Fox. Applied Regression Analysis, Linear Models, and Related Methods. Sage
Publications, Thousand Oaks, CA, USA, 1997. ISBN 0-8039-4540-X.
John Fox.
An R and S-Plus Companion to Applied Regression.
Sage Publications, Thousand Oaks, CA, USA, 2002.
URL
http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/index.html.
ISBN 0-761-92279-2.
35
LITERATURVERZEICHNIS
36
I. Francis, editor. A Comparative Review of Statistical Software. North Holland,
New York, 1981.
W. Freiberger and U. Grenander. A Short Course in Computational Probability
and Statistics. Springer Verlag, Berlin, 1971.
F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W. Stahel. Robust Statistics.
The Approach Based on Influence Functions. Wiley & Sons, New York, 1986.
J. Hartung, B. Elpelt und H.-K. Klösener. Statistik. Lehr- und Handbuch der
angewandten Statistik. Oldenbourg Verlag, München, 1984.
J. Hartung und B. Elpelt. Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 2. edition, 1986.
P.J. Huber. Robust Statistics. Wiley & Sons, New York, 1981.
W.J. Kennedy, Jr. and J.E. Gentle. Statistical Computing. Marcel Dekker, Inc.,
New York, 1980.
C.F. Kossack and C.I. Henschke. Introduction to Statistics and Computer Programming. Holden-Day Inc., San Francisco, 1975.
H. Küffner und R. Wittenberg. Datenanalysesystem für statistische Auswertungen.
Eine Einführung in SPSS, BMDP und SAS. G. Fischer Verlag, Stuttgart, 1985.
E. Lehmann. Fallstudien mit dem Computer. B.G. Teubner, Stuttgart, 1986.
P.R. Lohnes and W.W. Cooley. Introduction to Statistical Procedures: with Computer Exercises. Wiley & Sons, New York, 1986.
D.R. McNeil. Interactive Data Analysis, A Practical Primer. Wiley & Sons, New
York, 1977.
R.C. Milton and J.A. Nelder. Statistical Computation. Acad. Press, New York,
1969.
A. Ralston und H.S. Wilf. Mathematische Methoden für Digitalrechner. Oldenbourg
Verlag, München, 1960.
V.K. Rohatgi. Statistical Inference. Wiley & Sons, New York, 1984.
P.J. Rousseeuw and A.M. Leroy. Robust Regression and Outlier Detection. Wiley
& Sons, New York, 1987.
H. Scheffé. The Analysis of Variance. Wiley & Sons, New York, 1959.
S.R. Searle. Linear Models for Unbalanced Data. Wiley & Sons, New York, 1987.
LITERATURVERZEICHNIS
37
G.A.F. Seber. Linear Regression Analysis. Wiley & Sons, New York, 1977.
J.B. Siegel. Statistical Software for Microcomputers. A Guide to 40 Programs.
North Holland, New York, 1985.
E.J. Snell. Applied Statistics. A Handbook of BMDP Analysis. Chapman and Hall,
London, 1987.
J.W. Tukey. Exploratory Data Analysis. Addison-Wesley, Reading, Mass., 1977.
J.W. Tukey and F. Mosteller. Data Analysis and Regression, a second Course in
Statistics. Addison-Wesley, Reading, Mass., 1977.
G. Tutz. Regression for Categorical Data. Cambridge University Press, Cambridge,
2012.
W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, New
York, Berlin, 2002.
B.J. Winer. Statistical Principles in Experimental Design. McGraw-Hill Comp.,
New York, 1971.
S.J. Yakowitz. Computational Probability and Simulation. Addison-Wesley, Reading, Mass., 1977.

Zugehörige Unterlagen

Ergänzung: Korrelations

Blatt 12

Verallgemeinerte lineare Regressionsmodelle SS 2012

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können