4 Regression

Werbung
R07
4
4.1
1
Regression
Univariate multiple Regression
Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend
bekannt ist, nämlich die univariate multiple Regression. In der Elementarstatistik
wird meistens die empirische Fragestellung bearbeitet. Ähnliche Probleme treten
aber auch auf theoretischer Ebene auf und lassen sich völlig analog behandeln.
Um dies etwas klarer zu machen, soll in den ersten Abschnitten, die weitgehend
der Wiederholung schon bekannter Sachverhalte dienen, die theoretische Version
der Regression dargestellt werden – man wird leicht erkennen, dass dabei die formalen Unterschiede ganz unwesentlich sind und sich eigentlich auf den Austausch
von Symbolen beschränken. Als praktisch für die Formulierungen erweist sich die
Verfügbarkeit der Vektor- und Matrizenschreibweise.
Die Möglichkeit der kovarianztreuen Darstellung hilft dazu, viele auf den ersten
Blick merkwürdige Phänomene der multiplen Regression und der Partialkorrelation durchsichtiger zu machen.
Problemstellung und Lösung. Im ersten Abschnitt wird das Problem gestellt
und gelöst. Die (im Prinzip schon zum großen Teil bekannten) Erörterungen werden am Ende in einer Feststellung zusammengefasst.
Gegeben seien also p Zufallsvariablen xj , zusammengefasst zu einem Zufallsvektor
x – die Prädiktoren – und eine weitere Zufallsvariable y – das Kriterium. Alle diese Zufallsvariablen sollen natürlich auf einem gemeinsamen Wahrscheinlichkeitsraum definiert sein. Außerdem ist vorauszusetzen, dass alle diese Zufallsvariablen
eine endliche Varianz besitzen.
Als Beispiel kann man sich vorstellen, dass man sich für die Variablen nicht auf
Stichprobenebene interessiert, sondern auf Populationsebene, dass es also um so
etwas wie eine wahre‘ Regressionsgleichung geht, im Gegensatz zu der, die man
’
mit Hilfe einer empirischen Stichprobe errechnet.
Ziel ist es, das Kriterium y mit Hilfe einer Linearkombination der xj möglichst gut
vorherzusagen‘, besser würde man sagen zu approximieren‘. Wie üblich darf man
’
’
sich durch die Verwendung der traditionellen Terminologie nicht zu der falschen
Assoziation einer zeitlichen Reihenfolge oder gar einer kausalen Beziehung hin-
4.1 Univariate multiple Regression
R07
2
reißen lassen.
Unter einer Linearkombination ist hier natürlich eine Linearkombination im statistischen Sinn zu verstehen, nicht etwa eine im Sinn der linearen Algebra; gesucht
P
sind also Koeffizienten bj und eine additive Konstante a, so dass
bj xj + a eine
möglichst gute Vorhersage darstellt.
Fasst man die Koeffizienten bj zu einem p-Vektor b zusammen, so kann man die
Aufgabe auch so formulieren, dass ein Vektor b und eine Zahl a gesucht sind, so
dass
ŷ = b0 x + a
als Vorhersage optimal ist.
Das Wort optimal‘ ist allerdings noch zu präzisieren, damit die Forderung über’
haupt einen Sinn erhält. Die Präzisierung ist dabei natürlich – entsprechend der
Methode der kleinsten Quadrate im Deskriptiven – die, dass der Erwartungswert der quadrierten Abweichung e der Variable y von der Vorhersage ŷ minimal
werden soll.
Zu einer gegebenen Vorhersage ŷ = b0 x + a ist der Fehler – oft auch Residuum
genannt – also definiert als
e = y − ŷ = y − b0 x − a ,
und das Ziel ist, durch geeignete Wahl von b und a den Erwartungswert E(e2 )
zu minimieren.
Es gilt nun bekanntlich
E(e2 ) = V(e) + (E(e))2 ,
und man kann daher versuchen, die Minimierungsaufgabe in zwei Teile zu zerlegen, nämlich in die, die beiden Summanden auf der rechten Seite dieser Gleichung
zu minimieren.
Dabei hängt der erste Summand (wie sich gleich zeigen wird) nicht von der additiven Konstante a ab, und man erhält daher ein Minimum von E(e2 ), indem
man zunächst durch eine geeignete Wahl von b den ersten Summanden V(e)
minimiert, und dann durch eine geeignete Wahl von a dafür sorgt, dass der zweite Summand (E(e))2 gleich 0 wird – dieser Summand, der ja ein Quadrat ist,
ist nämlich offenbar nichtnegativ, so dass ein kleinerer Wert als 0 nicht erzielt
werden kann.
4.1 Univariate multiple Regression
R07
3
Der zweite, einfachere Schritt soll schon vorgezogen werden. Der Erwartungswert
von e ist
E(y − b0 x − a) = E(y) − b0 E(x) − a
was offenbar genau durch
a = E(y) − b0 E(x)
zu Null gemacht wird. Die optimale Vorhersagegleichung hat daher die Eigenschaft, dass man, setzt man E(x) als Wert für x ein, als Vorhersage E(y) erhält:
b0 E(x) + a = b0 E(x) + E(y) − b0 E(x) = E(y) .
Für den Erwartungswertvektor von x wird also der Erwartungswert von y vorhergesagt. Die in diesem Schritt erfüllte Forderung E(e) = 0 entspricht auch genau
dem, was man von einem Fehler erwartet.
Es bleibt der erste Schritt zu erledigen. Hierzu sollen zunächst einige Bezeichnungen eingeführt werden. Die Kovarianzmatrix der aus x und y zusammengesetzten
Variablen (x, y) (eigentlich (x0 , y)0 ) soll sogleich geeignet partitioniert werden,
indem am jeweiligen Ende die zu y gehörende Zeile und Spalte abgetrennt werden. Die Teile der entstehenden partitionierten Matrix sollen folgendermaßen
abgekürzt werden:
¶
µ
K k
,
k0 κ
wobei wegen der Symmetrie der gesamten Matrix der erste Teil der letzten Zeile
der transponierte erste Teil der letzten Spalte ist, die Bezeichnung k0 dafür also
korrekt ist. Ausgeschrieben gilt also
K = V(x) ,
k = C(x, y) ,
κ = V(y) .
Offenbar kann man nun e auch schreiben als
µ ¶
¡ 0 ¢ x
e = −b 1
−a,
y
weshalb sich die Varianz von e nach den Regeln über partitionierte Matrizen
berechnet zu
µ
¶µ ¶
¡ 0 ¢ K k
−b
V(e) = −b 1
0
k κ
1
µ
¶
¡
¢ −Kb + k
= −b0 1
−k0 b + κ
= b0 Kb − b0 k − k0 b + κ ,
4.1 Univariate multiple Regression
R07
4
was wegen b0 k = k0 b auch
V(e) = b0 Kb − 2 b0 k + κ
geschrieben werden kann.
Es soll gleich noch der Vektor der Kovarianzen von x und e ausgerechnet werden;
für C(x, e) (dies ist ein p-Vektor) ergibt sich
C(x, e) = C(x, y − b0 x − a) = C(x, y) − C(x, x)b = k − Kb .
Es liegt die Vermutung nahe, dass dieser Vektor gleich 0 sein muss, denn würde
der Fehler noch mit irgendeinem Prädiktor korrelieren, so könnte man womöglich
einen zusätzlichen Teil des Fehlers durch eine modifizierte Vorhersage erklären‘.
’
Es soll daher allgemein berechnet werden, wie sich die Varianz des Fehlers ändert,
wenn man die Vorhersagegewichte etwas modifiziert. Die Modifikation soll darin
bestehen, dass zu b noch das h-fache eines Vektors d hinzuaddiert wird, wobei
die Wahl von d und h zunächst noch offen bleibt.
Ersetzt man also in der Formel für die Varianz von e den Vektor b durch b + hd,
so erhält man für die Varianz des neuen Fehlers, der jetzt zur Unterscheidung e1
heißen soll, den Wert
V(e1 ) = (b + hd)0 K(b + hd) − 2 (b + hd)0 k + κ
= b0 Kb + hb0 Kd + hd0 Kb + h2 d0 Kd − 2 b0 k − 2h d0 k + κ
= b0 Kb − 2 b0 k + κ + h2 d0 Kd + 2h d0 Kb − 2h d0 k
= V(e) + h2 d0 Kd − 2h d0 (k − Kb) ,
wobei an einer Stelle d0 Kb = b0 Kd benutzt wurde, was sofort durch Transponieren aus der Symmetrie von K folgt. Man beachte, dass in der letzten Klammer
der Vektor k − Kb der Kovarianzen von x und e auftaucht.
Die Varianzen von e1 und e unterscheiden sich also um h2 d0 Kd − 2h d0 (k − Kb).
Nun soll gezeigt werden, dass diese Differenz bei geeigneter Wahl von h und d
kleiner als Null werden kann, wenn C(x, e) = k − Kb nicht 0 ist. Wenn dies
gezeigt ist, folgt sofort, dass bei der optimalen Lösung C(x, e) = k − Kb gleich 0
sein muss, denn sonst ließe sich die Varianz des Fehlers ja noch weiter verkleinern.
Um die gerade aufgestellte Behauptung zu beweisen, setzt man zunächst d =
k − Kb. Dies ist nach Voraussetzung nicht 0, weshalb dann d0 d als quadrierte
4.1 Univariate multiple Regression
R07
5
Länge von d größer als 0 ist. Der untersuchte Ausdruck lässt sich jetzt schreiben
als
h2 d0 Kd − 2h d0 (k − Kb) = h2 d0 Kd − 2h d0 d ,
und es ist noch h geeignet zu wählen. Ist nun einerseits d0 Kd = 0 (was übrigens
nicht möglich ist, wie eine genauere Untersuchung zeigt), so wählt man h = 1,
um ein echt negatives Ergebnis zu erhalten; ist andererseits d0 Kd 6= 0, so ist
es sogar größer als Null, da ja K = V(x) positiv semidefinit ist, und man kann
h = d0 d/d0 Kd wählen und erhält insgesamt mit
(d0 d/d0 Kd)2 d0 Kd − 2(d0 d/d0 Kd)d0 d = −(d0 d)2 /d0 Kd
einen Wert, der kleiner als 0 ist.
Damit ist eine Bedingung gefunden, die eine optimale Lösung erfüllen muss,
nämlich die, dass die Kovarianzen des Fehlers mit den Komponenten von x alle
gleich 0 sein müssen. Wegen C(x, e) = k − Kb kann man diese Bedingung nun
auch schreiben als
Kb = k .
Man hat also ein lineares Gleichungssystem für das gesuchte b gefunden. Diese
Gleichungen nennt man auch die Normalengleichungen; die Koeffizientenmatrix
ist K = V(x), also die Kovarianzmatrix der Prädiktoren, während die rechte Seite
k = C(x, y) der Vektor der Kovarianzen der Prädiktoren mit dem Kriterium ist.
Man kann die Normalengleichungen alternativ also auch als
V(x) b = C(x, y)
schreiben.
Der Ausdruck Normalengleichungen‘ leitet sich von der Tatsache ab, dass diese
’
Gleichungen die Unkorreliertheit des Fehlers mit den Prädiktoren zum Ausdruck
bringen; geometrisch entspricht der Unkorreliertheit ja die Orthogonalität und
das Wort normal‘ wird in manchen Situationen gebraucht, um einen Vektor zu
’
kennzeichnen, der senkrecht auf gewissen anderen Vektoren steht.
Es stellt sich sofort die Frage, ob die Normalengleichungen lösbar sind, und ob
eine Lösung tatsächlich auch zu einer minimalen Fehlervarianz führt.
Was die Lösbarkeit anlangt, so ist zunächst die Matrix
µ
¶
K k
k0 κ
4.1 Univariate multiple Regression
R07
6
als Kovarianzmatrix von (x, y) positiv semidefinit, und die Untersuchung solcher
Matrizen hat gezeigt, dass die Gleichung Kb = k tatsächlich immer eine Lösung
besitzt.
Ist K invertierbar (oder gleichbedeutend positiv definit), so ist die Lösung eindeutig und es gilt
b = K−1 k = (V(x))−1 C(x, y) .
Ist der Rang von K hingegen kleiner als die Zahl p der Prädiktoren, so gibt es
viele Lösungen, deren Eigenschaften noch genauer zu untersuchen sein werden.
Zuvor ist jedoch zu prüfen, ob eine Lösung der Normalengleichungen wirklich
auch eine optimale Lösung des Regressionsproblems ist. Betrachtet man zu diesem
Zweck die oben hergeleitete Beziehung
V(e1 ) = V(e) + h2 d0 Kd − 2h d0 (k − Kb)
zwischen den Varianzen des Fehlers e einer durch den Koeffizientenvektor b gegebenen Vorhersage und des Fehlers e1 der Vorhersage mit dem modifizierten
Koeffizientenvektor b + hd, setzt man voraus, dass b eine Lösung der Normalengleichungen ist, was ja gerade k − Kb = 0 bedeutet, und setzt man außerdem
h = 1, so erhält man
V(e1 ) = V(e) + d0 Kd .
Wegen der positiven Semidefinitheit von K = V(x) folgt, dass d0 Kd ≥ 0 ist, so
dass man insgesamt sieht, dass jede Änderung der durch eine Lösung b der Normalengleichungen gegebenen Koeffizienten zu einer weiteren Vorhersage führt,
die jedenfalls keine kleinere Fehlervarianz besitzt. Jede Lösung der Normalengleichungen liefert daher eine minimale Fehlervarianz.
Nun soll noch der Fall untersucht werden, dass die Normalengleichungen nicht
eindeutig lösbar sind, dass also die Kovarianzmatrix der p Prädiktoren nicht den
Rang p besitzt. Da die Normalengleichungen immer eine Lösung besitzen, bedeutet dies bekanntlich, dass es sogar sehr viele‘ Lösungen gibt, genauer bilden
’
die Lösungen einen ganzen affinen Unterraum der Dimension p − Rang(K), der
parallel ist zu Kern(K).
Dies bedeutet insbesondere, dass die Differenz zweier Lösungen ein Element von
Kern(K) ist, und dass man, wenn man zu einer Lösung ein Element aus Kern(K)
addiert, eine weitere Lösung erhält.
Sind nun b1 und b2 zwei Lösungen der Normalengleichungen, so gilt folglich
4.1 Univariate multiple Regression
R07
7
(b1 − b2 ) ∈ Kern(K) oder
K(b1 − b2 ) = 0 ,
was natürlich auch sofort aus Kb1 = k und Kb2 = k folgt. Sind ŷ1 und ŷ2 die zu
den beiden Lösungen gehörenden Vorhersagen, gilt also ŷi = b0i x + ai , wobei die
additiven Konstanten ai so gewählt sind, dass die Erwartungswerte der Fehler ei
gleich 0 sind, so folgt
ŷ1 − ŷ2 = b01 x + a1 − b02 x − a2 = (b1 − b2 )0 x + (a1 − a2 ) ,
weshalb die Varianz von ŷ1 − ŷ2 gleich
(b1 − b2 )0 K(b1 − b2 ) = 0
ist. Wegen ŷi = y − ei gilt außerdem
ŷ1 − ŷ2 = (y − e1 ) − (y − e2 ) = e2 − e1 ,
weshalb der Erwartungswert E(ŷ1 − ŷ2 ) = E(e2 − e1 ) = E(e2 ) − E(e1 ) = 0 ist.
Für die Differenz der ŷ1 − ŷ2 ist also sowohl die Varianz als auch der Erwartungswert gleich 0. Es folgt, dass diese Differenz gleich einer Konstanten ist (genauer:
fast sicher gleich einer Konstanten ist), und dass diese Konstante, die ja dann
mit dem Erwartungswert übereinstimmen muss, gleich 0 ist. Insgesamt gilt also
ŷ1 = ŷ2 (f.s.), die beiden Vorhersagen unterscheiden sich also nicht, wenn sie auch
oberflächlich – nach den Koeffizienten zu urteilen – unterschiedliche Form haben
mögen. Hier ist f.s.‘ natürlich die Abkürzung für fast sicher‘.
’
’
Im deskriptiven Fall sind die vorsichtigen Formulierungen ( f.s.‘) überflüssig, hier
’
folgt analog, dass die beiden Vorhersagen auf den für die Prädiktoren erhobenen Daten übereinstimmen. Es kann allerdings vorkommen, dass man für weitere
mögliche, jedoch nicht erhobene Werte der Prädiktoren unterschiedliche Vorhersagen erhält.
Die bisherigen Überlegungen sollen nun zusammengefasst werden. Zuvor soll die
benutzte Terminologie kurz rekapituliert werden.
Ausgangspunkt ist eine Situation, in der p Prädiktoren xj , zusammengefasst zu
einem Zufallsvektor x, und eine Kriteriumsvariable y gegeben sind; alle Variablen
sollen endliche Varianz besitzen. Das Regressionsproblem besteht darin, eine Linearkombination ŷ = b0 x + a der Prädiktoren zu finden, die den Erwartungswert
des quadrierten Fehlers e = y − ŷ minimiert. Gesucht ist also der Vektor b der p
Regressionsgewichte und die additive Konstante a.
4.1 Univariate multiple Regression
R07
8
Als Abkürzungen werden K = V(x) für die Kovarianzmatrix der Prädiktoren
und k = C(x, y) für den Vektor der Kovarinzen von x und y benutzt.
Feststellung 1. Das Regressionsproblem, eine Linearkombination ŷ = b0 x+a der
Prädiktoren zu finden, die den Erwartungswert des quadrierten Fehlers minimiert,
besitzt immer mindestens eine Lösung.
Lösungen sind dadurch charakterisiert, dass die Kovarianzen der Prädiktoren mit
dem Fehler alle 0 sind, und dass der zu E(x) gehörende Wert von ŷ gerade E(y)
ist (alternativ: dass E(e) = 0 ist).
Man erhält die Lösungen für b als Lösungen der Normalengleichungen
Kb = k
und die dazu gehörenden Lösungen für a als
a = E(y) − b0 E(x) .
Ist die Kovarianzmatrix K der Prädiktoren invertierbar (äquivalent: positiv definit), so ist die dann eindeutige Lösung durch b = K−1 k gegeben.
Ist K nicht invertierbar, so gibt es viele Lösungen der Normalengleichungen.
Sie unterscheiden sich jeweils um ein Element aus Kern(K). Für je zwei solche
Lösungen stimmen jedoch die zugehörigen Vorhersagen (f.s.) überein, wenn auch
die Regressionsgewichte und die additive Konstante verschieden sein mögen. ¤
In Zukunft sollen mit b und a nur noch die Koeffizienten und die additive Konstante bezeichnet werden, die zu einer optimalen Vorhersage ŷ gehören; auch die
Bezeichnung ŷ ist ab jetzt für optimale Vorhersagen reserviert (der Fall, dass mehrere Lösungen existieren, ist meist unkritisch, das ja die zugehörigen Vorhersagen
dann (f.s.) übereinstimmen).
Eine Lösung des Problems, eine optimale Vorhersage von y durch eine geeignete
Linearkombination der in x zusammengefassten xj zu finden, soll auch kurz als
Regression von y auf x bezeichnet werden.
Es soll noch kurz auf den Spezialfall eines Prädiktors eingegangen werden. Hier
hat die einzige Normalengleichung für das einzige Gewicht b die Form
V(x) b = Kov(x, y) ,
4.1 Univariate multiple Regression
R07
9
woraus sofort
Kov(x, y)
σ(y)
= ρ(x, y)
V(x)
σ(x)
folgt, wenn σ(x) und σ(y) die Streuungen von x und y sind.
b=
Zur Ergänzung seien kurz auch die Modifikationen für die empirische Situation
einer Stichprobe wiederholt. Hier sind nur Erwartungswerte durch Mittelwerte
und theoretische Kovarianzen und Varianzen durch empirische zu ersetzen. Im
Falle einer singulären Kovarianzmatrix der Prädiktoren stimmen verschiedene
optimale Vorhersagen für die erhobenen Daten überein, können sich jedoch für
weitere mögliche Daten unterscheiden.
Im empirischen Fall arbeitet man gelegentlich auch mit den korrigierten Stichprobenkovarianzen, die man ja erhält, wenn man die Summen der Produkte der
jeweiligen Abweichungen vom Mittelwert nicht durch n, sondern durch n − 1 teilt
(n ist der Stichprobenumfang). Bemerkenswert ist, dass man die gleiche Lösung
des Regressionsproblems bekommt, wenn man mit diesen Kovarianzen rechnet,
wie bei den unkorrigierten Kovarianzen. Die Normalengleichungen in den beiden
Fällen sind nämlich fast die gleichen; die für den korrigierten Fall erhält man
aus den unkorrigierten durch Multiplikation mit dem Faktor n/(n − 1), was an
den Lösungen nichts ändert. Wenn also auch die Formulierung der Normalengleichungen mit den korrigierten Kovarianzen zunächst wenig motiviert erscheint, so
führt sie doch zur korrekten Lösung des Regressionsproblems.
Eigenschaften der Lösung. In diesem Abschnitt geht es um Eigenschaften der
Lösung des Regressionsproblems. Auch hier sind die Sachverhalte für die empirische Situation weitgehend bekannt, weshalb sie jetzt für die theoretische Situation formuliert werden sollen. Die Unterschiede zwischen diesen beiden Situationen
erweisen sich dabei als unbedeutend. Es wird weiterhin die Terminologie des vorangehenden Abschnitts benutzt.
Zunächst sollen Erwartungswert und Varianz von ŷ bestimmt werden. Da der
Fehler Erwartungswert 0 besitzt, folgt aus y = ŷ + e über E(y) = E(ŷ) + E(e) die
Gleichung
E(ŷ) = E(y)
Die Varianz von ŷ ergibt sich daraus, dass ŷ eine Linearkombination der Prädiktoren ist, zu b0 Kb. Berücksichtigt man, dass b eine Lösung der Normalengleichungen Kb = k ist, so erhält man
V(ŷ) = b0 k ,
4.1 Univariate multiple Regression
R07
10
die Varianz von ŷ kann man also auch als Skalarprodukt des Koeffizientenvektors
b mit dem Vektor k der Kovarianzen von Prädiktoren und Kriterium berechnen.
Im Falle einer invertierbaren Matrix K ist b = K−1 k, woraus sich als weitere
Alternative V(ŷ) = k0 K−1 k ergibt.
Die Kovarianz von ŷ mit dem Fehler e berechnet sich zu
C(ŷ, e) = C(b0 x + a, e) = b0 C(x, e) = b0 0 = 0 ,
da ja die Kovarianzen der Prädiktoren mit dem Fehler alle 0 sind.
Da die Kovarianz von ŷ und e gleich 0 ist, folgt aus y = ŷ + e die übliche
Varianzzerlegung
V(y) = V(ŷ) + V(e) .
Damit ergibt sich die Fehlervarianz zu
V(e) = V(y) − V(ŷ) = V(y) − b0 k ,
und da konstruktionsgemäß E(e) = 0 ist, ist dies gleichzeitig der im Regressionsproblem zu minimierende Erwartungswert des quadrierten Fehlers, also gleich
E(e2 ).
Feststellung 2. Ist ŷ = b0 x + a Lösung des Regressionsproblems, so gilt
E(ŷ) = E(y)
und
V(ŷ) = b0 k
sowie
E(e) = 0
und
E(e2 ) = V(e) = V(y) − b0 k .
Ferner gilt die Varianzzerlegung
V(y) = V(ŷ) + V(e) . ¤
Man kann nun die Gleichung der Varianzzerlegung noch durch V(y) dividieren,
um so die Anteile der aufgeklärten Varianz‘ und der Residualvarianz‘ an der
’
’
Gesamtvarianz zu erhalten. Die Gesamtvarianz wird dabei gewissermaßen auf 1
standardisiert. Es ergibt sich die Gleichung
V(ŷ) V(e)
+
=1.
V(y) V(y)
Der Anteil der aufgeklärten Varianz, V(ŷ)/V(y), heißt auch Determinationskoeffizient. Er soll hier, da es um die theoretische Ebene geht, auch als P 2 bezeichnet
4.1 Univariate multiple Regression
R07
11
werden, wobei der Buchstabe P kein lateinisches P sondern ein großes griechisches
Rho ist, also das Gegenstück zu ρ (auf empirischer Ebene heißt der Determinationskoeffizient bekanntlich R2 ).
Wenn vom Determinationskoeffizient die Rede ist, soll immer vorausgesetzt sein,
dass V(y) 6= 0 ist, da ja sonst die Division durch V(y) nicht definiert ist.
Eine mögliche Formel für den Determinationskoeffizienten ist natürlich
P2 =
b0 k
,
V(y)
in der man für b0 k auch b0 Kb oder (bei regulärem K) auch k0 K−1 k schreiben
kann.
Im Spezialfall einer einzigen Prädiktorvariablen ist die Varianz von ŷ gleich
b Kov(x, y) = (Kov(x, y))2 /V(x), was man auch als (ρ(x, y))2 V(y) schreiben
kann. Der Determinationskoeffizient ist daher die quadrierte Korrelation ρ2 der
Variablen x und y.
Natürlich liegt der Determinationskoeffizient zwischen 0 und 1. Den minimalen
Wert 0 nimmt er genau dann an, wenn die Vorhersage die Varianz 0 hat, wenn also
die Vorhersage (f.s.) konstant ist, womit sie sozusagen wertlos ist. Der maximale
Wert von 1 wird hingegen dann erreicht, wenn die Fehlervarianz und damit E(e2 )
gleich 0 ist, wenn also der Fehler (f.s.) gleich Null ist, womit die Vorhersage
perfekt ist.
Der Fall, dass der Determinationskoeffizient gleich 0 ist, tritt dabei genau dann
ein, wenn alle Prädiktoren mit dem Kriterium die Kovarianz 0 besitzen (also –
in nicht ganz korrekter Formulierung – mit y unkorreliert sind). Der Determinationskoeffizient ist nämlich genau dann 0, wenn sein Zähler gleich 0 ist, der als
b0 Kb geschrieben werden kann. Da K positiv semidefinit ist, ist dies genau dann
der Fall, wenn Kb = 0 gilt, woraus die Behauptung folgt wegen Kb = k.
Die nächste Feststellung hält diese Eigenschaften fest.
Feststellung 3. Der Determinationskoeffizient P 2 = V(ŷ)/V(y) gibt den Anteil
der Varianz von y an, der durch die Regression auf x aufgeklärt wird.
Er liegt zwischen 0 und 1 und es gilt P 2 = 0 genau dann, wenn die Vorhersage ŷ
(f.s.) konstant ist, und P 2 = 1 genau dann, wenn die Vorhersage ŷ perfekt, das
heißt (f.s.) gleich y ist.
4.1 Univariate multiple Regression
R07
12
Der Fall P 2 = 0 tritt dabei genau dann ein, wenn alle Kovarianzen der Prädiktoren
mit y gleich 0 sind. ¤
Analoge Aussagen gelten natürlich für die Fehlervarianz, die zwischen 0 und V(y)
liegt, bei einer perfekten Vorhersage 0 ist und bei einer wertlosen Vorhersage V(y).
Für die Fehlervarianz gilt offenbar
V(e) = E(e2 ) = (1 − P 2 ) V(y) .
Diese Fehlervarianz heißt naheliegenderweise oft auch Schätzfehlervarianz und
die Fehlerstreuung auch Standardschätzfehler.
Interessant ist der Fall, dass die Prädiktoren sich in zwei untereinander unkorrelierte Teilmengen zerlegen lassen, da dann die Varianzaufklärung additiv ist. Hier
lassen sich außerdem die Regressionsgewichte aus zwei Einzelregressionen ohne
die jeweils anderen Prädiktoren bestimmen. Diese Eigenschaften sollen jetzt gezeigt werden.
Der Zufallsvektor x soll sich also jetzt aus zwei Teilvektoren x1 und x2 zusammensetzen als x = (x1 , x2 ), wobei jede Variable aus dem ersten Teilvektor mit jeder
aus dem zweiten unkorreliert ist, genauer also C(x1 , x2 ) = 0 gilt. Sind dann K1
und K2 die Kovarianzmatrizen von x1 und x2 und partitioniert man entsprechend
auch den Vektor b der Gewichte in (b1 , b2 ) und den Vektor k der Kovarianzen
von x mit y in (k1 , k2 ), so schreiben sich die Normalengleichungen als
µ
¶µ ¶ µ ¶
K1 0
b1
k1
=
,
0 K2
b2
k2
was mit Ausmultiplizieren zu
K 1 b1 = k 1
und
K2 b2 = k2
führt. Dies sind gerade die Normalengleichungen, die man erhalten hätte, wenn
man Regressionen von y auf x1 bzw. x2 durchgeführt hätte, ohne die jeweils andere Prädiktorengruppe überhaupt einzubeziehen. Daher ist b = (b1 , b2 ) genau
dann eine Lösung der Normalengleichungen der Regression von y auf x, wenn b1
und b2 Lösungen der Regressionen von y auf x1 und x2 sind.
Man kann also die Regressionsgewichte für x1 und x2 durch getrennte Regressionen auf x1 und x2 ermitteln; zur Ermittlung der additiven Konstante müssen
dann natürlich zuerst die beiden Teilergebnisse b1 und b2 zu b = (b1 , b2 ) zusammengesetzt werden.
4.1 Univariate multiple Regression
R07
13
Die Gewichtsvektoren getrennter Regressionen von y auf x1 und x2 sind also b1
und b2 , die einzeln aufgeklärten Varianzen folglich b01 k1 und b02 k2 . Die durch x
aufgeklärte Varianz ist hingegen
µ ¶
¡ 0
¢ k1
0
0
b k = b1 b2
= b01 k1 + b02 k2 .
k2
Damit ist in der Tat die durch x aufgeklärte Varianz gleich der Summe der durch
x1 und x2 in getrennten Regressionen aufgeklärten Varianzen.
Bezeichnet man noch die Determinationskoeffizienten der Regressionen von y auf
x1 , x2 und x mit P12 , P22 und P 2 , so folgt, wenn man die letzte Gleichung noch
durch V(y) dividiert, schließlich die Beziehung
P 2 = P12 + P22 .
Feststellung 4. Ist x = (x1 , x2 ) und gilt C(x1 , x2 ) = 0, so ist b = (b1 , b2 )
Vektor der Gewichte der Regression von y auf x genau dann, wenn b1 und b2
Vektoren der Gewichte der getrennten Regressionen von y auf x1 und x2 sind.
Die durch x aufgeklärte Varianz ist die Summe der durch x1 und x2 getrennt
aufgeklärten Varianzen und der Determinationskoeffizient für x ist die Summe
der Determinationskoeffizienten für x1 und x2 . ¤
Die Formulierung ist etwas umständlich, um auch die Möglichkeit singulärer Kovarianzmatrizen mit einzubeziehen. Ganz analog wird der Fall behandelt, in dem
sich die Prädiktoren in mehrere untereinander unkorrelierte Gruppen einteilen
lassen. Der Extremfall ist der, in dem alle Prädiktoren unkorreliert sind (man beachte, dass die Determinationskoeffizienten bei einfachen linearen Regressionen
gerade die quadrierten Korrelationen sind):
Feststellung 5. Sind die Variablen xi alle unkorreliert, so setzt sich der Vektor b = (b1 , . . . , bp )0 der Gewichte der Regression von y auf x = (x1 , . . . , xp )0
zusammen aus den Gewichten bi einfacher linearer Regressionen von y auf die xi .
Die durch x aufgeklärte Varianz ist die Summe der durch die xi getrennt aufgeklärten Varianzen und für den Determinationskoeffizienten P 2 gilt
X
P2 =
ρ2i ,
wo ρi die Korrelationen der xi mit y sind. ¤
4.1 Univariate multiple Regression
R07
14
Unter der Voraussetzung, dass die Varianz von ŷ nicht 0 ist, kann man auch die
Korrelation von y und ŷ berechnen. Zu diesem Zweck benötigt man zunächst die
Kovarianz, die sich, da die Kovarianz von ŷ und e gleich 0 ist, zu
Kov(y, ŷ) = Kov(ŷ + e, ŷ) = Kov(ŷ, ŷ) + Kov(e, ŷ) = V(ŷ) + 0 = V(ŷ)
berechnet. Hieraus ergibt sich für die Korrelation
s
Kov(y, ŷ)
V(ŷ)
V(ŷ) √ 2
ρ(y, ŷ) = p
=p
=
= P =P ,
V(y)
V(y)V(ŷ)
V(y)V(ŷ)
√
wobei P natürlich als P 2 definiert ist. Die Korrelation der optimalen Vorhersage
mit y ist also gleich der Wurzel aus dem Determinationskoeffizienten. Man nennt
daher P auch die multiple Korrelation von y und x.
Diese multiple Korrelation ist übrigens auch die maximale Korrelation, die irgendeine Linearkombination der xj mit y betragsmäßig besitzen kann, was nun
kurz gezeigt werden soll. Es sei dazu z eine beliebige Linearkombination der xj .
Eine einfache lineare Regression von y auf z liefert eine Vorhersage ŷ1 = b1 z + a1 ;
der zugehörige Fehler sei e1 . Ist die Korrelation zwischen y und z gleich ρ, so
ist der Determinationskoeffizient für diese einfache Regression gleich ρ2 und die
Fehlervarianz und damit E(e21 ) gleich (1 − ρ2 ) V(y). Da ŷ1 auch eine Linearkombination der xj ist, kann der Erwartungswert des quadrierten Fehlers e1 bei dieser
Vorhersage nicht kleiner sein als der Erwartungswert des quadrierten Fehlers e
bei der optimalen Vorhersage ŷ von y durch x. Da E(e2 ) aber gleich (1 − P 2 ) V(y)
ist, folgt
(1 − ρ2 ) V(y) ≥ (1 − P 2 ) V(y) ,
was mit einer einfachen Umformung die gewünschte Beziehung
ρ2 ≤ P 2
liefert.
Die Linearkombination, die die maximale Korrelation mit y hat, ist übrigens
auch bei invertierbarer Matrix K nicht eindeutig, da die Korrelation sich ja nicht
ändert, wenn eine der Variablen (hier die Linearkombination) mit einer positiven
Zahl multipliziert wird.
Zusammenfassend gilt:
Feststellung 6. Ist die Varianz von ŷ nicht 0, so ist die multiple Korrelation
P gleichzeitig die Korrelation von y und ŷ. Die Zahl P ist auch die maximale
Korrelation, die eine Linearkombination der xj mit y besitzen kann. ¤
4.1 Univariate multiple Regression
R07
15
Die Formulierung über die maximale Korrelation mag zunächst unbefriedigend
erscheinen, da in ihr negative Korrelationen nicht berücksichtigt zu sein scheinen. Wollte man diesen Fall auch explizit berücksichtigen, so würde die Formulierung an Eingängigkeit verlieren (es müsste etwa heißen: P ist das Maximum
der Beträge der Korrelationen von beliebigen Linearkombinationen der xj mit
y). Erinnert man sich jedoch, dass die Korrelation nur ihr Vorzeichen wechselt,
wenn man eine der Variablen (hier die Linearkombination) mit −1 multipliziert,
so erkennt man, dass die Formulierung in der Feststellung auch impliziert, dass
keine Korrelation einer Linearkombination der xj mit y kleiner als −P werden
kann, womit auch der negative Fall abgedeckt ist.
Es dürfte schließlich auch für diesen Abschnitt klar (und bekannt) sein, dass ganz
analoge Feststellungen auch im empirischen Fall gelten.
Alle Aussagen gelten im empirischen Fall übrigens auch, wenn man einheitlich mit
den korrigierten Stichprobenkovarianzen rechnet (was das inhaltlich auch immer
bedeuten mag). Die Determinationskoeffizienten sind jedenfalls wieder für beide
Rechnungen die gleichen, da sich der Korrekturfaktor hier wegkürzt (auch für
den Korrelationskoeffizienten erhält man ja bekanntlich dasselbe Ergebnis beim
Rechnen mit unkorrigierten und korrigierten Kennwerten).
Transformationen. Es kommt gelegentlich vor, dass man aus unterschiedlichen
Gründen die Prädiktoren durch geeignete Linearkombinationen ersetzt; ebenso
kann es sein, dass das Kriterium linear transformiert wird. Manchmal erachtet
man es beispielsweise als sinnvoll, die Prädiktoren so abzuändern, dass sie danach
unkorreliert sind. Ein anderes Beispiel ist die Standardisierung.
In diesem Abschnitt soll untersucht werden, welche Auswirkungen solche Transformationen auf die Regression haben.
Leicht abzuhandeln ist zunächst der Fall, dass das Kriterium y linear transformiert wird. Statt y soll also jetzt eine lineare Transformation u = cy + d durch
die Prädiktoren optimal vorhergesagt werden; sinnvollerweise ist dabei c 6= 0
vorauszusetzen. Beispiele sind der Übergang zu einer anderen Skala (mm statt
cm oder Fahrenheit-Grade statt Celsius-Grade) oder auch die z-Transformation
z = (y − E(y))/σ = (1/σ)y − E(y)/σ (σ ist hier natürlich die Streuung von y).
Im Vergleich zur Ausgangssituation ändern sich der Vektor der Kovarianzen und
der Erwartungswert des Kriteriums. Der Vektor der Kovarianzen ist
C(x, u) = C(x, cy + d) = c C(x, y) = c k ,
4.1 Univariate multiple Regression
R07
16
während der Erwartungswert von u gleich c E(y) + d ist. Schreibt man für den
neuen Vektor der Vorhersagegewichte nun b1 und für die neue additive Konstante
a1 , während b und a ihre Bedeutung als Koeffizienten für die Vorhersage von y
behalten, so lauten die neuen Normalengleichungen
Kb1 = c k ,
und man sieht sofort, dass sie wegen Kb = k beispielsweise durch b1 = c b gelöst
werden. Die neue additive Konstante a1 ergibt sich dann zu
a1 = E(u) − b01 E(x) = c E(y) + d − c b0 E(x) = c(E(y) − b0 E(x)) + d = ca + d .
Damit ist û = b01 x + a1 = c b0 x + c a + d = c ŷ + d Lösung des neuen Regressionsproblems. Es dürfte keine große Überraschung sein, dass dies gerade die analog
transformierte alte Vorhersage ist.
Es ist nicht zu erwarten, dass die neue Lösung schlechter ist als die alte, und
in der Tat ändert sich beispielsweise der Determinationskoeffizient nicht, da sich
die Varianzen von u und û im Vergleich zu denen von y und ŷ jeweils um den
Faktor c2 ändern, der sich dann bei der Bildung des Determinationskoeffizienten
weghebt. Der Erwartungswert des quadrierten Fehlers ändert sich hingegen, und
zwar um den Faktor c2 , da der neue Fehler gerade das c-fache des alten ist.
Feststellung 7. Ist ŷ = b0 x + a Regression von y auf x und ist u = c y + d, so
ist
û = c ŷ + d = (c b)0 x + c a + d
Regression von u auf x. Für die Regression von u auf x ist also c b ein möglicher
Koeffizientenvektor und c a + d die zugehörige additive Konstante. Die Determinationskoeffizienten der beiden Regressionen sind gleich. ¤
Interessanter ist der Fall, dass man die ursprünglichen Variablen xj äquivalent
durch geeignete Linearkombinationen ersetzt – genauer soll auf Prädiktorseite
eine Variablentransformation durchgeführt werden.
Diese Variablentransformation sei wie üblich gegeben durch ihre Koeffizientenmatrix G und den Konstantenvektor h. Die Matrix G enthält in den Spalten
die Koeffizienten zur Bildung der neuen Variablen als Linearkombinationen der
alten; sie soll invertierbar sein. Nennt man die neuen Variablen vj und stellt sie
zu einem Vektor v zusammen, so gilt
v = G0 x + h
4.1 Univariate multiple Regression
R07
17
mit der Umkehrung
x = G0−1 (v − h) = G0−1 v − G0−1 h ,
die das ursprüngliche x wieder aus v zurückgewinnt.
Es soll also jetzt das Problem untersucht werden, y durch v optimal vorherzusagen, wo v = G0 x + h ist mit einer invertierbaren Matrix G.
Zunächst werden die für die neue Situation nötigen Matrizen und Vektoren bestimmt. Die Kovarianzmatrix von v ist G0 KG, der Erwartungswert ist E(v) =
G0 E(x) + h, und die Kovarianzen von v und y errechnen sich zu
C(v, y) = C(G0 x + h, y) = G0 C(x, y) = G0 k .
Der Koeffizientenvektor und die additive Konstante der Regression von y auf v
sollen mit b1 und a1 bezeichnet werden, während b und a ihre Bedeutung von
der Regression von y auf x behalten.
Die neuen Normalengleichungen lauten dann
G0 KGb1 = G0 k .
Multiplikation mit G0−1 von links ergibt die wegen der Invertierbarkeit von G0−1
äquivalente Gleichung
KGb1 = k ,
für die b1 = G−1 b eine mögliche Lösung ist, da
KG(G−1 b) = Kb = k
gilt.
Das zugehörige a1 errechnet sich nun zu
a1 = E(y) − b01 E(v)
= E(y) − (G−1 b)0 (G0 E(x) + h)
= E(y) − b0 E(x) − b0 G0−1 h
= a − b0 G0−1 h .
Es lässt sich also aus einer Lösung des alten Regressionsproblems eine des neuen
gewinnen.
4.1 Univariate multiple Regression
R07
18
Man könnte nun alternativ auf den Gedanken kommen, dass man eine Lösung
des neuen Problems dadurch erhält, dass man einfach durch Einsetzen die alte
Lösung in die neuen Variablen umrechnet. Dieser Ansatz führt zu der Vorhersage
b0 x + a = b0 (G0−1 (v − h)) + a = (G−1 b)0 v + a − b0 G0−1 h ,
die tatsächlich die gleiche ist, wie die zuvor auf dem formalen Weg gewonnene (es
handelt sich hier übrigens um das bekannte Umschreiben einer Linearkombination
auf transformierte Variablen). Insbesondere ist die Vorhersage ŷ bei der alten
und bei der neuen Regression die gleiche, was bedeutet, dass auch der Fehler der
gleiche ist, und dass sich daher weder die Fehlervarianz noch der Erwartungswert
des quadrierten Fehlers noch der Determinationskoeffizient ändern.
Eine einfache Zusatzüberlegung zeigt übrigens, dass man sich die erste Alternative hätte ersparen können; man muss sich nämlich nur klar machen, dass die auf
v umgerechnete ursprüngliche Regression ihre Optimalitätseigenschaften auch
unter konkurrierenden Linearkombinationen der vk behält, denn solche Linearkombinationen sind ja gleichzeitig solche der xj .
Feststellung 8. Ist ŷ = b0 x + a Regression von y auf x und ist v = G0 x + h mit
einer invertierbaren Matrix G, so ist ŷ, umgeschrieben zu
ŷ = (G−1 b)0 v + a − b0 G0−1 h
auch Regression von y auf v. Für die Regression von y auf v ist also G−1 b ein
möglicher Koeffizientenvektor und a−b0 G0−1 h die zugehörige additive Konstante.
Die Determinationskoeffizienten der beiden Regressionen sind gleich, ebenso die
Fehler. ¤
Es soll noch einmal hervorgehoben werden, dass es sich sowohl im Falle der
Transformation auf Seiten des Kriteriums als auch im Falle der auf Seiten der
Prädiktoren im Grunde nicht um wirklich neue Regressionen handelt, sondern
nur um eine Umrechnungen der alten Regression auf die neuen Situationen.
Als ein Beispiel soll die Standardisierung dienen. Hier geht es darum, wie eine
neue Regression aussieht, wenn man alle Variablen durch ihre z-Transformierten
ersetzt.
Für derartige Situationen ist es sinnvoll eine neue Notation einzuführen. Es dürfte
hier nichts schaden, wenn man auf theoretischer Ebene und auf empirischer Ebene
die gleiche Symbolik verwendet, weshalb nun immer von Variablen die Rede sein
soll.
4.1 Univariate multiple Regression
R07
19
Ist zunächst x eine p-dimensionale Variable, so soll die (p×p)-Diagonalmatrix, deren Diagonalelemente die Varianzen von x sind, hier kurz Vx heißen. Die Matrix,
die entsprechend statt der Varianzen die Streuungen enthält, soll die Bezeichnung
1/2
Vx bekommen; diese Bezeichnung stammt daher, dass diese Matrix ja entsteht,
indem aus allen Diagonalelementen von Vx die Wurzeln gezogen werden. Außerdem überzeugt man sich sofort von der Richtigkeit der Gleichung
¡ 1/2 ¢2
Vx
= Vx ,
1/2
so dass man Vx
mit Recht als Wurzel von Vx bezeichnen könnte.
Hat die Variable x beispielsweise die Kovarianzmatrix


25 12 2
V(x) = 12 9 3 ,
2 3 4
so ergibt sich

25 0 0
Vx =  0 9 0
0 0 4

5 0 0
= 0 3 0  .
0 0 2


und
Vx1/2
−1/2
Sind alle Streuungen von Null verschieden, so soll analog mit Vx
die Diagonalmatrix bezeichnet werden, die in der Diagonale die Kehrwerte der Streuungen
enthält. Im Beispiel ist dann


1/5 0
0
Vx−1/2 =  0 1/3 0  .
0
0 1/2
Man überzeugt sich im Beispiel und allgemein leicht davon, dass dann
¡ 1/2 ¢−1
¡ −1/2 ¢2
Vx
= Vx−1/2
und
Vx
= Vx−1
gilt, was den aus dem Eindimensionalen bekannten Potenzregeln entspricht. Die
Bezeichnungen erweisen sich in dieser Hinsicht also als gerechtfertigt.
Führt man nun mit allen in x zusammengefassten Variablen eine z-Transformation
durch und fasst die Ergebnisse zu einem Vektor z zusammen, so kann man diese Operation folgendermaßen schreiben (hier als Beispiel auf der theoretischen
Ebene – empirisch geht alles ganz analog):
z = Vx−1/2 (x − E(x)) = Vx−1/2 x − Vx−1/2 E(x) .
4.1 Univariate multiple Regression
R07
20
Die Gesamtoperation ist also eine affine Transformation.
Die Kovarianzmatrix von z – und dies ist ja gleichzeitig die Korrelationsmatrix
von x – ist daher gleich
V(z) = Vx−1/2 V(x)Vx−1/2
−1/2
(man beachte, dass Vx
symmetrisch ist).
Nun soll es darum gehen, bei einer Regression sowohl die Prädiktoren als auch das
Kriterium einer z-Transformation zu unterwerfen. Die ursprüngliche Regression
sei y = b0 x+a. Die z-transformierten Prädiktoren seien wie eben zu z zusammengefasst, während das z-transformierte Kriterium mit u bezeichnet sei. Ist σy die
Streuung von y, so gilt u = (1/σy )(y −E(y)) = (1/σy )y −(1/σy )E(y), und mit den
Feststellungen 7 und 8 errechnet sich der neue Vektor der Regressionsgewichte zu
(1/σy )(Vx−1/2 )−1 b = (1/σy )Vx1/2 b .
Wie man sieht, erhält man das neue Regressionsgewicht von zj , indem man das
Regressionsgewicht bj von xj mit der Streuung von xj multipliziert und durch die
Streuung von y teilt. Ist σxj die Streuung von xj , so ist dieses Gewicht also
σxj
bj .
σy
Bekanntlich bezeichnet man diese standardisierten Gewichte‘ gelegentlich auch
’
als β-Gewichte.
1/2
Der Vektor (1/σy )Vx b der Gewichte im standardisierten Fall soll daher hier
auch β genannt werden, seine Komponenten entsprechend βj .
Interessant ist auch, wie die neuen Normalengleichungen aussehen. Ist wieder K
die Kovarianzmatrix von x und k der Vektor der Kovarianzen von x und y, so ist
−1/2
−1/2
die Kovarianzmatrix Vx KVx
von z gleichzeitig die Korrelationsmatrix von
−1/2
x, und der Vektor der Kovarianzen von z und u errechnet sich zu (1/σy )Vx k
und erweist sich damit gleichzeitig als Vektor der Korrelationen zwischen x und
y.
Bei den neuen Normalengleichungen ist damit die Koeffizientenmatrix die Korrelationsmatrix von x, während die rechte Seite der Vektor der Korrelationen von
x und y ist.
Bezeichnet man die Korrelationsmatrix von x mit P (Rho) und den Vektor der
Korrelationen zwischen den Prädiktoren und dem Kriterium mit ρ, so lauten die
4.1 Univariate multiple Regression
R07
21
standardisierten Normalengleichungen, die jetzt einen Zusammenhang zwischen
den Korrelationen und den β-Gewichten herstellen
Pβ = ρ ,
mit der Umkehrung β = P−1 ρ (für invertierbares P).
Natürlich ist die additive Konstante bei der Regression nach Standardisierung
gleich 0, da ja alle Variablen nun Erwartungswert 0 haben.
Als kleine Anwendung kann nun der Determinationskoeffizient P 2 mit Hilfe von β,
ρ und P ausgedrückt werden. Da sich bei den durchgeführten Transformationen
der Determinationskoeffizient nicht ändert, ist P 2 gleich dem Determinationskoeffizienten für die transformierten Variablen. Da u jedoch standardisiert ist, ist
die relative aufgeklärte Varianz hier gleich der nicht relativierten, und man erhält
mit den bekannten Formeln insgesamt
P 2 = β 0 ρ = β 0 Pβ = ρ0 P−1 ρ ,
die letzte Gleichheit natürlich nur für reguläres P.
Im empirischen Fall lauten die entsprechenden Gleichungen, wenn R die Korrelationsmatrix der Prädiktoren ist und r der Vektor der Korrelationen der Prädiktoren mit dem Kriterium, und wenn ferner β auch in diesem Fall den Vektor der
standardisierten Gewichte bezeichnet, folgendermaßen:
R2 = β 0 r = β 0 Rβ = r0 R−1 r ,
die letzte Gleichheit nur für invertierbares R.
Ein Sonderfall ist der von unkorrelierten Prädiktoren. Dann ist die Korrelationsmatrix der Prädiktoren die Einheitsmatrix, und da dies auch die Koeffizientenmatrix der Normalengleichungen für den standardisierten Fall ist, folgt, dass
die standardisierten Regressionsgewichte gleich den entsprechenden Korrelationen der einzelnen Prädiktoren mit dem Kriterium sind.
Was die β-Gewichte im empirischen Fall angeht, so ist es übrigens gleichgültig, ob
die Berechnung mit den Streuungen oder den korrigierten Stichprobenstreuungen
durchgeführt wird, da sich die Korrekturfaktoren wegkürzen, so dass das Ergebnis
dasselbe ist.
Zur Interpretation. In diesem Zusammenhang ist vielleicht ein Wort zur Interpretation nicht überflüssig, insbesondere, da gelegentlich Äußerungen der Art zu
4.1 Univariate multiple Regression
R07
22
hören sind, im Gegensatz zu den ursprünglichen Gewichten seien die β-Gewichte
interpretierbar.
Ein solcher Satz ist zunächst solange sinnlos, wie nicht geklärt wird, was unter
Interpretierbarkeit‘ verstanden werden soll. Versteht man dies Wort in einem
’
anspruchslosen Sinn, so ist der Satz schlicht falsch, wie eine naheliegende Interpretation sogleich zeigen wird. Bei einem ambitionierteren Verständnis des
Wortes Interpretierbarkeit‘, bei dem kausale Assoziationen mitschwingen wie et’
wa: Interpretierbarkeit als Maß für die Größe eines Einflusses‘, bei einem solchen
’
Verständnis ist der Satz in dieser naiven Form blanker Unsinn. Dies Schicksal
teilt er mit vielen Rezepten für den Anwender, und es kann nur davor gewarnt
werden, solchen Maximen blindlings zu folgen.
Zunächst folgt aus der Form ŷ = b0 x + a sofort, dass sich die Vorhersage um bj
ändert, wenn sich xj um 1 ändert und alle anderen xk gleich bleiben, womit man
schon eine Interpretation von bj vor sich hat.
Auch diese an sich unmittelbar einleuchtende Aussage soll kurz begründet werden.
Sind x1 und x2 zwei mögliche Werte von x, die sich nur an der j-ten Stelle um 1
unterscheiden, so gilt x2 = x1 + ej . Die Differenz der Vorhersagen für x2 und x1
ist dann
(b0 x2 + a) − (b0 x1 + a) = b0 (x2 − x1 ) = b0 ej = bj .
Natürlich gilt entsprechend, dass sich die Vorhersage um c bj ändert, wenn sich
xj um c ändert und alle anderen xk gleichbleiben.
So richtig die eben gegebene Interpretation von bj ist, so bedenklich ist sie, wenn
sie nicht richtig verstanden wird. Eine Gefahr ist die, die Formulierung etwa in
der Weise misszuverstehen, als würde sie lauten: Wenn man xj um 1 ändert und
alle anderen xk konstant hält, so ändert sich die Vorhersage um bj . Man muss
hier nur noch Vorhersage‘ als so etwas wie das von Messfehlern freie y‘ missver’
’
stehen, um bei einer in keiner Weise zu rechtfertigenden kausalen Interpretation
anzukommen, wo der Koeffizient bj so etwas wie die Größe des Einflusses angibt.
Dass eine derartige unreflektierte kausale Interpretation absurd ist, sieht man
beispielsweise daran, dass man aus einer Gruppe irgendwie zusammenhängender
Variablen jede als Kriterium auswählen kann, also beispielweise auch eine, die von
den anderen auf keinen Fall beeinflusst werden kann, weil sie ihnen beispielsweise
zeitlich vorausgeht. Ein anderes Argument ist das, dass Regressionsgewichte sich
unter Umständen stark ändern können, wenn man Prädiktoren weglässt oder
andere Prädiktoren aufnimmt.
4.1 Univariate multiple Regression
R07
23
Es ist andererseits nicht ausgeschlossen, dass in der einen oder anderen Situation
eine Interpretation mit kausaler Färbung angemessen sein kann.
Dies kann beispielsweise dann so sein, wenn man aus Gründen, die außerhalb
der Statistik liegen, die Überzeugung hat, dass die Prädiktoren tatsächlich das
Kriterium bewirken. Dies reicht allerdings noch nicht aus, vielmehr muss man
zusätzlich fordern, dass alle Einflüsse eine lineare Form haben, also die Form der
Regressionsgleichung. Von einer Begründung für solche Annahmen möchte man
erwarten, dass sie reale Mechanismen aufzeigt, die den Rechenoperationen der
Addition und der Multiplikation entsprechen. Außerdem ist zu fordern, dass man
alle wesentlichen Einflussgrößen in den Prädiktoren erfasst hat (Anmerkung: Wo
nur gibt es so schöne Situationen?).
Aber selbst wenn man solche Voraussetzungen macht, ist eine Interpretation der
Regressionsgewichte als Indikatoren für die Größe des Einflusses nicht unproblematisch, wenn die Prädiktoren sich auch noch untereinander beeinflussen. Dann
wirken die Prädiktoren nämlich nicht nur direkt auf das Kriterium, sondern auch
noch indirekt auf dem Umweg über andere Prädiktoren. Nur der direkte Einfluss
wird dann durch den entsprechenden Regressionskoeffizienten erfasst, weshalb die
genannte Interpretation zweifelhaft ist.
Ein Indiz, dass derartige Einflüsse der Prädiktoren untereinander nicht auszuschließen sind, sind substantielle Korrelationen der Prädiktoren untereinander.
Dies mag ein Grund sein, weshalb Situationen, in denen die Prädiktoren mehr
als nur unbedeutende Interkorrelationen aufweisen, ziemlich unbeliebt sind (man
spricht hier von Multikollinearität‘). Man kann nun versuchen, auch Einflüsse
’
der Prädiktoren untereinander in geeigneten Modellen zu erfassen. Solche Modelle sind beispielsweise Pfadmodelle oder etwas fortgeschrittener‘ Strukturglei’
chungsmodelle. Leider unterstellt man dort für die weiteren Einflüsse ebenfalls
Linearität, so dass eine entscheidende Frage bei der Anwendung derartiger Modelle die ist, ob man die jetzt sogar akkumulierten Linearitätsannahmen noch für
tragbar hält.
Eine andere Situation, in der man an eine kausale Interpretation denken könnte,
wäre eine empirische, in der man die Werte der Prädiktoren in systematischer
Weise kontrolliert vorgegeben hat, und nur das Kriterium frei hat sich ergeben
lassen. Allerdings muss man auch dann an eine lineare Form des Einflusses glauben. Außerdem wird man in einer derartigen Situation zur Auswertung der Daten
wohl nicht zur multiplen Regression seine Zuflucht nehmen.
4.1 Univariate multiple Regression
R07
24
Wenn nun trotz dieser Überlegungen im Folgenden gelegentlich von Einflüssen‘
’
der Prädiktoren auf das Kriterium die Rede ist, so geschieht das nur mangels eines
besseren griffigen Ausdrucks. Die Leserin stelle sich entweder eine Situation vor, in
der eine Interpretation mit kausaler Färbung möglich ist, oder verstehe das Wort
ausschließlich im Sinne einer Abkürzung für die zuerst gegebene Interpretation.
Dass es problematisch ist, die Regressionsgewichte naiv als Indikatoren für die
Größe des Einflusses zu interpretieren, sieht man schon daran, dass sie von den
verwendeten Skalen abhängig sind. Bei einer Regression des sozialen Status auf
mehrere Prädiktorvariablen, unter denen auch die Körpergröße ist, ändert sich
das Gewicht der Körpergröße beispielsweise um den Faktor 1/1000, wenn man
von einer Angabe in Meter zu einer in Millimeter übergeht (dies ist ein einfacher
Fall einer Transformation auf Prädiktorseite).
Es ist also klar, dass eine Interpretation der Gewichte als Indikatoren für die
Größe des Einfluss nur dann sinnvoll ist, wenn die verwendeten Skalen und ihre
Einheiten mit erwähnt werden.
Oft tritt der Wunsch auf, die Wichtigkeit der Prädiktoren für die Regression zu
vergleichen. Der sich zu diesem Zweck anbietende Vergleich der Regressionsgewichte ist, wie die vorangehende Bemerkung zeigt, sicher bestenfalls dann für ein
solches Ziel tauglich, wenn die Skalen, auf denen die entsprechenden Prädiktoren
gemessen werden, in einem angemessenen Zusammenhang stehen.
Ein solcher Zusammenhang ist sicher dann nicht gegeben, wenn die Skalen nichts
miteinander zu tun haben. Beispielsweise könnte man neben der Körpergröße
zur Vorhersage des sozialen Status auch das Einkommen heranziehen (das man
ja auch – bei einem internationalen Vergleich – in unterschiedlichen Währungen
messen kann). Dass hier ein Vergleich der Regressionsgewichte unsinnig ist, leuchtet sofort ein.
Auch dann aber, wenn zwei Prädiktoren mit der gleichen Skala gemessen werden, ist ein direkter Vergleich von Regressionsgewichten nicht notwendigerweise
vernünftig, wenn er in vielen Situationen auch angemessen sein mag. Man nehme
als Beispiel eine Regression der Fähigkeit im Weitsprung auf die Körpergröße
und die Länge des großen Zehs (die sicher viel mit der Sprungkraft zu tun hat).
Misst man beide Längen in der gleichen Einheit, so wird dennoch ein Vergleich
der Regressionsgewichte womöglich in die Irre führen.
Zur Erläuterung sei angenommen, dass sich für die Körperlänge das Gewicht 10
4.1 Univariate multiple Regression
R07
25
und für die Zehlänge das Gewicht 30 ergeben habe – beide Längen und ebenso
die Sprungweite seien in Meter gemessen. Eine naive Interpretation wäre dann
die, dass der Einfluss der Zehlänge 3 mal so groß ist wie die der Körperlänge.
Liegen nun aber die Körperlängen normalerweise zwischen 1.5 m und 2 m und
die Zehlängen zwischen 3 cm und 7 cm, also zwischen .03 m und .07 m, so ist die
entsprechende Spannweite in den Vorhersagen bei der Körperlänge 10 · (.5 m) =
5 m und bei der Zehlänge 30 · (.04 m) = 1.2 m, womit man den Einfluss der
Körperlänge als größer werten würde – gegen den ersten durch die Gewichte
vermittelten Anschein. Die Rechnungen setzen natürlich hier voraus, dass jeweils
nur der eine Prädiktor variiert, während der andere konstant bleibt; dies wirft
auch auf die zweite Einschätzung ein schiefes Licht.
Beispiele wie das gerade behandelte führen zu der Idee, die unterschiedlichen
Skalen dadurch vergleichbar zu machen, dass man ihnen als natürliche‘ Einheit
’
eine gibt, die ihre statistischen Schwankung widerspiegelt. Am einfachsten ist es,
hierzu mit allen Variablen eine z-Transformation vorzunehmen, was gerade die
im letzten Abschnitt besprochene Standardisierung ist.
Vielleicht ist es nicht überflüssig, die anfangs gegebene Interpretation in Standardabweichungen umzuschreiben. Ist wieder bj das Gewicht des j-ten Prädiktors
und sind σy und σxj die Streuungen von y und xj , so führt eine Änderung des
j-ten Prädiktors um σxj (bei gleichbleibenden Werten der anderen Prädiktoren)
zu einer Änderung der Vorhersage um bj σxj = (σxj /σy ) bj σy , also um (σxj /σy ) bj
Streuungseinheiten von y. Das oben schon berechnete und gelegentlich mit βj bezeichnete standardisierte Regressionsgewicht (σxj /σy ) bj gibt also an, um wieviele
Standardabweichungen von y sich die Vorhersage ändert, wenn sich xj um eine
Standardabweichung ändert und alle anderen Prädiktoren gleich bleiben.
Es mag im ersten Moment so scheinen, als hätte man mit dieser Standardisierung
das Problem des Vergleichs der Bedeutung der Prädiktoren über die Regressionsgewichte gelöst. Dies mag für manche Situationen zutreffen, allgemein sind jedoch
drei Einwände zu machen.
Der erste Einwand betrifft die Frage, ob die Standardeinheiten tatsächlich natürliche Einheiten sind. Wenn dies nicht der Fall ist, fallen wesentliche Argumente für
die Standardisierung weg. Ein typisches Beispiel ist eine empirische Situation, in
der die Standardabweichungen der Prädiktoren womöglich weniger die Streuungen in der Population wiederspiegeln als vielmehr die Art der Stichprobenziehung
– beispielsweise dann, wenn nur bestimmte Gruppen, womöglich Extremgruppen
untersucht werden. Da unterschiedliche Prinzipien bei der Stichprobenziehung
4.1 Univariate multiple Regression
R07
26
dann im Allgemeinen zu unterschiedlichen β-Gewichten führen werden, ist ein
Vergleich über solche Gewichte in vielen Fällen sicher irreführend.
Der zweite Einwand betrifft wieder das Problem der mittelbaren Einflüsse auf
dem Umweg über andere Prädiktoren, die durch die Regressionsgewichte eben
nicht erfasst werden. Ein Hinweis darauf, dass in dieser Hinsicht ein Problem
bestehen könnte, sind bedeutsame Interkorrelationen der Prädiktoren, also die
schon angesprochene Multikollinearität.
Der dritte Einwand betrifft die Auswahl der Prädiktoren. Wie man sich leicht
an Beispielen klar macht, kann das Weglassen eines Prädiktors oder das Hinzufügen eines weiteren Prädiktors eine beträchtliche Änderung der anderen Regressionsgewichte zur Folge haben. Solche Änderungen sind wieder vor allem bei
Multikollinearität zu erwarten.
Von den drei Einwänden ist nur der erste ein Einwand, der für die β-Gewichte
spezifisch ist. Die anderen beiden Einwände treffen auch für Situationen zu, in
denen nicht standardisiert wurde.
Es sollte insgesamt klar geworden sein, dass es, was die Interpretierbarkeit von
Regressionsgewichten angeht, kein Patentrezept gibt oder geben kann, jedenfalls,
wenn man bei der Interpretation ambitioniertere Ziele verfolgt als das, das mit
der eingangs gegebenen Deutung schon erreicht wurde und das sich nur auf den
technischen Aspekt der optimalen Vorhersage‘ bezieht. Ohne eine genaue Analy’
se der jeweils vorliegenden Situation kann eine weitergehende Interpretation nicht
erfolgen.
Hat man die etwas vage Frage, was eine Variable mit anderen Variablen zu tun
hat, so hat man als Informationen einerseits die Kovarianzen zur Verfügung und
andererseits die Regressionsgewichte, die man erhält, wenn man die erste Variable
zum Kriterium einer Regression macht und die anderen zu den Prädiktoren. Bei
Standardisierung werden daraus die Korrelationen einerseits und die standardisierten Regressionsgewichte andererseits.
Ist K wieder die Kovarianzmatrix der Prädiktoren, k der Vektor der Kovarianzen
der Prädiktoren mit dem Kriterium und b der Vektor der Regressionsgewichte,
so gilt Kb = k bzw. b = K−1 k (wobei hier der Einfachheit halber eine reguläre
Kovarianzmatrix vorausgesetzt sei). Entsprechende Gleichungen gelten für Korrelationen und standardisierte Regressionsgewichte – man muss nur Matrix und
Vektor der Kovarianzen durch Matrix und Vektor der Korrelationen ersetzen und
4.1 Univariate multiple Regression
R07
27
den Vektor der Regressionsgewichte durch den der standardisierten Regressionsgewichte.
Für das wohl praktisch wichtigste Beispiel der standardisierten Regressionsgewichte und Korrelationen im empirischen Fall sollen die Gleichungen eigens aufgeschrieben werden: Wenn R die Korrelationsmatrix der Prädiktoren ist, r der
Vektor der Korrelationen zwischen Prädiktoren und Kriterium und β der Vektor der standardisierten Regressionsgewichte, so gelten (wieder bei invertierbarer
Korrelationsmatrix) die Beziehungen
Rβ = r
beziehungsweise
β = R−1 r .
An Beispielen sieht man leicht, dass dann oft das, was man aus b (bzw. β) herauslesen möchte, nicht mit dem harmoniert, was zu k (bzw. r) passt. Es kann
beispielsweise sein, dass ein Prädiktor mit dem Kriterium eine positive Korrelation hat, während das Regessionsgewicht negativ ist. Hat man nun einen positiven
oder einen negativen Zusammenhang? Ebenso kann die eine dieser Zahlen Null
sein, während die andere deutlich von Null verschieden ist. Derartige dem hoffnungsvollen Interpreten ärgerliche Phänomene treten besonders stark bei deutlicher Multikollinearität auf.
Erinnert man sich an das Prinzip der multiplen Regression, so wird das Problem
in vielen Fällen sofort verschwinden. Das Ziel der Regression ist es ja nicht, Zusammenhänge aufzudecken, schon gar keine kausalen, sondern nur eine optimale
Vorhersage‘ zu machen (man meide auch bei diesem Wort falsche Assoziationen).
’
Es besteht damit gar kein Anlass, b im Sinne eines Zusammenhangs interpretieren zu wollen.
Es gibt aber auch Fälle, in denen Anwender – hoffentlich auf Grund nichtstatistischer Argumente – daran glauben, dass eine linear-kausale Struktur vorliegt, die
sie dann hoffen mit Hilfe der Regression aufdecken zu können. Solche Anwender
werden natürlich, wenn ihr Glaube fest ist, nur den Regressionsgewichten trauen
und die Korrelationen als oberfächlichen Schein abtun. Auch hier tritt das Problem der Interpretationen nicht harmonierender Gewichte und Korrelationen also
gar nicht auf.
Bedauernswert ist nur der Anwender, der hin- und herschwankt und sich nicht
entscheiden kann, ob er nun die Regressionsgewichte in einem kausalen Sinn interpretieren will oder nicht. Ihm kann man nur raten, sich zunächst gründlich mit
den inhaltlichen Gegebenheiten auseinanderzusetzen – die Statistik kann ihm da-
4.1 Univariate multiple Regression
R07
28
bei leider nicht weiter helfen. Merkwürdigerweise erwarten manche Anwender an
solchen Stellen von der Statistik Wunderdinge, beispielsweise die Erlaubnis, sich
eigenes Nachdenken zu ersparen. Solche unrealistischen Erwartungen dürften in
vielen Fällen aus einem völlig unzulänglichen statistischen Verständnis resultieren.
Schließlich ist bei der Gegenüberstellung von Korrelationen und Regressionsgewichten noch daran zu erinnern, dass auch Korrelationen Zusammenhänge nur
insoweit erfassen, als sie linear sind, und dass natürlich auch Korrelation mit
Kausalität im allgemeinen Fall nichts zu tun hat.
Residuen und Partialkorrelationen. Häufig interessiert man sich nicht nur
für das, was man durch eine Regression vorhersagen kann, sondern auch für den
Fehler, der übrigbleibt. Bei der Deutung dieses Residuums trifft man oft auf
Vorstellungen der Art, dass es das sei, was übrig bleibt, wenn man das Kriterium
um den Einfluss der Prädiktoren bereinigt‘ habe.
’
Wieweit Assoziationen, die derartig blumige Sprechweisen hervorrufen, gerechtfertigt sind, bleibt einer Prüfung im Einzelfall vorbehalten. Hier sollen einige
Konzepte und Notationen, die von solchen Ideen motiviert sind, vorgestellt werden.
Will man verdeutlichen, welche Variablen zur Regression herangezogen wurden,
so fügt man sie meist nach einem Punkt an. Im Falle einer Regression von y auf
x, das aus x1 , . . . , xp zusammengesetzt ist, schreibt man beispielsweise für die
Schätzfehlervarianz, also die Varianz des Residuums
2
σy.x
1 ,...,xp
oder kurz
2
σy.x
.
Die Streuung wird entsprechend mit σy.x1 ,...,xp oder σy.x bezeichnet. Im empiri2
schen Fall schreibt man entsprechend Sy.x
etc..
1 ,...,xp
Ist P 2 (zur Erinnerung: Rho) der Determinationskoeffizient, so gilt also
2
σy.x
= σy2 (1 − P 2 ) ,
wobei für die Varianz von y hier die gut in den Kontext passende Bezeichnung
2
=
σy2 verwendet wird. Die entsprechende Formel für den empirischen Fall ist Sy.x
2
2
Sy (1 − R ).
Auch beim Determinationskoeffizienten möchte man Kriterium und Prädiktoren
oft kenntlich machen; man schreibt dann statt eines einfachen P 2 etwas ausführli2
2
.
, und analog im empirischen Fall Ry,x
cher Py,x
4.1 Univariate multiple Regression
R07
29
Oft tritt die Situation auf, dass man für zwei Variablen x und y Regressionen auf
dieselben Prädiktoren z durchführt (die Änderung der Benennung geschieht im
Hinblick auf die weitgehend üblichen Bezeichnungen in der gleich herzuleitenden
Formel). Die Korrelation der beiden Residuen nennt man dann auch Partialkorrelation und kürzt sie mit ρxy.z ab (empirisch: rxy.z ). Man spricht dann auch davon,
dass man z auspartialisiert.
Zur Herleitung einer Formel für die Partialkorrelation müssen zunächst einige Bezeichnungen eingeführt werden. Die Kovarianzmatrix V(z) der Prädiktoren soll
wieder K heißen und die zugehörige Korrelationsmatrix P (Rho); die Diagonalmatrix der Varianzen von z soll hier kurz V (statt Vz ) genannt werden. Da jetzt
zwei Regressionen durchgeführt werden, sollen die für die einzelnen Regressionen
üblichen Bezeichnungen mit der jeweiligen Kriteriumsvariable indiziert werden.
Der Vektor der Kovarianzen von x mit den Prädiktoren soll also kx genannt
werden, der Vektor der entsprechenden Korrelationen ρx und die Vektoren der
Regressionsgewichte bx und β x . Für die Regression von y auf z gelten analoge
Bezeichnungen mit dem Index y.
Zunächst wird nun die Kovarianz zwischen den Residuen bestimmt. Bis auf die
unwesentlichen Konstanten sind diese Residuen gleich
x − b0x z
und
y − b0y z .
Die Kovarianz errechnet sich dann zu
C(x − b0x z, y − b0y z) = C(x, y) − b0x C(z, y) − C(x, z)by + b0x C(z, z)by .
Hier ist C(x, y) = Kov(x, y), C(z, z) = K, C(z, y) = ky und C(x, z) = k0x . Setzt
man dies ein, so erhält man für b0x C(z, y) den Wert b0x ky = b0x Kby , was mit
dem letzten Summanden übereinstimmt. Für C(x, z)by erhält man mit k0x by =
(Kbx )0 y = b0x Kby den gleichen Wert, so dass man unter Berücksichtigung der
Vorzeichen als Kovarianz der Residuen insgesamt den Wert
Kov(x, y) − b0x Kby
bekommt.
Für die Varianzen der Residuen hatten sich oben als mögliche Formeln beispielsweise V(x) − b0x Kbx und V(y) − b0y Kby ergeben. Wie man sieht, ist die gerade
hergeleitete Formel für die Kovarianz diesen Formeln strukturell sehr ähnlich, was
natürlich nicht verwunderlich ist, da ja die Varianz einer Variable ihre Kovarianz
mit sich selber ist.
4.1 Univariate multiple Regression
R07
30
Die gesuchte Partialkorrelation errechnet sich nun als Quotient der Kovarianz
und des Produkts der Streuungen zu
Kov(x, y) − b0x Kby
q
.
V(x) − b0x Kbx V(y) − b0y Kby
ρxy.z = q
In diesem Ausdruck kann man noch eine der Ersetzungen
b0x Kby = b0x ky = k0x by = k0x K−1 ky
vornehmen (die letzte nur, wenn K invertierbar ist), und analog kann man für
die Terme b0x Kbx und b0y Kby im Nenner verfahren.
In den bisherigen Formeln wird mit Kovarianzen gerechnet. Manchmal möchte
man statt dessen jedoch Formeln mit Korrelationen haben. Solche Formeln gewinnt man beispielsweise durch einfache Umformungen.
Einfacher ist es jedoch, sich klar zu machen, dass sich die Partialkorrelation nicht
ändert, wenn man alle Variablen einzeln linear transformiert, wobei die Faktoren
der Transformationen allerdings positiv sein müssen. Solche Transformationen
bei den Prädiktorvariablen z führen ja keine Veränderung der Vorhersage herbei
(weshalb man hier auch multivariat affin transformieren könnte), während sich die
Vorhersagen x̂ und ŷ (abgesehen von den unwesentlichen additiven Konstanten)
mit dem jeweils gleichen Faktor ändern wie die Kriteriumsvariablen x und y
selber. Hieraus folgt, dass sich auch die Residuen um diesen jeweiligen Faktor
ändern. Bekanntlich ändert sich nun aber die Korrelation von zwei Variablen –
hier der Residuen – nicht, wenn man beide Variablen linear transformiert, falls
die Faktoren positiv sind.
Insgesamt folgt so, dass die Partialkorrelation der Variablen x und y bei auspartialisiertem z gleich bleibt, wenn man alle diese Variablen z-transformiert.
Man kann also in der gewonnenen Formel alle Varianzen, Kovarianzen und Regressionsgewichte durch die Varianzen, Kovarianzen und Regressionsgewichte der
z-transformierten Variablen ersetzen. Dabei sind jedoch die Varianzen der ztransformierten Variablen 1, während ihre Kovarianzen gleichzeitig die Korrelationen der ursprünglichen Variablen sind und die Regressionsgewichte die βGewichte. Insgesamt erhält man so die Formel
ρxy.z
ρxy − β 0x Pβ y
q
=q
,
1 − β 0x Pβ x 1 − β 0y Pβ y
4.1 Univariate multiple Regression
R07
31
in der man analog wieder Ersetzungen
β 0x Pβ y = β 0x ρy = ρ0x β y = ρ0x P−1 ρy
etc. vornehmen mag. Eine Alternativformel, in der auch noch berücksichtigt ist,
2
dass β 0x Pβ x gerade der Determinationskoeffizient Px,z
bei der Regression von x
auf z ist und analog für y, ist also beispielsweise
ρxy.z
ρxy − β 0x ρy
q
=q
.
2
2
1 − Px,z
1 − Py,z
Bei Berücksichtigung der Tatsache, dass bei einer einfachen linearen Regressionen
das β-Gewicht mit der Korrelation übereinstimmt, erhält man als Spezialfall für
eine auszupartialisierende Variable z die bekannte Formel
ρxy − ρxz ρyz
.
p
1 − ρ2xz 1 − ρ2yz
ρxy.z = p
Ein wichtiger Punkt ist nun wieder die Interpretation der Partialkorrelation. Hier
gibt es Sprechweisen wie die, dass die Partialkorrelation die um den Einfluss der
Drittvariable(n) bereinigte Korrelation ist.
Als Beispiel sollen hier die Schulleistungen in zwei Fächern dienen, die sicher
auch etwas mit dem Alter zu tun haben. Korreliert man die Leistungen über alle
Altersgruppen hinweg, so sollte sich eine deutlich positive Korrelation einstellen,
die jedoch womöglich dadurch hervorgerufen ist, dass ältere Kinder in beiden
Fächern deutlich bessere Leistungen zeigen als jüngere. Die hohe Korrelation ist
daher vielleicht wesentlich den Altersunterschieden zu danken, so dass der Wunsch
verständlich wird, den Einfluss des Alters auszuschalten, um so zum eigentlichen‘
’
korrelativen Zusammenhang zwischen den beiden Leistungen vorzudringen. Die
Erfüllung dieses Wunsches erhofft man sich oft von der Partialkorrelation – zu
Recht? Die gerade genannte Formulierung ist jedenfalls viel versprechend.
Bei dieser Formulierung liegt die Assoziation nahe, dass es sich bei der Partialkorrelation um die Korrelation handelt, die bestehen würde, wenn der Einfluss
der Drittvariable ausgeschaltet wird, also beispielsweise um die Korrelation bei
Konstanthaltung der Drittvariable. Es ist klar, dass solche Interpretationen durch
die Konstruktion in keiner Weise gedeckt sind, und es kann nur davor gewarnt
werden, derartige Formulierungen gedankenlos zu übernehmen.
4.1 Univariate multiple Regression
R07
32
Die Formulierung, die Partialkorrelation sei die Korrelation bei Konstanthaltung
der Drittvariablen, ist immerhin noch so präzise, dass man sie daraufhin untersuchen kann, ob – oder unter welchen Bedingungen – sie richtig ist. Daher soll
kurz genauer auf sie eingegangen werden.
Von der Korrelation von x und y bei konstant gehaltenen Drittvariablen z kann
man zunächst nur dann sprechen, wenn die Korrelation von x und y immer dieselbe ist, egal, welche Werte die Drittvariablen z annehmen. Davor ist allerdings
noch zu klären, was die Korrelation von x und y bei einem fixierten Wert von z
überhaupt sein soll.
Dies berührt das Thema der bedingten Verteilungen, dessen Behandlung im allgemeinen Fall, in dem die Drittvariablen auch stetig sein können, wegen der
benötigten mathematischen Hilfsmittel hier nicht einmal im Ansatz möglich ist.
In dem Fall hingegen, in dem die Drittvariablen diskret sind, also beispielsweise in
dem, in dem sie nur endlich viele Werte annehmen können, sollte die Bestimmung
bedingter Wahrscheinlichkeiten unter der Bedingung, dass z einen bestimmten
Wert annimmt, bekannt sein; die bedingten Verteilungen sind dann nur die Zusammenfassungen dieser bedingten Wahrscheinlichkeiten zu einem (bedingten)
Wahrscheinlichkeitsmaß. Auf Grund jeder dieser Verteilungen kann dann eine (bedingte) Korrelation bestimmt werden. Den allgemeinen Fall mit möglicherweise
stetigen Variablen mag man sich analog vorstellen.
Im Beispiel der Leistungen und des Alters könnte man beispielsweise das Alter in
diskreten Schritten angeben, also beispielsweise nur in vollen Jahren, und hätte
dann in jeder Altersgruppe eine gemeinsame Verteilung der beiden Leistungsvariablen und damit auch eine Korrelation. Offenbar kann es jetzt nur dann sinnvoll
sein, von der Korrelation bei konstant gehaltenem Alter zu sprechen, wenn alle
diese Korrelationen übereinstimmen.
Setzt man voraus, dass alle bedingten Korrelationen gleich groß sind, so dass die
untersuchte Formulierung sinnvoll ist, so bleibt die Frage, ob man diese Korrelation mit der Technik der Partialkorrelation ermitteln kann, ob also beispielsweise
die Partialkorrelation der Schulleistungen bei auspartialisiertem Alter mit den in
allen Altersgruppen gleichen bedingten Korrelationen übereinstimmt.
Leider ist die Antwort auf diese Frage im allgemeinen Fall negativ. Da die Bildung
der Residuen auf der Regression beruht, und diese einen linearen Zusammenhang
unterstellt, kann man nun auf die Idee kommen, dass die Antwort dann positiv
ausfällt, wenn die bedingten Erwartungswerte von x und y in linearer Weise von z
4.1 Univariate multiple Regression
R07
33
abhängen. Im Beispiel würde das bedeuten, dass die Erwartungswerte der beiden
Leistungsvariablen lineare Funktionen des Alters sind.
Auch diese Voraussetzung reicht jedoch noch nicht aus, um die Gleichheit der bedingten Korrelationen mit der Partialkorrelation zu gewährleisten. Eine positive
Antwort erhält man beispielsweise dann, wenn man zusätzlich die Gleichheit der
bedingten Varianzen fordert. Im Beispiel müssten also die Varianzen jeder der
beiden Leistungen in allen Altersgruppen gleich groß sein.
Wie man nun sieht, ist die Interpretation der Partialkorrelation als Korrelation
bei konstant gehaltenen Drittvariablen nicht notwendigerweise falsch, jedoch an
die Erfüllung vieler Voraussetzungen gebunden.
Wenn solche Formulierungen oft ohne irgendeine Reflexion der Voraussetzungen
bei der Interpretation der Partialkorrelation in konkreten Situationen gedankenlos
nachgeplappert werden, so mag das auch daran liegen, dass sich die Partialkorrelation im allgemeinen Fall einer Deutung, die über die technische Beschreibung
hinausgeht, verschließt. Allerdings sollte man in einem Fall, in dem man einen
Kennwert nicht vernünftig interpretieren kann, vielleicht besser auf diesen Kennwert überhaupt verzichten.
Kovarianztreue Darstellung. In diesem Abschnitt sollen die bisher besprochenen Sachverhalte mit Hilfe kovarianztreuer Darstellungen veranschaulicht werden. Zunächst soll als Motivation kurz die einfache lineare Regression mit einem
Prädiktor x und dem Kriterium y illustriert werden.
Hier findet man immer eine zweidimensionale kovarianztreue Darstellung durch
Vektoren x und y (man muss ja nur x und y durch Vektoren x und y darstellen,
deren Längen gleich den Streuungen der Variablen sind und dı́e einen Winkel
einschließen, dessen Kosinus die Korrelation zwischen x und y ist).
......
.
.
y..
.. .
..
.. .
.
.....................................................................
x
Bezeichnet man die optimale Vorhersage mit ŷ = b x + a und den Fehler mit e, so
gilt e = y − ŷ. Die Vorhersage und der Fehler werden also durch Vektoren ŷ und e
dargestellt, für die ŷ = b x und e = y − ŷ gilt. Die Vorhersage wird insbesondere
4.1 Univariate multiple Regression
R07
34
durch einen Vektor repräsentiert, der auf der durch x bestimmten Gerade liegt,
und der Fehler durch die Verbindung dieses Vektors zu y. Nutzt man nun aus,
dass die Fehlerstreuung bei der Regression zu minimieren ist, so muss ŷ der
Vektor auf der durch x bestimmten Gerade sein, der von y minimalen Abstand
hat, mit anderen Worten muss seine Spitze gerade im Fußpunkt des Lotes von y
auf die Gerade liegen. Der Fehler selber steht damit senkrecht auf dieser Gerade.
Die Situation muss in der kovarianztreuen Darstellung also so aussehen, wie es die
folgende Abbildung veranschaulicht. Der Fehlervektor ist dabei so eingezeichnet,
dass die Vektoraddition y = ŷ + e unmittelbar deutlich wird:
..........
.
.
y. .. e
.. ..
.. . ...
..
..
.. . ŷ ......
..........................
...........................
Residuum
.................................................................................................................................................
...
...
...
..
x
Vorhersage
Eine Alternativdarstellung, die den Fehlervektor an der Stelle einzeichnet, wo er
hingehört, ist die folgende, die vielleicht etwas deutlicher macht, dass y in zwei
unkorrelierte Anteile zerlegt wird.
Residuum
......
.....
.
.
.
y.
e ..
.. ...
.. ..
.. ..
.. ..
....................ŷ........
..
....... ....... ....... ....... .....
...
..
...
..
...
...........................
..
...
..
.....
...
.
..................................................................................................................................................
...
...
...
..
x
Vorhersage
In diesen Abbildungen kann man die Streuungen des Fehlers und der Vorhersage nun auch graphisch dadurch ermitteln, dass man die Längen von e und ŷ
ausmisst.
Die Varianzzerlegung
V(y) = V(ŷ) + V(e)
schreibt sich, übersetzt in die kovarianztreuen Darstellung, als
k yk2 = k ŷk2 + k ek2 ,
4.1 Univariate multiple Regression
R07
35
was gerade ein Beispiel für den Satz des Pythagoras ist.
Da ŷ gerade das b-fache von x ist, kann man auch b graphisch ermitteln, indem
man in einer kovarianztreuen Darstellung von x und y das Lot von y auf die
durch x gegebene Gerade fällt und den Faktor b dann über das Verhältnis der
Längen des zum Fußpunkt gehörenden Vektors ŷ und des Vektors x bestimmt
– falls die Vektoren in entgegengesetzte Richtungen weisen, ist noch ein negatives Vorzeichen hinzuzufügen. Anders gesagt kann man b ablesen, wenn man auf
der durch x gegebenen Achse eine Skala einführt, die ihren Nullpunkt in 0 hat
und die Einheit in der Spitze von x. Noch anders ausgedrückt führt man das
Koordinatensystem zur Basis x des Erzeugnisses von x ein.
Nach diesem Einleitungsbeispiel soll nun die multiple Regression behandelt werden. Es zeigt sich, dass man das Regressionsproblem in ein geometrisches Problem umformulieren und dann auch lösen kann, was eine Alternative zu der oben
gewählten Zugangsweise bietet (allerdings lassen sich die beiden Argumentationen ziemlich direkt ineinander übersetzen, so dass man eher davon reden sollte,
dass man dieselbe Lösung unter zwei Aspekten betrachtet).
Im Allgemeinen soll vorausgesetzt werden, dass die Kovarianzmatrix der Prädiktoren regulär ist, was bekanntlich äquivalent dazu ist, dass die Vektoren, die
in einer kovarianztreuen Darstellung die Prädiktoren repräsentieren, linear unabhängig sind.
Nachdem man wie oben das Teilproblem der Konstanten a abgespaltet hat, bleibt
P
die Aufgabe zu lösen, die Koeffizienten bj einer Linearkombination ŷ =
bj xj +a
der Prädiktoren zu finden, für die der Fehler e = y − ŷ minimale Varianz besitzt.
In geometrischer Sicht übersetzt sich dieses statistische Problem in das Problem,
P
eine ŷ entsprechende Linearkombination ŷ =
bj xj der die Prädiktoren repräsentierenden Vektoren xj zu finden, die von dem das Kriterium repräsentierenden Vektor y minimalen Abstand hat. Für jede zur Vorherage verwendete
Linearkombination ŷ der xj wird ja der Fehler durch den Verbindungsvektor
e = y − ŷ von ŷ zu y repräsentiert, wobei die Varianz des Fehlers die quadrierte
Länge des Vektors e ist, also gerade das Quadrat des Abstandes.
Die Linearkombinationen der xj bilden insgesamt einen Unterraum U , nämlich
das Erzeugnis der xj . Gesucht ist also ein Punkt ŷ dieses Unterraums, der von y
minimalen Abstand hat. Geometrisch wird dieses Problem dadurch gelöst, dass
man y orthogonal auf U projiziert, oder anders gesagt das Lot von y auf U fällt,
4.1 Univariate multiple Regression
R07
36
um ŷ als den Lotfußpunkt ŷ zu ermitteln.
Die folgende Zeichnung illustriert dies für den Fall von zwei Prädiktoren x1 und
x2 , die durch Vektoren x1 und x2 repräsentiert werden.
.............
.
.
.
.
.
y .
...... .... e
.
.
.
.
.
.
...
......
.
.
.
.
.
...
............
.
.
.
.
.
.
.
.
.... ..........
............................................x.....2................................... .......
.....
....
ŷ
x1 ....
...
..................... ................
...
.........
......................
..
......................
........... ................
......................
.
.
.
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
......
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
..........
.............
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
.........
.........
.......
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
....
.........
.......
....................
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.........
....
.........
............................
.........
.........
.
....
. .........
.
.........
.
.........
.
.
.
.
.
.
.
.
.
....
.........
.........
.........
.......
.
.
.
.
.
.
.
.
.
.
.........
.
.
.........
.
.
.
.........
...
.......
.
.
.
.........
.
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
.....
...
.
.
..................
.........
.
.
..............................
...
......................
.
.........
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
...
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
..........
.........
.........
.........
.....................
.........
..
.....................
.........
.......................
.....................
.........
.....................
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........................
U
Regressionsgewichte sind die Koeffizienten von ŷ bei einer Darstellung als Linearkombination der xj . Falls die xj linear unabhängig sind, sind diese Koeffizienten
eindeutig bestimmt und können als Koordinaten von ŷ in dem Koordinatensystem ermittelt werden, das durch die xj auf U etabliert wird. In der Abbildung
sind die Hilfslinien zum Ablesen der Regressionsgewichte schon mit eingezeichnet.
Der Fall, dass die xj linear unabhängig sind, sollte der Normalfall sein; bekanntlich ist diese Bedingung gleichbedeutend dazu, dass die Kovarianzmatrix der
Prädiktorvariablen xj regulär ist.
In dem anderen Fall der linearen Abhängigkeit der xj (also eines Rangdefekts der
Kovarianzmatrix) kann jeder Punkt des Unterraums auf vielfache Art als Linearkombination der xj geschrieben werden – die Regressionsgewichte sind dann also
nicht eindeutig. Immerhin ist jedoch ŷ als orthogonale Projektion von y eindeutig bestimmt, so dass die verschiedenen Linearkombinationen immer zur gleichen
Variable führen (jedenfalls f.s.). Die Uneindeutigkeit bezieht sich damit nicht auf
die Vorhersage, sondern nur auf ihre spezielle Darstellung.
Man kann übrigens auch die Normalengleichungen geometrisch motivieren, was
nun kurz skizziert werden soll. Die Vektoren xj seien dazu die Spalten einer
Matrix X. Der Repräsentant einer Vorhersage mit b als Koeffizientenvektor ist
dann Xb und der Vektor, der den zugehörigen Fehler repräsentiert ist e = y−Xb.
Die Forderung, dass e zu U senkrecht ist, ist gleichbedeutend dazu, dass die
Skalarprodukte der xj mit e alle 0 sind, dass also X0 e = 0 gilt. Durch Einsetzen
erhält man X0 (y − Xb) = 0 oder umgeformt
X0 Xb = X0 y ,
4.1 Univariate multiple Regression
R07
37
worin man die bekannten Normalengleichungen erkennt, denn wegen den Eigenschaften einer kovarianztreuen Darstellung ist ja X0 X als Matrix der Skalarprodukte der xj gleichzeitig die Matrix der Kovarianzen der xj , also die Kovarianzmatrix der Prädiktoren, und entsprechend X0 y der Vektor der Kovarianzen der
Prädiktoren mit dem Kriterium.
Die Normalengleichungen drücken also tatsächlich gerade aus, dass der Fehlerrepräsentant e senkrecht auf U steht (was statistisch die Unkorreliertheit des Fehlers
mit den Prädiktoren bedeutet), womit nun auch die die Bezeichnung Normalen’
gleichungen‘ gerechtfertigt ist (man erinnert sich, dass normal‘ gelegentlich auch
’
senkrecht‘ bedeutet).
’
Es folgt nun ein Beispiel für den Fall von zwei Prädiktoren. Die Kovarianzmatrix
von x1 , x2 und y sei


4 −2 6
−2 9 5  ,
6
5 25
die Erwartungswerte sind uninteressant, da es ja nur um die Regressionsgewichte
gehen soll. Die Regressionsgewichte errechnen sich aus den Normalengleichungen
leicht zu b1 = 2 und b2 = 1.
Für eine dreidimensionale kovarianztreue Darstellung kann man zunächst die Korrelationsmatrix ermitteln; es ergibt sich hier

1
−2/6 3/5
−2/6
1
1/3 .
3/5
1/3
1

Eine Umrechnung der Korrelationen in Winkel liefert die Winkel 109.5◦ , 53.1◦
und 70.5◦ , so dass man die kovarianztreue Darstellung erhält, wenn man drei
Vektoren der Längen 2, 3 und 5 mit den entsprechenden gerade berechneten
Winkeln zusammenfügt. Das Ergebnis seien die Vektoren x1 , x2 und y.
Diese Situation ist genau die, die oben schon zur Illustration benutzt wurde;
hier folgt noch einmal die entsprechende Abbildung, die die Vektoren x1 , x2 und
y zeigt, außerdem ŷ und e und die Hilfslinien zum Ablesen der Regressionsgewichte als Koordinaten; man erahnt auch, dass die Koordinaten mit den gerade
berechneten Werten b1 = 2 und b2 = 1 übereinstimmen.
4.1 Univariate multiple Regression
R07
38
.
..............
...
..
.
.
.
.
.
.
.e
....
.
.
.
.
.
.
.
.
...
............
.
.
.
.
.
.
.
.................. ..
...........................................x.....2................................... .......
.....
......
ŷ
x ...
y..........
...
..................... ................
.........
.................
..
......................
........... ................
......................
.
.
.
.
.
.
.
.
.
.
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
......
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
............. ............
..........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
....
.......
.........
..............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
....
.........
.......
.
.
.
.
............................
.
.
.
.........
.
.
.
.
.
.
.
.
....
.........
.........
.......
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.................
.........
.........
....
.
.
.........
.
.
.........
.
.
.
.
.
.
.
.........
....
.......
.........
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
....
.........
.........
.......
.
.
.
.
.
.
.
.
.
.
.........
.
.......
.
.
.
.
.
.........
...
.......
.
.
.........
.
.
.
.
.
.
........
.
.
.
.
.
.
.
.
.
.
.........
......................
...
.....................
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.........
.
.
.
...
..............
.........
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............
.........
............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.........
...... ..............................
.........
.........
......................
.........
.....................
.........
......................
.......................................
U
1
In dieser Abbildung erkennt man auch wieder die Tatsache, dass die Varianzzerlegung V(y) = V(ŷ) + V(e) geometrisch gerade ein Beispiel für den Satz des
Pythagoras ist, da ja ŷ und e orthogonal sind, und da die Varianzen der Variablen
gleich den quadrierten Längen der zugehörigen Vektoren sind.
Zur geometrischen Veranschaulichung von weiteren Konzepten und Eigenheiten
der multiplen Regression ist es sinnvoll, eine zweidimensionale Darstellung der
Ebene U zu verwenden.
Die folgende Abbildung zeigt daher diese x1 -x2 -Ebene mit dem projizierten Vektor ŷ und den Linien zum Ablesen der Regressionsgewichte. Diese Linien sind
natürlich die Koordinatenlinien in dem Koordinatensystem, dessen Achsen und
Einheiten durch x1 und x2 gegeben sind. Neben der Abbildung findet sich auch
ein Maßstab.
...
...
...
...
...
...
...
...
...
...
...................................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
.
..................................................................................................................................................................................................................................................................................................
...
...
...
...
...
...
...
...
...
.
.....
.......
.
.
.
ŷ
.
.
.
.
.
x2 ..
...
......
.
.
.
.
...
..
.....
...
.
.
.
.
...
...
... ..........
... ......
......................................
x1
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ...
....
....
....
....
....
...
...
...
..
..
..
In dieser Zeichnung kann man nun die Regressionsgewichte direkt ablesen. Offenbar stimmt das Ergebnis mit dem oben schon zur Kontrolle berechneten überein.
Außerdem kann man die Streuung von ŷ als Länge von ŷ ermitteln.
Bei der graphischen Ermittlung der Regressionsgewichte wurden als Einheiten
die Längen von x1 und x2 benutzt; in Bezug auf diese Einheiten wurden auf den
4.1 Univariate multiple Regression
R07
39
Achsen die Strecken vom Nullpunkt bis zu den Schnittpunkten mit den Hilfslinien gemessen. Interessanterweise haben aber auch die mit dem Originalmaßstab
gemessenen Längen dieser Strecken eine Bedeutung: Dividiert man sie nämlich
noch durch k yk = σy , so erhält man gerade die sogenannten β-Gewichte.
Die Längen der Strecken in der absoluten Einheit erhält man ja gerade, indem
man die Vergrößerungsfaktoren bj mit den Längen der Vektoren xj multipliziert.
Wegen k xj k = σxj erhält man als Ergebnis
bj σxj = (σxj /σy ) bj σy = βj σy ,
was in der Tat das mit k yk = σy multiplizierte β-Gewicht ist.
Bis auf den gemeinsamen Faktor σy kann man in der Zeichnung also auch unmittelbar die β-Gewichte ablesen.
Konkret ergeben sich für die β-Gewichte mit Berücksichtigung von σy = 5 hier
durch Ablesen die Werte β1 = 4/5 = .4 und β2 = 3/5 = .6, deren Richtigkeit
man durch eine Kontrollrechnung unmittelbar bestätigt.
Man kann in der letzten Zeichnung auch die Lote von ŷ auf die Achsen fällen und
aus den Fußpunkten weitere wichtige Kennwerte ermitteln. In der nächsten Darstellung sind neben diesen Loten zum Vergleich auch die Koordinatenhilfslinien
schwach mit eingezeichnet.
...
...
...
...
...
...
..............................................................
..
...
.......... .......
...
..........
.... ..
...
.........
..........
... ..
...
..........
.
.
.
.
...
... ..
.
.
.
.
.
......
.
...
.
.
.
.
.
.
.
.
.... ...
...
......
.
.
.
.
.
.
.
.. ..
.
.
...
......
.
.
.
.
.
.
..
.
.
.
....
...
....
..
...
... ...................
..
.....
...
...
..
.
.
...
...
..
.
...
..
.
.
...
..
.....
...
..
...
..
..
..
...
.
..
...
...
..
...
..
.
..
...
..
.
...
..
...
...
.
..................................................................................................................................................................................................................................................................................................
...
...
...
...
.
......
......
.
.
.
.
.
.
x2 ...
......
...
.
.
.
.
..
...
..... ŷ
.
...
.
.
.
...
....
... .........
... ......
.........................................
x1
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ...
.
.
.
.
....
....
.....
...
...
...
...
...
Zunächst soll jetzt genauer angegeben werden, was man aus dieser Graphik entnehmen kann; die Begründungen dafür folgen später.
Die Vektoren, deren Spitzen die Lotfußpunkte sind, sind die Repräsentanten
der Vorhersagen von y mit einfachen linearen Regressionen auf die jeweiligen
Prädiktoren. Sie sollen daher ŷ1 und ŷ2 heißen.
In relativen Einheiten der Achsen liest man an den Lotfußpunkten die Gewichte
4.1 Univariate multiple Regression
R07
40
bei einfachen linearen Regressionen ab; es ergeben sich hier die Werte 1.5 für den
Prädiktor x1 und .55 für den Prädiktor x2 ; dies sind auch die Werte, die man mit
der Formel Kov(xj , y)/V(y) zur Kontrolle leicht ausrechnet.
In absoluten Einheiten erhält man hingegen bis auf den Faktor σy die β-Gewichte
für die einfachen Regressionen, die ja im Falle eines Prädiktors mit den Korrelationen übereinstimmen. Hier ergeben sich die Werte 3/5 = .6 für ρx1 y und
1.66/5 = .33 für ρx2 y , ebenfalls in Übereinstimmung mit der Kontrollrechnung.
Zur weiteren Verdeutlichung der geschilderten Sachverhalte sind in der nächsten
Abbildung die auf diese Weise mit dem absoluten Maßstab (rechts) gemessenen
Kenngrößen noch einmal hervorgehoben.
...
...
...
...
...
...
.............................................................
.........
........ ...
.
.
.
.
.
...
.......... .......
...
.
.
.
..........
... .
.
...
.
...
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.... ...
.
.
.
...
....
..........
.. ..
...
......
..........
.
.
.
.
.............
.
.
.
.
.
.... ..
.
...
......
.
...
.
.
.
.
.
... ..
.
.
.
...
...
......
.
.
.
.
..
.
...
.
.
.
.
.
...
...
......
.
.
.
..
.
.
.
.
.
...
.
..........
...
..
...
.
.
.
...
.
... ...
.
..
.
.
.
...
.
.
.
...
..
...
..
...
.............
.
...
...
..
...
...
.
...
.
..
....
...
...
..
...
...
...
..
...
.....
..
...
..
.
..
...
...
...
2
..
...
...
.
..
.
...
...
...
..
...
.
.
...
.
.......
.................................................................................................................................................................................................
...
...
.
... ....... ......
...
...
.
..
.
...
.....
..
.
.
.
.
.
.
.
...
.
.
.
.
...
.....
..
...
...
... ..........
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. ..
..
...........
1
....
...
...
..
..
...
...
..
.
...
..
...................................................
....................................................
..
..
.......
.
.
.
.
..
.....
.
.
.
.
....
..... ŷ
.
.
.
...
.
.
.
. ŷ
.....
β2 σy ρx y σy .... 2 ........
... .....
......................................ŷ.....1...............
ρx y σy
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ...
.
.
.
.
...
...
.....
....
....
...
...
...
β1 σ y
Derartige Darstellungen ermöglichen damit einen anschaulichen Vergleich zwischen den Regressionsgewichten bei der multiplen Regression mit den Regressionsgewichten bei den Regressionen mit jeweils nur einem Prädiktor. Außerdem
geben sie Hinweise darauf, wie gut (β-)Regressionsgewichte und Korrelationen
harmonieren, da diese Kennwerte bis auf den Faktor σy direkt abgelesen werden
können.
Da die quadrierten Längen der Vektoren ŷ, ŷ1 und ŷ2 gerade die durch die entsprechenden Regressionen aufgeklärten Varianzen sind, bekommt man einen unmittelbaren Eindruck von dem Zuwachs an Varianzaufklärung der multiplen Regression im Vergleich zu den Einzelregressionen.
Der Nutzen solcher Veranschaulichungen liegt auch darin, dass man für die bekannten Merkwürdigkeiten der multiplen Regression (wie die gelegentlich wider’
sprüchlichen‘ Informationen aus Regressionsgewichten und Korrelationen oder
wie unerwartete Änderungen der Varianzaufklärung bei Hinzunahme weiterer
4.1 Univariate multiple Regression
R07
41
Prädiktoren oder beim Weglassen von Prädiktoren) nun ein geometrisches Bild
zur Verfügung hat, das diese Phänomene verständlicher werden lässt, als sie es
sind, wenn man sich nur auf (oft nicht unproblematische) Assoziationen zu den
statistischen Begriffen stützt. Man kann sogar gezielt solche Merkwürdigkeiten
konstruktiv erzeugen.
Zur noch ausstehenden Rechtfertigung des Ableseverfahrens mit Hilfe der Lote
bemerkt man zunächst, dass es genügt, zu zeigen, dass die Fußpunkte der Lote
von ŷ auf die Achsen die gleichen sind wie die, die man erhalten hätte, wenn
man die Lote gleich von y auf diese Achsen gefällt hätte. Wenn dies nämlich
richtig ist, so haben die Argumentationen weiter oben schon die Richtigkeit des
Ableseverfahrens gezeigt, da diese Argumentationen ja nicht von der Zahl der
Prädiktoren abhingen und daher auch für den Fall eines Prädiktors gelten (das
Fällen der Lote von y auf die Achsen ist ja gerade die Projektion auf die dann
eindimensionalen Unterräume, die von jeweils einem xj erzeugt werden).
Ist beispielsweise V1 der von x1 erzeugte Unterraum und ŷ1 die Projektion von
ŷ auf V1 , so steht nach Konstruktion ŷ − ŷ1 senkrecht auf V1 . Andererseits ist
y − ŷ senkrecht zu U und wegen V1 ⊆ U insbesondere auch senkrecht auf V1 .
Damit steht auch y − ŷ1 = (y − ŷ) + (ŷ − ŷ1 ) senkrecht auf V1 , weshalb in der
Tat ŷ1 auch die Projektion von y auf V1 ist. Genauso argumentiert man für x2 .
Der gerade geometrisch bewiesene Sachverhalt ist übrigens ein Spezialfall der
Gleichung PV PU = PV , die allgemein für orthogonale Projektionen PU und PV
auf U und V mit V ⊆ U gilt.
Für den Fall der Lote von y und ŷ auf die x1 -Achse wird die Gleichheit der
Fußpunkte durch die nächste Abbildung illustriert.
........
.
.
.
.
.
.
y.
......
.
.
.
.
.
.
......
.
.
.
.
.
.
.........................
.
.
.
.
.
............................................x....2.... ....................ŷ...... ..
..... ..
.....
x1 .....
.
....
... ...
... ..
... ....
.
.
..
....
...
..
...
...
....
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
................... .............
....
.............
.
... ........
......................
... .............. ................ ....
......................
.. ..
... ....
......................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. ................
...... ...
..................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
.......
.....
..
.........
.........
......................
...........
...
...
.........
.........
......................
...........
....
...
.........
.........
............................
...........
...
.........
.........
.........
...........
...
.........
...
..........................
.........
.
.
.
.
.........
.........
.
.
...... ............
.
.
.
.
.
.
.
.
.
.........
.
.
.........
.
.
.
.
.........
.
.
.......
.
.........
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
.........
.
.............
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.........
..
....
..............................
......... ...............................................
......................
.
.
.
.
.
.
.
.
............ .
.........
.
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
..............
.
.
.
.
.
.
.
.
.
.
.
.
.........
.........
.
.
.
.
.
.
.
.
.........
.........
.................
.........
... ...........................
.........
......................
.........
.....................
.........
......................
........................................
U
Die Tatsachen, die die Lote von ŷ auf die Prädiktorachsen betreffen, verdienen es,
noch einmal allgemein hervorgehoben zu werden. Die gegebenen Begründungen
4.1 Univariate multiple Regression
R07
42
besitzen offenbar auch für den allgemeinen Fall Gültigkeit.
Feststellung 9. Sind x1 , . . . , xp und y Vektoren, die in einer kovarianztreuen
Darstellung der Situation einer multiplen Regression die Prädiktoren xj (mit regulärer Kovarianzmatrix) und das Kriterium y repräsentieren, und repräsentieren
ŷ und ŷ1 , . . . , ŷp die Vorhersagen von y mit Hilfe der multiplen Regression und
der einfachen Regressionen mit jeweils einem Prädiktor, so sind die ŷj gleichzeitig die orthogonalen Projektionen von ŷ auf die Prädiktorachsen. Man kann
also in dieser Darstellung die Regressionsgewichte für Einzelregressionen und die
Korrelationen der Prädiktoren mit dem Kriterium auch ermitteln, wenn man die
Lote von ŷ auf die Prädiktorgeraden fällt. ¤
Die nächste Abbildung zeigt eine mögliche Situation, in der die beiden Prädiktoren
x1 und x2 eine hohe Korrelation besitzen. In der durch Repräsentanten x1 und x2
dieser Prädiktoren erzeugten Ebene U ist die Repräsentation ŷ der Vorhersage
eines Kriteriums y eingezeichnet samt Hilfslinien zum Ablesen von Regressionsgewichten und Korrelationen.
....
.............
.............
.............
........................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
....
....
...........
.............
....
...........
.............
.. .
...........
.............
.. ..
...........
.............
.............
...........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.. ..
...........
.............
.. .
...........
.............
...........
.. .. .........................
...........
.
...........
...............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
...........
.............
.
...........
.............
.........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.....
.............
.
.
.
.
.
.
.
.
.
.
.
.
....
.............
.............
.............
.............
.............
.
.
.
.
.
.
.
.
.
.
.
.
.....
.............
.............
.............
.............
.............
.
.
.
.
.
.
.
.
.
.
.
.
............
.......
.
.
.
.............
.
.
.ŷ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
........... x2
........................................
.
.
... .............................................................
x1
Man erkennt hier ein deutliches Auseinanderklaffen der Regressionsgewichte der
multiplen Regression und derer der Einzelregressionen, anders gelesen von βGewichten und Korrelationen. Bei x1 steht eine positive Korrelation einem negativen β-Gewicht gegenüber, das womöglich deutlich kleiner als −1 ist (wenn
nämlich der Fehler, der senkrecht auf der Ebene steht, klein ist).
Ist die Darstellung eine einer empirischen Situation, so erkennt man auch die
Instabilität der Gewichte: Wenn sich die y-Daten nur sehr wenig in der Weise
ändern, dass sich ŷ nach oben oder unten verschiebt, so zieht dies eine starke
Änderung der Regressionsgewichte nach sich.
Die Abbildung illustriert damit sehr gut die Multikollinearitätsprobleme.
Gelegentlich führt man mit den Prädiktoren eine Variablentransformation durch,
beispielsweise zu Standardisierungszwecken, oder um zur Vermeidung von Mul-
4.1 Univariate multiple Regression
R07
43
tikollinearitätsproblemen mit einem Satz unkorrelierter Prädiktoren arbeiten zu
können (ob dies sinnvoll ist, sei dahingestellt).
Ist die Koeffizientenmatrix für diese Variablentransformation G und sind G und
die Kovarianzmatrix der Prädiktoren invertierbar, so bedeutet der Übergang zu
den neuen Variablen geometrisch nur, dass man in dem von den xj aufgespannten Unterraum die aus den xj bestehende Basis ersetzt durch eine andere, deren
Vektoren bezüglich der ursprünglichen Basis als Koordinatenvektoren gerade die
Spalten der Matrix G besitzen (diese Vektoren entsprechen natürlich den neuen
Prädiktoren). Die neuen Regressionsgewichte erhält man dann, indem man die
Koordinaten von ŷ in dem durch die neuen Vektoren gegebenen Koordinatensystem abliest. Der Effekt dieser Variablentransformation auf die Regressionsgewichte ist also geometrisch gesehen wieder der gleiche wie der der entsprechenden
Koordinatentransformation.
Es folgt ein Beispiel zur Verdeutlichung. In der oben untersuchten Situation sollen
die bisherigen Prädiktoren x1 und x2 durch neue, womöglich aus inhaltlichen
Gründen interessante Prädiktoren v1 = x1 + x2 und v2 = x2 − x1 ersetzt werden.
Die repräsentierenden Vektoren v1 = x1 + x2 und v2 = x2 − x1 sind in der
folgenden Abbildung mit eingezeichnet.
..........
y.........
.
......
.
.
.
.
.
.
...... ...........
.
.
v2... ....
v
.. ...
............................................................................1............................... ...
......
.
....
..
....
...
..
.....
..
..
.
..
..
..................... ................
......
...
....................
......................... ...
......................
..... ..
...........
......................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
............
..........
.... ................
......................
.....................
.........
...................... .................
..
..................
......................
.........
.........
............... ..
......................
....
.........
.........
...........
.
.
.
............................
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.........
.
.........
.........
..
........ .....................
.........
.
.........
.
..............
.
.
.
.........
.
.
.........
.
.
.
.
.
.
...........
.........
......
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
........... ....
.........
.
.......
.
.
.
.
.
.
.........
.
.
......
.
.
.
.
.
.
.
.
.
.
...................
.........
.......
.
.
.
.
.
.
..............
.
.
.
.
.
.........
....................
.....................
.
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.........
.
.
.
.
.
.
.............
.........
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.......
.........
.........
......................
.........
...............................................
.........
.........
......................
.........
.....................
.
.
.
.
.
.
.
.
.
.........
.
.
.
.
.
.
.
.
.
.
.
.
..............................
U
ŷ
Die Abbildung verdeutlicht, dass v1 und v2 eine alternative mögliche Basis von U
bilden. Nach den bisherigen Überlegungen ist klar, dass sich an der Vorhersage ŷ
nichts ändert, es ändern sich lediglich ihre Koordinaten (die Regressionsgewichte)
bei dem Übergang zu der neuen Basis.
Die nächste Darstellung zeigt die Ebene U mit den neuen Koordinatenachsen und
den Hilfslinien zum Ablesen der neuen Regressionsgewichte.
4.1 Univariate multiple Regression
R07
.
...
...
..
.
....
.....
.....
... ..
.....
... ....
.....
..
..
.....
.
..
.....
...
..
.....
..
..
.....
..
..
.....
.
.
..
.....
..
..
.....
.
.
..
.....
.
.
..
.....
..
..
.....
.
.
..
.....
.
.
.....
.....
.
..
...........
.....
.
..
.
.....
...
.
.
.
..
.....
...
..
.
.
.....
.
...
.
.
.
.....
.
...
.....
..
...
...
.....
..
.....
...
...
.....
..
...
...
.....
..
...
..
.....
.
.
.
...
.....
...
.....
...
..
.....
...
...
..
.....
...
...
..
.....
.
..
...
.....
.
..
.....
...
...
.....
...
..
...
.....
...
..
.....
...
.
.....
..
..
.
..... .....
.
.
..... .. ...
..
..... .. ...
..... ... .
..
....... ..
..
..........
.
.
.
.
.
.
.
.
.
.............................................................................
..........
..
... .........
..
.....
...
.....
..
..
.
.
.
.....
.
.....
...
..
.....
...
.....
..
.....
...
..
.....
.
..
.
..... ..
..... ..
...
.....
...
.....
.....
.....
.....
.....
....
........
..
......
......
.......
.
.
ŷ
.
.
.
x2
..
v1 ..
.....
v2 .........
.
.
.
.
.
.
.
.
......
.. .........
......
.
.
......
..
...... .... ..........
...... .. .....
............
x1
44
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ...
....
....
...
....
....
....
....
....
.
.
.
Zur Kontrolle soll auch noch die zugehörige Rechnung durchgeführt werden.
Die Transformationsmatrix der Variablentransformation von den x- zu den vVariablen ist
µ
¶
1 −1
G=
.
1 1
Ihre Inverse errechnet sich zu
µ
−1
G
=
¶
.5 .5
,
−.5 .5
und die neuen Koordinaten von ŷ erhält man, indem man den alten Koordinatenvektor (2, 1)0 mit G0−1 multipliziert, als (1.5, −.5)0 in Übereinstimmung mit
der Graphik.
Außer zur Ermittlung der Regressionsgewichte kann die neue Darstellung natürlich
auch wieder dazu dienen, mit Hilfe von Loten die Vektoren zu ermitteln, die die
Vorhersagen mit Hilfe einfacher linearer Regressionen auf v1 und v2 repräsentieren.
Auch die Korrelationen und die β-Gewichte können genau wie oben graphisch bestimmt werden.
Oft wird es als wünschenswert erachtet, die gegebenen Prädiktoren durch unkorrelierte zu ersetzen, womöglich sogar durch solche mit Varianz 1. Es sei dabei
vorausgesetzt, dass die Kovarianzmatrix der Prädiktoren den maximalen Rang
besitzt (gegebenenfalls lässt man überflüssige Prädiktoren weg).
Geometrisch bedeutet die Aufgabe, dass für U eine Orthogonalbasis oder eine
Orthonormalbasis zu finden ist.
4.1 Univariate multiple Regression
R07
45
Will man also solche unkorrelierten Prädiktoren finden, so kann man sich die
Techniken der Linearen Algebra zu Nutze machen, die gegebene Vektoren durch
orthogonale (oder orthonormale) Linearkombinationen dieser Vektoren ersetzen,
die denselben Unterraum aufspannen.
Dabei ist zunächst zu klären, wie und warum man Lösungen dieser Aufgabe in
der Linearen Algebra auf die Statistik übertragen kann.
Sind x1 , . . . , xp also Vektoren, die die Prädiktoren x1 , . . . , xp repräsentieren, und
sind v1 , . . . , vp Linearkombinationen dieser Vektoren, die orthogonal (oder orthonormal) sind und den gleichen Raum U wie x1 , . . . , xp aufspannen, so definiert
man neue Variablen v1 , . . . , vp als Linearkombinationen der xj mit denselben Koeffizienten, mit denen die vk aus den xj hergestellt werden. Die additiven Konstanten können dabei beliebig gewählt werden, nützlich ist es hier oft, sie so zu
wählen, dass die vk Mittelwert bzw. Erwartungswert 0 besitzen.
Die neuen Prädiktoren gehen dann durch eine invertierbare affine Transformation
aus den alten hervor, weshalb sie die gleichen Vorhersagen liefern wie die alten,
wobei sich die Regressionskoeffizienten nach den gegebenen Formeln umrechnen
lassen. Die vk werden außerdem durch die vk repräsentiert, womit sie unkorreliert
sind. Man kann also tatsächlich Lösungen des Orthogonalisierungsproblems aus
der Linearen Algebra auf die Statistik übertragen.
Aus der Linearen Algebra ist das Orthonormalisierungsverfahren von Gram und
Schmidt bekannt. Sieht man von der genauen technischen Durchführung ab (die
dazu hilft, den Rechenaufwand zu minimieren), so kann dies Verfahren im Prinzip
auch auf die folgende Art beschreiben, die eine anschaulichere Verbindung zur Regression herstellen lässt. Man wählt als v1 den Vektor x1 . Danach bestimmt man
iterativ die vj so, dass vj senkrecht zu x1 , . . . , xj−1 ist; genauer erhält man vj , indem man zu xj diejenige eindeutig bestimmte Linearkombination der x1 , . . . , xj−1
addiert, die gerade bewirkt, dass das Resultat (die Summe aus xj und der Linearkombination) senkrecht zu x1 , . . . , xj−1 ist (man macht gewissermaßen xj zu
x1 , . . . , xj−1 senkrecht). Nachdem man so alle vj hergestellt hat, bringt man sie
in einem letzten Schritt auf die Länge 1 – auf diesen letzten Schritt kann man
aber auch verzichten, wenn man sich mit einer Orthogonalbasis zufrieden gibt.
Da bei diesem Verfahren der Vektor vj dann bekanntlich gerade das Lot von
xj auf den von x1 , . . . , xj−1 erzeugten Unterraum ist (genauer: der Verbindungsvektor vom Lotfußpunkt zu xj ), ist dieses vj auch Repräsentant des Residuums
bei der Regression von xj auf x1 , . . . , xj−1 . Bildet man also nun vj als die Li-
4.1 Univariate multiple Regression
R07
46
nearkombination von x1 , . . . , xj , die die gleichen Koeffizienten besitzt wie vj als
Linearkombination von x1 , . . . , xj , und sorgt man zudem durch geeignete Wahl
der additiven Konstante dafür, dass der Erwartungswert bzw. Mittelwert von vj
gleich 0 ist, so erkennt man, dass vj dann durch vj repräsentiert wird und somit
schließlich das Residuum der Regression von xj auf x1 , . . . , xj−1 ist.
Man kann damit für dieses Verfahren den Übergang von den Ausgangsprädiktoren
x1 , . . . , xp zu gleichwertigen unkorrelierten Prädiktoren v1 , . . . , vp kurz so beschreiben, dass man als v1 die Variable x1 wählt, und für vj das Residuum der
Regression von xj auf x1 , . . . , xj−1 .
Damit ist die gewünschte anschauliche Deutung des Orthogonalisierungsverfahrens gelungen. Es bleibt zu erwähnen, dass die technische Durchführung sich zur
Vereinfachung der Rechnung besser an der aus der Linearen Algebra bekannten
Vorgehensweise orientiert, und dass schließlich gegebenenfalls in einem letzten
Schritt die neuen Prädiktorvariablen auf Varianz 1 zu normieren sind.
Mit kovarianztreuen Darstellungen kann man sich auch den oft überraschenden
Verhältnissen bei der Partialkorrelation geometrisch nähern. Viele merkwürdige
Phänomene werden dadurch erheblich durchsichtiger.
Die betrachtete Situation ist die, dass die Partialkorrelation von zwei Variablen
x und y gebildet werden werden soll, wobei eine Drittvariable z auspartialisiert
wird. Ziel ist es, auch für diese Situation eine geometrische Anschauung zu gewinnen.
Zunächst sei noch einmal an das Bild erinnert, das für die einfache lineare Regression von x auf z die Zerlegung von x in Vorhersage und Residuum veranschaulicht.
Das Residuum soll jetzt den Namen x̃ bekommen. Die entsprechenden Vektoren
seien x, z und x̃. Analoge Verhältnisse gelten für y, und dort seien die Bezeichnungen entsprechend.
Residuum
....
.....
.. x ....
.
x̃ ..
.. ...
.. ..
.. ..
.. .. x̂
..............................
....... ....... ....... ....... .....
....
.
...
..
...
...........................
..
.....
...
..
....
..................................................................................................................................................
...
...
...
..
z
Vorhersage
Die Partialkorrelation von x und y ist defitionsgemäß die Korrelation von x̃ und
4.1 Univariate multiple Regression
R07
47
ỹ; in einer kovarianztreuen Darstellung ist dies der Kosinus des Winkels zwischen
den Vektoren x̃ und ỹ.
Beginnt man wieder mit einer kovarianztreuen dreidimensionalen Darstellung der
Ausgangsvariablen x, y und z durch Vektoren x, y und z, so befinden sich auch
die Vektoren x̃ und ỹ als Linearkombinationen der Ausgangsvektoren in dem
gegebenen dreidimensionalen Raum. Da sie senkrecht auf z stehen, befinden sie
sich genauer in der Ebene E, die zu z senkrecht ist.
Die Verbindungsvektoren x − x̃ von x̃ zu x und y − ỹ von y zu ỹ sind Vielfache
von z (es handelt sich ja hierbei um Repräsentanten der jeweiligen Vorhersagen)
und stehen daher auch senrecht auf E. Dies bedeutet gerade, dass x̃ und ỹ die
orthogonalen Projektionen von x und y auf E sind – die Verbindungsvektoren
entsprechen den Loten.
Man erhält damit das folgende Bild, in dem der Winkel zwischen x und y via
Kosinus der Korrelation von x und y entspricht und der zwischen x̃ und ỹ der
Partialkorrelation.
.......
..
..
..
z ...
..
..
..
..
..
..
.
.........x ....
y ......
....... ..
....... .. ...............................
.. . ......
.......x̃..........................................................ỹ............
...
...
...........................
.
...
.............................
........
.....
... ........... .......................
.
.
.
.
.
.
.
.
.
.
.
.
........
.
..................
...................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........ ....
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
......
..
..
..
.. ..
.
...................................
.
.
.
...
...
........
....
.... ...............
........
........
........
....
.....
........
...............................................
........
.
........
........
.
....
........
........
............................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.
.
.
.
.
.
..................
.
.
.
.
.
.
........
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
..................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
........
.
.
.
.
.
.
.
.
.
......................................................
Für diejenigen, die die Situation mit geeigneten Hilfsmitteln wie Pfeifenreinigern
nachbasteln wollen: die Kovarianzmatrix der drei Variablen in der Reihenfolge x,
y, z ist die gleiche wie die in dem Beispiel zur multiplen Regression.
Mit dem Hilfsmittel der kovarianztreuen Darstellung sollte es nun keine große
Mühe bereiten, sich Situationen herzustellen, in denen beim Übergang von Korrelationen zu Partialkorrelationen alle möglichen Arten von Besonderheiten auftreten. Beispielsweise kann aus einer Nullkorrelation eine Partialkorrelation von 1
werden, das Vorzeichen der Partialkorrelation kann dem der Korrelation entgegen-
4.2 Multivariate multiple Regression
R07
48
gesetzt sein, aus einer betragsmäßig großen Korrelation kann eine betragsmäßig
kleine Partialkorrelation werden, und dergleichen mehr. Was auf der statistischen
Ebene manchmal merkwürdig und unverständlich erscheint, wird beim Übergang
zur geometrischen Betrachtungsweise oft seine Rätselhaftigkeit verlieren.
4.2
Multivariate multiple Regression
In diesem Kapitel soll die multivariate multiple Regression mit einigen Anwendungen behandelt werden. Nachdem im letzten Kapitel die Sprache der theoretischen Ebene gewählt wurde, was gezeigt haben dürfte, dass die Unterschiedlichkeit zwischen empirischer und theoretischer Ebene bei der Problembehandlung in
kaum mehr als der Notation an der Oberfläche liegt, soll hier auf der empirischen
Ebene argumentiert werden; es sollte dabei unmittelbar klar sein, dass analoge Aussagen bei fast wörtlich gleichen Begründungen auch für die theoretischen
Sachverhalte gelten.
Problem und Lösung. Als Ausgangssituation sollen an n Personen p Prädiktorvariablen x1 , . . . , xp und q Kriteriumsvariablen y1 , . . . , yq erhoben sein, die zu
Vektoren x und y zusammengefasst werden.
Die Zentroide der Variablen seien x̄ und ȳ, ihre Kovarianzmatrizen Sx und Sy ;
die Matrizen der Kovarianzen zwischen diesen Variablengruppen sollen mit Sxy
und Syx abgekürzt werden. Dann ist Sxy eine (p × q)-Matrix und Syx eine
(q × p)-Matrix und es gilt S0xy = Syx . Fasst man beide Variablengruppen zu
einer Gesamtvariable (x, y) zusammen, so sind
µ ¶
x̄
ȳ
µ
und
Sx Sxy
Syx Sy
¶
der Mittelwertvektor und die Kovarianzmatrix dieser zusammengefassten Variablen.
Die Werte der einzelnen Versuchspersonen i auf dem Variablenvektor x sollen xi
heißen und die Werte, die diese Versuchspersonen i auf der j-ten Komponente
von x haben, xij . Analoges gilt für y und weitere gegebenenfalls zu untersuchende Variable. Diese Bezeichnungen sind übrigens die aus dem Umgang mit
Datenmatrizen geläufigen.
Ziel der multivariaten multiplen Regression ist es nun, eine Vorhersage ŷ des
4.2 Multivariate multiple Regression
R07
49
y-Variablenvektors mit Hilfe einer affinen Transformation der Form
ŷ = Bx + a
zu finden, die den Durchschnitt der quadrierten Distanzen zwischen den tatsächlichen und den vorhergesagten Datenvektoren minimiert.
Die Matrix B soll dabei auch Koeffizientenmatrix heißen und der Vektor a auch
Konstantenvektor.
Oft formuliert man das Optimalitätskriterium auch als Forderung, dass die Summe der quadrierten Distanzen minimiert werden soll, diese Forderung ist aber
offenbar der hier verwendeten gleichwertig, da sich ja die Summe und der Durchschnitt nur um den Faktor n unterscheiden.
Die k-te Komponente ŷk von ŷ ist die Linearkombination der xj , deren Koeffizienten in der k-ten Zeile von B stehen und deren additive Konstante ak ist. Dies
ist folglich eine mögliche univariate Vorhersage von yk . Zu bemerken ist dabei,
dass die Koeffizienten der einzelnen univariaten Vorhersagen ŷk unabhängig voneinander gewählt werden können, da sie in verschiedenen Zeilen von B stehen
bzw. verschiedene Komponenten von a sind.
Dies führt zu der Idee, dass man vielleicht das multivariate Problem dadurch
lösen könnte, dass man die univariaten Regressionen der einzelnen Komponenten
yk auf x einfach zu einer Gesamtvorhersage zusammensetzt. Dies ist tatsächlich
so möglich, wie nun gezeigt werden soll.
Naheliegenderweise führt man wieder den Vorhersagefehler e = y − ŷ ein als
Differenz zwischen dem tatsächlichen und dem vorhergesagten Variablenvektor.
Die Optimalitätsbedingung ist dann die, dass der Durchschnitt der quadrierten
Normen der ei minimal werden soll.
Diesen Durchschnitt der quadrierten Normen kann man nun folgendermaßen umschreiben:
X1X
1X
1 XX 2
k ei k2 =
eik =
e2ik .
n i
n i k
n
i
k
Die eik sind dabei gerade die Werte der Versuchspersonen auf dem Fehler ek der kten Komponentenvorhersage. Für ein festes k ist der Durchschnitt der quadrierten
eik daher mindestens so groß wie der Durchschnitt der quadrierten Fehler bei der
optimalen univariaten Regression von yk auf x und erreicht diesen Minimalwert
dann und nur dann, wenn ŷk eine optimale Vorhersage im univariaten Sinn ist.
4.2 Multivariate multiple Regression
R07
50
Da die Komponentenvorhersagen unabhängig voneinander gewählt werden können,
P
folgt, dass das Optimalitätskriterium (1/n) i k ei k2 genau dann minimiert wird,
wenn die Komponentenvorhersagen ŷk optimale Vorhersagen im univariaten Sinn
sind.
Damit zeigt sich, dass das multivariate Regressionsproblem nichts prinzipiell Neues im Vergleich zum univariaten Problem ist, und dass man Lösungen des multivariaten Problems genau dadurch erhält, dass man Lösungen der univariaten
Regressionen der yk auf x zu einem Variablenvektor zusammensetzt.
Als Zwischenergebnis kann notiert werden:
Feststellung 1. Die Lösungen des multivariaten Regressionsproblems erhält man
genau, indem man Lösungen ŷk der univariaten Regressionen der yk auf x zu
einem Vektor ŷ zusammensetzt. ¤
Man bekommt also die möglichen Koeffizientenmatrizen B, indem man (transponierte) Vektoren von Regressionsgewichten aus univariaten Regressionen der yk
auf x zeilenweise zu einer Matrix zusammensetzt.
Den Konstantenvektor a erhält man dann, indem man die additiven Konstanten
der Einzelregressionen zu einem Vektor zusammenfasst.
Es folgt nun ein Beispiel mit zwei Prädiktoren x1 und x2 und drei Kriteriumsvariablen y1 , y2 und y3 . An diesem Beispiel sollen später auch noch weitere Sachverhalte illustriert werden.
Die Kovarianzmatrix der Variablen

4 −2
−2 9


5
6

 0 16
−2 −7
x1 , x2 , y1 , y2 , y3 (in dieser Reihenfolge) sei

6
0
−2
5
16 −7 


25 19 −7  .

19 36 −17
−7 −17 16
Die Mittelwerte der Variablen in der gleichen Reihenfolge seien 1, 3, 2, −1, 0.
Oben wurde die Kovarianzmatrix aller Variablen schon partitioniert. Zur Illustration folgen zwei der Teilmatrizen in dem speziellen Beispiel:
µ
¶
µ
¶
4 −2
6 0 −2
Sx =
und
Sxy =
.
−2 9
5 16 −7
4.2 Multivariate multiple Regression
R07
51
Die Normalengleichungen der univariaten (multiplen) Regression von y1 auf x1
und x2 haben folgendes Koeffizientenschema:
4 −2 . 6
,
−2 9 . 5
mit dem man leicht die Regressiongewichte zu 2 und 1 bestimmt. Die additive
Konstante ist dann −3, und man erhält für y1 insgesamt die Regressionsgleichung
ŷ1 = 2 x1 + 1 x2 − 3.
Ganz analog bestimmt man die Regressionsgleichungen für die Regressionen von
y2 und y3 auf x1 und x2 zu ŷ2 = 1 x1 + 2 x2 − 8 und ŷ3 = −1 x1 − 1 x2 + 4.
Natürlich wird man die Gewichte etwas ökonomischer berechnen als hier angedeutet, da man ja auf der linken Seite immer die gleichen Koeffizienten hat. Hinweise
folgen weiter unten.
Man kann nun die drei Einzelregressionen zusammenfassen und erhält dann
ŷ1 =
2 x1
+
1 x2
+ (−3)
ŷ2 =
1 x1
+
2 x2
+ (−8)
ŷ3 = (−1) x1 + (−1) x2 +
4
oder kurz
  

 
ŷ1
2
1 µ ¶
−3
x
1
ŷ2  =  1
+ −8 ,
2
x2
ŷ3
−1 −1
4
womit man die Form ŷ = Bx + a gefunden hat. Die Zeilen von B enthalten
die Regressionsgewichte aus den drei univariaten Regressionen und a die drei
additiven Konstanten.
Nun soll der Fehlervektor noch etwas genauer betrachtet werden. Der Durchschnitt der quadrierten Fehler bei einer einzelnen univariaten Regression ist bekanntlich gleich der Varianz des Fehlers, während der Durchschnitt der Fehlerwerte gleich 0 ist. Damit ist für die multivariate Regression der minimale Durchschnitt der quadrierten Normen der Fehlervektoren gleich der Summe der Varianzen der Fehlerkomponenten, während der Durchschnitt der Fehlervektoren für
die optimale Lösung 0 ist. Die Summe der einzelnen Fehlervarianzen ist dabei
gleichzeitig die Spur der Kovarianzmatrix von e, die ja auch als Gesamtvarianz
von e bezeichnet wurde.
Mit analogen Überlegungen wie eben sieht man daher, dass eine optimale Lösung
des multivariaten Problems genau dann vorliegt, wenn ē = 0 gilt und wenn die
4.2 Multivariate multiple Regression
R07
52
Gesamtvarianz (im Sinne der Spur) von e minimal wird. Diese Gesamtvarianz
ist dann gleichzeitig der Durchschnitt der quadrierten Fehlernormen, und kann
daher als ein Maß für die Güte der Vorhersage benutzt werden.
Es bleibt noch die Aufgabe, die univariaten Lösungsbedingungen geeignet zusammenzufassen. Da die Koeffizienten für die k-te Komponente von ŷ gerade die k-te
Zeile von B, also die k-te Spalte von B0 bilden und die Kovarianzen von yk mit x
gerade die k-te Spalte von Sxy , sind die Normalengleichungen für die Regression
von yk auf x gerade die k-te Spalte der Matrizengleichung
Sx B0 = Sxy ,
die damit alle Normalengleichungen zusammenfasst. Im Fall der Invertierbarkeit
von Sx , der die Regel sein sollte, erhält man durch Multiplikation mit dieser
Inversen B0 = S−1
x Sxy und daraus durch Transponieren die Lösung
B = Syx S−1
x .
Die Bedingung dafür, dass der Mittelwert des Fehlervektors 0 ist, kann man unter
Berücksichtigung von e = y − ŷ = y − (Bx + a) umschreiben zu ȳ − Bx̄ − a = 0
oder
a = ȳ − Bx̄ .
Die bisherigen Ergebnisse sollen nun noch einmal zusammengefasst werden; Se
ist dabei natürlich die Kovarianzmatrix des Fehlers.
Feststellung 2. Die Lösungen des multivariaten Regressionsproblems erhält
man, indem man für B eine Lösung der Normalengleichungen
Sx B0 = Sxy
wählt und dann
a = ȳ − Bx̄
setzt. Ist Sx invertierbar, so erhält man die dann eindeutige Lösung für B als
B = Syx S−1
x .
Die Lösungen sind dadurch gekennzeichnet, dass für den Fehler e = y − ŷ die
Bedingungen gelten, dass ē = 0 ist und dass die Spur von Se minimal wird; diese
Spur ist dann gleichzeitig der Durchschnitt der quadrierten Normen der ei . ¤
4.2 Multivariate multiple Regression
R07
53
Man kann nun leicht im oben behandelten Beispiel diese Formeln anwenden und
erhält damit die schon gefundene Lösung noch einmal, allerdings mit weniger
Aufwand.
Im Falle einer nicht invertierbaren Kovarianzmatrix Sx unterscheiden sich je zwei
mögliche Lösungen für B zeilenweise um Elemente des Kerns von Sx , und umgekehrt erhält man aus einer speziellen Lösung alle anderen, indem man zu den
Zeilen von B beliebige Elemente des Kerns von Sx addiert. Dies folgt unmittelbar
aus entsprechenden Überlegungen im univariaten Fall.
Ebenso wie im univariaten Fall unterscheiden sich aber für verschiedene Lösungen
B und a die zugehörigen Vorhersagen ŷ nicht; mögen also auch die Koeffizienten
zur Bildung der Vorhersage nicht eindeutig sein, so ist es doch die Vorhersage
selber. Allerdings muss hier angemerkt werden, dass diese Aussage nur gilt, wenn
man die Vorhersage auf die Daten anwendet, auf deren Grundlage die Vorhersagegleichungen ermittelt wurden; setzt man neue Daten ein, so können zwei als
mögliche Lösungen ermittelte Vorhersagegleichungen auch durchaus unterschiedliche Vorhersagen liefern.
Das nächste Ziel ist die Verallgemeinerung der Varianzzerlegung und die Bestimmung von Sŷ und Se .
Da die Fehlerkomponenten als Fehler aus univariaten Regressionen mit den Prädiktoren unkorreliert sind, folgt zunächst für die Matrix Sxe der Kovarianzen der
Prädiktoren und der Fehler
Sxe = 0 .
Hieraus erhält man unmittelbar die multivariate Varianzzerlegung
Sy = Sŷ + Se .
Diese Gleichung folgt nämlich aus der Beziehung y = ŷ + e nach den bekannten
Rechenregeln für Kovarianzmatrizen unter Berücksichtigung der Tatsache, dass
die Matrix der Kovarianzen von ŷ und e die Nullmatrix ist. Dies gilt wegen Sxe =
0, woraus folgt, dass auch die Matrix der Kovarianzen der affinen Transformation
ŷ von x und von e die Nullmatrix ist.
Insbesondere folgt hieraus die Gleichung
Spur(Sy ) = Spur(Sŷ ) + Spur(Se ) ,
4.2 Multivariate multiple Regression
R07
54
also eine Varianzzerlegung der Gesamtvarianz im Sinne der Spur in aufgeklärte
Varianz und Fehlervarianz.
Nun soll die Kovarianzmatrix Sŷ von ŷ bestimmt werden. Da ŷ = Bx+a gilt, errechnet sie sich nach den Regeln über Kovarianzmatrizen bei affinen Abbildungen
zu
Sŷ = BSx B0 .
Da B0 eine Lösung der Normalengleichungen ist (da also Sx B0 = Sxy gilt), kann
man dies auch umformulieren zu BSxy . Da diese Matrix symmetrisch ist, bleibt
sie beim Transponieren gleich und man erhält die weitere Darstellungsmöglichkeit
Sxy B0 . Ist schließlich Sx invertierbar, so gilt ja B = Syx S−1
x , weshalb sich dann
schließlich auch noch die Beziehung
Sŷ = Syx S−1
x Sxy
ergibt.
Die Matrix Se erhält man wegen der Varianzerlegung, indem man die gerade
gewonnene Matrix von Sy abzieht.
Im Beispiel erhält man




¶
2
1 µ
17
16 −11
6 0 −2
Sŷ = BSxy =  1
=  16
2
32 −16 ,
5 16 −7
−1 −1
−11 −16 9
und daraus
 

 
17
16 −11
8 3
4
25 19 −7
Se = Sy − Sŷ =  19 36 −17 −  16
32 −16 = 3 4 −1 .
4 −1 7
−11 −16 9
−7 −17 16

Die Varianzzerlegung Sy = Sŷ + Se ist daher hier

 
 

25 19 −7
17
16 −11
8 3
4
 19 36 −17 =  16
32 −16 + 3 4 −1 .
−7 −17 16
−11 −16 9
4 −1 7
In der Diagonale dieser Gleichung findet man die Varianzzerlegungen bei der Vorhersage der yi durch x, beispielsweise ist die Varianzzerlegung bei der Vorhersage
von y1 gegeben durch 25 = 17 + 8. Die Zerlegung der Gesamtvarianz erhält man
durch Bildung der Spur als 77 = 58 + 19.
4.2 Multivariate multiple Regression
R07
55
In diesem Beispiel sind die Fehler nicht unkorreliert – ein Hinweis darauf, dass unkorrelierte Fehler die Ausnahme sind. Wenn man die Kovarianzmatrix der Fehler
in die zugehörige Korrelationsmatrix umwandelt, erhält man übrigens außerhalb
der Diagonalen gerade die Partialkorrelationen der yi bei auspartialisiertem x.
Es folgt die Zusammenfassung der bisherigen Ergebnisse.
Feststellung 3. Die Matrix Sxe der Kovarianzen der Prädiktoren x mit dem
Fehlervektor e ist die Nullmatrix.
Die Kovarianzmatrix von y hat die Zerlegung
Sy = Sŷ + Se ,
woraus insbesondere die Zerlegung
Spur(Sy ) = Spur(Sŷ ) + Spur(Se )
der Gesamtvarianz folgt.
Für die Kovarianzmatrix der Vorhersage gilt
Sŷ = BSx B0 = BSxy = Sxy B0 = Syx S−1
x Sxy ,
wobei bei der letzten Gleichung die Invertierbarkeit von Sx vorausgesetzt ist; für
die Kovarianzmatrix Se = Sy − Sŷ von e folgt daraus beispielsweise
Se = Sy − BSx B0 = Sy − BSxy = Sy − Syx S−1
x Sxy ,
letzteres wieder nur für invertierbares Sx . ¤
Auch im multivariaten Fall kann es sein, dass die Prädiktoren teilweise unkorreliert sind. Im univariaten Fall war in einer solchen Situation die insgesamt
aufgeklärte Varianz die Summe der durch die Teilgruppen von Prädiktoren aufgeklärten Varianzen. Da der multivariate Fall vom univariaten nicht wesentlich
verschieden ist, sollte hier eine ähnliche Zerlegung möglich sein.
Die Prädiktoren x sollen jetzt also in zwei Teilgruppen x1 und x2 aufgeteilt sein,
zwischen denen die Kovarianzen alle 0 sind; bei entsprechender Partitionierung
haben die Kovarianzmatrix von x = (x1 , x2 ) und die Matrix der Kovarianzen von
x und y dann die Form
µ
¶
µ
¶
Sx1 0
Sx1 y
Sx =
und
Sxy =
.
0 Sx2
Sx2 y
4.2 Multivariate multiple Regression
R07
56
Zerlegt man auch die Koeffizientenmatrix B in einen Teil B1 , der die zu x1
gehörenden Koeffizienten enthält und einen Teil B2 für die zu x2 gehörenden, so
gilt B = (B1 , B2 ) und man kann die Normalengleichungen
µ
¶µ 0¶ µ
¶
Sx1 0
B1
Sx1 y
=
0 Sx2
B02
Sx2 y
durch Ausmultiplizieren zerlegen in
Sx1 B01 = Sx1 y
und
Sx2 B02 = Sx2 y .
Dies sind genau die Normalengleichungen für die Regressionen von y auf x1 und
auf x2 , so dass man wieder die Gesamtlösung B aus zwei durch getrennte Regressionen auf x1 und x2 gewonnene Teillösungen B1 und B2 zusammensetzen kann.
Berechnet man nun die Kovarianzmatrix von ŷ, so erhält man
µ
¶
¡
¢ Sx1 y
Sŷ = BSxy = B1 B2
= B1 Sx1 y + B2 Sx2 y ,
Sx2 y
also genau die Summe der Kovarianzmatrizen der Vorhersagen von y durch x1
und durch x2 . Insgesamt erhält man also die folgende Feststellung:
Feststellung 4. Sind für die in zwei Teile partitionierten Prädiktoren x =
(x1 , x2 ) die Kovarianzen der zu x1 und der zu x2 gehörenden Prädiktoren alle
0, so kann man die Koeffizientenmatrix B der Regression von y auf x zusammensetzen als B = (B1 , B2 ), wo B1 und B2 Koeffizientenmatrizen aus getrennten
Regressionen von y auf x1 und x2 sind. Sind Sŷ1 und Sŷ2 die Kovarianzmatrizen
der Vorhersagen von y durch x1 und durch x2 , so gilt
Sŷ = Sŷ1 + Sŷ2 . ¤
Man hat also auch multivariat eine additive Zerlegung der aufgeklärten Varianz
in zwei Teile, die zu den getrennt behandelten Prädiktorengruppen gehören. Bildet man die Spur, so erhält man eine entsprechende Zerlegung der aufgeklärten
Gesamtvarianz.
Auf die gleiche Weise bekommt man völlig analoge Zerlegungen für den Fall,
dass alle Prädiktoren untereinander unkorreliert sind. Insbesondere ist dann die
(multivariat) aufgeklärte Varianz (im Sinne der Spur) die Summe der durch die
einzelnen Prädiktoren aufgeklärten Varianzen. Die durch einen Prädiktor (multivariat) aufgeklärte Varianz ist dabei die Summe der Diagonalelemente der Kovarianzmatrix der Vorhersage durch diesen Prädiktor, also die Summe der bei den
Kriteriumsvariablen (univariat) durch diesen Prädiktor aufgeklärten Varianzen.
4.2 Multivariate multiple Regression
R07
57
Transformationen. Nun wird wieder untersucht, wie sich die Regressionsgleichung bei Transformationen verhält. Interessanter als bei der univariaten Regression ist die Frage, was geschieht, wenn man das Kriterium durch eine Transformation ändert.
Genauer soll in der schon bekannten Situation der multivariaten multiplen Regression von y auf x eine neue Variable z definiert sein durch z = Cy + d, und
es soll untersucht werden, ob man die Regression von z auf x leicht aus der von
y auf x gewinnen kann.
Dabei wird von C nicht vorausgesetzt, dass es quadratisch oder invertierbar ist,
insofern ist die Fragestellung allgemeiner als bei den schon behandelten univariaten Variablentransformationen.
In der Situation des Beispiels könnte z vielleicht aus 2 Komponenten bestehen
und aus y durch die Gleichung
µ
¶
µ ¶
1 1
1
0
z=
y+
2 −1 −1
−3
gegeben sein.
Zunächst sollen die Normalengleichungen für die neue Regression aufgeschrieben
werden. Auf der rechten Seite ist hier Sxy durch Sxz zu ersetzen, das sich nach
den bekannten Regeln zu Sxy C0 errechnet. Multipliziert man nun die Normalengleichungen Sx B0 = Sxy der Ausgangssituation von rechts mit C0 , so erhält man
die Gleichungen
Sx B0 C0 = Sxy C0 = Sxz ,
die zeigen, dass für jede Lösung B0 der alten Gleichungen die Matrix B0 C0 =
(CB)0 eine Lösung der neuen Gleichungen ist.
Ist nun CB eine Lösung für die Koeffizientenmatrix, so erhält man den Konstantenvektor als z̄ − CBx̄. Setzt man hier Bx̄ = ȳ − a und z̄ = Cȳ + d ein, so erhält
man insgesamt
Cȳ + d − Cȳ + Ca = Ca + d
als Konstantenvektor der Vorhersage.
Die Vorhersage für z ist damit insgesamt CBx + Ca + d = C(Bx + a) + d.
Berücksichtigt man, dass hier Bx + a die Vorhersage ŷ war, so sieht man, dass
man eine Lösung der Regression von z auf x einfach dadurch erhält, dass man
4.2 Multivariate multiple Regression
R07
58
auf eine Lösung der Regression von y auf x die betrachtete affine Abbildung
anwendet. Man kann also kurz ẑ = Cŷ + d schreiben.
Man errechnet sofort die Kovarianzmatrix der neuen Vorhersage und des neuen
Fehlers und erhält damit die nächste Feststellung.
Feststellung 5. Ist ŷ = Bx + a Regression von y auf x, und ist z = Cy + d, so
ist
ẑ = Cŷ + d = CBx + Ca + d
Regression von z auf x. Sind Sŷ und Se die Kovarianzmatrizen von Vorhersage
und Fehler der Regression von y auf x, so sind die entsprechenden Kovarianzmatrizen für die Regression von z auf x die Matrizen CSŷ C0 und CSe C0 . ¤
Man beachte, dass die Feststellung so formuliert ist, dass sie auch für den Fall
einer singulären Kovarianzmatrix Sx der Prädiktoren gültig ist. Falls Sx regulär
ist, sind die Regressionsgleichungen eindeutig, und man kann vor das Wort Re’
gression‘ jedesmal den bestimmten Artikel setzen.
Im Beispiel von oben erhält man für die Regression der neu gebildeten Variable
z auf x als Koeffizientenmatrix und Konstantenvektor


µ
¶
µ ¶
µ
¶ 2
1
2 2
−7
1 1
1 

=
und
Ca + d =
.
CB =
1
2
4 1
−5
2 −1 −1
−1 −1
Spezialfälle sind Summen und Differenzen von Variablen; man erhält also die
Regression einer Summe oder Differenz auf gewisse Prädiktoren x, indem man
die Summe oder Differenz der Einzelregressionen bildet. Dasselbe gilt natürlich
für Linearkombinationen.
Die Summe y1 + y2 + y3 im Beispiel ist gerade z1 ; die Vorhersagegleichung dieser
Summe ist also 2x1 + 2x2 − 7, was sich auch durch Addition der drei Einzelregressionsgleichungen für die yi ergibt.
Was Transformationen auf Prädiktorenseite angeht, so gibt es wegen Feststellung
1 wenig Neues im Vergleich zum univariaten Fall. Man erhält unmittelbar aus
Feststellung 8 aus Kapitel 4.1 die folgende Feststellung:
Feststellung 6. Ist ŷ = Bx + a Regression von y auf x und ist v = G0 x + h
mit einer invertierbaren Matrix G, so ist ŷ, umgeschrieben zu
ŷ = (BG0−1 )v + a − BG0−1 h
4.2 Multivariate multiple Regression
R07
59
auch Regression von y auf v. Für die Regression von y auf v ist also BG0−1 eine
mögliche Koeffizientenmatrix und a − BG0−1 h der zugehörige Konstantenvektor.
Die Fehler der beiden Regressionen sind gleich. ¤
Im Beispiel könnte es vielleicht aus inhaltlichen Gründen sinnvoll sein, die beiden
Prädiktoren durch die Variablen v1 = x1 + x2 und v2 = x2 − x1 zu ersetzen. Hier
ist dann
µ
¶
1 −1
G=
,
1 1
woraus man als neue Koeffizientenmatrix BG0−1 die Matrix


1.5 −0.5
 1.5 0.5 
−1. 0.
berechnet. Da in diesem Beispiel der Vektor h gleich 0 ist, ändert sich hier der
Vektor der additiven Konstanten nicht.
In den meisten Anwendungen kommt es weniger auf die Konstantenvektoren an
als vielmehr auf die Koeffizientenmatrizen.
Wichtige Anwendungen betreffen die Fälle, dass die Prädiktoren oder die Kriteriumsvariablen oder beide Gruppen standardisiert (z-transformiert) werden. Für
diese Fälle sollen nun kurz die Formeln für die Koeffizientenmatrizen angegeben
werden.
Dabei ist es nützlich, für eine Kovarianzmatrix Sx von irgendwelchen in einem
Vektor x zusammengefassten Variablen mit Vx wieder die Diagonalmatrix zu
bezeichnen, die als Diagonalelemente die Varianzen der xj enthält. Die Matrizen
1/2
−1/2
Vx und Vx sind entsprechend die Diagonalmatrizen mit den Streuungen und
den Kehrwerten der Streuungen.
Die Matrizen, die den linearen Anteil der Standardisierungen von x und y bilden
−1/2
−1/2
(dies sind ja affine Abbildungen), sind Vx
und Vy . Diese Matrizen sind
natürlich symmetrisch, stimmen also mit ihren Transponierten überein.
Ist dann B Koeffizientenmatrix der Regression von y auf x, so folgt sofort, dass
die Matrizen
1/2
−1/2
−1/2
1/2
BVx , Vy B
und
Vy BVx
Koeffizientenmatrizen für die neuen Vorhersagen sind, bei denen nur x, nur y
und beide Variablengruppen durch ihre Standardisierungen ersetzt werden.
4.2 Multivariate multiple Regression
R07
60
Die letzte dieser Matrizen besteht natürlich aus den β-Gewichten für die Regressionen der Komponenten von y auf x.
In dem Fall der Standardisierung auf beiden Seiten ist offenbar auch der Konstantenvektor 0.
Rechnet man in standardisierten Variablen, und bezeichnet man die Korrelationsmatrix von x mit Rx und die Matrix der Korrelationen von y mit x mit Ryx ,
so lauten die (hier gleich transponierten) Normalengleichungen
BRx = Ryx .
Mit diesen Gleichungen wird jetzt auch für den multivariaten Fall eine Beziehung
zwischen β-Gewichten (in B) und entsprechenden Korrelationen hergestellt; im
Falle einer regulären Korrelationsmatrix erhält man mit B = Ryx R−1
x auch gleich
die Lösung.
Will man in der Situation der Faktorenanalyse die beobachtbaren Variablen x
durch die Faktoren f vorhersagen, so erkennt man, dass die Ladungsmatrix Λ
in der gerade betrachteten Gleichung eine Lösung für B darstellt, da dann diese
Gleichung gerade die Beziehung zwischen Faktorstruktur und Faktormuster ist.
Es folgt, dass die Vorhersage der beobachtbaren Variablen durch die Faktoren die
Form Λf annimmt, was wiederum mit den dort so genannten reduzierten Variablen übereinstimmt. Damit erweist sich die Bezeichnung x̂ für diese reduzierten
Variablen als im Sinne der Regression stimmig.
Die Gesamtkommunalität ist dann die (multivariat) aufgeklärte Varianz im Sinne der Spur, und bei unkorrelierten Faktoren ist diese Gesamtkommunalität die
Summe der durch die einzelnen Faktoren aufgeklärten Varianzen.
Kovarianztreue Darstellungen und Rotationen. Im Grunde ist in Kapitel
4.1 alles Wesentliche zu den kovarianztreuen Darstellungen gesagt worden. Neu
ist nur, dass in die entsprechenden Abbildungen nicht nur ein Kriterium einzuzeichnen ist, sondern mehrere.
Im Allgemeinen ist eine solche Situation leider der Anschauung nicht mehr zugänglich, da man im einfachsten Fall mit zwei Prädiktoren und zwei Kriteriumsvariablen bereits den vierdimensionalen Raum zur Darstellung benötigt (von uninteressanten Fällen abgesehen, wie beispielsweise dem, dass die beiden Fehler eine
Korrelation von 1 besitzen).
4.2 Multivariate multiple Regression
R07
61
Sinnvollerweise beschränkt man sich daher in der Darstellung auf den von den
Repräsentanten der Prädiktoren aufgespannten Unterraum, in dem sich ja auch
die Repräsentanten der Vorhersagen finden.
Man erhält dann Darstellungen, die ähnlich den Ladungsdiagrammen der Faktorenanalyse sind, was ja, wie sich gerade gezeigt hat, auch kein Zufall ist, da diese
sich vielmehr als Spezialfälle erweisen.
Variablentransformationen auf Prädiktorseite sind in der Faktorenanalyse die so
genannten Rotationen, weshalb auch im allgemeinen Fall jetzt oft diese Bezeichnung verwendet werden soll. Die Motivationen für solche Rotationen sind im
Übrigen in vielen Fällen auch der Wunsch, Variablen zu konstruieren, die im
Sinne der Regression eine womöglich einleuchtendere inhaltliche Deutung zu erlauben scheinen. Ein Beispiel dafür sind die Rotationen im Rahmen der Hauptkomponentenanalyse.
An dem oben immer wieder verwendeten Beispiel mit zwei Prädiktoren und drei
Kriteriumsvariablen sollen nun diese Sachverhalte genauer erläutert werden, wobei ein wichtiger Aspekt immer der ist, dass nicht alles, was im Spezialfall der
Faktorenanalyse gilt, auch im allgemeineren Fall richtig ist.
Zur Notation ist eine Vorbemerkung nötig: Wie in solchen Situationen üblich,
sollen die zur Darstellung von Variablen xj verwendeten Vektoren xj heißen etc..
Die Kollision dieser Bezeichnung mit der Bezeichnung des Vektors der Werte der
j-ten Versuchsperson in allen x-Variablen ist harmlos, da solche Vektoren von
Werten hier gar nicht betrachtet werden.
Die Kovarianzmatrix der Variablen x1 , x2 , y1 , y2 , y3 wurde oben schon angegeben, wo auch schon die Matrix der Regressionsgewichte bestimmt wurde. Diese
Matrix war


2
1
B= 1
2.
−1 −1
Oben hatte sich auch gezeigt, dass hier die Fehler nicht unkorreliert sind (im
Gegensatz zum Modell der Faktorenanalyse).
Es folgt eine kovarianztreue Darstellung der xj und ŷk in der durch die beiden
Prädiktoren aufgespannten Ebene; rechts sind wieder zwei Einheiten des verwendeten Maßstabs.
4.2 Multivariate multiple Regression
R07
62
Die Graphik wurde so hergestellt, dass zuerst die zu den Prädiktoren gehörenden
Vektoren x1 und x2 mit der richtigen Länge und dem zugehörigen Winkel gezeichnet wurden, und dann mit Hilfe des dadurch etablierten Koordinatensystems die
ŷk über ihre Koordinaten, die ja gleich den Regressionsgewichten sein müssen.
.....
ŷ2 ...
..
..... ....
......
.
.
ŷ
.
.
.
.
1
.
.
.
x2 ... . ....
...... .......
.......................
.. ...
... x1
..
...... ŷ3
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
..................................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...............................................................
... .. ... .. ...
.
.
.
Die Längen der Vektoren sind wie üblich die Streuungen der entsprechenden
Variablen; bei den Prädiktoren also deren Streuungen und bei den Vorhersagen der Kriteriumsvariablen die Streuungen dieser Vorhersagen. Da weder die
Prädiktoren noch die Kriteriumsvariablen standardisiert sind, sind die Längen
der xj nicht gleich 1 und die der ŷk nicht ≤ 1. Solange keine weitere Information
über die Streuungen der Variablen yk selber gegeben ist, kann man nichts über
die aufgeklärten (relativen) Varianzanteile sagen (im Gegensatz zur Faktorenanalyse, wo ja die Kommunalitäten aus der Zeichnung ermittelt werden können). Hat
man diese Zusatzinformation, so sind die durch die Varianzen der yk dividierten
quadrierten Längen der ŷk diese relativen aufgeklärten Varianzen.
Was die Winkel zwischen den Vektoren angeht, so sind deren Kosinus die Korrelationen zwischen den entsprechenden Variablen. Leider kann hier für zwei der
ŷk nicht ohne weiteres – wie bei der Faktorenanalyse – aus der Korrelation der
ŷk durch Multiplikation mit den Streuungen dieser Variablen die Kovarianz der
entsprechenden yk ermittelt werden, was daran liegt, dass die Fehler nicht unkorreliert sein müssen. Für jeweils einen Prädiktor und eine Vorhersage hingegen
führt dies Verfahren zu der korrekten Kovarianz, wie man sich leicht überlegt.
In den nächsten beiden Graphiken sind mehrere Sachverhalte illustriert. Einerseits erinnern im linken Teil die Koordinatenlinien bei ŷ3 daran, dass die Koordinaten bezüglich des x1 -x2 -Systems gerade die Regressionsgewichte sind. Die
von ŷ1 auf die Achsen gefällten Lote lassen entsprechend die Regressionsgewichte
bei einfachen linearen Regressionen ablesen (mit der Kenntnis der Varianzen der
yk kann man auch die β-Gewichte und die Korrelationen ermitteln, wie im letz-
4.2 Multivariate multiple Regression
R07
63
ten Kapitel gezeigt wurde; man beachte aber, dass wegen der unterschiedlichen
Varianzen der yk die entsprechenden Längen bei unterschiedlichen Kriteriumsvariablen nicht direkt vergleichbar sind). Im rechten Teil ist illustriert, dass man
den Repräsentanten v̂ der Regression der Summe v = y1 + y2 auf die Prädiktoren
einfach als entsprechende Linearkombination ŷ1 + ŷ2 der Repräsentanten der
Einzelvorhersagen findet.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
...
..........
...
........ ...
...
........
..
........
...
.
.
.
.
.
..
.
.
... ..........
..
......
..
...
..
...
..
...
..
...
..
...
.
...................................................................................................................................................
..
...
...
..
...
..
...
..
...
..
...
..
...
..
...
..
...
..
...
..
.
.................................
...
...
...
...
...
.....
ŷ2 ...
..
.
.... ...
.......
... ..
.
.
.
.
x2 .. .. .....
..... ...... ŷ1
......... ..
....................
... x1
..
....... ŷ3
....
....
.
..
.
.
..... v̂...
ŷ2 ... ...
.. ..
.
.... .... ... .......
. . . ..
x2.... ... ... .......
....... ...... ŷ1
........... ..
....................
... x1
..
....... ŷ3
.
...........................
. ...
..... . ... .
.....
.
.
.
.
....
..
...
.....
.....
...
.....
.
.
.
.
...
...
.
.
.
...
.
...
.
.
.
.
...
...
.
.
.
...
.
....
....
..
...
...
...
...
...
...
...
...
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..................................................................................................................................................
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...............................................................
... .. ... .. ...
.
.
.
In der nächsten Darstellung sind sowohl die Prädiktoren wie die Kriteriumsvariablen standardisiert; die standardiserten xj sollen dabei zj heißen und die
standardisierten yk den Namen uk bekommen. Im Vergleich zur ursprünglichen
Darstellung sind hier die Vektoren durch die Streuungen der xj einerseits und der
yk andererseits zu dividieren. Das führt dazu, dass die zj die Länge 1 besitzen und
die ûk höchstens diese Länge haben können, da ihre quadrierte Länge nun die
relative aufgeklärte Varianz ist. Der Maßstab der Zeichnung ist größer gewählt
und es ist auch der Einheitskreis eingezeichnet, der auf die gerade geschilderten
Verhältnisse bei den Längen der Vektoren hinweist.
.... ....
... ..
z2 .... ... û2 .....
... .. ......
..... ...... û1
...........................................
.
z1 .
..
...
.
...... û3
...
...
..................................................
.................................................
........
........
.............
...........
.......
.......
....... .............
....... ....
......
......
......
...
......
.
...
.
......
.
.
.
.
.
.
.
.
.
.
.
.....
.....
...
...
...
....
.
.
.
.
.
.
.
.
.....
.
.
.....
...
...
..
..
.
.
.
.
....
.
.
.
.
.
...
....
...
..
...
...
.
.
.
.
.
.
.
.
...
...
...
.
...
.
...
.
.
...
.
.
.
...
...
...
.
...
..
.
.
.
.
.
...
...
...
.
...
..
.
.
.
.
.
...
...
...
...
.
.
...
....
.
...
...
...
...
...
...
....
...
...
...
.
.
...
...
...
.
...
...
..
.
..
...
.
.
.
.
.................................................................................................................................................................................... .......................................................................................................................................................................................................................
...
...
.
.
...
.
.
...
..
...
...
...
..
.
.
.
.
...
...
...
...
..
..
...
...
...
...
..
..
.
.
.
.
.
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
..
..
.
.
.
.
.
.
.
.
...
...
...
...
..
..
.....
.....
...
...
....
....
.....
.....
...
...
.....
.....
.....
.....
.....
.....
...
...
......
......
......
......
.
.
...
.
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
... .......
.......
.. ........
.........
.........
..........
................
.......................................................
.................................
...
.
r
û2
z2
r
û1
z1
r û
3
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. ..
.... ..... .... .... ..... .... .... ..... .... .... .... ..... .... .... ..... .... .... ..... .... .... ....
... . . . . ... . . . . .. . . . . ... . . . . ..
...
...
...
...
...
...
...
...
...
...
...
...
...
.
.
...
...
...
...
...
...
...
.
..
..
4.2 Multivariate multiple Regression
R07
64
Hier liegen nun fast die aus der Faktorenanalyse bekannten Verhältnisse vor. Die
Darstellung der vorhergesagten Variablen durch Pfeile ist links zur Vergleichbarkeit mit der ersten Abbildung beibehalten worden; daneben findet sich die
vertrautere Darstellung mit Punkten. Als Koordinaten der ûk liest man die βGewichte ab und mit Hilfe der Lote die Korrelationen der yk mit den xj . Zum
Vergleich folgen die nach den gegebenen Formeln berechneten Matrizen der βGewichte und der Korrelationen:




0.8
0.6
0.6
0.3333
0.3333
 0.
1. 
0.8889  .
−0.5 −0.75
−0.25 −0.5833
Der Unterschied zu den Verhältnissen bei der Faktorenanalyse liegt aber immer
noch darin, dass die Korrelationen der vorhergesagten Variablen wegen der korrelierenden Fehler nicht durch Multiplikation mit den zugehörigen Streuungen in
die Korrelationen der Originalvariablen umgerechnet werden können.
Als letztes folgt noch die Darstellung einer Rotation. Als neue Prädiktoren sollen
nun die Variablen v1 = x1 + x2 und v2 = x2 − x1 dienen. Die Rotationsmatrix ist
daher
µ
¶
1 −1
G=
,
1 1
woraus man als neue Koeffizientenmatrix BG0−1 die Matrix


1.5 −0.5
 1.5 0.5 
−1. 0.
berechnet.
Wie gewohnt kann man in die ursprüngliche Darstellung die Repräsentanten der
neuen Prädiktoren als die entsprechenden Linearkombinationen eintragen und
dann in dem zugehörigen neuen Koordinatensystem in der gleichen Weise Kennwerte ermitteln wie in dem alten. Es folgt nun diese Darstellung, zusätzlich dieselbe Darstellung mit den eher vertrauten Punkten statt der Vektoren für die
vorhergesagten Variablen.
4.2 Multivariate multiple Regression
.....
ŷ2 ...
..
..
......
.. ..... ........
......
. . ...
v2 ....... ... ...v..1..... ŷ1
...... .........
.............
..
...
.
....... ŷ3
.....
..
.....
.....
...
.....
...
.....
..
.
.....
.....
...
.....
...
.....
..
.....
..
.....
.
.
.....
.....
...
.....
...
.....
......
..
.....
..
........
.....
.
.
.
.
.....
. ...
.....
...
...
.....
...
...
.....
...
.....
...
.....
..
.
.
.
.
.....
..... .... ....
..... ... ..
..... .. ...
..... .. .
..........
..................................................
..
...
... .........
.....
...
.....
..
.
.....
..
.....
.
.....
...
.....
.....
...
.....
...
.....
..
.....
.
.....
..
.
.....
..
.....
.
.....
..
.
.....
..
.....
.
.....
..
.
.....
..
.....
.
..
.
R07
ŷ2
65
r
.....
..
.....
.....
...
.....
...
.....
..
.
.....
.....
...
.....
...
.....
..
.....
..
.....
.
.
.....
..
.....
..
.....
.....
...
......
...
...............
..........
...........
.......
.
.
.
.....
. ..
...
.....
...
.....
...
...
.....
...
...
.....
...
..
.....
.
.
..... ...
..... .. ....
..... .. ..
..... ... ..
....... ..
........
.....
................................................
... .........
.....
...
.....
..
.
.....
.....
...
.....
...
.....
.....
...
.....
..
.
.....
..
.....
.
.....
..
.
.....
..
.....
.
.....
..
.
.....
..
.....
.
.....
..
.
.....
..
.....
.
..
.
r
v1
v2
r
ŷ1
...............................................................
... .. ... .. ...
.
.
.
ŷ3
Natürlich wäre hier auch eine graphische Rotation möglich gewesen, bei der man
sich die neuen Achsen in geeigneter Lage zu den Punkten gesucht hätte.
Regression und Determinante. In diesem Abschnitt sollen Beziehungen zwischen den Determinanten der Kovarianzmatrizen der bei der Regression beteiligten Variablen untersucht werden.
Die Beziehung y = Bx + e kann man etwas künstlich erweitern, indem man die
Gleichung x = x am Anfang hinzufügt. Fasst man dann x und y zu einem Vektor
zusammen und ebenso x und e, so erhält man die Gleichung
µ ¶ µ
¶µ ¶
x
I 0
x
=
,
y
B I
e
aus der man unmittelbar folgende Gleichung für Kovarianzmatrizen erhält:
µ ¶
µ
¶
µ ¶ µ
¶
x
I 0
x
I B0
V(
)=
V(
)
.
y
B I
e
0 I
Die Determinante der Kovarianzmatrix von (x, y) ist daher das Produkt der
Determinanten der Matrizen auf der rechten Seite. Die Determinanten der beiden Matrizen rechts und links sind hier 1, und wegen der Unkorreliertheit von
Prädiktoren und Fehlern ist
µ ¶
µ
¶
x
Sx 0
V(
)=
e
0 Se
und daher die Determinante der mittleren Matrix gleich dem Produkt der Determinanten von Sx und Se . Insgesamt erhält man
µ ¶
x
det(V(
)) = det(Sx ) det(Se ) .
y
4.2 Multivariate multiple Regression
R07
66
Schreibt man für die Kovarianzmatrix von (x, y) etwas kürzer S(x,y) und für die
Kovarianzmatrix des Fehlers deutlicher Sy.x , so erhält man
det(S(x,y) ) = det(Sx ) det(Sy.x ) .
Feststellung 7. Bei einer multivariaten multiplen Regression von y auf x gilt
für die Determinanten der Kovarianzmatrix S(x,y) von (x, y), der Kovarianzmatrix Sx der Prädiktoren x und der Residualkovarianzmatrix Sy.x des Fehlers die
Beziehung
det(S(x,y) ) = det(Sx ) det(Sy.x ) . ¤
In dem oben betrachteten Beispiel bestimmt man mit etwas Aufwand die Determinante der (5 × 5)-Kovarianzmatrix der beiden x-Variablen und der drei
y-Variablen zu 2080. Die Determinante der (2 × 2)-Kovarianzmatrix der beiden
x-Variablen ist 32 und die der (3 × 3)-Kovarianzmatrix der Fehlervariablen gleich
65. In der Tat gilt hier 2080 = 32 · 65.
Mit der Beziehung aus der letzten Feststellung kann der Determinante einer Kovarianzmatrix eine neue Bedeutung gegeben werden, was nun geschehen soll.
Zunächst gilt für den Spezialfall, dass y nur aus einer Variable besteht, dass die
2
2
Varianz des Fehlers gleich Sy2 (1 − Ry,x
) ist, wo Sy2 die Varianz von y ist und Ry,x
der Determinationskoeffizient der Regression von y auf x. Man erhält dann die
Gleichung
2
det(S(x,y ) ) = det(Sx ) Sy2 (1 − Ry,x
).
Betrachtet man nun für nur noch einen Variablenvektor x die Regression der
letzten Variable xp auf die vorherigen, die zu einem Vektor x1 = (x1 , . . . , xp−1 )0
zusammengefasst seien, und schreibt man für den Determinationskoeffizienten
2
dieser Regression Rp,1...(p−1)
, so erhält man
¢
¡
2
.
det(Sx ) = det(Sx1 ) Sx2p 1 − Rp,1...(p−1)
Auf die gleiche Art kann man aber auch Sx1 darstellen und diesen Prozess weiterführen bis man bei nur noch einer Variable angelangt ist. Mit der Bezeich2
für den Determinationskoeffizienten der Regression von xq+1 auf
nung Rq+1,1...q
(x1 , . . . , xq ) ergibt sich so
¡
¢
¡
¢
2
2
det(Sx ) = Sx21 Sx22 1 − R2,1
. . . Sx2p 1 − Rp,1...(p−1)
4.2 Multivariate multiple Regression
R07
67
oder umgeordnet
¡
¢¡
¢ ¡
¢
2
2
2
det(Sx ) = Sx21 Sx22 . . . Sx2p 1 − R2,1
1 − R3,12
. . . 1 − Rp,1...(p−1)
.
Die Determinante von Sx ist also das Produkt der Varianzen der xj mit den
¡
¢
2
Faktoren 1 − Rq+1,1...q
, die jeweils die (relativen) aufgeklärten Varianzanteile
angeben, wenn man Regressionen der Einzelvariablen auf die jeweils vorhergehenden durchführt.
Dividiert man daher die Determinante von Sx durch das Produkt der Varianzen,
¡
¢
2
so erhält man mit dem Produkt der 1 − Rq+1,1...q
ein Maß für die Abhängigkeit
der Variablen untereinander im Sinne der relativen Varianzaufklärung durch Regressionen.
Berücksichtigt man ferner, dass die Korrelationsmatrix Rx sich auch schreiben
−1/2
−1/2
lässt als Vx Sx Vx (wobei Vx wieder die Diagonalmatrix der Varianzen der
xj ist), so folgt
−1/2
) det(Sx ) det(Vx
−1/2
) det(Vx
det(Rx ) = det(Vx
= det(Vx
−1/2
−1/2
)
) det(Sx )
−1
= det(Vx
) det(Sx ) = det(Sx )/ det(Vx ) ,
und da die Determinante von Vx gerade das Produkt der Varianzen Sx2j ist, so
ergibt sich
¡
¢¡
¢ ¡
¢
2
2
2
det(Rx ) = 1 − R2,1
1 − R3,12
. . . 1 − Rp,1...(p−1)
.
Feststellung 8. Sind Sx und Rx die Kovarianz- und Korrelationsmatrix der
2
Variablen xj mit Varianzen Sx2j , und ist Rq+1,1...q
der Determinationskoeffizient
bei Regression von xq+1 auf x1 , . . . , xq , so gilt
¢¡
¢ ¡
¢
¡
2
2
2
det(Rx ) = 1 − R2,1
1 − R3,12
. . . 1 − Rp,1...(p−1)
und
¡
¢¡
¢ ¡
¢
2
2
2
det(Sx ) = Sx21 Sx22 . . . Sx2p 1 − R2,1
1 − R3,12
. . . 1 − Rp,1...(p−1)
.
Für die Determinanten von Kovarianz- und Korrelationsmatrix gilt ferner
´
.³
det(Rx ) = det(Sx )
Sx21 . . . Sx2p . ¤
4.2 Multivariate multiple Regression
R07
68
Nebenbei ergibt sich damit übrigens eine Abschätzung der Determinante: Da die
Determinationskoeffizienten alle zwischen 0 und 1 liegen, ist dasselbe der Fall für
die Faktoren bei der Kovarianzmatrix, und es folgt
0 ≤ det(Sx ) ≤ Sx21 . . . Sx2p
und für die Korrelationsmatrix entsprechend
0 ≤ det(Rx ) ≤ 1 .
Hier drängt sich natürlich die Frage auf, unter welchen Bedingungen die Determinante minimal (also 0) und maximal (also 1) ist. An der gerade hergeleiteten
Produktdarstellung sieht man, dass die Determinante genau dann gleich 0 ist,
wenn mindestens einer der Faktoren 0 ist. Da alle Faktoren ≤ 1 sind, ist die
Determinante genau dann 1, wenn alle Faktoren gleich 1 sind.
Nun erhält man die Faktoren dadurch, dass man von 1 einen Determinationskoeffizienten abzieht. Es folgt, dass die Determinante genau dann 0 ist, wenn
mindestens einer der Determinationskoeffizienten 1 ist, und genau dann 1, wenn
alle Determinationskoeffizienten 0 sind. Diese beiden Möglichkeiten sind nun genauer zu bestimmen.
Die Feststellung 3 aus Kapitel 4.1 zeigt, dass ein Determinationskoeffizient genau
dann 0 ist, wenn das Kriterium mit keinem Prädiktor korreliert. Der Fall, dass alle
Determinationskoeffizienten im Produkt 0 sind, tritt also genau dann ein, wenn
für alle Variablen die Korrelationen mit den in der Reihenfolge vorangehenden
Variablen alle 0 sind, mit anderen Worten genau dann, wenn alle Korrelationen
0 sind, wenn also die Korrelationsmatrix die Einheitsmatrix ist.
Der Fall, dass ein Determinationskoeffizient 1 ist, ist hingegen gleichbedeutend
damit, dass die Vorhersage mit dem Kriterium übereinstimmt. Hier heißt das,
dass eine der Variablen perfekt durch die vorangehenden vorhergesagt werden
kann. Dann kann sie natürlich erst recht perfekt vorhergesagt werden, wenn man
die übrigen Variablen auch noch zu den Pädiktoren hinzufügt. Kann umgekehrt
eine Variable perfekt durch die anderen vorhergesagt werden, so erhält man eine
Variable der Varianz 0, wenn man die Vorhersage von dieser Variable abzieht –
mit anderen Worten gibt es eine Linearkombination der Variablen, bei der nicht
alle Koeffizienten 0 sind und die die Varianz 0 besitzt. Hieraus folgt jedoch, dass
die Kovarianzmatrix der Variablen nicht positiv definit und folglich singulär ist,
was sich auch auf die Korrelationsmatrix überträgt. Lässt sich also eine Variable
4.2 Multivariate multiple Regression
R07
69
durch die übrigen perfekt vorhersagen, so ist auch die Determinante der Korrelationsmatrix gleich 0.
Insgesamt erhält man so das folgende Resultat:
Feststellung 9. Die Determinante einer Korrelationsmatrix ist genau dann 0,
wenn eine der Variablen perfekt durch die anderen vorhergesagt werden kann,
und sie ist genau dann 1, wenn alle Variablen unkorreliert sind.
In diesem Sinn kann man die Determinante einer Korrelationsmatrix deuten als
Hinweis darauf, in welchem Ausmaß Variablen durch die anderen vorhergesagt
werden können. Ist die Determinante 0, so kann (mindestens) eine Variable perfekt durch die anderen vorhergesagt werden, ist die Determinante 1, so sind alle
Korrelationen 0 und alle Vorhersagen einer Variablen durch die jeweils anderen
sind konstant, also nutzlos.
Bei Werten, die nicht 0 oder 1 sind, ist zur Interpretation die Darstellung der
Determinante als Produkt aus Feststellung 8 hilfreich.
Mit aller gebotenen Vorsicht kann man so die Determinante einer Korrelationsmatrix als ein Maß für die Multikollinearität benutzen, wobei kleine Werte für
starke wechselseitige Abhängigkeiten sprechen und große Werte für geringe.
Regression und Inverse. Auch die Inverse der Kovarianzmatrix der Prädiktoren
x und Kriteriumsvariablen y enthält (zumindest theoretisch) noch interessante
Informationen.
Es soll also jetzt vorausgesetzt sein, dass diese Matrix invertierbar ist. Weiter oben
hat sich schon ein Zusammenhang mit der Kovarianzmatrix der Prädiktoren und
der Residuen gezeigt, nämlich
µ ¶
µ
¶
µ ¶ µ
¶
x
I 0
x
I B0
V(
)=
V(
)
,
y
B I
e
0 I
wobei B die Matrix der Regressionsgewichte war.
Diese Gleichung soll nun invertiert werden (wenn die Matrix auf der linken Seite
invertierbar ist, so müssen auch die auf der rechten Seite invertierbar sein). Als
erstes soll das Inverse der ersten Matrix auf der rechten Seite bestimmt werden.
Hier prüft man sofort nach, dass
µ
¶µ
¶ µ
¶ µ
¶
I 0
I 0
I
0
I 0
=
=
B I
−B I
B−B I
0 I
4.2 Multivariate multiple Regression
gilt, also
µ
I 0
B I
R07
¶−1
µ
=
I 0
−B I
70
¶
.
Durch Transponieren erhält man
µ
I B0
0 I
¶−1
µ
=
I −B0
0
I
¶
.
Da die Kovarianzmatrix der Prädiktoren und der Fehler invertierbar ist, müssen
auch die beiden Matrizen in ihrer Diagonale invertierbar sein (da sie ja sonst
einen Rangdefekt hätte), und man erhält (wieder mit der Schreibweise Sy.x für
die Kovarianzmatrix von e)
µ ¶
µ
¶
¶−1 µ −1
x −1
Sx
0
Sx
0
V(
) =
=
.
e
0 Sy.x
0 S−1
y.x
Insgesamt folgt
µ ¶
µ
¶−1
µ ¶
µ
¶−1
x −1
I B0
x −1 I 0
V(
)
=
V(
)
y
0 I
e
B I
µ
¶ µ −1
¶ µ
¶
I −B0
Sx
0
I 0
=
0
I
0 S−1
−B I
y.x
à −1
!
0 −1
Sx + B0 S−1
y.x B − B Sy.x
=
.
−1
− S−1
B
S
y.x
y.x
Der Teil der Inversen der Kovarianzmatrix von x und y, der y entspricht, ist also
gerade das Inverse der Kovarianzmatrix des Residuums. Diese Kovarianzmatrix
kann man also (theoretisch) auch berechnen, indem man zunächst die Kovarianzmatrix von x und y invertiert und dann den zu y gehörenden Teil des Ergebnisses
noch einmal invertiert.
Feststellung 10. Bei einer multiplen multivariaten Regression eines q-dimensionalen Kriteriums y auf einen p-dimensionalen Prädiktor x erhält man, falls die
Kovarianzmatrix K von (x, y) invertierbar ist, die Kovarianzmatrix Sy.x des Residuums auch als Inverse der rechten unteren (q × q)-Teilmatrix von K−1 . ¤
4.2 Multivariate multiple Regression
R07
71
Beispielsweise sei die Kovarianzmatrix von zwei Prädiktorvariablen und drei Kriteriumsvariablen die folgende Matrix:


1
2 −1 −1 −2
2
5 −3 −1 −3




−1 −3 3 −3 −2 .


−1 −1 −3 12 14 
−2 −3 −2 14 19
Die Inverse dieser Matrix berechnet man zu


7 −5 −4 −2 1
−5 10 13 6 −2




−4 13 19 9 −3 ,


−2 6
9
5 −2
1 −2 −3 −2 1
und hier ist der Teil, der y entspricht, gerade


19 9 −3
9
5 −2 .
−3 −2 1
Die Inverse dieser Matrix ist die Kovarianzmatrix des Fehlers, so dass man schließlich


1 −3 −3
Sy.x = −3 10 11 
−3 11 14
erhält.
Ein Spezialfall ist der mit nur einer Kriteriumsvariable. Die Fehlervarianz bei
einer nun univariaten multiplen Regression ist dann der Kehrwert des Elements,
das unten rechts in der Inversen der Kovarianzmatrix der Prädiktoren und des
Kriteriums steht. Wollte man im eben betrachteten Beispiel die letzte Variable
mit den ersten vier vorhersagen, so wäre die Fehlervarianz der Kehrwert des
Elements unten rechts in der Inversen, also der Kehrwert von 1 und damit 1.
Was für die letzte Variable gilt, gilt jedoch ebenso für alle anderen Variablen: Jedes Diagonalelement der Inversen der Kovarinanzmatrix einer Variablen x ist der
Kehrwert der Residualvarianz bei Regression der entsprechenden Komponente
von x auf alle anderen Komponenten. Ist die oben betrachtete Kovarianzmatrix nun die Kovarianzmatrix von 5 Variablen xi , so ist beispielsweise das zweite
4.2 Multivariate multiple Regression
R07
72
Diagonalelement 10 der Inversen gerade der Kehrwert der Residualvarianz bei
Regression von x2 auf die übrigen Variablen; diese Residualvarianz ist folglich
gleich .1.
Dies folgt aus dem gerade behandelten Fall beispielsweise folgendermaßen: Geht
es um das i-te Diagonalelement, so definiert zunächst eine Matrix T, die auf einen
Vektor x angewendet gerade das i-te und das letzte Element vertauscht. Diese
Matrix T ist dann offenbar die Einheitsmatrix, bei der man die i-te und die letzte
Spalte vertauscht; im Beispiel mit den 5 Variablen, in dem x2 durch die restlichen
Variablen vorhergesagt werden soll, wäre T gerade


1 0 0 0 0
0 0 0 0 1 




0 0 1 0 0  .


0 0 0 1 0 
0 1 0 0 0
Die Matrix T hat offenbar die bemerkenswerten Eigenschaften T2 = I, also T−1 =
T, und T0 = T.
In dem Vektor Tx stehen die Variablen nun in einer brauchbaren Reihenfolge,
weshalb der Kehrwert des Elements unten rechts im Inversen der Kovarianzmatrix von Tx gerade die gesuchte Residualvarianz ist. Nun ist die Kovarianzmatrix
von Tx aber TV(x)T0 und besitzt wegen der Eigenschaften von T die Inverse
TV(x)−1 T. Man erkennt jedoch sofort, dass das Element rechts unten in dieser
Matrix gerade gerade das i-te Diagonalelement von V(x)−1 ist, da die Multiplikationen mit T von links und rechts gerade die i-te Zeile bzw. Spalte mit der
letzten Zeile bzw. Spalte vertauscht. Die Behauptung ist damit gezeigt.
Feststellung 11. Ist K die Kovarianzmatrix einer Variable x, so sind die Kehrwerte der Diagonalelemente von K−1 gerade die Residualvarianzen bei Regression
der xi auf die jeweils restlichen Komponenten xj von x. ¤
Geht man beispielsweise von einer Korrelationsmatrix aus (also der Kovarianzmatrix der standardisierten Variablen), so sind die Kehrwerte der Diagonalelemente
der invertierten Kovarianzmatrix wieder die Residualvarianzen, wobei aber jetzt
die Gesamtvarianzen 1 sind. Zieht man also diese Werte von 1 ab, so erhält man
die entsprechenden Determinationskoeffizienten.
4.2 Multivariate multiple Regression
Beispielsweise sei
R07
73


1. 0.6 0.36
 0.6 1. 0.6 
0.36 0.6 1.
die Korrelationsmatrix von drei Variablen. Die Inverse dieser Matrix berechnet
sich zu


1.5625 −0.9375
0
−0.9375 2.125 −0.9375 .
0
−0.9375 1.5625
Die Kehrwerte der Diagonalelemente 1.5625, 2.125 und 1.5625 sind hier 0.64,
0.470588 und 0.64, weshalb sich die Determinationskoeffizienten zu .36, .529412
und .36 errechnen.
Herunterladen