R07 4 4.1 1 Regression Univariate multiple Regression Dieses Kapitel behandelt ein Thema, das aus der Elementarstatistik weitgehend bekannt ist, nämlich die univariate multiple Regression. In der Elementarstatistik wird meistens die empirische Fragestellung bearbeitet. Ähnliche Probleme treten aber auch auf theoretischer Ebene auf und lassen sich völlig analog behandeln. Um dies etwas klarer zu machen, soll in den ersten Abschnitten, die weitgehend der Wiederholung schon bekannter Sachverhalte dienen, die theoretische Version der Regression dargestellt werden – man wird leicht erkennen, dass dabei die formalen Unterschiede ganz unwesentlich sind und sich eigentlich auf den Austausch von Symbolen beschränken. Als praktisch für die Formulierungen erweist sich die Verfügbarkeit der Vektor- und Matrizenschreibweise. Die Möglichkeit der kovarianztreuen Darstellung hilft dazu, viele auf den ersten Blick merkwürdige Phänomene der multiplen Regression und der Partialkorrelation durchsichtiger zu machen. Problemstellung und Lösung. Im ersten Abschnitt wird das Problem gestellt und gelöst. Die (im Prinzip schon zum großen Teil bekannten) Erörterungen werden am Ende in einer Feststellung zusammengefasst. Gegeben seien also p Zufallsvariablen xj , zusammengefasst zu einem Zufallsvektor x – die Prädiktoren – und eine weitere Zufallsvariable y – das Kriterium. Alle diese Zufallsvariablen sollen natürlich auf einem gemeinsamen Wahrscheinlichkeitsraum definiert sein. Außerdem ist vorauszusetzen, dass alle diese Zufallsvariablen eine endliche Varianz besitzen. Als Beispiel kann man sich vorstellen, dass man sich für die Variablen nicht auf Stichprobenebene interessiert, sondern auf Populationsebene, dass es also um so etwas wie eine wahre‘ Regressionsgleichung geht, im Gegensatz zu der, die man ’ mit Hilfe einer empirischen Stichprobe errechnet. Ziel ist es, das Kriterium y mit Hilfe einer Linearkombination der xj möglichst gut vorherzusagen‘, besser würde man sagen zu approximieren‘. Wie üblich darf man ’ ’ sich durch die Verwendung der traditionellen Terminologie nicht zu der falschen Assoziation einer zeitlichen Reihenfolge oder gar einer kausalen Beziehung hin- 4.1 Univariate multiple Regression R07 2 reißen lassen. Unter einer Linearkombination ist hier natürlich eine Linearkombination im statistischen Sinn zu verstehen, nicht etwa eine im Sinn der linearen Algebra; gesucht P sind also Koeffizienten bj und eine additive Konstante a, so dass bj xj + a eine möglichst gute Vorhersage darstellt. Fasst man die Koeffizienten bj zu einem p-Vektor b zusammen, so kann man die Aufgabe auch so formulieren, dass ein Vektor b und eine Zahl a gesucht sind, so dass ŷ = b0 x + a als Vorhersage optimal ist. Das Wort optimal‘ ist allerdings noch zu präzisieren, damit die Forderung über’ haupt einen Sinn erhält. Die Präzisierung ist dabei natürlich – entsprechend der Methode der kleinsten Quadrate im Deskriptiven – die, dass der Erwartungswert der quadrierten Abweichung e der Variable y von der Vorhersage ŷ minimal werden soll. Zu einer gegebenen Vorhersage ŷ = b0 x + a ist der Fehler – oft auch Residuum genannt – also definiert als e = y − ŷ = y − b0 x − a , und das Ziel ist, durch geeignete Wahl von b und a den Erwartungswert E(e2 ) zu minimieren. Es gilt nun bekanntlich E(e2 ) = V(e) + (E(e))2 , und man kann daher versuchen, die Minimierungsaufgabe in zwei Teile zu zerlegen, nämlich in die, die beiden Summanden auf der rechten Seite dieser Gleichung zu minimieren. Dabei hängt der erste Summand (wie sich gleich zeigen wird) nicht von der additiven Konstante a ab, und man erhält daher ein Minimum von E(e2 ), indem man zunächst durch eine geeignete Wahl von b den ersten Summanden V(e) minimiert, und dann durch eine geeignete Wahl von a dafür sorgt, dass der zweite Summand (E(e))2 gleich 0 wird – dieser Summand, der ja ein Quadrat ist, ist nämlich offenbar nichtnegativ, so dass ein kleinerer Wert als 0 nicht erzielt werden kann. 4.1 Univariate multiple Regression R07 3 Der zweite, einfachere Schritt soll schon vorgezogen werden. Der Erwartungswert von e ist E(y − b0 x − a) = E(y) − b0 E(x) − a was offenbar genau durch a = E(y) − b0 E(x) zu Null gemacht wird. Die optimale Vorhersagegleichung hat daher die Eigenschaft, dass man, setzt man E(x) als Wert für x ein, als Vorhersage E(y) erhält: b0 E(x) + a = b0 E(x) + E(y) − b0 E(x) = E(y) . Für den Erwartungswertvektor von x wird also der Erwartungswert von y vorhergesagt. Die in diesem Schritt erfüllte Forderung E(e) = 0 entspricht auch genau dem, was man von einem Fehler erwartet. Es bleibt der erste Schritt zu erledigen. Hierzu sollen zunächst einige Bezeichnungen eingeführt werden. Die Kovarianzmatrix der aus x und y zusammengesetzten Variablen (x, y) (eigentlich (x0 , y)0 ) soll sogleich geeignet partitioniert werden, indem am jeweiligen Ende die zu y gehörende Zeile und Spalte abgetrennt werden. Die Teile der entstehenden partitionierten Matrix sollen folgendermaßen abgekürzt werden: ¶ µ K k , k0 κ wobei wegen der Symmetrie der gesamten Matrix der erste Teil der letzten Zeile der transponierte erste Teil der letzten Spalte ist, die Bezeichnung k0 dafür also korrekt ist. Ausgeschrieben gilt also K = V(x) , k = C(x, y) , κ = V(y) . Offenbar kann man nun e auch schreiben als µ ¶ ¡ 0 ¢ x e = −b 1 −a, y weshalb sich die Varianz von e nach den Regeln über partitionierte Matrizen berechnet zu µ ¶µ ¶ ¡ 0 ¢ K k −b V(e) = −b 1 0 k κ 1 µ ¶ ¡ ¢ −Kb + k = −b0 1 −k0 b + κ = b0 Kb − b0 k − k0 b + κ , 4.1 Univariate multiple Regression R07 4 was wegen b0 k = k0 b auch V(e) = b0 Kb − 2 b0 k + κ geschrieben werden kann. Es soll gleich noch der Vektor der Kovarianzen von x und e ausgerechnet werden; für C(x, e) (dies ist ein p-Vektor) ergibt sich C(x, e) = C(x, y − b0 x − a) = C(x, y) − C(x, x)b = k − Kb . Es liegt die Vermutung nahe, dass dieser Vektor gleich 0 sein muss, denn würde der Fehler noch mit irgendeinem Prädiktor korrelieren, so könnte man womöglich einen zusätzlichen Teil des Fehlers durch eine modifizierte Vorhersage erklären‘. ’ Es soll daher allgemein berechnet werden, wie sich die Varianz des Fehlers ändert, wenn man die Vorhersagegewichte etwas modifiziert. Die Modifikation soll darin bestehen, dass zu b noch das h-fache eines Vektors d hinzuaddiert wird, wobei die Wahl von d und h zunächst noch offen bleibt. Ersetzt man also in der Formel für die Varianz von e den Vektor b durch b + hd, so erhält man für die Varianz des neuen Fehlers, der jetzt zur Unterscheidung e1 heißen soll, den Wert V(e1 ) = (b + hd)0 K(b + hd) − 2 (b + hd)0 k + κ = b0 Kb + hb0 Kd + hd0 Kb + h2 d0 Kd − 2 b0 k − 2h d0 k + κ = b0 Kb − 2 b0 k + κ + h2 d0 Kd + 2h d0 Kb − 2h d0 k = V(e) + h2 d0 Kd − 2h d0 (k − Kb) , wobei an einer Stelle d0 Kb = b0 Kd benutzt wurde, was sofort durch Transponieren aus der Symmetrie von K folgt. Man beachte, dass in der letzten Klammer der Vektor k − Kb der Kovarianzen von x und e auftaucht. Die Varianzen von e1 und e unterscheiden sich also um h2 d0 Kd − 2h d0 (k − Kb). Nun soll gezeigt werden, dass diese Differenz bei geeigneter Wahl von h und d kleiner als Null werden kann, wenn C(x, e) = k − Kb nicht 0 ist. Wenn dies gezeigt ist, folgt sofort, dass bei der optimalen Lösung C(x, e) = k − Kb gleich 0 sein muss, denn sonst ließe sich die Varianz des Fehlers ja noch weiter verkleinern. Um die gerade aufgestellte Behauptung zu beweisen, setzt man zunächst d = k − Kb. Dies ist nach Voraussetzung nicht 0, weshalb dann d0 d als quadrierte 4.1 Univariate multiple Regression R07 5 Länge von d größer als 0 ist. Der untersuchte Ausdruck lässt sich jetzt schreiben als h2 d0 Kd − 2h d0 (k − Kb) = h2 d0 Kd − 2h d0 d , und es ist noch h geeignet zu wählen. Ist nun einerseits d0 Kd = 0 (was übrigens nicht möglich ist, wie eine genauere Untersuchung zeigt), so wählt man h = 1, um ein echt negatives Ergebnis zu erhalten; ist andererseits d0 Kd 6= 0, so ist es sogar größer als Null, da ja K = V(x) positiv semidefinit ist, und man kann h = d0 d/d0 Kd wählen und erhält insgesamt mit (d0 d/d0 Kd)2 d0 Kd − 2(d0 d/d0 Kd)d0 d = −(d0 d)2 /d0 Kd einen Wert, der kleiner als 0 ist. Damit ist eine Bedingung gefunden, die eine optimale Lösung erfüllen muss, nämlich die, dass die Kovarianzen des Fehlers mit den Komponenten von x alle gleich 0 sein müssen. Wegen C(x, e) = k − Kb kann man diese Bedingung nun auch schreiben als Kb = k . Man hat also ein lineares Gleichungssystem für das gesuchte b gefunden. Diese Gleichungen nennt man auch die Normalengleichungen; die Koeffizientenmatrix ist K = V(x), also die Kovarianzmatrix der Prädiktoren, während die rechte Seite k = C(x, y) der Vektor der Kovarianzen der Prädiktoren mit dem Kriterium ist. Man kann die Normalengleichungen alternativ also auch als V(x) b = C(x, y) schreiben. Der Ausdruck Normalengleichungen‘ leitet sich von der Tatsache ab, dass diese ’ Gleichungen die Unkorreliertheit des Fehlers mit den Prädiktoren zum Ausdruck bringen; geometrisch entspricht der Unkorreliertheit ja die Orthogonalität und das Wort normal‘ wird in manchen Situationen gebraucht, um einen Vektor zu ’ kennzeichnen, der senkrecht auf gewissen anderen Vektoren steht. Es stellt sich sofort die Frage, ob die Normalengleichungen lösbar sind, und ob eine Lösung tatsächlich auch zu einer minimalen Fehlervarianz führt. Was die Lösbarkeit anlangt, so ist zunächst die Matrix µ ¶ K k k0 κ 4.1 Univariate multiple Regression R07 6 als Kovarianzmatrix von (x, y) positiv semidefinit, und die Untersuchung solcher Matrizen hat gezeigt, dass die Gleichung Kb = k tatsächlich immer eine Lösung besitzt. Ist K invertierbar (oder gleichbedeutend positiv definit), so ist die Lösung eindeutig und es gilt b = K−1 k = (V(x))−1 C(x, y) . Ist der Rang von K hingegen kleiner als die Zahl p der Prädiktoren, so gibt es viele Lösungen, deren Eigenschaften noch genauer zu untersuchen sein werden. Zuvor ist jedoch zu prüfen, ob eine Lösung der Normalengleichungen wirklich auch eine optimale Lösung des Regressionsproblems ist. Betrachtet man zu diesem Zweck die oben hergeleitete Beziehung V(e1 ) = V(e) + h2 d0 Kd − 2h d0 (k − Kb) zwischen den Varianzen des Fehlers e einer durch den Koeffizientenvektor b gegebenen Vorhersage und des Fehlers e1 der Vorhersage mit dem modifizierten Koeffizientenvektor b + hd, setzt man voraus, dass b eine Lösung der Normalengleichungen ist, was ja gerade k − Kb = 0 bedeutet, und setzt man außerdem h = 1, so erhält man V(e1 ) = V(e) + d0 Kd . Wegen der positiven Semidefinitheit von K = V(x) folgt, dass d0 Kd ≥ 0 ist, so dass man insgesamt sieht, dass jede Änderung der durch eine Lösung b der Normalengleichungen gegebenen Koeffizienten zu einer weiteren Vorhersage führt, die jedenfalls keine kleinere Fehlervarianz besitzt. Jede Lösung der Normalengleichungen liefert daher eine minimale Fehlervarianz. Nun soll noch der Fall untersucht werden, dass die Normalengleichungen nicht eindeutig lösbar sind, dass also die Kovarianzmatrix der p Prädiktoren nicht den Rang p besitzt. Da die Normalengleichungen immer eine Lösung besitzen, bedeutet dies bekanntlich, dass es sogar sehr viele‘ Lösungen gibt, genauer bilden ’ die Lösungen einen ganzen affinen Unterraum der Dimension p − Rang(K), der parallel ist zu Kern(K). Dies bedeutet insbesondere, dass die Differenz zweier Lösungen ein Element von Kern(K) ist, und dass man, wenn man zu einer Lösung ein Element aus Kern(K) addiert, eine weitere Lösung erhält. Sind nun b1 und b2 zwei Lösungen der Normalengleichungen, so gilt folglich 4.1 Univariate multiple Regression R07 7 (b1 − b2 ) ∈ Kern(K) oder K(b1 − b2 ) = 0 , was natürlich auch sofort aus Kb1 = k und Kb2 = k folgt. Sind ŷ1 und ŷ2 die zu den beiden Lösungen gehörenden Vorhersagen, gilt also ŷi = b0i x + ai , wobei die additiven Konstanten ai so gewählt sind, dass die Erwartungswerte der Fehler ei gleich 0 sind, so folgt ŷ1 − ŷ2 = b01 x + a1 − b02 x − a2 = (b1 − b2 )0 x + (a1 − a2 ) , weshalb die Varianz von ŷ1 − ŷ2 gleich (b1 − b2 )0 K(b1 − b2 ) = 0 ist. Wegen ŷi = y − ei gilt außerdem ŷ1 − ŷ2 = (y − e1 ) − (y − e2 ) = e2 − e1 , weshalb der Erwartungswert E(ŷ1 − ŷ2 ) = E(e2 − e1 ) = E(e2 ) − E(e1 ) = 0 ist. Für die Differenz der ŷ1 − ŷ2 ist also sowohl die Varianz als auch der Erwartungswert gleich 0. Es folgt, dass diese Differenz gleich einer Konstanten ist (genauer: fast sicher gleich einer Konstanten ist), und dass diese Konstante, die ja dann mit dem Erwartungswert übereinstimmen muss, gleich 0 ist. Insgesamt gilt also ŷ1 = ŷ2 (f.s.), die beiden Vorhersagen unterscheiden sich also nicht, wenn sie auch oberflächlich – nach den Koeffizienten zu urteilen – unterschiedliche Form haben mögen. Hier ist f.s.‘ natürlich die Abkürzung für fast sicher‘. ’ ’ Im deskriptiven Fall sind die vorsichtigen Formulierungen ( f.s.‘) überflüssig, hier ’ folgt analog, dass die beiden Vorhersagen auf den für die Prädiktoren erhobenen Daten übereinstimmen. Es kann allerdings vorkommen, dass man für weitere mögliche, jedoch nicht erhobene Werte der Prädiktoren unterschiedliche Vorhersagen erhält. Die bisherigen Überlegungen sollen nun zusammengefasst werden. Zuvor soll die benutzte Terminologie kurz rekapituliert werden. Ausgangspunkt ist eine Situation, in der p Prädiktoren xj , zusammengefasst zu einem Zufallsvektor x, und eine Kriteriumsvariable y gegeben sind; alle Variablen sollen endliche Varianz besitzen. Das Regressionsproblem besteht darin, eine Linearkombination ŷ = b0 x + a der Prädiktoren zu finden, die den Erwartungswert des quadrierten Fehlers e = y − ŷ minimiert. Gesucht ist also der Vektor b der p Regressionsgewichte und die additive Konstante a. 4.1 Univariate multiple Regression R07 8 Als Abkürzungen werden K = V(x) für die Kovarianzmatrix der Prädiktoren und k = C(x, y) für den Vektor der Kovarinzen von x und y benutzt. Feststellung 1. Das Regressionsproblem, eine Linearkombination ŷ = b0 x+a der Prädiktoren zu finden, die den Erwartungswert des quadrierten Fehlers minimiert, besitzt immer mindestens eine Lösung. Lösungen sind dadurch charakterisiert, dass die Kovarianzen der Prädiktoren mit dem Fehler alle 0 sind, und dass der zu E(x) gehörende Wert von ŷ gerade E(y) ist (alternativ: dass E(e) = 0 ist). Man erhält die Lösungen für b als Lösungen der Normalengleichungen Kb = k und die dazu gehörenden Lösungen für a als a = E(y) − b0 E(x) . Ist die Kovarianzmatrix K der Prädiktoren invertierbar (äquivalent: positiv definit), so ist die dann eindeutige Lösung durch b = K−1 k gegeben. Ist K nicht invertierbar, so gibt es viele Lösungen der Normalengleichungen. Sie unterscheiden sich jeweils um ein Element aus Kern(K). Für je zwei solche Lösungen stimmen jedoch die zugehörigen Vorhersagen (f.s.) überein, wenn auch die Regressionsgewichte und die additive Konstante verschieden sein mögen. ¤ In Zukunft sollen mit b und a nur noch die Koeffizienten und die additive Konstante bezeichnet werden, die zu einer optimalen Vorhersage ŷ gehören; auch die Bezeichnung ŷ ist ab jetzt für optimale Vorhersagen reserviert (der Fall, dass mehrere Lösungen existieren, ist meist unkritisch, das ja die zugehörigen Vorhersagen dann (f.s.) übereinstimmen). Eine Lösung des Problems, eine optimale Vorhersage von y durch eine geeignete Linearkombination der in x zusammengefassten xj zu finden, soll auch kurz als Regression von y auf x bezeichnet werden. Es soll noch kurz auf den Spezialfall eines Prädiktors eingegangen werden. Hier hat die einzige Normalengleichung für das einzige Gewicht b die Form V(x) b = Kov(x, y) , 4.1 Univariate multiple Regression R07 9 woraus sofort Kov(x, y) σ(y) = ρ(x, y) V(x) σ(x) folgt, wenn σ(x) und σ(y) die Streuungen von x und y sind. b= Zur Ergänzung seien kurz auch die Modifikationen für die empirische Situation einer Stichprobe wiederholt. Hier sind nur Erwartungswerte durch Mittelwerte und theoretische Kovarianzen und Varianzen durch empirische zu ersetzen. Im Falle einer singulären Kovarianzmatrix der Prädiktoren stimmen verschiedene optimale Vorhersagen für die erhobenen Daten überein, können sich jedoch für weitere mögliche Daten unterscheiden. Im empirischen Fall arbeitet man gelegentlich auch mit den korrigierten Stichprobenkovarianzen, die man ja erhält, wenn man die Summen der Produkte der jeweiligen Abweichungen vom Mittelwert nicht durch n, sondern durch n − 1 teilt (n ist der Stichprobenumfang). Bemerkenswert ist, dass man die gleiche Lösung des Regressionsproblems bekommt, wenn man mit diesen Kovarianzen rechnet, wie bei den unkorrigierten Kovarianzen. Die Normalengleichungen in den beiden Fällen sind nämlich fast die gleichen; die für den korrigierten Fall erhält man aus den unkorrigierten durch Multiplikation mit dem Faktor n/(n − 1), was an den Lösungen nichts ändert. Wenn also auch die Formulierung der Normalengleichungen mit den korrigierten Kovarianzen zunächst wenig motiviert erscheint, so führt sie doch zur korrekten Lösung des Regressionsproblems. Eigenschaften der Lösung. In diesem Abschnitt geht es um Eigenschaften der Lösung des Regressionsproblems. Auch hier sind die Sachverhalte für die empirische Situation weitgehend bekannt, weshalb sie jetzt für die theoretische Situation formuliert werden sollen. Die Unterschiede zwischen diesen beiden Situationen erweisen sich dabei als unbedeutend. Es wird weiterhin die Terminologie des vorangehenden Abschnitts benutzt. Zunächst sollen Erwartungswert und Varianz von ŷ bestimmt werden. Da der Fehler Erwartungswert 0 besitzt, folgt aus y = ŷ + e über E(y) = E(ŷ) + E(e) die Gleichung E(ŷ) = E(y) Die Varianz von ŷ ergibt sich daraus, dass ŷ eine Linearkombination der Prädiktoren ist, zu b0 Kb. Berücksichtigt man, dass b eine Lösung der Normalengleichungen Kb = k ist, so erhält man V(ŷ) = b0 k , 4.1 Univariate multiple Regression R07 10 die Varianz von ŷ kann man also auch als Skalarprodukt des Koeffizientenvektors b mit dem Vektor k der Kovarianzen von Prädiktoren und Kriterium berechnen. Im Falle einer invertierbaren Matrix K ist b = K−1 k, woraus sich als weitere Alternative V(ŷ) = k0 K−1 k ergibt. Die Kovarianz von ŷ mit dem Fehler e berechnet sich zu C(ŷ, e) = C(b0 x + a, e) = b0 C(x, e) = b0 0 = 0 , da ja die Kovarianzen der Prädiktoren mit dem Fehler alle 0 sind. Da die Kovarianz von ŷ und e gleich 0 ist, folgt aus y = ŷ + e die übliche Varianzzerlegung V(y) = V(ŷ) + V(e) . Damit ergibt sich die Fehlervarianz zu V(e) = V(y) − V(ŷ) = V(y) − b0 k , und da konstruktionsgemäß E(e) = 0 ist, ist dies gleichzeitig der im Regressionsproblem zu minimierende Erwartungswert des quadrierten Fehlers, also gleich E(e2 ). Feststellung 2. Ist ŷ = b0 x + a Lösung des Regressionsproblems, so gilt E(ŷ) = E(y) und V(ŷ) = b0 k sowie E(e) = 0 und E(e2 ) = V(e) = V(y) − b0 k . Ferner gilt die Varianzzerlegung V(y) = V(ŷ) + V(e) . ¤ Man kann nun die Gleichung der Varianzzerlegung noch durch V(y) dividieren, um so die Anteile der aufgeklärten Varianz‘ und der Residualvarianz‘ an der ’ ’ Gesamtvarianz zu erhalten. Die Gesamtvarianz wird dabei gewissermaßen auf 1 standardisiert. Es ergibt sich die Gleichung V(ŷ) V(e) + =1. V(y) V(y) Der Anteil der aufgeklärten Varianz, V(ŷ)/V(y), heißt auch Determinationskoeffizient. Er soll hier, da es um die theoretische Ebene geht, auch als P 2 bezeichnet 4.1 Univariate multiple Regression R07 11 werden, wobei der Buchstabe P kein lateinisches P sondern ein großes griechisches Rho ist, also das Gegenstück zu ρ (auf empirischer Ebene heißt der Determinationskoeffizient bekanntlich R2 ). Wenn vom Determinationskoeffizient die Rede ist, soll immer vorausgesetzt sein, dass V(y) 6= 0 ist, da ja sonst die Division durch V(y) nicht definiert ist. Eine mögliche Formel für den Determinationskoeffizienten ist natürlich P2 = b0 k , V(y) in der man für b0 k auch b0 Kb oder (bei regulärem K) auch k0 K−1 k schreiben kann. Im Spezialfall einer einzigen Prädiktorvariablen ist die Varianz von ŷ gleich b Kov(x, y) = (Kov(x, y))2 /V(x), was man auch als (ρ(x, y))2 V(y) schreiben kann. Der Determinationskoeffizient ist daher die quadrierte Korrelation ρ2 der Variablen x und y. Natürlich liegt der Determinationskoeffizient zwischen 0 und 1. Den minimalen Wert 0 nimmt er genau dann an, wenn die Vorhersage die Varianz 0 hat, wenn also die Vorhersage (f.s.) konstant ist, womit sie sozusagen wertlos ist. Der maximale Wert von 1 wird hingegen dann erreicht, wenn die Fehlervarianz und damit E(e2 ) gleich 0 ist, wenn also der Fehler (f.s.) gleich Null ist, womit die Vorhersage perfekt ist. Der Fall, dass der Determinationskoeffizient gleich 0 ist, tritt dabei genau dann ein, wenn alle Prädiktoren mit dem Kriterium die Kovarianz 0 besitzen (also – in nicht ganz korrekter Formulierung – mit y unkorreliert sind). Der Determinationskoeffizient ist nämlich genau dann 0, wenn sein Zähler gleich 0 ist, der als b0 Kb geschrieben werden kann. Da K positiv semidefinit ist, ist dies genau dann der Fall, wenn Kb = 0 gilt, woraus die Behauptung folgt wegen Kb = k. Die nächste Feststellung hält diese Eigenschaften fest. Feststellung 3. Der Determinationskoeffizient P 2 = V(ŷ)/V(y) gibt den Anteil der Varianz von y an, der durch die Regression auf x aufgeklärt wird. Er liegt zwischen 0 und 1 und es gilt P 2 = 0 genau dann, wenn die Vorhersage ŷ (f.s.) konstant ist, und P 2 = 1 genau dann, wenn die Vorhersage ŷ perfekt, das heißt (f.s.) gleich y ist. 4.1 Univariate multiple Regression R07 12 Der Fall P 2 = 0 tritt dabei genau dann ein, wenn alle Kovarianzen der Prädiktoren mit y gleich 0 sind. ¤ Analoge Aussagen gelten natürlich für die Fehlervarianz, die zwischen 0 und V(y) liegt, bei einer perfekten Vorhersage 0 ist und bei einer wertlosen Vorhersage V(y). Für die Fehlervarianz gilt offenbar V(e) = E(e2 ) = (1 − P 2 ) V(y) . Diese Fehlervarianz heißt naheliegenderweise oft auch Schätzfehlervarianz und die Fehlerstreuung auch Standardschätzfehler. Interessant ist der Fall, dass die Prädiktoren sich in zwei untereinander unkorrelierte Teilmengen zerlegen lassen, da dann die Varianzaufklärung additiv ist. Hier lassen sich außerdem die Regressionsgewichte aus zwei Einzelregressionen ohne die jeweils anderen Prädiktoren bestimmen. Diese Eigenschaften sollen jetzt gezeigt werden. Der Zufallsvektor x soll sich also jetzt aus zwei Teilvektoren x1 und x2 zusammensetzen als x = (x1 , x2 ), wobei jede Variable aus dem ersten Teilvektor mit jeder aus dem zweiten unkorreliert ist, genauer also C(x1 , x2 ) = 0 gilt. Sind dann K1 und K2 die Kovarianzmatrizen von x1 und x2 und partitioniert man entsprechend auch den Vektor b der Gewichte in (b1 , b2 ) und den Vektor k der Kovarianzen von x mit y in (k1 , k2 ), so schreiben sich die Normalengleichungen als µ ¶µ ¶ µ ¶ K1 0 b1 k1 = , 0 K2 b2 k2 was mit Ausmultiplizieren zu K 1 b1 = k 1 und K2 b2 = k2 führt. Dies sind gerade die Normalengleichungen, die man erhalten hätte, wenn man Regressionen von y auf x1 bzw. x2 durchgeführt hätte, ohne die jeweils andere Prädiktorengruppe überhaupt einzubeziehen. Daher ist b = (b1 , b2 ) genau dann eine Lösung der Normalengleichungen der Regression von y auf x, wenn b1 und b2 Lösungen der Regressionen von y auf x1 und x2 sind. Man kann also die Regressionsgewichte für x1 und x2 durch getrennte Regressionen auf x1 und x2 ermitteln; zur Ermittlung der additiven Konstante müssen dann natürlich zuerst die beiden Teilergebnisse b1 und b2 zu b = (b1 , b2 ) zusammengesetzt werden. 4.1 Univariate multiple Regression R07 13 Die Gewichtsvektoren getrennter Regressionen von y auf x1 und x2 sind also b1 und b2 , die einzeln aufgeklärten Varianzen folglich b01 k1 und b02 k2 . Die durch x aufgeklärte Varianz ist hingegen µ ¶ ¡ 0 ¢ k1 0 0 b k = b1 b2 = b01 k1 + b02 k2 . k2 Damit ist in der Tat die durch x aufgeklärte Varianz gleich der Summe der durch x1 und x2 in getrennten Regressionen aufgeklärten Varianzen. Bezeichnet man noch die Determinationskoeffizienten der Regressionen von y auf x1 , x2 und x mit P12 , P22 und P 2 , so folgt, wenn man die letzte Gleichung noch durch V(y) dividiert, schließlich die Beziehung P 2 = P12 + P22 . Feststellung 4. Ist x = (x1 , x2 ) und gilt C(x1 , x2 ) = 0, so ist b = (b1 , b2 ) Vektor der Gewichte der Regression von y auf x genau dann, wenn b1 und b2 Vektoren der Gewichte der getrennten Regressionen von y auf x1 und x2 sind. Die durch x aufgeklärte Varianz ist die Summe der durch x1 und x2 getrennt aufgeklärten Varianzen und der Determinationskoeffizient für x ist die Summe der Determinationskoeffizienten für x1 und x2 . ¤ Die Formulierung ist etwas umständlich, um auch die Möglichkeit singulärer Kovarianzmatrizen mit einzubeziehen. Ganz analog wird der Fall behandelt, in dem sich die Prädiktoren in mehrere untereinander unkorrelierte Gruppen einteilen lassen. Der Extremfall ist der, in dem alle Prädiktoren unkorreliert sind (man beachte, dass die Determinationskoeffizienten bei einfachen linearen Regressionen gerade die quadrierten Korrelationen sind): Feststellung 5. Sind die Variablen xi alle unkorreliert, so setzt sich der Vektor b = (b1 , . . . , bp )0 der Gewichte der Regression von y auf x = (x1 , . . . , xp )0 zusammen aus den Gewichten bi einfacher linearer Regressionen von y auf die xi . Die durch x aufgeklärte Varianz ist die Summe der durch die xi getrennt aufgeklärten Varianzen und für den Determinationskoeffizienten P 2 gilt X P2 = ρ2i , wo ρi die Korrelationen der xi mit y sind. ¤ 4.1 Univariate multiple Regression R07 14 Unter der Voraussetzung, dass die Varianz von ŷ nicht 0 ist, kann man auch die Korrelation von y und ŷ berechnen. Zu diesem Zweck benötigt man zunächst die Kovarianz, die sich, da die Kovarianz von ŷ und e gleich 0 ist, zu Kov(y, ŷ) = Kov(ŷ + e, ŷ) = Kov(ŷ, ŷ) + Kov(e, ŷ) = V(ŷ) + 0 = V(ŷ) berechnet. Hieraus ergibt sich für die Korrelation s Kov(y, ŷ) V(ŷ) V(ŷ) √ 2 ρ(y, ŷ) = p =p = = P =P , V(y) V(y)V(ŷ) V(y)V(ŷ) √ wobei P natürlich als P 2 definiert ist. Die Korrelation der optimalen Vorhersage mit y ist also gleich der Wurzel aus dem Determinationskoeffizienten. Man nennt daher P auch die multiple Korrelation von y und x. Diese multiple Korrelation ist übrigens auch die maximale Korrelation, die irgendeine Linearkombination der xj mit y betragsmäßig besitzen kann, was nun kurz gezeigt werden soll. Es sei dazu z eine beliebige Linearkombination der xj . Eine einfache lineare Regression von y auf z liefert eine Vorhersage ŷ1 = b1 z + a1 ; der zugehörige Fehler sei e1 . Ist die Korrelation zwischen y und z gleich ρ, so ist der Determinationskoeffizient für diese einfache Regression gleich ρ2 und die Fehlervarianz und damit E(e21 ) gleich (1 − ρ2 ) V(y). Da ŷ1 auch eine Linearkombination der xj ist, kann der Erwartungswert des quadrierten Fehlers e1 bei dieser Vorhersage nicht kleiner sein als der Erwartungswert des quadrierten Fehlers e bei der optimalen Vorhersage ŷ von y durch x. Da E(e2 ) aber gleich (1 − P 2 ) V(y) ist, folgt (1 − ρ2 ) V(y) ≥ (1 − P 2 ) V(y) , was mit einer einfachen Umformung die gewünschte Beziehung ρ2 ≤ P 2 liefert. Die Linearkombination, die die maximale Korrelation mit y hat, ist übrigens auch bei invertierbarer Matrix K nicht eindeutig, da die Korrelation sich ja nicht ändert, wenn eine der Variablen (hier die Linearkombination) mit einer positiven Zahl multipliziert wird. Zusammenfassend gilt: Feststellung 6. Ist die Varianz von ŷ nicht 0, so ist die multiple Korrelation P gleichzeitig die Korrelation von y und ŷ. Die Zahl P ist auch die maximale Korrelation, die eine Linearkombination der xj mit y besitzen kann. ¤ 4.1 Univariate multiple Regression R07 15 Die Formulierung über die maximale Korrelation mag zunächst unbefriedigend erscheinen, da in ihr negative Korrelationen nicht berücksichtigt zu sein scheinen. Wollte man diesen Fall auch explizit berücksichtigen, so würde die Formulierung an Eingängigkeit verlieren (es müsste etwa heißen: P ist das Maximum der Beträge der Korrelationen von beliebigen Linearkombinationen der xj mit y). Erinnert man sich jedoch, dass die Korrelation nur ihr Vorzeichen wechselt, wenn man eine der Variablen (hier die Linearkombination) mit −1 multipliziert, so erkennt man, dass die Formulierung in der Feststellung auch impliziert, dass keine Korrelation einer Linearkombination der xj mit y kleiner als −P werden kann, womit auch der negative Fall abgedeckt ist. Es dürfte schließlich auch für diesen Abschnitt klar (und bekannt) sein, dass ganz analoge Feststellungen auch im empirischen Fall gelten. Alle Aussagen gelten im empirischen Fall übrigens auch, wenn man einheitlich mit den korrigierten Stichprobenkovarianzen rechnet (was das inhaltlich auch immer bedeuten mag). Die Determinationskoeffizienten sind jedenfalls wieder für beide Rechnungen die gleichen, da sich der Korrekturfaktor hier wegkürzt (auch für den Korrelationskoeffizienten erhält man ja bekanntlich dasselbe Ergebnis beim Rechnen mit unkorrigierten und korrigierten Kennwerten). Transformationen. Es kommt gelegentlich vor, dass man aus unterschiedlichen Gründen die Prädiktoren durch geeignete Linearkombinationen ersetzt; ebenso kann es sein, dass das Kriterium linear transformiert wird. Manchmal erachtet man es beispielsweise als sinnvoll, die Prädiktoren so abzuändern, dass sie danach unkorreliert sind. Ein anderes Beispiel ist die Standardisierung. In diesem Abschnitt soll untersucht werden, welche Auswirkungen solche Transformationen auf die Regression haben. Leicht abzuhandeln ist zunächst der Fall, dass das Kriterium y linear transformiert wird. Statt y soll also jetzt eine lineare Transformation u = cy + d durch die Prädiktoren optimal vorhergesagt werden; sinnvollerweise ist dabei c 6= 0 vorauszusetzen. Beispiele sind der Übergang zu einer anderen Skala (mm statt cm oder Fahrenheit-Grade statt Celsius-Grade) oder auch die z-Transformation z = (y − E(y))/σ = (1/σ)y − E(y)/σ (σ ist hier natürlich die Streuung von y). Im Vergleich zur Ausgangssituation ändern sich der Vektor der Kovarianzen und der Erwartungswert des Kriteriums. Der Vektor der Kovarianzen ist C(x, u) = C(x, cy + d) = c C(x, y) = c k , 4.1 Univariate multiple Regression R07 16 während der Erwartungswert von u gleich c E(y) + d ist. Schreibt man für den neuen Vektor der Vorhersagegewichte nun b1 und für die neue additive Konstante a1 , während b und a ihre Bedeutung als Koeffizienten für die Vorhersage von y behalten, so lauten die neuen Normalengleichungen Kb1 = c k , und man sieht sofort, dass sie wegen Kb = k beispielsweise durch b1 = c b gelöst werden. Die neue additive Konstante a1 ergibt sich dann zu a1 = E(u) − b01 E(x) = c E(y) + d − c b0 E(x) = c(E(y) − b0 E(x)) + d = ca + d . Damit ist û = b01 x + a1 = c b0 x + c a + d = c ŷ + d Lösung des neuen Regressionsproblems. Es dürfte keine große Überraschung sein, dass dies gerade die analog transformierte alte Vorhersage ist. Es ist nicht zu erwarten, dass die neue Lösung schlechter ist als die alte, und in der Tat ändert sich beispielsweise der Determinationskoeffizient nicht, da sich die Varianzen von u und û im Vergleich zu denen von y und ŷ jeweils um den Faktor c2 ändern, der sich dann bei der Bildung des Determinationskoeffizienten weghebt. Der Erwartungswert des quadrierten Fehlers ändert sich hingegen, und zwar um den Faktor c2 , da der neue Fehler gerade das c-fache des alten ist. Feststellung 7. Ist ŷ = b0 x + a Regression von y auf x und ist u = c y + d, so ist û = c ŷ + d = (c b)0 x + c a + d Regression von u auf x. Für die Regression von u auf x ist also c b ein möglicher Koeffizientenvektor und c a + d die zugehörige additive Konstante. Die Determinationskoeffizienten der beiden Regressionen sind gleich. ¤ Interessanter ist der Fall, dass man die ursprünglichen Variablen xj äquivalent durch geeignete Linearkombinationen ersetzt – genauer soll auf Prädiktorseite eine Variablentransformation durchgeführt werden. Diese Variablentransformation sei wie üblich gegeben durch ihre Koeffizientenmatrix G und den Konstantenvektor h. Die Matrix G enthält in den Spalten die Koeffizienten zur Bildung der neuen Variablen als Linearkombinationen der alten; sie soll invertierbar sein. Nennt man die neuen Variablen vj und stellt sie zu einem Vektor v zusammen, so gilt v = G0 x + h 4.1 Univariate multiple Regression R07 17 mit der Umkehrung x = G0−1 (v − h) = G0−1 v − G0−1 h , die das ursprüngliche x wieder aus v zurückgewinnt. Es soll also jetzt das Problem untersucht werden, y durch v optimal vorherzusagen, wo v = G0 x + h ist mit einer invertierbaren Matrix G. Zunächst werden die für die neue Situation nötigen Matrizen und Vektoren bestimmt. Die Kovarianzmatrix von v ist G0 KG, der Erwartungswert ist E(v) = G0 E(x) + h, und die Kovarianzen von v und y errechnen sich zu C(v, y) = C(G0 x + h, y) = G0 C(x, y) = G0 k . Der Koeffizientenvektor und die additive Konstante der Regression von y auf v sollen mit b1 und a1 bezeichnet werden, während b und a ihre Bedeutung von der Regression von y auf x behalten. Die neuen Normalengleichungen lauten dann G0 KGb1 = G0 k . Multiplikation mit G0−1 von links ergibt die wegen der Invertierbarkeit von G0−1 äquivalente Gleichung KGb1 = k , für die b1 = G−1 b eine mögliche Lösung ist, da KG(G−1 b) = Kb = k gilt. Das zugehörige a1 errechnet sich nun zu a1 = E(y) − b01 E(v) = E(y) − (G−1 b)0 (G0 E(x) + h) = E(y) − b0 E(x) − b0 G0−1 h = a − b0 G0−1 h . Es lässt sich also aus einer Lösung des alten Regressionsproblems eine des neuen gewinnen. 4.1 Univariate multiple Regression R07 18 Man könnte nun alternativ auf den Gedanken kommen, dass man eine Lösung des neuen Problems dadurch erhält, dass man einfach durch Einsetzen die alte Lösung in die neuen Variablen umrechnet. Dieser Ansatz führt zu der Vorhersage b0 x + a = b0 (G0−1 (v − h)) + a = (G−1 b)0 v + a − b0 G0−1 h , die tatsächlich die gleiche ist, wie die zuvor auf dem formalen Weg gewonnene (es handelt sich hier übrigens um das bekannte Umschreiben einer Linearkombination auf transformierte Variablen). Insbesondere ist die Vorhersage ŷ bei der alten und bei der neuen Regression die gleiche, was bedeutet, dass auch der Fehler der gleiche ist, und dass sich daher weder die Fehlervarianz noch der Erwartungswert des quadrierten Fehlers noch der Determinationskoeffizient ändern. Eine einfache Zusatzüberlegung zeigt übrigens, dass man sich die erste Alternative hätte ersparen können; man muss sich nämlich nur klar machen, dass die auf v umgerechnete ursprüngliche Regression ihre Optimalitätseigenschaften auch unter konkurrierenden Linearkombinationen der vk behält, denn solche Linearkombinationen sind ja gleichzeitig solche der xj . Feststellung 8. Ist ŷ = b0 x + a Regression von y auf x und ist v = G0 x + h mit einer invertierbaren Matrix G, so ist ŷ, umgeschrieben zu ŷ = (G−1 b)0 v + a − b0 G0−1 h auch Regression von y auf v. Für die Regression von y auf v ist also G−1 b ein möglicher Koeffizientenvektor und a−b0 G0−1 h die zugehörige additive Konstante. Die Determinationskoeffizienten der beiden Regressionen sind gleich, ebenso die Fehler. ¤ Es soll noch einmal hervorgehoben werden, dass es sich sowohl im Falle der Transformation auf Seiten des Kriteriums als auch im Falle der auf Seiten der Prädiktoren im Grunde nicht um wirklich neue Regressionen handelt, sondern nur um eine Umrechnungen der alten Regression auf die neuen Situationen. Als ein Beispiel soll die Standardisierung dienen. Hier geht es darum, wie eine neue Regression aussieht, wenn man alle Variablen durch ihre z-Transformierten ersetzt. Für derartige Situationen ist es sinnvoll eine neue Notation einzuführen. Es dürfte hier nichts schaden, wenn man auf theoretischer Ebene und auf empirischer Ebene die gleiche Symbolik verwendet, weshalb nun immer von Variablen die Rede sein soll. 4.1 Univariate multiple Regression R07 19 Ist zunächst x eine p-dimensionale Variable, so soll die (p×p)-Diagonalmatrix, deren Diagonalelemente die Varianzen von x sind, hier kurz Vx heißen. Die Matrix, die entsprechend statt der Varianzen die Streuungen enthält, soll die Bezeichnung 1/2 Vx bekommen; diese Bezeichnung stammt daher, dass diese Matrix ja entsteht, indem aus allen Diagonalelementen von Vx die Wurzeln gezogen werden. Außerdem überzeugt man sich sofort von der Richtigkeit der Gleichung ¡ 1/2 ¢2 Vx = Vx , 1/2 so dass man Vx mit Recht als Wurzel von Vx bezeichnen könnte. Hat die Variable x beispielsweise die Kovarianzmatrix 25 12 2 V(x) = 12 9 3 , 2 3 4 so ergibt sich 25 0 0 Vx = 0 9 0 0 0 4 5 0 0 = 0 3 0 . 0 0 2 und Vx1/2 −1/2 Sind alle Streuungen von Null verschieden, so soll analog mit Vx die Diagonalmatrix bezeichnet werden, die in der Diagonale die Kehrwerte der Streuungen enthält. Im Beispiel ist dann 1/5 0 0 Vx−1/2 = 0 1/3 0 . 0 0 1/2 Man überzeugt sich im Beispiel und allgemein leicht davon, dass dann ¡ 1/2 ¢−1 ¡ −1/2 ¢2 Vx = Vx−1/2 und Vx = Vx−1 gilt, was den aus dem Eindimensionalen bekannten Potenzregeln entspricht. Die Bezeichnungen erweisen sich in dieser Hinsicht also als gerechtfertigt. Führt man nun mit allen in x zusammengefassten Variablen eine z-Transformation durch und fasst die Ergebnisse zu einem Vektor z zusammen, so kann man diese Operation folgendermaßen schreiben (hier als Beispiel auf der theoretischen Ebene – empirisch geht alles ganz analog): z = Vx−1/2 (x − E(x)) = Vx−1/2 x − Vx−1/2 E(x) . 4.1 Univariate multiple Regression R07 20 Die Gesamtoperation ist also eine affine Transformation. Die Kovarianzmatrix von z – und dies ist ja gleichzeitig die Korrelationsmatrix von x – ist daher gleich V(z) = Vx−1/2 V(x)Vx−1/2 −1/2 (man beachte, dass Vx symmetrisch ist). Nun soll es darum gehen, bei einer Regression sowohl die Prädiktoren als auch das Kriterium einer z-Transformation zu unterwerfen. Die ursprüngliche Regression sei y = b0 x+a. Die z-transformierten Prädiktoren seien wie eben zu z zusammengefasst, während das z-transformierte Kriterium mit u bezeichnet sei. Ist σy die Streuung von y, so gilt u = (1/σy )(y −E(y)) = (1/σy )y −(1/σy )E(y), und mit den Feststellungen 7 und 8 errechnet sich der neue Vektor der Regressionsgewichte zu (1/σy )(Vx−1/2 )−1 b = (1/σy )Vx1/2 b . Wie man sieht, erhält man das neue Regressionsgewicht von zj , indem man das Regressionsgewicht bj von xj mit der Streuung von xj multipliziert und durch die Streuung von y teilt. Ist σxj die Streuung von xj , so ist dieses Gewicht also σxj bj . σy Bekanntlich bezeichnet man diese standardisierten Gewichte‘ gelegentlich auch ’ als β-Gewichte. 1/2 Der Vektor (1/σy )Vx b der Gewichte im standardisierten Fall soll daher hier auch β genannt werden, seine Komponenten entsprechend βj . Interessant ist auch, wie die neuen Normalengleichungen aussehen. Ist wieder K die Kovarianzmatrix von x und k der Vektor der Kovarianzen von x und y, so ist −1/2 −1/2 die Kovarianzmatrix Vx KVx von z gleichzeitig die Korrelationsmatrix von −1/2 x, und der Vektor der Kovarianzen von z und u errechnet sich zu (1/σy )Vx k und erweist sich damit gleichzeitig als Vektor der Korrelationen zwischen x und y. Bei den neuen Normalengleichungen ist damit die Koeffizientenmatrix die Korrelationsmatrix von x, während die rechte Seite der Vektor der Korrelationen von x und y ist. Bezeichnet man die Korrelationsmatrix von x mit P (Rho) und den Vektor der Korrelationen zwischen den Prädiktoren und dem Kriterium mit ρ, so lauten die 4.1 Univariate multiple Regression R07 21 standardisierten Normalengleichungen, die jetzt einen Zusammenhang zwischen den Korrelationen und den β-Gewichten herstellen Pβ = ρ , mit der Umkehrung β = P−1 ρ (für invertierbares P). Natürlich ist die additive Konstante bei der Regression nach Standardisierung gleich 0, da ja alle Variablen nun Erwartungswert 0 haben. Als kleine Anwendung kann nun der Determinationskoeffizient P 2 mit Hilfe von β, ρ und P ausgedrückt werden. Da sich bei den durchgeführten Transformationen der Determinationskoeffizient nicht ändert, ist P 2 gleich dem Determinationskoeffizienten für die transformierten Variablen. Da u jedoch standardisiert ist, ist die relative aufgeklärte Varianz hier gleich der nicht relativierten, und man erhält mit den bekannten Formeln insgesamt P 2 = β 0 ρ = β 0 Pβ = ρ0 P−1 ρ , die letzte Gleichheit natürlich nur für reguläres P. Im empirischen Fall lauten die entsprechenden Gleichungen, wenn R die Korrelationsmatrix der Prädiktoren ist und r der Vektor der Korrelationen der Prädiktoren mit dem Kriterium, und wenn ferner β auch in diesem Fall den Vektor der standardisierten Gewichte bezeichnet, folgendermaßen: R2 = β 0 r = β 0 Rβ = r0 R−1 r , die letzte Gleichheit nur für invertierbares R. Ein Sonderfall ist der von unkorrelierten Prädiktoren. Dann ist die Korrelationsmatrix der Prädiktoren die Einheitsmatrix, und da dies auch die Koeffizientenmatrix der Normalengleichungen für den standardisierten Fall ist, folgt, dass die standardisierten Regressionsgewichte gleich den entsprechenden Korrelationen der einzelnen Prädiktoren mit dem Kriterium sind. Was die β-Gewichte im empirischen Fall angeht, so ist es übrigens gleichgültig, ob die Berechnung mit den Streuungen oder den korrigierten Stichprobenstreuungen durchgeführt wird, da sich die Korrekturfaktoren wegkürzen, so dass das Ergebnis dasselbe ist. Zur Interpretation. In diesem Zusammenhang ist vielleicht ein Wort zur Interpretation nicht überflüssig, insbesondere, da gelegentlich Äußerungen der Art zu 4.1 Univariate multiple Regression R07 22 hören sind, im Gegensatz zu den ursprünglichen Gewichten seien die β-Gewichte interpretierbar. Ein solcher Satz ist zunächst solange sinnlos, wie nicht geklärt wird, was unter Interpretierbarkeit‘ verstanden werden soll. Versteht man dies Wort in einem ’ anspruchslosen Sinn, so ist der Satz schlicht falsch, wie eine naheliegende Interpretation sogleich zeigen wird. Bei einem ambitionierteren Verständnis des Wortes Interpretierbarkeit‘, bei dem kausale Assoziationen mitschwingen wie et’ wa: Interpretierbarkeit als Maß für die Größe eines Einflusses‘, bei einem solchen ’ Verständnis ist der Satz in dieser naiven Form blanker Unsinn. Dies Schicksal teilt er mit vielen Rezepten für den Anwender, und es kann nur davor gewarnt werden, solchen Maximen blindlings zu folgen. Zunächst folgt aus der Form ŷ = b0 x + a sofort, dass sich die Vorhersage um bj ändert, wenn sich xj um 1 ändert und alle anderen xk gleich bleiben, womit man schon eine Interpretation von bj vor sich hat. Auch diese an sich unmittelbar einleuchtende Aussage soll kurz begründet werden. Sind x1 und x2 zwei mögliche Werte von x, die sich nur an der j-ten Stelle um 1 unterscheiden, so gilt x2 = x1 + ej . Die Differenz der Vorhersagen für x2 und x1 ist dann (b0 x2 + a) − (b0 x1 + a) = b0 (x2 − x1 ) = b0 ej = bj . Natürlich gilt entsprechend, dass sich die Vorhersage um c bj ändert, wenn sich xj um c ändert und alle anderen xk gleichbleiben. So richtig die eben gegebene Interpretation von bj ist, so bedenklich ist sie, wenn sie nicht richtig verstanden wird. Eine Gefahr ist die, die Formulierung etwa in der Weise misszuverstehen, als würde sie lauten: Wenn man xj um 1 ändert und alle anderen xk konstant hält, so ändert sich die Vorhersage um bj . Man muss hier nur noch Vorhersage‘ als so etwas wie das von Messfehlern freie y‘ missver’ ’ stehen, um bei einer in keiner Weise zu rechtfertigenden kausalen Interpretation anzukommen, wo der Koeffizient bj so etwas wie die Größe des Einflusses angibt. Dass eine derartige unreflektierte kausale Interpretation absurd ist, sieht man beispielsweise daran, dass man aus einer Gruppe irgendwie zusammenhängender Variablen jede als Kriterium auswählen kann, also beispielweise auch eine, die von den anderen auf keinen Fall beeinflusst werden kann, weil sie ihnen beispielsweise zeitlich vorausgeht. Ein anderes Argument ist das, dass Regressionsgewichte sich unter Umständen stark ändern können, wenn man Prädiktoren weglässt oder andere Prädiktoren aufnimmt. 4.1 Univariate multiple Regression R07 23 Es ist andererseits nicht ausgeschlossen, dass in der einen oder anderen Situation eine Interpretation mit kausaler Färbung angemessen sein kann. Dies kann beispielsweise dann so sein, wenn man aus Gründen, die außerhalb der Statistik liegen, die Überzeugung hat, dass die Prädiktoren tatsächlich das Kriterium bewirken. Dies reicht allerdings noch nicht aus, vielmehr muss man zusätzlich fordern, dass alle Einflüsse eine lineare Form haben, also die Form der Regressionsgleichung. Von einer Begründung für solche Annahmen möchte man erwarten, dass sie reale Mechanismen aufzeigt, die den Rechenoperationen der Addition und der Multiplikation entsprechen. Außerdem ist zu fordern, dass man alle wesentlichen Einflussgrößen in den Prädiktoren erfasst hat (Anmerkung: Wo nur gibt es so schöne Situationen?). Aber selbst wenn man solche Voraussetzungen macht, ist eine Interpretation der Regressionsgewichte als Indikatoren für die Größe des Einflusses nicht unproblematisch, wenn die Prädiktoren sich auch noch untereinander beeinflussen. Dann wirken die Prädiktoren nämlich nicht nur direkt auf das Kriterium, sondern auch noch indirekt auf dem Umweg über andere Prädiktoren. Nur der direkte Einfluss wird dann durch den entsprechenden Regressionskoeffizienten erfasst, weshalb die genannte Interpretation zweifelhaft ist. Ein Indiz, dass derartige Einflüsse der Prädiktoren untereinander nicht auszuschließen sind, sind substantielle Korrelationen der Prädiktoren untereinander. Dies mag ein Grund sein, weshalb Situationen, in denen die Prädiktoren mehr als nur unbedeutende Interkorrelationen aufweisen, ziemlich unbeliebt sind (man spricht hier von Multikollinearität‘). Man kann nun versuchen, auch Einflüsse ’ der Prädiktoren untereinander in geeigneten Modellen zu erfassen. Solche Modelle sind beispielsweise Pfadmodelle oder etwas fortgeschrittener‘ Strukturglei’ chungsmodelle. Leider unterstellt man dort für die weiteren Einflüsse ebenfalls Linearität, so dass eine entscheidende Frage bei der Anwendung derartiger Modelle die ist, ob man die jetzt sogar akkumulierten Linearitätsannahmen noch für tragbar hält. Eine andere Situation, in der man an eine kausale Interpretation denken könnte, wäre eine empirische, in der man die Werte der Prädiktoren in systematischer Weise kontrolliert vorgegeben hat, und nur das Kriterium frei hat sich ergeben lassen. Allerdings muss man auch dann an eine lineare Form des Einflusses glauben. Außerdem wird man in einer derartigen Situation zur Auswertung der Daten wohl nicht zur multiplen Regression seine Zuflucht nehmen. 4.1 Univariate multiple Regression R07 24 Wenn nun trotz dieser Überlegungen im Folgenden gelegentlich von Einflüssen‘ ’ der Prädiktoren auf das Kriterium die Rede ist, so geschieht das nur mangels eines besseren griffigen Ausdrucks. Die Leserin stelle sich entweder eine Situation vor, in der eine Interpretation mit kausaler Färbung möglich ist, oder verstehe das Wort ausschließlich im Sinne einer Abkürzung für die zuerst gegebene Interpretation. Dass es problematisch ist, die Regressionsgewichte naiv als Indikatoren für die Größe des Einflusses zu interpretieren, sieht man schon daran, dass sie von den verwendeten Skalen abhängig sind. Bei einer Regression des sozialen Status auf mehrere Prädiktorvariablen, unter denen auch die Körpergröße ist, ändert sich das Gewicht der Körpergröße beispielsweise um den Faktor 1/1000, wenn man von einer Angabe in Meter zu einer in Millimeter übergeht (dies ist ein einfacher Fall einer Transformation auf Prädiktorseite). Es ist also klar, dass eine Interpretation der Gewichte als Indikatoren für die Größe des Einfluss nur dann sinnvoll ist, wenn die verwendeten Skalen und ihre Einheiten mit erwähnt werden. Oft tritt der Wunsch auf, die Wichtigkeit der Prädiktoren für die Regression zu vergleichen. Der sich zu diesem Zweck anbietende Vergleich der Regressionsgewichte ist, wie die vorangehende Bemerkung zeigt, sicher bestenfalls dann für ein solches Ziel tauglich, wenn die Skalen, auf denen die entsprechenden Prädiktoren gemessen werden, in einem angemessenen Zusammenhang stehen. Ein solcher Zusammenhang ist sicher dann nicht gegeben, wenn die Skalen nichts miteinander zu tun haben. Beispielsweise könnte man neben der Körpergröße zur Vorhersage des sozialen Status auch das Einkommen heranziehen (das man ja auch – bei einem internationalen Vergleich – in unterschiedlichen Währungen messen kann). Dass hier ein Vergleich der Regressionsgewichte unsinnig ist, leuchtet sofort ein. Auch dann aber, wenn zwei Prädiktoren mit der gleichen Skala gemessen werden, ist ein direkter Vergleich von Regressionsgewichten nicht notwendigerweise vernünftig, wenn er in vielen Situationen auch angemessen sein mag. Man nehme als Beispiel eine Regression der Fähigkeit im Weitsprung auf die Körpergröße und die Länge des großen Zehs (die sicher viel mit der Sprungkraft zu tun hat). Misst man beide Längen in der gleichen Einheit, so wird dennoch ein Vergleich der Regressionsgewichte womöglich in die Irre führen. Zur Erläuterung sei angenommen, dass sich für die Körperlänge das Gewicht 10 4.1 Univariate multiple Regression R07 25 und für die Zehlänge das Gewicht 30 ergeben habe – beide Längen und ebenso die Sprungweite seien in Meter gemessen. Eine naive Interpretation wäre dann die, dass der Einfluss der Zehlänge 3 mal so groß ist wie die der Körperlänge. Liegen nun aber die Körperlängen normalerweise zwischen 1.5 m und 2 m und die Zehlängen zwischen 3 cm und 7 cm, also zwischen .03 m und .07 m, so ist die entsprechende Spannweite in den Vorhersagen bei der Körperlänge 10 · (.5 m) = 5 m und bei der Zehlänge 30 · (.04 m) = 1.2 m, womit man den Einfluss der Körperlänge als größer werten würde – gegen den ersten durch die Gewichte vermittelten Anschein. Die Rechnungen setzen natürlich hier voraus, dass jeweils nur der eine Prädiktor variiert, während der andere konstant bleibt; dies wirft auch auf die zweite Einschätzung ein schiefes Licht. Beispiele wie das gerade behandelte führen zu der Idee, die unterschiedlichen Skalen dadurch vergleichbar zu machen, dass man ihnen als natürliche‘ Einheit ’ eine gibt, die ihre statistischen Schwankung widerspiegelt. Am einfachsten ist es, hierzu mit allen Variablen eine z-Transformation vorzunehmen, was gerade die im letzten Abschnitt besprochene Standardisierung ist. Vielleicht ist es nicht überflüssig, die anfangs gegebene Interpretation in Standardabweichungen umzuschreiben. Ist wieder bj das Gewicht des j-ten Prädiktors und sind σy und σxj die Streuungen von y und xj , so führt eine Änderung des j-ten Prädiktors um σxj (bei gleichbleibenden Werten der anderen Prädiktoren) zu einer Änderung der Vorhersage um bj σxj = (σxj /σy ) bj σy , also um (σxj /σy ) bj Streuungseinheiten von y. Das oben schon berechnete und gelegentlich mit βj bezeichnete standardisierte Regressionsgewicht (σxj /σy ) bj gibt also an, um wieviele Standardabweichungen von y sich die Vorhersage ändert, wenn sich xj um eine Standardabweichung ändert und alle anderen Prädiktoren gleich bleiben. Es mag im ersten Moment so scheinen, als hätte man mit dieser Standardisierung das Problem des Vergleichs der Bedeutung der Prädiktoren über die Regressionsgewichte gelöst. Dies mag für manche Situationen zutreffen, allgemein sind jedoch drei Einwände zu machen. Der erste Einwand betrifft die Frage, ob die Standardeinheiten tatsächlich natürliche Einheiten sind. Wenn dies nicht der Fall ist, fallen wesentliche Argumente für die Standardisierung weg. Ein typisches Beispiel ist eine empirische Situation, in der die Standardabweichungen der Prädiktoren womöglich weniger die Streuungen in der Population wiederspiegeln als vielmehr die Art der Stichprobenziehung – beispielsweise dann, wenn nur bestimmte Gruppen, womöglich Extremgruppen untersucht werden. Da unterschiedliche Prinzipien bei der Stichprobenziehung 4.1 Univariate multiple Regression R07 26 dann im Allgemeinen zu unterschiedlichen β-Gewichten führen werden, ist ein Vergleich über solche Gewichte in vielen Fällen sicher irreführend. Der zweite Einwand betrifft wieder das Problem der mittelbaren Einflüsse auf dem Umweg über andere Prädiktoren, die durch die Regressionsgewichte eben nicht erfasst werden. Ein Hinweis darauf, dass in dieser Hinsicht ein Problem bestehen könnte, sind bedeutsame Interkorrelationen der Prädiktoren, also die schon angesprochene Multikollinearität. Der dritte Einwand betrifft die Auswahl der Prädiktoren. Wie man sich leicht an Beispielen klar macht, kann das Weglassen eines Prädiktors oder das Hinzufügen eines weiteren Prädiktors eine beträchtliche Änderung der anderen Regressionsgewichte zur Folge haben. Solche Änderungen sind wieder vor allem bei Multikollinearität zu erwarten. Von den drei Einwänden ist nur der erste ein Einwand, der für die β-Gewichte spezifisch ist. Die anderen beiden Einwände treffen auch für Situationen zu, in denen nicht standardisiert wurde. Es sollte insgesamt klar geworden sein, dass es, was die Interpretierbarkeit von Regressionsgewichten angeht, kein Patentrezept gibt oder geben kann, jedenfalls, wenn man bei der Interpretation ambitioniertere Ziele verfolgt als das, das mit der eingangs gegebenen Deutung schon erreicht wurde und das sich nur auf den technischen Aspekt der optimalen Vorhersage‘ bezieht. Ohne eine genaue Analy’ se der jeweils vorliegenden Situation kann eine weitergehende Interpretation nicht erfolgen. Hat man die etwas vage Frage, was eine Variable mit anderen Variablen zu tun hat, so hat man als Informationen einerseits die Kovarianzen zur Verfügung und andererseits die Regressionsgewichte, die man erhält, wenn man die erste Variable zum Kriterium einer Regression macht und die anderen zu den Prädiktoren. Bei Standardisierung werden daraus die Korrelationen einerseits und die standardisierten Regressionsgewichte andererseits. Ist K wieder die Kovarianzmatrix der Prädiktoren, k der Vektor der Kovarianzen der Prädiktoren mit dem Kriterium und b der Vektor der Regressionsgewichte, so gilt Kb = k bzw. b = K−1 k (wobei hier der Einfachheit halber eine reguläre Kovarianzmatrix vorausgesetzt sei). Entsprechende Gleichungen gelten für Korrelationen und standardisierte Regressionsgewichte – man muss nur Matrix und Vektor der Kovarianzen durch Matrix und Vektor der Korrelationen ersetzen und 4.1 Univariate multiple Regression R07 27 den Vektor der Regressionsgewichte durch den der standardisierten Regressionsgewichte. Für das wohl praktisch wichtigste Beispiel der standardisierten Regressionsgewichte und Korrelationen im empirischen Fall sollen die Gleichungen eigens aufgeschrieben werden: Wenn R die Korrelationsmatrix der Prädiktoren ist, r der Vektor der Korrelationen zwischen Prädiktoren und Kriterium und β der Vektor der standardisierten Regressionsgewichte, so gelten (wieder bei invertierbarer Korrelationsmatrix) die Beziehungen Rβ = r beziehungsweise β = R−1 r . An Beispielen sieht man leicht, dass dann oft das, was man aus b (bzw. β) herauslesen möchte, nicht mit dem harmoniert, was zu k (bzw. r) passt. Es kann beispielsweise sein, dass ein Prädiktor mit dem Kriterium eine positive Korrelation hat, während das Regessionsgewicht negativ ist. Hat man nun einen positiven oder einen negativen Zusammenhang? Ebenso kann die eine dieser Zahlen Null sein, während die andere deutlich von Null verschieden ist. Derartige dem hoffnungsvollen Interpreten ärgerliche Phänomene treten besonders stark bei deutlicher Multikollinearität auf. Erinnert man sich an das Prinzip der multiplen Regression, so wird das Problem in vielen Fällen sofort verschwinden. Das Ziel der Regression ist es ja nicht, Zusammenhänge aufzudecken, schon gar keine kausalen, sondern nur eine optimale Vorhersage‘ zu machen (man meide auch bei diesem Wort falsche Assoziationen). ’ Es besteht damit gar kein Anlass, b im Sinne eines Zusammenhangs interpretieren zu wollen. Es gibt aber auch Fälle, in denen Anwender – hoffentlich auf Grund nichtstatistischer Argumente – daran glauben, dass eine linear-kausale Struktur vorliegt, die sie dann hoffen mit Hilfe der Regression aufdecken zu können. Solche Anwender werden natürlich, wenn ihr Glaube fest ist, nur den Regressionsgewichten trauen und die Korrelationen als oberfächlichen Schein abtun. Auch hier tritt das Problem der Interpretationen nicht harmonierender Gewichte und Korrelationen also gar nicht auf. Bedauernswert ist nur der Anwender, der hin- und herschwankt und sich nicht entscheiden kann, ob er nun die Regressionsgewichte in einem kausalen Sinn interpretieren will oder nicht. Ihm kann man nur raten, sich zunächst gründlich mit den inhaltlichen Gegebenheiten auseinanderzusetzen – die Statistik kann ihm da- 4.1 Univariate multiple Regression R07 28 bei leider nicht weiter helfen. Merkwürdigerweise erwarten manche Anwender an solchen Stellen von der Statistik Wunderdinge, beispielsweise die Erlaubnis, sich eigenes Nachdenken zu ersparen. Solche unrealistischen Erwartungen dürften in vielen Fällen aus einem völlig unzulänglichen statistischen Verständnis resultieren. Schließlich ist bei der Gegenüberstellung von Korrelationen und Regressionsgewichten noch daran zu erinnern, dass auch Korrelationen Zusammenhänge nur insoweit erfassen, als sie linear sind, und dass natürlich auch Korrelation mit Kausalität im allgemeinen Fall nichts zu tun hat. Residuen und Partialkorrelationen. Häufig interessiert man sich nicht nur für das, was man durch eine Regression vorhersagen kann, sondern auch für den Fehler, der übrigbleibt. Bei der Deutung dieses Residuums trifft man oft auf Vorstellungen der Art, dass es das sei, was übrig bleibt, wenn man das Kriterium um den Einfluss der Prädiktoren bereinigt‘ habe. ’ Wieweit Assoziationen, die derartig blumige Sprechweisen hervorrufen, gerechtfertigt sind, bleibt einer Prüfung im Einzelfall vorbehalten. Hier sollen einige Konzepte und Notationen, die von solchen Ideen motiviert sind, vorgestellt werden. Will man verdeutlichen, welche Variablen zur Regression herangezogen wurden, so fügt man sie meist nach einem Punkt an. Im Falle einer Regression von y auf x, das aus x1 , . . . , xp zusammengesetzt ist, schreibt man beispielsweise für die Schätzfehlervarianz, also die Varianz des Residuums 2 σy.x 1 ,...,xp oder kurz 2 σy.x . Die Streuung wird entsprechend mit σy.x1 ,...,xp oder σy.x bezeichnet. Im empiri2 schen Fall schreibt man entsprechend Sy.x etc.. 1 ,...,xp Ist P 2 (zur Erinnerung: Rho) der Determinationskoeffizient, so gilt also 2 σy.x = σy2 (1 − P 2 ) , wobei für die Varianz von y hier die gut in den Kontext passende Bezeichnung 2 = σy2 verwendet wird. Die entsprechende Formel für den empirischen Fall ist Sy.x 2 2 Sy (1 − R ). Auch beim Determinationskoeffizienten möchte man Kriterium und Prädiktoren oft kenntlich machen; man schreibt dann statt eines einfachen P 2 etwas ausführli2 2 . , und analog im empirischen Fall Ry,x cher Py,x 4.1 Univariate multiple Regression R07 29 Oft tritt die Situation auf, dass man für zwei Variablen x und y Regressionen auf dieselben Prädiktoren z durchführt (die Änderung der Benennung geschieht im Hinblick auf die weitgehend üblichen Bezeichnungen in der gleich herzuleitenden Formel). Die Korrelation der beiden Residuen nennt man dann auch Partialkorrelation und kürzt sie mit ρxy.z ab (empirisch: rxy.z ). Man spricht dann auch davon, dass man z auspartialisiert. Zur Herleitung einer Formel für die Partialkorrelation müssen zunächst einige Bezeichnungen eingeführt werden. Die Kovarianzmatrix V(z) der Prädiktoren soll wieder K heißen und die zugehörige Korrelationsmatrix P (Rho); die Diagonalmatrix der Varianzen von z soll hier kurz V (statt Vz ) genannt werden. Da jetzt zwei Regressionen durchgeführt werden, sollen die für die einzelnen Regressionen üblichen Bezeichnungen mit der jeweiligen Kriteriumsvariable indiziert werden. Der Vektor der Kovarianzen von x mit den Prädiktoren soll also kx genannt werden, der Vektor der entsprechenden Korrelationen ρx und die Vektoren der Regressionsgewichte bx und β x . Für die Regression von y auf z gelten analoge Bezeichnungen mit dem Index y. Zunächst wird nun die Kovarianz zwischen den Residuen bestimmt. Bis auf die unwesentlichen Konstanten sind diese Residuen gleich x − b0x z und y − b0y z . Die Kovarianz errechnet sich dann zu C(x − b0x z, y − b0y z) = C(x, y) − b0x C(z, y) − C(x, z)by + b0x C(z, z)by . Hier ist C(x, y) = Kov(x, y), C(z, z) = K, C(z, y) = ky und C(x, z) = k0x . Setzt man dies ein, so erhält man für b0x C(z, y) den Wert b0x ky = b0x Kby , was mit dem letzten Summanden übereinstimmt. Für C(x, z)by erhält man mit k0x by = (Kbx )0 y = b0x Kby den gleichen Wert, so dass man unter Berücksichtigung der Vorzeichen als Kovarianz der Residuen insgesamt den Wert Kov(x, y) − b0x Kby bekommt. Für die Varianzen der Residuen hatten sich oben als mögliche Formeln beispielsweise V(x) − b0x Kbx und V(y) − b0y Kby ergeben. Wie man sieht, ist die gerade hergeleitete Formel für die Kovarianz diesen Formeln strukturell sehr ähnlich, was natürlich nicht verwunderlich ist, da ja die Varianz einer Variable ihre Kovarianz mit sich selber ist. 4.1 Univariate multiple Regression R07 30 Die gesuchte Partialkorrelation errechnet sich nun als Quotient der Kovarianz und des Produkts der Streuungen zu Kov(x, y) − b0x Kby q . V(x) − b0x Kbx V(y) − b0y Kby ρxy.z = q In diesem Ausdruck kann man noch eine der Ersetzungen b0x Kby = b0x ky = k0x by = k0x K−1 ky vornehmen (die letzte nur, wenn K invertierbar ist), und analog kann man für die Terme b0x Kbx und b0y Kby im Nenner verfahren. In den bisherigen Formeln wird mit Kovarianzen gerechnet. Manchmal möchte man statt dessen jedoch Formeln mit Korrelationen haben. Solche Formeln gewinnt man beispielsweise durch einfache Umformungen. Einfacher ist es jedoch, sich klar zu machen, dass sich die Partialkorrelation nicht ändert, wenn man alle Variablen einzeln linear transformiert, wobei die Faktoren der Transformationen allerdings positiv sein müssen. Solche Transformationen bei den Prädiktorvariablen z führen ja keine Veränderung der Vorhersage herbei (weshalb man hier auch multivariat affin transformieren könnte), während sich die Vorhersagen x̂ und ŷ (abgesehen von den unwesentlichen additiven Konstanten) mit dem jeweils gleichen Faktor ändern wie die Kriteriumsvariablen x und y selber. Hieraus folgt, dass sich auch die Residuen um diesen jeweiligen Faktor ändern. Bekanntlich ändert sich nun aber die Korrelation von zwei Variablen – hier der Residuen – nicht, wenn man beide Variablen linear transformiert, falls die Faktoren positiv sind. Insgesamt folgt so, dass die Partialkorrelation der Variablen x und y bei auspartialisiertem z gleich bleibt, wenn man alle diese Variablen z-transformiert. Man kann also in der gewonnenen Formel alle Varianzen, Kovarianzen und Regressionsgewichte durch die Varianzen, Kovarianzen und Regressionsgewichte der z-transformierten Variablen ersetzen. Dabei sind jedoch die Varianzen der ztransformierten Variablen 1, während ihre Kovarianzen gleichzeitig die Korrelationen der ursprünglichen Variablen sind und die Regressionsgewichte die βGewichte. Insgesamt erhält man so die Formel ρxy.z ρxy − β 0x Pβ y q =q , 1 − β 0x Pβ x 1 − β 0y Pβ y 4.1 Univariate multiple Regression R07 31 in der man analog wieder Ersetzungen β 0x Pβ y = β 0x ρy = ρ0x β y = ρ0x P−1 ρy etc. vornehmen mag. Eine Alternativformel, in der auch noch berücksichtigt ist, 2 dass β 0x Pβ x gerade der Determinationskoeffizient Px,z bei der Regression von x auf z ist und analog für y, ist also beispielsweise ρxy.z ρxy − β 0x ρy q =q . 2 2 1 − Px,z 1 − Py,z Bei Berücksichtigung der Tatsache, dass bei einer einfachen linearen Regressionen das β-Gewicht mit der Korrelation übereinstimmt, erhält man als Spezialfall für eine auszupartialisierende Variable z die bekannte Formel ρxy − ρxz ρyz . p 1 − ρ2xz 1 − ρ2yz ρxy.z = p Ein wichtiger Punkt ist nun wieder die Interpretation der Partialkorrelation. Hier gibt es Sprechweisen wie die, dass die Partialkorrelation die um den Einfluss der Drittvariable(n) bereinigte Korrelation ist. Als Beispiel sollen hier die Schulleistungen in zwei Fächern dienen, die sicher auch etwas mit dem Alter zu tun haben. Korreliert man die Leistungen über alle Altersgruppen hinweg, so sollte sich eine deutlich positive Korrelation einstellen, die jedoch womöglich dadurch hervorgerufen ist, dass ältere Kinder in beiden Fächern deutlich bessere Leistungen zeigen als jüngere. Die hohe Korrelation ist daher vielleicht wesentlich den Altersunterschieden zu danken, so dass der Wunsch verständlich wird, den Einfluss des Alters auszuschalten, um so zum eigentlichen‘ ’ korrelativen Zusammenhang zwischen den beiden Leistungen vorzudringen. Die Erfüllung dieses Wunsches erhofft man sich oft von der Partialkorrelation – zu Recht? Die gerade genannte Formulierung ist jedenfalls viel versprechend. Bei dieser Formulierung liegt die Assoziation nahe, dass es sich bei der Partialkorrelation um die Korrelation handelt, die bestehen würde, wenn der Einfluss der Drittvariable ausgeschaltet wird, also beispielsweise um die Korrelation bei Konstanthaltung der Drittvariable. Es ist klar, dass solche Interpretationen durch die Konstruktion in keiner Weise gedeckt sind, und es kann nur davor gewarnt werden, derartige Formulierungen gedankenlos zu übernehmen. 4.1 Univariate multiple Regression R07 32 Die Formulierung, die Partialkorrelation sei die Korrelation bei Konstanthaltung der Drittvariablen, ist immerhin noch so präzise, dass man sie daraufhin untersuchen kann, ob – oder unter welchen Bedingungen – sie richtig ist. Daher soll kurz genauer auf sie eingegangen werden. Von der Korrelation von x und y bei konstant gehaltenen Drittvariablen z kann man zunächst nur dann sprechen, wenn die Korrelation von x und y immer dieselbe ist, egal, welche Werte die Drittvariablen z annehmen. Davor ist allerdings noch zu klären, was die Korrelation von x und y bei einem fixierten Wert von z überhaupt sein soll. Dies berührt das Thema der bedingten Verteilungen, dessen Behandlung im allgemeinen Fall, in dem die Drittvariablen auch stetig sein können, wegen der benötigten mathematischen Hilfsmittel hier nicht einmal im Ansatz möglich ist. In dem Fall hingegen, in dem die Drittvariablen diskret sind, also beispielsweise in dem, in dem sie nur endlich viele Werte annehmen können, sollte die Bestimmung bedingter Wahrscheinlichkeiten unter der Bedingung, dass z einen bestimmten Wert annimmt, bekannt sein; die bedingten Verteilungen sind dann nur die Zusammenfassungen dieser bedingten Wahrscheinlichkeiten zu einem (bedingten) Wahrscheinlichkeitsmaß. Auf Grund jeder dieser Verteilungen kann dann eine (bedingte) Korrelation bestimmt werden. Den allgemeinen Fall mit möglicherweise stetigen Variablen mag man sich analog vorstellen. Im Beispiel der Leistungen und des Alters könnte man beispielsweise das Alter in diskreten Schritten angeben, also beispielsweise nur in vollen Jahren, und hätte dann in jeder Altersgruppe eine gemeinsame Verteilung der beiden Leistungsvariablen und damit auch eine Korrelation. Offenbar kann es jetzt nur dann sinnvoll sein, von der Korrelation bei konstant gehaltenem Alter zu sprechen, wenn alle diese Korrelationen übereinstimmen. Setzt man voraus, dass alle bedingten Korrelationen gleich groß sind, so dass die untersuchte Formulierung sinnvoll ist, so bleibt die Frage, ob man diese Korrelation mit der Technik der Partialkorrelation ermitteln kann, ob also beispielsweise die Partialkorrelation der Schulleistungen bei auspartialisiertem Alter mit den in allen Altersgruppen gleichen bedingten Korrelationen übereinstimmt. Leider ist die Antwort auf diese Frage im allgemeinen Fall negativ. Da die Bildung der Residuen auf der Regression beruht, und diese einen linearen Zusammenhang unterstellt, kann man nun auf die Idee kommen, dass die Antwort dann positiv ausfällt, wenn die bedingten Erwartungswerte von x und y in linearer Weise von z 4.1 Univariate multiple Regression R07 33 abhängen. Im Beispiel würde das bedeuten, dass die Erwartungswerte der beiden Leistungsvariablen lineare Funktionen des Alters sind. Auch diese Voraussetzung reicht jedoch noch nicht aus, um die Gleichheit der bedingten Korrelationen mit der Partialkorrelation zu gewährleisten. Eine positive Antwort erhält man beispielsweise dann, wenn man zusätzlich die Gleichheit der bedingten Varianzen fordert. Im Beispiel müssten also die Varianzen jeder der beiden Leistungen in allen Altersgruppen gleich groß sein. Wie man nun sieht, ist die Interpretation der Partialkorrelation als Korrelation bei konstant gehaltenen Drittvariablen nicht notwendigerweise falsch, jedoch an die Erfüllung vieler Voraussetzungen gebunden. Wenn solche Formulierungen oft ohne irgendeine Reflexion der Voraussetzungen bei der Interpretation der Partialkorrelation in konkreten Situationen gedankenlos nachgeplappert werden, so mag das auch daran liegen, dass sich die Partialkorrelation im allgemeinen Fall einer Deutung, die über die technische Beschreibung hinausgeht, verschließt. Allerdings sollte man in einem Fall, in dem man einen Kennwert nicht vernünftig interpretieren kann, vielleicht besser auf diesen Kennwert überhaupt verzichten. Kovarianztreue Darstellung. In diesem Abschnitt sollen die bisher besprochenen Sachverhalte mit Hilfe kovarianztreuer Darstellungen veranschaulicht werden. Zunächst soll als Motivation kurz die einfache lineare Regression mit einem Prädiktor x und dem Kriterium y illustriert werden. Hier findet man immer eine zweidimensionale kovarianztreue Darstellung durch Vektoren x und y (man muss ja nur x und y durch Vektoren x und y darstellen, deren Längen gleich den Streuungen der Variablen sind und dı́e einen Winkel einschließen, dessen Kosinus die Korrelation zwischen x und y ist). ...... . . y.. .. . .. .. . . ..................................................................... x Bezeichnet man die optimale Vorhersage mit ŷ = b x + a und den Fehler mit e, so gilt e = y − ŷ. Die Vorhersage und der Fehler werden also durch Vektoren ŷ und e dargestellt, für die ŷ = b x und e = y − ŷ gilt. Die Vorhersage wird insbesondere 4.1 Univariate multiple Regression R07 34 durch einen Vektor repräsentiert, der auf der durch x bestimmten Gerade liegt, und der Fehler durch die Verbindung dieses Vektors zu y. Nutzt man nun aus, dass die Fehlerstreuung bei der Regression zu minimieren ist, so muss ŷ der Vektor auf der durch x bestimmten Gerade sein, der von y minimalen Abstand hat, mit anderen Worten muss seine Spitze gerade im Fußpunkt des Lotes von y auf die Gerade liegen. Der Fehler selber steht damit senkrecht auf dieser Gerade. Die Situation muss in der kovarianztreuen Darstellung also so aussehen, wie es die folgende Abbildung veranschaulicht. Der Fehlervektor ist dabei so eingezeichnet, dass die Vektoraddition y = ŷ + e unmittelbar deutlich wird: .......... . . y. .. e .. .. .. . ... .. .. .. . ŷ ...... .......................... ........................... Residuum ................................................................................................................................................. ... ... ... .. x Vorhersage Eine Alternativdarstellung, die den Fehlervektor an der Stelle einzeichnet, wo er hingehört, ist die folgende, die vielleicht etwas deutlicher macht, dass y in zwei unkorrelierte Anteile zerlegt wird. Residuum ...... ..... . . . y. e .. .. ... .. .. .. .. .. .. ....................ŷ........ .. ....... ....... ....... ....... ..... ... .. ... .. ... ........................... .. ... .. ..... ... . .................................................................................................................................................. ... ... ... .. x Vorhersage In diesen Abbildungen kann man die Streuungen des Fehlers und der Vorhersage nun auch graphisch dadurch ermitteln, dass man die Längen von e und ŷ ausmisst. Die Varianzzerlegung V(y) = V(ŷ) + V(e) schreibt sich, übersetzt in die kovarianztreuen Darstellung, als k yk2 = k ŷk2 + k ek2 , 4.1 Univariate multiple Regression R07 35 was gerade ein Beispiel für den Satz des Pythagoras ist. Da ŷ gerade das b-fache von x ist, kann man auch b graphisch ermitteln, indem man in einer kovarianztreuen Darstellung von x und y das Lot von y auf die durch x gegebene Gerade fällt und den Faktor b dann über das Verhältnis der Längen des zum Fußpunkt gehörenden Vektors ŷ und des Vektors x bestimmt – falls die Vektoren in entgegengesetzte Richtungen weisen, ist noch ein negatives Vorzeichen hinzuzufügen. Anders gesagt kann man b ablesen, wenn man auf der durch x gegebenen Achse eine Skala einführt, die ihren Nullpunkt in 0 hat und die Einheit in der Spitze von x. Noch anders ausgedrückt führt man das Koordinatensystem zur Basis x des Erzeugnisses von x ein. Nach diesem Einleitungsbeispiel soll nun die multiple Regression behandelt werden. Es zeigt sich, dass man das Regressionsproblem in ein geometrisches Problem umformulieren und dann auch lösen kann, was eine Alternative zu der oben gewählten Zugangsweise bietet (allerdings lassen sich die beiden Argumentationen ziemlich direkt ineinander übersetzen, so dass man eher davon reden sollte, dass man dieselbe Lösung unter zwei Aspekten betrachtet). Im Allgemeinen soll vorausgesetzt werden, dass die Kovarianzmatrix der Prädiktoren regulär ist, was bekanntlich äquivalent dazu ist, dass die Vektoren, die in einer kovarianztreuen Darstellung die Prädiktoren repräsentieren, linear unabhängig sind. Nachdem man wie oben das Teilproblem der Konstanten a abgespaltet hat, bleibt P die Aufgabe zu lösen, die Koeffizienten bj einer Linearkombination ŷ = bj xj +a der Prädiktoren zu finden, für die der Fehler e = y − ŷ minimale Varianz besitzt. In geometrischer Sicht übersetzt sich dieses statistische Problem in das Problem, P eine ŷ entsprechende Linearkombination ŷ = bj xj der die Prädiktoren repräsentierenden Vektoren xj zu finden, die von dem das Kriterium repräsentierenden Vektor y minimalen Abstand hat. Für jede zur Vorherage verwendete Linearkombination ŷ der xj wird ja der Fehler durch den Verbindungsvektor e = y − ŷ von ŷ zu y repräsentiert, wobei die Varianz des Fehlers die quadrierte Länge des Vektors e ist, also gerade das Quadrat des Abstandes. Die Linearkombinationen der xj bilden insgesamt einen Unterraum U , nämlich das Erzeugnis der xj . Gesucht ist also ein Punkt ŷ dieses Unterraums, der von y minimalen Abstand hat. Geometrisch wird dieses Problem dadurch gelöst, dass man y orthogonal auf U projiziert, oder anders gesagt das Lot von y auf U fällt, 4.1 Univariate multiple Regression R07 36 um ŷ als den Lotfußpunkt ŷ zu ermitteln. Die folgende Zeichnung illustriert dies für den Fall von zwei Prädiktoren x1 und x2 , die durch Vektoren x1 und x2 repräsentiert werden. ............. . . . . . y . ...... .... e . . . . . . ... ...... . . . . . ... ............ . . . . . . . . .... .......... ............................................x.....2................................... ....... ..... .... ŷ x1 .... ... ..................... ................ ... ......... ...................... .. ...................... ........... ................ ...................... . . . ........... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ...... ............. . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . ......... .......... ............. . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .... ......... ......... ....... .............. . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . .... ......... ....... .................... . ......... . . . . . . . . . . . . . . . ......... . ......... .... ......... ............................ ......... ......... . .... . ......... . ......... . ......... . . . . . . . . . .... ......... ......... ......... ....... . . . . . . . . . . ......... . . ......... . . . ......... ... ....... . . . ......... . ....... . . . . . . . . . . . . . . ......... ......... ..... ... . . .................. ......... . . .............................. ... ...................... . ......... . . . . . . . . . ......... . . . . . . . . . . . . . . ......... ......... ... ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... .......... ......... ......... ......... ..................... ......... .. ..................... ......... ....................... ..................... ......... ..................... . . . ......... . . . . . . . . . . . . . . . . . ........................ U Regressionsgewichte sind die Koeffizienten von ŷ bei einer Darstellung als Linearkombination der xj . Falls die xj linear unabhängig sind, sind diese Koeffizienten eindeutig bestimmt und können als Koordinaten von ŷ in dem Koordinatensystem ermittelt werden, das durch die xj auf U etabliert wird. In der Abbildung sind die Hilfslinien zum Ablesen der Regressionsgewichte schon mit eingezeichnet. Der Fall, dass die xj linear unabhängig sind, sollte der Normalfall sein; bekanntlich ist diese Bedingung gleichbedeutend dazu, dass die Kovarianzmatrix der Prädiktorvariablen xj regulär ist. In dem anderen Fall der linearen Abhängigkeit der xj (also eines Rangdefekts der Kovarianzmatrix) kann jeder Punkt des Unterraums auf vielfache Art als Linearkombination der xj geschrieben werden – die Regressionsgewichte sind dann also nicht eindeutig. Immerhin ist jedoch ŷ als orthogonale Projektion von y eindeutig bestimmt, so dass die verschiedenen Linearkombinationen immer zur gleichen Variable führen (jedenfalls f.s.). Die Uneindeutigkeit bezieht sich damit nicht auf die Vorhersage, sondern nur auf ihre spezielle Darstellung. Man kann übrigens auch die Normalengleichungen geometrisch motivieren, was nun kurz skizziert werden soll. Die Vektoren xj seien dazu die Spalten einer Matrix X. Der Repräsentant einer Vorhersage mit b als Koeffizientenvektor ist dann Xb und der Vektor, der den zugehörigen Fehler repräsentiert ist e = y−Xb. Die Forderung, dass e zu U senkrecht ist, ist gleichbedeutend dazu, dass die Skalarprodukte der xj mit e alle 0 sind, dass also X0 e = 0 gilt. Durch Einsetzen erhält man X0 (y − Xb) = 0 oder umgeformt X0 Xb = X0 y , 4.1 Univariate multiple Regression R07 37 worin man die bekannten Normalengleichungen erkennt, denn wegen den Eigenschaften einer kovarianztreuen Darstellung ist ja X0 X als Matrix der Skalarprodukte der xj gleichzeitig die Matrix der Kovarianzen der xj , also die Kovarianzmatrix der Prädiktoren, und entsprechend X0 y der Vektor der Kovarianzen der Prädiktoren mit dem Kriterium. Die Normalengleichungen drücken also tatsächlich gerade aus, dass der Fehlerrepräsentant e senkrecht auf U steht (was statistisch die Unkorreliertheit des Fehlers mit den Prädiktoren bedeutet), womit nun auch die die Bezeichnung Normalen’ gleichungen‘ gerechtfertigt ist (man erinnert sich, dass normal‘ gelegentlich auch ’ senkrecht‘ bedeutet). ’ Es folgt nun ein Beispiel für den Fall von zwei Prädiktoren. Die Kovarianzmatrix von x1 , x2 und y sei 4 −2 6 −2 9 5 , 6 5 25 die Erwartungswerte sind uninteressant, da es ja nur um die Regressionsgewichte gehen soll. Die Regressionsgewichte errechnen sich aus den Normalengleichungen leicht zu b1 = 2 und b2 = 1. Für eine dreidimensionale kovarianztreue Darstellung kann man zunächst die Korrelationsmatrix ermitteln; es ergibt sich hier 1 −2/6 3/5 −2/6 1 1/3 . 3/5 1/3 1 Eine Umrechnung der Korrelationen in Winkel liefert die Winkel 109.5◦ , 53.1◦ und 70.5◦ , so dass man die kovarianztreue Darstellung erhält, wenn man drei Vektoren der Längen 2, 3 und 5 mit den entsprechenden gerade berechneten Winkeln zusammenfügt. Das Ergebnis seien die Vektoren x1 , x2 und y. Diese Situation ist genau die, die oben schon zur Illustration benutzt wurde; hier folgt noch einmal die entsprechende Abbildung, die die Vektoren x1 , x2 und y zeigt, außerdem ŷ und e und die Hilfslinien zum Ablesen der Regressionsgewichte als Koordinaten; man erahnt auch, dass die Koordinaten mit den gerade berechneten Werten b1 = 2 und b2 = 1 übereinstimmen. 4.1 Univariate multiple Regression R07 38 . .............. ... .. . . . . . . .e .... . . . . . . . . ... ............ . . . . . . . .................. .. ...........................................x.....2................................... ....... ..... ...... ŷ x ... y.......... ... ..................... ................ ......... ................. .. ...................... ........... ................ ...................... . . . . . . . . . . ........... . . . . . . . . . . . . . . . . ......... ...... ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ............. ............ .......... . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . ......... .... ....... ......... .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... .... ......... ....... . . . . ............................ . . . ......... . . . . . . . . .... ......... ......... ....... ......... . . . . . . . . . . . . . . . . ................. ......... ......... .... . . ......... . . ......... . . . . . . . ......... .... ....... ......... . ......... . . . . . . . . . . . . . . ......... .... ......... ......... ....... . . . . . . . . . . ......... . ....... . . . . . ......... ... ....... . . ......... . . . . . . ........ . . . . . . . . . . ......... ...................... ... ..................... . . . . . . . . . . . . . ......... . . . . . . . . . ......... . . . ... .............. ......... . . . . . . . . ......... . . . . . . . . . . . . . . . . ............ ......... ............ . . . . . . . . . . . . . . ......... . . . . . . . ......... ...... .............................. ......... ......... ...................... ......... ..................... ......... ...................... ....................................... U 1 In dieser Abbildung erkennt man auch wieder die Tatsache, dass die Varianzzerlegung V(y) = V(ŷ) + V(e) geometrisch gerade ein Beispiel für den Satz des Pythagoras ist, da ja ŷ und e orthogonal sind, und da die Varianzen der Variablen gleich den quadrierten Längen der zugehörigen Vektoren sind. Zur geometrischen Veranschaulichung von weiteren Konzepten und Eigenheiten der multiplen Regression ist es sinnvoll, eine zweidimensionale Darstellung der Ebene U zu verwenden. Die folgende Abbildung zeigt daher diese x1 -x2 -Ebene mit dem projizierten Vektor ŷ und den Linien zum Ablesen der Regressionsgewichte. Diese Linien sind natürlich die Koordinatenlinien in dem Koordinatensystem, dessen Achsen und Einheiten durch x1 und x2 gegeben sind. Neben der Abbildung findet sich auch ein Maßstab. ... ... ... ... ... ... ... ... ... ... ................................................................................................................................................... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . .................................................................................................................................................................................................................................................................................................. ... ... ... ... ... ... ... ... ... . ..... ....... . . . ŷ . . . . . x2 .. ... ...... . . . . ... .. ..... ... . . . . ... ... ... .......... ... ...... ...................................... x1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .... .... .... .... .... ... ... ... .. .. .. In dieser Zeichnung kann man nun die Regressionsgewichte direkt ablesen. Offenbar stimmt das Ergebnis mit dem oben schon zur Kontrolle berechneten überein. Außerdem kann man die Streuung von ŷ als Länge von ŷ ermitteln. Bei der graphischen Ermittlung der Regressionsgewichte wurden als Einheiten die Längen von x1 und x2 benutzt; in Bezug auf diese Einheiten wurden auf den 4.1 Univariate multiple Regression R07 39 Achsen die Strecken vom Nullpunkt bis zu den Schnittpunkten mit den Hilfslinien gemessen. Interessanterweise haben aber auch die mit dem Originalmaßstab gemessenen Längen dieser Strecken eine Bedeutung: Dividiert man sie nämlich noch durch k yk = σy , so erhält man gerade die sogenannten β-Gewichte. Die Längen der Strecken in der absoluten Einheit erhält man ja gerade, indem man die Vergrößerungsfaktoren bj mit den Längen der Vektoren xj multipliziert. Wegen k xj k = σxj erhält man als Ergebnis bj σxj = (σxj /σy ) bj σy = βj σy , was in der Tat das mit k yk = σy multiplizierte β-Gewicht ist. Bis auf den gemeinsamen Faktor σy kann man in der Zeichnung also auch unmittelbar die β-Gewichte ablesen. Konkret ergeben sich für die β-Gewichte mit Berücksichtigung von σy = 5 hier durch Ablesen die Werte β1 = 4/5 = .4 und β2 = 3/5 = .6, deren Richtigkeit man durch eine Kontrollrechnung unmittelbar bestätigt. Man kann in der letzten Zeichnung auch die Lote von ŷ auf die Achsen fällen und aus den Fußpunkten weitere wichtige Kennwerte ermitteln. In der nächsten Darstellung sind neben diesen Loten zum Vergleich auch die Koordinatenhilfslinien schwach mit eingezeichnet. ... ... ... ... ... ... .............................................................. .. ... .......... ....... ... .......... .... .. ... ......... .......... ... .. ... .......... . . . . ... ... .. . . . . . ...... . ... . . . . . . . . .... ... ... ...... . . . . . . . .. .. . . ... ...... . . . . . . .. . . . .... ... .... .. ... ... ................... .. ..... ... ... .. . . ... ... .. . ... .. . . ... .. ..... ... .. ... .. .. .. ... . .. ... ... .. ... .. . .. ... .. . ... .. ... ... . .................................................................................................................................................................................................................................................................................................. ... ... ... ... . ...... ...... . . . . . . x2 ... ...... ... . . . . .. ... ..... ŷ . ... . . . ... .... ... ......... ... ...... ......................................... x1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... . . . . .... .... ..... ... ... ... ... ... Zunächst soll jetzt genauer angegeben werden, was man aus dieser Graphik entnehmen kann; die Begründungen dafür folgen später. Die Vektoren, deren Spitzen die Lotfußpunkte sind, sind die Repräsentanten der Vorhersagen von y mit einfachen linearen Regressionen auf die jeweiligen Prädiktoren. Sie sollen daher ŷ1 und ŷ2 heißen. In relativen Einheiten der Achsen liest man an den Lotfußpunkten die Gewichte 4.1 Univariate multiple Regression R07 40 bei einfachen linearen Regressionen ab; es ergeben sich hier die Werte 1.5 für den Prädiktor x1 und .55 für den Prädiktor x2 ; dies sind auch die Werte, die man mit der Formel Kov(xj , y)/V(y) zur Kontrolle leicht ausrechnet. In absoluten Einheiten erhält man hingegen bis auf den Faktor σy die β-Gewichte für die einfachen Regressionen, die ja im Falle eines Prädiktors mit den Korrelationen übereinstimmen. Hier ergeben sich die Werte 3/5 = .6 für ρx1 y und 1.66/5 = .33 für ρx2 y , ebenfalls in Übereinstimmung mit der Kontrollrechnung. Zur weiteren Verdeutlichung der geschilderten Sachverhalte sind in der nächsten Abbildung die auf diese Weise mit dem absoluten Maßstab (rechts) gemessenen Kenngrößen noch einmal hervorgehoben. ... ... ... ... ... ... ............................................................. ......... ........ ... . . . . . ... .......... ....... ... . . . .......... ... . . ... . ... ......... . . . . . . . . . . . . . . . .... ... . . . ... .... .......... .. .. ... ...... .......... . . . . ............. . . . . . .... .. . ... ...... . ... . . . . . ... .. . . . ... ... ...... . . . . .. . ... . . . . . ... ... ...... . . . .. . . . . . ... . .......... ... .. ... . . . ... . ... ... . .. . . . ... . . . ... .. ... .. ... ............. . ... ... .. ... ... . ... . .. .... ... ... .. ... ... ... .. ... ..... .. ... .. . .. ... ... ... 2 .. ... ... . .. . ... ... ... .. ... . . ... . ....... ................................................................................................................................................................................................. ... ... . ... ....... ...... ... ... . .. . ... ..... .. . . . . . . . ... . . . . ... ..... .. ... ... ... .......... . . ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. ........... 1 .... ... ... .. .. ... ... .. . ... .. ................................................... .................................................... .. .. ....... . . . . .. ..... . . . . .... ..... ŷ . . . ... . . . . ŷ ..... β2 σy ρx y σy .... 2 ........ ... ..... ......................................ŷ.....1............... ρx y σy ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... . . . . ... ... ..... .... .... ... ... ... β1 σ y Derartige Darstellungen ermöglichen damit einen anschaulichen Vergleich zwischen den Regressionsgewichten bei der multiplen Regression mit den Regressionsgewichten bei den Regressionen mit jeweils nur einem Prädiktor. Außerdem geben sie Hinweise darauf, wie gut (β-)Regressionsgewichte und Korrelationen harmonieren, da diese Kennwerte bis auf den Faktor σy direkt abgelesen werden können. Da die quadrierten Längen der Vektoren ŷ, ŷ1 und ŷ2 gerade die durch die entsprechenden Regressionen aufgeklärten Varianzen sind, bekommt man einen unmittelbaren Eindruck von dem Zuwachs an Varianzaufklärung der multiplen Regression im Vergleich zu den Einzelregressionen. Der Nutzen solcher Veranschaulichungen liegt auch darin, dass man für die bekannten Merkwürdigkeiten der multiplen Regression (wie die gelegentlich wider’ sprüchlichen‘ Informationen aus Regressionsgewichten und Korrelationen oder wie unerwartete Änderungen der Varianzaufklärung bei Hinzunahme weiterer 4.1 Univariate multiple Regression R07 41 Prädiktoren oder beim Weglassen von Prädiktoren) nun ein geometrisches Bild zur Verfügung hat, das diese Phänomene verständlicher werden lässt, als sie es sind, wenn man sich nur auf (oft nicht unproblematische) Assoziationen zu den statistischen Begriffen stützt. Man kann sogar gezielt solche Merkwürdigkeiten konstruktiv erzeugen. Zur noch ausstehenden Rechtfertigung des Ableseverfahrens mit Hilfe der Lote bemerkt man zunächst, dass es genügt, zu zeigen, dass die Fußpunkte der Lote von ŷ auf die Achsen die gleichen sind wie die, die man erhalten hätte, wenn man die Lote gleich von y auf diese Achsen gefällt hätte. Wenn dies nämlich richtig ist, so haben die Argumentationen weiter oben schon die Richtigkeit des Ableseverfahrens gezeigt, da diese Argumentationen ja nicht von der Zahl der Prädiktoren abhingen und daher auch für den Fall eines Prädiktors gelten (das Fällen der Lote von y auf die Achsen ist ja gerade die Projektion auf die dann eindimensionalen Unterräume, die von jeweils einem xj erzeugt werden). Ist beispielsweise V1 der von x1 erzeugte Unterraum und ŷ1 die Projektion von ŷ auf V1 , so steht nach Konstruktion ŷ − ŷ1 senkrecht auf V1 . Andererseits ist y − ŷ senkrecht zu U und wegen V1 ⊆ U insbesondere auch senkrecht auf V1 . Damit steht auch y − ŷ1 = (y − ŷ) + (ŷ − ŷ1 ) senkrecht auf V1 , weshalb in der Tat ŷ1 auch die Projektion von y auf V1 ist. Genauso argumentiert man für x2 . Der gerade geometrisch bewiesene Sachverhalt ist übrigens ein Spezialfall der Gleichung PV PU = PV , die allgemein für orthogonale Projektionen PU und PV auf U und V mit V ⊆ U gilt. Für den Fall der Lote von y und ŷ auf die x1 -Achse wird die Gleichheit der Fußpunkte durch die nächste Abbildung illustriert. ........ . . . . . . y. ...... . . . . . . ...... . . . . . . ......................... . . . . . ............................................x....2.... ....................ŷ...... .. ..... .. ..... x1 ..... . .... ... ... ... .. ... .... . . .. .... ... .. ... ... .... ... . . . . . . . . . . . . . . . . ................... ............. .... ............. . ... ........ ...................... ... .............. ................ .... ...................... .. .. ... .... ...................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ................ ...... ... .................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ......... ....... ..... .. ......... ......... ...................... ........... ... ... ......... ......... ...................... ........... .... ... ......... ......... ............................ ........... ... ......... ......... ......... ........... ... ......... ... .......................... ......... . . . . ......... ......... . . ...... ............ . . . . . . . . . ......... . . ......... . . . . ......... . . ....... . ......... . . . ......... . . . . . . . . . . . . . . . . ......... ......... ......... . ............. ....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . ......... .. .... .............................. ......... ............................................... ...................... . . . . . . . . ............ . ......... . ............. . . . . . . . . . . . . . . . . . . . . ......... ......... .............. . . . . . . . . . . . . ......... ......... . . . . . . . . ......... ......... ................. ......... ... ........................... ......... ...................... ......... ..................... ......... ...................... ........................................ U Die Tatsachen, die die Lote von ŷ auf die Prädiktorachsen betreffen, verdienen es, noch einmal allgemein hervorgehoben zu werden. Die gegebenen Begründungen 4.1 Univariate multiple Regression R07 42 besitzen offenbar auch für den allgemeinen Fall Gültigkeit. Feststellung 9. Sind x1 , . . . , xp und y Vektoren, die in einer kovarianztreuen Darstellung der Situation einer multiplen Regression die Prädiktoren xj (mit regulärer Kovarianzmatrix) und das Kriterium y repräsentieren, und repräsentieren ŷ und ŷ1 , . . . , ŷp die Vorhersagen von y mit Hilfe der multiplen Regression und der einfachen Regressionen mit jeweils einem Prädiktor, so sind die ŷj gleichzeitig die orthogonalen Projektionen von ŷ auf die Prädiktorachsen. Man kann also in dieser Darstellung die Regressionsgewichte für Einzelregressionen und die Korrelationen der Prädiktoren mit dem Kriterium auch ermitteln, wenn man die Lote von ŷ auf die Prädiktorgeraden fällt. ¤ Die nächste Abbildung zeigt eine mögliche Situation, in der die beiden Prädiktoren x1 und x2 eine hohe Korrelation besitzen. In der durch Repräsentanten x1 und x2 dieser Prädiktoren erzeugten Ebene U ist die Repräsentation ŷ der Vorhersage eines Kriteriums y eingezeichnet samt Hilfslinien zum Ablesen von Regressionsgewichten und Korrelationen. .... ............. ............. ............. ........................................................................................................................................................ . . . . . . . . . . . .... .... ........... ............. .... ........... ............. .. . ........... ............. .. .. ........... ............. ............. ........... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... .. .. ........... ............. .. . ........... ............. ........... .. .. ......................... ........... . ........... ............... . . . . . . . . . . . . . . . . . . . . . . . . .. ........... ............. . ........... ............. ......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................... ..... ............. . . . . . . . . . . . . .... ............. ............. ............. ............. ............. . . . . . . . . . . . . ..... ............. ............. ............. ............. ............. . . . . . . . . . . . . ............ ....... . . . ............. . . .ŷ . . . . . . . . . . . . . . . . . . .. ........... x2 ........................................ . . ... ............................................................. x1 Man erkennt hier ein deutliches Auseinanderklaffen der Regressionsgewichte der multiplen Regression und derer der Einzelregressionen, anders gelesen von βGewichten und Korrelationen. Bei x1 steht eine positive Korrelation einem negativen β-Gewicht gegenüber, das womöglich deutlich kleiner als −1 ist (wenn nämlich der Fehler, der senkrecht auf der Ebene steht, klein ist). Ist die Darstellung eine einer empirischen Situation, so erkennt man auch die Instabilität der Gewichte: Wenn sich die y-Daten nur sehr wenig in der Weise ändern, dass sich ŷ nach oben oder unten verschiebt, so zieht dies eine starke Änderung der Regressionsgewichte nach sich. Die Abbildung illustriert damit sehr gut die Multikollinearitätsprobleme. Gelegentlich führt man mit den Prädiktoren eine Variablentransformation durch, beispielsweise zu Standardisierungszwecken, oder um zur Vermeidung von Mul- 4.1 Univariate multiple Regression R07 43 tikollinearitätsproblemen mit einem Satz unkorrelierter Prädiktoren arbeiten zu können (ob dies sinnvoll ist, sei dahingestellt). Ist die Koeffizientenmatrix für diese Variablentransformation G und sind G und die Kovarianzmatrix der Prädiktoren invertierbar, so bedeutet der Übergang zu den neuen Variablen geometrisch nur, dass man in dem von den xj aufgespannten Unterraum die aus den xj bestehende Basis ersetzt durch eine andere, deren Vektoren bezüglich der ursprünglichen Basis als Koordinatenvektoren gerade die Spalten der Matrix G besitzen (diese Vektoren entsprechen natürlich den neuen Prädiktoren). Die neuen Regressionsgewichte erhält man dann, indem man die Koordinaten von ŷ in dem durch die neuen Vektoren gegebenen Koordinatensystem abliest. Der Effekt dieser Variablentransformation auf die Regressionsgewichte ist also geometrisch gesehen wieder der gleiche wie der der entsprechenden Koordinatentransformation. Es folgt ein Beispiel zur Verdeutlichung. In der oben untersuchten Situation sollen die bisherigen Prädiktoren x1 und x2 durch neue, womöglich aus inhaltlichen Gründen interessante Prädiktoren v1 = x1 + x2 und v2 = x2 − x1 ersetzt werden. Die repräsentierenden Vektoren v1 = x1 + x2 und v2 = x2 − x1 sind in der folgenden Abbildung mit eingezeichnet. .......... y......... . ...... . . . . . . ...... ........... . . v2... .... v .. ... ............................................................................1............................... ... ...... . .... .. .... ... .. ..... .. .. . .. .. ..................... ................ ...... ... .................... ......................... ... ...................... ..... .. ........... ...................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ............ .......... .... ................ ...................... ..................... ......... ...................... ................. .. .................. ...................... ......... ......... ............... .. ...................... .... ......... ......... ........... . . . ............................ . . . ......... . . . . . . . . . . . ......... . ......... ......... .. ........ ..................... ......... . ......... . .............. . . . ......... . . ......... . . . . . . ........... ......... ...... . ......... . . . . . . . . . . . . . . . . . . ......... ........... .... ......... . ....... . . . . . . ......... . . ...... . . . . . . . . . . ................... ......... ....... . . . . . . .............. . . . . . ......... .................... ..................... . . . . . . . . . . ......... . . . . ......... . . . . . . ............. ......... . . . ......... . . . . . . . . . . . . . . . . . ......... ....... ......... ......... ...................... ......... ............................................... ......... ......... ...................... ......... ..................... . . . . . . . . . ......... . . . . . . . . . . . . .............................. U ŷ Die Abbildung verdeutlicht, dass v1 und v2 eine alternative mögliche Basis von U bilden. Nach den bisherigen Überlegungen ist klar, dass sich an der Vorhersage ŷ nichts ändert, es ändern sich lediglich ihre Koordinaten (die Regressionsgewichte) bei dem Übergang zu der neuen Basis. Die nächste Darstellung zeigt die Ebene U mit den neuen Koordinatenachsen und den Hilfslinien zum Ablesen der neuen Regressionsgewichte. 4.1 Univariate multiple Regression R07 . ... ... .. . .... ..... ..... ... .. ..... ... .... ..... .. .. ..... . .. ..... ... .. ..... .. .. ..... .. .. ..... . . .. ..... .. .. ..... . . .. ..... . . .. ..... .. .. ..... . . .. ..... . . ..... ..... . .. ........... ..... . .. . ..... ... . . . .. ..... ... .. . . ..... . ... . . . ..... . ... ..... .. ... ... ..... .. ..... ... ... ..... .. ... ... ..... .. ... .. ..... . . . ... ..... ... ..... ... .. ..... ... ... .. ..... ... ... .. ..... . .. ... ..... . .. ..... ... ... ..... ... .. ... ..... ... .. ..... ... . ..... .. .. . ..... ..... . . ..... .. ... .. ..... .. ... ..... ... . .. ....... .. .. .......... . . . . . . . . . ............................................................................. .......... .. ... ......... .. ..... ... ..... .. .. . . . ..... . ..... ... .. ..... ... ..... .. ..... ... .. ..... . .. . ..... .. ..... .. ... ..... ... ..... ..... ..... ..... ..... .... ........ .. ...... ...... ....... . . ŷ . . . x2 .. v1 .. ..... v2 ......... . . . . . . . . ...... .. ......... ...... . . ...... .. ...... .... .......... ...... .. ..... ............ x1 44 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .. .. .. .. ... .... .... ... .... .... .... .... .... . . . Zur Kontrolle soll auch noch die zugehörige Rechnung durchgeführt werden. Die Transformationsmatrix der Variablentransformation von den x- zu den vVariablen ist µ ¶ 1 −1 G= . 1 1 Ihre Inverse errechnet sich zu µ −1 G = ¶ .5 .5 , −.5 .5 und die neuen Koordinaten von ŷ erhält man, indem man den alten Koordinatenvektor (2, 1)0 mit G0−1 multipliziert, als (1.5, −.5)0 in Übereinstimmung mit der Graphik. Außer zur Ermittlung der Regressionsgewichte kann die neue Darstellung natürlich auch wieder dazu dienen, mit Hilfe von Loten die Vektoren zu ermitteln, die die Vorhersagen mit Hilfe einfacher linearer Regressionen auf v1 und v2 repräsentieren. Auch die Korrelationen und die β-Gewichte können genau wie oben graphisch bestimmt werden. Oft wird es als wünschenswert erachtet, die gegebenen Prädiktoren durch unkorrelierte zu ersetzen, womöglich sogar durch solche mit Varianz 1. Es sei dabei vorausgesetzt, dass die Kovarianzmatrix der Prädiktoren den maximalen Rang besitzt (gegebenenfalls lässt man überflüssige Prädiktoren weg). Geometrisch bedeutet die Aufgabe, dass für U eine Orthogonalbasis oder eine Orthonormalbasis zu finden ist. 4.1 Univariate multiple Regression R07 45 Will man also solche unkorrelierten Prädiktoren finden, so kann man sich die Techniken der Linearen Algebra zu Nutze machen, die gegebene Vektoren durch orthogonale (oder orthonormale) Linearkombinationen dieser Vektoren ersetzen, die denselben Unterraum aufspannen. Dabei ist zunächst zu klären, wie und warum man Lösungen dieser Aufgabe in der Linearen Algebra auf die Statistik übertragen kann. Sind x1 , . . . , xp also Vektoren, die die Prädiktoren x1 , . . . , xp repräsentieren, und sind v1 , . . . , vp Linearkombinationen dieser Vektoren, die orthogonal (oder orthonormal) sind und den gleichen Raum U wie x1 , . . . , xp aufspannen, so definiert man neue Variablen v1 , . . . , vp als Linearkombinationen der xj mit denselben Koeffizienten, mit denen die vk aus den xj hergestellt werden. Die additiven Konstanten können dabei beliebig gewählt werden, nützlich ist es hier oft, sie so zu wählen, dass die vk Mittelwert bzw. Erwartungswert 0 besitzen. Die neuen Prädiktoren gehen dann durch eine invertierbare affine Transformation aus den alten hervor, weshalb sie die gleichen Vorhersagen liefern wie die alten, wobei sich die Regressionskoeffizienten nach den gegebenen Formeln umrechnen lassen. Die vk werden außerdem durch die vk repräsentiert, womit sie unkorreliert sind. Man kann also tatsächlich Lösungen des Orthogonalisierungsproblems aus der Linearen Algebra auf die Statistik übertragen. Aus der Linearen Algebra ist das Orthonormalisierungsverfahren von Gram und Schmidt bekannt. Sieht man von der genauen technischen Durchführung ab (die dazu hilft, den Rechenaufwand zu minimieren), so kann dies Verfahren im Prinzip auch auf die folgende Art beschreiben, die eine anschaulichere Verbindung zur Regression herstellen lässt. Man wählt als v1 den Vektor x1 . Danach bestimmt man iterativ die vj so, dass vj senkrecht zu x1 , . . . , xj−1 ist; genauer erhält man vj , indem man zu xj diejenige eindeutig bestimmte Linearkombination der x1 , . . . , xj−1 addiert, die gerade bewirkt, dass das Resultat (die Summe aus xj und der Linearkombination) senkrecht zu x1 , . . . , xj−1 ist (man macht gewissermaßen xj zu x1 , . . . , xj−1 senkrecht). Nachdem man so alle vj hergestellt hat, bringt man sie in einem letzten Schritt auf die Länge 1 – auf diesen letzten Schritt kann man aber auch verzichten, wenn man sich mit einer Orthogonalbasis zufrieden gibt. Da bei diesem Verfahren der Vektor vj dann bekanntlich gerade das Lot von xj auf den von x1 , . . . , xj−1 erzeugten Unterraum ist (genauer: der Verbindungsvektor vom Lotfußpunkt zu xj ), ist dieses vj auch Repräsentant des Residuums bei der Regression von xj auf x1 , . . . , xj−1 . Bildet man also nun vj als die Li- 4.1 Univariate multiple Regression R07 46 nearkombination von x1 , . . . , xj , die die gleichen Koeffizienten besitzt wie vj als Linearkombination von x1 , . . . , xj , und sorgt man zudem durch geeignete Wahl der additiven Konstante dafür, dass der Erwartungswert bzw. Mittelwert von vj gleich 0 ist, so erkennt man, dass vj dann durch vj repräsentiert wird und somit schließlich das Residuum der Regression von xj auf x1 , . . . , xj−1 ist. Man kann damit für dieses Verfahren den Übergang von den Ausgangsprädiktoren x1 , . . . , xp zu gleichwertigen unkorrelierten Prädiktoren v1 , . . . , vp kurz so beschreiben, dass man als v1 die Variable x1 wählt, und für vj das Residuum der Regression von xj auf x1 , . . . , xj−1 . Damit ist die gewünschte anschauliche Deutung des Orthogonalisierungsverfahrens gelungen. Es bleibt zu erwähnen, dass die technische Durchführung sich zur Vereinfachung der Rechnung besser an der aus der Linearen Algebra bekannten Vorgehensweise orientiert, und dass schließlich gegebenenfalls in einem letzten Schritt die neuen Prädiktorvariablen auf Varianz 1 zu normieren sind. Mit kovarianztreuen Darstellungen kann man sich auch den oft überraschenden Verhältnissen bei der Partialkorrelation geometrisch nähern. Viele merkwürdige Phänomene werden dadurch erheblich durchsichtiger. Die betrachtete Situation ist die, dass die Partialkorrelation von zwei Variablen x und y gebildet werden werden soll, wobei eine Drittvariable z auspartialisiert wird. Ziel ist es, auch für diese Situation eine geometrische Anschauung zu gewinnen. Zunächst sei noch einmal an das Bild erinnert, das für die einfache lineare Regression von x auf z die Zerlegung von x in Vorhersage und Residuum veranschaulicht. Das Residuum soll jetzt den Namen x̃ bekommen. Die entsprechenden Vektoren seien x, z und x̃. Analoge Verhältnisse gelten für y, und dort seien die Bezeichnungen entsprechend. Residuum .... ..... .. x .... . x̃ .. .. ... .. .. .. .. .. .. x̂ .............................. ....... ....... ....... ....... ..... .... . ... .. ... ........................... .. ..... ... .. .... .................................................................................................................................................. ... ... ... .. z Vorhersage Die Partialkorrelation von x und y ist defitionsgemäß die Korrelation von x̃ und 4.1 Univariate multiple Regression R07 47 ỹ; in einer kovarianztreuen Darstellung ist dies der Kosinus des Winkels zwischen den Vektoren x̃ und ỹ. Beginnt man wieder mit einer kovarianztreuen dreidimensionalen Darstellung der Ausgangsvariablen x, y und z durch Vektoren x, y und z, so befinden sich auch die Vektoren x̃ und ỹ als Linearkombinationen der Ausgangsvektoren in dem gegebenen dreidimensionalen Raum. Da sie senkrecht auf z stehen, befinden sie sich genauer in der Ebene E, die zu z senkrecht ist. Die Verbindungsvektoren x − x̃ von x̃ zu x und y − ỹ von y zu ỹ sind Vielfache von z (es handelt sich ja hierbei um Repräsentanten der jeweiligen Vorhersagen) und stehen daher auch senrecht auf E. Dies bedeutet gerade, dass x̃ und ỹ die orthogonalen Projektionen von x und y auf E sind – die Verbindungsvektoren entsprechen den Loten. Man erhält damit das folgende Bild, in dem der Winkel zwischen x und y via Kosinus der Korrelation von x und y entspricht und der zwischen x̃ und ỹ der Partialkorrelation. ....... .. .. .. z ... .. .. .. .. .. .. . .........x .... y ...... ....... .. ....... .. ............................... .. . ...... .......x̃..........................................................ỹ............ ... ... ........................... . ... ............................. ........ ..... ... ........... ....................... . . . . . . . . . . . . ........ . .................. ................... . . . . . . . . . . . . . . . . . . . . . . ........ .... . . . . . . . . . . . . . . . . . . . ...... .. .. .. .. .. . ................................... . . . ... ... ........ .... .... ............... ........ ........ ........ .... ..... ........ ............................................... ........ . ........ ........ . .... ........ ........ ............................ . . . . . . . . . . . . . . . . . . . . ........ . . . . . . .................. . . . . . . ........ . . . . . . . . . . . . . . . . . . . . . . ........ .................. . . . . . . . . . . . . . . . . . . . ........ . . . . . . . . . ...................................................... Für diejenigen, die die Situation mit geeigneten Hilfsmitteln wie Pfeifenreinigern nachbasteln wollen: die Kovarianzmatrix der drei Variablen in der Reihenfolge x, y, z ist die gleiche wie die in dem Beispiel zur multiplen Regression. Mit dem Hilfsmittel der kovarianztreuen Darstellung sollte es nun keine große Mühe bereiten, sich Situationen herzustellen, in denen beim Übergang von Korrelationen zu Partialkorrelationen alle möglichen Arten von Besonderheiten auftreten. Beispielsweise kann aus einer Nullkorrelation eine Partialkorrelation von 1 werden, das Vorzeichen der Partialkorrelation kann dem der Korrelation entgegen- 4.2 Multivariate multiple Regression R07 48 gesetzt sein, aus einer betragsmäßig großen Korrelation kann eine betragsmäßig kleine Partialkorrelation werden, und dergleichen mehr. Was auf der statistischen Ebene manchmal merkwürdig und unverständlich erscheint, wird beim Übergang zur geometrischen Betrachtungsweise oft seine Rätselhaftigkeit verlieren. 4.2 Multivariate multiple Regression In diesem Kapitel soll die multivariate multiple Regression mit einigen Anwendungen behandelt werden. Nachdem im letzten Kapitel die Sprache der theoretischen Ebene gewählt wurde, was gezeigt haben dürfte, dass die Unterschiedlichkeit zwischen empirischer und theoretischer Ebene bei der Problembehandlung in kaum mehr als der Notation an der Oberfläche liegt, soll hier auf der empirischen Ebene argumentiert werden; es sollte dabei unmittelbar klar sein, dass analoge Aussagen bei fast wörtlich gleichen Begründungen auch für die theoretischen Sachverhalte gelten. Problem und Lösung. Als Ausgangssituation sollen an n Personen p Prädiktorvariablen x1 , . . . , xp und q Kriteriumsvariablen y1 , . . . , yq erhoben sein, die zu Vektoren x und y zusammengefasst werden. Die Zentroide der Variablen seien x̄ und ȳ, ihre Kovarianzmatrizen Sx und Sy ; die Matrizen der Kovarianzen zwischen diesen Variablengruppen sollen mit Sxy und Syx abgekürzt werden. Dann ist Sxy eine (p × q)-Matrix und Syx eine (q × p)-Matrix und es gilt S0xy = Syx . Fasst man beide Variablengruppen zu einer Gesamtvariable (x, y) zusammen, so sind µ ¶ x̄ ȳ µ und Sx Sxy Syx Sy ¶ der Mittelwertvektor und die Kovarianzmatrix dieser zusammengefassten Variablen. Die Werte der einzelnen Versuchspersonen i auf dem Variablenvektor x sollen xi heißen und die Werte, die diese Versuchspersonen i auf der j-ten Komponente von x haben, xij . Analoges gilt für y und weitere gegebenenfalls zu untersuchende Variable. Diese Bezeichnungen sind übrigens die aus dem Umgang mit Datenmatrizen geläufigen. Ziel der multivariaten multiplen Regression ist es nun, eine Vorhersage ŷ des 4.2 Multivariate multiple Regression R07 49 y-Variablenvektors mit Hilfe einer affinen Transformation der Form ŷ = Bx + a zu finden, die den Durchschnitt der quadrierten Distanzen zwischen den tatsächlichen und den vorhergesagten Datenvektoren minimiert. Die Matrix B soll dabei auch Koeffizientenmatrix heißen und der Vektor a auch Konstantenvektor. Oft formuliert man das Optimalitätskriterium auch als Forderung, dass die Summe der quadrierten Distanzen minimiert werden soll, diese Forderung ist aber offenbar der hier verwendeten gleichwertig, da sich ja die Summe und der Durchschnitt nur um den Faktor n unterscheiden. Die k-te Komponente ŷk von ŷ ist die Linearkombination der xj , deren Koeffizienten in der k-ten Zeile von B stehen und deren additive Konstante ak ist. Dies ist folglich eine mögliche univariate Vorhersage von yk . Zu bemerken ist dabei, dass die Koeffizienten der einzelnen univariaten Vorhersagen ŷk unabhängig voneinander gewählt werden können, da sie in verschiedenen Zeilen von B stehen bzw. verschiedene Komponenten von a sind. Dies führt zu der Idee, dass man vielleicht das multivariate Problem dadurch lösen könnte, dass man die univariaten Regressionen der einzelnen Komponenten yk auf x einfach zu einer Gesamtvorhersage zusammensetzt. Dies ist tatsächlich so möglich, wie nun gezeigt werden soll. Naheliegenderweise führt man wieder den Vorhersagefehler e = y − ŷ ein als Differenz zwischen dem tatsächlichen und dem vorhergesagten Variablenvektor. Die Optimalitätsbedingung ist dann die, dass der Durchschnitt der quadrierten Normen der ei minimal werden soll. Diesen Durchschnitt der quadrierten Normen kann man nun folgendermaßen umschreiben: X1X 1X 1 XX 2 k ei k2 = eik = e2ik . n i n i k n i k Die eik sind dabei gerade die Werte der Versuchspersonen auf dem Fehler ek der kten Komponentenvorhersage. Für ein festes k ist der Durchschnitt der quadrierten eik daher mindestens so groß wie der Durchschnitt der quadrierten Fehler bei der optimalen univariaten Regression von yk auf x und erreicht diesen Minimalwert dann und nur dann, wenn ŷk eine optimale Vorhersage im univariaten Sinn ist. 4.2 Multivariate multiple Regression R07 50 Da die Komponentenvorhersagen unabhängig voneinander gewählt werden können, P folgt, dass das Optimalitätskriterium (1/n) i k ei k2 genau dann minimiert wird, wenn die Komponentenvorhersagen ŷk optimale Vorhersagen im univariaten Sinn sind. Damit zeigt sich, dass das multivariate Regressionsproblem nichts prinzipiell Neues im Vergleich zum univariaten Problem ist, und dass man Lösungen des multivariaten Problems genau dadurch erhält, dass man Lösungen der univariaten Regressionen der yk auf x zu einem Variablenvektor zusammensetzt. Als Zwischenergebnis kann notiert werden: Feststellung 1. Die Lösungen des multivariaten Regressionsproblems erhält man genau, indem man Lösungen ŷk der univariaten Regressionen der yk auf x zu einem Vektor ŷ zusammensetzt. ¤ Man bekommt also die möglichen Koeffizientenmatrizen B, indem man (transponierte) Vektoren von Regressionsgewichten aus univariaten Regressionen der yk auf x zeilenweise zu einer Matrix zusammensetzt. Den Konstantenvektor a erhält man dann, indem man die additiven Konstanten der Einzelregressionen zu einem Vektor zusammenfasst. Es folgt nun ein Beispiel mit zwei Prädiktoren x1 und x2 und drei Kriteriumsvariablen y1 , y2 und y3 . An diesem Beispiel sollen später auch noch weitere Sachverhalte illustriert werden. Die Kovarianzmatrix der Variablen 4 −2 −2 9 5 6 0 16 −2 −7 x1 , x2 , y1 , y2 , y3 (in dieser Reihenfolge) sei 6 0 −2 5 16 −7 25 19 −7 . 19 36 −17 −7 −17 16 Die Mittelwerte der Variablen in der gleichen Reihenfolge seien 1, 3, 2, −1, 0. Oben wurde die Kovarianzmatrix aller Variablen schon partitioniert. Zur Illustration folgen zwei der Teilmatrizen in dem speziellen Beispiel: µ ¶ µ ¶ 4 −2 6 0 −2 Sx = und Sxy = . −2 9 5 16 −7 4.2 Multivariate multiple Regression R07 51 Die Normalengleichungen der univariaten (multiplen) Regression von y1 auf x1 und x2 haben folgendes Koeffizientenschema: 4 −2 . 6 , −2 9 . 5 mit dem man leicht die Regressiongewichte zu 2 und 1 bestimmt. Die additive Konstante ist dann −3, und man erhält für y1 insgesamt die Regressionsgleichung ŷ1 = 2 x1 + 1 x2 − 3. Ganz analog bestimmt man die Regressionsgleichungen für die Regressionen von y2 und y3 auf x1 und x2 zu ŷ2 = 1 x1 + 2 x2 − 8 und ŷ3 = −1 x1 − 1 x2 + 4. Natürlich wird man die Gewichte etwas ökonomischer berechnen als hier angedeutet, da man ja auf der linken Seite immer die gleichen Koeffizienten hat. Hinweise folgen weiter unten. Man kann nun die drei Einzelregressionen zusammenfassen und erhält dann ŷ1 = 2 x1 + 1 x2 + (−3) ŷ2 = 1 x1 + 2 x2 + (−8) ŷ3 = (−1) x1 + (−1) x2 + 4 oder kurz ŷ1 2 1 µ ¶ −3 x 1 ŷ2 = 1 + −8 , 2 x2 ŷ3 −1 −1 4 womit man die Form ŷ = Bx + a gefunden hat. Die Zeilen von B enthalten die Regressionsgewichte aus den drei univariaten Regressionen und a die drei additiven Konstanten. Nun soll der Fehlervektor noch etwas genauer betrachtet werden. Der Durchschnitt der quadrierten Fehler bei einer einzelnen univariaten Regression ist bekanntlich gleich der Varianz des Fehlers, während der Durchschnitt der Fehlerwerte gleich 0 ist. Damit ist für die multivariate Regression der minimale Durchschnitt der quadrierten Normen der Fehlervektoren gleich der Summe der Varianzen der Fehlerkomponenten, während der Durchschnitt der Fehlervektoren für die optimale Lösung 0 ist. Die Summe der einzelnen Fehlervarianzen ist dabei gleichzeitig die Spur der Kovarianzmatrix von e, die ja auch als Gesamtvarianz von e bezeichnet wurde. Mit analogen Überlegungen wie eben sieht man daher, dass eine optimale Lösung des multivariaten Problems genau dann vorliegt, wenn ē = 0 gilt und wenn die 4.2 Multivariate multiple Regression R07 52 Gesamtvarianz (im Sinne der Spur) von e minimal wird. Diese Gesamtvarianz ist dann gleichzeitig der Durchschnitt der quadrierten Fehlernormen, und kann daher als ein Maß für die Güte der Vorhersage benutzt werden. Es bleibt noch die Aufgabe, die univariaten Lösungsbedingungen geeignet zusammenzufassen. Da die Koeffizienten für die k-te Komponente von ŷ gerade die k-te Zeile von B, also die k-te Spalte von B0 bilden und die Kovarianzen von yk mit x gerade die k-te Spalte von Sxy , sind die Normalengleichungen für die Regression von yk auf x gerade die k-te Spalte der Matrizengleichung Sx B0 = Sxy , die damit alle Normalengleichungen zusammenfasst. Im Fall der Invertierbarkeit von Sx , der die Regel sein sollte, erhält man durch Multiplikation mit dieser Inversen B0 = S−1 x Sxy und daraus durch Transponieren die Lösung B = Syx S−1 x . Die Bedingung dafür, dass der Mittelwert des Fehlervektors 0 ist, kann man unter Berücksichtigung von e = y − ŷ = y − (Bx + a) umschreiben zu ȳ − Bx̄ − a = 0 oder a = ȳ − Bx̄ . Die bisherigen Ergebnisse sollen nun noch einmal zusammengefasst werden; Se ist dabei natürlich die Kovarianzmatrix des Fehlers. Feststellung 2. Die Lösungen des multivariaten Regressionsproblems erhält man, indem man für B eine Lösung der Normalengleichungen Sx B0 = Sxy wählt und dann a = ȳ − Bx̄ setzt. Ist Sx invertierbar, so erhält man die dann eindeutige Lösung für B als B = Syx S−1 x . Die Lösungen sind dadurch gekennzeichnet, dass für den Fehler e = y − ŷ die Bedingungen gelten, dass ē = 0 ist und dass die Spur von Se minimal wird; diese Spur ist dann gleichzeitig der Durchschnitt der quadrierten Normen der ei . ¤ 4.2 Multivariate multiple Regression R07 53 Man kann nun leicht im oben behandelten Beispiel diese Formeln anwenden und erhält damit die schon gefundene Lösung noch einmal, allerdings mit weniger Aufwand. Im Falle einer nicht invertierbaren Kovarianzmatrix Sx unterscheiden sich je zwei mögliche Lösungen für B zeilenweise um Elemente des Kerns von Sx , und umgekehrt erhält man aus einer speziellen Lösung alle anderen, indem man zu den Zeilen von B beliebige Elemente des Kerns von Sx addiert. Dies folgt unmittelbar aus entsprechenden Überlegungen im univariaten Fall. Ebenso wie im univariaten Fall unterscheiden sich aber für verschiedene Lösungen B und a die zugehörigen Vorhersagen ŷ nicht; mögen also auch die Koeffizienten zur Bildung der Vorhersage nicht eindeutig sein, so ist es doch die Vorhersage selber. Allerdings muss hier angemerkt werden, dass diese Aussage nur gilt, wenn man die Vorhersage auf die Daten anwendet, auf deren Grundlage die Vorhersagegleichungen ermittelt wurden; setzt man neue Daten ein, so können zwei als mögliche Lösungen ermittelte Vorhersagegleichungen auch durchaus unterschiedliche Vorhersagen liefern. Das nächste Ziel ist die Verallgemeinerung der Varianzzerlegung und die Bestimmung von Sŷ und Se . Da die Fehlerkomponenten als Fehler aus univariaten Regressionen mit den Prädiktoren unkorreliert sind, folgt zunächst für die Matrix Sxe der Kovarianzen der Prädiktoren und der Fehler Sxe = 0 . Hieraus erhält man unmittelbar die multivariate Varianzzerlegung Sy = Sŷ + Se . Diese Gleichung folgt nämlich aus der Beziehung y = ŷ + e nach den bekannten Rechenregeln für Kovarianzmatrizen unter Berücksichtigung der Tatsache, dass die Matrix der Kovarianzen von ŷ und e die Nullmatrix ist. Dies gilt wegen Sxe = 0, woraus folgt, dass auch die Matrix der Kovarianzen der affinen Transformation ŷ von x und von e die Nullmatrix ist. Insbesondere folgt hieraus die Gleichung Spur(Sy ) = Spur(Sŷ ) + Spur(Se ) , 4.2 Multivariate multiple Regression R07 54 also eine Varianzzerlegung der Gesamtvarianz im Sinne der Spur in aufgeklärte Varianz und Fehlervarianz. Nun soll die Kovarianzmatrix Sŷ von ŷ bestimmt werden. Da ŷ = Bx+a gilt, errechnet sie sich nach den Regeln über Kovarianzmatrizen bei affinen Abbildungen zu Sŷ = BSx B0 . Da B0 eine Lösung der Normalengleichungen ist (da also Sx B0 = Sxy gilt), kann man dies auch umformulieren zu BSxy . Da diese Matrix symmetrisch ist, bleibt sie beim Transponieren gleich und man erhält die weitere Darstellungsmöglichkeit Sxy B0 . Ist schließlich Sx invertierbar, so gilt ja B = Syx S−1 x , weshalb sich dann schließlich auch noch die Beziehung Sŷ = Syx S−1 x Sxy ergibt. Die Matrix Se erhält man wegen der Varianzerlegung, indem man die gerade gewonnene Matrix von Sy abzieht. Im Beispiel erhält man ¶ 2 1 µ 17 16 −11 6 0 −2 Sŷ = BSxy = 1 = 16 2 32 −16 , 5 16 −7 −1 −1 −11 −16 9 und daraus 17 16 −11 8 3 4 25 19 −7 Se = Sy − Sŷ = 19 36 −17 − 16 32 −16 = 3 4 −1 . 4 −1 7 −11 −16 9 −7 −17 16 Die Varianzzerlegung Sy = Sŷ + Se ist daher hier 25 19 −7 17 16 −11 8 3 4 19 36 −17 = 16 32 −16 + 3 4 −1 . −7 −17 16 −11 −16 9 4 −1 7 In der Diagonale dieser Gleichung findet man die Varianzzerlegungen bei der Vorhersage der yi durch x, beispielsweise ist die Varianzzerlegung bei der Vorhersage von y1 gegeben durch 25 = 17 + 8. Die Zerlegung der Gesamtvarianz erhält man durch Bildung der Spur als 77 = 58 + 19. 4.2 Multivariate multiple Regression R07 55 In diesem Beispiel sind die Fehler nicht unkorreliert – ein Hinweis darauf, dass unkorrelierte Fehler die Ausnahme sind. Wenn man die Kovarianzmatrix der Fehler in die zugehörige Korrelationsmatrix umwandelt, erhält man übrigens außerhalb der Diagonalen gerade die Partialkorrelationen der yi bei auspartialisiertem x. Es folgt die Zusammenfassung der bisherigen Ergebnisse. Feststellung 3. Die Matrix Sxe der Kovarianzen der Prädiktoren x mit dem Fehlervektor e ist die Nullmatrix. Die Kovarianzmatrix von y hat die Zerlegung Sy = Sŷ + Se , woraus insbesondere die Zerlegung Spur(Sy ) = Spur(Sŷ ) + Spur(Se ) der Gesamtvarianz folgt. Für die Kovarianzmatrix der Vorhersage gilt Sŷ = BSx B0 = BSxy = Sxy B0 = Syx S−1 x Sxy , wobei bei der letzten Gleichung die Invertierbarkeit von Sx vorausgesetzt ist; für die Kovarianzmatrix Se = Sy − Sŷ von e folgt daraus beispielsweise Se = Sy − BSx B0 = Sy − BSxy = Sy − Syx S−1 x Sxy , letzteres wieder nur für invertierbares Sx . ¤ Auch im multivariaten Fall kann es sein, dass die Prädiktoren teilweise unkorreliert sind. Im univariaten Fall war in einer solchen Situation die insgesamt aufgeklärte Varianz die Summe der durch die Teilgruppen von Prädiktoren aufgeklärten Varianzen. Da der multivariate Fall vom univariaten nicht wesentlich verschieden ist, sollte hier eine ähnliche Zerlegung möglich sein. Die Prädiktoren x sollen jetzt also in zwei Teilgruppen x1 und x2 aufgeteilt sein, zwischen denen die Kovarianzen alle 0 sind; bei entsprechender Partitionierung haben die Kovarianzmatrix von x = (x1 , x2 ) und die Matrix der Kovarianzen von x und y dann die Form µ ¶ µ ¶ Sx1 0 Sx1 y Sx = und Sxy = . 0 Sx2 Sx2 y 4.2 Multivariate multiple Regression R07 56 Zerlegt man auch die Koeffizientenmatrix B in einen Teil B1 , der die zu x1 gehörenden Koeffizienten enthält und einen Teil B2 für die zu x2 gehörenden, so gilt B = (B1 , B2 ) und man kann die Normalengleichungen µ ¶µ 0¶ µ ¶ Sx1 0 B1 Sx1 y = 0 Sx2 B02 Sx2 y durch Ausmultiplizieren zerlegen in Sx1 B01 = Sx1 y und Sx2 B02 = Sx2 y . Dies sind genau die Normalengleichungen für die Regressionen von y auf x1 und auf x2 , so dass man wieder die Gesamtlösung B aus zwei durch getrennte Regressionen auf x1 und x2 gewonnene Teillösungen B1 und B2 zusammensetzen kann. Berechnet man nun die Kovarianzmatrix von ŷ, so erhält man µ ¶ ¡ ¢ Sx1 y Sŷ = BSxy = B1 B2 = B1 Sx1 y + B2 Sx2 y , Sx2 y also genau die Summe der Kovarianzmatrizen der Vorhersagen von y durch x1 und durch x2 . Insgesamt erhält man also die folgende Feststellung: Feststellung 4. Sind für die in zwei Teile partitionierten Prädiktoren x = (x1 , x2 ) die Kovarianzen der zu x1 und der zu x2 gehörenden Prädiktoren alle 0, so kann man die Koeffizientenmatrix B der Regression von y auf x zusammensetzen als B = (B1 , B2 ), wo B1 und B2 Koeffizientenmatrizen aus getrennten Regressionen von y auf x1 und x2 sind. Sind Sŷ1 und Sŷ2 die Kovarianzmatrizen der Vorhersagen von y durch x1 und durch x2 , so gilt Sŷ = Sŷ1 + Sŷ2 . ¤ Man hat also auch multivariat eine additive Zerlegung der aufgeklärten Varianz in zwei Teile, die zu den getrennt behandelten Prädiktorengruppen gehören. Bildet man die Spur, so erhält man eine entsprechende Zerlegung der aufgeklärten Gesamtvarianz. Auf die gleiche Weise bekommt man völlig analoge Zerlegungen für den Fall, dass alle Prädiktoren untereinander unkorreliert sind. Insbesondere ist dann die (multivariat) aufgeklärte Varianz (im Sinne der Spur) die Summe der durch die einzelnen Prädiktoren aufgeklärten Varianzen. Die durch einen Prädiktor (multivariat) aufgeklärte Varianz ist dabei die Summe der Diagonalelemente der Kovarianzmatrix der Vorhersage durch diesen Prädiktor, also die Summe der bei den Kriteriumsvariablen (univariat) durch diesen Prädiktor aufgeklärten Varianzen. 4.2 Multivariate multiple Regression R07 57 Transformationen. Nun wird wieder untersucht, wie sich die Regressionsgleichung bei Transformationen verhält. Interessanter als bei der univariaten Regression ist die Frage, was geschieht, wenn man das Kriterium durch eine Transformation ändert. Genauer soll in der schon bekannten Situation der multivariaten multiplen Regression von y auf x eine neue Variable z definiert sein durch z = Cy + d, und es soll untersucht werden, ob man die Regression von z auf x leicht aus der von y auf x gewinnen kann. Dabei wird von C nicht vorausgesetzt, dass es quadratisch oder invertierbar ist, insofern ist die Fragestellung allgemeiner als bei den schon behandelten univariaten Variablentransformationen. In der Situation des Beispiels könnte z vielleicht aus 2 Komponenten bestehen und aus y durch die Gleichung µ ¶ µ ¶ 1 1 1 0 z= y+ 2 −1 −1 −3 gegeben sein. Zunächst sollen die Normalengleichungen für die neue Regression aufgeschrieben werden. Auf der rechten Seite ist hier Sxy durch Sxz zu ersetzen, das sich nach den bekannten Regeln zu Sxy C0 errechnet. Multipliziert man nun die Normalengleichungen Sx B0 = Sxy der Ausgangssituation von rechts mit C0 , so erhält man die Gleichungen Sx B0 C0 = Sxy C0 = Sxz , die zeigen, dass für jede Lösung B0 der alten Gleichungen die Matrix B0 C0 = (CB)0 eine Lösung der neuen Gleichungen ist. Ist nun CB eine Lösung für die Koeffizientenmatrix, so erhält man den Konstantenvektor als z̄ − CBx̄. Setzt man hier Bx̄ = ȳ − a und z̄ = Cȳ + d ein, so erhält man insgesamt Cȳ + d − Cȳ + Ca = Ca + d als Konstantenvektor der Vorhersage. Die Vorhersage für z ist damit insgesamt CBx + Ca + d = C(Bx + a) + d. Berücksichtigt man, dass hier Bx + a die Vorhersage ŷ war, so sieht man, dass man eine Lösung der Regression von z auf x einfach dadurch erhält, dass man 4.2 Multivariate multiple Regression R07 58 auf eine Lösung der Regression von y auf x die betrachtete affine Abbildung anwendet. Man kann also kurz ẑ = Cŷ + d schreiben. Man errechnet sofort die Kovarianzmatrix der neuen Vorhersage und des neuen Fehlers und erhält damit die nächste Feststellung. Feststellung 5. Ist ŷ = Bx + a Regression von y auf x, und ist z = Cy + d, so ist ẑ = Cŷ + d = CBx + Ca + d Regression von z auf x. Sind Sŷ und Se die Kovarianzmatrizen von Vorhersage und Fehler der Regression von y auf x, so sind die entsprechenden Kovarianzmatrizen für die Regression von z auf x die Matrizen CSŷ C0 und CSe C0 . ¤ Man beachte, dass die Feststellung so formuliert ist, dass sie auch für den Fall einer singulären Kovarianzmatrix Sx der Prädiktoren gültig ist. Falls Sx regulär ist, sind die Regressionsgleichungen eindeutig, und man kann vor das Wort Re’ gression‘ jedesmal den bestimmten Artikel setzen. Im Beispiel von oben erhält man für die Regression der neu gebildeten Variable z auf x als Koeffizientenmatrix und Konstantenvektor µ ¶ µ ¶ µ ¶ 2 1 2 2 −7 1 1 1 = und Ca + d = . CB = 1 2 4 1 −5 2 −1 −1 −1 −1 Spezialfälle sind Summen und Differenzen von Variablen; man erhält also die Regression einer Summe oder Differenz auf gewisse Prädiktoren x, indem man die Summe oder Differenz der Einzelregressionen bildet. Dasselbe gilt natürlich für Linearkombinationen. Die Summe y1 + y2 + y3 im Beispiel ist gerade z1 ; die Vorhersagegleichung dieser Summe ist also 2x1 + 2x2 − 7, was sich auch durch Addition der drei Einzelregressionsgleichungen für die yi ergibt. Was Transformationen auf Prädiktorenseite angeht, so gibt es wegen Feststellung 1 wenig Neues im Vergleich zum univariaten Fall. Man erhält unmittelbar aus Feststellung 8 aus Kapitel 4.1 die folgende Feststellung: Feststellung 6. Ist ŷ = Bx + a Regression von y auf x und ist v = G0 x + h mit einer invertierbaren Matrix G, so ist ŷ, umgeschrieben zu ŷ = (BG0−1 )v + a − BG0−1 h 4.2 Multivariate multiple Regression R07 59 auch Regression von y auf v. Für die Regression von y auf v ist also BG0−1 eine mögliche Koeffizientenmatrix und a − BG0−1 h der zugehörige Konstantenvektor. Die Fehler der beiden Regressionen sind gleich. ¤ Im Beispiel könnte es vielleicht aus inhaltlichen Gründen sinnvoll sein, die beiden Prädiktoren durch die Variablen v1 = x1 + x2 und v2 = x2 − x1 zu ersetzen. Hier ist dann µ ¶ 1 −1 G= , 1 1 woraus man als neue Koeffizientenmatrix BG0−1 die Matrix 1.5 −0.5 1.5 0.5 −1. 0. berechnet. Da in diesem Beispiel der Vektor h gleich 0 ist, ändert sich hier der Vektor der additiven Konstanten nicht. In den meisten Anwendungen kommt es weniger auf die Konstantenvektoren an als vielmehr auf die Koeffizientenmatrizen. Wichtige Anwendungen betreffen die Fälle, dass die Prädiktoren oder die Kriteriumsvariablen oder beide Gruppen standardisiert (z-transformiert) werden. Für diese Fälle sollen nun kurz die Formeln für die Koeffizientenmatrizen angegeben werden. Dabei ist es nützlich, für eine Kovarianzmatrix Sx von irgendwelchen in einem Vektor x zusammengefassten Variablen mit Vx wieder die Diagonalmatrix zu bezeichnen, die als Diagonalelemente die Varianzen der xj enthält. Die Matrizen 1/2 −1/2 Vx und Vx sind entsprechend die Diagonalmatrizen mit den Streuungen und den Kehrwerten der Streuungen. Die Matrizen, die den linearen Anteil der Standardisierungen von x und y bilden −1/2 −1/2 (dies sind ja affine Abbildungen), sind Vx und Vy . Diese Matrizen sind natürlich symmetrisch, stimmen also mit ihren Transponierten überein. Ist dann B Koeffizientenmatrix der Regression von y auf x, so folgt sofort, dass die Matrizen 1/2 −1/2 −1/2 1/2 BVx , Vy B und Vy BVx Koeffizientenmatrizen für die neuen Vorhersagen sind, bei denen nur x, nur y und beide Variablengruppen durch ihre Standardisierungen ersetzt werden. 4.2 Multivariate multiple Regression R07 60 Die letzte dieser Matrizen besteht natürlich aus den β-Gewichten für die Regressionen der Komponenten von y auf x. In dem Fall der Standardisierung auf beiden Seiten ist offenbar auch der Konstantenvektor 0. Rechnet man in standardisierten Variablen, und bezeichnet man die Korrelationsmatrix von x mit Rx und die Matrix der Korrelationen von y mit x mit Ryx , so lauten die (hier gleich transponierten) Normalengleichungen BRx = Ryx . Mit diesen Gleichungen wird jetzt auch für den multivariaten Fall eine Beziehung zwischen β-Gewichten (in B) und entsprechenden Korrelationen hergestellt; im Falle einer regulären Korrelationsmatrix erhält man mit B = Ryx R−1 x auch gleich die Lösung. Will man in der Situation der Faktorenanalyse die beobachtbaren Variablen x durch die Faktoren f vorhersagen, so erkennt man, dass die Ladungsmatrix Λ in der gerade betrachteten Gleichung eine Lösung für B darstellt, da dann diese Gleichung gerade die Beziehung zwischen Faktorstruktur und Faktormuster ist. Es folgt, dass die Vorhersage der beobachtbaren Variablen durch die Faktoren die Form Λf annimmt, was wiederum mit den dort so genannten reduzierten Variablen übereinstimmt. Damit erweist sich die Bezeichnung x̂ für diese reduzierten Variablen als im Sinne der Regression stimmig. Die Gesamtkommunalität ist dann die (multivariat) aufgeklärte Varianz im Sinne der Spur, und bei unkorrelierten Faktoren ist diese Gesamtkommunalität die Summe der durch die einzelnen Faktoren aufgeklärten Varianzen. Kovarianztreue Darstellungen und Rotationen. Im Grunde ist in Kapitel 4.1 alles Wesentliche zu den kovarianztreuen Darstellungen gesagt worden. Neu ist nur, dass in die entsprechenden Abbildungen nicht nur ein Kriterium einzuzeichnen ist, sondern mehrere. Im Allgemeinen ist eine solche Situation leider der Anschauung nicht mehr zugänglich, da man im einfachsten Fall mit zwei Prädiktoren und zwei Kriteriumsvariablen bereits den vierdimensionalen Raum zur Darstellung benötigt (von uninteressanten Fällen abgesehen, wie beispielsweise dem, dass die beiden Fehler eine Korrelation von 1 besitzen). 4.2 Multivariate multiple Regression R07 61 Sinnvollerweise beschränkt man sich daher in der Darstellung auf den von den Repräsentanten der Prädiktoren aufgespannten Unterraum, in dem sich ja auch die Repräsentanten der Vorhersagen finden. Man erhält dann Darstellungen, die ähnlich den Ladungsdiagrammen der Faktorenanalyse sind, was ja, wie sich gerade gezeigt hat, auch kein Zufall ist, da diese sich vielmehr als Spezialfälle erweisen. Variablentransformationen auf Prädiktorseite sind in der Faktorenanalyse die so genannten Rotationen, weshalb auch im allgemeinen Fall jetzt oft diese Bezeichnung verwendet werden soll. Die Motivationen für solche Rotationen sind im Übrigen in vielen Fällen auch der Wunsch, Variablen zu konstruieren, die im Sinne der Regression eine womöglich einleuchtendere inhaltliche Deutung zu erlauben scheinen. Ein Beispiel dafür sind die Rotationen im Rahmen der Hauptkomponentenanalyse. An dem oben immer wieder verwendeten Beispiel mit zwei Prädiktoren und drei Kriteriumsvariablen sollen nun diese Sachverhalte genauer erläutert werden, wobei ein wichtiger Aspekt immer der ist, dass nicht alles, was im Spezialfall der Faktorenanalyse gilt, auch im allgemeineren Fall richtig ist. Zur Notation ist eine Vorbemerkung nötig: Wie in solchen Situationen üblich, sollen die zur Darstellung von Variablen xj verwendeten Vektoren xj heißen etc.. Die Kollision dieser Bezeichnung mit der Bezeichnung des Vektors der Werte der j-ten Versuchsperson in allen x-Variablen ist harmlos, da solche Vektoren von Werten hier gar nicht betrachtet werden. Die Kovarianzmatrix der Variablen x1 , x2 , y1 , y2 , y3 wurde oben schon angegeben, wo auch schon die Matrix der Regressionsgewichte bestimmt wurde. Diese Matrix war 2 1 B= 1 2. −1 −1 Oben hatte sich auch gezeigt, dass hier die Fehler nicht unkorreliert sind (im Gegensatz zum Modell der Faktorenanalyse). Es folgt eine kovarianztreue Darstellung der xj und ŷk in der durch die beiden Prädiktoren aufgespannten Ebene; rechts sind wieder zwei Einheiten des verwendeten Maßstabs. 4.2 Multivariate multiple Regression R07 62 Die Graphik wurde so hergestellt, dass zuerst die zu den Prädiktoren gehörenden Vektoren x1 und x2 mit der richtigen Länge und dem zugehörigen Winkel gezeichnet wurden, und dann mit Hilfe des dadurch etablierten Koordinatensystems die ŷk über ihre Koordinaten, die ja gleich den Regressionsgewichten sein müssen. ..... ŷ2 ... .. ..... .... ...... . . ŷ . . . . 1 . . . x2 ... . .... ...... ....... ....................... .. ... ... x1 .. ...... ŷ3 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .................................................................................................................................................. ... ... ... ... ... ... ... ... ... ... ... ... ............................................................... ... .. ... .. ... . . . Die Längen der Vektoren sind wie üblich die Streuungen der entsprechenden Variablen; bei den Prädiktoren also deren Streuungen und bei den Vorhersagen der Kriteriumsvariablen die Streuungen dieser Vorhersagen. Da weder die Prädiktoren noch die Kriteriumsvariablen standardisiert sind, sind die Längen der xj nicht gleich 1 und die der ŷk nicht ≤ 1. Solange keine weitere Information über die Streuungen der Variablen yk selber gegeben ist, kann man nichts über die aufgeklärten (relativen) Varianzanteile sagen (im Gegensatz zur Faktorenanalyse, wo ja die Kommunalitäten aus der Zeichnung ermittelt werden können). Hat man diese Zusatzinformation, so sind die durch die Varianzen der yk dividierten quadrierten Längen der ŷk diese relativen aufgeklärten Varianzen. Was die Winkel zwischen den Vektoren angeht, so sind deren Kosinus die Korrelationen zwischen den entsprechenden Variablen. Leider kann hier für zwei der ŷk nicht ohne weiteres – wie bei der Faktorenanalyse – aus der Korrelation der ŷk durch Multiplikation mit den Streuungen dieser Variablen die Kovarianz der entsprechenden yk ermittelt werden, was daran liegt, dass die Fehler nicht unkorreliert sein müssen. Für jeweils einen Prädiktor und eine Vorhersage hingegen führt dies Verfahren zu der korrekten Kovarianz, wie man sich leicht überlegt. In den nächsten beiden Graphiken sind mehrere Sachverhalte illustriert. Einerseits erinnern im linken Teil die Koordinatenlinien bei ŷ3 daran, dass die Koordinaten bezüglich des x1 -x2 -Systems gerade die Regressionsgewichte sind. Die von ŷ1 auf die Achsen gefällten Lote lassen entsprechend die Regressionsgewichte bei einfachen linearen Regressionen ablesen (mit der Kenntnis der Varianzen der yk kann man auch die β-Gewichte und die Korrelationen ermitteln, wie im letz- 4.2 Multivariate multiple Regression R07 63 ten Kapitel gezeigt wurde; man beachte aber, dass wegen der unterschiedlichen Varianzen der yk die entsprechenden Längen bei unterschiedlichen Kriteriumsvariablen nicht direkt vergleichbar sind). Im rechten Teil ist illustriert, dass man den Repräsentanten v̂ der Regression der Summe v = y1 + y2 auf die Prädiktoren einfach als entsprechende Linearkombination ŷ1 + ŷ2 der Repräsentanten der Einzelvorhersagen findet. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... .......... ... ........ ... ... ........ .. ........ ... . . . . . .. . . ... .......... .. ...... .. ... .. ... .. ... .. ... .. ... . ................................................................................................................................................... .. ... ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. . ................................. ... ... ... ... ... ..... ŷ2 ... .. . .... ... ....... ... .. . . . . x2 .. .. ..... ..... ...... ŷ1 ......... .. .................... ... x1 .. ....... ŷ3 .... .... . .. . . ..... v̂... ŷ2 ... ... .. .. . .... .... ... ....... . . . .. x2.... ... ... ....... ....... ...... ŷ1 ........... .. .................... ... x1 .. ....... ŷ3 . ........................... . ... ..... . ... . ..... . . . . .... .. ... ..... ..... ... ..... . . . . ... ... . . . ... . ... . . . . ... ... . . . ... . .... .... .. ... ... ... ... ... ... ... ... . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .................................................................................................................................................. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ............................................................... ... .. ... .. ... . . . In der nächsten Darstellung sind sowohl die Prädiktoren wie die Kriteriumsvariablen standardisiert; die standardiserten xj sollen dabei zj heißen und die standardisierten yk den Namen uk bekommen. Im Vergleich zur ursprünglichen Darstellung sind hier die Vektoren durch die Streuungen der xj einerseits und der yk andererseits zu dividieren. Das führt dazu, dass die zj die Länge 1 besitzen und die ûk höchstens diese Länge haben können, da ihre quadrierte Länge nun die relative aufgeklärte Varianz ist. Der Maßstab der Zeichnung ist größer gewählt und es ist auch der Einheitskreis eingezeichnet, der auf die gerade geschilderten Verhältnisse bei den Längen der Vektoren hinweist. .... .... ... .. z2 .... ... û2 ..... ... .. ...... ..... ...... û1 ........................................... . z1 . .. ... . ...... û3 ... ... .................................................. ................................................. ........ ........ ............. ........... ....... ....... ....... ............. ....... .... ...... ...... ...... ... ...... . ... . ...... . . . . . . . . . . . ..... ..... ... ... ... .... . . . . . . . . ..... . . ..... ... ... .. .. . . . . .... . . . . . ... .... ... .. ... ... . . . . . . . . ... ... ... . ... . ... . . ... . . . ... ... ... . ... .. . . . . . ... ... ... . ... .. . . . . . ... ... ... ... . . ... .... . ... ... ... ... ... ... .... ... ... ... . . ... ... ... . ... ... .. . .. ... . . . . .................................................................................................................................................................................... ....................................................................................................................................................................................................................... ... ... . . ... . . ... .. ... ... ... .. . . . . ... ... ... ... .. .. ... ... ... ... .. .. . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. . . . . . . . . ... ... ... ... .. .. ..... ..... ... ... .... .... ..... ..... ... ... ..... ..... ..... ..... ..... ..... ... ... ...... ...... ...... ...... . . ... . ...... . . . . . . . . . . . . . . ....... ... ....... ....... .. ........ ......... ......... .......... ................ ....................................................... ................................. ... . r û2 z2 r û1 z1 r û 3 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. .. .... ..... .... .... ..... .... .... ..... .... .... .... ..... .... .... ..... .... .... ..... .... .... .... ... . . . . ... . . . . .. . . . . ... . . . . .. ... ... ... ... ... ... ... ... ... ... ... ... ... . . ... ... ... ... ... ... ... . .. .. 4.2 Multivariate multiple Regression R07 64 Hier liegen nun fast die aus der Faktorenanalyse bekannten Verhältnisse vor. Die Darstellung der vorhergesagten Variablen durch Pfeile ist links zur Vergleichbarkeit mit der ersten Abbildung beibehalten worden; daneben findet sich die vertrautere Darstellung mit Punkten. Als Koordinaten der ûk liest man die βGewichte ab und mit Hilfe der Lote die Korrelationen der yk mit den xj . Zum Vergleich folgen die nach den gegebenen Formeln berechneten Matrizen der βGewichte und der Korrelationen: 0.8 0.6 0.6 0.3333 0.3333 0. 1. 0.8889 . −0.5 −0.75 −0.25 −0.5833 Der Unterschied zu den Verhältnissen bei der Faktorenanalyse liegt aber immer noch darin, dass die Korrelationen der vorhergesagten Variablen wegen der korrelierenden Fehler nicht durch Multiplikation mit den zugehörigen Streuungen in die Korrelationen der Originalvariablen umgerechnet werden können. Als letztes folgt noch die Darstellung einer Rotation. Als neue Prädiktoren sollen nun die Variablen v1 = x1 + x2 und v2 = x2 − x1 dienen. Die Rotationsmatrix ist daher µ ¶ 1 −1 G= , 1 1 woraus man als neue Koeffizientenmatrix BG0−1 die Matrix 1.5 −0.5 1.5 0.5 −1. 0. berechnet. Wie gewohnt kann man in die ursprüngliche Darstellung die Repräsentanten der neuen Prädiktoren als die entsprechenden Linearkombinationen eintragen und dann in dem zugehörigen neuen Koordinatensystem in der gleichen Weise Kennwerte ermitteln wie in dem alten. Es folgt nun diese Darstellung, zusätzlich dieselbe Darstellung mit den eher vertrauten Punkten statt der Vektoren für die vorhergesagten Variablen. 4.2 Multivariate multiple Regression ..... ŷ2 ... .. .. ...... .. ..... ........ ...... . . ... v2 ....... ... ...v..1..... ŷ1 ...... ......... ............. .. ... . ....... ŷ3 ..... .. ..... ..... ... ..... ... ..... .. . ..... ..... ... ..... ... ..... .. ..... .. ..... . . ..... ..... ... ..... ... ..... ...... .. ..... .. ........ ..... . . . . ..... . ... ..... ... ... ..... ... ... ..... ... ..... ... ..... .. . . . . ..... ..... .... .... ..... ... .. ..... .. ... ..... .. . .......... .................................................. .. ... ... ......... ..... ... ..... .. . ..... .. ..... . ..... ... ..... ..... ... ..... ... ..... .. ..... . ..... .. . ..... .. ..... . ..... .. . ..... .. ..... . ..... .. . ..... .. ..... . .. . R07 ŷ2 65 r ..... .. ..... ..... ... ..... ... ..... .. . ..... ..... ... ..... ... ..... .. ..... .. ..... . . ..... .. ..... .. ..... ..... ... ...... ... ............... .......... ........... ....... . . . ..... . .. ... ..... ... ..... ... ... ..... ... ... ..... ... .. ..... . . ..... ... ..... .. .... ..... .. .. ..... ... .. ....... .. ........ ..... ................................................ ... ......... ..... ... ..... .. . ..... ..... ... ..... ... ..... ..... ... ..... .. . ..... .. ..... . ..... .. . ..... .. ..... . ..... .. . ..... .. ..... . ..... .. . ..... .. ..... . .. . r v1 v2 r ŷ1 ............................................................... ... .. ... .. ... . . . ŷ3 Natürlich wäre hier auch eine graphische Rotation möglich gewesen, bei der man sich die neuen Achsen in geeigneter Lage zu den Punkten gesucht hätte. Regression und Determinante. In diesem Abschnitt sollen Beziehungen zwischen den Determinanten der Kovarianzmatrizen der bei der Regression beteiligten Variablen untersucht werden. Die Beziehung y = Bx + e kann man etwas künstlich erweitern, indem man die Gleichung x = x am Anfang hinzufügt. Fasst man dann x und y zu einem Vektor zusammen und ebenso x und e, so erhält man die Gleichung µ ¶ µ ¶µ ¶ x I 0 x = , y B I e aus der man unmittelbar folgende Gleichung für Kovarianzmatrizen erhält: µ ¶ µ ¶ µ ¶ µ ¶ x I 0 x I B0 V( )= V( ) . y B I e 0 I Die Determinante der Kovarianzmatrix von (x, y) ist daher das Produkt der Determinanten der Matrizen auf der rechten Seite. Die Determinanten der beiden Matrizen rechts und links sind hier 1, und wegen der Unkorreliertheit von Prädiktoren und Fehlern ist µ ¶ µ ¶ x Sx 0 V( )= e 0 Se und daher die Determinante der mittleren Matrix gleich dem Produkt der Determinanten von Sx und Se . Insgesamt erhält man µ ¶ x det(V( )) = det(Sx ) det(Se ) . y 4.2 Multivariate multiple Regression R07 66 Schreibt man für die Kovarianzmatrix von (x, y) etwas kürzer S(x,y) und für die Kovarianzmatrix des Fehlers deutlicher Sy.x , so erhält man det(S(x,y) ) = det(Sx ) det(Sy.x ) . Feststellung 7. Bei einer multivariaten multiplen Regression von y auf x gilt für die Determinanten der Kovarianzmatrix S(x,y) von (x, y), der Kovarianzmatrix Sx der Prädiktoren x und der Residualkovarianzmatrix Sy.x des Fehlers die Beziehung det(S(x,y) ) = det(Sx ) det(Sy.x ) . ¤ In dem oben betrachteten Beispiel bestimmt man mit etwas Aufwand die Determinante der (5 × 5)-Kovarianzmatrix der beiden x-Variablen und der drei y-Variablen zu 2080. Die Determinante der (2 × 2)-Kovarianzmatrix der beiden x-Variablen ist 32 und die der (3 × 3)-Kovarianzmatrix der Fehlervariablen gleich 65. In der Tat gilt hier 2080 = 32 · 65. Mit der Beziehung aus der letzten Feststellung kann der Determinante einer Kovarianzmatrix eine neue Bedeutung gegeben werden, was nun geschehen soll. Zunächst gilt für den Spezialfall, dass y nur aus einer Variable besteht, dass die 2 2 Varianz des Fehlers gleich Sy2 (1 − Ry,x ) ist, wo Sy2 die Varianz von y ist und Ry,x der Determinationskoeffizient der Regression von y auf x. Man erhält dann die Gleichung 2 det(S(x,y ) ) = det(Sx ) Sy2 (1 − Ry,x ). Betrachtet man nun für nur noch einen Variablenvektor x die Regression der letzten Variable xp auf die vorherigen, die zu einem Vektor x1 = (x1 , . . . , xp−1 )0 zusammengefasst seien, und schreibt man für den Determinationskoeffizienten 2 dieser Regression Rp,1...(p−1) , so erhält man ¢ ¡ 2 . det(Sx ) = det(Sx1 ) Sx2p 1 − Rp,1...(p−1) Auf die gleiche Art kann man aber auch Sx1 darstellen und diesen Prozess weiterführen bis man bei nur noch einer Variable angelangt ist. Mit der Bezeich2 für den Determinationskoeffizienten der Regression von xq+1 auf nung Rq+1,1...q (x1 , . . . , xq ) ergibt sich so ¡ ¢ ¡ ¢ 2 2 det(Sx ) = Sx21 Sx22 1 − R2,1 . . . Sx2p 1 − Rp,1...(p−1) 4.2 Multivariate multiple Regression R07 67 oder umgeordnet ¡ ¢¡ ¢ ¡ ¢ 2 2 2 det(Sx ) = Sx21 Sx22 . . . Sx2p 1 − R2,1 1 − R3,12 . . . 1 − Rp,1...(p−1) . Die Determinante von Sx ist also das Produkt der Varianzen der xj mit den ¡ ¢ 2 Faktoren 1 − Rq+1,1...q , die jeweils die (relativen) aufgeklärten Varianzanteile angeben, wenn man Regressionen der Einzelvariablen auf die jeweils vorhergehenden durchführt. Dividiert man daher die Determinante von Sx durch das Produkt der Varianzen, ¡ ¢ 2 so erhält man mit dem Produkt der 1 − Rq+1,1...q ein Maß für die Abhängigkeit der Variablen untereinander im Sinne der relativen Varianzaufklärung durch Regressionen. Berücksichtigt man ferner, dass die Korrelationsmatrix Rx sich auch schreiben −1/2 −1/2 lässt als Vx Sx Vx (wobei Vx wieder die Diagonalmatrix der Varianzen der xj ist), so folgt −1/2 ) det(Sx ) det(Vx −1/2 ) det(Vx det(Rx ) = det(Vx = det(Vx −1/2 −1/2 ) ) det(Sx ) −1 = det(Vx ) det(Sx ) = det(Sx )/ det(Vx ) , und da die Determinante von Vx gerade das Produkt der Varianzen Sx2j ist, so ergibt sich ¡ ¢¡ ¢ ¡ ¢ 2 2 2 det(Rx ) = 1 − R2,1 1 − R3,12 . . . 1 − Rp,1...(p−1) . Feststellung 8. Sind Sx und Rx die Kovarianz- und Korrelationsmatrix der 2 Variablen xj mit Varianzen Sx2j , und ist Rq+1,1...q der Determinationskoeffizient bei Regression von xq+1 auf x1 , . . . , xq , so gilt ¢¡ ¢ ¡ ¢ ¡ 2 2 2 det(Rx ) = 1 − R2,1 1 − R3,12 . . . 1 − Rp,1...(p−1) und ¡ ¢¡ ¢ ¡ ¢ 2 2 2 det(Sx ) = Sx21 Sx22 . . . Sx2p 1 − R2,1 1 − R3,12 . . . 1 − Rp,1...(p−1) . Für die Determinanten von Kovarianz- und Korrelationsmatrix gilt ferner ´ .³ det(Rx ) = det(Sx ) Sx21 . . . Sx2p . ¤ 4.2 Multivariate multiple Regression R07 68 Nebenbei ergibt sich damit übrigens eine Abschätzung der Determinante: Da die Determinationskoeffizienten alle zwischen 0 und 1 liegen, ist dasselbe der Fall für die Faktoren bei der Kovarianzmatrix, und es folgt 0 ≤ det(Sx ) ≤ Sx21 . . . Sx2p und für die Korrelationsmatrix entsprechend 0 ≤ det(Rx ) ≤ 1 . Hier drängt sich natürlich die Frage auf, unter welchen Bedingungen die Determinante minimal (also 0) und maximal (also 1) ist. An der gerade hergeleiteten Produktdarstellung sieht man, dass die Determinante genau dann gleich 0 ist, wenn mindestens einer der Faktoren 0 ist. Da alle Faktoren ≤ 1 sind, ist die Determinante genau dann 1, wenn alle Faktoren gleich 1 sind. Nun erhält man die Faktoren dadurch, dass man von 1 einen Determinationskoeffizienten abzieht. Es folgt, dass die Determinante genau dann 0 ist, wenn mindestens einer der Determinationskoeffizienten 1 ist, und genau dann 1, wenn alle Determinationskoeffizienten 0 sind. Diese beiden Möglichkeiten sind nun genauer zu bestimmen. Die Feststellung 3 aus Kapitel 4.1 zeigt, dass ein Determinationskoeffizient genau dann 0 ist, wenn das Kriterium mit keinem Prädiktor korreliert. Der Fall, dass alle Determinationskoeffizienten im Produkt 0 sind, tritt also genau dann ein, wenn für alle Variablen die Korrelationen mit den in der Reihenfolge vorangehenden Variablen alle 0 sind, mit anderen Worten genau dann, wenn alle Korrelationen 0 sind, wenn also die Korrelationsmatrix die Einheitsmatrix ist. Der Fall, dass ein Determinationskoeffizient 1 ist, ist hingegen gleichbedeutend damit, dass die Vorhersage mit dem Kriterium übereinstimmt. Hier heißt das, dass eine der Variablen perfekt durch die vorangehenden vorhergesagt werden kann. Dann kann sie natürlich erst recht perfekt vorhergesagt werden, wenn man die übrigen Variablen auch noch zu den Pädiktoren hinzufügt. Kann umgekehrt eine Variable perfekt durch die anderen vorhergesagt werden, so erhält man eine Variable der Varianz 0, wenn man die Vorhersage von dieser Variable abzieht – mit anderen Worten gibt es eine Linearkombination der Variablen, bei der nicht alle Koeffizienten 0 sind und die die Varianz 0 besitzt. Hieraus folgt jedoch, dass die Kovarianzmatrix der Variablen nicht positiv definit und folglich singulär ist, was sich auch auf die Korrelationsmatrix überträgt. Lässt sich also eine Variable 4.2 Multivariate multiple Regression R07 69 durch die übrigen perfekt vorhersagen, so ist auch die Determinante der Korrelationsmatrix gleich 0. Insgesamt erhält man so das folgende Resultat: Feststellung 9. Die Determinante einer Korrelationsmatrix ist genau dann 0, wenn eine der Variablen perfekt durch die anderen vorhergesagt werden kann, und sie ist genau dann 1, wenn alle Variablen unkorreliert sind. In diesem Sinn kann man die Determinante einer Korrelationsmatrix deuten als Hinweis darauf, in welchem Ausmaß Variablen durch die anderen vorhergesagt werden können. Ist die Determinante 0, so kann (mindestens) eine Variable perfekt durch die anderen vorhergesagt werden, ist die Determinante 1, so sind alle Korrelationen 0 und alle Vorhersagen einer Variablen durch die jeweils anderen sind konstant, also nutzlos. Bei Werten, die nicht 0 oder 1 sind, ist zur Interpretation die Darstellung der Determinante als Produkt aus Feststellung 8 hilfreich. Mit aller gebotenen Vorsicht kann man so die Determinante einer Korrelationsmatrix als ein Maß für die Multikollinearität benutzen, wobei kleine Werte für starke wechselseitige Abhängigkeiten sprechen und große Werte für geringe. Regression und Inverse. Auch die Inverse der Kovarianzmatrix der Prädiktoren x und Kriteriumsvariablen y enthält (zumindest theoretisch) noch interessante Informationen. Es soll also jetzt vorausgesetzt sein, dass diese Matrix invertierbar ist. Weiter oben hat sich schon ein Zusammenhang mit der Kovarianzmatrix der Prädiktoren und der Residuen gezeigt, nämlich µ ¶ µ ¶ µ ¶ µ ¶ x I 0 x I B0 V( )= V( ) , y B I e 0 I wobei B die Matrix der Regressionsgewichte war. Diese Gleichung soll nun invertiert werden (wenn die Matrix auf der linken Seite invertierbar ist, so müssen auch die auf der rechten Seite invertierbar sein). Als erstes soll das Inverse der ersten Matrix auf der rechten Seite bestimmt werden. Hier prüft man sofort nach, dass µ ¶µ ¶ µ ¶ µ ¶ I 0 I 0 I 0 I 0 = = B I −B I B−B I 0 I 4.2 Multivariate multiple Regression gilt, also µ I 0 B I R07 ¶−1 µ = I 0 −B I 70 ¶ . Durch Transponieren erhält man µ I B0 0 I ¶−1 µ = I −B0 0 I ¶ . Da die Kovarianzmatrix der Prädiktoren und der Fehler invertierbar ist, müssen auch die beiden Matrizen in ihrer Diagonale invertierbar sein (da sie ja sonst einen Rangdefekt hätte), und man erhält (wieder mit der Schreibweise Sy.x für die Kovarianzmatrix von e) µ ¶ µ ¶ ¶−1 µ −1 x −1 Sx 0 Sx 0 V( ) = = . e 0 Sy.x 0 S−1 y.x Insgesamt folgt µ ¶ µ ¶−1 µ ¶ µ ¶−1 x −1 I B0 x −1 I 0 V( ) = V( ) y 0 I e B I µ ¶ µ −1 ¶ µ ¶ I −B0 Sx 0 I 0 = 0 I 0 S−1 −B I y.x à −1 ! 0 −1 Sx + B0 S−1 y.x B − B Sy.x = . −1 − S−1 B S y.x y.x Der Teil der Inversen der Kovarianzmatrix von x und y, der y entspricht, ist also gerade das Inverse der Kovarianzmatrix des Residuums. Diese Kovarianzmatrix kann man also (theoretisch) auch berechnen, indem man zunächst die Kovarianzmatrix von x und y invertiert und dann den zu y gehörenden Teil des Ergebnisses noch einmal invertiert. Feststellung 10. Bei einer multiplen multivariaten Regression eines q-dimensionalen Kriteriums y auf einen p-dimensionalen Prädiktor x erhält man, falls die Kovarianzmatrix K von (x, y) invertierbar ist, die Kovarianzmatrix Sy.x des Residuums auch als Inverse der rechten unteren (q × q)-Teilmatrix von K−1 . ¤ 4.2 Multivariate multiple Regression R07 71 Beispielsweise sei die Kovarianzmatrix von zwei Prädiktorvariablen und drei Kriteriumsvariablen die folgende Matrix: 1 2 −1 −1 −2 2 5 −3 −1 −3 −1 −3 3 −3 −2 . −1 −1 −3 12 14 −2 −3 −2 14 19 Die Inverse dieser Matrix berechnet man zu 7 −5 −4 −2 1 −5 10 13 6 −2 −4 13 19 9 −3 , −2 6 9 5 −2 1 −2 −3 −2 1 und hier ist der Teil, der y entspricht, gerade 19 9 −3 9 5 −2 . −3 −2 1 Die Inverse dieser Matrix ist die Kovarianzmatrix des Fehlers, so dass man schließlich 1 −3 −3 Sy.x = −3 10 11 −3 11 14 erhält. Ein Spezialfall ist der mit nur einer Kriteriumsvariable. Die Fehlervarianz bei einer nun univariaten multiplen Regression ist dann der Kehrwert des Elements, das unten rechts in der Inversen der Kovarianzmatrix der Prädiktoren und des Kriteriums steht. Wollte man im eben betrachteten Beispiel die letzte Variable mit den ersten vier vorhersagen, so wäre die Fehlervarianz der Kehrwert des Elements unten rechts in der Inversen, also der Kehrwert von 1 und damit 1. Was für die letzte Variable gilt, gilt jedoch ebenso für alle anderen Variablen: Jedes Diagonalelement der Inversen der Kovarinanzmatrix einer Variablen x ist der Kehrwert der Residualvarianz bei Regression der entsprechenden Komponente von x auf alle anderen Komponenten. Ist die oben betrachtete Kovarianzmatrix nun die Kovarianzmatrix von 5 Variablen xi , so ist beispielsweise das zweite 4.2 Multivariate multiple Regression R07 72 Diagonalelement 10 der Inversen gerade der Kehrwert der Residualvarianz bei Regression von x2 auf die übrigen Variablen; diese Residualvarianz ist folglich gleich .1. Dies folgt aus dem gerade behandelten Fall beispielsweise folgendermaßen: Geht es um das i-te Diagonalelement, so definiert zunächst eine Matrix T, die auf einen Vektor x angewendet gerade das i-te und das letzte Element vertauscht. Diese Matrix T ist dann offenbar die Einheitsmatrix, bei der man die i-te und die letzte Spalte vertauscht; im Beispiel mit den 5 Variablen, in dem x2 durch die restlichen Variablen vorhergesagt werden soll, wäre T gerade 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 . 0 0 0 1 0 0 1 0 0 0 Die Matrix T hat offenbar die bemerkenswerten Eigenschaften T2 = I, also T−1 = T, und T0 = T. In dem Vektor Tx stehen die Variablen nun in einer brauchbaren Reihenfolge, weshalb der Kehrwert des Elements unten rechts im Inversen der Kovarianzmatrix von Tx gerade die gesuchte Residualvarianz ist. Nun ist die Kovarianzmatrix von Tx aber TV(x)T0 und besitzt wegen der Eigenschaften von T die Inverse TV(x)−1 T. Man erkennt jedoch sofort, dass das Element rechts unten in dieser Matrix gerade gerade das i-te Diagonalelement von V(x)−1 ist, da die Multiplikationen mit T von links und rechts gerade die i-te Zeile bzw. Spalte mit der letzten Zeile bzw. Spalte vertauscht. Die Behauptung ist damit gezeigt. Feststellung 11. Ist K die Kovarianzmatrix einer Variable x, so sind die Kehrwerte der Diagonalelemente von K−1 gerade die Residualvarianzen bei Regression der xi auf die jeweils restlichen Komponenten xj von x. ¤ Geht man beispielsweise von einer Korrelationsmatrix aus (also der Kovarianzmatrix der standardisierten Variablen), so sind die Kehrwerte der Diagonalelemente der invertierten Kovarianzmatrix wieder die Residualvarianzen, wobei aber jetzt die Gesamtvarianzen 1 sind. Zieht man also diese Werte von 1 ab, so erhält man die entsprechenden Determinationskoeffizienten. 4.2 Multivariate multiple Regression Beispielsweise sei R07 73 1. 0.6 0.36 0.6 1. 0.6 0.36 0.6 1. die Korrelationsmatrix von drei Variablen. Die Inverse dieser Matrix berechnet sich zu 1.5625 −0.9375 0 −0.9375 2.125 −0.9375 . 0 −0.9375 1.5625 Die Kehrwerte der Diagonalelemente 1.5625, 2.125 und 1.5625 sind hier 0.64, 0.470588 und 0.64, weshalb sich die Determinationskoeffizienten zu .36, .529412 und .36 errechnen.