Inhaltsverzeichnis 1 Regressions- und Korrelationsrechnung 1 1.1 Regression über die Methode der kleinsten Quadrate . . . . . . . . . . 1 1.2 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Erklärte Varianz und Modellgüte der linearen Regression . . . 6 1.2.2 Lineare Regression von X aus Y . . . . . . . . . . . . . . . . . 9 1.2.3 Lineare Regression bei Abweichungswerten . . . . . . . . . . . 9 1.2.4 Der Produkt-Moment Korrelationskoeffizient rxy . . . . . . . . 11 Korrelation bei nicht metrischen Skalenniveaus . . . . . . . . . . . . . 17 1.3.1 Zusammenhang von dichotomen Merkmalen . . . . . . . . . . . 17 1.3.2 Zusammenhang von dichotomen und intervallskalierten Merkmalen 22 1.3.3 Zusammenhang bei ordinalskalierten Daten . . . . . . . . . . . 1.3 1 26 Regressions- und Korrelationsrechnung In der Psychologie hat man es ständig mit Merkmalszusammenhängen zu tun, d.h. man betrachtet, in welcher Weise das Auftreten eines Merkmals X mit dem Auftreten eines Merkmals Y zusammengeht, also das Miteinanderauftreten von Merkmalen. Allgemein formuliert hat man das Problem, daß eine vorherzusagende Variable Y aus einer Menge von Prädiktoren X1 , . . . , XK vorhergesagt werden soll. Wir beschränken uns im folgenden zunächst auf den einfachen Fall des Zusammenhanges zwischen zwei Variablen, dieser kann auf den allgemeinen Fall von K Prädiktoren und einer vorherzusagenden Variable verallgemeinert werden. 1.1 Regression über die Methode der kleinsten Quadrate Wie betrachten zwei mindestens intervallskalierte Variablen X und Y. Gibt es einen Zusammenhang zwischen diesen beiden Variablen, d.h. kann aus den Werten der einen Variable eine gültige Vorhersage der Werte der anderen Variable gemacht werden, muß die Gleichung der Form Y = ϕ (X) gelten. Wenn wir annehmen, daß X und Y statistische Variablen sind, wird eine Gleichung dieser Form aber nicht streng gelten, sondern wir schreiben statt dessen Yi = ϕ (Xi ) + ei . (1) Die Beziehung (1) besagt, daß wir jeden Beobachtungswert Yi erklären über eine noch unbekannte Funktion von X und einen Fehler ei , der bei der Vorhersage unvermeidlich auftritt. Da ϕ (X) zur Vorhersage verwendet wird, schreiben wir Ybi = ϕ (Xi ) 1 (2) für die vorhergesagten Werte und definieren den Vorhersagefehler als ei = Yi − Ybi . (3) Für die anzupassende Funktion ϕ muß man ein problemangemessenen Modell wählen. Hat man dies getan, stellt sich die Frage, nach welchem Kriterium die Modellparameter (die Konstanten der Funktion ϕ, die den Verlauf der Funktion festlegen) hergeleitet werden sollen. Das gebräuchlichste Kriterium hierfür ist das Kriterium kleinster quadratischer Abweichungen: N X e2i = i=1 N X (yi − ybi )2 → min (4) i=1 Bezüglich der Funktion ϕ unterscheidet man 2 Fälle 1. Modelle, die durch geeignete Transformationen auf ein Polynom der Form y = Pk k i=0 a0 x zurückgeführt werden könnnen; 2. Modelle, für die das nicht möglich ist. Es läßt sich zeigen, daß für Modelle der ersten Klasse die Bestimmung der Modellparameter nach dem Kleinstquadratkriterium äquivalent ist zu der Lösung eines entsprechenden Gleichungssystems, bei dem die Anzahl der linear unabhängigen Gleichungen gleich der Anzahl der unbekannten Parameter ist. D.h. man kann einen Algorithmus zur Anwendung bringen, der die Lösung des Problems der Parameterbestimmung garantiert und impliziert, daß die gefundene Lösung die beste Lösung ist. Im Fall von Modellen der zweiten Klasse ist dies nicht so: hier müssen Optimierungsstrategien zur Anwendung kommen, die keine sichere Auskunft darüber geben können, ob die gefundene Lösung auch die beste ist. Abbildung 1 zeigt verschiedene Formen der Funktion ϕ. 1.2 Lineare Regression Wir betrachten im folgenden als Modell ein Polynom erster Ordnung ybi = a0 + a1 x. (5) Einsetzen in (4) ergibt N X (yi − (a0 + a1 xi ))2 = min i=1 Wir setzen F = N X (yi − (a0 + a1 xi ))2 i=1 2 (6) Gerade Parabel Y Y 100 200 175 Yˆ = a0 + a1 X + a2 X 2 80 150 125 60 100 40 75 Yˆ = a0 + a1 X 50 20 25 5 10 15 20 25 30 5 35 10 15 Exponential modifiziert Y 25 30 35 30 35 Hyperbel Y 100 100 80 80 60 60 40 20 X X Yˆ = 1 a0 + a1 X 40 Yˆ = a ⋅ b X + c 20 20 5 10 15 20 25 30 5 35 10 15 20 25 X X Abbildung 1: Veranschaulichung verschiedener gebräuchlicher Funktionen zur Erklärung von Merkmalszusammenhängen (zwei Variablen X, Y ). und bilden die partiellen Ableitungen nach den beiden gesuchten Parametern a0 und a1 mit Hilfe der Kettenregel. Für die Ableitung nach a0 erhält man ∂F ∂a0 = 2 N X (yi − a0 − a1 xi ) · (−1) i=1 N X = −2 yi + 2N · a0 + 2a1 i=1 N X xi . i=1 Wir setzen dies gleich Null und erhalten über 0=− N X yi + N · a0 + a1 N X i=1 xi i=1 die erste Gleichung N X yi = N · a0 + a1 i=1 N X i=1 3 xi . (7) Dies definiert in der Tat ein Minimum, denn für die zweite Ableitung erhalten wir ∂2F = 2N, ∂a20 was größer Null ist. Für die zweite Gleichung bilden wir N X ∂F =2 (yi − a0 − a1 xi ) · (−xi ) ∂a1 (8) i=1 was nach Nullsetzen 0 = −2 N X xi yi + 2a0 N X xi + 2a1 N X i=1 i=1 x2i (9) i=1 auf die zweite Gleichung N X xi yi = a0 i=1 N X xi + a1 i=1 N X x2i (10) i=1 führt. Auch hier verifiziert man die Existenz des Minimums über N X ∂2F = 2 x2i . ∂a21 i=1 Damit hat man das System N X yi = a0 · N + a1 i=1 N X N X i=1 i=1 N X xi (11) i=1 xi yi = a0 xi + a1 N X x2i . (12) i=1 welches als erste und zweite Normalgleichung bekannt ist. Man sieht, daß man das System nach den Koeffizienten a0 und a1 auflösen kann und daher die Koeffizienten aus den empirisch ermittelbaren Summenausdrücken ermitteln kann. Stellt man die Gleichung (11) um, erhält man für a0 a0 = N N 1 X 1 X yi − a1 xi . N N i=1 (13) i=1 Um jetzt a1 in einer Gleichung ohne Bezug auf a0 zu ermitteln, macht man am bequemsten von (9) Gebrauch und setzt dort (13) ein: Ã ! N N N N N X X X 1 X 1 X 0=− xi yi + yi − a1 xi xi + a1 xi2 . N N i=1 i=1 i=1 4 i=1 i=1 Das ergibt ÃN !2 N N N X 1 X X 1 X 2 xi yi − yi xi = a1 xi − a1 xi N N i=1 i=1 i=1 i=1 i=1 ÃN !2 N N N N X X X X X 1 1 yi xi = a1 x2i − ⇔ xi yi − xi N N N X i=1 i=1 und endlich i=1 i=1 PN a1 = i=1 xi yi 1 N − PN 2 i=1 xi − PN i=1 PN i=1 yi 1 N (14) i=1 xi ´2 N x i i=1 (15) ³P für den Steigungskoeffizienten a1 . Dieser Ausdruck läßt sich auf eine bekannte Form bringen. Wir teilen Zähler und Nenner durch N und erhalten a1 = 1 N PN i=1 xi yi 1 N − PN 1 N 2 i=1 xi − PN ³ PN 1 i=1 yi N 1 N i=1 xi PN i=1 xi (16) ´2 Es ist aus der Momentenschreibweise bekannt, daß N 1 X 2 2 2 V ar (x) = x − x = xi − N i=1 Ã N 1 X xi N !2 i=1 ist, also ist der Nenner von (16) gleich V ar (x). Weiter kann man die Covarianz wie folgt definieren Cov (x, y) = = N 1 X (xi − x)(yi − y) N 1 N i=1 N X i=1 N N 1 X 1 X xi yi − xi yi N N i=1 (17) i=1 = xy − x · y. Dann ist der Zähler von (16) also Cov (x, y) . Also folgt: a1 = Cov (x, y) V ar (x) (18) Damit sind die beiden Parameter der Polynoms erster Ordnung, der Geraden, bestimmt. Nach (13) ist ja a0 = y − a1 · x (19) und man hat die gesuchten Parameter, indem man die Mittelwerte, die Varianz von x und die Covarianz der Variablen berechnet. 5 1.2.1 Erklärte Varianz und Modellgüte der linearen Regression Um die Modellgüte der linearen Regression zu ermitteln, betrachte man zunächst die Zerlegung für Abweichungswerte: yi − y = (yi − ybi ) + (b yi − y) (20) Eine Abweichung vom Mittelwert der Variable y wird also zerlegt in die Summe aus der Abweichung vom Vorhersagewert (d.h. einen Vorhersagefehler ei = yi − ybi ) und der Distanz von Vorhersagewert und Mittelwert. Die Gültigkeit dieser Beziehung veranschaulicht man sich anhand Abbildung 2. ^ Y Y ^ pp Yi Y ^ ei = Yi - Yi ^ Yi - Y a 0 X Xi X Abbildung 2: Veranschaulichung der Zerlegung von Abweichungswerten in der linearen Regression. Nun bilde man die Summe der Abweichungsquadrate N X 2 (yi − y) = i=1 = N X i=1 N X ((yi − ybi ) + (b yi − y))2 (yi − ybi )2 + i=1 N X i=1 (b yi − y)2 + 2 N X (yi − ybi ) · (b yi − y) i=1 Für yb setze man nun das lineare Modell ein. Wir betrachten nur den Kreuzterm auf der rechten Seite: N X i=1 (yi − ybi ) · (b yi − y) = N X (yi − a0 − a1 xi ) · (a0 + a1 xi − y) i=1 Um diesen Ausdruck zu vereinfachen, verwenden wir einen Trick. Wir bilden für den Summenterm auf der rechten Seite drei Summenterme, indem wir jedes Klammerele- 6 ment der letzten Klammer einzeln in die Summe multiplizieren und erhalten N X (yi − ybi )·(b yi − y) = a0 i=1 | N X (yi − a0 − a1 xi ) + a1 i=1 {z } N X | xi (yi − a0 − a1 xi ) − y i=1 {z T erm1 } | T erm2 N X i=1 (yi − a0 − a1 xi ) {z T erm3 (21) Dieser Ausdruck läßt sich jetzt mit Hilfe der 1. und 2. Normalgleichungen bewerten. P PN PN Es gilt für Term1 N i=1 (yi − a0 − a1 xi ) = i=1 yi −N ·a0 −a1 i=1 xi = 0 wegen der ersten Normalgleichung. Also ist Term 1 und Term 3 gleich 0. Weiter ist aber wegen P PN PN 2 der 2. Normalgleichung N i=1 xi yi − a0 i=1 xi − a1 i=1 xi = 0, damit ist auch Term 2 gleich Null. Es folgt N X (yi − ybi ) · (b yi − y) = 0 (22) i=1 und damit folgt für die gesamte Zerlegung der quadratischen Abweichungen N X (yi − y)2 = i=1 N X (yi − ybi )2 + i=1 N X (b yi − y)2 . (23) i=1 Multipliziert man das mit 1/N resultiert N N N 1 X 1 X 1 X 2 2 (yi − y) = (yi − ybi ) + (b yi − y)2 , N N N i=1 i=1 i=1 oder kurz V ar (y) = V ar (e) + V ar (b y) . (24) Dies ist die Varianzzerlegung der linearen Regression: die Varianz des Kriteriums y wird zerlegt in die Summe aus Fehlervarianz und Varianz der Vorhersagewerte (Schätzvarianz). Die Fehlervarianz ist offenbar die Variation der Meßwerte y um die Gerade, die Schätzvarianz ist die Variation der Werte auf der Geraden um den Mittelwert y. Kennkoeffizienten Durch die Regressionsgerade ist dem Mittelwert x offensichtlich der Mittelwert y zugeordnet: yi = a0 + a1 x y0 = a0 + a1 x = y − a1 x + a1 x =⇒ y0 = y. Daher muß gelten ybi − y = a1 (xi − x), was man sich auch anhand des Steigungsdreiecks in Abb. 2 leicht veranschaulicht. Daraus folgt N N X 1 X 2 2 1 (b yi − y) = a1 (xi − x)2 N N i=1 i=1 7 } oder V ar (b y ) = a21 · V ar (x) . (25) Teilt man Gleichung (24) durch V ar (y), erhält man 1= V ar (e) V ar (b y) + V ar (y) V ar (y) (26) was besagt, daß sich die Anteile der Fehlervarianz und der Schätzvarianz an der Gesamtvarianz zu 1 addieren (komplementär sind). Für den Anteil der Schätzvarianz an der Gesamtvarianz läßt sich ein einfach zu berechnender Koeffizient herleiten. Ersetzt man in (26) V ar (b y ) gemäß (25), erhält man 1= V ar (e) V ar (x) + a21 V ar (y) V ar (y) (27) Also gilt mit (18) 1− V ar (e) V ar (y) = = Cov 2 (x, y) V ar (x) V ar2 (x) V ar (y) Cov 2 (x, y) V ar (x) V ar (y) Man definiert nun r2 = 1 − V ar (e) V ar (b y) Cov 2 (x, y) = = V ar (y) V ar (y) V ar (x) V ar (y) (28) den sog. Determinationskoeffizienten r2 . Er gibt den Anteil der Schätzvarianz (durch das Modell erklärte Varianz) an der Gesamtvarianz an. Die Definition des Determinationskoeffizienten ist eine direkte Folge der additiven Varianzzerlegung (24). Die Fehlervarianz beschreibt die Variation der Meßwerte y um die Vorhersagewerte yb. Es gilt V ar (e) r2 = 1 − V ar (y) ¡ ¢ ⇔ V ar (e) = 1 − r2 · V ar (y) und damit se = sy p 1 − r2 . (29) (30) (31) Dies definiert den Standardschätzfehler in der linearen Regression. Er ist definiert als √ Anteil an der Streuung des Kriteriums, der zulasten der ”Unzuverlässigkeit” 1 − r2 geht (Ist r2 = 1, folgt se = 0). Hieraus gewinnt man noch eine weitere Beziehung. Es ist mit (30) V ar (e) = ¡ ¢ 1 − r2 · V ar (y) 8 Cov 2 (x, y) V ar (y) V ar (x) V ar (y) Cov 2 (x, y) V ar (x) = V ar (y) − V ar (x) V ar (x) 2 V ar (y) − a1 · V ar (x) . = V ar (y) − 1.2.2 (32) Lineare Regression von X aus Y Man kann natürlich auch die Variable X aus der Variablen Y vorhersagen: x b = a00 + a01 · y (33) Man optimiert dann die Abweichungen in x- Richtung nach dem Kleinstquadratkriterium. Man erhält dann als Normalgleichungen N X xi = a00 ·N + i=1 N X N X i=1 i=1 xi yi = a00 a01 yi + N X yi i=1 N X a01 yi2 . i=1 und daraus Cov (x, y) V ar (y) = x − a01 · y. a01 = (34) a00 (35) Die beiden Geraden schneiden sich im Punkt (x, y). 1.2.3 Lineare Regression bei Abweichungswerten Verwendet man Abweichungswerte oder z- standardisierte Werte, lassen sich die Ausdrücke für die Koeffizienten bei der linearen Regression weiter vereinfachen. Man definiere zunächst Abweichungswerte ui = xi − x v i = yi − y und bestimme vbi = α · ui + β. Es gilt nun β = v−α·u Cov (u, v) α = V ar (u) 9 (36) Da aber v = u = 0 gilt (die Summe der Abweichungen vom Mittelwert ist Null), folgt β = 0, d.h. die Gerade geht durch Null. Durch die Verwendung von Abweichungswerten hat den ”Schwerpunkt” der Punktwolke sozusagen auf den Nullpunkt gelegt. Weiter findet man N 1 X (ui − u)(vi − v) N Cov (u, v) = 1 N = 1 N = i=1 N X i=1 N X ui · vi (xi − x)(yi − y) i=1 = Cov (x, y) (37) und entsprechend V ar (u) = N 1 X (ui − u)2 N i=1 N X = 1 N = N 1 X (xi − x)2 N u2i i=1 i=1 = V ar (x) (38) Damit folgt α = a1 d.h, die Steigungskoeffizienten der Regression unter Verwendung der Ausgangswerte x und unter Verwendung von Abweichungswerten u sind gleich, der Schnittpunkt ist aber bei Abweichungswerten immer gleich Null: vbi = a1 · u. (39) Bei z- standardisierten Werten findet man zxi = zyi = ui xi − x = sx sx yi − y vi = sy sy d.h. z- Werte sind über eine Konstante skalierte Abweichungswerte, daher gilt die Regressionsgleichung zbyi = αz · zxi 10 (40) und man muß nur den Steigungskoeffizienten bestimmen. Für diesen gilt wieder αz = Cov (zx , zy ) V ar (zx ) bzw. wegen V ar (zx ) = V ar (zy ) = 1 αz = Cov (zx , zy ) (41) Für die Covarianz von z- Werten ergibt sich dann Cov (zx , zy ) = N 1 X (zxi − z x )(zyi − z yi ) N i=1 N X = 1 N = N 1 X (xi − x)(yi − y) N sx · sy zxi zyi i=1 i=1 = rxy . (42) Der Koeffizient rxy heißt Produkt-Moment-Korrelationskoeffizient, er ist die vorzeichenbehaftete Wurzel aus dem Determinationskoeffizienten. Die Regressionsgleichung bei z- Werten lautet also vereinfacht zbyi = rxy · zxi . (43) Bei z- Werten muß also nur der Produkt-Moment-Korrelationskoeffizient rxy berechnet werden. 1.2.4 Der Produkt-Moment Korrelationskoeffizient rxy Der Produkt-Moment Korrelationskoeffizient charakterisiert die lineare Beziehung zwischen den Variablen X und Y , und ist gegenüber linearen Transformationen invariant. Die Beziehung (42) zeigt ja rxy = Cov (zx , zy ) = rzx zy . Allgemein gilt, wenn man die Variablen X und Y gemäß X 0 = a1 X + b1 , Y 0 = a2 Y + b2 transformiert rx0 y0 = Cov (x0 , y 0 ) sx0 sy0 = N 1 X (a1 xi + b1 − a1 x − b1 )(a2 yi + b2 − a2 y − b2 ) N a1 sx · a2 sy = N 1 X (a1 (xi − x))(a2 (yi − y)) N a1 sx · a2 sy i=1 i=1 = N a1 a2 X (xi − x) (yi − y) = rxy . N a1 a2 sx · sy i=1 11 (44) Der Korrelationskoeffizient bleibt also derselbe, wenn man die Variablen einer linearen Transformation unterzieht (wie es ja auch bei der z- Transformation der Fall ist). Um den Produkt-Moment Korrelationskoeffizienten anschaulich zu deuten, ist es hilfreich, eine Zwischenbetrachtung über Vektoren einzuschieben, die die Wertebeschränktheit des Koeffizienten und den Zusammenhang mit der Güte der Anpassung der linearen Gleichung an die Daten verständlich macht. Komponente, Projektion und inneres Produkt von Vektoren Wir denken uns einen Vektor ~v , den wir mit Hilfe des kartesischen Koordinatensystems darstellen (s. Abbildung 3). Offenbar gilt für die Komponente des Vektors ~v in ex =1 ur u =1 ur u r v = v x + v y = v x ex + v y e y uur ur u ur u ur u ur u ey ur u ex y2 ey r v ur u vy y1 ur u vx = v x2 + v 2y v x = x2 - x1 v y = y2 - y1 r v x2 x1 Abbildung 3: Veranschaulichung eines Vektors ~v im kartesischen Koordinatensystem. Die Koordinaten des Vektors in x- und y- Richtung erhält man über die rechtwinkligen Projektionen auf die entsprechenden Achsen. Die Länge des Vektors ist über den Satz des Pythagoras gegeben (s. rechter grauer Kasten). Der Vektor ~v wird dargestellt über die Addition der Vektoren ~vx und ~vy . Diese sind wiederum die um den Faktor vx bzw. vy skalierten orthogonalen Einheitsvektoren ~ex bzw. ~ey (s. grauer Kasten rechts oben). Also kann der Vektor dargestellt werden über eine Linearkombination der orthogonalen Einheitsvektoren, wir im oberen grauen Kasten gezeigt. X- Richtung ax = x2 − x1 in Y- Richtung ay = y2 − y1 . Dann ergibt sich die Länge des Vektors nach dem Satz des Pythagoras: q k~v k = a2x + a2y . 12 (45) Stellen wir uns vor, daß zwischen x1 und x2 ein Vektor ~vx liegt, so ist dieser offensichtlich dadurch gegeben, daß man den Fußpunkt und die Spitze von ~v rechtwinklig auf die X- Achse projiziert. Eine analoge Betrachtung kann man zu dem Vektor ~vy anstellen (s. Abbildung 3). Der Vektor ~v ist nun anschaulich darüber gegeben, daß man den Fußpunkt von ~vy an die Spitze von ~vx legt (anschauliche Addition). Es ergibt sich dann ein Vektordreieck. Man kann nun 2 Vektoren ~u und ~v betrachten. Wir legen den Fußpunkt von ~v an den Fußpunkt von ~u und fragen nach einem neuen Vektor ~vu , der Projektion von ~v in Richtung des Vektors ~u (s. Abbildung 4). Wir erstellen u cos a u v a u v = = Ankathete Hypothenuse cos a u v = v v v Abbildung 4: Projektion eines Vektors ~v auf einen Vektor ~u. diesen Vektor zeichnerisch, indem wir von ~v auf ~u rechtwinklig projizieren. Die Länge des Vektors ~vu können wir mit den trigonometrischen Funktionen am rechtwinkligen Dreieck bestimmen. Man beachte, daß ~v und ~u den Winkel α einschließen. Es ist cos (α) = k~vu k Ankathete = Hypothenuse k~v k (46) und damit gilt für die Längen der Vektoren k~vu k = cos (α) · k~v k . (47) Dies definiert die Länge der Projektion von ~v auf ~u als Anteil der Länge von ~v , denn die Cosinusfunktion kann nur Werte zwischen −1 und 1 annehmen. Die Projekton ~vu ist also immer kürzer oder gleich lang wie der Vektor ~v selbst (negative Werte resultieren für 90 < α < 270, der Vektor ~v zeigt dann anteilig stärker in die entgegengesetzte Richtung von ~u). Man definiert nun das Produkt der Längen zweier Vektoren in derselben Richtung (Produkt gleichgerichteter Längen, inneres Produkt) h~v , ~ui = k~v k · k~uk · cos (α) (48) Das innere Produkt ist offenbar kommutativ (h~v , ~ui = h~u, ~v i), da es ja nur auf den eingeschlossenen Winkel ankommt. Es ist ferner distributiv, i.e. h~v , ~u + wi ~ = h~v , ~ui + h~v , wi ~ . 13 Wir halten zwei Sonderfälle fest: 1. Stehen zwei Vektoren senkrecht aufeinander (sog. Orthogonalität, α = 90), so ist ihr inneres Produkt gleich Null (sie haben keine gemeinsame Länge); 2. Sind zwei Vektoren gleichgerichtet (kollinear, α = 0), so ist ihr inneres Produkt gleich dem Produkt ihrer Längen (maximale gemeinsame Länge). Zum inneren Produkt betrachten wir ein Beispiel. Aus der Physik kennen wir die Beziehung Arbeit = Kraft mal Weg, d.h. Arbeit ist die Kraft, die in Richtung des Weges geleistet wird. An einem Wagen ziehe jemand an einer Schnur mit der Kraft F~ = 10 Newton und bewege dabei den Wagen um ~s = 20 Meter weiter. Die Schnur hat dabei einen Winkel von α = 75 zur Wegrichtung. Wieviel Arbeit wurde geleistet? D W = E ° ° ° ° F~ , ~s = °F~ ° · k~sk · cos (75) = 10N · 20m · 0.259 = 51.76 N m Wir betrachten nun die unanschauliche Darstellung des inneren Produktes in der Komponentenschreibweise. Abbildung 3 veranschaulicht ebenfalls die Auffassung des kartesischen Koordinatensystems über orthogonale Einheitsvektoren (orthogonale Vektoren der Länge 1, s. oberer rechter grauer Kasten). Offenbar gilt h~ex , ~ex i = 1 h~ex , ~ey i = 0 = h~ey , ~ex i h~ey , ~ey i = 1. Nun kann man die Vektoren ~v und ~u als gewichtete Summe (Linearkombination) der orthogonalen Einheitsvektoren ~ex , ~ey ausdrücken: Beispielsweise ist der Komponentenvektor von ~vx gegeben über die Multiplikation des Einheitsvektors ~ex mit der Koordinatenzahl vx . Es gilt ~vx = vx · ~ex . Legt man nun den Vektor ~vy = vy · ~ey an die Spitze von ~vx , resultiert ~v . Wir schreiben also ~v = ~vx + ~vy = vx · ~ex + vy · ~ey ~u = ~ux + ~uy = ux · ~ex + uy · ~ey Für die Definition eines Vektors relativ zu einem rechtwinkligen Koordinatensystem reicht es offenbar aus, das Tupel der Koordinatenzahlen anzugeben: ~v = (vx , vy ). 14 Definition 1 Unter der Koordinatendarstellung eines Vektors ~v versteht man die Definition in Bezug auf ein rechwinkliges Koordinatensystem, wobei man ein N- stelliges Zahlentupel angibt, welches die Koordinatenzahlen des Vektors in Bezug auf die N- Koordinatenachsen enthält ~v = (v1 , v2 , . . . , vN ) . Für das innere Produkt gilt damit h~v , ~ui = hvx · ~ex + vy · ~ey , ux · ~ex + uy · ~ey i = vx ux h~ex , ~ex i + vx uy h~ex , ~ey i + vy ux h~ey , ~ex i + vy uy h~ey , ~ey i (49) = vx u x + vy u y . Definition 2 Das innere Produkt zweier Vektoren ist die Summe der Produkte der Komponenten, die gleiche Richtung haben. Allgemein gilt für mehr als zwei Koordinatenachsen h~v , ~ui = N X vi ui (50) i=1 und damit folgt für die Beziehung zur Vektorlänge k~v k h~v , ~v i = N X vi2 = k~v k2 (51) i=1 Zum Beispiel: ~v = (−1, 0, 4) , ~u = (2, 3, 1). h~v , ~ui = −1 · 2 + 0 · 3 + 4 · 1 = 2. Die vektorielle Deutung des Produkt-Moment Korrelationskoeffizienten Wir machen nun die die folgenden Schritte: 1. Für die Variablen X und Y berechne man Abweichungswerte ui = xi − x, vi = yi − y. 2. Man betrachte die Ensembles der Abweichungswerte als Zufallsvektoren ~u = (u1, u2 , . . . , uN ) ~v = (v1, v2 , . . . , vN ) , die Abweichungswerte sind ihre Koordinaten. Wenn die Abweichungswerte die Koordinaten repräsentieren, haben wir offenbar die beiden Variablen als Vektoren in einem Raum dargestellt, der durch die N- Meßobjekte, dies sind ja in der Psychologie meist Personen, aufgespannt wird. Deshalb spricht 15 man von einer Darstellung der Variablen im Personenraum. Die Covarianz und die Varianzen werden hier Cov (x, y) = V ar (x) = (52) 1 N 1 N V ar (y) = Damit ist die Korrelation N 1 X 1 ui vi = h~u, ~v i N N i=1 N X i=1 N X u2i = 1 k~uk2 N (53) vi2 = 1 k~v k2 N (54) i=1 PN rxy = qP N i=1 ui vi PN 2 = 2 i=1 vi i=1 ui h~u, ~v i k~uk k~v k (55) Da nach (48) die Beziehung h~v , ~ui = k~v k · k~uk · cos (α) gilt, folgt rxy = h~u, ~v i = cos (~u]~v ) k~uk k~v k (56) Definition 3 Die Korrelation zweier Variablen entspricht dem Cosinus des Winkels der Vektoren, die die Variablen im Personenraum repräsentieren. Aus dieser Definition kann man folgendes schließen: 1. Der Korrelationskoeffizient liegt in dem Werteintervall −1 ≤ rxy ≤ 1. 2. Ist rxy = 0, so bedeutet dies, daß die beiden Zufallsvektoren ~u, ~v aufeinander senkrecht stehen (zueinander orthogonal sind). Sie haben nichts an Richtung gemeinsam. Offenbar erfassen die Variablen X und Y völlig unterschiedliche Merkmale. 3. Ist rxy = 1, so gilt h~u, ~v i = k~uk k~v k . Dies bedeutet, daß die beiden Zufallsvektoren auf einem Strahl liegen und in dieselbe Richtung zeigen. Man erhält den einen Vektor, indem man den anderen mit einem Skalar multipliziert (Lineare Abhängigkeit zweier Vektoren). Die Variablen X und Y erfassen dasselbe Merkmal. 4. Ist rxy = −1, so gilt h~u, ~v i = − k~uk k~v k . Dies bedeutet, daß die beiden Zufallsvektoren auf einem Strahl liegen und in entgegegesetzte Richtung zeigen. Man erhält den einen Vektor, indem man den anderen mit einem negativen Skalar multipliziert (Lineare Abhängigkeit zweier Vektoren). Sie erfassen dasselbe Merkmal, eine Variable kodiert aber positive Abweichungen vom Mittelwert in der anderen als negative und umgekehrt. Die Variablen X und Y erfassen dasselbe Merkmal. 16 5. Gilt −1 < rxy < 0 oder 0 < rxy < 1, so haben die Vektoren ~u, ~v mehr oder weniger an Richtung gemeinsam, je nach Höhe der Korrelation. Man erhält nicht den einen Vektor, indem man den anderen mit einem Skalar multipliziert (Lineare Unabhängigkeit zweier Vektoren). Die Korrelation rxy gibt genau den Anteil des Produktes gleichgerichteter Längen an dem maximal möglichen Produkt gleichgerichteter Längen an (Man veranschauliche sich dies über die entsprechenden Flächen). Quadriert man rxy , erhält man den Anteil gleicher Richtungsvarianz an der gesamten Varianz. Für z- standardisierte Variablen gilt ja zy = rxy · zx . Man kann daher die Höhe des Korrelationskoeffizienten direkt an der Steigung der Regressionsgeraden für zstandardisierte Variablen ablesen. Bei perfekter Korrelation liegen alle Punkte auf der Geraden und die Gerade hat eine Steigung von 1 (die Winkelhalbierende), entsprechendes gilt für perfekte negative Korrelation (Steigung ist -1). Bei fehlender Korrelation ergibt sich eine kreisförmiger Punkteschwarm und die Regressionsgerade ist die zx Achse. Abbildung 5 veranschaulicht die beiden Darstellungsweisen über den eingeschlossenen Winkel der Meßvektoren und über das Scattergramm. Es sei angemerkt, daß es bei der linearen Regression um einen linearen Zusammenhang zwischen Variablen geht. Insbesondere kann aus dem Fehlen eines linearen Zusammenhanges (rxy = 0) nicht auf das Fehlen irgendeines deterministischen Zusammenhanges zwischen den Variablen geschlossen werden. Beispielsweise ergeben kurvilineare Zusammehänge stets Korrelationen um Null, obwohl sie deterministisch sind, was man sich anhand des Parabelbeispiels rasch veranschaulichen kann. Die Angemessenheit des linearen Ansatzes ist also stets zu prüfen. 1.3 Korrelation bei nicht metrischen Skalenniveaus Zusammenhangsmaße, die der Produkt-Moment Korrelation verwandt sind, können ebenfalls bei Variablen, die nur auf niedrigeren Skalenniveaus gemessen werden können, bestimmt werden. 1.3.1 Zusammenhang von dichotomen Merkmalen Psychometrische Tests bestehen häufig aus Aufgaben, die mit ”Ja” oder ”Nein” zu beantworten sind. Kodiert man die Fragebeantwortung für alle Personen, erhält man einen B inärvektor, einen Vektor, der nur Nullen und Einsen enthält. hnlich verhält es sich bei Items in Intelligenztests, die entweder gelöst oder nicht gelöst werden können. 17 Scattergramm Meßvektoren a) r > 0 u Y a v X X b) Y a u v r < 0 X X c) u Y r a =0 v X X Abbildung 5: Vergleich der Darstellung von Variablenzusammenhängen durch Scattergramm (linke Graphiken) und eingeschlossenen Winkel der Meßvektoren (rechte Graphiken). Fall a) veranschaulicht positive Korrelation der Variablen X und Y , b) zeigt negative Korrelation, c) fehlende Korrelation. Wir betrachten also den Fall, daß die Aufgaben binär kodiert sind: ( 1 (gelöst) xij = 0 (nicht gelöst) 18 (57) definiert den Wert für eine Person i auf dem Item (der Aufgabe) j. Man kann nun Kennwerte auch für die einzelnen Aufgaben definieren. Die Itemschwierigkeit ist definiert als pj = 1 X xij , N (58) i also als ein Itemmittelwert über binäre Daten (=Anteil der Personen, die die Aufgabe lösen). Ebenso kann man die Varianz einer einzelnen Aufgabe betrachten. Mit der Formel für die Varianz gilt s2j = 1 X (xij − pj )2 N i = pj + p2j − 2p2j = pj − p2j = pj (1 − pj ) = pj · qj (59) für die Varianz einer einzelnen Aufgabe. Diese ist maximal für pj = qj . Wir interessieren uns nun für den Zusammenhang einer Aufgabe k mit einer Aufgabe j. Das heißt, wir wollen wissen, ob ein Kandidat, der Aufgabe k löst, wahrscheinlich auch Aufgabe j löst oder nicht. Analog zur Produkt-Moment Korrelation müssen wir noch betrachten, wie sich die Covarianzen von Binärdaten darstellen. Dazu betrachte man folgende Vierfeldertafel (obere Werte absolute, untere Werte relative Häufigkeiten): Aufgabe k Aufgabe j + P P - + A B A + B = Z+ a b a + b = pj C D C + D = Z− c d c + d = qj A + C = SP− B + D = SP+ N a + c = qk b + d = pk 1 Abbildung 6 veranschaulicht den Gedankengang bei der Betrachtung von 4- Felder Häufigkeitsverteilungen aus zugrundeliegenden metrischen Regressionsdaten. Die Covarianz ist definiert als 1 X (xj − xj ) (xk − xk ) . N Wir lösen für Binärdaten auf und finden P P P xj xk xj xk Cov (j, k) = − xk − xj + xj xk N N N = pjk − pk pj − pj pk + pj pk Cov (j, k) = = pjk − pj pk 19 (60) Xj 0 Xk £ X k Ç Xj >X0j 0 0 Xk >X k Ç Xj >X j 01 11 0 X j 10 00 0 0 Xk £ X k Ç X j £ X j 0 0 Xk >X k Ç Xj £ X j 0 X k Xk Abbildung 6: Veranschaulichung des Grundgedankens bei der Herleitung des PhiKoeffizienten. Es existieren zwei metrische, aber latente Fähigkeitsdimensionen Xk und Xj . Die Aufgabe k wird gelöst, wenn die Fähigkeit einer Person größer als der Kriteriumswert X0k ist, andernfalls nicht. Für eine bestimme Stichprobe von Personen heißt dies, daß nur ein bestimmter Prozentsatz die Aufgabe lösen wird (diejenigen mit einem latenten Fähigkeitswert größer als der Kriteriumswert X0k ). Die theoretische Schwierigkeit X0k einer Aufgabe erzwingt somit ein bestimmtes Wertepaar p, q. Man kann analoge Betrachtungen zur Aufgabe j anstellen. Dann kann man das gemeinsame Abschneiden der Personen in beiden Aufgaben als eine Vier-Felder Tafel darstellen, wobei ”0”Scheitern und ”1”Lösen bedeutet. Im Denkmodell der latenten Variablen entsprechen die Feldhäufigkeiten A,B,C,D der Vierfeldertafel also der Anzahl der Meßpunkte, die hier im Scattergramm in den entsprechenden Quadranten verzeichnet sind. In unserer Vierfeldertafel entspricht pjk genau dem Anteil der Probanden, die beide Aufgaben richtig lösen, also P xj xk = b. N √ Da die Standardabweichung einer Aufgabe j gleich pj · qj ist, ist die Aufgabeninpjk = terkorrelation pjk − pj pk rjk = rphi = √ . pj qj · pk qk (61) Dies ist die Produkt-Moment Korrelation, angewendet auf Binärdaten, sie heißt Phi - Koeffizient. Der Phi-Koeffizient kann auch direkt aus den Häufigkeiten ermitteln. 20 Wir schreiben ausführlich rphi = q B N Z+ N − · A+B B+D N N Z− N · SP+ N · SP− N und erweitern mit N 2 : rphi = B · N − (A + B) (B + D) √ . Z+ · Z− · SP+ · SP− Da N = A+B+C+D, ist der Zähler (BA + BB + BC + BD)−(AB + AD + BB + BD), es bleibt BC − AD rphi = √ Z+ · Z− · SP+ · SP− (62) für den Phi- Koeffizienten, was die handlichere Formel ist. Nur wenn pj = pk ist, also gleiche Schwierigkeiten vorliegen, kann der Phi-Koeffizient den maximalen Wertebereich von −1 ≤ rphi ≤ 1 umspannen. Liegen ungleiche Schwierigkeiten vor, muss der Phi-Koeffizient durch die maximal mögliche Phi-Korrelation geteilt werden, damit der Wert vergleichbar zum Produkt-Moment Korrelationskoeffizienten ist. Phimax berechnet sich wie folgt r P himax = ps qt · , wobei pt ≥ ps . qs pt (63) Hierin ist pt die größte Randfeldproportion und ps die korrespondierende Randfeldproportion in der anderen Variable (wenn pt die z.B. Randhäufigkeit für die ”+” Kategorie ist, dann muß ps die Randfeldproportion für ebenfalls die ”+” Kategorie in der anderen Variable sein). Auch (63) kann man direkt aus den Randhäufigkeiten erhalten, da N sich ja aus den Proportionen herauskürzt. Der korrigierte Wert ist dann rkorr = rphi . P himax (64) Beispiel: Wir haben die Häufigkeiten Aufgabe k Daraus errechnet sich P Aufgabe j - + + 40 20 60 P 30 10 40 70 30 100 20 · 30 − 40 · 10 rphi = √ = .089 60 · 40 · 70 · 30 21 Der maximale Wert ist r .4 .3 · = .53 .6 .7 Dann errechnet sich der korrigierte Phi - Wert zu P himax = rkorr = .089 = .168. .53 Die zum P himax - Wert gehörige Häufigkeitstabelle sieht so aus: Aufgabe k 1.3.2 P Aufgabe j - + + 30 30 60 P 40 0 40 70 30 100 Zusammenhang von dichotomen und intervallskalierten Merkmalen Wir teilen die Stichprobe ein in die Gruppe, die die Aufgabe gelöst hat (x = 1) und diejenigen, die sie nicht lösen konnten (x = 0) und betrachten deren mittleren Gesamttestscore y 1 , y 0 . Verbinden wir diese mir einer Linie, so wird diese die Steigung b̂yx = ∆y ∆x = (y 1 − y 0 ) haben, eine von Null verschiedene Steigung dieser Linie besagt, da eine Korrelation von Aufgabenbeantwortung und Gesamtscore vorliegt. Abbildung 7 zeigt dies anschaulich. Für die Geradensteigung im Falle der Produkt-Moment Korrelation gilt ja sy Cov (x, y) = ryx 2 sx sx sx = byx . sy byx = ⇒ ryx Wir erhalten für die Korrelation der dichotomen Variable x mit der intervallskalierten Variable y sx sy (y 1 − y 0 ) sx sy y1 − y0 √ pq sy rpbis = b̂yx = = (65) Das bedeutet, da die punktbiseriale Korrelation aus dem Mittelwertsabstand der Gruppen bei bekannter Aufgabenschwierigkeit p und bekannter Streuung sy der Gesamtgruppe berechnet werden kann. Verwendet man den Gesamtmittelwert y, wird die Formel rpbis = y1 − y sy 22 r p . q (66) Y1 ∆Y = Y Y1 −Y 0 α Y0 tan α= ∆Y = Y −Y ∆X 1 0 X 1 0 ∆X = 1- 0 = 1 Abbildung 7: Veranschaulichung der punkt-biserialen Korrelation. Die Korrelation einer metrischen Variable Y mit einer dichotomen Variable X wird bestimmt durch den Mittelwerteunterschied der beiden Gruppen mit den Merkmalen X = 0 und X = 1 in der Variablen Y . Mit der Annahme, da sich die latente Variable, die der Dichotomisierung zugrunde liegt, normal verteilt, kann man die punktbiseriale Korrelation in die biseriale Korrelation überführen. Wir müssen für die Geradensteigung ja ∆y/∆x betrachten, ∆x ist jetzt nicht 1, sondern ergibt sich folgendermaßen: x1 − x0 = (x1 − x) + (x − x0 ) Die Differenzen entsprechen bei der Normalverteilung (x1 − x) = (x − x0 ) = ω0 p ω0 , q ω0 ist dort der Ordinatenabschnitt der Dichotomisierung von x, so daß x1 − x0 = = = = ω0 ω0 + p q q · ω0 + p · ω0 p·q ω0 (p + q) p·q ω0 pq 23 (67) (68) ist. Damit ist sx sy (y 1 − y 0 ) · p q sx ω0 sy rbis = b̂yx = Wegen der Annahme der Standardnormalverteilung (sx = 1) gilt rbis = (y 1 − y 0 ) · p q , sy ω0 (69) y1 − y p . sy ω0 (70) in der alternativen Darstellung rbis = Für beide Korrelationen gilt √ pq rbis = . rpbis ω0 (71) Der punktbiseriale Korrelationskoeffizient ist also konservativer, unterschätzt den Wert von rbis auf einem weiten Schwierigkeitsbereich um ca. 25%. Anmerkung zur Ermittlung des Ordinatenwertes ω0 : Die zu (67) analoge Beziehung mit einem arbiträren Wert x0 lautet ausführlich geschrieben im Falle der Normalverteilung ∂ ∂x F (x)|x0 , 1 − F (x0 ) x0 − x = wobei F (x) die Verteilungsfunktion (theoretische kumulative relative Häufigkeitsfunktion) ist und x0 der Wert auf der X- Achse, ab dem dichotomisiert wird. Da sich die theoretische relative Häufigkeitsfunktion ω (x) über ω (x) = ∂ F (x) ∂x (72) ω (x0 ) . 1 − F (x0 ) (73) auf die Verteilungsfunktion bezieht, ist x0 − x = Denn für einen Anteil p und sein Komplement q gilt ja p = 1 − F (x0 ) (74) q = F (x0 ) (75) und man kann x0 über die inverse Operation x0 = F −1 (q) 24 (76) bestimmen. Diesen setzt man in ω (x) ein und erhält ω (x0 ) = ω0 , den gesuchten Ordinatenabschnitt. Aufgabenbeispiel: 13 Personen bearbeiten eine Vorform eines psychometrischen Einstellungstests, der den Grad an autoritären Lebenseinstellungen feststellen soll. Der Test besteht aus 22 Fragen. Es soll verglichen werden, wie die Bearbeitung einer bestimmten Aufgabe X mit dem Gesamtscore des Tests Y (Summenwert aller Aufgaben) korreliert. Ein hoher Summenscore (viele Fragen in Richtung der Merkmalsrichtung beantwortet) bedeutet hohen Grad an autoritären Lebenseinstellungen. Aus den Daten (s. Tabelle) errechnet sich der punkt-biseriale Koeffizient zu 15.57 − 12.83 √ · .462 · .538 3.098 = .884 · .499 = .441. rpbis = X=0 X=1 1 13 18 2 12 12 3 9 15 4 10 15 5 17 12 6 16 18 Y1 = 15.57 Y0 = 12.83 sY = p = q = P 3.098 x/N = .538 1 − p = .462 19 7 Es besteht damit eine mäßig hohe sog. Item-total Korrelation, d.h. wenn man weiß, ob eine Person die bestimmte Aufgabe gelöst hat, weiß man noch nicht so genau, ob die Person zu der Gruppe der ”besseren” oder ”schlechteren” zählt. Man kann aber annehmen, daß das Item X latent normalverteilt ist. Man prüfe nun, ob sich durch Anwendung der biserialen Korrelation die Item- total Korrelation aufwerten läßt. Der Ordinatenabschnitt ω0 ermittelt man mit Tabellenwerken folgendermaßen. Da q = .462, schauen wir in der Tabelle der Verteilungsfunktion der Standardnormalverteilung (z.B. Bortz 1999 S. 768) denjenigen z- Wert nach, dem eine Fläche von 0.462 entspricht. Das ist mit kleinem Rundungsfehler etwa z0 = −0.1. Für diesen Wert bestimmen wir mit einer Tabelle der Ordinaten der Standardnormalverteilung (im Bortz ist das dieselbe) einen Ordinatenwert von ω0 = 0.397. Wir können jetzt in (69) einsetzen und erhalten 15.57 − 12.83 .462 · .538 · 3.098 0.397 = .884 · .626 = .553. rbis = 25 Das ist eine erhebliche Aufwertung, die Item- total Korrelation erweist sich nun als ordentlich. 1.3.3 Zusammenhang bei ordinalskalierten Daten Wir stellen uns vor, uns liegen von denselben Personen zwei Meßreihen vor, die aber nur Rangskalendignität haben. Beispielsweise könnten wir einen die Punktwerte in zwei Fragebögen (Anzahl der mit ”ja” beantworteten Items) so auffassen, wenn keine weitere Skalierung gemacht wurde. Spearman hat den Produkt-Moment Korrelationskoeffizient auf Rangdaten angewendet und daraus eine sehr einfache Rechenformel abgeleitet. Sie lautet P 2 6· N i=1 di rs = 1 − . N (N 2 − 1) (77) Hierin ist di die Rangdifferenz der Person i in beiden Meßreihen. Ein Beispiel möge die Anwendung von (77) verdeutlichen (Beispiel nach Siegel 1956). 12 Studenten haben zwei Fragbögen bearbeitet, einen zur Erfassung autoritärer Einstellungen (X ) und einen zum sozialen Statusstreben (Y ). Die Punktwerte in jedem Fragebogen werden in eine Rangreihe (Rx , Ry ) gebracht und die Differenzen d in den Rangreihen werden berechnet. Man hat die Tabelle Es ergibt sich PN 2 i=1 di Student X Rx Y Ry d d2 A 82 2 42 3 1 1 B 98 6 46 4 2 4 C 87 5 39 2 3 9 D 40 1 37 1 0 0 E 116 10 65 8 2 4 F 113 9 88 11 2 4 G 111 8 86 10 2 4 H 83 3 56 6 3 9 I 85 4 62 7 3 9 J 126 12 92 12 0 0 K 106 7 54 5 2 4 L 117 11 81 9 2 4 = 52 und damit rs = 1 − 6 · 52 = .82, 12 · 143 also eine recht hohe Korrelation der beiden Merkmale autoritärer Einstellung und soziales Statusstreben. Liegen sog. Rangbindungen vor (mehrere Messungen werden auf denselben Rangplatz abgebildet), sollte einfach die Produkt- Moment Korrelation 26 direkt auf die Rangdaten angewendet werden, da die einfache Rechenformel (77) nicht mehr so genau ist. Bei Rangbindungen vergibt man nicht Rangplätze mehrfach, sondern das arithmetische Mittel der Rangplätze, die die Daten in der natürlichen Folge erhalten hätten. Eine kleine Beispieltabelle zeigt dies: X 16 13 13 10 9 Rx 5 3.5 3.5 2 1 27