Institut für Politikw issenschaft, Universität Innsbr uck WS 2011/12 Ass.Prof. Dr.Christian Traweger Universität Innsbruck Institut für Politikwissenschaft [email protected] Zusammenhangsverfahren: Lineare Zusammenhänge zwischen 2 Variablen können entweder durch eine Maßzahl bzw. einen Koeffizienten ausgedrückt oder aber graphisch veranschaulicht werden. Für nominale Merkmale ist nur eine Maßzahl ausschlaggebend, während für ordinale und metrische Variable abgesehen vom Korrelationskoeffizienten (Maßzahl) auch die graphische Form Aufschluss über die Art und Weise des Zusammenhangs gibt. Folgende Tabelle soll einen Überblick über die möglichen Darstellungen von Zusammenhangsmaßen geben: Variablentyp nominal – nominal nominal – ordinal Maßzahl Graphische Darstellung Kontingenzkoeffizient 0-1 Nein ordinal – ordinal ordinal – metrisch Rangkorrelationskoeff. nach Spearman -1…+1 Korrelationskoeffizient metrisch – metrisch nach Pearson -1…+1 Je mehr, desto mehr Je mehr, desto weniger Je weniger, desto weniger Je weniger, desto mehr Ja Ja kein Zusammenhang alles ist möglich Kontingenzkoeffizient: (0 bis 1) Für nominale Merkmale wird als Zusammenhangsmaß der Kontingenzkoeffizient (C) verwendet. Dieser Wert liegt zwischen 0 und 1 und drückt die Stärke des Zusammenhangs aus. Der Kontingenzkoeffizient misst nur die Stärke des Zusammenhangs, eine Richtung der Wirkungsweise wird nicht erfasst. Als Basis zu Berechnung des Kontingenzkoeffizienten wird der errechnete Chiquadratwert herangezogen: C= 2 n2 Die beiden zu untersuchenden Hypothesen lauten: H0 : Zwischen den beiden Variablen Bildung und Parteipräferenz besteht kein wesentlicher Zusammenhang H1 : Zwischen den beiden Variablen Bildung und Parteipräferenz besteht ein wesentlicher Zusammenhang Grundlage zur Berechnung des Kontingenzkoeffizienten ist die Berechnung des Chiquadratwertes; so ergibt sich für das vorliegende Beispiel folgender Kontingenzkoeffizient: C= 44,089 520 44,089 = 0,280 Wie auf Grund des durchgeführten Chiquadrattests ersichtlich war (siehe untenstehenden Output) gibt es einen signifikanten Unterschied zwischen Personen mit Pflichtschulabschluß bzw. Lehre und Personen mit Matura bzw. höherem Schulabschluß in Bezug auf ihre Parteipräferenz; der Zusammenhang zwischen den beiden Variablen ist jedoch mit 0,280 als eher gering zu bezeichnend, obwohl signifikant. Das Statistikpaket SPSS liefert folgenden Output: Ge me inde ratswahl Innsbruck * Bildung Kreuztabelle Gemeinderatswahl Innsbruck Gesamt Lis te für Innsbruck Anzahl % von Gemeinderatswahl Innsbruck % von Bildung ÖV P Anzahl % von Gemeinderatswahl Innsbruck % von Bildung SP Ö Anzahl % von Gemeinderatswahl Innsbruck % von Bildung Die Grünen Anzahl % von Gemeinderatswahl Innsbruck % von Bildung FP Ö Anzahl % von Gemeinderatswahl Innsbruck % von Bildung Lis te S oziales Inns bruc k Anzahl % von Gemeinderatswahl Innsbruck % von Bildung Freie Liste Anzahl % von Gemeinderatswahl Innsbruck % von Bildung (andere Lis te / Part ei) Anzahl % von Gemeinderatswahl Innsbruck % von Bildung Anzahl % von Gemeinderatswahl Innsbruck % von Bildung Bildung Pflichts ch. Matura/Uni/ /Lehre/ FS/ HS FHS/A kad. 64 35 Gesamt 99 64,6% 35,4% 100,0% 19,7% 75 17,9% 35 19,0% 110 68,2% 31,8% 100,0% 23,1% 72 17,9% 28 21,2% 100 72,0% 28,0% 100,0% 22,2% 43 14,4% 66 19,2% 109 39,4% 60,6% 100,0% 13,2% 13 33,8% 1 21,0% 14 92,9% 7,1% 100,0% 4,0% 8 ,5% 10 2,7% 18 44,4% 55,6% 100,0% 2,5% 13 5,1% 1 3,5% 14 92,9% 7,1% 100,0% 4,0% 37 ,5% 19 2,7% 56 66,1% 33,9% 100,0% 11,4% 325 9,7% 195 10,8% 520 62,5% 37,5% 100,0% 100,0% 100,0% 100,0% Chi-Quadrat-Tests Wert Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gültigen Fälle 44,089 As ymptotisch e Signifikanz (2-seitig) df a 7 ,000 46,105 7 ,000 ,090 1 ,764 520 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 5,25. Symm etri sche Ma ße W ert Nominal- bzgl. Nominalmaß Kontingenz koeffizient Anzahl der gültigen Fälle Näherung sweise Signifik anz ,280 ,000 520 a. Die Null-Hy phothes e wird nicht angenommen. b. Unter Annahme der Null-Hy phothes e wird der as ymptotische St andardfehler verwendet. Es kann festgestellt werden, daß zwischen der Variable Bildung und der Variable Parteipräferenz ein signifikanter Zusammenhang besteht (Näherungsweise Signifikanz: sig=0.000; daher wird H0 verworfen!); der Kontingenzkoeffizient in der Höhe von 0,280 drückt die Stärke des Zusammenhangs aus. Rangkorrelationskoeffizient nach Spearman: (-1 bis +1) Wenn man für ordinalskalierte Variable von den ursprünglichen x- und y-Werten zu ihren Rängen übergeht, erhält man den Korrelationskoeffizienten nach Spearman. Dabei wird analog zum Mann-Whitney U-Test den Werten der x Variable aber auch den Werten der y Variable jeweils nach ihrer Ordnung ein Rangplatz zugeordnet und man erhält nun für jede Beobachtung sogenannte Messpaare. Zu x1 ≤ ........ ≤xn, als bereits geordnete Werte gilt rg (xi)=i, und zu y1 ≤ ........ ≤yn, als bereits geordnete Werte gilt rg (yi)=i; Sowohl innerhalb der x-Werte wie auch der y-Werte können identische Werte auftreten. Die Rangvergabe ist dann nicht eindeutig, so werden wie bereits bei der Vorgehensweise beim Mann-Whitney U-Test Durchschnittsränge berechnet. Die Berechnung des Korrelationskoeffizienten nach Spearman erfolgt über folgende allgemeine Formel: d rSP= 1 - ; 2 i 6 (n 2 1)n da jedoch häufig sogenannte Bindungen auftreten und daher eine diesbezügliche Korrektur angewendet werden muß (nach Bindungen korrigiert = corrected for ties), findet folgende korrigierte Formel ihre Anwendung: 6 d rSP corr. = 1 ; 2 i (n 2 1)n (T x´ T y´ ) wobei: di sind die Rangdifferenzen und n der Stichprobenumfang. Tx´ = 12 (t 3 xi´ t x´ ) i ; dadurch wird die Häufigkeit des Auftretens der gleichen Bewertungen berücksichtigt. Analog dazu wird Ty´ berechnet. Gegeben sind zwei Variable:(Beurteilung: 1=sehr gut/2=gut/3=weniger gut) x....Beurteilung der derzeitigen politischen Situation in Innsbruck y....Beurteilung des Projekts Nordkettenbahn Die beiden Hypothesen lauten: H0: Zwischen der Beurteilung der politischen Situation und der Beurteilung des Nordkettenbahnprojekts besteht kein Zusammenhang. H1: Zwischen den beiden Variablen besteht ein Zusammenhang. X 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 Berechnung der Rangziffern Rg(xi) 1+2+3+4+5+6+7+8+9+10=55/10=5,5 11+12+13+14+15=65/5=13 16+17+18+19+20+21+22+23+24+25= = 205/10=20,5 Tx´ = 12 (t 3 xi´ t x´ ) i Y 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 1 2 2 2 3 3 3 3 3 3 Rg (yi) Rg (1) = 4 Rg(2) = 12,5 Rg(3) = 21,5 Berechnung der Rangdifferenzen (d) 5,5 – 4= 1,5 5,5 – 4= 1,5 5,5 – 4= 1,5 5,5 - 4 = 1,5 5,5 – 4= 1,5 5,5, - 4 = 1,5 5,5 - 12,5 = 7 5,5 - 12,5 = 7 5,5 - 12,5 = 7 5,5 - 12,5 = 7 13 – 12,5= 0,5 13 – 12,5= 0,5 13 – 12,5 = 0,5 13 – 21,5= 8,5 13 – 21,5 = 8,5 20,5 – 4 = 16,5 20,5 – 12,5= 8 20,5 – 12,5= 8 20,5 – 12,5= 8 20,5 – 21,5 = 1 20,5 – 21,5 = 1 20,5 – 21,5 = 1 20,5 – 21,5 = 1 20,5 – 21,5 = 1 20,5 – 21,5 = 1 Summe =½*[(103-10)+(53-5)+(103-10)] = 1050 d2 2,25 2,25 2,25 2,25 2,25 2,25 49 49 49 49 0,25 0,25 0,25 72,25 72,25 272,25 64 64 64 1 1 1 1 1 1 825 Ty´ = ½*[(73-7)+(103-10)+(83-8)] = 915 6 * 825 rSP corr. = 1 - (25 1)25 (1050 915 ) 2 =1- 4950 113635 = + 0,6369 Der Zusammenhang zwischen der Beurteilung der politischen Situation und der Beurteilung des Nordkettenbahnprojekts ist ein positiver Zusammenhang. Ob dieser Zusammenhang signifikant ist oder nicht kann über die z-Transformation mit anschließender Berechnung der Irrtumswahrscheinlichkeit (=Signifikanzniveau) geklärt werden: z=ż* n 3 , wobei ż als Korrelationsziffer bezeichnet wird und wie folgt zu berechnen ist: ż = ½*ln( 1 r ) = ½ * ln 1 0,6369 1 0,6369 daraus folgt: z = ż * n 3 = 0,753* 25 3 1 r = 0,753 = 3,532 Das Signifikanzniveau errechnet sich aus: z 2 x 1 1 2 e 2 d x 0.001229270561 z Da das Signifikanzniveau ≤0,05, nämlich exakt 0,00123 ist, kann die H0 verworfen werden und man kann behaupten, dass der Zu- sammenhang zwischen der Beurteilung der allgemeinen politischen Situation und der Beurteilung des Nordkettenbahnprojekts statistisch signifikant ist. Die Stärke des Zusammenhang ist +0,637. Das heißt: je besser die politische Situation beurteilt werden, desto besser wird auch das Nordkettenbahnprojekt beurteilt. Das Statistikpaket SPSS liefert folgenden Output: Korrelationen Spearman-Rho Beurteilung der derzeitigen politisc hen Situation Beurteilung des Nordkettenbahnprojekts Beurteilung der derzeitigen Beurteilung des politisc hen Situation Nordkettenbahnprojekts Korrelationskoeffizient 1,000 ,637** Sig. (2-seitig) . ,001 N 25 25 Korrelationskoeffizient ,637** 1,000 Sig. (2-seitig) ,001 . N 25 25 **. Die Korrelation ist auf dem 0,01 Niveau signifikant (z weiseitig). Es kann festgestellt werden, daß zwischen der Variable Beurteilung der allgemeinen politischen Situation und der Beurteilung des Nordkettenbahnprojekts ein signifikanter Zusammenhang besteht (Näherungsweise Signifikanz: sig=0.001; daher wird H0 verworfen!); der Korrelationskoeffizient in der Höhe von +0,637 drückt die Stärke des Zusammenhangs aus. Korrelationskoeffizient nach Pearson (-1 bis +1) Der Bravais-Pearson´sche Korrelationskoeffizient ist prinzipiell nur für metrische Variable geeignet; diese sollten zudem normalverteilt sein. Ist diese Voraussetzung nicht gegeben so ist der Korrelationskoeffizient nach Spearman anzuwenden. Zur Berechnung des Korrelationskoeffizienten nach Pearson werden jeweils zwei metrische Variable einer Person erfasst und als sogenannte Wertepaare dargestellt. Zu jedem x1 ,......., xn, gibt es ein entsprechendes y1 ,.....,.yn; Der Zusammenhang zwischen den beiden metrischen Variablen kann, wie bereits beim Korrelationskoeffizient nach Spearman poisitiv (~+1), negativ (~ -1) bzw. annähernd Null sein. Im vorliegenden Beispiel wird der Zusammenhang bzw. die Stärke des Zusammenhangs zwischen dem Einkommen (x) und den Spenden für soziale Zwecke (y) berechnet. Die beiden Hypothesen lauten: H0: Zwischen dem Einkommen und den Spenden für soziale Zwecke besteht kein Zusammenhang. H1: Zwischen den beiden Variablen besteht ein Zusammenhang. Die Berechnung des Korrelationskoeffizienten nach Pearson erfolgt nach: n rP = [( x i x ) * ( y i y )] i 1 n i 1 n ( xi x ) 2 * (y i 1 i y) 2 ( xi x ) 2 67600,00 44100,00 25600,00 3600,00 100,00 100,00 100,00 57600,00 19600,00 115600,0 Su=334000 [( xi x ) * ( y i y )] EINKOMMEN (x) SPENDEN (y) 1000,00 75,00 7540,00 1050,00 80,00 5040,00 1100,00 85,00 3040,00 1200,00 90,00 840,00 1250,00 100,00 40,00 1250,00 110,00 -60,00 1250,00 110,00 -60,00 1500,00 130,00 6240,00 1400,00 120,00 2240,00 1600,00 140,00 12240,00 Mittelwert(x)=1260 Mittelwert(y)=104 Summe=37100 rP = 37100 334000 * 4290 ( yi y) 2 841,00 576,00 361,00 196,00 16,00 36,00 36,00 676,00 256,00 1296,00 Su=4290 = +0,98 Der Zusammenhang zwischen dem Einkommen und den Ausgaben für Spenden ist stark positiv und beträgt +0,98. Das heißt: je mehr jemand verdient, desto mehr ist er auch bereit für Geschenke auszugeben. Das Statistikpaket SPSS liefert folgenden Output: Korrelationen Einkommen Korrelation nach Pearson Signifikanz (2-s eitig) N Korrelation nach Pearson Signifikanz (2-s eitig) N Spenden Einkommen 1 Spenden ,980** ,000 10 10 ,980** 1 ,000 10 10 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. Es kann festgestellt werden, daß zwischen der Variable Einkommen und den Spenden für soziale Zwecke ein signifikanter Zusammenhang besteht (Näherungsweise Signifikanz: sig=0.000; daher wird H0 verworfen!); der Korrelationskoeffizient Zusammenhangs aus. in der Höhe von +0,98 drückt die Stärke des Regressionsanalyse Durch die Regressionsanalyse soll der Zusammenhang zweier oder mehrerer Variable mathematisch erfasst werden. Ziel der Regressionsrechnung ist es dabei, Formeln zu finden, nach denen man bei Kenntnis des Wertes der einen Variablen den zu erwartenden Wert der anderen Variable bestimmen kann. Der Zusammenhang wird durch eine Regressionslinie am besten dargestellt. Lineare Einfachregression: Der Zusammenhang von zwei Variablen wird durch die lineare Funktion der Form: ŷi = α + βxi verdeutlicht. Gesucht wird also ein objektives Verfahren zur Ermittlung der Geradengleichung ŷi = α + βxi mit der Steigung β und dem Ordinatenabschnitt α. Dabei nennt man β auch den Regressionskoeffizienten. Das Vorzeichen drückt die Art des Zusammenhangs aus: Positiv: je mehr, desto mehr / je weniger, desto weniger Negativ: je mehr, desto weniger / je weniger, desto mehr Null: keine Richtung/Muster erkennbar. Berechnung: n β= n n (x * y ) n * x * y 1 i i i i 1 i 1 n n x i 1 2 i i i 1 1 *( xi ) 2 n i 1 Der Ordinatenabschnitt bestimmt sich nach der Berechnung von β zu: α = y *x Gegeben sind das monatliche Einkommen und die Ausgaben für Geschenke pro Monat: ni 1 2 3 4 5 6 7 8 9 10 EK ( x) 1000,00 1050,00 1100,00 1200,00 1250,00 1250,00 1250,00 1500,00 1400,00 1600,00 AUSG (y) 75,00 80,00 85,00 90,00 100,00 110,00 110,00 130,00 120,00 140,00 Mittelwert Summe Durch Berechnung von α und β ergibt sich das Regressionsmodell für die jeweiligen Daten. Die Regressionsgerade kann nach der angegebenen Methode immer berechnet werden. Sinnvoll ist ihre Berechnung aber nur dann, wenn der Zusammenhang zwischen den beiden betrachteten Variablen tatsächlich linear ist. Dies ist entweder aus der Erfahrung bekannt oder in der Regel aus dem optischen Eindruck des Korrelationsdiagramms ersichtlich. Die zu suchende Gerade erfüllt die Modellfunktion dann am besten, wenn die Summe der Abstände der Punkte außerhalb der Geraden zu dieser Geraden möglichst gering ist. Im geometrischen Sinn kann man die Abstände als euklidisches Differenzenquadrat auffassen. Es wird also eine Zielfunktion im Sinne der Methode der kleinsten Quadrate formuliert, wo die Quadratwerte minimal werden. Die Differenzen der beobachteten Werte zu den geschätzten Werten, werden als Residuen bezeichnet. Das sind jene Werte, deren Betrag möglichst gering sein sollte; ˆi yi yˆi Die Differenz des geschätzten Wertes zum tatsächlich beobachteten Wert nennt man Residuum für den beobachteten Wert. Für die gesamten beobachteten Werte der Variable Ausgaben (AUSG) errechnen sich auf Grund des Regressionsmodells, d.h. die Erklärung der Ausgaben über die beeinflussende Variable Einkommen (EK) die Residuen. Das Statistikpaket SPSS liefert folgenden Output: b Model lzusam menfassung Modell 1 R R-Quadrat ,980a ,961 Korrigiertes R-Quadrat ,956 St andardf ehler des Sc hätz ers 4,5964 a. Einfluß variablen : (Kons tant e), EK b. Abhängige Variable: AUSG Koeffi zientena Modell 1 (Konst ante) EK St andardi sierte Koeffiz ien ten Nicht s tandardisierte Koeffiz ient en St andardf B ehler -35,958 10,126 ,111 ,008 Beta ,980 T -3, 551 13,966 Signifik anz ,007 ,000 a. Abhängige Variable: AUSG 140,00 ausg = -35.96 + 0.11 * ek R-Quadrat = 0.96 ausg 120,00 100,00 80,00 1000,00 1200,00 1400,00 ek 1600,00 Punkte/Linien zeigen Mittelw erte Lineare Regression Multiple Regressionsanalyse An dieser Stelle wird ein Modell mit mehr als 2 Variablen behandelt; dieses bezeichnet man als multiples Regressionsmodell. Der Zusammenhang von drei Variablen (eine abhängige und 2 unabhängige Variable) wird durch die lineare Funktion der Form: = α + β1x1 verdeutlicht. ŷi + β2x2 , deren Graf eine Gerade ist, Gesucht wird also ein objektives Verfahren zur Ermittlung der Geradengleichung ŷi = α + βixi mit der Steigung β und dem Ordinatenabschnitt α. Dabei nennt man β auch die Regressionskoeffizienten. Das Vorzeichen drückt – wie bereits bei der linearen Einfachregression - die Art des Zusammenhangs aus: Positiv: je mehr, desto mehr / je weniger, desto weniger Negativ: je mehr, desto weniger / je weniger, desto mehr Null: keine Richtung/Muster erkennbar. Beispiel: Es stellt sich dir Frage: Können die Ausgaben für Geschenke durch das Einkommen und durch das Alter erklärt werden bzw. welchen Einfluss haben als Gesamtmodell die Variablen Alter und Einkommen auf die Ausgaben für Geschenke? Folgende Ausgangsdaten sind gegeben: Einkommen (x1) 1000,00 1050,00 1100,00 1200,00 1250,00 1250,00 1250,00 1500,00 1400,00 1600,00 Ausgaben für Geschenke (y) 75,00 80,00 85,00 90,00 100,00 110,00 110,00 130,00 120,00 140,00 Alter (x2) 18,00 20,00 25,00 28,00 30,00 35,00 35,00 40,00 38,00 50,00 SPSS-Output: Modellzusammenfassung Modell R R-Quadrat ,989a 1 Korrigiertes R- Standardfehler Quadrat des Schätzers ,979 ,972 3,62576 a. Einflußvariablen : (Konstante), AGE, EK ANOVAb Mittel der Modell 1 Quadratsumme Regression Nicht standardisierte df Quadrate 4197,977 2 2098,988 92,023 7 13,146 4290,000 9 F Sig. 159,665 ,000a Residuen Gesamt a. Einflußvariablen : (Konstante), AGE, EK b. Abhängige Variable: AUSG Koeffizientena Standardisierte Nicht standardisierte Koeffizienten Modell 1 RegressionskoeffizientB (Konstante) EK AGE a. Abhängige Variable: AUSG Koeffizienten Standardfehler Beta T Sig. 1,208 17,311 ,070 ,946 ,050 ,026 ,441 1,924 ,096 1,246 ,515 ,555 2,420 ,046