Institut für Politikwissenschaft

Werbung
Institut für Politikw issenschaft,
Universität Innsbr uck
WS 2011/12
Ass.Prof. Dr.Christian Traweger
Universität Innsbruck
Institut für Politikwissenschaft
[email protected]
Zusammenhangsverfahren:
Lineare Zusammenhänge zwischen 2 Variablen können entweder
durch eine Maßzahl bzw. einen Koeffizienten ausgedrückt oder
aber graphisch veranschaulicht werden.
Für nominale Merkmale ist nur eine Maßzahl ausschlaggebend,
während für ordinale und metrische Variable abgesehen vom
Korrelationskoeffizienten (Maßzahl) auch die graphische
Form Aufschluss über die Art und Weise des Zusammenhangs
gibt. Folgende Tabelle soll einen Überblick über die möglichen
Darstellungen von Zusammenhangsmaßen geben:
Variablentyp
nominal – nominal
nominal – ordinal
Maßzahl
Graphische Darstellung
Kontingenzkoeffizient 0-1
Nein
ordinal – ordinal
ordinal – metrisch
Rangkorrelationskoeff.
nach Spearman -1…+1
Korrelationskoeffizient
metrisch – metrisch
nach Pearson -1…+1
Je mehr, desto mehr
Je mehr, desto weniger
Je weniger, desto weniger
Je weniger, desto mehr
Ja
Ja
kein Zusammenhang
alles ist möglich
 Kontingenzkoeffizient: (0 bis 1)
Für nominale Merkmale wird als Zusammenhangsmaß der
Kontingenzkoeffizient (C) verwendet. Dieser Wert liegt zwischen
0 und 1 und drückt die Stärke des Zusammenhangs aus. Der
Kontingenzkoeffizient misst nur die Stärke des Zusammenhangs,
eine Richtung der Wirkungsweise wird nicht erfasst.
Als Basis zu Berechnung des Kontingenzkoeffizienten wird der
errechnete Chiquadratwert herangezogen:
C=
2
n2
Die beiden zu untersuchenden Hypothesen lauten:
H0 : Zwischen den beiden Variablen Bildung und
Parteipräferenz besteht kein wesentlicher Zusammenhang
H1 : Zwischen den beiden Variablen Bildung und Parteipräferenz besteht ein wesentlicher Zusammenhang
Grundlage zur Berechnung des Kontingenzkoeffizienten ist die
Berechnung des Chiquadratwertes; so ergibt sich für das
vorliegende Beispiel folgender Kontingenzkoeffizient:
C=
44,089
520  44,089
= 0,280
Wie auf Grund des durchgeführten Chiquadrattests ersichtlich
war (siehe untenstehenden Output) gibt es einen signifikanten
Unterschied zwischen Personen mit Pflichtschulabschluß bzw.
Lehre und Personen mit Matura bzw. höherem Schulabschluß in
Bezug auf ihre Parteipräferenz; der Zusammenhang zwischen den
beiden Variablen ist jedoch mit 0,280 als eher gering zu
bezeichnend, obwohl signifikant.
Das Statistikpaket SPSS liefert folgenden Output:
Ge me inde ratswahl Innsbruck * Bildung Kreuztabelle
Gemeinderatswahl
Innsbruck
Gesamt
Lis te für Innsbruck
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
ÖV P
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
SP Ö
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
Die Grünen
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
FP Ö
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
Lis te S oziales Inns bruc k Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
Freie Liste
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
(andere Lis te / Part ei)
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
Anzahl
% von Gemeinderatswahl
Innsbruck
% von Bildung
Bildung
Pflichts ch.
Matura/Uni/
/Lehre/ FS/ HS
FHS/A kad.
64
35
Gesamt
99
64,6%
35,4%
100,0%
19,7%
75
17,9%
35
19,0%
110
68,2%
31,8%
100,0%
23,1%
72
17,9%
28
21,2%
100
72,0%
28,0%
100,0%
22,2%
43
14,4%
66
19,2%
109
39,4%
60,6%
100,0%
13,2%
13
33,8%
1
21,0%
14
92,9%
7,1%
100,0%
4,0%
8
,5%
10
2,7%
18
44,4%
55,6%
100,0%
2,5%
13
5,1%
1
3,5%
14
92,9%
7,1%
100,0%
4,0%
37
,5%
19
2,7%
56
66,1%
33,9%
100,0%
11,4%
325
9,7%
195
10,8%
520
62,5%
37,5%
100,0%
100,0%
100,0%
100,0%
Chi-Quadrat-Tests
Wert
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
44,089
As ymptotisch
e Signifikanz
(2-seitig)
df
a
7
,000
46,105
7
,000
,090
1
,764
520
a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die
minimale erwartete Häufigkeit ist 5,25.
Symm etri sche Ma ße
W ert
Nominal- bzgl.
Nominalmaß
Kontingenz koeffizient
Anzahl der gültigen Fälle
Näherung
sweise
Signifik anz
,280
,000
520
a. Die Null-Hy phothes e wird nicht angenommen.
b. Unter Annahme der Null-Hy phothes e wird der as ymptotische
St andardfehler verwendet.
Es kann festgestellt werden, daß zwischen der Variable Bildung
und der Variable Parteipräferenz ein signifikanter Zusammenhang besteht (Näherungsweise Signifikanz: sig=0.000; daher wird
H0 verworfen!); der Kontingenzkoeffizient in der Höhe von 0,280
drückt die Stärke des Zusammenhangs aus.
 Rangkorrelationskoeffizient nach Spearman: (-1 bis +1)
Wenn man für ordinalskalierte Variable von den ursprünglichen
x- und y-Werten zu ihren Rängen übergeht, erhält man den Korrelationskoeffizienten nach Spearman. Dabei wird analog zum
Mann-Whitney U-Test den Werten der x Variable aber auch den
Werten der y Variable jeweils nach ihrer Ordnung ein Rangplatz
zugeordnet und man erhält nun für jede Beobachtung sogenannte
Messpaare.
Zu x1 ≤ ........ ≤xn, als bereits geordnete Werte gilt rg (xi)=i, und
zu y1 ≤ ........ ≤yn, als bereits geordnete Werte gilt rg (yi)=i;
Sowohl innerhalb der x-Werte wie auch der y-Werte können
identische Werte auftreten. Die Rangvergabe ist dann nicht
eindeutig, so werden wie bereits bei der Vorgehensweise beim
Mann-Whitney U-Test Durchschnittsränge berechnet.
Die Berechnung des Korrelationskoeffizienten nach Spearman
erfolgt über folgende allgemeine Formel:
d
rSP= 1 -  ;
2
i
6
(n 2  1)n
da jedoch häufig sogenannte Bindungen auftreten und daher eine
diesbezügliche Korrektur angewendet werden muß (nach
Bindungen korrigiert = corrected for ties), findet folgende
korrigierte Formel ihre Anwendung:
6 d
rSP corr. = 1 ;
2
i
(n 2  1)n  (T x´  T y´ )
wobei: di sind die Rangdifferenzen und n der Stichprobenumfang.
Tx´ = 12  (t
3
xi´
 t x´ )
i
; dadurch wird die Häufigkeit des Auftretens der
gleichen Bewertungen berücksichtigt.
Analog dazu wird Ty´ berechnet.
Gegeben sind zwei Variable:(Beurteilung: 1=sehr gut/2=gut/3=weniger gut)
x....Beurteilung der derzeitigen politischen Situation in Innsbruck
y....Beurteilung des Projekts Nordkettenbahn
Die beiden Hypothesen lauten:
H0: Zwischen der Beurteilung der politischen Situation und der
Beurteilung des Nordkettenbahnprojekts besteht kein Zusammenhang.
H1: Zwischen den beiden Variablen besteht ein Zusammenhang.
X
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
Berechnung der Rangziffern Rg(xi)
1+2+3+4+5+6+7+8+9+10=55/10=5,5
11+12+13+14+15=65/5=13
16+17+18+19+20+21+22+23+24+25=
= 205/10=20,5
Tx´ = 12  (t
3
xi´
 t x´ )
i
Y
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
1
2
2
2
3
3
3
3
3
3
Rg (yi)
Rg (1) = 4
Rg(2) = 12,5
Rg(3) = 21,5
Berechnung der Rangdifferenzen (d)
5,5 – 4= 1,5
5,5 – 4= 1,5
5,5 – 4= 1,5
5,5 - 4 = 1,5
5,5 – 4= 1,5
5,5, - 4 = 1,5
5,5 - 12,5 = 7
5,5 - 12,5 = 7
5,5 - 12,5 = 7
5,5 - 12,5 = 7
13 – 12,5= 0,5
13 – 12,5= 0,5
13 – 12,5 = 0,5
13 – 21,5= 8,5
13 – 21,5 = 8,5
20,5 – 4 = 16,5
20,5 – 12,5= 8
20,5 – 12,5= 8
20,5 – 12,5= 8
20,5 – 21,5 = 1
20,5 – 21,5 = 1
20,5 – 21,5 = 1
20,5 – 21,5 = 1
20,5 – 21,5 = 1
20,5 – 21,5 = 1
Summe
=½*[(103-10)+(53-5)+(103-10)] = 1050
d2
2,25
2,25
2,25
2,25
2,25
2,25
49
49
49
49
0,25
0,25
0,25
72,25
72,25
272,25
64
64
64
1
1
1
1
1
1
825
Ty´ = ½*[(73-7)+(103-10)+(83-8)] = 915
6 * 825
rSP corr. = 1 -
(25  1)25  (1050  915 )
2
=1-
4950
113635
= + 0,6369
Der Zusammenhang zwischen der Beurteilung der politischen
Situation und der Beurteilung des Nordkettenbahnprojekts ist ein
positiver Zusammenhang. Ob dieser Zusammenhang signifikant
ist oder nicht kann über die z-Transformation mit anschließender
Berechnung der Irrtumswahrscheinlichkeit (=Signifikanzniveau)
geklärt werden:
z=ż*
n 3 ,
wobei ż als Korrelationsziffer bezeichnet wird und wie folgt zu
berechnen ist:
ż = ½*ln( 1  r ) = ½ * ln
1  0,6369
1  0,6369
daraus folgt:
z = ż * n  3 = 0,753*
25  3
1 r
= 0,753
= 3,532
Das Signifikanzniveau errechnet sich aus:
z
2
x
1
1
2

e
2
d x  0.001229270561
z
Da das Signifikanzniveau ≤0,05, nämlich exakt 0,00123 ist, kann
die H0 verworfen werden und man kann behaupten, dass der Zu-
sammenhang zwischen der Beurteilung der allgemeinen
politischen Situation und der Beurteilung des Nordkettenbahnprojekts statistisch signifikant ist. Die Stärke des Zusammenhang
ist +0,637. Das heißt: je besser die politische Situation beurteilt
werden, desto besser wird auch das Nordkettenbahnprojekt
beurteilt.
Das Statistikpaket SPSS liefert folgenden Output:
Korrelationen
Spearman-Rho
Beurteilung der
derzeitigen politisc hen
Situation
Beurteilung des
Nordkettenbahnprojekts
Beurteilung der
derzeitigen
Beurteilung des
politisc hen Situation Nordkettenbahnprojekts
Korrelationskoeffizient
1,000
,637**
Sig. (2-seitig)
.
,001
N
25
25
Korrelationskoeffizient
,637**
1,000
Sig. (2-seitig)
,001
.
N
25
25
**. Die Korrelation ist auf dem 0,01 Niveau signifikant (z weiseitig).
Es kann festgestellt werden, daß zwischen der Variable
Beurteilung der allgemeinen politischen Situation und der
Beurteilung
des
Nordkettenbahnprojekts
ein
signifikanter
Zusammenhang besteht (Näherungsweise Signifikanz: sig=0.001;
daher wird H0 verworfen!); der Korrelationskoeffizient in der
Höhe von +0,637 drückt die Stärke des Zusammenhangs aus.
 Korrelationskoeffizient nach Pearson (-1 bis +1)
Der Bravais-Pearson´sche Korrelationskoeffizient ist prinzipiell
nur für metrische Variable geeignet; diese sollten zudem normalverteilt sein. Ist diese Voraussetzung nicht gegeben so ist der
Korrelationskoeffizient nach Spearman anzuwenden.
Zur Berechnung des Korrelationskoeffizienten nach Pearson
werden jeweils zwei metrische Variable einer Person erfasst und
als sogenannte Wertepaare dargestellt. Zu jedem x1 ,......., xn,
gibt es ein entsprechendes y1 ,.....,.yn;
Der Zusammenhang zwischen den beiden metrischen Variablen
kann, wie bereits beim Korrelationskoeffizient nach Spearman
poisitiv (~+1), negativ (~ -1) bzw. annähernd Null sein.
Im vorliegenden Beispiel wird der Zusammenhang bzw. die
Stärke des Zusammenhangs zwischen dem Einkommen (x) und
den Spenden für soziale Zwecke (y) berechnet.
Die beiden Hypothesen lauten:
H0: Zwischen dem Einkommen und den Spenden für soziale Zwecke
besteht kein Zusammenhang.
H1: Zwischen den beiden Variablen besteht ein Zusammenhang.
Die Berechnung des Korrelationskoeffizienten nach Pearson
erfolgt nach:
n
rP =
 [( x
i
 x ) * ( y i  y )]
i 1
n

i 1
n
( xi  x ) 2 *
 (y
i 1
i
 y) 2
( xi  x ) 2
67600,00
44100,00
25600,00
3600,00
100,00
100,00
100,00
57600,00
19600,00
115600,0
Su=334000
[( xi  x ) * ( y i  y )]
EINKOMMEN (x)
SPENDEN (y)
1000,00
75,00
7540,00
1050,00
80,00
5040,00
1100,00
85,00
3040,00
1200,00
90,00
840,00
1250,00
100,00
40,00
1250,00
110,00
-60,00
1250,00
110,00
-60,00
1500,00
130,00
6240,00
1400,00
120,00
2240,00
1600,00
140,00
12240,00
Mittelwert(x)=1260 Mittelwert(y)=104 Summe=37100
rP =
37100
334000 * 4290
( yi  y) 2
841,00
576,00
361,00
196,00
16,00
36,00
36,00
676,00
256,00
1296,00
Su=4290
= +0,98
Der Zusammenhang zwischen dem Einkommen
und den
Ausgaben für Spenden ist stark positiv und beträgt +0,98. Das
heißt: je mehr jemand verdient, desto mehr ist er auch bereit für
Geschenke auszugeben.
Das Statistikpaket SPSS liefert folgenden Output:
Korrelationen
Einkommen
Korrelation nach Pearson
Signifikanz (2-s eitig)
N
Korrelation nach Pearson
Signifikanz (2-s eitig)
N
Spenden
Einkommen
1
Spenden
,980**
,000
10
10
,980**
1
,000
10
10
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)
signifikant.
Es kann festgestellt werden, daß zwischen der Variable Einkommen und den
Spenden
für
soziale
Zwecke
ein
signifikanter
Zusammenhang
besteht
(Näherungsweise Signifikanz: sig=0.000; daher wird H0 verworfen!); der
Korrelationskoeffizient
Zusammenhangs aus.
in
der
Höhe von
+0,98
drückt
die
Stärke
des
Regressionsanalyse
Durch die Regressionsanalyse soll der Zusammenhang zweier
oder mehrerer Variable mathematisch erfasst werden. Ziel der
Regressionsrechnung ist es dabei, Formeln zu finden, nach denen
man bei Kenntnis des Wertes der einen Variablen den zu
erwartenden Wert der anderen Variable bestimmen kann.
Der Zusammenhang wird durch eine Regressionslinie am besten
dargestellt.
Lineare Einfachregression:
Der Zusammenhang von zwei Variablen wird durch die lineare
Funktion der Form:
ŷi
= α + βxi verdeutlicht.
Gesucht wird also ein objektives Verfahren zur Ermittlung der
Geradengleichung ŷi = α + βxi mit der Steigung β und dem
Ordinatenabschnitt α. Dabei nennt man β auch den
Regressionskoeffizienten. Das Vorzeichen drückt die Art des
Zusammenhangs aus:
Positiv:
je mehr, desto mehr / je weniger, desto weniger
Negativ:
je mehr, desto weniger / je weniger, desto mehr
Null:
keine Richtung/Muster erkennbar.
Berechnung:
n
β=
n
n
 (x * y )  n *  x *  y
1
i
i
i
i 1
i 1
n
n
x
i 1
2
i

i
i 1

1
*(
xi ) 2
n i 1
Der Ordinatenabschnitt bestimmt sich nach der Berechnung von β
zu:
α = y  *x
Gegeben sind das monatliche Einkommen und die Ausgaben für
Geschenke pro Monat:
ni
1
2
3
4
5
6
7
8
9
10
EK ( x)
1000,00
1050,00
1100,00
1200,00
1250,00
1250,00
1250,00
1500,00
1400,00
1600,00
AUSG (y)
75,00
80,00
85,00
90,00
100,00
110,00
110,00
130,00
120,00
140,00
Mittelwert
Summe
Durch Berechnung von α und β ergibt sich das Regressionsmodell
für die jeweiligen Daten.
Die Regressionsgerade kann nach der angegebenen Methode
immer berechnet werden. Sinnvoll ist ihre Berechnung aber nur
dann, wenn der Zusammenhang zwischen den beiden betrachteten
Variablen tatsächlich linear ist. Dies ist entweder aus der
Erfahrung bekannt oder in der Regel aus dem optischen Eindruck
des Korrelationsdiagramms ersichtlich.
Die zu suchende Gerade erfüllt die Modellfunktion dann am
besten, wenn die Summe der Abstände der Punkte außerhalb der
Geraden zu dieser Geraden möglichst gering ist. Im
geometrischen Sinn kann man die Abstände als euklidisches
Differenzenquadrat auffassen. Es wird also eine Zielfunktion im
Sinne der Methode der kleinsten Quadrate formuliert, wo die
Quadratwerte minimal werden.
Die Differenzen der beobachteten Werte zu den geschätzten
Werten, werden als Residuen bezeichnet. Das sind jene Werte,
deren Betrag möglichst gering sein sollte;
ˆi  yi  yˆi
Die Differenz des
geschätzten Wertes zum tatsächlich
beobachteten Wert nennt man Residuum für den beobachteten
Wert.
Für die gesamten beobachteten Werte der Variable Ausgaben
(AUSG) errechnen sich auf Grund des Regressionsmodells, d.h.
die Erklärung der Ausgaben über die beeinflussende Variable
Einkommen (EK) die Residuen.
Das Statistikpaket SPSS liefert folgenden Output:
b
Model lzusam menfassung
Modell
1
R
R-Quadrat
,980a
,961
Korrigiertes
R-Quadrat
,956
St andardf
ehler des
Sc hätz ers
4,5964
a. Einfluß variablen : (Kons tant e), EK
b. Abhängige Variable: AUSG
Koeffi zientena
Modell
1
(Konst ante)
EK
St andardi
sierte
Koeffiz ien
ten
Nicht s tandardisierte
Koeffiz ient en
St andardf
B
ehler
-35,958
10,126
,111
,008
Beta
,980
T
-3, 551
13,966
Signifik anz
,007
,000
a. Abhängige Variable: AUSG

140,00
ausg = -35.96 + 0.11 * ek
R-Quadrat = 0.96


ausg
120,00

100,00



80,00

1000,00
1200,00
1400,00
ek
1600,00
Punkte/Linien zeigen Mittelw erte
Lineare Regression
Multiple Regressionsanalyse
An dieser Stelle wird ein Modell mit mehr als 2 Variablen
behandelt;
dieses
bezeichnet
man
als
multiples
Regressionsmodell. Der Zusammenhang von drei Variablen (eine
abhängige und 2 unabhängige Variable) wird durch die lineare
Funktion der Form:
= α + β1x1
verdeutlicht.
ŷi
+ β2x2
, deren Graf eine Gerade ist,
Gesucht wird also ein objektives Verfahren zur Ermittlung der
Geradengleichung ŷi = α + βixi mit der Steigung β und dem
Ordinatenabschnitt α. Dabei nennt man β auch die
Regressionskoeffizienten. Das Vorzeichen drückt – wie bereits
bei der linearen Einfachregression - die Art des Zusammenhangs
aus:
Positiv:
je mehr, desto mehr / je weniger, desto weniger
Negativ:
je mehr, desto weniger / je weniger, desto mehr
Null:
keine Richtung/Muster erkennbar.
Beispiel:
Es stellt sich dir Frage: Können die Ausgaben für Geschenke
durch das Einkommen und durch das Alter erklärt werden bzw.
welchen Einfluss haben als Gesamtmodell die Variablen Alter
und Einkommen auf die Ausgaben für Geschenke?
Folgende Ausgangsdaten sind gegeben:
Einkommen (x1)
1000,00
1050,00
1100,00
1200,00
1250,00
1250,00
1250,00
1500,00
1400,00
1600,00
Ausgaben für Geschenke (y)
75,00
80,00
85,00
90,00
100,00
110,00
110,00
130,00
120,00
140,00
Alter (x2)
18,00
20,00
25,00
28,00
30,00
35,00
35,00
40,00
38,00
50,00
SPSS-Output:
Modellzusammenfassung
Modell
R
R-Quadrat
,989a
1
Korrigiertes R-
Standardfehler
Quadrat
des Schätzers
,979
,972
3,62576
a. Einflußvariablen : (Konstante), AGE, EK
ANOVAb
Mittel der
Modell
1
Quadratsumme
Regression
Nicht standardisierte
df
Quadrate
4197,977
2
2098,988
92,023
7
13,146
4290,000
9
F
Sig.
159,665
,000a
Residuen
Gesamt
a. Einflußvariablen : (Konstante), AGE, EK
b. Abhängige Variable: AUSG
Koeffizientena
Standardisierte
Nicht standardisierte Koeffizienten
Modell
1
RegressionskoeffizientB
(Konstante)
EK
AGE
a. Abhängige Variable: AUSG
Koeffizienten
Standardfehler
Beta
T
Sig.
1,208
17,311
,070
,946
,050
,026
,441 1,924
,096
1,246
,515
,555 2,420
,046
Herunterladen