1. Kapitel

Werbung
295
i
➊
Zwei oder mehrere metrische Merkmale - Problemstellungen
Frage nach dem Zusammenhang
Beispiel: Duxbury Press (1. Kapitel)
Anzahl der verschenkten Freiexemplare ➜ Verkaufserlös
? Besteht eine direkte Beziehung (ein Zusammenhang) zwischen
der Anzahl verschenkter Exemplare und der Anzahl verkaufter
Bücher bzw. der Verkaufserlöse?
296
i
➋
Zwei oder mehrere metrische Merkmale - Problemstellungen
Frage nach Unterschieden
› Beispiel: Einfluß der Helmtragepflicht auf Fahrradfahren
•
•
•
•
Diskussion über Einführung einer Helmtrageflicht
Kritiker behaupten, Pflicht entmutigt Rad zu fahren
probeweise Einführung der Tragepflicht in Testorten
repräsentative Stichprobe:
Wieviele km wurden in der Woche vor und der Woche nach
Einführung des Gesetzes mit dem Rad zurückgelegt?
? Hat die Einführung der Helmtragepflicht Einfluß auf die Anzahl
der gefahrenen Kilometer?
297
i
➌
Zwei oder mehrere metrische Merkmale - Problemstellungen
Frage nach Stärke des Zusammenhangs
Wie stark ist der Zusammenhang zwischen zwei metrischen
Variablen?
› Beispiel: Besteht ein Zusammenhang zwischen den Ausgaben
für Alkoholische Getränke und Tabakwaren?
298
i
➍
Zwei oder mehrere metrische Merkmale - Problemstellungen
Frage nach Form des Zusammenhangs
Welche Form hat der Zusammenhang zwischen zwei Variablen?
Läßt sich der Wert einer Variablen anhand des Wertes einer
zweiten vorhersagen?
› Beispiel: Ist der Preis eines Gebrauchtwagen abhängig von
der Zahl der gefahrenen Kilometer? Kann man den Preis des
Gebrauchtwagens mit Hilfe des Kilometerstandes vorhersagen?
299
i
➎
Zwei oder mehrere metrische Merkmale - Problemstellungen
Frage nach Unterschieden in den Mittelwerten
Unterscheiden sich die Mittelwerte zweier Variablen, die an einer
Beobachtungseinheit erhoben wurden?
› Beispiel: besteht ein Unterschied in der Anzahl der gefahrenen
Kilometer vor und nach Einführung der Helmtragepflicht?
› Beispiel: Sind Dioptrienzahlen an linken und rechten Augen
gleich?
300
i
Stärke des Zusammenhangs
› Beispiel: Ausgaben für Tabak und Alkohol
Durchschnittliche Haushaltsausgaben pro Woche in Pfund für
Alkohol und Tabakwaren in 11 britischen Regionen (1981).
? Besteht ein Zusammenhang zwischen den Ausgaben für alkoholische Getränke und Tabakwaren?
Variable: Ausgaben für Tabakwaren
Ausgaben für Alkohol
Graphische Darstellung der Daten mittels Streudiagramm
(Scattergram)
301
› Beispiel
Aufgaben für Tabak und Alkohol
Streudiagramm: Ausgaben für Takakwaren ↔ Alkohol
7.0
•
ALCOHOL
6.0
•
5.0
•
4.0
2.5
•
3.0
TOBACCO
•
•
•
3.5
••
•
4.0
•
4.5
5.0
302
i
Korrelationskoeffizient
Der Korrelationskoeffizient mißt die Stärke des Zusammenhangs.
Im Beispiel positiver Zusammenhang:
➜ kleine xi ↔ kleine yi, große xi ↔ große yi
7.0
x̄
II
ALCOHOL
6.0
•
5.0
•
III
4.0
2.5
I
•
•
3.0
TOBACCO
•
•
•
3.5
••
Bilden der Produkte
ui = (xi − x̄)(yi − ȳ)
(xi/yi)
ui
4.0
•
•IV
4.5
ȳ
303
i
Eigenschaften der ui
• Liegen die Beobachtungen in I oder in III ➜ ui positiv
• in II oder in IV ➜ ui negativ
Zusammenhangsmaß: Mittelwert der ui ➜ Kovarianz
Cov(x, y) =
n
X
1
n i=1
(xi − x̄)(yi − ȳ)
Die meisten Beobachtungen in I und III
Die meisten Beobachtungen in II und IV
Beobachtungen gleichmäßig in I,II,III und IV
➜ Cov(x, y) > 0
➜ Cov(x, y) < 0
➜ Cov(x, y) ≈ 0
304
i
Korrelationskoeffizient
Kovarianz abhängig von der Maßeinheit ➜ normieren
Korrelationskoeffizient
rx,y
1
n
P
(xi − x̄)(yi − ȳ)
Cov(x, y)
q P
=q P
=
1
1
sx · sy
2
2
(x
−
x̄)
(y
−
ȳ)
i
i
n
n
Eigenschaften
• rx,y ist ein normiertes Zusammenhangsmaß: −1 ≤ rx,y ≤ 1
305
i
Eigenschaften des Korrelationskoeffizienten
• Bildet nur lineare Zusammenhänge ab
.....
.
y
}
.
.
.
.
.
.
.
.......
y
.}
.
.
.
.
.
.
.
.
.....
y
...}
.
.
.
.
.
.
.
.
...
y
........}
rxy = 1
.........}
y
..........
.....}
y
..........
.....}
y
..........
......}
y
......
rxy = −1
• Unkorreliertheit ist nicht das Gleiche wie Unabhängigkeit
y
................}
..............}
.
.
.
.
y
}
.
.y
.
.
......
.
.
.
.
.
.
....
.
.
.
...}
.
y
}
y
.
...
....
...
..y
.....}
...y
....}
...
..
.
...}
.
y
y
....
..}
.
.
.
.....
....
....}
.
.
.
y
y
}
.
..................}
.
.
.
y
............
rxy = 0
z.B. exakter nicht-linearer Zusammenhang
306
› Beispiel
Zusammenhänge
rxy = −0.90
rxy = 0.911
307
› Beispiel
Zusammenhänge
rxy = 0.492
rxy = −0.50
308
› Beispiel
Zusammenhänge
rxy = 0.0
rxy = 0.0
309
i
Berechnung des Korrelationskoeffizienten
› Beispiel:
x 3 6 7 9 4
y 9 12 13 16 11
Berechnung von rx,y
Summe
Mittelwert
xi
3
6
7
9
4
29
5.8
yi
9
12
13
16
11
61
12.2
x2i
9
36
49
81
16
191
38.2
yi2
81
144
169
256
121
771
154.2
xi · y i
27
72
91
144
44
378
75.5
310
i
Berechnung des Korrelationskoeffizienten
rxy
1
n
P
xiyi − xy
q P
=q P
= 0.979
1
1
2
2
2
2
x
−
x̄
y
−
ȳ
i
i
n
n
18
y
16
14
y
y
12
y
10
y
8
2
3
4
5
6
7
8
9
10
311
› Beispiel
Ausgaben für Tabak und Alkohol
Besteht ein Zusammenhang zwischen Ausgaben für Alkohol und
Tabakwaren?
7.0
•
ALCOHOL
6.0
•
5.0
•
4.0
2.5
•
3.0
TOBACCO
•
•
•
3.5
••
•
4.0
Nordirland
•
✱
4.5
5.0
312
› Beispiel
Ausgaben für Tabak und Alkohol
Nordirland ist ein besonderer Fall ➜ Outlier
! Ausgaben für Tabak hoch, für Alkohol niedrig
? Alkohol in Nordirland billiger?
Berechnung des Korrelationskoeffizienten einmal mit und einmal
ohne Nordirland
rx,y = 0.784
rx,y = 0.224
ohne Nordirland
mit
Nordirland
E Test des Korrelationskoeffizienten
313
i
Test des Korrelationskoeffizienten
H0 : ρ = 0
HA : ρ 6= 0 oder HA : ρ < 0 oder HA : ρ > 0
rxy
Teststatistik T = q
2
1 − rxy
√
n−2
! t-Verteilung mit df = n − 2
H0 verwerfen, wenn |T | größer als kritischer Wert
zweiseitig mit SPSS oder R p-value = 0.007 ohne Nordirland
p-value = 0.509 mit Nordirland
✔ starker Zusammenhang, wenn Nordirland nicht berücksichtigt
wird.
314
i
Test des Korrelationskoeffizienten
Voraussetzung für Pearson’s rxy
Beide Variablen x, y intervallskaliert und normalverteilt.
Wenn diese Voraussetzungen nicht erfüllt sind:
Ausweichen auf Methoden für ordinale Daten
➜ nichtparametrische oder parameterfreie Methoden
E Idee:
• Rangreihung der Daten wie bei Median
• Diese Zahlen (Ränge) als Daten verwenden
• Problem: Bindungen (Ties), wenn mehrere Beobachtungen gleich
groß sind und damit die gleichen Ränge erhalten würden.
315
i
Rangkorrelation
Durchschnittsränge
Daten:
Ränge:
Durchschnittsränge:
1
4
4 6 8 8 8 11 usw.
1
2
3 4 5 6 7 8 ...
1 2.5 2.5 4 6 6 6 8 . . .
! Spearman’s Rangkorrelation
• Jede der beiden Variablen rangreihen
• Berechnung wie rxy , aber mit den Rängen
• Vorgehen beim Testen genauso wie bei rxy
316
?
Fragestellung 2
• Welche Form hat der Zusammenhang zwischen zwei Variablen?
• Läßt sich der Wert einer Variablen mittels des Wertes einer zweiten
Variaben vorhersagen?
› Beispiel: Gebrauchtwagenpreise USA
• Ist der Gebrauchtwagenpreis abhängig von der Zahl der gefahrenen
Meilen?
• Kann der Gebrauchtwagenpreis mit Hilfe des Kilometerstandes
vorhergesagt werden?
317
› Beispiel
Gebrauchtwagenpreise
Richtpreisliste für Gebrauchtwagen
100 Ford Taurus, 3 Jahre alt, x = gefahrene Meilen, y = Preis
6.0
Preis in 1000 $
5.5
5.0
4.5
15
25
35
gefahrene Meilen (in Tausend)
45
55
318
i
Regression
Y-Variable abhängige Variable oder Responsevariable
X-Variable unabhängige oder erklärende Variable
Bei Regression immer folgende Beziehung:
WENN
➜
X
➜
unabhängig ➜
DANN
Y
abhängig
› Beispiele
• Verkehrsministerium untersucht Beziehung zwischen
Strassenunebenheiten und Benzinverbrauch.
319
› Beispiel
Regression
• Händler, der seine Waren bei Fußballspielen verkauft, möchte seine Verkaufszahlen auf die Anzahl der Siege des Heimteams
beziehen.
• Soziologe möchte die Beziehung zwischen der Anzahl der
Wochenenden, die ein Student zu Hause verbringt, und der
Entfernung zwischen Wohn- und Studienort untersuchen.
! Unterscheidung Korrelation ↔ Regression
✔ Kann die Wenn ➜ Dann Beziehung umgedreht werden, sind
beide Variablen gleichwertig ➜ Korrelation
✔ kann man das nicht ➜ Regression
320
i
Einfache lineare Regression
Regressionsmodell
Y =a+b·X
Preis = a + b · gefahrene Meilen
Interessierende Größen: Regressionskoeffizienten a und b
Diese müssen aus den Werten für X und Y errechnet werden.
Jedem Punkt (xi, yi) wird ein Punkt (xi, ŷi) zugeordnet.
321
Einfache lineare Regression
ei
yi
ŷi
a
rrrrrr
rrrrrr
r
r
r
r
r
rr
rrrrrr
rrrrrr
r
u
x
r
r
r
r
rr
rrrrrr
rrrrrr
r
r
r
r
r
r
rrrrrr
rrrrrr
r
r
r
r
r
rr
rrrrrr
rrrrrr
r
r
r
r
r
rrrrr
rrrx
rrrrrr
r
r
r
r
r
r
i
i
rrrrrr
rrrrrr
r
r
r
r
r
r
r
r
r
r
rr
rrrrrr
rrrrrr
r
r
r
r
r
r
rrrrrr
rrrrrr
r
r
r
r
r
rrrrrr
n
(x i , y i )
}b
i
(x , ŷ )
xi
1
a . . . Interzept
b . . . Anstieg
ŷi . . . geschätztes yi
ei . . . Residuum
322
i
Prinzip der Kleinsten Quadrate
beobachtete Punkte
(xi, yi)
Punkte auf der Geraden (xi, ŷi)
yi = a + bxi + ei
ŷi = a + bxi
Berechnung von a und b ➜ Prinzip der kleinsten Quadrate
X
X
2
ei =
(yi − a − bxi)2 → min
E Summe der quadrierten Abstände soll minimal werden.
b=
Cov(x, y)
s2x
a = ȳ − bx̄
= rxy
sy
sx
Gerade geht durch den Punkt (x̄, ȳ)
323
› Beispiel
Gebrauchtwagenpreise
Im Beispiel: a = 6533.38, b = −0.031
Y = 6533.38 − 0.031X
✔ Interpretation
Je gefahrener Meile sinkt der Preis um 0.031 Dollar.
i Prognose
Welchen Preis erzielt ein 3 Jahre alter Ford Taurus mit 40000
Meilen?
x = 40000
→
ŷ = 6533.38 − 0.031 · 40000 = 5293.38
324
i
Testen im linearen Regressionsmodell
In der Population: Y = α + βX
Testen von β (α meist nicht so interessant)
H0 : β = 0
HA : β 6= 0 oder HA : β < 0, HA : β > 0
In SPSS
Modell
1
(Konstante)
MEILEN
Koeffizientena
Nicht standardisierte Standard.
Koeffizienten
Koeff.
Standard
B
fehler
Beta
6544.383
84.512
-0.031
0.002
-0.806
a. Abhängige Variable: PREIS
T
77.307
-13.495
Signifikanz
0.000
0.000
325
i
Testen im linearen Regressionsmodell
Modell
1
✔
✔
✔
✔
✔
(Konstante)
MEILEN
Koeffizientena
Nicht standardisierte Standard.
Koeffizienten
Koeff.
Standard
B
fehler
Beta
6544.383
84.512
-0.031
0.002
-0.806
B sind die Regressionskoeffizienten
Konstante ist das Interzept a
Beta hat nichts mit dem obigen β zu tun
T ist der Wert der Teststatistik (t-Verteilung)
p-Wert < 0.001 zweiseitig:
β ist signifikant von Null verschieden.
T
77.307
-13.495
Signifikanz
0.000
0.000
326
X
Voraussetzungen des linearen Regressionsmodells
Voraussetzungen ähnlich wie bei Korrelation
Erwarteter Wert von Normal
✗
✗
✗
✗
Linearität der Beziehung
Intervallskala für die abhängige Variable Y
Y normalverteilt ➜ Residuen ei normalverteilt.
Achten auf Outliers!
400
200
QQ-Plot der Residuen
zur Überprüfung der Normalverteilungsannahme
Punkte sollen entlang einer
45◦ Geraden liegen
0
-200
-400
-400
-200
0
200
400
Beobachteter Wert der Residuen
327
X
Voraussetzungen des linearen Regressionsmodells
400
200
Residuen Plot
y-Achse: Residuen
x-Achse: Progosewerte ŷi
Sollen kein Muster zeigen
Residuen
0
-200
-400
4800
5200
5600
6000
! Wenn Voraussetzungen nicht erfüllt: eventuell Daten transformieren, sonst keine einfachen Alternativen.
328
i
Erklärungswert eines Regressionsmodells
Wie gut ist ein Regressionsmodell?
Modell dient dazu, eine abhängige Variable zu erklären oder
vorherzusagen.
! Residuen sollen möglichst klein sein
y
= a +
bx
+
e
beobachter Wert = Prognosewert + Rest
2
Bestimmtheitsmaß R =
Var(y) − Var(e)
Var(y)
Quadrat des Korrelationskoeffizienten, Anteil der erklärten Varianz
von y.
329
› Beispiel
Erklärungswert - Gebrauchtwagen
Modellzusammenfassungb
Modell
1
R
0.806a
a.
b.
R-Quadrat
0.650
Korrigiertes
R-Quadrat
0.647
Standardfehler
des Schätzers
151.57
Einflußvariablen: (Konstante), MEILEN
Abhängige Variable: PREIS
! Korrigiertes R2 ist R2 um die Freiheitsgrade korrigiert, um die
Stichprobengröße zu berücksichtigen.
2
Rkorr
2
=R −
k−1
n−k
R2
k = Anzahl der erklärenden Variablen einschließlich a.
330
i
Multiple Regression
Erklärungsgrad kann verbessert werden, wenn man zusätzliche
erklärende Variable berücksichtigt.
Multiples Regressionsmodell:
yi = a + b1xi1 + b2xi2 + . . . + ei
Berechnung der Koeffizienten mittels Statistiksoftware.
› Beispiel: Gebrauchtwagen
zusätzliche Variable: Anzahl der Serviceüberprüfungen
331
› Beispiel
Modell
1
Gebrauchtwagenpreise - multiple Regression
(Konstante)
MEILEN
SERVICE
Koeffizientena
Nicht standardisierte
Koeffizienten
Standard
B
fehler
6206.128
24.966
-0.031
0.001
135.837
3.903
Stand.
Koeff.
Beta
-0.814
0.569
T
248.581
-49.788
34.807
Signifikanz
0.000
0.000
0.000
a. Abhängige Variable: PREIS
✔ korrigiertes R2 = 0.974
✔ beide Variable MEILEN und SERVICE signifikant
✔ pro Service erhöht sich durchschnittlicher Preis um ca. 136 $
332
?
Fragestellung 3A
Unterscheiden sich die Mittelwerte zweier Variablen, die an einer
Beobachtungseinheit erhoben wurden?
› Beispiel: Helmpflicht für Radfahrer in den USA
• Kritiker: Helmpflicht entmutigt, Rad zu fahren
• probeweise Einführung der Helmpflicht in Testorten
• repäsentative Stichprobe: gefahrene km vor und nach Einführung
der Helmpflicht.
? Besteht ein Unterschied in der Anzahl gefahrener km vor und
nach Einführung der Helmpflicht?
333
› Beispiel
Helmtragepflicht
Stichprobe n = 200, x̄ = 0.77, s = 3.07
80
70
60
50
40
30
20
10
0
-6
-4
-2
0
2
Differenz (nach – vor)
4
6
8
10
334
i
t-Test für abhängige Stichproben
Abhängige Stichproben: zwei oder mehrere Variablen werden an
einer Beobachtungseinheit erhoben.
In SPSS: gepaarte Stichproben.
! Wie t-Test für eine Stichprobe, allerdings wird nun die Differenz
der Mittelwerte geprüft.
H0 : µ2 − µ1 = 0
oder H0 : µ1 = µ2
HA : µ1 6= µ2 oder HA : µ1 > µ2 oder HA : µ1 < µ2
✔ Voraussetzung:
Intervallskala und Normalverteilung der Differenzen.
335
› Beispiel
Helmtragepflicht: t-Test für abhängige Stichproben
Test bei gepaarten Stichproben
Gepaarte Differenzen
T
df
Sig. (2-seitig)
Mittelwert
Standardabweichung
Standardfehler des Mittelwerts
95% Konfidenzintervall Untere
der Differenz
Obere
Paare
KNNACH–KMVOR
0.7700
3.0650
0.2167
0.3426
1.1974
3.5530
199
0.000
✔ Ergebnis: Einführung der Helmpflicht hat keine negativen Aus
wirkungen, es werden nach Einführung sogar um 0.77 km pro
Woche mehr gefahren.
336
?
Fragestellung 3B
Unterscheidet sich die Lage zweier Variabler, die an einer
Beobachtungseinheit erhoben wurden?
› Beispiel: Alkohol und Beurteilung der Attraktivität
In einem Club in Ohio wurden Mitglieder gebeten, die Attraktivität
der Anwesenden des jeweils anderen Geschlechts auf einer
100-teiligen Skala (0=extrem unattraktiv, 100=extrem attraktiv) zu
beurteilen. Die Einschätzungen wurden 3 Stunden vor und
unmittelbar vor der Sperrzeit abgegeben.
337
› Beispiel
Alkohol und Beurteilung der Attraktivität
120
100
80
60
40
20
0
-20
N=
180
3 Stunden vorher
180
Sperrstunde
? Gibt es einen Unterschied in der Beurteilung vor und nach
Alkoholkonsum?
338
i
Wilcoxon Test
Variable Beurteilung ist nicht intervallskaliert
➜ Voraussetzungen für t-Test nicht erfüllt.
E Wilcoxon-Test
• Unterschiede in der Lage 2er abhängiger Stichproben, ordinal oder
metrisch
• wenn Voraussetzungen für den t-Test nicht erfüllt sind.
X
Voraussetzungen für Wilcoxon-Test
✔ 2 abhängige Stichproben
✔ ordinale Daten oder nicht normalverteilte Differenzen
✔ nicht zuviele Bindungen
339
› Beispiel
Alkohol und Beurteilung der Attraktivität -Wilcoxon Test
H0 : F (x) = G(x) Lage in beiden Gruppen gleich
HA : F (x) > G(x)
Ränge
Negative Rängea
Positive Rängeb
Bindungenc
Gesamt
a.
b.
c.
N
39
138
3
180
Mittlerer
Rang
61.67
96.72
Rangsumme
2405.00
13348
Sperrstunde < 3 Stunden vorher
Sperrstunde > 3 Stunden vorher
3 Stunden vorher = Sperrstunde
340
› Beispiel
Alkohol und Beurteilung der Attraktivität -Wilcoxon Test
Statistik für Testb
Sperrstunde3 Stunden vorher
Za
-8.015
Asymptotische
Signifikanz (2-seitig)
0.000
a.
b.
Basiert auf negativen Rängen
Wilcoxon-Test
✔ Ergebnis: Angehörige des anderen Geschlechts werden kurz
vor Sperrstunde deutlich attraktiver eingeschätzt als 3 Stunden
vorher.
Herunterladen