2. Einheit_Regression_Anova

Werbung
Die einfache/multiple
lineare Regression
Ziel




Funktionaler Zusammenhang zwischen einer oder
mehreren unabhängigen Variablen (UV, X) und der
abhängigen Variablen (AV, Y)
Ermitteln von bestimmten Prädiktoren (X) der
abhängigen Variable Y
Werte prognostizieren bzw. vorhersagen
Untersuchung von Unterschiedshypothesen
intervallskalierter, stetiger Variablen.
Streudiagramm - Regressionsgerade
200
Residuum
190
byx (=Beta, =Steigung)
Y
180
170
160
ayx, Konstante150
36
38
40
42
44
X
46
48
50
Begriffe


Residuen: sind Schätzfehler.
Differenz von AVgeschätzt und AVwahr
Regressionsgleichung:
(wichtig für Wertschätzung!):
Y = β0(Konst) + β1X1+ β2X2+…..
mit: β…Regressionskoeffizient (wird geschätzt)
Xn…Wert des Prädiktors Xn (ist gegeben)
(korrigiertes) R-Quadrat
(=Bestimmtheitsmaß)





Modellprüfung
„wie gut ist die Regression“
„wie sinnvoll ist es, die Regression
anzuwenden“
Zusammenhang zwischen UV(s) und AV
Anteil der erklärten Varianz von Y durch die
Prädiktoren (X)
F-Wert

wird ebenfalls zur Modellprüfung
herangezogen
H0: alle Regressionskoeffizienten sind Null; sie
sind nicht sinnvolle Prädiktoren
H1: mindestens ein Koeffizient  ist ungleich 0;
min. ein Prädiktor beschreibt die AV gut
Regressionskoeffizient (Beta)
1.
Konstante (=Intercept, ayx ):
–
–
2.
Höhenlage der Regressionsgeraden
Abstand auf der Y-Achse vom Ursprung
Regressionskoeffizienten (ßi)
der Prädiktoren (Xi)
Beispiel 1 – Interpretation
Regressionsberechung:
X: Gewicht -> Y: Körpergröße
R=0.634
R2korr=0.401
Konstante= 136,867
Beta (Gewicht)= 0.574
Bedeutung:
Konstante (ayx): 136,867 (hier: Gewicht auf Größe)
Im Ursprung des Diagramms dh. bei 0kg ist die geschätzte
Größe 136,9cm
(hier nicht sinnvoll, besser bei zB: Lernaufwand und
Punkteanzahl)
Regressionskoeffizient Beta: 0.574

„Ändert sich das Gewicht (X) um eine Einheit (also 1 kg) so
ändert sich die Größe (Y) um 0.574 Einheiten (also 0.574cm)

pro 1kg -> 5.7mm größer
-> positiver signifikanter (p=0.03) Zusammenhang bzw.
signifikanter Unterschied
Beispiel 2
multiple lineare Regression
inkl. Wertschätzung
Regressionsberechung:
X1: Gewicht
X2: Schuhgröße
-> Y: Körpergröße
-> 2 Prädiktoren (UVs) auf eine AV
Beispiel 2 - Wertschätzung
Model Summary
Model
1
R
R Square
a
,764
,584
Adjus ted
R Square
,582
Std. Error of
the Es timate
6,394
a. Predictors : (Constant), Schuhgröße, Gewicht
Coefficientsa
Model
1
(Cons tant)
Gewicht
Schuhgröße
Uns tandardized
Coefficients
B
Std. Error
66,050
5,422
,123
,042
2,443
,174
a. Dependent Variable: Körpergröße
Standardized
Coefficients
Beta
,137
,656
t
12,183
2,928
14,034
Sig.
,000
,004
,000
200
200
180
180
160
160
Körpergröße
Körpergröße
Streudiagramme
140
120
140
120
100
100
80
80
60
60
36
38
40
42
44
Schuhgröße
46
48
50
40
60
80
Gewicht
100
120
Coefficientsa
Model
1
(Cons tant)
Gewicht
Schuhgröße
Uns tandardized
Coefficients
B
Std. Error
66,050
5,422
,123
,042
2,443
,174
Standardized
Coefficients
Beta
,137
,656
t
12,183
2,928
14,034
Sig.
,000
,004
,000
a. Dependent Variable: Körpergröße
Schätzung einer neuen Person:
 Bekannt: Gewicht 80kg, Schuhgröße 45
 Gesucht: Körpergröße
-> Formel:
Y = β0(Konst.) + β1X1+ β2X2
Körpergröße = Konstante + beta1*Gewicht +
beta2*Schuhgröße
Körpergröße = 66.05 + 0.123*80 + 2.443*45 = 185.8 cm
Varianzanalyse




Eine AV (quantitativ)
Ein oder mehrere Faktoren (UVs) (qualitativ
oder quantitativ in Klassen)
Testung von Unterschiedshypothesen auf
Basis von Varianzvergleichen (mQT, mQZ,
mQI, F = mQZ/mQI
Verschiedene Hypothesen (Anzahl?)
Varianzanalyse
Achtung auf genügend Versuchspersonen pro Zelle!
(Faktorkombination (mind. 10))
-> Dies wird mit steigender Anzahl der UVs (Faktoren)
immer schwieriger
 Post Hoc Tests: z.B. Scheffé-Test (SPSS)
 Alpha Kumulierung: p(k≥1 falsche H1) = 1-(1-α)m
 Alpha Adjustierung:

–
–
–
α´= 1-(1- α)1/m
Bonferoni Korrektur: α´= α/m
α´…Alpha pro Einzeltest, m…Anzahl der Einzeltests
Rechenbeispiel:



Der Einfluss von Geschlecht und Alter auf
Punkte in einem Leistungstest
Faktor 1: Gender
Faktor 2: Alter (Ist stetig daher Klassen
bilden!)
–
3Klassen:



-19
20-22
23-
Kontrolle der Verteilung der VPN auf
die Faktorkombinationen

Min. 10 VPN pro Zelle
Al ter i n Klassen * Ge schl echt Crosstabulati on
Count
Alter in
Klassen
Total
-19
20-22
23-
Geschlecht
männlich
weiblic h
31
47
18
50
13
14
62
111
Total
78
68
27
173
Ergebnisse:
Deskriptive Statistik
Between-Subjects Factors
Alter in
Klassen
Geschlecht
1
2
3
0
1
Value Label
-19
20-22
23männlich
weiblich
N
78
68
27
62
111
Ergebnisse:
Sum of Squares (mQI, mQT, mQR, mQZ)
Tests of Between-Subjects Effects
Dependent Variable: score
Source
Corrected Model
Intercept
Alter1
gender
Alter1 * gender
Error
Total
Corrected Total
Type III Sum
of Squares
79,900 a
10243,303
13,807
37,971
59,555
1469,892
15455,000
1549,792
df
5
1
2
1
2
167
173
172
Mean Square
15,980
10243,303
6,904
37,971
29,777
8,802
a. R Squared = ,052 (Adjus ted R Squared = ,023)
F
1,816
1163,780
,784
4,314
3,383
Sig.
,112
,000
,458
,039
,036
Ergebnisse:
Post Hoc nach Scheffé

Post Hoc für Altersklassen (keine sign.
Unterschiede) )
Multiple Comparisons
Dependent Variable: score
Scheffe
(I) Alter in Klass en
-19
20-22
23-
(J) Alter in Klass en
20-22
23-19
23-19
20-22
Based on observed means.
Mean
Difference
(I-J)
,09
-,26
-,09
-,35
,26
,35
Std. Error
,492
,662
,492
,675
,662
,675
Sig.
,982
,926
,982
,871
,926
,871
95% Confidence Interval
Lower Bound Upper Bound
-1,12
1,31
-1,90
1,38
-1,31
1,12
-2,02
1,31
-1,38
1,90
-1,31
2,02
Ergebnisse:
signifikante Wechselwirkungen


Grafik der
WW
Herunterladen