Die einfache/multiple lineare Regression Ziel Funktionaler Zusammenhang zwischen einer oder mehreren unabhängigen Variablen (UV, X) und der abhängigen Variablen (AV, Y) Ermitteln von bestimmten Prädiktoren (X) der abhängigen Variable Y Werte prognostizieren bzw. vorhersagen Untersuchung von Unterschiedshypothesen intervallskalierter, stetiger Variablen. Streudiagramm - Regressionsgerade 200 Residuum 190 byx (=Beta, =Steigung) Y 180 170 160 ayx, Konstante150 36 38 40 42 44 X 46 48 50 Begriffe Residuen: sind Schätzfehler. Differenz von AVgeschätzt und AVwahr Regressionsgleichung: (wichtig für Wertschätzung!): Y = β0(Konst) + β1X1+ β2X2+….. mit: β…Regressionskoeffizient (wird geschätzt) Xn…Wert des Prädiktors Xn (ist gegeben) (korrigiertes) R-Quadrat (=Bestimmtheitsmaß) Modellprüfung „wie gut ist die Regression“ „wie sinnvoll ist es, die Regression anzuwenden“ Zusammenhang zwischen UV(s) und AV Anteil der erklärten Varianz von Y durch die Prädiktoren (X) F-Wert wird ebenfalls zur Modellprüfung herangezogen H0: alle Regressionskoeffizienten sind Null; sie sind nicht sinnvolle Prädiktoren H1: mindestens ein Koeffizient ist ungleich 0; min. ein Prädiktor beschreibt die AV gut Regressionskoeffizient (Beta) 1. Konstante (=Intercept, ayx ): – – 2. Höhenlage der Regressionsgeraden Abstand auf der Y-Achse vom Ursprung Regressionskoeffizienten (ßi) der Prädiktoren (Xi) Beispiel 1 – Interpretation Regressionsberechung: X: Gewicht -> Y: Körpergröße R=0.634 R2korr=0.401 Konstante= 136,867 Beta (Gewicht)= 0.574 Bedeutung: Konstante (ayx): 136,867 (hier: Gewicht auf Größe) Im Ursprung des Diagramms dh. bei 0kg ist die geschätzte Größe 136,9cm (hier nicht sinnvoll, besser bei zB: Lernaufwand und Punkteanzahl) Regressionskoeffizient Beta: 0.574 „Ändert sich das Gewicht (X) um eine Einheit (also 1 kg) so ändert sich die Größe (Y) um 0.574 Einheiten (also 0.574cm) pro 1kg -> 5.7mm größer -> positiver signifikanter (p=0.03) Zusammenhang bzw. signifikanter Unterschied Beispiel 2 multiple lineare Regression inkl. Wertschätzung Regressionsberechung: X1: Gewicht X2: Schuhgröße -> Y: Körpergröße -> 2 Prädiktoren (UVs) auf eine AV Beispiel 2 - Wertschätzung Model Summary Model 1 R R Square a ,764 ,584 Adjus ted R Square ,582 Std. Error of the Es timate 6,394 a. Predictors : (Constant), Schuhgröße, Gewicht Coefficientsa Model 1 (Cons tant) Gewicht Schuhgröße Uns tandardized Coefficients B Std. Error 66,050 5,422 ,123 ,042 2,443 ,174 a. Dependent Variable: Körpergröße Standardized Coefficients Beta ,137 ,656 t 12,183 2,928 14,034 Sig. ,000 ,004 ,000 200 200 180 180 160 160 Körpergröße Körpergröße Streudiagramme 140 120 140 120 100 100 80 80 60 60 36 38 40 42 44 Schuhgröße 46 48 50 40 60 80 Gewicht 100 120 Coefficientsa Model 1 (Cons tant) Gewicht Schuhgröße Uns tandardized Coefficients B Std. Error 66,050 5,422 ,123 ,042 2,443 ,174 Standardized Coefficients Beta ,137 ,656 t 12,183 2,928 14,034 Sig. ,000 ,004 ,000 a. Dependent Variable: Körpergröße Schätzung einer neuen Person: Bekannt: Gewicht 80kg, Schuhgröße 45 Gesucht: Körpergröße -> Formel: Y = β0(Konst.) + β1X1+ β2X2 Körpergröße = Konstante + beta1*Gewicht + beta2*Schuhgröße Körpergröße = 66.05 + 0.123*80 + 2.443*45 = 185.8 cm Varianzanalyse Eine AV (quantitativ) Ein oder mehrere Faktoren (UVs) (qualitativ oder quantitativ in Klassen) Testung von Unterschiedshypothesen auf Basis von Varianzvergleichen (mQT, mQZ, mQI, F = mQZ/mQI Verschiedene Hypothesen (Anzahl?) Varianzanalyse Achtung auf genügend Versuchspersonen pro Zelle! (Faktorkombination (mind. 10)) -> Dies wird mit steigender Anzahl der UVs (Faktoren) immer schwieriger Post Hoc Tests: z.B. Scheffé-Test (SPSS) Alpha Kumulierung: p(k≥1 falsche H1) = 1-(1-α)m Alpha Adjustierung: – – – α´= 1-(1- α)1/m Bonferoni Korrektur: α´= α/m α´…Alpha pro Einzeltest, m…Anzahl der Einzeltests Rechenbeispiel: Der Einfluss von Geschlecht und Alter auf Punkte in einem Leistungstest Faktor 1: Gender Faktor 2: Alter (Ist stetig daher Klassen bilden!) – 3Klassen: -19 20-22 23- Kontrolle der Verteilung der VPN auf die Faktorkombinationen Min. 10 VPN pro Zelle Al ter i n Klassen * Ge schl echt Crosstabulati on Count Alter in Klassen Total -19 20-22 23- Geschlecht männlich weiblic h 31 47 18 50 13 14 62 111 Total 78 68 27 173 Ergebnisse: Deskriptive Statistik Between-Subjects Factors Alter in Klassen Geschlecht 1 2 3 0 1 Value Label -19 20-22 23männlich weiblich N 78 68 27 62 111 Ergebnisse: Sum of Squares (mQI, mQT, mQR, mQZ) Tests of Between-Subjects Effects Dependent Variable: score Source Corrected Model Intercept Alter1 gender Alter1 * gender Error Total Corrected Total Type III Sum of Squares 79,900 a 10243,303 13,807 37,971 59,555 1469,892 15455,000 1549,792 df 5 1 2 1 2 167 173 172 Mean Square 15,980 10243,303 6,904 37,971 29,777 8,802 a. R Squared = ,052 (Adjus ted R Squared = ,023) F 1,816 1163,780 ,784 4,314 3,383 Sig. ,112 ,000 ,458 ,039 ,036 Ergebnisse: Post Hoc nach Scheffé Post Hoc für Altersklassen (keine sign. Unterschiede) ) Multiple Comparisons Dependent Variable: score Scheffe (I) Alter in Klass en -19 20-22 23- (J) Alter in Klass en 20-22 23-19 23-19 20-22 Based on observed means. Mean Difference (I-J) ,09 -,26 -,09 -,35 ,26 ,35 Std. Error ,492 ,662 ,492 ,675 ,662 ,675 Sig. ,982 ,926 ,982 ,871 ,926 ,871 95% Confidence Interval Lower Bound Upper Bound -1,12 1,31 -1,90 1,38 -1,31 1,12 -2,02 1,31 -1,38 1,90 -1,31 2,02 Ergebnisse: signifikante Wechselwirkungen Grafik der WW