Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Methodenlehre II, SoSe 2015 2. Korrelation, Lineare Regression und multiple Regression Holger Dette Ruhr-Universität Bochum 4. Juni 2015 1 / 282 Methodenlehre II Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Prof. Dr. Holger Dette I NA 3/73 I Telefon: 0234 322 8284 I Email: [email protected] I Internet: http://www.ruhr-uni-bochum.de/mathematik3/ 2. Korrelation, Lineare Regression und multiple Regression http://www.ruhr-uni-bochum.de/mathematik3/dette.html I Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10 I Thema: Das allgemeine lineare Modell und seine Anwendungen in der Psychologie 2 / 282 Statistik-Team Methodenlehre II, SoSe 2015 Holger Dette I I Übung: Dienstag, 12.15–13.15 Uhr, HZ0 70 Ria Van Hecke; [email protected] Tutorium: SPSS I I I I I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Maxi Gödel:: Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO 03/974 Pia Brinkhaus: Di 10:00-12:00 in UFO 01/06 Ricarda Weiland: Mo 14:00-16:00 in GAFO 02/368 Di 08:00-10:00 in GAFO 02/368 Phillip Ozimek: Do 14:00-16:00 in GAFO 03/901 Malte Kobelt: Do 14:00-16:00 in GAFO 03/974 3 / 282 E-Learning Methodenlehre II, SoSe 2015 Holger Dette Zur Unterstützung von Vorlesung und Übung gibt es einen Blackboardkurs: I Kurs-ID: 112131-ss15 I Kursbezeichnung: Statistische Methodenlehre II“ ” Passwort: mlehre2. I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Dort gibt es: I Folien zu Vorlesung und Übung, I Übungsaufgaben und Tests, mit denen Bonuspunkte für die Klausur erzielt werden können und I (zum Semesterende) eine Probeklausur. 4 / 282 Das allgemeine lineare Modell: Ein mathematisches Modell - viele statistische ” Verfahren“ Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Inhaltsverzeichnis 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Das lineare Regressionsmodell, multiple Regression und Korrelation 3. Das allgemeine“ lineare Modell ” 5 / 282 Literatur Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology, 5th Edition, Pearson Prentice Hall J. Bortz, Statistik, 6. Auflage, Springer M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe P. Zöfel, Statistik für Psychologen, Pearson Studium 6 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.1 Schätzer und Konfidenzintervalle 2. Korrelation, Lineare Regression und multiple Regression 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 7 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.1 Schätzer und Konfidenzintervalle 2. Korrelation, Lineare Regression und multiple Regression 8 / 282 keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei die Parameter der Verteilungen bekannt und man konnte unmittelbar loslegen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt sind. In solch einer Situation kann man mit der beurteilenden Statistik - aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits- Beurteilende Statistik " U8ER. PliS LJoUfl.J WiR. WAS /.JiSSHJ: (JI.!!) Wil<. HI/BEI.! lJin ,zOM Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression iT, f:rJf()lIlTIOIJ 'KüoCSCHwsr fi{,E#./SCI(I/ PT!/..) J)ff( GROM l>6lJ Af,rTHEi" i.X)'- 1 <1 G.iGEA/S(j{ltfrEN J)'( X gemeinsam mit Herrn Dr. Romberg. (Oestreich & Romberg, 2012) 9 / 282 1.1 Beispiel: Intelligenzquotient Methodenlehre II, SoSe 2015 Holger Dette Fragestellung: Haben (15-jährige) Kinder aus Bochum einen höheren Intelligenzquotienten als 100? I 10 Kinder (zufällig ausgewählt) machen einen IQ-Test Daten: y1 , . . . , y10 Stichprobe i yi i yi I 1 104 6 107 2 98 7 100 3 106 8 97 4 99 9 108 5 110 10 112 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Hypothese (IQ der Kinder ist niedriger als 100): H0 : µ ≤ 100 Alternative (IQ ist höher als 100): H1 : µ > 100 Dabei ist µ der (unbekannte) Erwartungswert der Gesamtpopulation der (15-jährigen) Kinder aus Bochum 10 / 282 Prinzip der schließenden Statistik Methodenlehre II, SoSe 2015 Holger Dette Auf Grund der Stichprobe y1 , . . . , y10 sollen Aussagen über das Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle I 1.2 t-Test für eine Stichprobe Wie groß ist µ (Schätzung)? 1.3 Zweistichprobenprobleme I I Kann man ein Intervall bestimmen, in dem µ liegt (Konfidenzintervall)? 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Gilt H0 : µ ≤ 100 (IQ ist nicht höher) H1 : µ > 100 (IQ ist höher)? oder gilt (statistischer Test) 11 / 282 Grundlegende Schwierigkeit: Methodenlehre II, SoSe 2015 Holger Dette I µ ist der Erwartungswert der Population der 15-jährigen Kinder I Auf Basis der Stichprobe soll auf die Grundgesamtheit geschlossen werden −→ Fehler, Unsicherheiten sind möglich! I Beispiel: zufällig“ wählen wir 5 hochbegabte Kinder (IQ ≥ 130) ” für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt! I Ziel der schließenden Statistik: Quantifizierung der Unsicherheit, z. B. mit welcher Wahrscheinlichkeit macht ein statistischer Test einen Fehler, falls (aufgrund von Daten) für H1 (IQ ist höher als 100) entschieden wird, obwohl in Wirklichkeit H0 gilt? I Notwendig für diese Quantifizierung: Mathematische Modellannahmen 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 12 / 282 Zusätzliche Modellannahme: Normalverteilung Methodenlehre II, SoSe 2015 Holger Dette I Allgemein gängige Annahme: Intelligenz in einer bestimmten Altersgruppe der Bevölkerung ist normalverteilt 1 1 x −µ 2 ϕ(x ) = √ ) exp − ( 2 σ 2πσ 2 µ : Erwartungswert 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression σ 2 : Varianz I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Deutung: Ist Y der IQ eines zufällig aus der Population ausgewählten Individuums, so gilt Z P(a ≤ Y ≤ b) = b ϕ(x )dx a I Diese Modellannahme sollte man stets rechtfertigen (wie man das machen kann, sehen wir später) 13 / 282 Interpretation der Wahrscheinlichkeiten: Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression a I I b Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den Werten a und b liegt, entspricht der Fläche unter der Kurve im Intervall [a, b]. In Formeln: Z b P(a ≤ Y ≤ b) = ϕ(x )dx a 14 / 282 Verschiedene Normalverteilungen N(µ, σ 2 ) Methodenlehre II, SoSe 2015 Holger Dette Dichten der Normalverteilung mit verschiedenen Parametern 0.5 N(0,0.707) N(0,1) N(1,1.25) N(2,2) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 0.4 1.3 Zweistichprobenprobleme 0.3 1.4 Einfaktorielle Varianzanalyse 0.0 0.1 0.2 2. Korrelation, Lineare Regression und multiple Regression -4 -2 0 2 4 6 I µ: Erwartungswert I σ 2 : Varianz I Beachte: unter jeder Kurve ist die Fläche genau 1 15 / 282 Motivation der Modellannahme der Normalverteilung Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 16 / 282 Zusätzliche Modellannahme: Normalverteilung Methodenlehre II, SoSe 2015 Holger Dette I Mathematisches Modell (hier n = 10): y1 , . . . , yn sind Realisierungen von Zufallsvariablen Yi = µ + εi , i = 1, . . . , n 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe I I I I yi : IQ-Messung für i-tes Kind (Realisation der Zufallsvariablen Yi ) µ: (unbekannter) Erwartungswert der Population (hier der 15-jährigen Kinder aus Bochum) ε1 , . . . , εn : unabhängige Zufallsvariable, normalverteilt mit Erwartungswert 0 und Varianz σ 2 . Interpretation: Messfehler, genetische Variabilität, Tagesform ... Mathematische Statistik z. B. Maximum Likelihood (in diesem Beispiel auch der gesunde Menschenverstand) liefert Schätzer für µ: n 1X yi = 104.1 µ̂ = y · = n 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression i=1 I Wie genau ist diese Schätzung? Wie sehr streut diese Schätzung? 17 / 282 Zusätzliche Modellannahme: Normalverteilung Methodenlehre II, SoSe 2015 Holger Dette I I I Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto genauer“ die Schätzung) ” Mathematische Statistik (Methodenlehre I): die Varianz des Schätzers µ̂ ist: σ2 Var (µ̂) = n Beachte: I I I Je größer der Stichprobenumfang n, desto kleiner die Varianz von µ̂. D.h. desto genauer ist die Schätzung. Für die Beurteilung der Genauigkeit muss man die Varianz σ 2 der Population kennen. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Mathematische Statistik: Schätzung für den Parameter σ 2 n σ̂ 2 = 1 X (yi − y · )2 = 28.32 n − 1 i=1 σ̂µ2 = σ̂ 2 = 2.832 n 18 / 282 Zusätzliche Modellannahme: Normalverteilung Methodenlehre II, SoSe 2015 Holger Dette I Oft wird der Schätzer zusammen mit dem Standardfehler angegeben µ̂ = 104.1 µ̂ + σ̂µ = 105.78 µ̂ − σ̂µ = 102.42 I I I q 2 σ̂µ = √σ̂n = σ̂n = 1.683 ist der Standardfehler des Schätzers µ̂ (Schätzung für Streuung des arithmetischen Mittels) σ̂ = 5.322 ist die aus den Daten geschätzte Standardabweichung (Schätzung für die Streuung einer einzelnen Beobachtung) Deutung: Vor der Datenerhebung ist µ̂ zufällig. Falls die Normalverteilungsannahme korrekt ist, ist auch µ̂ normalverteilt mit: 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression - Erwartungswert µ 2 - Varianz σn 19 / 282 Methodenlehre II, SoSe 2015 Holger Dette 0.14 Verschiedene Normalverteilungen 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Y1 ~ N (104.1, 28.32) 0.12 (Y1 + Y2) 2 ~ N (104.1, 28.32/2) 10 ( ∑ Yi) 10 ~ N (104.1, 2.832) 0.08 1.4 Einfaktorielle Varianzanalyse 0.02 0.04 0.06 2. Korrelation, Lineare Regression und multiple Regression 0.00 Dichte 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 0.10 i= =1 1.1 Schätzer und Konfidenzintervalle 40 60 80 100 120 140 160 x 20 / 282 Methodenlehre II, SoSe 2015 1.2 Schätzverfahren (Erwartungswert einer Population unter Normalverteilungsannahme) Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle I Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ I Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme Pn µ̂ = n1 i=1 yi Schätzung für den Erwartungswert µ der Population Pn 1 2 σ̂ 2 = n−1 i=1 (yi − y · ) Schätzung für die Varianz der Population (σ̂ Schätzung für die Standardabweichung) 1.2 t-Test für eine Stichprobe I I σ̂ 2 n I σ̂µ2 = I Schätzung für den Standardfehler von µ̂ : σ̂µ = 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Schätzung für die Varianz von µ̂ q σ̂ 2 n = σ̂ √ n 21 / 282 SPSS-Output: die Schätzer für die Daten aus Beispiel 1.1 (Intelligenzquotient) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Deskriptive Statistik N Mittelwert Statistik Statistik Standardfehler Intelligenzquotient 10 104,10 1,683 Gültige Werte (Listenweise) 10 1.2 t-Test für eine Stichprobe Standardabweichung Varianz Statistik Statistik 5,322 28,322 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression µ̂ = 104.1(Mittelwert) σ̂µ = 1.683(Standardfehler) σ̂ 2 = 28.322(empirische Varianz) σ̂ = 5.322(Standardabweichung) 22 / 282 R-Output: die Schätzer für die Daten aus Beispiel 1.1 (Intelligenzquotient) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe V1 median 105.0000000 mean 104.1000000 SE . mean 1.6829207 CI . mean .0.95 3.8070312 var 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 28.3222222 std . dev 5.3218627 coef . var 0.0511226 23 / 282 Beachte: Methodenlehre II, SoSe 2015 I Holger Dette µ̂ = n 1X yi ; n i=1 n σ̂ 2 = 1 X (yi − y · )2 ; n − 1 i=1 r σ̂µ = σ̂ 2 n hängen von den Daten y1 , . . . , yn ab (sind also vor Datenerhebung zufällig) I µ̂ − a σ̂µ , µ̂ + a σ̂µ 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression ist (vor der Datenerhebung) ein zufälliges Intervall, das mit einer bestimmten Wahrscheinlichkeit den Erwartungswert µ enthält I a −→ 0 =⇒ Wahrscheinlichkeit ≈ 0 a −→ ∞ =⇒ Wahrscheinlichkeit ≈ 1 Gesucht: zufälliges Intervall, das den unbekannten Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit enthält: Konfidenzintervall 24 / 282 Das Konfidenzintervall Methodenlehre II, SoSe 2015 Holger Dette I Gebe eine Wahrscheinlichkeit 1 − α vor (z. B. 1 − α = 95%) I Bestimme a so, dass das zufällige Intervall 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle (µ̂ − a σ̂µ , µ̂ + a σ̂µ ) den Parameter µ mit Wahrscheinlichkeit 1 − α enthält. I Mathematische Statistik liefert 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression a = tn−1,1− α2 (1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden I Diese Werte sind tabelliert oder durch Software verfügbar. I Das Intervall I = µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ heißt (1 − α) Konfidenzintervall für µ. 25 / 282 Methodenlehre II, SoSe 2015 Verschiedene t-Verteilungen Holger Dette 0.4 Dichten der t– Verteilung mit verschiedenen Freiheitsgraden t 100 t4 t1 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 0.3 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 0.0 0.1 0.2 2. Korrelation, Lineare Regression und multiple Regression -4 -2 0 1 Γ((n + 1)/2) fn (t) = √ Γ(n/2) πn 2 4 −(n+1)/2 t2 1+ n 26 / 282 Methodenlehre II, SoSe 2015 Das Quantil der t-Verteilung mit n Freiheitsgraden Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Dichte der t4 -Verteilung 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 0.4 1.3 Zweistichprobenprobleme 0.3 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 0.0 0.1 0.2 0.95 t -4 -2 0 Z 2 4, 0.95 = 2.132 4 t4,0.95 P(T4 ≤ t4,0.95 ) = f4 (t)dt = 0.95 −∞ 27 / 282 Beispiel 1.3 (Fortsetzung von Beispiel 1.1) Methodenlehre II, SoSe 2015 Holger Dette I I Berechnung eines 90% Konfidenzintervalls für µ µ̂ = 104.1, 2 I n = 10, σ̂ = 28.32 I α = 10% I (aus Tabelle bzw. Software) t9,0.95 = 1.833 I 90% Konfidenzintervall für µ = (101.02, 107.18) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Beachte: I I Ein (1 − α)-Konfidenzintervall ist ein zufälliges“ Intervall, das ” den (unbekannten) Erwartungswert mit Wahrscheinlichkeit 1 − α enthält. Die Aussage das Intervall (101.02, 107.18) enthält den ” unbekannten Erwartungswert der Population mit Wahrscheinlichkeit 90%“ hat keinen Sinn! 28 / 282 Erklärung des Begriffs zufälliges“ Intervall durch ” ein fiktives“ Experiment ” I I Annahme: das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B. 1000 mal) jeweils 10 Daten liefern ein (1 − α)-Konfidenzintervall (z. B. 95 % Konfidenzintervall) Datensatz 1 −→ Konfidenzintervall I1 Datensatz 2 −→ Konfidenzintervall I2 .. . Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Datensatz N −→ Konfidenzintervall IN I ca. (1 − α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den (unbekannten) Erwartungswert µ der Population 29 / 282 Methodenlehre II, SoSe 2015 1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme I Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ I Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle I I Bestimme das tn−1,1− α2 Quantil der t-Verteilung mit n − 1 Freiheitsgraden (aus Tabelle oder Software) 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Das Intervall (µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ ) ist ein (1 − α) Konfidenzintervall für µ I In vielen Softwarepaketen erhält man direkt das Konfidenzintervall als Ausgabe (z. B. in SPSS) 30 / 282 SPSS-Output: Konfidenzintervall für die Daten aus Beispiel 1.1 (Intelligenzquotient) 90% Konfidenzintervall der Differenz Intelligenzquotient 2,436 Sig. (2-seitig) 9 ,038 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.2 t-Test für eine Stichprobe Testwert = 100 df Holger Dette 1.1 Schätzer und Konfidenzintervalle Test bei einer Sichprobe T Methodenlehre II, SoSe 2015 Mittlere Differenz 4,100 Untere 1,02 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Obere 7,18 2. Korrelation, Lineare Regression und multiple Regression Beachte: I SPSS liefert nur ein Konfidenzintervall für die Differenz µ − 100 =⇒ 90% Konfidenzintervall für den Erwartungswert µ (101.02, 107.18) 31 / 282 R-Output: Konfidenzintervall für die Daten aus Beispiel 1.1 (Intelligenzquotient) One Sample t - test Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme data : IQ t = 2.4362 , df = 9 , p - value = 0.0376 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression alternative hypothesis : true mean is not equal to 100 90 percent confidence interval : 101.015 107.185 sample estimates : mean of x 104.1 32 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.2 t-Test für eine Stichprobe 2. Korrelation, Lineare Regression und multiple Regression 33 / 282 Beispiel 1.5 (Fortsetzung von Beispiel 1.1) Methodenlehre II, SoSe 2015 Holger Dette Frage: Ist der IQ der Kinder aus Bochum höher als 100? H0 : µ ≤ 100 H1 : µ > 100 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe H0 nennt man Nullhypothese und H1 heißt Alternative. I I I Intuitiv würde man für H1 entscheiden, falls der Mittelwert der Stichprobe 10 1 X µ̂ = yi 10 i=1 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression groß“ ist ” Beachte: µ̂ ändert sich, falls man die Daten anders skaliert! Besser: entscheide für H1 , falls µ̂ groß im Verhältnis zu dem Standardfehler σ̂µ ist (Invarianz bzgl. unterschiedlicher Skalierungen) 34 / 282 Methodenlehre II, SoSe 2015 Holger Dette Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls T = µ̂ − 100 >c σ̂µ 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe Fragen: 1.3 Zweistichprobenprobleme I Wie legt man den kritischen Wert c fest? I Bei dem Verfahren können 2 Fehler auftreten I Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl H0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100) I Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt, obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ ist höher als 100) 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Ziel: kleine“ Wahrscheinlichkeiten für Fehler erster und zweiter Art ” 35 / 282 Grundlegendes Prinzip der Testtheorie Methodenlehre II, SoSe 2015 Holger Dette I Der kritische Wert c wird festgelegt, indem man eine maximal tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art vorgibt (α-Fehler)! I Diese Wahrscheinlichkeit heißt Niveau des Tests. I Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines Fehlers zweiter Art (β-Fehler) I Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal α = 5% = 0.05 sein. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression =⇒ (mathematische Statistik, Tabelle, Software) n = 10, c = tn−1,1−α = t9,0.95 = 1.833 µ̂ − 100 104.1 − 100 T = = 2.436 > 1.833 = √ σ̂µ 2.832 D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5% zu Gunsten der Alternative H1 : µ > 100 verworfen (signifikantes Ergebnis zum Niveau 5 %) 36 / 282 Erklärung des Begriffs Niveau durch ein fiktives“ ” Experiment I Annahme: Das Experiment (Untersuchung des IQ von 10 Kindern) kann N mal (unabhängig) wiederholt werden (z. B. 1000 mal) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme I jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α (z.B. Niveau 5 %) Datensatz 1 −→ Testergebnis 1 Datensatz 2 −→ Testergebnis 2 .. . 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Datensatz N −→ Testergebnis N I Falls die Nullhypothese H0 : µ ≤ 100 wahr“ ist, so wird ” maximal in ca. αN (z. B. 5% 1000 = 50) Fällen für die Alternative H1 : µ > 100 entschieden. 37 / 282 Fehler erster und zweiter Art Methodenlehre II, SoSe 2015 Holger Dette Entscheidung aufgrund der Stichprobe zugunsten von: H0 H1 in der Population gilt H0 H1 richtige β-Fehler Entscheidung richtige α-Fehler Entscheidung 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Beachte: I Die Wahrscheinlichkeiten für α-Fehler und β-Fehler verändern sich gegenläufig. I Bei festem Niveau (Wahrscheinlichkeit für α-Fehler) kann die Wahrscheinlichkeit für einen β-Fehler durch Vergrößerung des Stichprobenumfangs verkleinert werden. I Bei festem Stichprobenumfang wird nur“ der Fehler erster Art ” kontrolliert. 38 / 282 Die Verteilung von T falls µ = 100 ist. Methodenlehre II, SoSe 2015 Holger Dette Dichte der t9 -Verteilung 0.4 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 0.3 1.2 t-Test für eine Stichprobe 0.2 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 0.1 p– Wert 0.0 α=5% t -3 I I I I -2 -1 0 9, 0.95 1 = 1.833 T n = 2.436 2 3 Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls T größer als der kritische Wert ist) Blaue Fläche: Niveau (α) Rote Fläche: p-Wert: Wahrscheinlichkeit einen Wert größer als 2.436 zu beobachten: P(T > 2.436) = 0.0188 Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird H0 abgelehnt (signifikantes Ergebnis) 39 / 282 Testverfahren für den Erwartungswert einer Stichprobe unter Normalverteilungsannahme 1.6 Einstichproben t-Test für rechtsseitige Hypothesen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle I Hypothesen: H0 : µ ≤ µ0 ; Hypothese) H1 : µ > µ0 (rechtsseitige I Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ I Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme I H0 wird zum Niveau α verworfen, falls T = 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression µ̂ − µ0 > tn−1,1−α σ̂µ gilt, bzw. falls der p-Wert < α ist. I µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von µ̂ 40 / 282 Vertauschen der Hypothesen Methodenlehre II, SoSe 2015 Holger Dette 1.7 Einstichproben t-Test für linksseitige Hypothesen I Hypothesen: H0 : µ ≥ µ0 ; Hypothese) H1 : µ < µ0 (linksseitige I Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ I Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme I H0 wird zum Niveau α verworfen, falls T = 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression µ̂ − µ0 < −tn−1,1−α = tn−1,α σ̂µ gilt, bzw. falls der p-Wert < α ist. I µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von µ̂ 41 / 282 Tests für zweiseitige Hypothesen Methodenlehre II, SoSe 2015 Holger Dette 1.8 Einstichproben t-Test für zweiseitige Hypothesen I Hypothesen: H0 : µ = µ0 ; Hypothese) H1 : µ 6= µ0 (zweiseitige I Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ I Rechtfertigung der Unabhängigkeits- und Normalverteilungsannahme I H0 wird zum Niveau α verworfen, falls |T | = | 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression µ̂ − µ0 | > tn−1,1−α/2 σ̂µ gilt, bzw. falls der p-Wert kleiner als α ist. I µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von µ̂ 42 / 282 Die Verteilung von T , falls µ = 100 ist. Methodenlehre II, SoSe 2015 Holger Dette Dichte der t9 -Verteilung 0.4 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 0.3 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 0.2 1.4 Einfaktorielle Varianzanalyse p– Wert 0.1 p– Wert α = 2,5 % 0.0 α = 2,5 % 2. Korrelation, Lineare Regression und multiple Regression -T n = -2.436 -3 I I t 9, 0.025 -2 = -2.262 -1 t 0 1 9, 0.975 = 2.262 2 T n = 2.436 3 Blaue Fläche: Niveau α; Rote Fläche: p-Wert (Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag größer als 2.436 ist P(|T | > 2.436) = 0.038 Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wird H0 abgelehnt! 43 / 282 SPSS-Output bei Anwendung des t-Tests auf die Daten aus Beispiel 1.1 (Intelligenzquotient) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe Test bei einer Sichprobe 1.3 Zweistichprobenprobleme Testwert = 100 90% Konfidenzintervall der Differenz T Intelligenzquotient 2,436 df Sig. (2-seitig) 9 ,038 Mittlere Differenz 4,100 Untere Obere 1,02 7,18 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Beachte: I SPSS liefert nur den p-Wert für den zweiseitigen t-Test aus Beispiel 1.8! I Den p-Wert für den einseitigen Test erhält man als 0.038/2 = 0.019. 44 / 282 R-Output bei Anwendung des t-Tests auf die Daten aus Beispiel 1.1 (Intelligenzquotient) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle One Sample t - test 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme data : IQ t = 2.4362 , df = 9 , p - value = 0.0376 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression alternative hypothesis : true mean is not equal to 100 90 percent confidence interval : 101.015 107.185 sample estimates : mean of x 104.1 45 / 282 Methodenlehre II, SoSe 2015 Beispiel: t-Test für den Vergleich von zwei verbundenen“ Stichproben ” Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle I I Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8 vorgestellten Verfahren besteht in dem Vergleich von verbundenen“ Stichproben (vorher - nachher Untersuchungen) ” Beispiel: Untersuchung der Einstellungen von 9 Jungen gegenüber neutralen Personen vor und nach einem Frustrationserlebnis (Sündenbockfunktion). Einstellung VPn vorher nachher ∆ 1 38 33 -5 2 32 28 -4 3 33 34 1 4 28 26 -2 5 29 27 -2 6 37 31 -6 7 35 32 -3 8 35 36 1 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 9 34 30 -4 46 / 282 Prinzip: Differenzenbildung“ ” I Prinzip: I I I I Falls kein Unterschied zwischen den Einstellungen vor und nach dem Frustrationserlebnis besteht sollten die Differenzen (nachher - vorher) klein“ sein. ” Durch Differenzenbildung (nachher - vorher) erhält man die Daten“ ∆1 , . . . , ∆9 ” Rechtfertigung der Voraussetzungen für den t-Test aus 1.8 für diese Daten“. ” Wende den t-Test für eine Stichprobe auf die Daten“ ” ∆1 , . . . , ∆9 an und teste die Hypothesen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression H0 : µ = 0, H1 : µ 6= 0 I Wegen −2.667 = 3.27 > 2.31 = t8,0.975 |T | = 0.816 besteht zum Niveau α = 0.05 ein signifikanter Unterschied. 47 / 282 SPSS-Output: t-Test für gepaarte Stichproben Methodenlehre II, SoSe 2015 Holger Dette Statistik bei gepaarten Stichproben Mittelwert Paaren 1 N Standardabweichung Standardfehler des Mittelwertes vorher 33,44 9 3,358 1,119 nachher 30,78 9 3,346 1,115 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Korrelationen bei gepaarten Stichproben N Paaren 1 vorher & nachher 9 Korrelation Signifikanz ,733 ,025 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Test bei gepaarten Stichproben Gepaarte Differenzen 95% Konfidenzintervall der Differenz Paaren 1 Mittelwert Standardabweichung Standardfehler des Mittelwertes Untere Obere 2,667 2,449 ,816 ,784 4,550 vorher - nachher Test bei gepaarten Stichproben T Paaren 1 vorher - nachher 3,266 df 8 Sig. (2-seitig) ,011 48 / 282 R-Output: t-Test für gepaarte Stichproben Methodenlehre II, SoSe 2015 Holger Dette Mittelwert St a nd ar d a b w e i c h u n g SA des Mittelwerts vorher 33.44444 3.35824 1.119413 nachher 30.77778 3.34581 1.115270 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe One Sample t - test data : Differenzen 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression t = 3.266 , df = 8 , p - value = 0.01142 alternative hypothesis : true mean is not equal to 0 95 percent confidence interval : 0.7838222 4.5495112 sample estimates : mean of x 2.666667 49 / 282 1.9 Bemerkungen (zu den statistischen Verfahren 1.2, 1.4, 1.6, 1.7, 1.8) I I Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Mathematische Statistik ⇒ unter der Normalverteilungsannahme sind alle hier vorgestellten Verfahren optimal 1.1 Schätzer und Konfidenzintervalle Die Normalverteilungsannahme kann (und sollte) man rechtfertigen. Mögliche Verfahren sind: 1.3 Zweistichprobenprobleme I statistische Tests für die Hypothese H0 : Y1 , . . . , Yn 1.2 t-Test für eine Stichprobe 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression normalverteilt In SPSS üblich sind - Kolmogorov-Smirnov-Test - Shapiro-Wilk Test I I Explorative Verfahren. In SPSS üblich: QQ-Plot Besteht die Normalverteilungsannahme diese Überprüfung nicht, so sind z. B. nichtparametrische Verfahren anzuwenden. 50 / 282 Methodenlehre II, SoSe 2015 SPSS Output: QQ-Plot für die Daten aus Beispiel 1.1 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Q-Q-Diagramm von Normal von Intelligenzquotient 1.2 t-Test für eine Stichprobe 115 1.3 Zweistichprobenprobleme Erwarteter Wert von Normal 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 110 105 100 95 95 100 105 Beobachteter Wert 110 115 51 / 282 R Output: QQ-Plot für die Daten aus Beispiel 1.1 Methodenlehre II, SoSe 2015 Holger Dette ● 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 110 1.2 t-Test für eine Stichprobe ● 1.4 Einfaktorielle Varianzanalyse ● 2. Korrelation, Lineare Regression und multiple Regression 105 ● ● ● ● 100 ● ● 95 Erwarteter Wert 1.3 Zweistichprobenprobleme ● 100 105 110 Beobachteter Wert 52 / 282 Methodenlehre II, SoSe 2015 Der QQ-Plot Holger Dette I I Unter der Modellannahme gilt: die Größen Yi sind normalverteilt mit Erwartungswert µ und Varianz σ 2 Der QQ-Plot vergleicht grafisch die empirischen Quantile der Daten“ y1 , . . . , yn mit den Quantilen der Normalverteilung mit ” Erwartungswert µ̂ und Varianz σ̂ 2 . (1) 1/n-Quantil der Stichprobe y1 , . . . yn =⇒ kleinste der Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97) (1 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂ und Varianz σ̂ 2 =⇒ (im Beispiel 1.1 ist z(1) = 104.1 − 1.64 · 5.32 = 95.37)1 (2) 2/n-Quantil der Stichprobe y1 , . . . , yn =⇒ zweitkleinste der Beobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98) (2 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂ und Varianz σ̂ 2 =⇒ (in Beispiel 1.1 ist z(2) = 104.1 − 1.04 · 5.32 = 98.57) (3) usw. I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Der QQ-Plot ist das Streudiagramm der Daten (y(1) , z(1) ), . . . , (y(n) , z(n) ) I In in vielen Fällen enthält dieses Diagramm noch die Winkelhalbierende des entsprechenden Quadranten. 1 http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf 53 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.3 Zweistichprobenprobleme 2. Korrelation, Lineare Regression und multiple Regression 54 / 282 1.10 Beispiel: Erkennen von Zahlenreihen Methodenlehre II, SoSe 2015 Holger Dette I I Studierende der Fachrichtungen Mathematik (M) und Psychologie (P) machen einen Zahlengedächtnistest I Wie viele Ziffern können sich maximal gemerkt werden I Wiedergabe in Original und umgekehrter Reihenfolge I 14 13 14 14 14 17 15 13 15 12 12 13 13 16 16 19 16 13 17 10 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Daten (P. Zöfel: Statistik für Psychologen) M P M P 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 13 16 Frage: Haben Studierende der Mathematik ein besseres Zahlengedächtnis als Studierende der Psychologie? 55 / 282 Mathematisches Modell (n1 = 14, n2 = 8) I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2 Yij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie i = 2) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme µi : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2) εij : Messfehler, Tagesform ... 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression ni : Stichprobenumfang in Gruppe i I Normalverteilungs- und Unabhängigkeitsannahme I in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit Erwartungswert µi und Varianz σi2 vor I in jeder Gruppe sind die Beobachtungen unabhängig I unabhängige Stichproben 56 / 282 Methodenlehre II, SoSe 2015 Schätzer Holger Dette I Schätzer werden wie in 1.2 für jede Gruppe Pn1 durchgeführt Mathematiker (i = 1): µ̂1 = y 1· = n11 j=1 y1j = 14.64 s n1 X 1 σ̂12 = 0.53 σ̂12 = (y1j − y 1· )2 = 3.94 ⇒ σ̂µ1 = n1 − 1 j=1 n1 Psychologen (i = 2): µ̂2 = y 2· = σ̂22 = I 1 n2 − 1 n2 X j=1 1 n2 n2 P j=1 (y2j − y 2· )2 = 4.79 ⇒ σ̂µ2 = 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse y2j = 13.75 s 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests σ̂22 = 0.77 n2 2. Korrelation, Lineare Regression und multiple Regression Auch Konfidenzbereiche werden gruppenweise bestimmt z. B. ist unter Normalverteilungsannahme µ̂1 − tn1 −1,1− α2 σ̂µ1 , µ̂1 + tn1 −1,1− α2 σ̂µ1 ein 90% Konfidenzintervall für µ1 . Für das spezielle Datenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (aus Tabelle)] (13.70, 15.58) als 90% Konfidenzintervall für µ1 57 / 282 SPSS-Output für die Daten aus Beispiel 1.10 Methodenlehre II, SoSe 2015 Holger Dette Schätzer für die Parameter in den einzelnen Gruppen 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Gemerkte Zahlen 1.2 t-Test für eine Stichprobe Studienfach Mathematik Mittelwert Varianz 14,64 3,940 Psychologie 13,75 4,786 Insgesamt 14,32 4,227 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Beachte: I SPSS liefert hier die Schätzer für Erwartungswert und Varianz der einzelnen Gruppen I SPSS liefert außerdem Schätzer für Erwartungswert und Varianz der gesamten Stichprobe 58 / 282 R-Output für die Daten aus Beispiel 1.10 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Schätzer für die Parameter in den einzelnen Gruppen Mittelwert Varianz Mathematik 14.64286 3.939560 Psychologie 13.75000 4.785714 Insgesamt 14.31818 4.227273 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 59 / 282 Tests zum Vergleich der Erwartungswerte Methodenlehre II, SoSe 2015 Holger Dette I Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist nicht schlechter als das der Mathematikstudenten 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle H0 : µ1 ≤ µ2 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse I Alternative: Zahlengedächtnis der Mathematikstudenten ist besser als das der Psychologiestudenten 2. Korrelation, Lineare Regression und multiple Regression H1 : µ1 > µ2 I Rezept: Verwerfe die Nullhypothese H0 zu Gunsten der Alternative H1 , falls die Differenz y 1· − y 2· der Schätzer für die Erwartungswerte groß“ ist. ” 60 / 282 Rezept im Fall von Varianzhomogenität, d. h. (σ12 = σ22 ) I I Verwerfe H0 zu Gunsten von H1 , falls y 1· − y 2· groß“ ist. ” Normiere diese Größe mit einem Schätzer für die Standardfehler der Mittelwertdifferenz: q I I I 1 )σ̂ 2 n2 1 {(n1 − 1)σ̂12 n1 +n2 −2 σ̂µ1 −µ2 = 2 ( n11 + I Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1)σ̂22 }: + (n2 − σ̂ = (die in beiden Gruppen dieselbe ist) Schätzer für Varianz Entscheide für die Alternative H1 : µ1 > µ2 , falls Tn1 ,n2 = Methodenlehre II, SoSe 2015 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression y 1· − y 2· > tn1 +n2 −2,1−α σ̂µ1 −µ2 gilt. Dabei ist tn1 +n2 −2,1−α das (1 − α)-Quantil der t-Verteilung mit n1 + n2 − 2 Freiheitsgraden Im Beispiel ergibt sich für einen Test zum Niveau α = 5% σ̂ 2 = 4.24, t20,0.95 = 1.725 =⇒ T14,8 = 0.979 d. h. die Hypothese H0 kann nicht verworfen werden. 61 / 282 Testverfahren für die Erwartungswerte von zwei Stichproben unter Normalverteilungsannahme 1.11(a) Einseitiger t-Test für zwei unabhängige Stichproben (rechtsseitige Hypothese) I I Daten y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 ) y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 ) Rechtfertigung der Voraussetzungen I I I I Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ12 = σ22 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten der Alternative H1 : µ1 > µ2 verworfen, falls y 1· − y 2· > tn1 +n2 −2,1−α σ̂µ1 −µ2 q gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. Tn1 ,n2 = 62 / 282 Methodenlehre II, SoSe 2015 1.11(b) Einseitiger t-Test für zwei unabhängige Stichproben (linksseitige Hypothese) I I Daten y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 ) y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 ) Rechtfertigung der Voraussetzungen I I I I Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ12 = σ22 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten der Alternative H1 : µ1 < µ2 verworfen, falls y 1· − y 2· < −tn1 +n2 −2,1−α = tn1 +n2 −2,α σ̂µ1 −µ2 q gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. Tn1 ,n2 = 63 / 282 1.11(c) t-Test für zwei unabhängige Stichproben (zweiseitige Hypothesen) I I Daten y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 ) y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 ) Rechtfertigung der Voraussetzungen I I I I Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) Varianzhomogenität, d. h. σ12 = σ22 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative H1 : µ1 6= µ2 verworfen, falls |y 1· − y 2· | > tn1 +n2 −2,1− α2 σ̂µ1 −µ2 q gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist der Schätzer für den Standardfehler der Mittelwertdifferenz. |Tn1 ,n2 | = 64 / 282 Bemerkung zur Varianzhomogenität Methodenlehre II, SoSe 2015 Holger Dette Ist die Annahme der Varianzhomogenität σ12 = σ22 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe nicht erfüllt, so 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse I wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht eingehalten (der Test hält sein Niveau nicht) I ist die Wahrscheinlichkeit für einen β-Fehler größer I von Interesse ist daher auch ein Test für die Hypothesen H0 : σ12 = σ22 2. Korrelation, Lineare Regression und multiple Regression H1 : σ12 6= σ22 und ein Verfahren, das ohne die Annahme der Varianzhomogenität auskommt. 65 / 282 Rezept (für Test auf Varianzhomogenität) Methodenlehre II, SoSe 2015 Holger Dette I Die Nullhypothese H0 : σ12 = σ22 gilt genau dann, wenn F = I I σ12 =1 σ22 Schätze den Quotienten der beiden Varianzen, durch Pn1 1 2 σ̂12 j=1 (y1j − y 1· ) n1 −1 Fn1 −1,n2 −1 = 2 = 1 Pn2 2 σ̂2 j=1 (y2j − y 2· ) n2 −1 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Die Nullhypothese H0 wird zu Gunsten der Alternative H1 : σ12 6= σ22 verworfen, falls Fn1 −1,n2 −1 > c2 oder Fn1 −1,n2 −1 < c1 gilt I Die kritischen Werte c1 und c2 werden so festgelegt, dass die Wahrscheinlichkeit für einen Fehler erster Art maximal α ist! 66 / 282 1.12 F -Test für den Vergleich von zwei Stichprobenvarianzen I Teststatistik Fn1 −1,n2 −1 I σ̂ 2 = 12 σ̂2 Die Nullhypothese Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe H0 : σ12 = σ22 (die Varianzen sind gleich) wird zu Gunsten der Alternative H1 : σ12 6= σ22 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression verworfen, falls mindestens eine der Ungleichungen Fn1 −1,n2 −1 < Fn1 −1,n2 −1, α2 Fn1 −1,n2 −1 > Fn1 −1,n2 −1,1− α2 erfüllt ist I Fn1 −1,n2 −1,β bezeichnet das β-Quantil der F -Verteilung mit (n1 − 1, n2 − 1) Freiheitsgraden 67 / 282 Methodenlehre II, SoSe 2015 Verschiedene F -Verteilungen Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.0 Dichten der F– Verteilung mit verschiedenen Freiheitsgraden 1.1 Schätzer und Konfidenzintervalle F2, 10 F4, 4 F10, 1 F20, 20 0.8 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 0.6 1.4 Einfaktorielle Varianzanalyse 0.0 0.2 0.4 2. Korrelation, Lineare Regression und multiple Regression 0 1 2 3 4 5 m fm,n (x ) = m m2 Γ( m+n x 2 −1 2 ) m+n m n Γ( 2 )Γ( 2 ) 2 (1 + mn x ) 2 (x ≥ 0) 68 / 282 Das Quantil der F -Verteilung mit (n1 , n2 ) Freiheitsgraden Dichte der F4, 4 -Verteilung Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 0.6 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 0.5 1.4 Einfaktorielle Varianzanalyse 0.4 2. Korrelation, Lineare Regression und multiple Regression 0.0 0.1 0.2 0.3 0.9 F 0 1 2 3 Z 4, 4; 0.9 4 = 4.107 5 F4,4,0.9 P(F4,4 , ≤ F4,4,0.9 ) = fm,n (x ) dx = 0.90 −∞ 69 / 282 Der F -Test auf Varianzhomogenität für die Daten aus Beispiel 1.10 (n1 = 14, n2 = 8) I σ̂12 = 3.94 σ̂22 = 4.79 I Für das Niveau α = 10% erhält man ⇒ F13,7 = 0.823 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme F13,7,0.05 = 0.3531 F13,7,0.95 = 3.5503 und damit kann die Nullhypothese zum Niveau 10% nicht verworfen werden I 2. Korrelation, Lineare Regression und multiple Regression Beachte: Oft wird der Test 1.12 verwendet, um die Voraussetzungen für den t-Test zu überprüfen I I I 1.4 Einfaktorielle Varianzanalyse In diesem Fall wählt man oft ein größeres Niveau (→ kleinere Wahrscheinlichkeit für β-Fehler) Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann t-Test) hat nicht das Niveau α. Was macht man, falls F -Test H0 verwirft? 70 / 282 Methodenlehre II, SoSe 2015 1.13(a) t-Test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) I I Daten y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 ) y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 ) Rechtfertigung der Voraussetzungen I I Unabhängigkeit in und zwischen den Gruppen Normalverteilungsannahme (in beiden Gruppen) I Varianzen in den Gruppen sind nicht notwendig gleich I Teststatistik TnW1 ,n2 = I Dabei ist √ τ̂ = 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression y 1· − y 2· τ̂ s τ̂ 2 = Holger Dette σ̂12 σ̂ 2 + 2 n1 n2 die Schätzung für den Standardfehler von y 1· − y 2· 71 / 282 Methodenlehre II, SoSe 2015 1.13(b) t-Test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) I Die Nullhypothese H0 : µ1 ≤ µ2 (Erwartungswert der ersten Population nicht größer als der der Zweiten) wird zu Gunsten der Alternative Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse H1 : µ1 > µ2 2. Korrelation, Lineare Regression und multiple Regression falls TnW1 ,n2 > tfˆ,1−α gilt, bzw. der p-Wert < α ist. Dabei bezeichnet fˆ = (σ̂µ2 1 + σ̂µ2 2 )2 4 σ̂µ 1 n1 −1 + 4 σ̂µ 2 n2 −1 die geschätzten Freiheitsgrade der t-Verteilung. 72 / 282 1.13(c) t-Test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) I Die Nullhypothese H0 : µ1 ≥ µ2 (Erwartungswert der ersten Population nicht kleiner als der der Zweiten) wird zu Gunsten der Alternative H1 : µ1 < µ2 verworfen, falls Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression TnW1 ,n2 < tfˆ,α = −tfˆ,1−α gilt, bzw. der p-Wert < α ist. Dabei bezeichnet fˆ = (σ̂µ2 1 + σ̂µ2 2 )2 4 σ̂µ 1 n1 −1 + 4 σ̂µ 2 n2 −1 die geschätzten Freiheitsgrade der t-Verteilung. 73 / 282 1.13(d) t-Test für zwei unabhängige Stichproben mit nicht notwendig gleichen Varianzen (Welch-Test) I Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Die Nullhypothese H0 : µ1 = µ2 1.1 Schätzer und Konfidenzintervalle (kein Unterschied der Erwartungswerte in beiden Gruppen) wird zu Gunsten der Alternative 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse H1 : µ1 6= µ2 (es besteht ein Unterschied) verworfen, falls 2. Korrelation, Lineare Regression und multiple Regression |TnW1 ,n2 | > tfˆ,1− α 2 gilt, bzw. der p-Wert < α ist. Dabei bezeichnet fˆ = (σ̂µ2 1 + σ̂µ2 2 )2 4 σ̂µ 1 n1 −1 + 4 σ̂µ 2 n2 −1 die geschätzten Freiheitsgrade der t-Verteilung. 74 / 282 Bemerkung: t-Test oder Welch-Test? Methodenlehre II, SoSe 2015 Holger Dette I Sind die Voraussetzungen für den t-Test erfüllt (Normalverteilung, Unabhängigkeit, Varianzhomogenität), so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter allen Tests zum Niveau α die Wahrscheinlichkeit für einen β-Fehler. I Ist die Voraussetzungen der Varianzhomogenität beim t-Test nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht eingehalten. I Der Welch-Test ist eine Näherungslösung“, d. h. die ” Wahrscheinlichkeit für einen α-Fehler ist nur“ ” näherungsweise α. I Der Welch-Test hat im Fall der Varianzhomogenität eine größere Wahrscheinlichkeit für einen β-Fehler als der t-Test. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 75 / 282 Methodenlehre II, SoSe 2015 SPSS-Output für die Daten aus Beispiel 1.10 Holger Dette Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit F Gemerkte Zahlen Varianzen sind gleich T-Test für die Mittelwertgleichheit Signifikanz ,103 ,752 Varianzen sind nicht gleich 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests T df 1.1 Schätzer und Konfidenzintervalle Sig. (2-seitig) ,979 20 ,339 ,952 13,523 ,358 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Test bei unabhängigen Stichproben 1.4 Einfaktorielle Varianzanalyse T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz Mittlere Differenz Gemerkte Zahlen Standardfehler der Differenz Untere Obere Varianzen sind gleich ,893 ,912 -1,010 2,796 Varianzen sind nicht gleich ,893 ,938 -1,125 2,911 2. Korrelation, Lineare Regression und multiple Regression Beachte: I SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenität sondern ein robustes“ Verfahren (Levene-Test) ” I SPSS liefert nur einen p-Wert für den zweiseitigen t-Test aus Beispiel 1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d) I SPSS liefert ein Konfidenzintervall für die Differenz µ1 − µ2 =⇒ 95% Konfidenzintervall für die Differenz der Erwartungswerte (unter der Annahme gleicher Varianzen) (−1.01, 2.796) 76 / 282 R-Output für die Daten aus Beispiel 1.10 Methodenlehre II, SoSe 2015 Holger Dette Levene ’ s Test for Homogeneity of Variance ( center = mean ) Df F value Pr ( > F ) group 1 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 0.103 0.7516 1.2 t-Test für eine Stichprobe 20 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Two Sample t - test data : values by ind t = 0.9789 , df = 20 , p - value = 0.3393 alternative hypothesis : true difference in means is not equal to 0 95 percent confidence interval : -1.009852 2.795566 sample estimates : mean in group M mean in group P 14.64286 13.75000 77 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 78 / 282 1.14 Beispiel: Fortsetzung von Beispiel 1.10 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I I An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch noch 7 Studierende der Geisteswissenschaften (G) teil. M 14 14 15 12 13 19 17 13 P 13 14 13 12 16 16 10 16 G 11 13 13 10 13 12 13 M 14 17 15 13 16 13 P G - 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Frage: Existieren Unterschiede hinsichtlich des Zahlengedächtnisses zwischen dem Studierenden der Psychologie, Mathematik und Geisteswissenschaften? 79 / 282 Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7) I Yij := µi + εij ; j = 1, . . . , ni ; i = 1, 2, 3 Yij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) µi : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2, Geisteswissenschaften: i = 3) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression εij : Störgrößen (Erwartungswert 0 und Varianz σ 2 ) I Normalverteilungs und Unabhängigkeitsannahme I I I I in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit Erwartungswert µi vor in jeder Gruppe sind die Beobachtungen unabhängig unabhängige Stichproben Nullhypothese H0 : µ1 = µ2 = µ3 80 / 282 Methodenlehre II, SoSe 2015 Schätzer und Konfidenzbereiche Holger Dette I Schätzer für Erwartungswert und Varianz werden in den einzelnen Gruppen durchgeführt I Beispiel: 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Mathematik (i = 1) Psychologie (i = 2) Geisteswissenschaften (i = 3) y i· 14.64 13.75 12.14 σ̂i2 3.94 4.79 1.48 σ̂µi 0.53 0.60 0.46 I µ̂1 = 14.64 ist Schätzer für den Erwartungswert der ” Mathematiker“ I Beachte: t6,0.95 = 1.943, µ̂3 + σ̂µ3 t6,0.95 = 13.03 µ̂3 − σ̂µ3 t6,0.95 = 11.25, also ist das Intervall ni 14 8 7 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression [11.25, 13.03] ein 90% Konfidenzintervall für den Erwartungswert der ” Geisteswissenschaftler“ 81 / 282 Methodenlehre II, SoSe 2015 SPSS-Output Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Gemerkte Zahlen 1.4 Einfaktorielle Varianzanalyse Studienfach Mathematik Mittelwert Varianz Standardfehler des Mittelwertes 14,64 3,940 ,530 14 Psychologie 13,75 4,786 ,773 8 Geisteswissenschaften 12,14 1,476 ,459 7 Insgesamt 13,79 4,384 ,389 29 N 2. Korrelation, Lineare Regression und multiple Regression 82 / 282 Methodenlehre II, SoSe 2015 R-Output Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe Mittelwert Varianz SF des Mittelwerts N Mathematik 14.64286 3.939560 0.5304688 14 Psychologie 13.75000 4.785714 0.7734431 8 Geisteswissenschaften 12.14286 1.476190 0.4592215 7 Insgesamt 13.79310 4.384236 0.3888195 29 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 83 / 282 Methodenlehre II, SoSe 2015 Prinzip der Varianzanalyse Holger Dette I Ziel: Test für die Hypothese es bestehen keine Unterschiede ” zwischen den Gruppen“ H0 : µ1 = µ2 = µ3 I Idee: Bestimme die Streuung der Daten: I 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Mittelwert aus allen Daten: ni 3 1 XX y ·· = yij n i=1 j=1 I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungen bezeichnet. Varianz (n = n1 + n2 + n3 ) ni 3 1 XX (yij − y ·· )2 n−1 i=1 j=1 und versuche Unterschiede in der Merkfähigkeit aufgrund der Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl. der Gruppen zu erklären! 84 / 282 Methodenlehre II, SoSe 2015 Prinzip der Varianzanalyse Holger Dette I Zerlegung der Summe der Quadrate I Häufig verwendete Abkürzungen: SS ≡ Sum of squares; SAQ ≡ Summe der Abweichungsquadrate I Summe der Quadrate innerhalb der Gruppen (within groups) SSR = ni 3 X X (yij − y i· )2 i=1 j=1 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression und y i· = ni 1 X yij ni j=1 I den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet. Summe der Quadrate zwischen den Gruppen (between groups) SSM = 3 X ni (y i· − y ·· )2 i=1 85 / 282 Methodenlehre II, SoSe 2015 Prinzip der Varianzanalyse Holger Dette I Zerlege die Summe der Quadrate in eine durch das Modell erklärte Summe (Varianz zwischen den Gruppen) und eine Summe von Quadraten der nicht erklärten Varianz (Varianz innerhalb der Gruppen) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse SST = ni 3 X X (yij − y ·· )2 2. Korrelation, Lineare Regression und multiple Regression i=1 j=1 | {z } Gesamtvarianz (Total) = ni 3 X X (yij − y i· )2 i=1 j=1 | + 3 X ni (y i· − y ·· )2 i=1 {z } Gesamtvarianz innerhalb der Gruppen | {z } Varianz zwischen den Gruppen 86 / 282 F -Test für die Hypothese H0 : µ1 = µ2 = µ3 (gleiche Erwartungswerte in den drei Gruppen) I Vergleiche die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen 3 1 2 i=1 ni (y i· − y ·· ) 3−1 P P n 3 i 1 2 i=1 j=1 (yij − y i· ) 29−3 P F = I Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Falls F groß“ ist, wird die Nullhypothese H0 abgelehnt. ” Mathematische Statistik ⇒ Test zum Niveau α verwirft die Nullhypothese H0 , falls F > F2,26,1−α gilt (Vergleich mit dem (1 − α)-Quantil der F -Verteilung mit (2, 26) Freiheitsgraden), bzw. falls der zugehörige p-Wert des Tests kleiner als α ist. 87 / 282 Beispiel 1.15 (Fortsetzung von Beispiel 1.14) Methodenlehre II, SoSe 2015 Holger Dette I I Frage: besteht ein Unterschied zwischen den Studierenden der ” Fächer Psychologie, Mathematik und Geisteswissenschaften bzgl. des Zahlengedächtnisses“ Genauer: Besteht ein Unterschied zwischen den Erwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3 n1 = 14, n2 = 8, n3 = 7; α = 5% F2,26,0.95 = 3.37 SSM /2 14.6 F̂ = = = 4.06 > 3.37 SSR /26 3.6 I D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5% abgelehnt. I In anderen Worten: zwischen den Studierenden der verschiedenen Fächer besteht ein Unterschied I Beachte: In vielen Fällen ist man an der Frage interessiert, zwischen welchen Gruppen ein Unterschied besteht. Diese Frage beantwortet der F -Test nicht! 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 88 / 282 Methodenlehre II, SoSe 2015 F -Verteilung Holger Dette Dichte der F2,26 − Verteilung 1.0 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 0.8 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 0.4 2. Korrelation, Lineare Regression und multiple Regression 0.0 0.2 Dichte 0.6 1.4 Einfaktorielle Varianzanalyse ^ F2,26,0.95 = 3.37 F = 4.06 0 1 2 3 4 5 x http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm 89 / 282 Methodenlehre II, SoSe 2015 F -Verteilung Dichte der F2,26 − Verteilung (Zoom) 0.15 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 0.10 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.4 Einfaktorielle Varianzanalyse 0.05 α = 5% 2. Korrelation, Lineare Regression und multiple Regression p−Wert 0.00 Dichte 1.3 Zweistichprobenprobleme F2,26,0.95 = 3.37 2.5 3.0 3.5 ^ F = 4.06 4.0 4.5 5.0 x I Blaue Fläche: Niveau des Tests I Rote Fläche: p-Wert (Wahrscheinlichkeit, dass ein Wert größer als F̂ = 4.06 beobachtet wird) 90 / 282 Varianzanalysetabelle (k bezeichnet die Anzahl der Gruppen) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Variabilität Sum of Squares df SSM SSR SST k −1 n−k n−1 zwischen innerhalb gesamt SS/df SSM /(k − 1) SSR /(n − k) SST /(n − 1) F SSM k−1 / 1.2 t-Test für eine Stichprobe SSR n−k 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Beispiel (Zahlengedächtnis) Variabilität zwischen innerhalb gesamt Sum of Squares 29.2 93.6 122.8 df 2 26 28 SS/df 14.6 3.6 F 4.06 91 / 282 Methodenlehre II, SoSe 2015 SPSS-Output Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Gemerkte Zahlen Quadratsumme Zwischen den Gruppen Innerhalb der Gruppen Gesamt Mittel der Quadrate df 29,187 2 14,594 93,571 26 3,599 122,759 28 1.4 Einfaktorielle Varianzanalyse F 4,055 Signifikanz ,029 2. Korrelation, Lineare Regression und multiple Regression 92 / 282 Methodenlehre II, SoSe 2015 R-Output Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Df Sum Sq Mean Sq F value Pr ( > F ) ind Residuals 2 29.19 14.594 26 93.57 3.599 1.4 Einfaktorielle Varianzanalyse 4.055 0.0293 * 2. Korrelation, Lineare Regression und multiple Regression --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 93 / 282 Beispiel 1.16 (Fortsetzung von Beispiel 1.15) Methodenlehre II, SoSe 2015 Holger Dette I Bei signifikantem Ergebnis der Varianzanalyse (d. h. die Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich die Frage: Welche Gruppe ist maßgeblich für die Signifikanz ” verantwortlich?“ 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme I I I I Lösungsvorschlag: paarweise Vergleiche! Gruppe 1 - Gruppe 2; H12 : µ1 = µ2 Gruppe 1 - Gruppe 3; H13 : µ1 = µ3 Gruppe 2 - Gruppe 3; H23 : µ2 = µ3 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl. 1.11(b)) durchgeführt. Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die Hypothese H0 : µ1 = µ2 = µ3 , falls mindestens ein Paarvergleich signifikant ist das Niveau α einhält. Die t-Tests für die paarweisen Vergleiche sind mit Niveau α/3 durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche durchgeführt werden (Bonferroni-Methode) 94 / 282 Paarweise Vergleiche (α = 5%): Methodenlehre II, SoSe 2015 Holger Dette I Zwei-Stichproben t-Test-Statistik für den Vergleich von Gruppe i mit Gruppe j: |Yi· − Yj· | σ̂ij 1 1 1 σ̂ij2 = + {(ni − 1)σ̂i2 + (nj − 1)σ̂j2 } ni nj ni + nj − 2 Ti,j = I I I i j Ti,j ni nj tni +nj −2,1−α0 /2 p-Wert signifikant 1 2 0.98 14 8 2.61 0.339 nein 1 3 3.04 14 7 2.62 0.007 ja 2 3 1.72 8 7 2.74 0.109 nein Beachte: Die paarweisen Vergleiche werden zum Niveau α0 = α/3 = 5%/3 = 0.0167 durchgeführt ( 3 Vergleiche). Mit dieser Methode kann man zum Niveau 5% einen signifikanten Unterschied zwischen den Gruppen feststellen. Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau des Verfahrens wird unterschätzt). Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren nicht zu empfehlen. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression 95 / 282 Post-Hoc-Test Bonferroni“ in SPSS ” I Verwendet andere Schätzung für den Standardfehler der Differenz der Mittelwerte aus Gruppe i und j: ! 3 1 1 1 X 2 2 σ̄ij = + (nk − 1)σ̂k ni nj n−3 k=1 I An Stelle der Quantile der t-Verteilung mit ni + nj − 2 Freiheitsgraden müssen dann die Quantile der t-Verteilung mit n − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3 ) I Das Niveau für die Paarvergleiche muss dann wieder durch die Anzahl der Vergleiche dividiert werden (im Beispiel α/3) I Adjustierung der p-Werte erfolgt durch Multiplikation der p-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche. Z. B. 0.894 = 3 · P(|T12 | > 0.893/0.841) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Dabei berechnet sich die Wahrscheinlichkeit mit einer t-Verteilung mit 26 = 29 − 3 Freiheitsgraden. 96 / 282 Methodenlehre II, SoSe 2015 SPSS-Output paarweise Vergleiche mit der Bonferroni-Methode Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Mehrfachvergleiche 1.4 Einfaktorielle Varianzanalyse Gemerkte Zahlen Bonferroni 95%-Konfidenzintervall (I) Studienfach Mathematik (J) Studienfach Psychologie Geisteswissenschaften Psychologie Mathematik Geisteswissenschaften Geisteswissenschaften Mathematik Psychologie Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze ,893 ,841 ,894 -1,26 3,04 ,878 ,026 ,25 4,75 ,841 ,894 -3,04 1,26 2,500 * -,893 1,607 -2,500 * -1,607 ,982 ,341 -,91 4,12 ,878 ,026 -4,75 -,25 ,982 ,341 -4,12 ,91 2. Korrelation, Lineare Regression und multiple Regression *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 97 / 282 R-Output paarweise Vergleiche mit der Bonferroni-Methode Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Pairwise comparisons using t tests with pooled SD 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse data : 1 MPG and group 2. Korrelation, Lineare Regression und multiple Regression 2 2 0.894 3 0.026 0.341 P value adjustment method : bonferroni 98 / 282 Scheffé-Methode (α = 5%) Methodenlehre II, SoSe 2015 Holger Dette I Für den Vergleich der Gruppe i mit j betrachte: s 3−1 1 1 ds (i, j) = SSR · F2,26,0.95 ( + ) 29 − 3 ni nj s s 2 1 1 1 1 = · 93.6 · 3.37( + ) = 4.93 + 26 ni nj ni nj 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression und vergleiche diese Größe mit Mittelwertdifferenz |y i· − y j· | I Ergebnis (Niveau 5%) i 1 1 2 j 2 3 3 |y i· − y j· | 0.89 2.5 1.61 ds (i, j) 2.18 2.28 2.55 Ergebnis kein sign. Unterschied y 1· sign. größer als y 3· kein sign. Unterschied 99 / 282 Einige Bemerkungen zur Scheffé-Methode: Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit eines α-Fehlers für jeden beliebigen a-posteriori durchgeführten Einzelvergleichstests nicht größer ist als der α-Fehler des F -Tests I Kurz: Die Signifikanzaussagen gelten simultan für ALLE Paarvergleiche mit dem Gesamtniveau α I Die Scheffé-Methode ist ein konservatives Verfahren I I 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als das vorgegebene Niveau Man entscheidet tendenziell eher zu oft für H0 100 / 282 Methodenlehre II, SoSe 2015 SPSS-Output paarweise Vergleiche mit der Scheffé-Methode Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme Mehrfachvergleiche 1.4 Einfaktorielle Varianzanalyse Gemerkte Zahlen Scheffé-Prozedur 95%-Konfidenzintervall (I) Studienfach Mathematik (J) Studienfach Psychologie Geisteswissenschaften Psychologie Geisteswissenschaften Mittlere Differenz (I-J) Standardfehler Signifikanz Untergrenze Obergrenze ,893 ,841 ,576 -1,29 3,08 ,878 ,029 ,22 4,78 Mathematik -,893 ,841 ,576 -3,08 1,29 Geisteswissenschaften 1,607 ,982 ,279 -,94 4,16 ,878 ,029 -4,78 -,22 ,982 ,279 -4,16 ,94 Mathematik Psychologie 2,500 * -2,500 * -1,607 2. Korrelation, Lineare Regression und multiple Regression *. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant. 101 / 282 R-Output paarweise Vergleiche mit der Scheffé-Methode Scheffe Test for values Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Mean Square Error : 3.598901 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse ind , means values 2. Korrelation, Lineare Regression und multiple Regression std G 12.14286 1.214986 r Min Max 7 10 13 M 14.64286 1.984833 14 12 19 P 13.75000 2.187628 10 16 8 alpha : 0.05 ; Df Error : 26 Critical Value of F : 3.369016 102 / 282 1.17 Einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben) Modellannahmen und Hypothese I Daten (n = Pk i=1 y11 , . . . , y1n1 .. . yk1 , . . . , yknk I ni ) (Gruppe 1, Erwartungswert µ1 ; Varianz σ12 ) .. .. . . (Gruppe k, Erwartungswert µk ; Varianz σk2 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Nullhypothese: es besteht kein Unterschied zwischen den Erwartungswerten der einzelnen Gruppen: H0 : µ1 = µ2 = . . . = µk I Rechtfertigung der Voraussetzungen I Unabhängigkeit zwischen den Gruppen I Unabhängigkeit innerhalb der Gruppen I Normalverteilungsannahme I Varianzhomogenität: σ12 = σ22 = . . . = σk2 103 / 282 F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben) I Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicher Erwartungswert in allen Gruppen wird verworfen, falls F = 1 k−1 SSM 1 n−k SSR Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle > Fk−1,n−k,1−α 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse Dabei ist: SSM = k X ni (y i· − y ·· )2 2. Korrelation, Lineare Regression und multiple Regression i=1 (sum of squares between groups) SSR = ni k X X (yij − y i· )2 i=1 j=1 (sum of squares within groups) und Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit (k − 1, n − k) Freiheitsgraden 104 / 282 1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15) I I Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt, so kann mit der Scheffé-Methode festgestellt werden welche Gruppen für die Signifikanz verantwortlich sind“! ” Pk dazu bestimmt man die Größen (n = i=1 ni ) s k −1 1 1 SSR · Fk−1,n−k,1−α ( + ) ds (i, j) = n−k ni nj Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Ist y i· − y j· größer (bzw. kleiner) als ds (i, j) (bzw. als −ds (i, j)) so ist y i· signifikant größer (bzw. kleiner) als y j· I Beachte: I I I I insgesamt k(k−1) Vergleiche 2 die Scheffé-Methode hält simultan das Niveau α es ist möglich, das F -Test H0 ablehnt, aber keiner der paarweisen Vergleiche signifikant ist! Andere Verfahren (z. B. in SPSS implementiert): Tukey-Methode, Duncan Test 105 / 282 1.19 Levene-Test auf Varianzhomogenität von k unabhängigen Stichproben Modellannahmen und Hypothese I Daten (n = Pk i=1 y11 , . . . , y1n1 .. . yk1 , . . . , yknk I ni ) (Gruppe 1, Erwartungswert µ1 ; Varianz σ12 ) .. .. . . (Gruppe k, Erwartungswert µk ; Varianz σk2 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.4 Einfaktorielle Varianzanalyse 2. Korrelation, Lineare Regression und multiple Regression Nullhypothese: es liegt Varianzhomogenität vor, d. h. H0 : σ12 = σ22 = . . . = σk2 I Rechtfertigung der Voraussetzungen I Unabhängigkeit zwischen den Gruppen I Unabhängigkeit innerhalb der Gruppen I Normalverteilungsannahme 106 / 282 Levene-Test auf Varianzhomogenität von k abhängigen Stichproben I un- Die Hypothese der Varianzhomogenität H0 : σ12 = σ22 = . . . = σk2 wird verworfen, falls Pk 1 F = Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 2 i=1 ni (x i· − x ·· ) k−1 Pk Pni 1 2 i=1 j=1 (xij − x i· ) n−k 1.4 Einfaktorielle Varianzanalyse > Fk−1,n−k,1−α 2. Korrelation, Lineare Regression und multiple Regression Dabei ist: I I I I I n = n1 +P . . . + nk der Gesamtstichprobenumfang Pk Pni ni x , x ·· = n1 i=1 j=1 xij x i· = n1i j=1 ij xij = |yij − y i· | Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit (k − 1, n − k) Freiheitsgraden. Beachte: I I I Der Test ist robust bzgl. der Normalverteilungsannahme. Der Test hält nur“ näherungsweise das Niveau α. ” Alternativer Test: Bartlett Test 107 / 282 Methodenlehre II, SoSe 2015 SPSS-Output Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle Test der Homogenität der Varianzen 1.2 t-Test für eine Stichprobe Gemerkte Zahlen LeveneStatistik 1.3 Zweistichprobenprobleme df1 1,214 df2 2 Signifikanz 26 1.4 Einfaktorielle Varianzanalyse ,313 2. Korrelation, Lineare Regression und multiple Regression ONEWAY ANOVA Gemerkte Zahlen Quadratsumme Mittel der Quadrate df Zwischen den Gruppen 29,187 2 14,594 Innerhalb der Gruppen 93,571 26 3,599 122,759 28 Gesamt F 4,055 Signifikanz ,029 108 / 282 Methodenlehre II, SoSe 2015 R-Output Holger Dette Levene ’ s Test for Homogeneity of Variance ( center = mean ) Df F value Pr ( > F ) group 2 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 1.1 Schätzer und Konfidenzintervalle 1.2 t-Test für eine Stichprobe 1.3 Zweistichprobenprobleme 1.2137 0.3134 1.4 Einfaktorielle Varianzanalyse 26 2. Korrelation, Lineare Regression und multiple Regression Df Sum Sq Mean Sq F value Pr ( > F ) ind Residuals 2 29.19 14.594 26 93.57 3.599 4.055 0.0293 * --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 109 / 282 Methodenlehre II, SoSe 2015 2. Korrelation, Lineare Regression und multiple Regression Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.2 Lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.3 Multiple Regression 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 110 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.1 Korrelation 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 111 / 282 2.1 Beispiel: Arbeitsmotivation Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern I 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. 2.1 Korrelation y : Motivation (Einschätzung durch Experten) x : Leistungsstreben (Fragebogen) 2.4 Multikollinearität und Suppressionseffekte Frage: Besteht ein Zusammenhang zwischen der Variablen Motivation“ und der Variablen Leistungsstreben“ ” ” Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 2.7 Partielle und Semipartielle Korrelation I I I 2. Korrelation, Lineare Regression und multiple Regression 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 112 / 282 Methodenlehre II, SoSe 2015 Daten Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation x y x y x y 20 32 8 19 13 11 30 14 34 25 19 24 15 12 26 23 25 19 39 27 32 17 30 19 5 20 26 22 18 22 6 13 12 19 21 24 12 17 36 27 11 17 0 8 27 26 35 22 26 20 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 113 / 282 Methodenlehre II, SoSe 2015 2.2 Der Korrelationskoeffizient von Pearson I Daten (x1 , y1 ), . . . , (xn , yn ) I Maß für die (lineare) Abhängigkeit zwischen x und y : Korrelationskoeffizient von Pearson Pn sx2,y (xi − x · )(yi − y · ) r = rX ,Y = = qP i=1 Pn n sx ,x sy ,y 2 2 i=1 (xi − x · ) i=1 (yi − y · ) Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte I Dabei ist: 2.5 Variablenselektion Pn 1 I x· = n I y· = 1 n P = 1 n−1 Pn sy2,y = 1 n−1 Pn I s2 x ,x I I i=1 n i=1 xi : Mittelwert der Daten xi yi : Mittelwert der Daten yi i=1 i=1 Pn 1 sx2,y = n−1 Daten xi , yi 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation i=1 (xi − x · )2 : Varianz der Daten xi (yi − y · )2 : Varianz der Daten yi (xi − x · )(yi − y · ) : Kovarianz zwischen den 114 / 282 2.3 Eigenschaften des Korrelationskoeffizienten Methodenlehre II, SoSe 2015 Holger Dette (1) −1 ≤ r ≤ 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang yi = b0 + b1 xi mit b1 > 0 besteht (ohne Störgrößen). (3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte yi = b0 + b1 xi mit b1 < 0 besteht (ohne Störgrößen). 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation (4) Der Korrelationskoeffizient ist invariant bzgl. linearer Transformationen, d. h. x̃i = a0 + a1 xi i = 1, . . . , n ⇒ rX̃ ,Ỹ = rX ,Y ỹi = c0 + c1 yi i = 1, . . . , n (5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x1 , y1 ), . . . , (xn , yn ) 115 / 282 2.4 Beispiel: Korrelationskoeffizient für die Daten aus Beispiel 2.1 I I Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Variablen x : Leistungsstreben y : Motivation 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Korrelationskoeffizient von Pearson r = 0.5592 I Methodenlehre II, SoSe 2015 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Fragen: I I Wie genau ist diese Schätzung? Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben und Motivation)? 116 / 282 Methodenlehre II, SoSe 2015 2.5 Signifikanztest für Korrelation I (x1 , y1 ), . . . , (xn , yn ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit I ρ bezeichne die Korrelation des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µx , µy , σx2 und σy2 . I Ein Test zum Niveau α für die Hypothese die Merkmale ” sind unkorreliert“ H0 : ρ = 0 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation lehnt die Nullhypothese zu Gunsten der Alternative H1 : ρ 6= 0 ab, falls √ n−2 √ 1 − r 2 r > tn−2,1− α2 gilt. 117 / 282 2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression I n = 25; r = 0.5592; t23,0.975 = 2.0687 2.1 Korrelation 2.2 Lineare Regression I √ n−2 √ 1 − r2 2.3 Multiple lineare Regression r = 3.2355 > 2.0687 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen den Merkmalen) wird zum Niveau 5% verworfen. I p-Wert: 0.0037 118 / 282 Methodenlehre II, SoSe 2015 SPSS Output für Korrelationskoeffizient Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Korrelationen 2.2 Lineare Regression Motivation Motivation Korrelation nach Pearson Leistungsstreben 1,000 Signifikanz (2-seitig) N Leistungsstreben Korrelation nach Pearson Signifikanz (2-seitig) N ,559 ** ,004 25 ,559 ** 25 1,000 ,004 25 25 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 119 / 282 R-Output für Korrelationskoeffizient Methodenlehre II, SoSe 2015 Holger Dette Motivation L e i s t u n g s s t r e b e n Motivation 1.00 0.56 L eistu n g s s t r eben 0.56 1.00 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte n = 25 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation P Motivation L e i s t u n g s s t r e b e n Motivation 0.0037 L eistu n g s s t r eben 0.0037 120 / 282 2.7 Konfidenzintervall für Korrelation Methodenlehre II, SoSe 2015 Holger Dette I ρ: Korrelation zwischen Merkmal x und Merkmal y einer Population I (x1 , y1 ), . . . , (xn , yn ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grundgesamtheit I Mathematische Statistik: r ist näherungsweise“ (d. h. bei ” großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ und Varianz (1 − ρ2 )2 γ = Var (r ) ≈ n 2 I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation (1 − α)-Konfidenzintervall für den Korrelationskoeffizienten r − γ̂z1− α2 , r + γ̂z1− α2 2 ) √ Hier bezeichnet γ̂ = (1−r einen Schätzer für die n Standardabweichung von r und z1− α2 das (1 − α2 ) Quantil der Standardnormalverteilung (Tabelle, Software) 121 / 282 2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation I n = 25; I z0.95 = 1.6449, I ⇒ 2.2 Lineare Regression r = 0.5592 2.3 Multiple lineare Regression γ̂ = 0.1328 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 90% Konfidenzintervall für den Korrelationskoeffizient [0.2739, 0.7541] 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 122 / 282 Methodenlehre II, SoSe 2015 2.8 Hinweise zur Interpretation von Korrelationen I I Annahme: Man hat eine signifikante Korrelation zwischen den Variablen x und y gefunden Folgende Interpretationen sind möglich (1) (2) (3) (4) x y x x beeinflusst y kausal beeinflusst x kausal und y werden von weiteren Variablen kausal beeinflusst und y beeinflussen sich wechselseitig kausal Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I Die Korrelation zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang I Der Korrelationskoeffizient gibt keine Information, welche der vier Interpretationen zutrifft (in vielen“ Fällen wird das ” der Typ (3) sein) I Korrelationen sollten ohne Zusatzinformation nicht interpretiert werden! 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 123 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Beispiel I I Annahme: Man hat eine signifikante Korrelation zwischen den Merkmalen Ehrlichkeit“ und Häufigkeit des ” ” Kirchgangs“ gefunden Folgende Interpretationen sind möglich I I I Die in der Kirche vermittelten Werte haben einen positiven Einfluss auf das Merkmal Ehrlichkeit“. ” Ehrliche“ Menschen fühlen sich durch die in der Kirche ” vermittelten Inhalte eher angesprochen und gehen aus diesem Grund häufiger zur Kirche. Die allgemeine familiäre und außerfamiliäre Sozialisation beeinflusst beide Merkmale. 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 124 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.2 Lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 125 / 282 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern I 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. I y : Motivation (Einschätzung durch Experten) x : Leistungsstreben (Fragebogen) I 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Kann man y aus x vorhersagen“? ” 126 / 282 Streudiagramm für die Daten aus Beispiel 2.9 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 35 2. Korrelation, Lineare Regression und multiple Regression 30 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Motivation 25 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 20 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 15 10 5 0 10 20 30 40 Leistungsstreben 127 / 282 2.9 Beispiel: Fortsetzung von Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette I I I I Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen. y : Motivation (Einschätzung durch Experten) x : Leistungsstreben (Fragebogen) Frage: Besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation“ und der Prädiktorvariablen ” Leistungsstreben“ (Kann man y aus x vorhersagen“?) ” ” Genauer: Gesucht ist Funktion f , die aus der Prädiktorvariablen Leistungsstreben (x ) eine Vorhersage für die abhängige Variable (y ) Motivation liefert: 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Motivation = f(Leistungsbereitschaft) I Beachte: Es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 128 / 282 Methodenlehre II, SoSe 2015 Regression Holger Dette I I I Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x ) zwischen der abhängigen Variablen y und der Prädiktorvariablen x . Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: I I I I Lineare Regression (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b0 + b1 x Quadratische Regression (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b0 + b1 x + b2 x 2 usw. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b0 + b1 x + ε Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare Regression. 129 / 282 Methodenlehre II, SoSe 2015 Holger Dette 2.10 Das Modell der linearen Regression I Daten (x1 , y1 ), . . . , (xn , yn ) I yi ist Realisation einer Zufallsvariablen Yi (unter der Bedingung xi ). Für den Zusammenhang zwischen den Variablen Yi und xi gilt: Yi = b0 + b1 xi + εi i = 1, . . . , n I εi bezeichnet hier eine zufällige Störung“ und es wird ” angenommen, dass die Störungen unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ2 > 0 I Deutung: Es wird ein linearer Zusammenhang zwischen x und y postuliert, der noch zufälligen Störungen unterliegt. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 130 / 282 Idee der Schätzung bei (linearer) Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) I Annahme: Es existiert ein linearer Zusammenhang 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Y = b0 + b1 x + ε I I Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y und x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y -Koordinaten der Datenpunkte und den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 131 / 282 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 35 35 2.2 Lineare Regression 30 ● ● 25 ● ● ● ● ● ● ● y ● ● ● ● ● ● ● ● ● ● 2.6 Nichtlineare Zusammenhänge ● ● ● ● 15 ● ● ● ● ● ● 2.5 Variablenselektion ● 2.7 Partielle und Semipartielle Korrelation ● 15 20 ● 2.4 Multikollinearität und Suppressionseffekte ● ● 20 25 ● ● y=0.5x+10 ● ● ● ● ● ● ● ● ● 10 10 ● y=0.2x+5 ● 5 ● 5 y 2.3 Multiple lineare Regression ● 30 ● 0 10 20 x 30 40 0 10 20 30 40 x 132 / 282 Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 35 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 30 ● 2.5 Variablenselektion ● 25 ● ● 20 2.7 Partielle und Semipartielle Korrelation ● ● ● ● ● ● ● ● ● ● ● y=0.292x+13.816 15 ● ● ● ● ● ● 10 ● ● 5 y 2.6 Nichtlineare Zusammenhänge ● ● 0 10 20 x 30 40 133 / 282 2.11 Die Methode der kleinsten Quadrate I Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade und Daten minimal wird I I I Datum an der Stelle xi : yi Wert der Geraden an der Stelle xi : b0 + b1 xi Differenz: yi − (b0 + b1 xi ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I 2.3 Multiple lineare Regression Minimiere h(b0 , b1 ) = Pn i=1 yi − (b0 + b1 xi ) 2 bzgl. der Wahl der Parameter b0 und b1 . I Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt und Steigung der Geraden: Pn (x − x · )(yi − y · ) Pn i b̂1 = i=1 , b̂0 = y · − b̂1 x · 2 i=1 (xi − x · ) I x· = I y· = 1 n 1 n 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Pn xi : Mittelwert der Prädiktorvariablen Pi=1 n i=1 yi : Mittelwert der abhängigen Variablen 134 / 282 Beispiel Arbeitsmotivation: Streudiagramm und Regressionsgerade für die Daten aus Beispiel 2.1 35 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 30 Motivation 25 2.1 Korrelation 2.2 Lineare Regression 20 2.3 Multiple lineare Regression 15 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 10 R-Quadrat linear = 0,313 2.6 Nichtlineare Zusammenhänge 5 0 10 20 30 40 Leistungsstreben I I 2.7 Partielle und Semipartielle Korrelation Schätzer: b̂0 = 13.82, b̂1 = 0.29 Fragen: I I I Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die Motivation H0 : b 1 = 0 Wie gut beschreibt das lineare Regressionsmodell die Situation? 135 / 282 Die Genauigkeit der Schätzer für die Parameter Methodenlehre II, SoSe 2015 Holger Dette I Beachte: Vor der Datenerhebung sind b̂0 und b̂1 zufällig. I Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von b̂0 und b̂1 Schätzer für die Varianz von b̂0 : Schätzer für die Varianz von b̂1 : ŝb20 ŝb21 = = Sy2|x n Sy2|x n Pn x2 Pn i=1 i 2 i=1 (xi − x · ) 1 Pn 1 2 (x i=1 i − x · ) n 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge Dabei bezeichnet 2.7 Partielle und Semipartielle Korrelation n Sy2|x = 1 X (yi − (b̂0 + b̂1 xi ))2 . n − 2 i=1 die Residualvarianz (Schätzer für die Varianz der Störgrößen) I Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 136 / 282 Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation I Methodenlehre II, SoSe 2015 Holger Dette Schätzer für die Parameter b̂0 = 13.82 b̂1 = 0.292 Sy2|x = 22.737 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte I Schätzer für die Varianz von b̂0 und b̂1 ŝb20 = 4.5158 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ŝb21 = 0.0081 I Standardfehler von b̂0 und b̂1 ŝb0 = ŝb1 = √ √ 4.5158 = 2.125 0.0081 = 0.09 137 / 282 SPSS Output: Schätzer und Standardabweichungen bei linearer Regression in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte a Koeffizienten 2.5 Variablenselektion Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Leistungsstreben Standardfehler 13,816 2,125 ,292 ,090 Standardisierte Koeffizienten Beta 2.6 Nichtlineare Zusammenhänge T ,559 Signifikanz 6,501 ,000 3,235 ,004 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Motivation 138 / 282 R-Output: Schätzer und Standardabweichungen bei linearer Regression in Beispiel 2.1 Call : lm ( formula = y ˜ x ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Residuals : 2.3 Multiple lineare Regression Min 1Q Median -8.5766 -2.5679 0.5915 3Q Max 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.8481 12.3437 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 13.81572 2.12504 6.501 1.24 e -06 *** x 0.09026 3.235 0.29203 0.00365 ** --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 139 / 282 2.12 Konfidenzintervalle bei linearer Regression Methodenlehre II, SoSe 2015 Holger Dette I Modellannahme: lineare Regression Yi = b0 + b1 xi + εi I I (i = 1, . . . , n) Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε1 , . . . , εn Bestimmung der Schätzer b̂0 und b̂1 . Damit ist dann ŝb20 und ŝb21 für die Varianzen von 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion =⇒ (b̂0 − tn−2,1− α2 ŝb0 , b̂0 + tn−2,1− α2 ŝb0 ) 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ein (1 − α)-Konfidenzintervall für b0 und =⇒ (b̂1 − tn−2,1− α2 ŝb1 , b̂1 + tn−2,1− α2 ŝb1 ) ein (1 − α)-Konfidenzintervall für b1 . I Hier ist tn−2,1− α2 das (1 − α2 )-Quantil der t-Verteilung mit n − 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 140 / 282 2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression I n = 25, t23,0.975 = 2.0687 I Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I b0 :[9.420, 18.212] 2.6 Nichtlineare Zusammenhänge b1 :[0.105, 0.479] 2.7 Partielle und Semipartielle Korrelation Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen x auf die abhängige Variable Y ? Mathematische Formulierung: H0 : b1 = 0 141 / 282 Methodenlehre II, SoSe 2015 SPSS Output: Konfidenzintervalle bei linearer Regression in Beispiel 2.1 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression a Koeffizienten Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Standardfehler 13,816 2,125 ,292 ,090 2.4 Multikollinearität und Suppressionseffekte Standardisierte Koeffizienten Beta 95%-Konfidenzintervall für B T ,559 Signifikanz Untergrenze Obergrenze 6,501 ,000 9,420 18,212 3,235 ,004 ,105 ,479 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 142 / 282 R-Output: Konfidenzintervalle bei linearer Regression in Beispiel 2.1 Call : lm ( formula = y ˜ x ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Residuals : 2.3 Multiple lineare Regression Min 1Q Median -8.5766 -2.5679 0.5915 3Q Max 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.8481 12.3437 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 13.81572 2.12504 6.501 1.24 e -06 *** x 0.09026 3.235 0.29203 0.00365 ** --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 143 / 282 2.14 F -Test für die Hypothese H0 : b1 = 0 I Modellannahme: lineare Regression Yi = b0 + b1 xi + εi (i = 1, . . . , n) I I Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme für ε1 , . . . , εn Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Hypothesen H0 : b1 = 0, H1 : b1 6== 0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I Die Nullhypothese H0 : b1 = 0 wird zu Gunsten der Alternative H1 : b1 6= 0 verworfen, falls Pn 2 1 2 Sreg i=1 (y · − (b̂0 + b̂1 xi )) 1 Fn = 2 = 1 P > F1;n−2,1−α n 2 Sy |x i=1 (yi − (b̂0 + b̂1 xi )) n−2 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation gilt I F1;n−2,1−α bezeichnet das (1 − α)-Quantil der F -Verteilung mit (1, n − 2) Freiheitsgraden 144 / 282 Motivation des F -Tests: Zerlegung der Varianz Methodenlehre II, SoSe 2015 Holger Dette n X n n X X (yi − (b̂0 + b̂xi ))2 + (y · − (b̂0 + b̂1 xi ))2 (yi − y · ) = 2 i=1 i=1 | {z Gesamtvarianz } | i=1 {z Residualvarianz } | {z Varianz der Regression } 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I 2.3 Multiple lineare Regression Bezeichnungen: 2.4 Multikollinearität und Suppressionseffekte n 2 Sreg 1X = (y − (b̂0 + b̂1 xi ))2 1 i=1 · 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und n Sy2|x = 1 X (yi − (b̂0 + b̂1 xi ))2 . n − 2 i=1 ist die Residualvarianz (diese hat n − 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen εi - durch das lineare Regressionsmodell nicht erklärbare Varianz I 145 / 282 Motivation des F -Tests: Zerlegung der Varianz Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests n X n n X X 2 (yi − (b̂0 + b̂xi )) + (y · − (b̂0 + b̂1 xi ))2 (yi − y · ) = 2 i=1 i=1 | {z Gesamtvarianz } | i=1 {z Residualvarianz } | 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation {z Varianz der Regression } 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2 = (n − 2) · Sy2|x + ·Sreg Beachte: I Bei dem F -Test für die Hypothese H0 : b1 = 0 bildet man den Quotienten aus der Varianz der Regression und der Residualvarianz I Man untersucht also das Verhältnis zwischen erklärbarer und nicht erklärbarer Varianz. 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 146 / 282 2.15 Varianzanalyse (ANOVA; analysis of variance) Methodenlehre II, SoSe 2015 Holger Dette Art der Abweichung Freiheitsgrade (df ) Quadratsumme 1 Pn F -Quotient schätzer 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Regression i=1 (y · 2 − ybi ) Fn = 2 Sreg /Sy2|x 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion n−2 Fehler n−1 Total Pn bi )2 i=1 (yi − y Pn i=1 (yi − y · )2 — 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation — Bezeichnung: ŷi = b̂0 + b̂1 xi Vorhersage an der Stelle xi 147 / 282 SPSS Output: F -Test bei linearer Regression in Beispiel 2.1 b Quadratsumme Mittel der Quadrate df Regression 238,015 1 238,015 Residuen 522,945 23 22,737 Gesamt 760,960 24 F 10,468 Signifikanz ,004 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression ANOVA Modell 1 Methodenlehre II, SoSe 2015 a a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beachte: I F25 = 10.468, I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0 zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5% verworfen (p-Wert: 0.004) F1,23,0.95 = 4.2793 148 / 282 R-Output: F -Test bei linearer Regression in Beispiel 2.1 Analysis of Variance Table Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Response : y 2.1 Korrelation 2.2 Lineare Regression Df Sum Sq Mean Sq F value x 1 238.01 238.015 Residuals 23 522.95 Pr ( > F ) 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 10.468 0.003655 ** 2.5 Variablenselektion 22.737 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Beachte: I F25 = 10.468, F1,23,0.95 = 4.2793 I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0 zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5% verworfen (p-Wert: 0.004) 149 / 282 Modellgüte: wie geeignet“ ist das Modell für die ” Beschreibung der Daten I Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der Regressionsgerade): Sy2|x = n 2 1 X yi − (b̂0 + b̂1 xi ) n − 2 i=1 I Beachte: S 2 ist ein Schätzer für die Varianz der y |x I Je kleiner S 2 , desto besser“ ist das (lineare) y |x ” Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte Messfehler 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Regressionsmodell I Streuung der Daten ohne die Information“, dass ein lineares ” Modell vorliegt: n X (yi − y· )2 i=1 I Man untersucht welchen Anteil der Streuung man durch das lineare Modell erklären kann. Pn i=1 (yi − y· ) 2 150 / 282 Varianzzerlegung: ein extremes Beispiel Methodenlehre II, SoSe 2015 40 40 30 30 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation y Abhängige Variable Holger Dette 20 2.2 Lineare Regression 20 2.3 Multiple lineare Regression 10 2.4 Multikollinearität und Suppressionseffekte 10 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 0 5 10 15 20 0 5 Unabhängige Variable 10 15 20 x 2.7 Partielle und Semipartielle Korrelation Beachte: I Die Grafik zeigt eine extreme Situation. I Die Streuung der Daten lineare Regressionsmodell Pn ist durch das P n zu 100% erklärbar! i=1 (yi − y · )2 = i=1 (y · − (b̂0 + b̂1 xi ))2 I Residualvarianz (durch das lineare Regressionsmodell nicht erklärbare Varianz) = 0 151 / 282 2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 25 X (yi − y · )2 = 760.96 2.2 Lineare Regression 2.3 Multiple lineare Regression i=1 25 X (y · − (b̂0 + b̂1 xi ))2 = 238.04 R = 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation i=1 2 2.4 Multikollinearität und Suppressionseffekte P25 i=1 (y · − (b̂0 + b̂1 xi )) P25 2 i=1 (yi − y · ) 2 = 0.313 d. h. 31.3% der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 152 / 282 Methodenlehre II, SoSe 2015 Holger Dette 2.17 Modellgüte: das Bestimmtheitsmaß I Die Größe Pn Pn (y · − (b̂0 + b̂1 xi ))2 (yi − (b̂0 + b̂1 xi ))2 i=1P = R 2 = 1− i=1Pn n 2 2 i=1 (yi − y · ) i=1 (y · − yi ) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression ist ein Maß für die Güte der Regression und heißt Bestimmtheitsmaß. 2.4 Multikollinearität und Suppressionseffekte I Beachte: Man kann zeigen, dass R 2 genau das Quadrat der Korrelation ist. 2.7 Partielle und Semipartielle Korrelation I Je besser“ das Modell ist, desto kleiner ist die ” Residualvarianz, bzw. desto größer R 2 ! I Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und 1 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 153 / 282 Zusammenhang zwischen Bestimmtheitsmaß und F -Test I Ist Fn die Statistik für den F -Test aus 2.14 und R 2 das Bestimmtheitsmaß, dann gilt: 2 R = I I 1 1 n−2 Fn 1 + n−2 Fn R2 = 1 10.468 23 + 10.468 23 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte Im Beispiel des Zusammenhangs zwischen Motivation und Leistungsstreben ist =⇒ Holger Dette 2.1 Korrelation In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden (und umgekehrt) Fn = 10.468 Methodenlehre II, SoSe 2015 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation = 0.313 Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden. 154 / 282 Vorhersagen: es gibt zwei unterschiedliche Methodenlehre II, SoSe 2015 Holger Dette 2.18 Vorhersage für den Wert der Geraden an einer Stelle x I I Schätzung für den Wert der Geraden y (x ) = b0 + b1 x an der Stelle x : yb(x ) = b̂0 + b̂1 x (1 − α)-Konfidenzintervall für y (x ) (b y (x ) − tn−2;1− α2 · ŝy (x ) , yb(x ) + tn−2;1− α2 · ŝy (x ) ) wobei ŝy2(x ) = Sy2|x 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation (x − x · )2 + Pn 2 n i=1 (xi − x · ) 1 b (x ) bezeichnet den Schätzer für die Varianz von Y 155 / 282 Vorhersagen: es gibt zwei unterschiedliche Methodenlehre II, SoSe 2015 Holger Dette 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x I I Schätzer für eine neue Beobachtung Ỹ (x ) = b0 + b1 x + ε an der Stelle x : yb(x ) = b̂0 + b̂1 x (1 − α)-Konfidenzintervall für y (x ) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion (b y (x ) − tn−2;1− α2 · s̃y (x ) , yb(x ) + tn−2;1− α2 · s̃y (x ) ) 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation wobei 1 (x − x · )2 s̃y2(x ) = Sy2|x 1 + + Pn 2 n i=1 (xi − x · ) den Schätzer für die Varianz von yb(x ) + ε bezeichnet. I Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 156 / 282 2.20 Beispiel: Fortsetzung von Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 I I t23,0.95 = 1.714, Sy2|x = 22.737, ŝy2(x ) = 1.116, ŷ (16) = b̂0 + 16b̂1 = 18.49 Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression [16.677, 20.299] 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 I I 2.7 Partielle und Semipartielle Korrelation t23,0.95 = 1.714, Sy2|x = 22.737, ŝỹ2(x ) = 23.85, ŷ (16) = b̂0 + 16b̂1 = 18.49 Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch [10.118, 26.859] 157 / 282 SPSS Output: Vorhersagen bei linearer Regression in Beispiel 2.1 (schwierig) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 158 / 282 SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer Regression in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 16.0 35 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 30 Motivation 2.4 Multikollinearität und Suppressionseffekte 25 2.5 Variablenselektion 20 2.7 Partielle und Semipartielle Korrelation 2.6 Nichtlineare Zusammenhänge 15 10 5 0 10 20 30 40 Leistungsstreben 159 / 282 2.21 Residuenanalyse Methodenlehre II, SoSe 2015 Holger Dette I Unter der Modellannahme des linearen Regressionsmodells gilt: die Größen εi = Yi − b0 − b1 xi sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 > 0. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I I Das bedeutet, dass diese Eigenschaften auch näherungsweise“ für die Residuen ” ε̂i = yi − b̂0 − b̂1 xi erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε1 , . . . , εn mit 4 Teilschritten (oft werden auch nicht alle gemacht): 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation A: Das Streudiagramm der Daten mit der Regressionslinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 160 / 282 Residuenanalyse bei erfüllten“ Voraussetzungen ” A 6 0.5 4 2 0 2.1 Korrelation −0.5 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte −1.5 −2 −1 0 1 2 0 2 4 Unabhängige Variable Vorhergesagter Wert C D 1.0 1.0 0.5 0.8 f(Residuum) Empirische Quantile 2. Korrelation, Lineare Regression und multiple Regression 0.0 −1.0 −2 0.0 −0.5 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests B 1.0 Residuum Abhängige Variable 8 Methodenlehre II, SoSe 2015 6 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 0.6 0.4 0.2 −1.0 0.0 −1.5 −2 −1 0 1 2 Theoretische Quantile der Standardnormalvert. −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Residuum 161 / 282 Methodenlehre II, SoSe 2015 Residuenanalyse bei Abweichungen“ von der ” Normalverteilung (Ausreißer) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests B 20 15 Residuum Abhängige Variable A 20 Holger Dette 10 0 2. Korrelation, Lineare Regression und multiple Regression 10 2.1 Korrelation 5 2.2 Lineare Regression 0 2.3 Multiple lineare Regression −5 2.4 Multikollinearität und Suppressionseffekte −10 −10 2.5 Variablenselektion −2 −1 0 1 2 0 Unabhängige Variable 4 6 8 2.6 Nichtlineare Zusammenhänge Vorhergesagter Wert C 20 2.7 Partielle und Semipartielle Korrelation D 0.15 15 10 f(Residuum) Empirische Quantile 2 5 0 0.10 0.05 −5 −10 0.00 −2 −1 0 1 2 Theoretische Quantile der Standardnormalvert. −15 −10 −5 0 5 10 15 20 Residuum 162 / 282 Methodenlehre II, SoSe 2015 Residuenanalyse bei Stratifizierung Holger Dette Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche Regressionsgleichungen gelten. A 15 B 10 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.2 Lineare Regression 5 Residuum Abhängige Variable 2.1 Korrelation 10 5 0 2.3 Multiple lineare Regression 0 −5 −5 −10 −10 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion −2 −1 0 1 2 2.6 Nichtlineare Zusammenhänge −2 0 Unabhängige Variable 4 6 2.7 Partielle und Semipartielle Korrelation Vorhergesagter Wert C 10 D 0.15 5 f(Residuum) Empirische Quantile 2 0 −5 −10 0.10 0.05 0.00 −2 −1 0 1 2 Theoretische Quantile der Standardnormalvert. −10 −5 0 5 10 Residuum 163 / 282 Residuenanalyse bei falscher Modellannahme Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests B 40 10 20 Residuum Abhängige Variable A 0 −20 −40 2. Korrelation, Lineare Regression und multiple Regression 0 −10 2.1 Korrelation 2.2 Lineare Regression −20 2.3 Multiple lineare Regression −60 −2 −1 0 1 2 −30 −20 −10 0 10 20 Unabhängige Variable Vorhergesagter Wert C D 30 40 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 0.04 f(Residuum) Empirische Quantile 0.05 10 0 −10 2.4 Multikollinearität und Suppressionseffekte 2.7 Partielle und Semipartielle Korrelation 0.03 0.02 0.01 −20 0.00 −2 −1 0 1 2 Theoretische Quantile der Standardnormalvert. −30 −20 −10 0 10 20 Residuum Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 164 / 282 Methodenlehre II, SoSe 2015 Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) 20 10 10 0 −10 −20 0 2.2 Lineare Regression 2.3 Multiple lineare Regression −40 −40 0 1 2.1 Korrelation −20 −30 −1 2. Korrelation, Lineare Regression und multiple Regression −10 −30 −2 2 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion −2 Unabhängige Variable 2 4 6 Vorhergesagter Wert 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation D 0.10 20 0.08 10 f(Residuum) Empirische Quantile 0 C 30 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests B 30 Residuum Abhängige Variable A 20 Holger Dette 0 −10 −20 0.06 0.04 0.02 −30 −40 0.00 −2 −1 0 1 2 Theoretische Quantile der Standardnormalvert. −40 −20 0 20 Residuum 165 / 282 SPSS Output: Residuenanalyse in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 35 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 30 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Motivation 25 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 20 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 15 2.7 Partielle und Semipartielle Korrelation 10 R-Quadrat linear = 0,313 5 0 10 20 30 40 Leistungsstreben Streudiagramm und geschätzte Regressionsgerade im Beispiel der Arbeitsmotivation 166 / 282 Methodenlehre II, SoSe 2015 R-Output für Residuenanalyse Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.2 Lineare Regression 2.3 Multiple lineare Regression 20 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 10 Motivation 30 2.1 Korrelation 0 10 20 30 40 Leistungsstreben QQ-Plot im Beispiel der Arbeitsmotivation 167 / 282 SPSS Output: Residuenanalyse in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 3,00000 2. Korrelation, Lineare Regression und multiple Regression Standardized Residual 2,00000 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 1,00000 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge ,00000 2.7 Partielle und Semipartielle Korrelation -1,00000 -2,00000 -2,00000 -1,00000 ,00000 1,00000 2,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 168 / 282 R-Output: Residuenanalyse in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Residuals vs Fitted 10 2.2 Lineare Regression 5 2.3 Multiple lineare Regression 0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 19 −10 Residuals 2.1 Korrelation 1 2.7 Partielle und Semipartielle Korrelation 2 14 16 18 20 22 24 Fitted values lm(y ~ x) Streudiagramm und geschätzte Regressionsgerade im Beispiel der Arbeitsmotivation 169 / 282 Methodenlehre II, SoSe 2015 SPSS Output für Residuenanalyse Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Q-Q-Diagramm von Normal von Standardized Residual 2. Korrelation, Lineare Regression und multiple Regression 2 2.1 Korrelation Erwarteter Wert von Normal 2.2 Lineare Regression 2.3 Multiple lineare Regression 1 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 0 2.7 Partielle und Semipartielle Korrelation -1 -2 -2 -1 0 1 2 3 Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 170 / 282 R-Output: Residuenanalyse in Beispiel 2.1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 3 1 2.1 Korrelation 2 2.2 Lineare Regression 1 2.3 Multiple lineare Regression 0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 19 −2 Standardized residuals Normal Q−Q 2.7 Partielle und Semipartielle Korrelation 2 −2 −1 0 1 2 Theoretical Quantiles lm(y ~ x) Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 171 / 282 Korrelation und lineare Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Es besteht ein enger Zusammenhang zwischen linearer Regression und Korrelation 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I I Ist b̂1 die Schätzung im linearen Regressionsmodell und r der Korrelationskoeffizient von Pearson, dann gilt: sP n (xi − x · )2 · b̂1 r = Pni=1 2 i=1 (yi − y · ) 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient von Pearson, dann gilt: r 2 = R2 172 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 173 / 282 2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren” ” y : Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften I x1 : Ehrgeiz (Fragebogen) I x2 : Kreativität (Fragebogen) I x3 : Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I I I x4 : Hierarchie (Position in der Hierarchie des Unternehmens) x5 : Lohn (Bruttolohn pro Monat) x6 : Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Prädiktoren: Inhalte der Tätigkeit I I I x7 : Lernpotential (Lernpotential der Tätigkeit) x8 : Vielfalt (Vielfalt an Teiltätigkeiten) x9 : Anspruch (Komplexität der Tätigkeit) 174 / 282 Methodenlehre II, SoSe 2015 Daten Holger Dette i 1 2 3 4 5 6 7 8 9 10 11 12 y 32 14 12 27 20 13 17 8 22 19 25 23 x1 36 30 19 42 14 12 17 4 32 15 38 24 x2 30 11 15 16 22 16 20 5 20 13 5 6 x3 20 30 15 39 5 6 12 0 35 8 34 26 x4 20 7 8 13 22 11 11 16 20 13 21 9 x5 3100 2600 3200 2500 3700 2600 2500 3800 3500 3100 3600 2600 x6 34 39 42 43 42 36 41 23 25 29 59 45 x7 29 16 13 15 29 17 18 9 21 21 27 31 x8 69 47 32 63 38 39 44 31 40 57 53 54 x9 66 36 17 49 62 51 55 33 55 56 67 62 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 175 / 282 Methodenlehre II, SoSe 2015 Daten Holger Dette i 13 14 15 16 17 18 19 20 21 22 23 24 25 y 17 22 19 27 26 20 11 24 19 19 22 24 17 x1 28 36 18 40 30 27 18 32 33 33 27 30 37 x2 11 4 26 27 28 11 23 18 9 22 28 32 8 x3 32 26 12 36 27 26 13 19 25 30 18 21 11 x4 10 16 6 12 18 10 11 15 6 5 17 11 2 x5 2600 2500 2500 2500 3000 2600 2800 2700 2400 2600 4000 2700 2300 x6 30 52 40 42 38 35 42 48 38 36 45 44 32 x7 7 23 17 29 34 19 18 23 23 30 23 20 20 x8 45 56 54 44 43 46 31 51 37 39 52 41 44 x9 26 64 55 62 64 55 43 53 65 39 54 47 41 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 176 / 282 2.23 Das Modell der multiplen linearen Regression I Daten (x 1 , y1 ), . . . , (x n , yn ) I Es gibt k unabhängige Variablen: x i = (x1i , . . . , xki ) I yi ist Realisation einer Zufallsvariablen Yi (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9): Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Yi = b0 + b1 x1i + b2 x2i + . . . + bk xki + εi = b0 + k X 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion bj xji + εi . j=1 I εi bezeichnet hier eine zufällige Störung” und es wird ” angenommen, dass die Störungen ε1 , . . . , εn unabhängig und normalverteilt sind mit Erwartungswert 0 und Varianz σ 2 > 0. I Deutung: Es wird ein linearer Zusammenhang zwischen x und Y postuliert, der noch zufälligen Störungen unterliegt. 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 177 / 282 Methodenlehre II, SoSe 2015 2.24 Schätzung bei multipler linearer Regression Holger Dette Methode der kleinsten Quadrate: Minimiere 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I n X (yi − b0 − b1 x1i − . . . − bk xki )2 i=1 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression bzgl. der Wahl von b0 , . . . , bk I Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer b̂0 , b̂1 , . . . , b̂k 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation für die Parameter b0 , . . . , bk (Formeln sind kompliziert) I Schätzer für die Varianz der Messfehler n Sy2|x = X 1 (yi − b̂0 − b̂1 x1i − . . . − b̂k xki )2 n − k − 1 i=1 178 / 282 Streudiagramm bei multipler linearer Regression (k = 2) Regressionsfläche: yb(x) = 3.24 + 4.5x1 + 5.27x2 . Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 40 2.3 Multiple lineare Regression 30 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 20 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Y 10 0 −10 −20 −30 −5 0 5 X1 −3 −2 0 −1 1 2 3 4 X2 179 / 282 Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen Regressionsmodell I Ergebnisse für die Schätzer im multiplen linearen Regressionsmodell b̂0 b̂2 b̂4 b̂6 b̂8 I = −3.842 = 0.153 = 0.246 = −0.031 = 0.206 b̂1 b̂3 b̂5 b̂7 b̂9 = 0.193 = 0.049 = 0.000 = 0.165 = −0.053 Fragen: I I Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Wie genau sind diese Schätzungen? Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale auf die Motivation H0 : b 1 = 0 H0 : b 2 = 0 .. . I Wie gut beschreibt das multiple lineare Regressionsmodell die Situation? 180 / 282 Genauigkeit der Schätzung bei multipler linearer Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression I I I Schätzer ŝb0 , . . . , ŝbk für die Standardfehler von b̂0 , . . . , b̂k sind verfügbar (Allgemeines lineares Modell → Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝbj gegen 0 je größer der Stichprobenumfang, ” desto genauer die Schätzungen” Damit erhält man Konfidenzintervalle für b0 , . . . , bk , z. B. 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation (b̂0 − tn−k−1,1− α2 ŝb0 , b̂0 + tn−k−1,1− α2 ŝb0 ) ist (1 − α)-Konfidenzintervall für b0 . 181 / 282 Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen Regressionsmodell I Ergebnisse für den Standardfehler der Schätzer im multiplen linearen Regressionsmodell Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression ŝb0 ŝb2 ŝb4 ŝb6 ŝb8 I = = = = = 5.052 0.049 0.148 0.054 0.052 ŝb1 ŝb3 ŝb5 ŝb7 ŝb9 = = = = = 0.081 0.065 0.001 0.098 0.058 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Wegen t15,0.975 = 2.1314 ist [−0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b3 . Man beachte: I I 0.049 + 2.1314 · 0.065 ≈ 0.188) n = 25; k = 9 ⇒ n − k − 1 = 15 182 / 282 2.25 Konfidenzintervalle für multiple lineare Regression I Modellannahme: multiple lineare Regression Yi = b0 + k X bj xji + εi (i = 1, . . . , n) j=1 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation I Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme I Schätzer ŝbj für den Standardfehler von b̂j 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge =⇒ (b̂j − tn−k−1,1− α2 ŝbj , b̂j + tn−k−1,1− α2 ŝbj ) 2.7 Partielle und Semipartielle Korrelation ist ein (1 − α)-Konfidenzintervall für bj (j = 0, . . . , k) I tn−k−1,1− α2 ; (1 − α2 )-Quantil der t-Verteilung mit n − k − 1 Freiheitsgraden (Tabelle oder Software) I Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝbj gegen 0 je größer der ” Stichprobenumfang, desto kleiner die Konfidenzintervalle” 183 / 282 2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation) b̂j b̂0 b̂1 b̂2 b̂3 b̂4 b̂5 b̂6 b̂7 b̂8 b̂9 Merkmal — Ehrgeiz Kreativität Leistungsstreben Hierarchie Lohn Arbeitsbdg. Lernpotential Vielfalt Anspruch Schätzung -3.842 0.193 0.153 0.049 0.246 0.000 -0.031 0.165 0.206 0.053 ŝbj 5.052 0.081 0.049 0.065 0.148 0.001 0.054 0.098 0.052 0.058 Konfidenzintervall [-14.609, 6.926] [0.020, 0.365] [0.049, 0.258] [-0.089, 0.188] [-0.069, 0.561] [-0.004, 0.002] [-0.147, 0.085] [-0.044, 0.373] [0.095, 0.316] [-0.070, 0.177] Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 184 / 282 Methodenlehre II, SoSe 2015 SPSS Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression a 2.1 Korrelation Koeffizienten 2.2 Lineare Regression Nicht standardisierte Koeffizienten Modell 1 B (Konstante) Standard fehler 2.3 Multiple lineare Regression Standardisierte Koeffizienten Beta 95%-Konfidenzintervall für B Signifi kanz Untergrenze Obergrenze -,760 ,459 -14,609 6,926 ,020 ,365 T -3,842 5,052 ,193 ,081 ,337 2,381 ,031 x2 ,153 ,049 ,234 3,127 ,007 ,049 ,258 x3 ,049 ,065 ,095 ,761 ,458 -,089 ,188 x1 x4 ,246 ,148 ,235 1,664 ,117 -,069 ,561 x5 ,000 ,001 -,077 -,589 ,564 -,004 ,002 x6 -,031 ,054 -,045 -,576 ,573 -,147 ,085 x7 ,165 ,098 ,199 1,683 ,113 -,044 ,373 x8 ,206 ,052 ,354 3,973 ,001 ,095 ,316 x9 ,053 ,058 ,124 ,920 ,372 -,070 ,177 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Y 185 / 282 R-Output: Schätzer, Standardabweichung und Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) Call : lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte Residuals : 2.5 Variablenselektion Min 1Q Median -3.5333 -0.7878 -0.0144 3Q 0.8352 Max 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 2.9391 Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) -3.8418391 5.0517520 -0.760 0.45875 x1 0.1927225 0.0809357 2.381 0.03094 * x2 0.1533724 0.0490456 3.127 0.00692 ** x3 0.0493953 0.0648797 0.761 0.45826 186 / 282 2.27 Vorhersage der multiplen linearen Regression Methodenlehre II, SoSe 2015 Holger Dette I Modellannahme: multiple lineare Regression Yi = b0 + k X bj xji + εi (i = 1, . . . , n) j=1 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation I I I Rechtfertigung der Normalverteilungs- und Unabhängigkeitsannahme Vorhersage für den Wert der multiplen Regression an der Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9) Pk ŷ (x) = b̂0 + j=1 b̂j xj 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation In Beispiel 2.22 ergibt sich z. B. als Vorhersage der multiplen linearen Regression an der Stelle x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900, x6 = 41, x7 = 25, x8 = 55, x9 = 54 der Wert ŷ (x) = 22.717 187 / 282 Methodenlehre II, SoSe 2015 Holger Dette Vorhersage der multiplen linearen Regression Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen: 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I I I Vorhersage für den Wert der multiplen Regression an der Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9) 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Für beide Vorhersagen kann man den Standardfehler bestimmen (Formeln kompliziert) und Konfidenzbereiche angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 ) 188 / 282 SPSS Output: Vorhersage bei der multiplen linearen Regression (schwierig) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beispiel: I Schätzung für den Wert der Ebene” an der Stelle ” x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348 I Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348 189 / 282 SPSS Output: Konfidenzintervalle für Vorhersagen bei multipler linearer Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I I Konfidenzintervall für den Wert der Ebene” an der Stelle ” x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826] 190 / 282 2.28 Bestimmtheitsmaß bei multipler linearer Regression Methodenlehre II, SoSe 2015 Holger Dette I Modellvorhersage: ŷi = b̂0 + b̂1 x1i + . . . b̂k xki = b̂0 + k X 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests b̂j xji j=1 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Pk I Residuum ε̂i = yi − ŷi = yi − (b̂0 + I Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ ) und Residuum (ε̂), d. h. yi = ŷi + ε̂i I j=1 b̂j xji ) i = 1, . . . , n 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben (Anteil erklärter Varianz) Pn Pn 2 (yi − ybi )2 2 i=1 i=1 (y · − ŷi ) P R = 1 − Pn = . n 2 2 i=1 (yi − y · ) i=1 (yi − y · ) 191 / 282 Beispiel: Das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression In Beispiel 2.22 ist 2.1 Korrelation I I I 2.2 Lineare Regression n = 25; k = 9 Pn bi )2 = 53.651 i=1 (yi − y Pn 2 i=1 (yi − y · ) = 760.96 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I R2 = 1 − 53.651 = 92.95 760.96 D. h. 92.95% der Varianz der Variablen Motivation werden durch das multiple lineare Regressionsmodell erklärt. 192 / 282 2.29 Statistische Tests bei der multiplen linearen Regression. Zwei wichtige” Fragestellungen: ” I I Frage A: Hat mindestens eine der Prädiktorvariablen x1 , . . . , xk einen Einfluss auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression H0 : bj = 0 für alle j ∈ {1, 2, . . . , k} 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion Alternative: H1 : bj 6= 0 für mindestens ein j ∈ {1, 2, . . . , k} I I 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Frage B: Hat die Prädiktorvariable xj (z. B. Ehrgeiz) einen Einfluss auf die abhängige Variable y . Mathematische Formulierung der Hypothese: Nullhypothese: H0 : bj = 0 Alternative: H1 : bj 6= 0 193 / 282 Methodenlehre II, SoSe 2015 2.29(A) Gesamttest auf Signifikanz I Holger Dette Nullhypothese: H0 : bj = 0 für alle j ∈ {1, 2, . . . , k} 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Alternative: H1 : bj 6= 0 für mindestens ein j ∈ {1, 2, . . . , k} 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression (1) Bestimme n 2 Sreg 1X = (y · − ŷi )2 k i=1 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge die Varianz der Regression, und Sy2|x = 2.3 Multiple lineare Regression 2.7 Partielle und Semipartielle Korrelation n X 1 (yi − ŷi )2 n−k −1 i=1 die Residualvarianz I Beachte: Man geht genau wie im linearen Regressionsmodell vor! 194 / 282 Methodenlehre II, SoSe 2015 Holger Dette 2.29(A) Gesamttest auf Signifikanz (2) H0 wird zu Gunsten der Alternative H1 verworfen, falls 2 Sreg Fn = 2 > Fk;n−k−1;1−α Sy |x gilt (oder der entsprechende p-Wert kleiner als α ist). Dabei bezeichnet Fk;n−k−1;1−α das (1 − α)-Quantil der F -Verteilung mit (k, n − k − 1) Freiheitsgraden. I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beachte: Wird H0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist”. ” 195 / 282 2.29(B) Tests für die Signifikanz einzelner Merkmale Methodenlehre II, SoSe 2015 Holger Dette Nullhypothese: H0 : bj = 0 Alternative: H1 : bj 6= 0 I Die Nullhypothese H0 wird zu Gunsten der Alternative H1 verworfen, falls b̂ j Tn = > tn−k−1;1− α2 ŝbj 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation gilt (oder der entsprechende p-Wert kleiner als α ist). Dabei ist I I I tn−k−1;1− α2 das (1 − α2 )-Quantil der t-Verteilung mit n − k − 1 Freiheitsgraden ŝbj der Standardfehler von b̂j Beachte: Werden mehrere Hypothesen getestet, ist das Niveau entsprechend anzupassen (vgl. Abschnitt 2.18). 196 / 282 Methodenlehre II, SoSe 2015 Holger Dette 2.30(A) Test auf Signifikanz im multiplen Regressionsmodell in Beispiel 2.22 I I Frage: Hat eine der 9 Prädiktorvariablen einen Einfluss auf ” die abhängige Variable?” Mathematische Hypothesen: 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte H0 : bj = 0 für alle j = 1, . . . , 9 2.5 Variablenselektion H1 : bj 6= 0 für mindestens ein j ∈ {1, . . . , 9} 2.7 Partielle und Semipartielle Korrelation I Fn = 21.972, I Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zum Niveau 5% verworfen. 2.6 Nichtlineare Zusammenhänge F9,15,0.95 = 2.5876 197 / 282 2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen Regressionsmodell in Beispiel 2.22 I I Frage: Hat die Prädiktorvariable Ehrgeiz (x1 ) einen Einfluss auf ” die abhängige Variable Motivation Signifikanz des Regressionskoeffizienten b1 )?” Mathematische Hypothesen: Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion H0 : b1 = 0; I b̂1 = 0.193, ŝb1 = 0.081, H1 : b1 6= 0 t25−10,0.975 = 2.13 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ⇒ T25 = 2.381 I Da T25 = 2.381 > 2.13 wird die Nullhypothese H0 zu Gunsten der Alternative H1 : b1 6= 0 verworfen (zum Niveau 5%) 198 / 282 SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression b ANOVA Modell 1 Quadratsumme Regression Residuen Gesamt Mittel der Quadrate df 707,309 9 78,590 53,651 15 3,577 760,960 24 2.3 Multiple lineare Regression F 21,972 Signifikanz ,000 a 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 199 / 282 SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Modell 1 B (Konstante) Standard fehler Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression a Koeffizienten Nicht standardisierte Koeffizienten Methodenlehre II, SoSe 2015 2.1 Korrelation 2.2 Lineare Regression Standardisierte Koeffizienten Beta 95%-Konfidenzintervall für B Signifi kanz 2.3 Multiple lineare Regression Untergrenze Obergrenze 2.4 Multikollinearität und Suppressionseffekte -,760 ,459 -14,609 6,926 T -3,842 5,052 x1 ,193 ,081 ,337 2,381 ,031 ,020 ,365 x2 ,153 ,049 ,234 3,127 ,007 ,049 ,258 x3 ,049 ,065 ,095 ,761 ,458 -,089 ,188 x4 ,246 ,148 ,235 1,664 ,117 -,069 ,561 x5 ,000 ,001 -,077 -,589 ,564 -,004 ,002 x6 -,031 ,054 -,045 -,576 ,573 -,147 ,085 ,373 x7 ,165 ,098 ,199 1,683 ,113 -,044 x8 ,206 ,052 ,354 3,973 ,001 ,095 ,316 x9 ,053 ,058 ,124 ,920 ,372 -,070 ,177 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Y 200 / 282 R-Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) Call : lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Residuals : Min 2.3 Multiple lineare Regression 1Q Median 3Q Max -3.5333 -0.7878 -0.0144 0.8352 2.9391 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) -3.8418391 5.0517520 -0.760 0.45875 x1 0.1927225 0.0809357 2.381 0.03094 * x2 0.1533724 0.0490456 3.127 0.00692 ** x3 0.0493953 0.0648797 0.761 0.45826 x4 0.2460051 0.1478258 1.664 0.11683 201 / 282 Residual standard error : 1.891 on 15 degrees of freedom Multiple R - squared : 0.9295 , Adjusted R - squared : F - statistic : 21.97 on 9 and 15 DF , 2.5 % 0.8872 p - value : 4.492 e -07 97.5 % Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation ( Intercept ) -14.609393640 6.925715428 x1 0.020212256 0.365232828 x2 0.048834252 0.257910529 x3 -0.088892612 0.187683168 x4 -0.069078063 0.561088342 x5 -0.004075849 0.002310442 x6 -0.147429821 0.084663199 x7 -0.043845720 0.373328278 x8 0.095304292 0.315917155 x9 -0.070255862 0.177024655 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 202 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 203 / 282 2.31 Das Problem der Multikollinearität Methodenlehre II, SoSe 2015 Holger Dette Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation” ein ” multiples lineares Regressionsmodell mit 3 Prädiktorvariablen Yi = b0 + b1 x1i + b2 x2i + b3 x3i + εi i = 1, . . . , 25 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression (Y : Motivation, x1 : Ehrgeiz, x2 : Kreativität, x3 : Leistungsstreben) I Schätzer für die Modellparameter 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion i 0 1 2 3 b̂i 5.54 0.39 0.23 0.001 ŝbi 2.62 0.14 0.09 0.12 p-Wert 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 0.008 0.020 0.994 I Bestimmtheitsmaß R 2 = 0.7861 I Beachte: Nur für den Koeffizient b3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden. 204 / 282 Methodenlehre II, SoSe 2015 Korrelationsmatrix für die Prädiktoren Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 .71 .38 .56 Ehrgeiz 1 .05 .82* Kreativität Leistungsstreben 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 1 -.02 2.4 Multikollinearität und Suppressionseffekte 1 Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz (SPSS) 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 205 / 282 Methodenlehre II, SoSe 2015 Holger Dette I Beachte: Es gibt eine signifikante Korrelation zwischen den Variablen Leistungsstreben und Ehrgeiz I Beide Variablen tragen weitgehend identische Information. I Im Beispiel ist die Variable Leistungsstreben redundant und wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt. I Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Grund ist der entsprechende Koeffizient auch signifikant). 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I Für die Bestimmtheitsmaße in den multiplen linearen Regressionsmodellen mit drei bzw. zwei Variablen erhält man R 2 = 0.786179 für Modell mit den Prädiktoren x1 , x2 , x3 R 2 = 0.786178 für Modell mit den Prädiktoren x1 , x2 206 / 282 SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression a Koeffizienten Nicht standardisierte Koeffizienten Modell 1 B (Konstante) 5,539 Standard fehler 2.3 Multiple lineare Regression Standardisierte Koeffizienten Beta 95%-Konfidenzintervall für B T 2,618 2,116 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion Signifi kanz Untergrenze Obergrenze ,046 ,095 10,983 x1 ,393 ,135 ,688 2,913 ,008 ,112 ,674 x2 ,225 ,089 ,343 2,528 ,020 ,040 ,410 x3 ,001 ,123 ,002 ,008 ,994 -,255 ,257 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Y 207 / 282 R-Output: Multikollinearität; Schätzer im Modell mit 3 Parametern Call : lm ( formula = y ˜ x1 + x2 + x3 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Residuals : 2.3 Multiple lineare Regression Min 1Q Median 3Q Max -6.7996 -1.5635 -0.2354 1.8129 6.6490 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 5.538618 2.617828 2.116 0.04649 * x1 0.393239 0.135012 2.913 0.00832 ** x2 0.224767 0.088899 2.528 0.01954 * x3 0.001002 0.123169 0.008 0.99359 --- 208 / 282 Methodenlehre II, SoSe 2015 SPSS Output: Multikollinearität; Korrelationsmatrix Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Korrelationen Y Korrelation nach Pearson Y x1 1,000 ,708 Signifikanz (2-seitig) N x1 Korrelation nach Pearson Signifikanz (2-seitig) N x2 ,000 25 ,708 ** x3 ,379 ,061 25 25 1,000 ,053 ,000 ,559 ** ,004 25 ,818 ** ,802 ,000 25 25 25 25 Korrelation nach Pearson ,379 ,053 1,000 -,016 Signifikanz (2-seitig) ,061 ,802 25 25 N x3 x2 ** Korrelation nach Pearson Signifikanz (2-seitig) N ,559 ** ,818 ** 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,939 25 25 -,016 1,000 ,004 ,000 ,939 25 25 25 25 **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 209 / 282 R-Output: Multikollinearität; Korrelationsmatrix Methodenlehre II, SoSe 2015 Holger Dette Y x1 x2 x3 1.00 0.71 0.38 0.56 x1 0.71 1.00 0.05 0.82 x2 0.38 0.05 1.00 -0.02 Y x3 0.56 0.82 -0.02 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 1.00 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion n = 25 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation P Y Y x1 x2 x3 0.0000 0.0613 0.0037 x1 0.0000 0.8025 0.0000 x2 0.0613 0.8025 0.9388 x3 0.0037 0.0000 0.9388 210 / 282 2.32 Das Problem der Suppressionseffekte Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation” ein multiples lineares Regressionsmodell ” mit 3 anderen Prädiktorvariablen 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Yi = b0 + b4 x4i + b5 x5i + b6 x6i + εi i = 1, . . . , 25 (Y : Motivation, x4 : Hierarchie, x5 : Lohn, x6 : Arbeitsbedingungen) I Schätzungen für die Modellparameter i 0 4 5 6 b̂i 25.08 0.88 -0.01 0.13 ŝbi 8.40 0.26 0.003 0.12 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation p-Wert 0.007 0.002 0.016 0.308 211 / 282 Korrelationsmatrix für die Variablen Motivation, Hierarchie, Lohn und Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 .42* -.04 .35 Hierarchie Lohn 1 .72** .16 1 -.06 Arbeitsbedingungen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 1 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion Beachte: I Zwischen der Prädiktorvariablen Lohn (x5 ) und der abhängigen Variablen Motivation liegt keine signifikante Korrelation vor. I Dennoch bekommt diese Variable im multiplen Regressionsmodell ein signifikantes Gewicht; d. h. die Hypothese H0 : b5 = 0 wird zum Niveau 5% verworfen (p-Wert: 0.016). I Man spricht von einem Suppressionseffekt. 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 212 / 282 Methodenlehre II, SoSe 2015 Holger Dette I Grund für diesen scheinbaren Widerspruch: Korrelationen sind bivariate Maße für Zusammenhänge (zwischen zwei Merkmalen). Das Modell der multiplen Regression untersucht aber den Zusammenhang zwischen der Variablen Motivation und dem (3-dimensionalen) Prädiktor (x4 , x5 , x6 ): 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I I Motivation ist stark mit der Variablen Hierarchie korreliert. 2.3 Multiple lineare Regression I Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert. 2.4 Multikollinearität und Suppressionseffekte I Prädiktorvariable Lohn wird in der multiplen linearen Regression benötigt, um unerwünschte” Varianzanteile der Variablen ” Hierarchie zu kompensieren. 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Bestimmtheitsmaße für verschiedene Modelle R 2 = 0.664282 für Modell mit x4 , x5 , x6 R 2 = 0.509720 für Modell mit x4 , x6 213 / 282 SPSS Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression a 2.3 Multiple lineare Regression Koeffizienten Nicht standardisierte Koeffizienten Modell 1 B (Konstante) 25,076 Standard fehler Standardisierte Koeffizienten 95%-Konfidenzintervall für B 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion Beta T 8,398 2,986 Signifikanz Untergrenze Obergrenze ,007 7,612 42,539 x4 ,884 ,257 ,843 3,444 ,350 1,419 x5 -,007 ,003 -,632 -2,612 ,016 -,013 -,001 x6 ,125 ,120 ,179 1,045 ,308 -,124 ,375 ,002 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Y 214 / 282 R-Output: Suppressionseffekte; Schätzer im Modell mit 4 Parametern Call : lm ( formula = y ˜ x4 + x5 + x6 ) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Residuals : Min 2.3 Multiple lineare Regression 1 Q Median -8.656 -2.823 1.351 3Q Max 3.262 7.574 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 25.075612 8.397555 2.986 0.00704 ** x4 0.884461 0.256842 3.444 0.00244 ** x5 -0.007291 0.002792 -2.612 x6 0.125417 0.120023 1.045 --- 0.01630 * 0.30793 215 / 282 SPSS Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Korrelationen Y Korrelation nach Pearson Y x4 1,000 ,419 Signifikanz (2-seitig) N x4 Korrelation nach Pearson Signifikanz (2-seitig) N x5 Korrelation nach Pearson Signifikanz (2-seitig) ,419 * * -,038 ,354 ,037 ,856 ,082 25 25 25 1,000 ,037 25 -,038 ,717 ,717 ,163 ,000 ,435 25 25 25 ** ** 1,000 -,060 ,000 25 25 25 25 Korrelation nach Pearson ,354 ,163 -,060 1,000 Signifikanz (2-seitig) ,082 ,435 ,777 25 25 25 N Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression x6 ,856 N x6 25 x5 Methodenlehre II, SoSe 2015 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,777 25 *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. 216 / 282 R-Output: Suppressionseffekte; Schätzung der Korrelationsmatrix Y x4 x5 x6 Y 1.00 0.42 -0.04 0.35 x4 0.42 1.00 0.16 x5 -0.04 0.72 x6 0.72 1.00 -0.06 0.35 0.16 -0.06 1.00 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge n = 25 2.7 Partielle und Semipartielle Korrelation P Y Y x4 x5 x6 0.0369 0.8562 0.0823 x4 0.0369 x5 0.8562 0.0000 0.0000 0.4352 0.7774 217 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.5 Variablenselektion 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 218 / 282 Methodenlehre II, SoSe 2015 Holger Dette 2.33 Merkmalselektionsverfahren I I Ziel: Mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Prinzip: Untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. 2.1 Korrelation Typische Selektionsprozeduren: 2.4 Multikollinearität und Suppressionseffekte 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.5 Variablenselektion I I I I Rückwärtsverfahren Vorwärtsverfahren Schrittweise Verfahren 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beachte: Es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 219 / 282 2.34 Das Rückwärtsverfahren Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression I I I Betrachte das vollständige Modell (mit allen Prädiktorvariablen) und berechne das Bestimmtheitsmaß R 2 . Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden. Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant” verkleinert. ” 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 220 / 282 Methodenlehre II, SoSe 2015 2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt 1 2 Prädiktorvariablen t-Wert Ehrgeiz Kreativität Leistungsstreben Hierarchie Lohn Arbeitsbedingungen Lernpotential Vielfalt Anspruch 2.38 3.13 .76 1.66 -.59 -.58 1.68 3.97 .92 Ehrgeiz Kreativität Leistungsstreben Hierarchie Lohn Lernpotential Vielfalt Anspruch 2.38 3.28 .79 1.66 -.57 1.66 4.04 .91 Ausgeschlossene Variablen Holger Dette R2 .929 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Arbeitsbedingungen .928 221 / 282 Methodenlehre II, SoSe 2015 Beispiel: Rückwärtsverfahren - Fortsetzung Holger Dette Schritt 3 Prädiktorvariablen Ehrgeiz Kreativität Leistungsstreben Hierarchie Lernpotential Vielfalt Anspruch t-Wert 2.54 3.43 .88 2.11 1.59 4.17 1.35 Ausgeschlossene Variablen Arbeitsbedingungen Lohn R2 .926 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 4 5 Ehrgeiz Kreativität Hierarchie Lernpotential Vielfalt Anspruch 5.40 3.38 2.31 1.55 4.12 1.31 Arbeitsbedingungen Lohn Leistungsstreben .923 Ehrgeiz Kreativität Hierarchie Lernpotential Vielfalt 5.18 3.16 2.84 3.31 5.04 Arbeitsbedingungen Lohn Leistungsstreben Anspruch .916 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 222 / 282 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation b Aufgenommene/Entfernte Variablen Modell 1 2 3 4 5 Aufgenommene Variablen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Entfernte Variablen Methode 2.3 Multiple lineare Regression x9, x5, x2, x3, x6, x8, x7, x4, … . Eingeben . x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). . x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). 2.6 Nichtlineare Zusammenhänge . x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). 2.7 Partielle und Semipartielle Korrelation . x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 223 / 282 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Modellzusammenfassung 2.2 Lineare Regression Änderungsstatistiken R R-Quadrat Modell 1 ,964 2 ,963 3 ,963 4 ,961 5 ,957 a b c d e Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 2.3 Multiple lineare Regression ,929 ,887 1,891 ,929 21,972 9 15 ,000 2.4 Multikollinearität und Suppressionseffekte ,928 ,892 1,851 -,002 ,332 1 15 ,573 2.5 Variablenselektion ,926 ,896 1,814 -,001 ,327 1 16 ,575 ,923 ,897 1,803 -,003 ,783 1 17 ,389 ,916 ,894 1,837 -,007 1,713 1 18 ,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 224 / 282 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation: ANOVA f ANOVA Modell 1 Quadratsumme Regression Residuen Gesamt 2 Regression Residuen Gesamt 3 Regression 9 78,590 53,651 15 3,577 760,960 24 8 88,265 54,840 16 3,427 760,960 24 7 100,714 17 3,292 Gesamt 760,960 24 Regression 702,422 6 117,070 58,538 18 3,252 Gesamt 760,960 24 Regression 696,852 5 139,370 64,108 19 3,374 760,960 24 Residuen Gesamt F 21,972 Signifikanz ,000 a Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 706,120 55,960 Residuen 5 707,309 705,000 Residuen 4 Mittel der Quadrate df Methodenlehre II, SoSe 2015 25,752 ,000 b 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 30,596 c 2.5 Variablenselektion d 2.7 Partielle und Semipartielle Korrelation ,000 2.6 Nichtlineare Zusammenhänge 35,999 ,000 41,306 ,000 e a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 225 / 282 SPSS Output: Rückwärtsverfahren im Beispiel der Arbeitsmotivation: Koeffizienten a Koeffizienten Nicht standardisierte Koeffizienten Modell 1 B (Konstante) -3,842 x1 2 ,193 Standardisierte Koeffizienten Beta ,081 95%-Konfidenzintervall für B T 5,052 -,760 Signifikanz Untergrenze Obergrenze ,459 -14,609 6,926 ,031 ,020 ,365 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression ,337 2,381 x2 ,153 ,049 ,234 3,127 ,007 ,049 ,258 x3 ,049 ,065 ,095 ,761 ,458 -,089 ,188 x4 ,246 ,148 ,235 1,664 ,117 -,069 ,561 x5 ,000 ,001 -,077 -,589 ,564 -,004 ,002 x6 -,031 ,054 -,045 -,576 ,573 -,147 ,085 2.4 Multikollinearität und Suppressionseffekte x7 ,165 ,098 ,199 1,683 ,113 -,044 ,373 2.5 Variablenselektion x8 ,206 ,052 ,354 3,973 ,001 ,095 ,316 x9 ,053 ,058 ,124 ,920 ,372 -,070 ,177 -4,737 4,706 -1,007 ,329 -14,713 5,238 (Konstante) x1 ,326 2,376 x2 ,157 ,048 ,239 3,285 ,005 ,056 ,258 x3 ,050 ,187 ,063 ,096 ,790 ,441 -,084 ,185 x4 ,240 ,144 ,228 1,660 ,116 -,066 ,545 x5 ,000 ,001 -,073 -,572 ,575 -,004 x7 ,157 ,095 ,190 1,655 ,117 -,044 ,358 x8 ,205 ,051 ,352 4,040 ,001 ,097 ,312 x9 3 Standardfehler Methodenlehre II, SoSe 2015 (Konstante) ,079 ,052 ,057 -7,154 2,027 ,193 ,076 x1 x2 ,159 ,046 ,121 ,338 ,244 ,914 ,030 ,020 ,353 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,002 ,374 -,068 ,172 -3,529 ,003 -11,431 -2,877 2,540 ,021 ,033 ,354 3,431 ,003 ,061 x3 ,055 ,062 ,105 ,885 ,389 -,076 ,185 x4 ,172 ,081 ,164 2,113 ,050 ,000 ,344 ,258 a. Abhängige Variable: Y 226 / 282 2.36 Das Vorwärtsverfahren Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I I I I Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist und berechne das Bestimmtheitsmaß R 2 . Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen. Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen. Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant” ” vergrößert. 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 227 / 282 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation a Aufgenommene/Entfernte Variablen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Modell 1 2 3 4 5 Aufgenommene Variablen Entfernte Variablen Methode x1 . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050) x9 . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050) x2 . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050) x8 . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050) x4 . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050) 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: Y 228 / 282 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Modellzusammenfassung 2.2 Lineare Regression Änderungsstatistiken Modell 1 R ,708 b ,863 3 ,906 4 ,944 ,955 df1 df2 ,501 ,479 4,065 ,501 23,059 1 23 ,000 ,744 ,721 2,973 ,244 20,980 1 22 ,000 ,820 ,795 2,552 ,076 8,876 1 21 ,007 ,891 ,869 2,039 ,070 12,879 1 20 ,002 ,913 ,890 1,869 ,022 4,810 1 19 ,041 R-Quadrat a 2 5 Änderung in F Änderung in Signifikanz von F c d e Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 229 / 282 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation: ANOVA f ANOVA Modell 1 2 3 4 Quadrat summe Mittel der Quadrate 380,968 1 380,968 Residuen 379,992 23 16,521 Gesamt 760,960 24 566,456 2 283,228 Residuen 194,504 22 8,841 Gesamt 760,960 24 Regression 624,244 3 208,081 Residuen 136,716 21 6,510 Gesamt 760,960 24 Regression 677,797 4 169,449 4,158 83,163 20 Gesamt 760,960 24 Regression 694,596 5 138,919 66,364 19 3,493 760,960 24 Residuen Gesamt F 23,059 Signifikanz ,000 a Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Regression Residuen 5 df Regression Methodenlehre II, SoSe 2015 32,035 ,000 b 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 31,962 c 2.5 Variablenselektion d 2.7 Partielle und Semipartielle Korrelation ,000 2.6 Nichtlineare Zusammenhänge 40,751 ,000 39,773 ,000 e a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 230 / 282 SPSS Output: Vorwärtsverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests a Koeffizienten Nicht standardisierte Koeffizienten Modell 1 2 B (Konstante) 2,406 ,404 ,084 (Konstante) ,063 2,642 x1 ,320 ,064 ,221 ,048 -2,101 2,380 x9 3 4 (Konstante) Beta 95%-Konfidenzintervall für B Signifikanz Untergrenze Obergrenze 3,778 ,001 4,111 14,064 4,802 T ,000 ,230 ,579 ,024 ,981 -5,415 5,542 ,560 4,983 ,000 ,187 ,454 ,515 4,580 ,000 ,121 ,321 -,883 ,387 -7,052 2,849 ,708 x1 ,319 ,055 ,558 5,776 ,000 ,204 ,433 x9 ,203 ,042 ,474 4,862 ,000 ,116 ,290 x2 ,183 ,061 ,279 2,979 ,007 ,055 ,310 -6,502 2,263 -1,781 (Konstante) -2,873 ,009 -11,224 x1 ,253 ,048 ,442 5,286 ,000 ,153 ,352 x9 ,150 ,037 ,350 4,101 ,001 ,074 ,226 x2 ,049 ,293 ,190 ,053 ,327 -6,833 ,192 2,080 x8 5 Standardfehler 9,088 x1 Standardisierte Koeffizienten (Konstante) x1 ,271 ,045 ,474 3,908 ,001 ,089 ,002 ,080 ,301 ,004 -11,186 -2,479 ,000 ,178 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,294 3,589 -3,285 6,076 2. Korrelation, Lineare Regression und multiple Regression ,364 x9 ,116 ,037 ,271 3,147 ,005 ,039 ,193 x2 ,177 ,045 ,271 3,903 ,001 ,082 ,272 x8 ,181 ,049 ,311 3,706 ,001 ,079 ,283 x4 ,181 ,083 ,173 2,193 ,041 ,008 ,354 a. Abhängige Variable: Y 231 / 282 2.37 Das schrittweise Verfahren Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I Rückwärts- und Vorwärtsverfahren werden kombiniert! I Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 232 / 282 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation a Aufgenommene/Entfernte Variablen Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Modell 1 Aufgenommene Variablen Entfernte Variablen Methode 2.2 Lineare Regression 2.3 Multiple lineare Regression . Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). 2.5 Variablenselektion . Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). x2 . Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). 2.7 Partielle und Semipartielle Korrelation x8 . Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). x4 . Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit von F-Wert für Ausschluß >= ,100). x1 2 x9 3 4 5 2.4 Multikollinearität und Suppressionseffekte 2.6 Nichtlineare Zusammenhänge a. Abhängige Variable: Y 233 / 282 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Modellzusammenfassung 2.2 Lineare Regression Änderungsstatistiken Modell 1 R ,708 R-Quadrat a b 2 ,863 3 ,906 4 ,944 5 ,955 c d e Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F Änderung in Signifikanz von F df1 df2 ,501 ,479 4,065 ,501 23,059 1 23 ,000 ,744 ,721 2,973 ,244 20,980 1 22 ,000 ,820 ,795 2,552 ,076 8,876 1 21 ,007 ,891 ,869 2,039 ,070 12,879 1 20 ,002 ,913 ,890 1,869 ,022 4,810 1 19 ,041 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 234 / 282 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA f ANOVA Modell 1 2 3 4 Quadratsumme Mittel der Quadrate 380,968 1 380,968 Residuen 379,992 23 16,521 Gesamt 760,960 24 Regression 566,456 2 283,228 Residuen 194,504 22 8,841 Gesamt 760,960 24 Regression 624,244 3 208,081 Residuen 136,716 21 6,510 Gesamt 760,960 24 Regression 677,797 4 169,449 83,163 20 4,158 Gesamt 760,960 24 Regression 694,596 5 138,919 66,364 19 3,493 760,960 24 Residuen 5 df Regression Residuen Gesamt F 23,059 Signifikanz ,000 a Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation b 32,035 ,000 31,962 ,000 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte c 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 40,751 ,000 39,773 ,000 d 2.7 Partielle und Semipartielle Korrelation e a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 235 / 282 SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten a Koeffizienten Nicht standardisierte Koeffizienten Modell 1 2 B (Konstante) 2,406 ,404 ,084 (Konstante) ,063 2,642 x1 ,320 ,064 5 Beta 95%-Konfidenzintervall für B Signifikanz Untergrenze Obergrenze 3,778 ,001 4,111 14,064 4,802 T ,000 ,230 ,579 ,024 ,981 -5,415 5,542 ,560 4,983 ,000 ,187 ,454 ,515 4,580 ,000 ,121 ,321 -,883 ,387 -7,052 2,849 ,708 ,221 ,048 -2,101 2,380 x1 ,319 ,055 ,558 5,776 ,000 ,204 ,433 x9 ,203 ,042 ,474 4,862 ,000 ,116 ,290 ,279 (Konstante) x2 4 Standardfehler 9,088 x1 x9 3 Standardisierte Koeffizienten ,183 ,061 -6,502 2,263 x1 ,253 ,048 x9 ,150 ,037 x2 ,192 ,049 x8 ,190 ,053 -6,833 2,080 x1 ,271 ,045 x9 ,116 x2 ,177 x8 x4 (Konstante) (Konstante) 2,979 ,007 ,055 ,310 -2,873 ,009 -11,224 -1,781 ,442 5,286 ,000 ,153 ,352 ,350 4,101 ,001 ,074 ,226 ,293 3,908 ,001 ,089 ,327 3,589 ,002 ,080 ,301 -3,285 ,004 -11,186 -2,479 ,474 6,076 ,000 ,178 ,364 ,037 ,271 3,147 ,005 ,039 ,193 ,045 ,271 3,903 ,001 ,082 ,272 ,181 ,049 ,311 3,706 ,001 ,079 ,283 ,181 ,083 ,173 2,193 ,041 ,008 ,354 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,294 a. Abhängige Variable: Y 236 / 282 2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren I Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression I Beispiel (Arbeitsmotivation) 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge Rückwärtsverfahren Ehrgeiz Kreativität Hierarchie Lernpotential Vielfalt R 2 = .916 Vorwärtsverfahren Ehrgeiz Kreativität Hierarchie Anspruch Vielfalt R 2 = .913 Schrittweises Verfahren Ehrgeiz Kreativität Hierarchie Anspruch Vielfalt R 2 = .913 2.7 Partielle und Semipartielle Korrelation 237 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.6 Nichtlineare Zusammenhänge 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 238 / 282 Nichtlineare Zusammenhänge Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Die (multiplen) linearen Regressionsmodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable und der abhängigen Variablen linear ist, d. h. durch eine Gerade beschrieben werden kann. 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I I Diese Annahme muss nicht immer erfüllt sein. Zusammenhänge zwischen Variablen können im Grunde beliebige Form haben. 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Man spricht in diesen Fällen von nichtlinearen Zusammenhängen 239 / 282 Methodenlehre II, SoSe 2015 2.39 Beispiel: Gedächtnistest Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Mehrere Personen machen einen Gedächtnistest 2.1 Korrelation I 30 Ortsnamen (aus Mongolei) werden vorgegeben 2.3 Multiple lineare Regression I y (x ): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) I 2.2 Lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation x y (x ) 1 24.9 2 19.7 3 17.0 4 13.2 5 11.0 6 8.5 7 7.9 8 5.8 9 5.5 10 5.0 240 / 282 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Anzahl der Ortsnamen 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 20,0 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 10,0 ,0 0 2 4 6 8 10 Tage 241 / 282 Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 25 2.2 Lineare Regression 2.3 Multiple lineare Regression 20 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 15 2.6 Nichtlineare Zusammenhänge 10 2.7 Partielle und Semipartielle Korrelation 5 Anzahl der Ortsnamen 2.1 Korrelation 2 4 6 8 10 Tage 242 / 282 Lineare Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Anzahl der Ortsnamen 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 20,0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 10,0 ,0 0 2 4 6 8 10 Tage Die Gleichung der geschätzten Geraden: y = 10.579 − 0.429x 243 / 282 Lineare Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2.1 Korrelation 25 2.2 Lineare Regression 2.3 Multiple lineare Regression 15 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 0 5 Anzahl der Ortsnamen 2. Korrelation, Lineare Regression und multiple Regression 2.7 Partielle und Semipartielle Korrelation 2 4 6 8 10 Tage Die Gleichung der geschätzten Geraden: y = 10.579 − 0.429x 244 / 282 Residuenanalyse bei linearer Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) 2,00000 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Standardized Residual 2.2 Lineare Regression 2.3 Multiple lineare Regression 1,00000 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation ,00000 -1,00000 -1,50000 -1,00000 -,50000 ,00000 ,50000 1,00000 1,50000 Standardized Predicted Value 245 / 282 Residuenanalyse bei linearer Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 1 10 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 1 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge −1 2.7 Partielle und Semipartielle Korrelation 6 −3 Residuals 3 Residuals vs Fitted 5 10 15 20 Fitted values lm(y ~ x) 246 / 282 QQ - Plot bei linearer Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Q-Q-Diagramm von Normal von Standardized Residual 1,5 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Erwarteter Wert von Normal 1,0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 0,5 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 0,0 -0,5 -1,0 -1,5 -2 -1 0 1 2 Beobachteter Wert 247 / 282 QQ - Plot bei linearer Regression für die Daten aus Beispiel 2.39 (Gedächtnistest) Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.0 2.2 Lineare Regression 1 10 2.3 Multiple lineare Regression 1.0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion −1.0 0.0 Standardized residuals Normal Q−Q 2.7 Partielle und Semipartielle Korrelation 2.6 Nichtlineare Zusammenhänge 6 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles lm(y ~ x) 248 / 282 Methodenlehre II, SoSe 2015 Holger Dette Beachte: I Ein lineares Regressionsmodell ist für die Beschreibung des Zusammenhangs ungeeignet! I Quadratisches Regressionsmodell 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Yi = b0 + b1 xi + b2 xi2 + εi 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion I Schätzung der Parameter mit der Methode der kleinsten Quadrate und die entsprechenden Standardfehler b̂0 = ŝb0 = 29.088 0.558 b̂1 = −4.876 ŝb1 = 0.233 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation b̂2 = 0.249 ŝb2 = 0.021 249 / 282 Methodenlehre II, SoSe 2015 Konfidenzbereiche und Tests Holger Dette I Man geht wie in 2.12 und 2.14 bzw. 2.29 vor. I 90% Konfidenzintervall für b2 (man beachte: das Modell hat 3 Parameter) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation t10−3,0.95 = 1.8946 b̂2 = 0.249 ŝb2 = 0.021 ⇒ [b̂2 − t7,0.95 ŝb2 , b̂2 + t7,0.95 ŝb2 ] = [0.2092, 0.2888] ist 90% Konfidenzintervall für b2 . 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I Die Hypothese H0 : b2 = 0 wird (zum Niveau 10%) verworfen, falls b̂ 2 > t10−3,0.95 ŝb2 I Beachte: 10 − 3 Freiheitsgrade, da 10 Daten und 3 Parameter in der Parabelgleichung gilt (im Beispiel wird also H0 abgelehnt). 250 / 282 Methodenlehre II, SoSe 2015 SPSS-Output: Schätzer für quadratische Regression Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Koeffizienten Nicht standardisierte Koeffizienten B Tage Tage ** 2 (Konstante) 2.4 Multikollinearität und Suppressionseffekte Standardisierte Koeffizienten Standardfehler Beta 2.5 Variablenselektion t Sig. -4,876 ,233 -2,183 -20,927 ,000 ,249 ,021 1,257 12,055 ,000 29,088 ,558 52,136 ,000 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 251 / 282 R-Output: Schätzer für quadratische Regression Methodenlehre II, SoSe 2015 Holger Dette Call : 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests lm ( formula = y ˜ x + x2 ) 2. Korrelation, Lineare Regression und multiple Regression Residuals : 2.1 Korrelation Min 1Q Median 3Q Max -0.63121 -0.27023 -0.06689 0.26064 0.75136 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge Coefficients : 2.7 Partielle und Semipartielle Korrelation Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 29.08833 0.55793 52.14 2.50 e -10 *** x -4.87629 0.23302 -20.93 1.43 e -07 *** 0.24886 0.02064 12.05 6.17 e -06 *** x2 --- Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 252 / 282 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Anzahl der Ortsnamen Beobachtet Quadratisch 30,0 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 20,0 2.7 Partielle und Semipartielle Korrelation 10,0 0,0 0 2 4 6 8 10 Tage 253 / 282 Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 25 2.2 Lineare Regression 2.3 Multiple lineare Regression 20 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 15 2.6 Nichtlineare Zusammenhänge 10 2.7 Partielle und Semipartielle Korrelation 5 Anzahl der Ortsnamen 2.1 Korrelation 2 4 6 8 10 Tage 254 / 282 SPSS-Output: Residuenanalyse für die Daten aus Beispiel 2.39 bei quadratischer Regression 2,00000 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Standardized Residual 1,00000 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge ,00000 2.7 Partielle und Semipartielle Korrelation -1,00000 -2,00000 -1,00000 -,50000 ,00000 ,50000 1,00000 1,50000 2,00000 Standardized Predicted Value 255 / 282 R-Output: Residuenanalyse für die Daten aus Beispiel 2.39 bei quadratischer Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation Residuals vs Fitted 2.2 Lineare Regression 2.3 Multiple lineare Regression 0.5 2.4 Multikollinearität und Suppressionseffekte 1 2.5 Variablenselektion 0.0 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation −0.5 Residuals 7 2 5 10 15 20 25 Fitted values lm(y ~ x + x2) 256 / 282 Methodenlehre II, SoSe 2015 SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer Regression Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Q-Q-Diagramm von Normal von Standardized Residual 1,5 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Erwarteter Wert von Normal 1,0 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 0,5 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 0,0 -0,5 -1,0 -1,5 -2 -1 0 1 2 Beobachteter Wert 257 / 282 R-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2.1 Korrelation 2.0 Normal Q−Q 2.2 Lineare Regression 7 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 1.0 1 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 0.0 −1.5 Standardized residuals 2. Korrelation, Lineare Regression und multiple Regression 2.7 Partielle und Semipartielle Korrelation 2 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles lm(y ~ x + x2) 258 / 282 SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Regression Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Histogramm 2.1 Korrelation 2.2 Lineare Regression Abhängige Variable: Anzahl der Ortsnamen Mittelwert = 3,96E-16 Std.-Abw. = 0,882 N =10 2,5 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2,0 Häufigkeit 2.3 Multiple lineare Regression 2.7 Partielle und Semipartielle Korrelation 1,5 1,0 0,5 0,0 -2 -1 0 1 2 Regression Standardisiertes Residuum 259 / 282 2.40 Polynomiale Regressionsmodelle Methodenlehre II, SoSe 2015 Holger Dette Modelle zur polynomialen Regression 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Ordnung 0. 1. 2. .. . k. Modell Y = b0 + ε Y = b0 + b1 x 1 + ε Y = b0 + b1 x 1 + b2 x 2 + ε .. . Y = b0 + b1 x 1 + b2 x 2 + . . . + bk x k + ε 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Beachte: I In der Regel werden nur Modelle von niedrigem Grad verwendet (k ≤ 3)! I Schätzung der Parameter erfolgt mit der Methode der kleinsten Quadrate. I Konfidenzintervalle, Tests und Residuenanalyse werden wie bei der linearen bzw. multiplen Regression durchgeführt (Allgemeines lineares Modell) 260 / 282 Methodenlehre II, SoSe 2015 2.41 Mehrdimensionale Polynome Holger Dette I Sind mehrere Prädiktorvariablen verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die Regressionsgleichung aufgenommen werden. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation I Beispiele: 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 + ε 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 + b02 x12 + b20 x22 +ε 2.7 Partielle und Semipartielle Korrelation Y (x) = b0 + b1 x1 + b2 x2 + b3 x3 + b120 x1 x2 + b103 x1 x3 + b023 x2 x3 + b123 x1 x2 x3 + ε 261 / 282 3D-Streudiagramm mit der geschätzten Funktion Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 100 80 2.1 Korrelation 60 2.2 Lineare Regression Y 40 2.3 Multiple lineare Regression 20 2.4 Multikollinearität und Suppressionseffekte 0 −20 2.5 Variablenselektion −40 2.6 Nichtlineare Zusammenhänge −60 6 4 4 2 2 0 0 −2 −2 X2 2.7 Partielle und Semipartielle Korrelation −4 −4 −6 X1 Die geschätzte Funktion ist: yb(x) = 2.23 + 3.52x1 + 5.77x2 + 3.96x1 x2 . 262 / 282 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme und Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y (x) = b0 + b11 x1 + b12 x12 + b21 x2 + b23 x23 + b11;21 x1 x2 + ε. Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 100 2.6 Nichtlineare Zusammenhänge 80 60 2.7 Partielle und Semipartielle Korrelation Y 40 20 0 −20 −40 −60 6 4 4 2 2 0 0 −2 −2 X2 −4 −4 −6 X1 Die angepasste Funktion hat die Form yb(x) = 1 + 2.15x1 + 6.59x12 + 1.66x2 + 3.07x23 + 3.76x1 x2 263 / 282 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.7 Partielle und Semipartielle Korrelation 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 264 / 282 2.42 Beispiel: Entwicklungspsychologie Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests I Im Rahmen einer Studie in der Entwicklungspsychologie soll der Zusammenhang zwischen I I Abstraktionsfähigkeit (x ) und sensomotorischer Koordination (y ) 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion untersucht werden. 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation I Zusätzlich wird das Alter der Kinder erhoben (z) I Insgesamt werden 15 Kinder im Alter von 6 - 10 Jahren untersucht. 265 / 282 Methodenlehre II, SoSe 2015 Daten Holger Dette Kind 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Abstraktionsfähigkeit (x ) 9 11 13 13 14 9 10 11 10 8 13 7 9 13 14 sensomotor. Koord. (y ) 8 12 14 13 14 8 9 12 8 9 14 7 10 12 12 Alter (z) 6 8 9 9 10 7 8 9 8 7 10 6 10 10 9 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 266 / 282 Methodenlehre II, SoSe 2015 Auswertung: Holger Dette I Für den Korrelationskoeffizient von Pearson (vgl. 2.2) erhält man für die Korrelation der Variablen x (Abstraktionsfähigkeit) und y (sensomotorische Koordination) rx ,y = 0.89 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I I I Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielen Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen Einfluss der dritten Variablen” (Alter) zurückführbar ist. ” In einem solchen Fall spricht man von einer Scheinkorrelation”. D. h. rx ,y ist zwar im mathematischen ” Sinn eine Korrelation, aber der gefundene Zusammenhang zwischen Abstraktionsfähigkeit und sensomotorischer Koordination ist (teilweise) durch eine dritte Variable erklärbar und kann nicht als kausal interpretiert werden. 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Ziel: Berechnung einer Korrelation, die von dem Einfluss der dritten Variablen Alter bereinigt” ist. =⇒ Partialkorrelation. ” 267 / 282 Methodenlehre II, SoSe 2015 2.43 Partialkorrelation Holger Dette I Modell: Daten (xi , yi , zi )i=1, ... ,n . Im Beispiel ist xi die Abstraktionsfähigkeit, yi die sensomotorische Koordination und zi das Alter des i-ten Kindes I Gesucht: Ein um den Einfluss der Variablen z bereinigtes” ” Abhängigkeitsmaß zwischen den Variablen x und y I Methode: I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression Berechne die (lineare) Regressionsgerade für die Daten (x1 , z1 ), . . . , (xn , zn ): 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion x = â0 + â1 z 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation (vgl. 2.11) und die Residuen xi∗ = xi − (â0 + â1 zi ) I i = 1, . . . , n Berechne die (lineare) Regressionsgerade für die Daten (y1 , z1 ), . . . , (yn , zn ): y = b̂0 + b̂1 z (vgl. 2.11) und die Residuen yi∗ = yi − (b̂0 + b̂1 zi ) i = 1, . . . , n 268 / 282 Methodenlehre II, SoSe 2015 Holger Dette I Bestimme die Korrelation zwischen den Residuen (x1∗ , y1∗ ), . . . , (xn∗ , yn∗ ) Pn (x ∗ − x ∗· )(yi∗ − y ∗· ) ∗ ∗ rx ,y ·z = rx ,y = qP i=1 i Pn n ∗ 2 ∗ 2 ∗ ∗ i=1 (xi − x · ) i=1 (yi − y · ) 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte I Die Größe 2.5 Variablenselektion rx ,y ·z I heißt Partialkorrelation zwischen x und y , aus der das Merkmal z herauspartialisiert” wurde. ” Die Partialkorrelation ist also eine bivariate Korrelation zwischen Regressionsresiduen. 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 269 / 282 Methodenlehre II, SoSe 2015 2.44 Bemerkung Holger Dette I Man kann zeigen, dass gilt: rx ,y − rx ,z ry ,z rx ,y ·z = q (1 − rx2,z )(1 − ry2,z ) (1) Dabei ist I I I I I rx ,y der Korrelationskoeffizient zwischen den Variablen x und y rx ,z der Korrelationskoeffizient zwischen den Variablen x und z ry ,z der Korrelationskoeffizient zwischen den Variablen y und z Die Partialkorrelation ist ein Maß für den linearen Zusammenhang von zwei Variablen x und y , aus dem der lineare Einfluss einer dritten Variablen z eliminiert wurde. Genauer: Die Partialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Vorhersagefehler bei der linearen Prognose von y durch z linear vorhersagen kann - und umgekehrt. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Gibt es mehr als drei Variablen, so können Partialkorrelationen höherer Ordnung gebildet werden, indem die Residuen xi∗ , yi∗ mit Hilfe des multiplen linearen Regressionsmodells (vgl. Methodenlehre II, 2.23) bestimmt werden. 270 / 282 Beispiel (Fortsetzung von Beispiel 2.42) Methodenlehre II, SoSe 2015 Holger Dette I Lineare Regression von x bzgl. z x = 1.246z + 0.464 I 2. Korrelation, Lineare Regression und multiple Regression Lineare Regression von y bzgl. z y = 1.420z − 1.13 I 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Regressionsresiduen 2.4 Multikollinearität und Suppressionseffekte ∗ x 1,06 0,57 1,32 1,32 1,07 -0,19 -0,43 -0,68 -0,43 -1,19 0,07 -0,94 -3,92 0,07 2,32 ∗ y 0,61 1,77 2,35 1,35 0,93 -0,81 -1,23 0,35 -2,23 0,19 0,93 -0,39 -3,07 -1,07 0,35 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 271 / 282 Methodenlehre II, SoSe 2015 Holger Dette I rx ,y ·z = 0.72 I Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen I Beachte: Mit den Werten I I I rx ,y = 0.89 rx ,z = 0.77 ry ,z = 0.80 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation kann man die Partialkorrelation rx ,y ·z auch mit Hilfe der Formel (1) berechnen. 272 / 282 Signifikanztest für partielle Korrelationen Methodenlehre II, SoSe 2015 Holger Dette Ein Test zum Niveau α für die Hypothese die Merkmale X und Y ” unter Z sind unkorreliert” H0 : ρx ,y .z = 0 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression lehnt die Nullhypothese zu Gunsten der Alternative H1 : ρx ,y .z 6= 0 ab, falls 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation √ n − 3rx ,y .z > tn−3,1− α q 2 1 − rx2,y .z gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante Korrelation zwischen zwei Merkmalen (vgl. 2.5) 273 / 282 Methodenlehre II, SoSe 2015 Partielle Korrelationen in SPSS Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression Korrelationen 2.1 Korrelation 2.2 Lineare Regression Kontrollvariablen Alter Abstraktionsfähigkeit Korrelation Abstraktions fähigkeit 1,000 Signifikanz (zweiseitig) . ,004 0 12 Korrelation ,722 1,000 Signifikanz (zweiseitig) ,004 Freiheitsgrade sensomotorische Koordination sensomotorische Koordination ,722 Freiheitsgrade 12 . 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 0 274 / 282 Methodenlehre II, SoSe 2015 Partielle Korrelationen in R Holger Dette $estimate x y 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests z x 1.0000000 0.7220272 0.1882497 2. Korrelation, Lineare Regression und multiple Regression y 0.7220272 1.0000000 0.4095360 2.1 Korrelation 2.2 Lineare Regression z 0.1882497 0.4095360 1.0000000 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion $p . value 2.6 Nichtlineare Zusammenhänge x y z 2.7 Partielle und Semipartielle Korrelation x 0.0000000000 0.0003002053 0.5066983 y 0.0003002053 0.0000000000 0.1199311 z 0.5066982702 0.1199311224 0.0000000 $statistic x y z x 0.0000000 3.615123 0.6639876 275 / 282 2.45 Semipartialkorrelationen Methodenlehre II, SoSe 2015 Holger Dette I Wird die dritte Variable z nur aus einer Variablen (z.B. x ) herauspartialisiert, so spricht man von einer Semipartialkorrelation. I Man berechnet die (lineare) Regressionsgerade für die Daten (x1 , z1 ), . . . , (xn , zn ): x = â0 + â1 z 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion und betrachtet die Vorhersagefehler xi∗ = xi − â0 − â1 zi I 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Dann bestimmt man die Korrelation zwischen (x1∗ , y1 ), . . . , (xn∗ , yn ): Pn (x ∗ − x ∗· )(yi − y · ) ry (x ·z) = rx ∗ ,y = qP i=1 i Pn n ∗ 2 ∗ 2 i=1 (xi − x · ) i=1 (yi − y · ) 276 / 282 Methodenlehre II, SoSe 2015 Alternative Darstellung für die Semipartialkorrelationen I Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Man kann zeigen dass gilt: ry (x ·z) = rx ,y − rx ,z ry ,z q 1 − rx2,z (2) 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression Dabei ist I I I I rx ,y der Korrelationskoeffizient zwischen den Variablen x und y rx ,z der Korrelationskoeffizient zwischen den Variablen x und z ry ,z der Korrelationskoeffizient zwischen den Variablen y und z 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Bemerkung: I I I Die Semipartialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Werte von y linear vorhersagen kann. Die quadrierte Semipartialkorrelation ist der Anteil der Varianz von y , der durch die Variable x zusätzlich zu der Variablen z erklärt werden kann. Die Semipartialkorrelation ist immer kleiner als die Partialkorrelation. 277 / 282 Berechnung der Semipartialkorrelationen in Beispiel 2.42 I Lineare Regression von x bzgl. z x = 1.246z + 0.464 Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression I Regressionsresiduen und Beobachtungen x∗ 1,06 0,57 1,32 1,32 1,07 -0,19 -0,43 -0,68 -0,43 -1,19 0,07 -0,94 -3,92 0,07 2,32 y 8 12 14 13 14 8 9 12 8 9 14 7 10 12 12 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 278 / 282 Methodenlehre II, SoSe 2015 Holger Dette I ry (x ·z) = 0.43 I Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen. I Beachte: Mit den Werten I I I rx ,y = 0.89 rx ,z = 0.77 ry ,z = 0.80 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation kann man die Semipartialkorrelation ry (x ·z) auch mit Hilfe der Formel (2) berechnen. 279 / 282 Methodenlehre II, SoSe 2015 Semipartialkorrelationen in SPSS Holger Dette I I Die Semipartialkorrelationen (in SPSS heißen diese Teil-Korrelationen) werden (auf Wunsch) als Ergänzung zu den Kleinsten Quadrate-Schätzungen im multiplen linearen Regressionsmodell (vgl. 2.23) ausgegeben. Signifikanztest für die Semipartialkorrelationen fehlen. 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression a 2.3 Multiple lineare Regression Koeffizienten Nicht standardisierte Koeffizienten Modell 1 Regressions koeffizientB -1,469 Standardfehler 1,795 Alter ,510 ,328 Abstraktionsfähigkeit ,730 ,202 (Konstante) 2.4 Multikollinearität und Suppressionseffekte Standardisierte Koeffizienten Beta 2.5 Variablenselektion T -,818 Sig. ,429 ,289 1,555 ,146 ,671 3,615 ,004 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation a. Abhängige Variable: sensomotorische Koordination a Koeffizienten Korrelationen Modell 1 Alter Abstraktionsfähigkeit Nullter Ordnung ,803 Partiell ,410 Teil ,185 ,892 ,722 ,431 a. Abhängige Variable: sensomotorische Koordination 280 / 282 Methodenlehre II, SoSe 2015 Semipartialkorrelationen in R Holger Dette Call : 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests lm ( formula = y ˜ x + z ) 2. Korrelation, Lineare Regression und multiple Regression Residuals : 2.1 Korrelation 2.2 Lineare Regression Min 1Q Median 3Q Max -1.9145 -0.7943 0.1447 0.8599 1.3851 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) -1.4690 1.7955 -0.818 0.42922 x 0.7300 0.2019 3.615 0.00355 ** z 0.5104 0.3282 1.555 0.14590 --Signif . codes : 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 281 / 282 Bemerkung: Methodenlehre II, SoSe 2015 Holger Dette 1. Grundlegende Prinzipien der schließenden Statistik am Beispiel des t-Tests Ob ein Partial- oder Semipartialkorrelationskoeffizient zur Beschreibung eines Zusammenhangs gewählt wird, hängt von theoretischen Überlegungen ab: I I Beeinflusst eine dritte Variable (z) ursächlich” beide Variablen ” x und y Partialkorrelation Wird der Zusammenhang zwischen den Variablen x und y durch die dritte Variable z vermittelt” (z ist mit y korreliert und ” beeinflusst x ) Semipartialkorrelation 2. Korrelation, Lineare Regression und multiple Regression 2.1 Korrelation 2.2 Lineare Regression 2.3 Multiple lineare Regression 2.4 Multikollinearität und Suppressionseffekte 2.5 Variablenselektion 2.6 Nichtlineare Zusammenhänge 2.7 Partielle und Semipartielle Korrelation 282 / 282