Methodenlehre II, SoSe 2015 - Ruhr

Werbung
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Methodenlehre II,
SoSe 2015
2. Korrelation, Lineare
Regression und
multiple Regression
Holger Dette
Ruhr-Universität Bochum
4. Juni 2015
1 / 282
Methodenlehre II
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Prof. Dr. Holger Dette
I
NA 3/73
I
Telefon: 0234 322 8284
I
Email: [email protected]
I
Internet: http://www.ruhr-uni-bochum.de/mathematik3/
2. Korrelation, Lineare
Regression und
multiple Regression
http://www.ruhr-uni-bochum.de/mathematik3/dette.html
I
Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10
I
Thema: Das allgemeine lineare Modell und seine Anwendungen
in der Psychologie
2 / 282
Statistik-Team
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Übung: Dienstag, 12.15–13.15 Uhr, HZ0 70
Ria Van Hecke; [email protected]
Tutorium: SPSS
I
I
I
I
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Maxi Gödel::
Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO
03/974
Pia Brinkhaus:
Di 10:00-12:00 in UFO 01/06
Ricarda Weiland:
Mo 14:00-16:00 in GAFO 02/368
Di 08:00-10:00 in GAFO 02/368
Phillip Ozimek:
Do 14:00-16:00 in GAFO 03/901
Malte Kobelt:
Do 14:00-16:00 in GAFO 03/974
3 / 282
E-Learning
Methodenlehre II,
SoSe 2015
Holger Dette
Zur Unterstützung von Vorlesung und Übung gibt es einen
Blackboardkurs:
I
Kurs-ID: 112131-ss15
I
Kursbezeichnung: Statistische Methodenlehre II“
”
Passwort: mlehre2.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Dort gibt es:
I
Folien zu Vorlesung und Übung,
I
Übungsaufgaben und Tests, mit denen Bonuspunkte für die
Klausur erzielt werden können und
I
(zum Semesterende) eine Probeklausur.
4 / 282
Das allgemeine lineare Modell:
Ein mathematisches Modell - viele statistische
”
Verfahren“
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Inhaltsverzeichnis
1. Grundlegende Prinzipien der schließenden Statistik am Beispiel
des t-Tests
2. Das lineare Regressionsmodell, multiple Regression und
Korrelation
3. Das allgemeine“ lineare Modell
”
5 / 282
Literatur
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,
5th Edition, Pearson Prentice Hall
J. Bortz, Statistik, 6. Auflage, Springer
M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe
P. Zöfel, Statistik für Psychologen, Pearson Studium
6 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende Prinzipien der schließenden
Statistik am Beispiel des t-Tests
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
1.2 t-Test für eine Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
7 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
8 / 282
keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei
die Parameter der Verteilungen bekannt und man konnte unmittelbar loslegen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu
wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die
Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt
sind. In solch einer Situation kann man mit der beurteilenden Statistik
- aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits-
Beurteilende Statistik
"
U8ER.
PliS LJoUfl.J
WiR. WAS /.JiSSHJ:
(JI.!!) Wil<. HI/BEI.!
lJin ,zOM
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
iT,
f:rJf()lIlTIOIJ
'KüoCSCHwsr
fi{,E#./SCI(I/ PT!/..) J)ff(
GROM l>6lJ Af,rTHEi" i.X)'-
1
<1
G.iGEA/S(j{ltfrEN J)'(
X
gemeinsam mit Herrn Dr. Romberg.
(Oestreich & Romberg, 2012)
9 / 282
1.1 Beispiel: Intelligenzquotient
Methodenlehre II,
SoSe 2015
Holger Dette
Fragestellung: Haben (15-jährige) Kinder aus Bochum einen
höheren Intelligenzquotienten als 100?
I
10 Kinder (zufällig ausgewählt) machen einen IQ-Test
Daten: y1 , . . . , y10 Stichprobe
i
yi
i
yi
I
1
104
6
107
2
98
7
100
3
106
8
97
4
99
9
108
5
110
10
112
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Hypothese (IQ der Kinder ist niedriger als 100):
H0 : µ ≤ 100
Alternative (IQ ist höher als 100):
H1 : µ > 100
Dabei ist µ der (unbekannte) Erwartungswert der
Gesamtpopulation der (15-jährigen) Kinder aus Bochum
10 / 282
Prinzip der schließenden Statistik
Methodenlehre II,
SoSe 2015
Holger Dette
Auf Grund der Stichprobe y1 , . . . , y10 sollen Aussagen über das
Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
1.2 t-Test für eine
Stichprobe
Wie groß ist µ (Schätzung)?
1.3 Zweistichprobenprobleme
I
I
Kann man ein Intervall bestimmen, in dem µ liegt
(Konfidenzintervall)?
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Gilt
H0 : µ ≤ 100
(IQ ist nicht höher)
H1 : µ > 100
(IQ ist höher)?
oder gilt
(statistischer Test)
11 / 282
Grundlegende Schwierigkeit:
Methodenlehre II,
SoSe 2015
Holger Dette
I
µ ist der Erwartungswert der Population der 15-jährigen Kinder
I
Auf Basis der Stichprobe soll auf die Grundgesamtheit
geschlossen werden
−→ Fehler, Unsicherheiten sind möglich!
I
Beispiel: zufällig“ wählen wir 5 hochbegabte Kinder (IQ ≥ 130)
”
für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt!
I
Ziel der schließenden Statistik:
Quantifizierung der Unsicherheit, z. B.
mit welcher Wahrscheinlichkeit macht ein statistischer Test
einen Fehler, falls (aufgrund von Daten) für H1 (IQ ist höher als
100) entschieden wird, obwohl in Wirklichkeit H0 gilt?
I
Notwendig für diese Quantifizierung:
Mathematische Modellannahmen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
12 / 282
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Allgemein gängige Annahme: Intelligenz in einer bestimmten
Altersgruppe der Bevölkerung ist normalverteilt
1
1 x −µ 2
ϕ(x ) = √
)
exp − (
2
σ
2πσ 2
µ : Erwartungswert
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
σ 2 : Varianz
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Deutung: Ist Y der IQ eines zufällig aus der Population
ausgewählten Individuums, so gilt
Z
P(a ≤ Y ≤ b) =
b
ϕ(x )dx
a
I
Diese Modellannahme sollte man stets rechtfertigen (wie man
das machen kann, sehen wir später)
13 / 282
Interpretation der Wahrscheinlichkeiten:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a
I
I
b
Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den
Werten a und b liegt, entspricht der Fläche unter der Kurve im
Intervall [a, b].
In Formeln:
Z
b
P(a ≤ Y ≤ b) =
ϕ(x )dx
a
14 / 282
Verschiedene Normalverteilungen N(µ, σ 2 )
Methodenlehre II,
SoSe 2015
Holger Dette
Dichten der Normalverteilung mit verschiedenen Parametern
0.5
N(0,0.707)
N(0,1)
N(1,1.25)
N(2,2)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
2
4
6
I
µ: Erwartungswert
I
σ 2 : Varianz
I
Beachte: unter jeder Kurve ist die Fläche genau 1
15 / 282
Motivation der Modellannahme der
Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
16 / 282
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Mathematisches Modell (hier n = 10): y1 , . . . , yn sind
Realisierungen von Zufallsvariablen
Yi = µ + εi ,
i = 1, . . . , n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
I
I
I
I
yi : IQ-Messung für i-tes Kind
(Realisation der Zufallsvariablen Yi )
µ: (unbekannter) Erwartungswert der Population
(hier der 15-jährigen Kinder aus Bochum)
ε1 , . . . , εn : unabhängige Zufallsvariable, normalverteilt mit
Erwartungswert 0 und Varianz σ 2 .
Interpretation: Messfehler, genetische Variabilität, Tagesform ...
Mathematische Statistik z. B. Maximum Likelihood (in diesem
Beispiel auch der gesunde Menschenverstand) liefert Schätzer
für µ:
n
1X
yi = 104.1
µ̂ = y · =
n
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
I
Wie genau ist diese Schätzung? Wie sehr streut diese
Schätzung?
17 / 282
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
I
Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto
genauer“ die Schätzung)
”
Mathematische Statistik (Methodenlehre I): die Varianz des
Schätzers µ̂ ist:
σ2
Var (µ̂) =
n
Beachte:
I
I
I
Je größer der Stichprobenumfang n, desto kleiner die Varianz
von µ̂. D.h. desto genauer ist die Schätzung.
Für die Beurteilung der Genauigkeit muss man die Varianz σ 2
der Population kennen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Mathematische Statistik: Schätzung für den Parameter σ 2
n
σ̂ 2 =
1 X
(yi − y · )2 = 28.32
n − 1 i=1
σ̂µ2 =
σ̂ 2
= 2.832
n
18 / 282
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Oft wird der Schätzer zusammen mit dem Standardfehler
angegeben
µ̂ = 104.1
µ̂ + σ̂µ = 105.78
µ̂ − σ̂µ = 102.42
I
I
I
q
2
σ̂µ = √σ̂n = σ̂n = 1.683 ist der Standardfehler des Schätzers
µ̂ (Schätzung für Streuung des arithmetischen Mittels)
σ̂ = 5.322 ist die aus den Daten geschätzte
Standardabweichung (Schätzung für die Streuung einer
einzelnen Beobachtung)
Deutung: Vor der Datenerhebung ist µ̂ zufällig. Falls die
Normalverteilungsannahme korrekt ist, ist auch µ̂ normalverteilt
mit:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
- Erwartungswert µ
2
- Varianz σn
19 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
0.14
Verschiedene Normalverteilungen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Y1 ~ N (104.1, 28.32)
0.12
(Y1 + Y2)
2 ~ N (104.1, 28.32/2)
10
( ∑ Yi)
10 ~ N (104.1, 2.832)
0.08
1.4 Einfaktorielle
Varianzanalyse
0.02
0.04
0.06
2. Korrelation, Lineare
Regression und
multiple Regression
0.00
Dichte
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.10
i=
=1
1.1 Schätzer und
Konfidenzintervalle
40
60
80
100
120
140
160
x
20 / 282
Methodenlehre II,
SoSe 2015
1.2 Schätzverfahren (Erwartungswert einer Population
unter Normalverteilungsannahme)
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Pn
µ̂ = n1 i=1 yi Schätzung für den Erwartungswert µ der
Population
Pn
1
2
σ̂ 2 = n−1
i=1 (yi − y · ) Schätzung für die Varianz der
Population (σ̂ Schätzung für die Standardabweichung)
1.2 t-Test für eine
Stichprobe
I
I
σ̂ 2
n
I
σ̂µ2 =
I
Schätzung für den Standardfehler von µ̂ : σ̂µ =
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Schätzung für die Varianz von µ̂
q
σ̂ 2
n
=
σ̂
√
n
21 / 282
SPSS-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Deskriptive Statistik
N
Mittelwert
Statistik
Statistik
Standardfehler
Intelligenzquotient
10
104,10
1,683
Gültige Werte
(Listenweise)
10
1.2 t-Test für eine
Stichprobe
Standardabweichung
Varianz
Statistik
Statistik
5,322
28,322
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ = 104.1(Mittelwert)
σ̂µ = 1.683(Standardfehler)
σ̂ 2 = 28.322(empirische Varianz)
σ̂ = 5.322(Standardabweichung)
22 / 282
R-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
V1
median
105.0000000
mean
104.1000000
SE . mean
1.6829207
CI . mean .0.95
3.8070312
var
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
28.3222222
std . dev
5.3218627
coef . var
0.0511226
23 / 282
Beachte:
Methodenlehre II,
SoSe 2015
I
Holger Dette
µ̂ =
n
1X
yi ;
n i=1
n
σ̂ 2 =
1 X
(yi − y · )2 ;
n − 1 i=1
r
σ̂µ =
σ̂ 2
n
hängen von den Daten y1 , . . . , yn ab (sind also vor
Datenerhebung zufällig)
I
µ̂ − a σ̂µ , µ̂ + a σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ist (vor der Datenerhebung) ein zufälliges Intervall, das mit
einer bestimmten Wahrscheinlichkeit den Erwartungswert µ
enthält
I
a −→ 0
=⇒ Wahrscheinlichkeit ≈ 0
a −→ ∞
=⇒ Wahrscheinlichkeit ≈ 1
Gesucht: zufälliges Intervall, das den unbekannten
Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit
enthält: Konfidenzintervall
24 / 282
Das Konfidenzintervall
Methodenlehre II,
SoSe 2015
Holger Dette
I
Gebe eine Wahrscheinlichkeit 1 − α vor (z. B. 1 − α = 95%)
I
Bestimme a so, dass das zufällige Intervall
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
(µ̂ − a σ̂µ , µ̂ + a σ̂µ )
den Parameter µ mit Wahrscheinlichkeit 1 − α enthält.
I
Mathematische Statistik liefert
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a = tn−1,1− α2
(1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden
I
Diese Werte sind tabelliert oder durch Software verfügbar.
I
Das Intervall
I = µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ
heißt (1 − α) Konfidenzintervall für µ.
25 / 282
Methodenlehre II,
SoSe 2015
Verschiedene t-Verteilungen
Holger Dette
0.4
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
t 100
t4
t1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.3
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
1 Γ((n + 1)/2)
fn (t) = √
Γ(n/2)
πn
2
4
−(n+1)/2
t2
1+
n
26 / 282
Methodenlehre II,
SoSe 2015
Das Quantil der t-Verteilung mit n
Freiheitsgraden
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Dichte der t4 -Verteilung
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.95
t
-4
-2
0
Z
2
4, 0.95
= 2.132
4
t4,0.95
P(T4 ≤ t4,0.95 ) =
f4 (t)dt = 0.95
−∞
27 / 282
Beispiel 1.3 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Berechnung eines 90% Konfidenzintervalls für µ
µ̂ = 104.1,
2
I
n = 10,
σ̂ = 28.32
I
α = 10%
I
(aus Tabelle bzw. Software) t9,0.95 = 1.833
I
90% Konfidenzintervall für µ = (101.02, 107.18)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
I
Ein (1 − α)-Konfidenzintervall ist ein zufälliges“ Intervall, das
”
den (unbekannten) Erwartungswert mit Wahrscheinlichkeit
1 − α enthält.
Die Aussage das Intervall (101.02, 107.18) enthält den
”
unbekannten Erwartungswert der Population mit
Wahrscheinlichkeit 90%“ hat keinen Sinn!
28 / 282
Erklärung des Begriffs zufälliges“ Intervall durch
”
ein fiktives“ Experiment
”
I
I
Annahme: das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
jeweils 10 Daten liefern ein (1 − α)-Konfidenzintervall
(z. B. 95 % Konfidenzintervall)
Datensatz 1 −→ Konfidenzintervall I1
Datensatz 2 −→ Konfidenzintervall I2
..
.
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Konfidenzintervall IN
I
ca. (1 − α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den
(unbekannten) Erwartungswert µ der Population
29 / 282
Methodenlehre II,
SoSe 2015
1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Bestimme das tn−1,1− α2 Quantil der t-Verteilung mit n − 1
Freiheitsgraden (aus Tabelle oder Software)
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Das Intervall
(µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ )
ist ein (1 − α) Konfidenzintervall für µ
I
In vielen Softwarepaketen erhält man direkt das
Konfidenzintervall als Ausgabe (z. B. in SPSS)
30 / 282
SPSS-Output: Konfidenzintervall für die Daten
aus Beispiel 1.1 (Intelligenzquotient)
90% Konfidenzintervall der
Differenz
Intelligenzquotient
2,436
Sig. (2-seitig)
9
,038
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.2 t-Test für eine
Stichprobe
Testwert = 100
df
Holger Dette
1.1 Schätzer und
Konfidenzintervalle
Test bei einer Sichprobe
T
Methodenlehre II,
SoSe 2015
Mittlere
Differenz
4,100
Untere
1,02
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Obere
7,18
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur ein Konfidenzintervall für die Differenz µ − 100
=⇒ 90% Konfidenzintervall für den Erwartungswert µ
(101.02, 107.18)
31 / 282
R-Output: Konfidenzintervall für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
One Sample t - test
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
data :
IQ
t = 2.4362 , df = 9 , p - value = 0.0376
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
32 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.2 t-Test für eine Stichprobe
2. Korrelation, Lineare
Regression und
multiple Regression
33 / 282
Beispiel 1.5 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2015
Holger Dette
Frage: Ist der IQ der Kinder aus Bochum höher als 100?
H0 : µ ≤ 100
H1 : µ > 100
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
H0 nennt man Nullhypothese und H1 heißt Alternative.
I
I
I
Intuitiv würde man für H1 entscheiden, falls der Mittelwert der
Stichprobe
10
1 X
µ̂ =
yi
10 i=1
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
groß“ ist
”
Beachte: µ̂ ändert sich, falls man die Daten anders skaliert!
Besser: entscheide für H1 , falls µ̂ groß im Verhältnis zu dem
Standardfehler σ̂µ ist (Invarianz bzgl. unterschiedlicher
Skalierungen)
34 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls
T =
µ̂ − 100
>c
σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Fragen:
1.3 Zweistichprobenprobleme
I
Wie legt man den kritischen Wert c fest?
I
Bei dem Verfahren können 2 Fehler auftreten
I
Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl
H0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100)
I
Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,
obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ ist
höher als 100)
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ziel: kleine“ Wahrscheinlichkeiten für Fehler erster und zweiter Art
”
35 / 282
Grundlegendes Prinzip der Testtheorie
Methodenlehre II,
SoSe 2015
Holger Dette
I
Der kritische Wert c wird festgelegt, indem man eine maximal
tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art
vorgibt (α-Fehler)!
I
Diese Wahrscheinlichkeit heißt Niveau des Tests.
I
Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines
Fehlers zweiter Art (β-Fehler)
I
Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal
α = 5% = 0.05 sein.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
=⇒ (mathematische Statistik, Tabelle, Software)
n = 10, c = tn−1,1−α = t9,0.95 = 1.833
µ̂ − 100
104.1 − 100
T =
= 2.436 > 1.833
= √
σ̂µ
2.832
D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%
zu Gunsten der Alternative H1 : µ > 100 verworfen
(signifikantes Ergebnis zum Niveau 5 %)
36 / 282
Erklärung des Begriffs Niveau durch ein fiktives“
”
Experiment
I
Annahme: Das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α
(z.B. Niveau 5 %)
Datensatz 1 −→ Testergebnis 1
Datensatz 2 −→ Testergebnis 2
..
.
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Testergebnis N
I
Falls die Nullhypothese H0 : µ ≤ 100 wahr“ ist, so wird
”
maximal in ca. αN (z. B. 5% 1000 = 50) Fällen für die
Alternative
H1 : µ > 100
entschieden.
37 / 282
Fehler erster und zweiter Art
Methodenlehre II,
SoSe 2015
Holger Dette
Entscheidung aufgrund der Stichprobe zugunsten
von:
H0
H1
in der Population gilt
H0
H1
richtige
β-Fehler
Entscheidung
richtige
α-Fehler
Entscheidung
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
Die Wahrscheinlichkeiten für α-Fehler und β-Fehler verändern
sich gegenläufig.
I
Bei festem Niveau (Wahrscheinlichkeit für α-Fehler) kann die
Wahrscheinlichkeit für einen β-Fehler durch Vergrößerung des
Stichprobenumfangs verkleinert werden.
I
Bei festem Stichprobenumfang wird nur“ der Fehler erster Art
”
kontrolliert.
38 / 282
Die Verteilung von T falls µ = 100 ist.
Methodenlehre II,
SoSe 2015
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
0.2
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.1
p– Wert
0.0
α=5%
t
-3
I
I
I
I
-2
-1
0
9, 0.95
1
= 1.833
T n = 2.436
2
3
Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls T
größer als der kritische Wert ist)
Blaue Fläche: Niveau (α)
Rote Fläche: p-Wert: Wahrscheinlichkeit einen Wert größer als
2.436 zu beobachten: P(T > 2.436) = 0.0188
Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird
H0 abgelehnt (signifikantes Ergebnis)
39 / 282
Testverfahren für den Erwartungswert einer
Stichprobe unter Normalverteilungsannahme
1.6 Einstichproben t-Test für rechtsseitige Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Hypothesen: H0 : µ ≤ µ0 ;
Hypothese)
H1 : µ > µ0 (rechtsseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
> tn−1,1−α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
40 / 282
Vertauschen der Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1.7 Einstichproben t-Test für linksseitige Hypothesen
I
Hypothesen: H0 : µ ≥ µ0 ;
Hypothese)
H1 : µ < µ0 (linksseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
< −tn−1,1−α = tn−1,α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
41 / 282
Tests für zweiseitige Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1.8 Einstichproben t-Test für zweiseitige Hypothesen
I
Hypothesen: H0 : µ = µ0 ;
Hypothese)
H1 : µ 6= µ0 (zweiseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
|T | = |
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
| > tn−1,1−α/2
σ̂µ
gilt, bzw. falls der p-Wert kleiner als α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
42 / 282
Die Verteilung von T , falls µ = 100 ist.
Methodenlehre II,
SoSe 2015
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
1.4 Einfaktorielle
Varianzanalyse
p– Wert
0.1
p– Wert
α = 2,5 %
0.0
α = 2,5 %
2. Korrelation, Lineare
Regression und
multiple Regression
-T n = -2.436
-3
I
I
t
9, 0.025
-2
= -2.262
-1
t
0
1
9, 0.975
= 2.262
2
T n = 2.436
3
Blaue Fläche: Niveau α; Rote Fläche: p-Wert
(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag
größer als 2.436 ist P(|T | > 2.436) = 0.038
Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wird
H0 abgelehnt!
43 / 282
SPSS-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Test bei einer Sichprobe
1.3 Zweistichprobenprobleme
Testwert = 100
90% Konfidenzintervall der
Differenz
T
Intelligenzquotient
2,436
df
Sig. (2-seitig)
9
,038
Mittlere
Differenz
4,100
Untere
Obere
1,02
7,18
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur den p-Wert für den zweiseitigen t-Test aus
Beispiel 1.8!
I
Den p-Wert für den einseitigen Test erhält man als
0.038/2 = 0.019.
44 / 282
R-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
One Sample t - test
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
data :
IQ
t = 2.4362 , df = 9 , p - value = 0.0376
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
45 / 282
Methodenlehre II,
SoSe 2015
Beispiel: t-Test für den Vergleich von zwei
verbundenen“ Stichproben
”
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8
vorgestellten Verfahren besteht in dem Vergleich von
verbundenen“ Stichproben (vorher - nachher Untersuchungen)
”
Beispiel: Untersuchung der Einstellungen von 9 Jungen
gegenüber neutralen Personen vor und nach einem
Frustrationserlebnis (Sündenbockfunktion).
Einstellung
VPn
vorher
nachher
∆
1
38
33
-5
2
32
28
-4
3
33
34
1
4
28
26
-2
5
29
27
-2
6
37
31
-6
7
35
32
-3
8
35
36
1
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
9
34
30
-4
46 / 282
Prinzip: Differenzenbildung“
”
I
Prinzip:
I
I
I
I
Falls kein Unterschied zwischen den Einstellungen vor und nach
dem Frustrationserlebnis besteht sollten die Differenzen (nachher
- vorher) klein“ sein.
”
Durch Differenzenbildung (nachher - vorher) erhält man die
Daten“ ∆1 , . . . , ∆9
”
Rechtfertigung der Voraussetzungen für den t-Test aus 1.8 für
diese Daten“.
”
Wende den t-Test für eine Stichprobe auf die Daten“
”
∆1 , . . . , ∆9 an und teste die Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
H0 : µ = 0, H1 : µ 6= 0
I
Wegen
−2.667 = 3.27 > 2.31 = t8,0.975
|T | = 0.816 besteht zum Niveau α = 0.05 ein signifikanter Unterschied.
47 / 282
SPSS-Output: t-Test für gepaarte Stichproben
Methodenlehre II,
SoSe 2015
Holger Dette
Statistik bei gepaarten Stichproben
Mittelwert
Paaren 1
N
Standardabweichung
Standardfehler
des Mittelwertes
vorher
33,44
9
3,358
1,119
nachher
30,78
9
3,346
1,115
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Korrelationen bei gepaarten Stichproben
N
Paaren 1
vorher & nachher
9
Korrelation
Signifikanz
,733
,025
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Test bei gepaarten Stichproben
Gepaarte Differenzen
95%
Konfidenzintervall
der Differenz
Paaren 1
Mittelwert
Standardabweichung
Standardfehler
des Mittelwertes
Untere
Obere
2,667
2,449
,816
,784
4,550
vorher - nachher
Test bei gepaarten Stichproben
T
Paaren 1
vorher - nachher
3,266
df
8
Sig.
(2-seitig)
,011
48 / 282
R-Output: t-Test für gepaarte Stichproben
Methodenlehre II,
SoSe 2015
Holger Dette
Mittelwert St a nd ar d a b w e i c h u n g SA des Mittelwerts
vorher
33.44444
3.35824
1.119413
nachher
30.77778
3.34581
1.115270
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
One Sample t - test
data :
Differenzen
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
t = 3.266 , df = 8 , p - value = 0.01142
alternative hypothesis : true mean is not equal to 0
95 percent confidence interval :
0.7838222 4.5495112
sample estimates :
mean of x
2.666667
49 / 282
1.9 Bemerkungen (zu den statistischen Verfahren
1.2, 1.4, 1.6, 1.7, 1.8)
I
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Mathematische Statistik ⇒ unter der Normalverteilungsannahme
sind alle hier vorgestellten Verfahren optimal
1.1 Schätzer und
Konfidenzintervalle
Die Normalverteilungsannahme kann (und sollte) man
rechtfertigen. Mögliche Verfahren sind:
1.3 Zweistichprobenprobleme
I
statistische Tests für die Hypothese
H0 : Y1 , . . . , Yn
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
normalverteilt
In SPSS üblich sind
- Kolmogorov-Smirnov-Test
- Shapiro-Wilk Test
I
I
Explorative Verfahren. In SPSS üblich: QQ-Plot
Besteht die Normalverteilungsannahme diese Überprüfung nicht,
so sind z. B. nichtparametrische Verfahren anzuwenden.
50 / 282
Methodenlehre II,
SoSe 2015
SPSS Output: QQ-Plot für die Daten aus
Beispiel 1.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Q-Q-Diagramm von Normal von Intelligenzquotient
1.2 t-Test für eine
Stichprobe
115
1.3 Zweistichprobenprobleme
Erwarteter Wert von Normal
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
110
105
100
95
95
100
105
Beobachteter Wert
110
115
51 / 282
R Output: QQ-Plot für die Daten aus Beispiel 1.1
Methodenlehre II,
SoSe 2015
Holger Dette
●
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
110
1.2 t-Test für eine
Stichprobe
●
1.4 Einfaktorielle
Varianzanalyse
●
2. Korrelation, Lineare
Regression und
multiple Regression
105
●
●
●
●
100
●
●
95
Erwarteter Wert
1.3 Zweistichprobenprobleme
●
100
105
110
Beobachteter Wert
52 / 282
Methodenlehre II,
SoSe 2015
Der QQ-Plot
Holger Dette
I
I
Unter der Modellannahme gilt: die Größen Yi sind normalverteilt
mit Erwartungswert µ und Varianz σ 2
Der QQ-Plot vergleicht grafisch die empirischen Quantile der
Daten“ y1 , . . . , yn mit den Quantilen der Normalverteilung mit
”
Erwartungswert
µ̂ und Varianz σ̂ 2 .
(1) 1/n-Quantil der Stichprobe y1 , . . . yn =⇒ kleinste der
Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)
(1 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (im Beispiel 1.1 ist
z(1) = 104.1 − 1.64 · 5.32 = 95.37)1
(2) 2/n-Quantil der Stichprobe y1 , . . . , yn =⇒ zweitkleinste der
Beobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)
(2 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (in Beispiel 1.1 ist
z(2) = 104.1 − 1.04 · 5.32 = 98.57)
(3) usw.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Der QQ-Plot ist das Streudiagramm der Daten
(y(1) , z(1) ), . . . , (y(n) , z(n) )
I
In in vielen Fällen enthält dieses Diagramm noch die
Winkelhalbierende des entsprechenden Quadranten.
1 http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf
53 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.3 Zweistichprobenprobleme
2. Korrelation, Lineare
Regression und
multiple Regression
54 / 282
1.10 Beispiel: Erkennen von Zahlenreihen
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Studierende der Fachrichtungen Mathematik (M) und
Psychologie (P) machen einen Zahlengedächtnistest
I
Wie viele Ziffern können sich maximal gemerkt werden
I
Wiedergabe in Original und umgekehrter Reihenfolge
I
14
13
14
14
14
17
15
13
15
12
12
13
13
16
16
19
16
13
17
10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Daten (P. Zöfel: Statistik für Psychologen)
M
P
M
P
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
13
16
Frage: Haben Studierende der Mathematik ein besseres
Zahlengedächtnis als Studierende der Psychologie?
55 / 282
Mathematisches Modell (n1 = 14, n2 = 8)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie i = 2)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2)
εij : Messfehler, Tagesform ...
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ni : Stichprobenumfang in Gruppe i
I
Normalverteilungs- und Unabhängigkeitsannahme
I
in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit
Erwartungswert µi und Varianz σi2 vor
I
in jeder Gruppe sind die Beobachtungen unabhängig
I
unabhängige Stichproben
56 / 282
Methodenlehre II,
SoSe 2015
Schätzer
Holger Dette
I
Schätzer werden wie in 1.2 für jede Gruppe
Pn1 durchgeführt
Mathematiker (i = 1): µ̂1 = y 1· = n11 j=1
y1j = 14.64
s
n1
X
1
σ̂12
= 0.53
σ̂12 =
(y1j − y 1· )2 = 3.94 ⇒ σ̂µ1 =
n1 − 1 j=1
n1
Psychologen (i = 2): µ̂2 = y 2· =
σ̂22 =
I
1
n2 − 1
n2
X
j=1
1
n2
n2
P
j=1
(y2j − y 2· )2 = 4.79 ⇒ σ̂µ2 =
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
y2j = 13.75
s
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
σ̂22
= 0.77
n2
2. Korrelation, Lineare
Regression und
multiple Regression
Auch Konfidenzbereiche werden gruppenweise bestimmt
z. B. ist unter Normalverteilungsannahme
µ̂1 − tn1 −1,1− α2 σ̂µ1 , µ̂1 + tn1 −1,1− α2 σ̂µ1
ein 90% Konfidenzintervall für µ1 . Für das spezielle
Datenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (aus
Tabelle)]
(13.70, 15.58) als 90% Konfidenzintervall für µ1
57 / 282
SPSS-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
Schätzer für die Parameter in den einzelnen Gruppen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Gemerkte Zahlen
1.2 t-Test für eine
Stichprobe
Studienfach
Mathematik
Mittelwert
Varianz
14,64
3,940
Psychologie
13,75
4,786
Insgesamt
14,32
4,227
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert hier die Schätzer für Erwartungswert und Varianz
der einzelnen Gruppen
I
SPSS liefert außerdem Schätzer für Erwartungswert und Varianz
der gesamten Stichprobe
58 / 282
R-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Schätzer für die Parameter in den einzelnen Gruppen
Mittelwert
Varianz
Mathematik
14.64286 3.939560
Psychologie
13.75000 4.785714
Insgesamt
14.31818 4.227273
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
59 / 282
Tests zum Vergleich der Erwartungswerte
Methodenlehre II,
SoSe 2015
Holger Dette
I
Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist
nicht schlechter als das der Mathematikstudenten
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
H0 : µ1 ≤ µ2
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
Alternative: Zahlengedächtnis der Mathematikstudenten ist
besser als das der Psychologiestudenten
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : µ1 > µ2
I
Rezept: Verwerfe die Nullhypothese H0 zu Gunsten der
Alternative H1 , falls die Differenz
y 1· − y 2·
der Schätzer für die Erwartungswerte groß“ ist.
”
60 / 282
Rezept im Fall von Varianzhomogenität, d. h.
(σ12 = σ22 )
I
I
Verwerfe H0 zu Gunsten von H1 , falls y 1· − y 2· groß“ ist.
”
Normiere diese Größe mit einem Schätzer für die Standardfehler
der Mittelwertdifferenz:
q
I
I
I
1
)σ̂ 2
n2
1
{(n1 − 1)σ̂12
n1 +n2 −2
σ̂µ1 −µ2 =
2
( n11 +
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1)σ̂22 }:
+ (n2 −
σ̂ =
(die in beiden Gruppen dieselbe ist)
Schätzer für Varianz
Entscheide für die Alternative H1 : µ1 > µ2 , falls
Tn1 ,n2 =
Methodenlehre II,
SoSe 2015
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
gilt. Dabei ist tn1 +n2 −2,1−α das (1 − α)-Quantil der t-Verteilung
mit n1 + n2 − 2 Freiheitsgraden
Im Beispiel ergibt sich für einen Test zum Niveau α = 5%
σ̂ 2 = 4.24,
t20,0.95 = 1.725 =⇒ T14,8 = 0.979
d. h. die Hypothese H0 kann nicht verworfen werden.
61 / 282
Testverfahren für die Erwartungswerte von zwei
Stichproben unter Normalverteilungsannahme
1.11(a) Einseitiger t-Test für zwei unabhängige Stichproben (rechtsseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten der
Alternative H1 : µ1 > µ2 verworfen, falls
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
62 / 282
Methodenlehre II,
SoSe 2015
1.11(b) Einseitiger t-Test für zwei unabhängige Stichproben (linksseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten der
Alternative H1 : µ1 < µ2 verworfen, falls
y 1· − y 2·
< −tn1 +n2 −2,1−α = tn1 +n2 −2,α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
63 / 282
1.11(c) t-Test für zwei unabhängige Stichproben (zweiseitige Hypothesen)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied der
Erwartungswerte in beiden Gruppen) wird zu Gunsten der
Alternative H1 : µ1 6= µ2 verworfen, falls
|y 1· − y 2· |
> tn1 +n2 −2,1− α2
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
|Tn1 ,n2 | =
64 / 282
Bemerkung zur Varianzhomogenität
Methodenlehre II,
SoSe 2015
Holger Dette
Ist die Annahme der Varianzhomogenität
σ12 = σ22
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
nicht erfüllt, so
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht
eingehalten (der Test hält sein Niveau nicht)
I
ist die Wahrscheinlichkeit für einen β-Fehler größer
I
von Interesse ist daher auch ein Test für die Hypothesen
H0 : σ12 = σ22
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : σ12 6= σ22
und ein Verfahren, das ohne die Annahme der
Varianzhomogenität auskommt.
65 / 282
Rezept (für Test auf Varianzhomogenität)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Die Nullhypothese H0 : σ12 = σ22 gilt genau dann, wenn
F =
I
I
σ12
=1
σ22
Schätze den Quotienten der beiden Varianzen, durch
Pn1
1
2
σ̂12
j=1 (y1j − y 1· )
n1 −1
Fn1 −1,n2 −1 = 2 = 1 Pn2
2
σ̂2
j=1 (y2j − y 2· )
n2 −1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 wird zu Gunsten der Alternative
H1 : σ12 6= σ22 verworfen, falls
Fn1 −1,n2 −1 > c2
oder Fn1 −1,n2 −1 < c1
gilt
I
Die kritischen Werte c1 und c2 werden so festgelegt, dass die
Wahrscheinlichkeit für einen Fehler erster Art maximal α ist!
66 / 282
1.12 F -Test für den Vergleich von zwei Stichprobenvarianzen
I
Teststatistik
Fn1 −1,n2 −1
I
σ̂ 2
= 12
σ̂2
Die Nullhypothese
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
H0 :
σ12
=
σ22
(die Varianzen sind gleich) wird zu Gunsten der Alternative
H1 :
σ12
6=
σ22
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
verworfen, falls mindestens eine der Ungleichungen
Fn1 −1,n2 −1 < Fn1 −1,n2 −1, α2
Fn1 −1,n2 −1 > Fn1 −1,n2 −1,1− α2
erfüllt ist
I
Fn1 −1,n2 −1,β bezeichnet das β-Quantil der F -Verteilung mit
(n1 − 1, n2 − 1) Freiheitsgraden
67 / 282
Methodenlehre II,
SoSe 2015
Verschiedene F -Verteilungen
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.0
Dichten der F– Verteilung mit verschiedenen Freiheitsgraden
1.1 Schätzer und
Konfidenzintervalle
F2, 10
F4, 4
F10, 1
F20, 20
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.6
1.4 Einfaktorielle
Varianzanalyse
0.0
0.2
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0
1
2
3
4
5
m
fm,n (x ) =
m m2
Γ( m+n
x 2 −1
2 )
m+n
m
n
Γ( 2 )Γ( 2 ) 2
(1 + mn x ) 2
(x ≥ 0)
68 / 282
Das Quantil der F -Verteilung mit (n1 , n2 )
Freiheitsgraden
Dichte der F4, 4 -Verteilung
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.6
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.5
1.4 Einfaktorielle
Varianzanalyse
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.3
0.9
F
0
1
2
3
Z
4, 4; 0.9
4
= 4.107
5
F4,4,0.9
P(F4,4 , ≤ F4,4,0.9 ) =
fm,n (x ) dx = 0.90
−∞
69 / 282
Der F -Test auf Varianzhomogenität für die
Daten aus Beispiel 1.10 (n1 = 14, n2 = 8)
I
σ̂12 = 3.94 σ̂22 = 4.79
I
Für das Niveau α = 10% erhält man
⇒
F13,7 = 0.823
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
F13,7,0.05 = 0.3531
F13,7,0.95 = 3.5503
und damit kann die Nullhypothese zum Niveau 10% nicht
verworfen werden
I
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte: Oft wird der Test 1.12 verwendet, um die
Voraussetzungen für den t-Test zu überprüfen
I
I
I
1.4 Einfaktorielle
Varianzanalyse
In diesem Fall wählt man oft ein größeres Niveau (→ kleinere
Wahrscheinlichkeit für β-Fehler)
Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann
t-Test) hat nicht das Niveau α.
Was macht man, falls F -Test H0 verwirft?
70 / 282
Methodenlehre II,
SoSe 2015
1.13(a) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
I
Varianzen in den Gruppen sind nicht notwendig gleich
I
Teststatistik
TnW1 ,n2 =
I
Dabei ist
√
τ̂ =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
τ̂
s
τ̂ 2 =
Holger Dette
σ̂12
σ̂ 2
+ 2
n1
n2
die Schätzung für den Standardfehler von y 1· − y 2·
71 / 282
Methodenlehre II,
SoSe 2015
1.13(b) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≤ µ2
(Erwartungswert der ersten Population nicht größer als der
der Zweiten) wird zu Gunsten der Alternative
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 > µ2
2. Korrelation, Lineare
Regression und
multiple Regression
falls
TnW1 ,n2 > tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
72 / 282
1.13(c) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≥ µ2
(Erwartungswert der ersten Population nicht kleiner als der
der Zweiten) wird zu Gunsten der Alternative
H1 : µ1 < µ2
verworfen, falls
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
TnW1 ,n2 < tfˆ,α = −tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
73 / 282
1.13(d) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Die Nullhypothese
H0 : µ1 = µ2
1.1 Schätzer und
Konfidenzintervalle
(kein Unterschied der Erwartungswerte in beiden Gruppen)
wird zu Gunsten der Alternative
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 6= µ2
(es besteht ein Unterschied) verworfen, falls
2. Korrelation, Lineare
Regression und
multiple Regression
|TnW1 ,n2 | > tfˆ,1− α
2
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
74 / 282
Bemerkung: t-Test oder Welch-Test?
Methodenlehre II,
SoSe 2015
Holger Dette
I
Sind die Voraussetzungen für den t-Test erfüllt
(Normalverteilung, Unabhängigkeit, Varianzhomogenität),
so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter
allen Tests zum Niveau α die Wahrscheinlichkeit für einen
β-Fehler.
I
Ist die Voraussetzungen der Varianzhomogenität beim t-Test
nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für
einen α-Fehler nicht eingehalten.
I
Der Welch-Test ist eine Näherungslösung“, d. h. die
”
Wahrscheinlichkeit für einen α-Fehler ist nur“
”
näherungsweise α.
I
Der Welch-Test hat im Fall der Varianzhomogenität eine größere
Wahrscheinlichkeit für einen β-Fehler als der t-Test.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
75 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output für die Daten aus Beispiel 1.10
Holger Dette
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
F
Gemerkte Zahlen
Varianzen sind gleich
T-Test für die Mittelwertgleichheit
Signifikanz
,103
,752
Varianzen sind nicht gleich
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
T
df
1.1 Schätzer und
Konfidenzintervalle
Sig. (2-seitig)
,979
20
,339
,952
13,523
,358
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Test bei unabhängigen Stichproben
1.4 Einfaktorielle
Varianzanalyse
T-Test für die Mittelwertgleichheit
95% Konfidenzintervall der
Differenz
Mittlere
Differenz
Gemerkte Zahlen
Standardfehler
der Differenz
Untere
Obere
Varianzen sind gleich
,893
,912
-1,010
2,796
Varianzen sind nicht gleich
,893
,938
-1,125
2,911
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenität
sondern ein robustes“ Verfahren (Levene-Test)
”
I SPSS liefert nur einen p-Wert für den zweiseitigen t-Test aus Beispiel
1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)
I SPSS liefert ein Konfidenzintervall für die Differenz µ1 − µ2 =⇒ 95%
Konfidenzintervall für die Differenz der Erwartungswerte (unter der
Annahme gleicher Varianzen)
(−1.01, 2.796)
76 / 282
R-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
Levene ’ s Test for Homogeneity of Variance ( center = mean )
Df F value Pr ( > F )
group
1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.103 0.7516
1.2 t-Test für eine
Stichprobe
20
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Two Sample t - test
data :
values by ind
t = 0.9789 , df = 20 , p - value = 0.3393
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
-1.009852
2.795566
sample estimates :
mean in group M mean in group P
14.64286
13.75000
77 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.4 Einfaktorielle Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
78 / 282
1.14 Beispiel: Fortsetzung von Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch
noch 7 Studierende der Geisteswissenschaften (G) teil.
M 14 14 15 12 13 19 17 13
P 13 14 13 12 16 16 10 16
G 11 13 13 10 13 12 13
M 14 17 15 13 16 13
P
G
-
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Frage: Existieren Unterschiede hinsichtlich des
Zahlengedächtnisses zwischen dem Studierenden der
Psychologie, Mathematik und Geisteswissenschaften?
79 / 282
Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2, 3
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
εij : Störgrößen (Erwartungswert 0 und Varianz σ 2 )
I
Normalverteilungs und Unabhängigkeitsannahme
I
I
I
I
in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit
Erwartungswert µi vor
in jeder Gruppe sind die Beobachtungen unabhängig
unabhängige Stichproben
Nullhypothese
H0 : µ1 = µ2 = µ3
80 / 282
Methodenlehre II,
SoSe 2015
Schätzer und Konfidenzbereiche
Holger Dette
I
Schätzer für Erwartungswert und Varianz werden in den
einzelnen Gruppen durchgeführt
I
Beispiel:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Mathematik (i = 1)
Psychologie (i = 2)
Geisteswissenschaften (i = 3)
y i·
14.64
13.75
12.14
σ̂i2
3.94
4.79
1.48
σ̂µi
0.53
0.60
0.46
I
µ̂1 = 14.64 ist Schätzer für den Erwartungswert der
”
Mathematiker“
I
Beachte: t6,0.95 = 1.943, µ̂3 + σ̂µ3 t6,0.95 = 13.03
µ̂3 − σ̂µ3 t6,0.95 = 11.25, also ist das Intervall
ni
14
8
7
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
[11.25, 13.03]
ein 90% Konfidenzintervall für den Erwartungswert der
”
Geisteswissenschaftler“
81 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
1.4 Einfaktorielle
Varianzanalyse
Studienfach
Mathematik
Mittelwert
Varianz
Standardfehler
des Mittelwertes
14,64
3,940
,530
14
Psychologie
13,75
4,786
,773
8
Geisteswissenschaften
12,14
1,476
,459
7
Insgesamt
13,79
4,384
,389
29
N
2. Korrelation, Lineare
Regression und
multiple Regression
82 / 282
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Mittelwert
Varianz SF des Mittelwerts
N
Mathematik
14.64286 3.939560
0.5304688 14
Psychologie
13.75000 4.785714
0.7734431
8
Geisteswissenschaften
12.14286 1.476190
0.4592215
7
Insgesamt
13.79310 4.384236
0.3888195 29
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
83 / 282
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Ziel: Test für die Hypothese es bestehen keine Unterschiede
”
zwischen den Gruppen“
H0 : µ1 = µ2 = µ3
I
Idee: Bestimme die Streuung der Daten:
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mittelwert aus allen Daten:
ni
3
1 XX
y ·· =
yij
n
i=1 j=1
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungen
bezeichnet.
Varianz (n = n1 + n2 + n3 )
ni
3
1 XX
(yij − y ·· )2
n−1
i=1 j=1
und versuche Unterschiede in der Merkfähigkeit aufgrund der
Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl.
der Gruppen zu erklären!
84 / 282
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Zerlegung der Summe der Quadrate
I
Häufig verwendete Abkürzungen: SS ≡ Sum of squares;
SAQ ≡ Summe der Abweichungsquadrate
I
Summe der Quadrate innerhalb der Gruppen (within groups)
SSR =
ni
3 X
X
(yij − y i· )2
i=1 j=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und
y i· =
ni
1 X
yij
ni
j=1
I
den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet.
Summe der Quadrate zwischen den Gruppen (between groups)
SSM =
3
X
ni (y i· − y ·· )2
i=1
85 / 282
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Zerlege die Summe der Quadrate in eine durch das Modell
erklärte Summe (Varianz zwischen den Gruppen) und eine
Summe von Quadraten der nicht erklärten Varianz (Varianz
innerhalb der Gruppen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
SST =
ni
3 X
X
(yij − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1 j=1
|
{z
}
Gesamtvarianz (Total)
=
ni
3 X
X
(yij − y i· )2
i=1 j=1
|
+
3
X
ni (y i· − y ·· )2
i=1
{z
}
Gesamtvarianz innerhalb der Gruppen
|
{z
}
Varianz zwischen den Gruppen
86 / 282
F -Test für die Hypothese H0 : µ1 = µ2 = µ3
(gleiche Erwartungswerte in den drei Gruppen)
I
Vergleiche die Varianz zwischen den Gruppen mit der Varianz
innerhalb der Gruppen
3
1
2
i=1 ni (y i· − y ·· )
3−1
P
P
n
3
i
1
2
i=1
j=1 (yij − y i· )
29−3
P
F =
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Falls F groß“ ist, wird die Nullhypothese H0 abgelehnt.
”
Mathematische Statistik ⇒ Test zum Niveau α verwirft die
Nullhypothese H0 , falls
F > F2,26,1−α
gilt (Vergleich mit dem (1 − α)-Quantil der F -Verteilung mit (2,
26) Freiheitsgraden), bzw. falls der zugehörige p-Wert des Tests
kleiner als α ist.
87 / 282
Beispiel 1.15 (Fortsetzung von Beispiel 1.14)
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Frage: besteht ein Unterschied zwischen den Studierenden der
”
Fächer Psychologie, Mathematik und Geisteswissenschaften
bzgl. des Zahlengedächtnisses“
Genauer: Besteht ein Unterschied zwischen den
Erwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3
n1 = 14, n2 = 8, n3 = 7;
α = 5%
F2,26,0.95 = 3.37
SSM /2
14.6
F̂ =
=
= 4.06 > 3.37
SSR /26
3.6
I
D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%
abgelehnt.
I
In anderen Worten: zwischen den Studierenden der
verschiedenen Fächer besteht ein Unterschied
I
Beachte: In vielen Fällen ist man an der Frage interessiert,
zwischen welchen Gruppen ein Unterschied besteht. Diese Frage
beantwortet der F -Test nicht!
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
88 / 282
Methodenlehre II,
SoSe 2015
F -Verteilung
Holger Dette
Dichte der F2,26 − Verteilung
1.0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.2
Dichte
0.6
1.4 Einfaktorielle
Varianzanalyse
^
F2,26,0.95 = 3.37 F
= 4.06
0
1
2
3
4
5
x
http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm
89 / 282
Methodenlehre II,
SoSe 2015
F -Verteilung
Dichte der F2,26 − Verteilung (Zoom)
0.15
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
0.10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
0.05
α = 5%
2. Korrelation, Lineare
Regression und
multiple Regression
p−Wert
0.00
Dichte
1.3 Zweistichprobenprobleme
F2,26,0.95 = 3.37
2.5
3.0
3.5
^
F = 4.06
4.0
4.5
5.0
x
I
Blaue Fläche: Niveau des Tests
I
Rote Fläche: p-Wert (Wahrscheinlichkeit, dass ein Wert größer
als F̂ = 4.06 beobachtet wird)
90 / 282
Varianzanalysetabelle (k bezeichnet die Anzahl
der Gruppen)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Variabilität
Sum of Squares
df
SSM
SSR
SST
k −1
n−k
n−1
zwischen
innerhalb
gesamt
SS/df
SSM /(k − 1)
SSR /(n − k)
SST /(n − 1)
F
SSM
k−1
/
1.2 t-Test für eine
Stichprobe
SSR
n−k
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beispiel (Zahlengedächtnis)
Variabilität
zwischen
innerhalb
gesamt
Sum of Squares
29.2
93.6
122.8
df
2
26
28
SS/df
14.6
3.6
F
4.06
91 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
Quadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
Mittel der
Quadrate
df
29,187
2
14,594
93,571
26
3,599
122,759
28
1.4 Einfaktorielle
Varianzanalyse
F
4,055
Signifikanz
,029
2. Korrelation, Lineare
Regression und
multiple Regression
92 / 282
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Df Sum Sq Mean Sq F value Pr ( > F )
ind
Residuals
2
29.19
14.594
26
93.57
3.599
1.4 Einfaktorielle
Varianzanalyse
4.055 0.0293 *
2. Korrelation, Lineare
Regression und
multiple Regression
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
93 / 282
Beispiel 1.16 (Fortsetzung von Beispiel 1.15)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Bei signifikantem Ergebnis der Varianzanalyse (d. h. die
Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich
die Frage:
Welche Gruppe ist maßgeblich für die Signifikanz
”
verantwortlich?“
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
I
I
I
Lösungsvorschlag: paarweise Vergleiche!
Gruppe 1 - Gruppe 2; H12 : µ1 = µ2
Gruppe 1 - Gruppe 3; H13 : µ1 = µ3
Gruppe 2 - Gruppe 3; H23 : µ2 = µ3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.
1.11(b)) durchgeführt.
Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die
Hypothese H0 : µ1 = µ2 = µ3 , falls mindestens ein Paarvergleich
signifikant ist das Niveau α einhält.
Die t-Tests für die paarweisen Vergleiche sind mit Niveau α/3
durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche
durchgeführt werden (Bonferroni-Methode)
94 / 282
Paarweise Vergleiche (α = 5%):
Methodenlehre II,
SoSe 2015
Holger Dette
I
Zwei-Stichproben t-Test-Statistik für den Vergleich von Gruppe
i mit Gruppe j:
|Yi· − Yj· |
σ̂ij
1
1 1
σ̂ij2 =
+
{(ni − 1)σ̂i2 + (nj − 1)σ̂j2 }
ni
nj
ni + nj − 2
Ti,j =
I
I
I
i j
Ti,j
ni nj tni +nj −2,1−α0 /2 p-Wert signifikant
1 2 0.98 14 8
2.61
0.339
nein
1 3 3.04 14 7
2.62
0.007
ja
2 3 1.72
8 7
2.74
0.109
nein
Beachte: Die paarweisen Vergleiche werden zum Niveau
α0 = α/3 = 5%/3 = 0.0167 durchgeführt ( 3 Vergleiche).
Mit dieser Methode kann man zum Niveau 5% einen
signifikanten Unterschied zwischen den Gruppen feststellen.
Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau
des Verfahrens wird unterschätzt).
Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren
nicht zu empfehlen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
95 / 282
Post-Hoc-Test Bonferroni“ in SPSS
”
I
Verwendet andere Schätzung für den Standardfehler der
Differenz der Mittelwerte aus Gruppe i und j:
!
3
1
1
1 X
2
2
σ̄ij =
+
(nk − 1)σ̂k
ni
nj
n−3
k=1
I
An Stelle der Quantile der t-Verteilung mit ni + nj − 2
Freiheitsgraden müssen dann die Quantile der t-Verteilung mit
n − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3 )
I
Das Niveau für die Paarvergleiche muss dann wieder durch die
Anzahl der Vergleiche dividiert werden (im Beispiel α/3)
I
Adjustierung der p-Werte erfolgt durch Multiplikation der
p-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.
Z. B.
0.894 = 3 · P(|T12 | > 0.893/0.841)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei berechnet sich die Wahrscheinlichkeit mit einer
t-Verteilung mit 26 = 29 − 3 Freiheitsgraden.
96 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output paarweise Vergleiche mit der
Bonferroni-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Bonferroni
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Mathematik
Geisteswissenschaften
Geisteswissenschaften
Mathematik
Psychologie
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,894
-1,26
3,04
,878
,026
,25
4,75
,841
,894
-3,04
1,26
2,500
*
-,893
1,607
-2,500
*
-1,607
,982
,341
-,91
4,12
,878
,026
-4,75
-,25
,982
,341
-4,12
,91
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
97 / 282
R-Output paarweise Vergleiche mit der
Bonferroni-Methode
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Pairwise comparisons using t tests with pooled SD
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
data :
1
MPG and group
2. Korrelation, Lineare
Regression und
multiple Regression
2
2 0.894 3 0.026 0.341
P value adjustment method : bonferroni
98 / 282
Scheffé-Methode (α = 5%)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Für den Vergleich der Gruppe i mit j betrachte:
s
3−1
1
1
ds (i, j) =
SSR · F2,26,0.95 ( + )
29 − 3
ni
nj
s
s
2
1
1
1
1
=
· 93.6 · 3.37( + ) = 4.93
+
26
ni
nj
ni
nj
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und vergleiche diese Größe mit Mittelwertdifferenz |y i· − y j· |
I
Ergebnis (Niveau 5%)
i
1
1
2
j
2
3
3
|y i· − y j· |
0.89
2.5
1.61
ds (i, j)
2.18
2.28
2.55
Ergebnis
kein sign. Unterschied
y 1· sign. größer als y 3·
kein sign. Unterschied
99 / 282
Einige Bemerkungen zur Scheffé-Methode:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit
eines α-Fehlers für jeden beliebigen a-posteriori durchgeführten
Einzelvergleichstests nicht größer ist als der α-Fehler des
F -Tests
I
Kurz: Die Signifikanzaussagen gelten simultan für ALLE
Paarvergleiche mit dem Gesamtniveau α
I
Die Scheffé-Methode ist ein konservatives Verfahren
I
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als das
vorgegebene Niveau
Man entscheidet tendenziell eher zu oft für H0
100 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output paarweise Vergleiche mit der
Scheffé-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Scheffé-Prozedur
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Geisteswissenschaften
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,576
-1,29
3,08
,878
,029
,22
4,78
Mathematik
-,893
,841
,576
-3,08
1,29
Geisteswissenschaften
1,607
,982
,279
-,94
4,16
,878
,029
-4,78
-,22
,982
,279
-4,16
,94
Mathematik
Psychologie
2,500
*
-2,500
*
-1,607
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
101 / 282
R-Output paarweise Vergleiche mit der
Scheffé-Methode
Scheffe Test for values
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Mean Square Error
: 3.598901
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
ind ,
means
values
2. Korrelation, Lineare
Regression und
multiple Regression
std
G 12.14286 1.214986
r Min Max
7
10
13
M 14.64286 1.984833 14
12
19
P 13.75000 2.187628
10
16
8
alpha : 0.05 ; Df Error : 26
Critical Value of F : 3.369016
102 / 282
1.17 Einfaktorielle Varianzanalyse (zum Vergleich
von k unabhängigen Stichproben)
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es besteht kein Unterschied zwischen den
Erwartungswerten der einzelnen Gruppen:
H0 : µ1 = µ2 = . . . = µk
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
I
Varianzhomogenität: σ12 = σ22 = . . . = σk2
103 / 282
F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben)
I
Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicher
Erwartungswert in allen Gruppen wird verworfen, falls
F =
1
k−1 SSM
1
n−k SSR
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
> Fk−1,n−k,1−α
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Dabei ist:
SSM =
k
X
ni (y i· − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
(sum of squares between groups)
SSR =
ni
k X
X
(yij − y i· )2
i=1 j=1
(sum of squares within groups) und Fk−1,n−k,1−α das
(1 − α)-Quantil der F -Verteilung mit (k − 1, n − k)
Freiheitsgraden
104 / 282
1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15)
I
I
Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,
so kann mit der Scheffé-Methode festgestellt werden
welche Gruppen für die Signifikanz verantwortlich sind“!
”
Pk
dazu bestimmt man die Größen (n = i=1 ni )
s
k −1
1
1
SSR · Fk−1,n−k,1−α ( + )
ds (i, j) =
n−k
ni
nj
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ist y i· − y j· größer (bzw. kleiner) als ds (i, j) (bzw. als
−ds (i, j)) so ist y i· signifikant größer (bzw. kleiner) als y j·
I
Beachte:
I
I
I
I
insgesamt k(k−1)
Vergleiche
2
die Scheffé-Methode hält simultan das Niveau α
es ist möglich, das F -Test H0 ablehnt, aber keiner der
paarweisen Vergleiche signifikant ist!
Andere Verfahren (z. B. in SPSS implementiert):
Tukey-Methode, Duncan Test
105 / 282
1.19 Levene-Test auf Varianzhomogenität von k
unabhängigen Stichproben
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es liegt Varianzhomogenität vor, d. h.
H0 : σ12 = σ22 = . . . = σk2
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
106 / 282
Levene-Test auf Varianzhomogenität von k
abhängigen Stichproben
I
un-
Die Hypothese der Varianzhomogenität
H0 : σ12 = σ22 = . . . = σk2
wird verworfen, falls
Pk
1
F =
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
2
i=1 ni (x i· − x ·· )
k−1
Pk Pni
1
2
i=1
j=1 (xij − x i· )
n−k
1.4 Einfaktorielle
Varianzanalyse
> Fk−1,n−k,1−α
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei ist:
I
I
I
I
I
n = n1 +P
. . . + nk der Gesamtstichprobenumfang
Pk Pni
ni
x , x ·· = n1 i=1 j=1
xij
x i· = n1i
j=1 ij
xij = |yij − y i· |
Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit
(k − 1, n − k) Freiheitsgraden.
Beachte:
I
I
I
Der Test ist robust bzgl. der Normalverteilungsannahme.
Der Test hält nur“ näherungsweise das Niveau α.
”
Alternativer Test: Bartlett Test
107 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Test der Homogenität der Varianzen
1.2 t-Test für eine
Stichprobe
Gemerkte Zahlen
LeveneStatistik
1.3 Zweistichprobenprobleme
df1
1,214
df2
2
Signifikanz
26
1.4 Einfaktorielle
Varianzanalyse
,313
2. Korrelation, Lineare
Regression und
multiple Regression
ONEWAY ANOVA
Gemerkte Zahlen
Quadratsumme
Mittel der
Quadrate
df
Zwischen den Gruppen
29,187
2
14,594
Innerhalb der Gruppen
93,571
26
3,599
122,759
28
Gesamt
F
4,055
Signifikanz
,029
108 / 282
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
Levene ’ s Test for Homogeneity of Variance ( center = mean )
Df F value Pr ( > F )
group
2
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.2137 0.3134
1.4 Einfaktorielle
Varianzanalyse
26
2. Korrelation, Lineare
Regression und
multiple Regression
Df Sum Sq Mean Sq F value Pr ( > F )
ind
Residuals
2
29.19
14.594
26
93.57
3.599
4.055 0.0293 *
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
109 / 282
Methodenlehre II,
SoSe 2015
2. Korrelation, Lineare Regression und multiple
Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.3 Multiple Regression
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
2.4 Multikollinearität und Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare Zusammenhänge
2.7 Partielle und Semipartielle Korrelation
110 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.1 Korrelation
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
111 / 282
2.1 Beispiel: Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
2.1 Korrelation
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
2.4 Multikollinearität und
Suppressionseffekte
Frage: Besteht ein Zusammenhang zwischen der Variablen
Motivation“ und der Variablen Leistungsstreben“
”
”
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
2.7 Partielle und
Semipartielle Korrelation
I
I
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
112 / 282
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
x
y
x
y
x
y
20
32
8
19
13
11
30
14
34
25
19
24
15
12
26
23
25
19
39
27
32
17
30
19
5
20
26
22
18
22
6
13
12
19
21
24
12
17
36
27
11
17
0
8
27
26
35
22
26
20
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
113 / 282
Methodenlehre II,
SoSe 2015
2.2 Der Korrelationskoeffizient von Pearson
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
Maß für die (lineare) Abhängigkeit zwischen x und y :
Korrelationskoeffizient von Pearson
Pn
sx2,y
(xi − x · )(yi − y · )
r = rX ,Y =
= qP i=1
Pn
n
sx ,x sy ,y
2
2
i=1 (xi − x · )
i=1 (yi − y · )
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Dabei ist:
2.5 Variablenselektion
Pn
1
I
x· =
n
I
y· =
1
n
P
=
1
n−1
Pn
sy2,y =
1
n−1
Pn
I s2
x ,x
I
I
i=1
n
i=1
xi : Mittelwert der Daten xi
yi : Mittelwert der Daten yi
i=1
i=1
Pn
1
sx2,y = n−1
Daten xi , yi
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
i=1
(xi − x · )2 : Varianz der Daten xi
(yi − y · )2 : Varianz der Daten yi
(xi − x · )(yi − y · ) : Kovarianz zwischen den
114 / 282
2.3 Eigenschaften des Korrelationskoeffizienten
Methodenlehre II,
SoSe 2015
Holger Dette
(1) −1 ≤ r ≤ 1
(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1 xi
mit b1 > 0 besteht (ohne Störgrößen).
(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
yi = b0 + b1 xi
mit b1 < 0 besteht (ohne Störgrößen).
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(4) Der Korrelationskoeffizient ist invariant bzgl. linearer
Transformationen, d. h.
x̃i = a0 + a1 xi i = 1, . . . , n
⇒ rX̃ ,Ỹ = rX ,Y
ỹi = c0 + c1 yi i = 1, . . . , n
(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß
für den linearen Zusammenhang in der Stichprobe
(x1 , y1 ), . . . , (xn , yn )
115 / 282
2.4 Beispiel: Korrelationskoeffizient für die Daten
aus Beispiel 2.1
I
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Variablen
x : Leistungsstreben
y : Motivation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Korrelationskoeffizient von Pearson
r = 0.5592
I
Methodenlehre II,
SoSe 2015
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Fragen:
I
I
Wie genau ist diese Schätzung?
Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen
den Merkmalen Leistungsstreben und Motivation)?
116 / 282
Methodenlehre II,
SoSe 2015
2.5 Signifikanztest für Korrelation
I
(x1 , y1 ), . . . , (xn , yn ) ist eine Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
ρ bezeichne die Korrelation des Merkmals X mit dem
Merkmal Y einer Population; fünfter Modellparameter
neben µx , µy , σx2 und σy2 .
I
Ein Test zum Niveau α für die Hypothese die Merkmale
”
sind unkorreliert“
H0 : ρ = 0
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρ 6= 0 ab, falls
√
n−2 √
1 − r 2 r > tn−2,1− α2
gilt.
117 / 282
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25;
r = 0.5592;
t23,0.975 = 2.0687
2.1 Korrelation
2.2 Lineare Regression
I
√
n−2
√
1 − r2
2.3 Multiple lineare
Regression
r = 3.2355 > 2.0687
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen den
Merkmalen) wird zum Niveau 5% verworfen.
I
p-Wert: 0.0037
118 / 282
Methodenlehre II,
SoSe 2015
SPSS Output für Korrelationskoeffizient
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Korrelationen
2.2 Lineare Regression
Motivation
Motivation
Korrelation nach Pearson
Leistungsstreben
1,000
Signifikanz (2-seitig)
N
Leistungsstreben
Korrelation nach Pearson
Signifikanz (2-seitig)
N
,559
**
,004
25
,559
**
25
1,000
,004
25
25
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
119 / 282
R-Output für Korrelationskoeffizient
Methodenlehre II,
SoSe 2015
Holger Dette
Motivation L e i s t u n g s s t r e b e n
Motivation
1.00
0.56
L eistu n g s s t r eben
0.56
1.00
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
n = 25
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
P
Motivation L e i s t u n g s s t r e b e n
Motivation
0.0037
L eistu n g s s t r eben 0.0037
120 / 282
2.7 Konfidenzintervall für Korrelation
Methodenlehre II,
SoSe 2015
Holger Dette
I
ρ: Korrelation zwischen Merkmal x und Merkmal y einer
Population
I
(x1 , y1 ), . . . , (xn , yn ): Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
Mathematische Statistik: r ist näherungsweise“ (d. h. bei
”
großem Stichprobenumfang) normalverteilt mit
Erwartungswert ρ und Varianz
(1 − ρ2 )2
γ = Var (r ) ≈
n
2
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(1 − α)-Konfidenzintervall für den Korrelationskoeffizienten
r − γ̂z1− α2 , r + γ̂z1− α2
2
)
√
Hier bezeichnet γ̂ = (1−r
einen Schätzer für die
n
Standardabweichung von r und z1− α2 das (1 − α2 ) Quantil
der Standardnormalverteilung (Tabelle, Software)
121 / 282
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
n = 25;
I
z0.95 = 1.6449,
I
⇒
2.2 Lineare Regression
r = 0.5592
2.3 Multiple lineare
Regression
γ̂ = 0.1328
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
90% Konfidenzintervall für den Korrelationskoeffizient
[0.2739, 0.7541]
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
122 / 282
Methodenlehre II,
SoSe 2015
2.8 Hinweise zur Interpretation von Korrelationen
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Variablen x und y gefunden
Folgende Interpretationen sind möglich
(1)
(2)
(3)
(4)
x
y
x
x
beeinflusst y kausal
beeinflusst x kausal
und y werden von weiteren Variablen kausal beeinflusst
und y beeinflussen sich wechselseitig kausal
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Die Korrelation zwischen zwei Variablen ist eine
notwendige aber keine hinreichende Voraussetzung für
einen kausalen Zusammenhang
I
Der Korrelationskoeffizient gibt keine Information, welche
der vier Interpretationen zutrifft (in vielen“ Fällen wird das
”
der Typ (3) sein)
I
Korrelationen sollten ohne Zusatzinformation nicht
interpretiert werden!
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
123 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Merkmalen Ehrlichkeit“ und Häufigkeit des
”
”
Kirchgangs“ gefunden
Folgende Interpretationen sind möglich
I
I
I
Die in der Kirche vermittelten Werte haben einen positiven
Einfluss auf das Merkmal Ehrlichkeit“.
”
Ehrliche“ Menschen fühlen sich durch die in der Kirche
”
vermittelten Inhalte eher angesprochen und gehen aus
diesem Grund häufiger zur Kirche.
Die allgemeine familiäre und außerfamiliäre Sozialisation
beeinflusst beide Merkmale.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
124 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
125 / 282
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Kann man y aus x vorhersagen“?
”
126 / 282
Streudiagramm für die Daten aus Beispiel 2.9
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
2. Korrelation, Lineare
Regression und
multiple Regression
30
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Motivation
25
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
20
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
15
10
5
0
10
20
30
40
Leistungsstreben
127 / 282
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
I
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
Frage: Besteht ein funktionaler Zusammenhang zwischen der
Variablen Motivation“ und der Prädiktorvariablen
”
Leistungsstreben“ (Kann man y aus x vorhersagen“?)
”
”
Genauer: Gesucht ist Funktion f , die aus der Prädiktorvariablen
Leistungsstreben (x ) eine Vorhersage für die abhängige Variable
(y ) Motivation liefert:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Motivation = f(Leistungsbereitschaft)
I
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
128 / 282
Methodenlehre II,
SoSe 2015
Regression
Holger Dette
I
I
I
Ausgangslage: Von Interesse ist der Zusammenhang zwischen
verschiedenen Variablen. Im einfachsten Fall betrachtet man,
wie im Beispiel der Arbeitsmotivation, den Zusammenhang
zwischen zwei Variablen.
Daten: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Annahme: Es existiert ein kausaler Zusammenhang der Form
y = f (x ) zwischen der abhängigen Variablen y und der
Prädiktorvariablen x .
Weitere Annahme: Die Funktion f hat eine bestimmte Form.
Beispiele:
I
I
I
I
Lineare Regression (der Zusammenhang ist also durch eine
Gerade beschreibbar): y = b0 + b1 x
Quadratische Regression (der Zusammenhang ist also durch
eine Parabel beschreibbar): y = b0 + b1 x + b2 x 2
usw.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Der Zusammenhang ist in der Regel nicht exakt zu
beobachten. Mathematisches Modell
Y = b0 + b1 x + ε
Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell
bezeichnet man als Lineare Regression.
129 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
2.10 Das Modell der linearen Regression
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung xi ). Für den Zusammenhang zwischen den
Variablen Yi und xi gilt:
Yi = b0 + b1 xi + εi
i = 1, . . . , n
I
εi bezeichnet hier eine zufällige Störung“ und es wird
”
angenommen, dass die Störungen unabhängig und
normalverteilt sind mit Erwartungswert 0 und Varianz
σ2 > 0
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und y postuliert, der noch zufälligen Störungen unterliegt.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
130 / 282
Idee der Schätzung bei (linearer) Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I
Annahme: Es existiert ein linearer Zusammenhang
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Y = b0 + b1 x + ε
I
I
Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y
und x am besten beschreibt.
Idee: Bestimme die Gerade so, dass die Summe der
quadratischen (vertikalen) Abstände zwischen den
y -Koordinaten der Datenpunkte und den entsprechenden
Punkten auf der geschätzten Geraden minimal wird
Methode der kleinsten Quadrate
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
131 / 282
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
35
2.2 Lineare Regression
30
●
●
25
●
●
●
●
●
●
●
y
●
●
●
●
●
●
●
● ●
●
2.6 Nichtlineare
Zusammenhänge
●
●
●
●
15
● ●
●
●
●
●
2.5 Variablenselektion
●
2.7 Partielle und
Semipartielle Korrelation
●
15
20
●
2.4 Multikollinearität und
Suppressionseffekte
●
●
20
25
●
●
y=0.5x+10
●
●
●
●
●
●
●
●
●
10
10
●
y=0.2x+5
●
5
●
5
y
2.3 Multiple lineare
Regression
●
30
●
0
10
20
x
30
40
0
10
20
30
40
x
132 / 282
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten: die Lösung durch die
Methode der kleinsten Quadrate
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
30
●
2.5 Variablenselektion
●
25
●
●
20
2.7 Partielle und
Semipartielle Korrelation
●
●
●
●
●
●
●
●
●
●
●
y=0.292x+13.816
15
● ●
●
●
●
●
10
●
●
5
y
2.6 Nichtlineare
Zusammenhänge
●
●
0
10
20
x
30
40
133 / 282
2.11 Die Methode der kleinsten Quadrate
I
Bestimme die Gerade so, dass die Summe der quadrierten
senkrechten Abstände zwischen Gerade und Daten minimal
wird
I
I
I
Datum an der Stelle xi : yi
Wert der Geraden an der Stelle xi : b0 + b1 xi
Differenz: yi − (b0 + b1 xi )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
2.3 Multiple lineare
Regression
Minimiere
h(b0 , b1 ) =
Pn
i=1
yi − (b0 + b1 xi )
2
bzgl. der Wahl der Parameter b0 und b1 .
I
Lösung dieses Extremwertproblems liefert Schätzer für
Achsenabschnitt und Steigung der Geraden:
Pn
(x − x · )(yi − y · )
Pn i
b̂1 = i=1
, b̂0 = y · − b̂1 x ·
2
i=1 (xi − x · )
I
x· =
I
y· =
1
n
1
n
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Pn
xi : Mittelwert der Prädiktorvariablen
Pi=1
n
i=1
yi : Mittelwert der abhängigen Variablen
134 / 282
Beispiel Arbeitsmotivation: Streudiagramm und
Regressionsgerade für die Daten aus Beispiel 2.1
35
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
30
Motivation
25
2.1 Korrelation
2.2 Lineare Regression
20
2.3 Multiple lineare
Regression
15
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
10
R-Quadrat linear = 0,313
2.6 Nichtlineare
Zusammenhänge
5
0
10
20
30
40
Leistungsstreben
I
I
2.7 Partielle und
Semipartielle Korrelation
Schätzer: b̂0 = 13.82, b̂1 = 0.29
Fragen:
I
I
I
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die
Motivation
H0 : b 1 = 0
Wie gut beschreibt das lineare Regressionsmodell die Situation?
135 / 282
Die Genauigkeit der Schätzer für die Parameter
Methodenlehre II,
SoSe 2015
Holger Dette
I
Beachte: Vor der Datenerhebung sind b̂0 und b̂1 zufällig.
I
Mathematische Statistik (allgemeines lineares Modell) liefert
Schätzer für die Varianzen von b̂0 und b̂1
Schätzer für die Varianz von b̂0 :
Schätzer für die Varianz von b̂1 :
ŝb20
ŝb21
=
=
Sy2|x
n
Sy2|x
n
Pn
x2
Pn i=1 i 2
i=1 (xi − x · )
1
Pn
1
2
(x
i=1 i − x · )
n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Dabei bezeichnet
2.7 Partielle und
Semipartielle Korrelation
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
die Residualvarianz (Schätzer für die Varianz der Störgrößen)
I
Je größer der Stichprobenumfang n, desto genauer sind die
Schätzungen!
136 / 282
Fortsetzung von Beispiel 2.1: Schätzer für die Daten der
Arbeitsmotivation
I
Methodenlehre II,
SoSe 2015
Holger Dette
Schätzer für die Parameter
b̂0 = 13.82
b̂1 = 0.292
Sy2|x = 22.737
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Schätzer für die Varianz von b̂0 und b̂1
ŝb20 = 4.5158
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
ŝb21 = 0.0081
I
Standardfehler von b̂0 und b̂1
ŝb0 =
ŝb1 =
√
√
4.5158 = 2.125
0.0081 = 0.09
137 / 282
SPSS Output: Schätzer und
Standardabweichungen bei linearer Regression in
Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
a
Koeffizienten
2.5 Variablenselektion
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
2.6 Nichtlineare
Zusammenhänge
T
,559
Signifikanz
6,501
,000
3,235
,004
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Motivation
138 / 282
R-Output: Schätzer und Standardabweichungen
bei linearer Regression in Beispiel 2.1
Call :
lm ( formula = y ˜ x )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
-8.5766 -2.5679
0.5915
3Q
Max
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.8481 12.3437
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 13.81572
2.12504
6.501 1.24 e -06 ***
x
0.09026
3.235
0.29203
0.00365 **
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
139 / 282
2.12 Konfidenzintervalle bei linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi
I
I
(i = 1, . . . , n)
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Bestimmung der Schätzer
b̂0 und b̂1 . Damit ist dann
ŝb20
und
ŝb21
für die Varianzen von
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
=⇒
(b̂0 − tn−2,1− α2 ŝb0 , b̂0 + tn−2,1− α2 ŝb0 )
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
ein (1 − α)-Konfidenzintervall für b0 und
=⇒
(b̂1 − tn−2,1− α2 ŝb1 , b̂1 + tn−2,1− α2 ŝb1 )
ein (1 − α)-Konfidenzintervall für b1 .
I
Hier ist tn−2,1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − 2 Freiheitsgraden (tabelliert oder mit Software
verfügbar)
140 / 282
2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1
(Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25,
t23,0.975 = 2.0687
I
Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt
sich als 95% Konfidenzintervall für
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
b0 :[9.420, 18.212]
2.6 Nichtlineare
Zusammenhänge
b1 :[0.105, 0.479]
2.7 Partielle und
Semipartielle Korrelation
Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen
x auf die abhängige Variable Y ?
Mathematische Formulierung: H0 : b1 = 0
141 / 282
Methodenlehre II,
SoSe 2015
SPSS Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
a. Abhängige Variable: Motivation
Standardfehler
13,816
2,125
,292
,090
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
,559
Signifikanz
Untergrenze
Obergrenze
6,501
,000
9,420
18,212
3,235
,004
,105
,479
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
142 / 282
R-Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Call :
lm ( formula = y ˜ x )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
-8.5766 -2.5679
0.5915
3Q
Max
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.8481 12.3437
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 13.81572
2.12504
6.501 1.24 e -06 ***
x
0.09026
3.235
0.29203
0.00365 **
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
143 / 282
2.14 F -Test für die Hypothese H0 : b1 = 0
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi (i = 1, . . . , n)
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Hypothesen
H0 : b1 = 0, H1 : b1 6== 0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Die Nullhypothese H0 : b1 = 0 wird zu Gunsten der
Alternative H1 : b1 6= 0 verworfen, falls
Pn
2
1
2
Sreg
i=1 (y · − (b̂0 + b̂1 xi ))
1
Fn = 2 = 1 P
> F1;n−2,1−α
n
2
Sy |x
i=1 (yi − (b̂0 + b̂1 xi ))
n−2
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
gilt
I
F1;n−2,1−α bezeichnet das (1 − α)-Quantil der F -Verteilung
mit (1, n − 2) Freiheitsgraden
144 / 282
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2015
Holger Dette
n
X
n
n
X
X
(yi − (b̂0 + b̂xi ))2 +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
{z
Varianz der Regression
}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
2.3 Multiple lineare
Regression
Bezeichnungen:
2.4 Multikollinearität und
Suppressionseffekte
n
2
Sreg
1X
=
(y − (b̂0 + b̂1 xi ))2
1 i=1 ·
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).
Andere Interpretationen:
- Schätzung für die Varianz der Größen εi
- durch das lineare Regressionsmodell nicht erklärbare Varianz
I
145 / 282
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
n
X
n
n
X
X
2
(yi − (b̂0 + b̂xi )) +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
{z
Varianz der Regression
}
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2
= (n − 2) · Sy2|x + ·Sreg
Beachte:
I
Bei dem F -Test für die Hypothese H0 : b1 = 0 bildet man den
Quotienten aus der Varianz der Regression und der
Residualvarianz
I
Man untersucht also das Verhältnis zwischen erklärbarer und
nicht erklärbarer Varianz.
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
146 / 282
2.15 Varianzanalyse (ANOVA; analysis of variance)
Methodenlehre II,
SoSe 2015
Holger Dette
Art der
Abweichung
Freiheitsgrade (df )
Quadratsumme
1
Pn
F -Quotient
schätzer
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Regression
i=1 (y ·
2
− ybi )
Fn =
2
Sreg
/Sy2|x
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
n−2
Fehler
n−1
Total
Pn
bi )2
i=1 (yi − y
Pn
i=1 (yi
− y · )2
—
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
—
Bezeichnung:
ŷi = b̂0 + b̂1 xi Vorhersage an der Stelle xi
147 / 282
SPSS Output: F -Test bei linearer Regression in
Beispiel 2.1
b
Quadratsumme
Mittel der
Quadrate
df
Regression
238,015
1
238,015
Residuen
522,945
23
22,737
Gesamt
760,960
24
F
10,468
Signifikanz
,004
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
ANOVA
Modell
1
Methodenlehre II,
SoSe 2015
a
a. Einflußvariablen : (Konstante), Leistungsstreben
b. Abhängige Variable: Motivation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
F25 = 10.468,
I
Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
F1,23,0.95 = 4.2793
148 / 282
R-Output: F -Test bei linearer Regression in
Beispiel 2.1
Analysis of Variance Table
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Response : y
2.1 Korrelation
2.2 Lineare Regression
Df Sum Sq Mean Sq F value
x
1 238.01 238.015
Residuals 23 522.95
Pr ( > F )
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
10.468 0.003655 **
2.5 Variablenselektion
22.737
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Beachte:
I F25 = 10.468,
F1,23,0.95 = 4.2793
I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
149 / 282
Modellgüte: wie geeignet“ ist das Modell für die
”
Beschreibung der Daten
I
Maß für Modellanpassung: Residualvarianz (Summe der
quadrierte Abstände von der Regressionsgerade):
Sy2|x =
n
2
1 X
yi − (b̂0 + b̂1 xi )
n − 2 i=1
I Beachte: S 2 ist ein Schätzer für die Varianz der
y |x
I Je kleiner S 2 , desto besser“ ist das (lineare)
y |x
”
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Messfehler
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Regressionsmodell
I
Streuung der Daten ohne die Information“, dass ein lineares
”
Modell vorliegt:
n
X
(yi − y· )2
i=1
I
Man untersucht welchen Anteil der Streuung
man durch das lineare Modell erklären kann.
Pn
i=1 (yi
− y· ) 2
150 / 282
Varianzzerlegung: ein extremes Beispiel
Methodenlehre II,
SoSe 2015
40
40
30
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
y
Abhängige Variable
Holger Dette
20
2.2 Lineare Regression
20
2.3 Multiple lineare
Regression
10
2.4 Multikollinearität und
Suppressionseffekte
10
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0
5
10
15
20
0
5
Unabhängige Variable
10
15
20
x
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
Die Grafik zeigt eine extreme Situation.
I
Die Streuung der Daten
lineare Regressionsmodell
Pn ist durch das P
n
zu 100% erklärbar! i=1 (yi − y · )2 = i=1 (y · − (b̂0 + b̂1 xi ))2
I
Residualvarianz (durch das lineare Regressionsmodell nicht
erklärbare Varianz) = 0
151 / 282
2.16 Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1):
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
25
X
(yi − y · )2 = 760.96
2.2 Lineare Regression
2.3 Multiple lineare
Regression
i=1
25
X
(y · − (b̂0 + b̂1 xi ))2 = 238.04
R =
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
i=1
2
2.4 Multikollinearität und
Suppressionseffekte
P25
i=1 (y · − (b̂0 + b̂1 xi ))
P25
2
i=1 (yi − y · )
2
= 0.313
d. h. 31.3% der Varianz der Variablen Motivation können durch die
Prädiktorvariable Leistungsstreben erklärt werden.
152 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
2.17 Modellgüte: das Bestimmtheitsmaß
I
Die Größe
Pn
Pn
(y · − (b̂0 + b̂1 xi ))2
(yi − (b̂0 + b̂1 xi ))2
i=1P
=
R 2 = 1− i=1Pn
n
2
2
i=1 (yi − y · )
i=1 (y · − yi )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
ist ein Maß für die Güte der Regression und heißt
Bestimmtheitsmaß.
2.4 Multikollinearität und
Suppressionseffekte
I
Beachte: Man kann zeigen, dass R 2 genau das Quadrat der
Korrelation ist.
2.7 Partielle und
Semipartielle Korrelation
I
Je besser“ das Modell ist, desto kleiner ist die
”
Residualvarianz, bzw. desto größer R 2 !
I
Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und 1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
153 / 282
Zusammenhang zwischen Bestimmtheitsmaß und
F -Test
I
Ist Fn die Statistik für den F -Test aus 2.14 und R 2 das
Bestimmtheitsmaß, dann gilt:
2
R =
I
I
1
1
n−2 Fn
1
+ n−2
Fn
R2 =
1
10.468
23
+ 10.468
23
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Im Beispiel des Zusammenhangs zwischen Motivation und
Leistungsstreben ist
=⇒
Holger Dette
2.1 Korrelation
In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann aus
dem Bestimmtheitsmaß berechnet werden (und umgekehrt)
Fn = 10.468
Methodenlehre II,
SoSe 2015
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
= 0.313
Ca. 31.3% der Variation der Variablen Motivation können durch
die Variable Leistungsstreben erklärt werden.
154 / 282
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2015
Holger Dette
2.18 Vorhersage für den Wert der Geraden an einer
Stelle x
I
I
Schätzung für den Wert der Geraden y (x ) = b0 + b1 x an
der Stelle x :
yb(x ) = b̂0 + b̂1 x
(1 − α)-Konfidenzintervall für y (x )
(b
y (x ) − tn−2;1− α2 · ŝy (x ) , yb(x ) + tn−2;1− α2 · ŝy (x ) )
wobei
ŝy2(x ) = Sy2|x
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(x − x · )2 + Pn
2
n
i=1 (xi − x · )
1
b (x ) bezeichnet
den Schätzer für die Varianz von Y
155 / 282
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2015
Holger Dette
2.19 Vorhersage für eine neue Beobachtung an einer
Stelle x
I
I
Schätzer für eine neue Beobachtung Ỹ (x ) = b0 + b1 x + ε
an der Stelle x :
yb(x ) = b̂0 + b̂1 x
(1 − α)-Konfidenzintervall für y (x )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
(b
y (x ) − tn−2;1− α2 · s̃y (x ) , yb(x ) + tn−2;1− α2 · s̃y (x ) )
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
wobei
1
(x − x · )2 s̃y2(x ) = Sy2|x 1 + + Pn
2
n
i=1 (xi − x · )
den Schätzer für die Varianz von yb(x ) + ε bezeichnet.
I
Beachte: Diese Varianz wird bei wachsendem
Stichprobenumfang nicht beliebig klein!
156 / 282
2.20 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
(1) Gesucht ist ein 90% Konfidenzintervall für den Wert der
Geraden an der Stelle x = 16
I
I
t23,0.95 = 1.714, Sy2|x = 22.737, ŝy2(x ) = 1.116, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für den Wert der Geraden an der
Stelle 16 ist gegeben durch
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
[16.677, 20.299]
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
(2) Gesucht ist ein 90% Konfidenzintervall für eine neue
Beobachtung der Stelle x = 16
I
I
2.7 Partielle und
Semipartielle Korrelation
t23,0.95 = 1.714, Sy2|x = 22.737, ŝỹ2(x ) = 23.85, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für eine neue Beobachtung an der
Stelle 16 ist gegeben durch
[10.118, 26.859]
157 / 282
SPSS Output: Vorhersagen bei linearer
Regression in Beispiel 2.1 (schwierig)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
158 / 282
SPSS Output: Konfidenzintervalle für
Vorhersagen bei linearer Regression in Beispiel
2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
16.0
35
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
30
Motivation
2.4 Multikollinearität und
Suppressionseffekte
25
2.5 Variablenselektion
20
2.7 Partielle und
Semipartielle Korrelation
2.6 Nichtlineare
Zusammenhänge
15
10
5
0
10
20
30
40
Leistungsstreben
159 / 282
2.21 Residuenanalyse
Methodenlehre II,
SoSe 2015
Holger Dette
I
Unter der Modellannahme des linearen Regressionsmodells
gilt: die Größen
εi = Yi − b0 − b1 xi
sind unabhängig und normalverteilt mit Erwartungswert 0
und Varianz σ 2 > 0.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Das bedeutet, dass diese Eigenschaften auch
näherungsweise“ für die Residuen
”
ε̂i = yi − b̂0 − b̂1 xi
erfüllt sein sollte, falls die Modellannahme zutrifft.
Residuenanalyse ist ein deskriptives Verfahren für die
Überprüfung der Annahmen an ε1 , . . . , εn mit 4
Teilschritten (oft werden auch nicht alle gemacht):
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
A: Das Streudiagramm der Daten mit der Regressionslinie
B: Ein Streudiagramm der Residuen gegen die vorhergesagten
Werte
C: Normalverteilungs-QQ-Plot der Residuen
D: Histogramm der Residuen mit angepasster
Normalverteilungsdichte
160 / 282
Residuenanalyse bei erfüllten“ Voraussetzungen
”
A
6
0.5
4
2
0
2.1 Korrelation
−0.5
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
−1.5
−2
−1
0
1
2
0
2
4
Unabhängige Variable
Vorhergesagter Wert
C
D
1.0
1.0
0.5
0.8
f(Residuum)
Empirische Quantile
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
−1.0
−2
0.0
−0.5
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
1.0
Residuum
Abhängige Variable
8
Methodenlehre II,
SoSe 2015
6
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0.6
0.4
0.2
−1.0
0.0
−1.5
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Residuum
161 / 282
Methodenlehre II,
SoSe 2015
Residuenanalyse bei Abweichungen“ von der
”
Normalverteilung (Ausreißer)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
20
15
Residuum
Abhängige Variable
A
20
Holger Dette
10
0
2. Korrelation, Lineare
Regression und
multiple Regression
10
2.1 Korrelation
5
2.2 Lineare Regression
0
2.3 Multiple lineare
Regression
−5
2.4 Multikollinearität und
Suppressionseffekte
−10
−10
2.5 Variablenselektion
−2
−1
0
1
2
0
Unabhängige Variable
4
6
8
2.6 Nichtlineare
Zusammenhänge
Vorhergesagter Wert
C
20
2.7 Partielle und
Semipartielle Korrelation
D
0.15
15
10
f(Residuum)
Empirische Quantile
2
5
0
0.10
0.05
−5
−10
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−15 −10
−5
0
5
10
15
20
Residuum
162 / 282
Methodenlehre II,
SoSe 2015
Residuenanalyse bei Stratifizierung
Holger Dette
Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu
Abweichungen von den Modellannahmen führen. Für die Strata
können dann unterschiedliche Regressionsgleichungen gelten.
A
15
B
10
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
5
Residuum
Abhängige Variable
2.1 Korrelation
10
5
0
2.3 Multiple lineare
Regression
0
−5
−5
−10
−10
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−2
−1
0
1
2
2.6 Nichtlineare
Zusammenhänge
−2
0
Unabhängige Variable
4
6
2.7 Partielle und
Semipartielle Korrelation
Vorhergesagter Wert
C
10
D
0.15
5
f(Residuum)
Empirische Quantile
2
0
−5
−10
0.10
0.05
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−10
−5
0
5
10
Residuum
163 / 282
Residuenanalyse bei falscher Modellannahme
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
40
10
20
Residuum
Abhängige Variable
A
0
−20
−40
2. Korrelation, Lineare
Regression und
multiple Regression
0
−10
2.1 Korrelation
2.2 Lineare Regression
−20
2.3 Multiple lineare
Regression
−60
−2
−1
0
1
2
−30 −20 −10
0
10
20
Unabhängige Variable
Vorhergesagter Wert
C
D
30
40
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0.04
f(Residuum)
Empirische Quantile
0.05
10
0
−10
2.4 Multikollinearität und
Suppressionseffekte
2.7 Partielle und
Semipartielle Korrelation
0.03
0.02
0.01
−20
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−30
−20
−10
0
10
20
Residuum
Statt des linearen Modells wäre ein Polynom 3. Grades die bessere
Annahme für die Beschreibung des funktionalen Zusammenhangs!
164 / 282
Methodenlehre II,
SoSe 2015
Residuenanalyse bei ungleichen Varianzen
(Heteroskedastizität)
20
10
10
0
−10
−20
0
2.2 Lineare Regression
2.3 Multiple lineare
Regression
−40
−40
0
1
2.1 Korrelation
−20
−30
−1
2. Korrelation, Lineare
Regression und
multiple Regression
−10
−30
−2
2
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−2
Unabhängige Variable
2
4
6
Vorhergesagter Wert
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
D
0.10
20
0.08
10
f(Residuum)
Empirische Quantile
0
C
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
30
Residuum
Abhängige Variable
A
20
Holger Dette
0
−10
−20
0.06
0.04
0.02
−30
−40
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−40
−20
0
20
Residuum
165 / 282
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
35
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
30
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Motivation
25
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
20
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
15
2.7 Partielle und
Semipartielle Korrelation
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
166 / 282
Methodenlehre II,
SoSe 2015
R-Output für Residuenanalyse
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10
Motivation
30
2.1 Korrelation
0
10
20
30
40
Leistungsstreben
QQ-Plot im Beispiel der Arbeitsmotivation
167 / 282
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
3,00000
2. Korrelation, Lineare
Regression und
multiple Regression
Standardized Residual
2,00000
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1,00000
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
,00000
2.7 Partielle und
Semipartielle Korrelation
-1,00000
-2,00000
-2,00000
-1,00000
,00000
1,00000
2,00000
Standardized Predicted Value
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
168 / 282
R-Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals vs Fitted
10
2.2 Lineare Regression
5
2.3 Multiple lineare
Regression
0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
19
−10
Residuals
2.1 Korrelation
1
2.7 Partielle und
Semipartielle Korrelation
2
14
16
18
20
22
24
Fitted values
lm(y ~ x)
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
169 / 282
Methodenlehre II,
SoSe 2015
SPSS Output für Residuenanalyse
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Q-Q-Diagramm von Normal von Standardized Residual
2. Korrelation, Lineare
Regression und
multiple Regression
2
2.1 Korrelation
Erwarteter Wert von Normal
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0
2.7 Partielle und
Semipartielle Korrelation
-1
-2
-2
-1
0
1
2
3
Beobachteter Wert
QQ-Plot im Beispiel der Arbeitsmotivation
170 / 282
R-Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
3
1
2.1 Korrelation
2
2.2 Lineare Regression
1
2.3 Multiple lineare
Regression
0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
19
−2
Standardized residuals
Normal Q−Q
2.7 Partielle und
Semipartielle Korrelation
2
−2
−1
0
1
2
Theoretical Quantiles
lm(y ~ x)
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
171 / 282
Korrelation und lineare Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Es besteht ein enger Zusammenhang zwischen linearer Regression
und Korrelation
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Ist b̂1 die Schätzung im linearen Regressionsmodell und r der
Korrelationskoeffizient von Pearson, dann gilt:
sP
n
(xi − x · )2
· b̂1
r = Pni=1
2
i=1 (yi − y · )
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient
von Pearson, dann gilt:
r 2 = R2
172 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.3 Multiple lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
173 / 282
2.22 Beispiel: Arbeitsmotivation mit mehreren
Prädiktoren” ”
y : Motivation (Einschätzung der Arbeitsmotivation durch Experten)
Prädiktoren: Eigenschaften
I x1 : Ehrgeiz (Fragebogen)
I x2 : Kreativität (Fragebogen)
I x3 : Leistungsstreben (Fragebogen)
Prädiktoren: Rahmenbedingungen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
I
I
x4 : Hierarchie (Position in der Hierarchie des Unternehmens)
x5 : Lohn (Bruttolohn pro Monat)
x6 : Arbeitsbedingungen (Zeitsouveränität,
Kommunikationsstruktur usw.)
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Prädiktoren: Inhalte der Tätigkeit
I
I
I
x7 : Lernpotential (Lernpotential der Tätigkeit)
x8 : Vielfalt (Vielfalt an Teiltätigkeiten)
x9 : Anspruch (Komplexität der Tätigkeit)
174 / 282
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
i
1
2
3
4
5
6
7
8
9
10
11
12
y
32
14
12
27
20
13
17
8
22
19
25
23
x1
36
30
19
42
14
12
17
4
32
15
38
24
x2
30
11
15
16
22
16
20
5
20
13
5
6
x3
20
30
15
39
5
6
12
0
35
8
34
26
x4
20
7
8
13
22
11
11
16
20
13
21
9
x5
3100
2600
3200
2500
3700
2600
2500
3800
3500
3100
3600
2600
x6
34
39
42
43
42
36
41
23
25
29
59
45
x7
29
16
13
15
29
17
18
9
21
21
27
31
x8
69
47
32
63
38
39
44
31
40
57
53
54
x9
66
36
17
49
62
51
55
33
55
56
67
62
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
175 / 282
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
i
13
14
15
16
17
18
19
20
21
22
23
24
25
y
17
22
19
27
26
20
11
24
19
19
22
24
17
x1
28
36
18
40
30
27
18
32
33
33
27
30
37
x2
11
4
26
27
28
11
23
18
9
22
28
32
8
x3
32
26
12
36
27
26
13
19
25
30
18
21
11
x4
10
16
6
12
18
10
11
15
6
5
17
11
2
x5
2600
2500
2500
2500
3000
2600
2800
2700
2400
2600
4000
2700
2300
x6
30
52
40
42
38
35
42
48
38
36
45
44
32
x7
7
23
17
29
34
19
18
23
23
30
23
20
20
x8
45
56
54
44
43
46
31
51
37
39
52
41
44
x9
26
64
55
62
64
55
43
53
65
39
54
47
41
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
176 / 282
2.23 Das Modell der multiplen linearen Regression
I
Daten (x 1 , y1 ), . . . , (x n , yn )
I
Es gibt k unabhängige Variablen: x i = (x1i , . . . , xki )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung x i ). Für den Zusammenhang zwischen der
Variablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9):
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Yi = b0 + b1 x1i + b2 x2i + . . . + bk xki + εi
= b0 +
k
X
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
bj xji + εi .
j=1
I
εi bezeichnet hier eine zufällige Störung” und es wird
”
angenommen, dass die Störungen ε1 , . . . , εn unabhängig
und normalverteilt sind mit Erwartungswert 0 und Varianz
σ 2 > 0.
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und Y postuliert, der noch zufälligen Störungen unterliegt.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
177 / 282
Methodenlehre II,
SoSe 2015
2.24 Schätzung bei multipler linearer Regression
Holger Dette
Methode der kleinsten Quadrate: Minimiere
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
n
X
(yi − b0 − b1 x1i − . . . − bk xki )2
i=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
bzgl. der Wahl von b0 , . . . , bk
I
Mathematische Statistik (allgemeines lineares Modell)
liefert Schätzer
b̂0 , b̂1 , . . . , b̂k
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
für die Parameter b0 , . . . , bk (Formeln sind kompliziert)
I
Schätzer für die Varianz der Messfehler
n
Sy2|x =
X
1
(yi − b̂0 − b̂1 x1i − . . . − b̂k xki )2
n − k − 1 i=1
178 / 282
Streudiagramm bei multipler linearer Regression
(k = 2)
Regressionsfläche: yb(x) = 3.24 + 4.5x1 + 5.27x2 .
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
40
2.3 Multiple lineare
Regression
30
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
20
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Y
10
0
−10
−20
−30
−5
0
5
X1
−3
−2
0
−1
1
2
3
4
X2
179 / 282
Fortsetzung von Beispiel 2.22: Schätzer im
multiplen linearen Regressionsmodell
I
Ergebnisse für die Schätzer im multiplen linearen
Regressionsmodell
b̂0
b̂2
b̂4
b̂6
b̂8
I
= −3.842
=
0.153
=
0.246
= −0.031
=
0.206
b̂1
b̂3
b̂5
b̂7
b̂9
=
0.193
=
0.049
=
0.000
=
0.165
= −0.053
Fragen:
I
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale
auf die Motivation
H0 : b 1 = 0
H0 : b 2 = 0
..
.
I
Wie gut beschreibt das multiple lineare Regressionsmodell die
Situation?
180 / 282
Genauigkeit der Schätzung bei multipler linearer
Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
I
I
Schätzer ŝb0 , . . . , ŝbk für die Standardfehler von b̂0 , . . . , b̂k sind
verfügbar (Allgemeines lineares Modell → Formeln kompliziert)
Anmerkung: Für wachsenden Stichprobenumfang konvergieren
die Schätzer ŝbj gegen 0 je größer der Stichprobenumfang,
”
desto genauer die Schätzungen”
Damit erhält man Konfidenzintervalle für b0 , . . . , bk , z. B.
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(b̂0 − tn−k−1,1− α2 ŝb0 , b̂0 + tn−k−1,1− α2 ŝb0 )
ist (1 − α)-Konfidenzintervall für b0 .
181 / 282
Fortsetzung von Beispiel 2.22: Schätzer für den
Standardfehler der Schätzer im multiplen linearen
Regressionsmodell
I
Ergebnisse für den Standardfehler der Schätzer im multiplen
linearen Regressionsmodell
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
ŝb0
ŝb2
ŝb4
ŝb6
ŝb8
I
=
=
=
=
=
5.052
0.049
0.148
0.054
0.052
ŝb1
ŝb3
ŝb5
ŝb7
ŝb9
=
=
=
=
=
0.081
0.065
0.001
0.098
0.058
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Wegen t15,0.975 = 2.1314 ist
[−0.089, 0.188]
ein 95%-Konfidenzintervall für den Parameter b3 . Man beachte:
I
I
0.049 + 2.1314 · 0.065 ≈ 0.188)
n = 25; k = 9 ⇒ n − k − 1 = 15
182 / 282
2.25 Konfidenzintervalle für multiple lineare Regression
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
I
Schätzer ŝbj für den Standardfehler von b̂j
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
=⇒
(b̂j − tn−k−1,1− α2 ŝbj , b̂j + tn−k−1,1− α2 ŝbj )
2.7 Partielle und
Semipartielle Korrelation
ist ein (1 − α)-Konfidenzintervall für bj (j = 0, . . . , k)
I
tn−k−1,1− α2 ; (1 − α2 )-Quantil der t-Verteilung mit n − k − 1
Freiheitsgraden (Tabelle oder Software)
I
Anmerkung: Für wachsenden Stichprobenumfang
konvergieren die Schätzer ŝbj gegen 0 je größer der
”
Stichprobenumfang, desto kleiner die Konfidenzintervalle”
183 / 282
2.26 Beispiel: Konfidenzintervalle für die
Parameter in Beispiel 2.22 (Arbeitsmotivation)
b̂j
b̂0
b̂1
b̂2
b̂3
b̂4
b̂5
b̂6
b̂7
b̂8
b̂9
Merkmal
—
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Arbeitsbdg.
Lernpotential
Vielfalt
Anspruch
Schätzung
-3.842
0.193
0.153
0.049
0.246
0.000
-0.031
0.165
0.206
0.053
ŝbj
5.052
0.081
0.049
0.065
0.148
0.001
0.054
0.098
0.052
0.058
Konfidenzintervall
[-14.609, 6.926]
[0.020, 0.365]
[0.049, 0.258]
[-0.089, 0.188]
[-0.069, 0.561]
[-0.004, 0.002]
[-0.147, 0.085]
[-0.044, 0.373]
[0.095, 0.316]
[-0.070, 0.177]
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
184 / 282
Methodenlehre II,
SoSe 2015
SPSS Output: Schätzer, Standardabweichung
und Konfidenzintervalle im Beispiel 2.22
(Arbeitsmotivation mit mehreren Prädiktoren)
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
2.1 Korrelation
Koeffizienten
2.2 Lineare Regression
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Standard
fehler
2.3 Multiple lineare
Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
Signifi
kanz
Untergrenze
Obergrenze
-,760
,459
-14,609
6,926
,020
,365
T
-3,842
5,052
,193
,081
,337
2,381
,031
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x1
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
x7
,165
,098
,199
1,683
,113
-,044
,373
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
185 / 282
R-Output: Schätzer, Standardabweichung und
Konfidenzintervalle im Beispiel 2.22
(Arbeitsmotivation mit mehreren Prädiktoren)
Call :
lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Residuals :
2.5 Variablenselektion
Min
1Q
Median
-3.5333 -0.7878 -0.0144
3Q
0.8352
Max
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
2.9391
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) -3.8418391
5.0517520
-0.760
0.45875
x1
0.1927225
0.0809357
2.381
0.03094 *
x2
0.1533724
0.0490456
3.127
0.00692 **
x3
0.0493953
0.0648797
0.761
0.45826
186 / 282
2.27 Vorhersage der multiplen linearen Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
Pk
ŷ (x) = b̂0 + j=1 b̂j xj
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
In Beispiel 2.22 ergibt sich z. B. als Vorhersage der
multiplen linearen Regression an der Stelle
x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900,
x6 = 41, x7 = 25, x8 = 55, x9 = 54
der Wert ŷ (x) = 22.717
187 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
Vorhersage der multiplen linearen Regression
Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
I
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
Vorhersage für den Wert einer neuen Beobachtung an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Für beide Vorhersagen kann man den Standardfehler
bestimmen (Formeln kompliziert) und Konfidenzbereiche
angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 )
188 / 282
SPSS Output: Vorhersage bei der multiplen
linearen Regression (schwierig)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beispiel:
I Schätzung für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
I Schätzung für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
189 / 282
SPSS Output: Konfidenzintervalle für
Vorhersagen bei multipler linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
I
Konfidenzintervall für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297]
Konfidenzintervall für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826]
190 / 282
2.28 Bestimmtheitsmaß bei multipler linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellvorhersage:
ŷi = b̂0 + b̂1 x1i + . . . b̂k xki = b̂0 +
k
X
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
b̂j xji
j=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Pk
I
Residuum ε̂i = yi − ŷi = yi − (b̂0 +
I
Beachte: Die Werte der abhängigen Variable zerfallen in
Modellvorhersage (ŷ ) und Residuum (ε̂), d. h.
yi = ŷi + ε̂i
I
j=1 b̂j xji )
i = 1, . . . , n
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Die Güte der Modellanpassung wird (wieder) durch das
Bestimmtheitsmaß R 2 beschrieben (Anteil erklärter
Varianz)
Pn
Pn
2
(yi − ybi )2
2
i=1
i=1 (y · − ŷi )
P
R = 1 − Pn
=
.
n
2
2
i=1 (yi − y · )
i=1 (yi − y · )
191 / 282
Beispiel: Das Bestimmtheitsmaß für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
In Beispiel 2.22 ist
2.1 Korrelation
I
I
I
2.2 Lineare Regression
n = 25; k = 9
Pn
bi )2 = 53.651
i=1 (yi − y
Pn
2
i=1 (yi − y · ) = 760.96
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
R2 = 1 −
53.651
= 92.95
760.96
D. h. 92.95% der Varianz der Variablen Motivation werden durch das
multiple lineare Regressionsmodell erklärt.
192 / 282
2.29 Statistische Tests bei der multiplen linearen Regression. Zwei wichtige” Fragestellungen:
”
I
I
Frage A: Hat mindestens eine der Prädiktorvariablen
x1 , . . . , xk einen Einfluss auf die abhängige Variable y
(Gesamttest auf Signifikanz).
Mathematische Formulierung der Hypothese:
Nullhypothese:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Alternative:
H1 : bj 6= 0 für mindestens ein j ∈ {1, 2, . . . , k}
I
I
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Frage B: Hat die Prädiktorvariable xj (z. B. Ehrgeiz) einen
Einfluss auf die abhängige Variable y .
Mathematische Formulierung der Hypothese:
Nullhypothese: H0 : bj = 0
Alternative: H1 : bj 6= 0
193 / 282
Methodenlehre II,
SoSe 2015
2.29(A) Gesamttest auf Signifikanz
I
Holger Dette
Nullhypothese: H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Alternative: H1 : bj 6= 0 für mindestens ein
j ∈ {1, 2, . . . , k}
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(1) Bestimme
n
2
Sreg
1X
=
(y · − ŷi )2
k
i=1
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
die Varianz der Regression, und
Sy2|x =
2.3 Multiple lineare
Regression
2.7 Partielle und
Semipartielle Korrelation
n
X
1
(yi − ŷi )2
n−k −1
i=1
die Residualvarianz
I
Beachte: Man geht genau wie im linearen
Regressionsmodell vor!
194 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
2.29(A) Gesamttest auf Signifikanz
(2) H0 wird zu Gunsten der Alternative H1 verworfen, falls
2
Sreg
Fn = 2 > Fk;n−k−1;1−α
Sy |x
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei bezeichnet Fk;n−k−1;1−α das (1 − α)-Quantil der
F -Verteilung mit (k, n − k − 1) Freiheitsgraden.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Wird H0 durch diesen Test verworfen, dann bleibt
aber noch unklar, welches der Merkmale signifikant ist”.
”
195 / 282
2.29(B) Tests für die Signifikanz einzelner Merkmale
Methodenlehre II,
SoSe 2015
Holger Dette
Nullhypothese:
H0 : bj = 0
Alternative:
H1 : bj 6= 0
I
Die Nullhypothese H0 wird zu Gunsten der Alternative H1
verworfen, falls
b̂ j
Tn = > tn−k−1;1− α2
ŝbj 1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei ist
I
I
I
tn−k−1;1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − k − 1 Freiheitsgraden
ŝbj der Standardfehler von b̂j
Beachte: Werden mehrere Hypothesen getestet, ist das
Niveau entsprechend anzupassen (vgl. Abschnitt 2.18).
196 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
2.30(A) Test auf Signifikanz im multiplen Regressionsmodell in Beispiel 2.22
I
I
Frage: Hat eine der 9 Prädiktorvariablen einen Einfluss auf
”
die abhängige Variable?”
Mathematische Hypothesen:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
H0 : bj = 0 für alle j = 1, . . . , 9
2.5 Variablenselektion
H1 : bj 6= 0 für mindestens ein j ∈ {1, . . . , 9}
2.7 Partielle und
Semipartielle Korrelation
I
Fn = 21.972,
I
Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zum
Niveau 5% verworfen.
2.6 Nichtlineare
Zusammenhänge
F9,15,0.95 = 2.5876
197 / 282
2.30(B) Beispiel: Test auf Signifikanz eines
Merkmals im multiplen linearen
Regressionsmodell in Beispiel 2.22
I
I
Frage: Hat die Prädiktorvariable Ehrgeiz (x1 ) einen Einfluss auf
”
die abhängige Variable Motivation Signifikanz des
Regressionskoeffizienten b1 )?”
Mathematische Hypothesen:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
H0 : b1 = 0;
I
b̂1 = 0.193,
ŝb1 = 0.081,
H1 : b1 6= 0
t25−10,0.975 = 2.13
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
⇒ T25 = 2.381
I
Da
T25 = 2.381 > 2.13
wird die Nullhypothese H0 zu Gunsten der Alternative
H1 : b1 6= 0 verworfen (zum Niveau 5%)
198 / 282
SPSS Output: Der Test 2.29(A) für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
b
ANOVA
Modell
1
Quadratsumme
Regression
Residuen
Gesamt
Mittel der
Quadrate
df
707,309
9
78,590
53,651
15
3,577
760,960
24
2.3 Multiple lineare
Regression
F
21,972
Signifikanz
,000
a
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Abhängige Variable: Y
199 / 282
SPSS Output: Der Test 2.29(B) für das Beispiel
2.22 (Arbeitsmotivation)
Modell
1
B
(Konstante)
Standard
fehler
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Methodenlehre II,
SoSe 2015
2.1 Korrelation
2.2 Lineare Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
Signifi
kanz
2.3 Multiple lineare
Regression
Untergrenze
Obergrenze
2.4 Multikollinearität und
Suppressionseffekte
-,760
,459
-14,609
6,926
T
-3,842
5,052
x1
,193
,081
,337
2,381
,031
,020
,365
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
,373
x7
,165
,098
,199
1,683
,113
-,044
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
200 / 282
R-Output: Der Test 2.29(B) für das Beispiel 2.22
(Arbeitsmotivation)
Call :
lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
Min
2.3 Multiple lineare
Regression
1Q
Median
3Q
Max
-3.5333 -0.7878 -0.0144
0.8352
2.9391
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) -3.8418391
5.0517520
-0.760
0.45875
x1
0.1927225
0.0809357
2.381
0.03094 *
x2
0.1533724
0.0490456
3.127
0.00692 **
x3
0.0493953
0.0648797
0.761
0.45826
x4
0.2460051
0.1478258
1.664
0.11683
201 / 282
Residual standard error : 1.891 on 15 degrees of freedom
Multiple R - squared :
0.9295 ,
Adjusted R - squared :
F - statistic : 21.97 on 9 and 15 DF ,
2.5 %
0.8872
p - value : 4.492 e -07
97.5 %
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
( Intercept ) -14.609393640 6.925715428
x1
0.020212256 0.365232828
x2
0.048834252 0.257910529
x3
-0.088892612 0.187683168
x4
-0.069078063 0.561088342
x5
-0.004075849 0.002310442
x6
-0.147429821 0.084663199
x7
-0.043845720 0.373328278
x8
0.095304292 0.315917155
x9
-0.070255862 0.177024655
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
202 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und Suppressionseffekte
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
203 / 282
2.31 Das Problem der Multikollinearität
Methodenlehre II,
SoSe 2015
Holger Dette
Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation” ein
”
multiples lineares Regressionsmodell mit 3 Prädiktorvariablen
Yi = b0 + b1 x1i + b2 x2i + b3 x3i + εi
i = 1, . . . , 25
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(Y : Motivation, x1 : Ehrgeiz, x2 : Kreativität, x3 : Leistungsstreben)
I
Schätzer für die Modellparameter
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
i
0
1
2
3
b̂i
5.54
0.39
0.23
0.001
ŝbi
2.62
0.14
0.09
0.12
p-Wert
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0.008
0.020
0.994
I
Bestimmtheitsmaß R 2 = 0.7861
I
Beachte: Nur für den Koeffizient b3 (Leistungsstreben) kann
keine Signifikanz (zum Niveau 5%) nachgewiesen werden.
204 / 282
Methodenlehre II,
SoSe 2015
Korrelationsmatrix für die Prädiktoren
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Motivation
Ehrgeiz
Kreativität
Leistungsstreben
Motivation
1
.71
.38
.56
Ehrgeiz
1
.05
.82*
Kreativität
Leistungsstreben
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1
-.02
2.4 Multikollinearität und
Suppressionseffekte
1
Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum
Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz
(SPSS)
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
205 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
I
Beachte: Es gibt eine signifikante Korrelation zwischen den
Variablen Leistungsstreben und Ehrgeiz
I
Beide Variablen tragen weitgehend identische Information.
I
Im Beispiel ist die Variable Leistungsstreben redundant und wird
nicht für die Vorhersage der abhängigen Variablen Motivation
benötigt.
I
Die Variable Ehrgeiz ist stärker mit der Variablen Motivation
korreliert als die Variable Leistungsstreben (aus diesem Grund ist
der entsprechende Koeffizient auch signifikant).
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Für die Bestimmtheitsmaße in den multiplen linearen
Regressionsmodellen mit drei bzw. zwei Variablen erhält man
R 2 = 0.786179 für Modell mit den Prädiktoren x1 , x2 , x3
R 2 = 0.786178 für Modell mit den Prädiktoren x1 , x2
206 / 282
SPSS Output: Multikollinearität; Schätzer im
Modell mit 3 Parametern
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
5,539
Standard
fehler
2.3 Multiple lineare
Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
2,618
2,116
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Signifi
kanz
Untergrenze
Obergrenze
,046
,095
10,983
x1
,393
,135
,688
2,913
,008
,112
,674
x2
,225
,089
,343
2,528
,020
,040
,410
x3
,001
,123
,002
,008
,994
-,255
,257
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
207 / 282
R-Output: Multikollinearität; Schätzer im Modell
mit 3 Parametern
Call :
lm ( formula = y ˜ x1 + x2 + x3 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
3Q
Max
-6.7996 -1.5635 -0.2354
1.8129
6.6490
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 5.538618
2.617828
2.116
0.04649 *
x1
0.393239
0.135012
2.913
0.00832 **
x2
0.224767
0.088899
2.528
0.01954 *
x3
0.001002
0.123169
0.008
0.99359
---
208 / 282
Methodenlehre II,
SoSe 2015
SPSS Output: Multikollinearität;
Korrelationsmatrix
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Korrelationen
Y
Korrelation nach Pearson
Y
x1
1,000
,708
Signifikanz (2-seitig)
N
x1
Korrelation nach Pearson
Signifikanz (2-seitig)
N
x2
,000
25
,708
**
x3
,379
,061
25
25
1,000
,053
,000
,559
**
,004
25
,818
**
,802
,000
25
25
25
25
Korrelation nach Pearson
,379
,053
1,000
-,016
Signifikanz (2-seitig)
,061
,802
25
25
N
x3
x2
**
Korrelation nach Pearson
Signifikanz (2-seitig)
N
,559
**
,818
**
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,939
25
25
-,016
1,000
,004
,000
,939
25
25
25
25
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
209 / 282
R-Output: Multikollinearität; Korrelationsmatrix
Methodenlehre II,
SoSe 2015
Holger Dette
Y
x1
x2
x3
1.00 0.71
0.38
0.56
x1 0.71 1.00
0.05
0.82
x2 0.38 0.05
1.00 -0.02
Y
x3 0.56 0.82 -0.02
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1.00
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
n = 25
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
P
Y
Y
x1
x2
x3
0.0000 0.0613 0.0037
x1 0.0000
0.8025 0.0000
x2 0.0613 0.8025
0.9388
x3 0.0037 0.0000 0.9388
210 / 282
2.32 Das Problem der Suppressionseffekte
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel: Betrachte in dem Beispiel 2.22 der
Arbeitsmarktmotivation” ein multiples lineares Regressionsmodell
”
mit 3 anderen Prädiktorvariablen
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Yi = b0 + b4 x4i + b5 x5i + b6 x6i + εi
i = 1, . . . , 25
(Y : Motivation, x4 : Hierarchie, x5 : Lohn, x6 : Arbeitsbedingungen)
I
Schätzungen für die Modellparameter
i
0
4
5
6
b̂i
25.08
0.88
-0.01
0.13
ŝbi
8.40
0.26
0.003
0.12
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
p-Wert
0.007
0.002
0.016
0.308
211 / 282
Korrelationsmatrix für die Variablen Motivation,
Hierarchie, Lohn und Arbeitsbedingungen
Motivation
Hierarchie
Lohn
Arbeitsbedingungen
Motivation
1
.42*
-.04
.35
Hierarchie
Lohn
1
.72**
.16
1
-.06
Arbeitsbedingungen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Beachte:
I
Zwischen der Prädiktorvariablen Lohn (x5 ) und der abhängigen
Variablen Motivation liegt keine signifikante Korrelation vor.
I
Dennoch bekommt diese Variable im multiplen
Regressionsmodell ein signifikantes Gewicht; d. h. die Hypothese
H0 : b5 = 0 wird zum Niveau 5% verworfen (p-Wert: 0.016).
I
Man spricht von einem Suppressionseffekt.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
212 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
I
Grund für diesen scheinbaren Widerspruch: Korrelationen sind
bivariate Maße für Zusammenhänge (zwischen zwei
Merkmalen). Das Modell der multiplen Regression untersucht
aber den Zusammenhang zwischen der Variablen Motivation und
dem (3-dimensionalen) Prädiktor (x4 , x5 , x6 ):
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Motivation ist stark mit der Variablen Hierarchie korreliert.
2.3 Multiple lineare
Regression
I
Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert.
2.4 Multikollinearität und
Suppressionseffekte
I
Prädiktorvariable Lohn wird in der multiplen linearen Regression
benötigt, um unerwünschte” Varianzanteile der Variablen
”
Hierarchie zu kompensieren.
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Bestimmtheitsmaße für verschiedene Modelle
R 2 = 0.664282 für Modell mit x4 , x5 , x6
R 2 = 0.509720 für Modell mit x4 , x6
213 / 282
SPSS Output: Suppressionseffekte; Schätzer im
Modell mit 4 Parametern
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
2.3 Multiple lineare
Regression
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
25,076
Standard
fehler
Standardisierte
Koeffizienten
95%-Konfidenzintervall für B
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Beta
T
8,398
2,986
Signifikanz
Untergrenze
Obergrenze
,007
7,612
42,539
x4
,884
,257
,843
3,444
,350
1,419
x5
-,007
,003
-,632
-2,612
,016
-,013
-,001
x6
,125
,120
,179
1,045
,308
-,124
,375
,002
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
214 / 282
R-Output: Suppressionseffekte; Schätzer im
Modell mit 4 Parametern
Call :
lm ( formula = y ˜ x4 + x5 + x6 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
Min
2.3 Multiple lineare
Regression
1 Q Median
-8.656 -2.823
1.351
3Q
Max
3.262
7.574
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 25.075612
8.397555
2.986
0.00704 **
x4
0.884461
0.256842
3.444
0.00244 **
x5
-0.007291
0.002792
-2.612
x6
0.125417
0.120023
1.045
---
0.01630 *
0.30793
215 / 282
SPSS Output: Suppressionseffekte; Schätzung
der Korrelationsmatrix
Korrelationen
Y
Korrelation nach Pearson
Y
x4
1,000
,419
Signifikanz (2-seitig)
N
x4
Korrelation nach Pearson
Signifikanz (2-seitig)
N
x5
Korrelation nach Pearson
Signifikanz (2-seitig)
,419
*
*
-,038
,354
,037
,856
,082
25
25
25
1,000
,037
25
-,038
,717
,717
,163
,000
,435
25
25
25
**
**
1,000
-,060
,000
25
25
25
25
Korrelation nach Pearson
,354
,163
-,060
1,000
Signifikanz (2-seitig)
,082
,435
,777
25
25
25
N
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
x6
,856
N
x6
25
x5
Methodenlehre II,
SoSe 2015
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,777
25
*. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
216 / 282
R-Output: Suppressionseffekte; Schätzung der
Korrelationsmatrix
Y
x4
x5
x6
Y
1.00 0.42 -0.04
0.35
x4
0.42 1.00
0.16
x5 -0.04 0.72
x6
0.72
1.00 -0.06
0.35 0.16 -0.06
1.00
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
n = 25
2.7 Partielle und
Semipartielle Korrelation
P
Y
Y
x4
x5
x6
0.0369 0.8562 0.0823
x4 0.0369
x5 0.8562 0.0000
0.0000 0.4352
0.7774
217 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
218 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
2.33 Merkmalselektionsverfahren
I
I
Ziel: Mit möglichst wenig Prädiktorvariablen eine gute
Vorhersage der abhängigen Variablen zu erzielen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Prinzip: Untersuche wie sich durch Weglassen einzelner
Variablen das Bestimmtheitsmaß R 2 verändert.
2.1 Korrelation
Typische Selektionsprozeduren:
2.4 Multikollinearität und
Suppressionseffekte
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
I
I
I
I
Rückwärtsverfahren
Vorwärtsverfahren
Schrittweise Verfahren
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Es handelt sich um explorative Verfahren, die
hauptsächlich der Modellbildung dienen (Interpretation
nicht einfach).
219 / 282
2.34 Das Rückwärtsverfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
I
I
Betrachte das vollständige Modell (mit allen Prädiktorvariablen)
und berechne das Bestimmtheitsmaß R 2 .
Entferne sukzessive diejenigen Variablen, die zu dem geringsten
Rückgang des Bestimmtheitsmaßes führen würden.
Das Verfahren wird abgebrochen, falls sich bei dem Entfernen
einer Variablen das Bestimmtheitsmaß signifikant” verkleinert.
”
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
220 / 282
Methodenlehre II,
SoSe 2015
2.35 Beispiel: Variablenselektion mit dem
Rückwärtsverfahren (vgl. Beispiel 2.22)
Schritt
1
2
Prädiktorvariablen
t-Wert
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Arbeitsbedingungen
Lernpotential
Vielfalt
Anspruch
2.38
3.13
.76
1.66
-.59
-.58
1.68
3.97
.92
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Lernpotential
Vielfalt
Anspruch
2.38
3.28
.79
1.66
-.57
1.66
4.04
.91
Ausgeschlossene Variablen
Holger Dette
R2
.929
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Arbeitsbedingungen
.928
221 / 282
Methodenlehre II,
SoSe 2015
Beispiel: Rückwärtsverfahren - Fortsetzung
Holger Dette
Schritt
3
Prädiktorvariablen
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lernpotential
Vielfalt
Anspruch
t-Wert
2.54
3.43
.88
2.11
1.59
4.17
1.35
Ausgeschlossene Variablen
Arbeitsbedingungen
Lohn
R2
.926
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
4
5
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
Anspruch
5.40
3.38
2.31
1.55
4.12
1.31
Arbeitsbedingungen
Lohn
Leistungsstreben
.923
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
5.18
3.16
2.84
3.31
5.04
Arbeitsbedingungen
Lohn
Leistungsstreben
Anspruch
.916
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
222 / 282
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation
b
Aufgenommene/Entfernte Variablen
Modell
1
2
3
4
5
Aufgenommene Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Entfernte
Variablen
Methode
2.3 Multiple lineare
Regression
x9, x5, x2, x3, x6, x8, x7, x4, …
.
Eingeben
.
x6
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
.
x5
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.6 Nichtlineare
Zusammenhänge
.
x3
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.7 Partielle und
Semipartielle Korrelation
.
x9
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
a. Alle gewünschten Variablen wurden aufgenommen.
b. Abhängige Variable: Y
223 / 282
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
R
R-Quadrat
Modell
1
,964
2
,963
3
,963
4
,961
5
,957
a
b
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
Änderung in F
df1
df2
Änderung in
Signifikanz von
F
2.3 Multiple lineare
Regression
,929
,887
1,891
,929
21,972
9
15
,000
2.4 Multikollinearität und
Suppressionseffekte
,928
,892
1,851
-,002
,332
1
15
,573
2.5 Variablenselektion
,926
,896
1,814
-,001
,327
1
16
,575
,923
,897
1,803
-,003
,783
1
17
,389
,916
,894
1,837
-,007
1,713
1
18
,207
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
224 / 282
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
Quadratsumme
Regression
Residuen
Gesamt
2
Regression
Residuen
Gesamt
3
Regression
9
78,590
53,651
15
3,577
760,960
24
8
88,265
54,840
16
3,427
760,960
24
7
100,714
17
3,292
Gesamt
760,960
24
Regression
702,422
6
117,070
58,538
18
3,252
Gesamt
760,960
24
Regression
696,852
5
139,370
64,108
19
3,374
760,960
24
Residuen
Gesamt
F
21,972
Signifikanz
,000
a
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
706,120
55,960
Residuen
5
707,309
705,000
Residuen
4
Mittel der
Quadrate
df
Methodenlehre II,
SoSe 2015
25,752
,000
b
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
30,596
c
2.5 Variablenselektion
d
2.7 Partielle und
Semipartielle Korrelation
,000
2.6 Nichtlineare
Zusammenhänge
35,999
,000
41,306
,000
e
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
f. Abhängige Variable: Y
225 / 282
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation: Koeffizienten
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
-3,842
x1
2
,193
Standardisierte
Koeffizienten
Beta
,081
95%-Konfidenzintervall für B
T
5,052
-,760
Signifikanz
Untergrenze
Obergrenze
,459
-14,609
6,926
,031
,020
,365
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
,337
2,381
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
2.4 Multikollinearität und
Suppressionseffekte
x7
,165
,098
,199
1,683
,113
-,044
,373
2.5 Variablenselektion
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
-4,737
4,706
-1,007
,329
-14,713
5,238
(Konstante)
x1
,326
2,376
x2
,157
,048
,239
3,285
,005
,056
,258
x3
,050
,187
,063
,096
,790
,441
-,084
,185
x4
,240
,144
,228
1,660
,116
-,066
,545
x5
,000
,001
-,073
-,572
,575
-,004
x7
,157
,095
,190
1,655
,117
-,044
,358
x8
,205
,051
,352
4,040
,001
,097
,312
x9
3
Standardfehler
Methodenlehre II,
SoSe 2015
(Konstante)
,079
,052
,057
-7,154
2,027
,193
,076
x1
x2
,159
,046
,121
,338
,244
,914
,030
,020
,353
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,002
,374
-,068
,172
-3,529
,003
-11,431
-2,877
2,540
,021
,033
,354
3,431
,003
,061
x3
,055
,062
,105
,885
,389
-,076
,185
x4
,172
,081
,164
2,113
,050
,000
,344
,258
a. Abhängige Variable: Y
226 / 282
2.36 Das Vorwärtsverfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
I
I
Bestimme diejenige Prädiktorvariable, die mit der abhängigen
Variablen am stärksten korreliert ist und berechne das
Bestimmtheitsmaß R 2 .
Ist R 2 signifikant, wird diese Variable in das Modell
aufgenommen.
Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die
zu dem größten Anstieg des Bestimmtheitsmaßes führen.
Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen
Variablen das Bestimmtheitsmaß R 2 nicht signifikant”
”
vergrößert.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
227 / 282
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation
a
Aufgenommene/Entfernte Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Modell
1
2
3
4
5
Aufgenommene
Variablen
Entfernte
Variablen
Methode
x1
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x9
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x2
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x8
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x4
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
228 / 282
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
Modell
1
R
,708
b
,863
3
,906
4
,944
,955
df1
df2
,501
,479
4,065
,501
23,059
1
23
,000
,744
,721
2,973
,244
20,980
1
22
,000
,820
,795
2,552
,076
8,876
1
21
,007
,891
,869
2,039
,070
12,879
1
20
,002
,913
,890
1,869
,022
4,810
1
19
,041
R-Quadrat
a
2
5
Änderung in F
Änderung in
Signifikanz
von F
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
229 / 282
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
2
3
4
Quadrat
summe
Mittel der
Quadrate
380,968
1
380,968
Residuen
379,992
23
16,521
Gesamt
760,960
24
566,456
2
283,228
Residuen
194,504
22
8,841
Gesamt
760,960
24
Regression
624,244
3
208,081
Residuen
136,716
21
6,510
Gesamt
760,960
24
Regression
677,797
4
169,449
4,158
83,163
20
Gesamt
760,960
24
Regression
694,596
5
138,919
66,364
19
3,493
760,960
24
Residuen
Gesamt
F
23,059
Signifikanz
,000
a
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Regression
Residuen
5
df
Regression
Methodenlehre II,
SoSe 2015
32,035
,000
b
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
31,962
c
2.5 Variablenselektion
d
2.7 Partielle und
Semipartielle Korrelation
,000
2.6 Nichtlineare
Zusammenhänge
40,751
,000
39,773
,000
e
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
230 / 282
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation: Koeffizienten
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
2
B
(Konstante)
2,406
,404
,084
(Konstante)
,063
2,642
x1
,320
,064
,221
,048
-2,101
2,380
x9
3
4
(Konstante)
Beta
95%-Konfidenzintervall für B
Signifikanz
Untergrenze
Obergrenze
3,778
,001
4,111
14,064
4,802
T
,000
,230
,579
,024
,981
-5,415
5,542
,560
4,983
,000
,187
,454
,515
4,580
,000
,121
,321
-,883
,387
-7,052
2,849
,708
x1
,319
,055
,558
5,776
,000
,204
,433
x9
,203
,042
,474
4,862
,000
,116
,290
x2
,183
,061
,279
2,979
,007
,055
,310
-6,502
2,263
-1,781
(Konstante)
-2,873
,009
-11,224
x1
,253
,048
,442
5,286
,000
,153
,352
x9
,150
,037
,350
4,101
,001
,074
,226
x2
,049
,293
,190
,053
,327
-6,833
,192
2,080
x8
5
Standardfehler
9,088
x1
Standardisierte
Koeffizienten
(Konstante)
x1
,271
,045
,474
3,908
,001
,089
,002
,080
,301
,004
-11,186
-2,479
,000
,178
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,294
3,589
-3,285
6,076
2. Korrelation, Lineare
Regression und
multiple Regression
,364
x9
,116
,037
,271
3,147
,005
,039
,193
x2
,177
,045
,271
3,903
,001
,082
,272
x8
,181
,049
,311
3,706
,001
,079
,283
x4
,181
,083
,173
2,193
,041
,008
,354
a. Abhängige Variable: Y
231 / 282
2.37 Das schrittweise Verfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Rückwärts- und Vorwärtsverfahren werden kombiniert!
I
Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt
untersucht wird, ob bei Entfernen einer bereits aufgenommenen
Variable das Bestimmtheitsmaß signifikant abnehmen würde.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
232 / 282
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation
a
Aufgenommene/Entfernte Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modell
1
Aufgenommene
Variablen
Entfernte
Variablen
Methode
2.2 Lineare Regression
2.3 Multiple lineare
Regression
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.5 Variablenselektion
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x2
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.7 Partielle und
Semipartielle Korrelation
x8
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x4
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x1
2
x9
3
4
5
2.4 Multikollinearität und
Suppressionseffekte
2.6 Nichtlineare
Zusammenhänge
a. Abhängige Variable: Y
233 / 282
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
Modell
1
R
,708
R-Quadrat
a
b
2
,863
3
,906
4
,944
5
,955
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
Änderung
in F
Änderung in
Signifikanz
von F
df1
df2
,501
,479
4,065
,501
23,059
1
23
,000
,744
,721
2,973
,244
20,980
1
22
,000
,820
,795
2,552
,076
8,876
1
21
,007
,891
,869
2,039
,070
12,879
1
20
,002
,913
,890
1,869
,022
4,810
1
19
,041
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
234 / 282
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
2
3
4
Quadratsumme
Mittel der
Quadrate
380,968
1
380,968
Residuen
379,992
23
16,521
Gesamt
760,960
24
Regression
566,456
2
283,228
Residuen
194,504
22
8,841
Gesamt
760,960
24
Regression
624,244
3
208,081
Residuen
136,716
21
6,510
Gesamt
760,960
24
Regression
677,797
4
169,449
83,163
20
4,158
Gesamt
760,960
24
Regression
694,596
5
138,919
66,364
19
3,493
760,960
24
Residuen
5
df
Regression
Residuen
Gesamt
F
23,059
Signifikanz
,000
a
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
b
32,035
,000
31,962
,000
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
c
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
40,751
,000
39,773
,000
d
2.7 Partielle und
Semipartielle Korrelation
e
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
235 / 282
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation: Koeffizienten
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
2
B
(Konstante)
2,406
,404
,084
(Konstante)
,063
2,642
x1
,320
,064
5
Beta
95%-Konfidenzintervall für B
Signifikanz
Untergrenze
Obergrenze
3,778
,001
4,111
14,064
4,802
T
,000
,230
,579
,024
,981
-5,415
5,542
,560
4,983
,000
,187
,454
,515
4,580
,000
,121
,321
-,883
,387
-7,052
2,849
,708
,221
,048
-2,101
2,380
x1
,319
,055
,558
5,776
,000
,204
,433
x9
,203
,042
,474
4,862
,000
,116
,290
,279
(Konstante)
x2
4
Standardfehler
9,088
x1
x9
3
Standardisierte
Koeffizienten
,183
,061
-6,502
2,263
x1
,253
,048
x9
,150
,037
x2
,192
,049
x8
,190
,053
-6,833
2,080
x1
,271
,045
x9
,116
x2
,177
x8
x4
(Konstante)
(Konstante)
2,979
,007
,055
,310
-2,873
,009
-11,224
-1,781
,442
5,286
,000
,153
,352
,350
4,101
,001
,074
,226
,293
3,908
,001
,089
,327
3,589
,002
,080
,301
-3,285
,004
-11,186
-2,479
,474
6,076
,000
,178
,364
,037
,271
3,147
,005
,039
,193
,045
,271
3,903
,001
,082
,272
,181
,049
,311
3,706
,001
,079
,283
,181
,083
,173
2,193
,041
,008
,354
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,294
a. Abhängige Variable: Y
236 / 282
2.38 Bemerkung zu den verschiedenen
Merkmalselektionsverfahren
I
Beachte: Verschiedene Verfahren liefern verschiedene
Ergebnisse (es gibt kein richtig oder falsch!)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
I
Beispiel (Arbeitsmotivation)
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Rückwärtsverfahren
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
R 2 = .916
Vorwärtsverfahren
Ehrgeiz
Kreativität
Hierarchie
Anspruch
Vielfalt
R 2 = .913
Schrittweises Verfahren
Ehrgeiz
Kreativität
Hierarchie
Anspruch
Vielfalt
R 2 = .913
2.7 Partielle und
Semipartielle Korrelation
237 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.6 Nichtlineare Zusammenhänge
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
238 / 282
Nichtlineare Zusammenhänge
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Die (multiplen) linearen Regressionsmodelle beruhen auf der
Annahme, dass der Zusammenhang zwischen jeder
Prädiktorvariable und der abhängigen Variablen linear ist, d. h.
durch eine Gerade beschrieben werden kann.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
I
Diese Annahme muss nicht immer erfüllt sein. Zusammenhänge
zwischen Variablen können im Grunde beliebige Form haben.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Man spricht in diesen Fällen von nichtlinearen
Zusammenhängen
239 / 282
Methodenlehre II,
SoSe 2015
2.39 Beispiel: Gedächtnistest
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Mehrere Personen machen einen Gedächtnistest
2.1 Korrelation
I
30 Ortsnamen (aus Mongolei) werden vorgegeben
2.3 Multiple lineare
Regression
I
y (x ): Anzahl der Ortsnamen, die nach x Tagen noch im
Gedächtnis geblieben sind (Mittelwerte)
I
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
x
y (x )
1
24.9
2
19.7
3
17.0
4
13.2
5
11.0
6
8.5
7
7.9
8
5.8
9
5.5
10
5.0
240 / 282
Das Streudiagramm für die Daten aus Beispiel
2.39 (Gedächtnistest)
30,0
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Anzahl der Ortsnamen
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
20,0
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10,0
,0
0
2
4
6
8
10
Tage
241 / 282
Das Streudiagramm für die Daten aus Beispiel
2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
15
2.6 Nichtlineare
Zusammenhänge
10
2.7 Partielle und
Semipartielle Korrelation
5
Anzahl der Ortsnamen
2.1 Korrelation
2
4
6
8
10
Tage
242 / 282
Lineare Regression für die Daten aus Beispiel
2.39 (Gedächtnistest)
30,0
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Anzahl der Ortsnamen
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10,0
,0
0
2
4
6
8
10
Tage
Die Gleichung der geschätzten Geraden:
y = 10.579 − 0.429x
243 / 282
Lineare Regression für die Daten aus Beispiel
2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
15
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0 5
Anzahl der Ortsnamen
2. Korrelation, Lineare
Regression und
multiple Regression
2.7 Partielle und
Semipartielle Korrelation
2
4
6
8
10
Tage
Die Gleichung der geschätzten Geraden:
y = 10.579 − 0.429x
244 / 282
Residuenanalyse bei linearer Regression für die
Daten aus Beispiel 2.39 (Gedächtnistest)
2,00000
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Standardized Residual
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1,00000
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,00000
-1,00000
-1,50000
-1,00000
-,50000
,00000
,50000
1,00000
1,50000
Standardized Predicted Value
245 / 282
Residuenanalyse bei linearer Regression für die
Daten aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1
10
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
−1
2.7 Partielle und
Semipartielle Korrelation
6
−3
Residuals
3
Residuals vs Fitted
5
10
15
20
Fitted values
lm(y ~ x)
246 / 282
QQ - Plot bei linearer Regression für die Daten
aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Q-Q-Diagramm von Normal von Standardized Residual
1,5
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Erwarteter Wert von Normal
1,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
0,5
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0,0
-0,5
-1,0
-1,5
-2
-1
0
1
2
Beobachteter Wert
247 / 282
QQ - Plot bei linearer Regression für die Daten
aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.0
2.2 Lineare Regression
1
10
2.3 Multiple lineare
Regression
1.0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−1.0 0.0
Standardized residuals
Normal Q−Q
2.7 Partielle und
Semipartielle Korrelation
2.6 Nichtlineare
Zusammenhänge
6
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
lm(y ~ x)
248 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
Beachte:
I
Ein lineares Regressionsmodell ist für die Beschreibung des
Zusammenhangs ungeeignet!
I
Quadratisches Regressionsmodell
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Yi = b0 + b1 xi + b2 xi2 + εi
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Schätzung der Parameter mit der Methode der kleinsten
Quadrate und die entsprechenden Standardfehler
b̂0 =
ŝb0 =
29.088
0.558
b̂1 = −4.876
ŝb1 =
0.233
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
b̂2 = 0.249
ŝb2 = 0.021
249 / 282
Methodenlehre II,
SoSe 2015
Konfidenzbereiche und Tests
Holger Dette
I
Man geht wie in 2.12 und 2.14 bzw. 2.29 vor.
I
90% Konfidenzintervall für b2 (man beachte: das Modell hat 3
Parameter)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
t10−3,0.95 = 1.8946
b̂2 = 0.249
ŝb2 = 0.021
⇒ [b̂2 − t7,0.95 ŝb2 , b̂2 + t7,0.95 ŝb2 ] = [0.2092, 0.2888]
ist 90% Konfidenzintervall für b2 .
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Die Hypothese H0 : b2 = 0 wird (zum Niveau 10%) verworfen,
falls
b̂ 2
> t10−3,0.95
ŝb2
I
Beachte: 10 − 3 Freiheitsgrade, da 10 Daten und 3 Parameter
in der Parabelgleichung
gilt (im Beispiel wird also H0 abgelehnt).
250 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output: Schätzer für quadratische
Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Koeffizienten
Nicht standardisierte
Koeffizienten
B
Tage
Tage ** 2
(Konstante)
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Standardfehler
Beta
2.5 Variablenselektion
t
Sig.
-4,876
,233
-2,183
-20,927
,000
,249
,021
1,257
12,055
,000
29,088
,558
52,136
,000
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
251 / 282
R-Output: Schätzer für quadratische Regression
Methodenlehre II,
SoSe 2015
Holger Dette
Call :
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
lm ( formula = y ˜ x + x2 )
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals :
2.1 Korrelation
Min
1Q
Median
3Q
Max
-0.63121 -0.27023 -0.06689
0.26064
0.75136
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Coefficients :
2.7 Partielle und
Semipartielle Korrelation
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 29.08833
0.55793
52.14 2.50 e -10 ***
x
-4.87629
0.23302
-20.93 1.43 e -07 ***
0.24886
0.02064
12.05 6.17 e -06 ***
x2
---
Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
252 / 282
Streudiagramm für die Daten aus Beispiel 2.39
mit der geschätzten Parabel
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Anzahl der Ortsnamen
Beobachtet
Quadratisch
30,0
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
20,0
2.7 Partielle und
Semipartielle Korrelation
10,0
0,0
0
2
4
6
8
10
Tage
253 / 282
Streudiagramm für die Daten aus Beispiel 2.39
mit der geschätzten Parabel
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
15
2.6 Nichtlineare
Zusammenhänge
10
2.7 Partielle und
Semipartielle Korrelation
5
Anzahl der Ortsnamen
2.1 Korrelation
2
4
6
8
10
Tage
254 / 282
SPSS-Output: Residuenanalyse für die Daten aus
Beispiel 2.39 bei quadratischer Regression
2,00000
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Standardized Residual
1,00000
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
,00000
2.7 Partielle und
Semipartielle Korrelation
-1,00000
-2,00000
-1,00000
-,50000
,00000
,50000
1,00000
1,50000
2,00000
Standardized Predicted Value
255 / 282
R-Output: Residuenanalyse für die Daten aus
Beispiel 2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Residuals vs Fitted
2.2 Lineare Regression
2.3 Multiple lineare
Regression
0.5
2.4 Multikollinearität und
Suppressionseffekte
1
2.5 Variablenselektion
0.0
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
−0.5
Residuals
7
2
5
10
15
20
25
Fitted values
lm(y ~ x + x2)
256 / 282
Methodenlehre II,
SoSe 2015
SPSS-Output: QQ-Plot für die Daten aus
Beispiel 2.39 bei quadratischer Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Q-Q-Diagramm von Normal von Standardized Residual
1,5
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Erwarteter Wert von Normal
1,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
0,5
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0,0
-0,5
-1,0
-1,5
-2
-1
0
1
2
Beobachteter Wert
257 / 282
R-Output: QQ-Plot für die Daten aus Beispiel
2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
2.0
Normal Q−Q
2.2 Lineare Regression
7
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
1.0
1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0.0
−1.5
Standardized residuals
2. Korrelation, Lineare
Regression und
multiple Regression
2.7 Partielle und
Semipartielle Korrelation
2
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
lm(y ~ x + x2)
258 / 282
SPSS-Output: Histogramm für die Residuen aus
Beispiel 2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Histogramm
2.1 Korrelation
2.2 Lineare Regression
Abhängige Variable: Anzahl der Ortsnamen
Mittelwert = 3,96E-16
Std.-Abw. = 0,882
N =10
2,5
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2,0
Häufigkeit
2.3 Multiple lineare
Regression
2.7 Partielle und
Semipartielle Korrelation
1,5
1,0
0,5
0,0
-2
-1
0
1
2
Regression Standardisiertes Residuum
259 / 282
2.40 Polynomiale Regressionsmodelle
Methodenlehre II,
SoSe 2015
Holger Dette
Modelle zur polynomialen Regression
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Ordnung
0.
1.
2.
..
.
k.
Modell
Y = b0 + ε
Y = b0 + b1 x 1 + ε
Y = b0 + b1 x 1 + b2 x 2 + ε
..
.
Y = b0 + b1 x 1 + b2 x 2 + . . . + bk x k + ε
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
In der Regel werden nur Modelle von niedrigem Grad
verwendet (k ≤ 3)!
I
Schätzung der Parameter erfolgt mit der Methode der
kleinsten Quadrate.
I
Konfidenzintervalle, Tests und Residuenanalyse werden wie
bei der linearen bzw. multiplen Regression durchgeführt
(Allgemeines lineares Modell)
260 / 282
Methodenlehre II,
SoSe 2015
2.41 Mehrdimensionale Polynome
Holger Dette
I
Sind mehrere Prädiktorvariablen verfügbar, so können neben
Potenzen auch Produkte von zwei oder mehr Variablen in die
Regressionsgleichung aufgenommen werden.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Beispiele:
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 + ε
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 +
b02 x12
+
b20 x22
+ε
2.7 Partielle und
Semipartielle Korrelation
Y (x) = b0 + b1 x1 + b2 x2 + b3 x3 + b120 x1 x2 + b103 x1 x3
+ b023 x2 x3 + b123 x1 x2 x3 + ε
261 / 282
3D-Streudiagramm mit der geschätzten Funktion
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
100
80
2.1 Korrelation
60
2.2 Lineare Regression
Y
40
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
0
−20
2.5 Variablenselektion
−40
2.6 Nichtlineare
Zusammenhänge
−60
6
4
4
2
2
0
0
−2
−2
X2
2.7 Partielle und
Semipartielle Korrelation
−4
−4
−6
X1
Die geschätzte Funktion ist:
yb(x) = 2.23 + 3.52x1 + 5.77x2 + 3.96x1 x2 .
262 / 282
3D-Streudiagramm mit der geschätzten Funktion
Polynomiale Terme und Produkte der Prädiktoren können natürlich
auch gemeinsam vorkommen.
Beispiel:
y (x) = b0 + b11 x1 + b12 x12 + b21 x2 + b23 x23 + b11;21 x1 x2 + ε.
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
100
2.6 Nichtlineare
Zusammenhänge
80
60
2.7 Partielle und
Semipartielle Korrelation
Y
40
20
0
−20
−40
−60
6
4
4
2
2
0
0
−2
−2
X2
−4
−4
−6
X1
Die angepasste Funktion hat die Form
yb(x) = 1 + 2.15x1 + 6.59x12 + 1.66x2 + 3.07x23 + 3.76x1 x2
263 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.7 Partielle und Semipartielle Korrelation
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
264 / 282
2.42 Beispiel: Entwicklungspsychologie
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Im Rahmen einer Studie in der Entwicklungspsychologie soll der
Zusammenhang zwischen
I
I
Abstraktionsfähigkeit (x ) und
sensomotorischer Koordination (y )
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
untersucht werden.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Zusätzlich wird das Alter der Kinder erhoben (z)
I
Insgesamt werden 15 Kinder im Alter von 6 - 10 Jahren
untersucht.
265 / 282
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
Kind
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Abstraktionsfähigkeit (x )
9
11
13
13
14
9
10
11
10
8
13
7
9
13
14
sensomotor.
Koord. (y )
8
12
14
13
14
8
9
12
8
9
14
7
10
12
12
Alter
(z)
6
8
9
9
10
7
8
9
8
7
10
6
10
10
9
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
266 / 282
Methodenlehre II,
SoSe 2015
Auswertung:
Holger Dette
I
Für den Korrelationskoeffizient von Pearson (vgl. 2.2) erhält
man für die Korrelation der Variablen x (Abstraktionsfähigkeit)
und y (sensomotorische Koordination)
rx ,y = 0.89
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
I
Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielen
Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen
Einfluss der dritten Variablen” (Alter) zurückführbar ist.
”
In einem solchen Fall spricht man von einer
Scheinkorrelation”. D. h. rx ,y ist zwar im mathematischen
”
Sinn eine Korrelation, aber der gefundene Zusammenhang
zwischen Abstraktionsfähigkeit und sensomotorischer
Koordination ist (teilweise) durch eine dritte Variable erklärbar
und kann nicht als kausal interpretiert werden.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Ziel: Berechnung einer Korrelation, die von dem Einfluss der
dritten Variablen Alter bereinigt” ist. =⇒ Partialkorrelation.
”
267 / 282
Methodenlehre II,
SoSe 2015
2.43 Partialkorrelation
Holger Dette
I
Modell: Daten (xi , yi , zi )i=1, ... ,n . Im Beispiel ist xi die
Abstraktionsfähigkeit, yi die sensomotorische Koordination und
zi das Alter des i-ten Kindes
I
Gesucht: Ein um den Einfluss der Variablen z bereinigtes”
”
Abhängigkeitsmaß zwischen den Variablen x und y
I
Methode:
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Berechne die (lineare) Regressionsgerade für die Daten
(x1 , z1 ), . . . , (xn , zn ):
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
x = â0 + â1 z
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(vgl. 2.11) und die Residuen
xi∗ = xi − (â0 + â1 zi )
I
i = 1, . . . , n
Berechne die (lineare) Regressionsgerade für die Daten
(y1 , z1 ), . . . , (yn , zn ):
y = b̂0 + b̂1 z
(vgl. 2.11) und die Residuen
yi∗ = yi − (b̂0 + b̂1 zi )
i = 1, . . . , n
268 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
I
Bestimme die Korrelation zwischen den Residuen
(x1∗ , y1∗ ), . . . , (xn∗ , yn∗ )
Pn
(x ∗ − x ∗· )(yi∗ − y ∗· )
∗
∗
rx ,y ·z = rx ,y = qP i=1 i
Pn
n
∗ 2
∗ 2
∗
∗
i=1 (xi − x · )
i=1 (yi − y · )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Die Größe
2.5 Variablenselektion
rx ,y ·z
I
heißt Partialkorrelation zwischen x und y , aus der das
Merkmal z herauspartialisiert” wurde.
”
Die Partialkorrelation ist also eine bivariate Korrelation zwischen
Regressionsresiduen.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
269 / 282
Methodenlehre II,
SoSe 2015
2.44 Bemerkung
Holger Dette
I
Man kann zeigen, dass gilt:
rx ,y − rx ,z ry ,z
rx ,y ·z = q
(1 − rx2,z )(1 − ry2,z )
(1)
Dabei ist
I
I
I
I
I
rx ,y der Korrelationskoeffizient zwischen den Variablen x und y
rx ,z der Korrelationskoeffizient zwischen den Variablen x und z
ry ,z der Korrelationskoeffizient zwischen den Variablen y und z
Die Partialkorrelation ist ein Maß für den linearen
Zusammenhang von zwei Variablen x und y , aus dem der lineare
Einfluss einer dritten Variablen z eliminiert wurde.
Genauer: Die Partialkorrelation bemisst, inwieweit man aus den
Vorhersagefehlern bei der linearen Prognose von x durch z die
Vorhersagefehler bei der linearen Prognose von y durch z linear
vorhersagen kann - und umgekehrt.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Gibt es mehr als drei Variablen, so können Partialkorrelationen
höherer Ordnung gebildet werden, indem die Residuen xi∗ , yi∗
mit Hilfe des multiplen linearen Regressionsmodells (vgl.
Methodenlehre II, 2.23) bestimmt werden.
270 / 282
Beispiel (Fortsetzung von Beispiel 2.42)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Lineare Regression von x bzgl. z
x = 1.246z + 0.464
I
2. Korrelation, Lineare
Regression und
multiple Regression
Lineare Regression von y bzgl. z
y = 1.420z − 1.13
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Regressionsresiduen
2.4 Multikollinearität und
Suppressionseffekte
∗
x
1,06
0,57
1,32
1,32
1,07
-0,19
-0,43
-0,68
-0,43
-1,19
0,07
-0,94
-3,92
0,07
2,32
∗
y
0,61
1,77
2,35
1,35
0,93
-0,81
-1,23
0,35
-2,23
0,19
0,93
-0,39
-3,07
-1,07
0,35
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
271 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
I
rx ,y ·z = 0.72
I
Die Korrelation zwischen Abstraktionsfähigkeit und
sensomotorischen Koordinationsleistungen der Kinder ist somit
von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der
Kinder zurückzuführen
I
Beachte: Mit den Werten
I
I
I
rx ,y = 0.89
rx ,z = 0.77
ry ,z = 0.80
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
kann man die Partialkorrelation rx ,y ·z auch mit Hilfe der Formel
(1) berechnen.
272 / 282
Signifikanztest für partielle Korrelationen
Methodenlehre II,
SoSe 2015
Holger Dette
Ein Test zum Niveau α für die Hypothese die Merkmale X und Y
”
unter Z sind unkorreliert”
H0 : ρx ,y .z = 0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρx ,y .z 6= 0
ab, falls
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
√
n − 3rx ,y .z > tn−3,1− α
q
2
1 − rx2,y .z gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante
Korrelation zwischen zwei Merkmalen (vgl. 2.5)
273 / 282
Methodenlehre II,
SoSe 2015
Partielle Korrelationen in SPSS
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Korrelationen
2.1 Korrelation
2.2 Lineare Regression
Kontrollvariablen
Alter
Abstraktionsfähigkeit
Korrelation
Abstraktions
fähigkeit
1,000
Signifikanz (zweiseitig)
.
,004
0
12
Korrelation
,722
1,000
Signifikanz (zweiseitig)
,004
Freiheitsgrade
sensomotorische
Koordination
sensomotorische
Koordination
,722
Freiheitsgrade
12
.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0
274 / 282
Methodenlehre II,
SoSe 2015
Partielle Korrelationen in R
Holger Dette
$estimate
x
y
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
z
x 1.0000000 0.7220272 0.1882497
2. Korrelation, Lineare
Regression und
multiple Regression
y 0.7220272 1.0000000 0.4095360
2.1 Korrelation
2.2 Lineare Regression
z 0.1882497 0.4095360 1.0000000
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
$p . value
2.6 Nichtlineare
Zusammenhänge
x
y
z
2.7 Partielle und
Semipartielle Korrelation
x 0.0000000000 0.0003002053 0.5066983
y 0.0003002053 0.0000000000 0.1199311
z 0.5066982702 0.1199311224 0.0000000
$statistic
x
y
z
x 0.0000000 3.615123 0.6639876
275 / 282
2.45 Semipartialkorrelationen
Methodenlehre II,
SoSe 2015
Holger Dette
I
Wird die dritte Variable z nur aus einer Variablen (z.B. x )
herauspartialisiert, so spricht man von einer
Semipartialkorrelation.
I
Man berechnet die (lineare) Regressionsgerade für die Daten
(x1 , z1 ), . . . , (xn , zn ):
x = â0 + â1 z
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
und betrachtet die Vorhersagefehler
xi∗ = xi − â0 − â1 zi
I
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Dann bestimmt man die Korrelation zwischen
(x1∗ , y1 ), . . . , (xn∗ , yn ):
Pn
(x ∗ − x ∗· )(yi − y · )
ry (x ·z) = rx ∗ ,y = qP i=1 i
Pn
n
∗ 2
∗
2
i=1 (xi − x · )
i=1 (yi − y · )
276 / 282
Methodenlehre II,
SoSe 2015
Alternative Darstellung für die
Semipartialkorrelationen
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Man kann zeigen dass gilt:
ry (x ·z) =
rx ,y − rx ,z ry ,z
q
1 − rx2,z
(2)
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Dabei ist
I
I
I
I
rx ,y der Korrelationskoeffizient zwischen den Variablen x und y
rx ,z der Korrelationskoeffizient zwischen den Variablen x und z
ry ,z der Korrelationskoeffizient zwischen den Variablen y und z
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Bemerkung:
I
I
I
Die Semipartialkorrelation bemisst, inwieweit man aus den
Vorhersagefehlern bei der linearen Prognose von x durch z die
Werte von y linear vorhersagen kann.
Die quadrierte Semipartialkorrelation ist der Anteil der Varianz
von y , der durch die Variable x zusätzlich zu der Variablen z
erklärt werden kann.
Die Semipartialkorrelation ist immer kleiner als die
Partialkorrelation.
277 / 282
Berechnung der Semipartialkorrelationen in
Beispiel 2.42
I
Lineare Regression von x bzgl. z
x = 1.246z + 0.464
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Regressionsresiduen und Beobachtungen
x∗
1,06
0,57
1,32
1,32
1,07
-0,19
-0,43
-0,68
-0,43
-1,19
0,07
-0,94
-3,92
0,07
2,32
y
8
12
14
13
14
8
9
12
8
9
14
7
10
12
12
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
278 / 282
Methodenlehre II,
SoSe 2015
Holger Dette
I
ry (x ·z) = 0.43
I
Die Korrelation zwischen Abstraktionsfähigkeit und
sensomotorischen Koordinationsleistungen der Kinder ist somit
von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der
Kinder zurückzuführen.
I
Beachte: Mit den Werten
I
I
I
rx ,y = 0.89
rx ,z = 0.77
ry ,z = 0.80
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
kann man die Semipartialkorrelation ry (x ·z) auch mit Hilfe der
Formel (2) berechnen.
279 / 282
Methodenlehre II,
SoSe 2015
Semipartialkorrelationen in SPSS
Holger Dette
I
I
Die Semipartialkorrelationen (in SPSS heißen diese
Teil-Korrelationen) werden (auf Wunsch) als Ergänzung zu den
Kleinsten Quadrate-Schätzungen im multiplen linearen
Regressionsmodell (vgl. 2.23) ausgegeben.
Signifikanztest für die Semipartialkorrelationen fehlen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
2.3 Multiple lineare
Regression
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
Regressions
koeffizientB
-1,469
Standardfehler
1,795
Alter
,510
,328
Abstraktionsfähigkeit
,730
,202
(Konstante)
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Beta
2.5 Variablenselektion
T
-,818
Sig.
,429
,289
1,555
,146
,671
3,615
,004
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: sensomotorische Koordination
a
Koeffizienten
Korrelationen
Modell
1
Alter
Abstraktionsfähigkeit
Nullter
Ordnung
,803
Partiell
,410
Teil
,185
,892
,722
,431
a. Abhängige Variable: sensomotorische Koordination
280 / 282
Methodenlehre II,
SoSe 2015
Semipartialkorrelationen in R
Holger Dette
Call :
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
lm ( formula = y ˜ x + z )
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals :
2.1 Korrelation
2.2 Lineare Regression
Min
1Q
Median
3Q
Max
-1.9145 -0.7943
0.1447
0.8599
1.3851
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept )
-1.4690
1.7955
-0.818
0.42922
x
0.7300
0.2019
3.615
0.00355 **
z
0.5104
0.3282
1.555
0.14590
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
281 / 282
Bemerkung:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Ob ein Partial- oder Semipartialkorrelationskoeffizient zur
Beschreibung eines Zusammenhangs gewählt wird, hängt von
theoretischen Überlegungen ab:
I
I
Beeinflusst eine dritte Variable (z) ursächlich” beide Variablen
”
x und y
Partialkorrelation
Wird der Zusammenhang zwischen den Variablen x und y durch
die dritte Variable z vermittelt” (z ist mit y korreliert und
”
beeinflusst x )
Semipartialkorrelation
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
282 / 282
Herunterladen
Study collections