Methodenlehre II, SoSe 2015 - Ruhr

Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Methodenlehre II,
SoSe 2015
2. Korrelation, Lineare
Regression und
multiple Regression
Holger Dette
Ruhr-Universität Bochum
8. Mai 2015
1 / 283
Methodenlehre II
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Prof. Dr. Holger Dette
I
NA 3/73
I
Telefon: 0234 322 8284
I
Email: [email protected]
I
Internet: http://www.ruhr-uni-bochum.de/mathematik3/
2. Korrelation, Lineare
Regression und
multiple Regression
http://www.ruhr-uni-bochum.de/mathematik3/dette.html
I
Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10
I
Thema: Das allgemeine lineare Modell und seine Anwendungen
in der Psychologie
2 / 283
Statistik-Team
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Übung: Dienstag, 12.15–13.15 Uhr, HZ0 70
Ria Van Hecke; [email protected]
Tutorium: SPSS
I
I
I
I
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Maxi Gödel::
Mo 10:00-12:00 in GAFO 02/365 Mo 12:00-14:00 in GAFO
03/974
Pia Brinkhaus:
Di 10:00-12:00 in UFO 01/06
Ricarda Weiland:
Mo 14:00-16:00 in GAFO 02/368
Di 08:00-10:00 in GAFO 02/368
Phillip Ozimek:
Do 14:00-16:00 in GAFO 03/901
Malte Kobelt:
Do 14:00-16:00 in GAFO 03/974
3 / 283
E-Learning
Methodenlehre II,
SoSe 2015
Holger Dette
Zur Unterstützung von Vorlesung und Übung gibt es einen
Blackboardkurs:
I
Kurs-ID: 112131-ss15
I
Kursbezeichnung: Statistische Methodenlehre II“
”
Passwort: mlehre2.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Dort gibt es:
I
Folien zu Vorlesung und Übung,
I
Übungsaufgaben und Tests, mit denen Bonuspunkte für die
Klausur erzielt werden können und
I
(zum Semesterende) eine Probeklausur.
4 / 283
Das allgemeine lineare Modell:
Ein mathematisches Modell - viele statistische
”
Verfahren“
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Inhaltsverzeichnis
1. Grundlegende Prinzipien der schließenden Statistik am Beispiel
des t-Tests
2. Das lineare Regressionsmodell, multiple Regression und
Korrelation
3. Das allgemeine“ lineare Modell
”
5 / 283
Literatur
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,
5th Edition, Pearson Prentice Hall
J. Bortz, Statistik, 6. Auflage, Springer
M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe
P. Zöfel, Statistik für Psychologen, Pearson Studium
6 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende Prinzipien der schließenden
Statistik am Beispiel des t-Tests
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
1.2 t-Test für eine Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
7 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
8 / 283
keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei
die Parameter der Verteilungen bekannt und man konnte unmittelbar loslegen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu
wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die
Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt
sind. In solch einer Situation kann man mit der beurteilenden Statistik
- aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits-
Beurteilende Statistik
"
U8ER.
PliS LJoUfl.J
WiR. WAS /.JiSSHJ:
(JI.!!) Wil<. HI/BEI.!
lJin ,zOM
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
iT,
f:rJf()lIlTIOIJ
'KüoCSCHwsr
fi{,E#./SCI(I/ PT!/..) J)ff(
GROM l>6lJ Af,rTHEi" i.X)'-
1
<1
G.iGEA/S(j{ltfrEN J)'(
X
gemeinsam mit Herrn Dr. Romberg.
(Oestreich & Romberg, 2012)
9 / 283
1.1 Beispiel: Intelligenzquotient
Methodenlehre II,
SoSe 2015
Holger Dette
Fragestellung: Haben (15-jährige) Kinder aus Bochum einen
höheren Intelligenzquotienten als 100?
I
10 Kinder (zufällig ausgewählt) machen einen IQ-Test
Daten: y1 , . . . , y10 Stichprobe
i
yi
i
yi
I
1
104
6
107
2
98
7
100
3
106
8
97
4
99
9
108
5
110
10
112
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Hypothese (IQ der Kinder ist niedriger als 100):
H0 : µ ≤ 100
Alternative (IQ ist höher als 100):
H1 : µ > 100
Dabei ist µ der (unbekannte) Erwartungswert der
Gesamtpopulation der (15-jährigen) Kinder aus Bochum
10 / 283
Prinzip der schließenden Statistik
Methodenlehre II,
SoSe 2015
Holger Dette
Auf Grund der Stichprobe y1 , . . . , y10 sollen Aussagen über das
Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
1.2 t-Test für eine
Stichprobe
Wie groß ist µ (Schätzung)?
1.3 Zweistichprobenprobleme
I
I
Kann man ein Intervall bestimmen, in dem µ liegt
(Konfidenzintervall)?
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Gilt
H0 : µ ≤ 100
(IQ ist nicht höher)
H1 : µ > 100
(IQ ist höher)?
oder gilt
(statistischer Test)
11 / 283
Grundlegende Schwierigkeit:
Methodenlehre II,
SoSe 2015
Holger Dette
I
µ ist der Erwartungswert der Population der 15-jährigen Kinder
I
Auf Basis der Stichprobe soll auf die Grundgesamtheit
geschlossen werden
−→ Fehler, Unsicherheiten sind möglich!
I
Beispiel: zufällig“ wählen wir 5 hochbegabte Kinder (IQ ≥ 130)
”
für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt!
I
Ziel der schließenden Statistik:
Quantifizierung der Unsicherheit, z. B.
mit welcher Wahrscheinlichkeit macht ein statistischer Test
einen Fehler, falls (aufgrund von Daten) für H1 (IQ ist höher als
100) entschieden wird, obwohl in Wirklichkeit H0 gilt?
I
Notwendig für diese Quantifizierung:
Mathematische Modellannahmen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
12 / 283
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Allgemein gängige Annahme: Intelligenz in einer bestimmten
Altersgruppe der Bevölkerung ist normalverteilt
1
1 x −µ 2
ϕ(x ) = √
)
exp − (
2
σ
2πσ 2
µ : Erwartungswert
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
σ 2 : Varianz
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Deutung: Ist Y der IQ eines zufällig aus der Population
ausgewählten Individuums, so gilt
Z
P(a ≤ Y ≤ b) =
b
ϕ(x )dx
a
I
Diese Modellannahme sollte man stets rechtfertigen (wie man
das machen kann, sehen wir später)
13 / 283
Interpretation der Wahrscheinlichkeiten:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a
I
I
b
Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den
Werten a und b liegt, entspricht der Fläche unter der Kurve im
Intervall [a, b].
In Formeln:
Z
b
P(a ≤ Y ≤ b) =
ϕ(x )dx
a
14 / 283
Verschiedene Normalverteilungen N(µ, σ 2 )
Methodenlehre II,
SoSe 2015
Holger Dette
Dichten der Normalverteilung mit verschiedenen Parametern
0.5
N(0,0.707)
N(0,1)
N(1,1.25)
N(2,2)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
2
4
6
I
µ: Erwartungswert
I
σ 2 : Varianz
I
Beachte: unter jeder Kurve ist die Fläche genau 1
15 / 283
Motivation der Modellannahme der
Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
16 / 283
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Mathematisches Modell (hier n = 10): y1 , . . . , yn sind
Realisierungen von Zufallsvariablen
Yi = µ + εi ,
i = 1, . . . , n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
I
I
I
I
yi : IQ-Messung für i-tes Kind
(Realisation der Zufallsvariablen Yi )
µ: (unbekannter) Erwartungswert der Population
(hier der 15-jährigen Kinder aus Bochum)
ε1 , . . . , εn : unabhängige Zufallsvariable, normalverteilt mit
Erwartungswert 0 und Varianz σ 2 .
Interpretation: Messfehler, genetische Variabilität, Tagesform ...
Mathematische Statistik z. B. Maximum Likelihood (in diesem
Beispiel auch der gesunde Menschenverstand) liefert Schätzer
für µ:
n
1X
yi = 104.1
µ̂ = y · =
n
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
I
Wie genau ist diese Schätzung? Wie sehr streut diese
Schätzung?
17 / 283
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
I
Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto
genauer“ die Schätzung)
”
Mathematische Statistik (Methodenlehre I): die Varianz des
Schätzers µ̂ ist:
σ2
Var (µ̂) =
n
Beachte:
I
I
I
Je größer der Stichprobenumfang n, desto kleiner die Varianz
von µ̂. D.h. desto genauer ist die Schätzung.
Für die Beurteilung der Genauigkeit muss man die Varianz σ 2
der Population kennen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Mathematische Statistik: Schätzung für den Parameter σ 2
n
σ̂ 2 =
1 X
(yi − y · )2 = 28.32
n − 1 i=1
σ̂µ2 =
σ̂ 2
= 2.832
n
18 / 283
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2015
Holger Dette
I
Oft wird der Schätzer zusammen mit dem Standardfehler
angegeben
µ̂ = 104.1
µ̂ + σ̂µ = 105.78
µ̂ − σ̂µ = 102.42
I
I
I
q
2
σ̂µ = √σ̂n = σ̂n = 1.683 ist der Standardfehler des Schätzers
µ̂ (Schätzung für Streuung des arithmetischen Mittels)
σ̂ = 5.322 ist die aus den Daten geschätzte
Standardabweichung (Schätzung für die Streuung einer
einzelnen Beobachtung)
Deutung: Vor der Datenerhebung ist µ̂ zufällig. Falls die
Normalverteilungsannahme korrekt ist, ist auch µ̂ normalverteilt
mit:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
- Erwartungswert µ
2
- Varianz σn
19 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
0.14
Verschiedene Normalverteilungen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Y1 ~ N (104.1, 28.32)
0.12
(Y1 + Y2)
2 ~ N (104.1, 28.32/2)
10
( ∑ Yi)
10 ~ N (104.1, 2.832)
0.08
1.4 Einfaktorielle
Varianzanalyse
0.02
0.04
0.06
2. Korrelation, Lineare
Regression und
multiple Regression
0.00
Dichte
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.10
i=
=1
1.1 Schätzer und
Konfidenzintervalle
40
60
80
100
120
140
160
x
20 / 283
Methodenlehre II,
SoSe 2015
1.2 Schätzverfahren (Erwartungswert einer Population
unter Normalverteilungsannahme)
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Pn
µ̂ = n1 i=1 yi Schätzung für den Erwartungswert µ der
Population
Pn
1
2
σ̂ 2 = n−1
i=1 (yi − y · ) Schätzung für die Varianz der
Population (σ̂ Schätzung für die Standardabweichung)
1.2 t-Test für eine
Stichprobe
I
I
σ̂ 2
n
I
σ̂µ2 =
I
Schätzung für den Standardfehler von µ̂ : σ̂µ =
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Schätzung für die Varianz von µ̂
q
σ̂ 2
n
=
σ̂
√
n
21 / 283
SPSS-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Deskriptive Statistik
N
Mittelwert
Statistik
Statistik
Standardfehler
Intelligenzquotient
10
104,10
1,683
Gültige Werte
(Listenweise)
10
1.2 t-Test für eine
Stichprobe
Standardabweichung
Varianz
Statistik
Statistik
5,322
28,322
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ = 104.1(Mittelwert)
σ̂µ = 1.683(Standardfehler)
σ̂ 2 = 28.322(empirische Varianz)
σ̂ = 5.322(Standardabweichung)
22 / 283
R-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
V1
median
105.0000000
mean
104.1000000
SE . mean
1.6829207
CI . mean .0.95
3.8070312
var
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
28.3222222
std . dev
5.3218627
coef . var
0.0511226
23 / 283
Beachte:
Methodenlehre II,
SoSe 2015
I
Holger Dette
µ̂ =
n
1X
yi ;
n i=1
n
σ̂ 2 =
1 X
(yi − y · )2 ;
n − 1 i=1
r
σ̂µ =
σ̂ 2
n
hängen von den Daten y1 , . . . , yn ab (sind also vor
Datenerhebung zufällig)
I
µ̂ − a σ̂µ , µ̂ + a σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ist (vor der Datenerhebung) ein zufälliges Intervall, das mit
einer bestimmten Wahrscheinlichkeit den Erwartungswert µ
enthält
I
a −→ 0
=⇒ Wahrscheinlichkeit ≈ 0
a −→ ∞
=⇒ Wahrscheinlichkeit ≈ 1
Gesucht: zufälliges Intervall, das den unbekannten
Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit
enthält: Konfidenzintervall
24 / 283
Das Konfidenzintervall
Methodenlehre II,
SoSe 2015
Holger Dette
I
Gebe eine Wahrscheinlichkeit 1 − α vor (z. B. 1 − α = 95%)
I
Bestimme a so, dass das zufällige Intervall
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
(µ̂ − a σ̂µ , µ̂ + a σ̂µ )
den Parameter µ mit Wahrscheinlichkeit 1 − α enthält.
I
Mathematische Statistik liefert
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a = tn−1,1− α2
(1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden
I
Diese Werte sind tabelliert oder durch Software verfügbar.
I
Das Intervall
I = µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ
heißt (1 − α) Konfidenzintervall für µ.
25 / 283
Methodenlehre II,
SoSe 2015
Verschiedene t-Verteilungen
Holger Dette
0.4
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
t 100
t4
t1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.3
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
1 Γ((n + 1)/2)
fn (t) = √
Γ(n/2)
πn
2
4
−(n+1)/2
t2
1+
n
26 / 283
Methodenlehre II,
SoSe 2015
Das Quantil der t-Verteilung mit n
Freiheitsgraden
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Dichte der t4 -Verteilung
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.95
t
-4
-2
0
Z
2
4, 0.95
= 2.132
4
t4,0.95
P(T4 ≤ t4,0.95 ) =
f4 (t)dt = 0.95
−∞
27 / 283
Beispiel 1.3 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Berechnung eines 90% Konfidenzintervalls für µ
µ̂ = 104.1,
2
I
n = 10,
σ̂ = 28.32
I
α = 10%
I
(aus Tabelle bzw. Software) t9,0.95 = 1.833
I
90% Konfidenzintervall für µ = (101.02, 107.18)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
I
Ein (1 − α)-Konfidenzintervall ist ein zufälliges“ Intervall, das
”
den (unbekannten) Erwartungswert mit Wahrscheinlichkeit
1 − α enthält.
Die Aussage das Intervall (101.02, 107.18) enthält den
”
unbekannten Erwartungswert der Population mit
Wahrscheinlichkeit 90%“ hat keinen Sinn!
28 / 283
Erklärung des Begriffs zufälliges“ Intervall durch
”
ein fiktives“ Experiment
”
I
I
Annahme: das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
jeweils 10 Daten liefern ein (1 − α)-Konfidenzintervall
(z. B. 95 % Konfidenzintervall)
Datensatz 1 −→ Konfidenzintervall I1
Datensatz 2 −→ Konfidenzintervall I2
..
.
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Konfidenzintervall IN
I
ca. (1 − α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den
(unbekannten) Erwartungswert µ der Population
29 / 283
Methodenlehre II,
SoSe 2015
1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Bestimme das tn−1,1− α2 Quantil der t-Verteilung mit n − 1
Freiheitsgraden (aus Tabelle oder Software)
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Das Intervall
(µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ )
ist ein (1 − α) Konfidenzintervall für µ
I
In vielen Softwarepaketen erhält man direkt das
Konfidenzintervall als Ausgabe (z. B. in SPSS)
30 / 283
SPSS-Output: Konfidenzintervall für die Daten
aus Beispiel 1.1 (Intelligenzquotient)
90% Konfidenzintervall der
Differenz
Intelligenzquotient
2,436
Sig. (2-seitig)
9
,038
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.2 t-Test für eine
Stichprobe
Testwert = 100
df
Holger Dette
1.1 Schätzer und
Konfidenzintervalle
Test bei einer Sichprobe
T
Methodenlehre II,
SoSe 2015
Mittlere
Differenz
4,100
Untere
1,02
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Obere
7,18
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur ein Konfidenzintervall für die Differenz µ − 100
=⇒ 90% Konfidenzintervall für den Erwartungswert µ
(101.02, 107.18)
31 / 283
R-Output: Konfidenzintervall für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
One Sample t - test
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
data :
IQ
t = 2.4362 , df = 9 , p - value = 0.0376
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
32 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.2 t-Test für eine Stichprobe
2. Korrelation, Lineare
Regression und
multiple Regression
33 / 283
Beispiel 1.5 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2015
Holger Dette
Frage: Ist der IQ der Kinder aus Bochum höher als 100?
H0 : µ ≤ 100
H1 : µ > 100
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
H0 nennt man Nullhypothese und H1 heißt Alternative.
I
I
I
Intuitiv würde man für H1 entscheiden, falls der Mittelwert der
Stichprobe
10
1 X
µ̂ =
yi
10 i=1
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
groß“ ist
”
Beachte: µ̂ ändert sich, falls man die Daten anders skaliert!
Besser: entscheide für H1 , falls µ̂ groß im Verhältnis zu dem
Standardfehler σ̂µ ist (Invarianz bzgl. unterschiedlicher
Skalierungen)
34 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls
T =
µ̂ − 100
>c
σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Fragen:
1.3 Zweistichprobenprobleme
I
Wie legt man den kritischen Wert c fest?
I
Bei dem Verfahren können 2 Fehler auftreten
I
Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl
H0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100)
I
Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,
obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ ist
höher als 100)
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ziel: kleine“ Wahrscheinlichkeiten für Fehler erster und zweiter Art
”
35 / 283
Grundlegendes Prinzip der Testtheorie
Methodenlehre II,
SoSe 2015
Holger Dette
I
Der kritische Wert c wird festgelegt, indem man eine maximal
tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art
vorgibt (α-Fehler)!
I
Diese Wahrscheinlichkeit heißt Niveau des Tests.
I
Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines
Fehlers zweiter Art (β-Fehler)
I
Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal
α = 5% = 0.05 sein.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
=⇒ (mathematische Statistik, Tabelle, Software)
n = 10, c = tn−1,1−α = t9,0.95 = 1.833
µ̂ − 100
104.1 − 100
T =
= 2.436 > 1.833
= √
σ̂µ
2.832
D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%
zu Gunsten der Alternative H1 : µ > 100 verworfen
(signifikantes Ergebnis zum Niveau 5 %)
36 / 283
Erklärung des Begriffs Niveau durch ein fiktives“
”
Experiment
I
Annahme: Das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α
(z.B. Niveau 5 %)
Datensatz 1 −→ Testergebnis 1
Datensatz 2 −→ Testergebnis 2
..
.
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Testergebnis N
I
Falls die Nullhypothese H0 : µ ≤ 100 wahr“ ist, so wird
”
maximal in ca. αN (z. B. 5% 1000 = 50) Fällen für die
Alternative
H1 : µ > 100
entschieden.
37 / 283
Fehler erster und zweiter Art
Methodenlehre II,
SoSe 2015
Holger Dette
Entscheidung aufgrund der Stichprobe zugunsten
von:
H0
H1
in der Population gilt
H0
H1
richtige
β-Fehler
Entscheidung
richtige
α-Fehler
Entscheidung
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
Die Wahrscheinlichkeiten für α-Fehler und β-Fehler verändern
sich gegenläufig.
I
Bei festem Niveau (Wahrscheinlichkeit für α-Fehler) kann die
Wahrscheinlichkeit für einen β-Fehler durch Vergrößerung des
Stichprobenumfangs verkleinert werden.
I
Bei festem Stichprobenumfang wird nur“ der Fehler erster Art
”
kontrolliert.
38 / 283
Die Verteilung von T falls µ = 100 ist.
Methodenlehre II,
SoSe 2015
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
0.2
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.1
p– Wert
0.0
α=5%
t
-3
I
I
I
I
-2
-1
0
9, 0.95
1
= 1.833
T n = 2.436
2
3
Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls T
größer als der kritische Wert ist)
Blaue Fläche: Niveau (α)
Rote Fläche: p-Wert: Wahrscheinlichkeit einen Wert größer als
2.436 zu beobachten: P(T > 2.436) = 0.0188
Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird
H0 abgelehnt (signifikantes Ergebnis)
39 / 283
Testverfahren für den Erwartungswert einer
Stichprobe unter Normalverteilungsannahme
1.6 Einstichproben t-Test für rechtsseitige Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Hypothesen: H0 : µ ≤ µ0 ;
Hypothese)
H1 : µ > µ0 (rechtsseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
> tn−1,1−α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
40 / 283
Vertauschen der Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1.7 Einstichproben t-Test für linksseitige Hypothesen
I
Hypothesen: H0 : µ ≥ µ0 ;
Hypothese)
H1 : µ < µ0 (linksseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
< −tn−1,1−α = tn−1,α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
41 / 283
Tests für zweiseitige Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1.8 Einstichproben t-Test für zweiseitige Hypothesen
I
Hypothesen: H0 : µ = µ0 ;
Hypothese)
H1 : µ 6= µ0 (zweiseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
|T | = |
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
| > tn−1,1−α/2
σ̂µ
gilt, bzw. falls der p-Wert kleiner als α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
42 / 283
Die Verteilung von T , falls µ = 100 ist.
Methodenlehre II,
SoSe 2015
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
1.4 Einfaktorielle
Varianzanalyse
p– Wert
0.1
p– Wert
α = 2,5 %
0.0
α = 2,5 %
2. Korrelation, Lineare
Regression und
multiple Regression
-T n = -2.436
-3
I
I
t
9, 0.025
-2
= -2.262
-1
t
0
1
9, 0.975
= 2.262
2
T n = 2.436
3
Blaue Fläche: Niveau α; Rote Fläche: p-Wert
(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag
größer als 2.436 ist P(|T | > 2.436) = 0.038
Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wird
H0 abgelehnt!
43 / 283
SPSS-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Test bei einer Sichprobe
1.3 Zweistichprobenprobleme
Testwert = 100
90% Konfidenzintervall der
Differenz
T
Intelligenzquotient
2,436
df
Sig. (2-seitig)
9
,038
Mittlere
Differenz
4,100
Untere
Obere
1,02
7,18
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur den p-Wert für den zweiseitigen t-Test aus
Beispiel 1.8!
I
Den p-Wert für den einseitigen Test erhält man als
0.038/2 = 0.019.
44 / 283
R-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
One Sample t - test
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
data :
IQ
t = 2.4362 , df = 9 , p - value = 0.0376
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
alternative hypothesis : true mean is not equal to 100
90 percent confidence interval :
101.015 107.185
sample estimates :
mean of x
104.1
45 / 283
Methodenlehre II,
SoSe 2015
Beispiel: t-Test für den Vergleich von zwei
verbundenen“ Stichproben
”
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8
vorgestellten Verfahren besteht in dem Vergleich von
verbundenen“ Stichproben (vorher - nachher Untersuchungen)
”
Beispiel: Untersuchung der Einstellungen von 9 Jungen
gegenüber neutralen Personen vor und nach einem
Frustrationserlebnis (Sündenbockfunktion).
Einstellung
VPn
vorher
nachher
∆
1
38
33
-5
2
32
28
-4
3
33
34
1
4
28
26
-2
5
29
27
-2
6
37
31
-6
7
35
32
-3
8
35
36
1
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
9
34
30
-4
46 / 283
Prinzip: Differenzenbildung“
”
I
Prinzip:
I
I
I
I
Falls kein Unterschied zwischen den Einstellungen vor und nach
dem Frustrationserlebnis besteht sollten die Differenzen (nachher
- vorher) klein“ sein.
”
Durch Differenzenbildung (nachher - vorher) erhält man die
Daten“ ∆1 , . . . , ∆9
”
Rechtfertigung der Voraussetzungen für den t-Test aus 1.8 für
diese Daten“.
”
Wende den t-Test für eine Stichprobe auf die Daten“
”
∆1 , . . . , ∆9 an und teste die Hypothesen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
H0 : µ = 0, H1 : µ 6= 0
I
Wegen
−2.667 = 3.27 > 2.31 = t8,0.975
|T | = 0.816 besteht zum Niveau α = 0.05 ein signifikanter Unterschied.
47 / 283
SPSS-Output: t-Test für gepaarte Stichproben
Methodenlehre II,
SoSe 2015
Holger Dette
Statistik bei gepaarten Stichproben
Mittelwert
Paaren 1
N
Standardabweichung
Standardfehler
des Mittelwertes
vorher
33,44
9
3,358
1,119
nachher
30,78
9
3,346
1,115
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Korrelationen bei gepaarten Stichproben
N
Paaren 1
vorher & nachher
9
Korrelation
Signifikanz
,733
,025
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Test bei gepaarten Stichproben
Gepaarte Differenzen
95%
Konfidenzintervall
der Differenz
Paaren 1
Mittelwert
Standardabweichung
Standardfehler
des Mittelwertes
Untere
Obere
2,667
2,449
,816
,784
4,550
vorher - nachher
Test bei gepaarten Stichproben
T
Paaren 1
vorher - nachher
3,266
df
8
Sig.
(2-seitig)
,011
48 / 283
R-Output: t-Test für gepaarte Stichproben
Methodenlehre II,
SoSe 2015
Holger Dette
Mittelwert St a nd ar d a b w e i c h u n g SA des Mittelwerts
vorher
33.44444
3.35824
1.119413
nachher
30.77778
3.34581
1.115270
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
One Sample t - test
data :
Differenzen
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
t = 3.266 , df = 8 , p - value = 0.01142
alternative hypothesis : true mean is not equal to 0
95 percent confidence interval :
0.7838222 4.5495112
sample estimates :
mean of x
2.666667
49 / 283
1.9 Bemerkungen (zu den statistischen Verfahren
1.2, 1.4, 1.6, 1.7, 1.8)
I
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Mathematische Statistik ⇒ unter der Normalverteilungsannahme
sind alle hier vorgestellten Verfahren optimal
1.1 Schätzer und
Konfidenzintervalle
Die Normalverteilungsannahme kann (und sollte) man
rechtfertigen. Mögliche Verfahren sind:
1.3 Zweistichprobenprobleme
I
statistische Tests für die Hypothese
H0 : Y1 , . . . , Yn
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
normalverteilt
In SPSS üblich sind
- Kolmogorov-Smirnov-Test
- Shapiro-Wilk Test
I
I
Explorative Verfahren. In SPSS üblich: QQ-Plot
Besteht die Normalverteilungsannahme diese Überprüfung nicht,
so sind z. B. nichtparametrische Verfahren anzuwenden.
50 / 283
Methodenlehre II,
SoSe 2015
SPSS Output: QQ-Plot für die Daten aus
Beispiel 1.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Q-Q-Diagramm von Normal von Intelligenzquotient
1.2 t-Test für eine
Stichprobe
115
1.3 Zweistichprobenprobleme
Erwarteter Wert von Normal
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
110
105
100
95
95
100
105
Beobachteter Wert
110
115
51 / 283
R Output: QQ-Plot für die Daten aus Beispiel 1.1
Methodenlehre II,
SoSe 2015
Holger Dette
●
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
110
1.2 t-Test für eine
Stichprobe
●
1.4 Einfaktorielle
Varianzanalyse
●
2. Korrelation, Lineare
Regression und
multiple Regression
105
●
●
●
●
100
●
●
95
Erwarteter Wert
1.3 Zweistichprobenprobleme
●
100
105
110
Beobachteter Wert
52 / 283
Methodenlehre II,
SoSe 2015
Der QQ-Plot
Holger Dette
I
I
Unter der Modellannahme gilt: die Größen Yi sind normalverteilt
mit Erwartungswert µ und Varianz σ 2
Der QQ-Plot vergleicht grafisch die empirischen Quantile der
Daten“ y1 , . . . , yn mit den Quantilen der Normalverteilung mit
”
Erwartungswert
µ̂ und Varianz σ̂ 2 .
(1) 1/n-Quantil der Stichprobe y1 , . . . yn =⇒ kleinste der
Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)
(1 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (im Beispiel 1.1 ist
z(1) = 104.1 − 1.64 · 5.32 = 95.37)1
(2) 2/n-Quantil der Stichprobe y1 , . . . , yn =⇒ zweitkleinste der
Beobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)
(2 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (in Beispiel 1.1 ist
z(2) = 104.1 − 1.04 · 5.32 = 98.57)
(3) usw.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Der QQ-Plot ist das Streudiagramm der Daten
(y(1) , z(1) ), . . . , (y(n) , z(n) )
I
In in vielen Fällen enthält dieses Diagramm noch die
Winkelhalbierende des entsprechenden Quadranten.
1 http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf
53 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.3 Zweistichprobenprobleme
2. Korrelation, Lineare
Regression und
multiple Regression
54 / 283
1.10 Beispiel: Erkennen von Zahlenreihen
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Studierende der Fachrichtungen Mathematik (M) und
Psychologie (P) machen einen Zahlengedächtnistest
I
Wie viele Ziffern können sich maximal gemerkt werden
I
Wiedergabe in Original und umgekehrter Reihenfolge
I
14
13
14
14
14
17
15
13
15
12
12
13
13
16
16
19
16
13
17
10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Daten (P. Zöfel: Statistik für Psychologen)
M
P
M
P
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
13
16
Frage: Haben Studierende der Mathematik ein besseres
Zahlengedächtnis als Studierende der Psychologie?
55 / 283
Mathematisches Modell (n1 = 14, n2 = 8)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie i = 2)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2)
εij : Messfehler, Tagesform ...
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ni : Stichprobenumfang in Gruppe i
I
Normalverteilungs- und Unabhängigkeitsannahme
I
in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit
Erwartungswert µi und Varianz σi2 vor
I
in jeder Gruppe sind die Beobachtungen unabhängig
I
unabhängige Stichproben
56 / 283
Methodenlehre II,
SoSe 2015
Schätzer
Holger Dette
I
Schätzer werden wie in 1.2 für jede Gruppe
Pn1 durchgeführt
Mathematiker (i = 1): µ̂1 = y 1· = n11 j=1
y1j = 14.64
s
n1
X
1
σ̂12
= 0.53
σ̂12 =
(y1j − y 1· )2 = 3.94 ⇒ σ̂µ1 =
n1 − 1 j=1
n1
Psychologen (i = 2): µ̂2 = y 2· =
σ̂22 =
I
1
n2 − 1
n2
X
j=1
1
n2
n2
P
j=1
(y2j − y 2· )2 = 4.79 ⇒ σ̂µ2 =
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
y2j = 13.75
s
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
σ̂22
= 0.77
n2
2. Korrelation, Lineare
Regression und
multiple Regression
Auch Konfidenzbereiche werden gruppenweise bestimmt
z. B. ist unter Normalverteilungsannahme
µ̂1 − tn1 −1,1− α2 σ̂µ1 , µ̂1 + tn1 −1,1− α2 σ̂µ1
ein 90% Konfidenzintervall für µ1 . Für das spezielle
Datenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (aus
Tabelle)]
(13.70, 15.58) als 90% Konfidenzintervall für µ1
57 / 283
SPSS-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
Schätzer für die Parameter in den einzelnen Gruppen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Gemerkte Zahlen
1.2 t-Test für eine
Stichprobe
Studienfach
Mathematik
Mittelwert
Varianz
14,64
3,940
Psychologie
13,75
4,786
Insgesamt
14,32
4,227
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert hier die Schätzer für Erwartungswert und Varianz
der einzelnen Gruppen
I
SPSS liefert außerdem Schätzer für Erwartungswert und Varianz
der gesamten Stichprobe
58 / 283
R-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Schätzer für die Parameter in den einzelnen Gruppen
Mittelwert
Varianz
Mathematik
14.64286 3.939560
Psychologie
13.75000 4.785714
Insgesamt
14.31818 4.227273
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
59 / 283
Tests zum Vergleich der Erwartungswerte
Methodenlehre II,
SoSe 2015
Holger Dette
I
Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist
nicht schlechter als das der Mathematikstudenten
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
H0 : µ1 ≤ µ2
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
Alternative: Zahlengedächtnis der Mathematikstudenten ist
besser als das der Psychologiestudenten
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : µ1 > µ2
I
Rezept: Verwerfe die Nullhypothese H0 zu Gunsten der
Alternative H1 , falls die Differenz
y 1· − y 2·
der Schätzer für die Erwartungswerte groß“ ist.
”
60 / 283
Rezept im Fall von Varianzhomogenität, d. h.
(σ12 = σ22 )
I
I
Verwerfe H0 zu Gunsten von H1 , falls y 1· − y 2· groß“ ist.
”
Normiere diese Größe mit einem Schätzer für die Standardfehler
der Mittelwertdifferenz:
q
I
I
I
1
)σ̂ 2
n2
1
{(n1 − 1)σ̂12
n1 +n2 −2
σ̂µ1 −µ2 =
2
( n11 +
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1)σ̂22 }:
+ (n2 −
σ̂ =
(die in beiden Gruppen dieselbe ist)
Schätzer für Varianz
Entscheide für die Alternative H1 : µ1 > µ2 , falls
Tn1 ,n2 =
Methodenlehre II,
SoSe 2015
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
gilt. Dabei ist tn1 +n2 −2,1−α das (1 − α)-Quantil der t-Verteilung
mit n1 + n2 − 2 Freiheitsgraden
Im Beispiel ergibt sich für einen Test zum Niveau α = 5%
σ̂ 2 = 4.24,
t20,0.95 = 1.725 =⇒ T14,8 = 0.979
d. h. die Hypothese H0 kann nicht verworfen werden.
61 / 283
Testverfahren für die Erwartungswerte von zwei
Stichproben unter Normalverteilungsannahme
1.11(a) Einseitiger t-Test für zwei unabhängige Stichproben (rechtsseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten der
Alternative H1 : µ1 > µ2 verworfen, falls
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
62 / 283
Methodenlehre II,
SoSe 2015
1.11(b) Einseitiger t-Test für zwei unabhängige Stichproben (linksseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten der
Alternative H1 : µ1 < µ2 verworfen, falls
y 1· − y 2·
< −tn1 +n2 −2,1−α = tn1 +n2 −2,α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
63 / 283
1.11(c) t-Test für zwei unabhängige Stichproben (zweiseitige Hypothesen)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied der
Erwartungswerte in beiden Gruppen) wird zu Gunsten der
Alternative H1 : µ1 6= µ2 verworfen, falls
|y 1· − y 2· |
> tn1 +n2 −2,1− α2
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
|Tn1 ,n2 | =
64 / 283
Bemerkung zur Varianzhomogenität
Methodenlehre II,
SoSe 2015
Holger Dette
Ist die Annahme der Varianzhomogenität
σ12 = σ22
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
nicht erfüllt, so
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht
eingehalten (der Test hält sein Niveau nicht)
I
ist die Wahrscheinlichkeit für einen β-Fehler größer
I
von Interesse ist daher auch ein Test für die Hypothesen
H0 : σ12 = σ22
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : σ12 6= σ22
und ein Verfahren, das ohne die Annahme der
Varianzhomogenität auskommt.
65 / 283
Rezept (für Test auf Varianzhomogenität)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Die Nullhypothese H0 : σ12 = σ22 gilt genau dann, wenn
F =
I
I
σ12
=1
σ22
Schätze den Quotienten der beiden Varianzen, durch
Pn1
1
2
σ̂12
j=1 (y1j − y 1· )
n1 −1
Fn1 −1,n2 −1 = 2 = 1 Pn2
2
σ̂2
j=1 (y2j − y 2· )
n2 −1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 wird zu Gunsten der Alternative
H1 : σ12 6= σ22 verworfen, falls
Fn1 −1,n2 −1 > c2
oder Fn1 −1,n2 −1 < c1
gilt
I
Die kritischen Werte c1 und c2 werden so festgelegt, dass die
Wahrscheinlichkeit für einen Fehler erster Art maximal α ist!
66 / 283
1.12 F -Test für den Vergleich von zwei Stichprobenvarianzen
I
Teststatistik
Fn1 −1,n2 −1
I
σ̂ 2
= 12
σ̂2
Die Nullhypothese
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
H0 :
σ12
=
σ22
(die Varianzen sind gleich) wird zu Gunsten der Alternative
H1 :
σ12
6=
σ22
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
verworfen, falls mindestens eine der Ungleichungen
Fn1 −1,n2 −1 < Fn1 −1,n2 −1, α2
Fn1 −1,n2 −1 > Fn1 −1,n2 −1,1− α2
erfüllt ist
I
Fn1 −1,n2 −1,β bezeichnet das β-Quantil der F -Verteilung mit
(n1 − 1, n2 − 1) Freiheitsgraden
67 / 283
Methodenlehre II,
SoSe 2015
Verschiedene F -Verteilungen
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.0
Dichten der F– Verteilung mit verschiedenen Freiheitsgraden
1.1 Schätzer und
Konfidenzintervalle
F2, 10
F4, 4
F10, 1
F20, 20
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.6
1.4 Einfaktorielle
Varianzanalyse
0.0
0.2
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0
1
2
3
4
5
m
fm,n (x ) =
m m2
Γ( m+n
x 2 −1
2 )
m+n
m
n
Γ( 2 )Γ( 2 ) 2
(1 + mn x ) 2
(x ≥ 0)
68 / 283
Das Quantil der F -Verteilung mit (n1 , n2 )
Freiheitsgraden
Dichte der F4, 4 -Verteilung
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.6
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.5
1.4 Einfaktorielle
Varianzanalyse
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.3
0.9
F
0
1
2
3
Z
4, 4; 0.9
4
= 4.107
5
F4,4,0.9
P(F4,4 , ≤ F4,4,0.9 ) =
fm,n (x ) dx = 0.90
−∞
69 / 283
Der F -Test auf Varianzhomogenität für die
Daten aus Beispiel 1.10 (n1 = 14, n2 = 8)
I
σ̂12 = 3.94 σ̂22 = 4.79
I
Für das Niveau α = 10% erhält man
⇒
F13,7 = 0.823
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
F13,7,0.05 = 0.3531
F13,7,0.95 = 3.5503
und damit kann die Nullhypothese zum Niveau 10% nicht
verworfen werden
I
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte: Oft wird der Test 1.12 verwendet, um die
Voraussetzungen für den t-Test zu überprüfen
I
I
I
1.4 Einfaktorielle
Varianzanalyse
In diesem Fall wählt man oft ein größeres Niveau (→ kleinere
Wahrscheinlichkeit für β-Fehler)
Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann
t-Test) hat nicht das Niveau α.
Was macht man, falls F -Test H0 verwirft?
70 / 283
Methodenlehre II,
SoSe 2015
1.13(a) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
I
Varianzen in den Gruppen sind nicht notwendig gleich
I
Teststatistik
TnW1 ,n2 =
I
Dabei ist
√
τ̂ =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
τ̂
s
τ̂ 2 =
Holger Dette
σ̂12
σ̂ 2
+ 2
n1
n2
die Schätzung für den Standardfehler von y 1· − y 2·
71 / 283
Methodenlehre II,
SoSe 2015
1.13(b) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≤ µ2
(Erwartungswert der ersten Population nicht größer als der
der Zweiten) wird zu Gunsten der Alternative
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 > µ2
2. Korrelation, Lineare
Regression und
multiple Regression
falls
TnW1 ,n2 > tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
72 / 283
1.13(c) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≥ µ2
(Erwartungswert der ersten Population nicht kleiner als der
der Zweiten) wird zu Gunsten der Alternative
H1 : µ1 < µ2
verworfen, falls
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
TnW1 ,n2 < tfˆ,α = −tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
73 / 283
1.13(d) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Die Nullhypothese
H0 : µ1 = µ2
1.1 Schätzer und
Konfidenzintervalle
(kein Unterschied der Erwartungswerte in beiden Gruppen)
wird zu Gunsten der Alternative
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 6= µ2
(es besteht ein Unterschied) verworfen, falls
2. Korrelation, Lineare
Regression und
multiple Regression
|TnW1 ,n2 | > tfˆ,1− α
2
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
74 / 283
Bemerkung: t-Test oder Welch-Test?
Methodenlehre II,
SoSe 2015
Holger Dette
I
Sind die Voraussetzungen für den t-Test erfüllt
(Normalverteilung, Unabhängigkeit, Varianzhomogenität),
so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter
allen Tests zum Niveau α die Wahrscheinlichkeit für einen
β-Fehler.
I
Ist die Voraussetzungen der Varianzhomogenität beim t-Test
nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für
einen α-Fehler nicht eingehalten.
I
Der Welch-Test ist eine Näherungslösung“, d. h. die
”
Wahrscheinlichkeit für einen α-Fehler ist nur“
”
näherungsweise α.
I
Der Welch-Test hat im Fall der Varianzhomogenität eine größere
Wahrscheinlichkeit für einen β-Fehler als der t-Test.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
75 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output für die Daten aus Beispiel 1.10
Holger Dette
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
F
Gemerkte Zahlen
Varianzen sind gleich
T-Test für die Mittelwertgleichheit
Signifikanz
,103
,752
Varianzen sind nicht gleich
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
T
df
1.1 Schätzer und
Konfidenzintervalle
Sig. (2-seitig)
,979
20
,339
,952
13,523
,358
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Test bei unabhängigen Stichproben
1.4 Einfaktorielle
Varianzanalyse
T-Test für die Mittelwertgleichheit
95% Konfidenzintervall der
Differenz
Mittlere
Differenz
Gemerkte Zahlen
Standardfehler
der Differenz
Untere
Obere
Varianzen sind gleich
,893
,912
-1,010
2,796
Varianzen sind nicht gleich
,893
,938
-1,125
2,911
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert nicht den in 1.12 dargestellten F -Test auf Varianzhomogenität
sondern ein robustes“ Verfahren (Levene-Test)
”
I SPSS liefert nur einen p-Wert für den zweiseitigen t-Test aus Beispiel
1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)
I SPSS liefert ein Konfidenzintervall für die Differenz µ1 − µ2 =⇒ 95%
Konfidenzintervall für die Differenz der Erwartungswerte (unter der
Annahme gleicher Varianzen)
(−1.01, 2.796)
76 / 283
R-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
Levene ’ s Test for Homogeneity of Variance ( center = mean )
Df F value Pr ( > F )
group
1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.103 0.7516
1.2 t-Test für eine
Stichprobe
20
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Two Sample t - test
data :
values by ind
t = 0.9789 , df = 20 , p - value = 0.3393
alternative hypothesis : true difference in means is not equal to 0
95 percent confidence interval :
-1.009852
2.795566
sample estimates :
mean in group M mean in group P
14.64286
13.75000
77 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.4 Einfaktorielle Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
78 / 283
1.14 Beispiel: Fortsetzung von Beispiel 1.10
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch
noch 7 Studierende der Geisteswissenschaften (G) teil.
M 14 14 15 12 13 19 17 13
P 13 14 13 12 16 16 10 16
G 11 13 13 10 13 12 13
M 14 17 15 13 16 13
P
G
-
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Frage: Existieren Unterschiede hinsichtlich des
Zahlengedächtnisses zwischen dem Studierenden der
Psychologie, Mathematik und Geisteswissenschaften?
79 / 283
Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2, 3
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
εij : Störgrößen (Erwartungswert 0 und Varianz σ 2 )
I
Normalverteilungs und Unabhängigkeitsannahme
I
I
I
I
in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit
Erwartungswert µi vor
in jeder Gruppe sind die Beobachtungen unabhängig
unabhängige Stichproben
Nullhypothese
H0 : µ1 = µ2 = µ3
80 / 283
Methodenlehre II,
SoSe 2015
Schätzer und Konfidenzbereiche
Holger Dette
I
Schätzer für Erwartungswert und Varianz werden in den
einzelnen Gruppen durchgeführt
I
Beispiel:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Mathematik (i = 1)
Psychologie (i = 2)
Geisteswissenschaften (i = 3)
y i·
14.64
13.75
12.14
σ̂i2
3.94
4.79
1.48
σ̂µi
0.53
0.60
0.46
I
µ̂1 = 14.64 ist Schätzer für den Erwartungswert der
”
Mathematiker“
I
Beachte: t6,0.95 = 1.943, µ̂3 + σ̂µ3 t6,0.95 = 13.03
µ̂3 − σ̂µ3 t6,0.95 = 11.25, also ist das Intervall
ni
14
8
7
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
[11.25, 13.03]
ein 90% Konfidenzintervall für den Erwartungswert der
”
Geisteswissenschaftler“
81 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
1.4 Einfaktorielle
Varianzanalyse
Studienfach
Mathematik
Mittelwert
Varianz
Standardfehler
des Mittelwertes
14,64
3,940
,530
14
Psychologie
13,75
4,786
,773
8
Geisteswissenschaften
12,14
1,476
,459
7
Insgesamt
13,79
4,384
,389
29
N
2. Korrelation, Lineare
Regression und
multiple Regression
82 / 283
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Mittelwert
Varianz SF des Mittelwerts
N
Mathematik
14.64286 3.939560
0.5304688 14
Psychologie
13.75000 4.785714
0.7734431
8
Geisteswissenschaften
12.14286 1.476190
0.4592215
7
Insgesamt
13.79310 4.384236
0.3888195 29
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
83 / 283
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Ziel: Test für die Hypothese es bestehen keine Unterschiede
”
zwischen den Gruppen“
H0 : µ1 = µ2 = µ3
I
Idee: Bestimme die Streuung der Daten:
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mittelwert aus allen Daten:
ni
3
1 XX
y ·· =
yij
n
i=1 j=1
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungen
bezeichnet.
Varianz (n = n1 + n2 + n3 )
ni
3
1 XX
(yij − y ·· )2
n−1
i=1 j=1
und versuche Unterschiede in der Merkfähigkeit aufgrund der
Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl.
der Gruppen zu erklären!
84 / 283
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Zerlegung der Summe der Quadrate
I
Häufig verwendete Abkürzungen: SS ≡ Sum of squares;
SAQ ≡ Summe der Abweichungsquadrate
I
Summe der Quadrate innerhalb der Gruppen (within groups)
SSR =
ni
3 X
X
(yij − y i· )2
i=1 j=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und
y i· =
ni
1 X
yij
ni
j=1
I
den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet.
Summe der Quadrate zwischen den Gruppen (between groups)
SSM =
3
X
ni (y i· − y ·· )2
i=1
85 / 283
Methodenlehre II,
SoSe 2015
Prinzip der Varianzanalyse
Holger Dette
I
Zerlege die Summe der Quadrate in eine durch das Modell
erklärte Summe (Varianz zwischen den Gruppen) und eine
Summe von Quadraten der nicht erklärten Varianz (Varianz
innerhalb der Gruppen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
SST =
ni
3 X
X
(yij − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1 j=1
|
{z
}
Gesamtvarianz (Total)
=
ni
3 X
X
(yij − y i· )2
i=1 j=1
|
+
3
X
ni (y i· − y ·· )2
i=1
{z
}
Gesamtvarianz innerhalb der Gruppen
|
{z
}
Varianz zwischen den Gruppen
86 / 283
F -Test für die Hypothese H0 : µ1 = µ2 = µ3
(gleiche Erwartungswerte in den drei Gruppen)
I
Vergleiche die Varianz zwischen den Gruppen mit der Varianz
innerhalb der Gruppen
3
1
2
i=1 ni (y i· − y ·· )
3−1
P
P
n
3
i
1
2
i=1
j=1 (yij − y i· )
29−3
P
F =
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Falls F groß“ ist, wird die Nullhypothese H0 abgelehnt.
”
Mathematische Statistik ⇒ Test zum Niveau α verwirft die
Nullhypothese H0 , falls
F > F2,26,1−α
gilt (Vergleich mit dem (1 − α)-Quantil der F -Verteilung mit (2,
26) Freiheitsgraden), bzw. falls der zugehörige p-Wert des Tests
kleiner als α ist.
87 / 283
Beispiel 1.15 (Fortsetzung von Beispiel 1.14)
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
Frage: besteht ein Unterschied zwischen den Studierenden der
”
Fächer Psychologie, Mathematik und Geisteswissenschaften
bzgl. des Zahlengedächtnisses“
Genauer: Besteht ein Unterschied zwischen den
Erwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3
n1 = 14, n2 = 8, n3 = 7;
α = 5%
F2,26,0.95 = 3.37
SSM /2
14.6
F̂ =
=
= 4.06 > 3.37
SSR /26
3.6
I
D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%
abgelehnt.
I
In anderen Worten: zwischen den Studierenden der
verschiedenen Fächer besteht ein Unterschied
I
Beachte: In vielen Fällen ist man an der Frage interessiert,
zwischen welchen Gruppen ein Unterschied besteht. Diese Frage
beantwortet der F -Test nicht!
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
88 / 283
Methodenlehre II,
SoSe 2015
F -Verteilung
Holger Dette
Dichte der F2,26 − Verteilung
1.0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.2
Dichte
0.6
1.4 Einfaktorielle
Varianzanalyse
^
F2,26,0.95 = 3.37 F
= 4.06
0
1
2
3
4
5
x
http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm
89 / 283
Methodenlehre II,
SoSe 2015
F -Verteilung
Dichte der F2,26 − Verteilung (Zoom)
0.15
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
0.10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
0.05
α = 5%
2. Korrelation, Lineare
Regression und
multiple Regression
p−Wert
0.00
Dichte
1.3 Zweistichprobenprobleme
F2,26,0.95 = 3.37
2.5
3.0
3.5
^
F = 4.06
4.0
4.5
5.0
x
I
Blaue Fläche: Niveau des Tests
I
Rote Fläche: p-Wert (Wahrscheinlichkeit, dass ein Wert größer
als F̂ = 4.06 beobachtet wird)
90 / 283
Varianzanalysetabelle (k bezeichnet die Anzahl
der Gruppen)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Variabilität
Sum of Squares
df
SSM
SSR
SST
k −1
n−k
n−1
zwischen
innerhalb
gesamt
SS/df
SSM /(k − 1)
SSR /(n − k)
SST /(n − 1)
F
SSM
k−1
/
1.2 t-Test für eine
Stichprobe
SSR
n−k
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beispiel (Zahlengedächtnis)
Variabilität
zwischen
innerhalb
gesamt
Sum of Squares
29.2
93.6
122.8
df
2
26
28
SS/df
14.6
3.6
F
4.06
91 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
Quadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
Mittel der
Quadrate
df
29,187
2
14,594
93,571
26
3,599
122,759
28
1.4 Einfaktorielle
Varianzanalyse
F
4,055
Signifikanz
,029
2. Korrelation, Lineare
Regression und
multiple Regression
92 / 283
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Df Sum Sq Mean Sq F value Pr ( > F )
ind
Residuals
2
29.19
14.594
26
93.57
3.599
1.4 Einfaktorielle
Varianzanalyse
4.055 0.0293 *
2. Korrelation, Lineare
Regression und
multiple Regression
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
93 / 283
Beispiel 1.16 (Fortsetzung von Beispiel 1.15)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Bei signifikantem Ergebnis der Varianzanalyse (d. h. die
Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich
die Frage:
Welche Gruppe ist maßgeblich für die Signifikanz
”
verantwortlich?“
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
I
I
I
Lösungsvorschlag: paarweise Vergleiche!
Gruppe 1 - Gruppe 2; H12 : µ1 = µ2
Gruppe 1 - Gruppe 3; H13 : µ1 = µ3
Gruppe 2 - Gruppe 3; H23 : µ2 = µ3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.
1.11(b)) durchgeführt.
Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die
Hypothese H0 : µ1 = µ2 = µ3 , falls mindestens ein Paarvergleich
signifikant ist das Niveau α einhält.
Die t-Tests für die paarweisen Vergleiche sind mit Niveau α/3
durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche
durchgeführt werden (Bonferroni-Methode)
94 / 283
Paarweise Vergleiche (α = 5%):
Methodenlehre II,
SoSe 2015
Holger Dette
I
Zwei-Stichproben t-Test-Statistik für den Vergleich von Gruppe
i mit Gruppe j:
|Yi· − Yj· |
σ̂ij
1
1 1
σ̂ij2 =
+
{(ni − 1)σ̂i2 + (nj − 1)σ̂j2 }
ni
nj
ni + nj − 2
Ti,j =
I
I
I
i j
Ti,j
ni nj tni +nj −2,1−α0 /2 p-Wert signifikant
1 2 0.98 14 8
2.61
0.339
nein
1 3 3.04 14 7
2.62
0.007
ja
2 3 1.72
8 7
2.74
0.109
nein
Beachte: Die paarweisen Vergleiche werden zum Niveau
α0 = α/3 = 5%/3 = 0.0167 durchgeführt ( 3 Vergleiche).
Mit dieser Methode kann man zum Niveau 5% einen
signifikanten Unterschied zwischen den Gruppen feststellen.
Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau
des Verfahrens wird unterschätzt).
Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren
nicht zu empfehlen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
95 / 283
Post-Hoc-Test Bonferroni“ in SPSS
”
I
Verwendet andere Schätzung für den Standardfehler der
Differenz der Mittelwerte aus Gruppe i und j:
!
3
1
1
1 X
2
2
σ̄ij =
+
(nk − 1)σ̂k
ni
nj
n−3
k=1
I
An Stelle der Quantile der t-Verteilung mit ni + nj − 2
Freiheitsgraden müssen dann die Quantile der t-Verteilung mit
n − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3 )
I
Das Niveau für die Paarvergleiche muss dann wieder durch die
Anzahl der Vergleiche dividiert werden (im Beispiel α/3)
I
Adjustierung der p-Werte erfolgt durch Multiplikation der
p-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.
Z. B.
0.894 = 3 · P(|T12 | > 0.893/0.841)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei berechnet sich die Wahrscheinlichkeit mit einer
t-Verteilung mit 26 = 29 − 3 Freiheitsgraden.
96 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output paarweise Vergleiche mit der
Bonferroni-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Bonferroni
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Mathematik
Geisteswissenschaften
Geisteswissenschaften
Mathematik
Psychologie
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,894
-1,26
3,04
,878
,026
,25
4,75
,841
,894
-3,04
1,26
2,500
*
-,893
1,607
-2,500
*
-1,607
,982
,341
-,91
4,12
,878
,026
-4,75
-,25
,982
,341
-4,12
,91
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
97 / 283
R-Output paarweise Vergleiche mit der
Bonferroni-Methode
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Pairwise comparisons using t tests with pooled SD
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
data :
1
MPG and group
2. Korrelation, Lineare
Regression und
multiple Regression
2
2 0.894 3 0.026 0.341
P value adjustment method : bonferroni
98 / 283
Scheffé-Methode (α = 5%)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Für den Vergleich der Gruppe i mit j betrachte:
s
3−1
1
1
ds (i, j) =
SSR · F2,26,0.95 ( + )
29 − 3
ni
nj
s
s
2
1
1
1
1
=
· 93.6 · 3.37( + ) = 4.93
+
26
ni
nj
ni
nj
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und vergleiche diese Größe mit Mittelwertdifferenz |y i· − y j· |
I
Ergebnis (Niveau 5%)
i
1
1
2
j
2
3
3
|y i· − y j· |
0.89
2.5
1.61
ds (i, j)
2.18
2.28
2.55
Ergebnis
kein sign. Unterschied
y 1· sign. größer als y 3·
kein sign. Unterschied
99 / 283
Einige Bemerkungen zur Scheffé-Methode:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit
eines α-Fehlers für jeden beliebigen a-posteriori durchgeführten
Einzelvergleichstests nicht größer ist als der α-Fehler des
F -Tests
I
Kurz: Die Signifikanzaussagen gelten simultan für ALLE
Paarvergleiche mit dem Gesamtniveau α
I
Die Scheffé-Methode ist ein konservatives Verfahren
I
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als das
vorgegebene Niveau
Man entscheidet tendenziell eher zu oft für H0
100 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output paarweise Vergleiche mit der
Scheffé-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Scheffé-Prozedur
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Geisteswissenschaften
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,576
-1,29
3,08
,878
,029
,22
4,78
Mathematik
-,893
,841
,576
-3,08
1,29
Geisteswissenschaften
1,607
,982
,279
-,94
4,16
,878
,029
-4,78
-,22
,982
,279
-4,16
,94
Mathematik
Psychologie
2,500
*
-2,500
*
-1,607
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
101 / 283
R-Output paarweise Vergleiche mit der
Scheffé-Methode
Scheffe Test for values
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Mean Square Error
: 3.598901
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
ind ,
means
values
2. Korrelation, Lineare
Regression und
multiple Regression
std
G 12.14286 1.214986
r Min Max
7
10
13
M 14.64286 1.984833 14
12
19
P 13.75000 2.187628
10
16
8
alpha : 0.05 ; Df Error : 26
Critical Value of F : 3.369016
102 / 283
1.17 Einfaktorielle Varianzanalyse (zum Vergleich
von k unabhängigen Stichproben)
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es besteht kein Unterschied zwischen den
Erwartungswerten der einzelnen Gruppen:
H0 : µ1 = µ2 = . . . = µk
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
I
Varianzhomogenität: σ12 = σ22 = . . . = σk2
103 / 283
F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben)
I
Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicher
Erwartungswert in allen Gruppen wird verworfen, falls
F =
1
k−1 SSM
1
n−k SSR
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
> Fk−1,n−k,1−α
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Dabei ist:
SSM =
k
X
ni (y i· − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
(sum of squares between groups)
SSR =
ni
k X
X
(yij − y i· )2
i=1 j=1
(sum of squares within groups) und Fk−1,n−k,1−α das
(1 − α)-Quantil der F -Verteilung mit (k − 1, n − k)
Freiheitsgraden
104 / 283
1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15)
I
I
Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,
so kann mit der Scheffé-Methode festgestellt werden
welche Gruppen für die Signifikanz verantwortlich sind“!
”
Pk
dazu bestimmt man die Größen (n = i=1 ni )
s
k −1
1
1
SSR · Fk−1,n−k,1−α ( + )
ds (i, j) =
n−k
ni
nj
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ist y i· − y j· größer (bzw. kleiner) als ds (i, j) (bzw. als
−ds (i, j)) so ist y i· signifikant größer (bzw. kleiner) als y j·
I
Beachte:
I
I
I
I
insgesamt k(k−1)
Vergleiche
2
die Scheffé-Methode hält simultan das Niveau α
es ist möglich, das F -Test H0 ablehnt, aber keiner der
paarweisen Vergleiche signifikant ist!
Andere Verfahren (z. B. in SPSS implementiert):
Tukey-Methode, Duncan Test
105 / 283
1.19 Levene-Test auf Varianzhomogenität von k
unabhängigen Stichproben
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es liegt Varianzhomogenität vor, d. h.
H0 : σ12 = σ22 = . . . = σk2
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
106 / 283
Levene-Test auf Varianzhomogenität von k
abhängigen Stichproben
I
un-
Die Hypothese der Varianzhomogenität
H0 : σ12 = σ22 = . . . = σk2
wird verworfen, falls
Pk
1
F =
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
2
i=1 ni (x i· − x ·· )
k−1
Pk Pni
1
2
i=1
j=1 (xij − x i· )
n−k
1.4 Einfaktorielle
Varianzanalyse
> Fk−1,n−k,1−α
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei ist:
I
I
I
I
I
n = n1 +P
. . . + nk der Gesamtstichprobenumfang
Pk Pni
ni
x , x ·· = n1 i=1 j=1
xij
x i· = n1i
j=1 ij
xij = |yij − y i· |
Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit
(k − 1, n − k) Freiheitsgraden.
Beachte:
I
I
I
Der Test ist robust bzgl. der Normalverteilungsannahme.
Der Test hält nur“ näherungsweise das Niveau α.
”
Alternativer Test: Bartlett Test
107 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Test der Homogenität der Varianzen
1.2 t-Test für eine
Stichprobe
Gemerkte Zahlen
LeveneStatistik
1.3 Zweistichprobenprobleme
df1
1,214
df2
2
Signifikanz
26
1.4 Einfaktorielle
Varianzanalyse
,313
2. Korrelation, Lineare
Regression und
multiple Regression
ONEWAY ANOVA
Gemerkte Zahlen
Quadratsumme
Mittel der
Quadrate
df
Zwischen den Gruppen
29,187
2
14,594
Innerhalb der Gruppen
93,571
26
3,599
122,759
28
Gesamt
F
4,055
Signifikanz
,029
108 / 283
Methodenlehre II,
SoSe 2015
R-Output
Holger Dette
Levene ’ s Test for Homogeneity of Variance ( center = mean )
Df F value Pr ( > F )
group
2
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.2137 0.3134
1.4 Einfaktorielle
Varianzanalyse
26
2. Korrelation, Lineare
Regression und
multiple Regression
Df Sum Sq Mean Sq F value Pr ( > F )
ind
Residuals
2
29.19
14.594
26
93.57
3.599
4.055 0.0293 *
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
109 / 283
Methodenlehre II,
SoSe 2015
2. Korrelation, Lineare Regression und multiple
Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.3 Multiple Regression
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
2.4 Multikollinearität und Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare Zusammenhänge
2.7 Partielle und Semipartielle Korrelation
110 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.1 Korrelation
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
111 / 283
2.1 Beispiel: Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
2.1 Korrelation
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
2.4 Multikollinearität und
Suppressionseffekte
Frage: Besteht ein Zusammenhang zwischen der Variablen
Motivation“ und der Variablen Leistungsstreben“
”
”
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
2.7 Partielle und
Semipartielle Korrelation
I
I
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
112 / 283
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
x
y
x
y
x
y
20
32
8
19
13
11
30
14
34
25
19
24
15
12
26
23
25
19
39
27
32
17
30
19
5
20
26
22
18
22
6
13
12
19
21
24
12
17
36
27
11
17
0
8
27
26
35
22
26
20
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
113 / 283
Methodenlehre II,
SoSe 2015
2.2 Der Korrelationskoeffizient von Pearson
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
Maß für die (lineare) Abhängigkeit zwischen x und y :
Korrelationskoeffizient von Pearson
Pn
sx2,y
(xi − x · )(yi − y · )
r = rX ,Y =
= qP i=1
Pn
n
sx ,x sy ,y
2
2
i=1 (xi − x · )
i=1 (yi − y · )
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Dabei ist:
2.5 Variablenselektion
Pn
1
I
x· =
n
I
y· =
1
n
P
=
1
n−1
Pn
sy2,y =
1
n−1
Pn
I s2
x ,x
I
I
i=1
n
i=1
xi : Mittelwert der Daten xi
yi : Mittelwert der Daten yi
i=1
i=1
Pn
1
sx2,y = n−1
Daten xi , yi
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
i=1
(xi − x · )2 : Varianz der Daten xi
(yi − y · )2 : Varianz der Daten yi
(xi − x · )(yi − y · ) : Kovarianz zwischen den
114 / 283
2.3 Eigenschaften des Korrelationskoeffizienten
Methodenlehre II,
SoSe 2015
Holger Dette
(1) −1 ≤ r ≤ 1
(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1 xi
mit b1 > 0 besteht (ohne Störgrößen).
(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
yi = b0 + b1 xi
mit b1 < 0 besteht (ohne Störgrößen).
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(4) Der Korrelationskoeffizient ist invariant bzgl. linearer
Transformationen, d. h.
x̃i = a0 + a1 xi i = 1, . . . , n
⇒ rX̃ ,Ỹ = rX ,Y
ỹi = c0 + c1 yi i = 1, . . . , n
(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß
für den linearen Zusammenhang in der Stichprobe
(x1 , y1 ), . . . , (xn , yn )
115 / 283
2.4 Beispiel: Korrelationskoeffizient für die Daten
aus Beispiel 2.1
I
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Variablen
x : Leistungsstreben
y : Motivation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Korrelationskoeffizient von Pearson
r = 0.5592
I
Methodenlehre II,
SoSe 2015
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Fragen:
I
I
Wie genau ist diese Schätzung?
Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen
den Merkmalen Leistungsstreben und Motivation)?
116 / 283
Methodenlehre II,
SoSe 2015
2.5 Signifikanztest für Korrelation
I
(x1 , y1 ), . . . , (xn , yn ) ist eine Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
ρ bezeichne die Korrelation des Merkmals X mit dem
Merkmal Y einer Population; fünfter Modellparameter
neben µx , µy , σx2 und σy2 .
I
Ein Test zum Niveau α für die Hypothese die Merkmale
”
sind unkorreliert“
H0 : ρ = 0
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρ 6= 0 ab, falls
√
n − 2r √
1 − r 2 > tn−2,1− α2
gilt.
117 / 283
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25;
r = 0.5592;
t23,0.975 = 2.0687
2.1 Korrelation
2.2 Lineare Regression
I
√
n−2 r
√
1 − r 2 = 3.2355 > 2.0687
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen den
Merkmalen) wird zum Niveau 5% verworfen.
I
p-Wert: 0.0037
118 / 283
Methodenlehre II,
SoSe 2015
SPSS Output für Korrelationskoeffizient
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Korrelationen
2.2 Lineare Regression
Motivation
Motivation
Korrelation nach Pearson
Leistungsstreben
1,000
Signifikanz (2-seitig)
N
Leistungsstreben
Korrelation nach Pearson
Signifikanz (2-seitig)
N
,559
**
,004
25
,559
**
25
1,000
,004
25
25
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
119 / 283
R-Output für Korrelationskoeffizient
Methodenlehre II,
SoSe 2015
Holger Dette
Motivation L e i s t u n g s s t r e b e n
Motivation
1.00
0.56
L eistu n g s s t r eben
0.56
1.00
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
n = 25
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
P
Motivation L e i s t u n g s s t r e b e n
Motivation
0.0037
L eistu n g s s t r eben 0.0037
120 / 283
2.7 Konfidenzintervall für Korrelation
Methodenlehre II,
SoSe 2015
Holger Dette
I
ρ: Korrelation zwischen Merkmal x und Merkmal y einer
Population
I
(x1 , y1 ), . . . , (xn , yn ): Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
Mathematische Statistik: r ist näherungsweise“ (d. h. bei
”
großem Stichprobenumfang) normalverteilt mit
Erwartungswert ρ und Varianz
(1 − ρ2 )2
γ = Var (r ) ≈
n
2
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(1 − α)-Konfidenzintervall für den Korrelationskoeffizienten
r − γ̂z1− α2 , r + γ̂z1− α2
2
)
√
Hier bezeichnet γ̂ = (1−r
einen Schätzer für die
n
Standardabweichung von r und z1− α2 das (1 − α2 ) Quantil
der Standardnormalverteilung (Tabelle, Software)
121 / 283
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
n = 25;
I
z0.95 = 1.6449,
I
⇒
2.2 Lineare Regression
r = 0.5592
2.3 Multiple lineare
Regression
γ̂ = 0.1328
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
90% Konfidenzintervall für den Korrelationskoeffizient
[0.2739, 0.7541]
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
122 / 283
Methodenlehre II,
SoSe 2015
2.8 Hinweise zur Interpretation von Korrelationen
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Variablen x und y gefunden
Folgende Interpretationen sind möglich
(1)
(2)
(3)
(4)
x
y
x
x
beeinflusst y kausal
beeinflusst x kausal
und y werden von weiteren Variablen kausal beeinflusst
und y beeinflussen sich wechselseitig kausal
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Die Korrelation zwischen zwei Variablen ist eine
notwendige aber keine hinreichende Voraussetzung für
einen kausalen Zusammenhang
I
Der Korrelationskoeffizient gibt keine Information, welche
der vier Interpretationen zutrifft (in vielen“ Fällen wird das
”
der Typ (3) sein)
I
Korrelationen sollten ohne Zusatzinformation nicht
interpretiert werden!
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
123 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Merkmalen Ehrlichkeit“ und Häufigkeit des
”
”
Kirchgangs“ gefunden
Folgende Interpretationen sind möglich
I
I
I
Die in der Kirche vermittelten Werte haben einen positiven
Einfluss auf das Merkmal Ehrlichkeit“.
”
Ehrliche“ Menschen fühlen sich durch die in der Kirche
”
vermittelten Inhalte eher angesprochen und gehen aus
diesem Grund häufiger zur Kirche.
Die allgemeine familiäre und außerfamiliäre Sozialisation
beeinflusst beide Merkmale.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
124 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
125 / 283
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Kann man y aus x vorhersagen“?
”
126 / 283
Streudiagramm für die Daten aus Beispiel 2.9
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
2. Korrelation, Lineare
Regression und
multiple Regression
30
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Motivation
25
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
20
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
15
10
5
0
10
20
30
40
Leistungsstreben
127 / 283
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
I
I
I
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
Frage: Besteht ein funktionaler Zusammenhang zwischen der
Variablen Motivation“ und der Prädiktorvariablen
”
Leistungsstreben“ (Kann man y aus x vorhersagen“?)
”
”
Genauer: Gesucht ist Funktion f , die aus der Prädiktorvariablen
Leistungsstreben (x ) eine Vorhersage für die abhängige Variable
(y ) Motivation liefert:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Motivation = f(Leistungsbereitschaft)
I
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
128 / 283
Methodenlehre II,
SoSe 2015
Regression
Holger Dette
I
I
I
Ausgangslage: Von Interesse ist der Zusammenhang zwischen
verschiedenen Variablen. Im einfachsten Fall betrachtet man,
wie im Beispiel der Arbeitsmotivation, den Zusammenhang
zwischen zwei Variablen.
Daten: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Annahme: Es existiert ein kausaler Zusammenhang der Form
y = f (x ) zwischen der abhängigen Variablen y und der
Prädiktorvariablen x .
Weitere Annahme: Die Funktion f hat eine bestimmte Form.
Beispiele:
I
I
I
I
Lineare Regression (der Zusammenhang ist also durch eine
Gerade beschreibbar): y = b0 + b1 x
Quadratische Regression (der Zusammenhang ist also durch
eine Parabel beschreibbar): y = b0 + b1 x + b2 x 2
usw.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Der Zusammenhang ist in der Regel nicht exakt zu
beobachten. Mathematisches Modell
Y = b0 + b1 x + ε
Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell
bezeichnet man als Lineare Regression.
129 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
2.10 Das Modell der linearen Regression
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung xi ). Für den Zusammenhang zwischen den
Variablen Yi und xi gilt:
Yi = b0 + b1 xi + εi
i = 1, . . . , n
I
εi bezeichnet hier eine zufällige Störung“ und es wird
”
angenommen, dass die Störungen unabhängig und
normalverteilt sind mit Erwartungswert 0 und Varianz
σ2 > 0
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und y postuliert, der noch zufälligen Störungen unterliegt.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
130 / 283
Idee der Schätzung bei (linearer) Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I
Annahme: Es existiert ein linearer Zusammenhang
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Y = b0 + b1 x + ε
I
I
Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y
und x am besten beschreibt.
Idee: Bestimme die Gerade so, dass die Summe der
quadratischen (vertikalen) Abstände zwischen den
y -Koordinaten der Datenpunkte und den entsprechenden
Punkten auf der geschätzten Geraden minimal wird
Methode der kleinsten Quadrate
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
131 / 283
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
35
2.2 Lineare Regression
30
●
●
25
●
●
●
●
●
●
●
y
●
●
●
●
●
●
●
● ●
●
2.6 Nichtlineare
Zusammenhänge
●
●
●
●
15
● ●
●
●
●
●
2.5 Variablenselektion
●
2.7 Partielle und
Semipartielle Korrelation
●
15
20
●
2.4 Multikollinearität und
Suppressionseffekte
●
●
20
25
●
●
y=0.5x+10
●
●
●
●
●
●
●
●
●
10
10
●
y=0.2x+5
●
5
●
5
y
2.3 Multiple lineare
Regression
●
30
●
0
10
20
x
30
40
0
10
20
30
40
x
132 / 283
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten: die Lösung durch die
Methode der kleinsten Quadrate
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
30
●
2.5 Variablenselektion
●
25
●
●
20
2.7 Partielle und
Semipartielle Korrelation
●
●
●
●
●
●
●
●
●
●
●
y=0.292x+13.816
15
● ●
●
●
●
●
10
●
●
5
y
2.6 Nichtlineare
Zusammenhänge
●
●
0
10
20
x
30
40
133 / 283
2.11 Die Methode der kleinsten Quadrate
I
Bestimme die Gerade so, dass die Summe der quadrierten
senkrechten Abstände zwischen Gerade und Daten minimal
wird
I
I
I
Datum an der Stelle xi : yi
Wert der Geraden an der Stelle xi : b0 + b1 xi
Differenz: yi − (b0 + b1 xi )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
2.3 Multiple lineare
Regression
Minimiere
h(b0 , b1 ) =
Pn
i=1
yi − (b0 + b1 xi )
2
bzgl. der Wahl der Parameter b0 und b1 .
I
Lösung dieses Extremwertproblems liefert Schätzer für
Achsenabschnitt und Steigung der Geraden:
Pn
(x − x · )(yi − y · )
Pn i
b̂1 = i=1
, b̂0 = y · − b̂1 x ·
2
i=1 (xi − x · )
I
x· =
I
y· =
1
n
1
n
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Pn
xi : Mittelwert der Prädiktorvariablen
Pi=1
n
i=1
yi : Mittelwert der abhängigen Variablen
134 / 283
Beispiel Arbeitsmotivation: Streudiagramm und
Regressionsgerade für die Daten aus Beispiel 2.1
35
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
30
Motivation
25
2.1 Korrelation
2.2 Lineare Regression
20
2.3 Multiple lineare
Regression
15
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
10
R-Quadrat linear = 0,313
2.6 Nichtlineare
Zusammenhänge
5
0
10
20
30
40
Leistungsstreben
I
I
2.7 Partielle und
Semipartielle Korrelation
Schätzer: b̂0 = 13.82, b̂1 = 0.29
Fragen:
I
I
I
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die
Motivation
H0 : b 1 = 0
Wie gut beschreibt das lineare Regressionsmodell die Situation?
135 / 283
Die Genauigkeit der Schätzer für die Parameter
Methodenlehre II,
SoSe 2015
Holger Dette
I
Beachte: Vor der Datenerhebung sind b̂0 und b̂1 zufällig.
I
Mathematische Statistik (allgemeines lineares Modell) liefert
Schätzer für die Varianzen von b̂0 und b̂1
Schätzer für die Varianz von b̂0 :
Schätzer für die Varianz von b̂1 :
ŝb20
ŝb21
=
=
Sy2|x
n
Sy2|x
n
Pn
x2
Pn i=1 i 2
i=1 (xi − x · )
1
Pn
1
2
(x
i=1 i − x · )
n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Dabei bezeichnet
2.7 Partielle und
Semipartielle Korrelation
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
die Residualvarianz (Schätzer für die Varianz der Störgrößen)
I
Je größer der Stichprobenumfang n, desto genauer sind die
Schätzungen!
136 / 283
Fortsetzung von Beispiel 2.1: Schätzer für die Daten der
Arbeitsmotivation
I
Methodenlehre II,
SoSe 2015
Holger Dette
Schätzer für die Parameter
b̂0 = 13.82
b̂1 = 0.292
Sy2|x = 22.737
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Schätzer für die Varianz von b̂0 und b̂1
ŝb20 = 4.5158
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
ŝb21 = 0.0081
I
Standardfehler von b̂0 und b̂1
ŝb0 =
ŝb1 =
√
√
4.5158 = 2.125
0.0081 = 0.09
137 / 283
SPSS Output: Schätzer und
Standardabweichungen bei linearer Regression in
Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
a
Koeffizienten
2.5 Variablenselektion
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
2.6 Nichtlineare
Zusammenhänge
T
,559
Signifikanz
6,501
,000
3,235
,004
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Motivation
138 / 283
R-Output: Schätzer und Standardabweichungen
bei linearer Regression in Beispiel 2.1
Call :
lm ( formula = y ˜ x )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
-8.5766 -2.5679
0.5915
3Q
Max
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.8481 12.3437
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 13.81572
2.12504
6.501 1.24 e -06 ***
x
0.09026
3.235
0.29203
0.00365 **
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
139 / 283
2.12 Konfidenzintervalle bei linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi
I
I
(i = 1, . . . , n)
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Bestimmung der Schätzer
b̂0 und b̂1 . Damit ist dann
ŝb20
und
ŝb21
für die Varianzen von
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
=⇒
(b̂0 − tn−2,1− α2 ŝb0 , b̂0 + tn−2,1− α2 ŝb0 )
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
ein (1 − α)-Konfidenzintervall für b0 und
=⇒
(b̂1 − tn−2,1− α2 ŝb1 , b̂1 + tn−2,1− α2 ŝb1 )
ein (1 − α)-Konfidenzintervall für b1 .
I
Hier ist tn−2,1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − 2 Freiheitsgraden (tabelliert oder mit Software
verfügbar)
140 / 283
2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1
(Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25,
t23,0.975 = 2.0687
I
Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt
sich als 95% Konfidenzintervall für
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
b0 :[9.420, 18.212]
2.6 Nichtlineare
Zusammenhänge
b1 :[0.105, 0.479]
2.7 Partielle und
Semipartielle Korrelation
Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen
x auf die abhängige Variable Y ?
Mathematische Formulierung: H0 : b1 = 0
141 / 283
Methodenlehre II,
SoSe 2015
SPSS Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
a. Abhängige Variable: Motivation
Standardfehler
13,816
2,125
,292
,090
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
,559
Signifikanz
Untergrenze
Obergrenze
6,501
,000
9,420
18,212
3,235
,004
,105
,479
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
142 / 283
R-Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Call :
lm ( formula = y ˜ x )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
-8.5766 -2.5679
0.5915
3Q
Max
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.8481 12.3437
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 13.81572
2.12504
6.501 1.24 e -06 ***
x
0.09026
3.235
0.29203
0.00365 **
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
143 / 283
2.14 F -Test für die Hypothese H0 : b1 = 0
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi (i = 1, . . . , n)
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Hypothesen
H0 : b1 = 0, H1 : b1 6== 0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Die Nullhypothese H0 : b1 = 0 wird zu Gunsten der
Alternative H1 : b1 6= 0 verworfen, falls
Pn
2
1
2
Sreg
i=1 (y · − (b̂0 + b̂1 xi ))
1
Fn = 2 = 1 P
> F1;n−2,1−α
n
2
Sy |x
i=1 (yi − (b̂0 + b̂1 xi ))
n−2
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
gilt
I
F1;n−2,1−α bezeichnet das (1 − α)-Quantil der F -Verteilung
mit (1, n − 2) Freiheitsgraden
144 / 283
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2015
Holger Dette
n
X
n
n
X
X
(yi − (b̂0 + b̂xi ))2 +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
{z
Varianz der Regression
}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
2.3 Multiple lineare
Regression
Bezeichnungen:
2.4 Multikollinearität und
Suppressionseffekte
n
2
Sreg
1X
=
(y − (b̂0 + b̂1 xi ))2
1 i=1 ·
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).
Andere Interpretationen:
- Schätzung für die Varianz der Größen εi
- durch das lineare Regressionsmodell nicht erklärbare Varianz
I
145 / 283
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
n
X
n
n
X
X
2
(yi − (b̂0 + b̂xi )) +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
{z
Varianz der Regression
}
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2
= (n − 2) · Sy2|x + ·Sreg
Beachte:
I
Bei dem F -Test für die Hypothese H0 : b1 = 0 bildet man den
Quotienten aus der Varianz der Regression und der
Residualvarianz
I
Man untersucht also das Verhältnis zwischen erklärbarer und
nicht erklärbarer Varianz.
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
146 / 283
2.15 Varianzanalyse (ANOVA; analysis of variance)
Methodenlehre II,
SoSe 2015
Holger Dette
Art der
Abweichung
Freiheitsgrade (df )
Quadratsumme
1
Pn
F -Quotient
schätzer
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Regression
i=1 (y ·
2
− ybi )
Fn =
2
Sreg
/Sy2|x
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
n−2
Fehler
n−1
Total
Pn
bi )2
i=1 (yi − y
Pn
i=1 (yi
− y · )2
—
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
—
Bezeichnung:
ŷi = b̂0 + b̂1 xi Vorhersage an der Stelle xi
147 / 283
SPSS Output: F -Test bei linearer Regression in
Beispiel 2.1
b
Quadratsumme
Mittel der
Quadrate
df
Regression
238,015
1
238,015
Residuen
522,945
23
22,737
Gesamt
760,960
24
F
10,468
Signifikanz
,004
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
ANOVA
Modell
1
Methodenlehre II,
SoSe 2015
a
a. Einflußvariablen : (Konstante), Leistungsstreben
b. Abhängige Variable: Motivation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
F25 = 10.468,
I
Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
F1,23,0.95 = 4.2793
148 / 283
R-Output: F -Test bei linearer Regression in
Beispiel 2.1
Analysis of Variance Table
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Response : y
2.1 Korrelation
2.2 Lineare Regression
Df Sum Sq Mean Sq F value
x
1 238.01 238.015
Residuals 23 522.95
Pr ( > F )
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
10.468 0.003655 **
2.5 Variablenselektion
22.737
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Beachte:
I F25 = 10.468,
F1,23,0.95 = 4.2793
I Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
149 / 283
Modellgüte: wie geeignet“ ist das Modell für die
”
Beschreibung der Daten
I
Maß für Modellanpassung: Residualvarianz (Summe der
quadrierte Abstände von der Regressionsgerade):
Sy2|x =
n
2
1 X
yi − (b̂0 + b̂1 xi )
n − 2 i=1
I Beachte: S 2 ist ein Schätzer für die Varianz der
y |x
I Je kleiner S 2 , desto besser“ ist das (lineare)
y |x
”
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Messfehler
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Regressionsmodell
I
Streuung der Daten ohne die Information“, dass ein lineares
”
Modell vorliegt:
n
X
(yi − y· )2
i=1
I
Man untersucht welchen Anteil der Streuung
man durch das lineare Modell erklären kann.
Pn
i=1 (yi
− y· ) 2
150 / 283
Varianzzerlegung: ein extremes Beispiel
Methodenlehre II,
SoSe 2015
40
40
30
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
y
Abhängige Variable
Holger Dette
20
2.2 Lineare Regression
20
2.3 Multiple lineare
Regression
10
2.4 Multikollinearität und
Suppressionseffekte
10
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0
5
10
15
20
0
5
Unabhängige Variable
10
15
20
x
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
Die Grafik zeigt eine extreme Situation.
I
Die Streuung der Daten
lineare Regressionsmodell
Pn ist durch das P
n
zu 100% erklärbar! i=1 (yi − y · )2 = i=1 (y · − (b̂0 + b̂1 xi ))2
I
Residualvarianz (durch das lineare Regressionsmodell nicht
erklärbare Varianz) = 0
151 / 283
2.16 Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1):
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
25
X
(yi − y · )2 = 760.96
2.2 Lineare Regression
2.3 Multiple lineare
Regression
i=1
25
X
(y · − (b̂0 + b̂1 xi ))2 = 238.04
R =
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
i=1
2
2.4 Multikollinearität und
Suppressionseffekte
P25
i=1 (y · − (b̂0 + b̂1 xi ))
P25
2
i=1 (yi − y · )
2
= 0.313
d. h. 31.3% der Varianz der Variablen Motivation können durch die
Prädiktorvariable Leistungsstreben erklärt werden.
152 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
2.17 Modellgüte: das Bestimmtheitsmaß
I
Die Größe
Pn
Pn
(y · − (b̂0 + b̂1 xi ))2
(yi − (b̂0 + b̂1 xi ))2
i=1P
=
R 2 = 1− i=1Pn
n
2
2
i=1 (yi − y · )
i=1 (y · − yi )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
ist ein Maß für die Güte der Regression und heißt
Bestimmtheitsmaß.
2.4 Multikollinearität und
Suppressionseffekte
I
Beachte: Man kann zeigen, dass R 2 genau das Quadrat der
Korrelation ist.
2.7 Partielle und
Semipartielle Korrelation
I
Je besser“ das Modell ist, desto kleiner ist die
”
Residualvarianz, bzw. desto größer R 2 !
I
Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und 1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
153 / 283
Zusammenhang zwischen Bestimmtheitsmaß und
F -Test
I
Ist Fn die Statistik für den F -Test aus 2.14 und R 2 das
Bestimmtheitsmaß, dann gilt:
2
R =
I
I
1
1
n−2 Fn
1
+ n−2
Fn
R2 =
1
10.468
23
+ 10.468
23
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Im Beispiel des Zusammenhangs zwischen Motivation und
Leistungsstreben ist
=⇒
Holger Dette
2.1 Korrelation
In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann aus
dem Bestimmtheitsmaß berechnet werden (und umgekehrt)
Fn = 10.468
Methodenlehre II,
SoSe 2015
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
= 0.313
Ca. 31.3% der Variation der Variablen Motivation können durch
die Variable Leistungsstreben erklärt werden.
154 / 283
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2015
Holger Dette
2.18 Vorhersage für den Wert der Geraden an einer
Stelle x
I
I
Schätzung für den Wert der Geraden y (x ) = b0 + b1 x an
der Stelle x :
yb(x ) = b̂0 + b̂1 x
(1 − α)-Konfidenzintervall für y (x )
(b
y (x ) − tn−2; α2 · ŝy (x ) , yb(x ) + tn−2; α2 · ŝy (x ) )
wobei
ŝy2(x ) = Sy2|x
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(x − x · )2 + Pn
2
n
i=1 (xi − x · )
1
b (x ) bezeichnet
den Schätzer für die Varianz von Y
155 / 283
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2015
Holger Dette
2.19 Vorhersage für eine neue Beobachtung an einer
Stelle x
I
I
Schätzer für eine neue Beobachtung Ỹ (x ) = b0 + b1 x + ε
an der Stelle x :
yb(x ) = b̂0 + b̂1 x
(1 − α)-Konfidenzintervall für y (x )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
(b
y (x ) − tn−2; α2 · s̃y (x ) , yb(x ) + tn−2; α2 · s̃y (x ) )
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
wobei
1
(x − x · )2 s̃y2(x ) = Sy2|x 1 + + Pn
2
n
i=1 (xi − x · )
den Schätzer für die Varianz von yb(x ) + ε bezeichnet.
I
Beachte: Diese Varianz wird bei wachsendem
Stichprobenumfang nicht beliebig klein!
156 / 283
2.20 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
(1) Gesucht ist ein 90% Konfidenzintervall für den Wert der
Geraden an der Stelle x = 16
I
I
t23,0.95 = 1.714, Sy2|x = 22.737, ŝy2(x ) = 1.116, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für den Wert der Geraden an der
Stelle 16 ist gegeben durch
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
[16.677, 20.299]
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
(2) Gesucht ist ein 90% Konfidenzintervall für eine neue
Beobachtung der Stelle x = 16
I
I
2.7 Partielle und
Semipartielle Korrelation
t23,0.95 = 1.714, Sy2|x = 22.737, ŝỹ2(x ) = 23.85, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für eine neue Beobachtung an der
Stelle 16 ist gegeben durch
[10.118, 26.859]
157 / 283
SPSS Output: Vorhersagen bei linearer
Regression in Beispiel 2.1 (schwierig)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
158 / 283
SPSS Output: Konfidenzintervalle für
Vorhersagen bei linearer Regression in Beispiel
2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
16.0
35
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
30
Motivation
2.4 Multikollinearität und
Suppressionseffekte
25
2.5 Variablenselektion
20
2.7 Partielle und
Semipartielle Korrelation
2.6 Nichtlineare
Zusammenhänge
15
10
5
0
10
20
30
40
Leistungsstreben
159 / 283
2.21 Residuenanalyse
Methodenlehre II,
SoSe 2015
Holger Dette
I
Unter der Modellannahme des linearen Regressionsmodells
gilt: die Größen
εi = Yi − b0 − b1 xi
sind unabhängig und normalverteilt mit Erwartungswert 0
und Varianz σ 2 > 0.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Das bedeutet, dass diese Eigenschaften auch
näherungsweise“ für die Residuen
”
ε̂i = yi − b̂0 − b̂1 xi
erfüllt sein sollte, falls die Modellannahme zutrifft.
Residuenanalyse ist ein deskriptives Verfahren für die
Überprüfung der Annahmen an ε1 , . . . , εn mit 4
Teilschritten (oft werden auch nicht alle gemacht):
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
A: Das Streudiagramm der Daten mit der Regressionslinie
B: Ein Streudiagramm der Residuen gegen die vorhergesagten
Werte
C: Normalverteilungs-QQ-Plot der Residuen
D: Histogramm der Residuen mit angepasster
Normalverteilungsdichte
160 / 283
Residuenanalyse bei erfüllten“ Voraussetzungen
”
A
6
0.5
4
2
0
2.1 Korrelation
−0.5
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
−1.5
−2
−1
0
1
2
0
2
4
Unabhängige Variable
Vorhergesagter Wert
C
D
1.0
1.0
0.5
0.8
f(Residuum)
Empirische Quantile
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
−1.0
−2
0.0
−0.5
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
1.0
Residuum
Abhängige Variable
8
Methodenlehre II,
SoSe 2015
6
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0.6
0.4
0.2
−1.0
0.0
−1.5
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Residuum
161 / 283
Methodenlehre II,
SoSe 2015
Residuenanalyse bei Abweichungen“ von der
”
Normalverteilung (Ausreißer)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
20
15
Residuum
Abhängige Variable
A
20
Holger Dette
10
0
2. Korrelation, Lineare
Regression und
multiple Regression
10
2.1 Korrelation
5
2.2 Lineare Regression
0
2.3 Multiple lineare
Regression
−5
2.4 Multikollinearität und
Suppressionseffekte
−10
−10
2.5 Variablenselektion
−2
−1
0
1
2
0
Unabhängige Variable
4
6
8
2.6 Nichtlineare
Zusammenhänge
Vorhergesagter Wert
C
20
2.7 Partielle und
Semipartielle Korrelation
D
0.15
15
10
f(Residuum)
Empirische Quantile
2
5
0
0.10
0.05
−5
−10
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−15 −10
−5
0
5
10
15
20
Residuum
162 / 283
Methodenlehre II,
SoSe 2015
Residuenanalyse bei Stratifizierung
Holger Dette
Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu
Abweichungen von den Modellannahmen führen. Für die Strata
können dann unterschiedliche Regressionsgleichungen gelten.
A
15
B
10
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
5
Residuum
Abhängige Variable
2.1 Korrelation
10
5
0
2.3 Multiple lineare
Regression
0
−5
−5
−10
−10
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−2
−1
0
1
2
2.6 Nichtlineare
Zusammenhänge
−2
0
Unabhängige Variable
4
6
2.7 Partielle und
Semipartielle Korrelation
Vorhergesagter Wert
C
10
D
0.15
5
f(Residuum)
Empirische Quantile
2
0
−5
−10
0.10
0.05
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−10
−5
0
5
10
Residuum
163 / 283
Residuenanalyse bei falscher Modellannahme
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
40
10
20
Residuum
Abhängige Variable
A
0
−20
−40
2. Korrelation, Lineare
Regression und
multiple Regression
0
−10
2.1 Korrelation
2.2 Lineare Regression
−20
2.3 Multiple lineare
Regression
−60
−2
−1
0
1
2
−30 −20 −10
0
10
20
Unabhängige Variable
Vorhergesagter Wert
C
D
30
40
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0.04
f(Residuum)
Empirische Quantile
0.05
10
0
−10
2.4 Multikollinearität und
Suppressionseffekte
2.7 Partielle und
Semipartielle Korrelation
0.03
0.02
0.01
−20
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−30
−20
−10
0
10
20
Residuum
Statt des linearen Modells wäre ein Polynom 3. Grades die bessere
Annahme für die Beschreibung des funktionalen Zusammenhangs!
164 / 283
Methodenlehre II,
SoSe 2015
Residuenanalyse bei ungleichen Varianzen
(Heteroskedastizität)
20
10
10
0
−10
−20
0
2.2 Lineare Regression
2.3 Multiple lineare
Regression
−40
−40
0
1
2.1 Korrelation
−20
−30
−1
2. Korrelation, Lineare
Regression und
multiple Regression
−10
−30
−2
2
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−2
Unabhängige Variable
2
4
6
Vorhergesagter Wert
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
D
0.10
20
0.08
10
f(Residuum)
Empirische Quantile
0
C
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
30
Residuum
Abhängige Variable
A
20
Holger Dette
0
−10
−20
0.06
0.04
0.02
−30
−40
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−40
−20
0
20
Residuum
165 / 283
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
35
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
30
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Motivation
25
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
20
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
15
2.7 Partielle und
Semipartielle Korrelation
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
166 / 283
Methodenlehre II,
SoSe 2015
R-Output für Residuenanalyse
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10
Motivation
30
2.1 Korrelation
0
10
20
30
40
Leistungsstreben
QQ-Plot im Beispiel der Arbeitsmotivation
167 / 283
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
3,00000
2. Korrelation, Lineare
Regression und
multiple Regression
Standardized Residual
2,00000
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1,00000
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
,00000
2.7 Partielle und
Semipartielle Korrelation
-1,00000
-2,00000
-2,00000
-1,00000
,00000
1,00000
2,00000
Standardized Predicted Value
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
168 / 283
R-Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals vs Fitted
10
2.2 Lineare Regression
5
2.3 Multiple lineare
Regression
0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
19
−10
Residuals
2.1 Korrelation
1
2.7 Partielle und
Semipartielle Korrelation
2
14
16
18
20
22
24
Fitted values
lm(y ~ x)
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
169 / 283
Methodenlehre II,
SoSe 2015
SPSS Output für Residuenanalyse
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Q-Q-Diagramm von Normal von Standardized Residual
2. Korrelation, Lineare
Regression und
multiple Regression
2
2.1 Korrelation
Erwarteter Wert von Normal
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0
2.7 Partielle und
Semipartielle Korrelation
-1
-2
-2
-1
0
1
2
3
Beobachteter Wert
QQ-Plot im Beispiel der Arbeitsmotivation
170 / 283
R-Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
3
1
2.1 Korrelation
2
2.2 Lineare Regression
1
2.3 Multiple lineare
Regression
0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
19
−2
Standardized residuals
Normal Q−Q
2.7 Partielle und
Semipartielle Korrelation
2
−2
−1
0
1
2
Theoretical Quantiles
lm(y ~ x)
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
171 / 283
Korrelation und lineare Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Es besteht ein enger Zusammenhang zwischen linearer Regression
und Korrelation
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Ist b̂1 die Schätzung im linearen Regressionsmodell und r der
Korrelationskoeffizient von Pearson, dann gilt:
sP
n
(xi − x · )2
· b̂1
r = Pni=1
2
i=1 (yi − y · )
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient
von Pearson, dann gilt:
r 2 = R2
172 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.3 Multiple lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
173 / 283
2.22 Beispiel: Arbeitsmotivation mit mehreren
Prädiktoren” ”
y : Motivation (Einschätzung der Arbeitsmotivation durch Experten)
Prädiktoren: Eigenschaften
I x1 : Ehrgeiz (Fragebogen)
I x2 : Kreativität (Fragebogen)
I x3 : Leistungsstreben (Fragebogen)
Prädiktoren: Rahmenbedingungen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
I
I
x4 : Hierarchie (Position in der Hierarchie des Unternehmens)
x5 : Lohn (Bruttolohn pro Monat)
x6 : Arbeitsbedingungen (Zeitsouveränität,
Kommunikationsstruktur usw.)
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Prädiktoren: Inhalte der Tätigkeit
I
I
I
x7 : Lernpotential (Lernpotential der Tätigkeit)
x8 : Vielfalt (Vielfalt an Teiltätigkeiten)
x9 : Anspruch (Komplexität der Tätigkeit)
174 / 283
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
i
1
2
3
4
5
6
7
8
9
10
11
12
y
32
14
12
27
20
13
17
8
22
19
25
23
x1
36
30
19
42
14
12
17
4
32
15
38
24
x2
30
11
15
16
22
16
20
5
20
13
5
6
x3
20
30
15
39
5
6
12
0
35
8
34
26
x4
20
7
8
13
22
11
11
16
20
13
21
9
x5
3100
2600
3200
2500
3700
2600
2500
3800
3500
3100
3600
2600
x6
34
39
42
43
42
36
41
23
25
29
59
45
x7
29
16
13
15
29
17
18
9
21
21
27
31
x8
69
47
32
63
38
39
44
31
40
57
53
54
x9
66
36
17
49
62
51
55
33
55
56
67
62
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
175 / 283
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
i
13
14
15
16
17
18
19
20
21
22
23
24
25
y
17
22
19
27
26
20
11
24
19
19
22
24
17
x1
28
36
18
40
30
27
18
32
33
33
27
30
37
x2
11
4
26
27
28
11
23
18
9
22
28
32
8
x3
32
26
12
36
27
26
13
19
25
30
18
21
11
x4
10
16
6
12
18
10
11
15
6
5
17
11
2
x5
2600
2500
2500
2500
3000
2600
2800
2700
2400
2600
4000
2700
2300
x6
30
52
40
42
38
35
42
48
38
36
45
44
32
x7
7
23
17
29
34
19
18
23
23
30
23
20
20
x8
45
56
54
44
43
46
31
51
37
39
52
41
44
x9
26
64
55
62
64
55
43
53
65
39
54
47
41
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
176 / 283
2.23 Das Modell der multiplen linearen Regression
I
Daten (x 1 , y1 ), . . . , (x n , yn )
I
Es gibt k unabhängige Variablen: x i = (x1i , . . . , xki )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung x i ). Für den Zusammenhang zwischen der
Variablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9):
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Yi = b0 + b1 x1i + b2 x2i + . . . + bk xki + εi
= b0 +
k
X
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
bj xji + εi .
j=1
I
εi bezeichnet hier eine zufällige Störung” und es wird
”
angenommen, dass die Störungen ε1 , . . . , εn unabhängig
und normalverteilt sind mit Erwartungswert 0 und Varianz
σ 2 > 0.
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und Y postuliert, der noch zufälligen Störungen unterliegt.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
177 / 283
Methodenlehre II,
SoSe 2015
2.24 Schätzung bei multipler linearer Regression
Holger Dette
Methode der kleinsten Quadrate: Minimiere
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
n
X
(yi − b0 − b1 x1i − . . . − bk xki )2
i=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
bzgl. der Wahl von b0 , . . . , bk
I
Mathematische Statistik (allgemeines lineares Modell)
liefert Schätzer
b̂0 , b̂1 , . . . , b̂k
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
für die Parameter b0 , . . . , bk (Formeln sind kompliziert)
I
Schätzer für die Varianz der Messfehler
n
Sy2|x =
X
1
(yi − b̂0 − b̂1 x1i − . . . − b̂k xki )2
n − k − 1 i=1
178 / 283
Streudiagramm bei multipler linearer Regression
(k = 2)
Regressionsfläche: yb(x) = 3.24 + 4.5x1 + 5.27x2 .
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
40
2.3 Multiple lineare
Regression
30
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
20
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Y
10
0
−10
−20
−30
−5
0
5
X1
−3
−2
0
−1
1
2
3
4
X2
179 / 283
Fortsetzung von Beispiel 2.22: Schätzer im
multiplen linearen Regressionsmodell
I
Ergebnisse für die Schätzer im multiplen linearen
Regressionsmodell
b̂0
b̂2
b̂4
b̂6
b̂8
I
= −3.842
=
0.153
=
0.246
= −0.031
=
0.206
b̂1
b̂3
b̂5
b̂7
b̂9
=
0.193
=
0.049
=
0.000
=
0.165
= −0.053
Fragen:
I
I
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale
auf die Motivation
H0 : b 1 = 0
H0 : b 2 = 0
..
.
I
Wie gut beschreibt das multiple lineare Regressionsmodell die
Situation?
180 / 283
Genauigkeit der Schätzung bei multipler linearer
Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
I
I
Schätzer ŝb0 , . . . , ŝbk für die Standardfehler von b̂0 , . . . , b̂k sind
verfügbar (Allgemeines lineares Modell → Formeln kompliziert)
Anmerkung: Für wachsenden Stichprobenumfang konvergieren
die Schätzer ŝbj gegen 0 je größer der Stichprobenumfang,
”
desto genauer die Schätzungen”
Damit erhält man Konfidenzintervalle für b0 , . . . , bk , z. B.
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(b̂0 − tn−k−1,1− α2 ŝb0 , b̂0 + tn−k−1,1− α2 ŝb0 )
ist (1 − α)-Konfidenzintervall für b0 .
181 / 283
Fortsetzung von Beispiel 2.22: Schätzer für den
Standardfehler der Schätzer im multiplen linearen
Regressionsmodell
I
Ergebnisse für den Standardfehler der Schätzer im multiplen
linearen Regressionsmodell
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
ŝb0
ŝb2
ŝb4
ŝb6
ŝb8
I
=
=
=
=
=
5.052
0.049
0.148
0.054
0.052
ŝb1
ŝb3
ŝb5
ŝb7
ŝb9
=
=
=
=
=
0.081
0.065
0.001
0.098
0.058
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Wegen t15,0.975 = 2.1314 ist
[−0.089, 0.188]
ein 95%-Konfidenzintervall für den Parameter b3 . Man beachte:
I
I
0.049 + 2.1314 · 0.065 ≈ 0.188)
n = 25; k = 9 ⇒ n − k − 1 = 15
182 / 283
2.25 Konfidenzintervalle für multiple lineare Regression
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
I
Schätzer ŝbj für den Standardfehler von b̂j
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
=⇒
(b̂j − tn−k−1,1− α2 ŝbj , b̂j + tn−k−1,1− α2 ŝbj )
2.7 Partielle und
Semipartielle Korrelation
ist ein (1 − α)-Konfidenzintervall für bj (j = 0, . . . , k)
I
tn−k−1,1− α2 ; (1 − α2 )-Quantil der t-Verteilung mit n − k − 1
Freiheitsgraden (Tabelle oder Software)
I
Anmerkung: Für wachsenden Stichprobenumfang
konvergieren die Schätzer ŝbj gegen 0 je größer der
”
Stichprobenumfang, desto kleiner die Konfidenzintervalle”
183 / 283
2.26 Beispiel: Konfidenzintervalle für die
Parameter in Beispiel 2.22 (Arbeitsmotivation)
b̂j
b̂0
b̂1
b̂2
b̂3
b̂4
b̂5
b̂6
b̂7
b̂8
b̂9
Merkmal
—
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Arbeitsbdg.
Lernpotential
Vielfalt
Anspruch
Schätzung
-3.842
0.193
0.153
0.049
0.246
0.000
-0.031
0.165
0.206
0.053
ŝbj
5.052
0.081
0.049
0.065
0.148
0.001
0.054
0.098
0.052
0.058
Konfidenzintervall
[-14.609, 6.926]
[0.020, 0.365]
[0.049, 0.258]
[-0.089, 0.188]
[-0.069, 0.561]
[-0.004, 0.002]
[-0.147, 0.085]
[-0.044, 0.373]
[0.095, 0.316]
[-0.070, 0.177]
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
184 / 283
Methodenlehre II,
SoSe 2015
SPSS Output: Schätzer, Standardabweichung
und Konfidenzintervalle im Beispiel 2.22
(Arbeitsmotivation mit mehreren Prädiktoren)
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
2.1 Korrelation
Koeffizienten
2.2 Lineare Regression
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Standard
fehler
2.3 Multiple lineare
Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
Signifi
kanz
Untergrenze
Obergrenze
-,760
,459
-14,609
6,926
,020
,365
T
-3,842
5,052
,193
,081
,337
2,381
,031
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x1
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
x7
,165
,098
,199
1,683
,113
-,044
,373
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
185 / 283
R-Output: Schätzer, Standardabweichung und
Konfidenzintervalle im Beispiel 2.22
(Arbeitsmotivation mit mehreren Prädiktoren)
Call :
lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Residuals :
2.5 Variablenselektion
Min
1Q
Median
-3.5333 -0.7878 -0.0144
3Q
0.8352
Max
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
2.9391
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) -3.8418391
5.0517520
-0.760
0.45875
x1
0.1927225
0.0809357
2.381
0.03094 *
x2
0.1533724
0.0490456
3.127
0.00692 **
x3
0.0493953
0.0648797
0.761
0.45826
186 / 283
2.27 Vorhersage der multiplen linearen Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
Pk
ŷ (x) = b̂0 + j=1 b̂j xj
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
In Beispiel 2.22 ergibt sich z. B. als Vorhersage der
multiplen linearen Regression an der Stelle
x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900,
x6 = 41, x7 = 25, x8 = 55, x9 = 54
der Wert ŷ (x) = 22.717
187 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
Vorhersage der multiplen linearen Regression
Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersagen:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
I
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
Vorhersage für den Wert einer neuen Beobachtung an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Für beide Vorhersagen kann man den Standardfehler
bestimmen (Formeln kompliziert) und Konfidenzbereiche
angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 )
188 / 283
SPSS Output: Vorhersage bei der multiplen
linearen Regression (schwierig)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beispiel:
I Schätzung für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
I Schätzung für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
189 / 283
SPSS Output: Konfidenzintervalle für
Vorhersagen bei multipler linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
I
Konfidenzintervall für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297]
Konfidenzintervall für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826]
190 / 283
2.28 Bestimmtheitsmaß bei multipler linearer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
I
Modellvorhersage:
ŷi = b̂0 + b̂1 x1i + . . . b̂k xki = b̂0 +
k
X
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
b̂j xji
j=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Pk
I
Residuum ε̂i = yi − ŷi = yi − (b̂0 +
I
Beachte: Die Werte der abhängigen Variable zerfallen in
Modellvorhersage (ŷ ) und Residuum (ε̂), d. h.
yi = ŷi + ε̂i
I
j=1 b̂j xji )
i = 1, . . . , n
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Die Güte der Modellanpassung wird (wieder) durch das
Bestimmtheitsmaß R 2 beschrieben (Anteil erklärter
Varianz)
Pn
Pn
2
(yi − ybi )2
2
i=1
i=1 (y · − ŷi )
P
R = 1 − Pn
=
.
n
2
2
i=1 (yi − y · )
i=1 (yi − y · )
191 / 283
Beispiel: Das Bestimmtheitsmaß für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
In Beispiel 2.22 ist
2.1 Korrelation
I
I
I
2.2 Lineare Regression
n = 25; k = 9
Pn
bi )2 = 53.651
i=1 (yi − y
Pn
2
i=1 (yi − y · ) = 790.96
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
R2 = 1 −
53.651
= 93.22
790.96
D. h. 93.22% der Varianz der Variablen Motivation werden durch das
multiple lineare Regressionsmodell erklärt.
192 / 283
2.29 Statistische Tests bei der multiplen linearen Regression. Zwei wichtige” Fragestellungen:
”
I
I
Frage A: Hat mindestens eine der Prädiktorvariablen
x1 , . . . , xk einen Einfluss auf die abhängige Variable y
(Gesamttest auf Signifikanz).
Mathematische Formulierung der Hypothese:
Nullhypothese:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Alternative:
H1 : bj 6= 0 für mindestens ein j ∈ {1, 2, . . . , k}
I
I
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Frage B: Hat die Prädiktorvariable xj (z. B. Ehrgeiz) einen
Einfluss auf die abhängige Variable y .
Mathematische Formulierung der Hypothese:
Nullhypothese: H0 : bj = 0
Alternative: H1 : bj 6= 0
193 / 283
Methodenlehre II,
SoSe 2015
2.29(A) Gesamttest auf Signifikanz
I
Holger Dette
Nullhypothese: H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Alternative: H1 : bj 6= 0 für mindestens ein
j ∈ {1, 2, . . . , k}
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(1) Bestimme
n
2
Sreg
1X
=
(y · − ŷi )2
k
i=1
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
die Varianz der Regression, und
Sy2|x =
2.3 Multiple lineare
Regression
2.7 Partielle und
Semipartielle Korrelation
n
X
1
(yi − ŷi )2
n−k −1
i=1
die Residualvarianz
I
Beachte: Man geht genau wie im linearen
Regressionsmodell vor!
194 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
2.29(A) Gesamttest auf Signifikanz
(2) H0 wird zu Gunsten der Alternative H1 verworfen, falls
2
Sreg
Fn = 2 > Fk;n−k−1;1−α
Sy |x
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei bezeichnet Fk;n−k−1;1−α das (1 − α)-Quantil der
F -Verteilung mit (k, n − k − 1) Freiheitsgraden.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Wird H0 durch diesen Test verworfen, dann bleibt
aber noch unklar, welches der Merkmale signifikant ist”.
”
195 / 283
2.29(B) Tests für die Signifikanz einzelner Merkmale
Methodenlehre II,
SoSe 2015
Holger Dette
Nullhypothese:
H0 : bj = 0
Alternative:
H1 : bj 6= 0
I
Die Nullhypothese H0 wird zu Gunsten der Alternative H1
verworfen, falls
b̂ j
Tn = > tn−k−1;1− α2
ŝbj 1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei ist
I
I
I
tn−k−1;1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − k − 1 Freiheitsgraden
ŝbj der Standardfehler von b̂j
Beachte: Werden mehrere Hypothesen getestet, ist das
Niveau entsprechend anzupassen (vgl. Abschnitt 2.18).
196 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
2.30(A) Test auf Signifikanz im multiplen Regressionsmodell in Beispiel 2.22
I
I
Frage: Hat eine der 9 Prädiktorvariablen einen Einfluss auf
”
die abhängige Variable?”
Mathematische Hypothesen:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
H0 : bj = 0 für alle j = 1, . . . , 9
2.5 Variablenselektion
H1 : bj 6= 0 für mindestens ein j ∈ {1, . . . , 9}
2.7 Partielle und
Semipartielle Korrelation
I
Fn = 21.972,
I
Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zum
Niveau 5% verworfen.
2.6 Nichtlineare
Zusammenhänge
F9,15,0.95 = 2.5876
197 / 283
2.30(B) Beispiel: Test auf Signifikanz eines
Merkmals im multiplen linearen
Regressionsmodell in Beispiel 2.22
I
I
Frage: Hat die Prädiktorvariable Ehrgeiz (x1 ) einen Einfluss auf
”
die abhängige Variable Motivation Signifikanz des
Regressionskoeffizienten b1 )?”
Mathematische Hypothesen:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
H0 : b1 = 0;
I
b̂1 = 0.193,
ŝb1 = 0.081,
H1 : b1 6= 0
t25−10,0.975 = 2.13
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
⇒ T25 = 2.381
I
Da
T25 = 2.381 > 2.13
wird die Nullhypothese H0 zu Gunsten der Alternative
H1 : b1 6= 0 verworfen (zum Niveau 5%)
198 / 283
SPSS Output: Der Test 2.29(A) für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
b
ANOVA
Modell
1
Quadratsumme
Regression
Residuen
Gesamt
Mittel der
Quadrate
df
707,309
9
78,590
53,651
15
3,577
760,960
24
2.3 Multiple lineare
Regression
F
21,972
Signifikanz
,000
a
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Abhängige Variable: Y
199 / 283
SPSS Output: Der Test 2.29(B) für das Beispiel
2.22 (Arbeitsmotivation)
Modell
1
B
(Konstante)
Standard
fehler
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Methodenlehre II,
SoSe 2015
2.1 Korrelation
2.2 Lineare Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
Signifi
kanz
2.3 Multiple lineare
Regression
Untergrenze
Obergrenze
2.4 Multikollinearität und
Suppressionseffekte
-,760
,459
-14,609
6,926
T
-3,842
5,052
x1
,193
,081
,337
2,381
,031
,020
,365
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
,373
x7
,165
,098
,199
1,683
,113
-,044
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
200 / 283
R-Output: Der Test 2.29(A) für das Beispiel 2.22
(Arbeitsmotivation)
Analysis of Variance Table
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Response : y
2.1 Korrelation
Df Sum Sq Mean Sq
F value
Pr ( > F )
x1
1 380.97
380.97 106.5127 3.294 e -08 ***
x2
1
89.36
89.36
x3
1
0.00
0.00
x4
1 102.08
102.08
x5
1
23.20
23.20
x6
1
0.75
0.75
x7
1
34.68
34.68
9.6959 0.0071134 **
x8
1
73.24
73.24
20.4772 0.0004026 ***
x9
1
3.03
3.03
Residuals 15
53.65
3.58
24.9844 0.0001588 ***
0.0003 0.9874466
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
28.5391 8.220 e -05 ***
6.4873 0.0223299 *
0.2086 0.6544156
0.8470 0.3719801
201 / 283
R-Output: Der Test 2.29(B) für das Beispiel 2.22
(Arbeitsmotivation)
Call :
lm ( formula = y ˜ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
Min
2.3 Multiple lineare
Regression
1Q
Median
3Q
Max
-3.5333 -0.7878 -0.0144
0.8352
2.9391
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) -3.8418391
5.0517520
-0.760
0.45875
x1
0.1927225
0.0809357
2.381
0.03094 *
x2
0.1533724
0.0490456
3.127
0.00692 **
x3
0.0493953
0.0648797
0.761
0.45826
x4
0.2460051
0.1478258
1.664
0.11683
202 / 283
Residual standard error : 1.891 on 15 degrees of freedom
Multiple R - squared :
0.9295 ,
Adjusted R - squared :
F - statistic : 21.97 on 9 and 15 DF ,
2.5 %
0.8872
p - value : 4.492 e -07
97.5 %
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
( Intercept ) -14.609393640 6.925715428
x1
0.020212256 0.365232828
x2
0.048834252 0.257910529
x3
-0.088892612 0.187683168
x4
-0.069078063 0.561088342
x5
-0.004075849 0.002310442
x6
-0.147429821 0.084663199
x7
-0.043845720 0.373328278
x8
0.095304292 0.315917155
x9
-0.070255862 0.177024655
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
203 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und Suppressionseffekte
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
204 / 283
2.31 Das Problem der Multikollinearität
Methodenlehre II,
SoSe 2015
Holger Dette
Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation” ein
”
multiples lineares Regressionsmodell mit 3 Prädiktorvariablen
Yi = b0 + b1 x1i + b2 x2i + b3 x3i + εi
i = 1, . . . , 25
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(Y : Motivation, x1 : Ehrgeiz, x2 : Kreativität, x3 : Leistungsstreben)
I
Schätzer für die Modellparameter
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
i
0
1
2
3
b̂i
5.54
0.39
0.23
0.001
ŝbi
2.62
0.14
0.09
0.12
p-Wert
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0.008
0.020
0.994
I
Bestimmtheitsmaß R 2 = 0.7861
I
Beachte: Nur für den Koeffizient b3 (Leistungsstreben) kann
keine Signifikanz (zum Niveau 5%) nachgewiesen werden.
205 / 283
Methodenlehre II,
SoSe 2015
Korrelationsmatrix für die Prädiktoren
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Motivation
Ehrgeiz
Kreativität
Leistungsstreben
Motivation
1
.71
.38
.56
Ehrgeiz
1
.05
.82*
Kreativität
Leistungsstreben
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1
-.02
2.4 Multikollinearität und
Suppressionseffekte
1
Beachte: Der Test 2.5 liefert eine signifikante Korrelation (zum
Niveau 1%) zwischen den Variablen Leistungsstreben und Ehrgeiz
(SPSS)
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
206 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
I
Beachte: Es gibt eine signifikante Korrelation zwischen den
Variablen Leistungsstreben und Ehrgeiz
I
Beide Variablen tragen weitgehend identische Information.
I
Im Beispiel ist die Variable Leistungsstreben redundant und wird
nicht für die Vorhersage der abhängigen Variablen Motivation
benötigt.
I
Die Variable Ehrgeiz ist stärker mit der Variablen Motivation
korreliert als die Variable Leistungsstreben (aus diesem Grund ist
der entsprechende Koeffizient auch signifikant).
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Für die Bestimmtheitsmaße in den multiplen linearen
Regressionsmodellen mit drei bzw. zwei Variablen erhält man
R 2 = 0.786179 für Modell mit den Prädiktoren x1 , x2 , x3
R 2 = 0.786178 für Modell mit den Prädiktoren x1 , x2
207 / 283
SPSS Output: Multikollinearität; Schätzer im
Modell mit 3 Parametern
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
5,539
Standard
fehler
2.3 Multiple lineare
Regression
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
2,618
2,116
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Signifi
kanz
Untergrenze
Obergrenze
,046
,095
10,983
x1
,393
,135
,688
2,913
,008
,112
,674
x2
,225
,089
,343
2,528
,020
,040
,410
x3
,001
,123
,002
,008
,994
-,255
,257
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
208 / 283
R-Output: Multikollinearität; Schätzer im Modell
mit 3 Parametern
Call :
lm ( formula = y ˜ x1 + x2 + x3 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
2.3 Multiple lineare
Regression
Min
1Q
Median
3Q
Max
-6.7996 -1.5635 -0.2354
1.8129
6.6490
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 5.538618
2.617828
2.116
0.04649 *
x1
0.393239
0.135012
2.913
0.00832 **
x2
0.224767
0.088899
2.528
0.01954 *
x3
0.001002
0.123169
0.008
0.99359
---
209 / 283
Methodenlehre II,
SoSe 2015
SPSS Output: Multikollinearität;
Korrelationsmatrix
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Korrelationen
Y
Korrelation nach Pearson
Y
x1
1,000
,708
Signifikanz (2-seitig)
N
x1
Korrelation nach Pearson
Signifikanz (2-seitig)
N
x2
,000
25
,708
**
x3
,379
,061
25
25
1,000
,053
,000
,559
**
,004
25
,818
**
,802
,000
25
25
25
25
Korrelation nach Pearson
,379
,053
1,000
-,016
Signifikanz (2-seitig)
,061
,802
25
25
N
x3
x2
**
Korrelation nach Pearson
Signifikanz (2-seitig)
N
,559
**
,818
**
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,939
25
25
-,016
1,000
,004
,000
,939
25
25
25
25
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
210 / 283
R-Output: Multikollinearität; Korrelationsmatrix
Methodenlehre II,
SoSe 2015
Holger Dette
Y
x1
x2
x3
1.00 0.71
0.38
0.56
x1 0.71 1.00
0.05
0.82
x2 0.38 0.05
1.00 -0.02
Y
x3 0.56 0.82 -0.02
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1.00
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
n = 25
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
P
Y
Y
x1
x2
x3
0.0000 0.0613 0.0037
x1 0.0000
0.8025 0.0000
x2 0.0613 0.8025
0.9388
x3 0.0037 0.0000 0.9388
211 / 283
2.32 Das Problem der Suppressionseffekte
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel: Betrachte in dem Beispiel 2.22 der
Arbeitsmarktmotivation” ein multiples lineares Regressionsmodell
”
mit 3 anderen Prädiktorvariablen
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Yi = b0 + b4 x4i + b5 x5i + b6 x6i + εi
i = 1, . . . , 25
(Y : Motivation, x4 : Hierarchie, x5 : Lohn, x6 : Arbeitsbedingungen)
I
Schätzungen für die Modellparameter
i
0
4
5
6
b̂i
25.08
0.88
-0.01
0.13
ŝbi
8.40
0.26
0.003
0.12
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
p-Wert
0.007
0.002
0.016
0.308
212 / 283
Korrelationsmatrix für die Variablen Motivation,
Hierarchie, Lohn und Arbeitsbedingungen
Motivation
Hierarchie
Lohn
Arbeitsbedingungen
Motivation
1
.42*
-.04
.35
Hierarchie
Lohn
1
.72**
.16
1
-.06
Arbeitsbedingungen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Beachte:
I
Zwischen der Prädiktorvariablen Lohn (x5 ) und der abhängigen
Variablen Motivation liegt keine signifikante Korrelation vor.
I
Dennoch bekommt diese Variable im multiplen
Regressionsmodell ein signifikantes Gewicht; d. h. die Hypothese
H0 : b5 = 0 wird zum Niveau 5% verworfen (p-Wert: 0.016).
I
Man spricht von einem Suppressionseffekt.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
213 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
I
Grund für diesen scheinbaren Widerspruch: Korrelationen sind
bivariate Maße für Zusammenhänge (zwischen zwei
Merkmalen). Das Modell der multiplen Regression untersucht
aber den Zusammenhang zwischen der Variablen Motivation und
dem (3-dimensionalen) Prädiktor (x4 , x5 , x6 ):
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Motivation ist stark mit der Variablen Hierarchie korreliert.
2.3 Multiple lineare
Regression
I
Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert.
2.4 Multikollinearität und
Suppressionseffekte
I
Prädiktorvariable Lohn wird in der multiplen linearen Regression
benötigt, um unerwünschte” Varianzanteile der Variablen
”
Hierarchie zu kompensieren.
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Bestimmtheitsmaße für verschiedene Modelle
R 2 = 0.664282 für Modell mit x4 , x5 , x6
R 2 = 0.509720 für Modell mit x4 , x6
214 / 283
SPSS Output: Suppressionseffekte; Schätzer im
Modell mit 4 Parametern
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
2.3 Multiple lineare
Regression
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
25,076
Standard
fehler
Standardisierte
Koeffizienten
95%-Konfidenzintervall für B
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
Beta
T
8,398
2,986
Signifikanz
Untergrenze
Obergrenze
,007
7,612
42,539
x4
,884
,257
,843
3,444
,350
1,419
x5
-,007
,003
-,632
-2,612
,016
-,013
-,001
x6
,125
,120
,179
1,045
,308
-,124
,375
,002
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
215 / 283
R-Output: Suppressionseffekte; Schätzer im
Modell mit 4 Parametern
Call :
lm ( formula = y ˜ x4 + x5 + x6 )
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Residuals :
Min
2.3 Multiple lineare
Regression
1 Q Median
-8.656 -2.823
1.351
3Q
Max
3.262
7.574
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 25.075612
8.397555
2.986
0.00704 **
x4
0.884461
0.256842
3.444
0.00244 **
x5
-0.007291
0.002792
-2.612
x6
0.125417
0.120023
1.045
---
0.01630 *
0.30793
216 / 283
SPSS Output: Suppressionseffekte; Schätzung
der Korrelationsmatrix
Korrelationen
Y
Korrelation nach Pearson
Y
x4
1,000
,419
Signifikanz (2-seitig)
N
x4
Korrelation nach Pearson
Signifikanz (2-seitig)
N
x5
Korrelation nach Pearson
Signifikanz (2-seitig)
,419
*
*
-,038
,354
,037
,856
,082
25
25
25
1,000
,037
25
-,038
,717
,717
,163
,000
,435
25
25
25
**
**
1,000
-,060
,000
25
25
25
25
Korrelation nach Pearson
,354
,163
-,060
1,000
Signifikanz (2-seitig)
,082
,435
,777
25
25
25
N
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
x6
,856
N
x6
25
x5
Methodenlehre II,
SoSe 2015
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,777
25
*. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
217 / 283
R-Output: Suppressionseffekte; Schätzung der
Korrelationsmatrix
Y
x4
x5
x6
Y
1.00 0.42 -0.04
0.35
x4
0.42 1.00
0.16
x5 -0.04 0.72
x6
0.72
1.00 -0.06
0.35 0.16 -0.06
1.00
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
n = 25
2.7 Partielle und
Semipartielle Korrelation
P
Y
Y
x4
x5
x6
0.0369 0.8562 0.0823
x4 0.0369
x5 0.8562 0.0000
0.0000 0.4352
0.7774
218 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
219 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
2.33 Merkmalselektionsverfahren
I
I
Ziel: Mit möglichst wenig Prädiktorvariablen eine gute
Vorhersage der abhängigen Variablen zu erzielen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Prinzip: Untersuche wie sich durch Weglassen einzelner
Variablen das Bestimmtheitsmaß R 2 verändert.
2.1 Korrelation
Typische Selektionsprozeduren:
2.4 Multikollinearität und
Suppressionseffekte
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.5 Variablenselektion
I
I
I
I
Rückwärtsverfahren
Vorwärtsverfahren
Schrittweise Verfahren
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte: Es handelt sich um explorative Verfahren, die
hauptsächlich der Modellbildung dienen (Interpretation
nicht einfach).
220 / 283
2.34 Das Rückwärtsverfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
I
I
Betrachte das vollständige Modell (mit allen Prädiktorvariablen)
und berechne das Bestimmtheitsmaß R 2 .
Entferne sukzessive diejenigen Variablen, die zu dem geringsten
Rückgang des Bestimmtheitsmaßes führen würden.
Das Verfahren wird abgebrochen, falls sich bei dem Entfernen
einer Variablen das Bestimmtheitsmaß signifikant” verkleinert.
”
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
221 / 283
Methodenlehre II,
SoSe 2015
2.35 Beispiel: Variablenselektion mit dem
Rückwärtsverfahren (vgl. Beispiel 2.22)
Schritt
1
2
Prädiktorvariablen
t-Wert
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Arbeitsbedingungen
Lernpotential
Vielfalt
Anspruch
2.38
3.13
.76
1.66
-.59
-.58
1.68
3.97
.92
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Lernpotential
Vielfalt
Anspruch
2.38
3.28
.79
1.66
-.57
1.66
4.04
.91
Ausgeschlossene Variablen
Holger Dette
R2
.929
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Arbeitsbedingungen
.928
222 / 283
Methodenlehre II,
SoSe 2015
Beispiel: Rückwärtsverfahren - Fortsetzung
Holger Dette
Schritt
3
Prädiktorvariablen
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lernpotential
Vielfalt
Anspruch
t-Wert
2.54
3.43
.88
2.11
1.59
4.17
1.35
Ausgeschlossene Variablen
Arbeitsbedingungen
Lohn
R2
.926
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
4
5
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
Anspruch
5.40
3.38
2.31
1.55
4.12
1.31
Arbeitsbedingungen
Lohn
Leistungsstreben
.923
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
5.18
3.16
2.84
3.31
5.04
Arbeitsbedingungen
Lohn
Leistungsstreben
Anspruch
.916
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
223 / 283
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation
b
Aufgenommene/Entfernte Variablen
Modell
1
2
3
4
5
Aufgenommene Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Entfernte
Variablen
Methode
2.3 Multiple lineare
Regression
x9, x5, x2, x3, x6, x8, x7, x4, …
.
Eingeben
.
x6
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
.
x5
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.6 Nichtlineare
Zusammenhänge
.
x3
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.7 Partielle und
Semipartielle Korrelation
.
x9
Rückwärts (Kriterium: Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
a. Alle gewünschten Variablen wurden aufgenommen.
b. Abhängige Variable: Y
224 / 283
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
R
R-Quadrat
Modell
1
,964
2
,963
3
,963
4
,961
5
,957
a
b
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
Änderung in F
df1
df2
Änderung in
Signifikanz von
F
2.3 Multiple lineare
Regression
,929
,887
1,891
,929
21,972
9
15
,000
2.4 Multikollinearität und
Suppressionseffekte
,928
,892
1,851
-,002
,332
1
15
,573
2.5 Variablenselektion
,926
,896
1,814
-,001
,327
1
16
,575
,923
,897
1,803
-,003
,783
1
17
,389
,916
,894
1,837
-,007
1,713
1
18
,207
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
225 / 283
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
Quadratsumme
Regression
Residuen
Gesamt
2
Regression
Residuen
Gesamt
3
Regression
9
78,590
53,651
15
3,577
760,960
24
8
88,265
54,840
16
3,427
760,960
24
7
100,714
17
3,292
Gesamt
760,960
24
Regression
702,422
6
117,070
58,538
18
3,252
Gesamt
760,960
24
Regression
696,852
5
139,370
64,108
19
3,374
760,960
24
Residuen
Gesamt
F
21,972
Signifikanz
,000
a
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
706,120
55,960
Residuen
5
707,309
705,000
Residuen
4
Mittel der
Quadrate
df
Methodenlehre II,
SoSe 2015
25,752
,000
b
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
30,596
c
2.5 Variablenselektion
d
2.7 Partielle und
Semipartielle Korrelation
,000
2.6 Nichtlineare
Zusammenhänge
35,999
,000
41,306
,000
e
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1
c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1
d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1
e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1
f. Abhängige Variable: Y
226 / 283
SPSS Output: Rückwärtsverfahren im Beispiel
der Arbeitsmotivation: Koeffizienten
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
B
(Konstante)
-3,842
x1
2
,193
Standardisierte
Koeffizienten
Beta
,081
95%-Konfidenzintervall für B
T
5,052
-,760
Signifikanz
Untergrenze
Obergrenze
,459
-14,609
6,926
,031
,020
,365
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
,337
2,381
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
2.4 Multikollinearität und
Suppressionseffekte
x7
,165
,098
,199
1,683
,113
-,044
,373
2.5 Variablenselektion
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
-4,737
4,706
-1,007
,329
-14,713
5,238
(Konstante)
x1
,326
2,376
x2
,157
,048
,239
3,285
,005
,056
,258
x3
,050
,187
,063
,096
,790
,441
-,084
,185
x4
,240
,144
,228
1,660
,116
-,066
,545
x5
,000
,001
-,073
-,572
,575
-,004
x7
,157
,095
,190
1,655
,117
-,044
,358
x8
,205
,051
,352
4,040
,001
,097
,312
x9
3
Standardfehler
Methodenlehre II,
SoSe 2015
(Konstante)
,079
,052
,057
-7,154
2,027
,193
,076
x1
x2
,159
,046
,121
,338
,244
,914
,030
,020
,353
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,002
,374
-,068
,172
-3,529
,003
-11,431
-2,877
2,540
,021
,033
,354
3,431
,003
,061
x3
,055
,062
,105
,885
,389
-,076
,185
x4
,172
,081
,164
2,113
,050
,000
,344
,258
a. Abhängige Variable: Y
227 / 283
2.36 Das Vorwärtsverfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
I
I
Bestimme diejenige Prädiktorvariable, die mit der abhängigen
Variablen am stärksten korreliert ist und berechne das
Bestimmtheitsmaß R 2 .
Ist R 2 signifikant, wird diese Variable in das Modell
aufgenommen.
Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die
zu dem größten Anstieg des Bestimmtheitsmaßes führen.
Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen
Variablen das Bestimmtheitsmaß R 2 nicht signifikant”
”
vergrößert.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
228 / 283
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation
a
Aufgenommene/Entfernte Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Modell
1
2
3
4
5
Aufgenommene
Variablen
Entfernte
Variablen
Methode
x1
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x9
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x2
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x8
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
x4
.
Vorwährts- (Kriterium: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050)
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: Y
229 / 283
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
Modell
1
R
,708
b
,863
3
,906
4
,944
,955
df1
df2
,501
,479
4,065
,501
23,059
1
23
,000
,744
,721
2,973
,244
20,980
1
22
,000
,820
,795
2,552
,076
8,876
1
21
,007
,891
,869
2,039
,070
12,879
1
20
,002
,913
,890
1,869
,022
4,810
1
19
,041
R-Quadrat
a
2
5
Änderung in F
Änderung in
Signifikanz
von F
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
230 / 283
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
2
3
4
Quadrat
summe
Mittel der
Quadrate
380,968
1
380,968
Residuen
379,992
23
16,521
Gesamt
760,960
24
566,456
2
283,228
Residuen
194,504
22
8,841
Gesamt
760,960
24
Regression
624,244
3
208,081
Residuen
136,716
21
6,510
Gesamt
760,960
24
Regression
677,797
4
169,449
4,158
83,163
20
Gesamt
760,960
24
Regression
694,596
5
138,919
66,364
19
3,493
760,960
24
Residuen
Gesamt
F
23,059
Signifikanz
,000
a
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Regression
Residuen
5
df
Regression
Methodenlehre II,
SoSe 2015
32,035
,000
b
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
31,962
c
2.5 Variablenselektion
d
2.7 Partielle und
Semipartielle Korrelation
,000
2.6 Nichtlineare
Zusammenhänge
40,751
,000
39,773
,000
e
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
231 / 283
SPSS Output: Vorwärtsverfahren im Beispiel der
Arbeitsmotivation: Koeffizienten
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
2
B
(Konstante)
2,406
,404
,084
(Konstante)
,063
2,642
x1
,320
,064
,221
,048
-2,101
2,380
x9
3
4
(Konstante)
Beta
95%-Konfidenzintervall für B
Signifikanz
Untergrenze
Obergrenze
3,778
,001
4,111
14,064
4,802
T
,000
,230
,579
,024
,981
-5,415
5,542
,560
4,983
,000
,187
,454
,515
4,580
,000
,121
,321
-,883
,387
-7,052
2,849
,708
x1
,319
,055
,558
5,776
,000
,204
,433
x9
,203
,042
,474
4,862
,000
,116
,290
x2
,183
,061
,279
2,979
,007
,055
,310
-6,502
2,263
-1,781
(Konstante)
-2,873
,009
-11,224
x1
,253
,048
,442
5,286
,000
,153
,352
x9
,150
,037
,350
4,101
,001
,074
,226
x2
,049
,293
,190
,053
,327
-6,833
,192
2,080
x8
5
Standardfehler
9,088
x1
Standardisierte
Koeffizienten
(Konstante)
x1
,271
,045
,474
3,908
,001
,089
,002
,080
,301
,004
-11,186
-2,479
,000
,178
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,294
3,589
-3,285
6,076
2. Korrelation, Lineare
Regression und
multiple Regression
,364
x9
,116
,037
,271
3,147
,005
,039
,193
x2
,177
,045
,271
3,903
,001
,082
,272
x8
,181
,049
,311
3,706
,001
,079
,283
x4
,181
,083
,173
2,193
,041
,008
,354
a. Abhängige Variable: Y
232 / 283
2.37 Das schrittweise Verfahren
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Rückwärts- und Vorwärtsverfahren werden kombiniert!
I
Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt
untersucht wird, ob bei Entfernen einer bereits aufgenommenen
Variable das Bestimmtheitsmaß signifikant abnehmen würde.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
233 / 283
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation
a
Aufgenommene/Entfernte Variablen
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modell
1
Aufgenommene
Variablen
Entfernte
Variablen
Methode
2.2 Lineare Regression
2.3 Multiple lineare
Regression
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.5 Variablenselektion
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x2
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
2.7 Partielle und
Semipartielle Korrelation
x8
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x4
.
Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit
von F-Wert für Aufnahme <= ,050, Wahrscheinlichkeit
von F-Wert für Ausschluß >= ,100).
x1
2
x9
3
4
5
2.4 Multikollinearität und
Suppressionseffekte
2.6 Nichtlineare
Zusammenhänge
a. Abhängige Variable: Y
234 / 283
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Modellzusammenfassung
2.2 Lineare Regression
Änderungsstatistiken
Modell
1
R
,708
R-Quadrat
a
b
2
,863
3
,906
4
,944
5
,955
c
d
e
Korrigiertes
R-Quadrat
Standardfehler
des Schätzers
Änderung in
R-Quadrat
Änderung
in F
Änderung in
Signifikanz
von F
df1
df2
,501
,479
4,065
,501
23,059
1
23
,000
,744
,721
2,973
,244
20,980
1
22
,000
,820
,795
2,552
,076
8,876
1
21
,007
,891
,869
2,039
,070
12,879
1
20
,002
,913
,890
1,869
,022
4,810
1
19
,041
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
235 / 283
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation: ANOVA
f
ANOVA
Modell
1
2
3
4
Quadratsumme
Mittel der
Quadrate
380,968
1
380,968
Residuen
379,992
23
16,521
Gesamt
760,960
24
Regression
566,456
2
283,228
Residuen
194,504
22
8,841
Gesamt
760,960
24
Regression
624,244
3
208,081
Residuen
136,716
21
6,510
Gesamt
760,960
24
Regression
677,797
4
169,449
83,163
20
4,158
Gesamt
760,960
24
Regression
694,596
5
138,919
66,364
19
3,493
760,960
24
Residuen
5
df
Regression
Residuen
Gesamt
F
23,059
Signifikanz
,000
a
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
b
32,035
,000
31,962
,000
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
c
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
40,751
,000
39,773
,000
d
2.7 Partielle und
Semipartielle Korrelation
e
a. Einflußvariablen : (Konstante), x1
b. Einflußvariablen : (Konstante), x1, x9
c. Einflußvariablen : (Konstante), x1, x9, x2
d. Einflußvariablen : (Konstante), x1, x9, x2, x8
e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4
f. Abhängige Variable: Y
236 / 283
SPSS Output: Das schrittweise Verfahren im
Beispiel der Arbeitsmotivation: Koeffizienten
a
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
2
B
(Konstante)
2,406
,404
,084
(Konstante)
,063
2,642
x1
,320
,064
5
Beta
95%-Konfidenzintervall für B
Signifikanz
Untergrenze
Obergrenze
3,778
,001
4,111
14,064
4,802
T
,000
,230
,579
,024
,981
-5,415
5,542
,560
4,983
,000
,187
,454
,515
4,580
,000
,121
,321
-,883
,387
-7,052
2,849
,708
,221
,048
-2,101
2,380
x1
,319
,055
,558
5,776
,000
,204
,433
x9
,203
,042
,474
4,862
,000
,116
,290
,279
(Konstante)
x2
4
Standardfehler
9,088
x1
x9
3
Standardisierte
Koeffizienten
,183
,061
-6,502
2,263
x1
,253
,048
x9
,150
,037
x2
,192
,049
x8
,190
,053
-6,833
2,080
x1
,271
,045
x9
,116
x2
,177
x8
x4
(Konstante)
(Konstante)
2,979
,007
,055
,310
-2,873
,009
-11,224
-1,781
,442
5,286
,000
,153
,352
,350
4,101
,001
,074
,226
,293
3,908
,001
,089
,327
3,589
,002
,080
,301
-3,285
,004
-11,186
-2,479
,474
6,076
,000
,178
,364
,037
,271
3,147
,005
,039
,193
,045
,271
3,903
,001
,082
,272
,181
,049
,311
3,706
,001
,079
,283
,181
,083
,173
2,193
,041
,008
,354
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,294
a. Abhängige Variable: Y
237 / 283
2.38 Bemerkung zu den verschiedenen
Merkmalselektionsverfahren
I
Beachte: Verschiedene Verfahren liefern verschiedene
Ergebnisse (es gibt kein richtig oder falsch!)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
I
Beispiel (Arbeitsmotivation)
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Rückwärtsverfahren
Ehrgeiz
Kreativität
Hierarchie
Lernpotential
Vielfalt
R 2 = .916
Vorwärtsverfahren
Ehrgeiz
Kreativität
Hierarchie
Anspruch
Vielfalt
R 2 = .913
Schrittweises Verfahren
Ehrgeiz
Kreativität
Hierarchie
Anspruch
Vielfalt
R 2 = .913
2.7 Partielle und
Semipartielle Korrelation
238 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.6 Nichtlineare Zusammenhänge
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
239 / 283
Nichtlineare Zusammenhänge
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Die (multiplen) linearen Regressionsmodelle beruhen auf der
Annahme, dass der Zusammenhang zwischen jeder
Prädiktorvariable und der abhängigen Variablen linear ist, d. h.
durch eine Gerade beschrieben werden kann.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
I
Diese Annahme muss nicht immer erfüllt sein. Zusammenhänge
zwischen Variablen können im Grunde beliebige Form haben.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Man spricht in diesen Fällen von nichtlinearen
Zusammenhängen
240 / 283
Methodenlehre II,
SoSe 2015
2.39 Beispiel: Gedächtnistest
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Mehrere Personen machen einen Gedächtnistest
2.1 Korrelation
I
30 Ortsnamen (aus Mongolei) werden vorgegeben
2.3 Multiple lineare
Regression
I
y (x ): Anzahl der Ortsnamen, die nach x Tagen noch im
Gedächtnis geblieben sind (Mittelwerte)
I
2.2 Lineare Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
x
y (x )
1
24.9
2
19.7
3
17.0
4
13.2
5
11.0
6
8.5
7
7.9
8
5.8
9
5.5
10
5.0
241 / 283
Das Streudiagramm für die Daten aus Beispiel
2.39 (Gedächtnistest)
30,0
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Anzahl der Ortsnamen
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
20,0
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10,0
,0
0
2
4
6
8
10
Tage
242 / 283
Das Streudiagramm für die Daten aus Beispiel
2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
15
2.6 Nichtlineare
Zusammenhänge
10
2.7 Partielle und
Semipartielle Korrelation
5
Anzahl der Ortsnamen
2.1 Korrelation
2
4
6
8
10
Tage
243 / 283
Lineare Regression für die Daten aus Beispiel
2.39 (Gedächtnistest)
30,0
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Anzahl der Ortsnamen
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
10,0
,0
0
2
4
6
8
10
Tage
Die Gleichung der geschätzten Geraden:
y = 10.579 − 0.429x
244 / 283
Lineare Regression für die Daten aus Beispiel
2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
15
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0 5
Anzahl der Ortsnamen
2. Korrelation, Lineare
Regression und
multiple Regression
2.7 Partielle und
Semipartielle Korrelation
2
4
6
8
10
Tage
Die Gleichung der geschätzten Geraden:
y = 10.579 − 0.429x
245 / 283
Residuenanalyse bei linearer Regression für die
Daten aus Beispiel 2.39 (Gedächtnistest)
2,00000
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Standardized Residual
2.2 Lineare Regression
2.3 Multiple lineare
Regression
1,00000
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
,00000
-1,00000
-1,50000
-1,00000
-,50000
,00000
,50000
1,00000
1,50000
Standardized Predicted Value
246 / 283
Residuenanalyse bei linearer Regression für die
Daten aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1
10
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
−1
2.7 Partielle und
Semipartielle Korrelation
6
−3
Residuals
3
Residuals vs Fitted
5
10
15
20
Fitted values
lm(y ~ x)
247 / 283
QQ - Plot bei linearer Regression für die Daten
aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Q-Q-Diagramm von Normal von Standardized Residual
1,5
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Erwarteter Wert von Normal
1,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
0,5
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0,0
-0,5
-1,0
-1,5
-2
-1
0
1
2
Beobachteter Wert
248 / 283
QQ - Plot bei linearer Regression für die Daten
aus Beispiel 2.39 (Gedächtnistest)
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.0
2.2 Lineare Regression
1
10
2.3 Multiple lineare
Regression
1.0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
−1.0 0.0
Standardized residuals
Normal Q−Q
2.7 Partielle und
Semipartielle Korrelation
2.6 Nichtlineare
Zusammenhänge
6
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
lm(y ~ x)
249 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
Beachte:
I
Ein lineares Regressionsmodell ist für die Beschreibung des
Zusammenhangs ungeeignet!
I
Quadratisches Regressionsmodell
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Yi = b0 + b1 xi + b2 xi2 + εi
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
I
Schätzung der Parameter mit der Methode der kleinsten
Quadrate und die entsprechenden Standardfehler
b̂0 =
ŝb0 =
29.088
0.558
b̂1 = −4.876
ŝb1 =
0.233
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
b̂2 = 0.249
ŝb2 = 0.021
250 / 283
Methodenlehre II,
SoSe 2015
Konfidenzbereiche und Tests
Holger Dette
I
Man geht wie in 2.12 und 2.14 bzw. 2.29 vor.
I
90% Konfidenzintervall für b2 (man beachte: das Modell hat 3
Parameter)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
t10−3,0.95 = 1.8946
b̂2 = 0.249
ŝb2 = 0.021
⇒ [b̂2 − t7,0.95 ŝb2 , b̂2 + t7,0.95 ŝb2 ] = [0.2092, 0.2888]
ist 90% Konfidenzintervall für b2 .
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Die Hypothese H0 : b2 = 0 wird (zum Niveau 10%) verworfen,
falls
b̂ 2
> t10−3,0.95
ŝb2
I
Beachte: 10 − 3 Freiheitsgrade, da 10 Daten und 3 Parameter
in der Parabelgleichung
gilt (im Beispiel wird also H0 abgelehnt).
251 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output: Schätzer für quadratische
Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Koeffizienten
Nicht standardisierte
Koeffizienten
B
Tage
Tage ** 2
(Konstante)
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Standardfehler
Beta
2.5 Variablenselektion
t
Sig.
-4,876
,233
-2,183
-20,927
,000
,249
,021
1,257
12,055
,000
29,088
,558
52,136
,000
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
252 / 283
R-Output: Schätzer für quadratische Regression
Methodenlehre II,
SoSe 2015
Holger Dette
Call :
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
lm ( formula = y ˜ x + x2 )
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals :
2.1 Korrelation
Min
1Q
Median
3Q
Max
-0.63121 -0.27023 -0.06689
0.26064
0.75136
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Coefficients :
2.7 Partielle und
Semipartielle Korrelation
Estimate Std . Error t value Pr ( >| t |)
( Intercept ) 29.08833
0.55793
52.14 2.50 e -10 ***
x
-4.87629
0.23302
-20.93 1.43 e -07 ***
0.24886
0.02064
12.05 6.17 e -06 ***
x2
---
Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
253 / 283
Streudiagramm für die Daten aus Beispiel 2.39
mit der geschätzten Parabel
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Anzahl der Ortsnamen
Beobachtet
Quadratisch
30,0
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
20,0
2.7 Partielle und
Semipartielle Korrelation
10,0
0,0
0
2
4
6
8
10
Tage
254 / 283
Streudiagramm für die Daten aus Beispiel 2.39
mit der geschätzten Parabel
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
15
2.6 Nichtlineare
Zusammenhänge
10
2.7 Partielle und
Semipartielle Korrelation
5
Anzahl der Ortsnamen
2.1 Korrelation
2
4
6
8
10
Tage
255 / 283
SPSS-Output: Residuenanalyse für die Daten aus
Beispiel 2.39 bei quadratischer Regression
2,00000
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Standardized Residual
1,00000
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
,00000
2.7 Partielle und
Semipartielle Korrelation
-1,00000
-2,00000
-1,00000
-,50000
,00000
,50000
1,00000
1,50000
2,00000
Standardized Predicted Value
256 / 283
R-Output: Residuenanalyse für die Daten aus
Beispiel 2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Residuals vs Fitted
2.2 Lineare Regression
2.3 Multiple lineare
Regression
0.5
2.4 Multikollinearität und
Suppressionseffekte
1
2.5 Variablenselektion
0.0
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
−0.5
Residuals
7
2
5
10
15
20
25
Fitted values
lm(y ~ x + x2)
257 / 283
Methodenlehre II,
SoSe 2015
SPSS-Output: QQ-Plot für die Daten aus
Beispiel 2.39 bei quadratischer Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Q-Q-Diagramm von Normal von Standardized Residual
1,5
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Erwarteter Wert von Normal
1,0
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
0,5
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0,0
-0,5
-1,0
-1,5
-2
-1
0
1
2
Beobachteter Wert
258 / 283
R-Output: QQ-Plot für die Daten aus Beispiel
2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
2.0
Normal Q−Q
2.2 Lineare Regression
7
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
1.0
1
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
0.0
−1.5
Standardized residuals
2. Korrelation, Lineare
Regression und
multiple Regression
2.7 Partielle und
Semipartielle Korrelation
2
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
lm(y ~ x + x2)
259 / 283
SPSS-Output: Histogramm für die Residuen aus
Beispiel 2.39 bei quadratischer Regression
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Histogramm
2.1 Korrelation
2.2 Lineare Regression
Abhängige Variable: Anzahl der Ortsnamen
Mittelwert = 3,96E-16
Std.-Abw. = 0,882
N =10
2,5
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2,0
Häufigkeit
2.3 Multiple lineare
Regression
2.7 Partielle und
Semipartielle Korrelation
1,5
1,0
0,5
0,0
-2
-1
0
1
2
Regression Standardisiertes Residuum
260 / 283
2.40 Polynomiale Regressionsmodelle
Methodenlehre II,
SoSe 2015
Holger Dette
Modelle zur polynomialen Regression
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Ordnung
0.
1.
2.
..
.
k.
Modell
Y = b0 + ε
Y = b0 + b1 x 1 + ε
Y = b0 + b1 x 1 + b2 x 2 + ε
..
.
Y = b0 + b1 x 1 + b2 x 2 + . . . + bk x k + ε
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Beachte:
I
In der Regel werden nur Modelle von niedrigem Grad
verwendet (k ≤ 3)!
I
Schätzung der Parameter erfolgt mit der Methode der
kleinsten Quadrate.
I
Konfidenzintervalle, Tests und Residuenanalyse werden wie
bei der linearen bzw. multiplen Regression durchgeführt
(Allgemeines lineares Modell)
261 / 283
Methodenlehre II,
SoSe 2015
2.41 Mehrdimensionale Polynome
Holger Dette
I
Sind mehrere Prädiktorvariablen verfügbar, so können neben
Potenzen auch Produkte von zwei oder mehr Variablen in die
Regressionsgleichung aufgenommen werden.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Beispiele:
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 + ε
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
Y (x) = b0 + b1 x1 + b2 x2 + b12 x1 x2 +
b02 x12
+
b20 x22
+ε
2.7 Partielle und
Semipartielle Korrelation
Y (x) = b0 + b1 x1 + b2 x2 + b3 x3 + b120 x1 x2 + b103 x1 x3
+ b023 x2 x3 + b123 x1 x2 x3 + ε
262 / 283
3D-Streudiagramm mit der geschätzten Funktion
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
100
80
2.1 Korrelation
60
2.2 Lineare Regression
Y
40
2.3 Multiple lineare
Regression
20
2.4 Multikollinearität und
Suppressionseffekte
0
−20
2.5 Variablenselektion
−40
2.6 Nichtlineare
Zusammenhänge
−60
6
4
4
2
2
0
0
−2
−2
X2
2.7 Partielle und
Semipartielle Korrelation
−4
−4
−6
X1
Die geschätzte Funktion ist:
yb(x) = 2.23 + 3.52x1 + 5.77x2 + 3.96x1 x2 .
263 / 283
3D-Streudiagramm mit der geschätzten Funktion
Polynomiale Terme und Produkte der Prädiktoren können natürlich
auch gemeinsam vorkommen.
Beispiel:
y (x) = b0 + b11 x1 + b12 x12 + b21 x2 + b23 x23 + b11;21 x1 x2 + ε.
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
100
2.6 Nichtlineare
Zusammenhänge
80
60
2.7 Partielle und
Semipartielle Korrelation
Y
40
20
0
−20
−40
−60
6
4
4
2
2
0
0
−2
−2
X2
−4
−4
−6
X1
Die angepasste Funktion hat die Form
yb(x) = 1 + 2.15x1 + 6.59x12 + 1.66x2 + 3.07x23 + 3.76x1 x2
264 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.7 Partielle und Semipartielle Korrelation
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
265 / 283
2.42 Beispiel: Entwicklungspsychologie
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Im Rahmen einer Studie in der Entwicklungspsychologie soll der
Zusammenhang zwischen
I
I
Abstraktionsfähigkeit (x ) und
sensomotorischer Koordination (y )
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
untersucht werden.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
I
Zusätzlich wird das Alter der Kinder erhoben (z)
I
Insgesamt werden 15 Kinder im Alter von 6 - 10 Jahren
untersucht.
266 / 283
Methodenlehre II,
SoSe 2015
Daten
Holger Dette
Kind
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Abstraktionsfähigkeit (x )
9
11
13
13
14
9
10
11
10
8
13
7
9
13
14
sensomotor.
Koord. (y )
8
12
14
13
14
8
9
12
8
9
14
7
10
12
12
Alter
(z)
6
8
9
9
10
7
8
9
8
7
10
6
10
10
9
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
267 / 283
Methodenlehre II,
SoSe 2015
Auswertung:
Holger Dette
I
Für den Korrelationskoeffizient von Pearson (vgl. 2.2) erhält
man für die Korrelation der Variablen x (Abstraktionsfähigkeit)
und y (sensomotorische Koordination)
rx ,y = 0.89
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
I
Obwohl der Korrelationskoeffizient sehr hoch ist, ist es in vielen
Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen
Einfluss der dritten Variablen” (Alter) zurückführbar ist.
”
In einem solchen Fall spricht man von einer
Scheinkorrelation”. D. h. rx ,y ist zwar im mathematischen
”
Sinn eine Korrelation, aber der gefundene Zusammenhang
zwischen Abstraktionsfähigkeit und sensomotorischer
Koordination ist (teilweise) durch eine dritte Variable erklärbar
und kann nicht als kausal interpretiert werden.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Ziel: Berechnung einer Korrelation, die von dem Einfluss der
dritten Variablen Alter bereinigt” ist. =⇒ Partialkorrelation.
”
268 / 283
Methodenlehre II,
SoSe 2015
2.43 Partialkorrelation
Holger Dette
I
Modell: Daten (xi , yi , zi )i=1, ... ,n . Im Beispiel ist xi die
Abstraktionsfähigkeit, yi die sensomotorische Koordination und
zi das Alter des i-ten Kindes
I
Gesucht: Ein um den Einfluss der Variablen z bereinigtes”
”
Abhängigkeitsmaß zwischen den Variablen x und y
I
Methode:
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Berechne die (lineare) Regressionsgerade für die Daten
(x1 , z1 ), . . . , (xn , zn ):
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
x = â0 + â1 z
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
(vgl. 2.11) und die Residuen
xi∗ = xi − (â0 + â1 zi )
I
i = 1, . . . , n
Berechne die (lineare) Regressionsgerade für die Daten
(y1 , z1 ), . . . , (yn , zn ):
y = b̂0 + b̂1 z
(vgl. 2.11) und die Residuen
yi∗ = yi − (b̂0 + b̂1 zi )
i = 1, . . . , n
269 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
I
Bestimme die Korrelation zwischen den Residuen
(x1∗ , y1∗ ), . . . , (xn∗ , yn∗ )
Pn
(x ∗ − x ∗· )(yi∗ − y ∗· )
∗
∗
rx ,y ·z = rx ,y = qP i=1 i
Pn
n
∗ 2
∗ 2
∗
∗
i=1 (xi − x · )
i=1 (yi − y · )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
I
Die Größe
2.5 Variablenselektion
rx ,y ·z
I
heißt Partialkorrelation zwischen x und y , aus der das
Merkmal z herauspartialisiert” wurde.
”
Die Partialkorrelation ist also eine bivariate Korrelation zwischen
Regressionsresiduen.
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
270 / 283
Methodenlehre II,
SoSe 2015
2.44 Bemerkung
Holger Dette
I
Man kann zeigen, dass gilt:
rx ,y − rx ,z ry ,z
rx ,y ·z = q
(1 − rx2,z )(1 − ry2,z )
(1)
Dabei ist
I
I
I
I
I
rx ,y der Korrelationskoeffizient zwischen den Variablen x und y
rx ,z der Korrelationskoeffizient zwischen den Variablen x und z
ry ,z der Korrelationskoeffizient zwischen den Variablen y und z
Die Partialkorrelation ist ein Maß für den linearen
Zusammenhang von zwei Variablen x und y , aus dem der lineare
Einfluss einer dritten Variablen z eliminiert wurde.
Genauer: Die Partialkorrelation bemisst, inwieweit man aus den
Vorhersagefehlern bei der linearen Prognose von x durch z die
Vorhersagefehler bei der linearen Prognose von y durch z linear
vorhersagen kann - und umgekehrt.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Gibt es mehr als drei Variablen, so können Partialkorrelationen
höherer Ordnung gebildet werden, indem die Residuen xi∗ , yi∗
mit Hilfe des multiplen linearen Regressionsmodells (vgl.
Methodenlehre II, 2.23) bestimmt werden.
271 / 283
Beispiel (Fortsetzung von Beispiel 2.42)
Methodenlehre II,
SoSe 2015
Holger Dette
I
Lineare Regression von x bzgl. z
x = 1.246z + 0.464
I
2. Korrelation, Lineare
Regression und
multiple Regression
Lineare Regression von y bzgl. z
y = 1.420z − 1.13
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Regressionsresiduen
2.4 Multikollinearität und
Suppressionseffekte
∗
x
1,06
0,57
1,32
1,32
1,07
-0,19
-0,43
-0,68
-0,43
-1,19
0,07
-0,94
-3,92
0,07
2,32
∗
y
0,61
1,77
2,35
1,35
0,93
-0,81
-1,23
0,35
-2,23
0,19
0,93
-0,39
-3,07
-1,07
0,35
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
272 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
I
rx ,y ·z = 0.72
I
Die Korrelation zwischen Abstraktionsfähigkeit und
sensomotorischen Koordinationsleistungen der Kinder ist somit
von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der
Kinder zurückzuführen
I
Beachte: Mit den Werten
I
I
I
rx ,y = 0.89
rx ,z = 0.77
ry ,z = 0.80
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
kann man die Partialkorrelation rx ,y ·z auch mit Hilfe der Formel
(1) berechnen.
273 / 283
Signifikanztest für partielle Korrelationen
Methodenlehre II,
SoSe 2015
Holger Dette
Ein Test zum Niveau α für die Hypothese die Merkmale X und Y
”
unter Z sind unkorreliert”
H0 : ρx ,y .z = 0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρx ,y .z 6= 0
ab, falls
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
√
n − 3rx ,y .z > tn−3,1− α
q
2
1 − rx2,y .z gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante
Korrelation zwischen zwei Merkmalen (vgl. 2.5)
274 / 283
Methodenlehre II,
SoSe 2015
Partielle Korrelationen in SPSS
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Korrelationen
2.1 Korrelation
2.2 Lineare Regression
Kontrollvariablen
Alter
Abstraktionsfähigkeit
Korrelation
Abstraktions
fähigkeit
1,000
Signifikanz (zweiseitig)
.
,004
0
12
Korrelation
,722
1,000
Signifikanz (zweiseitig)
,004
Freiheitsgrade
sensomotorische
Koordination
sensomotorische
Koordination
,722
Freiheitsgrade
12
.
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
0
275 / 283
Methodenlehre II,
SoSe 2015
Partielle Korrelationen in R
Holger Dette
$estimate
x
y
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
z
x 1.0000000 0.7220272 0.1882497
2. Korrelation, Lineare
Regression und
multiple Regression
y 0.7220272 1.0000000 0.4095360
2.1 Korrelation
2.2 Lineare Regression
z 0.1882497 0.4095360 1.0000000
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
$p . value
2.6 Nichtlineare
Zusammenhänge
x
y
z
2.7 Partielle und
Semipartielle Korrelation
x 0.0000000000 0.0003002053 0.5066983
y 0.0003002053 0.0000000000 0.1199311
z 0.5066982702 0.1199311224 0.0000000
$statistic
x
y
z
x 0.0000000 3.615123 0.6639876
276 / 283
2.45 Semipartialkorrelationen
Methodenlehre II,
SoSe 2015
Holger Dette
I
Wird die dritte Variable z nur aus einer Variablen (z.B. x )
herauspartialisiert, so spricht man von einer
Semipartialkorrelation.
I
Man berechnet die (lineare) Regressionsgerade für die Daten
(x1 , z1 ), . . . , (xn , zn ):
x = â0 + â1 z
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
und betrachtet die Vorhersagefehler
xi∗ = xi − â0 − â1 zi
I
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Dann bestimmt man die Korrelation zwischen
(x1∗ , y1 ), . . . , (xn∗ , yn ):
Pn
(x ∗ − x ∗· )(yi − y · )
ry (x ·z) = rx ∗ ,y = qP i=1 i
Pn
n
∗ 2
∗
2
i=1 (xi − x · )
i=1 (yi − y · )
277 / 283
Methodenlehre II,
SoSe 2015
Alternative Darstellung für die
Semipartialkorrelationen
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Man kann zeigen dass gilt:
ry (x ·z) =
rx ,y − rx ,z ry ,z
q
1 − rx2,z
(2)
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Dabei ist
I
I
I
I
rx ,y der Korrelationskoeffizient zwischen den Variablen x und y
rx ,z der Korrelationskoeffizient zwischen den Variablen x und z
ry ,z der Korrelationskoeffizient zwischen den Variablen y und z
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Bemerkung:
I
I
I
Die Semipartialkorrelation bemisst, inwieweit man aus den
Vorhersagefehlern bei der linearen Prognose von x durch z die
Werte von y linear vorhersagen kann.
Die quadrierte Semipartialkorrelation ist der Anteil der Varianz
von y , der durch die Variable x zusätzlich zu der Variablen z
erklärt werden kann.
Die Semipartialkorrelation ist immer kleiner als die
Partialkorrelation.
278 / 283
Berechnung der Semipartialkorrelationen in
Beispiel 2.42
I
Lineare Regression von x bzgl. z
x = 1.246z + 0.464
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Regressionsresiduen und Beobachtungen
x∗
1,06
0,57
1,32
1,32
1,07
-0,19
-0,43
-0,68
-0,43
-1,19
0,07
-0,94
-3,92
0,07
2,32
y
8
12
14
13
14
8
9
12
8
9
14
7
10
12
12
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
279 / 283
Methodenlehre II,
SoSe 2015
Holger Dette
I
ry (x ·z) = 0.43
I
Die Korrelation zwischen Abstraktionsfähigkeit und
sensomotorischen Koordinationsleistungen der Kinder ist somit
von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der
Kinder zurückzuführen.
I
Beachte: Mit den Werten
I
I
I
rx ,y = 0.89
rx ,z = 0.77
ry ,z = 0.80
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
kann man die Semipartialkorrelation ry (x ·z) auch mit Hilfe der
Formel (2) berechnen.
280 / 283
Methodenlehre II,
SoSe 2015
Semipartialkorrelationen in SPSS
Holger Dette
I
I
Die Semipartialkorrelationen (in SPSS heißen diese
Teil-Korrelationen) werden (auf Wunsch) als Ergänzung zu den
Kleinsten Quadrate-Schätzungen im multiplen linearen
Regressionsmodell (vgl. 2.23) ausgegeben.
Signifikanztest für die Semipartialkorrelationen fehlen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
2.3 Multiple lineare
Regression
Koeffizienten
Nicht standardisierte
Koeffizienten
Modell
1
Regressions
koeffizientB
-1,469
Standardfehler
1,795
Alter
,510
,328
Abstraktionsfähigkeit
,730
,202
(Konstante)
2.4 Multikollinearität und
Suppressionseffekte
Standardisierte
Koeffizienten
Beta
2.5 Variablenselektion
T
-,818
Sig.
,429
,289
1,555
,146
,671
3,615
,004
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
a. Abhängige Variable: sensomotorische Koordination
a
Koeffizienten
Korrelationen
Modell
1
Alter
Abstraktionsfähigkeit
Nullter
Ordnung
,803
Partiell
,410
Teil
,185
,892
,722
,431
a. Abhängige Variable: sensomotorische Koordination
281 / 283
Methodenlehre II,
SoSe 2015
Semipartialkorrelationen in R
Holger Dette
Call :
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
lm ( formula = y ˜ x + z )
2. Korrelation, Lineare
Regression und
multiple Regression
Residuals :
2.1 Korrelation
2.2 Lineare Regression
Min
1Q
Median
3Q
Max
-1.9145 -0.7943
0.1447
0.8599
1.3851
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
Coefficients :
Estimate Std . Error t value Pr ( >| t |)
( Intercept )
-1.4690
1.7955
-0.818
0.42922
x
0.7300
0.2019
3.615
0.00355 **
z
0.5104
0.3282
1.555
0.14590
--Signif . codes :
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
282 / 283
Bemerkung:
Methodenlehre II,
SoSe 2015
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Ob ein Partial- oder Semipartialkorrelationskoeffizient zur
Beschreibung eines Zusammenhangs gewählt wird, hängt von
theoretischen Überlegungen ab:
I
I
Beeinflusst eine dritte Variable (z) ursächlich” beide Variablen
”
x und y
Partialkorrelation
Wird der Zusammenhang zwischen den Variablen x und y durch
die dritte Variable z vermittelt” (z ist mit y korreliert und
”
beeinflusst x )
Semipartialkorrelation
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.4 Multikollinearität und
Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare
Zusammenhänge
2.7 Partielle und
Semipartielle Korrelation
283 / 283

Zugehörige Unterlagen

Beispiel: Einstiegsgehalt und Gehalt nach 10 Jahren

Handout: Lineare Regression

Methodenlehre II, SoSe 2015 - Ruhr

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können