Methodenlehre II, SoSe 2014 - Ruhr

Werbung
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Methodenlehre II,
SoSe 2014
2. Korrelation, Lineare
Regression und
multiple Regression
Holger Dette
Ruhr-Universität Bochum
9. Mai 2014
1 / 153
Methodenlehre II
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Prof. Dr. Holger Dette
I
NA 3/73
I
Telefon: 0234 322 8284
I
Email: [email protected]
I
Internet: http://www.ruhr-uni-bochum.de/mathematik3/
2. Korrelation, Lineare
Regression und
multiple Regression
http://www.ruhr-uni-bochum.de/mathematik3/dette.html
I
Vorlesung:Montag, 8.30–10.00 Uhr, HGA 10
I
Thema: Das allgemeine lineare Modell und seine Anwendungen
in der Psychologie
2 / 153
Statistik-Team
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
Übung: Dienstag, 12.15–13.15 Uhr, HZ0 70
Ria Van Hecke; [email protected]
Tutorium: SPSS
I
I
I
I
I
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Maxi Gödel::
Fr 10:00-12:00 in GAFO 04/271
Stefan Elsken:
Mo 12:00-14:00 im Medienraum
Stefan Elsken:
Do 14:00-16:00 im Medienraum
Phillip Ozimek:
Fr 12:00-14:00 in GAFO 02/364
Alexander Quent:
Mi 16:00-18:00 im Medienraum
Fabienne Reher:
Di 10:00-12:00 im Medienraum
3 / 153
E-Learning
Methodenlehre II,
SoSe 2014
Holger Dette
Zur Unterstützung von Vorlesung und Übung gibt es einen
Blackboardkurs:
I
Kurs-ID: 112131-ss14
I
Kursbezeichnung: Vorlesung (Statistische) Methodenlehre II“
”
Passwort: mlehre2.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Dort gibt es:
I
Folien zu Vorlesung und Übung,
I
Übungsaufgaben und Tests, mit denen Bonuspunkte für die
Klausur erzielt werden können,
I
Diskussionsforen und
I
(zum Semesterende) eine Probeklausur.
4 / 153
Das allgemeine lineare Modell:
Ein mathematisches Modell - viele statistische
”
Verfahren“
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Inhaltsverzeichnis
1. Grundlegende Prinzipien der schließenden Statistik am Beispiel
des t-Tests
2. Das lineare Regressionsmodell, multiple Regression und
Korrelation
3. Das allgemeine“ lineare Modell
”
5 / 153
Literatur
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,
5th Edition, Pearson Prentice Hall
J. Bortz, Statistik, 6. Auflage, Springer
M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe
P. Zöfel, Statistik für Psychologen, Pearson Studium
6 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende Prinzipien der schließenden
Statistik am Beispiel des t-Tests
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
1.2 t-Test für eine Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
7 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
8 / 153
keitsverteilungen und all dem drum herum beschäftigt. Meistens waren dabei
die Parameter der Verteilungen bekannt und man konnte unmittelbar loslegen; alles ja mehr oder weniger kein Problem. Aber ohne Euch enttäuschen zu
wollen, müssen wir leider mitteilen, dass bei praktischen Anwendungen die
Parameter der Wahrscheinlichkeitsverteilungen jedoch eher selten bekannt
sind. In solch einer Situation kann man mit der beurteilenden Statistik
- aufbauend auf der beschreibenden Statistik und der Wahrscheinlichkeits-
Beurteilende Statistik
"
U8ER.
PliS LJoUfl.J
WiR. WAS /.JiSSHJ:
(JI.!!) Wil<. HI/BEI.!
lJin ,zOM
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
iT,
f:rJf()lIlTIOIJ
'KüoCSCHwsr
fi{,E#./SCI(I/ PT!/..) J)ff(
GROM l>6lJ Af,rTHEi" i.X)'-
1
<1
G.iGEA/S(j{ltfrEN J)'(
X
gemeinsam mit Herrn Dr. Romberg.
(Oestreich & Romberg, 2012)
9 / 153
1.1 Beispiel: Intelligenzquotient
Methodenlehre II,
SoSe 2014
Holger Dette
Fragestellung: Haben (15-jährige) Kinder aus Bochum einen
höheren Intelligenzquotienten als 100?
I
10 Kinder (zufällig ausgewählt) machen einen IQ-Test
Daten: y1 , . . . , y10 Stichprobe
i
yi
i
yi
I
1
104
6
107
2
98
7
100
3
106
8
97
4
99
9
108
5
110
10
112
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Hypothese (IQ der Kinder ist niedriger als 100):
H0 : µ ≤ 100
Alternative (IQ ist höher als 100):
H1 : µ > 100
Dabei ist µ der (unbekannte) Erwartungswert der
Gesamtpopulation der (15-jährigen) Kinder aus Bochum
10 / 153
Prinzip der schließenden Statistik
Methodenlehre II,
SoSe 2014
Holger Dette
Auf Grund der Stichprobe y1 , . . . , y10 sollen Aussagen über das
Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
1.2 t-Test für eine
Stichprobe
Wie groß ist µ (Schätzung)?
1.3 Zweistichprobenprobleme
I
I
Kann man ein Intervall bestimmen, in dem µ liegt
(Konfidenzintervall)?
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Gilt
H0 : µ ≤ 100
(IQ ist nicht höher)
H1 : µ > 100
(IQ ist höher)?
oder gilt
(statistischer Test)
11 / 153
Grundlegende Schwierigkeit:
Methodenlehre II,
SoSe 2014
Holger Dette
I
µ ist der Erwartungswert der Population der 15-jährigen Kinder
I
Auf Basis der Stichprobe soll auf die Grundgesamtheit
geschlossen werden
−→ Fehler, Unsicherheiten sind möglich!
I
Beispiel: zufällig“ wählen wir 5 hochbegabte Kinder (IQ ≥ 130)
”
für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt!
I
Ziel der schließenden Statistik:
Quantifizierung der Unsicherheit, z. B.
mit welcher Wahrscheinlichkeit macht ein statistischer Test
einen Fehler, falls (aufgrund von Daten) für H1 (IQ ist höher als
100) entschieden wird, obwohl in Wirklichkeit H0 gilt?
I
Notwendig für diese Quantifizierung:
Mathematische Modellannahmen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
12 / 153
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2014
Holger Dette
I
Allgemein gängige Annahme: Intelligenz in einer bestimmten
Altersgruppe der Bevölkerung ist normalverteilt
1
1 x −µ 2
ϕ(x ) = √
)
exp − (
2
σ
2πσ 2
µ : Erwartungswert
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
σ 2 : Varianz
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Deutung: Ist Y der IQ eines zufällig aus der Population
ausgewählten Individuums, so gilt
Z
P(a ≤ Y ≤ b) =
b
ϕ(x )dx
a
I
Diese Modellannahme sollte man stets rechtfertigen (wie man
das machen kann, sehen wir später)
13 / 153
Interpretation der Wahrscheinlichkeiten:
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a
I
I
b
Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den
Werten a und b liegt, entspricht der Fläche unter der Kurve im
Intervall [a, b].
In Formeln:
Z
b
P(a ≤ Y ≤ b) =
ϕ(x )dx
a
14 / 153
Verschiedene Normalverteilungen N(µ, σ 2 )
Methodenlehre II,
SoSe 2014
Holger Dette
Dichten der Normalverteilung mit verschiedenen Parametern
0.5
N(0,0.707)
N(0,1)
N(1,1.25)
N(2,2)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
2
4
6
I
µ: Erwartungswert
I
σ 2 : Varianz
I
Beachte: unter jeder Kurve ist die Fläche genau 1
15 / 153
Motivation der Modellannahme der
Normalverteilung
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
16 / 153
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2014
Holger Dette
I
Mathematisches Modell (hier n = 10): y1 , . . . , yn sind
Realisierungen von Zufallsvariablen
Yi = µ + εi ,
i = 1, . . . , n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
I
I
I
I
yi : IQ-Messung für i-tes Kind
(Realisation der Zufallsvariablen Yi )
µ: (unbekannter) Erwartungswert der Population
(hier der 15-jährigen Kinder aus Bochum)
ε1 , . . . , εn : unabhängige Zufallsvariable, normalverteilt mit
Erwartungswert 0 und Varianz σ 2 .
Interpretation: Messfehler, genetische Variabilität, Tagesform ...
Mathematische Statistik z. B. Maximum Likelihood (in diesem
Beispiel auch der gesunde Menschenverstand) liefert Schätzer
für µ:
n
1X
yi = 104.1
µ̂ = y · =
n
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
I
Wie genau ist diese Schätzung? Wie sehr streut diese
Schätzung?
17 / 153
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
I
Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto
genauer“ die Schätzung)
”
Mathematische Statistik (Methodenlehre I): die Varianz des
Schätzers µ̂ ist:
σ2
Var (µ̂) =
n
Beachte:
I
I
I
Je größer der Stichprobenumfang n, desto kleiner die Varianz
von µ̂. D.h. desto genauer ist die Schätzung.
Für die Beurteilung der Genauigkeit muss man die Varianz σ 2
der Population kennen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Mathematische Statistik: Schätzung für den Parameter σ 2
n
σ̂ 2 =
1 X
(yi − y · )2 = 28.32
n − 1 i=1
σ̂µ2 =
σ̂ 2
= 2.832
n
18 / 153
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II,
SoSe 2014
Holger Dette
I
Oft wird der Schätzer zusammen mit dem Standardfehler
angegeben
µ̂ = 104.1
µ̂ + σ̂µ = 105.78
µ̂ − σ̂µ = 102.42
I
I
I
q
2
σ̂µ = √σ̂n = σ̂n = 1.683 ist der Standardfehler des Schätzers
µ̂ (Schätzung für Streuung des arithmetischen Mittels)
σ̂ = 5.322 ist die aus den Daten geschätzte
Standardabweichung (Schätzung für die Streuung einer
einzelnen Beobachtung)
Deutung: Vor der Datenerhebung ist µ̂ zufällig. Falls die
Normalverteilungsannahme korrekt ist, ist auch µ̂ normalverteilt
mit:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
- Erwartungswert µ
2
- Varianz σn
19 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
0.14
Verschiedene Normalverteilungen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Y1 ~ N (104.1, 28.32)
0.12
(Y1 + Y2)
2 ~ N (104.1, 28.32/2)
10
( ∑ Yi)
10 ~ N (104.1, 2.832)
0.08
1.4 Einfaktorielle
Varianzanalyse
0.02
0.04
0.06
2. Korrelation, Lineare
Regression und
multiple Regression
0.00
Dichte
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.10
i=
=1
1.1 Schätzer und
Konfidenzintervalle
40
60
80
100
120
140
160
x
20 / 153
Methodenlehre II,
SoSe 2014
1.2 Schätzverfahren (Erwartungswert einer Population
unter Normalverteilungsannahme)
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Pn
µ̂ = n1 i=1 yi Schätzung für den Erwartungswert µ der
Population
Pn
1
2
σ̂ 2 = n−1
i=1 (yi − y · ) Schätzung für die Varianz der
Population (σ̂ Schätzung für die Standardabweichung)
1.2 t-Test für eine
Stichprobe
I
I
σ̂ 2
n
I
σ̂µ2 =
I
Schätzung für den Standardfehler von µ̂ : σ̂µ =
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Schätzung für die Varianz von µ̂
q
σ̂ 2
n
=
σ̂
√
n
21 / 153
SPSS-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Deskriptive Statistik
N
Mittelwert
Statistik
Statistik
Standardfehler
Intelligenzquotient
10
104,10
1,683
Gültige Werte
(Listenweise)
10
1.2 t-Test für eine
Stichprobe
Standardabweichung
Varianz
Statistik
Statistik
5,322
28,322
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ = 104.1(Mittelwert)
σ̂µ = 1.683(Standardfehler)
σ̂ 2 = 28.322(empirische Varianz)
σ̂ = 5.322(Standardabweichung)
22 / 153
Beachte:
Methodenlehre II,
SoSe 2014
I
Holger Dette
µ̂ =
n
1X
yi ;
n i=1
n
σ̂ 2 =
1 X
(yi − y · )2 ;
n − 1 i=1
r
σ̂µ =
σ̂ 2
n
hängen von den Daten y1 , . . . , yn ab (sind also vor
Datenerhebung zufällig)
I
µ̂ − a σ̂µ , µ̂ + a σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ist (vor der Datenerhebung) ein zufälliges Intervall, das mit
einer bestimmten Wahrscheinlichkeit den Erwartungswert µ
enthält
I
a −→ 0
=⇒ Wahrscheinlichkeit ≈ 0
a −→ ∞
=⇒ Wahrscheinlichkeit ≈ 1
Gesucht: zufälliges Intervall, das den unbekannten
Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit
enthält: Konfidenzintervall
23 / 153
Das Konfidenzintervall
Methodenlehre II,
SoSe 2014
Holger Dette
I
Gebe eine Wahrscheinlichkeit 1 − α vor (z. B. 1 − α = 95%)
I
Bestimme a so, dass das zufällige Intervall
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
(µ̂ − a σ̂µ , µ̂ + a σ̂µ )
den Parameter µ mit Wahrscheinlichkeit 1 − α enthält.
I
Mathematische Statistik liefert
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a = tn−1,1− α2
(1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden
I
Diese Werte sind tabelliert oder durch Software verfügbar.
I
Das Intervall
I = µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ
heißt (1 − α) Konfidenzintervall für µ.
24 / 153
Methodenlehre II,
SoSe 2014
Verschiedene t-Verteilungen
Holger Dette
0.4
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
t 100
t4
t1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.3
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
1 Γ((n + 1)/2)
fn (t) = √
Γ(n/2)
πn
2
4
−(n+1)/2
t2
1+
n
25 / 153
Methodenlehre II,
SoSe 2014
Das Quantil der t-Verteilung mit n
Freiheitsgraden
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Dichte der t4 -Verteilung
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.4
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.95
t
-4
-2
0
Z
2
4, 0.95
= 2.132
4
t4,0.95
P(T4 ≤ t4,0.95 ) =
f4 (t)dt = 0.95
−∞
26 / 153
Beispiel 1.3 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
Berechnung eines 90% Konfidenzintervalls für µ
µ̂ = 104.1,
2
I
n = 10,
σ̂ = 28.32
I
α = 10%
I
(aus Tabelle bzw. Software) t9,0.95 = 1.833
I
90% Konfidenzintervall für µ = (101.02, 107.18)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
I
Ein (1 − α)-Konfidenzintervall ist ein zufälliges“ Intervall, das
”
den (unbekannten) Erwartungswert mit Wahrscheinlichkeit
1 − α enthält.
Die Aussage das Intervall (101.02, 107.18) enthält den
”
unbekannten Erwartungswert der Population mit
Wahrscheinlichkeit 90%“ hat keinen Sinn!
27 / 153
Erklärung des Begriffs zufälliges“ Intervall durch
”
ein fiktives“ Experiment
”
I
I
Annahme: das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
jeweils 10 Daten liefern ein (1 − α)-Konfidenzintervall
(z. B. 95 % Konfidenzintervall)
Datensatz 1 −→ Konfidenzintervall I1
Datensatz 2 −→ Konfidenzintervall I2
..
.
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Konfidenzintervall IN
I
ca. (1 − α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den
(unbekannten) Erwartungswert µ der Population
28 / 153
Methodenlehre II,
SoSe 2014
1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Bestimme das tn−1,1− α2 Quantil der t-Verteilung mit n − 1
Freiheitsgraden (aus Tabelle oder Software)
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Das Intervall
(µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ )
ist ein (1 − α) Konfidenzintervall für µ
I
In vielen Softwarepaketen erhält man direkt das
Konfidenzintervall als Ausgabe (z. B. in SPSS)
29 / 153
SPSS-Output: Konfidenzintervall für die Daten
aus Beispiel 1.1 (Intelligenzquotient)
90% Konfidenzintervall der
Differenz
Intelligenzquotient
2,436
Sig. (2-seitig)
9
,038
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.2 t-Test für eine
Stichprobe
Testwert = 100
df
Holger Dette
1.1 Schätzer und
Konfidenzintervalle
Test bei einer Sichprobe
T
Methodenlehre II,
SoSe 2014
Mittlere
Differenz
4,100
Untere
1,02
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Obere
7,18
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur ein Konfidenzintervall für die Differenz µ − 100
=⇒ 90% Konfidenzintervall für den Erwartungswert µ
(101.02, 107.18)
30 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.2 t-Test für eine Stichprobe
2. Korrelation, Lineare
Regression und
multiple Regression
31 / 153
Beispiel 1.5 (Fortsetzung von Beispiel 1.1)
Methodenlehre II,
SoSe 2014
Holger Dette
Frage: Ist der IQ der Kinder aus Bochum höher als 100?
H0 : µ ≤ 100
H1 : µ > 100
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
H0 nennt man Nullhypothese und H1 heißt Alternative.
I
I
I
Intuitiv würde man für H1 entscheiden, falls der Mittelwert der
Stichprobe
10
1 X
µ̂ =
yi
10 i=1
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
groß“ ist
”
Beachte: µ̂ ändert sich, falls man die Daten anders skaliert!
Besser: entscheide für H1 , falls µ̂ groß im Verhältnis zu dem
Standardfehler σ̂µ ist (Invarianz bzgl. unterschiedlicher
Skalierungen)
32 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls
T =
µ̂ − 100
>c
σ̂µ
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Fragen:
1.3 Zweistichprobenprobleme
I
Wie legt man den kritischen Wert c fest?
I
Bei dem Verfahren können 2 Fehler auftreten
I
Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl
H0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100)
I
Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,
obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ ist
höher als 100)
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ziel: kleine“ Wahrscheinlichkeiten für Fehler erster und zweiter Art
”
33 / 153
Grundlegendes Prinzip der Testtheorie
Methodenlehre II,
SoSe 2014
Holger Dette
I
Der kritische Wert c wird festgelegt, indem man eine maximal
tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art
vorgibt (α-Fehler)!
I
Diese Wahrscheinlichkeit heißt Niveau des Tests.
I
Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines
Fehlers zweiter Art (β-Fehler)
I
Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal
α = 5% = 0.05 sein.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
=⇒ (mathematische Statistik, Tabelle, Software)
n = 10, c = tn−1,1−α = t9,0.95 = 1.833
µ̂ − 100
104.1 − 100
T =
= 2.436 > 1.833
= √
σ̂µ
2.832
D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%
zu Gunsten der Alternative H1 : µ > 100 verworfen
(signifikantes Ergebnis zum Niveau 5 %)
34 / 153
Erklärung des Begriffs Niveau durch ein fiktives“
”
Experiment
I
Annahme: Das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α
(z.B. Niveau 5 %)
Datensatz 1 −→ Testergebnis 1
Datensatz 2 −→ Testergebnis 2
..
.
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Testergebnis N
I
Falls die Nullhypothese H0 : µ ≤ 100 wahr“ ist, so wird
”
maximal in ca. αN (z. B. 5% 1000 = 50) Fällen für die
Alternative
H1 : µ > 100
entschieden.
35 / 153
Fehler erster und zweiter Art
Methodenlehre II,
SoSe 2014
Holger Dette
Entscheidung aufgrund der Stichprobe zugunsten
von:
H0
H1
in der Population gilt
H0
H1
richtige
β-Fehler
Entscheidung
richtige
α-Fehler
Entscheidung
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
Die Wahrscheinlichkeiten für α-Fehler und β-Fehler verändern
sich gegenläufig.
I
Bei festem Niveau (Wahrscheinlichkeit für α-Fehler) kann die
Wahrscheinlichkeit für einen β-Fehler durch Vergrößerung des
Stichprobenumfangs verkleinert werden.
I
Bei festem Stichprobenumfang wird nur“ der Fehler erster Art
”
kontrolliert.
36 / 153
Die Verteilung von T falls µ = 100 ist.
Methodenlehre II,
SoSe 2014
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
0.2
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.1
p– Wert
0.0
α=5%
t
-3
I
I
I
I
-2
-1
0
9, 0.95
1
= 1.833
T n = 2.436
2
3
Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls T
größer als der kritische Wert ist)
Blaue Fläche: Niveau (α)
Rote Fläche: p-Wert: Wahrscheinlichkeit einen Wert größer als
2.436 zu beobachten: P(T > 2.436) = 0.0188
Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird
H0 abgelehnt (signifikantes Ergebnis)
37 / 153
Testverfahren für den Erwartungswert einer
Stichprobe unter Normalverteilungsannahme
1.6 Einstichproben t-Test für rechtsseitige Hypothesen
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Hypothesen: H0 : µ ≤ µ0 ;
Hypothese)
H1 : µ > µ0 (rechtsseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
> tn−1,1−α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
38 / 153
Vertauschen der Hypothesen
Methodenlehre II,
SoSe 2014
Holger Dette
1.7 Einstichproben t-Test für linksseitige Hypothesen
I
Hypothesen: H0 : µ ≥ µ0 ;
Hypothese)
H1 : µ < µ0 (linksseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
< −tn−1,1−α = tn−1,α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
39 / 153
Tests für zweiseitige Hypothesen
Methodenlehre II,
SoSe 2014
Holger Dette
1.8 Einstichproben t-Test für zweiseitige Hypothesen
I
Hypothesen: H0 : µ = µ0 ;
Hypothese)
H1 : µ 6= µ0 (zweiseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
|T | = |
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
| > tn−1,1−α/2
σ̂µ
gilt, bzw. falls der p-Wert kleiner als α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
40 / 153
Die Verteilung von T , falls µ = 100 ist.
Methodenlehre II,
SoSe 2014
Holger Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
1.4 Einfaktorielle
Varianzanalyse
p– Wert
0.1
p– Wert
α = 2,5 %
0.0
α = 2,5 %
2. Korrelation, Lineare
Regression und
multiple Regression
-T n = -2.436
-3
I
I
t
9, 0.025
-2
= -2.262
-1
t
0
1
9, 0.975
= 2.262
2
T n = 2.436
3
Blaue Fläche: Niveau α; Rote Fläche: p-Wert
(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag
größer als 2.436 ist P(|T | > 2.436) = 0.038
Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wird
H0 abgelehnt!
41 / 153
SPSS-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Test bei einer Sichprobe
1.3 Zweistichprobenprobleme
Testwert = 100
90% Konfidenzintervall der
Differenz
T
Intelligenzquotient
2,436
df
Sig. (2-seitig)
9
,038
Mittlere
Differenz
4,100
Untere
Obere
1,02
7,18
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur den p-Wert für den zweiseitigen t-Test aus
Beispiel 1.8!
I
Den p-Wert für den einseitigen Test erhält man als
0.038/2 = 0.019.
42 / 153
Methodenlehre II,
SoSe 2014
Beispiel: t-Test für den Vergleich von zwei
verbundenen“ Stichproben
”
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
I
Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8
vorgestellten Verfahren besteht in dem Vergleich von
verbundenen“ Stichproben (vorher - nachher Untersuchungen)
”
Beispiel: Untersuchung der Einstellungen von 9 Jungen
gegenüber neutralen Personen vor und nach einem
Frustrationserlebnis (Sündenbockfunktion).
Einstellung
VPn
vorher
nachher
∆
1
38
33
-5
2
32
28
-4
3
33
34
1
4
28
26
-2
5
29
27
-2
6
37
31
-6
7
35
32
-3
8
35
36
1
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
9
34
30
-4
43 / 153
Prinzip: Differenzenbildung“
”
I
Prinzip:
I
I
I
I
Falls kein Unterschied zwischen den Einstellungen vor und nach
dem Frustrationserlebnis besteht sollten die Differenzen (nachher
- vorher) klein“ sein.
”
Durch Differenzenbildung (nachher - vorher) erhält man die
Daten“ ∆1 , . . . , ∆9
”
Rechtfertigung der Voraussetzungen für den t-Test aus 1.8 für
diese Daten“.
”
Wende den t-Test für eine Stichprobe auf die Daten“
”
∆1 , . . . , ∆9 an und teste die Hypothesen
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
H0 : µ = 0, H1 : µ 6= 0
I
Wegen
−2.667 = 3.27 > 2.31 = t8,0.975
|T | = 0.816 besteht zum Niveau α = 0.05 ein signifikanter Unterschied.
44 / 153
SPSS Output: t-Test für gepaarte Stichproben
Methodenlehre II,
SoSe 2014
Holger Dette
Statistik bei gepaarten Stichproben
Mittelwert
Paaren 1
N
Standardabweichung
Standardfehler
des Mittelwertes
vorher
33,44
9
3,358
1,119
nachher
30,78
9
3,346
1,115
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Korrelationen bei gepaarten Stichproben
N
Paaren 1
vorher & nachher
9
Korrelation
Signifikanz
,733
,025
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Test bei gepaarten Stichproben
Gepaarte Differenzen
95%
Konfidenzintervall
der Differenz
Paaren 1
Mittelwert
Standardabweichung
Standardfehler
des Mittelwertes
Untere
Obere
2,667
2,449
,816
,784
4,550
vorher - nachher
Test bei gepaarten Stichproben
T
Paaren 1
vorher - nachher
3,266
df
8
Sig.
(2-seitig)
,011
45 / 153
1.9 Bemerkungen (zu den statistischen Verfahren
1.2, 1.4, 1.6, 1.7, 1.8)
I
I
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Mathematische Statistik ⇒ unter der Normalverteilungsannahme
sind alle hier vorgestellten Verfahren optimal
1.1 Schätzer und
Konfidenzintervalle
Die Normalverteilungsannahme kann (und sollte) man
rechtfertigen. Mögliche Verfahren sind:
1.3 Zweistichprobenprobleme
I
statistische Tests für die Hypothese
H0 : Y1 , . . . , Yn
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
normalverteilt
In SPSS üblich sind
- Kolmogorov-Smirnov-Test
- Shapiro-Wilk Test
I
I
Explorative Verfahren. In SPSS üblich: QQ-Plot
Besteht die Normalverteilungsannahme diese Überprüfung nicht,
so sind z. B. nichtparametrische Verfahren anzuwenden.
46 / 153
Methodenlehre II,
SoSe 2014
SPSS Output: QQ-Plot für die Daten aus
Beispiel 1.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Q-Q-Diagramm von Normal von Intelligenzquotient
1.2 t-Test für eine
Stichprobe
115
1.3 Zweistichprobenprobleme
Erwarteter Wert von Normal
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
110
105
100
95
95
100
105
Beobachteter Wert
110
115
47 / 153
Methodenlehre II,
SoSe 2014
Der QQ-Plot
Holger Dette
I
I
Unter der Modellannahme gilt: die Größen Yi sind normalverteilt
mit Erwartungswert µ und Varianz σ 2
Der QQ-Plot vergleicht grafisch die empirischen Quantile der
Daten“ y1 , . . . , yn mit den Quantilen der Normalverteilung mit
”
Erwartungswert
µ̂ und Varianz σ̂ 2 .
(1) 1/n-Quantil der Stichprobe y1 , . . . yn =⇒ kleinste der
Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)
(1 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (im Beispiel 1.1 ist
z(1) = 104.1 − 1.64 · 5.32 = 95.37)1
(2) 2/n-Quantil der Stichprobe y1 , . . . , yn =⇒ zweitkleinste der
Beobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)
(2 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (in Beispiel 1.1 ist
z(2) = 104.1 − 1.04 · 5.32 = 98.57)
(3) usw.
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Der QQ-Plot ist das Streudiagramm der Daten
(y(1) , z(1) ), . . . , (y(n) , z(n) )
I
In in vielen Fällen enthält dieses Diagramm noch die
Winkelhalbierende des entsprechenden Quadranten.
1 http://www.wiso.uni-hamburg.de/uploads/media/normtab_01.pdf
48 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.3 Zweistichprobenprobleme
2. Korrelation, Lineare
Regression und
multiple Regression
49 / 153
1.10 Beispiel: Erkennen von Zahlenreihen
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
Studierende der Fachrichtungen Mathematik (M) und
Psychologie (P) machen einen Zahlengedächtnistest
I
Wie viele Ziffern können sich maximal gemerkt werden
I
Wiedergabe in Original und umgekehrter Reihenfolge
I
14
13
14
14
14
17
15
13
15
12
12
13
13
16
16
19
16
13
17
10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Daten (P. Zöfel: Statistik für Psychologen)
M
P
M
P
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
13
16
Frage: Haben Studierende der Mathematik ein besseres
Zahlengedächtnis als Studierende der Psychologie?
50 / 153
Mathematisches Modell (n1 = 14, n2 = 8)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie i = 2)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2)
εij : Messfehler, Tagesform ...
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ni : Stichprobenumfang in Gruppe i
I
Normalverteilungs- und Unabhängigkeitsannahme
I
in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit
Erwartungswert µi und Varianz σi2 vor
I
in jeder Gruppe sind die Beobachtungen unabhängig
I
unabhängige Stichproben
51 / 153
Methodenlehre II,
SoSe 2014
Schätzer
Holger Dette
I
Schätzer werden wie in 1.2 für jede Gruppe
Pn1 durchgeführt
Mathematiker (i = 1): µ̂1 = y 1· = n11 j=1
y1j = 14.64
s
n1
X
1
σ̂12
= 0.53
σ̂12 =
(y1j − y 1· )2 = 3.94 ⇒ σ̂µ1 =
n1 − 1 j=1
n1
Psychologen (i = 2): µ̂2 = y 2· =
σ̂22 =
I
1
n2 − 1
n2
X
j=1
1
n2
n2
P
j=1
(y2j − y 2· )2 = 4.79 ⇒ σ̂µ2 =
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
y2j = 13.75
s
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
σ̂22
= 0.77
n2
2. Korrelation, Lineare
Regression und
multiple Regression
Auch Konfidenzbereiche werden gruppenweise bestimmt
z. B. ist unter Normalverteilungsannahme
µ̂1 − tn1 −1,1− α2 σ̂µ1 , µ̂1 + tn1 −1,1− α2 σ̂µ1
ein 90% Konfidenzintervall für µ1 . Für das spezielle
Datenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (aus
Tabelle)]
(13.70, 15.58) als 90% Konfidenzintervall für µ1
52 / 153
SPSS-Output für die Daten aus Beispiel 1.10
Methodenlehre II,
SoSe 2014
Holger Dette
Schätzer für die Parameter in den einzelnen Gruppen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Gemerkte Zahlen
1.2 t-Test für eine
Stichprobe
Studienfach
Mathematik
Mittelwert
Varianz
14,64
3,940
Psychologie
13,75
4,786
Insgesamt
14,32
4,227
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert hier die Schätzer für Erwartungswert und Varianz
der einzelnen Gruppen
I
SPSS liefert außerdem Schätzer für Erwartungswert und Varianz
der gesamten Stichprobe
53 / 153
Tests zum Vergleich der Erwartungswerte
Methodenlehre II,
SoSe 2014
Holger Dette
I
Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist
nicht schlechter als das der Mathematikstudenten
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
H0 : µ1 ≤ µ2
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
Alternative: Zahlengedächtnis der Mathematikstudenten ist
besser als das der Psychologiestudenten
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : µ1 > µ2
I
Rezept: Verwerfe die Nullhypothese H0 zu Gunsten der
Alternative H1 , falls die Differenz
y 1· − y 2·
der Schätzer für die Erwartungswerte groß“ ist.
”
54 / 153
Rezept im Fall von Varianzhomogenität, d. h.
(σ12 = σ22 )
I
I
Verwerfe H0 zu Gunsten von H1 , falls y 1· − y 2· groß“ ist.
”
Normiere diese Größe mit einem Schätzer für die Standardfehler
der Mittelwertdifferenz:
q
I
I
I
1
)σ̂ 2
n2
1
{(n1 − 1)σ̂12
n1 +n2 −2
σ̂µ1 −µ2 =
2
( n11 +
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1)σ̂22 }:
+ (n2 −
σ̂ =
(die in beiden Gruppen dieselbe ist)
Schätzer für Varianz
Entscheide für die Alternative H1 : µ1 > µ2 , falls
Tn1 ,n2 =
Methodenlehre II,
SoSe 2014
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
gilt. Dabei ist tn1 +n2 −2,1−α das (1 − α)-Quantil der t-Verteilung
mit n1 + n2 − 2 Freiheitsgraden
Im Beispiel ergibt sich für einen Test zum Niveau α = 5%
σ̂ 2 = 4.24,
t20,0.95 = 1.725 =⇒ T14,8 = 0.979
d. h. die Hypothese H0 kann nicht verworfen werden.
55 / 153
Testverfahren für die Erwartungswerte von zwei
Stichproben unter Normalverteilungsannahme
1.11(a) Einseitiger t-Test für zwei unabhängige Stichproben (rechtsseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten der
Alternative H1 : µ1 > µ2 verworfen, falls
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
56 / 153
Methodenlehre II,
SoSe 2014
1.11(b) Einseitiger t-Test für zwei unabhängige Stichproben (linksseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten der
Alternative H1 : µ1 < µ2 verworfen, falls
y 1· − y 2·
< −tn1 +n2 −2,1−α = tn1 +n2 −2,α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
57 / 153
1.11(c) t-Test für zwei unabhängige Stichproben (zweiseitige Hypothesen)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied der
Erwartungswerte in beiden Gruppen) wird zu Gunsten der
Alternative H1 : µ1 6= µ2 verworfen, falls
|y 1· − y 2· |
> tn1 +n2 −2,1− α2
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
|Tn1 ,n2 | =
58 / 153
Bemerkung zur Varianzhomogenität
Methodenlehre II,
SoSe 2014
Holger Dette
Ist die Annahme der Varianzhomogenität
σ12 = σ22
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
nicht erfüllt, so
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht
eingehalten (der Test hält sein Niveau nicht)
I
ist die Wahrscheinlichkeit für einen β-Fehler größer
I
von Interesse ist daher auch ein Test für die Hypothesen
H0 : σ12 = σ22
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : σ12 6= σ22
und ein Verfahren, das ohne die Annahme der
Varianzhomogenität auskommt.
59 / 153
Rezept (für Test auf Varianzhomogenität)
Methodenlehre II,
SoSe 2014
Holger Dette
I
Die Nullhypothese H0 : σ12 = σ22 gilt genau dann, wenn
F =
I
I
σ12
=1
σ22
Schätze den Quotienten der beiden Varianzen, durch
Pn1
1
2
σ̂12
j=1 (y1j − y 1· )
n1 −1
Fn1 −1,n2 −1 = 2 = 1 Pn2
2
σ̂2
j=1 (y2j − y 2· )
n2 −1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 wird zu Gunsten der Alternative
H1 : σ12 6= σ22 verworfen, falls
Fn1 −1,n2 −1 > c2
oder Fn1 −1,n2 −1 < c1
gilt
I
Die kritischen Werte c1 und c2 werden so festgelegt, dass die
Wahrscheinlichkeit für einen Fehler erster Art maximal α ist!
60 / 153
1.12 F -Max-Test für den Vergleich von zwei Stichprobenvarianzen
I
Teststatistik
Fn1 −1,n2 −1
I
σ̂ 2
= 1
σ̂2
Die Nullhypothese
H0 : σ12 = σ22
(die Varianzen sind gleich) wird zu Gunsten der Alternative
H1 : σ12 6= σ22
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
verworfen, falls mindestens eine der Ungleichungen
Fn1 −1,n2 −1 < Fn1 −1,n2 −1, α2
Fn1 −1,n2 −1 > Fn1 −1,n2 −1,1− α2
erfüllt ist
I
Fn1 −1,n2 −1,β bezeichnet das β-Quantil der F -Verteilung mit
(n1 − 1, n2 − 1) Freiheitsgraden
61 / 153
Methodenlehre II,
SoSe 2014
Verschiedene F -Verteilungen
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.0
Dichten der F– Verteilung mit verschiedenen Freiheitsgraden
1.1 Schätzer und
Konfidenzintervalle
F2, 10
F4, 4
F10, 1
F20, 20
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.6
1.4 Einfaktorielle
Varianzanalyse
0.0
0.2
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0
1
2
3
4
5
m
fm,n (x ) =
m m2
Γ( m+n
x 2 −1
2 )
m+n
m
n
Γ( 2 )Γ( 2 ) 2
(1 + mn x ) 2
(x ≥ 0)
62 / 153
Das Quantil der F -Verteilung mit (n1 , n2 )
Freiheitsgraden
Dichte der F4, 4 -Verteilung
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.6
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.5
1.4 Einfaktorielle
Varianzanalyse
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.3
0.9
F
0
1
2
3
Z
4, 4; 0.9
4
= 4.107
5
F4,4,0.9
P(F4,4 , ≤ F4,4,0.9 ) =
fm,n (x ) dx = 0.90
−∞
63 / 153
Der F -Test auf Varianzhomogenität für die
Daten aus Beispiel 1.10 (n1 = 14, n2 = 8)
I
σ̂12 = 3.94 σ̂22 = 4.79
I
Für das Niveau α = 10% erhält man
⇒
F13,7 = 0.823
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
F13,7,0.05 = 0.3531
F13,7,0.95 = 3.5503
und damit kann die Nullhypothese zum Niveau 10% nicht
verworfen werden
I
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte: Oft wird der Test 1.12 verwendet, um die
Voraussetzungen für den t-Test zu überprüfen
I
I
I
1.4 Einfaktorielle
Varianzanalyse
In diesem Fall wählt man oft ein größeres Niveau (→ kleinere
Wahrscheinlichkeit für β-Fehler)
Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann
t-Test) hat nicht das Niveau α.
Was macht man, falls F -Test H0 verwirft?
64 / 153
Methodenlehre II,
SoSe 2014
1.13(a) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
I
Varianzen in den Gruppen sind nicht notwendig gleich
I
Teststatistik
TnW1 ,n2 =
I
Dabei ist
√
τ̂ =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
τ̂
s
τ̂ 2 =
Holger Dette
σ̂12
σ̂ 2
+ 2
n1
n2
die Schätzung für den Standardfehler von y 1· − y 2·
65 / 153
Methodenlehre II,
SoSe 2014
1.13(b) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≤ µ2
(Erwartungswert der ersten Population nicht größer als der
der Zweiten) wird zu Gunsten der Alternative
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 > µ2
2. Korrelation, Lineare
Regression und
multiple Regression
falls
TnW1 ,n2 > tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
66 / 153
1.13(c) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≥ µ2
(Erwartungswert der ersten Population nicht kleiner als der
der Zweiten) wird zu Gunsten der Alternative
H1 : µ1 < µ2
verworfen, falls
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
TnW1 ,n2 < tfˆ,α = −tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
67 / 153
1.13(d) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Die Nullhypothese
H0 : µ1 = µ2
1.1 Schätzer und
Konfidenzintervalle
(kein Unterschied der Erwartungswerte in beiden Gruppen)
wird zu Gunsten der Alternative
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
H1 : µ1 6= µ2
(es besteht ein Unterschied) verworfen, falls
2. Korrelation, Lineare
Regression und
multiple Regression
|TnW1 ,n2 | > tfˆ,1− α
2
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
68 / 153
Bemerkung: t-Test oder Welch-Test?
Methodenlehre II,
SoSe 2014
Holger Dette
I
Sind die Voraussetzungen für den t-Test erfüllt
(Normalverteilung, Unabhängigkeit, Varianzhomogenität),
so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter
allen Tests zum Niveau α die Wahrscheinlichkeit für einen
β-Fehler.
I
Ist die Voraussetzungen der Varianzhomogenität beim t-Test
nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für
einen α-Fehler nicht eingehalten.
I
Der Welch-Test ist eine Näherungslösung“, d. h. die
”
Wahrscheinlichkeit für einen α-Fehler ist nur“
”
näherungsweise α.
I
Der Welch-Test hat im Fall der Varianzhomogenität eine größere
Wahrscheinlichkeit für einen β-Fehler als der t-Test.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
69 / 153
Methodenlehre II,
SoSe 2014
SPSS-Output für die Daten aus Beispiel 1.10
Holger Dette
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
F
Gemerkte Zahlen
Varianzen sind gleich
T-Test für die Mittelwertgleichheit
Signifikanz
,103
,752
Varianzen sind nicht gleich
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
T
df
1.1 Schätzer und
Konfidenzintervalle
Sig. (2-seitig)
,979
20
,339
,952
13,523
,358
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Test bei unabhängigen Stichproben
1.4 Einfaktorielle
Varianzanalyse
T-Test für die Mittelwertgleichheit
95% Konfidenzintervall der
Differenz
Mittlere
Differenz
Gemerkte Zahlen
Standardfehler
der Differenz
Untere
Obere
Varianzen sind gleich
,893
,912
-1,010
2,796
Varianzen sind nicht gleich
,893
,938
-1,125
2,911
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert nicht den in 1.12 dargestellten F -Max Test auf
Varianzhomogenität sondern ein robustes“ Verfahren (Levene-Test)
”
I SPSS liefert nur einen p-Wert für den zweiseitigen t-Test aus Beispiel
1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)
I SPSS liefert ein Konfidenzintervall für die Differenz µ1 − µ2 =⇒ 95%
Konfidenzintervall für die Differenz der Erwartungswerte (unter der
Annahme gleicher Varianzen)
(−1.01, 2.796)
70 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.4 Einfaktorielle Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
71 / 153
1.14 Beispiel: Fortsetzung von Beispiel 1.10
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch
noch 7 Studierende der Geisteswissenschaften (G) teil.
M 14 14 15 12 13 19 17 13
P 13 14 13 12 16 16 10 16
G 11 13 13 10 13 12 13
M 14 17 15 13 16 13
P
G
-
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Frage: Existieren Unterschiede hinsichtlich des
Zahlengedächtnisses zwischen dem Studierenden der
Psychologie, Mathematik und Geisteswissenschaften?
72 / 153
Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2, 3
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
εij : Störgrößen (Erwartungswert 0 und Varianz σ 2 )
I
Normalverteilungs und Unabhängigkeitsannahme
I
I
I
I
in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit
Erwartungswert µi vor
in jeder Gruppe sind die Beobachtungen unabhängig
unabhängige Stichproben
Nullhypothese
H0 : µ1 = µ2 = µ3
73 / 153
Methodenlehre II,
SoSe 2014
Schätzer und Konfidenzbereiche
Holger Dette
I
Schätzer für Erwartungswert und Varianz werden in den
einzelnen Gruppen durchgeführt
I
Beispiel:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Mathematik (i = 1)
Psychologie (i = 2)
Geisteswissenschaften (i = 3)
y i·
14.64
13.75
12.14
σ̂i2
3.94
4.79
1.48
σ̂µi
0.53
0.60
0.46
I
µ̂1 = 14.64 ist Schätzer für den Erwartungswert der
”
Mathematiker“
I
Beachte: t6,0.95 = 1.943, µ̂3 + σ̂µ3 t6,0.95 = 13.03
µ̂3 − σ̂µ3 t6,0.95 = 11.25, also ist das Intervall
ni
14
8
7
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
[11.25, 13.03]
ein 90% Konfidenzintervall für den Erwartungswert der
”
Geisteswissenschaftler“
74 / 153
Methodenlehre II,
SoSe 2014
SPSS Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
1.4 Einfaktorielle
Varianzanalyse
Studienfach
Mathematik
Mittelwert
Varianz
Standardfehler
des Mittelwertes
14,64
3,940
,530
14
Psychologie
13,75
4,786
,773
8
Geisteswissenschaften
12,14
1,476
,459
7
Insgesamt
13,79
4,384
,389
29
N
2. Korrelation, Lineare
Regression und
multiple Regression
75 / 153
Methodenlehre II,
SoSe 2014
Prinzip der Varianzanalyse
Holger Dette
I
Ziel: Test für die Hypothese es bestehen keine Unterschiede
”
zwischen den Gruppen“
H0 : µ1 = µ2 = µ3
I
Idee: Bestimme die Streuung der Daten:
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mittelwert aus allen Daten:
ni
3
1 XX
y ·· =
yij
n
i=1 j=1
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungen
bezeichnet.
Varianz (n = n1 + n2 + n3 )
ni
3
1 XX
(yij − y ·· )2
n−1
i=1 j=1
und versuche Unterschiede in der Merkfähigkeit aufgrund der
Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl.
der Gruppen zu erklären!
76 / 153
Methodenlehre II,
SoSe 2014
Prinzip der Varianzanalyse
Holger Dette
I
Zerlegung der Summe der Quadrate
I
Häufig verwendete Abkürzungen: SS ≡ Sum of squares;
SAQ ≡ Summe der Abweichungsquadrate
I
Summe der Quadrate innerhalb der Gruppen (within groups)
SSR =
ni
3 X
X
(yij − y i· )2
i=1 j=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und
y i· =
ni
1 X
yij
ni
j=1
I
den Mittelwert aus den Beobachtungen der Gruppe i bezeichnet.
Summe der Quadrate zwischen den Gruppen (between groups)
SSM =
3
X
ni (y i· − y ·· )2
i=1
77 / 153
Methodenlehre II,
SoSe 2014
Prinzip der Varianzanalyse
Holger Dette
I
Zerlege die Summe der Quadrate in eine durch das Modell
erklärte Summe (Varianz zwischen den Gruppen) und eine
Summe von Quadraten der nicht erklärten Varianz (Varianz
innerhalb der Gruppen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
SST =
ni
3 X
X
(yij − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1 j=1
|
{z
}
Gesamtvarianz (Total)
=
ni
3 X
X
(yij − y i· )2
i=1 j=1
|
+
3
X
ni (y i· − y ·· )2
i=1
{z
}
Gesamtvarianz innerhalb der Gruppen
|
{z
}
Varianz zwischen den Gruppen
78 / 153
F -Test für die Hypothese H0 : µ1 = µ2 = µ3
(gleiche Erwartungswerte in den drei Gruppen)
I
Vergleiche die Varianz zwischen den Gruppen mit der Varianz
innerhalb der Gruppen
3
1
2
i=1 ni (y i· − y ·· )
3−1
P
P
n
3
i
1
2
i=1
j=1 (yij − y i· )
29−3
P
F =
I
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Falls F groß“ ist, wird die Nullhypothese H0 abgelehnt.
”
Mathematische Statistik ⇒ Test zum Niveau α verwirft die
Nullhypothese H0 , falls
F > F2,26,1−α
gilt (Vergleich mit dem (1 − α)-Quantil der F -Verteilung mit (2,
26) Freiheitsgraden), bzw. falls der zugehörige p-Wert des Tests
kleiner als α ist.
79 / 153
Beispiel 1.15 (Fortsetzung von Beispiel 1.14)
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
Frage: besteht ein Unterschied zwischen den Studierenden der
”
Fächer Psychologie, Mathematik und Geisteswissenschaften
bzgl. des Zahlengedächtnisses“
Genauer: Besteht ein Unterschied zwischen den
Erwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3
n1 = 14, n2 = 8, n3 = 7;
α = 5%
F2,26,0.95 = 3.37
SSM /2
14.6
F̂ =
=
= 4.06 > 3.37
SSR /26
3.6
I
D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%
abgelehnt.
I
In anderen Worten: zwischen den Studierenden der
verschiedenen Fächer besteht ein Unterschied
I
Beachte: In vielen Fällen ist man an der Frage interessiert,
zwischen welchen Gruppen ein Unterschied besteht. Diese Frage
beantwortet der F -Test nicht!
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
80 / 153
Methodenlehre II,
SoSe 2014
F -Verteilung
Holger Dette
Dichte der F2,26 − Verteilung
1.0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.2
Dichte
0.6
1.4 Einfaktorielle
Varianzanalyse
^
F2,26,0.95 = 3.37 F
= 4.06
0
1
2
3
4
5
x
http://eswf.uni-koeln.de/glossar/surfstat/fvert.htm
81 / 153
Methodenlehre II,
SoSe 2014
F -Verteilung
Dichte der F2,26 − Verteilung (Zoom)
0.15
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
0.10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.4 Einfaktorielle
Varianzanalyse
0.05
α = 5%
2. Korrelation, Lineare
Regression und
multiple Regression
p−Wert
0.00
Dichte
1.3 Zweistichprobenprobleme
F2,26,0.95 = 3.37
2.5
3.0
3.5
^
F = 4.06
4.0
4.5
5.0
x
I
Blaue Fläche: Niveau des Tests
I
Rote Fläche: p-Wert (Wahrscheinlichkeit, dass ein Wert größer
als F̂ = 4.06 beobachtet wird)
82 / 153
Varianzanalysetabelle (k bezeichnet die Anzahl
der Gruppen)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Variabilität
Sum of Squares
df
SSM
SSR
SST
k −1
n−k
n−1
zwischen
innerhalb
gesamt
SS/df
SSM /(k − 1)
SSR /(n − k)
SST /(n − 1)
F
SSM
k−1
/
1.2 t-Test für eine
Stichprobe
SSR
n−k
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beispiel (Zahlengedächtnis)
Variabilität
zwischen
innerhalb
gesamt
Sum of Squares
29.2
93.6
122.8
df
2
26
28
SS/df
14.6
3.6
F
4.06
83 / 153
Methodenlehre II,
SoSe 2014
SPSS Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
Quadratsumme
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
Mittel der
Quadrate
df
29,187
2
14,594
93,571
26
3,599
122,759
28
1.4 Einfaktorielle
Varianzanalyse
F
4,055
Signifikanz
,029
2. Korrelation, Lineare
Regression und
multiple Regression
84 / 153
Beispiel 1.16 (Fortsetzung von Beispiel 1.15)
Methodenlehre II,
SoSe 2014
Holger Dette
I
Bei signifikantem Ergebnis der Varianzanalyse (d. h. die
Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich
die Frage:
Welche Gruppe ist maßgeblich für die Signifikanz
”
verantwortlich?“
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
I
I
I
I
Lösungsvorschlag: paarweise Vergleiche!
Gruppe 1 - Gruppe 2; H12 : µ1 = µ2
Gruppe 1 - Gruppe 3; H13 : µ1 = µ3
Gruppe 2 - Gruppe 3; H23 : µ2 = µ3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.
1.11(b)) durchgeführt.
Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die
Hypothese H0 : µ1 = µ2 = µ3 , falls mindestens ein Paarvergleich
signifikant ist das Niveau α einhält.
Die t-Tests für die paarweisen Vergleiche sind mit Niveau α/3
durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche
durchgeführt werden (Bonferroni-Methode)
85 / 153
Paarweise Vergleiche (α = 5%):
Methodenlehre II,
SoSe 2014
Holger Dette
I
Zwei-Stichproben t-Test-Statistik für den Vergleich von Gruppe
i mit Gruppe j:
|Yi· − Yj· |
σ̂ij
1
1 1
σ̂ij2 =
+
{(ni − 1)σ̂i2 + (nj − 1)σ̂j2 }
ni
nj
ni + nj − 2
Ti,j =
I
I
I
i j
Ti,j
ni nj tni +nj −2,1−α0 /2 p-Wert signifikant
1 2 0.98 14 8
2.61
0.339
nein
1 3 3.04 14 7
2.62
0.007
ja
2 3 1.72
8 7
2.74
0.109
nein
Beachte: Die paarweisen Vergleiche werden zum Niveau
α0 = α/3 = 5%/3 = 0.0167 durchgeführt ( 3 Vergleiche).
Mit dieser Methode kann man zum Niveau 5% einen
signifikanten Unterschied zwischen den Gruppen feststellen.
Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau
des Verfahrens wird unterschätzt).
Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren
nicht zu empfehlen.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
86 / 153
Post-Hoc-Test Bonferroni“ in SPSS
”
I
Verwendet andere Schätzung für den Standardfehler der
Differenz der Mittelwerte aus Gruppe i und j:
!
3
1
1
1 X
2
2
σ̄ij =
+
(nk − 1)σ̂k
ni
nj
n−3
k=1
I
An Stelle der Quantile der t-Verteilung mit ni + nj − 2
Freiheitsgraden müssen dann die Quantile der t-Verteilung mit
n − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3 )
I
Das Niveau für die Paarvergleiche muss dann wieder durch die
Anzahl der Vergleiche dividiert werden (im Beispiel α/3)
I
Adjustierung der p-Werte erfolgt durch Multiplikation der
p-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.
Z. B.
0.894 = 3 · P(|T12 | > 0.893/0.841)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei berechnet sich die Wahrscheinlichkeit mit einer
t-Verteilung mit 26 = 29 − 3 Freiheitsgraden.
87 / 153
Methodenlehre II,
SoSe 2014
SPSS Output paarweise Vergleiche mit der
Bonferroni-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Bonferroni
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Mathematik
Geisteswissenschaften
Geisteswissenschaften
Mathematik
Psychologie
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,894
-1,26
3,04
,878
,026
,25
4,75
,841
,894
-3,04
1,26
2,500
*
-,893
1,607
-2,500
*
-1,607
,982
,341
-,91
4,12
,878
,026
-4,75
-,25
,982
,341
-4,12
,91
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
88 / 153
Scheffé-Methode (α = 5%)
Methodenlehre II,
SoSe 2014
Holger Dette
I
Für den Vergleich der Gruppe i mit j betrachte:
s
3−1
1
1
ds (i, j) =
SSR · F2,26,0.95 ( + )
29 − 3
ni
nj
s
s
2
1
1
1
1
=
· 93.6 · 3.37( + ) = 4.93
+
26
ni
nj
ni
nj
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und vergleiche diese Größe mit Mittelwertdifferenz |y i· − y j· |
I
Ergebnis (Niveau 5%)
i
1
1
2
j
2
3
3
|y i· − y j· |
0.89
2.5
1.61
ds (i, j)
2.18
2.28
2.55
Ergebnis
kein sign. Unterschied
y 1· sign. größer als y 3·
kein sign. Unterschied
89 / 153
Einige Bemerkungen zur Scheffé-Methode:
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit
eines α-Fehlers für jeden beliebigen a-posteriori durchgeführten
Einzelvergleichstests nicht größer ist als der α-Fehler des
F -Tests
I
Kurz: Die Signifikanzaussagen gelten simultan für ALLE
Paarvergleiche mit dem Gesamtniveau α
I
Die Scheffé-Methode ist ein konservatives Verfahren
I
I
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als das
vorgegebene Niveau
Man entscheidet tendenziell eher zu oft für H0
90 / 153
Methodenlehre II,
SoSe 2014
SPSS Output paarweise Vergleiche mit der
Scheffé-Methode
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Scheffé-Prozedur
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Geisteswissenschaften
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,576
-1,29
3,08
,878
,029
,22
4,78
Mathematik
-,893
,841
,576
-3,08
1,29
Geisteswissenschaften
1,607
,982
,279
-,94
4,16
,878
,029
-4,78
-,22
,982
,279
-4,16
,94
Mathematik
Psychologie
2,500
*
-2,500
*
-1,607
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
91 / 153
1.17 Einfaktorielle Varianzanalyse (zum Vergleich
von k unabhängigen Stichproben)
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es besteht kein Unterschied zwischen den
Erwartungswerten der einzelnen Gruppen:
H0 : µ1 = µ2 = . . . = µk
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
I
Varianzhomogenität: σ12 = σ22 = . . . = σk2
92 / 153
F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben)
I
Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicher
Erwartungswert in allen Gruppen wird verworfen, falls
F =
1
k−1 SSM
1
n−k SSR
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
> Fk−1,n−k,1−α
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Dabei ist:
SSM =
k
X
ni (y i· − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
(sum of squares between groups)
SSR =
ni
k X
X
(yij − y i· )2
i=1 j=1
(sum of squares within groups) und Fk−1,n−k,1−α das
(1 − α)-Quantil der F -Verteilung mit (k − 1, n − k)
Freiheitsgraden
93 / 153
1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15)
I
I
Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,
so kann mit der Scheffé-Methode festgestellt werden
welche Gruppen für die Signifikanz verantwortlich sind“!
”
Pk
dazu bestimmt man die Größen (n = i=1 ni )
s
k −1
1
1
SSR · Fk−1,n−k,1−α ( + )
ds (i, j) =
n−k
ni
nj
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ist y i· − y j· größer (bzw. kleiner) als ds (i, j) (bzw. als
−ds (i, j)) so ist y i· signifikant größer (bzw. kleiner) als y j·
I
Beachte:
I
I
I
I
insgesamt k(k−1)
Vergleiche
2
die Scheffé-Methode hält simultan das Niveau α
es ist möglich, das F -Test H0 ablehnt, aber keiner der
paarweisen Vergleiche signifikant ist!
Andere Verfahren (z. B. in SPSS implementiert):
Tukey-Methode, Duncan Test
94 / 153
1.19 Levene-Test auf Varianzhomogenität von k
unabhängigen Stichproben
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es liegt Varianzhomogenität vor, d. h.
H0 : σ12 = σ22 = . . . = σk2
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
95 / 153
Levene-Test auf Varianzhomogenität von k
abhängigen Stichproben
I
un-
Die Hypothese der Varianzhomogenität
H0 : σ12 = σ22 = . . . = σk2
wird verworfen, falls
Pk
1
F =
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
2
i=1 ni (x i· − x ·· )
k−1
Pk Pni
1
2
i=1
j=1 (xij − x i· )
n−k
1.4 Einfaktorielle
Varianzanalyse
> Fk−1,n−k,1−α
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei ist:
I
I
I
I
I
n = n1 +P
. . . + nk der Gesamtstichprobenumfang
Pk Pni
ni
x , x ·· = n1 i=1 j=1
xij
x i· = n1i
j=1 ij
xij = |yij − y i· |
Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit
(k − 1, n − k) Freiheitsgraden.
Beachte:
I
I
I
Der Test ist robust bzgl. der Normalverteilungsannahme.
Der Test hält nur“ näherungsweise das Niveau α.
”
Alternativer Test: Bartlett Test
96 / 153
Methodenlehre II,
SoSe 2014
SPSS Output
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Test der Homogenität der Varianzen
1.2 t-Test für eine
Stichprobe
Gemerkte Zahlen
LeveneStatistik
1.3 Zweistichprobenprobleme
df1
1,214
df2
2
Signifikanz
26
1.4 Einfaktorielle
Varianzanalyse
,313
2. Korrelation, Lineare
Regression und
multiple Regression
ONEWAY ANOVA
Gemerkte Zahlen
Quadratsumme
Mittel der
Quadrate
df
Zwischen den Gruppen
29,187
2
14,594
Innerhalb der Gruppen
93,571
26
3,599
122,759
28
Gesamt
F
4,055
Signifikanz
,029
97 / 153
Methodenlehre II,
SoSe 2014
2. Korrelation, Lineare Regression und multiple
Regression
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.1 Korrelation
2.2 Lineare Regression
2.2 Lineare Regression
2.3 Multiple Regression
2.4 Multikollinearität und Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare Zusammenhänge
2.7 Partielle und Semipartielle Korrelation
98 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.1 Korrelation
99 / 153
2.1 Beispiel: Arbeitsmotivation
Methodenlehre II,
SoSe 2014
Holger Dette
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
I
Frage: Besteht ein Zusammenhang zwischen der Variablen
Motivation“ und der Variablen Leistungsstreben“
”
”
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
100 / 153
Methodenlehre II,
SoSe 2014
Daten
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
x
y
x
y
x
y
20
32
8
19
13
11
30
14
34
25
19
24
15
12
26
23
25
19
39
27
32
17
30
19
5
20
26
22
18
22
6
13
12
19
21
24
12
17
36
27
11
17
0
8
27
26
35
22
26
20
2.2 Lineare Regression
101 / 153
Methodenlehre II,
SoSe 2014
2.2 Der Korrelationskoeffizient von Pearson
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
Maß für die (lineare) Abhängigkeit zwischen x und y :
Korrelationskoeffizient von Pearson
Pn
sx2,y
(xi − x · )(yi − y · )
r = rX ,Y =
= qP i=1
Pn
n
sx ,x sy ,y
2
2
i=1 (xi − x · )
i=1 (yi − y · )
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Dabei ist:
I
I
1
n
y· =
Pn
1
I
n
i=1
i=1
xi : Mittelwert der Daten xi
yi : Mittelwert der Daten yi
=
1
n−1
Pn
sy2,y =
1
n−1
Pn
I s2
x ,x
I
Pn
x· =
i=1
i=1
Pn
1
sx2,y = n−1
Daten xi , yi
i=1
(xi − x · )2 : Varianz der Daten xi
(yi − y · )2 : Varianz der Daten yi
(xi − x · )(yi − y · ) : Kovarianz zwischen den
102 / 153
2.3 Eigenschaften des Korrelationskoeffizienten
Methodenlehre II,
SoSe 2014
Holger Dette
(1) −1 ≤ r ≤ 1
(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1 xi
mit b1 > 0 besteht (ohne Störgrößen).
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1 xi
mit b1 < 0 besteht (ohne Störgrößen).
(4) Der Korrelationskoeffizient ist invariant bzgl. linearer
Transformationen, d. h.
x̃i = a0 + a1 xi i = 1, . . . , n
⇒ rX̃ ,Ỹ = rX ,Y
ỹi = c0 + c1 yi i = 1, . . . , n
(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß
für den linearen Zusammenhang in der Stichprobe
(x1 , y1 ), . . . , (xn , yn )
103 / 153
2.4 Beispiel: Korrelationskoeffizient für die Daten
aus Beispiel 2.1
I
I
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Variablen
x : Leistungsstreben
y : Motivation
2.1 Korrelation
2.2 Lineare Regression
Korrelationskoeffizient von Pearson
r = 0.5592
I
Fragen:
I
I
Wie genau ist diese Schätzung?
Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen
den Merkmalen Leistungsstreben und Motivation)?
104 / 153
Methodenlehre II,
SoSe 2014
2.5 Signifikanztest für Korrelation
I
(x1 , y1 ), . . . , (xn , yn ) ist eine Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
ρ bezeichne die Korrelation des Merkmals X mit dem
Merkmal Y einer Population; fünfter Modellparameter
neben µx , µy , σx2 und σy2 .
I
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Ein Test zum Niveau α für die Hypothese die Merkmale
”
sind unkorreliert“
H0 : ρ = 0
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρ 6= 0 ab, falls
√
n − 2r √
1 − r 2 > tn−2,1− α2
gilt.
105 / 153
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25;
r = 0.5592;
t23,0.975 = 2.0687
2.1 Korrelation
2.2 Lineare Regression
I
√
n−2 r
√
1 − r 2 = 3.2355 > 2.0687
I
Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen den
Merkmalen) wird zum Niveau 5% verworfen.
I
p-Wert: 0.0037
106 / 153
Methodenlehre II,
SoSe 2014
SPSS Output für Korrelationskoeffizient
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Korrelationen
2.2 Lineare Regression
Motivation
Motivation
Korrelation nach Pearson
Leistungsstreben
1,000
Signifikanz (2-seitig)
N
Leistungsstreben
Korrelation nach Pearson
Signifikanz (2-seitig)
N
,559
**
,004
25
,559
**
25
1,000
,004
25
25
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
107 / 153
2.7 Konfidenzintervall für Korrelation
Methodenlehre II,
SoSe 2014
Holger Dette
I
ρ: Korrelation zwischen Merkmal x und Merkmal y einer
Population
I
(x1 , y1 ), . . . , (xn , yn ): Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
Mathematische Statistik: r ist näherungsweise“ (d. h. bei
”
großem Stichprobenumfang) normalverteilt mit
Erwartungswert ρ und Varianz
γ 2 = Var (r ) ≈
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(1 − ρ2 )2
n
(1 − α)-Konfidenzintervall für den Korrelationskoeffizienten
r − γ̂z1− α2 , r + γ̂z1− α2
2
)
√
Hier bezeichnet γ̂ = (1−r
einen Schätzer für die
n
Standardabweichung von r und z1− α2 das (1 − α2 ) Quantil
der Standardnormalverteilung (Tabelle, Software)
108 / 153
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
n = 25;
I
z0.95 = 1.6449,
I
⇒
2.2 Lineare Regression
r = 0.5592
γ̂ = 0.1328
90% Konfidenzintervall für den Korrelationskoeffizient
[0.2739, 0.7541]
109 / 153
Methodenlehre II,
SoSe 2014
2.8 Hinweise zur Interpretation von Korrelationen
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Variablen x und y gefunden
Folgende Interpretationen sind möglich
(1)
(2)
(3)
(4)
x
y
x
x
beeinflusst y kausal
beeinflusst x kausal
und y werden von weiteren Variablen kausal beeinflusst
und y beeinflussen sich wechselseitig kausal
I
Die Korrelation zwischen zwei Variablen ist eine
notwendige aber keine hinreichende Voraussetzung für
einen kausalen Zusammenhang
I
Der Korrelationskoeffizient gibt keine Information, welche
der vier Interpretationen zutrifft (in vielen“ Fällen wird das
”
der Typ (3) sein)
I
Korrelationen sollten ohne Zusatzinformation nicht
interpretiert werden!
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
110 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Merkmalen Ehrlichkeit“ und Häufigkeit des
”
”
Kirchgangs“ gefunden
Folgende Interpretationen sind möglich
I
I
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Die in der Kirche vermittelten Werte haben einen positiven
Einfluss auf das Merkmal Ehrlichkeit“.
”
Ehrliche“ Menschen fühlen sich durch die in der Kirche
”
vermittelten Inhalte eher angesprochen und gehen aus
diesem Grund häufiger zur Kirche.
Die allgemeine familiäre und außerfamiliäre Sozialisation
beeinflusst beide Merkmale.
111 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.2 Lineare Regression
112 / 153
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten)
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
x : Leistungsstreben (Fragebogen)
I
Kann man y aus x vorhersagen“?
”
113 / 153
Streudiagramm für die Daten aus Beispiel 2.9
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
2. Korrelation, Lineare
Regression und
multiple Regression
30
2.1 Korrelation
2.2 Lineare Regression
Motivation
25
20
15
10
5
0
10
20
30
40
Leistungsstreben
114 / 153
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
I
I
I
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Frage: Besteht ein funktionaler Zusammenhang zwischen der
Variablen Motivation“ und der Prädiktorvariablen
”
Leistungsstreben“ (Kann man y aus x vorhersagen“?)
”
”
Genauer: Gesucht ist Funktion f , die aus der Prädiktorvariablen
Leistungsstreben (x ) eine Vorhersage für die abhängige Variable
(y ) Motivation liefert:
Motivation = f(Leistungsbereitschaft)
I
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
115 / 153
Methodenlehre II,
SoSe 2014
Regression
Holger Dette
I
I
I
Ausgangslage: Von Interesse ist der Zusammenhang zwischen
verschiedenen Variablen. Im einfachsten Fall betrachtet man,
wie im Beispiel der Arbeitsmotivation, den Zusammenhang
zwischen zwei Variablen.
Daten: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Annahme: Es existiert ein kausaler Zusammenhang der Form
y = f (x ) zwischen der abhängigen Variablen y und der
Prädiktorvariablen x .
Weitere Annahme: Die Funktion f hat eine bestimmte Form.
Beispiele:
I
I
I
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Lineare Regression (der Zusammenhang ist also durch eine
Gerade beschreibbar): y = b0 + b1 x
Quadratische Regression (der Zusammenhang ist also durch
eine Parabel beschreibbar): y = b0 + b1 x + b2 x 2
usw.
Beachte: Der Zusammenhang ist in der Regel nicht exakt zu
beobachten. Mathematisches Modell
Y = b0 + b1 x + ε
Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell
bezeichnet man als Lineare Regression.
116 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
2.10 Das Modell der linearen Regression
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung xi ). Für den Zusammenhang zwischen den
Variablen Yi und xi gilt:
Yi = b0 + b1 xi + εi
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
i = 1, . . . , n
I
εi bezeichnet hier eine zufällige Störung“ und es wird
”
angenommen, dass die Störungen unabhängig und
normalverteilt sind mit Erwartungswert 0 und Varianz
σ2 > 0
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und y postuliert, der noch zufälligen Störungen unterliegt.
117 / 153
Idee der Schätzung bei (linearer) Regression
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I
Annahme: Es existiert ein linearer Zusammenhang
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Y = b0 + b1 x + ε
I
Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y
und x am besten beschreibt.
I
Idee: Bestimme die Gerade so, dass die Summe der
quadratischen (vertikalen) Abstände zwischen den
y -Koordinaten der Datenpunkte und den entsprechenden
Punkten auf der geschätzten Geraden minimal wird
Methode der kleinsten Quadrate
118 / 153
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
35
2.2 Lineare Regression
30
●
30
●
●
25
●
●
●
●
●
y
●
●
●
●
●
●
●
●
●
15
● ●
●
●
●
●
●
●
●
●
●
● ●
●
15
20
●
●
●
●
20
25
●
●
●
●
●
●
●
10
10
●
y=0.2x+5
●
5
●
5
y
●
●
●
y=0.5x+10
●
●
0
10
20
x
30
40
0
10
20
30
40
x
119 / 153
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten: die Lösung durch die
Methode der kleinsten Quadrate
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
2.2 Lineare Regression
30
●
●
25
●
●
●
●
●
20
●
●
●
●
●
●
●
●
y=0.292x+13.816
15
● ●
●
●
●
●
10
●
●
5
y
●
●
0
10
20
x
30
40
120 / 153
2.11 Die Methode der kleinsten Quadrate
I
Bestimme die Gerade so, dass die Summe der quadrierten
senkrechten Abstände zwischen Gerade und Daten minimal
wird
I
I
I
Datum an der Stelle xi : yi
Wert der Geraden an der Stelle xi : b0 + b1 xi
Differenz: yi − (b0 + b1 xi )
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Minimiere
h(b0 , b1 ) =
Pn
i=1
yi − (b0 + b1 xi )
2
bzgl. der Wahl der Parameter b0 und b1 .
I
Lösung dieses Extremwertproblems liefert Schätzer für
Achsenabschnitt und Steigung der Geraden:
Pn
(x − x · )(yi − y · )
Pn i
b̂1 = i=1
, b̂0 = y · − b̂1 x ·
2
i=1 (xi − x · )
I
x· =
I
y· =
1
n
1
n
Pn
xi : Mittelwert der Prädiktorvariablen
Pi=1
n
i=1
yi : Mittelwert der abhängigen Variablen
121 / 153
Beispiel Arbeitsmotivation: Streudiagramm und
Regressionsgerade für die Daten aus Beispiel 2.1
35
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
30
Motivation
25
2.1 Korrelation
2.2 Lineare Regression
20
15
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
I
I
Schätzer: b̂0 = 13.82, b̂1 = 0.29
Fragen:
I
I
I
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die
Motivation
H0 : b 1 = 0
Wie gut beschreibt das lineare Regressionsmodell die Situation?
122 / 153
Die Genauigkeit der Schätzer für die Parameter
Methodenlehre II,
SoSe 2014
Holger Dette
I
Beachte: Vor der Datenerhebung sind b̂0 und b̂1 zufällig.
I
Mathematische Statistik (allgemeines lineares Modell) liefert
Schätzer für die Varianzen von b̂0 und b̂1
Schätzer für die Varianz von b̂0 :
ŝb20
=
Schätzer für die Varianz von b̂1 : ŝb21 =
Sy2|x
n
Pn
x2
Pn i=1 i 2
i=1 (xi − x · )
Sy2|x
n
1
n
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
1
2
(x
i=1 i − x · )
Pn
Dabei bezeichnet
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
die Residualvarianz (Schätzer für die Varianz der Störgrößen)
I
Je größer der Stichprobenumfang n, desto genauer sind die
Schätzungen!
123 / 153
Fortsetzung von Beispiel 2.1: Schätzer für die Daten der
Arbeitsmotivation
I
Holger Dette
Schätzer für die Parameter
b̂0 = 13.82
b̂1 = 0.292
Sy2|x = 22.737
I
Methodenlehre II,
SoSe 2014
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Schätzer für die Varianz von b̂0 und b̂1
ŝb20 = 4.5158
ŝb21 = 0.0081
I
Standardfehler von b̂0 und b̂1
ŝb0 =
ŝb1 =
√
√
4.5158 = 2.125
0.0081 = 0.09
124 / 153
SPSS Output: Schätzer und
Standardabweichungen bei linearer Regression in
Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
T
,559
Signifikanz
6,501
,000
3,235
,004
a. Abhängige Variable: Motivation
125 / 153
2.12 Konfidenzintervalle bei linearer Regression
Methodenlehre II,
SoSe 2014
Holger Dette
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi
I
I
(i = 1, . . . , n)
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Bestimmung der Schätzer
b̂0 und b̂1 . Damit ist dann
=⇒
ŝb20
und
ŝb21
für die Varianzen von
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(b̂0 − tn−2,1− α2 ŝb0 , b̂0 + tn−2,1− α2 ŝb0 )
ein (1 − α)-Konfidenzintervall für b0 und
=⇒
(b̂1 − tn−2,1− α2 ŝb1 , b̂1 + tn−2,1− α2 ŝb1 )
ein (1 − α)-Konfidenzintervall für b1 .
I
Hier ist tn−2,1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − 2 Freiheitsgraden (tabelliert oder mit Software
verfügbar)
126 / 153
2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1
(Arbeitsmotivation)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
I
n = 25,
t23,0.975 = 2.0687
I
Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt
sich als 95% Konfidenzintervall für
2.1 Korrelation
2.2 Lineare Regression
b0 :[9.420, 18.212]
b1 :[0.105, 0.479]
I
Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen
x auf die abhängige Variable Y ?
Mathematische Formulierung: H0 : b1 = 0
127 / 153
Methodenlehre II,
SoSe 2014
SPSS Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
,559
Signifikanz
Untergrenze
Obergrenze
6,501
,000
9,420
18,212
3,235
,004
,105
,479
a. Abhängige Variable: Motivation
128 / 153
2.14 F -Test für die Hypothese H0 : b1 = 0
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi (i = 1, . . . , n)
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Hypothesen
H0 : b1 = 0, H1 : b1 6== 0
I
Die Nullhypothese H0 : b1 = 0 wird zu Gunsten der
Alternative H1 : b1 6= 0 verworfen, falls
Pn
2
1
2
Sreg
i=1 (y · − (b̂0 + b̂1 xi ))
1
Fn = 2 = 1 P
> F1;n−2,1−α
n
2
Sy |x
i=1 (yi − (b̂0 + b̂1 xi ))
n−2
gilt
I
F1;n−2,1−α bezeichnet das (1 − α)-Quantil der F -Verteilung
mit (1, n − 2) Freiheitsgraden
129 / 153
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2014
Holger Dette
n
X
n
n
X
X
(yi − (b̂0 + b̂xi ))2 +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
{z
Varianz der Regression
}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Bezeichnungen:
n
2
Sreg
=
1X
(y − (b̂0 + b̂1 xi ))2
1 i=1 ·
heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).
Andere Interpretationen:
- Schätzung für die Varianz der Größen εi
- durch das lineare Regressionsmodell nicht erklärbare Varianz
I
130 / 153
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
n
X
n
n
X
X
2
(yi − (b̂0 + b̂xi )) +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
{z
Varianz der Regression
}
2.2 Lineare Regression
2
= (n − 2) · Sy2|x + ·Sreg
Beachte:
I
Bei dem F -Test für die Hypothese H0 : b1 = 0 bildet man den
Quotienten aus der Varianz der Regression und der
Residualvarianz
I
Man untersucht also das Verhältnis zwischen erklärbarer und
nicht erklärbarer Varianz.
131 / 153
2.15 Varianzanalyse (ANOVA; analysis of variance)
Methodenlehre II,
SoSe 2014
Holger Dette
Art der
Abweichung
Freiheitsgrade (df )
Quadratsumme
F -Quotient
schätzer
Regression
1
Pn
− ybi )
Fn =
Fehler
n−2
Pn
− ybi )2
—
Total
n−1
Pn
− y · )2
—
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
i=1 (y ·
i=1 (yi
i=1 (yi
2
2
Sreg
/Sy2|x
2.2 Lineare Regression
Bezeichnung:
ŷi = b̂0 + b̂1 xi Vorhersage an der Stelle xi
132 / 153
SPSS Output: F -Test bei linearer Regression in
Beispiel 2.1
b
Quadratsumme
Regression
238,015
Residuen
Gesamt
Mittel der
Quadrate
df
1
238,015
522,945
23
22,737
760,960
24
F
10,468
Signifikanz
,004
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
ANOVA
Modell
1
Methodenlehre II,
SoSe 2014
a
2.1 Korrelation
2.2 Lineare Regression
a. Einflußvariablen : (Konstante), Leistungsstreben
b. Abhängige Variable: Motivation
Beachte:
I
F25 = 10.468,
I
Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
F1,23,0.95 = 4.2793
133 / 153
Modellgüte: wie geeignet“ ist das Modell für die
”
Beschreibung der Daten
I
Maß für Modellanpassung: Residualvarianz (Summe der
quadrierte Abstände von der Regressionsgerade):
Sy2|x =
n
2
1 X
yi − (b̂0 + b̂1 xi )
n − 2 i=1
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Beachte: Sy2|x ist ein Schätzer für die Varianz der Messfehler
I
Je kleiner Sy2|x , desto besser“ ist das (lineare)
”
Regressionsmodell
I
Streuung der Daten ohne die Information“, dass ein lineares
”
Modell vorliegt:
n
X
(yi − y· )2
i=1
I
Man untersucht welchen Anteil der Streuung
man durch das lineare Modell erklären kann.
Pn
i=1 (yi
− y· ) 2
134 / 153
Varianzzerlegung: ein extremes Beispiel
Methodenlehre II,
SoSe 2014
40
40
30
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
y
Abhängige Variable
Holger Dette
20
20
10
10
0
5
10
15
20
2.2 Lineare Regression
0
5
Unabhängige Variable
10
15
20
x
Beachte:
I
Die Grafik zeigt eine extreme Situation.
I
Die Streuung der Daten
lineare Regressionsmodell
Pn ist durch das P
n
zu 100% erklärbar! i=1 (yi − y · )2 = i=1 (y · − (b̂0 + b̂1 xi ))2
I
Residualvarianz (durch das lineare Regressionsmodell nicht
erklärbare Varianz) = 0
135 / 153
2.16 Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1):
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
25
X
(yi − y · )2 = 760.96
2.2 Lineare Regression
i=1
25
X
(y · − (b̂0 + b̂1 xi ))2 = 238.04
i=1
2
R =
P25
i=1 (y · − (b̂0 + b̂1 xi ))
P25
2
i=1 (yi − y · )
2
= 0.313
d. h. 31.3% der Varianz der Variablen Motivation können durch die
Prädiktorvariable Leistungsstreben erklärt werden.
136 / 153
Methodenlehre II,
SoSe 2014
Holger Dette
2.17 Modellgüte: das Bestimmtheitsmaß
I
Die Größe
Pn
Pn
(y · − (b̂0 + b̂1 xi ))2
(yi − (b̂0 + b̂1 xi ))2
i=1P
=
R 2 = 1− i=1Pn
n
2
2
i=1 (yi − y · )
i=1 (y · − yi )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
ist ein Maß für die Güte der Regression und heißt
Bestimmtheitsmaß.
I
Beachte: Man kann zeigen, dass R 2 genau das Quadrat der
Korrelation ist.
I
Je besser“ das Modell ist, desto kleiner ist die
”
Residualvarianz, bzw. desto größer R 2 !
I
Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und 1
137 / 153
Zusammenhang zwischen Bestimmtheitsmaß und
F -Test
I
Ist Fn die Statistik für den F -Test aus 2.14 und R 2 das
Bestimmtheitsmaß, dann gilt:
2
R =
1
1
n−2 Fn
1
+ n−2
Fn
I
Im Beispiel des Zusammenhangs zwischen Motivation und
Leistungsstreben ist
R2 =
1
10.468
23
+ 10.468
23
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.2 Lineare Regression
In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann aus
dem Bestimmtheitsmaß berechnet werden (und umgekehrt)
=⇒
Holger Dette
2.1 Korrelation
I
Fn = 10.468
Methodenlehre II,
SoSe 2014
= 0.313
Ca. 31.3% der Variation der Variablen Motivation können durch
die Variable Leistungsstreben erklärt werden.
138 / 153
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2014
Holger Dette
2.18 Vorhersage für den Wert der Geraden an einer
Stelle x
I
Schätzung für den Wert der Geraden y (x ) = b0 + b1 x an
der Stelle x :
yb(x ) = b̂0 + b̂1 x
I
(1 − α)-Konfidenzintervall für y (x )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(b
y (x ) − tn−2; α2 · ŝy (x ) , yb(x ) + tn−2; α2 · ŝy (x ) )
wobei
ŝy2(x ) = Sy2|x
(x − x · )2 + Pn
2
n
i=1 (xi − x · )
1
b (x ) bezeichnet
den Schätzer für die Varianz von Y
139 / 153
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II,
SoSe 2014
Holger Dette
2.19 Vorhersage für eine neue Beobachtung an einer
Stelle x
I
I
Schätzer für eine neue Beobachtung Ỹ (x ) = b0 + b1 x + ε
an der Stelle x :
yb(x ) = b̂0 + b̂1 x
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(1 − α)-Konfidenzintervall für y (x )
(b
y (x ) − tn−2; α2 · s̃y (x ) , yb(x ) + tn−2; α2 · s̃y (x ) )
wobei
1
(x − x · )2 s̃y2(x ) = Sy2|x 1 + + Pn
2
n
i=1 (xi − x · )
den Schätzer für die Varianz von yb(x ) + ε bezeichnet.
I
Beachte: Diese Varianz wird bei wachsendem
Stichprobenumfang nicht beliebig klein!
140 / 153
2.20 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
(1) Gesucht ist ein 90% Konfidenzintervall für den Wert der
Geraden an der Stelle x = 16
I
I
t23,0.95 = 1.714, Sy2|x = 22.737, ŝy2(x ) = 1.116, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für den Wert der Geraden an der
Stelle 16 ist gegeben durch
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
[16.677, 20.299]
(2) Gesucht ist ein 90% Konfidenzintervall für eine neue
Beobachtung der Stelle x = 16
I
I
t23,0.95 = 1.714, Sy2|x = 22.737, ŝỹ2(x ) = 23.85, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für eine neue Beobachtung an der
Stelle 16 ist gegeben durch
[10.118, 26.859]
141 / 153
SPSS Output: Vorhersagen bei linearer
Regression in Beispiel 2.1 (schwierig)
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
142 / 153
SPSS Output: Konfidenzintervalle für
Vorhersagen bei linearer Regression in Beispiel
2.1
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
16.0
35
2.1 Korrelation
2.2 Lineare Regression
30
Motivation
25
20
15
10
5
0
10
20
30
40
Leistungsstreben
143 / 153
2.21 Residuenanalyse
Methodenlehre II,
SoSe 2014
Holger Dette
I
Unter der Modellannahme des linearen Regressionsmodells
gilt: die Größen
εi = Yi − b0 − b1 xi
sind unabhängig und normalverteilt mit Erwartungswert 0
und Varianz σ 2 > 0.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
I
Das bedeutet, dass diese Eigenschaften auch
näherungsweise“ für die Residuen
”
ε̂i = yi − b̂0 − b̂1 xi
erfüllt sein sollte, falls die Modellannahme zutrifft.
Residuenanalyse ist ein deskriptives Verfahren für die
Überprüfung der Annahmen an ε1 , . . . , εn mit 4
Teilschritten (oft werden auch nicht alle gemacht):
A: Das Streudiagramm der Daten mit der Regressionslinie
B: Ein Streudiagramm der Residuen gegen die vorhergesagten
Werte
C: Normalverteilungs-QQ-Plot der Residuen
D: Histogramm der Residuen mit angepasster
Normalverteilungsdichte
144 / 153
Residuenanalyse bei erfüllten“ Voraussetzungen
”
A
6
0.5
4
2
0
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
2.1 Korrelation
−0.5
2.2 Lineare Regression
−1.0
−2
−1.5
−2
−1
0
1
2
0
Unabhängige Variable
2
4
6
Vorhergesagter Wert
C
D
1.0
1.0
0.5
0.8
f(Residuum)
Empirische Quantile
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
1.0
Residuum
Abhängige Variable
8
Methodenlehre II,
SoSe 2014
0.0
−0.5
0.6
0.4
0.2
−1.0
0.0
−1.5
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Residuum
145 / 153
Methodenlehre II,
SoSe 2014
Residuenanalyse bei Abweichungen“ von der
”
Normalverteilung (Ausreißer)
15
10
0
2. Korrelation, Lineare
Regression und
multiple Regression
10
2.1 Korrelation
5
2.2 Lineare Regression
0
−5
−10
−10
−2
−1
0
1
2
0
Unabhängige Variable
2
4
6
8
Vorhergesagter Wert
C
20
D
0.15
15
10
f(Residuum)
Empirische Quantile
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
20
Residuum
Abhängige Variable
A
20
Holger Dette
5
0
0.10
0.05
−5
−10
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−15 −10
−5
0
5
10
15
20
Residuum
146 / 153
Methodenlehre II,
SoSe 2014
Residuenanalyse bei Stratifizierung
Holger Dette
Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu
Abweichungen von den Modellannahmen führen. Für die Strata
können dann unterschiedliche Regressionsgleichungen gelten.
A
15
B
10
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
5
0
0
−5
−5
−10
−10
−2
−1
0
1
2
−2
0
2
4
Unabhängige Variable
Vorhergesagter Wert
C
D
10
6
0.15
5
f(Residuum)
Empirische Quantile
2.2 Lineare Regression
5
Residuum
Abhängige Variable
2.1 Korrelation
10
0
−5
−10
0.10
0.05
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−10
−5
0
5
10
Residuum
147 / 153
Residuenanalyse bei falscher Modellannahme
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
40
10
20
Residuum
Abhängige Variable
A
0
−20
−40
2. Korrelation, Lineare
Regression und
multiple Regression
0
−10
2.1 Korrelation
2.2 Lineare Regression
−20
−60
−2
−1
0
1
2
−30 −20 −10
0
10
20
Unabhängige Variable
Vorhergesagter Wert
C
D
30
40
0.04
f(Residuum)
Empirische Quantile
0.05
10
0
−10
0.03
0.02
0.01
−20
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−30
−20
−10
0
10
20
Residuum
Statt des linearen Modells wäre ein Polynom 3. Grades die bessere
Annahme für die Beschreibung des funktionalen Zusammenhangs!
148 / 153
Methodenlehre II,
SoSe 2014
Residuenanalyse bei ungleichen Varianzen
(Heteroskedastizität)
20
10
10
0
−10
−20
−30
2. Korrelation, Lineare
Regression und
multiple Regression
0
2.1 Korrelation
−10
2.2 Lineare Regression
−20
−30
−40
−40
−2
−1
0
1
2
−2
Unabhängige Variable
0
2
4
6
Vorhergesagter Wert
C
30
D
0.10
20
0.08
10
f(Residuum)
Empirische Quantile
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
30
Residuum
Abhängige Variable
A
20
Holger Dette
0
−10
−20
0.06
0.04
0.02
−30
−40
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−40
−20
0
20
Residuum
149 / 153
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
35
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
30
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
Motivation
25
20
15
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
150 / 153
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
3,00000
2. Korrelation, Lineare
Regression und
multiple Regression
Standardized Residual
2,00000
2.1 Korrelation
2.2 Lineare Regression
1,00000
,00000
-1,00000
-2,00000
-2,00000
-1,00000
,00000
1,00000
2,00000
Standardized Predicted Value
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
151 / 153
Methodenlehre II,
SoSe 2014
SPSS Output für Residuenanalyse
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Q-Q-Diagramm von Normal von Standardized Residual
2. Korrelation, Lineare
Regression und
multiple Regression
2
2.1 Korrelation
Erwarteter Wert von Normal
2.2 Lineare Regression
1
0
-1
-2
-2
-1
0
1
2
3
Beobachteter Wert
QQ-Plot im Beispiel der Arbeitsmotivation
152 / 153
Korrelation und lineare Regression
Methodenlehre II,
SoSe 2014
Holger Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Es besteht ein enger Zusammenhang zwischen linearer Regression
und Korrelation
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Ist b̂1 die Schätzung im linearen Regressionsmodell und r der
Korrelationskoeffizient von Pearson, dann gilt:
sP
n
(xi − x · )2
· b̂1
r = Pni=1
2
i=1 (yi − y · )
I
Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient
von Pearson, dann gilt:
r 2 = R2
153 / 153
Herunterladen