Methodenlehre II, SS 2009 - Ruhr

Werbung
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Methodenlehre II, SS 2009
2. Korrelation, Lineare
Regression und
multiple Regression
Prof. Dr. Holger Dette
Ruhr-Universität Bochum
23. Mai 2011
1 / 178
Methodenlehre II
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Prof. Dr. Holger Dette
NA 3/73
I
Telefon: 0234 322 8284
I
Email: [email protected]
I
Internet: www.ruhr-uni-bochum.de/mathematik3/index.html
I
Vorlesung: Montag, 8.30–10.00 Uhr, HGA 10
I
Thema: Das allgemeine lineare Modell und seine Anwendungen
in der Psychologie
I
2. Korrelation, Lineare
Regression und
multiple Regression
2 / 178
Statistik-Team
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Übung: Dienstag, 12.15–13.00 Uhr, HGA 30
Tobias Kley: [email protected]
I
Tutorium: SPSS
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Lars Kuchinke: [email protected]
GAFO 04/615 Mo. 10.00–12.00 Uhr
GAFO 04/615 Mo. 12.00–14.00 Uhr
Marco Grabemann: [email protected]
GA 1/128 Mo. 12.00–14.00 Uhr
GAFO 04/271 Fr. 12.00–14.00 Uhr
Cäcilia Werschmann: cilly [email protected]
GAFO 04/615 Fr. 12.00–14.00 Uhr
Igor Ivanov: [email protected]
3 / 178
Das allgemeine lineare Modell:
Ein mathematisches Modell - viele statistische
”
Verfahren“
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Inhaltsverzeichnis
1. Grundlegende Prinzipien der schließenden Statistik am Beispiel
des t-Tests
2. Das lineare Regressionsmodell, multiple Regression und
Korrelation
3. Das allgemeine“ lineare Modell
”
4 / 178
Literatur
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
A. Aron, E.N. Aron, E.J. Coups, Statistics for Psychology,
5th Edition, Pearson Prentice Hall
2. Korrelation, Lineare
Regression und
multiple Regression
J. Bortz, Statistik, 6. Auflage, Springer
M. Rudolf, J. Müller, Multivariate Verfahren, Hogrefe
P. Zöfel, Statistik für Psychologen, Pearson Studium
5 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende Prinzipien der schließenden
Statistik am Beispiel des t-Tests
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
1.1 Schätzer und Konfidenzintervalle
2. Korrelation, Lineare
Regression und
multiple Regression
1.2 t-Test für eine Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
6 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.1 Schätzer und Konfidenzintervalle
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
7 / 178
1.1 Beispiel: Intelligenzquotient
Fragestellung: Haben (15-jährige) Kinder aus Bochum einen
höheren Intelligenzquotienten als 100?
I
10 Kinder (zufällig ausgewählt) machen einen IQ-Test
Daten: y1 , . . . , y10 Stichprobe
i
yi
i
yi
I
1
104
6
107
2
98
7
100
3
106
8
97
4
99
9
108
5
110
10
112
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Hypothese (IQ der Kinder ist niedriger als 100):
H0 : µ ≤ 100
Alternative (IQ ist höher als 100):
H1 : µ > 100
Dabei ist µ der (unbekannte) Erwartungswert der
Gesamtpopulation der (15-jährigen) Kinder aus Bochum
8 / 178
Prinzip der schließenden Statistik
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Auf Grund der Stichprobe y1 , . . . , y10 sollen Aussagen über das
Merkmal der Grundgesamtheit getroffen werden. Zum Beispiel
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Wie groß ist µ (Schätzung)?
I
Kann man ein Intervall bestimmen, in dem µ liegt
(Konfidenzintervall)?
I
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Gilt
H0 : µ ≤ 100
(IQ ist nicht höher)
H1 : µ > 100
(IQ ist höher)?
oder gilt
(statistischer Test)
9 / 178
Grundlegende Schwierigkeit:
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
µ ist der Erwartungswert der Population der 15-jährigen Kinder
I
Auf Basis der Stichprobe soll auf die Grundgesamtheit
geschlossen werden
−→ Fehler, Unsicherheiten sind möglich!
I
Beispiel: zufällig“ wählen wir 5 hochbegabte Kinder (IQ ≥ 130)
”
für die Stichprobe aus. Vermutlich wird dadurch µ überschätzt!
I
Ziel der schließenden Statistik:
Quantifizierung der Unsicherheit, z. B.
mit welcher Wahrscheinlichkeit macht ein statistischer Test
einen Fehler, falls (aufgrund von Daten) für H1 (IQ ist höher als
100) entschieden wird, obwohl in Wirklichkeit H0 gilt?
I
Notwendig für diese Quantifizierung:
Mathematische Modellannahmen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
10 / 178
Zusätzliche Modellannahme: Normalverteilung
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Allgemein gängige Annahme: Intelligenz in einer bestimmten
Altersgruppe der Bevölkerung ist normalverteilt
1
1 x −µ 2
ϕ(x ) = √
)
exp − (
2
σ
2πσ 2
µ : Erwartungswert
σ 2 : Varianz
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Deutung: Ist Y der IQ eines zufällig aus der Population
ausgewählten Individuums, so gilt
Z
P(a ≤ Y ≤ b) =
b
ϕ(x )dx
a
I
Diese Modellannahme sollte man stets rechtfertigen (wie man
das machen kann, sehen wir später)
11 / 178
Interpretation der Wahrscheinlichkeiten:
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
a
I
I
b
Die Wahrscheinlichkeit, dass eine Beobachtung zwischen den
Werten a und b liegt, entspricht der Fläche unter der Kurve im
Intervall [a, b].
In Formeln:
Z
b
P(a ≤ Y ≤ b) =
ϕ(x )dx
a
12 / 178
Verschiedene Normalverteilungen N(µ, σ 2 )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Dichten der Normalverteilung mit verschiedenen Parametern
0.5
N(0,0.707)
N(0,1)
N(1,1.25)
N(2,2)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.4
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
0.2
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
2
4
6
I
µ: Erwartungswert
I
σ 2 : Varianz
I
Beachte: unter jeder Kurve ist die Fläche genau 1
13 / 178
Motivation der Modellannahme der
Normalverteilung
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
14 / 178
Zusätzliche Modellannahme: Normalverteilung
I
Mathematisches Modell (hier n = 10): y1 , . . . , yn sind
Realisierungen von Zufallsvariablen
Yi = µ + εi ,
i = 1, . . . , m
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
I
I
I
I
yi : IQ-Messung für i-tes Kind
(Realisation der Zufallsvariablen Yi )
µ: (unbekannter) Erwartungswert der Population
(hier der 15-jährigen Kinder aus Bochum)
ε1 , . . . , εn : unabhängige Zufallsvariable, normalverteilt mit
Erwartungswert 0 und Varianz σ 2 .
Interpretation: Messfehler, genetische Variabilität, Tagesform ...
Mathematische Statistik z. B. Maximum Likelihood (in diesem
Beispiel auch der gesunde Menschenverstand) liefert Schätzer
für µ:
n
1X
yi = 104.1
µ̂ = y · =
n
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
I
Wie genau ist diese Schätzung? Wie sehr streut diese
Schätzung?
15 / 178
Zusätzliche Modellannahme: Normalverteilung
I
I
I
Maß für die Genauigkeit: Varianz (je kleiner die Varianz, desto
genauer“ die Schätzung)
”
Mathematische Statistik (Methodenlehre I): die Varianz des
Schätzers µ̂ ist:
σ2
Var (µ̂) =
n
Beachte:
I
I
I
Je größer der Stichprobenumfang n, desto kleiner die Varianz
von µ̂. D.h. desto genauer ist die Schätzung.
Für die Beurteilung der Genauigkeit muss man die Varianz σ 2
der Population kennen.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Mathematische Statistik: Schätzung für den Parameter σ 2
n
σ̂ 2 =
1 X
(yi − y · )2 = 28.32
n − 1 i=1
σ̂µ2 =
σ̂ 2
= 2.832
n
16 / 178
Zusätzliche Modellannahme: Normalverteilung
I
Oft wird der Schätzer zusammen mit dem Standardfehler
angegeben
µ̂ = 104.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
µ̂ + σ̂µ = 105.78
1.2 t-Test für eine
Stichprobe
µ̂ − σ̂µ = 102.42
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
I
I
q
2
σ̂µ = √σ̂n = σ̂n = 1.683 ist der Standardfehler des Schätzers
µ̂ (Schätzung für Streuung des arithmetischen Mittels)
σ̂ = 5.322 ist die aus den Daten geschätzte
Standardabweichung (Schätzung für die Streuung einer
einzelnen Beobachtung)
Deutung: Vor der Datenerhebung ist µ̂ zufällig. Falls die
Normalverteilungsannahme korrekt ist, ist auch µ̂ normalverteilt
mit:
2. Korrelation, Lineare
Regression und
multiple Regression
- Erwartungswert µ
2
- Varianz σn
17 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
0.14
Verschiedene Normalverteilungen
Y1 ~ N (104.1, 28.32)
0.12
(Y1 + Y2)
2 ~ N (104.1, 28.32/2)
10
( ∑ Yi)
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.08
1.4 Einfaktorielle
Varianzanalyse
0.02
0.04
0.06
2. Korrelation, Lineare
Regression und
multiple Regression
0.00
Dichte
0.10
i=
=1
10 ~ N (104.1, 2.832)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
40
60
80
100
120
140
160
x
18 / 178
Methodenlehre II, SS
2009
1.2 Schätzverfahren (Erwartungswert einer Population
unter Normalverteilungsannahme)
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
Pn
µ̂ = n1 i=1 yi Schätzung für den Erwartungswert µ der
Population
Pn
1
2
σ̂ 2 = n−1
i=1 (yi − y · ) Schätzung für die Varianz der
Population (σ̂ Schätzung für die Standardabweichung)
I
I
σ̂ 2
n
I
σ̂µ2 =
I
Schätzung für den Standardfehler von µ̂ : σ̂µ =
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Schätzung für die Varianz von µ̂
q
σ̂ 2
n
=
σ̂
√
n
19 / 178
SPSS-Output: die Schätzer für die Daten aus
Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Deskriptive Statistik
N
Mittelwert
Statistik
Statistik
Standardfehler
Intelligenzquotient
10
104,10
1,683
Gültige Werte
(Listenweise)
10
Standardabweichung
Varianz
Statistik
Statistik
5,322
28,322
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ = 104.1(Mittelwert)
σ̂µ = 1.683(Standardfehler)
σ̂ 2 = 28.322(empirische Varianz)
σ̂ = 5.322(Standardabweichung)
20 / 178
Beachte:
Methodenlehre II, SS
2009
I
Prof. Dr. Holger
Dette
µ̂ =
n
1X
yi ;
n i=1
n
σ̂ 2 =
1 X
(yi − y · )2 ;
n − 1 i=1
r
σ̂µ =
σ̂ 2
n
hängen von den Daten y1 , . . . , yn ab (sind also vor
Datenerhebung zufällig)
I
µ̂ − a σ̂µ , µ̂ + a σ̂µ
ist (vor der Datenerhebung) ein zufälliges Intervall, das mit
einer bestimmten Wahrscheinlichkeit den Erwartungswert µ
enthält
I
a −→ 0
=⇒ Wahrscheinlichkeit ≈ 0
a −→ ∞
=⇒ Wahrscheinlichkeit ≈ 1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Gesucht: zufälliges Intervall, das den unbekannten
Erwartungswert mit einer vorgegebenen Wahrscheinlichkeit
enthält: Konfidenzintervall
21 / 178
Das Konfidenzintervall
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Gebe eine Wahrscheinlichkeit 1 − α vor (z. B. 1 − α = 95%)
I
Bestimme a so, dass das zufällige Intervall
(µ̂ − a σ̂µ , µ̂ + a σ̂µ )
den Parameter µ mit Wahrscheinlichkeit 1 − α enthält.
I
Mathematische Statistik liefert
a = tn−1,1− α2
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
(1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden
I
Diese Werte sind tabelliert oder durch Software verfügbar.
I
Das Intervall
I = µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ
heißt (1 − α) Konfidenzintervall für µ.
22 / 178
Methodenlehre II, SS
2009
Verschiedene t-Verteilungen
Prof. Dr. Holger
Dette
0.4
Dichten der t– Verteilung mit verschiedenen Freiheitsgraden
t 100
t4
t1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
1.4 Einfaktorielle
Varianzanalyse
0.0
0.1
2. Korrelation, Lineare
Regression und
multiple Regression
-4
-2
0
1 Γ((n + 1)/2)
fn (t) = √
Γ(n/2)
πn
2
4
−(n+1)/2
t2
1+
n
23 / 178
Methodenlehre II, SS
2009
Das Quantil der t-Verteilung mit n
Freiheitsgraden
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Dichte der t4 -Verteilung
1.1 Schätzer und
Konfidenzintervalle
0.4
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.3
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.95
t
-4
-2
0
Z
2
4, 0.95
= 2.132
4
t4,0.95
P(T4 ≤ t4,0.95 ) =
f4 (t)dt = 0.95
−∞
24 / 178
Beispiel 1.3 (Fortsetzung von Beispiel 1.1)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
Berechnung eines 90% Konfidenzintervalls für µ
µ̂ = 104.1,
σ̂ 2 = 28.32
I
n = 10,
I
α = 10%
I
(aus Tabelle bzw. Software) t9,0.95 = 1.833
I
90% Konfidenzintervall für µ = (101.02, 107.18)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
I
Ein (1 − α)-Konfidenzintervall ist ein zufälliges“ Intervall, das
”
den (unbekannten) Erwartungswert mit Wahrscheinlichkeit
1 − α enthält.
Die Aussage das Intervall (101.02, 107.18) enthält den
”
unbekannten Erwartungswert der Population mit
Wahrscheinlichkeit 90%“ hat keinen Sinn!
25 / 178
Erklärung des Begriffs zufälliges“ Intervall durch
”
ein fiktives“ Experiment
”
I
I
Annahme: das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
jeweils 10 Daten liefern ein (1 − α)-Konfidenzintervall
(z. B. 95 % Konfidenzintervall)
Datensatz 1 −→ Konfidenzintervall I1
Datensatz 2 −→ Konfidenzintervall I2
..
.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Konfidenzintervall IN
I
ca. (1 − α) · N (z. B. 95% · 1000 = 950) Intervalle enthalten den
(unbekannten) Erwartungswert µ der Population
26 / 178
Methodenlehre II, SS
2009
1.4 Konfidenzbereich für den Erwartungswert einer Population unter Normalverteilungsannahme
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
I
Bestimme das tn−1,1− α2 Quantil der t-Verteilung mit n − 1
Freiheitsgraden (aus Tabelle oder Software)
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Das Intervall
(µ̂ − tn−1,1− α2 σ̂µ , µ̂ + tn−1,1− α2 σ̂µ )
ist ein (1 − α) Konfidenzintervall für µ
I
In vielen Softwarepaketen erhält man direkt das
Konfidenzintervall als Ausgabe (z. B. in SPSS)
27 / 178
SPSS-Output: Konfidenzintervall für die Daten
aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Test bei einer Sichprobe
1.2 t-Test für eine
Stichprobe
Testwert = 100
90% Konfidenzintervall der
Differenz
T
Intelligenzquotient
2,436
df
Sig. (2-seitig)
9
,038
Mittlere
Differenz
4,100
Untere
1,02
Obere
7,18
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur ein Konfidenzintervall für die Differenz µ − 100
=⇒ 90% Konfidenzintervall für den Erwartungswert µ
(101.02, 107.18)
28 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.2 t-Test für eine Stichprobe
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
29 / 178
Beispiel 1.5 (Fortsetzung von Beispiel 1.1)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Frage: Ist der IQ der Kinder aus Bochum höher als 100?
H0 : µ ≤ 100
H1 : µ > 100
H0 nennt man Nullhypothese und H1 heißt Alternative.
I
I
I
Intuitiv würde man für H1 entscheiden, falls der Mittelwert der
Stichprobe
10
1 X
µ̂ =
yi
10 i=1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
groß“ ist
”
Beachte: µ̂ ändert sich, falls man die Daten anders skaliert!
Besser: entscheide für H1 , falls µ̂ groß im Verhältnis zu dem
Standardfehler σ̂µ ist (Invarianz bzgl. unterschiedlicher
Skalierungen)
30 / 178
Methodenlehre II, SS
2009
Die Nullhypothese H0 : µ ≤ 100 wird abgelehnt falls
µ̂ − 100
T =
>c
σ̂µ
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Fragen:
I
Wie legt man den kritischen Wert c fest?
I
Bei dem Verfahren können 2 Fehler auftreten
I
Fehler erster Art: Die Nullhypothese H0 wird abgelehnt, obwohl
H0 in Wirklichkeit stimmt (d. h. der IQ ist nicht höher als 100)
I
Fehler zweiter Art: Die Nullhypothese H0 wird nicht abgelehnt,
obwohl in Wirklichkeit die Alternative H1 zutrifft (d. h. der IQ ist
höher als 100)
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Ziel: kleine“ Wahrscheinlichkeiten für Fehler erster und zweiter Art
”
31 / 178
Grundlegendes Prinzip der Testtheorie
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Der kritische Wert c wird festgelegt, indem man eine maximal
tolerierbare Wahrscheinlichkeit α für einen Fehler erster Art
vorgibt (α-Fehler)!
I
Diese Wahrscheinlichkeit heißt Niveau des Tests.
I
Damit hat man keine Kontrolle über die Wahrscheinlichkeit eines
Fehlers zweiter Art (β-Fehler)
I
Z. B. soll die Wahrscheinlichkeit für Fehler erster Art maximal
α = 5% = 0.05 sein.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
=⇒ (mathematische Statistik, Tabelle, Software)
n = 10, c = tn−1,1−α = t9,0.95 = 1.833
µ̂ − 100
104.1 − 100
T =
= 2.436 > 1.833
= √
σ̂µ
2.832
D. h. die Nullhypothese H0 : µ ≤ 100 wird zum Niveau α = 5%
zu Gunsten der Alternative H1 : µ > 100 verworfen
(signifikantes Ergebnis zum Niveau 5 %)
32 / 178
Erklärung des Begriffs Niveau durch ein fiktives“
”
Experiment
I
I
Annahme: Das Experiment (Untersuchung des IQ von 10
Kindern) kann N mal (unabhängig) wiederholt werden (z. B.
1000 mal)
jeweils 10 Daten liefern ein Ergebnis für den Test zum Niveau α
(z.B. Niveau 5 %)
Datensatz 1 −→ Testergebnis 1
Datensatz 2 −→ Testergebnis 2
..
.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Datensatz N −→ Testergebnis N
I
Falls die Nullhypothese H0 : µ ≤ 100 wahr“ ist, so wird
”
maximal in ca. αN (z. B. 5% 1000 = 50) Fällen für die
Alternative
H1 : µ > 100
entschieden.
33 / 178
Fehler erster und zweiter Art
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Entscheidung aufgrund der Stichprobe zugunsten
von:
H0
H1
in der Population gilt
H0
H1
richtige
β-Fehler
Entscheidung
richtige
α-Fehler
Entscheidung
Beachte:
I
Die Wahrscheinlichkeiten für α-Fehler und β-Fehler verändern
sich gegenläufig.
I
Bei festem Niveau (Wahrscheinlichkeit für α-Fehler) kann die
Wahrscheinlichkeit für einen β-Fehler durch Vergrößerung des
Stichprobenumfangs verkleinert werden.
I
Bei festem Stichprobenumfang wird nur“ der Fehler erster Art
”
kontrolliert.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
34 / 178
Die Verteilung von T falls µ = 100 ist.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
0.3
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
0.2
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
0.1
p– Wert
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
α=5%
t
-3
I
I
I
I
-2
-1
0
9, 0.95
1
= 1.833
T n = 2.436
2
3
Kritischer Wert: tn−1,0.95 = 1.833 (H0 wird verworfen, falls T
größer als der kritische Wert ist)
Blaue Fläche: Niveau (α)
Rote Fläche: p-Wert: Wahrscheinlichkeit einen Wert größer als
2.436 zu beobachten: P(T > 2.436) = 0.0188
Beachte: Ist der p-Wert < α (wie in diesem Beispiel) dann wird
H0 abgelehnt (signifikantes Ergebnis)
35 / 178
Testverfahren für den Erwartungswert einer
Stichprobe unter Normalverteilungsannahme
1.6 Einstichproben t-Test für rechtsseitige Hypothesen
I
Hypothesen: H0 : µ ≤ µ0 ;
Hypothese)
H1 : µ > µ0 (rechtsseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
> tn−1,1−α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
36 / 178
Vertauschen der Hypothesen
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1.7 Einstichproben t-Test für linksseitige Hypothesen
I
Hypothesen: H0 : µ ≥ µ0 ;
Hypothese)
H1 : µ < µ0 (linksseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
T =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
< −tn−1,1−α = tn−1,α
σ̂µ
gilt, bzw. falls der p-Wert < α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
37 / 178
Tests für zweiseitige Hypothesen
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1.8 Einstichproben t-Test für zweiseitige Hypothesen
I
Hypothesen: H0 : µ = µ0 ;
Hypothese)
H1 : µ 6= µ0 (zweiseitige
I
Daten y1 , . . . , yn (Stichprobe) mit Erwartungswert µ
I
Rechtfertigung der Unabhängigkeits- und
Normalverteilungsannahme
I
H0 wird zum Niveau α verworfen, falls
|T | = |
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
µ̂ − µ0
| > tn−1,1−α/2
σ̂µ
gilt, bzw. falls der p-Wert kleiner als α ist.
I
µ̂: Schätzer für µ; σ̂µ : Schätzer für den Standardfehler von
µ̂
38 / 178
Die Verteilung von T , falls µ = 100 ist.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Dichte der t9 -Verteilung
0.4
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.3
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
1.4 Einfaktorielle
Varianzanalyse
p– Wert
0.1
p– Wert
α = 2,5 %
0.0
α = 2,5 %
2. Korrelation, Lineare
Regression und
multiple Regression
-T n = -2.436
-3
I
I
t
9, 0.025
-2
= -2.262
-1
t
0
1
9, 0.975
= 2.262
2
T n = 2.436
3
Blaue Fläche: Niveau α; Rote Fläche: p-Wert
(Wahrscheinlichkeit einen Wert zu beobachten, dessen Betrag
größer als 2.436 ist P(|T | > 2.436) = 0.038
Beachte: Ist der p-Wert < α (wie in diesem Beispiel), dann wird
H0 abgelehnt!
39 / 178
SPSS-Output bei Anwendung des t-Tests auf die
Daten aus Beispiel 1.1 (Intelligenzquotient)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Test bei einer Sichprobe
1.3 Zweistichprobenprobleme
Testwert = 100
90% Konfidenzintervall der
Differenz
T
Intelligenzquotient
2,436
df
Sig. (2-seitig)
9
,038
Mittlere
Differenz
4,100
Untere
Obere
1,02
7,18
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
SPSS liefert nur den p-Wert für den zweiseitigen t-Test aus
Beispiel 1.8!
I
Den p-Wert für den einseitigen Test erhält man als
0.038/2 = 0.019.
40 / 178
Methodenlehre II, SS
2009
Beispiel: t-Test für den Vergleich von zwei
verbundenen“ Stichproben
”
I
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Eine der wichtigsten Anwendungen der in 1.6, 1.7 und 1.8
vorgestellten Verfahren besteht in dem Vergleich von
verbundenen“ Stichproben (vorher - nachher Untersuchungen)
”
Beispiel: Untersuchung der Einstellungen von 9 Jungen
gegenüber neutralen Personen vor und nach einem
Frustrationserlebnis (Sündenbockfunktion).
Einstellung
VPn
vorher
nachher
∆
1
38
33
-5
2
32
28
-4
3
33
34
1
4
28
26
-2
5
29
27
-2
6
37
31
-6
7
35
32
-3
8
35
36
1
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
9
34
30
-4
41 / 178
Prinzip: Differenzenbildung“
”
I
Prinzip:
I
I
I
I
Falls kein Unterschied zwischen den Einstellungen vor und nach
dem Frustrationserlebnis besteht sollten die Differenzen (nachher
- vorher) klein“ sein.
”
Durch Differenzenbildung (nachher - vorher) erhält man die
Daten“ ∆1 , . . . , ∆9
”
Rechtfertigung der Voraussetzungen für den t-Test aus 1.8 für
diese Daten“.
”
Wende den t-Test für eine Stichprobe auf die Daten“
”
∆1 , . . . , ∆9 an und teste die Hypothesen
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
H0 : µ = 0, H1 : µ 6= 0
I
Wegen
−2.667 = 3.27 > 2.31 = t8,0.975
|T | = 0.816 besteht zum Niveau α = 0.05 ein signifikanter Unterschied.
42 / 178
SPSS Output: t-Test für gepaarte Stichproben
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Statistik bei gepaarten Stichproben
Mittelwert
Paaren 1
N
Standardabweichung
Standardfehler
des Mittelwertes
vorher
33,44
9
3,358
1,119
nachher
30,78
9
3,346
1,115
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Korrelationen bei gepaarten Stichproben
N
Paaren 1
vorher & nachher
9
Korrelation
Signifikanz
,733
,025
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Test bei gepaarten Stichproben
Gepaarte Differenzen
95%
Konfidenzintervall
der Differenz
Paaren 1
Mittelwert
Standardabweichung
Standardfehler
des Mittelwertes
Untere
Obere
2,667
2,449
,816
,784
4,550
vorher - nachher
Test bei gepaarten Stichproben
T
Paaren 1
vorher - nachher
3,266
df
8
Sig.
(2-seitig)
,011
43 / 178
1.9 Bemerkungen (zu den statistischen Verfahren
1.2, 1.4, 1.6, 1.7, 1.8)
I
Mathematische Statistik ⇒ unter der Normalverteilungsannahme
sind alle hier vorgestellten Verfahren optimal
I
Die Normalverteilungsannahme kann (und sollte) man
rechtfertigen. Mögliche Verfahren sind:
I
statistische Tests für die Hypothese
H0 : Y1 , . . . , Yn
normalverteilt
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
In SPSS üblich sind
- Kolmogorov-Smirnov-Test
- Shapiro-Wilk Test
I
I
Explorative Verfahren. In SPSS üblich: QQ-Plot
Besteht die Normalverteilungsannahme diese Überprüfung nicht,
so sind z. B. nichtparametrische Verfahren anzuwenden.
44 / 178
Methodenlehre II, SS
2009
SPSS Output: QQ-Plot für die Daten aus
Beispiel 1.1
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Q-Q-Diagramm von Normal von Intelligenzquotient
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
115
1.3 Zweistichprobenprobleme
Erwarteter Wert von Normal
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
110
105
100
95
95
100
105
Beobachteter Wert
110
115
45 / 178
Methodenlehre II, SS
2009
Der QQ-Plot
I
I
Unter der Modellannahme gilt: die Größen Yi sind normalverteilt
mit Erwartungswert µ und Varianz σ 2
Der QQ-Plot vergleicht grafisch die empirischen Quantile der
Daten“ y1 , . . . , yn mit den Quantilen der Normalverteilung mit
”
Erwartungswert
µ̂ und Varianz σ̂ 2 .
(1) 1/n-Quantil der Stichprobe y1 , . . . yn =⇒ kleinste der
Beobachtungen y(1) (in Beispiel 1.1 ist y(1) = 97)
(1 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (im Beispiel 1.1 ist
z(1) = 104.1 − 1.64 · 5.32 = 95.37)
(2) 2/n-Quantil der Stichprobe y1 , . . . , yn =⇒ zweitkleinste der
Beobachtungen y(2) (in Beispiel 1.1 ist y(2) = 98)
(2 − 1/2)/n-Quantil der Normalverteilung mit Erwartungswert µ̂
und Varianz σ̂ 2 =⇒ (in Beispiel 1.1 ist
z(2) = 104.1 − 1.04 · 5.32 = 98.57)
(3) usw.
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Der QQ-Plot ist das Streudiagramm der Daten
(y(1) , z(1) ), . . . , (y(n) , z(n) )
I
In in vielen Fällen enthält dieses Diagramm noch die
Winkelhalbierende des entsprechenden Quadranten.
46 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
47 / 178
1.10 Beispiel: Erkennen von Zahlenreihen
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
Studierende der Fachrichtungen Mathematik (M) und
Psychologie (P) machen einen Zahlengedächtnistest
I
Wie viele Ziffern können sich maximal gemerkt werden
I
Wiedergabe in Original und umgekehrter Reihenfolge
I
14
13
14
14
14
17
15
13
15
12
12
13
13
16
16
19
16
13
17
10
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Daten (P. Zöfel: Statistik für Psychologen)
M
P
M
P
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
13
16
Frage: Haben Studierende der Mathematik ein besseres
Zahlengedächtnis als Studierende der Psychologie?
48 / 178
Mathematisches Modell (n1 = 14, n2 = 8)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie i = 2)
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2)
εij : Messfehler, Tagesform ...
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
ni : Stichprobenumfang in Gruppe i
I
Normalverteilungs- und Unabhängigkeitsannahme
I
in jeder Gruppe (i = 1, 2) liegt eine Normalverteilung mit
Erwartungswert µi und Varianz σi2 vor
I
in jeder Gruppe sind die Beobachtungen unabhängig
I
unabhängige Stichproben
49 / 178
Methodenlehre II, SS
2009
Schätzer
I
Schätzer werden wie in 1.2 für jede Gruppe
Pn1 durchgeführt
Mathematiker (i = 1): µ̂1 = y 1· = n11 j=1
y1j = 14.64
s
n1
X
1
σ̂12
= 0.53
σ̂12 =
(y1j − y 1· )2 = 3.94 ⇒ σ̂µ1 =
n1 − 1 j=1
n1
Psychologen (i = 2): µ̂2 = y 2· =
σ̂22 =
I
1
n2 − 1
n2
X
j=1
1
n2
n2
P
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
y2j = 13.75
1.4 Einfaktorielle
Varianzanalyse
j=1
s
(y2j − y 2· )2 = 4.79 ⇒ σ̂µ2 =
σ̂22
n2
2. Korrelation, Lineare
Regression und
multiple Regression
= 0.77
Auch Konfidenzbereiche werden gruppenweise bestimmt
z. B. ist unter Normalverteilungsannahme
µ̂1 − tn1 −1,1− α2 σ̂µ1 , µ̂1 + tn1 −1,1− α2 σ̂µ1
ein 90% Konfidenzintervall für µ1 . Für das spezielle
Datenbeispiel ergibt sich [n1 = 14, α = 10%, t13,0.95 = 1.77 (aus
Tabelle)]
(13.70, 15.58) als 90% Konfidenzintervall für µ1
50 / 178
SPSS-Output für die Daten aus Beispiel 1.10
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Schätzer für die Parameter in den einzelnen Gruppen
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Gemerkte Zahlen
Studienfach
Mathematik
Mittelwert
Varianz
14,64
3,940
Psychologie
13,75
4,786
Insgesamt
14,32
4,227
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert hier die Schätzer für Erwartungswert und Varianz
der einzelnen Gruppen
I
SPSS liefert außerdem Schätzer für Erwartungswert und Varianz
der gesamten Stichprobe
51 / 178
Tests zum Vergleich der Erwartungswerte
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Nullhypothese: Zahlengedächtnis der Psychologiestudenten ist
nicht schlechter als das der Mathematikstudenten
H0 : µ1 ≤ µ2
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
Alternative: Zahlengedächtnis der Mathematikstudenten ist
besser als das der Psychologiestudenten
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : µ1 > µ2
I
Rezept: Verwerfe die Nullhypothese H0 zu Gunsten der
Alternative H1 , falls die Differenz
y 1· − y 2·
der Schätzer für die Erwartungswerte groß“ ist.
”
52 / 178
Rezept im Fall von Varianzhomogenität, d. h.
(σ12 = σ22 )
I
I
Verwerfe H0 zu Gunsten von H1 , falls y 1· − y 2· groß“ ist.
”
Normiere diese Größe mit einem Schätzer für die Standardfehler
der Mittelwertdifferenz:
q
I
I
I
1
)σ̂ 2
n2
1
{(n1 − 1)σ̂12
n1 +n2 −2
σ̂µ1 −µ2 =
( n11 +
+ (n2 − 1)σ̂22 }: Schätzer für Varianz
σ̂ 2 =
(die in beiden Gruppen dieselbe ist)
Entscheide für die Alternative H1 : µ1 > µ2 , falls
Tn1 ,n2 =
I
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
gilt. Dabei ist tn1 +n2 −2,1−α das (1 − α)-Quantil der t-Verteilung
mit n1 + n2 − 2 Freiheitsgraden
Im Beispiel ergibt sich für einen Test zum Niveau α = 5%
σ̂ 2 = 4.24,
t20,0.95 = 1.725 =⇒ T14,8 = 0.979
d. h. die Hypothese H0 kann nicht verworfen werden.
53 / 178
Testverfahren für die Erwartungswerte von zwei
Stichproben unter Normalverteilungsannahme
1.11(a) Einseitiger t-Test für zwei unabhängige Stichproben (rechtsseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≤ µ2 wird zu Gunsten der
Alternative H1 : µ1 > µ2 verworfen, falls
y 1· − y 2·
> tn1 +n2 −2,1−α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
54 / 178
Methodenlehre II, SS
2009
1.11(b) Einseitiger t-Test für zwei unabhängige Stichproben (linksseitige Hypothese)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Hypothese H0 : µ1 ≥ µ2 wird zu Gunsten der
Alternative H1 : µ1 < µ2 verworfen, falls
y 1· − y 2·
< −tn1 +n2 −2,1−α = tn1 +n2 −2,α
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
Tn1 ,n2 =
55 / 178
1.11(c) t-Test für zwei unabhängige Stichproben (zweiseitige Hypothesen)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
Varianzhomogenität, d. h. σ12 = σ22
Die Nullhypothese H0 : µ1 = µ2 (kein Unterschied der
Erwartungswerte in beiden Gruppen) wird zu Gunsten der
Alternative H1 : µ1 6= µ2 verworfen, falls
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
|y 1· − y 2· |
> tn1 +n2 −2,1− α2
σ̂µ1 −µ2
q
gilt, bzw. der p-Wert < α ist. σ̂µ1 −µ2 = ( n11 + n12 )σ̂ 2 ist
der Schätzer für den Standardfehler der Mittelwertdifferenz.
|Tn1 ,n2 | =
56 / 178
Bemerkung zur Varianzhomogenität
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Ist die Annahme der Varianzhomogenität
σ12 = σ22
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
nicht erfüllt, so
1.3 Zweistichprobenprobleme
I
wird die vorgegebene Wahrscheinlichkeit für einen α-Fehler nicht
eingehalten (der Test hält sein Niveau nicht)
I
ist die Wahrscheinlichkeit für einen β-Fehler größer
I
von Interesse ist daher auch ein Test für die Hypothesen
H0 : σ12 = σ22
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
H1 : σ12 6= σ22
und ein Verfahren, das ohne die Annahme der
Varianzhomogenität auskommt.
57 / 178
Rezept (für Test auf Varianzhomogenität)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Die Nullhypothese H0 : σ12 = σ22 gilt genau dann, wenn
F =
I
I
σ12
=1
σ22
Schätze den Quotienten der beiden Varianzen, durch
Pn1
1
2
σ̂12
j=1 (y1j − y 1· )
n1 −1
Fn1 −1,n2 −1 = 2 = 1 Pn2
2
σ̂2
j=1 (y2j − y 2· )
n2 −1
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Nullhypothese H0 wird zu Gunsten der Alternative
H1 : σ12 6= σ22 verworfen, falls
Fn1 −1,n2 −1 > c2
oder Fn1 −1,n2 −1 < c1
gilt
I
Die kritischen Werte c1 und c2 werden so festgelegt, dass die
Wahrscheinlichkeit für einen Fehler erster Art maximal α ist!
58 / 178
1.12 F -Max-Test für den Vergleich von zwei Stichprobenvarianzen
I
Teststatistik
Fn1 −1,n2 −1 =
I
σ̂12
σ̂2
Die Nullhypothese
H0 : σ12 = σ22
(die Varianzen sind gleich) wird zu Gunsten der Alternative
H1 : σ12 6= σ22
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
verworfen, falls mindestens eine der Ungleichungen
Fn1 −1,n2 −1 < Fn1 −1,n2 −1, α2
Fn1 −1,n2 −1 > Fn1 −1,n2 −1,1− α2
erfüllt ist
I
Fn1 −1,n2 −1,β bezeichnet das β-Quantil der F -Verteilung mit
(n1 − 1, n2 − 1) Freiheitsgraden
59 / 178
Methodenlehre II, SS
2009
Verschiedene F -Verteilungen
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.0
Dichten der F– Verteilung mit verschiedenen Freiheitsgraden
F2, 10
F4, 4
F10, 1
F20, 20
1.1 Schätzer und
Konfidenzintervalle
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.6
1.4 Einfaktorielle
Varianzanalyse
0.0
0.2
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0
1
2
3
4
5
m
fm,n (x ) =
m m2
Γ( m+n
x 2 −1
2 )
m+n
m
n
Γ( 2 )Γ( 2 ) 2
(1 + mn x ) 2
(x ≥ 0)
60 / 178
Das Quantil der F -Verteilung mit (n1 , n2 )
Freiheitsgraden
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Dichte der F4, 4 -Verteilung
1.1 Schätzer und
Konfidenzintervalle
0.6
1.2 t-Test für eine
Stichprobe
0.5
1.3 Zweistichprobenprobleme
0.4
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0.1
0.2
0.3
0.9
F
0
1
2
3
Z
4, 4; 0.9
4
= 4.107
5
F4,4,0.9
P(F4,4 , ≤ F4,4,0.9 ) =
fm,n (x ) dx = 0.90
−∞
61 / 178
Der F -Test auf Varianzhomogenität für die
Daten aus Beispiel 1.10 (n1 = 14, n2 = 8)
I σ̂ 2
1
= 3.94
σ̂22
= 4.79
⇒
F13,7 = 0.823
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Für das Niveau α = 10% erhält man
F13,7,0.05 = 0.3531
F13,7,0.95 = 3.5503
und damit kann die Nullhypothese zum Niveau 10% nicht
verworfen werden
I
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte: Oft wird der Test 1.12 verwendet, um die
Voraussetzungen für den t-Test zu überprüfen
I
I
I
1.2 t-Test für eine
Stichprobe
In diesem Fall wählt man oft ein größeres Niveau (→ kleinere
Wahrscheinlichkeit für β-Fehler)
Der Gesamttest (erst F -Test, falls H0 nicht verworfen wird, dann
t-Test) hat nicht das Niveau α.
Was macht man, falls F -Test H0 verwirft?
62 / 178
Methodenlehre II, SS
2009
1.13(a) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
I
Daten
y11 , . . . , y1n1 (Gruppe 1; Erwartungswert µ1 ; Varianz σ12 )
y21 , . . . , y2n2 (Gruppe 2; Erwartungswert µ2 ; Varianz σ22 )
Rechtfertigung der Voraussetzungen
I
I
Unabhängigkeit in und zwischen den Gruppen
Normalverteilungsannahme (in beiden Gruppen)
I
Varianzen in den Gruppen sind nicht notwendig gleich
I
Teststatistik
TnW1 ,n2 =
I
Dabei ist
√
τ̂ =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
y 1· − y 2·
τ̂
s
τ̂ 2 =
Prof. Dr. Holger
Dette
σ̂12
σ̂ 2
+ 2
n1
n2
die Schätzung für den Standardfehler von y 1· − y 2·
63 / 178
Methodenlehre II, SS
2009
1.13(b) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≤ µ2
(Erwartungswert der ersten Population nicht größer als der
der Zweiten) wird zu Gunsten der Alternative
H1 : µ1 > µ2
falls
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
TnW1 ,n2 > tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
64 / 178
1.13(c) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
H0 : µ1 ≥ µ2
(Erwartungswert der ersten Population nicht kleiner als der
der Zweiten) wird zu Gunsten der Alternative
H1 : µ1 < µ2
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
verworfen, falls
TnW1 ,n2 < tfˆ,α = −tfˆ,1−α
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
65 / 178
1.13(d) t-Test für zwei unabhängige Stichproben mit
nicht notwendig gleichen Varianzen (Welch-Test)
I
Die Nullhypothese
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
H0 : µ1 = µ2
(kein Unterschied der Erwartungswerte in beiden Gruppen)
wird zu Gunsten der Alternative
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
H1 : µ1 6= µ2
1.4 Einfaktorielle
Varianzanalyse
(es besteht ein Unterschied) verworfen, falls
2. Korrelation, Lineare
Regression und
multiple Regression
|TnW1 ,n2 | > tfˆ,1− α
2
gilt, bzw. der p-Wert < α ist. Dabei bezeichnet
fˆ =
(σ̂µ2 1 + σ̂µ2 2 )2
4
σ̂µ
1
n1 −1
+
4
σ̂µ
2
n2 −1
die geschätzten Freiheitsgrade der t-Verteilung.
66 / 178
Bemerkung: t-Test oder Welch-Test?
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Sind die Voraussetzungen für den t-Test erfüllt
(Normalverteilung, Unabhängigkeit, Varianzhomogenität),
so ist dieses Verfahren optimal, d. h. dieser Test minimiert unter
allen Tests zum Niveau α die Wahrscheinlichkeit für einen
β-Fehler.
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
I
Ist die Voraussetzungen der Varianzhomogenität beim t-Test
nicht erfüllt, so wird die vorgegebene Wahrscheinlichkeit für
einen α-Fehler nicht eingehalten.
I
Der Welch-Test ist eine Näherungslösung“, d. h. die
”
Wahrscheinlichkeit für einen α-Fehler ist nur“
”
näherungsweise α.
I
Der Welch-Test hat im Fall der Varianzhomogenität eine größere
Wahrscheinlichkeit für einen β-Fehler als der t-Test.
2. Korrelation, Lineare
Regression und
multiple Regression
67 / 178
Methodenlehre II, SS
2009
SPSS-Output für die Daten aus Beispiel 1.10
Prof. Dr. Holger
Dette
Test bei unabhängigen Stichproben
Levene-Test der
Varianzgleichheit
F
Gemerkte Zahlen
Varianzen sind gleich
Signifikanz
,103
,752
Varianzen sind nicht gleich
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
T-Test für die Mittelwertgleichheit
T
df
Sig. (2-seitig)
,979
20
,339
,952
13,523
,358
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Test bei unabhängigen Stichproben
T-Test für die Mittelwertgleichheit
95% Konfidenzintervall der
Differenz
Mittlere
Differenz
Gemerkte Zahlen
Standardfehler
der Differenz
Untere
Obere
Varianzen sind gleich
,893
,912
-1,010
2,796
Varianzen sind nicht gleich
,893
,938
-1,125
2,911
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I SPSS liefert nicht den in 1.12 dargestellten F -Max Test auf
Varianzhomogenität sondern ein robustes“ Verfahren (Levene-Test)
”
I SPSS liefert nur einen p-Wert für den zweiseitigen t-Test aus Beispiel
1.11(c) bzw. zweiseitigen Welch-Test aus Beispiel 1.13(d)
I SPSS liefert ein Konfidenzintervall für die Differenz µ1 − µ2 =⇒ 95%
Konfidenzintervall für die Differenz der Erwartungswerte (unter der
Annahme gleicher Varianzen)
(−1.01, 2.796)
68 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle Varianzanalyse
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
69 / 178
1.14 Beispiel: Fortsetzung von Beispiel 1.10
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
An dem Zahlengedächtnistest (vgl. Beispiel 1.10) nehmen auch
noch 7 Studierende der Geisteswissenschaften (G) teil.
M 14 14 15 12 13 19 17 13
P 13 14 13 12 16 16 10 16
G 11 13 13 10 13 12 13
M 14 17 15 13 16 13
P
G
-
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Frage: Existieren Unterschiede hinsichtlich des
Zahlengedächtnisses zwischen dem Studierenden der
Psychologie, Mathematik und Geisteswissenschaften?
70 / 178
Mathematisches Modell (n1 = 14, n2 = 8, n3 = 7)
I
Yij := µi + εij ;
j = 1, . . . , ni ;
i = 1, 2, 3
Yij : Ergebnis der j-ten Versuchsperson in Gruppe i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
µi : unbekannter Erwartungswert in der Population i
(Mathematik: i = 1, Psychologie: i = 2,
Geisteswissenschaften: i = 3)
2
εij : Störgrößen (Erwartungswert 0 und Varianz σ )
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Normalverteilungs und Unabhängigkeitsannahme
I
I
I
I
Methodenlehre II, SS
2009
in jeder Gruppe (i = 1, 2, 3) liegt eine Normalverteilung mit
Erwartungswert µi vor
in jeder Gruppe sind die Beobachtungen unabhängig
unabhängige Stichproben
Nullhypothese
H0 : µ1 = µ2 = µ3
71 / 178
Methodenlehre II, SS
2009
Schätzer und Konfidenzbereiche
Prof. Dr. Holger
Dette
I
I
Schätzer für Erwartungswert und Varianz werden in den
einzelnen Gruppen durchgeführt
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Beispiel:
Mathematik (i = 1)
Psychologie (i = 2)
Geisteswissenschaften (i = 3)
y i·
14.64
13.75
12.14
σ̂i2
3.94
4.79
1.48
σ̂µi
0.53
0.60
0.46
I
µ̂1 = 14.64 ist Schätzer für den Erwartungswert der
”
Mathematiker“
I
Beachte: t6,0.95 = 1.943, µ̂3 + σ̂µ3 t6,0.95 = 13.03
µ̂3 − σ̂µ3 t6,0.95 = 11.25, also ist das Intervall
ni
14
8
7
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
[11.25, 13.03]
ein 90% Konfidenzintervall für den Erwartungswert der
”
Geisteswissenschaftler“
72 / 178
Methodenlehre II, SS
2009
SPSS Output
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Gemerkte Zahlen
Varianz
Standardfehler
des Mittelwertes
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Studienfach
Mathematik
Mittelwert
N
14,64
3,940
,530
14
Psychologie
13,75
4,786
,773
8
Geisteswissenschaften
12,14
1,476
,459
7
Insgesamt
13,79
4,384
,389
29
2. Korrelation, Lineare
Regression und
multiple Regression
73 / 178
Methodenlehre II, SS
2009
Prinzip der Varianzanalyse
I
Ziel: Test für die Hypothese es bestehen keine Unterschiede
”
zwischen den Gruppen“
H0 : µ1 = µ2 = µ3
I
Idee: Bestimme die Streuung der Daten:
I
Mittelwert aus allen Daten:
ni
1 XX
yij
n
i=1 j=1
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
3
y ·· =
Prof. Dr. Holger
Dette
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
wobei n = n1 + n2 + n3 = 29 die Gesamtzahl der Beobachtungen
bezeichnet.
Varianz (n = n1 + n2 + n3 )
ni
3
1 XX
(yij − y ·· )2
n−1
i=1 j=1
und versuche Unterschiede in der Merkfähigkeit aufgrund der
Gruppenzugehörigkeit durch eine Zerlegung der Streuung bzgl.
der Gruppen zu erklären!
74 / 178
Methodenlehre II, SS
2009
Prinzip der Varianzanalyse
Prof. Dr. Holger
Dette
I
Zerlegung der Summe der Quadrate
I
Häufig verwendete Abkürzungen: SS ≡ Sum of squares;
SAQ ≡ Summe der Abweichungsquadrate
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
I
Summe der Quadrate innerhalb der Gruppen (within groups)
SSR =
ni
3 X
X
(yij − y i· )
1.3 Zweistichprobenprobleme
2
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
i=1 j=1
und
y i· =
1.2 t-Test für eine
Stichprobe
ni
1 X
yij
ni
j=1
I
den Mittelwert aus den Beobachtungen der Grupe i bezeichnet.
Summe der Quadrate zwischen den Gruppen (between groups)
SSM =
3
X
ni (y i· − y ·· )2
i=1
75 / 178
Methodenlehre II, SS
2009
Prinzip der Varianzanalyse
Prof. Dr. Holger
Dette
I
Zerlege die Summe der Quadrate in eine durch das Modell
erklärte Summe (Varianz zwischen den Gruppen) und eine
Summe von Quadraten der nicht erklärten Varianz (Varianz
innerhalb der Gruppen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
SST =
ni
3 X
X
2. Korrelation, Lineare
Regression und
multiple Regression
(yij − y ·· )2
i=1 j=1
|
{z
}
Gesamtvarianz (Total)
=
ni
3 X
X
(yij − y i· )2
i=1 j=1
|
+
k
X
ni (y i· − y ·· )2
i=1
{z
}
Gesamtvarianz innerhalb der Gruppen
|
{z
}
Varianz zwischen den Gruppen
76 / 178
F -Test für die Hypothese H0 : µ1 = µ2 = µ3
(gleiche Erwartungswerte in den drei Gruppen)
I
Vergleiche die Varianz zwischen den Gruppen mit der Varianz
innerhalb der Gruppen
P3
F =
I
1
2
i=1 ni (y i· − y ·· )
3−1
P
P
n
3
i
1
2
i=1
j=1 (yij − y i· )
29−3
Falls F groß“ ist, wird die Nullhypothese H0 abgelehnt.
”
Mathematische Statistik ⇒ Test zum Niveau α verwirft die
Nullhypothese H0 , falls
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
F > F2,26,1−α
gilt (Vergleich mit dem (1 − α)-Quantil der F -Verteilung mit (2,
26) Freiheitsgraden), bzw. falls der zugehörige p-Wert des Tests
kleiner als α ist.
77 / 178
Beispiel 1.15 (Fortsetzung von Beispiel 1.14)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
Frage: besteht ein Unterschied zwischen den Studierenden der
”
Fächer Psychologie, Mathematik und Geisteswissenschaften
bzgl. des Zahlengedächtnisses“
Genauer: Besteht ein Unterschied zwischen den
Erwartungswerten der drei Gruppen: H0 : µ1 = µ2 = µ3
n1 = 14, n2 = 8, n3 = 7;
F̂ =
α = 5%
F2,26,0.95 = 3.37
SSM /2
14.6
=
= 4.06 > 3.37
SSR /26
3.6
I
D. h. die Hypothese: H0 : µ1 = µ2 = µ3 wird zum Niveau 5%
abgelehnt.
I
In anderen Worten: zwischen den Studierenden der
verschiedenen Fächer besteht ein Unterschied
I
Beachte: In vielen Fällen ist man an der Frage interessiert,
zwischen welchen Gruppen ein Unterschied besteht. Diese Frage
beantwortet der F -Test nicht!
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
78 / 178
Methodenlehre II, SS
2009
F -Verteilung
Prof. Dr. Holger
Dette
Dichte der F2,26 − Verteilung
1.0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
0.8
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
0.2
0.4
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
Dichte
0.6
1.4 Einfaktorielle
Varianzanalyse
^
F2,26,0.95 = 3.37 F
= 4.06
0
1
2
3
4
5
x
79 / 178
Methodenlehre II, SS
2009
F -Verteilung
Dichte der F2,26 − Verteilung (Zoom)
0.15
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
0.05
α = 5%
p−Wert
0.00
Dichte
0.10
1.1 Schätzer und
Konfidenzintervalle
F2,26,0.95 = 3.37
2.5
3.0
3.5
2. Korrelation, Lineare
Regression und
multiple Regression
^
F = 4.06
4.0
4.5
5.0
x
I
Blaue Fläche: Niveau des Tests
I
Rote Fläche: p-Wert (Wahrscheinlichkeit, dass ein Wert größer
als F̂ = 4.06 beobachtet wird)
80 / 178
Varianzanalysetabelle (k bezeichnet die Anzahl
der Gruppen)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Variabilität
Sum of Squares
df
SSM
SSR
SST
k −1
n−k
n−1
zwischen
innerhalb
gesamt
SS/df
SSM /(k − 1)
SSR /(n − k)
SST /(n − 1)
1.1 Schätzer und
Konfidenzintervalle
F
SSM
k−1
/
1.2 t-Test für eine
Stichprobe
SSR
n−k
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beispiel (Zahlengedächtnis)
Variabilität
zwischen
innerhalb
gesamt
Sum of Squares
29.2
93.6
122.8
df
2
26
28
SS/df
14.6
3.6
F
4.06
81 / 178
Methodenlehre II, SS
2009
SPSS Output
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Gemerkte Zahlen
Quadratsumme
Mittel der
Quadrate
df
Zwischen den Gruppen
29,187
2
14,594
Innerhalb der Gruppen
93,571
26
3,599
122,759
28
Gesamt
1.4 Einfaktorielle
Varianzanalyse
F
4,055
Signifikanz
,029
2. Korrelation, Lineare
Regression und
multiple Regression
82 / 178
Beispiel 1.16 (Fortsetzung von Beispiel 1.15)
I
I
I
I
I
Bei signifikantem Ergebnis der Varianzanalyse (d. h. die
Hypothese gleicher Erwartungswerte wird abgelehnt) stellt sich
die Frage:
Welche Gruppe ist maßgeblich für die Signifikanz
”
verantwortlich?“
Lösungsvorschlag: paarweise Vergleiche!
Gruppe 1 - Gruppe 2; H12 : µ1 = µ2
Gruppe 1 - Gruppe 3; H13 : µ1 = µ3
Gruppe 2 - Gruppe 3; H23 : µ2 = µ3
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Jeder Vergleich wird mit dem Zwei-Stichproben-t-Test (vgl.
1.11(b)) durchgeführt.
Dabei ist zu beachten, dass das Gesamtverfahren: Verwerfe die
Hypothese H0 : µ1 = µ2 = µ3 , falls mindestens ein Paarvergleich
signifikant ist das Niveau α einhält.
Die t-Tests für die paarweisen Vergleiche sind mit Niveau α/3
durchzuführen. Man dividiert durch 3, da 3 paarweise Vergleiche
durchgeführt werden (Bonferroni-Methode)
83 / 178
Paarweise Vergleiche mit Zwei-Stichproben
t-Tests (α = 5%):
I
Test-Statistik für den Vergleich von Gruppe i mit Gruppe j:
|Yi· − Yj· |
σ̂ij
1
1 1
σ̂ij2 =
+
{(ni − 1)σ̂i2 + (nj − 1)σ̂j2 }
ni
nj
ni + nj − 2
Ti,j =
i j
1 2
1 3
2 3
Beachte:
I
I
I
Ti,j
ni nj tni +nj −2,1−α0 /2
0.98 14 8
2.61
3.04 14 7
2.62
1.72
8 7
2.74
Die paarweisen Vergleiche werden
p-Wert signifikant
0.339
nein
0.007
ja
0.109
nein
zum Niveau α/3 =
5%/3 = 0.0167 durchgeführt ( 3 Vergleiche).
Mit dieser Methode kann man zum Niveau 5% einen
signifikanten Unterschied zwischen den Gruppen feststellen.
Bonferroni-Methode ist konservativ (d. h. das wirkliche Niveau
des Verfahrens wird unterschätzt).
Ist die Anzahl der Paarvergleiche groß, so ist dieses Verfahren
nicht zu empfehlen.
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
84 / 178
Post-Hoc-Test Bonferroni“ in SPSS
”
I
Verwendet andere Schätzung für den Standardfehler der
Differenz der Mittelwerte aus Gruppe i und j:
!
3
1
1
1 X
2
2
σ̄ij =
+
(nk − 1)σ̂k
ni
nj
n−3
k=1
I
An Stelle der Quantile der t-Verteilung mit ni + nj − 2
Freiheitsgraden müssen dann die Quantile der t-Verteilung mit
n − 3 Freiheitsgraden verwendet werden (n = n1 + n2 + n3 )
I
Das Niveau für die Paarvergleiche muss dann wieder durch die
Anzahl der Vergleiche dividiert werden (im Beispiel α/3)
I
Adjustierung der p-Werte erfolgt durch Multiplikation der
p-Werte aus den Paarvergleichen mit der Anzahl der Vergleiche.
Z. B.
0.894 = 3 · P(|T12 | > 0.893/0.841)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei berechnet sich die Wahrscheinlichkeit mit einer
t-Verteilung mit 26 = 29 − 3 Freiheitsgraden.
85 / 178
Methodenlehre II, SS
2009
SPSS Output paarweise Vergleiche mit der
Bonferroni-Methode
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
Mehrfachvergleiche
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Bonferroni
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Psychologie
Mathematik
Geisteswissenschaften
Geisteswissenschaften
Mathematik
Psychologie
Mittlere
Differenz (I-J)
Standardfehler
Signifikanz
Untergrenze
Obergrenze
,893
,841
,894
-1,26
3,04
,878
,026
,25
4,75
,841
,894
-3,04
1,26
2,500
*
-,893
1,607
-2,500
*
-1,607
,982
,341
-,91
4,12
,878
,026
-4,75
-,25
,982
,341
-4,12
,91
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
86 / 178
Scheffé-Methode (α = 5%)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Für den Vergleich der Gruppe i mit j betrachte:
s
3−1
1
1
ds (i, j) =
SSR · F2,26,0.95 ( + )
29 − 3
ni
nj
s
s
1
1
1
2
1
· 93.6 · 3.37( + ) = 4.93
+
=
26
ni
nj
ni
nj
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
und vergleiche diese Größe mit Mittelwertdifferenz y i· − y j·
I
Ergebnis
i
1
1
2
j
2
3
3
y i· − y j·
0.89
2.5
1.61
ds (i, j)
2.18
2.28
2.55
Ergebnis
kein sign. Unterschied
y 1· sign. größer als y ·3
kein sign. Unterschied
87 / 178
Einige Bemerkungen zur Scheffé-Methode:
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Die Scheffé-Methode garantiert, dass die Wahrscheinlichkeit
eines α-Fehlers für jeden beliebigen a-posteriori durchgeführten
Einzelvergleichstests nicht größer ist als der α-Fehler des
F -Tests
I
Kurz: Die Signifikanzaussagen gelten simultan für ALLE
Paarvergleiche mit dem Gesamtniveau α
I
Die Scheffé-Methode ist ein konservatives Verfahren
I
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Die Wahrscheinlichkeit eines α-Fehlers ist eher kleiner als das
vorgegebene Niveau
Man entscheidet tendenziell eher zu oft für H0
88 / 178
Methodenlehre II, SS
2009
SPSS Output paarweise Vergleiche mit der
Scheffé-Methode
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
Mehrfachvergleiche
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Gemerkte Zahlen
Scheffé-Prozedur
95%-Konfidenzintervall
(I) Studienfach
Mathematik
(J) Studienfach
Psychologie
Geisteswissenschaften
Standardfehler
,893
,841
,576
Signifikanz
Untergrenze
Obergrenze
-1,29
3,08
,878
,029
,22
4,78
Mathematik
-,893
,841
,576
-3,08
1,29
Geisteswissenschaften
1,607
,982
,279
-,94
4,16
,878
,029
-4,78
-,22
,982
,279
-4,16
,94
Geisteswissenschaften
Psychologie
Mittlere
Differenz (I-J)
Mathematik
Psychologie
2,500
-2,500
*
*
-1,607
2. Korrelation, Lineare
Regression und
multiple Regression
*. Die Differenz der Mittelwerte ist auf dem Niveau 0.05 signifikant.
89 / 178
1.17 Einfaktorielle Varianzanalyse (zum Vergleich
von k unabhängigen Stichproben)
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1 ni )
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es besteht kein Unterschied zwischen den
Erwartungswerten der einzelnen Gruppen:
H0 : µ1 = µ2 = . . . = µk
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
I
Varianzhomogenität: σ12 = σ22 = . . . = σk2
90 / 178
F-Test für die einfaktorielle Varianzanalyse (zum Vergleich von k unabhängigen Stichproben)
I
Die Hypothese H0 : µ1 = µ2 = . . . = µk gleicher
Erwartungswert in allen Gruppen wird verworfen, falls
F =
1
k−1 SSM
1
n−k SSR
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
> Fk−1,n−k,1−α
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
Dabei ist:
SSM =
k
X
ni (y i· − y ·· )2
2. Korrelation, Lineare
Regression und
multiple Regression
i=1
(sum of squares between groups)
SSR =
ni
k X
X
(yij − y i· )2
i=1 j=1
(sum of squares within groups) und Fk−1,n−k,1−α das
(1 − α)-Quantil der F -Verteilung mit (k − 1, n − k)
Freiheitsgraden
91 / 178
1.18 Paarweise Vergleich mit der Scheffé-Methode (Notation wie in 1.15)
I
I
Wird die Nullhypothese H0 : µ1 = µ2 = . . . = µk abgelehnt,
so kann mit der Scheffé-Methode festgestellt werden
welche Gruppen für die Signifikanz verantwortlich sind“!
”
Pk
dazu bestimmt man die Größen (n = i=1 ni )
s
k −1
1
1
SSR · Fk−1,n−k,1−α ( + )
ds (i, j) =
n−k
ni
nj
Ist y i· − y j· größer (bzw. kleiner) als ds (i, j) (bzw. als
−ds (i, j)) so ist y i· signifikant größer (bzw. kleiner) als y j·
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Beachte:
I
I
I
I
Methodenlehre II, SS
2009
insgesamt k(k−1)
Vergleiche
2
die Scheffé-Methode hält simultan das Niveau α
es ist möglich, das F -Test H0 ablehnt, aber keiner der
paarweisen Vergleiche signifikant ist!
Andere Verfahren (z. B. in SPSS implementiert):
Tukey-Methode, Duncan Test
92 / 178
1.19 Levene-Test auf Varianzhomogenität von k
unabhängigen Stichproben
Modellannahmen und Hypothese
I
Daten (n =
Pk
i=1
y11 , . . . , y1n1
..
.
yk1 , . . . , yknk
I
ni )
(Gruppe 1, Erwartungswert µ1 ; Varianz σ12 )
..
..
.
.
(Gruppe k, Erwartungswert µk ; Varianz σk2 )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Nullhypothese: es liegt Varianzhomogenität vor, d. h.
H0 : σ12 = σ22 = . . . = σk2
I
Rechtfertigung der Voraussetzungen
I
Unabhängigkeit zwischen den Gruppen
I
Unabhängigkeit innerhalb der Gruppen
I
Normalverteilungsannahme
93 / 178
Levene-Test auf Varianzhomogenität von k
abhängigen Stichproben
I
un-
Die Hypothese der Varianzhomogenität
H0 :
σ12
=
σ22
= ... =
σk2
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
wird verworfen, falls
Pk
1
2
i=1 ni (x i· − x ·· )
> Fk−1,n−k,1−α
F = 1k−1Pk Pni
2
i=1
j=1 (xij − x i· )
n−k
1.2 t-Test für eine
Stichprobe
1.3 Zweistichprobenprobleme
1.4 Einfaktorielle
Varianzanalyse
2. Korrelation, Lineare
Regression und
multiple Regression
Dabei ist:
I
I
I
I
I
n = n1 +P
. . . + nk der Gesamtstichprobenumfang
Pk Pni
ni
x , x ·· = n1 i=1 j=1
xij
x i· = n1i
j=1 ij
xij = |yij − y i· |
Fk−1,n−k,1−α das (1 − α)-Quantil der F -Verteilung mit
(k − 1, n − k) Freiheitsgraden.
Beachte:
I
I
I
Der Test ist robust bzgl. der Normalverteilungsannahme.
Der Test hält nur“ näherungsweise das Niveau α.
”
Alternativer Test: Bartlett Test
94 / 178
Methodenlehre II, SS
2009
SPSS Output
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.1 Schätzer und
Konfidenzintervalle
Test der Homogenität der Varianzen
1.2 t-Test für eine
Stichprobe
Gemerkte Zahlen
LeveneStatistik
df1
1,214
df2
2
1.3 Zweistichprobenprobleme
Signifikanz
26
1.4 Einfaktorielle
Varianzanalyse
,313
2. Korrelation, Lineare
Regression und
multiple Regression
ONEWAY ANOVA
Gemerkte Zahlen
Quadratsumme
Mittel der
Quadrate
df
Zwischen den Gruppen
29,187
2
14,594
Innerhalb der Gruppen
93,571
26
3,599
122,759
28
Gesamt
F
4,055
Signifikanz
,029
95 / 178
Methodenlehre II, SS
2009
2. Korrelation, Lineare Regression und multiple
Regression
2.1 Korrelation
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2.3 Multiple Regression
2.4 Multikollinearität und Suppressionseffekte
2.5 Variablenselektion
2.6 Nichtlineare Zusammenhänge
2.7 Partielle und Semipartielle Korrelation
96 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.1 Korrelation
2.3 Multiple lineare
Regression
97 / 178
2.1 Beispiel: Arbeitsmotivation
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
I
Frage: Besteht ein Zusammenhang zwischen der Variablen
Motivation“ und der Variablen Leistungsstreben“
”
”
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
I
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
98 / 178
Methodenlehre II, SS
2009
Daten
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
x
y
x
y
x
y
20
32
8
19
13
11
30
14
34
25
19
24
15
12
26
23
25
19
39
27
32
17
30
19
5
20
26
22
18
22
6
13
12
19
21
24
12
17
36
27
11
17
0
8
27
26
35
22
26
20
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
99 / 178
Methodenlehre II, SS
2009
2.2 Der Korrelationskoeffizient von Pearson
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
Maß für die (lineare) Abhängigkeit zwischen x und y :
Korrelationskoeffizient von Pearson
Pn
sx2,y
(xi − x · )(yi − y · )
q
r = rX ,Y =
= P i=1
Pn
n
sx ,x sy ,y
2
2
i=1 (xi − x · )
i=1 (yi − y · )
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Dabei ist:
I
I
x· =
1
n
Pn
y· =
1
n
Pn
I
i=1
=
1
n
Pn
sy2,y =
1
n
Pn
I s2
x ,x
I
i=1
xi : Mittelwert der Daten xi
yi : Mittelwert der Daten yi
i=1
i=1
(xi − x · )2 : Varianz der Daten xi
(yi − y · )2 : Varianz der Daten yi
Pn
1
sx2,y = n i=1 (xi − x · )(yi − y · ) : Kovarianz zwischen den
Daten xi , yi
100 / 178
2.3 Eigenschaften des Korrelationskoeffizienten
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
(1) −1 ≤ r ≤ 1
(2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang
yi = b0 + b1 xi
mit b1 > 0 besteht (ohne Störgrößen).
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
(3) r = −1 genau dann, wenn ein exakter linearer Zusammenhang
2.3 Multiple lineare
Regression
yi = b0 + b1 xi
mit b1 < 0 besteht (ohne Störgrößen).
(4) Der Korrelationskoeffizient ist invariant bzgl. linearer
Transformationen, d. h.
x̃i = a0 + a1 xi i = 1, . . . , n
⇒ rX̃ ,Ỹ = rX ,Y
ỹi = c0 + c1 yi i = 1, . . . , n
(5) Der Korrelationskoeffizient von Pearson ist ein deskriptives Maß
für den linearen Zusammenhang in der Stichprobe
(x1 , y1 ), . . . , (xn , yn )
101 / 178
2.4 Beispiel: Korrelationskoeffizient für die Daten
aus Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
2. Korrelation, Lineare
Regression und
multiple Regression
Variablen
x : Leistungsstreben
y : Motivation
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Korrelationskoeffizient von Pearson
r = 0.5592
I
Fragen:
I
I
Wie genau ist diese Schätzung?
Ist die Korrelation von 0 verschieden (Unkorreliertheit zwischen
den Merkmalen Leistungsstreben und Motivation)?
102 / 178
Methodenlehre II, SS
2009
2.5 Signifikanztest für Korrelation
I
(x1 , y1 ), . . . , (xn , yn ) ist eine Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
I
ρ bezeichne die Korrelation des Merkmals X mit dem
Merkmal Y einer Population; fünfter Modellparameter
neben µx , µy , σx2 und σy2 .
I
Ein Test zum Niveau α für die Hypothese die Merkmale
”
sind unkorreliert“
H0 : ρ = 0
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
lehnt die Nullhypothese zu Gunsten der Alternative
H1 : ρ 6= 0 ab, falls
√
n − 2r √
1 − r 2 > tn−2,1− α2
gilt.
103 / 178
2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
n = 25;
r = 0.5592;
t23,0.975 = 2.0687
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
√
n−2 r
√
1 − r 2 = 3.2355 > 2.0687
I
Die Nullhypothese H0 : ρ = 0 (keine Korrelation zwischen den
Merkmalen) wird zum Niveau 5% verworfen.
I
p-Wert: 0.0037
2.3 Multiple lineare
Regression
104 / 178
Methodenlehre II, SS
2009
SPSS Output für Korrelationskoeffizient
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Korrelationen
Motivation
Motivation
Korrelation nach Pearson
1,000
Signifikanz (2-seitig)
N
Leistungsstreben
Korrelation nach Pearson
Signifikanz (2-seitig)
N
2.1 Korrelation
2.2 Lineare Regression
Leistungsstreben
,559
**
2.3 Multiple lineare
Regression
,004
25
,559
**
25
1,000
,004
25
25
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
105 / 178
2.7 Konfidenzintervall für Korrelation
I
I
ρ: Korrelation zwischen Merkmal x und Merkmal y einer
Population
(x1 , y1 ), . . . , (xn , yn ): Stichprobe (unabhängige
Beobachtungen) aus einer (bivariat) normalverteilten
Grundgesamtheit
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Mathematische Statistik: r ist näherungsweise“ (d. h. bei
”
großem Stichprobenumfang) normalverteilt mit
Erwartungswert ρ und Varianz
γ 2 = Var (r ) ≈
I
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(1 − ρ2 )2
n
(1 − α)-Konfidenzintervall für den Korrelationskoeffizienten
r − γ̂z1− α2 , r + γ̂z1− α2
2
)
√
Hier bezeichnet γ̂ = (1−r
einen Schätzer für die
n
Standardabweichung von r und z1− α2 das (1 − α2 ) Quantil
der Standardnormalverteilung (Tabelle, Software)
106 / 178
2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
n = 25;
r = 0.5592
2.2 Lineare Regression
2.3 Multiple lineare
Regression
I
I
z0.95 = 1.6449,
⇒
γ̂ = 0.1328
90% Konfidenzintervall für den Korrelationskoeffizient
[0.2739, 0.7541]
107 / 178
Methodenlehre II, SS
2009
2.8 Hinweise zur Interpretation von Korrelationen
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Variablen x und y gefunden
Folgende Interpretationen sind möglich
(1)
(2)
(3)
(4)
x
y
x
x
beeinflusst y kausal
beeinflusst x kausal
und y werden von weiteren Variablen kausal beeinflusst
und y beeinflussen sich wechselseitig kausal
I
Die Korrelation zwischen zwei Variablen ist eine
notwendige aber keine hinreichende Voraussetzung für
einen kausalen Zusammenhang
I
Der Korrelationskoeffizient gibt keine Information, welche
der vier Interpretationen zutrifft (in vielen“ Fällen wird das
”
der Typ (3) sein)
I
Korrelationen sollten ohne Zusatzinformation nicht
interpretiert werden!
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
108 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Beispiel
I
I
Annahme: Man hat eine signifikante Korrelation zwischen
den Merkmalen Ehrlichkeit“ und Häufigkeit“ des
”
”
Kirchgangs gefunden
Folgende Interpretationen sind möglich
I
I
I
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Die in der Kirche vermittelten Werte haben einen positiven
Einfluss auf das Merkmal Ehrlichkeit“.
”
Ehrliche“ Menschen fühlen sich durch die in der Kirche
”
vermittelten Inhalte eher angesprochen und gehen aus
diesem Grund häufiger zur Kirche.
Die allgemeine familiäre und außerfamiliäre Sozialisation
beeinflusst beide Merkmale.
109 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.2 Lineare Regression
2.3 Multiple lineare
Regression
110 / 178
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
I
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
I
y : Motivation (Einschätzung durch Experten) x :
Leistungsstreben (Fragebogen)
I
Kann man y aus x vorhersagen“?
”
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
111 / 178
Streudiagramm für die Daten aus Beispiel 2.9
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
2. Korrelation, Lineare
Regression und
multiple Regression
30
2.1 Korrelation
2.2 Lineare Regression
Motivation
25
2.3 Multiple lineare
Regression
20
15
10
5
0
10
20
30
40
Leistungsstreben
112 / 178
2.9 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
I
I
I
Untersuchung zur Motivation am Arbeitsplatz in einem
Chemie-Konzern
25 Personen werden zufällig ausgewählt und verschiedene
Variablen gemessen.
y : Motivation (Einschätzung durch Experten)
x : Leistungsstreben (Fragebogen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Frage: Besteht ein funktionaler Zusammenhang zwischen der
Variablen Motivation“ und der Prädiktorvariablen
”
Leistungsstreben“ (Kann man y aus x vorhersagen“?)
”
”
Genauer: Gesucht ist Funktion f , die aus der Prädiktorvariablen
Leistungsstreben (x ) eine Vorhersage für die abhängige Variable
(y ) Motivation liefert:
Motivation = f(Leistungsbereitschaft)
I
Beachte: Es werden auch noch weitere Variablen gemessen
(Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen,
Lernpotential, Vielfalt, Anspruch)
113 / 178
Methodenlehre II, SS
2009
Regression
I
I
I
Ausgangslage: Von Interesse ist der Zusammenhang zwischen
verschiedenen Variablen. Im einfachsten Fall betrachtet man,
wie im Beispiel der Arbeitsmotivation, den Zusammenhang
zwischen zwei Variablen.
Daten: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
Annahme: Es existiert ein kausaler Zusammenhang der Form
y = f (x ) zwischen der abhängigen Variablen y und der
Prädiktorvariablen x .
Weitere Annahme: Die Funktion f hat eine bestimmte Form.
Beispiele:
I
I
I
I
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Lineare Regression (der Zusammenhang ist also durch eine
Gerade beschreibbar): y = b0 + b1 x
Quadratische Regression (der Zusammenhang ist also durch
eine Parabel beschreibbar): y = b0 + b1 x + b2 x 2
usw.
Beachte: Der Zusammenhang ist in der Regel nicht exakt zu
beobachten. Mathematisches Modell
Y = b0 + b1 x + ε
Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell
bezeichnet man als Lineare Regression.
114 / 178
Methodenlehre II, SS
2009
2.10 Das Modell der linearen Regression
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Daten (x1 , y1 ), . . . , (xn , yn )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung xi ). Für den Zusammenhang zwischen den
Variablen Yi und xi gilt:
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Yi = b0 + b1 xi + εi
i = 1, . . . , n
I
εi bezeichnet hier eine zufällige Störung“ und es wird
”
angenommen, dass die Störungen unabhängig und
normalverteilt sind mit Erwartungswert 0 und Varianz
σ2 > 0
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und y postuliert, der noch zufälligen Störungen unterliegt.
115 / 178
Idee der Schätzung bei (linearer) Regression
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Daten (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
I
Annahme: Es existiert ein linearer Zusammenhang
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Y = b0 + b1 x + ε
I
Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y
und x am besten beschreibt.
I
Idee: Bestimme die Gerade so, dass die Summe der
quadratischen (vertikalen) Abstände zwischen den
y -Koordinaten der Datenpunkte und den entsprechenden
Punkten auf der geschätzten Geraden minimal wird
Methode der kleinsten Quadrate
2.2 Lineare Regression
2.3 Multiple lineare
Regression
116 / 178
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
35
35
2.1 Korrelation
2.2 Lineare Regression
30
●
●
●
●
●
25
y
●
●
●
●
●
●
●
●
15
● ●
●
●
●
●
● ●
●
15
●
●
●
●
20
25
20
●
●
●
●
●
●
●
●
●
●
●
●
10
10
●
y=0.2x+5
●
5
●
5
y
●
●
●
●
y=0.5x+10
●
●
●
2.3 Multiple lineare
Regression
●
30
●
0
10
20
x
30
40
0
10
20
30
40
x
117 / 178
Beispiel: Verschiedene Geraden mit senkrechten
Abständen zu den Daten: die Lösung durch die
Methode der kleinsten Quadrate
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
35
2.2 Lineare Regression
2.3 Multiple lineare
Regression
30
●
●
25
●
●
●
●
●
20
●
●
●
●
●
●
●
●
y=0.292x+13.816
15
● ●
●
●
●
●
10
●
●
5
y
●
●
0
10
20
x
30
40
118 / 178
2.11 Die Methode der kleinsten Quadrate
I
Bestimme die Gerade so, dass die Summe der quadrierten
senkrechten Abstände zwischen Gerade und Daten minimal
wird
I
I
I
Datum an der Stelle xi : yi
Wert der Geraden an der Stelle xi : b0 + b1 xi
Differenz: yi − (b0 + b1 xi )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Minimiere
2.3 Multiple lineare
Regression
h(b0 , b1 ) =
Pn
i=1
yi − (b0 + b1 xi )
2
bzgl. der Wahl der Parameter b0 und b1 .
I
Lösung dieses Extremwertproblems liefert Schätzer für
Achsenabschnitt und Steigung der Geraden:
Pn
(x − x · )(yi − y · )
Pn i
b̂1 = i=1
, b̂0 = y · − b̂1 x ·
2
i=1 (xi − x · )
I
x· =
I
y· =
1
n
1
n
Pn
xi : Mittelwert der Prädiktorvariablen
Pi=1
n
i=1
yi : Mittelwert der abhängigen Variablen
119 / 178
Beispiel Arbeitsmotivation: Streudiagramm und
Regressionsgerade für die Daten aus Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
30
2. Korrelation, Lineare
Regression und
multiple Regression
Motivation
25
2.1 Korrelation
20
2.2 Lineare Regression
2.3 Multiple lineare
Regression
15
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
I
I
Schätzer: b̂0 = 13.82, b̂1 = 0.29
Fragen:
I
I
I
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss des Leistungsstrebens auf die
Motivation
H0 : b 1 = 0
Wie gut beschreibt das lineare Regressionsmodell die Situation?
120 / 178
Die Genauigkeit der Schätzer für die Parameter
I
Beachte: Vor der Datenerhebung sind b̂0 und b̂1 zufällig.
I
Mathematische Statistik (allgemeines lineares Modell) liefert
Schätzer für die Varianzen von b̂0 und b̂1
Schätzer für die Varianz von b̂0 : ŝb20 =
Schätzer für die Varianz von b̂1 : ŝb21 =
Sy2|x
n
Pn
x2
Pn i=1 i 2
i=1 (xi − x · )
Sy2|x
n
1
2
(x
i=1 i − x · )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Pn
1
n
Dabei bezeichnet
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
die Residualvarianz (Schätzer für die Varianz der Störgrößen)
I
Je größer der Stichprobenumfang n, desto genauer sind die
Schätzungen!
121 / 178
Fortsetzung von Beispiel 2.1: Schätzer für die Daten der
Arbeitsmotivation
I
Schätzer für die Parameter
b̂0 = 13.82
b̂1 = 0.292
Sy2|x
= 22.737
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
I
Schätzer für die Varianz von b̂0 und b̂1
ŝb20 = 4.5158
ŝb21 = 0.0081
I
Standardfehler von b̂0 und b̂1
ŝb0 =
ŝb1 =
√
√
4.5158 = 2.125
0.0081 = 0.09
122 / 178
SPSS Output: Schätzer und
Standardabweichungen bei linearer Regression in
Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
T
,559
Signifikanz
6,501
,000
3,235
,004
a. Abhängige Variable: Motivation
123 / 178
2.12 Konfidenzintervalle bei linearer Regression
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi
(i = 1, . . . , n)
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
I
Bestimmung der Schätzer ŝb20 und ŝb21 für die Varianzen von
b̂0 und b̂1 . Damit ist dann
=⇒
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(b̂0 − tn−2,1− α2 ŝb0 , b̂0 + tn−2,1− α2 ŝb0 )
ein (1 − α)-Konfidenzintervall für b0 und
=⇒
(b̂1 − tn−2,1− α2 ŝb1 , b̂1 + tn−2,1− α2 ŝb1 )
ein (1 − α)-Konfidenzintervall für b1 .
I
Hier ist tn−2,1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − 2 Freiheitsgraden (tabelliert oder mit Software
verfügbar)
124 / 178
2.13 Beispiel: Konfidenzbereiche im Beispiel 2.1
(Arbeitsmotivation)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
n = 25,
I
Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt
sich als 95% Konfidenzintervall für
t23,0.975 = 2.0687
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
b0 :[9.420, 18.212]
b1 :[0.105, 0.479]
I
Frage: Besteht ein (signifikanter) Einfluss der Prädiktorvariablen
x auf die abhängige Variable Y ?
Mathematische Formulierung: H0 : b1 = 0
125 / 178
Methodenlehre II, SS
2009
SPSS Output: Konfidenzintervalle bei linearer
Regression in Beispiel 2.1
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a
Koeffizienten
Nicht standardisierte Koeffizienten
Modell
1
B
(Konstante)
Leistungsstreben
Standardfehler
13,816
2,125
,292
,090
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
,559
Signifikanz
Untergrenze
Obergrenze
6,501
,000
9,420
18,212
3,235
,004
,105
,479
a. Abhängige Variable: Motivation
126 / 178
2.14 F -Test für die Hypothese H0 : b1 = 0
I
Modellannahme: lineare Regression
Yi = b0 + b1 xi + εi (i = 1, . . . , n)
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme für ε1 , . . . , εn
I
Hypothesen
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
H0 : b1 = 0, H1 : b1 6== 0
I
Methodenlehre II, SS
2009
2.3 Multiple lineare
Regression
Die Nullhypothese H0 : b1 = 0 wird zu Gunsten der
Alternative H1 : b1 6= 0 verworfen, falls
Pn
2
1
2
Sreg
i=1 (y · − (b̂0 + b̂1 xi ))
1
Fn = 2 = 1 P
> F1;n−2,1−α
n
2
Sy |x
i=1 (yi − (b̂0 + b̂1 xi ))
n−2
gilt
I
F1;n−2,1−α bezeichnet das (1 − α)-Quantil der F -Verteilung
mit (1, n − 2) Freiheitsgraden
127 / 178
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
n
X
(yi − y · )2 =
i=1
i=1
|
n
n
X
X
(yi − (b̂0 + b̂xi ))2 +
(y · − (b̂0 + b̂1 xi ))2
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
{z
Varianz der Regression
}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
2.2 Lineare Regression
Bezeichnungen:
2.3 Multiple lineare
Regression
n
2
Sreg
=
1X
(y − (b̂0 + b̂1 xi ))2
1 i=1 ·
heißt Varianz der Regression (diese hat 1 Freiheitsgrad) und
n
Sy2|x =
1 X
(yi − (b̂0 + b̂1 xi ))2 .
n − 2 i=1
ist die Residualvarianz (diese hat n − 2 Freiheitsgrade).
Andere Interpretationen:
- Schätzung für die Varianz der Größen εi
- durch das lineare Regressionsmodell nicht erklärbare Varianz
I
128 / 178
Motivation des F -Tests: Zerlegung der Varianz
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
n
X
n
n
X
X
2
(yi − (b̂0 + b̂xi )) +
(y · − (b̂0 + b̂1 xi ))2
(yi − y · ) =
2
i=1
i=1
|
{z
Gesamtvarianz
}
|
i=1
{z
Residualvarianz
}
|
{z
Varianz der Regression
}
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2
= (n − 2) · Sy2|x + ·Sreg
Beachte:
I
Bei dem F -Test für die Hypothese H0 : b1 = 0 bildet man den
Quotienten aus der Varianz der Regression und der
Residualvarianz
I
Man untersucht also das Verhältnis zwischen erklärbarer und
nicht erklärbarer Varianz.
129 / 178
2.15 Varianzanalyse (ANOVA; analysis of variance)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Art der
Abweichung
Freiheitsgrade (df )
Quadratsumme
F -Quotient
schätzer
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
Regression
1
Pn
i=1 (y ·
− ybi )2
2
Fn = Sreg
/Sy2|x
Fehler
n−2
Pn
− ybi )2
—
Total
n−1
Pn
− y · )2
—
i=1 (yi
i=1 (yi
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Bezeichnung:
ŷi = b̂0 + b̂1 xi Vorhersage an der Stelle xi
130 / 178
SPSS Output: F -Test bei linearer Regression in
Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
b
ANOVA
Modell
1
Quadratsumme
Mittel der
Quadrate
df
Regression
238,015
1
238,015
Residuen
522,945
23
22,737
Gesamt
760,960
24
F
10,468
2. Korrelation, Lineare
Regression und
multiple Regression
Signifikanz
,004
a
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a. Einflußvariablen : (Konstante), Leistungsstreben
b. Abhängige Variable: Motivation
Beachte:
I
F25 = 10.468,
I
Da F25 = 10.468 > 4.2793 wird die Nullhypothese H0 : b1 = 0
zu Gunsten der Alternative H1 : b1 6= 0 zum Niveau 5%
verworfen (p-Wert: 0.004)
F1,23,0.95 = 4.2793
131 / 178
Modellgüte: wie geeignet“ ist das Modell für die
”
Beschreibung der Daten
I
Maß für Modellanpassung: Residualvarianz (Summe der
quadrierte Abstände von der Regressionsgerade):
Sy2|x =
1
n−2
n X
2
yi − (b̂0 + b̂1 xi )
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
i=1
I
Beachte: Sy2|x ist ein Schätzer für die Varianz der Messfehler
I
Je kleiner Sy2|x , desto besser“ ist das (lineare)
”
Regressionsmodell
I
Streuung der Daten ohne die Information“, dass ein lineares
”
Modell vorliegt:
n
X
(yi − y· )2
i=1
I
Man untersucht welchen Anteil der Streuung
man durch das lineare Modell erklären kann.
Pn
i=1 (yi
− y· ) 2
132 / 178
Varianzzerlegung: ein extremes Beispiel
Methodenlehre II, SS
2009
40
40
30
30
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
y
Abhängige Variable
Prof. Dr. Holger
Dette
2.1 Korrelation
20
20
10
10
2.2 Lineare Regression
2.3 Multiple lineare
Regression
0
5
10
15
20
0
5
Unabhängige Variable
10
15
20
x
Beachte:
I
Die Grafik zeigt eine extreme Situation.
I
Die Streuung der Daten
lineare Regressionsmodell
Pn ist durch das P
n
zu 100% erklärbar! i=1 (yi − y · )2 = i=1 (y · − (b̂0 + b̂1 xi ))2
I
Residualvarianz (durch das lineare Regressionsmodell nicht
erklärbare Varianz) = 0
133 / 178
2.16 Beispiel: Arbeitsmotivation (Fortsetzung
von Beispiel 2.1):
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
25
X
(yi − y · )2 = 760.96
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
i=1
25
X
(y · − (b̂0 + b̂1 xi ))2 = 238.04
i=1
2
R =
P25
i=1 (y · − (b̂0 + b̂1 xi ))
P25
2
i=1 (yi − y · )
2
= 0.313
d. h. 31.3% der Varianz der Variablen Motivation können durch die
Prädiktorvariable Leistungsstreben erklärt werden.
134 / 178
Methodenlehre II, SS
2009
2.17 Modellgüte: das Bestimmtheitsmaß
I
Die Größe
Pn
Pn
(y · − (b̂0 + b̂1 xi ))2
(yi − (b̂0 + b̂1 xi ))2
i=1P
=
R 2 = 1− i=1Pn
n
2
2
i=1 (yi − y · )
i=1 (y · − yi )
ist ein Maß für die Güte der Regression und heißt
Bestimmtheitsmaß.
I
Beachte: Man kann zeigen, dass R 2 genau das Quadrat der
Korrelation ist.
I
Je besser“ das Modell ist, desto kleiner ist die
”
Residualvarianz, bzw. desto größer R 2 !
I
Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 und 1
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
135 / 178
Zusammenhang zwischen Bestimmtheitsmaß und
F -Test
I
2
Ist Fn die Statistik für den F -Test aus 2.14 und R das
Bestimmtheitsmaß, dann gilt:
R2 =
1
1
n−2 Fn
1
+ n−2
Fn
Im Beispiel des Zusammenhangs zwischen Motivation und
Leistungsstreben ist
1
10.468
23
+ 10.468
23
2. Korrelation, Lineare
Regression und
multiple Regression
2.3 Multiple lineare
Regression
I
R2 =
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2.2 Lineare Regression
In anderen Worten: die Statistik Fn des F -Test aus 2.5 kann aus
dem Bestimmtheitsmaß berechnet werden (und umgekehrt)
=⇒
Prof. Dr. Holger
Dette
2.1 Korrelation
I
Fn = 10.468
Methodenlehre II, SS
2009
= 0.313
Ca. 31.3% der Variation der Variablen Motivation können durch
die Variable Leistungsstreben erklärt werden.
136 / 178
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
2.18 Vorhersage für den Wert der Geraden an einer
Stelle x
I
I
Schätzung für den Wert der Geraden y (x ) = b0 + b1 x an
der Stelle x :
yb(x ) = b̂0 + b̂1 x
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(1 − α)-Konfidenzintervall für y (x )
(b
y (x ) − tn−2; α2 · ŝy (x ) , yb(x ) + tn−2; α2 · ŝy (x ) )
wobei
ŝy2(x ) = Sy2|x
(x − x · )2 + Pn
2
n
i=1 (xi − x · )
1
b (x ) bezeichnet
den Schätzer für die Varianz von Y
137 / 178
Vorhersagen: es gibt zwei unterschiedliche
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
2.19 Vorhersage für eine neue Beobachtung an einer
Stelle x
I
I
Schätzer für eine neue Beobachtung Ỹ (x ) = b0 + b1 x + ε
an der Stelle x :
yb(x ) = b̂0 + b̂1 x
(1 − α)-Konfidenzintervall für y (x )
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(b
y (x ) − tn−2; α2 · s̃y (x ) , yb(x ) + tn−2; α2 · s̃y (x ) )
wobei
1
(x − x · )2 s̃y2(x ) = Sy2|x 1 + + Pn
2
n
i=1 (xi − x · )
den Schätzer für die Varianz von yb(x ) + ε bezeichnet.
I
Beachte: Diese Varianz wird bei wachsendem
Stichprobenumfang nicht beliebig klein!
138 / 178
2.20 Beispiel: Fortsetzung von Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
(1) Gesucht ist ein 90% Konfidenzintervall für den Wert der
Geraden an der Stelle x = 16
I
I
1.714, Sy2|x
22.737, ŝy2(x )
t23,0.95 =
=
= 1.116, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für den Wert der Geraden an der
Stelle 16 ist gegeben durch
[16.677, 20.299]
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(2) Gesucht ist ein 90% Konfidenzintervall für eine neue
Beobachtung der Stelle x = 16
I
I
t23,0.95 = 1.714, Sy2|x = 22.737, ŝỹ2(x ) = 23.85, ŷ (16) =
b̂0 + 16b̂1 = 18.49
Das 90% Konfidenzintervall für eine neue Beobachtung an der
Stelle 16 ist gegeben durch
[10.118, 26.859]
139 / 178
SPSS Output: Vorhersagen bei linearer
Regression in Beispiel 2.1 (schwierig)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
140 / 178
SPSS Output: Konfidenzintervalle für
Vorhersagen bei linearer Regression in Beispiel
2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
16.0
35
2.1 Korrelation
2.2 Lineare Regression
30
2.3 Multiple lineare
Regression
Motivation
25
20
15
10
5
0
10
20
30
40
Leistungsstreben
141 / 178
2.21 Residuenanalyse
I
Unter der Modellannahme des linearen Regressionsmodells
gilt: die Größen
εi = Yi − b0 − b1 xi
sind unabhängig und normalverteilt mit Erwartungswert 0
und Varianz σ 2 > 0.
I
I
Das bedeutet, dass diese Eigenschaften auch
näherungsweise“ für die Residuen
”
ε̂i = yi − b̂0 − b̂1 xi
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
erfüllt sein sollte, falls die Modellannahme zutrifft.
Residuenanalyse ist ein deskriptives Verfahren für die
Überprüfung der Annahmen an ε1 , . . . , εn mit 4
Teilschritten (oft werden auch nicht alle gemacht):
A: Das Streudiagramm der Daten mit der Regressionslinie
B: Ein Streudiagramm der Residuen gegen die vorhergesagten
Werte
C: Normalverteilungs-QQ-Plot der Residuen
D: Histogramm der Residuen mit angepasster
Normalverteilungsdichte
142 / 178
Residuenanalyse bei erfüllten“ Voraussetzungen
”
A
B
6
0.5
4
2
−0.5
−1.0
−2
−1.5
−2
−1
0
1
2. Korrelation, Lineare
Regression und
multiple Regression
0.0
0
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
2
0
Unabhängige Variable
2
4
6
Vorhergesagter Wert
C
D
1.0
1.0
0.5
0.8
f(Residuum)
Empirische Quantile
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
1.0
Residuum
Abhängige Variable
8
Methodenlehre II, SS
2009
0.0
−0.5
0.6
0.4
0.2
−1.0
0.0
−1.5
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
Residuum
143 / 178
Methodenlehre II, SS
2009
Residuenanalyse bei Abweichungen“ von der
”
Normalverteilung (Ausreißer)
20
15
10
0
2. Korrelation, Lineare
Regression und
multiple Regression
10
5
2.1 Korrelation
0
2.2 Lineare Regression
2.3 Multiple lineare
Regression
−5
−10
−10
−2
−1
0
1
2
0
Unabhängige Variable
2
4
6
8
Vorhergesagter Wert
C
20
D
0.15
15
10
f(Residuum)
Empirische Quantile
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
20
Residuum
Abhängige Variable
A
Prof. Dr. Holger
Dette
5
0
0.10
0.05
−5
−10
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−15 −10
−5
0
5
10
15
20
Residuum
144 / 178
Methodenlehre II, SS
2009
Residuenanalyse bei Stratifizierung
Prof. Dr. Holger
Dette
Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu
Abweichungen von den Modellannahmen führen. Für die Strata
können dann unterschiedliche Regressionsgleichungen gelten.
A
10
2.1 Korrelation
5
5
0
2.2 Lineare Regression
2.3 Multiple lineare
Regression
0
−5
−5
−10
−10
−2
−1
0
1
2
−2
0
2
4
Unabhängige Variable
Vorhergesagter Wert
C
D
10
6
0.15
5
f(Residuum)
Empirische Quantile
2. Korrelation, Lineare
Regression und
multiple Regression
B
10
Residuum
Abhängige Variable
15
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
0
−5
−10
0.10
0.05
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−10
−5
0
5
10
Residuum
145 / 178
Residuenanalyse bei falscher Modellannahme
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
10
20
Residuum
Abhängige Variable
A
40
0
−20
0
2. Korrelation, Lineare
Regression und
multiple Regression
−10
2.1 Korrelation
−40
−20
2.2 Lineare Regression
−60
−2
−1
0
1
2
−30 −20 −10
Unabhängige Variable
0
10
20
30
40
2.3 Multiple lineare
Regression
Vorhergesagter Wert
C
D
10
0.04
f(Residuum)
Empirische Quantile
0.05
0
−10
0.03
0.02
0.01
−20
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−30
−20
−10
0
10
20
Residuum
Statt des linearen Modells wäre ein Polynom 3. Grades die bessere
Annahme für die Beschreibung des funktionalen Zusammenhangs!
146 / 178
Methodenlehre II, SS
2009
Residuenanalyse bei ungleichen Varianzen
(Heteroskedastizität)
20
20
10
10
0
−10
−20
−30
2. Korrelation, Lineare
Regression und
multiple Regression
0
2.1 Korrelation
−10
2.2 Lineare Regression
−20
2.3 Multiple lineare
Regression
−30
−40
−40
−2
−1
0
1
2
−2
Unabhängige Variable
0
2
4
6
Vorhergesagter Wert
C
30
D
0.10
20
0.08
10
f(Residuum)
Empirische Quantile
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
B
30
Residuum
Abhängige Variable
A
Prof. Dr. Holger
Dette
0
−10
−20
0.06
0.04
0.02
−30
−40
0.00
−2
−1
0
1
2
Theoretische Quantile der Standardnormalvert.
−40
−20
0
20
Residuum
147 / 178
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
35
2. Korrelation, Lineare
Regression und
multiple Regression
30
2.1 Korrelation
Motivation
25
2.2 Lineare Regression
2.3 Multiple lineare
Regression
20
15
10
R-Quadrat linear = 0,313
5
0
10
20
30
40
Leistungsstreben
Streudiagramm und geschätzte Regressionsgerade im Beispiel der
Arbeitsmotivation
148 / 178
SPSS Output: Residuenanalyse in Beispiel 2.1
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
3,00000
2. Korrelation, Lineare
Regression und
multiple Regression
Standardized Residual
2,00000
2.1 Korrelation
2.2 Lineare Regression
1,00000
2.3 Multiple lineare
Regression
,00000
-1,00000
-2,00000
-2,00000
-1,00000
,00000
1,00000
2,00000
Standardized Predicted Value
Streudiagramm der Residuen gegen die vorhergesagten Werte im
Beispiel der Arbeitsmotivation
149 / 178
Methodenlehre II, SS
2009
SPSS Output für Residuenanalyse
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Q-Q-Diagramm von Normal von Standardized Residual
2. Korrelation, Lineare
Regression und
multiple Regression
2
2.1 Korrelation
Erwarteter Wert von Normal
2.2 Lineare Regression
1
2.3 Multiple lineare
Regression
0
-1
-2
-2
-1
0
1
2
3
Beobachteter Wert
QQ-Plot im Beispiel der Arbeitsmotivation
150 / 178
Korrelation und lineare Regression
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Es besteht ein enger Zusammenhang zwischen linearer Regression
und Korrelation
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Ist b̂1 die Schätzung im linearen Regressionsmodell und r der
Korrelationskoeffizient von Pearson, dann gilt:
sP
n
(xi − x · )2
· b̂1
r = Pni=1
2
i=1 (yi − y · )
I
Ist R 2 das Bestimmtheitsmaß und r der Korrelationskoeffizient
von Pearson, dann gilt:
r 2 = R2
2.2 Lineare Regression
2.3 Multiple lineare
Regression
151 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare Regression
2.3 Multiple lineare
Regression
152 / 178
2.22 Beispiel: Arbeitsmotivation mit mehreren
Prädiktoren” ”
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
y : Motivation (Einschätzung der Arbeitsmotivation durch Experten)
Prädiktoren: Eigenschaften
I x1 : Ehrgeiz (Fragebogen)
I x2 : Kreativität (Fragebogen)
I x3 : Leistungsstreben (Fragebogen)
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Prädiktoren: Rahmenbedingungen
I
I
I
x4 : Hierarchie (Position in der Hierarchie des Unternehmens)
x5 : Lohn (Bruttolohn pro Monat)
x6 : Arbeitsbedingungen (Zeitsouveränität,
Kommunikationsstruktur usw.)
Prädiktoren: Inhalte der Tätigkeit
I
I
I
x7 : Lernpotential (Lernpotential der Tätigkeit)
x8 : Vielfalt (Vielfalt an Teiltätigkeiten)
x9 : Anspruch (Komplexität der Tätigkeit)
153 / 178
Methodenlehre II, SS
2009
Daten
Prof. Dr. Holger
Dette
i
1
2
3
4
5
6
7
8
9
10
11
12
y
32
14
12
27
20
13
17
8
22
19
25
23
x1
36
30
19
42
14
12
17
4
32
15
38
24
x2
30
11
15
16
22
16
20
5
20
13
5
6
x3
20
30
15
39
5
6
12
0
35
8
34
26
x4
20
7
8
13
22
11
11
16
20
13
21
9
x5
3100
2600
3200
2500
3700
2600
2500
3800
3500
3100
3600
2600
x6
34
39
42
43
42
36
41
23
25
29
59
45
x7
29
16
13
15
29
17
18
9
21
21
27
31
x8
69
47
32
63
38
39
44
31
40
57
53
54
x9
66
36
17
49
62
51
55
33
55
56
67
62
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
154 / 178
Methodenlehre II, SS
2009
Daten
Prof. Dr. Holger
Dette
i
13
14
15
16
17
18
19
20
21
22
23
24
25
y
17
22
19
27
26
20
11
24
19
19
22
24
17
x1
28
36
18
40
30
27
18
32
33
33
27
30
37
x2
11
4
26
27
28
11
23
18
9
22
28
32
8
x3
32
26
12
36
27
26
13
19
25
30
18
21
11
x4
10
16
6
12
18
10
11
15
6
5
17
11
2
x5
2600
2500
2500
2500
3000
2600
2800
2700
2400
2600
4000
2700
2300
x6
30
52
40
42
38
35
42
48
38
36
45
44
32
x7
7
23
17
29
34
19
18
23
23
30
23
20
20
x8
45
56
54
44
43
46
31
51
37
39
52
41
44
x9
26
64
55
62
64
55
43
53
65
39
54
47
41
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
155 / 178
2.23 Das Modell der multiplen linearen Regression
I
Daten (x 1 , y1 ), . . . , (x n , yn )
I
Es gibt k unabhängige Variablen: x i = (x1i , . . . , xki )
I
yi ist Realisation einer Zufallsvariablen Yi (unter der
Bedingung x i ). Für den Zusammenhang zwischen der
Variablen Yi und dem Vektor x i gilt (im Beispiel ist k = 9):
Yi = b0 + b1 x1i + b2 x2i + . . . + bk xki + εi
= b0 +
k
X
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
bj xji + εi .
j=1
I
εi bezeichnet hier eine zufällige Störung” und es wird
”
angenommen, dass die Störungen ε1 , . . . , εn unabhängig
und normalverteilt sind mit Erwartungswert 0 und Varianz
σ 2 > 0.
I
Deutung: Es wird ein linearer Zusammenhang zwischen x
und Y postuliert, der noch zufälligen Störungen unterliegt.
156 / 178
Methodenlehre II, SS
2009
2.24 Schätzung bei multipler linearer Regression
Prof. Dr. Holger
Dette
Methode der kleinsten Quadrate: Minimiere
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
n
X
(yi − b0 − b1 x1i − . . . − bk xki )2
i=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
bzgl. der Wahl von b0 , . . . , bk
I
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Mathematische Statistik (allgemeines lineares Modell)
liefert Schätzer
b̂0 , b̂1 , . . . , b̂k
für die Parameter b0 , . . . , bk (Formeln sind kompliziert)
I
Schätzer für die Varianz der Messfehler
n
Sy2|x =
X
1
(yi − b̂0 − b̂1 x1i − . . . − b̂k xki )2
n − k − 1 i=1
157 / 178
Streudiagramm bei multipler linearer Regression
(k = 2)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
Regressionsfläche: yb(x) = 3.24 + 4.5x1 + 5.27x2 .
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
40
2.2 Lineare Regression
2.3 Multiple lineare
Regression
30
20
Y
10
0
−10
−20
−30
−5
0
5
X1
−3
−2
0
−1
1
2
3
4
X2
158 / 178
Fortsetzung von Beispiel 2.22: Schätzer im
multiplen linearen Regressionsmodell
I
Prof. Dr. Holger
Dette
Ergebnisse für die Schätzer im multiplen linearen
Regressionsmodell
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
= −3.842
=
0.153
=
0.246
= −0.031
=
0.206
2. Korrelation, Lineare
Regression und
multiple Regression
b̂0
b̂2
b̂4
b̂6
b̂8
I
Methodenlehre II, SS
2009
b̂1
b̂3
b̂5
b̂7
b̂9
=
0.193
=
0.049
=
0.000
=
0.165
= −0.053
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Fragen:
I
I
Wie genau sind diese Schätzungen?
Besteht ein (signifikanter) Einfluss der unabhängigen Merkmale
auf die Motivation
H0 : b 1 = 0
H0 : b 2 = 0
..
.
I
Wie gut beschreibt das multiple lineare Regressionsmodell die
Situation?
159 / 178
Genauigkeit der Schätzung bei multipler linearer
Regression
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
Schätzer ŝb0 , . . . , ŝbk für die Standardfehler von b̂0 , . . . , b̂k sind
verfügbar (Allgemeines lineares Modell → Formeln kompliziert)
I
Anmerkung: Für wachsenden Stichprobenumfang konvergieren
die Schätzer ŝbj gegen 0 je größer der Stichprobenumfang,
”
desto genauer die Schätzungen”
I
Damit erhält man Konfidenzintervalle für b0 , . . . , bk , z. B.
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
(b̂0 − tn−k−1,1− α2 ŝb0 , b̂0 + tn−k−1,1− α2 ŝb0 )
ist (1 − α)-Konfidenzintervall für b0 .
160 / 178
Fortsetzung von Beispiel 2.22: Schätzer für den
Standardfehler der Schätzer im multiplen linearen
Regressionsmodell
I
Ergebnisse für den Standardfehler der Schätzer im multiplen
linearen Regressionsmodell
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
ŝb0
ŝb2
ŝb4
ŝb6
ŝb8
I
=
=
=
=
=
5.052
0.049
0.148
0.054
0.052
ŝb1
ŝb3
ŝb5
ŝb7
ŝb9
=
=
=
=
=
0.081
0.065
0.001
0.098
0.058
2.3 Multiple lineare
Regression
Wegen t15,0.975 = 2.1314 ist
[−0.089, 0.188]
ein 95%-Konfidenzintervall für den Parameter b3 . Man beachte:
I
I
0.049 + 2.1314 · 0.065 ≈ 0.188)
n = 25; k = 9 ⇒ n − k − 1 = 15
161 / 178
2.25 Konfidenzintervalle für multiple lineare Regression
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
I
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Schätzer ŝbj für den Standardfehler von b̂j
=⇒
(b̂j − tn−k−1,1− α2 ŝbj , b̂j + tn−k−1,1− α2 ŝbj )
ist ein (1 − α)-Konfidenzintervall für bj (j = 0, . . . , k)
I
tn−k−1,1− α2 ; (1 − α2 )-Quantil der t-Verteilung mit n − k − 1
Freiheitsgraden (Tabelle oder Software)
I
Anmerkung: Für wachsenden Stichprobenumfang
konvergieren die Schätzer ŝbj gegen 0 je größer der
”
Stichprobenumfang, desto kleiner die Konfidenzintervalle”
162 / 178
2.26 Beispiel: Konfidenzintervalle für die
Parameter in Beispiel 2.22 (Arbeitsmotivation)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
b̂j
b̂0
b̂1
b̂2
b̂3
b̂4
b̂5
b̂6
b̂7
b̂8
b̂9
Merkmal
—
Ehrgeiz
Kreativität
Leistungsstreben
Hierarchie
Lohn
Arbeitsbdg.
Lernpotential
Vielfalt
Anspruch
Schätzung
-3.842
0.193
0.153
0.049
0.246
0.000
-0.031
0.165
0.206
0.053
ŝbj
5.052
0.081
0.049
0.065
0.148
0.001
0.054
0.098
0.052
0.058
Konfidenzintervall
[-14.609, 6.926]
[0.020, 0.365]
[0.049, 0.258]
[-0.089, 0.188]
[-0.069, 0.561]
[-0.004, 0.002]
[-0.147, 0.085]
[-0.044, 0.373]
[0.095, 0.316]
[-0.070, 0.177]
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
163 / 178
Methodenlehre II, SS
2009
SPSS Output: Schätzer, Standardabweichung
und Konfidenzintervalle im Beispiel 2.22
(Arbeitsmotivation mit mehreren Prädiktoren)
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Standard
fehler
2.1 Korrelation
2.2 Lineare Regression
Standardisierte
Koeffizienten
95%-Konfidenzintervall für B
Signifi
kanz
Untergrenze
Obergrenze
-,760
,459
-14,609
6,926
,337
2,381
,031
,020
,365
,049
,234
3,127
,007
,049
,258
,065
,095
,761
,458
-,089
,188
-3,842
5,052
x1
,193
,081
x2
,153
x3
,049
Beta
T
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
x7
,165
,098
,199
1,683
,113
-,044
,373
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.3 Multiple lineare
Regression
a. Abhängige Variable: Y
164 / 178
2.27 Vorhersage der multiplen linearen Regression
I
Modellannahme: multiple lineare Regression
Yi = b0 +
k
X
bj xji + εi
(i = 1, . . . , n)
j=1
I
Rechtfertigung der Normalverteilungs- und
Unabhängigkeitsannahme
I
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
Pk
ŷ (x) = b̂0 + j=1 b̂j xj
I
In Beispiel 2.22 ergibt sich z. B. als Vorhersage der
multiplen linearen Regression an der Stelle
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
x1 = 21, x2 = 30, x3 = 15, x4 = 11, x5 = 2900,
x6 = 41, x7 = 25, x8 = 55, x9 = 54
der Wert ŷ (x) = 22.717
165 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Vorhersage der multiplen linearen Regression
Beachte: Wie in Abschnitt 2.18 und 2.19 gibt es zwei Vorhersa-
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
gen:
2.1 Korrelation
2.2 Lineare Regression
I
Vorhersage für den Wert der multiplen Regression an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
I
Vorhersage für den Wert einer neuen Beobachtung an der
Stelle x = (x1 , . . . , xk ) (im Beispiel ist k = 9)
I
Für beide Vorhersagen kann man den Standardfehler
bestimmen (Formeln kompliziert) und Konfidenzbereiche
angeben (vgl. Abschnitt 2.18 und 2.19 für den Fall k = 1 )
2.3 Multiple lineare
Regression
166 / 178
SPSS Output: Vorhersage bei der multiplen
linearen Regression (schwierig)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Beispiel:
I Schätzung für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
I Schätzung für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : 14.348
167 / 178
SPSS Output: Konfidenzintervalle für
Vorhersagen bei multipler linearer Regression
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
I
I
Konfidenzintervall für den Wert der Ebene” an der Stelle
”
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [12.399, 16.297]
Konfidenzintervall für eine weitere Beobachtung an der Stelle
x = (18, 23, 13, 11, 2800, 42, 18, 31, 43) : [9.870, 18.826]
168 / 178
2.28 Bestimmtheitsmaß bei multipler linearer Regression
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
I
Modellvorhersage:
ŷi = b̂0 + b̂1 x1i + . . . b̂k xki = b̂0 +
k
X
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
b̂j xji
j=1
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
Pk
I
Residuum ε̂i = yi − ŷi = yi − (b̂0 +
I
Beachte: Die Werte der abhängigen Variable zerfallen in
Modellvorhersage (ŷ ) und Residuum (ε̂), d. h.
yi = ŷi + ε̂i
I
j=1 b̂j xji )
2.2 Lineare Regression
2.3 Multiple lineare
Regression
i = 1, . . . , n
Die Güte der Modellanpassung wird (wieder) durch das
Bestimmtheitsmaß R 2 beschrieben (Anteil erklärter
Varianz)
Pn
Pn
2
(yi − ybi )2
2
i=1
i=1 (y · − ŷi )
P
R = 1 − Pn
=
.
n
2
2
i=1 (yi − y · )
i=1 (yi − y · )
169 / 178
Beispiel: Das Bestimmtheitsmaß für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
In Beispiel 2.22 ist
2.1 Korrelation
I
I
I
n = 25; k = 9
Pn
bi )2 = 53.651
i=1 (yi − y
Pn
2
i=1 (yi − y · ) = 790.96
I
R2 = 1 −
2.2 Lineare Regression
2.3 Multiple lineare
Regression
53.651
= 92.95
790.96
D. h. 92.95% der Varianz der Variablen Motivation werden durch das
multiple lineare Regressionsmodell erklärt.
170 / 178
2.29 Statistische Tests bei der multiplen linearen Regression. Zwei wichtige” Fragestellungen:
”
Methodenlehre II, SS
2009
Frage A: Hat mindestens eine der Prädiktorvariablen
x1 , . . . , xk einen Einfluss auf die abhängige Variable y
(Gesamttest auf Signifikanz).
Mathematische Formulierung der Hypothese:
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
I
I
Nullhypothese:
H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
Prof. Dr. Holger
Dette
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Alternative:
H1 : bj 6= 0 für mindestens ein j ∈ {1, 2, . . . , k}
I
I
Frage B: Hat die Prädiktorvariable xj (z. B. Ehrgeiz) einen
Einfluss auf die abhängige Variable y .
Mathematische Formulierung der Hypothese:
Nullhypothese: H0 : bj = 0
Alternative: H1 : bj 6= 0
171 / 178
Methodenlehre II, SS
2009
2.29(A) Gesamttest auf Signifikanz
I
Nullhypothese: H0 : bj = 0 für alle j ∈ {1, 2, . . . , k}
Alternative: H1 : bj 6= 0 für mindestens ein
j ∈ {1, 2, . . . , k}
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
(1) Bestimme
2.2 Lineare Regression
n
2
Sreg
=
1X
k
(y · − ŷi )2
2.3 Multiple lineare
Regression
i=1
die Varianz der Regression, und
Sy2|x =
n
X
1
(yi − ŷi )2
n−k −1
i=1
die Residualvarianz
I
Beachte: Man geht genau wie im linearen
Regressionsmodell vor!
172 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
2.29(A) Gesamttest auf Signifikanz
(2) H0 wird zu Gunsten der Alternative H1 verworfen, falls
Fn =
2
Sreg
> Fk;n−k−1;1−α
Sy2|x
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei bezeichnet Fk;n−k−1;1−α das (1 − α)-Quantil der
F -Verteilung mit (k, n − k − 1) Freiheitsgraden.
I
Beachte: Wird H0 durch diesen Test verworfen, dann bleibt
aber noch unklar, welches der Merkmale signifikant ist”.
”
173 / 178
2.29(B) Tests für die Signifikanz einzelner Merkmale
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
Nullhypothese:
H0 : bj = 0
Alternative:
H1 : bj 6= 0
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
I
Die Nullhypothese H0 wird zu Gunsten der Alternative H1
verworfen, falls
b̂ j
Tn = > tn−k−1;1− α2
ŝbj 2.2 Lineare Regression
2.3 Multiple lineare
Regression
gilt (oder der entsprechende p-Wert kleiner als α ist).
Dabei ist
I
I
I
tn−k−1;1− α2 das (1 − α2 )-Quantil der t-Verteilung mit
n − k − 1 Freiheitsgraden
ŝbj der Standardfehler von b̂j
Beachte: Werden mehrere Hypothesen getestet, ist das
Niveau entsprechend anzupassen (vgl. Abschnitt 2.18).
174 / 178
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
2.30(A) Test auf Signifikanz im multiplen Regressionsmodell in Beispiel 2.22
I
Frage: Hat eine der 9 Prädiktorvariablen einen Einfluss auf
”
die abhängige Variable?”
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
I
Mathematische Hypothesen:
2.3 Multiple lineare
Regression
H0 : bj = 0 für alle j = 1, . . . , 9
H1 : bj 6= 0 für mindestens ein j ∈ {1, . . . , 9}
I
Fn = 21.972,
F9,15,0.95 = 2.5876
I
Da Fn > 21.972 > 2.5876 ist, wird die Nullhypothese zum
Niveau 5% verworfen.
175 / 178
2.30(B) Beispiel: Test auf Signifikanz eines
Merkmals im multiplen linearen
Regressionsmodell in Beispiel 2.22
I
I
Frage: Hat die Prädiktorvariable Ehrgeiz (x1 ) einen Einfluss auf
”
die abhängige Variable Motivation Signifikanz des
Regressionskoeffizienten b1 )?”
I
b̂1 = 0.193,
ŝb1 = 0.081,
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
2.2 Lineare Regression
2.3 Multiple lineare
Regression
Mathematische Hypothesen:
H0 : b1 = 0;
Methodenlehre II, SS
2009
H1 : b1 6= 0
t25−10,0.975 = 2.13
⇒ T25 = 2.381
I
Da
T25 = 2.381 > 2.13
wird die Nullhypothese H0 zu Gunsten der Alternative
H1 : b1 6= 0 verworfen (zum Niveau 5%)
176 / 178
SPSS Output: Der Test 2.29(A) für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
2.1 Korrelation
b
2.2 Lineare Regression
ANOVA
Modell
1
Quadratsumme
Regression
Residuen
Gesamt
Mittel der
Quadrate
df
707,309
9
78,590
53,651
15
3,577
760,960
24
2.3 Multiple lineare
Regression
F
21,972
Signifikanz
,000
a
a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1
b. Abhängige Variable: Y
177 / 178
SPSS Output: Der Test 2.29(B) für das Beispiel
2.22 (Arbeitsmotivation)
Methodenlehre II, SS
2009
Prof. Dr. Holger
Dette
1. Grundlegende
Prinzipien der
schließenden Statistik
am Beispiel des t-Tests
2. Korrelation, Lineare
Regression und
multiple Regression
a
Koeffizienten
Nicht
standardisierte
Koeffizienten
Modell
1
B
(Konstante)
Standard
fehler
2.1 Korrelation
Standardisierte
Koeffizienten
Beta
95%-Konfidenzintervall für B
T
Signifi
kanz
Untergrenze
Obergrenze
-3,842
5,052
-,760
,459
-14,609
6,926
x1
,193
,081
,337
2,381
,031
,020
,365
x2
,153
,049
,234
3,127
,007
,049
,258
x3
,049
,065
,095
,761
,458
-,089
,188
x4
,246
,148
,235
1,664
,117
-,069
,561
x5
,000
,001
-,077
-,589
,564
-,004
,002
x6
-,031
,054
-,045
-,576
,573
-,147
,085
x7
,165
,098
,199
1,683
,113
-,044
,373
x8
,206
,052
,354
3,973
,001
,095
,316
x9
,053
,058
,124
,920
,372
-,070
,177
2.2 Lineare Regression
2.3 Multiple lineare
Regression
a. Abhängige Variable: Y
178 / 178
Herunterladen