Folien - Johannes Gutenberg

Werbung
Methoden der
Psychologie
Multivariate Analysemethoden
und
Multivariates Testen
Stunden im Mai 2010
Günter Meinhardt
Johannes Gutenberg Universität Mainz
Methoden der
Psychologie
Prinzipien des statistischen Schliessens
Sampling - Modellvorstellung
Population
Kennwerte
Sampling
Theoretische
Statistik
Stichprobe
x 
Welche Verteilung von Kennwerten wird sich ergeben,
Wenn man den Sampling Vorgang unendlich oft wiederholt?
• Herleitung der Kennwerte-Verteilung (Sampling – Distribution)
und Beschreibung ihrer Parameter.
• Methoden zur Schätzung der Parameter aus Stichprobendaten
• sowohl für univariate, als auch für multivariate
Kennwerteverteilungen
Methoden der
Psychologie
Sampling
Distribution
(1D)
Univariate - Verteilung der Stichprobenmittelwerte
Sampling - Modellvorstellung
Population
Bilde Mittelwert
Stichprobe des Umfangs n
1. - mal:
2. - mal:
k. - mal:
 x1
x1
xk 
x
x1
x2
xk
k- maliges Samplen von Stichproben derselben Größe n und
Berechnen der Stichprobenmittelwerte führt auf eine Verteilung
von Stichprobenmittelwerten (Sampling – Distribution)
Methoden der
Psychologie
Mittelwerte
Univariate - Verteilung der Stichprobenmittelwerte
Sampling - Modellvorstellung
Population
k - Stichproben des
Umfangs n
x
Verteilung von
Stichprobenmitteln
 x1
x1
xk 
„Sampling Distribution“
Erwartungstreue
Erwartungswert
Erwartungswert
E x  
E x  
Die Sampling Distribution hat denselben Erwartungswert wie die
Population, aus der die Stichproben gezogen wurden.
Schätzstatistiken, die denselben Erwartungswert haben wie die
Population, heissen erwartungstreu.
Stichprobenmittelwerte sind erwartungstreue Schätzungen des
Populationsparameters 
Methoden der
Psychologie
Univariate - Verteilung der Stichprobenmittelwerte
Sampling - Modellvorstellung
Varianz
Population
k - Stichproben des
Umfangs n 2
s
Varianz
2
Erwartungstreue:
Bias  E s 2    2
1
   2
n
Verteilung von
Stichprobenvarianzen
s
2
1
sk2 
s22
n 1 2

n
1
2  2
n
E s 2  
Die Stichprobenvarianz unterschätzt die Populationsvarianz
tendenziell:
 Stichprobenvarianzen sind keine erwartungstreuen Schätzungen
des Populationsvarianz 2
Methoden der
Psychologie
Univariate - Verteilung der Stichprobenmittelwerte
Sampling - Modellvorstellung
Bias-Faktor
1
E s 2    2   2   2   x2
n
Der Bias bei der Schätzung der Pop.Varianz aus der
Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte.
1
n 1 2
E s 2    2   2 

n
n
n
1 n
2
2
ˆ 
s 
x

x


 i
n 1
n  1 i 1
2
Erwartungstreue:
Die Stichprobenvarianz berechnet aus korrigiertem Umfang n-1 ist
eine erwartungstreue Schätzung der Populationsvarianz
Methoden der
Psychologie
Central Limit
Theorem
Univariate - Verteilung der Stichprobenmittelwerte
Die Verteilung von Sampling-Mittelwerten nähern sich
mit wachsendem Umfang der Sample-Stichproben
einer Normalverteilung an. Für n > 30 ist die
Approximation schon gut.
Wahrscheinlichkeitsdichte
f x
1. E x  
0.10
x
0.05
0.00
Theoretische
Sampling
Distribution
Es gilt:
2 x
 x

2.
+ x
+2 x
x 
 E x
 pop
n
x
Die theoretische Sampling Distribution ist die Grundlage des
statistischen Schliessens. Aussagen über den Zusammenhang
von Stichprobenmittelwerten und Populationen werden mithilfe
dieser Verteilung gewonnen (Inferenzstatistischer Schluss).
Methoden der
Psychologie
Univariate - Verteilung der Stichprobenmittelwerte
Anwendung
KonfidenzIntervalle
WKAussagen
z- Verteilung
1. P  x  z1 / 2  x    x + z1 / 2  x   1 
2. P    z1 / 2  x  x   + z1 / 2  x   1 
1.
Man habe einen Mittelwert aus einer Stichprobe der Größe n
vorliegen. In welchem Bereich um den Mittelwert kann man den
Populationsparameter  mit der Wahrscheinlichkeit 1- erwarten?
2.
Der Populationsparameter  sei bekannt. In welchem Bereich um
ihn liegen Mittelwerte mit der Wahrscheinlichkeit 1-?
z0 
x 
x
P  z  z0   1   z0 
Mit  der Verteilungsfunktion der Standardnormalverteilung.
Für n < 50 sollte die t- Verteilung mit df = n – 1 verwendet
werden.
Methoden der
Psychologie
Univariate - Verteilung der Stichprobenmittelwerte
Hypothesen
t - und F-Test
H0:   0
t
H1:   0

x  0
ˆ / n
P  t   t   2 1   t ;df   t 

mit df  n  1
Es gilt
t2 – FÄquivalenz
tdf2  F1;df 
Äquivalenz von t- und F- Test
TestÄquivalenz:
Eine zweiseitige Wahrscheinlichkeitsbestimmung auf der t – Verteilung
ist der (grundsätzlich einseitigen) Wahrscheinlichkeitsbestimmung auf
der F - Verteilung äquivalent.
 x  0 
2 1
t 
  n  x  0  ˆ   x  0 
 ˆ / n 
2
Bemerke:
2
Methoden der
Psychologie
Multivariate - Verteilung der Stichprobenmittelwerte
Vektoren
Multivariates t
Hotelling’s T 2
x
ein p  1 Mittelwertevektor
1 ˆ 
T   x  μ0   Σ

n 
2
mit
Σˆ
x
μ0
Definition
Verteilung T 2
[JW-Beispiel-5.1]
1
μ0 ein p  1 Mittelwertevektor
 x  μ0   n  x  μ0  Σˆ 1  x  μ0 
die Sample Varianz-Covarianz Matrix mit Korrektur n -1
der Daten-Zentroid
angenommener Zentroid
n
1
ˆ 
Σ
xi  x  xi  x 


 p p  n  1 i 1
T
2
ist verteilt wie
1 n
x   xi
p
 1 n i 1
 n  1 p F
n p
 p ;n  p 
wenn die Stichprobe einer multivariat normalverteilten
Grundgesamtheit entnommen ist.
Methoden der
Psychologie
Multivariate - Verteilung der Stichprobenmittelwerte
Sei
x1 , x2 ,
, xn
ein Sample aus einer
N p μ, Σ
Population
so gilt
Verteilung T 2
n  1 p



1

ˆ
  P n  x  μ  Σ  x  μ  
F p;n p     
n p


für jedes angenommene
F- Test
μ
egal, wie das wahre
μ und Σ sind.
Man lehnt die H0:   0 daher auf Signifikanzniveau  ab, wenn
n  1 p

1

ˆ
T  n  x  μ0  Σ  x  μ0  
F
  
n  p  p ;n  p 
2
KonfidenzEllipsoide
[Beispiele]
Gleichzeitig definiert die Distanzbedingung
n  1 p

1

ˆ
n  x  μ Σ  x  μ 
F p;n p    
n p
in einem p-variat normalverteilten Ellipsoid Konfidenzregionen, die
man für jedes angenommene  um x für ein  spannen kann.
Methoden der
Psychologie
Multivariate
Central Limit
Theorem
Multivariate - Verteilung der Stichprobenmittelwerte
Sei
x1 , x2 ,
, xn
eine Stichprobe aus einer Population mit
Erwartungsvektor μ und Varianz-Covarianz Matrix
Σ
Dann gilt
n  x  μ
ist approximativ
N p  0, Σ
und
ˆ 1  x  μ  ist approximativ c 2
n  x  μ  Σ
p
wenn
Regel
verteilt
n – p groß ist.
Für n < 50 ist die Voraussetzung der multivariaten Normalverteilung in
der Stichprobe jedem Falle zu prüfen, und die T2 Statistik
heranzuziehen. Bei grösseren Stichproben kann direkt die c2 Statistik
angewendet werden. In jedem Fall sollte eine Ausreißerbehandlung
durchgeführt werden.
Methoden der
Psychologie
univariat
multivariat
(p=2)
Simultane univariate Konfidenzregionen um Mittelwert
[
x  2 x x   x
[Beispiele]
x +  x x + 2 x
x
2
ˆ  e
Σe
i
i i
Länge = c
x 
 1
 x2 
Konfidenzregion im
Ellipsoid
]
1
Länge =
c
1
n
2
n
ˆ 1  x  μ   c 2   n  1 p F
n  x  μ  Σ
 p;n  p    
n p
(1-) Konfidenzregion für  in der bivariat normalverteilten SamplingDistribution, die um x gespannt ist.

Methoden der
Psychologie
Univariates CI
Simultane univariate Konfidenzintervalle
Ein (1-) Konfidenzintervall für eine Variablenkomponente wird im Kontext
aller p univariaten Konfidenzaussagen betrachtet.
Das univariate Konfidenzintervall (CI)
x j  t1 / 2;n1
ˆ j
ˆ j  ˆ jj
n
das jj-te Element von
Σˆ
führt im Kontext aller p- möglichen Vergleiche zu einem inflationierten
- Fehler und damit zu falschen, progressiven Entscheidungen.
Simultane
Konfidenz
Intervalle
Konfidenzintervalle pro Variablenkomponente, die alle möglichen
Vergleiche auf einem (overall) -Niveau absichern, lauten
CI  x j 
 n  1 p F
 xj  c 
n p
 p ;n  p 
   
ˆ j
n
ˆ j
n
Simultane CIs definieren die Bounding-Box der CI-Ellipse.
Methoden der
Psychologie
Simultane univariate Konfidenzintervalle
Simultane CIs
Die simultanen CIs sind konservativ, und können durch eine
Approximation für unabhängige Variablenachsen ersetzt werden.
Overall 
Im simultanen Kontext kann die - Fehler Inflation durch Wahl eines
neuen  Niveaus für jeden Einzeltest für ein gewünschtes overall ˆ
kompensiert werden.
Es gilt für ein vorgegebenes overall ˆ
Bonferroni
Approximation
P  all comparisons true   1     1   p
p
1     1     1   p
p
  1  1      p
p
  1  1   
1/ p


p
Konfidenzintervalle pro Variablenkomponente werden durch Wahl eines
neuen -Niveaus alle auf einem (overall) ˆ -Niveau abgesichert.
CI
CI  x j  t1a /(2 p );n1 
ˆ j
n
Methoden der
Psychologie
Univariate - Multivariate – Konfidenzregionen
Vergleich der
CIs
0.70
alpha-CE
0.65
DataCentroid
ProbeCentroid
x2
0.60
Simultanes CI
Bonferroni
0.55
1D (falsch)
0.50
0.50
0.55
0.60
0.65
0.70
x1
CI-Aussagen
2D Konfidenzregionen und 1D Konfidenzintervalle ermöglichen
verschiedene Entscheidungen, je nachdem, ob Paarungen von
Mittelwerten (Centroiden) oder einzelne Mittelwerte interessieren.
Zu beachten ist, dass im multivariaten Kontext Aussagen für eine
Achse strenggenommen nie ohne Berücksichtigung des Wertes
auf den anderen Variablenachsen gemacht werden können (BoundingBox und Bonferroni-Box hat immer mehr Fläche als die CI-Ellipse)
Methoden der
Psychologie
Univariate und multivariate Mittelwertevergleiche
Sample
Meßeinheiten
SamplingDistribution
Test-Statistik
univariat
multivariat
unabhängig
abhängig
unabhängig
Differenzen
von
Mittelwerten
gepoolte Varianzen
Mittelwerte
von
Differenzen
Differenzvektor
von
Centroiden
Gepoolte
Var-Covar Mat.
t
t
T2
abhängig
Centroide
von
Differenzvektoren
T2
Multivariate Mittelwertsvergleiche sind die direkte Entsprechung zu
univariaten Vergleichen. Es gelten dieselben Prinzipien, lediglich
angewendet auf Centroid-Vektor und Varianz-Covarianz Matrix.
Methoden der
Psychologie
Univariate Mittelwertevergleiche
t- Test für unabhängige Stichproben
H1 : 1  0
Hypothese
H0 : 1  0
(ungerichtet)
x  0
H0: Der Erwartungswert der Differenzen von Mittelwerten ist Null
f  x 
Wahrscheinlichkeitsdichte
Sampling
Distribution
1.
2.
0.10
2 x  x
0
x  0
 x wird geschätzt aus
beiden Stichproben
3.  x ist t- verteilt.
 x
0.05
0.00
[t-Test ausführlich?]
Es gilt:
 x
2 x
x
Methoden der
Psychologie
Univariate Mittelwertevergleiche
t- Test für unabhängige Stichproben
Statistik
Entscheidung:
a) Krit. t-Wert
b) Überschreitungs-WK
Voraussetzung
t
x
 x  ˆ
 x
2
pooled
 1 1
 + 
 n0 n1 
Prüfgrösse t- verteilt mit n0 + n1 – 2 Freiheitsgraden
t  t df ;1 / 2
P  t  t   
Ablehnung von H0,
sonst Beibehaltung
oder
Ablehnung von H0,
sonst Beibehaltung
1. Für n0 + n1 < 50 normalverteilte Stichprobendaten
2. Homogene Stichprobenvarianzen
3. Unabhängige Messeinheiten innerhalb und zwischen
den Samples.
Methoden der
Psychologie
Univariate Mittelwertevergleiche
t- Test für abhängige Stichproben
H1 : 1  0
Hypothese
H0 : 1  0
(ungerichtet)
  0
H0: Der Erwartungswert der Mittelwerte von Differenzen ist Null
f 
Wahrscheinlichkeitsdichte
Sampling
Distribution
Es gilt:
1.
2.
0.10
0.00
Differenzenstichprobe
3.  ist t- verteilt.

0.05
2 
 
0
  0
  wird geschätzt aus

2 

Methoden der
Psychologie
Univariate Mittelwertevergleiche
t- Test für abhängige Stichproben
Statistik
Entscheidung:
a) Krit. t-Wert
b) Überschreitungs-WK
Voraussetzung
t


1
 
s02 + s12  2Cov( x0 , x1 ) 

n 1
Prüfgrösse t- verteilt mit n – 1 Freiheitsgraden (n = Anzahl Paare)
t  t df ;1 / 2
P  t  t   
Ablehnung von H0,
sonst Beibehaltung
oder
Ablehnung von H0,
sonst Beibehaltung
1. Für n < 30 normalverteilte Stichprobendaten
2. Homogene Stichprobenvarianzen müssen nicht
vorliegen
3. Korrelation der Meßreihen erhöht die Teststärke.
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
Hypothese
H1 : μ1  μ0
H0 : μ1  μ0
(ungerichtet)
δ  μ  0
H0: Der Erwartungswert des Differenzencentroids ist Null
Daten
 di1  x0i1  x1i1 


d

x

x
i2
0i 2
1i 2 
di  




 dip  x0ip  x1ip 
p- dimensionaler Differenzvektor jeder i- ten Person
(Differenzen der 2 Zeitpunkte auf den p- Variablen)
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
n
1

ˆ 
Σ
d

d
d

d




d
i
i
n

1
p

p


i 1
Kenngrößen
1 n
d   di
 p1 n i 1
T2 - Statistik
ˆ 1  d  δ 
T 2  n  d  δ  Σ
d
Entscheidung
Lehne die H0 auf Signifikanzlevel  ab, wenn gilt

1
ˆ

T  nd Σd d 
2
n  1 p
F p;n p  1   
n p
Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zählerfreiheitsgraden und n-p Nennerfreiheitsgraden.
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für abhängige Stichproben
Konfidenzregionen
n  1 p

1

ˆ
n  d  δ  Σd  d  δ  
F
1   
n  p  p ;n  p 
definiert eine (1-) Konfidenzregion im Ellipsoid um d
für .
Wenn n-p groß ist, gilt
 n  1 p F
n p
2
1



c


1   
p
 p ;n  p 
und die Stichproben müssen nicht multivariat normalverteilt sein.
Komponenten
Konfidenzintervalle
j :dj 
s 2j
n

 n  1 p F
n p
 p ;n  p 
1   
definiert univariate (1-) Konfidenzintervalle um jeden VariablenDifferenzenmittelwert. Analog sind Bonferroni-Intervalle definiert.
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
Hypothese
H1 : μ1  μ0
H0 : μ1  μ0
(ungerichtet)
μ1  μ0  0
H0: Die Differenz der Erwartungs-Centroiden ist Null
Daten
 x0i1 


x
0i 2 
x 0i  




 x0ip 
 x1i1 


x
1i 2 
x1i  




 x1ip 
p- dimensionaler Messvektor jeder i- ten Person aus jeder
Gruppe
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
Kenngrößen
1 n1
x0   x0i
 p1 n0 i 1
1 n1
x1   x1i
 p1 n1 i 1
n0
1

ˆ 
Σ
x

x
x

x



 0i 0 0i 0
0
 p p  n0  1 i 1
n1
1
ˆ 
Σ
 x1i  x1  x1i  x1 

1
 p p  n1  1 i 1
Mittelwertevektoren und Varianz-Covarianz Matrizen
für jede Gruppe.
Gepoolte
Var-CovarMatrix
ˆ
Σ
pooled
ˆ +  n  1 Σ
ˆ
n0  1 Σ

0
1
1

n0 + n1  2
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
Kenngrößen
T2 - Statistik
Entscheidung
x1
x1
ˆ
Σ
pooled
 1 1 

2

ˆ
T   x1  x0    +  Σ pooled 
  n0 n1 

1
 x1  x0 
Lehne die H0 auf Signifikanzlevel  ab, wenn gilt
T
2
n0 + n1  2  p


F p;n +n  p 1 1   
 n0 + n1  p 1
0
1
Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zählerfreiheitsgraden und n0+n1-p-1 Nennerfreiheitsgraden.
Methoden der
Psychologie
Multivariate Mittelwertevergleiche
Hotelling‘s T2 - Test für unabhängige Stichproben
Konfidenzregionen
T 2 δ 
 n0 + n1  2 p F
 p;n + n  p 1 1   
 n0 + n1  p  1
0
1
definiert eine (1-) Konfidenzregion im Ellipsoid um
d  x1  x0 für Distanzen .
Mit
Komponenten
Konfidenzintervalle
c
2
n0 + n1  2 p


F p;n +n  p 1 1   
n
+
n

p

1
 0 1

0
1
definiert
1 1
x

x

c
 1 j 0 j   n + n  s jj , pooled
1 
 0
univariate (1-) Konfidenzintervalle um jede Gruppendifferenz von
Variablenmittelwerten. Sjj,pooled ist das jj-te Element der gepoolten
Varianz-Covarianz Matrix. Bonferroni-Intervalle sind analog definiert.
Methoden der
Psychologie
p D-Normal
Verteilung
Multivariate Normalverteilung
Die Ellipsen der Form
c 2   x    Σ 1  x     c p2  
t
sind zentriert in

c i ei
und haben Hauptachsen
mit Eigenwertbedingung
Σei  i e
Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit
die Hauptachsen des p- variaten Ellipsoids der multivariaten
Normalverteilung
x2
Beispiel 2D
Länge = c
 
 1
 2 
x1
Länge = c 2
1
Herunterladen