Methoden der Psychologie Multivariate Analysemethoden und Multivariates Testen Stunden im Mai 2010 Günter Meinhardt Johannes Gutenberg Universität Mainz Methoden der Psychologie Prinzipien des statistischen Schliessens Sampling - Modellvorstellung Population Kennwerte Sampling Theoretische Statistik Stichprobe x Welche Verteilung von Kennwerten wird sich ergeben, Wenn man den Sampling Vorgang unendlich oft wiederholt? • Herleitung der Kennwerte-Verteilung (Sampling – Distribution) und Beschreibung ihrer Parameter. • Methoden zur Schätzung der Parameter aus Stichprobendaten • sowohl für univariate, als auch für multivariate Kennwerteverteilungen Methoden der Psychologie Sampling Distribution (1D) Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Population Bilde Mittelwert Stichprobe des Umfangs n 1. - mal: 2. - mal: k. - mal: x1 x1 xk x x1 x2 xk k- maliges Samplen von Stichproben derselben Größe n und Berechnen der Stichprobenmittelwerte führt auf eine Verteilung von Stichprobenmittelwerten (Sampling – Distribution) Methoden der Psychologie Mittelwerte Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Population k - Stichproben des Umfangs n x Verteilung von Stichprobenmitteln x1 x1 xk „Sampling Distribution“ Erwartungstreue Erwartungswert Erwartungswert E x E x Die Sampling Distribution hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu. Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters Methoden der Psychologie Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Varianz Population k - Stichproben des Umfangs n 2 s Varianz 2 Erwartungstreue: Bias E s 2 2 1 2 n Verteilung von Stichprobenvarianzen s 2 1 sk2 s22 n 1 2 n 1 2 2 n E s 2 Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell: Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz 2 Methoden der Psychologie Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Bias-Faktor 1 E s 2 2 2 2 x2 n Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte. 1 n 1 2 E s 2 2 2 n n n 1 n 2 2 ˆ s x x i n 1 n 1 i 1 2 Erwartungstreue: Die Stichprobenvarianz berechnet aus korrigiertem Umfang n-1 ist eine erwartungstreue Schätzung der Populationsvarianz Methoden der Psychologie Central Limit Theorem Univariate - Verteilung der Stichprobenmittelwerte Die Verteilung von Sampling-Mittelwerten nähern sich mit wachsendem Umfang der Sample-Stichproben einer Normalverteilung an. Für n > 30 ist die Approximation schon gut. Wahrscheinlichkeitsdichte f x 1. E x 0.10 x 0.05 0.00 Theoretische Sampling Distribution Es gilt: 2 x x 2. + x +2 x x E x pop n x Die theoretische Sampling Distribution ist die Grundlage des statistischen Schliessens. Aussagen über den Zusammenhang von Stichprobenmittelwerten und Populationen werden mithilfe dieser Verteilung gewonnen (Inferenzstatistischer Schluss). Methoden der Psychologie Univariate - Verteilung der Stichprobenmittelwerte Anwendung KonfidenzIntervalle WKAussagen z- Verteilung 1. P x z1 / 2 x x + z1 / 2 x 1 2. P z1 / 2 x x + z1 / 2 x 1 1. Man habe einen Mittelwert aus einer Stichprobe der Größe n vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter mit der Wahrscheinlichkeit 1- erwarten? 2. Der Populationsparameter sei bekannt. In welchem Bereich um ihn liegen Mittelwerte mit der Wahrscheinlichkeit 1-? z0 x x P z z0 1 z0 Mit der Verteilungsfunktion der Standardnormalverteilung. Für n < 50 sollte die t- Verteilung mit df = n – 1 verwendet werden. Methoden der Psychologie Univariate - Verteilung der Stichprobenmittelwerte Hypothesen t - und F-Test H0: 0 t H1: 0 x 0 ˆ / n P t t 2 1 t ;df t mit df n 1 Es gilt t2 – FÄquivalenz tdf2 F1;df Äquivalenz von t- und F- Test TestÄquivalenz: Eine zweiseitige Wahrscheinlichkeitsbestimmung auf der t – Verteilung ist der (grundsätzlich einseitigen) Wahrscheinlichkeitsbestimmung auf der F - Verteilung äquivalent. x 0 2 1 t n x 0 ˆ x 0 ˆ / n 2 Bemerke: 2 Methoden der Psychologie Multivariate - Verteilung der Stichprobenmittelwerte Vektoren Multivariates t Hotelling’s T 2 x ein p 1 Mittelwertevektor 1 ˆ T x μ0 Σ n 2 mit Σˆ x μ0 Definition Verteilung T 2 [JW-Beispiel-5.1] 1 μ0 ein p 1 Mittelwertevektor x μ0 n x μ0 Σˆ 1 x μ0 die Sample Varianz-Covarianz Matrix mit Korrektur n -1 der Daten-Zentroid angenommener Zentroid n 1 ˆ Σ xi x xi x p p n 1 i 1 T 2 ist verteilt wie 1 n x xi p 1 n i 1 n 1 p F n p p ;n p wenn die Stichprobe einer multivariat normalverteilten Grundgesamtheit entnommen ist. Methoden der Psychologie Multivariate - Verteilung der Stichprobenmittelwerte Sei x1 , x2 , , xn ein Sample aus einer N p μ, Σ Population so gilt Verteilung T 2 n 1 p 1 ˆ P n x μ Σ x μ F p;n p n p für jedes angenommene F- Test μ egal, wie das wahre μ und Σ sind. Man lehnt die H0: 0 daher auf Signifikanzniveau ab, wenn n 1 p 1 ˆ T n x μ0 Σ x μ0 F n p p ;n p 2 KonfidenzEllipsoide [Beispiele] Gleichzeitig definiert die Distanzbedingung n 1 p 1 ˆ n x μ Σ x μ F p;n p n p in einem p-variat normalverteilten Ellipsoid Konfidenzregionen, die man für jedes angenommene um x für ein spannen kann. Methoden der Psychologie Multivariate Central Limit Theorem Multivariate - Verteilung der Stichprobenmittelwerte Sei x1 , x2 , , xn eine Stichprobe aus einer Population mit Erwartungsvektor μ und Varianz-Covarianz Matrix Σ Dann gilt n x μ ist approximativ N p 0, Σ und ˆ 1 x μ ist approximativ c 2 n x μ Σ p wenn Regel verteilt n – p groß ist. Für n < 50 ist die Voraussetzung der multivariaten Normalverteilung in der Stichprobe jedem Falle zu prüfen, und die T2 Statistik heranzuziehen. Bei grösseren Stichproben kann direkt die c2 Statistik angewendet werden. In jedem Fall sollte eine Ausreißerbehandlung durchgeführt werden. Methoden der Psychologie univariat multivariat (p=2) Simultane univariate Konfidenzregionen um Mittelwert [ x 2 x x x [Beispiele] x + x x + 2 x x 2 ˆ e Σe i i i Länge = c x 1 x2 Konfidenzregion im Ellipsoid ] 1 Länge = c 1 n 2 n ˆ 1 x μ c 2 n 1 p F n x μ Σ p;n p n p (1-) Konfidenzregion für in der bivariat normalverteilten SamplingDistribution, die um x gespannt ist. Methoden der Psychologie Univariates CI Simultane univariate Konfidenzintervalle Ein (1-) Konfidenzintervall für eine Variablenkomponente wird im Kontext aller p univariaten Konfidenzaussagen betrachtet. Das univariate Konfidenzintervall (CI) x j t1 / 2;n1 ˆ j ˆ j ˆ jj n das jj-te Element von Σˆ führt im Kontext aller p- möglichen Vergleiche zu einem inflationierten - Fehler und damit zu falschen, progressiven Entscheidungen. Simultane Konfidenz Intervalle Konfidenzintervalle pro Variablenkomponente, die alle möglichen Vergleiche auf einem (overall) -Niveau absichern, lauten CI x j n 1 p F xj c n p p ;n p ˆ j n ˆ j n Simultane CIs definieren die Bounding-Box der CI-Ellipse. Methoden der Psychologie Simultane univariate Konfidenzintervalle Simultane CIs Die simultanen CIs sind konservativ, und können durch eine Approximation für unabhängige Variablenachsen ersetzt werden. Overall Im simultanen Kontext kann die - Fehler Inflation durch Wahl eines neuen Niveaus für jeden Einzeltest für ein gewünschtes overall ˆ kompensiert werden. Es gilt für ein vorgegebenes overall ˆ Bonferroni Approximation P all comparisons true 1 1 p p 1 1 1 p p 1 1 p p 1 1 1/ p p Konfidenzintervalle pro Variablenkomponente werden durch Wahl eines neuen -Niveaus alle auf einem (overall) ˆ -Niveau abgesichert. CI CI x j t1a /(2 p );n1 ˆ j n Methoden der Psychologie Univariate - Multivariate – Konfidenzregionen Vergleich der CIs 0.70 alpha-CE 0.65 DataCentroid ProbeCentroid x2 0.60 Simultanes CI Bonferroni 0.55 1D (falsch) 0.50 0.50 0.55 0.60 0.65 0.70 x1 CI-Aussagen 2D Konfidenzregionen und 1D Konfidenzintervalle ermöglichen verschiedene Entscheidungen, je nachdem, ob Paarungen von Mittelwerten (Centroiden) oder einzelne Mittelwerte interessieren. Zu beachten ist, dass im multivariaten Kontext Aussagen für eine Achse strenggenommen nie ohne Berücksichtigung des Wertes auf den anderen Variablenachsen gemacht werden können (BoundingBox und Bonferroni-Box hat immer mehr Fläche als die CI-Ellipse) Methoden der Psychologie Univariate und multivariate Mittelwertevergleiche Sample Meßeinheiten SamplingDistribution Test-Statistik univariat multivariat unabhängig abhängig unabhängig Differenzen von Mittelwerten gepoolte Varianzen Mittelwerte von Differenzen Differenzvektor von Centroiden Gepoolte Var-Covar Mat. t t T2 abhängig Centroide von Differenzvektoren T2 Multivariate Mittelwertsvergleiche sind die direkte Entsprechung zu univariaten Vergleichen. Es gelten dieselben Prinzipien, lediglich angewendet auf Centroid-Vektor und Varianz-Covarianz Matrix. Methoden der Psychologie Univariate Mittelwertevergleiche t- Test für unabhängige Stichproben H1 : 1 0 Hypothese H0 : 1 0 (ungerichtet) x 0 H0: Der Erwartungswert der Differenzen von Mittelwerten ist Null f x Wahrscheinlichkeitsdichte Sampling Distribution 1. 2. 0.10 2 x x 0 x 0 x wird geschätzt aus beiden Stichproben 3. x ist t- verteilt. x 0.05 0.00 [t-Test ausführlich?] Es gilt: x 2 x x Methoden der Psychologie Univariate Mittelwertevergleiche t- Test für unabhängige Stichproben Statistik Entscheidung: a) Krit. t-Wert b) Überschreitungs-WK Voraussetzung t x x ˆ x 2 pooled 1 1 + n0 n1 Prüfgrösse t- verteilt mit n0 + n1 – 2 Freiheitsgraden t t df ;1 / 2 P t t Ablehnung von H0, sonst Beibehaltung oder Ablehnung von H0, sonst Beibehaltung 1. Für n0 + n1 < 50 normalverteilte Stichprobendaten 2. Homogene Stichprobenvarianzen 3. Unabhängige Messeinheiten innerhalb und zwischen den Samples. Methoden der Psychologie Univariate Mittelwertevergleiche t- Test für abhängige Stichproben H1 : 1 0 Hypothese H0 : 1 0 (ungerichtet) 0 H0: Der Erwartungswert der Mittelwerte von Differenzen ist Null f Wahrscheinlichkeitsdichte Sampling Distribution Es gilt: 1. 2. 0.10 0.00 Differenzenstichprobe 3. ist t- verteilt. 0.05 2 0 0 wird geschätzt aus 2 Methoden der Psychologie Univariate Mittelwertevergleiche t- Test für abhängige Stichproben Statistik Entscheidung: a) Krit. t-Wert b) Überschreitungs-WK Voraussetzung t 1 s02 + s12 2Cov( x0 , x1 ) n 1 Prüfgrösse t- verteilt mit n – 1 Freiheitsgraden (n = Anzahl Paare) t t df ;1 / 2 P t t Ablehnung von H0, sonst Beibehaltung oder Ablehnung von H0, sonst Beibehaltung 1. Für n < 30 normalverteilte Stichprobendaten 2. Homogene Stichprobenvarianzen müssen nicht vorliegen 3. Korrelation der Meßreihen erhöht die Teststärke. Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben Hypothese H1 : μ1 μ0 H0 : μ1 μ0 (ungerichtet) δ μ 0 H0: Der Erwartungswert des Differenzencentroids ist Null Daten di1 x0i1 x1i1 d x x i2 0i 2 1i 2 di dip x0ip x1ip p- dimensionaler Differenzvektor jeder i- ten Person (Differenzen der 2 Zeitpunkte auf den p- Variablen) Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben n 1 ˆ Σ d d d d d i i n 1 p p i 1 Kenngrößen 1 n d di p1 n i 1 T2 - Statistik ˆ 1 d δ T 2 n d δ Σ d Entscheidung Lehne die H0 auf Signifikanzlevel ab, wenn gilt 1 ˆ T nd Σd d 2 n 1 p F p;n p 1 n p Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zählerfreiheitsgraden und n-p Nennerfreiheitsgraden. Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben Konfidenzregionen n 1 p 1 ˆ n d δ Σd d δ F 1 n p p ;n p definiert eine (1-) Konfidenzregion im Ellipsoid um d für . Wenn n-p groß ist, gilt n 1 p F n p 2 1 c 1 p p ;n p und die Stichproben müssen nicht multivariat normalverteilt sein. Komponenten Konfidenzintervalle j :dj s 2j n n 1 p F n p p ;n p 1 definiert univariate (1-) Konfidenzintervalle um jeden VariablenDifferenzenmittelwert. Analog sind Bonferroni-Intervalle definiert. Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Hypothese H1 : μ1 μ0 H0 : μ1 μ0 (ungerichtet) μ1 μ0 0 H0: Die Differenz der Erwartungs-Centroiden ist Null Daten x0i1 x 0i 2 x 0i x0ip x1i1 x 1i 2 x1i x1ip p- dimensionaler Messvektor jeder i- ten Person aus jeder Gruppe Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Kenngrößen 1 n1 x0 x0i p1 n0 i 1 1 n1 x1 x1i p1 n1 i 1 n0 1 ˆ Σ x x x x 0i 0 0i 0 0 p p n0 1 i 1 n1 1 ˆ Σ x1i x1 x1i x1 1 p p n1 1 i 1 Mittelwertevektoren und Varianz-Covarianz Matrizen für jede Gruppe. Gepoolte Var-CovarMatrix ˆ Σ pooled ˆ + n 1 Σ ˆ n0 1 Σ 0 1 1 n0 + n1 2 Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Kenngrößen T2 - Statistik Entscheidung x1 x1 ˆ Σ pooled 1 1 2 ˆ T x1 x0 + Σ pooled n0 n1 1 x1 x0 Lehne die H0 auf Signifikanzlevel ab, wenn gilt T 2 n0 + n1 2 p F p;n +n p 1 1 n0 + n1 p 1 0 1 Mit F (1-) dem (1-) Quantil der F- Verteilung mit p Zählerfreiheitsgraden und n0+n1-p-1 Nennerfreiheitsgraden. Methoden der Psychologie Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Konfidenzregionen T 2 δ n0 + n1 2 p F p;n + n p 1 1 n0 + n1 p 1 0 1 definiert eine (1-) Konfidenzregion im Ellipsoid um d x1 x0 für Distanzen . Mit Komponenten Konfidenzintervalle c 2 n0 + n1 2 p F p;n +n p 1 1 n + n p 1 0 1 0 1 definiert 1 1 x x c 1 j 0 j n + n s jj , pooled 1 0 univariate (1-) Konfidenzintervalle um jede Gruppendifferenz von Variablenmittelwerten. Sjj,pooled ist das jj-te Element der gepoolten Varianz-Covarianz Matrix. Bonferroni-Intervalle sind analog definiert. Methoden der Psychologie p D-Normal Verteilung Multivariate Normalverteilung Die Ellipsen der Form c 2 x Σ 1 x c p2 t sind zentriert in c i ei und haben Hauptachsen mit Eigenwertbedingung Σei i e Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung x2 Beispiel 2D Länge = c 1 2 x1 Länge = c 2 1