Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Signifikanztests Einleitung S. Etschberger Vorliegen einer Hypothese über die Verteilung(en) der Grundgesamtheit(en). 1. Einführung Beispiele: „Der Würfel ist fair.“ „Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind gleich.“ 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Hypothese soll anhand einer Stichprobe überprüft werden. Intervall-Schätzung Signifikanztests Prinzip: Hypothese verwerfen, wenn „signifikanter“ Widerspruch zur Stichprobe. Ansonsten: Hypothese nicht verwerfen. Eine verworfene Hypothese gilt als statistisch widerlegt. Nicht-Verwerfung ist dagegen ein „Freispruch aus Mangel an Beweisen“. Zu Beachten: Nicht-Verwerfung ist kein „statistischer Beweis“, dass Hypothese wahr ist! („Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!) 172 Einleitung S. Etschberger Einstichproben-Gaußtest Zunächst: G ∼ N(µ; σ) mit σ bekannt Einfache Stichprobe X1 , . . . , Xn (Null-)Hypothese H0 : µ = µ0 Beispiel: X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5) Nullhypothese H0 : µ = 500, d.h. µ0 = 500 Je nach Interessenlage sind unterschiedliche Gegenhypothesen möglich: a) H1 : µ 6= µ0 b) H1 : µ < µ0 c) H1 : µ > µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Entscheidung: H0 : µ a) H1 : µ b) H1 : µ c) H1 : µ = 6 = < > µ0 µ0 , µ0 , µ0 , wird abgelehnt gegenüber wenn |x̄ − µ0 | „sehr groß“ ist wenn x̄ „weit kleiner“ als µ0 ist wenn x̄ „weit größer“ als µ0 ist 173 Einleitung S. Etschberger Einstichproben-Gaußtest Mögliche Fehlentscheidungen Alternatives Kriterium: x̄ − µ0 √ n v= σ Vorteil: Verteilung bekannt: N(0; 1) Ablehnung von H0 , obwohl H0 richtig ist: Fehler 1. Art Nicht-Ablehnung von H0 , obwohl H0 falsch ist: Fehler 2. Art Dann: H0 : µ = µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen wird abgelehnt gegenüber Punkt-Schätzung Intervall-Schätzung a) H1 : µ 6= µ0 , wenn |v| „sehr groß“ ist b) H1 : µ < µ0 , wenn v „sehr negativ“ ist c) H1 : µ > µ0 , wenn v „sehr positiv“ ist Signifikanztests alten H0 beibeh H0 r ichtig H0 f alsch H0 ablehn en alten H0 beibeh H0 ablehn en Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art. 174 Einleitung S. Etschberger Einstichproben-Gaußtest Mithilfe von α und V kann geklärt werden, was „sehr groß“ usw. heißt: Wahrscheinlichkeit für Fehler 1. Art im Fall a): |v| > x, obwohl H0 richtig: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen P(|V| > x) = P(V > x) + P(V < −x) = 2 · P(V > x) Punkt-Schätzung (Symmetrie der Normalverteilung) Intervall-Schätzung Signifikanztests ! = 2 · [1 − P(V 5 x)] = 2 · [1 − Φ(x)] = α ⇐⇒ Φ(x) = 1 − α 2 ⇐⇒ x = x1− α2 H0 wird demnach verworfen, wenn |v| > x1− α2 bzw. v ∈ B ist. B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich. Analoge Vorgehensweise für die Fälle b) und c) 175 Einleitung S. Etschberger Einstichproben-Gaußtest Rezept 1. Einführung 2. Deskriptive Statistik 1 2 3 Ein Signifikanzniveau α wird festgelegt. x − µ0 √ Der Testfunktionswert v = n wird berechnet. σ Der Verwerfungsbereich B = −∞; −x1−α/2 ∪ x1−α/2 ; ∞ 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests im Fall a) B = (−∞; −x1−α ) im Fall b) B = (x1−α ; ∞) im Fall c) wird festgelegt, wobei x1−α/2 bzw. x1−α das (1 − α/2)- bzw. das (1 − α)-Fraktil der N(0,1)-Verteilung ist. 4 H0 wird genau dann verworfen, wenn v ∈ B gilt. 176 Einleitung S. Etschberger Einstichproben-Gaußtest Beispiel: 1. Einführung X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28 2. Deskriptive Statistik Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau α = 0,01 4. Induktive Statistik 3. W-Theorie Grundlagen Punkt-Schätzung Intervall-Schätzung Lösung: Einstichproben-Gaußtest, Fall a) 1 α = 0,01 2 v= 3 N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576 ⇒ B = (−∞; −2,576) ∪ (2,576; ∞) 4 499,28−500 1,5 · √ Signifikanztests 25 = −2,4 v∈ / B ⇒ H0 nicht verwerfen Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine Abweichung vom Sollwert µ0 = 500 nachgewiesen werden. 177 Aufbau und Klassifikation von Signifikanztests Einleitung S. Etschberger Der jeweils geeignete Test hängt ab von . . . dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide: Parametrische Hypothesen: Beziehen sich auf unbekannte(n) Verteilungsparameter (µ, σ2 , . . . ) Nichtparametrische Hypothesen: Beinhalten sonstige Aussagen, z.B. „Alter und Einkommen sind unabh.“ 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests den Voraussetzungen an die Verteilung/parameter (z.B. G ∼ N(µ; σ)) den Voraussetzungen an den Stichprobenumfang (z.B. n > 30) Art und Anzahl der Stichproben; unterscheide: Signifikanztests bei einer einfachen Stichprobe Signifikanztests bei mehreren unabhängigen Stichproben Signifikanztests bei zwei verbundenen Stichproben In dieser Vorlesung: Nur einfache Stichproben 178 Einleitung S. Etschberger Klassifizierung von Signifikanztests Signifikanztests bei einer einfachen Stichprobe nnt ek a σb Einstichproben Gaußtest 1. Einführung t eil σu ist ert nbe G )-v kann σ t , (µ N G ist dichotom und P 5 ≤ xi ≤ n − 5 2. Deskriptive Statistik Einstichproben t-Test Grundlagen Approximativer Gaußtest et pa n ra ich m t et ris ch Signifikanztests G ist ver belie t b n eilt un ig d > 30 : 2 0 H0 σ = 2 σ eine einfache Stichprobe Punkt-Schätzung Intervall-Schätzung H =0 : µ 0 µ ch ris m ra pa 3. W-Theorie 4. Induktive Statistik Approximativer Gaußtest χ2 -Test für die Varianz G ist N(µ, σ)-verteilt χ2 -Anpassungstest H0 : F genügt einem Verteilungstyp (z.B. einer Normalverteilung) (Umfangreichere Übersicht über alle möglichen Fälle siehe Bamberg u. a. (2011), Seite 171ff.) 179 Einstichproben-t-Test und approximativer Gaußtest Einleitung S. Etschberger Gegeben: Einfache Stichprobe X1 , . . . , Xn mit 1. Einführung E(Xi ) = µ, Var(Xi ) = σ2 2. Deskriptive Statistik 3. W-Theorie Hypothesenpaare: 4. Induktive Statistik Grundlagen Punkt-Schätzung a) H0 : µ = µ0 b) H0 : µ = µ0 c) H0 : µ = µ0 H1 : µ 6= µ0 (oder µ = µ0 ), H1 : µ < µ0 (oder µ 5 µ0 ), H1 : µ > µ0 Intervall-Schätzung Signifikanztests Voraussetzungen: 1 Normalverteilung mit σ unbekannt (Einstichproben-t-Test) oder 2 Beliebige Verteilung P mit n > 30 bzw. 5 5 xi 5 n − 5 (bei B(1; p)) (approximativer Gaußtest) 180 Einstichproben-t-Test, approximativer Gaußtest Einleitung S. Etschberger Ablauf: 1 Festlegen des Signifikanzniveaus α 2 Berechnen des Testfunktionswertes: x̄ − µ0 √n s x̄ − µ √ 0 v= n σ √ x̄ − µ0 n p µ0 (1 − µ0 ) 3 1. Einführung 2. Deskriptive Statistik 3. W-Theorie falls Grundgesamtheit N(µ; σ)-verteilt, σ unbekannt oder falls Verteilung der GG beliebig, n > 30, σ unbekannt falls Verteilung der GG beliebig, n > 30, σ bekannt 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests falls GG gemäß B(1; µ)-verteilt, n > 30 Festlegen des Verwerfungsbereichs B: Falls H1 : µ 6= µ0 : Falls H1 : µ < µ0 : Falls H1 : µ > µ0 : B = (−∞; −x1−α/2 ) ∪ (x1−α/2 ; ∞) B = (−∞; −x1−α ) B = (x1−α ; ∞) Dabei steht x1−α/2 bzw. x1−α für das jeweilige Fraktil der t(n − 1)-Verteilung bei n ≤ 29 bzw. der N(0; 1)-Verteilung bei n ≥ 30. 181 Einstichproben-t-Test: Beispiel Einleitung S. Etschberger Beispiel t-Test: Energieaufnahme von Frauen Empfohlene täglich Energieaufnahme für Frauen: 7724 kJ (1845 kcal) Nehme einfache Stichprobe von 11 Frauen und teste zum Signifkanzniveau α = 0,05 für H0 : „Der Erwartungswert der täglichen Energieaufnahme für Frauen ist 7724 kJ“ (µ0 ) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung gegen H1 : µ 6= µ0 Intervall-Schätzung Signifikanztests daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770) t.test(daily.intake, alternative="two.sided", mu=7724, conf.level=0.95) ## ## ## ## ## ## ## ## ## ## ## One Sample t-test data: daily.intake t = -2.818, df = 10, p-value = 0.01823 alternative hypothesis: true mean is not equal to 7724 95 percent confidence interval: 5986 7521 sample estimates: mean of x 6754 182 5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770) ke, alternative="two.sided", mu=7724, conf.level=0.95) #nn˛! 1 2 3 4 5 6 7 8 9 10 11 0.6 0.75 0.8 0.9 0.95 0.975 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.698 1.376 1.061 0.979 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.875 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 12.706 4.303 3.183 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 Einstichproben-t-Test, approx. Gaußtest Einleitung S. Etschberger Beispiel: X1 , . . . , X2000 ∼ B(1; p) mit 1, falls i-te Person Wähler einer bestimmten Partei Xi = 0, sonst 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Ergebnis der Stichprobe: 2000 P xi = 108 i=1 Prüfe H0 : p 5 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 % 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Lösung: approximativer Gaußtest bei dichotomer (zweiwertiger) Verteilung; Voraussetzung 2 erfüllt: 5 5 108 5 2000 − 5 1 α = 0,02 108 2 v = √ 2000 −0,05 0,05·(1−0,05) √ 2000 = 0,82 3 N(0; 1) : x1−α = x0,98 = 2,05 (Tabelle) ⇒ B = (2,05; ∞) 4 v∈ / B ⇒ H0 nicht verwerfen Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung! 183 Einleitung S. Etschberger Chi-Quadrat-Test für die Varianz Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ) Hypothesenpaare: 1. Einführung a) H0 : σ2 = σ20 2 b) H0 : σ = c) σ20 H0 : σ2 = σ20 H1 : σ2 6= σ20 2 (oder σ = σ20 ), (oder σ2 5 σ20 ), 2 H1 : σ < σ20 H1 : σ2 > σ20 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Vorgehensweise: 1 Festlegen des Signifikanzniveaus α. 2 Berechnung des Testfunktionswertes: v= n (n − 1)s2 1 X = (xi − x̄2 ) σ20 σ20 i=1 3 Festlegen des Verwerfungsbereichs: B = 0; xα/2 ∪ x1−α/2 ; ∞ im Fall a) B = [0; xα ) im Fall b) B = (x1−α ; ∞) im Fall c) 184 Einleitung S. Etschberger Chi-Quadrat-Test für die Varianz Beispiel: G ∼ N(µ; σ) (x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200) 1. Einführung Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1 2. Deskriptive Statistik 3. W-Theorie Lösung: χ2 -Test für die Varianz, Hypothese Fall a); Voraussetzungen sind erfüllt 1 α = 0,1 2 x̄ = 1 10 v= 1 402 3 4. Induktive Statistik Grundlagen Punkt-Schätzung Signifikanztests (2100 + 2130 + · · · + 2200) = 2164 [(2100 − 2164)2 + · · · + (2200 − 2164)2 ] = 16,65 χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92 (Tabelle der χ2 -Verteilung) 4 ˛ -Fraktile der 2 -Verteilung mit n Freiheitsgraden #˛nn! ⇒ B = [0; 3,33) ∪ (16,92; ∞) 4 Intervall-Schätzung (n − 1)s2 v= = σ20 v∈ / B ⇒ H0 nicht verwerfen 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.4 0.5 0.6 0.75 0.8 0.9 0.95 1 2 3 0.00 0.00 0.00 0.00 0.02 0.06 0.10 0.28 0.45 0.71 1.32 1.64 2.71 3.84 0.01 0.02 0.05 0.10 0.21 0.45 0.58 1.02 1.39 1.83 2.77 3.22 4.61 5.99 0.07 0.11 0.22 0.35 0.58 1.01 1.21 1.87 2.37 2.95 4.11 4.64 6.25 7.81 7 8 9 0.21 0.41 0.68 0.99 0.30 0.55 0.87 1.24 0.48 0.83 1.24 1.69 0.71 1.15 1.64 2.17 1.06 1.61 2.20 2.83 1.65 2.34 3.07 3.82 1.92 2.67 3.45 4.25 2.75 3.66 4.57 5.49 3.36 4.35 5.35 6.35 4.04 5.13 6.21 7.28 5.39 6.63 7.84 9.04 5.99 7.29 8.56 9.80 7.78 9.24 10.64 12.02 9.49 11.07 12.59 14.07 4 5 6 1.34 1.65 2.18 2.73 3.49 4.59 5.07 6.42 7.34 8.35 10.22 11.03 13.36 15.51 1.73 2.09 2.70 3.33 4.17 5.38 5.90 7.36 8.34 9.41 11.39 12.24 14.68 185 16.92 Zwei verbundene einfache Stichproben: Kontingenztest Einleitung S. Etschberger Situation: In Grundgesamtheit G: Zwei verbundene einfache Stichproben, also Beobachtung zweier Merkmale X, Y Hypothese: 1. Einführung 2. Deskriptive Statistik H0 : Die beiden Merkmale X und Y sind in G unabhängig. H1 : X und Y sind in G abhängig. 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Vorgehensweise Kontingenztest: Signifikanztests 1 Festlegen des Signifikanzniveaus α. 2 Unterteilung der x-Achse in k ≥ 2 und die y-Achse in l ≥ 2 disjunkte, aneinander angrenzende Intervalle A1 , . . . , Ak bzw. B1 , . . . , Bl 3 Erstellen einer Kontingenztabelle mit Randhäufigkeiten: x↓ y→ B1 B2 ··· Bl A1 A2 . . . Ak h11 h21 . . . hk1 h12 h22 .. . hk2 ··· ··· . . . ··· h1l h2l . . . hkl hk• h•1 h•2 ··· h•l n h1• h2• 186 Zwei verbundene einfache Stichproben: Kontingenztest Einleitung S. Etschberger Vorgehensweise Kontingenztest (Fortsetzung): 4 Zu jeder Kombination aus i = 1, . . . , k und j = 1, . . . , l: Berechnung der Größe 1. Einführung 2. Deskriptive Statistik hi• · h•j h̃ij = n 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung 5 v= k X l X h̃ij − hij i=1 j=1 6 Intervall-Schätzung Berechnung des Testfunktionswerts v: h̃ij 2 = Signifikanztests k X l X h2ij i=1 j=1 h̃ij −n Mit dem Fraktilswert x1−α der χ2 -Verteilung mit (k − 1) · (l − 1) Freiheitsgraden: Berechnung des Verwerfungsbereichs B = (x1−α ; ∞) 7 Ablehnung von H0 genau dann, wenn v ∈ B. 187 Einleitung S. Etschberger Zwei verbundene einfache Stichproben: Kontingenztest Kontingenztest: Beispiel 400 Erstkandidaten einer praktischen Führerscheinprüfung schneiden abhängig von der besuchten Fahrschule folgendermaßen ab: 4 Berechnung der h̃ij : 1. Einführung best. durchg. Fahrschule A B C 130 70 88 38 62 12 A B C 140 60 88,2 37,8 51,8 22,2 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen bestanden durchgefallen Zum Signifikanzniveau von 5 % soll getestet werden, ob das Bestehen der Prüfung unabhängig von der besuchten Fahrschule ist. Punkt-Schätzung 2 5 (130 − 140) + ... 140 (12 − 22,2)2 + 22,2 ≈ 9,077 v= Intervall-Schätzung Signifikanztests Testdurchführung 1 Signifikanzniveau α = 5 % 2 entfällt, da Skalenniveau nominal 3 Kontingenztabelle: best. durchg. P P A B C 130 70 88 38 62 12 280 120 200 126 74 400 6 χ2 -Verteilung mit (3 − 1) · (2 − 1) = 2 Freiheitsgraden: x1−0,05 = x0,95 = 5,99: B = (5,99; ∞) 7 v ∈ B: Also wird H0 abgelehnt, die Prüfungsergebnisse sind abhängig von der Fahrschule. 188 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Einleitung Problemstellung Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik Synonym: Multivariate Datenanalyse, Numerische Taxonomie, Multivariatenanalyse 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Aufgaben: Analyse von Zusammenhängen und Ähnlichkeitsbeziehungen zwischen Elementen einer bestimmten Menge Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation Teilgebiet der Statistik Einsatz sinnvoll bei großen Datenmengen mit mehr als einem Merkmal Ausgangspunkt: Datenmatrix oder Distanzmatrix. 190 Statistik Etschberger - SS2014 Datenmatrix Die Datenmatrix enthält zeilenweise Objekte (Merkmalsträger, cases) enthält spaltenweise Merkmale (variables, items) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Beispiel Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse type income education prestige Datenanalyse: Prozess 6. Repräsentation conductor watchman pilot policeman chemist wc bc prof bc prof 76 17 72 34 64 34 25 76 47 86 38 11 83 41 90 (Auszug aus Daten von Duncan ) 191 Statistik Etschberger - SS2014 Distanzen Die Distanzmatrix 1. Einführung enthält zeilen- und spaltenweise Objekte. 2. Deskriptive Statistik Die Einträge der Matrix sind Werte für die Verschiedenheit (Distanzen) zweier Objekte. 4. Induktive Statistik 3. W-Theorie 5. Datenanalyse Grundbegriffe Anwendungsbereiche Beispiel Dreiteilung der Datenanalyse Datenanalyse: Prozess conductor watchman pilot policeman chemist conductor watchman pilot policeman chemist 0.000 0.622 0.581 0.491 0.679 0.622 0.000 0.920 0.257 0.949 0.581 0.920 0.000 0.663 0.097 0.491 0.257 0.663 0.000 0.692 0.679 0.949 0.097 0.692 0.000 6. Repräsentation 192 Statistik Etschberger - SS2014 Teilbereiche 3 Teilbereiche der Datenanalyse nach dem Zweck der Anwendung 1. Einführung Datenverdichtende Verfahren (deskriptiv) Strukturprüfende Verfahren (induktiv) Kennzahlen Varianzanalyse Indizes Regressionsanalyse 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Faktorenanalyse logistische Regression Dreiteilung der Datenanalyse Datenanalyse: Prozess Diskriminanzanalyse Strukturaufdeckende Verfahren (explorativ) 6. Repräsentation Conjoint-Analyse Kreuztabellen Faktorenanalyse Clusteranalyse MDS Korrespondenzanalyse 193 Klassische Anwendungsbereiche der Datenanalyse Marketing/ Marktforschung Marktsegmentierung Kundentypisierung Statistik Etschberger - SS2014 Medizin Hilfe bei Diagnosen 1. Einführung Überprüfung von Therapieerfolgen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Aufdecken von Marktnischen Ermittlung von Marktreaktionen Sozialwissenschaften Einstellungsanalysen Volkswirtschaft 5. Datenanalyse Grundbegriffe Anwendungsbereiche Input-Output-Analysen zur Abgrenzung und Aggregation von Wirtschaftssektoren Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation Qualifikationsprofile Bibliothekswesen Biologie Zuordnung von Pflanzen oder Tieren zu Gattungen Katalogisierung Auffinden von ähnlichen Werken 194 Dreiteilung Statistik Etschberger - SS2014 Die klassische Dreiteilung der Datenanalyse 1. Einführung Segmentierung (Clusteranalyse): Zusammenfassung von Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten in wichtigen Merkmalsbereichen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Repräsentation: Darstellung von Objekten durch Punkte im 2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungen durch räumliche Nähe zum Ausdruck kommen sollen Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation Identifikation: Reproduktion einer gegebenen Segmentierung oder Repräsentation mit Hilfe weniger aussagekräftiger Merkmale (Ziel: Prognose, Klassifikation) 195 Statistik Etschberger - SS2014 Dreiteilung: Methoden Hauptkomponentenanalyse Repräsentation Korrespondenzanalyse 1. Einführung 2. Deskriptive Statistik 3. W-Theorie MDS 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Hierarchie Datenanalyse Dreiteilung der Datenanalyse Segmentierung Clusteranalyse Datenanalyse: Prozess Partition einer Repräsentation Varianzanalyse 6. Repräsentation Regression Conjointanalyse Identifikation einer Klassifikation Diskriminanzanalyse 196 Ablauf einer datenanalytischen Untersuchung Statistik Etschberger - SS2014 1. Präzisierung des Untersuchungsziels Formulierung der Zielsetzung Abgrenzung der Untersuchungsobjekte Ableitung der taxonomischen Aufgabenstellung Segmentierung Repräsentation Identifikation 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche 2. Diskussion der Datenbasis Dreiteilung der Datenanalyse Datenanalyse: Prozess Auswahl der Merkmale 6. Repräsentation Festlegung des Skalenniveaus oder Charakterisierung der Objekte durch direkte Vergleiche 3. Datenerhebung und -erfassung Primär- oder Sekundärerhebung Vollerhebung oder Teilerhebung (Stichprobenauswahl!) Datencodierung und ggf. Dateneingabe in DV-Systeme 197 Ablauf einer datenanalytischen Untersuchung Statistik Etschberger - SS2014 4. Datenanalyse Univariate Datenanalyse (Screening, erster Einblick in die Merkmalsstruktur, Plausibilitätsprüfung) −→ Deskriptive Verfahren Multivariate Datenanalyse (nicht ’statistics all’, sondern Verfahrenseinsatz nach Aufgabenstellung und Zielsetzung) −→ Explorative und induktive Verfahren 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation 5. Interpretation der Ergebnisse Klassenstatistiken und Bezeichnungen bei Clusteranalysen Benennung der Achsen bei Repräsentationsverfahren Überprüfen der Modellqualität z.B. mittels Test- bzw. Validierungsdaten bei Identifikationsverfahren 198 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation Bildquelle: PicBroadwayTower 6 Repräsentation Einführung Hauptkomponentenanalyse Statistik Etschberger - SS2014 Repräsentation Ziele der Repräsentation Anordnung der Objekte in einem möglichst niedrig dimensionierten Raum, so dass die relative Lage der sich ergebenden Punkte (Objekte) die Ähnlichkeit der Objekte angemessen beschreibt. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Dimension 2 Aufdeckung von Gruppierungen leichter (Kontrolle einer Klassifikation) Einführung Hauptkomponentenanalyse Durch Interpretation der Achsen evtl. Aufschluss über den Grund der Lage bestimmter Objekte Dimension 1 200 Statistik Etschberger - SS2014 Repräsentation Varianten der Repräsentation: Hauptkomponentenanalyse Berechnung der Repräsentation aus Varianz-Kovarianz-Strukturen der Datenmatrix 1. Einführung 2. Deskriptive Statistik A = (aik )n×m Hauptkomponentenanalyse −→ X = (xik )n×q 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Vorgehen: Datenmatrix wird direkt verarbeitet Problem: Lassen sich die m quantitativen Merkmale sinnvoll durch q (meist 2 oder 3) sogenannte Faktoren ersetzen? Voraussetzung: Datenmatrix darf nur metrische Merkmale enthalten 6. Repräsentation Einführung Hauptkomponentenanalyse Typische Fragestellungen der Hauptkomponentenanalyse in der Marktforschung Läßt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke als wichtig empfinden, auf wenige komplexe Faktoren reduzieren? Wie lassen sich darauf aufbauend die verschiedenen Marken anhand dieser Faktoren beschreiben? 201 Statistik Etschberger - SS2014 Repräsentation: Beispiel Hauptkomponentenanalyse require(FactoMineR) data(decathlon) summary(decathlon) decathlon$Long.jump = 10 - decathlon$Long.jump decathlon.pca = prcomp(decathlon[,1:10], scale=TRUE) round(decathlon.pca$sdev, 3) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## [1] 1.809 1.318 1.185 1.028 0.828 0.774 0.672 0.630 ## [9] 0.463 0.427 biplot(decathlon.pca,cex=0.5) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 0.4 Casarsa 4. Induktive Statistik 0.2 YURKOV Parkhomenko Korkizoglou 1500m 6. Repräsentation Long.jump Javeline Zsivoczky Smith Macey 110m.hurdle 100m PC2 5. Datenanalyse Discus Shot.put 400m MARTINEAU HERNU Turi 0.0 Long.jump Shot.put Min. :6.61 Min. :12.7 1st Qu.:7.03 1st Qu.:13.9 Median :7.30 Median :14.6 Mean :7.26 Mean :14.5 3rd Qu.:7.48 3rd Qu.:15.0 Max. :7.96 Max. :16.4 400m 110m.hurdle Min. :46.8 Min. :14.0 1st Qu.:48.9 1st Qu.:14.2 Median :49.4 Median :14.5 Mean :49.6 Mean :14.6 3rd Qu.:50.3 3rd Qu.:15.0 Max. :53.2 Max. :15.7 Pole.vault Javeline Min. :4.20 Min. :50.3 1st Qu.:4.50 1st Qu.:55.3 Median :4.80 Median :58.4 Mean :4.76 Mean :58.3 3rd Qu.:4.92 3rd Qu.:60.9 Max. :5.40 Max. :70.5 Rank Points Min. : 1.0 Min. :7313 1st Qu.: 6.0 1st Qu.:7802 Median :11.0 Median :8021 Mean :12.1 Mean :8005 3rd Qu.:18.0 3rd Qu.:8122 Max. :28.0 Max. :8893 BOURGUIGNON Uldal Einführung Hauptkomponentenanalyse McMULLEN Schoenbeck Lorenzo High.jump Sebrle Clay Pogorelov SEBRLE CLAY Terek KARPOV Barras Karlivans BARRAS −0.2 100m Min. :10.4 1st Qu.:10.8 Median :11.0 Mean :11.0 3rd Qu.:11.1 Max. :11.6 High.jump Min. :1.85 1st Qu.:1.92 Median :1.95 Mean :1.98 3rd Qu.:2.04 Max. :2.15 Discus Min. :37.9 1st Qu.:41.9 Median :44.4 Mean :44.3 3rd Qu.:46.1 Max. :51.6 1500m Min. :262 1st Qu.:271 Median :278 Mean :279 3rd Qu.:285 Max. :317 Competition Decastar:13 OlympicG:28 Karpov Bernard Qi Hernu Pole.vault Ojaniemi BERNARD Smirnov ZSIVOCZKY Gomez Schwarzl Averyanov Nool WARNERS Warners NOOL Drews −0.2 0.0 0.2 0.4 PC1 202 Statistik Etschberger - SS2014 Repräsentation Varianten der Repräsentation: Mehrdimensionale Skalierung Berechnung der Repräsentation aus der Distanzmatrix 1. Einführung Distanz MDS A = (aik )n×m −→ D = (dij )n×n −→ X = (xil )n×q 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Meistens: q ∈ {1,2,3} Datenmatrix wird nicht direkt verarbeitet; Umweg über Distanzmatrix Keine Anforderung an das Skalenniveau der Merkmale 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Typische Fragestellungen der MDS in der BWL: Welche Produkte einer Gruppe sind sich ähnlich/unähnlich? Inwieweit entspricht das eigene Produkt den Idealvorstellungen der Konsumenten? Welches Image besitzt eine bestimmte Marke? Hat sich die Einstellung der Konsumenten zu einer Marke in den letzten Jahren verändert 203 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Idee Faktorenanalyse: Grundlegende Idee 1. Einführung Welche Aussagen lassen sich über die Struktur des Zusammenhangs von Merkmalsvariablen treffen? Idee: Darstellung der Struktur in den Daten durch paarweise Korrelationen Bei m gemessenen Merkmalen gibt es m·(m−1) 2 Korrelationen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse m groß: Analyse des gesamten Variablenkomplexes dann oft schwierig. Einschränkung: HKA ist bivariate Analyse; betrachtet also nur jeweils den Zusammenhang je zweier Variablen; Beziehungen zwischen mehr als zwei Merkmalen werden nicht berücksichtigt 204 Hauptaufgaben Statistik Etschberger - SS2014 Hauptaufgaben der Faktorenanalyse 1. Einführung Extraktion von hypothetischen Merkmalen, den sog. Faktoren, aus den Merkmalen und ihren Beziehungen Also: Korrelierende Merkmale werden zu Merkmalspaketen zusammengefasst (Faktorenextraktion) Damit Reduktion der Komplexität in den Ausgangsdaten: Anstelle von m Variablen wenige Faktoren 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Dabei: Möglichst wenig Informationsverlust Durch Datenkompression: Evtl. leichtere Interpretation und Übersicht Außerdem: Faktoren sind konstruktionsbedingt unkorreliert und damit qualifiziert als Ausgangsbasis für korrelationssensible Verfahren (z.B. Regression) 205 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Bevorzugte Variante der Faktorenanalyse bei metrischen Datenmatrizen: Hauptkomponentenanalyse. Dabei unterstellt: Lineare Beziehung zwischen den ursprünglich erhobenen und den neu zu bestimmenden hypothetischen Größen (Faktoren). Damit: Merkmalsvektoren ak (Spaltenvektor) lassen sich als Linearkombination von q Faktoren x1 , ..., xq (Spaltenvektoren) darstellen. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Im Falle q = m immer möglich: ak = m X fki xi (k = 1, . . . , m) i=1 206 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Faktoren und Ladung Faktoren und Ladungsvektoren Matriziell: A = X · FT bzw. mit Koeffizienten: 1. Einführung a ··· 11 . . . ai1 . . . an1 ··· ··· x 11 a1m . . . . . . aim = .. . . . . . . . anm xn1 ··· . . . xik . . . ··· x1q . . . f11 . . . · . . . f1q . . . xnq 2. Deskriptive Statistik 3. W-Theorie ··· .. . ··· fk1 . . . fkq ··· .. . ··· fm1 . . . fmq 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Mit: xip xp X als als als Faktorwert Faktor Faktorwertematrix fkp fk F als als als Faktorladung Ladungsvektoren Faktorladungsmatrix Damit: Ein Objekt i, dargestellt durch die Zeile i der Datenmatrix A wird nun mit Hilfe der Zeile i der Faktorwertematrix X repräsentiert 207 Hauptkomponentenanalyse: Informationsgehaltt Problem: Ist diese Darstellung ohne großen Informationsverlust möglich? Dazu nötig: Maß für den Informationsgehalt einer Daten- bzw. Faktorwertematrix Also: Kovarianzmatrizen S = Cov(A) und C = Cov(X) als Basis für Informationsmaß Übliche Annahme: Informationsgehalt von Merkmalen/Faktoren ist umso größer, je größer die Varianz dieser Merkmale/Faktoren ist. Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Damit: Maß für Gesamtvariabilität aller Merkmale/Faktoren über Summe der Varianzen aller betrachteten Merkmale/Faktoren Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich des Informationsgehaltes der beiden Matrizen. (Summe der Varianzen entspricht Spur der Kovarianzmatrix) 208 22 25 21 28 24 5 10 4 13 8 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Informationsgehalt Berechnung des Informationsgehaltes Für Datenmatrix A: Kovarianzmatrix S = (skl )m×m : 1. Einführung skl n 1X (aik − ā·k )(ail − ā·l ) = n mit ā·k i=1 n 1X = aik n i=1 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Maß für die Gesamtinformation von A: 6. Repräsentation Einführung Spur S = m X skk k=1 n m 1 XX (aik − ā·k )2 = n Hauptkomponentenanalyse i=1 k=1 Analog für Faktorwertematrix X: Kovarianzmatrix C = (ckl )q×q und Spur(C): Spur(C) = q X k=1 1 XX (xik − x̄·k )2 n n ckk = q i=1 k=1 209 Beispiel Informationsgehalt 22 5 25 10 4 Gegeben: Datenmatrix A = 21 28 13 24 8 A soll mit Hilfe zweier unterschiedlicher Faktorkombinationen repräsentiert werden Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Faktorkombination 1 bzw. 2 ist dabei gegeben durch die Faktorladungsmatrizen F 0 bzw. F 00 gemäß 0,6 0,8 0,9 0,2 F0 = bzw. F 00 = 0,8 −0,6 0,8 −0,5 Frage: Wie gut sind die beiden daraus resultierenden Repräsentationen? 210 Statistik Etschberger - SS2014 Beispiel Informationsgehalt Beispiel - Berechnung Kombination 1 Berechnet man für die Matrix A die Kovarianzmatrix S und die Spur S, so ergeben sich folgende Werte: 6 8 S= ⇒ Spur(S) = 6 + 10,8 = 16,8 8 10,8 0 0T −1 Mit Hilfe der Faktorladungsmatrix F und X = A · (F ) sich für X 0 folgendes: 17,2 23 X0 = 15,8 27,2 20,8 14,6 14 14,4 14,6 14,4 sowie C = 16,752 −0,064 −0,064 0,048 ergibt 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse ⇒ Spur(C) = 16,752 + 0,048 = 16,8 211 Repräsentation: Beispiel 1 Statistik Etschberger - SS2014 Beispiel - Interpretation Kombination 1 1. Einführung Mit Hilfe der neuen Repräsentation kann die Objektmenge ohne Informationsverlust dargestellt werden. (Spur S = Spur C = 16,8) Die neue Darstellung hat darüber hinaus den Vorteil, dass die entstandenen Faktoren (nahezu) unkorreliert sind, während die ursprünglichen Merkmale eine hohe Korrelation aufweisen. Es gilt nämlich: 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse → Korrelation (a1 , a2 ) = 0,9938 → Korrelation (x1 , x2 ) = −0,0714 Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe des 11 ersten Faktors, so können immerhin noch c11c+c ≈ 99,71% der 22 Informationen dargestellt werden. 212 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 1 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Merkmal 2 1. Einführung 2. Deskriptive Statistik ) , 10 ·( 0 2 f1 3. W-Theorie 0 1 f1 F0 = 0,6 0,8 0,8 −0,6 10 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 10 5 · (f 0 21 , f20 2) 20 22 24 25 26 28 30 Merkmal 1 213 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 1 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Faktor 2 1. Einführung 2. Deskriptive Statistik 15 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung 10 Hauptkomponentenanalyse 5 0 14 16 18 20 22 24 26 Faktor 1 214 Statistik Etschberger - SS2014 Repräsentation: Beispiel 2 F 00 = Beispiel - Berechnung Kombination 2 0,9 0,8 0,2 −0,5 Wie oben bereits erwähnt ergibt sich für die Matrix A die Kovarianzmatrix S und die Spur(S) wie folgt: 6 8 S= ⇒ Spur(S) = 6 + 10,8 = 16,8 8 10,8 Mit Hilfe der Faktorladungsmatrix F 00 und X = A · (FT )−1 ergibt sich für X 00 folgendes: 19,67 23,77 X 00 = 18,52 27,21 22,29 21,47 18,03 21,63 17,54 19,67 sowie C = 9,49 −5,01 −5,01 2,87 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse ⇒ Spur(C) = 9,49 + 2,87 = 12,36 215 Repräsentation: Beispiel 2 Statistik Etschberger - SS2014 Beispiel - Interpretation Kombination 2 1. Einführung Mit Hilfe dieser zweiten Repräsentation kann die Objektmenge nicht ohne Informationsverlust dargestellt werden. (Spur S = 16,8 und Spur(C) = 12,36) Die neue Darstellung hat darüber hinaus den Nachteil, dass die entstandenen Faktoren fast genauso hoch (absolut) korreliert sind wie die ursprünglichen Merkmale. Es gilt nämlich: 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Korrelation (a1 , a2 ) = −0,9938 Korrelation (x1 , x2 ) = −0,9597 Somit stellt sich also die Frage, wie die Repräsentation und damit die Faktorladungsmatrix F optimal gewählt werden soll. 216 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 2 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Merkmal 2 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 10 10 · 10 · 5 00 ) 00 (f 11, f 12 Einführung Hauptkomponentenanalyse ( f 00 21 , f200 2) 20 22 24 25 26 28 30 Merkmal 1 217 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 2 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 00 Faktor 2 1. Einführung 2. Deskriptive Statistik 24 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 22 6. Repräsentation Einführung Hauptkomponentenanalyse 20 18 16 14 14 16 18 20 22 24 26 Faktor 1 218 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Satz 1 der Hauptkomponentenanalyse T 1. Einführung T T Sei A = X · F und F orthogonal (d.h. F · F = F · F = E), dann gilt: 2. Deskriptive Statistik 3. W-Theorie 1 2 Spur S = Spur C C = FT · S · F 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Bemerkungen: Spur S = Spur C ↔ Information bleibt erhalten F orthogonal ⇒ A = X · FT ⇔ A · F = X · FT · F = X T ckk = fk · S · fk , d.h. der durch den Faktor xk erklärte Anteil der Varianz hängt nur von fk ab. 219 Statistik Etschberger - SS2014 Faktorenwahl der HKA Hauptkomponentenanalyse: Problem der Faktorenwahl Ziel der HKA: Merkmalsreduktion, d.h., man möchte mit wenigen, unkorrelierten Faktoren auskommen und trotzdem einen Großteil der Information darstellen. 1. Einführung 2. Deskriptive Statistik Die durch die Faktoren erklärten Varianzanteile sollen mit wachsendem Index abnehmen, d.h., Faktor x1 soll den größtmöglichen Varianzanteil erklären, Faktor x2 den zweitgrößten Anteil ... 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Also: c11 ≥ c22 ≥ c33 ≥ . . . ≥ cqq für q ≤ m Hauptkomponentenanalyse Optimierungsproblem: eC= T · S · f1 2T 2 1 max c11 = max f1 2 max c22 = max f 3 ... ·S·f mit f1 T 2T mit f · f1 = 1 · f2 = 1 und f2 T · f1 = 0 16,752 −0,064 F0 = 0,6 0,8 −0,064 0,048 0,8 −0,6 Oder Allgemein: Optimierungsproblem (∗): T T max ckk = max fk · S · fk mit fk · fk = 1 T und fk · fl = 0 für l = 1, ..., k − 1 220 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Satz 2 der Hauptkomponentenanalyse Die Lösung der Optimierungsprobleme (∗) impliziert folgendes Eigenwertproblem von S: (S − λ · E) · f = 0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation mit Einführung c11 , c22 , c33 , . . . , cmm ≥ 0 sind Eigenwerte von S T Hauptkomponentenanalyse T f1 , f2 , . . . , fq mit fk · fk = 1, fk · fl = 0(l 6= k) sind Eigenvektoren von S c11 0 .. Für die Matrix C gilt: C = . 0 cqq 221 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Konsequenzen aus Satz 2 der HKA A = X · FT ↔ X = A · F → Faktoren x1 = A · f1 , . . . , xm = A · fm 1. Einführung 2. Deskriptive Statistik 3. W-Theorie C ist Diagonalmatrix → Faktoren sind paarweise unkorreliert. Numerierung der Faktoren x1 , . . . , xm derart, dass λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0 P → x1 erklärt mit λ1 / P λk den größten Anteil der Varianz → x2 erklärt mit λ2 / λk den zweitgrößten Anteil ... 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Bewertung des Informationsverlustes einer Merkmalsreduktion auf q < m Faktoren h i λ +...+λ c11 +...+cqq b(q) = 1 − λ11 +...λmq = 1 − c11 +...+cmm ∈ [0,1] und b(m) = 0 222 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Vorgehensweise der HKA 1. Einführung Datenmatrix A, maximaler Informationsverlust b0 2. Deskriptive Statistik 3. W-Theorie Berechne Kovarianzmatrix S 4. Induktive Statistik 5. Datenanalyse Löse Eigenwertproblem (S − λ · E) · f = 0 6. Repräsentation Einführung Hauptkomponentenanalyse λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0 (f1 , f2 , . . . , fm ) = F Bestimme q minimal, so dass b(q) = 1 − λ1 +...+λq λ1 +...+λm ≤ b0 Ladungsmatrix Fq = (f1 , f2 , . . . , fq ) Faktorwertematrix Xq = A · Fq = (x1 , x2 , . . . , xq ) 223 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Beispiel 1 - Hauptkomponentenanalyse Für die Produkte P1 , P2 , P3 und P4 konnten bezüglich der Merkmale M1 , M2 und M3 folgende Werte erhoben werden: 6 0 0 8 8 4 A= 0 4 0 2 8 8 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren Sie diese. Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie die Ergebnisse. Bestimmen Sie die Faktorwertematrix und stellen Sie diese zweidimensional dar. Betten Sie die ursprünglichen Merkmalsvektoren in den Faktorwerteplot ein. 224 Statistik Etschberger - SS2014 Ergebnisse Beispiel Farben = c("#dd100070", "#1000dd70")# Beispiel 1 HKA L <- eigen(S)$values # Beispiel 1 HKA L A <- data.frame( ## [1] 20 10 2 a1=c(6,8,0,2), a2=c(0,8,4,8), A.pca <- princomp(A) summary(A.pca) a3=c(0,4,0,8)) A ## Importance of components: F <- eigen(S)$vectors round(F,3) 5. Datenanalyse biplot(A.pca, col=Farben) 6. Repräsentation Einführung 0.6 a1 2 Hauptkomponentenanalyse 0.4 S <- cov(A)*3/4 S 0.2 1 Comp.2 ## a1 a2 a3 ## a1 10 0 0 ## a2 0 11 9 ## a3 0 9 11 3. W-Theorie 4. Induktive Statistik 0.0 1 2 3 4 a1 a2 a3 6 0 0 8 8 4 0 4 0 2 8 8 2. Deskriptive Statistik ## Comp.1 Comp.2 Comp.3 ## Standard deviation 4.472 3.1623 1.4142 ## Proportion of Variance 0.625 0.3125 0.0625 ## Cumulative Proportion 0.625 0.9375 1.0000 a3 a2 −0.2 ## ## ## ## ## 1. Einführung −0.6 −0.4 4 ## [,1] [,2] [,3] ## [1,] 0.000 1 0.000 ## [2,] 0.707 0 -0.707 ## [3,] 0.707 0 0.707 3 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 Comp.1 225 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Beispiel 2 - Hauptkomponentenanalyse Gegeben ist die folgende Datenmatrix: −9 −9 3 1 16 16 A= −12 −11 0 −2 1. Einführung 1 7 −2 20 −1 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren Sie diese. Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie die Ergebnisse. Bestimmen Sie die Faktorwertematrix und stellen Sie diese zweidimensional dar. Betten Sie die ursprünglichen Merkmalsvektoren in den Faktorwerteplot ein. 226 Statistik Etschberger - SS2014 Ergebnisse Beispiel # Beispiel 2 HKA S=cov(A)*(n-1)/n pairs(A,pch=19,col="blue") F <- eigen(S)$vectors round(F,3) # Beispiel 1 HKA L <- eigen(S)$values L ## [,1] [,2] [,3] ## [1,] -0.660 0.252 0.708 ## [2,] -0.633 0.320 -0.705 ## [3,] 0.405 0.913 0.052 A.pca <- princomp(A) summary(A.pca) 0 5 10 15 5 10 15 −10 ## [1] 218.6298 36.2523 1. Einführung 2. Deskriptive Statistik Importance of components: Comp.1 Comp.2 Comp.3 Standard deviation 14.7861 6.0210 0.746909 Proportion of Variance 0.8559 0.1419 0.002184 Cumulative Proportion 0.8559 0.9978 1.000000 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse biplot(A.pca, col=Farben) 5 10 15 0.6 −10 0 var 1 ## ## ## ## ## 0.5579 4 0.4 Var 3 15 0.2 20 −10 0 var 2 0 5 10 15 20 0.0 Comp.2 10 15 2 −0.2 5 −0.4 0 −0.6 −10 3 Var 2 Var 1 10 0 5 var 3 5 1 227 Beispiel Umfrage Statistik Etschberger - SS2014 # Beispiel 2 HKA A = MyData[,c(1,2,4:8,10:12)] str(A) ## 'data.frame': 205 obs. of 10 variables: ## $ Alter : int 21 20 19 20 20 24 20 27 23 21 ... ## $ Groesse : int 173 164 172 168 169 185 170 165 184 178 ... ## $ AlterV : int 54 57 49 45 43 54 49 53 52 55 ... ## $ AlterM : int 51 57 58 49 42 52 53 53 48 55 ... ## $ GroesseV : int 187 172 193 185 182 179 182 175 182 180 ... ## $ GroesseM : int 170 166 162 164 164 163 172 165 175 168 ... ## $ Geschwister: int 1 0 3 3 5 2 2 1 2 1 ... ## $ AusgKomm : num 156 450 240 35.8 450 250 100 300 450 1300 ... ## $ AnzSchuhe : int 17 22 15 15 22 8 20 10 3 7 ... ## $ AusgSchuhe : int 50 500 400 100 450 90 250 200 300 200 ... 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse MD.pca = princomp(A, cor=TRUE) summary(MD.pca, digits=3) ## ## ## ## ## ## ## ## ## ## ## ## Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.4558 1.3194 1.2384 1.0462 Proportion of Variance 0.2119 0.1741 0.1534 0.1095 Cumulative Proportion 0.2119 0.3860 0.5394 0.6488 Comp.5 Comp.6 Comp.7 Comp.8 Standard deviation 0.96679 0.91429 0.77335 0.71009 Proportion of Variance 0.09347 0.08359 0.05981 0.05042 Cumulative Proportion 0.74231 0.82590 0.88571 0.93613 Comp.9 Comp.10 Standard deviation 0.64469 0.47232 Proportion of Variance 0.04156 0.02231 228 Statistik Etschberger - SS2014 0.00 −0.05 −0.10 −0.15 Comp.2 0.05 0.10 0.15 # Beispiel 1 HKA Farben = c("#dd100060", "#1000ddff") biplot(MD.pca, col=Farben, xlim=c(-0.172,0.25), ylim=c(-0.17,0.16)) 107 Groesse 81 28 94189 96 34 47 15 91 180 200 179 141 95 911054 37 17186 118 38 16 169 26 6 74 49 44 147 77 35 Geschwister 140 172 121129 4 197 GroesseM 1198 199 50 72 105 202 112 155 165 168 57 11 191 130 100 GroesseV 167 70 164 178 170 21 23 132 196 119 40 10 146 6612 201 159 7182 1455 181 52 193 136 5189 1423 73 13 71 133 98 184 124 87 188 64 113 108 83 25 192 177 58 86 46 90 102 41 76 65 187 56 82 43 67 53 32 123 55 125 157 103 8 104 101AlterV 92 78 106 190 29 143 185 116 22 131 120 97AusgKomm 1880 2769 30 144 135 Alter 174 AlterM 150 99127 84 14 117 11488 6159 158 138 194 42 183 111 175 163 115 75171 126 63 153 68 195 161 3124 45 139122 134109 2 19 151 93 62 166 162 36 204 39 154 48 176 156149 203 79 60 137 205 20 85 148 AusgSchuhe 152 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 128 5. Datenanalyse 160 6. Repräsentation Einführung Hauptkomponentenanalyse 33 AnzSchuhe −0.1 0.0 0.1 0.2 Comp.1 229 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Interpretation Interpretationshilfen Aussage über den Zusammenhang rkp zwischen den ursprünglichen Merkmalen ak und den Hauptkomponenten (Faktoren) xp z.B. wie folgt: 1. Einführung 1 n rkp = n P 2. Deskriptive Statistik (aik − ā·k )(xip − x̄·p ) i=1 √ √ skk cpp , k = 1, . . . , m p = 1, . . . , q 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Korrelationskoeffizient rkp : Zusätzlicher Anhaltspunkt bei der Interpretation der Analyseergebnisse 6. Repräsentation Einführung Hauptkomponentenanalyse Kommunalitäten Mit Korrelationskoeffizienten rkp : Anteil der auf die ersten q Faktoren (p = 1, ..., q) übertragene Information des k-ten Merkmals ak berechenbar Dazu: Kommunalität kk mit kk = q X r2kp ∈ [0,1] für k = 1, . . . , m p=1 kk gibt an, wieviel Prozent der Informationen des (standardisierten) Merkmals ak noch in den Faktoren x1 . . . xq enthalten sind. 230 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Wahl der Repräsentationsdimension Allgemeingültige Kriterien zur Bestimmung einer problem-adäquaten Repräsentationsdimension q sind nicht bekannt. Man kann sich aber an den folgenden Regeln orientieren: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Man wählt ein q aus, bei dem man bei weiterer Reduktion der Faktorenzahl einen verhältnismäßig hohen zusätzlichen Informationsverlust hätte (Ellenbogenkriterium). 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Man wählt ein minimales q ≥ 1 mit b(q) < bmax , d.h. ein q mit maximal zu akzeptierendem Informationsverlust , (mit z.B.: b0 = 10% oder b0 = 25%). Man wählt ein maximales q ≤ m mit λq ≥ (λ1 + . . . + λm )/m, d.h. man gibt vor, dass jeder Faktor mindestens die durchschnittliche Merkmalsvarianz erklären soll (Kaiser-Kriterium). 231 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Schlußbemerkungen zur Hauptkomponentenanalyse Die HKA hat einige Vorteile: Statt Untersuchungsobjekte durch kaum übersehbare und hochkorrelierte Merkmalsbatterien zu beschreiben, gelangt man zu wenigen und wichtigen und weitgehend orthogonalen Dimensionen des Merkmalsraumes, 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik in dem Untersuchungsobjekte anhand ihrer Faktorwerte positioniert sind 5. Datenanalyse 6. Repräsentation Einführung Fehlinterpretationsmöglichkeiten I Hauptkomponentenanalyse Die HKA projiziert mit Hilfe einer linearer Abbildung die m-dimensionalen Untersuchungsobjekte (unter Verwendung der Matrix Xq ) und die m Merkmale ak (unter Verwendung der Matrix Fq ) in einen gemeinsamen q-dimensionalen Teilraum. Deswegen: Sowohl die Objekte als auch die Merkmalsvektoren dürfen nur relativ zueinander interpretiert werden. Absolute Aussagen über die Lage der Objekte hinsichtlich der einzelnen Merkmalsvektoren gelten nur approximativ. 232 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Fehlinterpretationsmöglichkeiten II Wesentlich: Zahl und Art der Merkmale, die in die FA eingehen. Aus den entsprechenden Gleichungen wird deutlich, daß auf einem Faktor jene Merkmale hoch laden, die auch hoch korreliert sind. Wenn ein Faktor durch sehr viele gleichartige Merkmale vertreten ist, so laden diese auch hoch auf ihm. Die Extraktion des ersten Faktors nach dem Kriterium des höchsten Varianzbeitrages wird dann als bedeutendsten Faktor jenen präsentieren, der durch viele Merkmale vertreten ist. Damit zeigt sich aber, daß die FA für sich allein genommen nicht in der Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln (→ Conjointanalyse) Bei Wahl von Merkmalen aus unterschiedlichen Bereichen (z.B. soziodemographische und psychographische Merkmale), so kommt es vor, dass die unterschiedlichen Merkmale auf ein und denselben Faktor laden. Interpretation des Faktors dann wenig sinnvoll bzw. schwierig. Gängig: Faktoren nach dem am höchsten ladenden Merkmalen benennen (Leitvariablenkonzept). Führt unter Umständen zu einer Vernachlässigung relevanter Informationen für die Beschreibung der Untersuchungsobjekte. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 233 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Kovarianz- oder Korrelationsmatrix? Die Hauptkomponentenanalyse kann statt mittels der Kovarianzmatrix von A auch auf Basis der Korrelationsmatrix von A durchgeführt werden. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können nicht in die der Korrelationsmatrix überführt werden und geben deshalb unterschiedliche Informationen. 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Vorteile der Korrelationsmatrix: - Die Ergebnisse zweier Analysen können direkt miteinander verglichen werden - Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der Einheiten der Merkmale Vorteil der Kovarianzmatrix: - Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der Einheiten der Merkmale (Manchmal möchte man diesen Umstand benutzen) 234