Statistik für Betriebswirtschaft und International Management

Werbung
Statistik
für Betriebswirtschaft und International Management
Sommersemester 2014
Prof. Dr. Stefan Etschberger
HSA
Signifikanztests
Einleitung
S. Etschberger
Vorliegen einer Hypothese über die Verteilung(en) der
Grundgesamtheit(en).
1. Einführung
Beispiele:
„Der Würfel ist fair.“
„Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind
gleich.“
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Hypothese soll anhand einer Stichprobe überprüft werden.
Intervall-Schätzung
Signifikanztests
Prinzip:
Hypothese verwerfen, wenn „signifikanter“ Widerspruch zur Stichprobe.
Ansonsten: Hypothese nicht verwerfen.
Eine verworfene Hypothese gilt als statistisch widerlegt.
Nicht-Verwerfung ist dagegen ein „Freispruch aus Mangel an
Beweisen“.
Zu Beachten:
Nicht-Verwerfung ist kein „statistischer Beweis“, dass Hypothese wahr ist!
(„Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!)
172
Einleitung
S. Etschberger
Einstichproben-Gaußtest
Zunächst:
G ∼ N(µ; σ) mit σ bekannt
Einfache Stichprobe X1 , . . . , Xn
(Null-)Hypothese H0 : µ = µ0
Beispiel:
X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5)
Nullhypothese H0 : µ = 500, d.h. µ0 = 500
Je nach Interessenlage sind unterschiedliche Gegenhypothesen
möglich:
a) H1 : µ 6= µ0
b) H1 : µ < µ0
c) H1 : µ > µ0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Entscheidung:
H0 : µ
a) H1 : µ
b) H1 : µ
c) H1 : µ
=
6
=
<
>
µ0
µ0 ,
µ0 ,
µ0 ,
wird abgelehnt gegenüber
wenn |x̄ − µ0 | „sehr groß“ ist
wenn x̄ „weit kleiner“ als µ0 ist
wenn x̄ „weit größer“ als µ0 ist
173
Einleitung
S. Etschberger
Einstichproben-Gaußtest
Mögliche Fehlentscheidungen
Alternatives Kriterium:
x̄ − µ0 √
n
v=
σ
Vorteil: Verteilung bekannt: N(0; 1)
Ablehnung von H0 , obwohl H0
richtig ist: Fehler 1. Art
Nicht-Ablehnung von H0 , obwohl
H0 falsch ist: Fehler 2. Art
Dann:
H0 : µ = µ0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
wird abgelehnt gegenüber
Punkt-Schätzung
Intervall-Schätzung
a) H1 : µ 6= µ0 , wenn |v| „sehr groß“
ist
b) H1 : µ < µ0 , wenn v „sehr negativ“ ist
c) H1 : µ > µ0 , wenn v „sehr positiv“ ist
Signifikanztests
alten
H0 beibeh
H0 r
ichtig
H0 f
alsch
H0 ablehn
en
alten
H0 beibeh
H0 ablehn
en
Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art.
174
Einleitung
S. Etschberger
Einstichproben-Gaußtest
Mithilfe von α und V kann geklärt werden, was „sehr groß“
usw. heißt:
Wahrscheinlichkeit für Fehler 1. Art im Fall
a): |v| > x, obwohl H0 richtig:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
P(|V| > x) = P(V > x) + P(V < −x)
= 2 · P(V > x)
Punkt-Schätzung
(Symmetrie der Normalverteilung)
Intervall-Schätzung
Signifikanztests
!
= 2 · [1 − P(V 5 x)] = 2 · [1 − Φ(x)] = α
⇐⇒ Φ(x) = 1 −
α
2
⇐⇒ x = x1− α2
H0 wird demnach verworfen,
wenn |v| > x1− α2 bzw. v ∈ B ist.
B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich.
Analoge Vorgehensweise für die Fälle b) und c)
175
Einleitung
S. Etschberger
Einstichproben-Gaußtest
Rezept
1. Einführung
2. Deskriptive Statistik
1
2
3
Ein Signifikanzniveau α wird festgelegt.
x − µ0 √
Der Testfunktionswert v =
n wird berechnet.
σ
Der Verwerfungsbereich
B = −∞; −x1−α/2 ∪ x1−α/2 ; ∞
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
im Fall a)
B = (−∞; −x1−α )
im Fall b)
B = (x1−α ; ∞)
im Fall c)
wird festgelegt, wobei x1−α/2 bzw. x1−α das (1 − α/2)- bzw.
das (1 − α)-Fraktil der N(0,1)-Verteilung ist.
4
H0 wird genau dann verworfen, wenn v ∈ B gilt.
176
Einleitung
S. Etschberger
Einstichproben-Gaußtest
Beispiel:
1. Einführung
X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28
2. Deskriptive Statistik
Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau
α = 0,01
4. Induktive Statistik
3. W-Theorie
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Lösung: Einstichproben-Gaußtest, Fall a)
1
α = 0,01
2
v=
3
N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576
⇒ B = (−∞; −2,576) ∪ (2,576; ∞)
4
499,28−500
1,5
·
√
Signifikanztests
25 = −2,4
v∈
/ B ⇒ H0 nicht verwerfen
Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine
Abweichung vom Sollwert µ0 = 500 nachgewiesen werden.
177
Aufbau und Klassifikation von Signifikanztests
Einleitung
S. Etschberger
Der jeweils geeignete Test hängt ab von . . .
dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide:
Parametrische Hypothesen:
Beziehen sich auf unbekannte(n)
Verteilungsparameter (µ, σ2 , . . . )
Nichtparametrische Hypothesen:
Beinhalten sonstige Aussagen, z.B. „Alter und Einkommen sind
unabh.“
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
den Voraussetzungen an die Verteilung/parameter
(z.B. G ∼ N(µ; σ))
den Voraussetzungen an den Stichprobenumfang
(z.B. n > 30)
Art und Anzahl der Stichproben; unterscheide:
Signifikanztests bei einer einfachen Stichprobe
Signifikanztests bei mehreren unabhängigen Stichproben
Signifikanztests bei zwei verbundenen Stichproben
In dieser Vorlesung: Nur einfache Stichproben
178
Einleitung
S. Etschberger
Klassifizierung von Signifikanztests
Signifikanztests bei einer einfachen Stichprobe
nnt
ek a
σb
Einstichproben
Gaußtest
1. Einführung
t
eil
σu
ist ert
nbe
G )-v
kann
σ
t
,
(µ
N
G ist
dichotom
und
P
5 ≤
xi ≤ n − 5
2. Deskriptive Statistik
Einstichproben
t-Test
Grundlagen
Approximativer Gaußtest
et
pa n
ra ich
m t
et
ris
ch
Signifikanztests
G
ist
ver belie
t
b
n eilt un ig
d
>
30
: 2
0
H0 σ
=
2
σ
eine
einfache
Stichprobe
Punkt-Schätzung
Intervall-Schätzung
H
=0 :
µ
0
µ
ch
ris
m
ra
pa
3. W-Theorie
4. Induktive Statistik
Approximativer Gaußtest
χ2 -Test für die Varianz
G ist
N(µ, σ)-verteilt
χ2 -Anpassungstest
H0 : F genügt
einem Verteilungstyp
(z.B. einer Normalverteilung)
(Umfangreichere Übersicht über alle möglichen Fälle siehe Bamberg u. a. (2011), Seite 171ff.)
179
Einstichproben-t-Test und approximativer Gaußtest
Einleitung
S. Etschberger
Gegeben:
Einfache Stichprobe X1 , . . . , Xn mit
1. Einführung
E(Xi ) = µ, Var(Xi ) = σ2
2. Deskriptive Statistik
3. W-Theorie
Hypothesenpaare:
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
a) H0 : µ = µ0
b) H0 : µ = µ0
c) H0 : µ = µ0
H1 : µ 6= µ0
(oder µ = µ0 ), H1 : µ < µ0
(oder µ 5 µ0 ), H1 : µ > µ0
Intervall-Schätzung
Signifikanztests
Voraussetzungen:
1
Normalverteilung mit σ unbekannt (Einstichproben-t-Test)
oder
2
Beliebige Verteilung P
mit n > 30 bzw. 5 5 xi 5 n − 5 (bei B(1; p))
(approximativer Gaußtest)
180
Einstichproben-t-Test, approximativer Gaußtest
Einleitung
S. Etschberger
Ablauf:
1
Festlegen des Signifikanzniveaus α
2
Berechnen des Testfunktionswertes:


 x̄ − µ0 √n



s




 x̄ − µ √
0
v=
n

σ






√
x̄ − µ0


n
p
µ0 (1 − µ0 )
3
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
falls Grundgesamtheit N(µ; σ)-verteilt, σ unbekannt
oder falls Verteilung der GG beliebig, n > 30, σ unbekannt
falls Verteilung der GG beliebig, n > 30, σ bekannt
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
falls GG gemäß B(1; µ)-verteilt, n > 30
Festlegen des Verwerfungsbereichs B:
Falls H1 : µ 6= µ0 :
Falls H1 : µ < µ0 :
Falls H1 : µ > µ0 :
B = (−∞; −x1−α/2 ) ∪ (x1−α/2 ; ∞)
B = (−∞; −x1−α )
B = (x1−α ; ∞)
Dabei steht x1−α/2 bzw. x1−α für das jeweilige Fraktil
der t(n − 1)-Verteilung bei n ≤ 29 bzw.
der N(0; 1)-Verteilung bei n ≥ 30.
181
Einstichproben-t-Test: Beispiel
Einleitung
S. Etschberger
Beispiel t-Test: Energieaufnahme von Frauen
Empfohlene täglich Energieaufnahme für Frauen: 7724 kJ (1845 kcal)
Nehme einfache Stichprobe von 11 Frauen und teste zum Signifkanzniveau
α = 0,05 für
H0 : „Der Erwartungswert der täglichen Energieaufnahme für Frauen ist
7724 kJ“ (µ0 )
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
gegen H1 : µ 6= µ0
Intervall-Schätzung
Signifikanztests
daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770)
t.test(daily.intake, alternative="two.sided", mu=7724, conf.level=0.95)
##
##
##
##
##
##
##
##
##
##
##
One Sample t-test
data: daily.intake
t = -2.818, df = 10, p-value = 0.01823
alternative hypothesis: true mean is not equal to 7724
95 percent confidence interval:
5986 7521
sample estimates:
mean of x
6754
182
5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770)
ke, alternative="two.sided", mu=7724, conf.level=0.95)
#nn˛!
1
2
3
4
5
6
7
8
9
10
11
0.6
0.75
0.8
0.9
0.95
0.975
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.698
1.376
1.061
0.979
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.875
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
12.706
4.303
3.183
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
Einstichproben-t-Test, approx. Gaußtest
Einleitung
S. Etschberger
Beispiel:
X1 , . . . , X2000 ∼ B(1; p) mit
1, falls i-te Person Wähler einer bestimmten Partei
Xi =
0, sonst
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
Ergebnis der Stichprobe:
2000
P
xi = 108
i=1
Prüfe H0 : p 5 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 %
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Lösung:
approximativer Gaußtest bei dichotomer (zweiwertiger) Verteilung; Voraussetzung 2
erfüllt: 5 5 108 5 2000 − 5
1 α = 0,02
108
2 v = √ 2000
−0,05
0,05·(1−0,05)
√
2000 = 0,82
3 N(0; 1) : x1−α = x0,98 = 2,05 (Tabelle) ⇒ B = (2,05; ∞)
4 v∈
/ B ⇒ H0 nicht verwerfen
Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung!
183
Einleitung
S. Etschberger
Chi-Quadrat-Test für die Varianz
Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ)
Hypothesenpaare:
1. Einführung
a)
H0 : σ2 = σ20
2
b) H0 : σ =
c)
σ20
H0 : σ2 = σ20
H1 : σ2 6= σ20
2
(oder σ =
σ20 ),
(oder σ2 5 σ20 ),
2
H1 : σ <
σ20
H1 : σ2 > σ20
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Signifikanztests
Vorgehensweise:
1 Festlegen des Signifikanzniveaus α.
2 Berechnung des Testfunktionswertes:
v=
n
(n − 1)s2
1 X
=
(xi − x̄2 )
σ20
σ20 i=1
3 Festlegen des Verwerfungsbereichs:
B = 0; xα/2 ∪ x1−α/2 ; ∞
im Fall a)
B = [0; xα )
im Fall b)
B = (x1−α ; ∞)
im Fall c)
184
Einleitung
S. Etschberger
Chi-Quadrat-Test für die Varianz
Beispiel: G ∼ N(µ; σ)
(x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200)
1. Einführung
Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1
2. Deskriptive Statistik
3. W-Theorie
Lösung: χ2 -Test für die Varianz, Hypothese Fall a);
Voraussetzungen sind erfüllt
1
α = 0,1
2
x̄ =
1
10
v=
1
402
3
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Signifikanztests
(2100 + 2130 + · · · + 2200) = 2164
[(2100 − 2164)2 + · · · + (2200 − 2164)2 ] = 16,65
χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92
(Tabelle der χ2 -Verteilung)
4 ˛ -Fraktile der 2 -Verteilung mit n Freiheitsgraden
#˛nn!
⇒ B = [0; 3,33) ∪ (16,92; ∞)
4
Intervall-Schätzung
(n − 1)s2
v=
=
σ20
v∈
/ B ⇒ H0 nicht verwerfen
0.005
0.01
0.025
0.05
0.1
0.2
0.25
0.4
0.5
0.6
0.75
0.8
0.9
0.95
1
2
3
0.00
0.00
0.00
0.00
0.02
0.06
0.10
0.28
0.45
0.71
1.32
1.64
2.71
3.84
0.01
0.02
0.05
0.10
0.21
0.45
0.58
1.02
1.39
1.83
2.77
3.22
4.61
5.99
0.07
0.11
0.22
0.35
0.58
1.01
1.21
1.87
2.37
2.95
4.11
4.64
6.25
7.81
7
8
9
0.21 0.41 0.68 0.99
0.30 0.55 0.87 1.24
0.48 0.83 1.24 1.69
0.71 1.15 1.64 2.17
1.06 1.61 2.20 2.83
1.65 2.34 3.07 3.82
1.92 2.67 3.45 4.25
2.75 3.66 4.57 5.49
3.36 4.35 5.35 6.35
4.04 5.13 6.21 7.28
5.39 6.63 7.84 9.04
5.99 7.29 8.56 9.80
7.78 9.24 10.64 12.02
9.49 11.07 12.59 14.07
4
5
6
1.34
1.65
2.18
2.73
3.49
4.59
5.07
6.42
7.34
8.35
10.22
11.03
13.36
15.51
1.73
2.09
2.70
3.33
4.17
5.38
5.90
7.36
8.34
9.41
11.39
12.24
14.68
185
16.92
Zwei verbundene einfache Stichproben: Kontingenztest
Einleitung
S. Etschberger
Situation: In Grundgesamtheit G: Zwei verbundene einfache
Stichproben, also Beobachtung zweier Merkmale X, Y
Hypothese:
1. Einführung
2. Deskriptive Statistik
H0 : Die beiden Merkmale X und Y sind in G unabhängig.
H1 : X und Y sind in G abhängig.
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
Intervall-Schätzung
Vorgehensweise Kontingenztest:
Signifikanztests
1
Festlegen des Signifikanzniveaus α.
2
Unterteilung der x-Achse in k ≥ 2 und die y-Achse in l ≥ 2 disjunkte,
aneinander angrenzende Intervalle A1 , . . . , Ak bzw. B1 , . . . , Bl
3
Erstellen einer Kontingenztabelle mit Randhäufigkeiten:
x↓ y→ B1
B2
···
Bl
A1
A2
.
.
.
Ak
h11
h21
.
.
.
hk1
h12
h22
..
.
hk2
···
···
.
.
.
···
h1l
h2l
.
.
.
hkl
hk•
h•1
h•2
···
h•l
n
h1•
h2•
186
Zwei verbundene einfache Stichproben: Kontingenztest
Einleitung
S. Etschberger
Vorgehensweise Kontingenztest (Fortsetzung):
4
Zu jeder Kombination aus i = 1, . . . , k und j = 1, . . . , l: Berechnung
der Größe
1. Einführung
2. Deskriptive Statistik
hi• · h•j
h̃ij =
n
3. W-Theorie
4. Induktive Statistik
Grundlagen
Punkt-Schätzung
5
v=
k X
l
X
h̃ij − hij
i=1 j=1
6
Intervall-Schätzung
Berechnung des Testfunktionswerts v:
h̃ij
2
=
Signifikanztests
k X
l
X
h2ij
i=1 j=1
h̃ij
−n
Mit dem Fraktilswert x1−α der χ2 -Verteilung mit (k − 1) · (l − 1)
Freiheitsgraden: Berechnung des Verwerfungsbereichs
B = (x1−α ; ∞)
7
Ablehnung von H0 genau dann, wenn v ∈ B.
187
Einleitung
S. Etschberger
Zwei verbundene einfache Stichproben: Kontingenztest
Kontingenztest: Beispiel
400 Erstkandidaten einer praktischen
Führerscheinprüfung schneiden
abhängig von der besuchten Fahrschule
folgendermaßen ab:
4 Berechnung der h̃ij :
1. Einführung
best.
durchg.
Fahrschule
A
B
C
130
70
88
38
62
12
A
B
C
140
60
88,2
37,8
51,8
22,2
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Grundlagen
bestanden
durchgefallen
Zum Signifikanzniveau von 5 % soll
getestet werden, ob das Bestehen der
Prüfung unabhängig von der besuchten
Fahrschule ist.
Punkt-Schätzung
2
5
(130 − 140)
+ ...
140
(12 − 22,2)2
+
22,2
≈ 9,077
v=
Intervall-Schätzung
Signifikanztests
Testdurchführung
1 Signifikanzniveau α = 5 %
2 entfällt, da Skalenniveau nominal
3 Kontingenztabelle:
best.
durchg.
P
P
A
B
C
130
70
88
38
62
12
280
120
200
126
74
400
6 χ2 -Verteilung mit
(3 − 1) · (2 − 1) = 2 Freiheitsgraden:
x1−0,05 = x0,95 = 5,99:
B = (5,99; ∞)
7 v ∈ B: Also wird H0 abgelehnt, die
Prüfungsergebnisse sind abhängig von
der Fahrschule.
188
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
5
Datenanalyse Einleitung
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Einleitung
Problemstellung
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
Synonym: Multivariate Datenanalyse, Numerische Taxonomie,
Multivariatenanalyse
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Aufgaben: Analyse von Zusammenhängen und
Ähnlichkeitsbeziehungen zwischen Elementen einer
bestimmten Menge
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
Teilgebiet der Statistik
Einsatz sinnvoll bei großen Datenmengen mit mehr als einem
Merkmal
Ausgangspunkt: Datenmatrix oder Distanzmatrix.
190
Statistik
Etschberger - SS2014
Datenmatrix
Die Datenmatrix
enthält zeilenweise Objekte (Merkmalsträger, cases)
enthält spaltenweise Merkmale (variables, items)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Beispiel
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
type
income
education
prestige
Datenanalyse: Prozess
6. Repräsentation
conductor
watchman
pilot
policeman
chemist
wc
bc
prof
bc
prof
76
17
72
34
64
34
25
76
47
86
38
11
83
41
90
(Auszug aus Daten von Duncan )
191
Statistik
Etschberger - SS2014
Distanzen
Die Distanzmatrix
1. Einführung
enthält zeilen- und spaltenweise Objekte.
2. Deskriptive Statistik
Die Einträge der Matrix sind Werte für die Verschiedenheit
(Distanzen) zweier Objekte.
4. Induktive Statistik
3. W-Theorie
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Beispiel
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
conductor
watchman
pilot
policeman
chemist
conductor
watchman
pilot
policeman
chemist
0.000
0.622
0.581
0.491
0.679
0.622
0.000
0.920
0.257
0.949
0.581
0.920
0.000
0.663
0.097
0.491
0.257
0.663
0.000
0.692
0.679
0.949
0.097
0.692
0.000
6. Repräsentation
192
Statistik
Etschberger - SS2014
Teilbereiche
3 Teilbereiche der Datenanalyse nach dem Zweck der
Anwendung
1. Einführung
Datenverdichtende Verfahren
(deskriptiv)
Strukturprüfende Verfahren
(induktiv)
Kennzahlen
Varianzanalyse
Indizes
Regressionsanalyse
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Faktorenanalyse
logistische Regression
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Diskriminanzanalyse
Strukturaufdeckende Verfahren
(explorativ)
6. Repräsentation
Conjoint-Analyse
Kreuztabellen
Faktorenanalyse
Clusteranalyse
MDS
Korrespondenzanalyse
193
Klassische Anwendungsbereiche der Datenanalyse
Marketing/
Marktforschung
Marktsegmentierung
Kundentypisierung
Statistik
Etschberger - SS2014
Medizin
Hilfe bei Diagnosen
1. Einführung
Überprüfung von
Therapieerfolgen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Aufdecken von Marktnischen
Ermittlung von Marktreaktionen
Sozialwissenschaften
Einstellungsanalysen
Volkswirtschaft
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Input-Output-Analysen zur
Abgrenzung und
Aggregation von
Wirtschaftssektoren
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
Qualifikationsprofile
Bibliothekswesen
Biologie
Zuordnung von Pflanzen oder
Tieren zu Gattungen
Katalogisierung
Auffinden von ähnlichen
Werken
194
Dreiteilung
Statistik
Etschberger - SS2014
Die klassische Dreiteilung der Datenanalyse
1. Einführung
Segmentierung (Clusteranalyse): Zusammenfassung von
Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten
in wichtigen Merkmalsbereichen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Repräsentation: Darstellung von Objekten durch Punkte im
2- oder 3-dimensionalen Raum, wobei
Ähnlichkeitsbeziehungen durch räumliche Nähe zum
Ausdruck kommen sollen
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
Identifikation: Reproduktion einer gegebenen Segmentierung
oder Repräsentation mit Hilfe weniger aussagekräftiger
Merkmale (Ziel: Prognose, Klassifikation)
195
Statistik
Etschberger - SS2014
Dreiteilung: Methoden
Hauptkomponentenanalyse
Repräsentation
Korrespondenzanalyse
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
MDS
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Hierarchie
Datenanalyse
Dreiteilung der Datenanalyse
Segmentierung
Clusteranalyse
Datenanalyse: Prozess
Partition
einer Repräsentation
Varianzanalyse
6. Repräsentation
Regression
Conjointanalyse
Identifikation
einer Klassifikation
Diskriminanzanalyse
196
Ablauf einer datenanalytischen Untersuchung
Statistik
Etschberger - SS2014
1. Präzisierung des Untersuchungsziels
Formulierung der Zielsetzung
Abgrenzung der Untersuchungsobjekte
Ableitung der taxonomischen Aufgabenstellung
Segmentierung
Repräsentation
Identifikation
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
2. Diskussion der Datenbasis
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
Auswahl der Merkmale
6. Repräsentation
Festlegung des Skalenniveaus oder
Charakterisierung der Objekte durch direkte Vergleiche
3. Datenerhebung und -erfassung
Primär- oder Sekundärerhebung
Vollerhebung oder Teilerhebung (Stichprobenauswahl!)
Datencodierung und ggf. Dateneingabe in DV-Systeme
197
Ablauf einer datenanalytischen Untersuchung
Statistik
Etschberger - SS2014
4. Datenanalyse
Univariate Datenanalyse
(Screening, erster Einblick in die Merkmalsstruktur,
Plausibilitätsprüfung)
−→ Deskriptive Verfahren
Multivariate Datenanalyse
(nicht ’statistics all’, sondern Verfahrenseinsatz nach Aufgabenstellung
und Zielsetzung)
−→ Explorative und induktive Verfahren
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Grundbegriffe
Anwendungsbereiche
Dreiteilung der Datenanalyse
Datenanalyse: Prozess
6. Repräsentation
5. Interpretation der Ergebnisse
Klassenstatistiken und Bezeichnungen bei Clusteranalysen
Benennung der Achsen bei Repräsentationsverfahren
Überprüfen der Modellqualität z.B. mittels Test- bzw.
Validierungsdaten bei Identifikationsverfahren
198
Statistik: Table of Contents
1
Statistik: Einführung
2
Deskriptive Statistik
3
Wahrscheinlichkeitstheorie
4
Induktive Statistik
5
Datenanalyse Einleitung
6
Repräsentation
Bildquelle: PicBroadwayTower
6
Repräsentation
Einführung
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Repräsentation
Ziele der Repräsentation
Anordnung der Objekte in einem möglichst niedrig dimensionierten
Raum,
so dass die relative Lage der sich ergebenden Punkte (Objekte) die
Ähnlichkeit der Objekte angemessen beschreibt.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Dimension 2
Aufdeckung von
Gruppierungen leichter
(Kontrolle einer Klassifikation)
Einführung
Hauptkomponentenanalyse
Durch Interpretation der
Achsen evtl. Aufschluss über
den Grund der Lage
bestimmter Objekte
Dimension 1
200
Statistik
Etschberger - SS2014
Repräsentation
Varianten der Repräsentation: Hauptkomponentenanalyse
Berechnung der Repräsentation aus
Varianz-Kovarianz-Strukturen der Datenmatrix
1. Einführung
2. Deskriptive Statistik
A = (aik )n×m
Hauptkomponentenanalyse
−→
X = (xik )n×q
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Vorgehen: Datenmatrix wird direkt verarbeitet
Problem: Lassen sich die m quantitativen Merkmale sinnvoll
durch q (meist 2 oder 3) sogenannte Faktoren ersetzen?
Voraussetzung: Datenmatrix darf nur metrische Merkmale
enthalten
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Typische Fragestellungen der Hauptkomponentenanalyse in der
Marktforschung
Läßt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke
als wichtig empfinden, auf wenige komplexe Faktoren reduzieren?
Wie lassen sich darauf aufbauend die verschiedenen Marken anhand
dieser Faktoren beschreiben?
201
Statistik
Etschberger - SS2014
Repräsentation: Beispiel Hauptkomponentenanalyse
require(FactoMineR)
data(decathlon)
summary(decathlon)
decathlon$Long.jump = 10 - decathlon$Long.jump
decathlon.pca = prcomp(decathlon[,1:10], scale=TRUE)
round(decathlon.pca$sdev, 3)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## [1] 1.809 1.318 1.185 1.028 0.828 0.774 0.672 0.630
## [9] 0.463 0.427
biplot(decathlon.pca,cex=0.5)
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
0.4
Casarsa
4. Induktive Statistik
0.2
YURKOV
Parkhomenko
Korkizoglou
1500m
6. Repräsentation
Long.jump
Javeline
Zsivoczky
Smith
Macey
110m.hurdle
100m
PC2
5. Datenanalyse
Discus
Shot.put
400m
MARTINEAU
HERNU
Turi
0.0
Long.jump
Shot.put
Min.
:6.61
Min.
:12.7
1st Qu.:7.03
1st Qu.:13.9
Median :7.30
Median :14.6
Mean
:7.26
Mean
:14.5
3rd Qu.:7.48
3rd Qu.:15.0
Max.
:7.96
Max.
:16.4
400m
110m.hurdle
Min.
:46.8
Min.
:14.0
1st Qu.:48.9
1st Qu.:14.2
Median :49.4
Median :14.5
Mean
:49.6
Mean
:14.6
3rd Qu.:50.3
3rd Qu.:15.0
Max.
:53.2
Max.
:15.7
Pole.vault
Javeline
Min.
:4.20
Min.
:50.3
1st Qu.:4.50
1st Qu.:55.3
Median :4.80
Median :58.4
Mean
:4.76
Mean
:58.3
3rd Qu.:4.92
3rd Qu.:60.9
Max.
:5.40
Max.
:70.5
Rank
Points
Min.
: 1.0
Min.
:7313
1st Qu.: 6.0
1st Qu.:7802
Median :11.0
Median :8021
Mean
:12.1
Mean
:8005
3rd Qu.:18.0
3rd Qu.:8122
Max.
:28.0
Max.
:8893
BOURGUIGNON
Uldal
Einführung
Hauptkomponentenanalyse
McMULLEN
Schoenbeck
Lorenzo
High.jump Sebrle
Clay
Pogorelov
SEBRLE
CLAY
Terek
KARPOV
Barras
Karlivans
BARRAS
−0.2
100m
Min. :10.4
1st Qu.:10.8
Median :11.0
Mean :11.0
3rd Qu.:11.1
Max. :11.6
High.jump
Min. :1.85
1st Qu.:1.92
Median :1.95
Mean :1.98
3rd Qu.:2.04
Max. :2.15
Discus
Min. :37.9
1st Qu.:41.9
Median :44.4
Mean :44.3
3rd Qu.:46.1
Max. :51.6
1500m
Min. :262
1st Qu.:271
Median :278
Mean :279
3rd Qu.:285
Max. :317
Competition
Decastar:13
OlympicG:28
Karpov
Bernard
Qi
Hernu
Pole.vault
Ojaniemi
BERNARD
Smirnov
ZSIVOCZKY
Gomez
Schwarzl
Averyanov
Nool
WARNERS
Warners
NOOL
Drews
−0.2
0.0
0.2
0.4
PC1
202
Statistik
Etschberger - SS2014
Repräsentation
Varianten der Repräsentation: Mehrdimensionale Skalierung
Berechnung der Repräsentation aus der Distanzmatrix
1. Einführung
Distanz
MDS
A = (aik )n×m −→ D = (dij )n×n −→ X = (xil )n×q
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Meistens: q ∈ {1,2,3}
Datenmatrix wird nicht direkt verarbeitet; Umweg über
Distanzmatrix
Keine Anforderung an das Skalenniveau der Merkmale
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Typische Fragestellungen der MDS in der BWL:
Welche Produkte einer Gruppe sind sich ähnlich/unähnlich?
Inwieweit entspricht das eigene Produkt den Idealvorstellungen der
Konsumenten?
Welches Image besitzt eine bestimmte Marke?
Hat sich die Einstellung der Konsumenten zu einer Marke in den
letzten Jahren verändert
203
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Idee
Faktorenanalyse: Grundlegende Idee
1. Einführung
Welche Aussagen lassen sich über die Struktur des
Zusammenhangs von Merkmalsvariablen treffen?
Idee: Darstellung der Struktur in den Daten durch paarweise
Korrelationen
Bei m gemessenen Merkmalen gibt es
m·(m−1)
2
Korrelationen
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
m groß: Analyse des gesamten Variablenkomplexes dann oft
schwierig.
Einschränkung: HKA ist bivariate Analyse; betrachtet also nur
jeweils den Zusammenhang je zweier Variablen; Beziehungen
zwischen mehr als zwei Merkmalen werden nicht
berücksichtigt
204
Hauptaufgaben
Statistik
Etschberger - SS2014
Hauptaufgaben der Faktorenanalyse
1. Einführung
Extraktion von hypothetischen Merkmalen, den sog. Faktoren,
aus den Merkmalen und ihren Beziehungen
Also: Korrelierende Merkmale werden zu Merkmalspaketen
zusammengefasst (Faktorenextraktion)
Damit Reduktion der Komplexität in den Ausgangsdaten:
Anstelle von m Variablen wenige Faktoren
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Dabei: Möglichst wenig Informationsverlust
Durch Datenkompression: Evtl. leichtere Interpretation und
Übersicht
Außerdem: Faktoren sind konstruktionsbedingt unkorreliert
und damit qualifiziert als Ausgangsbasis für
korrelationssensible Verfahren (z.B. Regression)
205
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Bevorzugte Variante der Faktorenanalyse bei metrischen
Datenmatrizen: Hauptkomponentenanalyse.
Dabei unterstellt: Lineare Beziehung zwischen den
ursprünglich erhobenen und den neu zu bestimmenden
hypothetischen Größen (Faktoren).
Damit: Merkmalsvektoren ak (Spaltenvektor) lassen sich als
Linearkombination von q Faktoren x1 , ..., xq (Spaltenvektoren)
darstellen.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Im Falle q = m immer möglich:
ak =
m
X
fki xi
(k = 1, . . . , m)
i=1
206
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Faktoren und Ladung
Faktoren und Ladungsvektoren
Matriziell: A = X · FT bzw. mit Koeffizienten:
1. Einführung
a
···
11
 .
 .
 .

 ai1

 .
 .
.
an1
···
···
x
11
a1m
 .
 .
. 
 .
. 
. 



aim  =  ..

 .

. 
 .
. 
.
 .
.
anm
xn1

···
.
.
.
xik
.
.
.
···
x1q 
.  
. 
. 
f11

.  
.

. · .
. 
.

f1q
. 
. 
.
xnq
2. Deskriptive Statistik
3. W-Theorie
···
..
.
···
fk1
.
.
.
fkq
···
..
.
···

fm1
. 
. 
. 
fmq
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Mit:
xip
xp
X
als
als
als
Faktorwert
Faktor
Faktorwertematrix
fkp
fk
F
als
als
als
Faktorladung
Ladungsvektoren
Faktorladungsmatrix
Damit: Ein Objekt i, dargestellt durch die Zeile i der Datenmatrix A
wird nun mit Hilfe der Zeile i der Faktorwertematrix X
repräsentiert
207
Hauptkomponentenanalyse: Informationsgehaltt
Problem: Ist diese Darstellung ohne großen
Informationsverlust möglich?
Dazu nötig: Maß für den Informationsgehalt einer Daten- bzw.
Faktorwertematrix
Also: Kovarianzmatrizen S = Cov(A) und C = Cov(X) als
Basis für Informationsmaß
Übliche Annahme: Informationsgehalt von
Merkmalen/Faktoren ist umso größer, je größer die Varianz
dieser Merkmale/Faktoren ist.
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Damit: Maß für Gesamtvariabilität aller Merkmale/Faktoren
über Summe der Varianzen aller betrachteten
Merkmale/Faktoren
Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich des
Informationsgehaltes der beiden Matrizen.
(Summe der Varianzen entspricht Spur der Kovarianzmatrix)
208

22
25

21

28
24

5
10

4

13
8
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Informationsgehalt
Berechnung des Informationsgehaltes
Für Datenmatrix A: Kovarianzmatrix S = (skl )m×m :
1. Einführung
skl
n
1X
(aik − ā·k )(ail − ā·l )
=
n
mit ā·k
i=1
n
1X
=
aik
n
i=1
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Maß für die Gesamtinformation von A:
6. Repräsentation
Einführung
Spur S =
m
X
skk
k=1
n m
1 XX
(aik − ā·k )2
=
n
Hauptkomponentenanalyse
i=1 k=1
Analog für Faktorwertematrix X: Kovarianzmatrix C
= (ckl )q×q und Spur(C):
Spur(C) =
q
X
k=1
1 XX
(xik − x̄·k )2
n
n
ckk =
q
i=1 k=1
209
Beispiel Informationsgehalt


22
5
25 10


4
Gegeben: Datenmatrix A = 
21

28 13
24
8
A soll mit Hilfe zweier unterschiedlicher Faktorkombinationen
repräsentiert werden
Statistik
Etschberger - SS2014
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Faktorkombination 1 bzw. 2 ist dabei gegeben durch die
Faktorladungsmatrizen F 0 bzw. F 00 gemäß
0,6 0,8
0,9 0,2
F0 =
bzw. F 00 =
0,8 −0,6
0,8 −0,5
Frage: Wie gut sind die beiden daraus resultierenden
Repräsentationen?
210
Statistik
Etschberger - SS2014
Beispiel Informationsgehalt
Beispiel - Berechnung Kombination 1
Berechnet man für die Matrix A die Kovarianzmatrix S und die
Spur S, so ergeben sich folgende Werte:
6
8
S=
⇒ Spur(S) = 6 + 10,8 = 16,8
8 10,8
0
0T −1
Mit Hilfe der Faktorladungsmatrix F und X = A · (F )
sich für X 0 folgendes:

17,2
 23

X0 = 
15,8
27,2
20,8

14,6
14 

14,4

14,6
14,4
sowie C =
16,752
−0,064
−0,064
0,048
ergibt
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
⇒ Spur(C) = 16,752 + 0,048 = 16,8
211
Repräsentation: Beispiel 1
Statistik
Etschberger - SS2014
Beispiel - Interpretation Kombination 1
1. Einführung
Mit Hilfe der neuen Repräsentation kann die Objektmenge ohne
Informationsverlust dargestellt werden.
(Spur S = Spur C = 16,8)
Die neue Darstellung hat darüber hinaus den Vorteil, dass die
entstandenen Faktoren (nahezu) unkorreliert sind, während die
ursprünglichen Merkmale eine hohe Korrelation aufweisen. Es gilt
nämlich:
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
→ Korrelation (a1 , a2 ) = 0,9938
→ Korrelation (x1 , x2 ) = −0,0714
Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe des
11
ersten Faktors, so können immerhin noch c11c+c
≈ 99,71% der
22
Informationen dargestellt werden.
212
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 1
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Merkmal 2
1. Einführung
2. Deskriptive Statistik
)
,
10
·(
0 2
f1
3. W-Theorie
0 1
f1
F0 =
0,6
0,8
0,8
−0,6
10
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
10
5
· (f 0
21 ,
f20
2)
20
22
24
25
26
28
30
Merkmal 1
213
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 1
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Faktor 2
1. Einführung
2. Deskriptive Statistik
15
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
10
Hauptkomponentenanalyse
5
0
14
16
18
20
22
24
26
Faktor 1
214
Statistik
Etschberger - SS2014
Repräsentation: Beispiel 2
F 00 =
Beispiel - Berechnung Kombination 2
0,9
0,8
0,2
−0,5
Wie oben bereits erwähnt ergibt sich für die Matrix A die
Kovarianzmatrix S und die Spur(S) wie folgt:
6
8
S=
⇒ Spur(S) = 6 + 10,8 = 16,8
8 10,8
Mit Hilfe der Faktorladungsmatrix F 00 und X = A · (FT )−1
ergibt sich für X 00 folgendes:

19,67
23,77

X 00 = 
18,52
27,21
22,29

21,47
18,03

21,63

17,54
19,67
sowie C =
9,49
−5,01
−5,01
2,87
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
⇒ Spur(C) = 9,49 + 2,87 = 12,36
215
Repräsentation: Beispiel 2
Statistik
Etschberger - SS2014
Beispiel - Interpretation Kombination 2
1. Einführung
Mit Hilfe dieser zweiten Repräsentation kann die Objektmenge
nicht ohne Informationsverlust dargestellt werden.
(Spur S = 16,8 und Spur(C) = 12,36)
Die neue Darstellung hat darüber hinaus den Nachteil, dass
die entstandenen Faktoren fast genauso hoch (absolut)
korreliert sind wie die ursprünglichen Merkmale. Es gilt
nämlich:
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Korrelation (a1 , a2 ) = −0,9938
Korrelation (x1 , x2 ) = −0,9597
Somit stellt sich also die Frage, wie die Repräsentation und
damit die Faktorladungsmatrix F optimal gewählt werden soll.
216
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 2
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0
Merkmal 2
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
10
10 ·
10
·
5
00 )
00
(f 11, f 12
Einführung
Hauptkomponentenanalyse
( f 00
21 ,
f200
2)
20
22
24
25
26
28
30
Merkmal 1
217
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Beispiel 2
Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 00
Faktor 2
1. Einführung
2. Deskriptive Statistik
24
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
22
6. Repräsentation
Einführung
Hauptkomponentenanalyse
20
18
16
14
14
16
18
20
22
24
26
Faktor 1
218
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Satz 1 der Hauptkomponentenanalyse
T
1. Einführung
T
T
Sei A = X · F und F orthogonal (d.h. F · F = F · F = E), dann gilt:
2. Deskriptive Statistik
3. W-Theorie
1
2
Spur S = Spur C
C = FT · S · F
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Bemerkungen:
Spur S = Spur C ↔ Information bleibt erhalten
F orthogonal ⇒ A = X · FT ⇔ A · F = X · FT · F = X
T
ckk = fk · S · fk , d.h. der durch den Faktor xk erklärte Anteil
der Varianz hängt nur von fk ab.
219
Statistik
Etschberger - SS2014
Faktorenwahl der HKA
Hauptkomponentenanalyse: Problem der Faktorenwahl
Ziel der HKA: Merkmalsreduktion, d.h., man möchte mit wenigen,
unkorrelierten Faktoren auskommen und trotzdem einen Großteil der
Information darstellen.
1. Einführung
2. Deskriptive Statistik
Die durch die Faktoren erklärten Varianzanteile sollen mit
wachsendem Index abnehmen, d.h., Faktor x1 soll den
größtmöglichen Varianzanteil erklären, Faktor x2 den zweitgrößten
Anteil ...
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Also: c11 ≥ c22 ≥ c33 ≥ . . . ≥ cqq
für q ≤ m
Hauptkomponentenanalyse
Optimierungsproblem:
eC=
T
· S · f1
2T
2
1 max c11 = max f1
2 max c22 = max f
3 ...
·S·f
mit f1
T
2T
mit f
· f1 = 1
· f2 = 1 und f2
T
· f1 = 0
16,752
−0,064
F0 =
0,6
0,8
−0,064
0,048
0,8
−0,6
Oder Allgemein: Optimierungsproblem (∗):
T
T
max ckk = max fk · S · fk mit fk · fk = 1
T
und fk · fl = 0 für l = 1, ..., k − 1
220
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Satz 2 der Hauptkomponentenanalyse
Die Lösung der Optimierungsprobleme (∗) impliziert folgendes
Eigenwertproblem von S:
(S − λ · E) · f = 0
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
mit
Einführung
c11 , c22 , c33 , . . . , cmm ≥ 0 sind Eigenwerte von S
T
Hauptkomponentenanalyse
T
f1 , f2 , . . . , fq mit fk · fk = 1, fk · fl = 0(l 6= k) sind
Eigenvektoren von S


c11
0


..
Für die Matrix C gilt: C = 

.
0
cqq
221
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Konsequenzen aus Satz 2 der HKA
A = X · FT ↔ X = A · F
→ Faktoren x1 = A · f1 , . . . , xm = A · fm
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
C ist Diagonalmatrix
→ Faktoren sind paarweise unkorreliert.
Numerierung der Faktoren x1 , . . . , xm derart, dass
λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0
P
→ x1 erklärt mit λ1 / P λk den größten Anteil der Varianz
→ x2 erklärt mit λ2 / λk den zweitgrößten Anteil ...
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Bewertung des Informationsverlustes einer Merkmalsreduktion
auf q < m Faktoren
h
i
λ +...+λ
c11 +...+cqq
b(q) = 1 − λ11 +...λmq = 1 − c11
+...+cmm ∈ [0,1] und b(m) = 0
222
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Vorgehensweise der HKA
1. Einführung
Datenmatrix A, maximaler Informationsverlust b0
2. Deskriptive Statistik
3. W-Theorie
Berechne Kovarianzmatrix S
4. Induktive Statistik
5. Datenanalyse
Löse Eigenwertproblem (S − λ · E) · f = 0
6. Repräsentation
Einführung
Hauptkomponentenanalyse
λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0
(f1 , f2 , . . . , fm ) = F
Bestimme q minimal, so dass b(q) = 1 −
λ1 +...+λq
λ1 +...+λm
≤ b0
Ladungsmatrix Fq = (f1 , f2 , . . . , fq )
Faktorwertematrix Xq = A · Fq = (x1 , x2 , . . . , xq )
223
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Beispiel 1 - Hauptkomponentenanalyse
Für die Produkte P1 , P2 , P3 und P4 konnten bezüglich der Merkmale
M1 , M2 und M3 folgende Werte erhoben werden:


6 0 0
8 8 4 

A=
0 4 0 
2 8 8
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren
Sie diese.
Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie
die Ergebnisse.
Bestimmen Sie die Faktorwertematrix und stellen Sie diese
zweidimensional dar.
Betten Sie die ursprünglichen Merkmalsvektoren in den
Faktorwerteplot ein.
224
Statistik
Etschberger - SS2014
Ergebnisse Beispiel
Farben = c("#dd100070", "#1000dd70")# Beispiel 1 HKA
L <- eigen(S)$values
# Beispiel 1 HKA
L
A <- data.frame(
## [1] 20 10 2
a1=c(6,8,0,2),
a2=c(0,8,4,8),
A.pca <- princomp(A)
summary(A.pca)
a3=c(0,4,0,8))
A
## Importance of components:
F <- eigen(S)$vectors
round(F,3)
5. Datenanalyse
biplot(A.pca, col=Farben)
6. Repräsentation
Einführung
0.6
a1
2
Hauptkomponentenanalyse
0.4
S <- cov(A)*3/4
S
0.2
1
Comp.2
##
a1 a2 a3
## a1 10 0 0
## a2 0 11 9
## a3 0 9 11
3. W-Theorie
4. Induktive Statistik
0.0
1
2
3
4
a1 a2 a3
6 0 0
8 8 4
0 4 0
2 8 8
2. Deskriptive Statistik
##
Comp.1 Comp.2 Comp.3
## Standard deviation
4.472 3.1623 1.4142
## Proportion of Variance 0.625 0.3125 0.0625
## Cumulative Proportion 0.625 0.9375 1.0000
a3
a2
−0.2
##
##
##
##
##
1. Einführung
−0.6
−0.4
4
##
[,1] [,2]
[,3]
## [1,] 0.000
1 0.000
## [2,] 0.707
0 -0.707
## [3,] 0.707
0 0.707
3
−0.6
−0.4
−0.2
0.0
0.2
0.4
0.6
Comp.1
225
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse
Beispiel 2 - Hauptkomponentenanalyse
Gegeben ist die folgende Datenmatrix:

−9
−9

3
1

16
16
A=

 −12 −11
0
−2
1. Einführung
1
7
−2
20
−1






2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren
Sie diese.
Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie
die Ergebnisse.
Bestimmen Sie die Faktorwertematrix und stellen Sie diese
zweidimensional dar.
Betten Sie die ursprünglichen Merkmalsvektoren in den
Faktorwerteplot ein.
226
Statistik
Etschberger - SS2014
Ergebnisse Beispiel
# Beispiel 2 HKA
S=cov(A)*(n-1)/n
pairs(A,pch=19,col="blue")
F <- eigen(S)$vectors
round(F,3)
# Beispiel 1 HKA
L <- eigen(S)$values
L
##
[,1] [,2]
[,3]
## [1,] -0.660 0.252 0.708
## [2,] -0.633 0.320 -0.705
## [3,] 0.405 0.913 0.052
A.pca <- princomp(A)
summary(A.pca)
0
5
10 15
5
10 15
−10
## [1] 218.6298 36.2523
1. Einführung
2. Deskriptive Statistik
Importance of components:
Comp.1 Comp.2 Comp.3
Standard deviation
14.7861 6.0210 0.746909
Proportion of Variance 0.8559 0.1419 0.002184
Cumulative Proportion 0.8559 0.9978 1.000000
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
biplot(A.pca, col=Farben)
5
10 15
0.6
−10
0
var 1
##
##
##
##
##
0.5579
4
0.4
Var 3
15
0.2
20
−10
0
var 2
0
5
10
15
20
0.0
Comp.2
10 15
2
−0.2
5
−0.4
0
−0.6
−10
3
Var 2
Var 1
10
0
5
var 3
5
1
227
Beispiel Umfrage
Statistik
Etschberger - SS2014
# Beispiel 2 HKA
A = MyData[,c(1,2,4:8,10:12)]
str(A)
## 'data.frame': 205 obs. of 10 variables:
## $ Alter
: int 21 20 19 20 20 24 20 27 23 21 ...
## $ Groesse
: int 173 164 172 168 169 185 170 165 184 178 ...
## $ AlterV
: int 54 57 49 45 43 54 49 53 52 55 ...
## $ AlterM
: int 51 57 58 49 42 52 53 53 48 55 ...
## $ GroesseV
: int 187 172 193 185 182 179 182 175 182 180 ...
## $ GroesseM
: int 170 166 162 164 164 163 172 165 175 168 ...
## $ Geschwister: int 1 0 3 3 5 2 2 1 2 1 ...
## $ AusgKomm
: num 156 450 240 35.8 450 250 100 300 450 1300 ...
## $ AnzSchuhe : int 17 22 15 15 22 8 20 10 3 7 ...
## $ AusgSchuhe : int 50 500 400 100 450 90 250 200 300 200 ...
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
MD.pca = princomp(A, cor=TRUE)
summary(MD.pca, digits=3)
##
##
##
##
##
##
##
##
##
##
##
##
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation
1.4558 1.3194 1.2384 1.0462
Proportion of Variance 0.2119 0.1741 0.1534 0.1095
Cumulative Proportion 0.2119 0.3860 0.5394 0.6488
Comp.5 Comp.6 Comp.7 Comp.8
Standard deviation
0.96679 0.91429 0.77335 0.71009
Proportion of Variance 0.09347 0.08359 0.05981 0.05042
Cumulative Proportion 0.74231 0.82590 0.88571 0.93613
Comp.9 Comp.10
Standard deviation
0.64469 0.47232
Proportion of Variance 0.04156 0.02231
228
Statistik
Etschberger - SS2014
0.00
−0.05
−0.10
−0.15
Comp.2
0.05
0.10
0.15
# Beispiel 1 HKA
Farben = c("#dd100060", "#1000ddff")
biplot(MD.pca, col=Farben, xlim=c(-0.172,0.25), ylim=c(-0.17,0.16))
107
Groesse
81
28
94189
96 34 47
15
91
180
200
179
141 95
911054 37
17186 118 38
16
169
26
6
74
49
44
147
77
35
Geschwister
140
172 121129
4 197 GroesseM
1198
199
50 72 105
202 112
155 165 168
57
11
191 130
100 GroesseV
167
70
164
178
170
21
23
132
196
119
40
10
146
6612
201
159
7182
1455
181 52
193 136 5189
1423 73
13
71
133
98
184 124 87 188
64
113 108
83
25
192 177 58
86 46 90
102
41
76
65
187 56 82
43
67
53
32
123
55
125
157 103
8
104
101AlterV
92
78
106 190
29
143
185
116 22
131 120
97AusgKomm
1880
2769 30
144
135
Alter
174
AlterM
150
99127 84 14
117
11488 6159
158
138
194
42
183
111
175
163
115
75171
126
63
153 68
195
161
3124
45 139122
134109
2
19
151 93
62
166
162
36
204
39
154
48
176 156149 203
79
60
137
205
20
85
148
AusgSchuhe
152
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
128
5. Datenanalyse
160
6. Repräsentation
Einführung
Hauptkomponentenanalyse
33
AnzSchuhe
−0.1
0.0
0.1
0.2
Comp.1
229
Statistik
Etschberger - SS2014
Hauptkomponentenanalyse: Interpretation
Interpretationshilfen
Aussage über den Zusammenhang rkp zwischen den ursprünglichen
Merkmalen ak und den Hauptkomponenten (Faktoren) xp z.B. wie folgt:
1. Einführung
1
n
rkp =
n
P
2. Deskriptive Statistik
(aik − ā·k )(xip − x̄·p )
i=1
√
√
skk cpp
,
k = 1, . . . , m
p = 1, . . . , q
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
Korrelationskoeffizient rkp : Zusätzlicher Anhaltspunkt bei der Interpretation
der Analyseergebnisse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Kommunalitäten
Mit Korrelationskoeffizienten rkp : Anteil der auf die ersten q Faktoren
(p = 1, ..., q) übertragene Information des k-ten Merkmals ak berechenbar
Dazu: Kommunalität kk mit
kk =
q
X
r2kp ∈ [0,1] für k = 1, . . . , m
p=1
kk gibt an, wieviel Prozent der Informationen des (standardisierten) Merkmals
ak noch in den Faktoren x1 . . . xq enthalten sind.
230
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Wahl der Repräsentationsdimension
Allgemeingültige Kriterien zur Bestimmung einer
problem-adäquaten Repräsentationsdimension q sind nicht
bekannt. Man kann sich aber an den folgenden Regeln orientieren:
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Man wählt ein q aus, bei dem man bei weiterer Reduktion der
Faktorenzahl einen verhältnismäßig hohen zusätzlichen
Informationsverlust hätte (Ellenbogenkriterium).
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Man wählt ein minimales q ≥ 1 mit b(q) < bmax , d.h. ein q
mit maximal zu akzeptierendem Informationsverlust , (mit z.B.:
b0 = 10% oder b0 = 25%).
Man wählt ein maximales q ≤ m mit
λq ≥ (λ1 + . . . + λm )/m, d.h. man gibt vor, dass jeder Faktor
mindestens die durchschnittliche Merkmalsvarianz erklären
soll (Kaiser-Kriterium).
231
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Schlußbemerkungen zur Hauptkomponentenanalyse
Die HKA hat einige Vorteile:
Statt Untersuchungsobjekte durch kaum übersehbare und
hochkorrelierte Merkmalsbatterien zu beschreiben, gelangt man zu
wenigen und wichtigen und weitgehend orthogonalen
Dimensionen des Merkmalsraumes,
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
in dem Untersuchungsobjekte anhand ihrer Faktorwerte positioniert
sind
5. Datenanalyse
6. Repräsentation
Einführung
Fehlinterpretationsmöglichkeiten I
Hauptkomponentenanalyse
Die HKA projiziert mit Hilfe einer linearer Abbildung
die m-dimensionalen Untersuchungsobjekte (unter Verwendung der
Matrix Xq ) und
die m Merkmale ak (unter Verwendung der Matrix Fq )
in einen gemeinsamen q-dimensionalen Teilraum.
Deswegen: Sowohl die Objekte als auch die Merkmalsvektoren
dürfen nur relativ zueinander interpretiert werden.
Absolute Aussagen über die Lage der Objekte hinsichtlich der
einzelnen Merkmalsvektoren gelten nur approximativ.
232
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Fehlinterpretationsmöglichkeiten II
Wesentlich: Zahl und Art der Merkmale, die in die FA eingehen. Aus
den entsprechenden Gleichungen wird deutlich, daß auf einem
Faktor jene Merkmale hoch laden, die auch hoch korreliert sind.
Wenn ein Faktor durch sehr viele gleichartige Merkmale vertreten ist,
so laden diese auch hoch auf ihm.
Die Extraktion des ersten Faktors nach dem Kriterium des höchsten
Varianzbeitrages wird dann als bedeutendsten Faktor jenen
präsentieren, der durch viele Merkmale vertreten ist.
Damit zeigt sich aber, daß die FA für sich allein genommen nicht in
der Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln
(→ Conjointanalyse)
Bei Wahl von Merkmalen aus unterschiedlichen Bereichen (z.B.
soziodemographische und psychographische Merkmale), so kommt
es vor, dass die unterschiedlichen Merkmale auf ein und denselben
Faktor laden. Interpretation des Faktors dann wenig sinnvoll bzw.
schwierig.
Gängig: Faktoren nach dem am höchsten ladenden Merkmalen
benennen (Leitvariablenkonzept). Führt unter Umständen zu einer
Vernachlässigung relevanter Informationen für die Beschreibung der
Untersuchungsobjekte.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
233
Hauptkomponentenanalyse
Statistik
Etschberger - SS2014
Kovarianz- oder Korrelationsmatrix?
Die Hauptkomponentenanalyse kann statt mittels der
Kovarianzmatrix von A auch auf Basis der Korrelationsmatrix von A
durchgeführt werden.
1. Einführung
2. Deskriptive Statistik
3. W-Theorie
4. Induktive Statistik
Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können
nicht in die der Korrelationsmatrix überführt werden und geben
deshalb unterschiedliche Informationen.
5. Datenanalyse
6. Repräsentation
Einführung
Hauptkomponentenanalyse
Vorteile der Korrelationsmatrix:
- Die Ergebnisse zweier Analysen können direkt miteinander verglichen
werden
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr
sensitiv bzgl. der Einheiten der Merkmale
Vorteil der Kovarianzmatrix:
- Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr
sensitiv bzgl. der Einheiten der Merkmale (Manchmal möchte man
diesen Umstand benutzen)
234
Zugehörige Unterlagen
Herunterladen