Visualisierung I 5. Statistische Graphiken

Werbung
Visualisierung I
5. Statistische Graphiken
Vorlesung: Mi, 9:00 – 11:00, INF 368 – 532
Übung: Do, 14:00 – 16:00, INF 350 – OMZ R U011
JProf. Dr. Heike Jänicke – http://www.iwr.uni-heidelberg.de/groups/CoVis/
Inhaltsverzeichnis
1. Einführung
2. Visuelle Wahrnehmung
3. Datentypen und Datenrepräsentation
4. Skalardaten
5. Statistische Graphiken
6. Interaktion und Datenexploration
7. Darstellung von Graphen
8. Vektordaten
9. Tensordaten
Visualisierung I – 5. Statistische Graphiken
2
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramme
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
3
Beispiel Autokauf
●
●
●
Wir möchten uns ein neues Auto kaufen
und haben uns dazu einige Modelle
ausgesucht, die unseren Anforderungen
entsprechen.
Der nun ausschlaggebende Faktor ist der
Preis und es sollen die Preise der
verschiedenen Wagen verglichen werden.
Die Visualisierung soll uns nun bei der
Entscheidungsfindung helfen.
Visualisierung I – 5. Statistische Graphiken
4
Direkte Visualisierung
Ein erster Ansatz ist die direkte Visualisierung der Originaldaten:
Preis
●
Ford
Ford
Nissan
Ford
Ford
Nissan
Vauxhall
Nissan
Jeep
Land Rover
Ford
Ford
Mercedes
Saab
Ford
Rover
Morgan
BMW
Rolls
BMW
Saab
Mercedes
Mercedes
BMW
£0
Visualisierung I – 5. Statistische Graphiken
£10.000 £20.000 £30.000 £40.000 £50.000 £60.000
5
Direkte Visualisierung
●
Die gezeigten Visualisierungen haben folgende Stärken und Schwächen:
●
Positiv:
●
●
–
Minimum und Maximum können leicht abgelesen werden.
–
Man kann die allgemeine Verteilung sehen.
–
Cluster kann man erkennen.
Negativ:
–
Die Darstellung (noch) größerer Datenmenge ist schwierig. Entweder kommt es
zu Überlappungen/Verdeckung oder man benötigt sehr viel Platz.
–
Das Labeling (Annotieren von Datenpunkten) ist schwierig.
Die Interpretation großer Datenmengen kann durch Aggregation vereinfacht werden.
Visualisierung I – 5. Statistische Graphiken
6
Aggregation – Histogramm
●
●
Das Histogramm ist die wohl am häufigsten vorkommende
Darstellung aggregierter Information. Hierbei wird für jede
Klasse (Autos mit einem Preis in einem bestimmten
Bereich) angezeigt, wieviele Elemente diese Klasse enthält.
Wir können ablesen:
–
In welcher Preisspanne bewegen sich die ausgewählten
Autos?
–
In welchen Preisklassen gibt es viele bzw. wenige
Fahrzeuge?
–
Preisspannen in denen es zu Häufungen kommt (ein
Bereich vs. mehrere).
–
Lokale Maxima, d.h. in welchem Preissegment haben
wir eine große Auswahl.
Visualisierung I – 5. Statistische Graphiken
7
Aggregation – Boxplot
●
●
●
●
●
Ein Boxplot ist eine visuelle Darstellung
wichtiger statistischer Merkmale und gibt
Antworten auf relevante Fragen:
In welcher Preisspanne bewegen sich die
Autos?
sehr teuer
Was ist der durchschnittliche Preis für ein Auto
in der gewählten Klasse?
In welchem Bereich liegen 50% der Wagen?
Gibt es Wagen, die extrem teuer oder billig
sind?
Mittelwert
50% der Autos
sehr günstig
Visualisierung I – 5. Statistische Graphiken
8
Darstellung mit und ohne Aggregation
Ford
Ford
Nissan
Nissan
Land Rover
Preis
Ford
Saab
Rover
BMW
BMW
Mercedes
BMW
£0
£20.000
£40.000
£60.000
Visualisierung I – 5. Statistische Graphiken
9
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
10
Merkmal oder Statistische Variable
●
●
●
Die Objekte, auf die sich eine statistische Analyse bezieht, heißen
Untersuchungseinheiten (z.B. Personen, Staaten, Datenpunkte). Die
Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit.
Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man
als Merkmal oder statistische Variable X (z.B. Körpergröße, Einwohnerzahl,
Temperatur).
Bei jeder Untersuchungseinheit nimmt das Merkmal X eine mögliche Ausprägung x
aus dem Merkmalsraum (Menge der möglichen x-Werte) an (z.B. 1,76m, 82 Mio.,
24°C).
Visualisierung I – 5. Statistische Graphiken
11
Häufigkeiten
●
●
Die absolute Häufigkeit nj ist die Anzahl der Untersuchungseinheiten, die die
Merkmalsausprägung aj, j = 1, ..., k besitzen.
Die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen ergibt die
Gesamtzahl n der Beobachtungen:
k
∑ n j=n
j=1
●
Für den vom Stichprobenumfang unabhängigen Vergleich von Untersuchungen
benötigt man die relativen Häufigkeiten fj:
f j =f  a j =
nj
,
n
j=1,, k.
Sie geben den Anteil der Untersuchungseinheiten an, die die Ausprägung aj besitzen.
●
Die Summe der relativen Häufigkeiten aller Merkmalsausprägungen ergibt 1:
k
∑ f j=1
j=1
Visualisierung I – 5. Statistische Graphiken
12
Empirische Verteilungsfunktion
●
Sind die Beobachtungen x1, ..., xn des Merkmals X der Größe nach als x1 ≤ x2 ≤ ... ≤ xn
geordnet und ist das Datenniveau mindestens ordinal, so ist die empirische
Verteilungsfunktion an der Stelle x die kumulierte relative Häufigkeit aller Merkmalsausprägungen aj, die kleiner oder gleich x sind:
F  x= ∑ f  a j 
a j x
Visualisierung I – 5. Statistische Graphiken
13
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
14
Abfahrtszeiten
Visualisierung I – 5. Statistische Graphiken
15
Stamm-Blatt-Diagramm
Visualisierung I – 5. Statistische Graphiken
16
Stamm-Blatt-Diagramm – Konstruktion
●
●
●
Ein Stamm-Blatt-Diagramm besteht aus zwei Spalten: dem Stamm und den Blättern.
Der Stamm entspricht den Äquivalenzklassen, in die die Grundgesamtheit unterteilt
wird (z.B. volle Stunde, ersten n Stellen einer ganzen Zahl, ganzzahliger Anteil einer
Gleitkommazahl).
Die Blätter sind eine Auflistung aller Elemente/Untersuchungseinheiten, die in der
jeweiligen Äquivalenzklasse auftreten.
●
Als Daumenregel für die Anzahl der Äquivalenzklassen gilt 10∙log10(n).
●
Ist die Einheit der Blätter nicht intuitiv klar, sollte diese separat angegeben werden.
Visualisierung I – 5. Statistische Graphiken
17
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
18
Histogramm
●
●
●
Bei metrischen Merkmalen helfen Balkendiagramme oft nicht weiter, da viele
Merkmalsausprägungen nur einmal auftreten (z.B. Temperaturmessung auf 6
Nachkommastellen genau).
Um eine sinnvolle Häufigkeitsverteilung zu erhalten, muss das Merkmal zunächst
klassifiziert werden (z.B. Temperatur auf ganze Zahl runden). Die hieraus
resultierenden Häufigkeitsverteilung kann dann in einem Histogramm grafisch
veranschaulicht werden.
Die Histogrammflächen sind proportional zu
den relativen Häufigkeiten fj, die Höhe hj des
Rechtecks über der j-ten Klasse berechnet
sich somit gemäß:
h j=
fj
dj
mit der Klassenbreite dj = ej – ej-1. Dabei ist ej
die obere Klassengrenze des j-ten Intervalls
und ej-1 die untere.
Visualisierung I – 5. Statistische Graphiken
19
Kumuliertes Histogramm
●
●
●
Während beim Histogramm häufig die Häufigkeitsverteilung/Dichtefunktion eines
Merkmals dargestellt wird, kann ebensogut die empirische/kumulierte
Verteilungsfunktion abgetragen werden.
Man kann nun ablesen wie der Grenzwert x gewählt werden muss, so dass k% der
Daten unterhalb dieses Wertes liegen und (100-k)% der Daten oberhalb.
Die Abstände zwischen benachbarten
Balken geben die relativen Häufigkeiten
der einzelnen Klassen an.
0,96
1
0,9
0,84
0,8
0,72
Anteil (< Filmlänge)
0,7
1
0,88
0,76
0,64
0,6
0,5
0,4
0,32
0,3
0,2
0,1
0,08
0
70
80
90
100
110
120
130
140
Filmlänge
Visualisierung I – 5. Statistische Graphiken
20
150
Histogramm – Anzahl der Klassen
●
●
●
Ein Parameter, der dem Histogrammalgorithmus gegeben werden muss ist die
Anzahl der Klassen. Wählt man diese falsch kann es zu folgenden Problemen
kommen:
Zu viele Klassen:
Es ist schwer die tatsächlich zugrunde liegende Struktur abzulesen, da lokale zufällige
Schwankungen starken Einfluss haben.
Zu wenige Klassen:
Lokale Eigenschäften/Unterschiede werden
durch zu das Zusammenfassen verschiedener
Klassen eliminiert und können nicht mehr
erkannt werden.
140
600
120
500
100
400
80
300
60
200
40
20
[Shimazaki 2005]
100
0
0.100 0.250 0.400 0.550 0.700 0.850 1.000
0.025 0.175 0.325 0.475 0.625 0.775 0.925
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Visualisierung I – 5. Statistische Graphiken
1
21
Histogramm – Anzahl der Klassen
●
●
●
Allgemein gilt: Es ist sehr schwierig automatisch einen guten Grenzwert für die
Anzahl der Klassen anzugeben. Je nach Datenlage kann dieser Wert stark variieren.
Deshalb erweist es sich meist als günstig, wenn der Nutzer die Klassenzahl interaktiv
variieren kann.
Grobe Richtlinien wären etwa:
Anzahl der
Messungen
Anzahl an
Klassen
<50
5 bis 7
50 bis 100
6 bis 10
100 bis 250
7 bis 12
>250
10 bis 20
Es gibt auch wissenschaftliche Untersuchungen, die u.a. zu folgenden Empfehlungen
kommen:
–
Sturges: k = ceil( log2n + 1 )
–
Scott: k = 3.5 σ / n1/3, wobei σ die Standardabweichung in den Daten ist.
Visualisierung I – 5. Statistische Graphiken
22
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
23
Modalwert
●
Als Modalwertx M bezeichnet man den häufigsten Wert einer Verteilung.
x M =a j ⇔ n j =max {n 1, n2, , n k }.
●
Die Angabe des Modalwertes ist meist nur sinnvoll, wenn es in den Daten nur einen
„Gipfel“ gibt.
Visualisierung I – 5. Statistische Graphiken
24
Median und Quantile
●
●
Der Median teilt die Daten in zwei gleichgroße Bereich. Die eine Hälfte der Daten ist
kleiner als der Median, die andere größer als er.
Der Median wir mit Q0.5 bezeichnet und durch die Forderung F Q 0.5 =0.5 definiert.
{
x n1 /2
falls n ungerade
Q0.5 = 1
 x n /2 x n/ 21
2
●
}
Das Quantil ist eine Verallgemeinerung des Medians. Das α-Quantil wird durch die
Forderung F( Q) = α definiert. Bei diskreten Daten bedeutet dies, dass höchstens
n(1 – α) Werte größer oder gleich Qsind.
{
x ceiln 
Q = 1
x  x

2 n  n 1
●
falls n gerade
falls n  nicht ganzzahlig
falls n  ganzzahlig
}
Quartile sind die Quantile zum 25%- bzw. 75%-Niveau. Q oder Q heißt unteres
.25
1
Quartil, Q.75 oder Q heißt oberes Quartil.
3
Visualisierung I – 5. Statistische Graphiken
25
Median und Quantile
[fao.org]
Visualisierung I – 5. Statistische Graphiken
26
Mittelwert und Streuungsmaße
●
Das arithmetische Mittel (oft auch Mittelwert) x ist der Durchschnittswert aller
Beobachtungen:
n
1
x= ∑ x i.
n i=1
●
Der Quartilsabstand (IQR) ist gegeben durch
d Q=Q 0.75−Q 0.25
Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen.
●
Die Varianz σ² misst die mittlere quadratische Abweichung vom arithmetischen Mittel:
n
1
 2= ∑  x i − x2.
n i=1
●
Die Standardabweichung σ ist die positive Wurzel aus der Varianz:

n
1
=  ∑ x i − x2.
n i=1
Visualisierung I – 5. Statistische Graphiken
27
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
28
Boxplot
●
●
Boxplots sind eine graphische Darstellung wichtiger statistischer Kenngrößen:
–
Median
–
unteres und oberes Quartil
–
Ausreißer
–
„Normalbereich“
Folgende Informationen können
leicht abgelesen werden:
–
Minimum und Maximum
–
Mittlerer Wert
–
Was ist normal?
–
Welche Werte sind ungewöhnlich?
–
Spannweite der Daten
Extremwert
Ausreißer
größter Wert mit
xj ≤ Q3 + 1.5 IQR
Median = Q2
Q3
Q1
kleinster Wert mit
xj ≤ Q1 - 1.5 IQR
Ausreißer
Extremwert
Visualisierung I – 5. Statistische Graphiken
29
Beispiele Boxplots
Autopreise
Anzahl der Geburten nach Wochentag
[C. Schwarz, www.math.sfu.ca]
Visualisierung I – 5. Statistische Graphiken
30
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
31
Zusammenhänge zwischen zwei Variablen
# Schlafzimmer
1
1
1
1
1
1
2
2
2
2
2
2
2
3
Preis
£25,000
£48,000
£60,000
£80,000
£98,000
£275,000
£57,000
£81,000
£100,000
£120,000
£140,000
£175,000
£280,000
£125,000
Visualisierung I – 5. Statistische Graphiken
32
Streudiagramm
●
●
●
Ein Streudiagramm ist eine visuelle Darstellung von bivariaten Daten (Daten mit zwei
Merkmalen). Die x-Achse wird entsprechend dem einen Merkmal skaliert, die yAchse entsprechend dem anderen Merkmal. Die Wertepaare der einzelnen
Messwerte werden nun als 2D Datenpunkte in das Diagramm eingetragen.
Das Streudiagramm gibt Auskunft über
–
Existenz und Art von Korrelationen.
–
Clusterbildung.
–
Ausreißer in bivariaten Daten, d.h. die Kombination der beiden Werte ist
ungewöhnlich.
Ein wichtiger Aspekt bei der Darstellung von Streudiagrammen ist die Skalierung der
Achsen. Häufig werden die beiden Verteilungen normiert und mit gleicher
Ausdehnung abgetragen. Dies kann auf den ersten Blick einen falschen Eindruck
vermitteln, wenn die eine Variable stark variiert und die andere nur wenig um einen
bestimmten Wert schwankt. Betrachtung der Varianz kann hier helfen.
Visualisierung I – 5. Statistische Graphiken
33
Streudiagramm – Beispiele für verschiedene Korrelationen
keine Korrelation
positive lineare Korrelation
quadratischer
Zusammenhang
Visualisierung I – 5. Statistische Graphiken
exponentieller
Zusammenhang
negative lineare Korrelation
Ausreißer
34
Streudiagramm – Beispiele
[boston.com]
[Piotr Deuar]
Zusammensetzung von Olivenöl
[M. Daszykowski, 2005]
Visualisierung I – 5. Statistische Graphiken
35
Kontinuierliche Streudiagramme
Hurricane Isabel data set: These two images show a continuous and a discrete scatterplot of the
hurricane Isabel data set. The continuous version was created with the tetrahedral approach as
described in the paper "Continuous Scatterplots". This data set is the downsampled version with a size
of 128 x 128 x 30. In the discrete scatterplot, near-vertically aligned clusters of points are visible. Those
clusters are misleading, since they originate solely from the low sampling density in the z-dimension.
(See next example for a high-resolution version of this data set.)
[S. Bachthaler and D. Weiskopf: Continuous Scatterplots, TVCG, 2008]
Visualisierung I – 5. Statistische Graphiken
36
Streudiagramm Matrizen
[Originlab]
Visualisierung I – 5. Statistische Graphiken
37
Inhaltsverzeichnis
5. Statistische Graphiken
1. Statistische Grundlagen
2. Stamm-Blatt-Diagramm
3. Histogramm
4. Statistische Maßzahlen
5. Boxplot
6. Streudiagramm
7. Hauptkomponentenanalyse
Visualisierung I – 5. Statistische Graphiken
38
Beispiel
●
Gegeben sei eine Kugel die an einer Feder gleichmäßig hoch und runter schwingt.
Die Bewegung der Kugel wird von 3 Kameras aufgezeichnet und ergibt zu jedem
Zeitpunkt ti 6 Messung (jeweils x- und y-Koordinate im Kamerabild).
t
t1
t2
x A x A1 x A2
y A y A1 y A2
x B x B1 x B2
y B y B1 y B2
x C x C1 x C2
y C y C1 y C2
●
●







Im 7D Raum ergäben die Datenpunkte eine perfekt Linie und es würde ausreichen
die Messung mit Hilfe eines Parameters (Auslenkung der Kugel entlang der Achse zu
beschreiben).
Die PCA hilft so eine niederparametrige Darstellung zu finden, indem das
Koordinatensystem neu ausgerichtet wird.
Visualisierung I – 5. Statistische Graphiken
39
Basistransformation
●
●
Verallgemeinert untersuchen wir Daten mit m Variablen (Kamerapositionen) und n
Datenpunkten (Zeitschritte).
Die naive bisher gewählte Basis für unsere Daten ist dann gegeben durch:
[ ][ ]
b1
1 0
B= b 2 = 0 1
⋮ ⋮
⋮
0 0
bm
●


⋱

0
0 =I
⋮
1
Mit dieser Basis können die Datenpunkte wie folgt dargestellt werden:
[]
x Ai
y Ai
x

X i = Bi
y Bi
x Ci
y Ci
Visualisierung I – 5. Statistische Graphiken
40
Basistransformation
●
●
Die Hauptkomponentenanalyse berechnet eine lineare Transformation P der
Originalbasis, die die Daten besser charakterisiert.
Seien X und Y m×n-Matrizen und P eine lineare Transformation (m×m-Matrix)
P X =Y
●
Die Gleichung kann wie folgt interpretiert werden:
–
Die Matrix P transformiert X nach Y.
–
Geometrisch betrachtet entspricht P einer Rotation und Skalierung, die ebenfalls
X nach Y transformiert.
–
Die Zeilen von P, {p1, ..., pm}, bilden die neuen Basisvektoren zur Darstellung der
Spalten in X.
[
]
p1⋅x 1  p 1⋅x n
P X= ⋮
⋱
⋮ =Y
p m⋅x 1  p m⋅x n
Visualisierung I – 5. Statistische Graphiken
41
Welche Transformation?
●
Wir haben gesehen, dass wir mittels einer linearen Transformation die Daten in ein
neues Koordinatensystem abbilden können. Zwei Fragen bleiben bestehen:
–
Was ist die beste neue Darstellung der Originaldaten in X?
–
Was ist eine gute Wahl für P?
Visualisierung I – 5. Statistische Graphiken
42
Information in den Daten
●
●
●
●
Die neue Darstellung der Daten soll die enthaltene Information erhalten und leicht
sichtbar machen.
Die zwei wichtigsten Aspekte, die die Aussage von Daten unkenntlich machen sind
–
Rauschen und
–
Redundanz.
Rauschen entsteht z.B. durch kleine Fehler in der Messung.
Redundanz entsteht wenn eine Ursache sich auf mehrere Variablen auswirkt oder die
gleichen Daten unterschiedlich gemessen werden.
Visualisierung I – 5. Statistische Graphiken
43
Varianz und Kovarianz
●
●
Sowohl das Rauschen (Signal-Rausch-Verhältnis) als auch Redundanz in den Daten
kann mittels der Kovarianz ausgedrückt werden.
Seien zwei simultane Messung mit arithmetisches Mittel = 0 gegeben:
A={a 1, a2, , a n } B={b 1, b 2, , b n }
●
Die Varianz in A und B ist gegeben durch:
n
1
 =
a 2i
∑
n−1 i=1
2
A
●
n
1
 =
bi2
∑
n−1 i=1
2
B
Die Kovarianz zwischen A und B ist gegeben durch:
n
1
 2AB =
ai b i
∑
n−1 i=1
mit
●
–
σ²AB = 0 gdw. A und B völlig unkorreliert sind.
–
σ²AA = σ²A
Man kann die Kovarianz nun als Skalarprodukt formulieren:
 2a b=
1
a bT
n−1
Visualisierung I – 5. Statistische Graphiken
a=[a1 a 2 an ] b=[b 1 b 2 b n ]
44
Kovarianzmatrix
●
Werde nun nicht zwei einzelnen Messungen betrachtet, sondern viele Messungen,
kann man diese in einer Matrix X speichern.
[
x 11
X = x 21
⋮
x m1
●
x 12
x 22
⋮
x m2
 x 1n
 x 2n
⋱ ⋮
 x mn
]
Die Kovarianzmatrix ist definiert durch:
SX ≡
mit folgenden Einträgen:
1
X XT
n−1
–
Der Eintrag an der Stelle (i,j) entspricht der Kovarianz zwischen xi und xj.
–
SX ist eine symmetrische m×m-Matrix.
–
Die Einträge auf der Hauptdiagonale sind die Varianzen in den einzelnen
Variablen.
–
Alle anderen Einträge sind die Kovarianzen zwischen verschiedenen Variablen.
Visualisierung I – 5. Statistische Graphiken
45
Kovarianz
●
Angenommen wir würden nicht die Daten manipulieren, sondern die Kovarianzmatrix.
Welche Eigenschaften wollten wir erzielen?
–
Um die Redundanz möglichst klein zu halten, sollten die Daten in den
verschiedenen Variablen möglichst wenig voneinander abhängen.
→ Dies kann erreicht werden indem nur noch die Einträge auf der
Hauptdiagonale ≠ 0 sind.
–
Die Daten sollen geordnet sein, so dass wir bestimmen können in welcher
Variable die größte/kleinste Varianz besteht.
→ Wir benötigen also neben den neuen Basisvektoren noch einen Wert der dies
quantifiziert. Dies wird die Varianz in Richtung der neuen Achsen sein.
–
Die neue Basis soll orthonormal sein.
→ Hierdurch lässt sich das Problem u.a. leicht lösen. Außerdem sind die neuen
Richtung nun unkorreliert.
Visualisierung I – 5. Statistische Graphiken
46
Hauptkomponenten
●
●
Wir suchen also eine Matrix P mit Y = PX, so dass die Kovarianzmatrix
SY = YYT/(n-1) eine Diagonalmatrix ist. Die Zeilen in P sind dann die Hauptachsen
(principal components) von X.
Zuerst formulieren wir die Kovarianzmatrix um:
Visualisierung I – 5. Statistische Graphiken
47
Hauptkomponenten
●
Die Matrix A = XXT kann diagonalisiert werden, indem man mit einer Matrix E
multipliziert, deren Spalten die Eigenvektoren (EV) von A sind:
A=EDE T
mit D = diag(λ1, λ2, ..., λn) und E = [ EV(λ1) EV(λ1) ... EV(λ1)].
●
●
Jetzt wählen wir die Matrix P so, dass die Zeilen von P den Eigenvektoren von A =
XXT entspricht.
Nun gilt P ≡ ET, A = PTDP und außerdem P-1 = PT. Hiermit erhalten wir:
Visualisierung I – 5. Statistische Graphiken
48
Hauptkomponentenanalyse – Ergebnisse
●
●
Eigenschaften:
–
Aufgrund der gegebenen Wahl von P wird SY
diagonalisiert. (Das Ziel der PCA.)
–
Die Hauptkomponenten sind die Eigenvektoren von XXT.
–
Der i-te Eintrag in der Kovarianzmatrix SY ist
die Varianz von X in Richtung der i-ten Hauptkomponente.
Algorithmus:
–
Berechne das arithmetische Mittel über alle Datenpunkte in jeder Variable.
–
Subtrahiere das arithmetische Mittel von den Daten.
–
Ordne die n Datenpunkte mit m Variablen in einer m×n-Matrix X an.
–
Berechne die Kovarianzmatrix SX = XXT .
–
Berechne die Eigenwerte und Eigenvektoren der Kovarianzmatrix SX.
Visualisierung I – 5. Statistische Graphiken
49
Referenzen
Die Erklärungen folgen den Beschreibungen in:
●
●
●
●
●
A. C. Telea. Data Visualization: Principles and Practice, A K Peters, Ltd., 2008.
H. Toutenburg, M. Schomaker, M. Wißmann, C. Heumann: Arbeitsbuch zur
deskriptiven und induktiven Statistik, Springer, 2009. (online über Heidi verfügbar).
R.Spence: Information visualization, Addison-Wesley, 2001.
S. H. and Shinomoto S., A method for selecting the bin size of a time histogram
Neural Computation (2007) Vol. 19(6), 1503-1527
J. Shlens: A Tutorial on Principal Component Analysis, 2003
Visualisierung I – 5. Statistische Graphiken
50
Herunterladen