Visualisierung I 5. Statistische Graphiken Vorlesung: Mi, 9:00 – 11:00, INF 368 – 532 Übung: Do, 14:00 – 16:00, INF 350 – OMZ R U011 JProf. Dr. Heike Jänicke – http://www.iwr.uni-heidelberg.de/groups/CoVis/ Inhaltsverzeichnis 1. Einführung 2. Visuelle Wahrnehmung 3. Datentypen und Datenrepräsentation 4. Skalardaten 5. Statistische Graphiken 6. Interaktion und Datenexploration 7. Darstellung von Graphen 8. Vektordaten 9. Tensordaten Visualisierung I – 5. Statistische Graphiken 2 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramme 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 3 Beispiel Autokauf ● ● ● Wir möchten uns ein neues Auto kaufen und haben uns dazu einige Modelle ausgesucht, die unseren Anforderungen entsprechen. Der nun ausschlaggebende Faktor ist der Preis und es sollen die Preise der verschiedenen Wagen verglichen werden. Die Visualisierung soll uns nun bei der Entscheidungsfindung helfen. Visualisierung I – 5. Statistische Graphiken 4 Direkte Visualisierung Ein erster Ansatz ist die direkte Visualisierung der Originaldaten: Preis ● Ford Ford Nissan Ford Ford Nissan Vauxhall Nissan Jeep Land Rover Ford Ford Mercedes Saab Ford Rover Morgan BMW Rolls BMW Saab Mercedes Mercedes BMW £0 Visualisierung I – 5. Statistische Graphiken £10.000 £20.000 £30.000 £40.000 £50.000 £60.000 5 Direkte Visualisierung ● Die gezeigten Visualisierungen haben folgende Stärken und Schwächen: ● Positiv: ● ● – Minimum und Maximum können leicht abgelesen werden. – Man kann die allgemeine Verteilung sehen. – Cluster kann man erkennen. Negativ: – Die Darstellung (noch) größerer Datenmenge ist schwierig. Entweder kommt es zu Überlappungen/Verdeckung oder man benötigt sehr viel Platz. – Das Labeling (Annotieren von Datenpunkten) ist schwierig. Die Interpretation großer Datenmengen kann durch Aggregation vereinfacht werden. Visualisierung I – 5. Statistische Graphiken 6 Aggregation – Histogramm ● ● Das Histogramm ist die wohl am häufigsten vorkommende Darstellung aggregierter Information. Hierbei wird für jede Klasse (Autos mit einem Preis in einem bestimmten Bereich) angezeigt, wieviele Elemente diese Klasse enthält. Wir können ablesen: – In welcher Preisspanne bewegen sich die ausgewählten Autos? – In welchen Preisklassen gibt es viele bzw. wenige Fahrzeuge? – Preisspannen in denen es zu Häufungen kommt (ein Bereich vs. mehrere). – Lokale Maxima, d.h. in welchem Preissegment haben wir eine große Auswahl. Visualisierung I – 5. Statistische Graphiken 7 Aggregation – Boxplot ● ● ● ● ● Ein Boxplot ist eine visuelle Darstellung wichtiger statistischer Merkmale und gibt Antworten auf relevante Fragen: In welcher Preisspanne bewegen sich die Autos? sehr teuer Was ist der durchschnittliche Preis für ein Auto in der gewählten Klasse? In welchem Bereich liegen 50% der Wagen? Gibt es Wagen, die extrem teuer oder billig sind? Mittelwert 50% der Autos sehr günstig Visualisierung I – 5. Statistische Graphiken 8 Darstellung mit und ohne Aggregation Ford Ford Nissan Nissan Land Rover Preis Ford Saab Rover BMW BMW Mercedes BMW £0 £20.000 £40.000 £60.000 Visualisierung I – 5. Statistische Graphiken 9 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 10 Merkmal oder Statistische Variable ● ● ● Die Objekte, auf die sich eine statistische Analyse bezieht, heißen Untersuchungseinheiten (z.B. Personen, Staaten, Datenpunkte). Die Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit. Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man als Merkmal oder statistische Variable X (z.B. Körpergröße, Einwohnerzahl, Temperatur). Bei jeder Untersuchungseinheit nimmt das Merkmal X eine mögliche Ausprägung x aus dem Merkmalsraum (Menge der möglichen x-Werte) an (z.B. 1,76m, 82 Mio., 24°C). Visualisierung I – 5. Statistische Graphiken 11 Häufigkeiten ● ● Die absolute Häufigkeit nj ist die Anzahl der Untersuchungseinheiten, die die Merkmalsausprägung aj, j = 1, ..., k besitzen. Die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen ergibt die Gesamtzahl n der Beobachtungen: k ∑ n j=n j=1 ● Für den vom Stichprobenumfang unabhängigen Vergleich von Untersuchungen benötigt man die relativen Häufigkeiten fj: f j =f a j = nj , n j=1,, k. Sie geben den Anteil der Untersuchungseinheiten an, die die Ausprägung aj besitzen. ● Die Summe der relativen Häufigkeiten aller Merkmalsausprägungen ergibt 1: k ∑ f j=1 j=1 Visualisierung I – 5. Statistische Graphiken 12 Empirische Verteilungsfunktion ● Sind die Beobachtungen x1, ..., xn des Merkmals X der Größe nach als x1 ≤ x2 ≤ ... ≤ xn geordnet und ist das Datenniveau mindestens ordinal, so ist die empirische Verteilungsfunktion an der Stelle x die kumulierte relative Häufigkeit aller Merkmalsausprägungen aj, die kleiner oder gleich x sind: F x= ∑ f a j a j x Visualisierung I – 5. Statistische Graphiken 13 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 14 Abfahrtszeiten Visualisierung I – 5. Statistische Graphiken 15 Stamm-Blatt-Diagramm Visualisierung I – 5. Statistische Graphiken 16 Stamm-Blatt-Diagramm – Konstruktion ● ● ● Ein Stamm-Blatt-Diagramm besteht aus zwei Spalten: dem Stamm und den Blättern. Der Stamm entspricht den Äquivalenzklassen, in die die Grundgesamtheit unterteilt wird (z.B. volle Stunde, ersten n Stellen einer ganzen Zahl, ganzzahliger Anteil einer Gleitkommazahl). Die Blätter sind eine Auflistung aller Elemente/Untersuchungseinheiten, die in der jeweiligen Äquivalenzklasse auftreten. ● Als Daumenregel für die Anzahl der Äquivalenzklassen gilt 10∙log10(n). ● Ist die Einheit der Blätter nicht intuitiv klar, sollte diese separat angegeben werden. Visualisierung I – 5. Statistische Graphiken 17 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 18 Histogramm ● ● ● Bei metrischen Merkmalen helfen Balkendiagramme oft nicht weiter, da viele Merkmalsausprägungen nur einmal auftreten (z.B. Temperaturmessung auf 6 Nachkommastellen genau). Um eine sinnvolle Häufigkeitsverteilung zu erhalten, muss das Merkmal zunächst klassifiziert werden (z.B. Temperatur auf ganze Zahl runden). Die hieraus resultierenden Häufigkeitsverteilung kann dann in einem Histogramm grafisch veranschaulicht werden. Die Histogrammflächen sind proportional zu den relativen Häufigkeiten fj, die Höhe hj des Rechtecks über der j-ten Klasse berechnet sich somit gemäß: h j= fj dj mit der Klassenbreite dj = ej – ej-1. Dabei ist ej die obere Klassengrenze des j-ten Intervalls und ej-1 die untere. Visualisierung I – 5. Statistische Graphiken 19 Kumuliertes Histogramm ● ● ● Während beim Histogramm häufig die Häufigkeitsverteilung/Dichtefunktion eines Merkmals dargestellt wird, kann ebensogut die empirische/kumulierte Verteilungsfunktion abgetragen werden. Man kann nun ablesen wie der Grenzwert x gewählt werden muss, so dass k% der Daten unterhalb dieses Wertes liegen und (100-k)% der Daten oberhalb. Die Abstände zwischen benachbarten Balken geben die relativen Häufigkeiten der einzelnen Klassen an. 0,96 1 0,9 0,84 0,8 0,72 Anteil (< Filmlänge) 0,7 1 0,88 0,76 0,64 0,6 0,5 0,4 0,32 0,3 0,2 0,1 0,08 0 70 80 90 100 110 120 130 140 Filmlänge Visualisierung I – 5. Statistische Graphiken 20 150 Histogramm – Anzahl der Klassen ● ● ● Ein Parameter, der dem Histogrammalgorithmus gegeben werden muss ist die Anzahl der Klassen. Wählt man diese falsch kann es zu folgenden Problemen kommen: Zu viele Klassen: Es ist schwer die tatsächlich zugrunde liegende Struktur abzulesen, da lokale zufällige Schwankungen starken Einfluss haben. Zu wenige Klassen: Lokale Eigenschäften/Unterschiede werden durch zu das Zusammenfassen verschiedener Klassen eliminiert und können nicht mehr erkannt werden. 140 600 120 500 100 400 80 300 60 200 40 20 [Shimazaki 2005] 100 0 0.100 0.250 0.400 0.550 0.700 0.850 1.000 0.025 0.175 0.325 0.475 0.625 0.775 0.925 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Visualisierung I – 5. Statistische Graphiken 1 21 Histogramm – Anzahl der Klassen ● ● ● Allgemein gilt: Es ist sehr schwierig automatisch einen guten Grenzwert für die Anzahl der Klassen anzugeben. Je nach Datenlage kann dieser Wert stark variieren. Deshalb erweist es sich meist als günstig, wenn der Nutzer die Klassenzahl interaktiv variieren kann. Grobe Richtlinien wären etwa: Anzahl der Messungen Anzahl an Klassen <50 5 bis 7 50 bis 100 6 bis 10 100 bis 250 7 bis 12 >250 10 bis 20 Es gibt auch wissenschaftliche Untersuchungen, die u.a. zu folgenden Empfehlungen kommen: – Sturges: k = ceil( log2n + 1 ) – Scott: k = 3.5 σ / n1/3, wobei σ die Standardabweichung in den Daten ist. Visualisierung I – 5. Statistische Graphiken 22 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 23 Modalwert ● Als Modalwertx M bezeichnet man den häufigsten Wert einer Verteilung. x M =a j ⇔ n j =max {n 1, n2, , n k }. ● Die Angabe des Modalwertes ist meist nur sinnvoll, wenn es in den Daten nur einen „Gipfel“ gibt. Visualisierung I – 5. Statistische Graphiken 24 Median und Quantile ● ● Der Median teilt die Daten in zwei gleichgroße Bereich. Die eine Hälfte der Daten ist kleiner als der Median, die andere größer als er. Der Median wir mit Q0.5 bezeichnet und durch die Forderung F Q 0.5 =0.5 definiert. { x n1 /2 falls n ungerade Q0.5 = 1 x n /2 x n/ 21 2 ● } Das Quantil ist eine Verallgemeinerung des Medians. Das α-Quantil wird durch die Forderung F( Q) = α definiert. Bei diskreten Daten bedeutet dies, dass höchstens n(1 – α) Werte größer oder gleich Qsind. { x ceiln Q = 1 x x 2 n n 1 ● falls n gerade falls n nicht ganzzahlig falls n ganzzahlig } Quartile sind die Quantile zum 25%- bzw. 75%-Niveau. Q oder Q heißt unteres .25 1 Quartil, Q.75 oder Q heißt oberes Quartil. 3 Visualisierung I – 5. Statistische Graphiken 25 Median und Quantile [fao.org] Visualisierung I – 5. Statistische Graphiken 26 Mittelwert und Streuungsmaße ● Das arithmetische Mittel (oft auch Mittelwert) x ist der Durchschnittswert aller Beobachtungen: n 1 x= ∑ x i. n i=1 ● Der Quartilsabstand (IQR) ist gegeben durch d Q=Q 0.75−Q 0.25 Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen. ● Die Varianz σ² misst die mittlere quadratische Abweichung vom arithmetischen Mittel: n 1 2= ∑ x i − x2. n i=1 ● Die Standardabweichung σ ist die positive Wurzel aus der Varianz: n 1 = ∑ x i − x2. n i=1 Visualisierung I – 5. Statistische Graphiken 27 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 28 Boxplot ● ● Boxplots sind eine graphische Darstellung wichtiger statistischer Kenngrößen: – Median – unteres und oberes Quartil – Ausreißer – „Normalbereich“ Folgende Informationen können leicht abgelesen werden: – Minimum und Maximum – Mittlerer Wert – Was ist normal? – Welche Werte sind ungewöhnlich? – Spannweite der Daten Extremwert Ausreißer größter Wert mit xj ≤ Q3 + 1.5 IQR Median = Q2 Q3 Q1 kleinster Wert mit xj ≤ Q1 - 1.5 IQR Ausreißer Extremwert Visualisierung I – 5. Statistische Graphiken 29 Beispiele Boxplots Autopreise Anzahl der Geburten nach Wochentag [C. Schwarz, www.math.sfu.ca] Visualisierung I – 5. Statistische Graphiken 30 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 31 Zusammenhänge zwischen zwei Variablen # Schlafzimmer 1 1 1 1 1 1 2 2 2 2 2 2 2 3 Preis £25,000 £48,000 £60,000 £80,000 £98,000 £275,000 £57,000 £81,000 £100,000 £120,000 £140,000 £175,000 £280,000 £125,000 Visualisierung I – 5. Statistische Graphiken 32 Streudiagramm ● ● ● Ein Streudiagramm ist eine visuelle Darstellung von bivariaten Daten (Daten mit zwei Merkmalen). Die x-Achse wird entsprechend dem einen Merkmal skaliert, die yAchse entsprechend dem anderen Merkmal. Die Wertepaare der einzelnen Messwerte werden nun als 2D Datenpunkte in das Diagramm eingetragen. Das Streudiagramm gibt Auskunft über – Existenz und Art von Korrelationen. – Clusterbildung. – Ausreißer in bivariaten Daten, d.h. die Kombination der beiden Werte ist ungewöhnlich. Ein wichtiger Aspekt bei der Darstellung von Streudiagrammen ist die Skalierung der Achsen. Häufig werden die beiden Verteilungen normiert und mit gleicher Ausdehnung abgetragen. Dies kann auf den ersten Blick einen falschen Eindruck vermitteln, wenn die eine Variable stark variiert und die andere nur wenig um einen bestimmten Wert schwankt. Betrachtung der Varianz kann hier helfen. Visualisierung I – 5. Statistische Graphiken 33 Streudiagramm – Beispiele für verschiedene Korrelationen keine Korrelation positive lineare Korrelation quadratischer Zusammenhang Visualisierung I – 5. Statistische Graphiken exponentieller Zusammenhang negative lineare Korrelation Ausreißer 34 Streudiagramm – Beispiele [boston.com] [Piotr Deuar] Zusammensetzung von Olivenöl [M. Daszykowski, 2005] Visualisierung I – 5. Statistische Graphiken 35 Kontinuierliche Streudiagramme Hurricane Isabel data set: These two images show a continuous and a discrete scatterplot of the hurricane Isabel data set. The continuous version was created with the tetrahedral approach as described in the paper "Continuous Scatterplots". This data set is the downsampled version with a size of 128 x 128 x 30. In the discrete scatterplot, near-vertically aligned clusters of points are visible. Those clusters are misleading, since they originate solely from the low sampling density in the z-dimension. (See next example for a high-resolution version of this data set.) [S. Bachthaler and D. Weiskopf: Continuous Scatterplots, TVCG, 2008] Visualisierung I – 5. Statistische Graphiken 36 Streudiagramm Matrizen [Originlab] Visualisierung I – 5. Statistische Graphiken 37 Inhaltsverzeichnis 5. Statistische Graphiken 1. Statistische Grundlagen 2. Stamm-Blatt-Diagramm 3. Histogramm 4. Statistische Maßzahlen 5. Boxplot 6. Streudiagramm 7. Hauptkomponentenanalyse Visualisierung I – 5. Statistische Graphiken 38 Beispiel ● Gegeben sei eine Kugel die an einer Feder gleichmäßig hoch und runter schwingt. Die Bewegung der Kugel wird von 3 Kameras aufgezeichnet und ergibt zu jedem Zeitpunkt ti 6 Messung (jeweils x- und y-Koordinate im Kamerabild). t t1 t2 x A x A1 x A2 y A y A1 y A2 x B x B1 x B2 y B y B1 y B2 x C x C1 x C2 y C y C1 y C2 ● ● Im 7D Raum ergäben die Datenpunkte eine perfekt Linie und es würde ausreichen die Messung mit Hilfe eines Parameters (Auslenkung der Kugel entlang der Achse zu beschreiben). Die PCA hilft so eine niederparametrige Darstellung zu finden, indem das Koordinatensystem neu ausgerichtet wird. Visualisierung I – 5. Statistische Graphiken 39 Basistransformation ● ● Verallgemeinert untersuchen wir Daten mit m Variablen (Kamerapositionen) und n Datenpunkten (Zeitschritte). Die naive bisher gewählte Basis für unsere Daten ist dann gegeben durch: [ ][ ] b1 1 0 B= b 2 = 0 1 ⋮ ⋮ ⋮ 0 0 bm ● ⋱ 0 0 =I ⋮ 1 Mit dieser Basis können die Datenpunkte wie folgt dargestellt werden: [] x Ai y Ai x X i = Bi y Bi x Ci y Ci Visualisierung I – 5. Statistische Graphiken 40 Basistransformation ● ● Die Hauptkomponentenanalyse berechnet eine lineare Transformation P der Originalbasis, die die Daten besser charakterisiert. Seien X und Y m×n-Matrizen und P eine lineare Transformation (m×m-Matrix) P X =Y ● Die Gleichung kann wie folgt interpretiert werden: – Die Matrix P transformiert X nach Y. – Geometrisch betrachtet entspricht P einer Rotation und Skalierung, die ebenfalls X nach Y transformiert. – Die Zeilen von P, {p1, ..., pm}, bilden die neuen Basisvektoren zur Darstellung der Spalten in X. [ ] p1⋅x 1 p 1⋅x n P X= ⋮ ⋱ ⋮ =Y p m⋅x 1 p m⋅x n Visualisierung I – 5. Statistische Graphiken 41 Welche Transformation? ● Wir haben gesehen, dass wir mittels einer linearen Transformation die Daten in ein neues Koordinatensystem abbilden können. Zwei Fragen bleiben bestehen: – Was ist die beste neue Darstellung der Originaldaten in X? – Was ist eine gute Wahl für P? Visualisierung I – 5. Statistische Graphiken 42 Information in den Daten ● ● ● ● Die neue Darstellung der Daten soll die enthaltene Information erhalten und leicht sichtbar machen. Die zwei wichtigsten Aspekte, die die Aussage von Daten unkenntlich machen sind – Rauschen und – Redundanz. Rauschen entsteht z.B. durch kleine Fehler in der Messung. Redundanz entsteht wenn eine Ursache sich auf mehrere Variablen auswirkt oder die gleichen Daten unterschiedlich gemessen werden. Visualisierung I – 5. Statistische Graphiken 43 Varianz und Kovarianz ● ● Sowohl das Rauschen (Signal-Rausch-Verhältnis) als auch Redundanz in den Daten kann mittels der Kovarianz ausgedrückt werden. Seien zwei simultane Messung mit arithmetisches Mittel = 0 gegeben: A={a 1, a2, , a n } B={b 1, b 2, , b n } ● Die Varianz in A und B ist gegeben durch: n 1 = a 2i ∑ n−1 i=1 2 A ● n 1 = bi2 ∑ n−1 i=1 2 B Die Kovarianz zwischen A und B ist gegeben durch: n 1 2AB = ai b i ∑ n−1 i=1 mit ● – σ²AB = 0 gdw. A und B völlig unkorreliert sind. – σ²AA = σ²A Man kann die Kovarianz nun als Skalarprodukt formulieren: 2a b= 1 a bT n−1 Visualisierung I – 5. Statistische Graphiken a=[a1 a 2 an ] b=[b 1 b 2 b n ] 44 Kovarianzmatrix ● Werde nun nicht zwei einzelnen Messungen betrachtet, sondern viele Messungen, kann man diese in einer Matrix X speichern. [ x 11 X = x 21 ⋮ x m1 ● x 12 x 22 ⋮ x m2 x 1n x 2n ⋱ ⋮ x mn ] Die Kovarianzmatrix ist definiert durch: SX ≡ mit folgenden Einträgen: 1 X XT n−1 – Der Eintrag an der Stelle (i,j) entspricht der Kovarianz zwischen xi und xj. – SX ist eine symmetrische m×m-Matrix. – Die Einträge auf der Hauptdiagonale sind die Varianzen in den einzelnen Variablen. – Alle anderen Einträge sind die Kovarianzen zwischen verschiedenen Variablen. Visualisierung I – 5. Statistische Graphiken 45 Kovarianz ● Angenommen wir würden nicht die Daten manipulieren, sondern die Kovarianzmatrix. Welche Eigenschaften wollten wir erzielen? – Um die Redundanz möglichst klein zu halten, sollten die Daten in den verschiedenen Variablen möglichst wenig voneinander abhängen. → Dies kann erreicht werden indem nur noch die Einträge auf der Hauptdiagonale ≠ 0 sind. – Die Daten sollen geordnet sein, so dass wir bestimmen können in welcher Variable die größte/kleinste Varianz besteht. → Wir benötigen also neben den neuen Basisvektoren noch einen Wert der dies quantifiziert. Dies wird die Varianz in Richtung der neuen Achsen sein. – Die neue Basis soll orthonormal sein. → Hierdurch lässt sich das Problem u.a. leicht lösen. Außerdem sind die neuen Richtung nun unkorreliert. Visualisierung I – 5. Statistische Graphiken 46 Hauptkomponenten ● ● Wir suchen also eine Matrix P mit Y = PX, so dass die Kovarianzmatrix SY = YYT/(n-1) eine Diagonalmatrix ist. Die Zeilen in P sind dann die Hauptachsen (principal components) von X. Zuerst formulieren wir die Kovarianzmatrix um: Visualisierung I – 5. Statistische Graphiken 47 Hauptkomponenten ● Die Matrix A = XXT kann diagonalisiert werden, indem man mit einer Matrix E multipliziert, deren Spalten die Eigenvektoren (EV) von A sind: A=EDE T mit D = diag(λ1, λ2, ..., λn) und E = [ EV(λ1) EV(λ1) ... EV(λ1)]. ● ● Jetzt wählen wir die Matrix P so, dass die Zeilen von P den Eigenvektoren von A = XXT entspricht. Nun gilt P ≡ ET, A = PTDP und außerdem P-1 = PT. Hiermit erhalten wir: Visualisierung I – 5. Statistische Graphiken 48 Hauptkomponentenanalyse – Ergebnisse ● ● Eigenschaften: – Aufgrund der gegebenen Wahl von P wird SY diagonalisiert. (Das Ziel der PCA.) – Die Hauptkomponenten sind die Eigenvektoren von XXT. – Der i-te Eintrag in der Kovarianzmatrix SY ist die Varianz von X in Richtung der i-ten Hauptkomponente. Algorithmus: – Berechne das arithmetische Mittel über alle Datenpunkte in jeder Variable. – Subtrahiere das arithmetische Mittel von den Daten. – Ordne die n Datenpunkte mit m Variablen in einer m×n-Matrix X an. – Berechne die Kovarianzmatrix SX = XXT . – Berechne die Eigenwerte und Eigenvektoren der Kovarianzmatrix SX. Visualisierung I – 5. Statistische Graphiken 49 Referenzen Die Erklärungen folgen den Beschreibungen in: ● ● ● ● ● A. C. Telea. Data Visualization: Principles and Practice, A K Peters, Ltd., 2008. H. Toutenburg, M. Schomaker, M. Wißmann, C. Heumann: Arbeitsbuch zur deskriptiven und induktiven Statistik, Springer, 2009. (online über Heidi verfügbar). R.Spence: Information visualization, Addison-Wesley, 2001. S. H. and Shinomoto S., A method for selecting the bin size of a time histogram Neural Computation (2007) Vol. 19(6), 1503-1527 J. Shlens: A Tutorial on Principal Component Analysis, 2003 Visualisierung I – 5. Statistische Graphiken 50