Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik – p.1/44 Bayes-Land Schätzung Daten Momentenmethoden u. Lineare Modelle ML-City Vorhersagebereich Mathe Vertrauensbereich Schätzervorstadt Test Statistika Die Datenminen Die unwegsamen Ausreißerberge ik er etr ig d ram Ste htpa Nic robuster Weg Normalviertel Gl gle etsch Kl ich er en spa un ippe Me lte Vo über der ssw de ra p r ert r us üf set ba e r zu ng en en Riesige Halde mit nichtrepräsentativen Daten t-Dorf Modell-Platz Rangviertel Steppe der unwesentlich verletzten Voraussetzungen Kli p u nü pe de Aussichtsturm ber r V ora p Grafingen uss rüfb etz are un n gen Sequenzielle Passage Todeswüste, der nicht erfüllten Voraussetzungen Posthoc Bonferroni Passage Benjamini Passage Nacht der angenommen Hypothesen Sümpfe des multiplen Testens Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Datenanalyse und Statistik – p.2/44 Einteilung der Graphiken und Parameter Erste Variable diskret stetig keine ? ? zweite Variable diskret ? ? stetig wie diskret-stetig ? stetige Daten diskrete Daten stetig–stetig diskret–diskret diskret–stetig Datenanalyse und Statistik – p.3/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Für welche Fragestellungen eignet sich die Graphik? Warum lernen wir das? Datenanalyse und Statistik – p.4/44 Vorbereitung: Darstellung des Wertes durch die Lage Datenanalyse und Statistik – p.5/44 10 5 0 Acorn.size 15 Streudiagramm 0 5 10 15 20 25 30 Tree.Height Datenanalyse und Statistik – p.6/44 Graphiken für stetige Daten Punktdiagramm (stapeln, verzittern) Histogramm Kastendiagramm / Boxplot Q Q-Plots (Quantils-Quantils Plot) (Empirische Verteilungsfunktion) Datenanalyse und Statistik – p.7/44 Punktdiagramm Punktdiagramm 0 5 10 15 gestapeltes Punktdiagramm 0 5 10 15 verzittertes Punktdiagramm 0 5 10 15 Datenanalyse und Statistik – p.8/44 Punktdiagramm Vollständig bis auf Überdeckung Verzittern und Stapeln Was “sieht” man? Datenanalyse und Statistik – p.9/44 Histogramm 10 5 0 Frequency 15 20 Histogram of Acorn.size 0 5 10 15 Acorn.size Datenanalyse und Statistik – p.10/44 Histogramm 10 5 0 Frequency 15 20 Histogram of Acorn.size 0 5 10 15 Acorn.size mit Erklaerung Datenanalyse und Statistik – p.11/44 Histogramm 0.15 0.10 0.05 0.00 Density 0.20 0.25 Histogram of Acorn.size 0 5 10 15 Acorn.size als Dichteschaetzung Datenanalyse und Statistik – p.12/44 Histogramm Stellt Anzahl von Datenpunkten im Intervall dar. Stellt die Dichte (Datenpunkte pro Punkt und Einheitslänge) der Punkte dar. Balkenhöhe ist zufällig. Variation von Balkenanfang und Balkenanzahl führt zu verschiedenen Eindrücken. Zu kleine Balken ⇒ “Zufallsflimmer” Zu große Balken ⇒ Information zu sehr zusammengefaßt. Extreme Ausreißer eventuell am linken oder rechten Rand erkennbar. Datenanalyse und Statistik – p.13/44 Einfluß des Balkenanfangs 5 10 15 20 0 5 10 15 20 0 5 10 15 20 Acorn.size Acorn.size Histogram of Acorn.size Histogram of Acorn.size Histogram of Acorn.size 5 10 Acorn.size 15 20 0.20 0.15 0.05 0.00 0.00 0 0.10 Density 0.10 0.05 0.05 Density 0.10 0.15 0.15 0.20 Acorn.size 0.00 −5 0.10 0.00 0.00 0 0.05 Density 0.15 Density 0.05 0.10 0.20 0.15 0.10 0.00 0.05 Density −5 Density Histogram of Acorn.size 0.15 Histogram of Acorn.size 0.20 Histogram of Acorn.size 0 5 10 Acorn.size 15 20 0 5 10 15 20 Acorn.size Datenanalyse und Statistik – p.14/44 Beschreibung der Verteilungsform und Normalverteilung als Referenzverteilung Datenanalyse und Statistik – p.15/44 Normalverteilung −4 0 2 4 −3 −1 rnorm(10000) 1 150 0 Frequency 0 100 Frequency 1500 0 Frequency Histogram of rnorm(10000) Histogram of rnorm(1000)Histogram of rnorm(1000) 3 −3 rnorm(1000) −1 1 3 rnorm(1000) −4 0 2 4 −2 rnorm(100) 0 1 15 0 Frequency 15 0 Frequency 20 0 Frequency Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100) 2 −2 rnorm(100) 0 1 2 rnorm(100) −2 0 1 rnorm(20) 2 −1 0 1 rnorm(20) 2 0 2 4 Frequency 4 2 0 Frequency 6 3 0 Frequency Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20) −2 0 1 2 rnorm(20) Datenanalyse und Statistik – p.16/44 Dichte der Normalverteilung 0.4 0.5 Histogramm und Dichte einer Normalverteilung 0.3 e 2σ 0.1 0.2 2πσ 2 (x−µ)2 − 2 0.0 Density f(x) = 1 −4 −2 0 2 4 rnorm(100) Datenanalyse und Statistik – p.17/44 Verteilungseigenschaften 4 rnorm(1000, mean = 3) 2 4 300 8 2 3 4 5 6 linksschief, eingeschraenkt 150 0 Frequency 300 Frequency 0 2 6 rlnorm(1000, meanc(rnorm(1000, = log(3), sd = mean 0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4)) multimodal 0 4 0 300 0 6 6 Gleichverteilung auf [0,1] 0.4 0.7 0 300 2 Frequency 0 zweigipflig/bimodal Frequency rechtsschief Frequency 150 0 Frequency symmetrisch eingipflig 1.0 0.0 10, 2) c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1,rbeta(1000, 0.3)) −100 0 50 rcauchy(1000) 5 10 20 c(rnorm(100, mean = 3), 20) 60 rechtsschief monoton fallend unten beschraenkt 0 Frequency 15 0 0.8 rbeta(10000, 1, 1) Ausreisser 0 Frequency 150 0 Frequency Schwere Verteilungsschwaenze 0.4 0 2 4 6 rexp(300) Datenanalyse und Statistik – p.18/44 Kenngrößen und Parameter Lage Streuung Form Verteilung Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen bestimmten Aspekt quantiativ erfassen. Datenanalyse und Statistik – p.19/44 Lageparameter Lage Mittelwert (geometrisch und arithmetisch) Median Modus Quantile (Quartile, Dezentile) Streuung Form Verteilung Datenanalyse und Statistik – p.20/44 (arithmetischer) Mittelwert n X 1 1 x̄ = xi = (x1 + x2 + . . . + xn ) n n i=1 > mean(iris$Sepal.Length) [1] 5.843333 Datenanalyse und Statistik – p.21/44 Mittelwert 2 4 6 8 25 10 0 2 4 6 8 10 Histogram of Petal.Length Histogram of Petal.Width 0 10 Frequency 25 Sepal.Width 30 Sepal.Length 0 10 Frequency 0 0 10 Frequency 10 20 30 Histogram of Sepal.Width 0 Frequency Histogram of Sepal.Length 0 2 4 6 8 Petal.Length 10 0 2 4 6 8 10 Petal.Width Datenanalyse und Statistik – p.22/44 (geometrischer) Mittelwert Für die ratio-Skala gibt es noch den geometrischen Mittelwert v u n uY 1 n t n xi = (x1 x2 · · · xn ) x̄ = i=1 > exp(mean(log(iris$Sepal.Length))) [1] 5.78572 Datenanalyse und Statistik – p.23/44 Median Der Median ist der mittlere Wert: > median(c(4, 5, 1, 3, 6, 7, 8)) [1] 5 > median(c(4, 1, 3, 6, 7, 8)) [1] 5 > median(iris$Sepal.Length) [1] 5.8 > sapply(iris[, 1:4], median) Sepal.Length 5.80 Sepal.Width Petal.Length 3.00 4.35 Petal.Width 1.30 Datenanalyse und Statistik – p.24/44 Modus Der Modus den Bereich oder mit Modalwert bezeichnet größten Punktdichte. der 4 5 6 7 iris$Sepal.Length 8 30 0 10 Frequency 10 20 30 0 Frequency Histogram of iris$Sepal.Length Histogram of iris$Petal.Length 1 2 3 4 5 6 7 iris$Petal.Length Datenanalyse und Statistik – p.25/44 Quantile Das (empirische) p-Quantil q̂p ist der Wert für den der Anteil p des sortierten Datensatzes kleiner ist. 4.0 3.5 3.0 Beobachtungswert, Quantil Quantile 0.0 0.2 0.4 0.6 0.8 1.0 Anteil kleiner, p Datenanalyse und Statistik – p.26/44 Spezielle Quantile 1 2 -Quantil ist der Median 1 4 -Quantil heißt auch erstes Quartil 3 4 -Quantil heißt auch drittes Quartil n 10 -Quantil heißt auch n-tes Dezentil 0-Quantil heißt auch Minimum (sehr zufällig!!!) 1-Quantil heißt auch Maximum (sehr zufällig!!!) Datenanalyse und Statistik – p.27/44 Streuparameter Lage Streuung Varianz Standardabweichung IQR Variationkoeffizient geometrische Standardabweichung Form Verteilung Datenanalyse und Statistik – p.28/44 Streuparameter für die relle Skala Varianz 1 vd ar(X) = n−1 n X (Xi − X̄)2 i=1 Datenanalyse und Statistik – p.29/44 Streuparameter für die relle Skala Varianz 1 vd ar(X) = n−1 n X (Xi − X̄)2 i=1 Standardabweichung p b sd(X) = vd ar(X) Datenanalyse und Statistik – p.29/44 Streuparameter für die relle Skala Varianz 1 vd ar(X) = n−1 n X (Xi − X̄)2 i=1 Standardabweichung p b sd(X) = vd ar(X) Interquartilsabstand d IQR(X) = q0.75 − q0.25 Datenanalyse und Statistik – p.29/44 2 4 6 30 8 0 2 4 6 8 robust: mean= 5.84 sd= 0.83 robust: mean= 4.85 sd= 0.92 2 4 x 6 8 0 10 Frequency 0 30 x 10 20 30 x 0 Frequency 0 0 10 Frequency 10 20 30 classical mean= 3.76 sd= 1.77 0 Frequency classical mean= 5.84 sd= 0.83 0 2 4 6 8 x Datenanalyse und Statistik – p.30/44 Streuparameter für die ratio Skala Variationskoeffizient b sd(X) vb(X) = x̄ Datenanalyse und Statistik – p.31/44 Streuparameter für die ratio Skala Variationskoeffizient b sd(X) vb(X) = x̄ Standardabweichung des Logarithmus b sd(ln(X)) Datenanalyse und Statistik – p.31/44 Streuparameter für die ratio Skala Variationskoeffizient b sd(X) vb(X) = x̄ Standardabweichung des Logarithmus b sd(ln(X)) Geometrische Standardabweichung b exp(sd(ln(X))) Datenanalyse und Statistik – p.31/44 Blick mit der Ratioskala 2 4 6 30 8 0 2 4 6 8 classical geom. mean= 3.03 gsd= 1.15 classical geom. mean= 0.84 gsd= 2.67 0 10 25 25 x Frequency x 0 10 Frequency 0 classical geom. mean= 3.24 gsd= 1.8 0 10 Frequency 10 20 30 0 Frequency classical geom. mean= 5.79 gsd= 1.15 0 2 4 x 6 8 0 2 4 6 8 x Datenanalyse und Statistik – p.32/44 Weitere Parameter Lage Streuung Form Schiefe Wölbung ... Verteilung Hängt vom Verteilungsmodell ab. Datenanalyse und Statistik – p.33/44 Kastendiagramm/Boxplot Dotplot Boxplot Erklärung zum Boxplot einzelner Ausreißer 18,2 obere Ausreißergrenze oberster Nichtausreißer 18,1 Obere Hälfte der Daten 1,5xIQR 4. Viertel der Daten 3.Quartil 18,0 IQR 17,9 Untere Hälfte der Daten 3. Viertel der Daten Mittlere Hälfte Median der Daten 2. Viertel der Daten 1.Quartil 1. Viertel der Daten 1,5xIQR 17,8 unterster Nichtausreißer untere Ausreißergrenze Datenanalyse und Statistik – p.34/44 Kastendiagramme 0 2 4 6 8 Boxplots der reellen Variablen des Iris Datensatzes Sepal.Length Petal.Length Datenanalyse und Statistik – p.35/44 Interpretation Ausreißer Stichprobenlage / Median Stichprobenstreuung / IQR Symmetrie und Schiefe der Verteilung eventuell extreme Werthäufungen Datenanalyse und Statistik – p.36/44 Exkurs: Ausreißer Definition: Ein Ausreißer ist ein Datenpunkt der einen “ungewöhnlich” extremen Wert hat. Mögliche Ursachen: Zufall (Es gibt halt extreme Werte) Schwere Verteilungsschwänze (Ausreißer hier typisch) Datenfehler oder Übermittlungsfehler Untypischer Spezialfall (der Millionär mit Zweitwohnsitz im armen Bergbauerndorf) Individum fehlerhafterweise in der Stichprobe (z.B. andere Art) Anthropogene Überprägung (das verlorene Geldstück mit hohem Kupfergehalt.) Datenanalyse und Statistik – p.37/44 Q Q-Plots −2 0 1 4.0 3.0 2.0 2 −2 0 1 2 Petal.Length Petal.Width 0 1 2 Theoretical Quantiles 1.5 0.5 7 5 3 −2 2.5 Theoretical Quantiles Sample Quantiles Theoretical Quantiles 1 Sample Quantiles Sepal.Width Sample Quantiles 7.5 6.0 4.5 Sample Quantiles Sepal.Length −2 0 1 2 Theoretical Quantiles Datenanalyse und Statistik – p.38/44 Interpretation Q Q-Plot Ungefähre Gerade ⇔ Verteilungsmodell passend “Treppenstufen” ⇔ Bindungen (gleiche Werte) “Gegen S” ⇔ Ausreißer? schwere Verteilungsschwänze? Datenanalyse und Statistik – p.39/44 Exkurs: Bindungen Definition: Von einer Bindung spricht man, wenn ein Datenwert in einer stetigen Variable zwei oder mehrfach auftritt. Mögliche Ursachen: Rundung Ungenau Datenerhebung Spezieller Wert hat positive Wahrscheinlichkeit Variable nicht wirklich stetig Manche statistische Verfahren verlieren an zunehmend an Genauigkeit je mehr Bindungen auftreten. Datenanalyse und Statistik – p.40/44 Empirische Verteilungsfunktion F̂ (x) = Anteil des Datensatzes ≤ x 0.0 5 6 7 8 2.0 3.0 4.0 x Petal.Length Petal.Width 0.4 0.0 0.0 0.4 Fn(x) 0.8 x 0.8 4 Fn(x) 0.4 Fn(x) 0.4 0.0 Fn(x) 0.8 Sepal.Width 0.8 Sepal.Length 1 2 3 4 5 6 7 0.0 1.0 2.0 Datenanalyse und Statistik – p.41/44 x x Emprische Verteilungsfunktion Quantile können leicht abgelesen werden. Wahrscheinlichkeiten können leicht abgelesen werden. Bindungen erzeugen hohe Sprünge (fast unsichtbar). Sonst kann eigentlich nichts abgelesen werden. Datenanalyse und Statistik – p.42/44 Zusammenfassung zu stetigen Daten Lage- und Streuparameter / quantitativ Punktdiagramm (stapeln, verzittern) / Daten Histogramm (Balken varieren) / Verteilungsform Kastendiagramm / Ausreißer, Streung, Lage, Symmetrie Q Q-Plot / Vergleich mit Verteilung Empirische Verteilungsfunktion / Quantile Datenanalyse und Statistik – p.43/44 Datenanalyse und Statistik – p.44/44