Stochastik und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Stochastik und Statistik – p. 1/44 Bayes-Land Schätzung Daten Momentenmethoden u. Lineare Modelle ML-City Vorhersagebereich Mathe Vertrauensbereich Schätzervorstadt Test Statistika Die Datenminen Die unwegsamen Ausreißerberge ik er etr ig d ram Ste htpa Nic robuster Weg Normalviertel Gl gle etsch Kl ich er en spa un ippe Me lte ü d Vo ber er ssw de ra p ert r us rüf set ba e zu ren ng en Riesige Halde mit nichtrepräsentativen Daten t-Dorf Modell-Platz Rangviertel Steppe der unwesentlich verletzten Voraussetzungen Kli p u nü pe de Aussichtsturm ber r V ora p Grafingen uss rüfb etz are un n gen Sequenzielle Passage Todeswüste, der nicht erfüllten Voraussetzungen Posthoc Bonferroni Passage Benjamini Passage Nacht der angenommen Hypothesen Sümpfe des multiplen Testens Schlaraffia oder das Land des gelungen statistischen Nachweis Land des offenen Betrugs Stochastik und Statistik – p. 2/44 Einteilung der Graphiken und Parameter Erste Variable diskret stetig keine ? ? zweite Variable diskret ? ? stetig wie diskret-stetig ? stetige Daten diskrete Daten stetig–stetig diskret–diskret diskret–stetig Stochastik und Statistik – p. 3/44 Lernziele Zu jeder Graphik lernen wir: Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Was kann man in der Graphik sehen? Woran kann man es erkennen? Was übersieht man in der Graphik? Für welche Fragestellungen eignet sich die Graphik? Warum lernen wir das? Stochastik und Statistik – p. 4/44 Vorbereitung: Darstellung des Wertes durch die Lage Stochastik und Statistik – p. 5/44 10 5 0 Acorn.size 15 Streudiagramm 0 5 10 15 20 25 30 Tree.Height Stochastik und Statistik – p. 6/44 Graphiken für stetige Daten Punktdiagramm (stapeln, verzittern) Histogramm Kastendiagramm / Boxplot Q Q-Plots (Quantils-Quantils Plot) (Empirische Verteilungsfunktion) Stochastik und Statistik – p. 7/44 Punktdiagramm Punktdiagramm 0 5 10 15 gestapeltes Punktdiagramm 0 5 10 15 verzittertes Punktdiagramm 0 5 10 15 Stochastik und Statistik – p. 8/44 Punktdiagramm Vollständig bis auf Überdeckung Verzittern und Stapeln Was “sieht” man? Stochastik und Statistik – p. 9/44 Histogramm 10 5 0 Frequency 15 20 Histogram of Acorn.size 0 5 10 15 Acorn.size Stochastik und Statistik – p. 10/44 Histogramm 10 5 0 Frequency 15 20 Histogram of Acorn.size 0 5 10 15 Acorn.size mit Erklaerung Stochastik und Statistik – p. 11/44 Histogramm 0.15 0.10 0.05 0.00 Density 0.20 0.25 Histogram of Acorn.size 0 5 10 15 Acorn.size als Dichteschaetzung Stochastik und Statistik – p. 12/44 Histogramm Stellt Anzahl von Datenpunkten im Intervall dar. Stellt die Dichte (Datenpunkte pro Punkt und Einheitslänge) der Punkte dar. Balkenhöhe ist zufällig. Variation von Balkenanfang und Balkenanzahl führt zu verschiedenen Eindrücken. Zu kleine Balken ⇒ “Zufallsflimmer” Zu große Balken ⇒ Information zu sehr zusammengefaßt. Extreme Ausreißer eventuell am linken oder rechten Rand erkennbar. Stochastik und Statistik – p. 13/44 Einfluß des Balkenanfangs 5 10 15 20 0 5 10 15 20 0 5 10 15 20 Acorn.size Acorn.size Histogram of Acorn.size Histogram of Acorn.size Histogram of Acorn.size 5 10 Acorn.size 15 20 0.20 0.15 0.05 0.00 0.00 0 0.10 Density 0.10 0.05 0.05 Density 0.10 0.15 0.15 0.20 Acorn.size 0.00 −5 0.10 0.00 0.05 0.00 0 0.05 Density 0.15 Density 0.10 0.20 0.15 Density 0.10 0.05 0.00 −5 Density Histogram of Acorn.size 0.15 Histogram of Acorn.size 0.20 Histogram of Acorn.size 0 5 10 Acorn.size 15 20 0 5 10 15 20 Acorn.size Stochastik und Statistik – p. 14/44 Beschreibung der Verteilungsform und Normalverteilung als Referenzverteilung Stochastik und Statistik – p. 15/44 Normalverteilung −4 0 2 4 −3 −1 rnorm(10000) 1 150 0 Frequency 0 100 Frequency 1500 0 Frequency Histogram of rnorm(10000) Histogram of rnorm(1000)Histogram of rnorm(1000) 3 −3 rnorm(1000) −1 1 3 rnorm(1000) −4 0 2 4 −2 rnorm(100) 0 1 15 0 Frequency 15 0 Frequency 20 0 Frequency Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100) 2 −2 rnorm(100) 0 1 2 rnorm(100) −2 0 1 rnorm(20) 2 −1 0 1 rnorm(20) 2 0 2 4 Frequency 4 2 0 Frequency 6 3 0 Frequency Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20) −2 0 1 2 rnorm(20) Stochastik und Statistik – p. 16/44 Dichte der Normalverteilung 0.4 0.5 Histogramm und Dichte einer Normalverteilung 0.3 e 2σ 0.1 0.2 2πσ 2 (x−µ)2 − 2 0.0 Density f(x) = 1 −4 −2 0 2 4 rnorm(100) Stochastik und Statistik – p. 17/44 Verteilungseigenschaften 4 rnorm(1000, mean = 3) 2 4 300 8 2 3 4 5 6 linksschief, eingeschraenkt 150 0 Frequency 300 Frequency 0 2 6 rlnorm(1000, meanc(rnorm(1000, = log(3), sd = mean 0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4)) multimodal 0 4 0 300 0 6 6 Gleichverteilung auf [0,1] 0.4 0.7 0 300 2 Frequency 0 zweigipflig/bimodal Frequency rechtsschief Frequency 150 0 Frequency symmetrisch eingipflig 1.0 0.0 10, 2) c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1,rbeta(1000, 0.3)) −100 0 50 rcauchy(1000) 5 10 20 c(rnorm(100, mean = 3), 20) 60 rechtsschief monoton fallend unten beschraenkt 0 Frequency 15 0 0.8 rbeta(10000, 1, 1) Ausreisser 0 Frequency 150 0 Frequency Schwere Verteilungsschwaenze 0.4 0 2 4 6 rexp(300) Stochastik und Statistik – p. 18/44 Kenngrößen und Parameter Lage Streuung Form Verteilung Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen bestimmten Aspekt quantiativ erfassen. Stochastik und Statistik – p. 19/44 Lageparameter Lage Mittelwert (geometrisch und arithmetisch) Median Modus Quantile (Quartile, Dezentile) Streuung Form Verteilung Stochastik und Statistik – p. 20/44 (arithmetischer) Mittelwert n X 1 1 xi = (x1 + x2 + . . . + xn ) x̄ = n n i=1 > mean(iris$Sepal.Length) [1] 5.843333 Stochastik und Statistik – p. 21/44 Mittelwert 2 4 6 8 25 10 0 2 4 6 8 10 Histogram of Petal.Length Histogram of Petal.Width 0 10 Frequency 25 Sepal.Width 30 Sepal.Length 0 10 Frequency 0 0 10 Frequency 10 20 30 Histogram of Sepal.Width 0 Frequency Histogram of Sepal.Length 0 2 4 6 8 Petal.Length 10 0 2 4 6 8 10 Petal.Width Stochastik und Statistik – p. 22/44 (geometrischer) Mittelwert Für die ratio-Skala gibt es noch den geometrischen Mittelwert v u n uY 1 n t n x̄ = xi = (x1 x2 · · · xn ) i=1 > exp(mean(log(iris$Sepal.Length))) [1] 5.78572 Stochastik und Statistik – p. 23/44 Median Der Median ist der mittlere Wert: > median(c(4, 5, 1, 3, 6, 7, 8)) [1] 5 > median(c(4, 1, 3, 6, 7, 8)) [1] 5 > median(iris$Sepal.Length) [1] 5.8 > sapply(iris[, 1:4], median) Sepal.Length 5.80 Sepal.Width Petal.Length 3.00 4.35 Petal.Width 1.30 Stochastik und Statistik – p. 24/44 Modus Der Modus oder Modalwert bezeichnet den Bereich mit der größten Punktdichte. 4 5 6 7 iris$Sepal.Length 8 30 0 10 Frequency 10 20 30 0 Frequency Histogram of iris$Sepal.Length Histogram of iris$Petal.Length 1 2 3 4 5 6 7 iris$Petal.Length Stochastik und Statistik – p. 25/44 Quantile Das (empirische) p-Quantil q̂p ist der Wert für den der Anteil p des sortierten Datensatzes kleiner ist. 4.0 3.5 3.0 Beobachtungswert, Quantil Quantile 0.0 0.2 0.4 0.6 0.8 1.0 Anteil kleiner, p Stochastik und Statistik – p. 26/44 Spezielle Quantile 1 2 -Quantil ist der Median 1 4 -Quantil heißt auch erstes Quartil 3 4 -Quantil heißt auch drittes Quartil n 10 -Quantil heißt auch n-tes Dezentil 0-Quantil heißt auch Minimum (sehr zufällig!!!) 1-Quantil heißt auch Maximum (sehr zufällig!!!) Stochastik und Statistik – p. 27/44 Streuparameter Lage Streuung Varianz Standardabweichung IQR Variationkoeffizient geometrische Standardabweichung Form Verteilung Stochastik und Statistik – p. 28/44 Streuparameter für die relle Skala Varianz 1 vd ar(X) = n−1 n X (Xi − X̄)2 i=1 Standardabweichung b sd(X) = Interquartilsabstand p vd ar(X) d IQR(X) = q0.75 − q0.25 Stochastik und Statistik – p. 29/44 2 4 6 30 8 0 2 4 6 8 robust: mean= 5.83 sd= 0.81 robust: mean= 4.85 sd= 0.92 2 4 x 6 8 0 10 Frequency 0 30 x 10 20 30 x 0 Frequency 0 0 10 Frequency 10 20 30 classical mean= 3.76 sd= 1.77 0 Frequency classical mean= 5.84 sd= 0.83 0 2 4 6 8 x Stochastik und Statistik – p. 30/44 Streuparameter für die ratio Skala Variationskoeffizient b sd(X) vb(X) = x̄ Standardabweichung des Logarithmus b sd(ln(X)) Geometrische Standardabweichung b exp(sd(ln(X))) Stochastik und Statistik – p. 31/44 Blick mit der Ratioskala 2 4 6 30 8 0 2 4 6 8 classical geom. mean= 3.03 gsd= 1.15 classical geom. mean= 0.84 gsd= 2.67 0 10 25 25 x Frequency x 0 10 Frequency 0 classical geom. mean= 3.24 gsd= 1.8 0 10 Frequency 10 20 30 0 Frequency classical geom. mean= 5.79 gsd= 1.15 0 2 4 x 6 8 0 2 4 6 8 x Stochastik und Statistik – p. 32/44 Weitere Parameter Lage Streuung Form Schiefe Wölbung ... Verteilung Hängt vom Verteilungsmodell ab. Stochastik und Statistik – p. 33/44 Kastendiagramm/Boxplot Dotplot Boxplot Erklärung zum Boxplot einzelner Ausreißer 18,2 obere Ausreißergrenze oberster Nichtausreißer 18,1 Obere Hälfte der Daten 1,5xIQR 4. Viertel der Daten 3.Quartil 18,0 IQR 17,9 Untere Hälfte der Daten 3. Viertel der Daten Mittlere Hälfte Median der Daten 2. Viertel der Daten 1.Quartil 1. Viertel der Daten 1,5xIQR 17,8 unterster Nichtausreißer untere Ausreißergrenze Stochastik und Statistik – p. 34/44 Kastendiagramme 0 2 4 6 8 Boxplots der reellen Variablen des Iris Datensatzes Sepal.Length Petal.Length Stochastik und Statistik – p. 35/44 Interpretation Ausreißer Stichprobenlage / Median Stichprobenstreuung / IQR Symmetrie und Schiefe der Verteilung eventuell extreme Werthäufungen Stochastik und Statistik – p. 36/44 Exkurs: Ausreißer Definition: Ein Ausreißer ist ein Datenpunkt der einen “ungewöhnlich” extremen Wert hat. Mögliche Ursachen: Zufall (Es gibt halt extreme Werte) Schwere Verteilungsschwänze (Ausreißer hier typisch) Datenfehler oder Übermittlungsfehler Untypischer Spezialfall (der Millionär mit Zweitwohnsitz im armen Bergbauerndorf) Individum fehlerhafterweise in der Stichprobe (z.B. andere Art) Anthropogene Überprägung (das verlorene Geldstück mit hohem Kupfergehalt.) Stochastik und Statistik – p. 37/44 Q Q-Plots −2 0 1 4.0 3.0 2.0 2 −2 0 1 2 Petal.Length Petal.Width 0 1 2 Theoretical Quantiles 1.5 0.5 7 5 3 −2 2.5 Theoretical Quantiles Sample Quantiles Theoretical Quantiles 1 Sample Quantiles Sepal.Width Sample Quantiles 7.5 6.0 4.5 Sample Quantiles Sepal.Length −2 0 1 2 Theoretical Quantiles Stochastik und Statistik – p. 38/44 Interpretation Q Q-Plot Ungefähre Gerade ⇔ Verteilungsmodell passend “Treppenstufen” ⇔ Bindungen (gleiche Werte) “Gegen S” ⇔ Ausreißer? schwere Verteilungsschwänze? Stochastik und Statistik – p. 39/44 Exkurs: Bindungen Definition: Von einer Bindung spricht man, wenn ein Datenwert in einer stetigen Variable zwei oder mehrfach auftritt. Mögliche Ursachen: Rundung Ungenau Datenerhebung Spezieller Wert hat positive Wahrscheinlichkeit Variable nicht wirklich stetig Manche statistische Verfahren verlieren an zunehmend an Genauigkeit je mehr Bindungen auftreten. Stochastik und Statistik – p. 40/44 Empirische Verteilungsfunktion F̂ (x) = Anteil des Datensatzes ≤ x 0.0 5 6 7 8 2.0 3.0 4.0 x Petal.Length Petal.Width 0.4 0.0 0.0 0.4 Fn(x) 0.8 x 0.8 4 Fn(x) 0.4 Fn(x) 0.4 0.0 Fn(x) 0.8 Sepal.Width 0.8 Sepal.Length 1 2 3 4 5 6 7 x 0.0 1.0 2.0 x Stochastik und Statistik – p. 41/44 Emprische Verteilungsfunktion Quantile können leicht abgelesen werden. Wahrscheinlichkeiten können leicht abgelesen werden. Bindungen erzeugen hohe Sprünge (fast unsichtbar). Sonst kann eigentlich nichts abgelesen werden. Stochastik und Statistik – p. 42/44 Zusammenfassung zu stetigen Daten Lage- und Streuparameter / quantitativ Punktdiagramm (stapeln, verzittern) / Daten Histogramm (Balken varieren) / Verteilungsform Kastendiagramm / Ausreißer, Streung, Lage, Symmetrie Q Q-Plot / Vergleich mit Verteilung Empirische Verteilungsfunktion / Quantile Stochastik und Statistik – p. 43/44 Stochastik und Statistik – p. 44/44