Kurzversion - K. Gerald van den Boogaart

Stochastik und Statistik
Vorlesung 2 (Graphik I)
K.Gerald van den Boogaart
http://www.stat.boogaart.de
Stochastik und Statistik – p. 1/44
Bayes-Land
Schätzung
Daten
Momentenmethoden u.
Lineare Modelle
ML-City
Vorhersagebereich
Mathe
Vertrauensbereich
Schätzervorstadt
Test
Statistika
Die Datenminen
Die unwegsamen
Ausreißerberge
ik
er
etr
ig d ram
Ste htpa
Nic
robuster
Weg
Normalviertel
Gl
gle etsch
Kl
ich er
en spa
un ippe
Me lte
ü
d
Vo ber er
ssw de
ra
p
ert r
us rüf
set ba
e
zu ren
ng
en
Riesige Halde mit
nichtrepräsentativen
Daten
t-Dorf
Modell-Platz
Rangviertel
Steppe der unwesentlich
verletzten Voraussetzungen
Kli
p
u
nü pe de
Aussichtsturm
ber r
V
ora
p
Grafingen
uss rüfb
etz are
un n
gen
Sequenzielle Passage
Todeswüste, der
nicht erfüllten
Voraussetzungen
Posthoc
Bonferroni
Passage
Benjamini
Passage
Nacht der angenommen
Hypothesen
Sümpfe des multiplen Testens
Schlaraffia oder das Land des gelungen statistischen Nachweis
Land des offenen Betrugs
Stochastik und Statistik – p. 2/44
Einteilung der Graphiken und Parameter
Erste Variable
diskret
stetig
keine
?
?
zweite Variable diskret
?
?
stetig wie diskret-stetig
?
stetige Daten
diskrete Daten
stetig–stetig
diskret–diskret
diskret–stetig
Stochastik und Statistik – p. 3/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Was kann man in der Graphik sehen?
Woran kann man es erkennen?
Was übersieht man in der Graphik?
Für welche Fragestellungen eignet sich die Graphik?
Warum lernen wir das?
Stochastik und Statistik – p. 4/44
Vorbereitung: Darstellung des Wertes durch die Lage
Stochastik und Statistik – p. 5/44
10
5
0
Acorn.size
15
Streudiagramm
0
5
10
15
20
25
30
Tree.Height
Stochastik und Statistik – p. 6/44
Graphiken für stetige Daten
Punktdiagramm (stapeln, verzittern)
Histogramm
Kastendiagramm / Boxplot
Q Q-Plots (Quantils-Quantils Plot)
(Empirische Verteilungsfunktion)
Stochastik und Statistik – p. 7/44
Punktdiagramm
Punktdiagramm
0
5
10
15
gestapeltes Punktdiagramm
0
5
10
15
verzittertes Punktdiagramm
0
5
10
15
Stochastik und Statistik – p. 8/44
Punktdiagramm
Vollständig bis auf Überdeckung
Verzittern und Stapeln
Was “sieht” man?
Stochastik und Statistik – p. 9/44
Histogramm
10
5
0
Frequency
15
20
Histogram of Acorn.size
0
5
10
15
Acorn.size
Stochastik und Statistik – p. 10/44
Histogramm
10
5
0
Frequency
15
20
Histogram of Acorn.size
0
5
10
15
Acorn.size
mit Erklaerung
Stochastik und Statistik – p. 11/44
Histogramm
0.15
0.10
0.05
0.00
Density
0.20
0.25
Histogram of Acorn.size
0
5
10
15
Acorn.size
als Dichteschaetzung
Stochastik und Statistik – p. 12/44
Histogramm
Stellt Anzahl von Datenpunkten im Intervall dar.
Stellt die Dichte (Datenpunkte pro Punkt und
Einheitslänge) der Punkte dar.
Balkenhöhe ist zufällig.
Variation von Balkenanfang und Balkenanzahl führt zu
verschiedenen Eindrücken.
Zu kleine Balken ⇒ “Zufallsflimmer”
Zu große Balken ⇒ Information zu sehr
zusammengefaßt.
Extreme Ausreißer eventuell am linken oder rechten
Rand erkennbar.
Stochastik und Statistik – p. 13/44
Einfluß des Balkenanfangs
5
10
15
20
0
5
10
15
20
0
5
10
15
20
Acorn.size
Acorn.size
Histogram of Acorn.size
Histogram of Acorn.size
Histogram of Acorn.size
5
10
Acorn.size
15
20
0.20
0.15
0.05
0.00
0.00
0
0.10
Density
0.10
0.05
0.05
Density
0.10
0.15
0.15
0.20
Acorn.size
0.00
−5
0.10
0.00
0.05
0.00
0
0.05
Density
0.15
Density
0.10
0.20
0.15
Density
0.10
0.05
0.00
−5
Density
Histogram of Acorn.size
0.15
Histogram of Acorn.size
0.20
Histogram of Acorn.size
0
5
10
Acorn.size
15
20
0
5
10
15
20
Acorn.size
Stochastik und Statistik – p. 14/44
Beschreibung der
Verteilungsform
und
Normalverteilung als
Referenzverteilung
Stochastik und Statistik – p. 15/44
Normalverteilung
−4
0
2
4
−3 −1
rnorm(10000)
1
150
0
Frequency
0 100
Frequency
1500
0
Frequency
Histogram of rnorm(10000)
Histogram of rnorm(1000)Histogram of rnorm(1000)
3
−3
rnorm(1000)
−1
1
3
rnorm(1000)
−4
0
2
4
−2
rnorm(100)
0
1
15
0
Frequency
15
0
Frequency
20
0
Frequency
Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100)
2
−2
rnorm(100)
0 1 2
rnorm(100)
−2
0
1
rnorm(20)
2
−1 0
1
rnorm(20)
2
0 2 4
Frequency
4
2
0
Frequency
6
3
0
Frequency
Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20)
−2
0
1
2
rnorm(20)
Stochastik und Statistik – p. 16/44
Dichte der Normalverteilung
0.4
0.5
Histogramm und Dichte
einer Normalverteilung
0.3
e
2σ
0.1
0.2
2πσ
2
(x−µ)2
− 2
0.0
Density
f(x) =
1
−4
−2
0
2
4
rnorm(100)
Stochastik und Statistik – p. 17/44
Verteilungseigenschaften
4
rnorm(1000, mean = 3)
2
4
300
8
2 3 4 5 6
linksschief,
eingeschraenkt
150
0
Frequency
300
Frequency
0
2
6
rlnorm(1000, meanc(rnorm(1000,
= log(3), sd = mean
0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4))
multimodal
0
4
0
300
0
6
6
Gleichverteilung
auf [0,1]
0.4
0.7
0 300
2
Frequency
0
zweigipflig/bimodal
Frequency
rechtsschief
Frequency
150
0
Frequency
symmetrisch
eingipflig
1.0
0.0
10, 2)
c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1,rbeta(1000,
0.3))
−100
0 50
rcauchy(1000)
5 10
20
c(rnorm(100, mean = 3), 20)
60
rechtsschief
monoton fallend
unten beschraenkt
0
Frequency
15
0
0.8
rbeta(10000, 1, 1)
Ausreisser
0
Frequency
150
0
Frequency
Schwere
Verteilungsschwaenze
0.4
0
2
4
6
rexp(300)
Stochastik und Statistik – p. 18/44
Kenngrößen und Parameter
Lage
Streuung
Form
Verteilung
Kenngrößen und Parameter sind konventionelle
Zusammenfassungen der Daten in einzelne Zahlen, die
jeweils einen bestimmten Aspekt quantiativ erfassen.
Stochastik und Statistik – p. 19/44
Lageparameter
Lage
Mittelwert (geometrisch und arithmetisch)
Median
Modus
Quantile (Quartile, Dezentile)
Streuung
Form
Verteilung
Stochastik und Statistik – p. 20/44
(arithmetischer) Mittelwert
n
X
1
1
xi = (x1 + x2 + . . . + xn )
x̄ =
n
n
i=1
> mean(iris$Sepal.Length)
[1] 5.843333
Stochastik und Statistik – p. 21/44
Mittelwert
2
4
6
8
25
10
0
2
4
6
8
10
Histogram of Petal.Length
Histogram of Petal.Width
0
10
Frequency
25
Sepal.Width
30
Sepal.Length
0 10
Frequency
0
0 10
Frequency
10 20 30
Histogram of Sepal.Width
0
Frequency
Histogram of Sepal.Length
0
2
4
6
8
Petal.Length
10
0
2
4
6
8
10
Petal.Width
Stochastik und Statistik – p. 22/44
(geometrischer) Mittelwert
Für die ratio-Skala gibt es noch den geometrischen
Mittelwert
v
u n
uY
1
n
t
n
x̄ =
xi = (x1 x2 · · · xn )
i=1
> exp(mean(log(iris$Sepal.Length)))
[1] 5.78572
Stochastik und Statistik – p. 23/44
Median
Der Median ist der mittlere Wert:
> median(c(4, 5, 1, 3, 6, 7, 8))
[1] 5
> median(c(4, 1, 3, 6, 7, 8))
[1] 5
> median(iris$Sepal.Length)
[1] 5.8
> sapply(iris[, 1:4], median)
Sepal.Length
5.80
Sepal.Width Petal.Length
3.00
4.35
Petal.Width
1.30
Stochastik und Statistik – p. 24/44
Modus
Der Modus oder Modalwert bezeichnet den Bereich mit der
größten Punktdichte.
4
5
6
7
iris$Sepal.Length
8
30
0 10
Frequency
10 20 30
0
Frequency
Histogram of iris$Sepal.Length Histogram of iris$Petal.Length
1
2
3
4
5
6
7
iris$Petal.Length
Stochastik und Statistik – p. 25/44
Quantile
Das (empirische) p-Quantil q̂p ist der Wert für den der Anteil
p des sortierten Datensatzes kleiner ist.
4.0
3.5
3.0
Beobachtungswert, Quantil
Quantile
0.0
0.2
0.4
0.6
0.8
1.0
Anteil kleiner, p
Stochastik und Statistik – p. 26/44
Spezielle Quantile
1
2 -Quantil ist der Median
1
4 -Quantil heißt auch erstes Quartil
3
4 -Quantil heißt auch drittes Quartil
n
10 -Quantil heißt auch n-tes Dezentil
0-Quantil heißt auch Minimum (sehr zufällig!!!)
1-Quantil heißt auch Maximum (sehr zufällig!!!)
Stochastik und Statistik – p. 27/44
Streuparameter
Lage
Streuung
Varianz
Standardabweichung
IQR
Variationkoeffizient
geometrische Standardabweichung
Form
Verteilung
Stochastik und Statistik – p. 28/44
Streuparameter für die relle Skala
Varianz
1
vd
ar(X) =
n−1
n
X
(Xi − X̄)2
i=1
Standardabweichung
b
sd(X)
=
Interquartilsabstand
p
vd
ar(X)
d
IQR(X)
= q0.75 − q0.25
Stochastik und Statistik – p. 29/44
2
4
6
30
8
0
2
4
6
8
robust:
mean= 5.83 sd= 0.81
robust:
mean= 4.85 sd= 0.92
2
4
x
6
8
0 10
Frequency
0
30
x
10 20 30
x
0
Frequency
0
0 10
Frequency
10 20 30
classical
mean= 3.76 sd= 1.77
0
Frequency
classical
mean= 5.84 sd= 0.83
0
2
4
6
8
x
Stochastik und Statistik – p. 30/44
Streuparameter für die ratio Skala
Variationskoeffizient
b
sd(X)
vb(X) =
x̄
Standardabweichung des Logarithmus
b
sd(ln(X))
Geometrische Standardabweichung
b
exp(sd(ln(X)))
Stochastik und Statistik – p. 31/44
Blick mit der Ratioskala
2
4
6
30
8
0
2
4
6
8
classical
geom. mean= 3.03 gsd= 1.15
classical
geom. mean= 0.84 gsd= 2.67
0
10
25
25
x
Frequency
x
0 10
Frequency
0
classical
geom. mean= 3.24 gsd= 1.8
0 10
Frequency
10 20 30
0
Frequency
classical
geom. mean= 5.79 gsd= 1.15
0
2
4
x
6
8
0
2
4
6
8
x
Stochastik und Statistik – p. 32/44
Weitere Parameter
Lage
Streuung
Form
Schiefe
Wölbung
...
Verteilung
Hängt vom Verteilungsmodell ab.
Stochastik und Statistik – p. 33/44
Kastendiagramm/Boxplot
Dotplot Boxplot
Erklärung zum Boxplot
einzelner Ausreißer
18,2
obere Ausreißergrenze
oberster Nichtausreißer
18,1
Obere Hälfte
der Daten
1,5xIQR
4. Viertel der Daten
3.Quartil
18,0
IQR
17,9
Untere Hälfte
der Daten
3. Viertel der Daten
Mittlere Hälfte Median
der Daten
2. Viertel der Daten
1.Quartil
1. Viertel der Daten
1,5xIQR
17,8
unterster Nichtausreißer
untere Ausreißergrenze
Stochastik und Statistik – p. 34/44
Kastendiagramme
0
2
4
6
8
Boxplots der reellen Variablen des Iris Datensatzes
Sepal.Length
Petal.Length
Stochastik und Statistik – p. 35/44
Interpretation
Ausreißer
Stichprobenlage / Median
Stichprobenstreuung / IQR
Symmetrie und Schiefe der Verteilung
eventuell extreme Werthäufungen
Stochastik und Statistik – p. 36/44
Exkurs: Ausreißer
Definition: Ein Ausreißer ist ein Datenpunkt der einen
“ungewöhnlich” extremen Wert hat.
Mögliche Ursachen:
Zufall (Es gibt halt extreme Werte)
Schwere Verteilungsschwänze (Ausreißer hier typisch)
Datenfehler oder Übermittlungsfehler
Untypischer Spezialfall (der Millionär mit Zweitwohnsitz
im armen Bergbauerndorf)
Individum fehlerhafterweise in der Stichprobe (z.B.
andere Art)
Anthropogene Überprägung (das verlorene Geldstück
mit hohem Kupfergehalt.)
Stochastik und Statistik – p. 37/44
Q Q-Plots
−2
0
1
4.0
3.0
2.0
2
−2
0
1
2
Petal.Length
Petal.Width
0
1
2
Theoretical Quantiles
1.5
0.5
7
5
3
−2
2.5
Theoretical Quantiles
Sample Quantiles
Theoretical Quantiles
1
Sample Quantiles
Sepal.Width
Sample Quantiles
7.5
6.0
4.5
Sample Quantiles
Sepal.Length
−2
0
1
2
Theoretical Quantiles
Stochastik und Statistik – p. 38/44
Interpretation Q Q-Plot
Ungefähre Gerade ⇔ Verteilungsmodell passend
“Treppenstufen” ⇔ Bindungen (gleiche Werte)
“Gegen S” ⇔ Ausreißer? schwere
Verteilungsschwänze?
Stochastik und Statistik – p. 39/44
Exkurs: Bindungen
Definition: Von einer Bindung spricht man, wenn ein
Datenwert in einer stetigen Variable zwei oder mehrfach
auftritt.
Mögliche Ursachen:
Rundung
Ungenau Datenerhebung
Spezieller Wert hat positive Wahrscheinlichkeit
Variable nicht wirklich stetig
Manche statistische Verfahren verlieren an zunehmend an
Genauigkeit je mehr Bindungen auftreten.
Stochastik und Statistik – p. 40/44
Empirische Verteilungsfunktion
F̂ (x) = Anteil des Datensatzes ≤ x
0.0
5
6
7
8
2.0
3.0
4.0
x
Petal.Length
Petal.Width
0.4
0.0
0.0
0.4
Fn(x)
0.8
x
0.8
4
Fn(x)
0.4
Fn(x)
0.4
0.0
Fn(x)
0.8
Sepal.Width
0.8
Sepal.Length
1 2 3 4 5 6 7
x
0.0
1.0
2.0
x
Stochastik und Statistik – p. 41/44
Emprische Verteilungsfunktion
Quantile können leicht abgelesen werden.
Wahrscheinlichkeiten können leicht abgelesen werden.
Bindungen erzeugen hohe Sprünge (fast unsichtbar).
Sonst kann eigentlich nichts abgelesen werden.
Stochastik und Statistik – p. 42/44
Zusammenfassung zu stetigen Daten
Lage- und Streuparameter / quantitativ
Punktdiagramm (stapeln, verzittern) / Daten
Histogramm (Balken varieren) / Verteilungsform
Kastendiagramm / Ausreißer, Streung, Lage,
Symmetrie
Q Q-Plot / Vergleich mit Verteilung
Empirische Verteilungsfunktion / Quantile
Stochastik und Statistik – p. 43/44
Stochastik und Statistik – p. 44/44