Datenanalyse und Statistik - K. Gerald van den Boogaart

Werbung
Datenanalyse und Statistik
Vorlesung 2 (Graphik I)
K.Gerald van den Boogaart
http://www.stat.boogaart.de
Datenanalyse und Statistik – p.1/44
Bayes-Land
Schätzung
Daten
Momentenmethoden u.
Lineare Modelle
ML-City
Vorhersagebereich
Mathe
Vertrauensbereich
Schätzervorstadt
Test
Statistika
Die Datenminen
Die unwegsamen
Ausreißerberge
ik
er
etr
ig d ram
Ste htpa
Nic
robuster
Weg
Normalviertel
Gl
gle etsch
Kl
ich er
en spa
un ippe
Me lte
Vo über der
ssw de
ra
p
r
ert r
us üf
set ba
e
r
zu
ng en
en
Riesige Halde mit
nichtrepräsentativen
Daten
t-Dorf
Modell-Platz
Rangviertel
Steppe der unwesentlich
verletzten Voraussetzungen
Kli
p
u
nü pe de
Aussichtsturm
ber r
V
ora
p
Grafingen
uss rüfb
etz are
un n
gen
Sequenzielle Passage
Todeswüste, der
nicht erfüllten
Voraussetzungen
Posthoc
Bonferroni
Passage
Benjamini
Passage
Nacht der angenommen
Hypothesen
Sümpfe des multiplen Testens
Schlaraffia oder das Land des gelungen statistischen Nachweis
Land des offenen Betrugs
Datenanalyse und Statistik – p.2/44
Einteilung der Graphiken und Parameter
Erste Variable
diskret
stetig
keine
?
?
zweite Variable diskret
?
?
stetig wie diskret-stetig
?
stetige Daten
diskrete Daten
stetig–stetig
diskret–diskret
diskret–stetig
Datenanalyse und Statistik – p.3/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Was kann man in der Graphik sehen?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Was kann man in der Graphik sehen?
Woran kann man es erkennen?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Was kann man in der Graphik sehen?
Woran kann man es erkennen?
Was übersieht man in der Graphik?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Lernziele
Zu jeder Graphik lernen wir:
Für welche Daten eignet sich die Graphik?
Wie ist die Graphik aufgebaut?
Was kann man in der Graphik sehen?
Woran kann man es erkennen?
Was übersieht man in der Graphik?
Für welche Fragestellungen eignet sich die Graphik?
Warum lernen wir das?
Datenanalyse und Statistik – p.4/44
Vorbereitung: Darstellung des Wertes durch die Lage
Datenanalyse und Statistik – p.5/44
10
5
0
Acorn.size
15
Streudiagramm
0
5
10
15
20
25
30
Tree.Height
Datenanalyse und Statistik – p.6/44
Graphiken für stetige Daten
Punktdiagramm (stapeln, verzittern)
Histogramm
Kastendiagramm / Boxplot
Q Q-Plots (Quantils-Quantils Plot)
(Empirische Verteilungsfunktion)
Datenanalyse und Statistik – p.7/44
Punktdiagramm
Punktdiagramm
0
5
10
15
gestapeltes Punktdiagramm
0
5
10
15
verzittertes Punktdiagramm
0
5
10
15
Datenanalyse und Statistik – p.8/44
Punktdiagramm
Vollständig bis auf Überdeckung
Verzittern und Stapeln
Was “sieht” man?
Datenanalyse und Statistik – p.9/44
Histogramm
10
5
0
Frequency
15
20
Histogram of Acorn.size
0
5
10
15
Acorn.size
Datenanalyse und Statistik – p.10/44
Histogramm
10
5
0
Frequency
15
20
Histogram of Acorn.size
0
5
10
15
Acorn.size
mit Erklaerung
Datenanalyse und Statistik – p.11/44
Histogramm
0.15
0.10
0.05
0.00
Density
0.20
0.25
Histogram of Acorn.size
0
5
10
15
Acorn.size
als Dichteschaetzung
Datenanalyse und Statistik – p.12/44
Histogramm
Stellt Anzahl von Datenpunkten im Intervall dar.
Stellt die Dichte (Datenpunkte pro Punkt und
Einheitslänge) der Punkte dar.
Balkenhöhe ist zufällig.
Variation von Balkenanfang und Balkenanzahl führt zu
verschiedenen Eindrücken.
Zu kleine Balken ⇒ “Zufallsflimmer”
Zu große Balken ⇒ Information zu sehr
zusammengefaßt.
Extreme Ausreißer eventuell am linken oder rechten
Rand erkennbar.
Datenanalyse und Statistik – p.13/44
Einfluß des Balkenanfangs
5
10
15
20
0
5
10
15
20
0
5
10
15
20
Acorn.size
Acorn.size
Histogram of Acorn.size
Histogram of Acorn.size
Histogram of Acorn.size
5
10
Acorn.size
15
20
0.20
0.15
0.05
0.00
0.00
0
0.10
Density
0.10
0.05
0.05
Density
0.10
0.15
0.15
0.20
Acorn.size
0.00
−5
0.10
0.00
0.00
0
0.05
Density
0.15
Density
0.05
0.10
0.20
0.15
0.10
0.00
0.05
Density
−5
Density
Histogram of Acorn.size
0.15
Histogram of Acorn.size
0.20
Histogram of Acorn.size
0
5
10
Acorn.size
15
20
0
5
10
15
20
Acorn.size
Datenanalyse und Statistik – p.14/44
Beschreibung der
Verteilungsform
und
Normalverteilung als
Referenzverteilung
Datenanalyse und Statistik – p.15/44
Normalverteilung
−4
0
2
4
−3 −1
rnorm(10000)
1
150
0
Frequency
0 100
Frequency
1500
0
Frequency
Histogram of rnorm(10000)
Histogram of rnorm(1000)Histogram of rnorm(1000)
3
−3
rnorm(1000)
−1
1
3
rnorm(1000)
−4
0
2
4
−2
rnorm(100)
0
1
15
0
Frequency
15
0
Frequency
20
0
Frequency
Histogram of rnorm(100) Histogram of rnorm(100) Histogram of rnorm(100)
2
−2
rnorm(100)
0 1 2
rnorm(100)
−2
0
1
rnorm(20)
2
−1 0
1
rnorm(20)
2
0 2 4
Frequency
4
2
0
Frequency
6
3
0
Frequency
Histogram of rnorm(20) Histogram of rnorm(20) Histogram of rnorm(20)
−2
0
1
2
rnorm(20)
Datenanalyse und Statistik – p.16/44
Dichte der Normalverteilung
0.4
0.5
Histogramm und Dichte
einer Normalverteilung
0.3
e
2σ
0.1
0.2
2πσ
2
(x−µ)2
− 2
0.0
Density
f(x) =
1
−4
−2
0
2
4
rnorm(100)
Datenanalyse und Statistik – p.17/44
Verteilungseigenschaften
4
rnorm(1000, mean = 3)
2
4
300
8
2 3 4 5 6
linksschief,
eingeschraenkt
150
0
Frequency
300
Frequency
0
2
6
rlnorm(1000, meanc(rnorm(1000,
= log(3), sd = mean
0.3) = 3, sd = 0.4), rnorm(500, mean = 5, sd = 0.4))
multimodal
0
4
0
300
0
6
6
Gleichverteilung
auf [0,1]
0.4
0.7
0 300
2
Frequency
0
zweigipflig/bimodal
Frequency
rechtsschief
Frequency
150
0
Frequency
symmetrisch
eingipflig
1.0
0.0
10, 2)
c(rnorm(1000, 3, 0.3), rnorm(500, 5, 0.3), rnorm(1000, 1,rbeta(1000,
0.3))
−100
0 50
rcauchy(1000)
5 10
20
c(rnorm(100, mean = 3), 20)
60
rechtsschief
monoton fallend
unten beschraenkt
0
Frequency
15
0
0.8
rbeta(10000, 1, 1)
Ausreisser
0
Frequency
150
0
Frequency
Schwere
Verteilungsschwaenze
0.4
0
2
4
6
rexp(300)
Datenanalyse und Statistik – p.18/44
Kenngrößen und Parameter
Lage
Streuung
Form
Verteilung
Kenngrößen und Parameter sind konventionelle Zusammenfassungen der Daten in einzelne Zahlen, die jeweils einen
bestimmten Aspekt quantiativ erfassen.
Datenanalyse und Statistik – p.19/44
Lageparameter
Lage
Mittelwert (geometrisch und arithmetisch)
Median
Modus
Quantile (Quartile, Dezentile)
Streuung
Form
Verteilung
Datenanalyse und Statistik – p.20/44
(arithmetischer) Mittelwert
n
X
1
1
x̄ =
xi = (x1 + x2 + . . . + xn )
n
n
i=1
> mean(iris$Sepal.Length)
[1] 5.843333
Datenanalyse und Statistik – p.21/44
Mittelwert
2
4
6
8
25
10
0
2
4
6
8
10
Histogram of Petal.Length
Histogram of Petal.Width
0
10
Frequency
25
Sepal.Width
30
Sepal.Length
0 10
Frequency
0
0 10
Frequency
10 20 30
Histogram of Sepal.Width
0
Frequency
Histogram of Sepal.Length
0
2
4
6
8
Petal.Length
10
0
2
4
6
8
10
Petal.Width
Datenanalyse und Statistik – p.22/44
(geometrischer) Mittelwert
Für die ratio-Skala gibt es noch den geometrischen
Mittelwert
v
u n
uY
1
n
t
n
xi = (x1 x2 · · · xn )
x̄ =
i=1
> exp(mean(log(iris$Sepal.Length)))
[1] 5.78572
Datenanalyse und Statistik – p.23/44
Median
Der Median ist der mittlere Wert:
> median(c(4, 5, 1, 3, 6, 7, 8))
[1] 5
> median(c(4, 1, 3, 6, 7, 8))
[1] 5
> median(iris$Sepal.Length)
[1] 5.8
> sapply(iris[, 1:4], median)
Sepal.Length
5.80
Sepal.Width Petal.Length
3.00
4.35
Petal.Width
1.30
Datenanalyse und Statistik – p.24/44
Modus
Der
Modus
den
Bereich
oder
mit
Modalwert
bezeichnet
größten
Punktdichte.
der
4
5
6
7
iris$Sepal.Length
8
30
0 10
Frequency
10 20 30
0
Frequency
Histogram of iris$Sepal.Length Histogram of iris$Petal.Length
1
2
3
4
5
6
7
iris$Petal.Length
Datenanalyse und Statistik – p.25/44
Quantile
Das (empirische) p-Quantil q̂p ist der Wert für den der Anteil
p des sortierten Datensatzes kleiner ist.
4.0
3.5
3.0
Beobachtungswert, Quantil
Quantile
0.0
0.2
0.4
0.6
0.8
1.0
Anteil kleiner, p
Datenanalyse und Statistik – p.26/44
Spezielle Quantile
1
2 -Quantil ist der Median
1
4 -Quantil heißt auch erstes Quartil
3
4 -Quantil heißt auch drittes Quartil
n
10 -Quantil heißt auch n-tes Dezentil
0-Quantil heißt auch Minimum (sehr zufällig!!!)
1-Quantil heißt auch Maximum (sehr zufällig!!!)
Datenanalyse und Statistik – p.27/44
Streuparameter
Lage
Streuung
Varianz
Standardabweichung
IQR
Variationkoeffizient
geometrische Standardabweichung
Form
Verteilung
Datenanalyse und Statistik – p.28/44
Streuparameter für die relle Skala
Varianz
1
vd
ar(X) =
n−1
n
X
(Xi − X̄)2
i=1
Datenanalyse und Statistik – p.29/44
Streuparameter für die relle Skala
Varianz
1
vd
ar(X) =
n−1
n
X
(Xi − X̄)2
i=1
Standardabweichung
p
b
sd(X)
= vd
ar(X)
Datenanalyse und Statistik – p.29/44
Streuparameter für die relle Skala
Varianz
1
vd
ar(X) =
n−1
n
X
(Xi − X̄)2
i=1
Standardabweichung
p
b
sd(X)
= vd
ar(X)
Interquartilsabstand
d
IQR(X)
= q0.75 − q0.25
Datenanalyse und Statistik – p.29/44
2
4
6
30
8
0
2
4
6
8
robust:
mean= 5.84 sd= 0.83
robust:
mean= 4.85 sd= 0.92
2
4
x
6
8
0 10
Frequency
0
30
x
10 20 30
x
0
Frequency
0
0 10
Frequency
10 20 30
classical
mean= 3.76 sd= 1.77
0
Frequency
classical
mean= 5.84 sd= 0.83
0
2
4
6
8
x
Datenanalyse und Statistik – p.30/44
Streuparameter für die ratio Skala
Variationskoeffizient
b
sd(X)
vb(X) =
x̄
Datenanalyse und Statistik – p.31/44
Streuparameter für die ratio Skala
Variationskoeffizient
b
sd(X)
vb(X) =
x̄
Standardabweichung des Logarithmus
b
sd(ln(X))
Datenanalyse und Statistik – p.31/44
Streuparameter für die ratio Skala
Variationskoeffizient
b
sd(X)
vb(X) =
x̄
Standardabweichung des Logarithmus
b
sd(ln(X))
Geometrische Standardabweichung
b
exp(sd(ln(X)))
Datenanalyse und Statistik – p.31/44
Blick mit der Ratioskala
2
4
6
30
8
0
2
4
6
8
classical
geom. mean= 3.03 gsd= 1.15
classical
geom. mean= 0.84 gsd= 2.67
0
10
25
25
x
Frequency
x
0 10
Frequency
0
classical
geom. mean= 3.24 gsd= 1.8
0 10
Frequency
10 20 30
0
Frequency
classical
geom. mean= 5.79 gsd= 1.15
0
2
4
x
6
8
0
2
4
6
8
x
Datenanalyse und Statistik – p.32/44
Weitere Parameter
Lage
Streuung
Form
Schiefe
Wölbung
...
Verteilung
Hängt vom Verteilungsmodell ab.
Datenanalyse und Statistik – p.33/44
Kastendiagramm/Boxplot
Dotplot Boxplot
Erklärung zum Boxplot
einzelner Ausreißer
18,2
obere Ausreißergrenze
oberster Nichtausreißer
18,1
Obere Hälfte
der Daten
1,5xIQR
4. Viertel der Daten
3.Quartil
18,0
IQR
17,9
Untere Hälfte
der Daten
3. Viertel der Daten
Mittlere Hälfte Median
der Daten
2. Viertel der Daten
1.Quartil
1. Viertel der Daten
1,5xIQR
17,8
unterster Nichtausreißer
untere Ausreißergrenze
Datenanalyse und Statistik – p.34/44
Kastendiagramme
0
2
4
6
8
Boxplots der reellen Variablen des Iris Datensatzes
Sepal.Length
Petal.Length
Datenanalyse und Statistik – p.35/44
Interpretation
Ausreißer
Stichprobenlage / Median
Stichprobenstreuung / IQR
Symmetrie und Schiefe der Verteilung
eventuell extreme Werthäufungen
Datenanalyse und Statistik – p.36/44
Exkurs: Ausreißer
Definition: Ein Ausreißer ist ein Datenpunkt der einen
“ungewöhnlich” extremen Wert hat.
Mögliche Ursachen:
Zufall (Es gibt halt extreme Werte)
Schwere Verteilungsschwänze (Ausreißer hier typisch)
Datenfehler oder Übermittlungsfehler
Untypischer Spezialfall (der Millionär mit Zweitwohnsitz
im armen Bergbauerndorf)
Individum fehlerhafterweise in der Stichprobe (z.B.
andere Art)
Anthropogene Überprägung (das verlorene Geldstück
mit hohem Kupfergehalt.)
Datenanalyse und Statistik – p.37/44
Q Q-Plots
−2
0
1
4.0
3.0
2.0
2
−2
0
1
2
Petal.Length
Petal.Width
0
1
2
Theoretical Quantiles
1.5
0.5
7
5
3
−2
2.5
Theoretical Quantiles
Sample Quantiles
Theoretical Quantiles
1
Sample Quantiles
Sepal.Width
Sample Quantiles
7.5
6.0
4.5
Sample Quantiles
Sepal.Length
−2
0
1
2
Theoretical Quantiles
Datenanalyse und Statistik – p.38/44
Interpretation Q Q-Plot
Ungefähre Gerade ⇔ Verteilungsmodell passend
“Treppenstufen” ⇔ Bindungen (gleiche Werte)
“Gegen S” ⇔ Ausreißer? schwere
Verteilungsschwänze?
Datenanalyse und Statistik – p.39/44
Exkurs: Bindungen
Definition: Von einer Bindung spricht man, wenn ein
Datenwert in einer stetigen Variable zwei oder mehrfach
auftritt.
Mögliche Ursachen:
Rundung
Ungenau Datenerhebung
Spezieller Wert hat positive Wahrscheinlichkeit
Variable nicht wirklich stetig
Manche statistische Verfahren verlieren an zunehmend an
Genauigkeit je mehr Bindungen auftreten.
Datenanalyse und Statistik – p.40/44
Empirische Verteilungsfunktion
F̂ (x) = Anteil des Datensatzes ≤ x
0.0
5
6
7
8
2.0
3.0
4.0
x
Petal.Length
Petal.Width
0.4
0.0
0.0
0.4
Fn(x)
0.8
x
0.8
4
Fn(x)
0.4
Fn(x)
0.4
0.0
Fn(x)
0.8
Sepal.Width
0.8
Sepal.Length
1 2 3 4 5 6 7
0.0
1.0
2.0
Datenanalyse und Statistik – p.41/44
x
x
Emprische Verteilungsfunktion
Quantile können leicht abgelesen werden.
Wahrscheinlichkeiten können leicht abgelesen werden.
Bindungen erzeugen hohe Sprünge (fast unsichtbar).
Sonst kann eigentlich nichts abgelesen werden.
Datenanalyse und Statistik – p.42/44
Zusammenfassung zu stetigen Daten
Lage- und Streuparameter / quantitativ
Punktdiagramm (stapeln, verzittern) / Daten
Histogramm (Balken varieren) / Verteilungsform
Kastendiagramm / Ausreißer, Streung, Lage,
Symmetrie
Q Q-Plot / Vergleich mit Verteilung
Empirische Verteilungsfunktion / Quantile
Datenanalyse und Statistik – p.43/44
Datenanalyse und Statistik – p.44/44
Herunterladen