Woche 5: Deskriptive Statistik

Werbung
Teil IV
Deskriptive Statistik
Woche 5: Deskriptive Statistik
WBL 15/17, 18.05.2015
Alain Hauser <[email protected]>
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Berner Fachhochschule, Technik und Informatik
Lernziele
2 / 31
Arbeitsschritte der Datenanalyse
Sie können. . .
I
. . . Kenngrössen von Stichproben berechnen, auf Papier und mit
R: arithmetisches Mittel, empirische Standardabweichung und
Varianz, Median, Quantile
I
. . . die empirische Korrelation zweier Grössen mit Hilfe
verschiedener Kennzahlen berechnen
I
. . . die Unterschide der empirischen Kenngrössen zu den
entsprechenden Kennzahlen bei Zufallsvariablen nennen
I
. . . Plots zeichnen und lesen, die eine numerische Stichprobe
visualisieren: Histogramm, Boxplot, empirische kumulative
Verteilungsfunktion, Dichtekurve
I
Modell generieren
Wahrscheinlichkeitsrechnung
Daten messen
Daten inspizieren
deskriptive Statistik
statistische Inferenz
schliessende Statistik
Interpretation
. . . Vor- und Nachteile der obenstehenden Plots benennen.
Vorlesung basiert auf Kapitel 4.3 des Skripts.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
3 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
4 / 31
Deskriptive und schliessende Statistik
Deskriptive Statistik
Von Modellen zu Daten
I
Bisher probabilistische Modelle betrachtet
I
Rest des Kurses: Analyse von Daten, die von realen System
erzeugt wurden
I
Im Folgenden nehmen wir an, x1 , x2 , . . . , xn seien n Messungen
“derselben Grösse”
I
Übliche Annahme: n unabhängige Messungen von gleicher
Wahrscheinlichkeitsverteilung
I
Formal:
Schliessende Statistik
I
Überblick über Datensätze
I
aus Daten Schlüsse ziehen
I
Verteilungen visualisieren
I
Parameter schätzen
I
auffällige Eigenschaften
finden
I
Hypothesen testen
I
Verteilungen mit wenigen
Kenngrössen beschreiben
i.i.d.
Modell: X1 , X2 , . . . , Xn ∼ FX (·) ,
Stichprobe: x1 , x2 , . . . , xn
i.i.d.: “independent and identically distributed”, unabhängig
und identisch verteilt
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
5 / 31
Kenngrössen für eine einzelne Stichprobe
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
6 / 31
Deskriptive Statistik für eine einzelne Stichprobe
I
empirische Varianz und Standardabweichung
I
I
empirischer Median
I
Messwerte x1 bis x1 8
empirische Quantile
I
MAO: Enzym, das vermutlich das
Verhalten beeinflusst, und dessen
Aktivität durch Schizophrenie
beeinträchtigt sein kann
MAO activity
10
Mittelwert
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5
I
Beispieldatensatz: Aktivitätsniveau
von Monoamine-Oxidase (MAO) in
18 Patienten mit einem gewissen
Typ Schizophrenie
15
●
I
●
●
(Quelle: Potkin et al. (1978))
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
7 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
8 / 31
●
Arithmetisches Mittel ist ein
konsistenter Schätzer für den
Erwartungswert µ = E [X ]:
I
Xi → µ wenn n → ∞
i=1
Arithmetisches Mittel ist
erwartungstreu (engl. “unbiased”):
●
●
I
R-Funktionen: var, sd
I
Empirische Varianz ist ein
konsistenter Schätzer für
σ 2 = Var(X ):
●
●
●
●
●
●
sx2
●
9 / 31
Empirischer Median
I
x
x − sx
●
●
Berechnung: Messwerte ordnen
x(1) ≤ x(2) ≤ . . . ≤ x(n) . Median:
mx
15
● ●
MAO activity
10
grösser (oder gleich) ist als die
Hälfte der Datenpunkte
kleiner (oder gleich) ist als die
andere Hälfte der Datenpunkte
(
x
,
m = 1((n+1)/2)
2 (x(n/2) + x(n/2+1) ),
●
●
●
●
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
●
falls n gerade ist,
sonst
5
I
●
10 / 31
Mittelwert und Median: Vergleich
Empirischer Median: Wert, der
I
→ σ wenn n → ∞
x + sx
●
E [sx2 ] = σ 2
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
●
●
●
●
●
●
●
●
2
Empirische Varianz ist
erwartungstreu:
I
●
E [X ] = µ
I
●
x
●
●
●
●
●
●
5
1
X =
n
MAO activity
10
R-Funktion: mean
I
15
i=1
I
n
X
Empirische Varianz:
n
1 X
2
sx =
(xi − x)2 (sx :
n−1
i=1
empirische Standardabweichung)
I
15
Arithmetisches Mittel:
n
x1 + . . . + xn
1X
x=
=
xi
n
n
5
I
Empirische Varianz
MAO activity
10
Mittelwert (arithmetisches Mittel)
●●
●●●● ●
●●
● ●●
mx
●●
●
● ●
●●
●●●● ●
●●
● ●●
●
●●
●
●
10
●
20
30
MAO activity
●
●
●
●
●
●
●
●
●
●
●
x
m
40
50
10
mx
● ●
●●
●●●● ●
●●
● ●●
20
30
MAO activity
40
50
mx
●
●●
● ●
●●
●●●● ●
●●
● ●●
●
●●
●
●
10
R-Funktion: median
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
20
30
MAO activity
40
50
10
20
30
MAO activity
40
50
Median ist robust, Mittelwert nicht!
11 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
12 / 31
Quantile
I
I
Verallgemeinerung des Konzepts des Medians
Empirisches α-Quantil: Wert qα , der
I
I
I
grösser (oder gleich) ist als α · n Messwerte, und
kleiner (oder gleich) ist als (1 − α) · n Messwerte
Berechnung:
I
I
I
Graphische Darstellungen einer einzelnen Stichprobe
Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n)
Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1) ;
ansonsten interpoliert qα zwischen x(bα(n−1)c+1) und
x(dα(n−1)e+1)
I
Histogramm
I
Boxplot
I
Empirische kumulative Verteilungsfunktion
I
später: Q-Q (Quantil-Quantil)-Plot
R-Funktion: quantile
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
13 / 31
Histogramm
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
14 / 31
Histogramm: Wahl der Intervall-Breite
Wie wählen wir die Intervall-Breite eines Histogramms?
5
10
15
MAO activity
20
Über Intervall (ck−1 , ck ]
hk
Dichte
n(ck − ck−1 )
einzeichnen (oder absolute
Häufigkeiten hk )
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
15 / 31
Density
0.06
0.12
0.00
Density
0.04 0.08
0.00
0
5
10
MAO activity
15
20
5
15 bins
10
15
MAO activity
20
30 bins
Density
0.10
0.20
0.00
I
Anzahl Messwerte in jedem
Intervall zählen:
hk := #{i|xi ∈ (ck−1 , ck ]}
Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1
8 bins
0.00
0.04
I
4 bins
Density
0.10
0.20
Density
0.08
0.12
Histogram of x
Bereich der gemessenen
Werte wird in Intervalle
(ck−1 , ck ] unterteilt
Bsp.: ck =
4, 6, 8, 10, 12, 14, 16, 18, 20
0.00
I
5
10
MAO activity
15
5
10
MAO activity
15
Herumspielen, oder R automatisch wählen lassen
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
16 / 31
Histogramm für bimodale Verteilung
RNA−Expression
Nichtparametrische Dichteschätzung
RNA−Expression
Density
0.10
I
I
0.00
0.00
I
0
2
4 6 8 10 12 14
Expressionsniveau
0
2
4
6
8 10
Expressionsniveau
12
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
17 / 31
Kerndichteschätzer
Gegeben: Messwerte x1 , x2 , . . . , xn
I
Kerndichteschätzer für Dichte der erzeugenden Verteilung ist
n
1 X
fˆ(x) =
K
nh
i=1
x − xi
h
;
K heisst Kern und kann eine beliebige, symmetrische
Wahrscheinlichkeitsdichte sein. Häufig verwendet:
I
Datenpunkte nicht in vordefiniertem Intervall zählen, sondern in
“sliding window”
Punkte in der Mitte des “sliding window” mehr Gewicht geben als
Punkte am Rand
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
18 / 31
Wahl der Bandbreite
I
I
Darstellungsqualität stark von Histogrammbreite abhängig
Sprünge der geschätzten Wahrscheinlichkeitsdichte an
Intervallgrenzen unrealistisch
Alternative: nichtparametrische Dichteschätzung
Verbesserungen ggü. Histogramm:
I
Achtung: schlecht gewählte Intervall-Breite kann Eigenschaften (hier:
Bimodalität) verschleiern!
I
Nachteile von Histogrammen
I
Density
0.10
0.20
0.20
I
I
Bandbreite h hat grossen Einfluss auf Kerndichteschätzer
I
Kleine Bandbreite lässt Schätzer stark oszillieren
I
Grosse Bandbreite flacht Schätzer ab
I
Automatische Bandbreitenwahl in R (Funktion density)
Rechteck-Kern: K ist Dichte der uniformen Verteilung auf
[− 21 , 21 ]; gibt allen Datenpunkten in [x − h, x + h] gleiches
Gewicht
Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt
Punkten, die weit von x entfernt sind, weniger Gewicht
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
19 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
20 / 31
Beispiel: Kerndichteschätzer für RNA-Expressionsdaten
Boxplot
RNA expression
●
●
●
●
●
●
●
●
●
●
●
●
●
0.05
Density
0.10 0.15
MAO activity
10
15
0.20
●
5
●
0.00
●
0
5
10
RNA exp. level
15
R-Funktion: boxplot
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
21 / 31
Boxplot
Vergleich: Histogramm, Kerndichteschätzer und Boxplot für
bimodale Stichprobe:
12
●
Expressionsniveau
4
6
8
10
0.15
0.25
Density
0.10
Density
0.15 0.20
●
0.05
2
0
2
4
6
8 10
Expressionsniveau
12
0
Ausreisser
RNA−Expression
0.20
RNA expression
0.00
Kleinster normaler Messwert
“Normale Messwerte”:
Messwerte, die nicht mehr
als 1.5 · IQR von den
Quartilen entfernt sind
RNA−Expression
0.10
Median
Unteres Quartil q0.25
Interquartilsabstand IQR
(“interquartile range”)
IQR = q0.75 − q0.25
0.05
Ausreisser
Grösster normaler Messwert
Oberes Quartil q0.75
◦
22 / 31
Boxplot für bimodale Stichproben
0.00
◦◦
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
0
5
10
RNA exp. level
15
Boxplot verschleiert Bimodalität vollständig!
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
23 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
24 / 31
Empirische kumulative Verteilungsfunktion
Verschiedene Darstellungen einer bimodalen Stichprobe
0.20
1.0
RNA−Expression
0.8
Fn(x)
0.4
0.6
0.15
Density
0.10
Density
0.15 0.20
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
0
25 / 31
Deskriptive Statistik für mehrere Messgrössen
2
4
6
8 10
Expressionsniveau
12
0.0
0.00
5
10
Expressionsniveau
0.2
0.05
0.10
0.05
0
0.00
0.0
#{k|xk ≤ x}
n
F̂ (x) =
RNA expression
0.25
0.8
Empirische kumulative
Verteilungsfunktion einer
Stichprobe x1 , x2 , . . . , xn :
Fn(x)
0.4
0.6
I
RNA−Expression
0.2
Zur Erinnerung: kumulative
Verteilungsfunktion einer
Zufallsvariablen X ist definiert als
FX = P[X ≤ x]
1.0
RNA−Expression
I
0
5
10
RNA exp. level
15
0
5
10
Expressionsniveau
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
26 / 31
Pearsons Korrelationskoeffizient I
Streudiagramm:
120
(Pearsons) Korrelationskoeffizient:
●
●
NO2 (µ g m3)
60
80
100
●
●
●
●
●
●
●
●
●
●●
sxy
i=1
●
● ●
●
●●
●
●
●
40
●
●
Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen
2 Stichproben {xi } and {yi }:
I
r = +1 falls yi = a + bxi für eine reelle Zahl b > 0
I
r = −1 falls yi = a + bxi für eine reelle Zahl b < 0
Achtung: verschiedene nichtlineare Abhängigkeiten können zum
selben Korrelationskoeffizienten führen!
In R:
●
●
sxy
∈ [−1, 1] ,
sx sy
n
1 X
=
(xi − x)(yi − y )
n−1
r=
> cor(no2$NO2, no2$Temp)
●
●
−5
0
Temp (°C)
5
[1] 0.6799612
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
27 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
28 / 31
Pearsons Korrelationskoeffizient II
1
0.8
0.4
0
Rangkorrelation
-0.4
-0.8
I
-1
(Spearsons) Rangkorrelationskoeffizient: Alternative zu
Pearsons Korrelationskoeffizient
I
1
1
1
-1
-1
-1
I
I
I
0
0
0
0
0
0
Berechnung:
I
0
I
I
Streudiagramme verschiedener simulierter Datensätze und ihr
Korrelationskoeffizient
I
In R:
[1] 0.6160592
29 / 31
Literatur
Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt.
Are paranoid schizophrenics biologically different from other schizophrenics?
New England Journal of Medicine, 298(2):61–66, 1978.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Ränge ki der Datenpunkte x1 , x2 , . . . , xn berechnen: kleinster
Messwert hat Rang 1, zweitkleinster Rang 2, etc.
Ränge li der Datenpunkt y1 , y2 , . . . , yn berechnen
Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons
Korrelationskoeffizient zwischen ki und li )
> cor(no2$NO2, no2$Temp, method = "spearman")
Quelle: http://de.wikipedia.org/wiki/Korrelationskoeffizient
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Misst, wie “monoton” Zusammenhang zwischen zwei Stichproben
ist
Misst auch nichtlineare Zusammenhänge
Robust gegen Ausreisser
31 / 31
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
30 / 31
Herunterladen