2. Deskriptive Statistik

Werbung
2. Deskriptive Statistik
Hajo Holzmann
Philipps-Universitat Marburg
2.1 Stichproben und Datentypen
Untersuchungseinheiten: mogliche, statistisch zu erfassende
Einheiten
je Untersuchungseinheit: ein oder mehrere Merkmale oder
Variablen beobachten
mogliche Werte eines Merkmals: Merkmalsauspragungen
Untersuchungseinheit
Merkmal
Baum
Baumart
Merkmalauspr
agungen
Eiche, Buche, . . .
arbeitslose Person
Schulabschluss
keiner, Hauptschule,
Person
Familienstand
ledig, verheiratet, geschieden, . . .
Realschule, Gymnasium
Hajo Holzmann
2. Deskriptive Statistik
2.1 Stichproben und Datentypen
Untersuchungseinheiten: mogliche, statistisch zu erfassende
Einheiten
je Untersuchungseinheit: ein oder mehrere Merkmale oder
Variablen beobachten
mogliche Werte eines Merkmals: Merkmalsauspragungen
Untersuchungseinheit
Merkmal
Baum
Baumart
Merkmalauspr
agungen
Eiche, Buche, . . .
arbeitslose Person
Schulabschluss
keiner, Hauptschule,
Person
Familienstand
ledig, verheiratet, geschieden, . . .
Realschule, Gymnasium
Hajo Holzmann
2. Deskriptive Statistik
Stichproben
Grundgesamtheit = Menge der moglichen Untersuchungseinheiten
Stichprobe = zufallig gewonnene, endliche Teilmenge der
Grundgesamtheit
Stichprobenumfang = Anzahl der erhobenen Daten
Hajo Holzmann
2. Deskriptive Statistik
Datentypen
fur jedes Datum welche
Kategorie, z.B. Autotypen, Baumart, Nationalitat
Kategorielle (oder nominale) Daten
kategorielle Daten mit geordneten Kategorien,
z.B. Noten, Erdbebenstarke auf Richter Skala
Ordinale Daten
oder diskrete Daten: Zahlen bestimmter Merkmale ,
z.B. Anzahl mit Geigerzahler registrierten Zerfalle einer Probe,
Z
ahldaten
konnen in Wertebereich {
zumindest theoretisch { jeden beliebigen Zahlenwert
annehmen, z.B. Groe, Alter, Lange.
Stetige (oder kontinuierliche) Daten
qualitative Daten:
kategorielle und ordinale Daten
quantitative oder metrische Daten: Zahldaten und stetige Daten.
Hajo Holzmann
2. Deskriptive Statistik
Datentypen
fur jedes Datum welche
Kategorie, z.B. Autotypen, Baumart, Nationalitat
Kategorielle (oder nominale) Daten
kategorielle Daten mit geordneten Kategorien,
z.B. Noten, Erdbebenstarke auf Richter Skala
Ordinale Daten
oder diskrete Daten: Zahlen bestimmter Merkmale ,
z.B. Anzahl mit Geigerzahler registrierten Zerfalle einer Probe,
Z
ahldaten
konnen in Wertebereich {
zumindest theoretisch { jeden beliebigen Zahlenwert
annehmen, z.B. Groe, Alter, Lange.
Stetige (oder kontinuierliche) Daten
qualitative Daten:
kategorielle und ordinale Daten
quantitative oder metrische Daten: Zahldaten und stetige Daten.
Hajo Holzmann
2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute Haugkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erwahnen, in die keine Daten fallen.
relative Haugkeiten: Anteil der Daten in jeder Kategorie
! absolute Haugkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute Haugkeiten als
Balkendiagramme:
Stapeldiagramm:
nach
einzelne Balken
ubereinander in einem Balken der Groe
Tortendiagramme bzw. Kreisdiagramm:
Tortensegmente
Hajo Holzmann
als Kreis /
2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute Haugkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erwahnen, in die keine Daten fallen.
relative Haugkeiten: Anteil der Daten in jeder Kategorie
! absolute Haugkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute Haugkeiten als
Balkendiagramme:
Stapeldiagramm:
nach
einzelne Balken
ubereinander in einem Balken der Groe
Tortendiagramme bzw. Kreisdiagramm:
Tortensegmente
Hajo Holzmann
als Kreis /
2. Deskriptive Statistik
2.2 Beschreibung kategorieller Daten
absolute Haugkeiten: Wieviele Daten in jeder Kategorie
! auch Kategorien erwahnen, in die keine Daten fallen.
relative Haugkeiten: Anteil der Daten in jeder Kategorie
! absolute Haugkeiten / Stichprobenumfang.
stets zusammen mit Stichprobenumfang angeben.
Visualisierung: relative / absolute Haugkeiten als
Balkendiagramme:
Stapeldiagramm:
nach
einzelne Balken
ubereinander in einem Balken der Groe
Tortendiagramme bzw. Kreisdiagramm:
Tortensegmente
Hajo Holzmann
als Kreis /
2. Deskriptive Statistik
Visualisierung (Wahlergebnisse)
Stapeldiagramm (rel. Häufigkeit)
Pie Chart (rel. Häufigkeit)
1.0
Barplot (rel. Häufigkeit)
CDU
0.25
SPD
FDP
DIELINKE
GRÜNE
CSU
Sonstige
Relative Häufigkeit
0.15
DIELINKE
FDP
0.4
0.2
0.10
0.05
0.0
Sonstige
PIRATEN
CSU
GRÜNE
DIELINKE
FDP
SPD
GRÜNE
CSU
PIRATEN
Sonstige
SPD
0.00
Relative Häufigkeit
0.6
0.20
0.8
PIRATEN
CDU
Partei
Hajo Holzmann
2. Deskriptive Statistik
CDU
Visualisierung (Simpson Paradoxon)
1.2e+09
0.4
Fraction of Income paid as Taxes in the USA
1974
Income 1974
1978
Taxes Paid 1974
Taxes Paid 1978
0.0
0.0e+00
2.0e+08
0.1
4.0e+08
0.2
6.0e+08
8.0e+08
0.3
1.0e+09
Income 1978
<5.000$
5.000−9.999$
10.000−14.999$
15.000−99.999$
>100.000$
Total
<5.000$
5.000−9.999$
Income Group
10.000−14.999$
15.000−99.999$
Income Group
Hajo Holzmann
2. Deskriptive Statistik
>100.000$
Total
2.3 Zusammenfassung numerischer Daten
Lagemae: Wo (auf der reellen Achse) benden sich die Daten?
Streumae: Wie weit
streuen
die Daten um ein Lagema?
Weiter:
Mae fur Schiefe: Sind die Daten symmetrisch um ihr Lagema?
Mae fur heavy tails: Gibt es viele Daten, die besonders weit vom
Lagema entfernt liegen?
Hajo Holzmann
2. Deskriptive Statistik
2.3 Zusammenfassung numerischer Daten
Lagemae: Wo (auf der reellen Achse) benden sich die Daten?
Streumae: Wie weit
streuen
die Daten um ein Lagema?
Weiter:
Mae fur Schiefe: Sind die Daten symmetrisch um ihr Lagema?
Mae fur heavy tails: Gibt es viele Daten, die besonders weit vom
Lagema entfernt liegen?
Hajo Holzmann
2. Deskriptive Statistik
Lagemae: Mittelwert
Mittelwert: arithmetisches Mittel der Daten.
Daten
x1
;:::;x
n
2 R, dann
1X
n
x
=
n
i
=
xi
x1
+ + x
=1
gewichtetes Mittel: Gewicht
gi
n
n
;
> 0 fur Beobachtung x , dann
i
Pn
g i xi
g x +
Pi =1
= 1 1
n
gi
i =1
Hajo Holzmann
g1
+ g x ;
+ + g
n
n
n
2. Deskriptive Statistik
Lagemae: Mittelwert
Mittelwert: arithmetisches Mittel der Daten.
Daten
x1
;:::;x
n
2 R, dann
1X
n
x
=
n
i
=
xi
x1
+ + x
=1
gewichtetes Mittel: Gewicht
gi
n
n
;
> 0 fur Beobachtung x , dann
i
Pn
g i xi
g x +
Pi =1
= 1 1
n
gi
i =1
Hajo Holzmann
g1
+ g x ;
+ + g
n
n
n
2. Deskriptive Statistik
Lagemae: Median
Ordnungsstatistiken: geordneten Werte
kleinste, x( ) grote Wert.
x(1)
::: x
(n )
, d.h.
x(1)
n
Median (lat.
medius:
med(x ) =
der mittlere) einfachste Lagema.
8
>
>x( n+1
>
< 2 )
>
x n + x n +1
>
>
(2 )
: (2)
2
fur
n
ungerade
fur
n
gerade,
! mindestens 50% der Daten und 50% der Daten med(x ).
Hajo Holzmann
2. Deskriptive Statistik
Streumae: Standardabweichung
x
= (x1 ; : : : ; x ) beobachtete Daten.
n
Varianz:
var(x ) =
1
n
n
X
1
(x
i
i
x
)
2
(x1
=
x
)2
=1
Standardabweichung (engl.
+ + (x
n
1
standard deviation)
sd(x ) =
Hajo Holzmann
p
var(x ):
2. Deskriptive Statistik
n
x
)2
Variationskoezient
Variationskoezienten: relative Schwankung im Verhaltnis zu
ihrem Mittelwert
sd(x )
jxj
Bsp.: Energieumsatzrate
Hajo Holzmann
2. Deskriptive Statistik
Interquartilsabstand
Quantile: fur 0 < < 1
q (x )
=
8
>
<
>
:
x([n+1])
1
2
x(n)
falls n keine ganze Zahl ist,
;
+ x( +1) ;
n
falls n eine ganze Zahl ist.
! mindestens 100% der Daten q(x )
und (1 ) 100% der Daten q (x ).
unteres Quartil:
oberes Quartil:
q0;25 (x ),
q0;75 (x ),
Interquartilsabstand
IQR(x ) = q0;75 (x )
Hajo Holzmann
:
q0;25 (x )
2. Deskriptive Statistik
Interquartilsabstand
Quantile: fur 0 < < 1
q (x )
=
8
>
<
>
:
x([n+1])
1
2
x(n)
falls n keine ganze Zahl ist,
;
+ x( +1) ;
n
falls n eine ganze Zahl ist.
! mindestens 100% der Daten q(x )
und (1 ) 100% der Daten q (x ).
unteres Quartil:
oberes Quartil:
q0;25 (x ),
q0;75 (x ),
Interquartilsabstand
IQR(x ) = q0;75 (x )
Hajo Holzmann
:
q0;25 (x )
2. Deskriptive Statistik
Ma fur Schiefe
Schiefe (engl.: skewness) von
x1
;:::;x :
n
1X
n
skew(x ) =
n
i
=1
xi
x
sd(x )
3
:
! kennzeichnet Abweichung von symmetrischer Lage um x.
Ist skew(x ) < 0 : linksschief
Ist skew(x ) > 0 : rechtsschief.
Hajo Holzmann
2. Deskriptive Statistik
Ma fur Schiefe
Schiefe (engl.: skewness) von
x1
;:::;x :
n
1X
n
skew(x ) =
n
i
=1
xi
x
sd(x )
3
:
! kennzeichnet Abweichung von symmetrischer Lage um x.
Ist skew(x ) < 0 : linksschief
Ist skew(x ) > 0 : rechtsschief.
Hajo Holzmann
2. Deskriptive Statistik
Verteilungsschwanze (heavy tails)
Kurtosis von
x1
;:::;x :
n
1X
n
kurtosis(x ) =
n
i
=1
xi
x
4
sd(x )
3:
! kennzeichnet Abweichung von Verteilungsschwanzen der
Normalverteilung.
Ist kurtosis(x ) < 0 : low tails
Ist kurtosis(x ) > 0 : heavy tails.
im Vergleich zur Normalverteilung.
Hajo Holzmann
2. Deskriptive Statistik
Verteilungsschwanze (heavy tails)
Kurtosis von
x1
;:::;x :
n
1X
n
kurtosis(x ) =
n
i
=1
xi
x
4
sd(x )
3:
! kennzeichnet Abweichung von Verteilungsschwanzen der
Normalverteilung.
Ist kurtosis(x ) < 0 : low tails
Ist kurtosis(x ) > 0 : heavy tails.
im Vergleich zur Normalverteilung.
Hajo Holzmann
2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen
q0:25
und
q0:75 ,
darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erganzend zu Histogramm,
Plotte Daten als Striche auf x -Achse
Hajo Holzmann
2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen
q0:25
und
q0:75 ,
darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erganzend zu Histogramm,
Plotte Daten als Striche auf x -Achse
Hajo Holzmann
2. Deskriptive Statistik
Graphische Darstellung numerischer Daten
Boxplot
Graphische Darstellung der 5 Zahlen Median, unteres und
oberes Quartil, Max. und Min.
Box. zwischen
q0:25
und
q0:75 ,
darin Median als Strich
Striche (engl. Whiskers) bis Max. und Min.
Histogramm
Unterteilung des Wertebereichs in disjunkte Intervalle,
Plotte Rechtecke auf Intervalle, Hohe: Anzahl (Anteil) Daten
in dem Intervall
Rug-Plot
Erganzend zu Histogramm,
Plotte Daten als Striche auf x -Achse
Hajo Holzmann
2. Deskriptive Statistik
2.4 Transformationen: Linear
lineare Transformationen: Fur a; b 2 R; a 6= 0,
f (xi )
= ax + b;
= 1; : : : ; n:
i
i
Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.
Standardisierung.
f (xi )
=
Hajo Holzmann
xi
x
sd x
:
2. Deskriptive Statistik
2.4 Transformationen: Linear
lineare Transformationen: Fur a; b 2 R; a 6= 0,
f (xi )
= ax + b;
= 1; : : : ; n:
i
i
Bsp.: Grad Celsius in Grad Kelvin, Euro in Dollar.
Standardisierung.
f (xi )
=
Hajo Holzmann
xi
x
sd x
:
2. Deskriptive Statistik
Logarithmus und Potenzen
Transformation positiver Daten
xi
> 0.
Logarithmieren: f (x ) = log(x ).
i
i
! rechtsschiefe Daten symmetrisch machen.
Allgemeiner: Box-Cox-Transformationen fur > 0:
f (xi )
=
xi
1
;
! 0: erhalte Logarithmus.
< < 1: rechtsschiefe Daten symmetrisch machen.
f
ur 1 < : linksschiefe Daten symmetrisch machen.
f
ur
f
ur 0
Hajo Holzmann
2. Deskriptive Statistik
Logarithmus und Potenzen
Transformation positiver Daten
xi
> 0.
Logarithmieren: f (x ) = log(x ).
i
i
! rechtsschiefe Daten symmetrisch machen.
Allgemeiner: Box-Cox-Transformationen fur > 0:
f (xi )
=
xi
1
;
! 0: erhalte Logarithmus.
< < 1: rechtsschiefe Daten symmetrisch machen.
f
ur 1 < : linksschiefe Daten symmetrisch machen.
f
ur
f
ur 0
Hajo Holzmann
2. Deskriptive Statistik
Visualisierung (Deutschland Daten)
Boxplot of BIP 1992
140
Histogram of BIP 1992
40000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
30000
80
20000
60
0
10000
20
40
Frequency
100
120
50000
●
10000
20000
30000
40000
50000
BIP92
Histogram of log(BIP 1992)
Boxplot of log(BIP 1992)
4.4
4.2
60
4.0
40
3.8
20
0
Frequency
80
4.6
100
●
3.8
4.0
4.2
4.4
4.6
4.8
lBIP92
Hajo Holzmann
2. Deskriptive Statistik
Herunterladen