Statistik 1 für SoziologInnen Allgemeine Einführung

Werbung
Datenanalyse und Statistik
3. Deskriptive Maßzahlen
Marcus Hudec
Beschreibung quantitativer Daten

Um die empirische Verteilung eines quantitativen Merkmals zu beschreiben,
betrachten wir Parameter, die eine Verdichtung der Information des
Datensatzes bzw. seiner Verteilung ermöglichen.
Die wichtigsten Parameter sind die sog. Lageparameter, die das absolute
Niveau (die Größenordnung) der Daten beschreiben sowie die
Streuungsparameter, die messen, wie sehr die einzelnen Beobachtungen
um das Zentrum konzentrieren

Lagemaße

Allgemeine Lagemaße:
Minimum, Maximum, Quantile
Zentrale Lagemaße:
Arithmetisches Mittel, Median, (Modalwert)
Streuungsmaße

Spannweite, Quartilsabstand, Gini-Koeffizient
Varianz, Standardabweichung,Variationskoeffizient
2
Einführende Statistik - Deskriptive Maßzahlen
Lagemaßzahlen (1)
Statistische Maßzahlen, welche die absolute
Lage der Verteilung beschreiben
Minimum
Der kleinste Wert eines quantitativen Merkmals
min(x1,…,xn)
Maximum
Der größte Wert eines quantitativen Merkmals
max(x1,…,xn)
Quantile
Wert einer quantitativen Variablen, welcher die geordneten Daten in
Gruppen unterteilt, so dass ein bestimmter Prozentsatz darüber und ein
bestimmter Prozentsatz darunter liegt (siehe Kapitel 2)
3
Einführende Statistik - Deskriptive Maßzahlen
Zentrale Lagemaßzahlen (1)
Arithmetisches Mittel (mean)
Mittelwert; Summe der Werte aller Beobachtungen
(Merkmalssumme) geteilt durch die Anzahl der
Beobachtungen(Fälle)
n
1
x = ∑ xi
n i =1
Modalwert
Der am häufigsten auftretende Wert. Nur
relevant bei uni-modalen Verteilungen bzw.
bei diskreten Daten
4
Einführende Statistik - Deskriptive Maßzahlen
Zentrale Lagemaßzahlen (2)
Median
Der Median oder Zentralwert eines (zumindest ordinalskalierten) Merkmals ist der Wert jener Beobachtung, die
in der nach diesem Merkmal geordneten Gesamtheit „in
der Mitte“ zu liegen kommt.
x

(( n+1) / 2 )
~x = 
0,5
1
(
)
x
+
x
(
)
(
(
)
)
n
/
2
n
+
2
/
2
2

, n ungerade
, n gerade
x(i) sind die geordneten Beobachtungen
5
Einführende Statistik - Deskriptive Maßzahlen
Mittelwert oder Median?
Das arithmetische Mittel reagiert sehr sensibel auf
einzelne Extremwerte
Der Median erweist sich gegenüber extremen
Beobachtungen als relativ robust
Eine statistische Methode ist robust, wenn sie auch bei
Vorliegen fehlerbehafteter Daten vernünftige Ergebnisse
liefert
Robustheit muss man in der Regel durch Einbußen bei
der Präzision erkaufen




6
Einführende Statistik - Deskriptive Maßzahlen
Beispiel
n=5 Beobachtungen
7, 5, 4, 8, 6
Summe = 30
 arith. Mittel = 6
Geordneten
Beobachtungen:
4, 5, 6, 7, 8
Median=6






7






n=5 Beobachtungen
7, 5, 4, 80, 6
Summe = 102
 arith. Mittel = 20,4
Geordneten
Beobachtungen:
4, 5, 6, 7, 80
Median=6
Einführende Statistik - Deskriptive Maßzahlen
Beispiel mit R: Bundesliga 2014
8
Einführende Statistik - Deskriptive Maßzahlen
Visualisierung der Situation
0.06
0.07
Verteilung erzielte Tore
Ein Verein (RB Salzburg) mit
einer großen Anzahl
geschossener Tore zieht das
arithmetisches Mittel deutlich
nach oben, während der Median
deutlich geringer ist.
0.00
0.01
0.02
0.03
Density
0.04
0.05
Median = 42
Mean = 47.5
40
60
80
100
Erzielte Tore
9
Einführende Statistik - Deskriptive Maßzahlen
Visualisierung ohne RB Salzburg
Durch die Elimination der extrem
großen Anzahl geschossener Tore
von RB Salzburg wird das Bild der
Verteilung deutlich symmetrischer
und das arithmetische Mittel und
der Median divergieren nur mehr
geringfügig.
10
Einführende Statistik - Deskriptive Maßzahlen
Using R
11
Einführende Statistik - Deskriptive Maßzahlen
Mittelwert versus Median


Das arithmetische Mittel reagiert sehr sensibel auf
einzelne Extremwerte
Der Median erweist sich gegenüber extremen
Beobachtungen als relativ robust
Richter
A
B
C
D
E
Note
19
18,5
19,5
19
19
Richter
A
B
C
D
E
Note
12
18,5
19,5
19
19
Richter
A
B
C
D
E
Note
12
12
19,5
19
19
17,6
19
Arith. Mittel
Median
16,3
19
Arith. Mittel
Median
19
19
Arith. Mittel
Median
Trimmed Mean
19
Trimmed Mean
18,83
Trimmed Mean
16,67
Der kleinste und größte Wert wird von der Mittelung ausgeschlossen! (Trimmed Mean α=0,2)
12
Einführende Statistik - Deskriptive Maßzahlen
α-Trimmed Mean



Grundgedanke: entferne vor der Mittelung die extremen
Beobachtungen, die das Ergebnis stark beeinflussen
können
Der Datensatz wird um 2*n*α Beobachtungen reduziert.
Es werden also die n*α kleinsten und die n*α größten
Beobachtungen von der Mittelwertsbildung
ausgeschlossen
n=20 und α=0,2  8 Beobachtungen werden eliminiert
(die 4 größten und die 4 kleinsten)
13
Einführende Statistik - Deskriptive Maßzahlen
Beispiel zu α-Trimmed Mean


Beispiel: n=40 α-Trimmed Mean mit α=5%
Ausgeschlossen werden in dem Beispiel die vier extremen
Beobachtungen: x(1), x(2),x(39), x(40) und
xα =0,05


1 n−2
=
x(i )
∑
n − 4 i =3
In Excel Funktion: GESTUTZTMITTEL
Allgemeines Prinzip umfasst eine Familie
von Lagemaßzahlen:
•
•
14
α=0
α50%
ergibt das Arithmetischen Mittel
ergibt den Median
Einführende Statistik - Deskriptive Maßzahlen
Simulation zum Effekt von Datenfehlern
15
Einführende Statistik - Deskriptive Maßzahlen
Szenario
16
Einführende Statistik - Deskriptive Maßzahlen
Effekt des Trimmens
17
Einführende Statistik - Deskriptive Maßzahlen
Hinweis zur Definition: α-Trimmed Mean


In manchen Büchern wird das α-Trimmed Mean in Bezug auf
die Bedeutung des Parameters α anders definiert. Es wird dann
der Datensatz um n*α Beobachtungen reduziert, wobei die
n*α/2 kleinsten und die n*α/2 größten Beobachtungen von der
Mittelung ausgeschlossen werden.
Unsere Definition ist an die Logik des trim-Parameters der
R-Funktion mean angelehnt. Die Excel-Funktion
GESTUTZTMITTEL verwendet die alternative oben
beschriebene Parametrisierung
18
Einführende Statistik - Deskriptive Maßzahlen
Anwendungsbeispiel für Trimmed Mean

EURIBOR:
Euro Interbank Offered Rate; wird täglich um 11 Uhr
Brüsseler Zeit als ungewichteter Durchschnitt aus
Briefsätzen von Interbankeinlagen erstklassiger Institute
auf Basis der Meldungen von rund 50 Banken berechnet.
Dabei werden die jeweils 15% höchsten und tiefsten
Werte eliminiert.
Es handelt sich also in unserer Diktion um ein
15%-Trimmed Mean
19
Einführende Statistik - Deskriptive Maßzahlen
Lagemaße
Quantil
Wert einer quantitativen Variablen, welcher die
geordneten Daten in Gruppen unterteilt, so dass ein
bestimmter Prozentsatz darüber und ein bestimmter
Prozentsatz darunter liegt
~
x


Quartil (0%, 25%, 50%, 75%, 100%)
Dezil (0%, 10%, 20%, 30%, ..... 90%,100%)
Zwei Konzepte (siehe Kapitel 2)
a) Empirisches Quantil zum Niveau α:
x(k) wobei (k-1) < α*n ≤ k
b) Alpha-Quantil: Interpolation
20
Einführende Statistik - Deskriptive Maßzahlen
Nile Dataset
Measurements of the annual flow of the river Nile at Aswan (formerly
Assuan), 1871–1970, in 10^8 m^3
21
Einführende Statistik - Deskriptive Maßzahlen
Deskriptive Statistiken
22
Einführende Statistik - Deskriptive Maßzahlen
4 Eigenschaften des arithmetischen Mittels
n
1)
0
∑ (x i − x) =
i =1
n
2)
Summe der Abweichungen ist
gleich Null!
min! =
für c x
∑ ( x=
i − c)
2
i =1
3)
yi = a + bx i
⇒ y = a + bx
4)
2 Tei lg esamtheiten A, B :
A
x1 , x 2 , , x n A mit x
B
Prinzip der
Kleinsten Quadrate
Linearität
y1 , y 2 , , y n B mit y
Arithmetische Mittel der Grundgesamtheit A ∪ B :
nA ⋅ x + nB ⋅ y
z=
nA + nB
bzw.
z = hA ⋅ x + hB ⋅ y
falls n A = n B ⇒ z = (x + y) / 2
23
Einführende Statistik - Deskriptive Maßzahlen
Beispiele:

ad 3) Linearität

Das Durchschnittseinkommen in einer bestimmten Gruppe
von Arbeitern beträgt 1.000,- €
Im Zuge einer Tarifverhandlung wird eine 4% Lohnerhöhung
beschlossen. Gleichzeitig wird beschlossen, dass vom neuen
Gehalt von jedem Arbeiter 10 € für einen Solidaritätsfond
einbehalten werden. Wie hoch ist das neue
Durchschnittseinkommen ?
X ... Einkommen bisher
Y ... Einkommen neu
Y=1,04*X-10
Neues Durchschnittseinkommen




y = a + bx = −10 + 1,04 ⋅ x = −10 + 1040 = 1030
24
Einführende Statistik - Deskriptive Maßzahlen
Beispiele






ad 4)
In einem Unternehmen sind 120 Personen beschäftigt.
Die Lohnsumme beträgt 240.000 €
Das Durchschnittseinkommen der 40 männlichen
Angestellten sei 2.400 €.
Wie hoch ist das Durchschnittseinkommen der
weiblichen Angestellten?
Gesamtmittelwert: 2.000€
2000=(40*2.400+80*X)/120 X=1.800€
25
Einführende Statistik - Deskriptive Maßzahlen
Gewogenes Arithmetisches Mittel


Die Merkmalsausprägungen werden bei der Summation
gewichtet.
Die gewichtete Summe wird dann nicht durch die Anzahl
der Beobachtungen sondern durch die Summe der
Gewichte dividiert:
1
x=
W


n
∑w x
i =1
i i
Falls alle wi=1 sind, ergibt sich das ungewichtete
arithmetische Mittel.
Falls die Summe der Gewichte gleich 1 ist, reduziert sich
die obige Gleichung auf die Summenbildung (z.B. relative
Häufigkeiten)
26
Einführende Statistik - Deskriptive Maßzahlen
Arithmetisches Mittel bei diskreten Daten




Aus vorigem Beispiel ergeben sich folgende Formeln:
k ... Anzahl der verschiedenen Ausprägungen
ni … absolute Häufigkeit des Vorkommens von xi
hi … relative Häufigkeit des Vorkommens von xi
k
1 k
x = ∑ ni xi = ∑ hi xi
n i =1
i =1
27
Einführende Statistik - Deskriptive Maßzahlen
Arithmetisches Mittel



Bei 12 Würfen mit dem Würfel wurde folgendes Ergebnis
beobachtet:
5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6
Der Durchschnitt (das Arithmetische Mittel) dieser 12
Augenzahlen ist 3,75.
28
Einführende Statistik - Deskriptive Maßzahlen
Beispiel Würfelwurf
Das Ergebnis des Würfelwurfs lässt sich ohne
Informationsverlust auch in einer Häufigkeitstabelle kompakt
zusammenfassen:
xi
ni
hi
xihi xini
1
2
2/12 2/12
2
k
k
1
2
1
1/12 2/12
2
x=
ni xi = hi xi
3
2
2/12 6/12 6
n i =1
i =1
4
2
2/12
8/12 8
5
3
3/12 15/12 15
6
2
2/12 12/12 12
Summe 12
1
45/12 45
45/12 = 3,75

∑
29
∑
Einführende Statistik - Deskriptive Maßzahlen
Arithmetisches Mittel bei klassierten Daten


Sind die einzelnen Merkmalswerte nicht mehr bekannt, so
kann man das arithmetische Mittel nur mehr
näherungsweise berechnen, indem man als Approximation
die Klassenmitten mi verwendet
k ... Anzahl der Klassen
k
k
1
x = ∑ nimi = ∑ himi
n i=1
i =1
30
Einführende Statistik - Deskriptive Maßzahlen
Arithmetisches Mittel bei klassierten Daten


Bildet man die Summe der 100 Einzelbeobachtungen so ergibt
sich 17440 und somit für das arithmetische Mittel 174,4 cm.
Liegt nur noch die Tabelle mit
n
m *n
m
Klasse
Häufigkeiten auf der Basis
(150 - 155]
153
3
459
(155 - 160]
158
4
632
der Klasseneinteilung vor so
(160 - 165]
163
10
1630
(165 - 170]
168
16
2688
verwendet man die Klassen(170 - 175]
173
23
3979
(175 - 180]
178
20
3560
mitten (siehe Rechnung).
(180 - 185]
183
11
2013
(185 - 190]
188
10
1880
Es ergibt sich eine
(190 - 195]
193
1
193
(195 - 200]
198
2
396
kleine Abweichung:
1755
100
17430
174,3 cm
174,3
i

i
i
i
Beachte Wahl der Klassenmitte, aufgrund der Tatsache, dass alle
Messungen auf Basis cm vorliegen!
31
Einführende Statistik - Deskriptive Maßzahlen
Handling von Missing Values in R
32
Einführende Statistik - Deskriptive Maßzahlen
33
Einführende Statistik - Deskriptive Maßzahlen
Exkurs über Mittelwerte
TESTAUFGABE
Startkapital 100.000
Verzinsung in 3 Jahren: +24%, +40%, -40%
Was ist die durchschnittliche jährliche Verzinsung?
34
Einführende Statistik - Deskriptive Maßzahlen
Geometrisches Mittel

Anwendungsbeispiele: Wachstumsprozesse
Beobachtungen x1, x2, ..., xn+1
Wachstumsfaktoren:

Wachstumsraten:


xi + 1
wi =
bzw. xi +1 = xi ⋅ w i
xi
Verhältnis von zwei aufeinanderfolgenden Beobachtungen
x i +1 − x i
ri = bzw.
xi
ri =
w i − 1 bzw.
wi =
ri + 1
Relative Änderung von zwei aufeinanderfolgenden
Beobachtungen
35
Einführende Statistik - Deskriptive Maßzahlen
Mittleres Wachstum

Der Wert in der nächsten Periode ergibt sich durch den
aktuellen Wert multipliziert mit dem Wachstumsfaktor
x n +=
xn ⋅ wn
1

Wendet man diese Überlegung wiederholt an, so ergibt
sich für das Wachstum von x1 bis xn+1
x n +1 =x n ⋅ w n =x n −1 ⋅ w n −1 ⋅ w n = =x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n

Das durchschnittliche Wachstum ist durch jenen
konstanten Wachstumsfaktor charakterisiert, der
ausgehend von x1 zum selben Endwert xn+1 führt
36
Einführende Statistik - Deskriptive Maßzahlen
Geometrisches Mittel
Beispiel zum geometrischen Mittel
Startkapital
100.000,00
Verzinsung in 3 Jahren: +25%, +40%, -40%
Was ist die durchschnittliche Verzinsung?
x n +1 =x n ⋅ w n =x n −1 ⋅ w n −1 ⋅ w n =
... = x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n
x n +1 =⋅
x1 w geom ⋅ w geom ⋅ ⋅ w geom
w geom = w1 ⋅ w 2 ⋅ ⋅ w n =
n
n
w geom = n ∏ w i
Xt … Bestandsgröße zum
Zeitpunkt t
Wt … Wachstumsfaktor von
t auf t+1
n
∏w
i =1
i
Forderung an den Mittelwert
n-te Wurzel aus dem Produkt
der n Wachstumsfaktoren
i =1
37
Einführende Statistik - Deskriptive Maßzahlen
Korrekte Mittelung
Beispiel zum geometrischen Mittel
Startkapital 100.000
Verzinsung in 3 Jahren: +24%, +40%, -40%
Was ist die durchschnittliche jährliche Verzinsung?
Rendite Wachstumsfaktor
(Wachstumsrate)
1,24
124.000,00
101.367,87
40,00%
1,40
173.600,00
102.754,45
-40,00%
0,60
104.160,00
104.160,00
8,00% 1,013679
RICHTIG
1,37%
38
Probe
24,00%
FALSCH
3
Endkapital
1,0137
3
1.24 × 1.4 × 0.6 = 1.464 = 1.0137
Einführende Statistik - Deskriptive Maßzahlen
Wachstumsprozess über mehrere Perioden

Bestimmung des Durchschnitts auf der Basis von Anfangsund Endwertes
x n +1 = x1 ⋅ w1 ⋅ w 2 ⋅ ⋅ w n
n
x n +1
wi =
∏
x1
i =1
=
w geom
39
n
=
∏ wi
n
i =1
n
x n +1
x1
Einführende Statistik - Deskriptive Maßzahlen
Logarithmieren


Durch Logarithmieren können Wachstumsprozesse
linearisiert werden.
Anwendung des arithmetischen Mittels auf der
logarithmischen Skala und danach Rücktransformation
w geom =
n
n
∏w
i =1
i
n
n
1
1 n
n
=
log(w geom ) log(
=
wi ) =
log(∏ w i )
log(w i )
∑
∏
n
n i =1
=i 1 =
i 1
w geom
40
1 n

= exp  ∑ log(w i ) 
 n i =1

Einführende Statistik - Deskriptive Maßzahlen
Siehe Beispiel „Populationsdynamik“ mit Excel
Anfangspopulation:
10.000
Wachstums- WachstumsReale
rate
faktor
Entwicklung
10.000
0,05
1,05
10.500
0,05
1,05
11.025
0,05
1,05
11.576
0,05
1,05
12.155
0,05
1,05
12.763
0,05
1,05
13.401
0,05
1,05
14.071
0,05
1,05
14.775
0,05
1,05
15.513
0,05
1,05
16.289
0,10
1,10
17.918
0,10
1,10
19.710
0,10
1,10
21.681
0,10
1,10
23.849
0,10
1,10
26.234
0,10
1,10
28.857
0,10
1,10
31.743
0,10
1,10
34.917
0,10
1,10
38.408
0,10
1,10
42.249
Jahr
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Durchschnittliches Wachstum
1,0747093
1,0747093
Fiktives
ln(Reale
Wachstum Entwicklung)
10.000
9,2103
9,2591
10.747
9,3079
11.550
9,3567
12.413
9,4055
13.340
9,4543
14.337
9,5031
15.408
9,5519
16.559
9,6007
17.796
9,6495
19.126
9,6982
20.555
9,7936
22.090
9,8889
23.741
9,9842
25.514
10,0795
27.420
10,1748
29.469
10,2701
31.671
10,3654
34.037
10,4607
36.580
10,5560
39.312
10,6513
42.249
7,47%
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,04879
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
0,09531
ln(Fiktives
Wachstum)
9,2103
9,2824
9,3544
9,4265
9,4985
9,5706
9,6426
9,7147
9,7867
9,8588
9,9308
10,0029
10,0749
10,1470
10,2190
10,2911
10,3631
10,4352
10,5072
10,5793
10,6513
0,0720502
1,0747093
40.000
10,6000
35.000
10,4000
30.000
10,2000
25.000
10,0000
20.000
9,8000
15.000
9,6000
10.000
Reale Entwicklung
9,4000
ln(Reale Entwicklung)
5.000
Fiktives Wachstum
9,2000
ln(Fiktives Wachstum)
0
9,0000
0
41
ln(Wachstumsfaktor)
Bevölkerungsentwicklung mit logarithmierter y-Achse
10,8000
Bevölkerungsentwicklung
45.000
Differenz
10
20
30
0
5
10
15
20
25
Einführende Statistik - Deskriptive Maßzahlen
Beispiel zum Geometrischen Mittel
Jahr
2009
2010
2011
2012
2013
Produkt
4.Wurzel
Umsatz in Wachstums- WachstumsMio EURO faktor
rate
ln(W.-Faktor)
2
0,1823
2,4
1,200
20,0%
2,9
1,208
20,8%
0,1892
2,7
0,931
-6,9%
-0,0715
3,1
1,148
14,8%
0,1382
1,550
0,1096
1,116
11,6%
1,116
Arithmetisches Mittel der
logarithmierten
Wachstumsfaktoren
42
exp(0,1096)
1 n

w geom = exp  ∑ log(w i ) 
 n i =1

Einführende Statistik - Deskriptive Maßzahlen
Testaufgabe 1



Sie fahren staubedingt eine Strecke von 50km mit einer
durchschnittlichen Reisegeschwindigkeit von 20km/h
Die nächsten 50 km erzielen Sie eine durch-schnittliche
Reisegeschwindigkeit von 100km/h.
Wie hoch ist die Durchschnittsgeschwindigkeit für die
gesamte Fahrt?
43
Einführende Statistik - Deskriptive Maßzahlen
Berechnung
44
Einführende Statistik - Deskriptive Maßzahlen
Testaufgabe 2



Sie planen eine Autofahrt auf der Autobahn von Wien
nach Salzburg und rechnen mit einer durchschnittlichen
Reisegeschwindigkeit von 100km/h
Auf der ersten Hälfte der Strecke kommen Sie in einen
Stau, so dass Sie für den halben Weg nur eine
Durchschnittsgeschwindigkeit von 50km/h erreichen.
Wie schnell müssen Sie die zweite Hälfte der Strecke
zurücklegen, damit Sie noch die geplante Geschwindigkeit
von 100km/h erreichen?
45
Einführende Statistik - Deskriptive Maßzahlen
Harmonisches Mittel
x=


1
n
1
1
∑
n i = 1 xi
bzw.
1
1 n wi
∑
W i = 1 xi
n
W = ∑ wi
i =1
Das untersuchte Merkmal sei ein Quotient:
Dimension-A/Dimension-B
Anzahl (Gewichte) der Merkmalsträger:


46
Dimension-B: Mittelung durch arithmetisches Mittel
Dimension-A: Mittelung durch harmonisches Mittel
Einführende Statistik - Deskriptive Maßzahlen
Beispiel zum Harmonischen Mittel

Geschw.
30 km/h
90 km/h
Strecke
60km
60km
Ungewichtetes
Harmonisches Mittel
1
1
180
=
= = 45
1
1
1/ 2 * 4 / 90
4
1/ 2 * ( + )
30 90
1
1
= = 45
60 60 1/120 * 240 / 90
1/120 * ( + )
30 90
(nur zulässig, da beide
Strecken gleich lang sind)
x=
1
1 n 1
∑
n i =1 xi
Gewichtetes Harmonisches Mittel
(Gewichte sind Strecken)
1
=
x
=
W
n
wi
1
∑
W i =1 xi
47
n
∑w
i =1
i
Einführende Statistik - Deskriptive Maßzahlen
Beispiel zum Harmonischen Mittel

Berechnung der Durchschnittsgeschwindigkeit:
Geschw.
Dauer
30 km/h
2h
90 km/h
2/3h

Berechnung mittels gewogenem arithmetischen Mittels:
Gewichte sind Zeitdauern
(30*2 +90*2/3)/(2+2/3)=3*120/8=45


n
1 n
=
x =
wi xi W ∑ wi
∑
W i 1 =i 1
=
48
Einführende Statistik - Deskriptive Maßzahlen
Periodischer Kauf von Wertpapieren
Vier Käufe von Wertpapieren mit konstantem Budget von 100.000 €
Ankauf
1
2
3
4
Kurse
5.000,00
6.000,00
10.000,00
4.000,00
Arithmetisches Mittel
Harmonisches Mittel
??? Durchschnittskurs des Käufers ???
6.250,00 ist natürlich nicht gleich dem durchschnitlichen Ankaufskurs
5.581,40 ist gleich dem durchschnitlichen Ankaufskurs
Ankauf
1
2
3
4
Kurse
5.000,00
6.000,00
10.000,00
4.000,00
1/x
0,00020
0,00017
0,00010
0,00025
0,00072
Ankauf
1
2
3
4
Kurse
5.000,00
6.000,00
10.000,00
4.000,00
SUMME
Menge
20,00
16,67
10,00
25,00
71,67
Gewogenes Arithm. Mittel
49
0,000179
5.581,40
Budget
100.000,00
100.000,00
100.000,00
100.000,00
400.000,00
x=
1
1 n 1
∑
n i=1 x i
Cost Average Effect
5.581,40
Einführende Statistik - Deskriptive Maßzahlen
Streuungsmaße
•
•
•

Statistische Maßzahlen, welche die Variabilität oder die
Streubreite in den Daten messen.
Sie beschreiben die Abweichung vom Zentrum einer
Häufigkeitsverteilung
Wie eng liegen die Merkmalsausprägungen eines
quantitativen Merkmals beieinander?
Maßzahlen:


50
Differenz von Quantilen
Summe der Abstände aller Merkmalsausprägungen von einem
Lagemaß
Einführende Statistik - Deskriptive Maßzahlen
Beispiel: 2 Altersverteilungen mit gleichem Mittel
Gruppe A Gruppe B
Gruppe A
24
34
34
35
23
32
21
36
30
32
34
38
22
53
54
51
23
57
54
54
Gruppe B
21
35
34
37
35
36
37
34
35
39
57
37
36
38
37
34
38
39
40
42
Durchschnitt
Minimum
Maximum
Spannweite
37,1
21,0
57,0
36,0
37,1
21,0
57,0
36,0
18
16
16
14
12
10
9
8
6
6
5
4
2
2
1
1
0
0
0
0
20 bis 29
51
30 bis 39
40 bis 49
50 bis 59
60 bis 70
Einführende Statistik - Deskriptive Maßzahlen
Verschiedene Verteilungen
0.8
Alle 3 Verteilungen sind unimodal, symmetrisch und weisen den selben
Mittelwert auf; sie unterscheiden sich aber in Ihrer Streuung um die Mitte
0.4
0.6
N(0; 0,25)
0.2
N(0; 1)
0.0
N(0; 4)
-6
52
-4
-2
0
2
4
6
Einführende Statistik - Deskriptive Maßzahlen
Streuungsmaße (1)
Spannweite (range)
Differenz zwischen größtem und kleinstem Wert einer
numerischen Variablen;
Wertebereich, in dem alle Merkmalswerte liegen
R = x( n ) − x(1)
Für die Praxis der Streuungsmessung oft nur wenig
aussagekräftig, da stark von einzelnen Beobachtungen abhängig
53
Einführende Statistik - Deskriptive Maßzahlen
Streuungsmaße (2)
Quartilsabstand (IQ-range)
Differenz zwischen drittem und erstem Quartil;
Innerhalb des Quartilsabstandes liegen 50% der Werte;
unempfindlich gegenüber Extremwerten
~
~
x0, 75 − x0, 25
Entspricht der Boxlänge im Boxplot
54
Einführende Statistik - Deskriptive Maßzahlen
Abstände vom arithmetischen Mittel
Arithmetische Mittel
Die positiven und negativen Abweichungen vom arithmetischen Mittel
kompensieren einander und summieren sich immer zu null.
n
∑ (x
n
− x) =0 ⇒ ∑ x i =nx
i
i 1 =i 1
55
Einführende Statistik - Deskriptive Maßzahlen
Mittlere Absolutabstände von einem Lagemaß

Mittlere absolute Abweichung vom Median
(mean absolute deviation (from the median) - MD)
1 n
=
MD
xi − x
∑
n i =1


Mittlere absolute Abweichung vom arithmetischen Mittel
(mean absolute deviation (from the mean) - MAA)
1 n
=
MAA
xi − x
∑
n i =1
Median der absoluten Abweichungen vom Median (median
absolute deviation - MAD)
=
MAD median( xi − x )
56
Einführende Statistik - Deskriptive Maßzahlen
Mittlerer quadrierter Abstand vom Mittelwert

Varianz (variance)
1 n
2
s = ∑ ( xi − x )
n i =1
2




Die mittlere quadrierte Abweichung vom arithmetischen
Mittel
Häufig wird in der Praxis auch statt durch n durch
n-1 dividiert. Dies ist v.a. dann sinnvoll, wenn man auf der
Basis einer Stichprobe Aussagen für die Grundgesamtheit
treffen möchte (Erklärung folgt später)
Excel-Funktionen: Varianz bzw. Varianzen
In R immer Division durch n-1
57
Einführende Statistik - Deskriptive Maßzahlen
Berechnung von Streuungsmaßen
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Abweichung
Gruppe A vom Mittel
24
-13,1
34
-3,1
34
-3,1
35
-2,1
23
-14,1
32
-5,1
21
-16,1
36
-1,1
30
-7,1
32
-5,1
34
-3,1
38
1,0
22
-15,1
53
16,0
54
17,0
51
14,0
23
-14,1
57
20,0
54
17,0
54
17,0
Summe:
58
0,0
Absolute
Quadratierte
Absolute
Quadratierte
Abweichung Abweichung Abweichung
Abweichung Abweichung
Nr. Gruppe B vom Mittel
vom Median vom Mittel
vom Median vom Mittel
10,0
170,3
1
21
-16,1
16,0
257,6
0,0
9,3
2
35
-2,1
2,0
4,2
0,0
9,3
3
34
-3,1
3,0
9,3
1,0
4,2
4
37
0,0
0,0
0,0
11,0
197,4
5
35
-2,1
2,0
4,2
2,0
25,5
6
36
-1,1
1,0
1,1
13,0
257,6
7
37
0,0
0,0
0,0
2,0
1,1
8
34
-3,1
3,0
9,3
4,0
49,7
9
35
-2,1
2,0
4,2
2,0
25,5
10
39
2,0
2,0
3,8
0,0
9,3
11
57
20,0
20,0
398,0
4,0
0,9
12
37
0,0
0,0
0,0
12,0
226,5
13
36
-1,1
1,0
1,1
19,0
254,4
14
38
1,0
1,0
0,9
20,0
287,3
15
37
0,0
0,0
0,0
17,0
194,6
16
34
-3,1
3,0
9,3
11,0
197,4
17
38
1,0
1,0
0,9
23,0
398,0
18
39
2,0
2,0
3,8
20,0
287,3
19
40
3,0
3,0
8,7
20,0
287,3
20
42
5,0
5,0
24,5
191,0
2893,0
9,55
MD
Summe:
0,0
67,0
741,0
144,6
3,35
37,0
Varianz
MD
Varianz
Einführende Statistik - Deskriptive Maßzahlen
Abgeleitete Streuungsparameter

Standardabweichung – (standard deviation)
s=
s =
2
1 n
2
−
x
x
( i )
∑
n i =1
Quadratwurzel aus der Varianz
Ist wieder in derselben Dimension wie die Beobachtungen
und ist somit anschaulicher als die Varianz

Variationskoeffizient (coefficient of variance)
v=
s
x
bzw.
v=
s
⋅ 100
x
Standardabweichung ausgedrückt in Einheiten des
Mittelwerts; dimensionslose Größe gut geeignet für
Vergleiche
59
Einführende Statistik - Deskriptive Maßzahlen
Beispiel: 2 Altersverteilungen mit gleichem Mittel
Gruppe A Gruppe B
Gruppe A
24
34
34
35
23
32
21
36
30
32
34
38
22
53
54
51
23
57
54
54
Gruppe B
21
35
34
37
35
36
37
34
35
39
57
37
36
38
37
34
38
39
40
42
Durchschnitt
Minimum
Maximum
Spannweite
Varianz
Std.Abw.
VC
18
16
16
14
12
10
9
37,1
21,0
57,0
36,0
144,6
12,0
32%
37,1
21,0
57,0
36,0
37,0
6,1
16%
1.Quartil
2.Quartil
3.Quartil
Median
28,5
34,0
51,5
34,0
35,0
37,0
38,3
37,0
IQ-Distanz
23,0
3,3
8
6
6
5
4
2
2
1
1
0
0
0
0
20 bis 29
60
30 bis 39
40 bis 49
50 bis 59
60 bis 70
Einführende Statistik - Deskriptive Maßzahlen
Standardabweichung & Intervalle

Die Standardabweichung bildet den Ausgangspunkt für
Konfidenzaussagen

Intervalle sind oft reliabler als punktuelle Aussagen

Falls die Daten einer Normalverteilung folgen
(Glockenkurve) liegen etwa 95% der Daten in dem
Intervall zwischen Mittelwert minus bzw. Mittelwert plus
zweifacher Standardabweichung; jedenfalls aber 75%.
61
Einführende Statistik - Deskriptive Maßzahlen
Bedeutung des Variationskoeffizienten


Eine Standardabweichung von 300,- € beim monatlichen
Einkommen ist in einer Gesellschaftsschicht mit einem
Durchschnittseinkommen von 1.500,- € von wesentlich
größerer Bedeutung als in einer Gruppe von
Einkommensbeziehern, die im Monatsdurchschnitt 2.400,€ verdienen.
In der ersten Gruppe ist der Variationskoeffizient 20%,
während er in der zweiten Gruppe nur 12,5% beträgt,
obwohl die Standardabweichung in beiden Gruppen gleich
groß ist.
62
Einführende Statistik - Deskriptive Maßzahlen
Volatilität




Die Volatilität gilt als Einschätzung des künftigen Risikos einer
Aktie. Als Maß für die Volatilität verwendet man häufig den
Variationskoeffizienten
Beispiel: Im Durchschnitt über 250 Handelstage betrug der
mittlere Kurs einer Aktie A 50,59 € bei einer
Standardabweichung von 36,18€. Über den selben
Vergleichszeitraum betrug der mittlere Kurs einer Aktie B
396,10 € bei einer Standardabweichung von 182,96 €.
Obwohl die Standardabweichung der Aktie A deutlich geringer
ist, muss ein Investor hier mit einem größeren Risiko rechnen
als bei der Aktie B, dies wird durch den Variationskoeffizienten
quantifiziert:
VKA=36,18/50,59*100=72% VKB=182,96/396,10*100=46%
63
Einführende Statistik - Deskriptive Maßzahlen
Rechenbeispiel: Reaktionszeiten
1
2
3
4
5
6
7
8
9
10
Summe
64
xi-xq
xi
i
0,30
0,21
0,19
0,27
0,32
0,30
0,26
0,22
0,31
0,20
2,58
0,04
-0,05
-0,07
0,01
0,06
0,04
0,00
-0,04
0,05
-0,06
0,00
Arithmetisches Mittel (xq)
Median (med):
0,258
0,265
MD:
MAA:
MAD:
0,0420
0,0424
0,0450
Varianz:
Standardabweichung:
Variationskoeffizient:
0,002196
0,046861
18,2%
abs(xi-xq)
0,042
0,048
0,068
0,012
0,062
0,042
0,002
0,038
0,052
0,058
0,424
abs(xi-med)
0,035
0,055
0,075
0,005
0,055
0,035
0,005
0,045
0,045
0,065
0,420
(xi-xq)²
0,00176
0,00230
0,00462
0,00014
0,00384
0,00176
0,00000
0,00144
0,00270
0,00336
0,02196
Mittlere absolute Abweichung vom Median
Mittlere absolute Abweichung vom arithmetischen Mittel
Median der absoluten Abweichungen vom Median
Einführende Statistik - Deskriptive Maßzahlen
Interpretation

Die Angabe der Standardabweichung erfolgt oft in der
Form
x ±σ


Im Beispiel: 0,258±0,047
Unter der Annahme einer „Normalverteilung“ (Form der
Häufigkeitsdichte entspricht einer Glockenkurve) liegen
ca. 95% der Datenpunkte in einem Bereich von
x ± 2σ
65
Einführende Statistik - Deskriptive Maßzahlen
Alternative Berechnungsformeln
1 n
1 n 2
2
2
s
x
x
x
x
=
−
=
−
(
)
∑
i
n∑ i 
 (1)
n
=i 1 =
 i1 
2


(2)
(3)
66
Mittelwert der quadrierten
Werte minus dem
Quadrat des Mittelwertes
2
n


 
 n
 ∑ xi  
 i =1  
1
2
2
s = ∑ xi −
n 
n  i =1




n
1
2


s2 =  ∑ xi − nx 2 

n  i =1
Einführende Statistik - Deskriptive Maßzahlen
Alternative Berechnungsformeln im Beispiel
i
1
2
3
4
5
6
7
8
9
10
Summe
xi
0,30
0,21
0,19
0,27
0,32
0,30
0,26
0,22
0,31
0,20
2,58
xi²
0,09
0,04
0,04
0,07
0,10
0,09
0,07
0,05
0,10
0,04
0,69
1 n
1 n 2
2
=
s
xi − x 2
( xi − x=
)
∑
∑
n i 1=
n i1
=
2
=(1/10)*0,69-0,258²
0,002196
2

 n  

 xi  
 
1 n 2 ∑
2
s =
xi − i = 1
∑

n
n  i =1




=(1/10)*(0,69-2,58²/10)
Arithmetisches Mittel (xq)
0,002196
0,258
1 n 2

s =  ∑ xi − nx 2 

n  i =1
2
=(1/10)*(0,69-10*0,258²)
0,002196
67
Einführende Statistik - Deskriptive Maßzahlen
Eigenschaften der Varianz

"Steiner´scher Verschiebungssatz"
n
∑ (x
i =1

i
n
− a) = ∑ ( x i − x) + n( x − a)
2
2
2
i =1
Auswirkung linearer Transformationen
y =+
a bx ⇒ s 2 ( y ) =
b2 s 2 ( x )
Verschiebungs-Invarianz
68
Einführende Statistik - Deskriptive Maßzahlen
Varianzermittlung aus 2 Teilpopulationen
2 Tei lg esamtheiten A, B :
A x1 , x 2 , , x n A mit x A ,s A2
nA s A + nB sB
nA + nB
2
s2 =
nA
pA =
nA + nB
2
B x1 , x 2 , , x n B mit x B ,s B2
nA ( xA − x) + nB ( xB − x)
+
nA + nB
2
2
x  Gesamtmittelwert
=
n nA + nB
nB
pB =
nA + nB
s2 = pA ⋅ s A + pB ⋅ sB + pA ( xA − x) + pB ( xB − x)
2
2
2
2
Gesamte Varianz ist das gewichtete Mittel der Teilvarianzen plus
dem gewichteten Mittel der quadratischen Abweichungen der
Gruppenmittel vom Gesamtmittel (Vtotal = Vwithin+Vbetween)
69
Einführende Statistik - Deskriptive Maßzahlen
Beispiel: Ermittlung des Mittelwertes aus 2 Teilgesamtheiten




Es liegen Daten aus 2 Betrieben A und B vor:
400 Angestellte aus Betrieb A verdienen monatlich im
Mittel 1.920,84 €
300 Angestellte aus Betrieb B verdienen monatlich im
Mittel 2.012,17 €
Dann beträgt der Gesamtmittelwert nach dem Prinzip
des gewogenen arithmetischen Mittels: 1.959,98 €
xGesamt
70
400 ⋅1920,84 + 300 ⋅ 2012,17
= 1.959,98
400 + 300
Einführende Statistik - Deskriptive Maßzahlen
Beispiel: Ermittlung der Varianz aus 2 Teilgesamtheiten



Das Einkommen der 400 Angestellten aus Betrieb A hat
eine Standardabweichung von 220,32 €
Das Einkommen der 300 Angestellten aus Betrieb B hat
eine Standardabweichung von 411,98 €
Dann beträgt die Standardabweichung der Angestellten
beider Betriebe zusammen: 320,19 €
s = p ⋅ s + p ⋅ s + p ( x − x) + p ( x − x)
400 ⋅ 220,32² + 300 ⋅ 411,98²
+
s²
A
A
2
2
2
2
B
B
A
A
B
2
B
400 + 300
400 ⋅ (1920,84 − 1959,98)² + 300 ⋅ (2012,17 − 1959,98)²
+
=
400 + 300
= 102520, 76
s
71
=
102520, 76 320,19
Einführende Statistik - Deskriptive Maßzahlen
Standardisierung (z-Transformation)

Gegeben seien Beobachtungen x1, ..., xn mit
Mittelwert x und Varianz s x 2

Gesucht ist eine lineare Transformation z=a+bx, so dass für die
transformierten Daten das arithmetische Mittel 0 und die
Varianz 1 wird.
xi − x
x 1
zi =
= − + xi
sx
sx 
sx

a
b
1 2
x 1
s2z = 2 s x = 1
+ x=0
sx sx
sx
Unterscheide: xi-x(1)/(x(n)-x(1)) bildet xi in [0,1] ab
z=−

72
Einführende Statistik - Deskriptive Maßzahlen
Beispiel zur Standardisierung
i
1
2
3
4
5
6
7
8
9
10
Summe
xi
0,30
0,21
0,19
0,27
0,32
0,30
0,26
0,22
0,31
0,20
2,58
Arithmetisches Mittel (xq):
Standardabweichung (x):
73
xi-xq
0,04
-0,05
-0,07
0,01
0,06
0,04
0,00
-0,04
0,05
-0,06
0,00
0,258
0,046861
zi=(xi-xq)/s
0,8963
-1,0243
-1,4511
0,2561
1,3230
0,8963
0,0427
-0,8109
1,1097
-1,2377
0,00
zi²
0,803278689
1,049180328
2,10564663
0,06557377
1,750455373
0,803278689
0,001821494
0,657559199
1,23132969
1,531876138
10,00
Varianz(z): 1
Standardabweichung (z): 1
Einführende Statistik - Deskriptive Maßzahlen
Standardabweichung vs. Standardfehler
Scorewerte zwischen 0 und 100 bei n=100 Personen gemessen
12
8
10
50
66
2
6
89
21
7
93
86
73
94
61
80
15
69
79
37
Arithmetisches Mittel
Standardabweichung
17
82
28
67
98
25
42
38
25
30
93
42
57
43
70
9
64
95
79
60
49,6
31,8
Sample-2
11
95
40
50
38
64
3
61
64
47,3
Sample-3
8
0
21
89
18
38
60
69
79
42,4
Standardfehler
Std.Abw. der 10 Stichprobenmittelwerte
10,6
10,4
arithm. Mittel
74
57
0
56
86
97
79
50
32
36
23
93
65
30
94
94
85
26
3
86
96
10
13
8
78
62
1
40
73
7
29
14
68
68
73
11
12
6
53
23
93
81
4
25
46
7
55
36
11
86
73
Sample-9
61
85
15
57
12
40
53
80
14
46,3
Sample-10
30
57
21
67
89
86
43
50
30
52,6
Variabilität der Einzelwerte σ
Wir ziehen 10-mal eine zufällige Stichprobe von 9 Beobachtungen
Sample-1
38
93
29
18
50
93
8
15
6
38,9
17
91
53
18
38
76
8
100
96
85
Sample-4
42
64
89
95
7
10
42
30
25
44,9
Sample-5
93
79
67
10
7
73
30
73
68
55,6
Sample-6
9
21
62
86
93
46
32
93
43
53,9
Sample-7
38
36
12
0
9
23
25
2
67
23,6
Sample-8
2
79
80
79
86
73
60
93
23
63,9
Variabilität des Mittelwertes σ
n
Einführende Statistik - Deskriptive Maßzahlen
Varianz bei diskreten Daten
Treten nur k unterschiedliche Werte
x1, ..., xk mit zugehörigen absoluten Häufigkeiten
n1, ..., nk bzw. relativen Häufigkeiten h1, ..., hk
auf, so ergibt sich die Varianz als:
k
k
1
2
2
σ = ∑ ( xi − x ) ni = ∑ ( xi − x ) hi
n i 1 =i 1
2
1

2
2
σ ²=  ∑ ni ⋅ xi  − x ²=  ∑ hi ⋅ xi  − x ²
 n i 1=

i1

k
75
k
Einführende Statistik - Deskriptive Maßzahlen
Berechnung Varianz – diskrete Daten




Bei 12 Würfen mit dem Würfel wurde folgendes
Ergebnis beobachtet:
5, 3, 4, 5, 5, 2, 6, 1, 4, 1, 3, 6
Die Summe der 12 Augenzahlen ist 45. Der
Durchschnitt (das Arithmetische Mittel) dieser 12
Augenzahlen ist 3,75. Die Summe der quadrierten
Augenzahlen beträgt 25+9+…+9+36=203
Demnach ist die Varianz:
=
s2
1 n 2
2 
x
−
nx
∑ i

n  i =1

s 2 =1/12(203 − 12 *3, 75²) =2,85
76
Einführende Statistik - Deskriptive Maßzahlen
Berechnung mittels Häufigkeiten
xi
1
2
3
4
5
6
ni
hi
2
1
2
2
3
2
12
xihi
0,17
0,08
0,17
0,17
0,25
0,17
1,00
0,17
0,17
0,50
0,67
1,25
1,00
3,75
Arithmetisches Mittel
Alternativ:
xini
xi²ni
2
2
6
8
15
12
45
3,75
2
4
18
32
75
72
203
xi-xq
-2,75
-1,75
-0,75
0,25
1,25
2,25
(xi-xq)² (xi-xq)²hi (xi-xq)²ni
7,56
3,06
0,56
0,06
1,56
5,06
1,26
0,26
0,09
0,01
0,39
0,84
2,85
Varianz
15,13
3,06
1,13
0,13
4,69
10,13
34,25
2,85
203/12-3,75²=2,85
1 k
2
=
s ²  ∑ ni ⋅ xi  − x ²
n i =1


k
k
1
2
2
s = ∑ ( xi − x ) ni = ∑ ( xi − x ) hi
n i 1 =i 1
=
2
77
Einführende Statistik - Deskriptive Maßzahlen
Berechnung bei klassifizierten Daten
Sind die Daten in k Klassen eingeteilt, kann man auch die
Varianz nur näherungsweise berechnen, indem man mit
den Klassenmittelwerten m1, ..., mk arbeitet.
k
k
1
2
2
2
σ = ∑ ( mi − x ) ni = ∑ (mi − x ) hi
n i 1 =i 1
bzw.
k
k
1




2
2
2
2
2
σ
=
−x
 n ∑ mi ni =
 ∑ mi hi  − x
 i 1=

i 1

78
Einführende Statistik - Deskriptive Maßzahlen
Beispiel Körpergröße von 100 Studenten
Klasse
bis 150
(150 - 155]
(155 - 160]
(160 - 165]
(165 - 170]
(170 - 175]
(175 - 180]
(180 - 185]
(185 - 190]
(190 - 195]
(195 - 200]
ni
0
3
4
10
16
23
20
11
10
1
2
100
hi
0,00
0,03
0,04
0,10
0,16
0,23
0,20
0,11
0,10
0,01
0,02
1
mi
mihi
mi²hi
153
158
163
168
173
178
183
188
193
198
4,59
6,32
16,30
26,88
39,79
35,60
20,13
18,80
1,93
3,96
174,30
702,27
998,56
2656,90
4515,84
6883,67
6336,80
3683,79
3534,40
372,49
784,08
30468,80
Mittelwert=
174,30
Varianz= 30.468,8-174,3²=88,31
Standardabweichung=
9,40
Exakte Berechnungen auf Basis der Urliste
n=
Summe x =
Summe x² =
Arithmetisches Mittel =
Varianz=
Standardabweichung=
79
Korrektur 86,23
9,29
100
17.440
3.049.914
174,4
83,78
9,15
Einführende Statistik - Deskriptive Maßzahlen
Sheppard-Korrektur


Es lässt sich theoretisch zeigen, dass bei einer unimodalen
Verteilung die auf der Basis der klassifizierten Daten
berechnete Varianz größer ist als die aus den Originaldaten.
Bei einer Klasseneinteilung mit konstanter Breite ∆ kann der
Fehler mit der sog. Sheppard-Korrektur annähernd
ausgeglichen werden:
∆2
σ ² korr=. σ ² −
12
25
σ ² korr=. 88,31 − = 86, 23
12
80
Einführende Statistik - Deskriptive Maßzahlen
Höhere Verteilungsmaßzahlen

Ein stetiges Merkmal wurde in 3 Gruppen beobachtet und
in Form der folgenden Häufigkeitstabelle berichtet:
Klasse
0-2
2-4
4-6
6-8
8-10
10-12
12-14

mi
1
3
5
7
9
11
13
Gruppe A
0
12
24
28
24
12
0
100
Gruppe B
4
4
20
44
20
4
4
100
Gruppe C
0
4
40
24
20
8
4
100
1.Schritt: Berechnung von Mittelwert und Streuung
81
Einführende Statistik - Deskriptive Maßzahlen
Berechnung von Mittelwert und Streuung
mi
Klasse
0-2
2-4
4-6
6-8
8-10
10-12
12-14
Gruppe A
1
3
5
7
9
11
13
x
=
0
12
24
28
24
12
0
100
Gruppe B
4
4
20
44
20
4
4
100
Gruppe C
0
4
40
24
20
8
4
100
Gruppe A
mi*ni
0
36
120
196
216
132
0
700
7
Gruppe B
mi*ni
4
12
100
308
180
44
52
700
7
Gruppe C
mi*ni
0
12
200
168
180
88
52
700
7
Gruppe A
mi²*ni
0
108
600
1372
1944
1452
0
5476
5,76
2,4
Gruppe B
mi²*ni
Gruppe C
mi²*ni
4
36
500
2156
1620
484
676
5476
5,76
2,4
1 k
1 k

2
2
2
σ
n
m
m
n
x
=
−
∑
∑
i
i
i
i
n

n i 1=
i 1


Das arithmetische Mittel ist an allen 3 Gruppen gleich 7.
Die Varianz ist an allen 3 Gruppen gleich 5,76 bzw. ist die Standardabweichung in
allen 3 Gruppen 2,4.
82
Einführende Statistik - Deskriptive Maßzahlen
0
36
1000
1176
1620
968
676
5476
5,76
2,4
Visualisierung der 3 Verteilungen
83
Einführende Statistik - Deskriptive Maßzahlen
Maßzahlen der Schiefe



Konvention:
Positiv  rechtsschief bzw. linkssteil
Negativ  linksschief bzw. rechtssteil
Unimodale symmetrische
Verteilung
rechtsschief
84
linksschief
Einführende Statistik - Deskriptive Maßzahlen
Typische Maße

Pearson‘scher Schiefekoeffizient:
3 ⋅ ( x − x )
Sk =
σ
x

x
Quartilskoeffizient der Schiefe
0
1
2
3
4
5
6
Q3 − Q 2 ) − ( Q 2 − Q1 )
(
Sq =
( Q3 − Q1 )
Q1 Q2 Q3
85
Einführende Statistik - Deskriptive Maßzahlen
Momentenkoeffizient der Schiefe (Fisher)

Im Fall von Einzeldaten:
Sm =

1 n
3
−
x
x
( i
)
∑
n i =1



n
1
2
−
x
x
( i
)
∑
n i =1
3. Zentrales Moment



3
Bei klassierten Daten
Sm =
86
1 k
3
( mi − x ) ⋅ n i
∑
n i=1



n
1
2
−
( mi x ) ⋅ n i
∑
n i=1



3
Einführende Statistik - Deskriptive Maßzahlen
Wölbung (Kurtosis) einer Verteilung






Die Wölbung oder Kurtosis beschreibt die Steilheit bzw. „Spitzigkeit“
einer (eingipfeligen) Häufigkeitsverteilung.
Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei
Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus
extremen, aber seltenen Ereignissen.
Um das Ausmaß der Wölbung besser einschätzen zu können, wird sie mit
der Wölbung einer Gauß‘schen Glockenkurve (Normalverteilung)
verglichen, deren Wölbung konstant 3 ist.
Der Exzess gibt die Differenz der Wölbung einer empirischen Verteilung
zur Wölbung einer Gauß‘schen Glockenkurve an.
Der Exzess ist daher definiert als:
Exzess = Wölbung -3
87
Einführende Statistik - Deskriptive Maßzahlen
Momentenkoeffizient der Wölbung (Kurtosis)
Ermittlung des Exzesses


Im Fall von Einzeldaten:
=
γ
Bei klassierten
Daten
=
γ
88
4. Zentrales Moment
1 n
4
( xi − x )
∑
n i =1
1
2
x
x
−
) 
n ∑( i
 i =1

n
2
−3
1 k
4
( mi − x ) ⋅ n i
∑
n i=1
1

2
−
⋅
m
x
n
) i
 n ∑( i
 i=1

n
2
−3
Einführende Statistik - Deskriptive Maßzahlen
Wölbung (Kurtosis) einer Verteilung




Verteilungen werden entsprechend ihres
Exzesses eingeteilt in:
γ = 0: normalgipflig oder mesokurtisch
Empirische Wölbung entspricht der Wölbung
einer Gauß‘schen Glockenkurve (blaue Linie)
γ > 0 : steilgipflig oder leptokurtisch.
Im Vergleich zur Normalverteilung eine spitzere
Verteilung, d.h. mit stark ausgeprägten Peak.
γ < 0 : flachgipflig oder platykurtisch.
Im Vergleich zur Normalverteilung abgeflachte
Verteilung.
89
Einführende Statistik - Deskriptive Maßzahlen
Beispiel (siehe auch XLS)
mi
Klasse
0-2
2-4
4-6
6-8
8-10
10-12
12-14
Gruppe A
1
3
5
7
9
11
13
Sm =
90
0
12
24
28
24
12
0
100



Gruppe B
4
4
20
44
20
4
4
100
Schiefe
Gruppe C
0
4
40
24
20
8
4
100
0
-768
-192
0
192
768
0
0
0
-864
-256
-160
0
160
256
864
0
0
1 k
3
( mi − x ) ⋅ n i
∑
n i=1
=
γ
3

1 n
2
( mi − x ) ⋅ n i 
∑
n i=1

Wölbung
0
-256
-320
0
160
512
864
960
0,694
0
3072
384
0
384
3072
0
6912
-0,9167
5184
1024
320
0
320
1024
5184
13056
0,9352
0
1024
640
0
320
2048
5184
9216
-0,2222
1 k
4
( mi − x ) ⋅ n i
∑
n i=1
1 n

2
m
x
n
−
⋅
) i
 n ∑( i
 i=1

2
−3
Einführende Statistik - Deskriptive Maßzahlen
Herunterladen