Normierte Entropie - Ruhr

Werbung
WISTA
WIRTSCHAFTSSTATISTIK
PROF. DR. ROLF HÜPEN
FAKULTÄT FÜR
WIRTSCHAFTSWISSENSCHAFT
Seminar für Theoretische Wirtschaftslehre
Vorlesungsprogramm 14.05.2013
Streuungsmaße
1.
Normierte Entropie
2.
Spannweite, Quartilsabstand, Boxplot
3.
Standardabweichung, Variationskoeffizient
Literatur:
Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 37-50.
Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl.,
Berlin-Heidelberg-New York 2009, S. 79-109.
von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online Ausgabe S. 83-119.
Übungsaufgaben:
SS 00, A1 b); WS 00/01, A2; SS 01, A3; SS05, A1 b);
WS 08/09, A2; WS 10/11, A1; WS 11/12, A1 c), A4.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Streuungsmaße
Begriff
Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines
Merkmals bzw. der Homogenität einer statistischen
Masse
Ziel:
Das Streuungsmaß soll darüber Aufschluss geben, inwieweit der
Mittelwert tatsächlich die zentrale Tendenz einer statistischen Masse
repräsentiert. Streuungsmaße sind wichtige Ergänzungen zu
Mittelwerten und können als Gütekriterium für den Mittelwert
interpretiert werden. Bei geringer Streuung ist der Mittelwert eher ein
typischer Wert einer Verteilung als bei einer starken Variabilität der
Daten.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
2
Streuungsmaße
Begriff
Beispiel in Anlehnung an v. d. Lippe 1993, S. 84f: Vier Häufigkeitsverteilungen mit identischem
Modus, Median und arithmetischem Mittel: Mod = Med = AM = 3.
Verteilung A
xi
hi
fi
Verteilung B
xi
hi
fi
3
2
3
4
10
1
12
2
6
2
Verteilung C
xi
hi
fi
1
1
0,1
2
2
0,2
3
4
0,4
4
2
0,2
5
1
0,1
0,2
0,6
0,2
10
9
8
7
6
5
4
3
2
1
0
10
8
6
4
2
0
1
2
3
4
5
Verteilung D
xi
hi
fi
1
2
0,2
2
2
0,2
3
2
0,2
4
2
0,2
5
2
0,2
10
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
8
6
4
2
0
1
2
3
4
5
1
2
3
4
5
Die Streuung nimmt von links nach rechts zu. Bei Verteilung A (sogenannte Einpunktverteilung)
ist sie Null, der Mittelwert repräsentiert die Verteilung vollständig. Verteilung D ist eine
sogenannte „Gleichverteilung“ (Rechteckverteilung), alle 𝑚 verschiedenen Merkmalsausprägungen sind gleich häufig  𝑓𝑖 = 1/𝑚 ∀𝑖 und es gibt keinen Modalwert.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
3
Streuungsmaße
Begriff
In Abhängigkeit vom Skalenniveau sind folgende Paare von Mittelwert und Streuungsmaß
zulässig:
Ab Nominalskala:
Modus
–
normierte Entropie
Ab Intervallskala:
Median
–
mittlerer Quartilsabstand,
mittlere Spannweite
Ab Intervallskala:
Arithmetisches Mittel
–
Standardabweichung
Ab Verhältnisskala:
Arithmetisches Mittel
–
Variationskoeffizient
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
4
Streuungsmaße
Entropie
Die Entropie E eignet sich als Streuungsmaß bereits für nominalskalierte Merkmale,
weil sie nur von den (relativen) Häufigkeiten, nicht aber von den Merkmalswerten
abhängig ist.
𝑚
𝐸=
𝑖=1
𝑚
1
𝑓𝑖 ⋅ 𝑙𝑑
𝑓𝑖
⇔
𝐸= −
𝑓𝑖 ⋅ 𝑙𝑑 𝑓𝑖
𝑖=1
𝑚 = Anzahl der voneinander verschiedenen Merkmalsausprägungen
𝑓𝑖 = relative Häufigkeit der Merkmalsausprägung 𝑥𝑖
𝑖 = 1, … , 𝑚
𝑙𝑑
= 𝑙𝑜𝑔2
= Logarithmus zur Basis 2 logarithmus dualis
0 ∙ 𝑙𝑑 0 ≡ 0
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
5
Streuungsmaße
Entropie
Wegen
𝑚
−
𝑚
𝑓𝑖 ⋅ 𝑙𝑑 𝑓𝑖
= −
𝑖=1
1
= ⋅
𝑛
𝑖=1
𝑚
𝑖=1
𝑚
ℎ𝑖
ℎ𝑖
⋅ 𝑙𝑑
𝑛
𝑛
=−
𝑖=1
ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 − 𝑙𝑑 𝑛
𝑛
1
[ℎ𝑖 ⋅ 𝑙𝑑 𝑛 − ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 ] = ⋅ 𝑛 ⋅ 𝑙𝑑 𝑛 −
𝑛
𝑚
[ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 ]
𝑖=1
gilt auch:
𝐸 = 𝑙𝑑 𝑛 −
1
∙
𝑛
𝑚
ℎ𝑖 ∙ 𝑙𝑑 ℎ𝑖
𝑖=1
ℎ𝑖 = absolute Häufigkeit der Merkmalsausprägung 𝑥𝑖
𝑚
𝑛 =
ℎ𝑖 = Anzahl der Beobachtungswerte
𝑖=1
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
6
Streuungsmaße
normierte Entropie
Bei einer Einpunktverteilung (keine Streuung!) ist 𝑬 = 𝟎. Bei einer Gleichverteilung
𝑛
1
ℎ𝑖 = ⟺ 𝑓𝑖 =
∀𝑖 = 1, … , 𝑚 nimmt die Entropie ihren maximalen Wert 𝑬 = 𝒍𝒅(𝒎) an.
𝑚
𝑚
Also gilt für den Wertebereich der Entropie:
𝟎 ≤ 𝑬 ≤ 𝒍𝒅(𝒎)
Es ist üblich, die Entropie zu normieren:
𝑬𝒏𝒐𝒓𝒎 =
𝑬
𝒍𝒅(𝒎)
Die normierte Entropie kann dann nur noch Werte zwischen Null und Eins annehmen:
𝟎 ≤ 𝑬𝒏𝒐𝒓𝒎 ≤ 𝟏
Für die Berechnung der normierten Entropie muss nicht der duale Logarithmus, sondern es kann
jeder beliebige Logarithmus, also z.B. der natürliche oder der dekadische, verwendet werden. Die
Berechnung mittels Taschenrechner ist also „handlicher“. Die Formel lautet:
𝑚
𝑖=1
𝑬𝒏𝒐𝒓𝒎
ℎ𝑖 ⋅ log(ℎ𝑖 )
log 𝑛 −
𝑛
=
=
log(𝑚)
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
𝒎
𝒊=𝟏
𝒇𝒊 ⋅ 𝐥𝐨𝐠
𝟏
𝒇𝒊
𝒍𝒐𝒈(𝒎)
7
Streuungsmaße
Entropie
Zahlenbeispiel
Im anfangs angeführten Beispiel erhält man:
Nicht normierte Entropie:
Verteilung A:
𝐸 = 1 ∙ 𝑙𝑑 1 = 0
Verteilung B: 𝐸 = 0,2 ∙ 𝑙𝑑
1
0,2
+ 0,6 ∙ 𝑙𝑑
1
0,6
+ 0,2 ∙ 𝑙𝑑
1
0,2
= 1,3710
Verteilung C: 𝐸 = 0,1 ∙ 𝑙𝑑
1
0,1
+ 0,2 ∙ 𝑙𝑑
1
0,2
+ 0,4 ∙ 𝑙𝑑
1
0,4
+ 0,2 ∙ 𝑙𝑑
Verteilung D: 𝐸 = 5 ∙ 0,2 ∙ 𝑙𝑑
1
0,2
1
0,2
+ 0,1 ∙ 𝑙𝑑
1
0,1
= 2,1219
= 𝑙𝑑 5 = 2,3219
Normierte Entropie:
Verteilung A:
𝐸𝑛𝑜𝑟𝑚 = 0 𝑙𝑑 1 = 0
Verteilung B:
𝐸𝑛𝑜𝑟𝑚 = 1,3710 𝑙𝑑 3 = 1,3710 1,5850 = 0,8650
Verteilung C:
𝐸𝑛𝑜𝑟𝑚 = 2,1219 𝑙𝑑 5 = 2,1219 2,3219 = 0,9139
Verteilung D:
𝐸𝑛𝑜𝑟𝑚 = 2,3219 2,3219 = 1
Hinweis: In der Informationstheorie wird die Entropie als Maß für den Informationsgehalt einer Nachricht
verwendet. In der Physik misst sie den Anteil gebundener, d.h. nicht mehr zur Abgabe von Arbeit verwendbarer
Energie (2. Hauptsatz der Thermodynamik).
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
8
Streuungsmaße
Normierte Entropie
Zahlenbeispiel
Nochmals: Berechnung der normierten Entropie
𝑚
Verteilung B
xi
hi
fi
2
2
0,2
3
6
0,6
4
2
0,2
𝐸𝑛𝑜𝑟𝑚 =
𝐸𝑛𝑜𝑟𝑚 =
0,2 ⋅ log
𝑖=1
𝑓𝑖 ∙ log
1
𝑓𝑖
log 𝑚
1
1
1
+ 0,6 ⋅ log
+ 0,2 ⋅ log
0,2
0,6
0,2
= 0,8650
log(3)
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
9
Streuungsmaße
Normierte Entropie
Zahlenbeispiel
Nochmals: Berechnung der normierten Entropie
𝑚
Verteilung C
xi
hi
fi
1
1
0,1
2
2
0,2
3
4
0,4
4
2
0,2
5
1
0,1
𝐸𝑛𝑜𝑟𝑚 =
0,1 ⋅ log
𝐸𝑛𝑜𝑟𝑚 =
𝑖=1
𝑓𝑖 ∙ log
1
𝑓𝑖
log 𝑚
1
1
1
1
1
+ 0,2 ⋅ log
+ 0,4 ⋅ log
+ 0,2 ⋅ log
+ 0,1 ⋅ log
0,1
0,2
0,4
0,2
0,1
= 0,9139
log(5)
Daumenregel:
Ist 𝐸𝑛𝑜𝑟𝑚 > 0,7, dann gilt die Streuung als groß und der Modus gilt als schlechter Repräsentant
der Verteilung.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
10
Streuungsmaße
Spannweite
Spannweite (range) R = Differenz zwischen dem größten und dem
kleinsten Beobachtungswert.
Berechnung der Spannweite:
•
Datenlage A (𝑛 Einzelwerte):
𝑅 = 𝑥(𝑛) − 𝑥(1)
Geordnete Urliste 𝑥(1) ≤ 𝑥(2) ≤ ⋯ ≤ 𝑥(𝑛)
•
Datenlage B (Häufigkeitsverteilung, 𝑚 Merkmalsausprägungen):
𝑅 = 𝑥𝑚 − 𝑥1
Differenz zwischen größter und kleinster Merkmalsausprägung.
•
Kaum gebräuchlich bei Datenlage C (gruppierte Daten, 𝑘 Klassen):
𝑅 = 𝑎𝑘 − 𝑎0
Differenz zwischen Obergrenze der letzten und Untergrenze der ersten Klasse.
Eigenschaften der Spannweite:
• Sehr einfache Berechnung
• Beschreibt den gesamten Streubereich der Beobachtungswerte.
• Nur die beiden extremen, unter Umständen atypische, Beobachtungswerte gehen in die
Berechnung ein.
• außerordentlich empfindlich gegenüber Ausreißern.
• Anwendung bei Ausreißertests und in der statistischen Qualitätskontrolle.
• wird wegen der genannten Einwände aber kaum verwendet.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
11
Streuungsmaße
Quartilsabstand
Quartilsabstand =
𝑸𝟑 − 𝑸𝟏
Der Quartilsabstand
•
•
•
misst die Differenz zwischen dem oberen und unterem Quartil.
beschreibt den Bereich, in dem die mittleren 50% der geordneten Beobachtungswerte liegen.
ist unempfindlich gegenüber Ausreißern.
Im Zahlenbeispiel aus der Absolventenumfrage, Merkmal „Lebensalter beim Examen“ gilt:
(Min ; Q1 ; Q2 ; Q3 ; Max) = (23 ; 26 ; 27 ; 29 ; 34)
 Spannweite = 34 – 23 = 11 Jahre
 Quartilsabstand = 29 – 26 = 3 Jahre
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
12
Streuungsmaße
Boxplot
Boxplot = Graphische Darstellung elementarer Informationen einer
Häufigkeitsverteilung (Median, Quartilsabstand, Spannweite)
Min
Q1
Q1 – ½ Quartilsabstand
Q2
Q3
Max
Q3 + ½ Quartilsabstand
Referenzskala
• Aus dem Box-Plot lässt sich sofort ablesen, ob die Verteilung linkssteil, rechtssteil oder symmetrisch ist.
• Beobachtungswerte außerhalb der Grenzen 𝑄3 + 12 ⋅ 𝑄3 −𝑄1 bzw. 𝑄1 − 12 ⋅ 𝑄3 −𝑄1 gelten als Ausreißerverdächtig.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
13
Streuungsmaße
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Boxplot
Beispiel
14
Streuungsmaße
Boxplot
einfache Häufigkeit
absolut
relativ
hi
fi
1
0,0256
1
0,0256
6
0,1538
Zahlenbeispiel
kumulierte Häufigkeit
absolut
relativ
Hi
Fi
1
0,0256
2
0,0513
8
0,2051
Nr.
Merkmalsausprägung
i
1
2
3
xi
23
24
25
4
26
10
0,2564
18
0,4615
5
6
7
8
9
10
11
12
27
28
29
30
31
32
33
34
Summe
4
5
4
4
2
1
0
1
39
0,1026
0,1282
0,1026
0,1026
0,0513
0,0256
0,0000
0,0256
1
22
27
31
35
37
38
38
39
0,5641
0,6923
0,7949
0,8974
0,9487
0,9744
0,9744
1
22
23
24
25
26
27
28
29
30
Zahlenbeispiel Absolventenumfrage,
Merkmal Alter
Minimum = 23 Jahre
Maximum = 34 Jahre
Q1 = 26 Jahre
Q2 = 27 Jahre
Q3 = 29 Jahre
Spannweite = 34 – 23 = 11 Jahre
Quartilsabstand = 29 – 26 = 3 Jahre
31
32
33
34
35
Lebensalter beim Examen
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
15
Streuungsmaße
Mittlere Spannweite
Mittlere Spannweite (MSP) =
𝑀𝑆𝑃 = −
•
•
•
•
•
•
Wertepaar in Prozent, das darüber informiert,
um wie viel Prozent der größte bzw. kleinste
Wert vom Median abweicht.
𝑄2 − 𝑀𝑖𝑛
𝑀𝑎𝑥 − 𝑄2
⋅ 100 ;
⋅ 100
𝑄2
𝑄2
MSP ist ein relatives Streuungsmaß.
Das Merkmal muss mindestens verhältnisskaliert sein.
MSP informiert über die Streuung insgesamt.
Die Verteilung ist
 linkssteil, wenn 𝑄2 – 𝑀𝑖𝑛 < 𝑀𝑎𝑥 – 𝑄2.
 symmetrisch, wenn 𝑄2 – 𝑀𝑖𝑛 ≈ 𝑀𝑎𝑥 – 𝑄2.
 rechtssteil, wenn 𝑄2 – 𝑀𝑖𝑛 > 𝑀𝑎𝑥 – 𝑄2.
Da die MSP sich auf den Median bezieht, kann sie als
Gütekriterium für den Median herangezogen werden.
Üblich ist folgende Daumenregel:
Die Streuung gilt als gering, wenn die Summe der
Absolutbeträge der beiden Prozentzahlen der MSP
kleiner als 200% ist.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Im Zahlenbeispiel aus der Absolventenumfrage,
Merkmal „Lebensalter beim Examen“ mit
(𝑀𝑖𝑛; 𝑄1; 𝑄2; 𝑄3; 𝑀𝑎𝑥) = (23; 26; 27; 29; 34) ist
27 − 23
34 − 27
⋅ 100 ;
⋅ 100
27
27
= (−14,8% ; +25,9%)
𝑀𝑆𝑃 = −
 linkssteile Verteilung, da 14,8% < 25,9%
Da −14,8 + 25,9 = 40,7 < 200, ist der Median
ein recht guter Repräsentant der Verteilung.
16
Streuungsmaße
Mittlerer Quartilsabstand
Mittlerer Quartilsabstand (MQA) = prozentuale Abweichung des oberen bzw.
unteren Quartils vom Median.
𝑀𝑄𝐴 = −
•
•
•
•
•
𝑄2 − 𝑄1
𝑄3 − 𝑄2
⋅ 100 ;
⋅ 100
𝑄2
𝑄2
MQA ist ein relatives Streuungsmaß.
Das Merkmal muss mindestens verhältnisskaliert sein.
MQA informiert über die Streuung und den
Verteilungstyp in der Mitte der Verteilung, also über die
mittleren 50% aller Beobachtungswerte.
Die Verteilung ist in der Mitte
 linkssteil, wenn 𝑄2 − 𝑄1 < 𝑄3 − 𝑄2.
 symmetrisch, wenn 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2.
 rechtssteil, wenn 𝑄2 − 𝑄1 > 𝑄3 − 𝑄2.
Daumenregel:
Die Streuung gilt in der Mitte als gering, wenn die
Summe der Absolutbeträge der beiden Prozentzahlen
der MQA kleiner als 100% ist.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
Im Zahlenbeispiel aus der Absolventenumfrage,
Merkmal „Lebensalter beim Examen“ mit
(𝑀𝑖𝑛; 𝑄1; 𝑄2; 𝑄3; 𝑀𝑎𝑥) = (23; 26; 27; 29; 34) ist
27 − 26
29 − 27
⋅ 100 ;
⋅ 100
27
27
= (−3,7% ; +7,4%)
𝑀𝑄𝐴 = −
 In der Mitte linkssteil, da 3,7% < 7,4%
Da −3,7 + +7,4 = 11,1 < 100, ist der Median
ein recht guter Repräsentant der mittleren 50%
der Verteilung.
17
Streuungsmaße
Varianz und Standardabweichung
Mittlere quadratische Abweichung 𝒔𝟐 (Varianz)
= durchschnittliche quadratische Abweichung der Beobachtungswerte von
ihrem arithmetischen Mittel 𝑥
Die Berechnung hängt von der Datenlage ab:
Datenlage A:
Datenlage B:
Datenlage C:
1
𝑠2 = ⋅
𝑛
1
𝑠2 = ⋅
𝑛
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
1
𝑠2 = ⋅
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
𝑚
𝑚
ℎ𝑖 ∙ 𝑥𝑖 − 𝑥
2
=
𝑖=1
𝑖=1
𝑘
𝑘
ℎ𝑖 ∙ 𝑥𝑖 − 𝑥
𝑖=1
2
2
=
𝑓𝑖 ∙ 𝑥𝑖 − 𝑥
2
𝑓𝑖 ∙ 𝑥𝑖 − 𝑥
2
𝑖=1
18
Streuungsmaße
Varianz und Standardabweichung
Standardabweichung 𝒔
= positive Quadratwurzel aus der Varianz
•
𝑠 = + 𝑠2
•
s besitzt dieselbe Dimension wie das Untersuchungsmerkmal.
•
Informationen über die Größenordnung der Werte gehen bei der Berechnung von s bzw. s2
verloren. Beispiel: (200-400)² = (2200 – 2400)² = 40.000.
•
Konstruktionsprinzip: durchschnittliche Abweichung der Merkmalswerte vom arithmetischen
Mittel 𝑥.
•
Da die Summe der einfachen Abweichungen von 𝑥 gleich Null ist (Schwerpunkteigenschaft),
nimmt man die quadratischen Abweichungen.
•
Da das arithmetische Mittel die Summe der quadratischen Abweichungen minimiert
(Minimaleigenschaft von 𝑥), passen 𝑠 bzw. 𝑠 2 besonders gut zum arithmetischen Mittel.
•
Normalverteilung: Lage der Wendepunkte. Ferner gilt:
Im Bereich 𝑥 ± 𝑠 liegen ca. 68% der Beobachtungswerte.
Im Bereich 𝑥 ± 2𝑠 liegen ca. 95% der Beobachtungswerte.
Im Bereich 𝑥 ± 3𝑠 liegen ca. 99% der Beobachtungswerte, also praktisch alle.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
19
Streuungsmaße
Variationskoeffizient
Variationskoeffizient 𝒗
𝑣=
𝑠
∙ 100
𝑥
•
𝑣 = Standardabweichung in Prozent des arithmetischen Mittels.
•
𝑣 setzt die Streuung in Beziehung zur Größenordnung der Merkmalsausprägungen.
•
𝑣 ist ein relatives Streuungsmaß und erst ab Verhältnisskalenniveau sinnvoll zu berechnen.
•
𝑥 muss von Null verschieden und positiv sein, damit 𝑣 sinnvoll interpretiert werden kann.
•
𝑣 ist dimensionslos und damit maßstabsunabhängig. 𝑣 kann daher zum Vergleich der
Streuung unterschiedlicher statistischer Massen herangezogen werden.
•
Daumenregel: Die Streuung gilt als gering, wenn 𝑣 < 100% ist. Das arithmetische Mittel
gilt in diesem Fall als guter Repräsentant der Verteilung.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
20
Streuungsmaße
Standardabweichung, Variationskoeffizient
Zahlenbeispiel
Zahlenbeispiel Absolventenumfrage, Merkmal „Alter“
Nr.
i
1
2
3
4
5
6
7
8
9
10
11
12
Merkmalsausprägung
xi
23
24
25
26
27
28
29
30
31
32
33
34
Summe
einfache Häufigkeit
absolut
hi
1
1
6
10
4
5
4
4
2
1
0
1
39
relativ
fi
0,0256
0,0256
0,1538
0,2564
0,1026
0,1282
0,1026
0,1026
0,0513
0,0256
0,0000
0,0256
1
kumulierte
Häufigkeit
absolut
relativ
Hi
Fi
1
0,0256
2
0,0513
8
0,2051
18
0,4615
22
0,5641
27
0,6923
31
0,7949
35
0,8974
37
0,9487
38
0,9744
38
0,9744
39
1
Es liegt Datenlage B vor.
Passende Formel:
1
𝑠2 = ⋅
𝑛
𝑚
ℎ𝑖 ∙ 𝑥𝑖 − 𝑥
2
𝑖=1
bzw.
𝑚
𝑠2
=
𝑓𝑖 ∙ 𝑥𝑖 − 𝑥
2
𝑖=1
Zur Berechnung der Standardabweichung und des Variationskoeffizienten stellt man
zweckmäßigerweise eine Arbeitstabelle auf, die die notwendigen Spalten enthält.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
21
Streuungsmaße
Standardabweichung, Variationskoeffizient
Zahlenbeispiel
Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage
i
xi
1
23
2
24
3
25
4
26
5
27
6
28
7
29
8
30
9
31
10
32
11
33
12
34
Summe
𝑥=
1069
= 27,41
39
2
hi
ℎ𝑖 ∙ 𝑥𝑖
𝑥𝑖 − 𝑥
𝑥𝑖 − 𝑥
1
1
6
10
4
5
4
4
2
1
0
1
39
23
24
150
260
108
140
116
120
62
32
0
34
1 069
-4,4103
-3,4103
-2,4103
-1,4103
-0,4103
0,5897
1,5897
2,5897
3,5897
4,5897
5,5897
6,5897
19,4504
11,6298
5,8093
1,9888
0,1683
0,3478
2,5273
6,7068
12,8863
21,0657
31,2452
43,4247
𝑠2 =
215,4359
= 5,52
39
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
𝑠=
ℎ𝑖 ∙ 𝑥𝑖 − 𝑥
2
Formel:
1
𝑠2 = ⋅
𝑛
19,4504
11,6298
34,8560
19,8882
0,6732
1,7390
10,1091
26,8271
25,7725
21,0657
0,0000
43,4247
215,4359
5,52 = 2,35
𝑣=
𝑚
ℎ𝑖 ∙ 𝑥𝑖 − 𝑥
𝑖=1
2,35
⋅ 100 = 8,57%
27,41
22
2
Streuungsmaße
Standardabweichung
Verschiebungssatz
Zur Berechnung der Standardabweichung
Liegen n Einzelwerte vor (Datenlage A), kann die Varianz 𝑠 2 wegen
1
𝑠2 = ∙
𝑛
𝑛
𝑥𝑖 − 𝑥
𝑖=1
2
1
= ⋅
𝑛
𝑛
𝑥𝑖2 − 2 ⋅ 𝑥𝑖 ⋅ 𝑥 + 𝑥
1
= ⋅
𝑛
2
𝑖=1
auch mit der Formel
1
𝑠2 = ∙
𝑛
𝑛
𝑖=1
2⋅𝑥
𝑥𝑖2 −
⋅
𝑛
𝑛
𝑖=1
2
𝑛⋅𝑥
1
𝑥𝑖 +
= ⋅
𝑛
𝑛
𝑛
2
𝑥𝑖2 − 2 ⋅ 𝑥 + 𝑥
2
𝑖=1
𝑛
𝑥𝑖 2 − 𝑥
2
𝑖=1
berechnet werden.
Liegen die Daten als Häufigkeitstabelle vor (Datenlage B und C), gilt entsprechend:
1
𝑠2 = ∙
𝑛
bzw.
𝑛
ℎ𝑖 ∙ 𝑥𝑖 2 − 𝑥
2
𝑖=1
𝑛
𝑠2 =
𝑓𝑖 ∙ 𝑥𝑖 2 − 𝑥
2
𝑖=1
mit 𝑖 = 1, … , 𝑚 verschiedenen Merkmalsausprägungen 𝑥𝑖 (Datenlage B) bzw. 𝑖 = 1, … , 𝑚 Klassen mit den Mittelpunkten 𝑥𝑖 (Datenlage C).
Für die Berechnung der Standardabweichung in der Praxis haben diese Formeln den Vorteil, dass man die
Abweichungen der Beobachtungswerte vom arithmetischen Mittel nicht kennen muss.
Die letzte Formel (mit relativen Häufigkeiten) hat darüber hinaus den Vorteil, dass im Zuge der Berechnung
nicht so große Zahlen entstehen.
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
23
Streuungsmaße
Standardabweichung, Variationskoeffizient
Zahlenbeispiel
Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage
i
xi
1
23
2
24
3
25
4
26
5
27
6
28
7
29
8
30
9
31
10
32
11
33
12
34
Summe
𝑥=
1069
= 27,41
39
hi
ℎ𝑖 ∙ 𝑥𝑖
𝑥𝑖 2
ℎ𝑖 ∙ 𝑥𝑖 2
1
1
6
10
4
5
4
4
2
1
0
1
39
23
24
150
260
108
140
116
120
62
32
0
34
1 069
529
576
625
676
729
784
841
900
961
1 024
1 089
1 156
529
576
3 750
6 760
2 916
3 920
3 364
3 600
1 922
1 024
0
1 156
29 517
𝑠2 =
29517
− 27,412 = 5,52
39
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
𝑠=
Formel:
1
𝑠2 = ⋅
𝑛
5,52 = 2,35
𝑚
ℎ𝑖 ∙ 𝑥𝑖 2 − 𝑥
2
𝑖=1
𝑣=
2,35
⋅ 100 = 8,57%
27,41
24
Streuungsmaße
Standardabweichung, Variationskoeffizient
Zahlenbeispiel
Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage
i
xi
1
23
2
24
3
25
4
26
5
27
6
28
7
29
8
30
9
31
10
32
11
33
12
34
Summe
𝑥 = 27,41
fi
𝑓𝑖 ∙ 𝑥𝑖
𝑥𝑖 2
0,0256
0,0256
0,1538
0,2564
0,1026
0,1282
0,1026
0,1026
0,0513
0,0256
0,0000
0,0256
1,0000
0,5897
0,6154
3,8462
6,6667
2,7692
3,5897
2,9744
3,0769
1,5897
0,8205
0,0000
0,8718
27,4103
529
576
625
676
729
784
841
900
961
1 024
1 089
1 156
𝑠 2 = 756,8462 − 27,412 = 5,52
𝑓𝑖 ∙ 𝑥𝑖 2
𝑠=
Formel:
𝑚
13,5641
14,7692
96,1538
173,3333
74,7692
100,5128
86,2564
92,3077
49,2821
26,2564
0,0000
29,6410
756,8462
𝑠2 =
5,52 = 2,35
𝑣=
𝑓𝑖 ∙ 𝑥𝑖 2 − 𝑥
2
𝑖=1
2,35
⋅ 100 = 8,57%
27,41
Klausuraufgabe …
Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013
25
Herunterladen
Explore flashcards