Statistik4MWStand

Werbung
Maße der zentralen Tendenz
• Modalwert / Modus
• häufigster Wert
• bei klassifizierten Werten: die Klassenmitte der
am stärksten besetzten Klasse
• Notation: X Mo
• ab Nominalskala
• Modus ist nicht die Häufigkeit, sondern die
Variablenausprägung
• bimodale Verteilungen: 2 häufige Werte
Modus klassifizierter Daten
Einkommensklasse
von ... bis unter ...
Klassenmitte
l
xl
0 - 2000
absolute und relative
Häufigkeiten
kumulierte absolute und
relative Häufigkeiten
fl
pl
cfl
cpl
1000
1
0,083
1
0,083
2000 - 4000
3000
6
0,500
7
0,583
4000 - 6000
5000
3
0,250
10
0,833
6000 - 8000
7000
1
0,083
11
0,916
8000 und mehr
(9000)
1
0,083
12
0,999
12
0,999

Verwende Klassenmitte der häufigsten Klasse:
Modus = 3000
Median
~
Notation: X (X Tilde)
teilt Werte in 2 gleich große Hälften
ab Ordinalskala
bei ungeradem N: Wert der mittleren Person
bei geradem N: Mittelwert der beiden mittleren
Personen (dies nur bei Intervallskala)
bei mehrfach auftretenden Werten:
3 6 7 8 8 8 9 9 10 12
Uminterpretieren des Medians (mindestens die Hälfte
der Personen liegt unter/über 8)
oder lineare Interpolation (Median=8.17 siehe
Benninghaus)
Median der 12 Einkommensangaben (1)
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die
Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der
Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert,
der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten
Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller
Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen
gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man
verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert,
wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf
gültige Einkommensangaben, so dass wir in diesem Beispiel von einer
geraden Anzahl von Fällen ausgehen müssen.
Median der 12 Einkommensangaben (2)
Rang
(i)
Einkommen
x(i)
1
1600
2
2300
3
2300
4
2400
5
2900
6
3200
7
3500
8
4500
9
4600
10
5200
11
6500
12
12000
Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der
Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350.
Median klassifizierter Daten (1)
Einkommensklasse
von ... bis unter ...
Klassenmitte
l
xl
0 - 2000
absolute und relative
Häufigkeiten
kumulierte absolute und
relative Häufigkeiten
fl
pl
cfl
cpl
1000
1
0,083
1
0,083
2000 - 4000
3000
6
0,500
7
0,583
4000 - 6000
5000
3
0,250
10
0,833
6000 - 8000
7000
1
0,083
11
0,916
8000 und mehr
(9000)
1
0,083
12
0,999
12
0,999

Daten: Diekmann (1995).
Median klassifizierter Daten (2)
Verwende lineare Interpolation im Medianintervall
2000-4000 = Medianintervall
2000 = cmu (exakte untere Grenze des Medianintervalls)
12 = n (Stichprobenumfang)
1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls)
6 = fm (Häufigkeit im Medianintervall)
2000 = cmo - cmu (Breite des Medianintervalls)
Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm]
3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]
Arithmetisches Mittel
Notation: x quer
ab Intervallskalenniveau
nicht robust gegenüber Ausreißern, alle Werte gehen ein
Arithmetisches Mittel der 12 Einkommensangaben
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die
folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben.
Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt
durch die Anzahl der Fälle
Fall-Nr.
i
Einkommen
xi
1
2
3
4
5
6
7
8
11
13
14
15
Summe
3500
2400
5200
3200
2300
4500
12000
6500
2300
4600
1600
2900
51000
Arithmetisches Mittel = xi/n = 51000/12 = 4250
Arbeitstabelle für MW bei gruppierten Daten
xi
1
2
3
fi
5
7
2
fi xi
5
14
6
Summe 14
Summe = 25
MW=25/14
Arithmetisches Mittel klassifizierter Daten (1)
Einkommensklasse
von ... bis unter ...
Klassenmitte
l
xl
0 - 2000
absolute und relative
Häufigkeiten
kumulierte absolute und
relative Häufigkeiten
fl
pl
cfl
cpl
1000
1
0,083
1
0,083
2000 - 4000
3000
6
0,500
7
0,583
4000 - 6000
5000
3
0,250
10
0,833
6000 - 8000
7000
1
0,083
11
0,916
8000 und mehr
(9000)
1
0,083
12
0,999
12
0,999

Daten: Diekmann (1995).
Arithmetisches Mittel klassifizierter Daten (2)
Verwende Klassenmitten
Arithm.Mittel = (1 . 1000 + 6 . 3000 + 3 . 5000 + 1 . 7000 + 1 . 9000) / 12
= 50000 / 12
= 4166,67 DM
= 0,083 . 1000 + 0,500 . 3000 + 0,250 . 5000 +
0,083 . 7000 + 0,083 . 9000
Spannweite
Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste).
Die Spannweite der Verteilung entspricht der Differenz zwischen dem
kleinsten und dem größten Merkmalswert. Dazu ist metrisches
Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt
man sich mit der Angabe des kleinsten und größten Werts (min, max).
Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der
obersten Klasse und der untersten Klasse.
Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser
Quartilsabstand (umfasst die mittleren 50%).
Quartilsabstand (1)
Ähnlich wie der Median die unteren 50% der Merkmalswerte von den
oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung
berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das
untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet
sie daher auch als untere und obere Quartile bzw. als erstes und drittes
Quartil (der Median ist quasi das zweite Quartil). Notation: QA.
Der Quartilsabstand entspricht der Differenz zwischen dem oberen
(dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich
die mittleren 50% der Merkmalswerte bewegen. Intervallskala
erforderlich.
Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des
Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der
Standardabweichung.
(Daten: Diekmann, 1995)
Quartilsabstand (2)
Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und
die berechneten Werte hängen sehr stark von der verwendeten Formel ab.
Rang (i)
Einkommen x(i)
1
2
3
4
5
6
7
8
9
10
11
12
1600
2300
2300
2400
2900
3200
3500
4500
4600
5200
6500
12000
Spannweite = 12000 - 1600 = 10400
Quartilsabstand = Q3 - Q1 = 4900 - 2350 = 2550
Quartile
Q1 = 2350
Q2 (Median) = 3350
Q3 = 4900
Varianz
quadrierte aufsummierte Abweichungen vom
Mittelwert, geteilt durch n bzw. n-1 (unquadrierte
Abweichungen würden immer 0 ergeben).
Intervallskalenniveau erforderlich
Varianz und Standardabweichung (1)
Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes
Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt
davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe
betrachtet:
• Stichprobe: Varianz = SAQx / (n-1)
• Totalerhebung: Varianz = SAQx / n
Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe
bzw. der Totalerhebung.
Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz.
Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht
durchschnittlich 7 Jahre vom Mittelwert ab.
Varianz und Standardabweichung (2): Arbeitstabelle
Fall-Nr.
i
Einkommen
xi
Arithmetisches Mittel
Abweichung
Quadrat
1
2
3
4
5
6
7
8
11
13
14
15
Summe
3500
2400
5200
3200
2300
4500
12000
6500
2300
4600
1600
2900
51000
4250
4250
4250
4250
4250
4250
4250
4250
4250
4250
4250
4250
51000
-750
-1850
950
-1050
-1950
250
7750
2250
-1950
350
-2650
-1350
0
562500
3422500
902500
1102500
3802500
62500
60062500
5062500
3802500
122500
7022500
1822500
87750000
Varianz und Standardabweichung (3)
Stichprobe (Divisor n-1=11)
Varianz = 87750000 / 11 = 7977272,73
Standardabweichung =  Varianz =  7977272,73 = 2824,41
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66
Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe,
sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen
müssen.
Grundgesamtheit (Divisor n=12)
Varianz = 87750000 / 12 = 7312500,00
Standardabweichung =  Varianz =  7312500,00 = 2589,04
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61
Standardabweichung klassifizierter Daten (1)
Einkommensklasse
von ... bis
unter ...
Klassen
mitte
Häufig
keit
Arithm.
Mittel
Abweichung von
Klassenmitte
quadrierte
Abweichung
0-2000
1000
1
4166,67
-3166,67
10027798,89
2000-4000
3000
6
4166,67
-1166,67
1361118,89
4000-6000
5000
3
4166,67
833,33
694438,89
6000-8000
7000
1
4166,67
2833,33
8027758,89
8000 und
mehr
9000
1
4166,67
4833,33
23361078,89
Daten: Diekmann (1995).
Standardabweichung klassifizierter Daten (2)
Verwende gewichtete Summe der Abweichungsquadrate
GSAQx = 1 . 10027798,89 + 6 . 1361118,89 + 3 . 694438,89 + 1 .
8027758,89 + 1 . 23361078,89 = 43472194,45
Varianz = GSAQx/(n-1) = 43472194,45 / (12-1) = 3952017,68
Standardabweichung =  Varianz = 3952017,68 = 1987,97
Zusammenfassung der Ergebnisse: Einkommen der Befragten
Es wurden 60 männliche Bedienstete der Verwaltung einer
westdeutschen Großstadt befragt. Insgesamt 58 Personen machten
Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der
befragten Personen bewegen sich im Bereich von 1300 DM bis 4300
DM. Sieht man einmal von den extrem niedrigen und den extrem hohen
Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen
1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient
weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen
2118,79 DM (Standardabweichung 619,60).
Mittelwerte und Streuungsmaße nach Messniveau (1)
Zentrale Tendenz (Mittelwerte)
Nominal
Ordinal
Intervall
Verhältnis
Modus
ja
ja
ja
ja
Median
nein
Ja
ja
ja
Arithm. Mittel
nein
nein
ja
ja
Geom. Mittel
nein
nein
nein
ja
Mittelwerte und Streuungsmaße nach Messniveau (2)
Streuung (Streuungsmaße)
Nominal
Ordinal
Intervall
Verhältnis
Spannweite
nein
(ja)
ja
ja
Quartilsabstand
nein
(ja)
ja
ja
Mittl. absolute
Abweichung
nein
nein
ja
ja
Varianz
Standardabweichung
nein
nein
ja
ja
Variationskoeffizient
nein
nein
nein
ja
Typische Verteilungsformen (1)
e) schmalgipflig
f) breitgipflig
g) u-förmig
h) -förmig
Typische Verteilungsformen (2)
a) unimodal
c) bimodal
c) rechtssteil/linksschief
d) linkssteil/rechtsschief
Weitere univariate Statistiken
• Schiefe: Maß für die Asymmetrie
• Exzess: Maß für die Steilheit
Die Lage der Mittelwerte in verschiedenen Verteilungen
linkssteil
symmetrisch
h
x
~
~
h x x
x
rechtssteil
~
x x h
Vergleich einer Verteilung mit der Standardnormalverteilung
• Wenn die relative Stellung einer Person bezogen auf
eine Stichprobe in Einheiten der Standardabweichung
ermittelt werden soll
• oder wenn die Werte zweier Tests einer Person, die
mit verschiedenen Maßeinheiten gemessen wurden,
verglichen werden sollen, werden die Werte ztransformiert:
• zi=xi-xquer / s
• symmetrische Verteilungen (Normalverteilungen)
werden so in eine Standardnormalverteilung
überführt, man kann aus Tabellen ablesen, wie viele
Werte unter einem bestimmten Wert liegen.
Herunterladen