3X = X

Werbung
Modus
Beispiel: Modus
Jugendliche (18-24 Jahre) in Westdeutschland
Parameter oder Kennwerte
einer Häufigkeitsverteilung sind Kenngrößen, mit deren
Hilfe die Verteilung z.T. oder vollständig rekonstruiert
werden kann
DWest =
Jugendliche (18-24 Jahre) in Ostdeutschland
Modus oder Modalwert (D)
einer Häufigkeitsverteilung ist der Wert der häufigsten
Merkmalsausprägung. Sind mehrere Ausprägungen gleich
häufig, gibt es mehrere Modalwerte
DOst =
Quelle: ALLBUS 2014
Müller-Benedict: Statistik I/3
1
2
Median
Modus für gruppierte Daten
EINK10
Gültig
Einkommen
in 1000erSchritten
Müller-Benedict: Statistik I/3
D=
Fehlend
Gesamt
1-1000
1001-2000
2001-3000
3001-4000
4001-5000
5001-6000
Gesamt
System
Häufigkeit
286
688
524
159
52
17
1726
1508
3234
Prozent
8,8
21,3
16,2
4,9
1,6
,5
53,4
46,6
100,0
Gültige
Prozente
16,6
39,9
30,4
9,2
3,0
1,0
100,0
~ ), (Z)
Median oder Zentralwert (X
eines Merkmals X ist ng des Falls in der Mitte der der
„Größe“ nach geordneten Fälle.
Bei einer geraden Anzahl wird die Ausprägung der beiden
in der Mitte liegenden Fälle gemittelt.
Kumulierte
Prozente
16,6
56,4
86,8
96,0
99,0
100,0
Schulabschluss:
1 = „kein“, 2 = „HS“, 3 = „RS“, 4 = „FHS“, 5 = „Abi“
EINK3
Einkommen
in 1500erSchritten
Gültig
D=
Fehlend
Gesamt
Müller-Benedict: Statistik I/3
1-1500
1501-3000
3001-4500
4501-6000
Gesamt
System
Häufigkeit
601
897
185
43
1726
1508
3234
Prozent
18,6
27,7
5,7
1,3
53,4
46,6
100,0
Gültige
Prozente
34,8
52,0
10,7
2,5
100,0
Kumulierte
Prozente
34,8
86,8
97,5
100,0
Abschlüsse von 11 Schülern: 3, 3, 4, 2, 4, 2, 1, 3, 2, 5, 2
~
Wert des 6. Falls: X
 3 = „RS“
Abschlüsse von 10 Schülern: 3, 4, 2, 4, 2, 1, 3, 2, 5, 2
~
Wert zwischen 5. und 6. Fall: X  2,5 = Mitte zw. „HS“ u. „RS“
3
Müller-Benedict: Statistik I/3
4
Beispiel Median
Median grafisch
Alte Bundesländer
120
100
~
X
=
80
Kumulative Prozent
60
Neue Bundesländer
~
X
=
50%
40
20
1950,0
0
00
0,
00
12 ,00
00
86 ,00
50
63 ,00
50
53 ,00
50
47 ,00
50
42 ,00
50
38 ,00
50
34 ,00
50
29 ,00
50
25 ,00
50
21 ,00
50
17 ,00
50
13 0
0
0,
95 0
0
0,
55 0
0
0,
15
Netto-Einkommen
Müller-Benedict: Statistik I/3
5
Müller-Benedict: Statistik I/3
6
Berechnung des Medians bei gruppierten Daten
Untergrenze der Messwertklasse des mittleren Falls plus der dem
mittleren Fall entsprechende Teil der Breite dieser Klasse
Eigenschaften des Medians
EINK3
Gültig
Fehlend
Gesamt
1-1500
1501-3000
3001-4500
4501-6000
Gesamt
System
Häufigkeit
601
897
185
43
1726
1508
3234
Prozent
18,6
27,7
5,7
1,3
53,4
46,6
100,0
Gültige
Prozente
34,8
52,0
10,7
2,5
100,0
Der Median ist nur für mindestens ordinal skalierte Daten
geeignet.
Der Median ist robust gegenüber „Ausreißern“.
Der Median ist der Wert, der den kleinsten „Abstand“ zu
allen anderen Werten gleichzeitig hat :
Kumulierte
Prozente
34,8
86,8
97,5
100,0

| xi – a | 
alle _ i
n = 1726 = gerade Zahl: mittlerer Fall = „Fall“ zwischen 863 und 864 = 863,5

~|
| xi - X
alle _ i
863,5  601
~
X  1501 
1500  1939,96
897
Müller-Benedict: Statistik I/3
7
Müller-Benedict: Statistik I/3
8
Mittelwert
Mittelwert oder arithmetisches Mittel
X
„In welchem Maße können Sie persönlich auf die Politik
Einfluss nehmen, wenn Sie in einer Partei mitarbeiten?“
Sei n = Anzahl der Fälle und xi die Ausprägung des i-ten
Falls. Dann ist
1
X = n
Wert
Überhaupt nicht
...
...
n
x
i 1
i
mittelmäßig
...
...
Sehr stark
Code
1
2
3
West
6
2
3
Ost
3
2
1
4
5
6
7
3
3
2
1
2
1
1
0
20
10
Summe
Müller-Benedict: Statistik I/3
9
Mittelwert
Müller-Benedict: Statistik I/3
10
Beispiel Mittelwert
Mittelwert oder arithmetisches Mittel
ERHEBUNGSGEBIET:
WEST - OST
ALTE BUNDESLAENDER
X
Gültig
Sei n = Anzahl der Fälle und xi die Ausprägung des i-ten
Falls. Dann ist
1
X = n
n
 xi
NEUE
BUNDESLAENDER
X
1
n
Fehlend
Gesamt
k
i
Müller-Benedict: Statistik I/3
UEBERHAUPT NICHT
i
i
i
i1
11
SEHR STARK
Gesamt
KEINE ANGABE
Häufigkeit
563
236
259
335
346
281
147
2167
45
2212
332
172
134
140
109
72
46
1005
17
1022
EINFLUSSNAHME: PARTEIMITARBEIT
ALTE BUNDESLAENDER N
Gültig
Fehlend
Mittelwert
Median
Modus
NEUE
N
Gültig
BUNDESLAENDER
Fehlend
Mittelwert
Median
Modus
 X f ( X )   X p( X )
i1
SEHR STARK
Gesamt
KEINE ANGABE
i 1
Berechnung des Mittelwerts über die Häufigkeitsverteilung
eines Merkmals X mit k Ausprägungen (Xi = i-te Ausprägung) :
k
Fehlend
Gesamt
Gültig
UEBERHAUPT NICHT
Müller-Benedict: Statistik I/3
Prozent
25,5
10,7
11,7
15,1
15,6
12,7
6,6
98,0
2,0
100,0
32,5
16,8
13,1
13,7
10,7
7,0
4,5
98,3
1,7
100,0
Gültige
Prozente
26,0
10,9
12,0
15,5
16,0
13,0
6,8
100,0
Kumulierte
Prozente
26,0
36,9
48,8
64,3
80,2
93,2
100,0
33,0
17,1
13,3
13,9
10,8
7,2
4,6
100,0
33,0
50,1
63,5
77,4
88,3
95,4
100,0
2167
45
3,51
4,00
1
1005
17
2,92
2,00
1
12
Gewichtung, Index
Beispiel Index
Zerlegung
ist eine Aufteilung des Datensatzes in k Teilgruppen von
Fällen, so das jeder Fall in genau eine Teilgruppe kommt.
Weitere Fragen zum Phänomen „Politikverdrossenheit“:
Können Sie durch Folgendes Einfluss nehmen?
Indem ich
...mich an Wahlen beteilige
...mich in Versammlungen an öff. Diskussionen beteilige
...in einer Bürgerinitiative mitarbeite
...in einer Partei aktiv mitarbeite
...Häuser, Fabriken, Ämter besetze
...an einer genehmigten Demonstration teilnehme
...
Gewichtung
ist die Zuordnung von Faktoren („Gewichten“) zu jeder
Teilgruppe einer Zerlegung.
Der Mittelwert eines Merkmals ist die Summe der mit ihrer
relativen Häufigkeit gewichteten Mittelwerte der Teilgruppen
einer Zerlegung.
Index
ist eine – möglicherweise gewichtete – Summe von Merkmalen.
Der Mittelwert eines Index von Merkmalen ist der Index
der Mittelwerte der Merkmale.
Müller-Benedict: Statistik I/3
13
Eigenschaften des Mittelwerts:
Der Mittelwert ist nicht robust gegenüber Ausreißern.
Der Mittelwert ist der Wert mit den kleinsten
Abstandsquadraten zu allen Werten, es gilt für alle a:

i1
(x i  a )
2

N

i1
(x i  X )2
N
=
14
Vergleich der drei Mittelwerte:
Von Modus über Median zu Mittelwert sind immer mehr
Informationen aus den Daten berücksichtigt.
Von Modus über Median zu Mittelwert steigt die
Empfindlichkeit gegenüber Ausreißern.
Modus, Median und Mittelwert benötigen immer höheres
Skalenniveau, um aussagekräftig zu sein.
Die Gesamtsumme aller Werte ist der N-fache Mittelwert:
 xi
Müller-Benedict: Statistik I/3
Residuen
Mittelwert: Eigenschaften
N
Index „Politikverdrossenheit“
= Summe der Werte zu allen diesen Fragen
NX
i 1
„Fehler“ oder Residuum eines Datums xi
ist die Differenz (xi – X ) des Datums vom Mittelwert.
Die Summe über alle Abweichungen vom Mittelwert ist 0:
N
 (x i  X )
=
0.
i 1
Müller-Benedict: Statistik I/3
15
Müller-Benedict: Statistik I/3
16
Mittelwert bei verschiedenen Verteilungen
Verteilungsformen
USA
8
6
ALTE BUNDESLAENDER
300
700
5
6
600
4
500
200
4
3
400
2
300
2
100
1
Häufigkeit
200
0
0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
10,0
11,0
12,0
E4
E1
100
0
0
1,0
2,0
3,0
4,0
5,0
6,0
0,0
7,0
2,0
1,0
20
4,0
3,0
6,0
5,0
8,0
7,0
10,0
9,0
12,0
11,0
14,0
13,0
16,0
15,0
18,0
17,0
19,0
WICHTIGKEIT: FREIZEIT UND ERHOLUNG
Number of Brothers and Sisters
BRD
600
500
X = 5,5
10
400
300
200
100
0
2,0
10,0
6,0
18,0
14,0
26,0
22,0
34,0
30,0
42,0
38,0
50,0
46,0
58,0
54,0
66,0
62,0
74,0
0
70,0
1,0
E3
2,0
3,0
4,0
5,0
6,0
7,0
WICHTIGKEIT: BERUF UND ARBEIT
Müller-Benedict: Statistik I/3
17
Müller-Benedict: Statistik I/3
18
Verteilungsformen
Beschrei einfache kompli- Extreme
bendes Auspräzierte
AuspräMerkmal
gung
Ausprägung
gung
Anzahl unimodal bimodal U-förmig
Gipfel
oder
mehrgipflig
Symmetrie
Symmetrisch
Steilheit
schmal
Müller-Benedict: Statistik I/3
linksoder
rechtssteil
flach
L-förmig
oder
J-förmig
Gleichverteilung
Beziehung zw. Lageparametern und Verteilungsform
mit kompliz.
Auspräg.
Hinweise auf
Symmetrisch
Linkssteil
Rechtssteil
Bimodal
Polarisierung
(Meinung),
verborgenes
dichotomes
Merkmal
Überschreitung
von „Sollwerten“,
hohe
„Erwünschtheit“
Heterogenität
19
Müller-Benedict: Statistik I/3
Modus  Median  Mittelwert
Modus < Median < Mittelwert
Mittelwert < Median < Modus
2 Modalwerte oder Modus >> bzw. <<
Mittelwert
20
Logarithmus
Transformation
Transformation von Daten
ist die Anwendung einer mathematischen Funktion g auf alle
Fälle eines Merkmals zum Zweck einer Veränderung ihrer
Verteilung: xi -> g(xi).
Logarithmus naturalis
4
3
Als Transformationen sind nur monotone Funktionen
geeignet, die die Ordnungsrelation (und damit das
Skalenniveau) der Daten nicht verändern (xi<xj  g(xi)<g(xj)).
2
x
Ln(x)
1
y
x
0
-1
Eine lineare Transformation besteht aus der Addition von
Konstanten und/oder der Multiplikation mit einem Faktor.
y‘
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
-2
-3
-4
X
Beispiel: Zentrierung einer Variablen:
g(xi) = xi,zentriert = xi - X
Müller-Benedict: Statistik I/3
21
Beispiel Wurzel-Transformation
Müller-Benedict: Statistik I/3
22
Hausaufgabe:
1. Die Deutsch-Noten von 20 Schülern der Klasse 4.1:
1,1,3,5,1,3,5,6,1,3,4,1,2,4,6,2,4,2,6,4
Die Deutsch-Noten von 20 Schülern der Klasse 4.2:
1,5,4,1,6,4,5,5,2,3,5,6,5,6,4,2,3,3,4,3
•
Berechnen Sie jeweils Mittelwert und Median
•
formulieren Sie jeweils einen Ergebnissatz ohne statistische Begriffe
•
vergleichen Sie die Klassen, auch mit Hilfe der Verteilungsform
Logarithmus und Wurzeltransformation sind geeignet, um
linkssteile Verteilungen zu symmetrisieren.
40
60
2. Aus den PISA-Daten wird die „Lesekompetenz“ (Scores, um 500 Punkte
zentriert) als Häufigkeitstabelle dargestellt:
50
30
40
30
• Berechnen Sie die entsprechenden Lagemaße. Behandeln Sie das Merkmal zuerst als ordinal und dann als intervallskaliert. Für Letzteres wählen Sie die Klassenmittelpunkte (275,
325, 375,…) als intervallskalierte „Vertretergrößen“ für die jeweiligen Gruppen.
• Welche Verteilungsform hat die Lesekompetenz?
20
20
10
10
0
0
24,4
71,1
117,8
164,5
211,2
257,9
304,6
DAUER <EHEMALIGER> ARBEITSLOSIGKEIT
Müller-Benedict: Statistik I/3
351,3
398,0
444,7
3,9
5,7
7,5
9,3
11,1
12,9
14,7
16,5
18,3
20,1
Wurzel aus Dauer der Arbeitslosigkeit
23
Müller-Benedict: Statistik I/3
24
Herunterladen