3 Häufigkeitsverteilungen

Werbung
3 Häufigkeitsverteilungen
3.1 Absolute und relative Häufigkeiten
3.2 Klassierung von Daten
3.3 Verteilungsverläufe
3.1 Absolute und relative Häufigkeiten
Datenaggregation: Bildung von Häufigkeiten
X nominal– oder ordinalskaliertes Merkmal mit
k Ausprägungen A1, A2, . . . , Ak .
Beispiel: X = Berufsstatus, k = 5:
A1 = selbstständig
A2 = angestellt
A3 = Arbeiter
A4 = arbeitslos
A5 = Beamter
An n Untersuchungseinheiten, diese seien von 1
StatSoz
50
bis n durchnummeriert, wurden die Merkmalsausprägungen x1, . . . , xn beobachtetet.
Absolute Häufigkeit (frequency): Anzahl der
Untersuchungseinheiten, die Ausprägung Aj besitzen, formal
hj = Anzahl der Daten xi mit xi = Aj
j = 1, . . . , k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt
h1 + . . . + hk =
k
X
hj = n
j=1
Relative Häufigkeit (relative frequency):
rj = hj /n,
StatSoz
j = 1, . . . , k
51
Es gilt 0 ≤ rj ≤ 1 und
k
X
rj =
j=1
k
X
hj
j=1
k
X
1
n
=
hj = = 1
n
n j=1
n
Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage):
pj = 100 · rj
j = 1, . . . , k
Es gilt 0 ≤ pj ≤ 100 und
k
X
j=1
pj =
k
X
j=1
100 · rj = 100 ·
X
k
rj
= 100
{z }
|j=1
=1
StatSoz
52
Definition:
Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals.
Bemerkung: Da die Häufigkeitsverteilung auf
Daten basiert, nennt man sie auch empirische
Verteilung.
StatSoz
53
Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen:
Tabelle 3–1 Häufigkeitstabelle
Ausprägung
A1
A2
..
Ak
Summe
absolute
Häufigkeit
h1
h2
..
hk
n
relative
Häufigkeit
r1
r2
..
rk
1
prozentuale
Häufigkeit
p1 %
p2 %
..
pr %
100%
Aus einer Häufigkeitsverteilung lassen sich erste
Einsichten in die Struktur der Daten gewinnen.
Zum Beispiel lassen sich die folgenden Fragen
beantworten:
StatSoz
54
• Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat
also am häufigsten auf?
• Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen
Häufigkeiten? Bei ordinalen Daten können wir
noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie
große Ausprägungswerte? Treten die häufigsten Werte in der ,,Mitte”, also bei den mittleren Ausprägungswerten auf?
StatSoz
55
Beispiel: Eine Gemeinde besitze hinsichtlich des
Merkmals Berufsstatus die folgende Häufigkeitsverteilung:
Tabelle 3–2 Häufigkeitsverteilung des Merkmals
Berufsstatus
Ausprägung
A1 selbstständig
A2 angestellt
A3 Arbeiter
A4 arbeitslos
A5 Beamter
Summe
hj
2
12
114
30
6
164
rj (gerundet)
0.012
0.073
0.695
0.183
0.037
1
Graphische Darstellungen:
• Säulendiagramm,Stabdiagramm (bar chart):
–Zeigt absolute bzw. relative Häufigkeiten als
Funktion der Merkmalsausprägungen; Abszisse:
Ausprägungen, Ordinate: Häufigkeiten.
StatSoz
56
–Darstellungsmittel ist die Höhe der Säule, d.h.
die Höhe repräsentiert die (absolute oder relative) Häufigkeit.
Abbildung 3–1 Säulendiagramm zu Tabelle 3–2
• Kreisdiagramm,Tortendiagramm (pie chart):
Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale
Daten.
StatSoz
57
Winkel, der einen Kreisausschnitt einer Kategorie
festlegt, ist proportional zur relativen Häufigkeit:
rj
Winkel des Kreissektors für Aj in Grad
=
360◦
αj
=
360◦
also
αj = rj × 360◦,
j = 1, . . . , k
Es gilt dann
αi
ri
hi
= =
αj rj hj
StatSoz
für
1 ≤ i, j ≤ k
58
Beispiel: Berufsstatus–Daten aus Tabelle 3–2:
j
1
2
3
4
5
αj 4.32◦ 26.28◦ 250.20◦ 65.88◦ 13.32◦
Abbildung 3–2 Kreisdiagramm zu Tabelle 3–2
StatSoz
59
3.2 Klassierung von Daten
Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen
(auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte.
Beispiel 3.1 Man möchte etwas über das Pendlerverhalten einer Gemeinde wissen. Dazu wurden 30 Autopendler nach ihrer Fahrzeit (in Minuten) von der Wohnung zur Arbeitsstätte befragt. Die Daten der von 1 bis 30 durchnummerierten Individueen sind in der folgenden Tabelle
zusammengefasst:
StatSoz
60
Tabelle 3–3 Pendler–Daten
Individuum Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Fahrzeit
5
12
14
21
22
36
21
6
77
12
21
16
10
5
11
Individuum Nr.
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Fahrzeit
42
31
31
26
24
11
19
9
44
21
17
26
21
24
23
geordnet: 5 5 6 9 10 11 11 12 12 14 16 17 19 21
21 21 21 21 22 23 24 24 26 26 31 31 36 42 44 77
Die Merkmalsausprägungen 1, 2, 3, 4, 7, 8, 13,
15, 18, 20, 25 usw. wurden nicht beobachtet.
StatSoz
61
Idee : Einteilung aller (reellen) Stichprobenwerte
x1, . . . , xn in sogenannte Klassen.
Bezüglich der Klassenbildung gibt es zwar keine
allgemein gültigen, strengen Regeln, aber einige
Grundsätze, die es zu beachten gilt:
• Regel 1: Die Klassengrenzen sollten einfache
Zahlenwerte sein.
• Regel 2: Klassen dürfen sich nicht überschneiden.
• Regel 3: Die Klassen müssen alle Beobachtungen erfassen.
• Regel 4: Die Klassenbreiten sind konstant zu
wählen.
• Regel 5: Die Anzahl der Klassen ist geeignet
zu wählen.
StatSoz
62
Die Klassen müssen so gewählt werden (Regel 2),
dass die Zuordnung einer Beobachtung zu einer
Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird,
die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass
man die Klassen als halboffene Intervalle festlegt (z. B. links abgeschlossen und rechts offen).
Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel
√
k ≈ n. Einige Zahlenwerte:
√
n
n mögliche Wahl von k
30 5.48 5,6
50 7.07 6,7,8
100
10 8,9,10,11
Bei k Klassen
[c0, c1), [c1, c2), . . . , [ck−1, ck )
StatSoz
63
sind die Zahlen c0, . . . , ck so gewählt, dass
c0 < c1 < . . . < ck
gilt. Per Definition gehört eine Beobachtung xi
zur Klasse [cj−1, cj ), falls
cj−1 ≤ xi < cj
gilt. Man spricht von Klassierung (grouped data) – auch von Klassenbildung bzw. Gruppierung
– der Daten.
Damit Regel 3 erfüllt ist, muss die oberste Klassengrenze größer sein als die größte Beobachtung ck > x(n). Oder man wählt als oberste Intervallgrenze die größte Beobachtung, also
ck = x(n), wobei dann diese Intervallgrenze zur
Klasse gehören muss. Die unterste Klassengrenze c0 muss mindestens so klein wie die kleinste
Beobachtung, c0 ≤ x(1) sein.
StatSoz
64
Unter der absoluten Häufigkeit bezüglich der
Klasse [cj−1, cj ) versteht man die Anzahl der Beobachtungen, die zur Klasse [cj−1, cj ) gehören,
formal
hj = Anzahl der xi mit cj−1 ≤ xi < cj
j = 1, . . . , k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3
k
X
hj = n
j=1
Die relative Häufigkeit bezüglich der Klasse
[cj−1, cj ) ist
hj
rj = ,
n
StatSoz
j = 1, . . . , k
65
Für die relativen Klassenhäufigkeiten gilt
k
X
k
1X
rj =
hj = 1
n j=1
j=1
Diese Häufigkeiten geben also an, wie sich die
Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse [cj−1, cj ) gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der
Klasse), so dass die Klassenmitte
cj−1 + cj
2
Repräsentant dieser Klasse ist.
StatSoz
66
Fortsetzung von Bsp. 3.1: Pendler–Daten
Tabelle 3–4 Häufigkeitsverteilung zu Tabelle 3–3
Klasse
[0,10)
hj
4
rj gerundet
0.1333
[10,20)
9
[20,30)
11
[30,40)
3
0.1
[40,50)
2
0.0667
[50,60)
0
0
[60,70)
0
0
[70,80)
1
0.033
0.3
0.3667
• Histogramm
Die graphische Darstellung der (absoluten oder
relativen) Klassenhäufigkeiten erfolgt durch ein
Histogramm (histogram). Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen.
StatSoz
67
Über den Klassen werden Rechtecke (Balken)
abgetragen, wobei die Höhen der Rechtecke die
(absoluten oder relativen) Klassenhäufigkeiten
wiedergeben (Die Höhe als Darstellungsmittel
ist nur erlaubt, wenn Regel 4 erfüllt ist!!!)
Abbildung 3–3 Histogramm zu Tabelle 3–4
StatSoz
68
Vorsicht bei ungleichen Klassenbreiten! Das
Darstellungsmittel ist dann die Fläche des
Rechtecks, d.h. die Fläche (nicht die Höhe!)
entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch
die Klassenbreite, also
hj
rj
bzw.
,
cj − cj−1
cj − cj−1
j = 1, . . . , k
Die Fläche Fj des Rechtecks (Höhe × Breite)
über der Klasse [cj−1, cj ) ist dann hj bzw. rj .
StatSoz
69
3.3 Verteilungsverläufe
• Gleichverteilung (uniform distribution)
Alle Merkmalsausprägungen treten (annähernd)
gleich häufig auf.
Abbildung 3–4 Beispiel für eine Gleichverteilung
StatSoz
70
• Linksschiefe Verteilung (negatively skewed)
Verteilungsfläche fällt nach links langsamer ab
als nach rechts; Linksschiefe=Rechtssteilheit.
Abbildung 3–5 Beispiel für eine linksschiefe Verteilung
StatSoz
71
• Rechtsschiefe Verteilung (positively skewed)
Verteilungsfläche fällt nach rechts langsamer ab
als nach links (kommt in der Praxis häufiger
vor); Rechtsschiefe=Linkssteilheit.
Abbildung 3–6 Beispiel für eine rechtsschiefe Verteilung
StatSoz
72
• Symmetrische Verteilung
Weder rechts– noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche
verhält.
Abbildung 3–7 Beispiel für eine symmetrische Verteilung
mit angepasster Normalverteilung
StatSoz
73
• Multimodale Verteilung
unimodal=eingipflig
bimodal=zweigipflig
multimodal=mehrgipflig
Die Verteilungen in den Abbildungen 3–5, 3–6
und 3–7 sind unimodal.
Abbildung 3–8 Beispiel für eine bimodale Verteilung
Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin.
StatSoz
74
Beachte: Bei relativen Häufigkeiten gilt stets
Gesamtfläche der Balken = 1
bzw. bei Angaben in Prozent
Gesamtfläche der Balken = 100
Referenzverteilungen
Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen
beschrieben werden. Wichtige Beispiele:
StatSoz
75
• Normalverteilung (Gaußsche Glockenkurve):
ϕ(x) = c · e
−x2/2
,
x∈R
Abbildung 3–9 Die Dichte ϕ
Diese Verteilung ist unimodal und symmetrisch
um die y–Achse: ϕ(x) = ϕ(−x). Die Konstante
c wird so gewählt, dass
Z ∞
ϕ(x) dx = 1
−∞
gilt. Lösung:
StatSoz
1
c=√
2π
76
• Chi–Quadrat–Verteilung
(
fn(x) =
0,
x≤0
cn · e−x/2 · xn/2−1, x > 0
n ∈ N. Dabei wird die Konstante cn so gewählt,
dass
Z ∞
fn(x) dx = 1
−∞
gilt. Die Funktion fn heißt Dichte der χ2–
Verteilung mit n Freiheitsgraden.
Abbildung 3–10 Die Dichten f4 (links) und f8
Diese Verteilungen sind unimodal und rechtsschief.
StatSoz
77
Herunterladen