3 Häufigkeitsverteilungen

Werbung
3 Häufigkeitsverteilungen
3.1 Absolute und relative Häufigkeiten
3.2 Klassierung von Daten
3.3 Verteilungsverläufe
3.1 Absolute und relative Häufigkeiten
Datenaggregation: Bildung von Häufigkeiten
X nominal– oder ordinalskaliertes Merkmal mit
k Ausprägungen A1, A2, . . . , Ak .
Beispiel: X = Blutgruppe mit den k = 4 Ausprägungen
A1 = 0
A2 = A
A3 = B
A4 = AB
StatBio
50
An n Untersuchungseinheiten, diese seien von 1
bis n durchnummeriert, wurden die Merkmalsausprägungen x1, . . . , xn beobachtetet.
Absolute Häufigkeit (frequency): Anzahl der
Untersuchungseinheiten, die Ausprägung Aj besitzen, formal
hj = Anzahl der Daten xi mit xi = Aj
j = 1, . . . , k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt
h1 + . . . + hk =
k
X
hj = n
j=1
Relative Häufigkeit (relative frequency):
rj = hj /n,
StatBio
j = 1, . . . , k
51
Es gilt 0 ≤ rj ≤ 1 und
k
X
rj =
j=1
k
X
hj
j=1
k
X
1
n
=
hj = = 1
n
n j=1
n
Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage):
pj = 100 · rj
j = 1, . . . , k
Es gilt 0 ≤ pj ≤ 100 und
k
X
j=1
pj =
k
X
j=1
100 · rj = 100 ·
X
k
rj
= 100
{z }
|j=1
=1
StatBio
52
Definition:
Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals.
Bemerkung: Da die Häufigkeitsverteilung auf
Daten basiert, nennt man sie auch empirische
Verteilung.
Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen:
StatBio
53
Tabelle 3–1 Häufigkeitstabelle
Ausprägung
A1
A2
..
Ak
Summe
absolute
Häufigkeit
h1
h2
..
hk
n
relative
Häufigkeit
r1
r2
..
rk
1
prozentuale
Häufigkeit
p1 %
p2 %
..
pr %
100%
Aus einer Häufigkeitsverteilung lassen sich erste
Einsichten in die Struktur der Daten gewinnen.
Zum Beispiel lassen sich die folgenden Fragen
beantworten:
• Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat
also am häufigsten auf?
StatBio
54
• Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen
Häufigkeiten? Bei ordinalen Daten können wir
noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie
große Ausprägungswerte? Treten die häufigsten Werte in der ,,Mitte”, also bei den mittleren Ausprägungswerten auf?
Beispiel 3.1: An 69 Personen wurde die Blutgruppe festgestellt. Es ergab sich die folgende
Häufigkeitsverteilung:
Tabelle 3–2 Häufigkeitsverteilung des Merkmals
Blutgruppe
Blutgruppe Aj
A1 = 0
A2 = A
A3 = B
A4 = AB
Summe
StatBio
hj
28
31
7
3
69
rj
0.41
0.45
0.10
0.04
1
55
Graphische Darstellungen:
• Säulendiagramm,Stabdiagramm (bar chart):
–Zeigt absolute bzw. relative Häufigkeiten als
Funktion der Merkmalsausprägungen; Abszisse:
Ausprägungen, Ordinate: Häufigkeiten.
–Darstellungsmittel ist die Höhe der Säule, d.h.
die Höhe repräsentiert die (absolute oder relative) Häufigkeit.
Abbildung 3–1 Säulendiagramm zu Tabelle 3–2
StatBio
56
• Kreisdiagramm,Tortendiagramm (pie chart):
Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale
Daten
Winkel, der einen Kreisausschnitt einer Kategorie
festlegt, ist proportional zur relativen Häufigkeit:
rj
Winkel des Kreissektors für Aj in Grad
=
360◦
αj
=
360◦
also
αj = rj × 360◦,
j = 1, . . . , k
Es gilt dann
αi
ri
hi
= =
αj rj hj
StatBio
für
1 ≤ i, j ≤ k
57
Fortsetzung von Bsp. 3.1: (Blutgruppen–
Daten aus Tabelle 3–2)
Gruppe
0
A
B AB
αj
147.6◦ 162◦ 36◦ 14.4◦
Abbildung 3–2 Kreisdiagramm zu Tabelle 3–2
StatBio
58
3.2 Klassierung von Daten
Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen
(auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte.
Idee: Einteilung aller (reellen) Stichprobenwerte x1, . . . , xn in sogenannte Klassen. Bezüglich
der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige
Grundsätze, die es zu beachten gilt:
• Regel 1: Die Klassengrenzen sollten einfache
Zahlenwerte sein.
• Regel 2: Klassen dürfen sich nicht überschneiden.
StatBio
59
• Regel 3: Die Klassen müssen alle Beobachtungen erfassen.
• Regel 4: Die Klassenbreiten sind konstant zu
wählen.
• Regel 5: Die Anzahl der Klassen ist geeignet
zu wählen.
Die Klassen müssen so gewählt werden (Regel 2),
dass die Zuordnung einer Beobachtung zu einer
Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird,
die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass
man die Klassen als halboffene Intervalle festlegt (z. B. links offen und rechts abgeschlossen).
Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel
√
k ≈ n. Einige Zahlenwerte:
StatBio
60
√
n
n mögliche Wahl von k
30 5.48 5,6
50 7.07 6,7,8
100
10 8,9,10,11
Bei k Klassen
(c0, c1], (c1, c2], . . . , (ck−1, ck ]
sind die Zahlen c0, . . . , ck sind so gewählt, dass
c0 < c1 < . . . < ck
gilt. Per Definition gehört eine Beobachtung xi
zur Klasse (cj−1, cj ], falls
cj−1 < xi ≤ cj
gilt. Man spricht von Klassierung (grouped data) – auch von Klassenbildung bzw. Gruppierung
– der Daten.
StatBio
61
Damit Regel 3 erfüllt ist, muss die unterste
Klassengrenze kleiner sein als die kleinste Beobachtung: c0 < x(1). Oder man wählt als untere
Intervallgrenze die kleinste Beobachtung, also
c0 = x(1), wobei dann diese Intervallgrenze zur
Klasse gehören muss. Die oberste Klassengrenze
ck muss mindestens so groß sein wie die größte
Beobachtung: ck ≥ x(n).
Unter der absoluten Häufigkeit bezüglich der
Klasse (cj−1, cj ] versteht man die Anzahl der Beobachtungen, die zur Klasse (cj−1, cj ] gehören,
formal
hj = Anzahl der xi mit cj−1 < xi ≤ cj
j = 1, . . . , k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3
k
X
hj = n
j=1
StatBio
62
Die relative Häufigkeit bezüglich der Klasse
(cj−1, cj ] ist
hj
rj = ,
n
j = 1, . . . , k
Für die relativen Klassenhäufigkeiten gilt
k
X
j=1
rj =
k
X
1
n j=1
hj = 1
Diese Häufigkeiten geben also an, wie sich die
Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse (cj−1, cj ] gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der
Klasse), so dass die Klassenmitte
cj−1 + cj
2
StatBio
63
Repräsentant dieser Klasse ist.
Fortsetzung von Bsp. 2.1: Plasma–Daten
Tabelle 3–3 Häufigkeitsverteilung der Plasma–Daten aus
Tabelle 2–5
Klasse
[3.20,3.40]
hj
1
rj
0.05
(3.40,3.60]
2
0.1
(3.60,3.80]
4
0.2
(3.80,4.00]
8
0.4
(4.00,4.20]
2
0.1
(4.20,4.40]
0
0
(4.40,4.60 ]
3
0.15
• Histogramm
Die graphische Darstellung der (absoluten oder
relativen) Klassenhäufigkeiten erfolgt durch ein
Histogramm (histogram).
StatBio
64
Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. Über
den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben. (Die Höhe als Darstellungsmittel
ist nur erlaubt, wenn Regel 4 erfüllt ist!!!)
Abbildung 3–3 Histogramm zu Tabelle 3–3
StatBio
65
Vorsicht bei ungleichen Klassenbreiten! Das
Darstellungsmittel ist dann die Fläche des
Rechtecks, d.h. die Fläche (nicht die Höhe!)
entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch
die Klassenbreite, also
hj
rj
bzw.
,
cj − cj−1
cj − cj−1
j = 1, . . . , k
Die Fläche Fj des Rechtecks (Höhe × Breite)
über der Klasse (cj−1, cj ] ist dann hj bzw. rj .
StatBio
66
3.3 Verteilungsverläufe
• Gleichverteilung (uniform distribution)
Alle Merkmalsausprägungen treten (annähernd)
gleich häufig auf.
Abbildung 3–4 Beispiel für eine Gleichverteilung
StatBio
67
• Linksschiefe Verteilung (negatively skewed)
Verteilungsfläche fällt nach links langsamer ab
als nach rechts; Linksschiefe=Rechtssteilheit.
Abbildung 3–5 Beispiel für eine linksschiefe Verteilung
StatBio
68
• Rechtsschiefe Verteilung (positively skewed)
Verteilungsfläche fällt nach rechts langsamer ab
als nach links (kommt in der Praxis häufiger
vor); Rechtsschiefe=Linkssteilheit.
Abbildung 3–6 Beispiel für eine rechtsschiefe Verteilung
StatBio
69
• Symmetrische Verteilung
Weder rechts– noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche
verhält.
Abbildung 3–7 Beispiel für eine symmetrische Verteilung
mit angepasster Normalverteilung
StatBio
70
• Multimodale Verteilung
unimodal=eingipflig
bimodal=zweigipflig
multimodal=mehrgipflig
Die Verteilungen in den Abbildungen 3–5, 3–6
und 3–7 sind unimodal.
Abbildung 3–8 Beispiel für eine bimodale Verteilung
Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin.
StatBio
71
Beachte: Bei relativen Häufigkeiten gilt stets
Gesamtfläche der Balken = 1
bzw. bei Angaben in Prozent
Gesamtfläche der Balken = 100
Referenzverteilungen
Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen
beschrieben werden. Wichtige Beispiele:
StatBio
72
• Normalverteilung (Gaußsche Glockenkurve):
ϕ(x) = c · e
−x2/2
Abbildung 3–9 Die Dichte ϕ
Diese Verteilung ist unimodal und symmetrisch
um die y–Achse: ϕ(x) = ϕ(−x). Die Konstante
c wird so gewählt, dass
Z ∞
ϕ(x) dx = 1
−∞
gilt. Lösung:
StatBio
1
c=√
2π
73
• Chi–Quadrat–Verteilung
(
fn(x) =
0,
x≤0
cn · e−x/2 · xn/2−1, x > 0
n ∈ N. Dabei wird die Konstante cn so gewählt,
dass
Z ∞
fn(x) dx = 1
−∞
gilt. Die Funktion fn heißt Dichte der χ2–
Verteilung mit n Freiheitsgraden.
Abbildung 3–10 Die Dichten f4 (links) und f8
Diese Verteilungen sind unimodal und rechtsschief.
StatBio
74
Herunterladen