3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal– oder ordinalskaliertes Merkmal mit k Ausprägungen A1, A2, . . . , Ak . Beispiel: X = Blutgruppe mit den k = 4 Ausprägungen A1 = 0 A2 = A A3 = B A4 = AB StatBio 50 An n Untersuchungseinheiten, diese seien von 1 bis n durchnummeriert, wurden die Merkmalsausprägungen x1, . . . , xn beobachtetet. Absolute Häufigkeit (frequency): Anzahl der Untersuchungseinheiten, die Ausprägung Aj besitzen, formal hj = Anzahl der Daten xi mit xi = Aj j = 1, . . . , k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt h1 + . . . + hk = k X hj = n j=1 Relative Häufigkeit (relative frequency): rj = hj /n, StatBio j = 1, . . . , k 51 Es gilt 0 ≤ rj ≤ 1 und k X rj = j=1 k X hj j=1 k X 1 n = hj = = 1 n n j=1 n Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage): pj = 100 · rj j = 1, . . . , k Es gilt 0 ≤ pj ≤ 100 und k X j=1 pj = k X j=1 100 · rj = 100 · X k rj = 100 {z } |j=1 =1 StatBio 52 Definition: Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals. Bemerkung: Da die Häufigkeitsverteilung auf Daten basiert, nennt man sie auch empirische Verteilung. Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen: StatBio 53 Tabelle 3–1 Häufigkeitstabelle Ausprägung A1 A2 .. Ak Summe absolute Häufigkeit h1 h2 .. hk n relative Häufigkeit r1 r2 .. rk 1 prozentuale Häufigkeit p1 % p2 % .. pr % 100% Aus einer Häufigkeitsverteilung lassen sich erste Einsichten in die Struktur der Daten gewinnen. Zum Beispiel lassen sich die folgenden Fragen beantworten: • Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat also am häufigsten auf? StatBio 54 • Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen Häufigkeiten? Bei ordinalen Daten können wir noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie große Ausprägungswerte? Treten die häufigsten Werte in der ,,Mitte”, also bei den mittleren Ausprägungswerten auf? Beispiel 3.1: An 69 Personen wurde die Blutgruppe festgestellt. Es ergab sich die folgende Häufigkeitsverteilung: Tabelle 3–2 Häufigkeitsverteilung des Merkmals Blutgruppe Blutgruppe Aj A1 = 0 A2 = A A3 = B A4 = AB Summe StatBio hj 28 31 7 3 69 rj 0.41 0.45 0.10 0.04 1 55 Graphische Darstellungen: • Säulendiagramm,Stabdiagramm (bar chart): –Zeigt absolute bzw. relative Häufigkeiten als Funktion der Merkmalsausprägungen; Abszisse: Ausprägungen, Ordinate: Häufigkeiten. –Darstellungsmittel ist die Höhe der Säule, d.h. die Höhe repräsentiert die (absolute oder relative) Häufigkeit. Abbildung 3–1 Säulendiagramm zu Tabelle 3–2 StatBio 56 • Kreisdiagramm,Tortendiagramm (pie chart): Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale Daten Winkel, der einen Kreisausschnitt einer Kategorie festlegt, ist proportional zur relativen Häufigkeit: rj Winkel des Kreissektors für Aj in Grad = 360◦ αj = 360◦ also αj = rj × 360◦, j = 1, . . . , k Es gilt dann αi ri hi = = αj rj hj StatBio für 1 ≤ i, j ≤ k 57 Fortsetzung von Bsp. 3.1: (Blutgruppen– Daten aus Tabelle 3–2) Gruppe 0 A B AB αj 147.6◦ 162◦ 36◦ 14.4◦ Abbildung 3–2 Kreisdiagramm zu Tabelle 3–2 StatBio 58 3.2 Klassierung von Daten Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen (auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte. Idee: Einteilung aller (reellen) Stichprobenwerte x1, . . . , xn in sogenannte Klassen. Bezüglich der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige Grundsätze, die es zu beachten gilt: • Regel 1: Die Klassengrenzen sollten einfache Zahlenwerte sein. • Regel 2: Klassen dürfen sich nicht überschneiden. StatBio 59 • Regel 3: Die Klassen müssen alle Beobachtungen erfassen. • Regel 4: Die Klassenbreiten sind konstant zu wählen. • Regel 5: Die Anzahl der Klassen ist geeignet zu wählen. Die Klassen müssen so gewählt werden (Regel 2), dass die Zuordnung einer Beobachtung zu einer Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird, die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass man die Klassen als halboffene Intervalle festlegt (z. B. links offen und rechts abgeschlossen). Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel √ k ≈ n. Einige Zahlenwerte: StatBio 60 √ n n mögliche Wahl von k 30 5.48 5,6 50 7.07 6,7,8 100 10 8,9,10,11 Bei k Klassen (c0, c1], (c1, c2], . . . , (ck−1, ck ] sind die Zahlen c0, . . . , ck sind so gewählt, dass c0 < c1 < . . . < ck gilt. Per Definition gehört eine Beobachtung xi zur Klasse (cj−1, cj ], falls cj−1 < xi ≤ cj gilt. Man spricht von Klassierung (grouped data) – auch von Klassenbildung bzw. Gruppierung – der Daten. StatBio 61 Damit Regel 3 erfüllt ist, muss die unterste Klassengrenze kleiner sein als die kleinste Beobachtung: c0 < x(1). Oder man wählt als untere Intervallgrenze die kleinste Beobachtung, also c0 = x(1), wobei dann diese Intervallgrenze zur Klasse gehören muss. Die oberste Klassengrenze ck muss mindestens so groß sein wie die größte Beobachtung: ck ≥ x(n). Unter der absoluten Häufigkeit bezüglich der Klasse (cj−1, cj ] versteht man die Anzahl der Beobachtungen, die zur Klasse (cj−1, cj ] gehören, formal hj = Anzahl der xi mit cj−1 < xi ≤ cj j = 1, . . . , k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3 k X hj = n j=1 StatBio 62 Die relative Häufigkeit bezüglich der Klasse (cj−1, cj ] ist hj rj = , n j = 1, . . . , k Für die relativen Klassenhäufigkeiten gilt k X j=1 rj = k X 1 n j=1 hj = 1 Diese Häufigkeiten geben also an, wie sich die Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse (cj−1, cj ] gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der Klasse), so dass die Klassenmitte cj−1 + cj 2 StatBio 63 Repräsentant dieser Klasse ist. Fortsetzung von Bsp. 2.1: Plasma–Daten Tabelle 3–3 Häufigkeitsverteilung der Plasma–Daten aus Tabelle 2–5 Klasse [3.20,3.40] hj 1 rj 0.05 (3.40,3.60] 2 0.1 (3.60,3.80] 4 0.2 (3.80,4.00] 8 0.4 (4.00,4.20] 2 0.1 (4.20,4.40] 0 0 (4.40,4.60 ] 3 0.15 • Histogramm Die graphische Darstellung der (absoluten oder relativen) Klassenhäufigkeiten erfolgt durch ein Histogramm (histogram). StatBio 64 Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. Über den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben. (Die Höhe als Darstellungsmittel ist nur erlaubt, wenn Regel 4 erfüllt ist!!!) Abbildung 3–3 Histogramm zu Tabelle 3–3 StatBio 65 Vorsicht bei ungleichen Klassenbreiten! Das Darstellungsmittel ist dann die Fläche des Rechtecks, d.h. die Fläche (nicht die Höhe!) entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch die Klassenbreite, also hj rj bzw. , cj − cj−1 cj − cj−1 j = 1, . . . , k Die Fläche Fj des Rechtecks (Höhe × Breite) über der Klasse (cj−1, cj ] ist dann hj bzw. rj . StatBio 66 3.3 Verteilungsverläufe • Gleichverteilung (uniform distribution) Alle Merkmalsausprägungen treten (annähernd) gleich häufig auf. Abbildung 3–4 Beispiel für eine Gleichverteilung StatBio 67 • Linksschiefe Verteilung (negatively skewed) Verteilungsfläche fällt nach links langsamer ab als nach rechts; Linksschiefe=Rechtssteilheit. Abbildung 3–5 Beispiel für eine linksschiefe Verteilung StatBio 68 • Rechtsschiefe Verteilung (positively skewed) Verteilungsfläche fällt nach rechts langsamer ab als nach links (kommt in der Praxis häufiger vor); Rechtsschiefe=Linkssteilheit. Abbildung 3–6 Beispiel für eine rechtsschiefe Verteilung StatBio 69 • Symmetrische Verteilung Weder rechts– noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche verhält. Abbildung 3–7 Beispiel für eine symmetrische Verteilung mit angepasster Normalverteilung StatBio 70 • Multimodale Verteilung unimodal=eingipflig bimodal=zweigipflig multimodal=mehrgipflig Die Verteilungen in den Abbildungen 3–5, 3–6 und 3–7 sind unimodal. Abbildung 3–8 Beispiel für eine bimodale Verteilung Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin. StatBio 71 Beachte: Bei relativen Häufigkeiten gilt stets Gesamtfläche der Balken = 1 bzw. bei Angaben in Prozent Gesamtfläche der Balken = 100 Referenzverteilungen Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen beschrieben werden. Wichtige Beispiele: StatBio 72 • Normalverteilung (Gaußsche Glockenkurve): ϕ(x) = c · e −x2/2 Abbildung 3–9 Die Dichte ϕ Diese Verteilung ist unimodal und symmetrisch um die y–Achse: ϕ(x) = ϕ(−x). Die Konstante c wird so gewählt, dass Z ∞ ϕ(x) dx = 1 −∞ gilt. Lösung: StatBio 1 c=√ 2π 73 • Chi–Quadrat–Verteilung ( fn(x) = 0, x≤0 cn · e−x/2 · xn/2−1, x > 0 n ∈ N. Dabei wird die Konstante cn so gewählt, dass Z ∞ fn(x) dx = 1 −∞ gilt. Die Funktion fn heißt Dichte der χ2– Verteilung mit n Freiheitsgraden. Abbildung 3–10 Die Dichten f4 (links) und f8 Diese Verteilungen sind unimodal und rechtsschief. StatBio 74