3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal– oder ordinalskaliertes Merkmal mit k Ausprägungen A1, A2, . . . , Ak . Beispiel: X = Berufsstatus, k = 5: A1 = selbstständig A2 = angestellt A3 = Arbeiter A4 = arbeitslos A5 = Beamter An n Untersuchungseinheiten, diese seien von 1 StatSoz 50 bis n durchnummeriert, wurden die Merkmalsausprägungen x1, . . . , xn beobachtetet. Absolute Häufigkeit (frequency): Anzahl der Untersuchungseinheiten, die Ausprägung Aj besitzen, formal hj = Anzahl der Daten xi mit xi = Aj j = 1, . . . , k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt h1 + . . . + hk = k X hj = n j=1 Relative Häufigkeit (relative frequency): rj = hj /n, StatSoz j = 1, . . . , k 51 Es gilt 0 ≤ rj ≤ 1 und k X rj = j=1 k X hj j=1 k X 1 n = hj = = 1 n n j=1 n Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage): pj = 100 · rj j = 1, . . . , k Es gilt 0 ≤ pj ≤ 100 und k X j=1 pj = k X j=1 100 · rj = 100 · X k rj = 100 {z } |j=1 =1 StatSoz 52 Definition: Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals. Bemerkung: Da die Häufigkeitsverteilung auf Daten basiert, nennt man sie auch empirische Verteilung. StatSoz 53 Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen: Tabelle 3–1 Häufigkeitstabelle Ausprägung A1 A2 .. Ak Summe absolute Häufigkeit h1 h2 .. hk n relative Häufigkeit r1 r2 .. rk 1 prozentuale Häufigkeit p1 % p2 % .. pr % 100% Aus einer Häufigkeitsverteilung lassen sich erste Einsichten in die Struktur der Daten gewinnen. Zum Beispiel lassen sich die folgenden Fragen beantworten: StatSoz 54 • Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat also am häufigsten auf? • Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen Häufigkeiten? Bei ordinalen Daten können wir noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie große Ausprägungswerte? Treten die häufigsten Werte in der ,,Mitte”, also bei den mittleren Ausprägungswerten auf? StatSoz 55 Beispiel: Eine Gemeinde besitze hinsichtlich des Merkmals Berufsstatus die folgende Häufigkeitsverteilung: Tabelle 3–2 Häufigkeitsverteilung des Merkmals Berufsstatus Ausprägung A1 selbstständig A2 angestellt A3 Arbeiter A4 arbeitslos A5 Beamter Summe hj 2 12 114 30 6 164 rj (gerundet) 0.012 0.073 0.695 0.183 0.037 1 Graphische Darstellungen: • Säulendiagramm,Stabdiagramm (bar chart): –Zeigt absolute bzw. relative Häufigkeiten als Funktion der Merkmalsausprägungen; Abszisse: Ausprägungen, Ordinate: Häufigkeiten. StatSoz 56 –Darstellungsmittel ist die Höhe der Säule, d.h. die Höhe repräsentiert die (absolute oder relative) Häufigkeit. Abbildung 3–1 Säulendiagramm zu Tabelle 3–2 • Kreisdiagramm,Tortendiagramm (pie chart): Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale Daten. StatSoz 57 Winkel, der einen Kreisausschnitt einer Kategorie festlegt, ist proportional zur relativen Häufigkeit: rj Winkel des Kreissektors für Aj in Grad = 360◦ αj = 360◦ also αj = rj × 360◦, j = 1, . . . , k Es gilt dann αi ri hi = = αj rj hj StatSoz für 1 ≤ i, j ≤ k 58 Beispiel: Berufsstatus–Daten aus Tabelle 3–2: j 1 2 3 4 5 αj 4.32◦ 26.28◦ 250.20◦ 65.88◦ 13.32◦ Abbildung 3–2 Kreisdiagramm zu Tabelle 3–2 StatSoz 59 3.2 Klassierung von Daten Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen (auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte. Beispiel 3.1 Man möchte etwas über das Pendlerverhalten einer Gemeinde wissen. Dazu wurden 30 Autopendler nach ihrer Fahrzeit (in Minuten) von der Wohnung zur Arbeitsstätte befragt. Die Daten der von 1 bis 30 durchnummerierten Individueen sind in der folgenden Tabelle zusammengefasst: StatSoz 60 Tabelle 3–3 Pendler–Daten Individuum Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fahrzeit 5 12 14 21 22 36 21 6 77 12 21 16 10 5 11 Individuum Nr. 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Fahrzeit 42 31 31 26 24 11 19 9 44 21 17 26 21 24 23 geordnet: 5 5 6 9 10 11 11 12 12 14 16 17 19 21 21 21 21 21 22 23 24 24 26 26 31 31 36 42 44 77 Die Merkmalsausprägungen 1, 2, 3, 4, 7, 8, 13, 15, 18, 20, 25 usw. wurden nicht beobachtet. StatSoz 61 Idee : Einteilung aller (reellen) Stichprobenwerte x1, . . . , xn in sogenannte Klassen. Bezüglich der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige Grundsätze, die es zu beachten gilt: • Regel 1: Die Klassengrenzen sollten einfache Zahlenwerte sein. • Regel 2: Klassen dürfen sich nicht überschneiden. • Regel 3: Die Klassen müssen alle Beobachtungen erfassen. • Regel 4: Die Klassenbreiten sind konstant zu wählen. • Regel 5: Die Anzahl der Klassen ist geeignet zu wählen. StatSoz 62 Die Klassen müssen so gewählt werden (Regel 2), dass die Zuordnung einer Beobachtung zu einer Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird, die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass man die Klassen als halboffene Intervalle festlegt (z. B. links abgeschlossen und rechts offen). Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel √ k ≈ n. Einige Zahlenwerte: √ n n mögliche Wahl von k 30 5.48 5,6 50 7.07 6,7,8 100 10 8,9,10,11 Bei k Klassen [c0, c1), [c1, c2), . . . , [ck−1, ck ) StatSoz 63 sind die Zahlen c0, . . . , ck so gewählt, dass c0 < c1 < . . . < ck gilt. Per Definition gehört eine Beobachtung xi zur Klasse [cj−1, cj ), falls cj−1 ≤ xi < cj gilt. Man spricht von Klassierung (grouped data) – auch von Klassenbildung bzw. Gruppierung – der Daten. Damit Regel 3 erfüllt ist, muss die oberste Klassengrenze größer sein als die größte Beobachtung ck > x(n). Oder man wählt als oberste Intervallgrenze die größte Beobachtung, also ck = x(n), wobei dann diese Intervallgrenze zur Klasse gehören muss. Die unterste Klassengrenze c0 muss mindestens so klein wie die kleinste Beobachtung, c0 ≤ x(1) sein. StatSoz 64 Unter der absoluten Häufigkeit bezüglich der Klasse [cj−1, cj ) versteht man die Anzahl der Beobachtungen, die zur Klasse [cj−1, cj ) gehören, formal hj = Anzahl der xi mit cj−1 ≤ xi < cj j = 1, . . . , k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3 k X hj = n j=1 Die relative Häufigkeit bezüglich der Klasse [cj−1, cj ) ist hj rj = , n StatSoz j = 1, . . . , k 65 Für die relativen Klassenhäufigkeiten gilt k X k 1X rj = hj = 1 n j=1 j=1 Diese Häufigkeiten geben also an, wie sich die Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse [cj−1, cj ) gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der Klasse), so dass die Klassenmitte cj−1 + cj 2 Repräsentant dieser Klasse ist. StatSoz 66 Fortsetzung von Bsp. 3.1: Pendler–Daten Tabelle 3–4 Häufigkeitsverteilung zu Tabelle 3–3 Klasse [0,10) hj 4 rj gerundet 0.1333 [10,20) 9 [20,30) 11 [30,40) 3 0.1 [40,50) 2 0.0667 [50,60) 0 0 [60,70) 0 0 [70,80) 1 0.033 0.3 0.3667 • Histogramm Die graphische Darstellung der (absoluten oder relativen) Klassenhäufigkeiten erfolgt durch ein Histogramm (histogram). Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. StatSoz 67 Über den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben (Die Höhe als Darstellungsmittel ist nur erlaubt, wenn Regel 4 erfüllt ist!!!) Abbildung 3–3 Histogramm zu Tabelle 3–4 StatSoz 68 Vorsicht bei ungleichen Klassenbreiten! Das Darstellungsmittel ist dann die Fläche des Rechtecks, d.h. die Fläche (nicht die Höhe!) entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch die Klassenbreite, also hj rj bzw. , cj − cj−1 cj − cj−1 j = 1, . . . , k Die Fläche Fj des Rechtecks (Höhe × Breite) über der Klasse [cj−1, cj ) ist dann hj bzw. rj . StatSoz 69 3.3 Verteilungsverläufe • Gleichverteilung (uniform distribution) Alle Merkmalsausprägungen treten (annähernd) gleich häufig auf. Abbildung 3–4 Beispiel für eine Gleichverteilung StatSoz 70 • Linksschiefe Verteilung (negatively skewed) Verteilungsfläche fällt nach links langsamer ab als nach rechts; Linksschiefe=Rechtssteilheit. Abbildung 3–5 Beispiel für eine linksschiefe Verteilung StatSoz 71 • Rechtsschiefe Verteilung (positively skewed) Verteilungsfläche fällt nach rechts langsamer ab als nach links (kommt in der Praxis häufiger vor); Rechtsschiefe=Linkssteilheit. Abbildung 3–6 Beispiel für eine rechtsschiefe Verteilung StatSoz 72 • Symmetrische Verteilung Weder rechts– noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche verhält. Abbildung 3–7 Beispiel für eine symmetrische Verteilung mit angepasster Normalverteilung StatSoz 73 • Multimodale Verteilung unimodal=eingipflig bimodal=zweigipflig multimodal=mehrgipflig Die Verteilungen in den Abbildungen 3–5, 3–6 und 3–7 sind unimodal. Abbildung 3–8 Beispiel für eine bimodale Verteilung Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin. StatSoz 74 Beachte: Bei relativen Häufigkeiten gilt stets Gesamtfläche der Balken = 1 bzw. bei Angaben in Prozent Gesamtfläche der Balken = 100 Referenzverteilungen Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen beschrieben werden. Wichtige Beispiele: StatSoz 75 • Normalverteilung (Gaußsche Glockenkurve): ϕ(x) = c · e −x2/2 , x∈R Abbildung 3–9 Die Dichte ϕ Diese Verteilung ist unimodal und symmetrisch um die y–Achse: ϕ(x) = ϕ(−x). Die Konstante c wird so gewählt, dass Z ∞ ϕ(x) dx = 1 −∞ gilt. Lösung: StatSoz 1 c=√ 2π 76 • Chi–Quadrat–Verteilung ( fn(x) = 0, x≤0 cn · e−x/2 · xn/2−1, x > 0 n ∈ N. Dabei wird die Konstante cn so gewählt, dass Z ∞ fn(x) dx = 1 −∞ gilt. Die Funktion fn heißt Dichte der χ2– Verteilung mit n Freiheitsgraden. Abbildung 3–10 Die Dichten f4 (links) und f8 Diese Verteilungen sind unimodal und rechtsschief. StatSoz 77