4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box–Plot Ziel: Charakterisierung einer Stichprobe bzw. einer empirischen Verteilung (Häufigkeitsverteilung) durch Kennzahlen. StatSoz 78 Statistische Maßzahlen – dienen der Beurteilung einzelner Beobachtungswerte innerhalb der Gesamtheit aller Beobachtungswerte, – repräsentieren eine empirische Verteilung durch wenige Zahlenwerte, – ermöglichen einen einfachen und schnellen Vergleich von Stichproben bzw. empirischen Verteilungen. StatSoz 79 Statistische Maßzahlen beschreiben drei Aspekte: • Lage Wo liegen die Daten auf der verwendeten Skala? Wo liegt das Zentrum, die ,,Mitte”? Auskunft geben Maßzahlen der Lage (Abschnitt 4.1 und 4.2). • Streuung Wie weit streuen die Daten auf der verwendeten Skala? Wie weit sind die Daten vom Zentrum entfernt? Auskunft geben Maßzahlen der Streuung (Abschnitt 4.3). • Form Wie verhalten sich die Daten links und rechts vom Zentrum? Wie weit weicht eine Häufigkeitsverteilung von der Symmetrie ab? Auskunft geben Maßzahlen der Schiefe (Abschnitt 4.4). StatSoz 80 4.1 Maßzahlen der mittleren Lage Maße der zentralen Tendenz, Mittelwerte Ziel: Ein Mittelwert soll die Gesamtheit der Beobachtungen (Daten) möglichst gut repräsentieren. • Modus (Modalwert) Definition: Der Modus ist die Merkmalsausprägung, die in der Stichprobe am häufigsten vorkommt. Als Lagemaß ist der Modus sinnvoll für – ordinale Merkmale – diskrete metrische Merkmale (Zähldaten) wenn er eindeutig ist! StatSoz 81 Bemerkung: Da der Modus allein von der Häufigkeit abhängt, muss er nicht in der ,,Mitte” einer Verteilung liegen. Beispiel: Eine Stichprobe von 200 Haushalten ergab die folgende Häufigkeitstabelle über die Haushaltsgröße: Anzahl der Haushaltsmitglieder 1 2 3 4 5 absolute Häufigkeit 35 30 42 78 15 Der Modus ist 4. StatSoz 82 Bemerkung: 1. Bei stetigen (und somit metrisch skalierten) Merkmalen macht der Modus im Allgemeinen keinen Sinn (alle Daten sind i.d.R. verschieden). 2. Im klassierten Fall ist der Modus definiert als die Klassenmitte der am häufigsten besetzten Klasse. Aber Vorsicht! Der Modus hängt von der Klassenwahl ab! (vgl. Aufgabe 2, Blatt 2) Fortsetzung von Bsp. 3.1: (Pendler–Daten) Der Modus im nichtklassierten Fall ist 21, da dieser Wert am häufigsten auftritt (nämlich 5 mal), im klassierten Fall der Tab. 3–4 ist die Klasse [20, 30) am dichtesten besetzt (nämlich 11 mal) und der Modus ist 20 + 30 = 25 2 StatSoz 83 • Median (Zentralwert) Empirischer Median, Stichproben–Median (sample median) Voraussetzung: Merkmale müssen mindestens ordinalskaliert sein. Bezeichnung: med, medx Median: Beobachtungswert, der sich in der ,,mittleren” Position der geordneten Stichprobe befindet (bei geradem Stichprobenumfang gibt es zwei Beobachtungen in einer mittleren Position und es wird gemittelt). Zahlenbeispiel: 34 4 56 med = 4 StatSoz 34 4 5 67 4+5 med = = 4.5 2 84 Fortsetzung von Bsp. 3.1: (Pendler–Daten) Die geordnete Stichprobe der 30 Daten lautet: 5 16 24 5 17 24 6 19 26 9 21 26 10 21 31 11 21 31 11 21 36 12 21 42 12 22 44 14 23 77 In der mittleren Position sind die 15–te und die 16–te Ordnungsgröße, beide haben den Wert 21. Der Median ist dann das arithmetische Mittel dieser beiden Ordnungsgrößen: x(15) + x(16) 21 + 21 med = = = 21 2 2 Um allgemein den Median von Daten x1, . . . , xn zu bestimmen, sind zunächst die Werte der Größe nach zu sortieren. Bezeichne x(1) ≤ x(2) ≤ . . . ≤ x(n) wieder die geordneten Daten. StatSoz 85 Definition: Der empirische Median ist definiert durch ( med = x( n+1 ), n ungerade 2 x( n2 ) + x( n2 +1) /2, n gerade Hinweis: Der Median teilt die Stichprobe so, dass mindestens 50% der Daten kleiner oder gleich diesem Wert und mindestens 50% der Daten größer oder gleich diesem Wert sind. Beispiel Pendler–Daten: Von den 30 Beobachtungen sind 18 Beobachtungen kleiner oder gleich dem Median, also 60%, 17 Beobachtungen sind größer oder gleich dem Median, gerundet 57%. StatSoz 86 • Arithmetisches Mittel Mittelwert, Stichprobenmittel (sample mean) Voraussetzung: metrisch skaliertes Merkmal oder Merkmal ist binär und 0/1–kodiert. Bezeichnung: x̄, x̄n Definition: Das arithmetische Mittel einer Stichprobe x1, . . . , xn ist definiert durch n 1 1X x̄ = · (x1 + . . . + xn) = xi n n i=1 Bemerkung: Selbstverständlich kommt es bei der Aufsummierung nicht auf die Reihenfolge an. So ändert sich der Wert des arithmetischen StatSoz 87 Mittels nicht, wenn man z. B. die geordneten Daten aufsummiert: 1 x̄ = · (x(1) + . . . + x(n)) n Fortsetzung von Bsp. 3.1 (Pendler–Daten): 1 x̄30 = · (5 + 5 + 6 + 9 + . . . + 77) = 21.93 30 aufgerundet 22 (Minuten). Bei einem binären Merkmal, dessen Ausprägungen mit 0 und 1 kodiert sind, ist das arithmetische Mittel identisch mit der relativen Häufigkeit der Ausprägung 1: Anzahl der Daten xi mit xi = 1 x̄ = n 100 · x̄ gibt den prozentualen Anteil der Ausprägung 1 wieder. StatSoz 88 Median oder arithmetisches Mittel? Median und arithmetisches Mittel haben unterschiedliche Eigenschaften: • Der Median wird von Ausreißern kaum oder gar nicht beeinflusst (Ausreißer sind Beobachtungen die (augenfällig) weit entfernt von den übrigen Daten liegen.) Man sagt: Der Median ist robust. Das arithmetische Mittel reagiert hingegen äußerst sensibel auf Ausreißer (und kann daher zu sachlich verzerrten Aussagen führen). Aber Achtung! Robustheit ist eine Eigenschaft, kein Gütekriterium! • Für schiefe Verteilungen ist der Median besser interpretierbar als das arithmetische Mittel. Bei (annähernd) symmetrischen Verteilungen ist das arithmetische Mittel dem Median vorzuziehen. StatSoz 89 • Der Median setzt lediglich ein ordinales Skalenniveau voraus, während das arithmetische Mittel metrisch skalierte Merkmale voraussetzt (Ausnahme: binäre, 0/1– kodierte Merkmale). • Das arithmetische Mittel gibt einen rechnerischen Bezug zur Summe aller Beobachtungswerte, der Median gibt eher einen typischen Wert im Zentrum der Verteilung wieder. Fortsetzung von Bsp. 3.1 (Pendler–Daten): Lässt man die größte Beobachtung 77 weg, so erhält man x̄29 = 20.03 med = x(15) = 21 Der Mittelwert hat um 1.9 abgenommen, der Median hingegen bleibt in diesem Beispiel sogar unverändert. StatSoz 90 Robustifizierung des arithmetischen Mittels: Weglassen der k kleinsten und größten Beobachtungen (k ≤ n/2). Das Ergebnis x̄n,k n−k X 1 = x(j) n−2·k (4.1) j=k+1 ist das sogenannte gestutzte oder getrimmte Mittel (trimmed mean). Beispiel: 5%–getrimmtes Mittel (Weglassen der 5% kleinsten und 5% größten Beobachtungen) Bemerkung: In der Darstellung (4.1) werden alle Daten gleich gewichtet. Das Gewicht ist 1 n−2·k Es gibt aber auch andere Festlegungen. StatSoz 91 4.2 Weitere Maßzahlen der Lage In diesem Abschnitt werden Maßzahlen vorgestellt, die häufig zur Beschreibung der nicht zentralen Lage der Daten verwendet werden. • ↑ min •|• • | • • |• • ↑ ↑ Q1 Q2 = med ↑ Q3 ↑ max • Minimum: Kleinster Beobachtungswert x(1) = min(x1, , . . . , xn) • Maximum: Größter Beobachtungswert x(n) = max(x1, , . . . , xn) Fortsetzung von Bsp. 3.1: (Pendler–Daten) x(1) = 5, x(30) = 77 StatSoz 92 • Quartile Die Interpretation von Quartilen ist die Folgende: Das 1. Quartil (1st quartile) Q1 teilt die Stichprobe so, dass ungefähr 25% der Daten darunter liegen. Das 2. Quartil (2nd quartile) Q2 teilt die Stichprobe so, dass ungefähr 50% der Daten darunter liegen (entspricht dem Median) und das 3. Quartil (3rd quartile) Q3 teilt die Stichprobe so, dass etwa 75% der Daten darunter liegen. Die Bestimmung von Quartilen geschieht wie folgt: 1. Quartil: Division von 1·(n+1) durch 4 ergibt n+1 = k1 + Rest 4 Der Rest kann nur die Werte 0, 0.25, 0.5 und 0.75 annehmen (den Wert 0, wenn n + 1 durch 4 teilbar ist). StatSoz 93 Definition: 1. Quartil Q1 = x(k1) + Rest · x(k1+1) − x(k1) Im Fall Rest = 0 ist Q1 = x(k1). Fortsetzung von Bsp. 3.1: (Pendler–Daten) Hier ist n = 30 und n + 1 30 + 1 = = 7.75 = 7 + 0.75 4 4 Also ist k1 = 7, Rest = 0.75 und Q1 = x(7) + 0.75 · (x(8) − x(7)) = 11 + 0.75 · (12 − 11) = 11.75 Von den 30 Daten liegen 7 Daten unterhalb des 1. Quartils, also etwa 23%. StatSoz 94 2. Quartil: Division von 2·(n+1) durch 4 ergibt 2 · (n + 1) n + 1 = = k2 + Rest 4 2 Der Rest kann den Wert 0 annehmen, wenn n + 1 durch 2 teilbar ist. In diesem Fall ist n+1 k2 = 2 Der Rest kann den Wert 0.5 annehmen, wenn n + 1 ungerade, also n gerade ist. In diesem Fall ist n k2 = 2 StatSoz 95 Definition: 2. Quartil Q2 = x(k2) + Rest · x(k2+1) − x(k2) ( x( n+1 ), n ungerade 2 = 0.5 · x( n2 ) + 0.5 · x( n2 +1), n gerade = med 3. Quartil: Division von 3·(n+1) durch 4 ergibt 3 · (n + 1) = k3 + Rest 4 Der Rest kann nur die Werte 0, 0.25, 0.5 und 0.75 annehmen (den Wert 0, wenn 3 · (n + 1) durch 4 teilbar ist). StatSoz 96 Definition: 3. Quartil Q3 = x(k3) + Rest · x(k3+1) − x(k3) Im Fall Rest = 0 ist Q3 = x(k3). Fortsetzung von Bsp. 3.1: (Pendler–Daten) Wegen 31 · 0.75 = 23.25 ist k3 = 23, Rest = 0.25 und Q3 = x(23) + 0.25 · (x(24) − x(23)) = 26 + 0.25 · (26 − 26) = 26 Von den 30 Daten sind 22 Daten kleiner als das 3. Quartil, also etwa 73%, 24 Daten sind kleiner oder gleich dem 3. Quartil, also 80%. Hinweis: Es gibt auch geringfügig andere Festlegungen von Quartilen. StatSoz 97 4.3 Maßzahlen der Streuung Variabilitätsmaße, Dispersionsmaße (measures of dispersion) Lagemaße geben i. A. wenig Auskunft darüber, wie weit die Daten vom Zentrum entfernt liegen, wie stark also die Daten um das Zentrum variieren (,,streuen”). Zahlenbeispiel 4.1 (wird fortgesetzt): Für die beiden Stichproben 0, 0, 10, 10 und 0, 0, 2, 8, 10, 10 gilt (nachrechnen!): x̄ Minimum Maximum Q1 Q2 (med) Q3 StatSoz = 5 = 0 = 10 = 0 = 5 = 10 98 • Spannweite (range) Voraussetzung: ordinal skalierte Merkmale Definition: Die Spannweite einer Stichprobe x1, . . . , xn ist die Differenz zwischen größtem und kleinstem Beobachtungswert: Spannweite = x(n) − x(1) Fortsetzung von Bsp. 3.1: (Pendler–Daten) Spannweite = 77 − 5 = 72 Nachteile: Die Spannweite – ist extrem ausreißerempfindlich – berücksichtigt nicht die (Lage der) Daten, die StatSoz 99 zwischen Minimum und Maximum liegen – wird mit wachsendem Stichprobenumfang nie kleiner. • Quartilsabstand (interquartile range, IQR) Dieses Streuungsmaß, auch Quartilsdifferenz (quartile deviation) genannt, ist eine Robustifizierung der Spannweite. Definition: Der Quartilsabstand einer Stichprobe x1, . . . , xn ist die Differenz zwischen dem dritten und ersten Quartil: IQR = Q3 − Q1 StatSoz 100 Bemerkung: Der Quartilsabstand hat eine sehr anschauliche Interpretation: Er misst die Länge des Intervalls, das etwa die Hälfte der ,,mittleren” Beobachtungen enthält. Das Intervall [Q1, Q3] umfasst die Beobachtungen zwischen Q1 und Q3. Fortsetzung von Bsp. 3.1: (Pendler–Daten) IQR = Q3 − Q1 = 26 − 11.75 = 14.25 Im Intervall [11.75, 26] liegen die (mittleren) Beobachtungenwerte 12 12 14 16 17 19 21 21 21 21 21 22 23 24 24 26 26 Dies sind rund 57% aller Beobachtungwerte. StatSoz 101 • Standardabweichung (standard deviation) Genauer: empirische Standardabweichung, Stichproben–Standardabweichung Bezeichnungsweisen: s, sn Voraussetzung: metrisch skalierte Merkmale Definition: Die Standardabweichung von x1, . . . , xn ist definiert durch v u n u 1 X s = sn = t (xi − x̄)2 n − 1 i=1 Die Standardabweichung – betrachtet die Summe der quadratischen Abweichungen vom arithmetischen Mittel StatSoz 102 – nimmt Bezug zum Stichprobenumfang n – zieht die Wurzel aus der Summe der quadratischen Abweichungen, damit das Streuungsmaß die gleiche Maßeinheit besitzt wie die Stichprobenwerte. Beachte: Nur die Abweichungen (also ohne Quadrat) zu nehmen, ist sinnlos. Es gilt stets n X (xi − x̄n) = 0 i=1 (Aufgabe 3 (ii), Blatt 2). Fortsetzung von Zahlenbeispiel 4.1: Die Stichprobe 0, 0, 10, 10 (x̄ = 5) besitzt die Standardabweichung r 1 s4 = · 100 = 5.77 3 StatSoz 103 die Stichprobe 0, 0, 2, 8, 10, 10 (x̄ = 5) besitzt die Standardabweichung r s6 = 1 · 118 = 4.86 5 Das Quadrat der (Stichproben–)Standardabweichung n X 1 (xi − x̄)2 s2 = s2n = n − 1 i=1 heißt (Stichproben–)Varianz. Fortsetzung von Bsp. 3.1: (Pendler–Daten) Varianz (in Minuten2) s2 1 (5 − 21.93)2 + . . . + (77 − 21.93)2 = 29 = 208.13 StatSoz 104 Standardabweichung (in Minuten) s= √ 208.13 = 14.43 Bemerkungen: (i) Die Maßeinheit der Varianz ist das Quadrat der Maßeinheit der Stichprobenwerte. Die Varianz ist daher nur schwer interpretierbar. (ii) Standardabweichung bzw. Varianz werden von Ausreißern stark beeinflusst, sind also nicht robust. Beispiel: (Pendler–Daten) Würde man die extreme Beobachtung 77 weglassen, so ergäbe sich eine Standardabweichung von 10.18 – eine deutliche Verringerung gegenüber 14.43. StatSoz 105 (iii) Im Gegensatz zum Quartilsabstand hat die Standardabweichung s keine anschauliche Interpretation (vgl. Bemerkung im Anschluss an Definition des Quartilsabstandes). Als Faustregel sollte man sich aber merken, dass für annähernd normalverteilte Stichproben das Intervall [x̄ − s, x̄ + s] ungefähr 2/3 aller Beobachtungen enthält; ungefähr die Hälfte liegt im Intervall [x̄ − 0.67 · s, x̄ + 0.67 · s] Was normalverteilt bedeutet, wird in der Wahrscheinlichkeitsrechnung erklärt. (iv) Möchte man Standardabweichungen von verschiedenen Stichproben vergleichen, so ist es häufig sinnvoll, diese in Bezug zu den arithmetischen Mitteln zu setzen (vgl. Aufgabe 8, Blatt 2). StatSoz 106 4.4 Lineare Transformationen, Schiefemaße Wie wirkt sich eine Änderung der Maßeinheit auf Lage– und Streuungsmaße aus? Beispiele: Währung: USD ($) und Euro [e] 1e = 1.320$ Zeitmessung: 1 Stunde = 60 Minuten Allgemein lässt sich der Übergang zu einer anderen Maßeinheit durch eine lineare Funktion (man sagt auch lineare Transformation) beschreiben: y = a + b · x, b>0 Die x–Werte werden erst mit einem Faktor b > 0 gewichtet und dann um den Wert a verschoben. StatSoz 107 Im Fall der Währung ist b = 1.320 und a = 0: y = 1.320 · x (x Euro sind 1.320 · x USD) Im Fall der Zeitmessung ist b = 60 und a = 0: y = 60 · x (x Stunden sind 60 · x Minuten) Wendet man eine lineare Transformation y = a + b · x, b>0 auf eine Stichprobe x1, . . . , xn an, so erhält man die linear transformierten Daten y1 = a + b · x1, . . . , yn = a + b · xn Alle Lage– und Streuungsmaße (außer die Varianz) sind dadurch charakterisiert, dass sie sich bei linearen Transformationen in einer bestimmten Weise mitverändern: StatSoz 108 Lagey = a + b · Lagex Streuungy = b · Streuungx Für die vorgestellten Lagemaße gilt also ȳ = a + b · x̄ Q1,y = a + b · Q1,x medy = a + b · medx Q3,y = a + b · Q3,x und für die vorgestellten Streuungmaße gilt sy = b · sx IQRy = b · IQRx StatSoz 109 Selbst wenn Stichproben in Lage und Streuung übereinstimmen sollten, bleiben im Allgemeinen Unterschiede, die man unter dem Begriff Form zusammenfasst. Die Form der Verteilung ist das, was sich unter linearen Transformationen nicht ändert. Ein anschaulicher Aspekt der Form ist die Schiefe (skewness). Schiefe ist die Abweichung von der Symmetrie. Ausreißer bewirken, dass Mittelwert und Median voneinander abweichen. In diesen Fällen ist die Verteilung schief. StatSoz 110 Rechtsschiefe (Linkssteilheit) in den Daten liegt vor, wenn mehr Beobachtungen unterhalb des Mittelwertes liegen als oberhalb, also der Median kleiner als der Mittelwert ist medx < x̄ Die Pendler–Daten von Bsp. 3.1 sind rechtsschief (siehe Abb. 3–4). Linksschiefe (Rechtssteilheit) in den Daten liegt vor, wenn mehr Beobachtungen oberhalb des Mittelwertes liegen als unterhalb, also der Median größer als der Mittelwert ist medx > x̄ Im Fall x̄ = medx spricht man von Symmetrie. StatSoz 111 Beachte: Unter linearen Transformationen a + b · x, b>0 bleibt (i) eine rechtsschiefe Verteilung (medx < x̄) rechtsschief: a + b · medx < a + b · x̄ (ii) eine linksschiefe Verteilung (medx > x̄) linksschief: a + b · medx > a + b · x̄ (iii) eine symmetrische Verteilung (medx = x̄) symmetrisch: a + b · medx = a + b · x̄ StatSoz 112 • Schiefemaße Ein Schiefemaß ist ein Maß für die Ausgeprägtheit der Schiefe einer Verteilung, für den Grad der Asymmetrie. Konvention: · Bei rechtsschiefer Verteilung wird die Maßzahl positiv · bei linksschiefer Verteilung wird die Maßzahl negativ · bei symmetrischer Verteilung wird die Maßzahl Null. Schiefemaß nach Yule–Pearson: 3 · (x̄ − med) Schiefe YP = s StatSoz 113 Schiefemaß 3. Moment: Schiefe M = 3 n X 1 xi − x̄ n i=1 (4.2) s Fortsetzung von Bsp. 3.1 (Pendler–Daten) Mit x̄ = 21.93, med = 21 und s = 14.43 erhält man 3 · (21.93 − 21) = 0.19 Schiefe YP = 14.43 1 5 − 21.93 Schiefe M = 30 14.43 +... + !3 77 − 21.93 14.43 !3 = 1.85 Dies deutet auf eine Rechtsschiefe hin. StatSoz 114 Da die Form einer Verteilung sich unter linearen Transformationen a + b · x, b > 0, nicht ändert, ist es vernünftig, von einem Schiefemaß zu fordern, dass es sich ebenfalls unter linearen Transformationen nicht ändert (Aufgabe 2, Blatt 3). Bemerkung: Rechtsschiefe Verteilungen sind weit verbreitet. Logarithmus– und Wurzeltransformation x1, , . . . , xn −→ √ √ x1 , . . . , x n x1, , . . . , xn −→ ln(x1), . . . , ln(xn) führen zu einer Abnahme der Rechtsschiefe. Dies ist oft ein Grund für ihre Anwendung: Man möchte nicht–schiefe Häufigkeitsverteilungen erhalten. Dies ist vor allem im Hinblick auf viele Methoden der schließenden Statistik von Vorteil. StatSoz 115 Standardisierte Stichproben Jede Stichprobe lässt sich mittels einer linearen Transformation a + b · x, b > 0, in eine Stichprobe überführen, deren (mittlere) Lage 0 und Streuung 1 ist. Sei x1, . . . , xn eine Stichprobe. Standardisierung A: Als Lagemaß sei das arithmetische Mittel x̄ und als zugehöriges Streuungsmaß die Standardabweichung sx gewählt. Für die transformierten Beobachtungswerte xi − x̄ 1 x̄ zi = =− + · xi sx sx |{z} sx |{z} =a =b i = 1, . . . , n, gilt dann z̄ = 0, sz = 1 (Aufgabe 3, Blatt 3). Der standardisierte Wert zi wird als StatSoz 116 z–score (z–Wert) des ursprünglichen Wertes xi bezeichnet. Er besitzt keine Maßeinheit und kennzeichnet, um das ,,Wievielfache der Streuung” der Ursprungswert vom Zentrum (x̄) entfernt ist. z1, . . . , zn heißt standardisierte Stichprobe. Standardisierung B: (Robuste Variante) Als Lagemaß sei der Median medx und als zugehöriges Streuungsmaß der Quartilsabstand IQRx gewählt. Für die transformierten Beobachtungswerte xi − medx medx 1 zi = =− + · xi IQRx | IQR {z x} |IQR {z x} =a =b i = 1, . . . , n, gilt dann medz = 0, IQRz = 1 (Aufgabe 3, Blatt 3). StatSoz 117 4.5 Der Box–Plot Genauer: Box– and Whiskers–Plot Er benutzt Quartile zur graphischen Darstellung von Lage und Streuung, gibt Hinweise auf Symmetrie oder Schiefe, und hebt potenzielle Ausreißer hervor. Ziel: Schneller visueller Vergleich verschiedener Stichproben. Ausgangspunkt dieser Darstellung (bei vertikaler Orientierung) bildet eine Box, deren untere und obere Begrenzungslinien durch das untere und obere Quartil festgelegt sind. Die Länge der Box ist also der Quartilsabstand. Innerhalb der Box wird der Median durch eine horizontale Linie markiert. Die Whiskers (vertikale Linienstücke) werden unterhalb und oberhalb der Box abgetragen. Die StatSoz 118 Linienendpunkte sind durch die größte und kleinste Beobachtung definiert. Wenn allerdings die Beobachtungen vom oberen bzw. unteren Rand der Box zu weit entfernt liegen, nämlich mehr als 1.5 · (Q3 − Q1), endet die Linie bei dem höchsten bzw. niedrigsten Beobachtungswert, der gerade noch innerhalb dieses Bereiches liegt (man spricht von der größten ,,normalen” und kleinsten ,,normalen” Beobachtung). Alle Messwerte, die extremer sind, werden einzeln, meistens durch Sterne, gekennzeichnet. Dies sind dann potenzielle Ausreißer. Die Zahl 1.5 ist so gewählt, dass für ,,normale” Stichproben Folgendes gilt: Etwa 99% der Daten liegen im Intervall [Q1 − 1.5 · IQR, Q3 + 1.5 · IQR] Ist der Boxplot unsymmetrisch, so zeigt dieser eine Schiefe in den Daten. StatSoz 119 * * * größte ,,normale” Beobachtung (≤ Q3 + 1.5 · IQR) Q3 Q2 Q1 kleinste ,,normale” Beobachtung (≥ Q1 − 1.5 · IQR) extreme Beobachtung Abbildung 4–1 Aufbau eines Box–Plots Man beachte, dass alle im Box–Plot verwendeten Kennzahlen relativ robust gegenüber Ausreißern sind, denen damit praktisch die Möglichkeit genommen wird, sich hinter bereits beeinflussten Kennzahlen zu verstecken (,,masking”). StatSoz 120 Abbildung 4–2 Box–Plot der Pendler–Daten StatSoz 121 Für die Pendler–Daten ergibt sich wegen 1.5 · IQR = 1.5 · 14.25 = 21.375 das Intervall [Q1 − 1.5 · IQR, Q3 + 1.5 · IQR] = [11.75 − 21.375, 26 + 21.375] = [−9.625, 47.375] Die kleinste Beobachtung 5 liegt in diesem Intervall. Der untere Whisker endet somit bei 5. Die größte Beobachtung (Beobachtung Nummer 9) beträgt 77 und liegt nicht in diesem Intervall. Diese Beobachtung wird daher als potenzieller Ausreißer gekennzeichnet. Die größte ,,normale” Beobachtung ist dann 44, wo auch der obere Whisker endet. Der Median von 21 liegt näher an 5 (kleinste normale Beobachtung) als an 44. Dies deutet auf eine Rechtsschiefe hin. StatSoz 122