Auswertung univariater Datenmengen - deskriptiv ¾ Eigenschaften des arithmetischen Mittels ¾ Einfache Streuungsmaße ¾Spannweite ¾Quartilabstand ¾ Das Diagramm eines Boxplots Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 1 Bibliografie ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen Statistik für Wirtschaftswissenschaftler ¾ Bleymüller / Gehlert Verlag Vahlen Statistische Formeln, Tabellen und Programme ¾ PowerPointPräsentationen (Prof. Kück/ Dr. Ricabal), ¾ Vorlesungsskript für Statistik I (Dr. Pu Chen), ¾ http://www.wiwi.uni-rostock.de/vwl/statistik/download/ba/stat1/ Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 2 Eigenschaften des arithmetischen Mittels Null-Eigenschaft: Die Summe der Abweichungen der Beobachtungswerte vom arithmetischen Mittel ist Null. Quadratische Minimumeigenschaft: Die Summe der quadrierten Abweichungen zwischen Beobachtungswerten und einem beliebigen Wert erreicht das Minimum für das arithmetische Mittel. Die Lineare Transformation der Beobachtungswerte bewirkt die analoge Transformation des arithmetischen Mittels. Das arithmetische Mittel einer Gesamtmasse aggregiert die arithmetischen Mittel von Teilmassen in gewogener Form. ¾ ¾ ¾ ¾ Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 3 Null-Eigenschaft des arithmetischen Mittels Die Summe der Abweichungen der Beobachtungswerte vom arithmetischen Mittel ist Null. N N ∑ (a − µ) = 0 mit i i =1 µ = ∑ i =1 a i N Beweis: N N N N N N ∑ (a − µ) = ∑ a − ∑ µ =∑ a − N⋅ µ = ∑ a −∑ a i =1 i Prof. Kück / Dr. Ricabal i =1 i i =1 i =1 i Lage- und Streuungsparameter II i =1 i i =1 i =0 4 Beispiel: Null-Eigenschaft des arithmetischen Mittels Beispiel: Körpergewicht in kg von 10 Personen. Das arithmetische Mittel des Gewichtes der 10 betrachteten Personen beträgt 65 kg. 120 100 80 60 40 20 0 Nils Jan Kai Uwe Sven Dörte Marie Antje Anna Lisa µ Einige Abweichungen der Einzelwerte zum arithmetischen Mittel sind positiv die anderen negativ. Ihre Summe ist gleich Null. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 5 Quadratische Minimumeigenschaft des arithmetischen Mittels N SQ(x) = ∑ (a i − x) 2 erreicht ein Minimum an der Stelle x=µ i =1 Beweis: N dSQ(x) = −2∑ (a i − x) dx i =1 N − 2∑ (a i − x) = 0 erste Ableitung der Funktion SQ(x) notwendige Bedingung N i =1 N N ∑a i ∑ (a − x) = 0 ∑a d 2 SQ(x) = +2 > 0 dx 2 SQ(x) hat ein Minimum an der Stelle x = µ i =1 i Prof. Kück / Dr. Ricabal i =1 i − N⋅ x = 0 Lage- und Streuungsparameter II x= i =1 N =µ 6 Beispiel: Quadratische Minimumeigenschaft des arithmetischen Mittels Vergleich der Abweichungsquadrate beim arithmetischen Mittel 65 kg und zwei anderen Werten (75 und 55) . (44-65)² + (46-65)² + (50-65)² + (54-65)² + (56-65)² + (69-65)² + (72-65)² + (78-65)² + (80-65)² + (101-65)² = 2.984 Prof. Kück / Dr. Ricabal (44-75)² + (46-75)² + (50-75)² + (54-75)² + (56-75)² + (69-75)² + (72-75)² + (78-75)² + (80-75)² + (101-75)² = 3.984 (44-55)² + (46-55)² + (50-55)² + (54-55)² + (56-55)² + (69-55)² + (72-55)² + (78-55)² + (80-55)² + (101-55)² = 3.984 Lage- und Streuungsparameter II 7 Lineare Eigenschaft des arithmetischen Mittels Sei µ1 das arithmetische Mittel der N Beobachtungen eines Merkmals X. Sei Y eine lineare Transformation von X, d. h. y i = ax i + b für alle i=1, 2, . . . , N Dann gilt für das arithmetische Mittel µ2 von Y: µ2=aµ1+b. Das arithmetische Mittel ist äquivariant gegenüber dieser Transformation. Beweis: N µ2 = ∑ yi i =1 N Prof. Kück / Dr. Ricabal N = ∑ ax i + b i =1 N N = a ∑ x i + N⋅ b i =1 N Lage- und Streuungsparameter II = aµ 1 + b 8 Beispiel: Lineare Eigenschaft des arithmetischen Mittel Wäre das Gewicht aller erfassten Personen in Pfund statt in Kilogramm angegeben, würde sich das arithmetische Mittel entsprechend verdoppeln. Mittelwert aus transformierten Daten Y=2X (Gewicht in Pfund) 200 175 150 125 100 75 50 25 0 µ y = 130 Kilogramm Pfund Mittelwert aus ursprünglichen Daten X (Gewicht in kg) Li s Prof. Kück / Dr. Ricabal Ka i Ja n Ni ls µ x = 65 a An na An dj e M ar ie Dö rte Sv en Uw e Gewicht Lineare Transformation µy = 2⋅µx Lage- und Streuungsparameter II 9 Aggregierbarkeit des arithmetischen Mittels Seien T1, T2, …, Tk k Teilgesamtheiten jeweils mit N1, N2, … , Nk Merkmalsträgern. Seien µ 1, µ 2, …, µ k die entsprechenden arithmetischen Mittel in der Teilgesamtheiten. Für das arithmetische Mittel µ der Grundgesamtheit G gilt: µ k Nk µ2 µ1 N2 N1 k N1 N2 Nk ⎛N ⎞ µ= ⋅ µ1 + ⋅µ2 +L+ ⋅ µk = ∑ ⎜ i ⋅ µi ⎟ N N N ⎠ i =1 ⎝ N mit N = N + N + L + N 1 2 k Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 10 Aggregierbarkeit des arithmetischen Mittels -BeweisNi µk Nk µ2 µ1 µi = Aus ∑x j=1 k N1 N Ni Ni und N2 N1 ij ⇒ Ni ⋅ µi = ∑ x i j j=1 N2 Nk j=1 j=1 ∑∑ x i j = ∑ x1 j + ∑ x 2 j + L + ∑ x k j i =1 j=1 k N µ = ∑ i ⋅ µi i =i N k Gewogenes Arithmetisches Mittel und Prof. Kück / Dr. Ricabal N ∑∑ x folgen: i =1 j=1 N µ= j=1 N1 ij = ∑x j=1 N2 1j N + ∑x j=1 N Nk 2j +L+ ∑x j=1 kj N N1 ⋅ µ1 N 2 ⋅ µ 2 N ⋅µ ⎛N ⎞ + + L + k k = ∑ ⎜ i ⋅ µi ⎟ N N N ⎠ i =i ⎝ N k Lage- und Streuungsparameter II 11 Beispiel: Aggregierbarkeit des arithmetischen Mittels Für die 250 nach Karosserieform gruppierten Autos ergeben sich folgende Mittelwerte für die Motorleistung. Karosserieform Mittelwert Gruppenumfang Großraumlimousine 108,06 16 Kombi 110,15 20 Schräghecklimousine 93,97 117 Stufenhecklimousine 169,25 97 16 20 117 97 + 110,15 ⋅ + 93,97 ⋅ + 169,25 ⋅ 250 250 250 250 = 125,37 PS µ Gesamt = 108,06 ⋅ µ Gesamt Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 12 Beurteilung des arithmetischen Mittels ¾ Das arithmetische Mittel ist der in der Praxis am häufigsten verwendete Mittelwert. ¾ Für Verteilungen, die stärker von den Eigenschaften der Symmetrie und Eingipfeligkeit abweichen, eignet sich das arithmetische Mittel nicht, da der berechnete Mittelwert nicht das Zentrum der Verteilung repräsentiert. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 13 Beispiel: Beurteilung des arithmetischen Mittels Es sei folgende empirische Häufigkeitsverteilung gegeben: f(xi) xi Der numerische Wert für das arithmetische Mittel ist „richtig“. Sachlich ist dieser Mittelwert jedoch ungeeignet, da er eine falsche Vorstellung vom Zentrum der Verteilung vermittelt. Denken sie an die Kuh! Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 14 Beispiel: Trügerische Mitte Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 15 Symmetrie und Lageparameter Für metrisch skalierte Merkmale können das arithmetische Mittel, der Median und der Modus auch dazu verwendet werden, um Symmetrie oder Schiefe einer Verteilung beurteilen zu können. Der Vergleich der numerischen Werte liefert Vorstellungen über die Verteilungsform. Symmetrieregeln geben die Größenbeziehung zwischen den Mittelwerten an. ¾ Bei symetrischer Verteilung gilt: µ = Me = Mo f(x) bzw. angeschwächt: µ ≈ Me ≈ Mo Prof. Kück / Dr. Ricabal µ = Me = Mo Lage- und Streuungsparameter II x 16 Symmetrie und Lageparameter f(x) ¾ Bei linkssteiler (rechtsschiefer) Verteilung gilt: Mo > Me > µ Mo Me x µ f(x) ¾ Bei rechtssteiler (linksschiefer) Verteilung gilt: µ < Me < Mo µ Prof. Kück / Dr. Ricabal Me Mo x Lage- und Streuungsparameter II 17 Zusammenfassung Mittelwerte Die Unterschiede zwischen arithmetischem Mittel, Zentralwert und Modalwert sind in praktischen Analysen von Bedeutung. Welcher Mittelwert hat in der gegebenen Situation die bessere Aussage, welcher Mittelwert „trifft“ die Mitte am besten? Hier gibt es keine eindeutige Antwort, denn die Beantwortung wird auch subjektiv davon beeinflusst, welches Bild der Analytiker vermitteln möchte. Einkommensverteilungen liefern Beispiele, die im Allgemeinen linkssteil sind und für sehr hohe Einkommen flach nach rechts auslaufen. Werden Modus und Median verwendet, beeinflusst man die Argumentation zu niedrigen Einkommen, während die Verwendung des arithmetischen Mittels ein höheres Einkommen argumentiert. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 18 Median oder arithmetisches Mittel? ...Wenn z.B. der Präsident der Bundesärztekammer vom mittleren Einkommen der deutschen Ärzte spricht, meint er i.d.R. nicht das arithmetische Mittel sondern den Median. Wann immer im deutschen Ärzteblatt von Geld die Rede ist, erinnert man sich gern daran, dass es außer dem arithmetische Mittel noch andere Mittelwerte gibt. Auf der anderen Seite rufen Kritiker, die meinen, deutsche Ärzte verdienen viel zu viel, gern das arithmetische Mittel in den Zeugenstand. Dieses ist wie bei allen rechtsschiefen Verteilungen immer größer als der von den Ärzten bevorzugte Median. Z. B. Laborarzt: Arithmetische Mittel: 700.000 DM p.a. Median: 500.000 DM p.a. Aus Krämer: So lügt man mit Statistik Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 19 Vorsicht bei Mittelwerten! Das durchschnittliche Einkommen im Sultanat Brunei beträgt nach dem arithmetischen Mittel berechnet 54.000 DM, für Deutschland dagegen 46.000 DM. Zu beachten ist jedoch, dass die Einkommensverteilung in Brunei erheblich schiefer ist als die von Deutschland. Lässt man den Sultan, der als reichster Mensch der Erde gilt, und seine Familie weg, sieht das Bild schon ganz anders aus. Solche „Ausreißer“, wie die Statistiker sagen, ziehen das arithmetische Mittel an sich heran wie ein Magnet. Aus Krämer: So lügt man mit Statistik Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 20 Vorsicht bei Mittelwerten! „Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken, oder wollen wir ihn einlullen und nehmen den Median?“ Aus Krämer: So lügt man mit Statistik Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 21 Überlegen Sie selbst! ¾Berechnen Sie für die ausgewiesenen Jahre die durchschnittliche Kinderzahl, die Akademikerinnen in West- und in Ostdeutschland haben. ¾Wie müsste man vorgehen, wenn aus diesen Daten ein „Durchschnittswert“ für Deutschland über Kinderlosigkeit bei Akademikerinnen ausgewiesen werden soll? Quelle: http://www.spiegel.de/unispiegel/jobundberuf/0,1518,373449,00.html Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 22 Beispiel: Lage- oder Streuungsparameter? Für Moskau und Dublin wird die gleiche Jahresdurchschnittstemperatur von 10°C ausgewiesen. Der Vergleich der gemessenen Einzelwerte zeigt folgendes Bild, wo man erkennen kann, dass die Temperaturschwankungen in Moskau größer als in Dublin sind: 30 30 20 20 10 10 0 0 -10 -10 -20 -20 J F M A M J J J A S O N D F M A M J J A S O N D Die durchschnittliche Temperatur reicht nicht, um die Temperatursituation zu charakterisieren. Hier wird ein Streuungsmaß gebraucht, um die Schwankungen zu beschreiben. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 23 Notwendigkeit der Streuungsmaße Lageparameter können die Verteilung nicht vollständig beschreiben. Die drei extrem unterschiedlichen Verteilungen haben den gleichen (arithmetischen) Mittelwert von 1000: 2000 2000 2000 1000 1000 1000 0 0 1 2 3 4 5 1 2 3 4 5 0 1 2 3 4 5 Streuungsparameter dienen der näheren Charakterisierung von Schwankungen einer Verteilung. Sie sind ein Maß dafür, wie weit die Daten auf der Merkmalsachse voneinander oder vom Zentrum der Verteilung entfernt liegen. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 24 Empirische Streuungsmaße In der beschreibenden Statistik werden folgende Maßzahlen der Streuung verwendet: ¾ Spannweite ¾ Quartilsabstand ¾ Mittlere absolute Abweichung ¾ Varianz ¾ Standardabweichung ¾ Variationskoeffizient Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 25 Spannweite Die Spannweite ist die einfachste Maßzahl für die Abweichung der Daten, die den Abstand zwischen dem kleinsten und dem größten Beobachtungswert angibt. Spannweite (Englisch: range) R = amax – amin amin Prof. Kück / Dr. Ricabal amax Lage- und Streuungsparameter II 26 Beispiel: Spannweite In der Reihe der geordneten Merkmalswerte der Gewichte für 10 untersuchte Personen ist die Spannweite die Differenz aus dem Gewicht von Nils und Lisa: Name Lisa Anna Antje Marie Dörte Sven Uwe Kai Jan Nils Nr. i 1 2 3 4 5 6 7 8 9 10 ai 44 46 50 54 56 69 72 78 80 101 Es ergibt sich: R = amax – amin = 101 – 44 = 57 Die Spannweite beträgt 57 kg. Interpretation: Die Ausprägungen liegen in einem Bereicht von 75 kg Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 27 Beurteilung der Spannweite ¾ ¾ ¾ Die Spannweite ist eine einfache Maßzahl für die Streuung. Die Spannweite drückt die Variationsbreite der Beobachtungswerte aus. Da sie nur aus den beiden Extremwerten berechnet wird, ist sie sensibel gegenüber Ausreißer. Sie ist nur geeignet, wenn die Anzahl der Beobachtungen klein ist. Beispiel: Würde Nils nicht 101 kg sondern lediglich 81 kg wiegen, so ergäbe sich für die Spannweite 37 kg (statt 57 kg) Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 28 Quartilsabstand Der Quartilsabstand (Englisch: interquartil range) ist die Differenz zwischen dem 75%igen und 25%igen Quartil der Verteilung. Das ist die Spanne, welche die mittleren 50 % der Daten (die mittlere Hälfte) umfasst: a[N] a[1] Q3 Q1 QA = Q3 – Q1 25% 50% 25% Dabei bezeichnen Q1 und Q3 das erste (untere) und das dritte (obere) Quartil der Verteilung. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 29 Beispiel: Quartilsabstand klassierter Daten Für die in Gewichtsklassen erfassten 100 Personen sind zunächst die 75%igen und 25%igen Quartilswerte zu bestimmen: f(xi) 42,5 – 47,5 0,04 0,04 0,8 47,5 – 52,5 0,18 0,22 0,6 52,5 – 57,5 0,26 0,48 0,4 57,5 – 62,5 0,20 0,68 0,2 62,5 – 67,5 0,12 0,80 … … … F(xi) 1 0 42 ,5 4 7 b is 4 ,5 7, 5 2 b is 5 5 ,5 2, 5 7 b is 5 5 ,5 7, 6 2 b is 6 5 ,5 2 , 6 7 b is 6 5 ,5 7 , 7 2 b is 7 5 ,5 2, 7 7 b is 7 5 ,5 7, b 8 2 is 8 5 ,5 2 , 8 7 b is 8 5 ,5 b is 7 , 5 92 ,5 Einfallsklassen für Q1 F(xi) 1,2 Gewicht von…bis unter… Einfallsklassen für Q3 Man bestimmt für Q1: 53,1 und für Q3: 65,4. Der Quartilsabstand beträgt 12,3 kg. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 30 Beispiel: Berechnung des ersten Quartils Gewicht von…bis unter… f(xi) F(xi) 42,5 – 47,5 0,04 0,04 0,22 < 0,25 < 0,48 ⇔ F(52,5) < F(Q1 ) < F(57,5) 47,5 – 52,5 0,18 0,22 ⇒ 52,5 < Q1 < 57,5 52,5 – 57,5 0,26 0,48 57,5 – 62,5 0,20 0,68 62,5 – 67,5 0,12 0,80 … … … Einfallsklassen für Q1 F(Q1)=0,25 0,25 − F( x iu ) o Q1 = x + ( x i − x iu ) o u F( x i ) − F( x i ) u i 0,25 − F(52,5) (57,5 − 52,5) F(57,5) − F(52,5) 0,25 − 0,22 Q1 = 52,5 + (57,5 − 52,5) = 53,1 0,48 − 0,22 Q1 = 52,5 + Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 31 Beispiel: Berechnung des dritten Quartils Gewicht von…bis unter… f(xi) F(xi) 42,5 – 47,5 0,04 0,04 0,68 < 0,75 < 0,80 ⇔ F(62,5) < F(Q 3 ) < F(67,5) 47,5 – 52,5 0,18 0,22 ⇒ 62,5 < Q 3 < 67,5 52,5 – 57,5 0,26 0,48 57,5 – 62,5 0,20 0,68 62,5 – 67,5 0,12 0,80 … … … Einfallsklassen für Q3 Q 3 = x iu + F(Q3)=0,75 0,75 − F( x iu ) o ( x i − x iu ) o u F( x i ) − F( x i ) 0,75 − F(62,5) (67,5 − 62,5) F(67,5) − F(62,5) 0,75 − 0,68 Q 3 = 62,5 + (67,5 − 62,5) = 65,4 0,80 − 0,68 Q 3 = 62,5 + Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 32 Beispiel: Quartilsabstand unterschiedlicher Verteilungen F(x) 1 f(x) 0,75 Gleichverteilung: 0,25 0 X f(x) X F(x) 1 Normalverteilung: 0,75 0,25 0 X X Der Quartilsabstand ist bei Normalverteilung kleiner als bei Gleichverteilung. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 33 Beispiel: Quartile klassierter Daten Haushaltsnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS) HHNE Früheres von…bis unter … Euro Bundesgebiet F(x) Einfallsklassen Unter 900 7,2 0,072 900 – 1300 11,7 0,189 1300 – 1500 6,6 0,255 1500 – 2000 14,7 0,402 2000 – 2600 14,7 0,549 2600 – 3600 18,1 0,730 3600 – 5000 14,6 0,876 12,2 0,998 5000 – 18000 Q p = x iu + p − F(x ) ⋅ (x io − x iu ) 0 u F(x i ) − F(x i ) Prof. Kück / Dr. Ricabal u i Für Q1=Q0,25 Für Q2=Me=Q0,50 Für Q3=Q0,75 Allgemeine Formel für das p-Quantil Lage- und Streuungsparameter II 34 Beispiel: Berechnung der Quartile Haushaltsnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS) Das erste Quartil (p=0,25) Q1 = 1300 + 0,25 − 0,189 ⋅ (1500 − 1300) = 1484,85 ∈ 0,255 − 0,189 Der Median (p=0,50) Me = 2000 + 0,5 − 0,402 ⋅ (2600 − 2000) = 2400 ∈ 0,549 − 0,402 Das dritte Quartil (p=0,75) Q 3 = 3600 + 0,75 − 0,730 ⋅ (5000 − 3600) = 3791,78 ∈ 0,876 − 0,730 Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 35 Beispiel: Interquartilsabstand Beispiel: Haushaltsnettoeinkommen (HHNE) im früheren Bundesgebiet. Erwerbsstatistik 2003 ( DESTATIS) HHNE von…bis unter … Euro Früheres Bundesgebiet F(x) Unter 900 7,2 0,072 900 – 1300 11,7 0,189 1300 – 1500 6,6 0,255 1500 – 2000 14,7 0,402 2000 – 2600 14,7 0,549 QA=3791,78-1484,85 QA=2306,93 2600 – 3600 18,1 0,730 3600 – 5000 14,6 0,876 5000 – 18000 12,2 0,998 Q1=1484,85 Q2=Me=2400 Q3=3791,78 QA=Q3-Q1 Die mittlere Hälfte der Haushaltsnettoeinkommen hat eine Spannung von 2306,93€. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 36 Beurteilung des Quartilsabstandes ¾ ¾ Der Quartilsabstand wird nicht durch einzelne Extremwerte beeinflusst. Er ist gegenüber Ausreißern robuster. Der Quartilsabstand gibt die Differenz der Merkmalswerte an, welche die mittlere Hälfte der Einzelwerte repräsentiert. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 37 Grafische Darstellung von fünf wichtigen Verteilungspunkten (Boxplots) Das Diagramm eines Boxplots ermöglicht eine komprimierte Visualisierung einer univariaten Häufigkeitsverteilung, indem fünf wichtige Punkte einer Verteilung zusammengefasst dargestellt werden. Aufbau des Boxplots: Merkmalsausprägun g Prof. Kück / Dr. Ricabal • Maximum • oberes Quartil • Median • unteres Quartil • Minimum Lage- und Streuungsparameter II 38 Boxplots bei asymmetrischer Verteilung ¾ Je nachdem, wo der Median innerhalb der Box liegt, lassen sich Aussagen über die Symmetrie der Verteilung treffen. Merkmalsausprägung ÆBei einer asymmetrischen Verteilung liegt der Median nicht mittig in der Box. Æ Ungleich breite Abstände zwischen Extrema und unteren bzw. oberen Quartil („whiskers“ ) indizieren ebenfalls Asymmetrie. ¾ Der Streuung der Merkmalswerte wird durch die Spannweite der Extrema und den Quartilabstand dargestellt. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 39 Boxplots bei symmetrischer Verteilung Für eine exakt symmetrische Verteilung hat das Boxplot folgende Gestalt: ¾ die Abstände zwischen Extrema und unteren bzw. oberen Quartil sind gleich. Merkmalsausprägung ¾ Der Median liegt mittig in der Box, Jegliche Abweichungen davon bedeuten Asymmetrie der empirischen Verteilung. Bei empirischen Verteilungen ist exakte Symmetrie selten! Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 40 Beispiel: Aussagen des Boxplots 400 Für die 250 untersuchten Autos sei die Leistung der Großraumlimousinen, Kombis, Schrägheckfahrzeuge, Stufenhecklimousinen mittels der BoxplotDarstellung vergleichend dargestellt: 250 SPSS-Diagramm 249 248 247 246 245 300 235 229 223 214 215 216 211 Leistung [PS] 200 100 29 30 0 N= 16 20 117 97 GL K SH STH Karosserieform Die Gruppe der Großraumlimousinen ist im Vergleich am wenigsten asymmetrisch und weist beim Merkmal Leistung den geringsten Streubereich auf. Den größten Streubereich haben Stufenhecklimousinen. Extreme Leistungen im oberen Leistungsbereich gibt es bei SH und STH. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 41 Boxplots - Ausreißerproblematik 400 SPSS kann optional bestimmte Objekte aus der Erstellung des Boxplots ausschließen. 249 248 247 246 245 300 235 229 223 214 215 216 211 200 Leistung [PS] Als Ausreißer werden Objekte behandelt, deren Merkmalswerte zwischen 1,5 und 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Die Boxlänge entspricht dem interquartilen Bereich. 250 100 29 30 0 N= 16 20 117 97 GL K SH STH Karosserieform Als Extremwerte werden Objekte behandelt und gekennzeichnet ausgewiesen, deren Merkmalswerte mehr als 3 Boxlängen vom oberen oder unteren Rand der Box entfernt sind. Prof. Kück / Dr. Ricabal Lage- und Streuungsparameter II 42