FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Herzlich willkommen zur Vorlesung Statistik Streuungsmaße oder die „Unterschiedlichkeit“ der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung 1 FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Streuung Streuungsmaße • • Ihr Ziel ist, zu zeigen, wie nahe die Daten insgesamt am „Zentrum“ liegen (oder auch nicht). Noch mehr als bei den Lagemaßen kann es sinnvoll sein, differenziert zu arbeiten (nicht nur eine einzige Kennzahl). 2 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Spannweite (Range) bzw. Minimum und Maximum • • • • Minimum: Kleinster Wert der Urliste Maximum: Größter Wert der Urliste Spannweite: Max – Min Im Beispiel (Einkommensdaten): Min = 620, Max = 14580 Spannweite = 13960 • Da alle anderen Datenwerte vernachlässigt werden, sind diese Angaben nur beschränkt von Interesse. 3 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Quartile und Quartilabstand Quartile trennen (geordnete) Datenwerte in vier gleich große Gruppen: • • • • ¼ der Datenwerte sind kleiner oder gleich dem Wert des 25-%-Quartils (Q1) Die Hälfte der Datenwerte ist kleiner oder gleich dem Wert des 50-%-Quartils (Q2) liegt (= ...........). ........... 3/4 der Datenwerte sind kleiner oder gleich dem Wert des 75-%-Quartils (Q3) Der Quartilabstand (oder Interquartilabstand, IQR) ist die Differenz Q3- Q1. 4 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Quartile und Quartilabstand Im Beispiel: Q1= 3860 DM Q2= 4625 DM Q3= 5935 DM Interquartilabstand (IQR): 2075 DM IQR von englisch InterQuartile Range 5 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 6 Five-Point-Summary (Tukey) Neben den Quartilwerten werden Min und Max angegeben. Min 620 0 2000 Q1 Q2 Q3 Max 3860 4625 5935 14580 4000 6000 8000 i k 10000 12000 14000 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Allgemein: Perzentile (oder Quantile), insbesondere Dezile Im Prinzip kann man Werte für jedes beliebige Perzentil bestimmen. Relativ häufig werden Dezile bestimmt. Dezile teilen die Daten in 10 gleich große Teile. Das unterste Dezil (Grenze zwischen den unteren 10 % und den oberen 90 % der Daten) heißt erstes Dezil, das oberste (Grenze zu den obersten 10 %) heißt neuntes Dezil. 7 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Erstes und neuntes Dezil 8 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Hinweis zu Perzentilen/Quantilen Wie beim Median, wird es auch bei anderen Quantilen oft vorkommen, dass der gesuchte Wert „zwischen“ zwei Datenpunkten liegt. Eine mögliche Regel für den Umgang mit diesem Problem lautet wie folgt Æ Æ Æ 9 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Eine Regel zur Berechnung von Quantilen 1. Wir berechnen np, d.h. Stichprobenumfang mal gesuchtes Quantil p. Bsp. Q1: n=14, p=0,25. 14*0,25 = 3,5. 2. Ist das Ergebnis keine ganze Zahl, wird der Wert trunkiert und 1 hinzu addiert: 3[,5]+1=4 Æ Q1=x(4) (d.h. der vierte Wert [,5] im geordneten Datensatz). 3. Ist das Ergebnis eine ganze Zahl, so liegt das Ergebnis zwischen x(np) und x(np+1). In diesem Fall muss interpoliert werden. 10 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 11 Eine Regel zur Berechnung von Quantilen Beispiel (nach Jann 2002, S. 36): (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 x 0 0 3 6 6 8 9 10 12 14 18 18 22 23 Q1 ist also der 4. Wert (x = 6). Das entspricht der Definition, dass mindestens 25 % der Daten kleiner oder gleich 6 und mindestens 75 % größer oder gleich 6 sind. Der Median liegt zwischen dem 7. und 8. Wert; nach der Regel aus der Vorlesung „Lagemaße“ beträgt der Wert des Medians 9,5. FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Abschließendes zu Perzentilen/Quantilen Es gibt eine Reihe anderer Regeln zur Berechnung, vielfach sind das Interpolationsregeln. Die Details müssen nur Spezialisten kennen ... 12 FB 1 W. Ludwig-Mayerhofer Grundlagen Häufigkeiten Lagemaße Streuung 13 Boxplot / Box-and-Whisker-Plot Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit 12000 Einkommen Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Streuung Ausreißer Q3+1,5 IQR 8000 Y o u rte x t Q3 M e d ia n 4000 Q 1 Q1-1,5 IQR 0 Ausreißer FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Die Varianz Ein Maß, welches durch eine einzige Zahl die Streuung der Daten ausdrückt. Gleichzeitig werden alle Datenwerte berücksichtigt. Sie wird berechnet als durchschnittliche quadrierte Abweichung vom aríthmetischen Mittel: 1 1 2 2 2 s = ∑ ( xi − x ) = ∑ xi − x n i =1 n i =1 2 x n n 14 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 15 Die Standardabweichung Als Folge der Quadrierens der Abweichungen hat die Varianz eine andere Dimension als die Ausgangswerte. In der Standardabweichung wird das Quadrieren wieder rückgängig gemacht. sx = s 2 x Man beachte: Varianz und Standardabweichung dürfen (ebenso wie die nachfolgenden Größen) nur bei metrischen Daten berechnet werden. FB 1 Grundlagen Häufigkeiten Lagemaße Streuung W. Ludwig-Mayerhofer Varianz und Standardabweichung im Beispiel Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression Statistik – Streuung Summe Ar. Mittel Xi Xi –Xquer (Xi –Xquer )² 2000 -1000 1.000.000 5000 2000 4.000.000 4000 1000 1.000.000 1500 -1500 2.250.000 2500 -500 250.000 15000 (0)! 8.500.000 3000 Varianz: 1.700.000 Std.abw.: 1.304 16 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Wichtiger Hinweis Die hier (nach K & K) angegebenen Formeln für die Varianz bzw. die Standardabweichung gelten nur, wenn diese die vorhandenen Daten beschreiben sollen. Sollen die Werte dieser beiden Größen jedoch für eine Grundgesamtheit geschätzt werden, muss die Varianz nach einer anderen Formel berechnet werden (s. nächste Seite). 17 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 18 Varianz und Standardabweichung als Schätzer für Wert in der Grundgesamtheit 1 1 2 2 2 ˆ xi − x ( xi − x ) = σ = ∑ ∑ n −1 i=1 n −1 i=1 2 x n n 2 ˆ ˆ σx = σx Beachte: SPSS berechnet Varianz und Standardabweichung nur als Schätzung für die GG; GG Excel erlaubt beide Berechnungen. FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 19 Varianz und Standardabweichung: Nachtrag zur Terminologie Die Terminologie der verschiedenen Bücher ist in diesem Punkt leider unterschiedlich. Die Varianz, die gegebene Daten charakterisiert, wird bei Fahrmeir et al. „empirische Varianz“ genannt, heißt aber bei Kühnel & Krebs „Stichprobenvarianz“. Dieser Begriff wird in anderen Büchern (etwa bei Fahrmeir!) wiederum verwendet, um die geschätzte Varianz in der Grundgesamtheit zu kennzeichnen. Aus diesem Grund versuche ich, auf die Begriffe „empirische Varianz“ und „Stichprobenvarianz“ künftig ganz zu verzichten (Analoges gilt für die Standardabweichung). Statt dessen sprechen wir von „Varianz der gegebenen Daten“ und „geschätzte Populationsvarianz“ (oder „Schätzung der Varianz in der Grundgesamtheit“). FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Der Variationskoeffizient Verschiedene Merkmale können ganz unterschiedliche Größenordnungen aufweisen. Die Standardabweichungen können dann nicht sinnvoll verglichen werden. Der Variationskoeffizient sx Vx = x drückt die Standardabweichung als Anteil des Mittelwerts aus (im Bsp.: ca. 0,43). Voraussetzung: Mittelwert > 0 20 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Schiefe Die Schiefe einer Verteilung (einer metrischen Variablen) kann durch die Maßzahl 1 n 3 ( ) x x − ∑ n i =1 s x3 beschrieben werden („Schiefekoeffizient“). Ist dieser größer als 0, ist die Verteilung rechtsschief, ist sie kleiner als 0, ist die Verteilung linksschief. 21 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Steilheit, Wölbung, Exzess, Kurtosis Die Wölbung einer Verteilung kann durch die Maßzahl 1 n 4 ( ) x x − ∑ n i =1 −3 4 sx beschrieben werden. Ist diese größer als 0, ist die Verteilung eher steil, ist sie kleiner als 0, ist die Verteilung flach. 22 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Hinweis zu Schiefe und Wölbung Statistik-Software (u.a. SPSS und Excel) verwendet etwas andere Maßzahlen (die nicht immer [leicht zugänglich] dokumentiert sind!). Die Tendenz der Ergebnisse ist aber ähnlich wie bei den hier vorgestellten Formeln. 23 FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung 24 Epilog I Wozu das Alles? Weil Lagemaße alleine oft wenig aussagekräftig sind ... 8 Die Grafik zeigt die Verteilung der Punkte, die bei einer Klausur erzielt wurden. 6 4 2 Std.abw . = 9,77 Mittel = 23,8 N = 60,00 0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 40,0 7,5 12,5 17,5 22,5 27,5 32,5 37,5 42,5 PUNKTE FB 1 Grundlagen Häufigkeiten Lagemaße Streuung Spannweite Quartile/Quantile Varianz/Standardabweichung Schiefe, Steilheit Inferenzstatistik Kovarianz/ Korrelation Kreuztabellen Gruppenunterschiede Lineare Regression W. Ludwig-Mayerhofer Statistik – Streuung Epilog II Das Buch von Kühnel & Krebs enthält – ebenso wie andere Bücher – Wege zur Berechnung vieler Größen im Falle gruppierter Daten. Diese sind nicht Gegenstand der Klausur. 25