Streuungsmaße von Stichproben SPANNWEITE, VARIANZ, STANDARDABWEICHUNG, QUARTILE, KOVARIANZ, KORRELATIONSKOEFFIZIENT Zentrale Methodenlehre, Europa Universität - Flensburg Streuungsmaße: wozu? 2 Lagemaße alleine sind nicht genug, um eine Verteilung zu beschreiben เดฅ= D=๐ เทฅ = ๐ ๐ เดฅ=D=๐ เทฅ = ๐ เดฅ =D = ๐ เทฅ William Tarazona, Statistik I Beschreibung einer Verteilung: Maßzahlen 3 Die Verteilung eines Merkmals kann durch 2 Arten Maßzahlen beschrieben werden: ๏ Lagemaße: beschreiben die zentrale Tendenz (Zentrum, Mitte, Schwerpunkt) einer Verteilung. ๏ Streuungsmaße: beschreiben, wie die Ausprägungen des Merkmals um die zentrale Tendenz der Verteilung streuen. In dieser Präsentation werden wir Streuungsmaße für ordinale oder quantitative Merkmale kennenlernen. William Tarazona, Statistik I Streuungsmaße: Spannweite 4 Spannweite der Stichprobe (R): Sei {X1, X2,…., Xn} eine geordnete Stichprobe des Merkmals X. X1=Min Xn=Max 0% 100% Die Spannweite ist definiert als: Beispiel: R = Xn – X1 = Max - Min Alter = {19, 21, 22, 22, 23, 25, 28, 29, 29, 30, 31, 31}; R = 31 – 19 = 12 Jahre William Tarazona, Statistik I Streuungsmaße: Varianz 5 Varianz der Stichprobe (s2): Sei {X1, X2,…., Xn} eine Stichprobe des Merkmals X. Die Varianz ist definiert als: s2 = 2 σ๐ าง (๐ − ๐ฅ) ๐=1 ๐ ๐−1 σ๐๐=1(๐๐ −๐ฅ)าง 2 wird auch SAQx genannt. SAQ heißt Summe der Abstandsquadrate. Außerdem, ๐๐ด๐๐ = σ๐๐=1 ๐๐2 − ๐๐ฅาง 2 William Tarazona, Statistik I Streuungsmaße: Varianz 6 Beispiel: X = Alter = {18, 21, 21, 22, 23, 25, 26, 29, 30, 30, 32, 35} ; ๐ เดฅ = 26 Jahre s2 = σ๐ าง 2 ๐=1(๐๐ −๐ฅ) ๐−1 =? Also: s2 = 298 11 = 27.09 Jahre2 Bzw.: ๐๐ด๐๐ = σ๐๐=1 ๐๐2 − ๐๐ฅาง 2= 8410 – 12*262 = 298 s2 = ๐๐ด๐๐ ๐−1 = 298 11 = 27.09 Jahre2 William Tarazona, Statistik I Streuungsmaße: Standardabweichung 7 Standardabweichung der Stichprobe (s): Sei {X1, X2,…., Xn} eine Stichprobe des Merkmals X. Die Standardabweichung ist definiert als: s= ๐ 2 Beispiel: Alter = {18, 21, 21, 22, 23, 25, 26, 29, 30, 30, 32, 35}; s2 = 27.09 Jahre2 s = 27.09 ๐ฝ๐โ๐๐ 2 = 5.21 ๐ฝ๐โ๐๐ William Tarazona, Statistik I Streuungsmaße: Perzentile 8 Perzentile (Perzi): Sei {X1, X2,…., Xn} eine geordnete Stichprobe des Merkmals X. X1=Min Xn=Max 0% 100% Die Perzentile sind die Ausprägungen, die die Stichprobe in 100 1%-Teile teilen: 100 Teile 1% 1% Perz1 1% Perz2 . . . . . . . . . . . . . . . 50% ..... Perz3 Perz50 1% Perz99 Oder เทฅ ๐ William Tarazona, Statistik I Streuungsmaße: Quartile 9 Quartile(Qi): Sei {X1, X2,…., Xn} eine geordnete Stichprobe des Merkmals X. X1=Min Xn=Max 0% 100% Die Quartile sind die Ausprägungen, die die Stichprobe in 4 25%-Teile teilen: 25% 25% Q1 25% 25% Q2 Oder Perz50 Oder เทฅ ๐ Q3 William Tarazona, Statistik I Streuungsmaße: Quartile 10 Wenn die Stichprobe mit Umfang „n“ (n>100) geordnet ist, dann findet man die Quartile Q1 und Q3 mit der folgenden Prozedur: Q1= ๐(๐+3)/4 Q3=๐(3๐+1)/4 (Quelle: Müller-Benedict, Volker: Grundkurs Statistik In Den Sozialwissenschaften, VS Verlag für Sozialwissenschaften, Auflage: 5. Aufl. 2011) William Tarazona, Statistik I Streuungsmaße: Quartile 11 Beispiel: ๐ฅเทค = ๐2 = ๐๐๐๐๐๐๐ก๐ 25% der Daten überschritten ๐1 = ๐ ๐๐๐โ๐ก๐๐ฆ ๐ฟ๐๐๐๐๐๐ 75% der Daten überschritten Oder: USA: GSS 2010 n ๐3 = ๐ ๐๐๐โ๐ก๐๐ฆ ๐ถ๐๐๐ ๐๐vative ๐1 = ๐(๐+3)/4 = ๐(1973+3)/4 ๐1 = ๐494 = ๐ ๐๐๐โ๐ก๐๐ฆ ๐ฟ๐๐๐๐๐๐ ๐3 = ๐(3๐+1)/4 = ๐(3∗1973+1)/4 ๐3 = ๐1480 = ๐ ๐๐๐โ๐ก๐๐ฆ ๐ถ๐๐๐ ๐๐๐ฃ๐๐ก๐๐ฃ๐ Die unteren 25% der Befragten haben eine „eher liberale“ politische Einstellung Die oberen 25% der Befragten haben eine „eher konservative“ politische Einstellung William Tarazona, Statistik I Streuungsmaße: Boxplots 12 Boxplots sind grafische Darstellungen, die mit Hilfe der Quartile Verteilungsformen aufzeigen, z.B. für die Rechtssteile Verteilung: Min Q1 เทฅ ๐ Q3 Max Boxplot: William Tarazona, Statistik I Streuungsmaße: Boxplots 13 Übung: Quelle: Kindepanel, Mündlicher Fragebogen für Mütter und alleinerziehende Väter, Deutsches Jugendinstitut http://www.dji.de/cgi-bin/projekte/output.php?projekt=71 Verteilungsform? William Tarazona, Statistik I Streuungsmaße: Quartile 14 ๏ Quartilsabstand: ๐๐ด = ๐3 −๐1 2 William Tarazona, Statistik I Streuungsmaße: Beispiel 15 Lasst uns den ALLBUS 2010 benutzen, um die Streuungsmaße für die Antworten zu folgender Frage zu den Lagemaßen hinzuzufügen: William Tarazona, Statistik I Streuungsmaße: Beispiel 16 Man hat folgende Information über die Stichprobe mit der Antworten der Befragten: • • • • • Streuungsmaße interpretiert man nicht allein. Streuungsmaße werden benutzt, um die Streuung um eine Zentrale Tendenz zu beschreiben. Um die Streuung der Werte eines Merkmals zu beschreiben, kombiniert man ein Lagemaß und ein Streuungsmaß. Nicht alle Kombinationen sind sinnvoll, zum Beispiel Kombinationen mit dem Streuungsmaß der Spannweite sind nicht sinnvoll. Die bekannteste Kombination ist die mit dem Mittelwert und der Standardabweichung, obwohl diese Kombination von möglichen Ausreißern beeinflusst werden kann. William Tarazona, Statistik I Beschreibung der Streuung: Mittelwert und Standardabweichung 17 Mit der Kombination der Information der Mittelwert und die Standardabweichung wird ein Intervall gebaut (๐ฅาง - s, ๐ฅาง + s) das die Streuung der Werte eines Merkmals beschreiben: ๐ฅาง • • ๐ • • • (๐ฅาง − ๐ , ๐ฅาง + ๐ ) = (6.31-1.06, 6.31+1.06) = (5.25,7.37) ๏ (5,7) Ein bestimmter % der Antworten der Befragten streuen zwischen 5 und 7. Wie viel Prozent der Antworten streuen zwischen diese zwei Werte? Dazu können wir die Häufigkeitstabelle benutzen. Man kann entweder die relative Häufigkeit benutzen: 11.4%+22%+59.9%=93.3% oder die kumulierte relative Häufigkeit: 100%-6.7%=93.3%. Die Beschreibung der Streuung lautet also: 93.3% der Befragten antworteten mit Werten zwischen 5 und 7 zur der Frage „wie wichtig ist es, eine sichere Berufsstellung zu haben, wobei 7 „sehr wichtig“ bedeutet. Diese Kombination kann von Ausreißern beeinflusst werden. Wenn man das Problem vermeiden möchte, kann man die Kombination von Median und Semiquartilsabstand benutzen: (๐ฅเทค - ๐๐ด , ๐ฅเทค + ๐๐ด ) William Tarazona, Statistik I Streuungsmaße: Zusammenfassung 18 Übung: Info: • • Beschreiben Sie die Streuung der Verteilung sowohl für Ost- als auch für Westdeutschland mit und ohne Ausreißern: Welche Verteilung hat eine größere Streuung? Verteilungsform für Ost und West? William Tarazona, Statistik I Streuungsmaße 19 Zusammenfassung: Skalenniveaus R s2 s Q1 Q3 QA QA Streuungsmaße Nominal Ordinal ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ ๏ für die verschiedenen Quantitativ ๏ ๏ ๏ ๏ ๏ ๏ ๏ William Tarazona, Statistik I Streuungsmaße: Streuungsdiagramm 20 ๏ Streuungsdiagramme werden eingesetzt, um Zusammenhänge zwischen 2 quantitativen Merkmalen X und Y visuell zu untersuchen. ๏ Eine Stichprobe der zwei Merkmale X (das unabhängige Merkmal) und Y (das abhängige Merkmal) wird auf folgende Weise bezeichnet: {(X1,Y1),(X2,Y2),…,(Xn,Yn)} ๏ In diesem Seminar werden wir lineare Zusammenhänge behandeln. William Tarazona, Statistik I Streuungsmaße: Streuungsdiagramm 21 II I III IV A: Kein Zusammenhang C: Negativer (inverser) linearer Zusammenhang B: positiver linearer Zusammenhang D: positiver linearer Zusammenhang (stärker als in B) William Tarazona, Statistik I Streuungsmaße: Zusammenhang zwischen 2 quantitative Merkmale 22 ๏ Um den linearen Zusammenhang zwischen 2 quantitativen Merkmalen zu analysieren, gibt es 2 Streuungsmaße, die 2 verschiedene Komponenten des Zusammenhangs beschreiben: ๏ก ๏ก Richtung des Zusammenhangs: Kovarianz Stärke des Zusammenhangs: Korrelationskoeffizient William Tarazona, Statistik I Streuungsmaße: Kovarianz 23 ๏ Die Kovarianz (bezeichnet als sxy) ist definiert als: σ๐ ๐)(๐๐ −เดฅ ๐) ๐=๐(๐ฟ๐ −เดฅ ๐๐๐ = ๐−๐ เดฅ)(๐๐ − ๐ เดฅ) wird auch SAQxy genannt. Außerdem: ๏ σ๐ ๐=๐(๐ฟ๐ − ๐ เดฅ ๐บ๐จ๐ธ๐๐ =σ๐๐=๐ ๐ฟ๐ ๐๐ − ๐เดฅ ๐๐ ๏ Die Kovarianz zeigt die Richtung des Zusammenhangs: ๏ก ๏ก Wenn sxy>0: Es gibt einen positiven Zusammenhang zwischen X und Y. Wenn sxy<0: Es gibt einen negativen Zusammenhang zwischen X und Y. William Tarazona, Statistik I Streuungsmaße: Korrelationskoeffizient 24 ๏ Aber: Wie stark ist der Zusammenhang? Dafür berechnen wir Pearsons Korrelationskoeffizient: ๏ Korrelationskoeffizient (bezeichnet als rxy) ist definiert als bzw. ๐๐๐ = ๐๐๐ = ๐๐๐ ๐๐ ๐๐ ๐บ๐จ๐ธ๐๐ ๐บ๐จ๐ธ๐ ๐บ๐จ๐ธ๐ ๏ rxy liegt zwischen -1 und 1 Je näher zu 1, desto stärker ist der positiven lineare Zusammenhang zwischen X und Y -1 0 1 Je näher zu -1, desto stärker ist der negativen lineare Zusammenhang zwischen X und Y William Tarazona, Statistik I Streuungsmaße: Korrelationskoeffizient 25 A: rxy = 0.063 C: rxy = -0.622 B: rxy = 0.806 D: rxy = 0.986 William Tarazona, Statistik I Streuungsmaße: Korrelationskoeffizient 26 ๏ Die Interpretation von rxy variiert je nach wissenschaftlicher Fachdisziplin. Für die Sozialwissenschaften kann man sich zum Beispiel an folgende Interpretationen orientieren: William Tarazona, Statistik I Streuungsmaße: Zusammenhang zwischen 2 quantitative Merkmale 27 Beispiel: Wir haben eine Stichprobe von n=6 Paaren (x,y), wobei: X: Bevölkerungsdichte (in 1.000 pro Quadratkilometer) Y: Anzahl der Verbrechen (pro 10.000 Einwohner) Vermutung: Die Anzahl Bevölkerungsdichte ist. der Verbrechen erhöht sich, je größer die Fragen: 1. Richtung des Zusammenhangs? 2. Stärke des Zusammenhangs? 3. Interpretation? Wird Vermutung bestätigt? die William Tarazona, Statistik I Hausaufgabe 28 1. Sie haben die Schulnoten zweier Schulklassen vorliegen. Daraus wurden jeweils zwei Stichproben gezogen: Stichprobe Klasse A: 4, 4, 3, 3 Stichprobe Klasse B: 6, 6, 1, 1 • Berechnen Sie den Mittelwert der beiden Stichproben. Was ergibt sich aus dem Mittelwertvergleich, gibt es Unterschiede? • Berechnen Sie entsprechende Streuungsmaße (Varianz, Standardabweichung, Spannweite). Vergleichen Sie erneut die beiden Stichproben. William Tarazona, Statistik I Hausaufgabe 29 ๏ Aus den PISA-Daten 2000 für Deutschland werden die „Anzahl Bücher zu Hause“ (X) und die „Lese-kompetenz“ (Scores, um 500 zentriert) in den Häufigkeitstabellen auf der nächsten Folie dargestellt. Die folgenden Kennwerte wurden bereits (unter Verwendung der Mittelpunkte der jeweiligen Messklasse als Datum für alle Fälle der Klasse) ermittelt (N=32416): เท ๐๐ = 15919750; ๐ฅาง = 205,98; เท(๐๐ − ๐ฆ) เดค 2 = 307666972 เท ๐๐2 = 2843918333; เท ๐๐ ๐๐ = 3521139620 William Tarazona, Statistik I Hausaufgabe 30 Berechnen Sie: a) Varianz und Standardabweichung von X und Y. Wie viel % der Scores streuen zwischen y ๏ญ s y und y ๏ซ s y ? Lesekompetenz- b) den Quartilsabstand für X und Y und interpretieren Sie ihn. c) die Kovarianz. Was besagt das Vorzeichen? d) die Korrelation und interpretieren Sie den Wert. William Tarazona, Statistik I