Europa-Universität Flensburg Zentrum für Methodenlehre Tutorium Statistik I Thema: Streuung, Zusammenhänge Streuung: - Nominalskalierte Variablen Simpsons D Maß für die Heterogenität (D=0 homogen, D=1 heterogen) - Ordinalskalierte Variablen Spannweite R Zentile Quartile, Quartilsabstand QA - Metrische Variablen Varianz s² (0keine Streuung) Standardabweichung s Kovarianz (zwei Variablen) umso größer, je mehr die beiden Merkmale zusammenhängen Zusammenhänge: - Kategoriale Daten Prozentsatzdifferenz d (d=0: vollständige Unabhängigkeit d=100: perfekter Zusammenhang) - Metrische Daten Korrelation r normierte Kovarianz (r liegt zwischen -1 und +1, r=0 kein Zusammenhang) Aufgaben: 1. Die untenstehende Tabelle zeigt die mittlere Dauer zwischen Abschluss des Studiums und erstem Job (fiktive Daten). Universität A Dauer 2,5 (Monate) B 2,0 C 3,5 D 3,2 E 1,4 Bestimmen Sie a) den Mittelwert b) den Median c) die Varianz d) die Standardabweichung e) den Quartilsabstand. Lösung: a) 1 n x xi n i 1 2,5 2,0 3,5 3,2 1,4 x 2,52 5 b) x1 x2 x3 x4 x5 1,4 2,0 2,5 3,2 3,5 Pos : n / 2 5 / 2 2,5 3.Stelle ~ X 2,5 c) 1 n 2 1 n 2 2 oder S2 x n ( x ) S ( xi x ) 2 i n 1 i 1 n 1 i 1 (2,52 2,0 2 3,52 3,2 2 1,4 2 ) 5 * (2,522 ) 34,7 31,752 S 0,737 4 4 d) 2 S S 2 0,737 0,858 e) Q Q1 QA 3 2 Q1 POS : (n 3) / 4 (5 3) / 4 2 2.Fall 2,0 Q3 POS : (3n 1) / 4 (3 * 5 1) / 4 4 4.Fall 3,2 QA 3,2 2,0 0,6 2 2. Ein großer Kosmetikhersteller hat ein neues Pflegeprodukt auf den Markt gebracht. Um den Umsatz des Produkts (Y in 10 000 Euro) zu steigern, schaltet das Unternehmen an vier aufeinanderfolgenden Wochen unterschiedliche Zahlen von Werbeminuten (X). Es ergeben sich folgende Werte: Woche Xi Yi A 12 31 B 16 39 C 14 33 D 19 38 Berechnen Sie die Korrelation von X und Y. Lösung: 1.) Mittelwerte berechnen: 𝑥̅ = 15,25 𝑦̅ = 35,25 2.) Standardabweichungen berechnen: 1 𝑆𝐴𝑄 𝑆𝑋2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − ̅̅̅̅̅ 𝑋)2 = 𝑛−1𝑥 1 𝑆𝐴𝑄𝑥 = 3 [(12 − 15,25)2 + (16 − 15,25)2 + (14 − 15,25)2 + (19 − 15,25)2 ] = 26,75 𝑆𝑥2 = 26,75 3 1 𝑆𝑦2 = 𝑛−1 = 8,9167 → 𝑆𝑥 = 2,9861 ̅̅̅̅̅2 = 𝑆𝐴𝑄𝑦 ∑𝑛 (𝑦𝑖 − 𝑦) 𝑖=1 1 𝑛−1 𝑆𝐴𝑄𝑦 = 3 [(31 − 35,25)2 + (39 − 35,25)2 + (33 − 35,25)2 + (38 − 35,25)2 ] = 44,75 𝑆𝑦2 = 44,75 3 = 14,9167 → 𝑆𝑦 = 3,8622 3.) Kovarianz berechnen: 1 𝑆𝑥𝑦 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 1 𝑆𝑥𝑦 = [(12 − 15,25)(31 − 35,25) + (16 − 15,25)(39 − 35,25) 3 + (14 − 15,25)(33 − 35,25) + (19 − 15,25)(38 − 35,25)] = 9,9167 4.) Korrelation: 𝑟= 𝑆𝑥𝑦 9,9167 = = 0,8599 𝑆𝑥 𝑆𝑦 2,9861 ∗ 3,8622 Es besteht ein starker gleichgerichteter Zusammenhang zwischen den beiden Variablen. 3. In der PISA-Studie wurden von 300 Schulkindern für die Lesekompetenz y (um 500 skaliert) und die täglich vor dem Fernseher verbrachte Zeit x (in h) berechnet: 𝑆𝑥 = 2,56 𝑆𝑦2 = 9779 𝑆𝑥𝑦 = −37,31 Wie stark hangen die beiden Merkmale zusammen? Interpretieren Sie das Ergebnis! Lösung: Zunächst brauchen wir die Standardabweichung von y (angegeben ist die Varianz): 𝑆𝑦 = √𝑆𝑦2 = 98,89 Nun kann schon die Korrelation berechnet werden: 𝑟= 𝑆𝑥𝑦 −37 = = −0,1462 𝑆𝑥 𝑆𝑦 2,56 ∗ 98,89 Es besteht ein schwacher inverser Zusammenhang (je mehr Fernsehen, desto schlechtere Ergebnisse). 4. (2 Punkte) Man möchte untersuchen wie die Dauer der Arbeitslosigkeit die Intensität der Jobsuche beeinflusst. Dafür hat man 10 Arbeitslose gefragt, wie viele Wochen sie schon arbeitslos waren („X“), und wie oft sie in einer Woche Zeitung lesen, um Jobangebote zu finden („Y“). Folgende Kennwerte wurden aus den Daten berechnet: Welches der drei folgenden Streudiagramme (D1, D2, oder D3) stellt den Zusammenhang zwischen X und Y am besten dar? Y D1 D2 X Y D3 X Lösung: r = 80,5/ (34,43*3,66) = 0,638 , starker positiver Zusammenhang, also D3. 1 Punkt für D3; nur 0.5 wenn nur Cov – 1 Punkt für r! 4. Es wird vermutet, dass es zwischen den Variablen x=”Jahreseinkommen“ und y=”Ersparnisse“ einen positiven linearen Zusammenhang gibt. Für 10 befragte Haushalte ergaben sich die folgenden Daten: 𝑥̅ = 53,6 𝑦̅ = 5,8 2 ∑10 𝑖=1 𝑥 = 30447,3 2 ∑10 𝑖=1 𝑦 = 372,38 𝑆𝑥𝑦 = 26,7556 Berechnen Sie die Korrelation zwischen beiden Merkmalen! Lösung: Da hier nicht die Varianz direkt, die SAQs oder einzelne Werte gegeben sind, müssen wir hier die alternative Formel für die Varianz verwenden, um im nächsten Schritt die Standardabweichungen zu berechnen: 1 1 2= ̅̅̅̅̅ ∑𝑛 𝑥 2 − 𝑛(𝑥̅ 2 ) 𝑆𝑋2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑋) 𝑛−1 𝑖=1 𝑖 1 𝑆𝑥2 = 10−1 30447,3 − 10 (53,62 ) = 190,8556 →𝑆𝑥 = 13,815 1 𝑆𝑌2 = 𝑛−1 ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛(𝑦̅ 2 ) 1 𝑆𝑦2 = 10−1 372,38 − 10(5,82 ) = 3,9978 → 𝑆𝑦 = 1,9994 𝑆𝑥𝑦 𝑟=𝑆 𝑥 𝑆𝑦 26,7556 = 13,815∗1,9994 = 0,9686 → 𝑠𝑒ℎ𝑟 𝑠𝑡𝑎𝑟𝑘𝑒𝑟 𝑔𝑙𝑒𝑖𝑐ℎ𝑔𝑒𝑟𝑖𝑐ℎ𝑡𝑒𝑡𝑒𝑟 𝑍𝑢𝑠𝑎𝑚𝑚𝑒𝑛ℎ𝑎𝑛𝑔 5. Ein Forscher notiert sich vier Beobachtungspaare der gemeinsam auftretenden Merkmale X und Y. x y 1 4 2 3 4 5 5 8 Existiert ein Zusammenhang zwischen den Beobachtungspaaren, die der Forscher sich notiert hat? Lösung: Für r benötigen wir: X , Y , S x2 , S y2 , S x , S y , S xy 1 2 4 5 3 4 4358 Y 5 4 1 n (1 3) 2 (2 3) 2 (4 3) 2 (5 3) 2 2 S x2 ( x X ) 3,33 i n 1 i 1 (4 1) X S x S x2 3,33 1,82 S y2 1 n (4 5) 2 (3 5) 2 (5 5) 2 (8 5) 2 2 ( y Y ) 4,67 i n 1 i 1 (4 1) S y S y2 4,67 2,16 1 n ( xi X )( y i Y ) n 1 i 1 (1 3) * (4 5) .....(5 3) * (8 5) S xy 3,3 (4 1) S xy 3,3 r 0,85 S x * S y 1,82 * 2,16 S xy Ja, es besteht ein starker gleichgerichteter Zusammenhang zwischen den beiden Merkmalen.