Thema: Streuung, Zusammenhänge Streuung

Werbung
Europa-Universität Flensburg
Zentrum für Methodenlehre
Tutorium Statistik I
Thema: Streuung, Zusammenhänge
Streuung:
- Nominalskalierte Variablen
Simpsons D  Maß für die Heterogenität
(D=0 homogen, D=1 heterogen)
- Ordinalskalierte Variablen
Spannweite R
Zentile
Quartile, Quartilsabstand QA
- Metrische Variablen
Varianz s² (0keine Streuung)
Standardabweichung s
Kovarianz (zwei Variablen)  umso größer, je mehr die beiden
Merkmale zusammenhängen
Zusammenhänge:
- Kategoriale Daten
Prozentsatzdifferenz d
(d=0: vollständige Unabhängigkeit
d=100: perfekter Zusammenhang)
- Metrische Daten
Korrelation r  normierte Kovarianz (r liegt zwischen -1 und +1,
r=0 kein Zusammenhang)
Aufgaben:
1. Die untenstehende Tabelle zeigt die mittlere Dauer zwischen Abschluss des Studiums und
erstem Job (fiktive Daten).
Universität A
Dauer
2,5
(Monate)
B
2,0
C
3,5
D
3,2
E
1,4
Bestimmen Sie
a) den Mittelwert
b) den Median
c) die Varianz
d) die Standardabweichung
e) den Quartilsabstand.
Lösung:
a)
1 n
x   xi
n i 1
2,5  2,0  3,5  3,2  1,4
x
 2,52
5
b)
x1
x2
x3
x4
x5
1,4
2,0
2,5
3,2
3,5
Pos : n / 2  5 / 2  2,5  3.Stelle
~
X  2,5
c)
1 n 2
1 n
2
2
oder
S2 
x

n
(
x
)
S

( xi  x ) 2


i
n  1 i 1
n  1 i 1
(2,52  2,0 2  3,52  3,2 2  1,4 2 )  5 * (2,522 ) 34,7  31,752
S 

 0,737
4
4
d)
2
S  S 2  0,737  0,858
e)
Q  Q1
QA  3
2
Q1 POS : (n  3) / 4  (5  3) / 4  2  2.Fall  2,0
Q3 POS : (3n  1) / 4  (3 * 5  1) / 4  4  4.Fall  3,2
QA 
3,2  2,0
 0,6
2
2. Ein großer Kosmetikhersteller hat ein neues Pflegeprodukt auf den Markt gebracht.
Um den Umsatz des Produkts (Y in 10 000 Euro) zu steigern, schaltet das Unternehmen an
vier aufeinanderfolgenden Wochen unterschiedliche Zahlen von Werbeminuten (X). Es
ergeben sich folgende Werte:
Woche
Xi
Yi
A
12
31
B
16
39
C
14
33
D
19
38
Berechnen Sie die Korrelation von X und Y.
Lösung:
1.) Mittelwerte berechnen:
𝑥̅ = 15,25 𝑦̅ = 35,25
2.)
Standardabweichungen berechnen:
1
𝑆𝐴𝑄
𝑆𝑋2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − ̅̅̅̅̅
𝑋)2 = 𝑛−1𝑥
1
𝑆𝐴𝑄𝑥 = 3 [(12 − 15,25)2 + (16 − 15,25)2 + (14 − 15,25)2 + (19 − 15,25)2 ] = 26,75
𝑆𝑥2 =
26,75
3
1
𝑆𝑦2 = 𝑛−1
= 8,9167 → 𝑆𝑥 = 2,9861
̅̅̅̅̅2 = 𝑆𝐴𝑄𝑦
∑𝑛 (𝑦𝑖 − 𝑦)
𝑖=1
1
𝑛−1
𝑆𝐴𝑄𝑦 = 3 [(31 − 35,25)2 + (39 − 35,25)2 + (33 − 35,25)2 + (38 − 35,25)2 ] = 44,75
𝑆𝑦2 =
44,75
3
= 14,9167 → 𝑆𝑦 = 3,8622
3.) Kovarianz berechnen:
1
𝑆𝑥𝑦 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
1
𝑆𝑥𝑦 = [(12 − 15,25)(31 − 35,25) + (16 − 15,25)(39 − 35,25)
3
+ (14 − 15,25)(33 − 35,25) + (19 − 15,25)(38 − 35,25)] = 9,9167
4.) Korrelation:
𝑟=
𝑆𝑥𝑦
9,9167
=
= 0,8599
𝑆𝑥 𝑆𝑦 2,9861 ∗ 3,8622
Es besteht ein starker gleichgerichteter Zusammenhang zwischen den beiden Variablen.
3. In der PISA-Studie wurden von 300 Schulkindern für die Lesekompetenz y (um 500
skaliert) und die täglich vor dem Fernseher verbrachte Zeit x (in h) berechnet:
𝑆𝑥 = 2,56
𝑆𝑦2 = 9779
𝑆𝑥𝑦 = −37,31
Wie stark hangen die beiden Merkmale zusammen? Interpretieren Sie das Ergebnis!
Lösung:
Zunächst brauchen wir die Standardabweichung von y (angegeben ist die Varianz):
𝑆𝑦 = √𝑆𝑦2 = 98,89
Nun kann schon die Korrelation berechnet werden:
𝑟=
𝑆𝑥𝑦
−37
=
= −0,1462
𝑆𝑥 𝑆𝑦 2,56 ∗ 98,89
Es besteht ein schwacher inverser Zusammenhang (je mehr Fernsehen, desto schlechtere
Ergebnisse).
4. (2 Punkte) Man möchte untersuchen wie die Dauer der Arbeitslosigkeit die Intensität der
Jobsuche beeinflusst. Dafür hat man 10 Arbeitslose gefragt, wie viele Wochen sie schon
arbeitslos waren („X“), und wie oft sie in einer Woche Zeitung lesen, um Jobangebote zu
finden („Y“).
Folgende Kennwerte wurden aus den Daten berechnet:
Welches der drei folgenden Streudiagramme (D1, D2, oder D3) stellt den Zusammenhang
zwischen X und Y am besten dar?
Y
D1
D2
X
Y
D3
X
Lösung: r = 80,5/ (34,43*3,66) = 0,638 , starker positiver Zusammenhang, also D3.
1 Punkt für D3; nur 0.5 wenn nur Cov – 1 Punkt für r!
4. Es wird vermutet, dass es zwischen den Variablen x=”Jahreseinkommen“ und
y=”Ersparnisse“ einen positiven linearen Zusammenhang gibt. Für 10 befragte Haushalte
ergaben sich die folgenden Daten:
𝑥̅ = 53,6
𝑦̅ = 5,8
2
∑10
𝑖=1 𝑥 = 30447,3
2
∑10
𝑖=1 𝑦 = 372,38
𝑆𝑥𝑦 = 26,7556
Berechnen Sie die Korrelation zwischen beiden Merkmalen!
Lösung:
Da hier nicht die Varianz direkt, die SAQs oder einzelne Werte gegeben sind, müssen wir hier
die alternative Formel für die Varianz verwenden, um im nächsten Schritt die
Standardabweichungen zu berechnen:
1
1
2=
̅̅̅̅̅
∑𝑛 𝑥 2 − 𝑛(𝑥̅ 2 )
𝑆𝑋2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑋)
𝑛−1 𝑖=1 𝑖
1
𝑆𝑥2 = 10−1 30447,3 − 10 (53,62 ) = 190,8556
→𝑆𝑥 = 13,815
1
𝑆𝑌2 = 𝑛−1 ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛(𝑦̅ 2 )
1
𝑆𝑦2 = 10−1 372,38 − 10(5,82 ) = 3,9978 → 𝑆𝑦 = 1,9994
𝑆𝑥𝑦
𝑟=𝑆
𝑥 𝑆𝑦
26,7556
= 13,815∗1,9994 = 0,9686 → 𝑠𝑒ℎ𝑟 𝑠𝑡𝑎𝑟𝑘𝑒𝑟 𝑔𝑙𝑒𝑖𝑐ℎ𝑔𝑒𝑟𝑖𝑐ℎ𝑡𝑒𝑡𝑒𝑟 𝑍𝑢𝑠𝑎𝑚𝑚𝑒𝑛ℎ𝑎𝑛𝑔
5. Ein Forscher notiert sich vier Beobachtungspaare der gemeinsam auftretenden Merkmale X
und Y.
x
y
1
4
2
3
4
5
5
8
Existiert ein Zusammenhang zwischen den Beobachtungspaaren, die der Forscher sich notiert
hat?
Lösung:
Für r benötigen wir:
X , Y , S x2 , S y2 , S x , S y , S xy
1 2  4  5
3
4
4358
Y 
5
4
1 n
(1  3) 2  (2  3) 2  (4  3) 2  (5  3) 2
2
S x2 
(
x

X
)

 3,33
 i
n  1 i 1
(4  1)
X 
S x  S x2  3,33  1,82
S y2 
1 n
(4  5) 2  (3  5) 2  (5  5) 2  (8  5) 2
2
(
y

Y
)

 4,67
 i
n  1 i 1
(4  1)
S y  S y2  4,67  2,16
1 n
 ( xi  X )( y i Y )
n  1 i 1
(1  3) * (4  5)  .....(5  3) * (8  5)
S xy 
 3,3
(4  1)
S xy
3,3
r

 0,85
S x * S y 1,82 * 2,16
S xy 
Ja, es besteht ein starker gleichgerichteter Zusammenhang zwischen den beiden Merkmalen.
Herunterladen