Document

Werbung
Budapester Wirtschaftshochschule
Fakultät für Handel, Gastronomie und Tourismus
Studiengang Tourismus und Hotel Management
STATISTIK 2 AUFGABEN 2011/9
1. Wir haben 100 vermutlich normalverteilte Zufallszahlen wie folgendes klassifiziert.
Intervall
0-bis unter 0.25
0.25-bis unter 0.5
0.5-bis unter 0.75
0.75-bis unter 1
Häufigkeit
28
22
19
31
Können wir die Nullhypothese (Normalverteilung) bei =5% verwerfen?
Xbar= (28*0.125+22*0.375+19*0.625+31*0.875)/100=0,5075(=xb)
Die Standardabweichung:
sqrt((28*(0.125-xb)^2+22*(0.375-xb)^2+19*(0.625-xb)^2+31*(0.875-xb)^2)/99)=0.3
Also wir können die Werte runden und N(0.5,0.3) anpassen. Die erwartete Häufigkeiten (vergessen wir es
nicht, dass man alle reelle Zahlen einteilen soll):
Intervall
Wahrsch.
Häufigkeit
bis unter 0.25
0.2
20
0.25-bis unter 0.5
0.3
30
0.5-bis unter 0.75
0.3
30
0.750.2
20
Daraus der Statistik: (20-28)^2/20+(22-30)^2/30+(19-30)^2/30+(31-20)^2/20=15.4.
Weil FG=1 (wir haben 2 Parameter geschätzt), wir können die Normalität verwerfen (p<0.001, weil alle
kritische Werte kleines sind als 15.4)
2. Wir haben die Anzahl von Kraftfahrzeugen per 1000 Einwohner sowie das GDP (per Person) in 5
Ländern untersucht.
Kfz (pro 1000 Einw.) 450 850 600 750 900
GDP (Tausend €) 20
60
30
55
85
a/ Stellen wir die Daten in einem Streuungsdiagramm dar, und berechnen wir die Regressionsgerade mit
GDP als Einflussfaktor und KFz-Zahl als erklärte Variable.
b/ Bestimmen wir die geschätzten Werte und die Residuen!
c/ Berechnen wir das Bestimmtheitsmass und die Korrelationskoeffizient!
d/ Stellen wir die Regressionsgerade dar!
e/ Testen wir mit α=5%, ob die Koeffizienten der linearen Regression signifikant sind!
20  60  30  55  85
 50
5
450  850  600  750  900
y
 710
5
x
xi yi x  x y  y
i
i
20
60
30
55
85
450
850
600
750
900
-30
10
-20
5
35
-260
140
-110
40
190
x
i
 x yi  y x i  x 2
y
i  y
2
7800
1400
2200
200
6650
900
100
400
25
1225
67600
19600
12100
1600
36100
18250
2650
137000
Die Berechnung der Koeffizienten der Regression:
 x
n
a
i 1
i

 x yi  y
 x
n
i 1
i
x



2
18250
 6.887
2650
b  710  6.887  50  365.660
xi yi geschaetzte Werte Residuen ( y  yˆ )2
i
i
( yˆi  axi  b ) ( yi  yˆi )
20
60
30
55
85
450
850
600
750
900
503,4
778,87
572,26
744,43
951,04
Bestimmtheitsmass:
n
2
 y i  yˆ i 
R 2  1
i 1
n
 y
i 1
y
 1
2
i
53,4
-71,13
-27,74
-5,57
51,04
2851,16
5059,77
769,28
30,98
2604,85
0
11316,04
11316,04
 0.92
137000
Korrelationskoeffizient:
 x
n

i 1
 x
n
i 1
i
i

 x yi  y
x
  y
2
n
i 1
i

y

2

18250
2650 137000
 0,958
20
30
40
50
60
x
70
80
500
600
y
700
800
900
H0: a=a0=0 mit der t-test:
t  (aˆ  a0 ) 
2
(
x

x
)
 i
̂
wo das Freiheitsgrad ist n-2 (wir haben diesmal 2 Parametern
geschätzt).
n
ˆ 
 y
 yˆ i 
2
i
i 1
n2

t  (aˆ  a0 ) 
11316
 61,42
3
2
(
x

x
)
 i
ˆ

6,887  0
 2650  5,77
61,42
Der kritische Wert (für α=5%): t3,0.975=3,182
Also die Koeffizient a (die Trendkoeffizient) ist signifikant
H0: b=b0=0
t
t
bˆ  b0
1
x2
ˆ

n  ( xi  x ) 2
365,66 - 0
1 50 2
61,42 

5 2650
 5,56
Der kritische Wert (für α=5%): t3,0.975=3,182
Also die b Koeffizient ist auch signifikant.
3. Stellen wir die folgenden Daten (wir haben die Alter und Verkaufspreis von 5 Wagen), die von einem
Autohändler stammen graphisch dar. Schlagen wir verschiedene Modelle vor und Testen wir die
Signifikanz deren Koeffizienten. Bewerten wir diese Modelle! Geben wir Schätzungen für den
Verkaufspreis von einem 10 Jahre alten Wagen.
Alter (Jahre)
2
3
4
6
7
Preis(TFt)
1200
1000
850
650
550
x
23 467
 4,4
5
y
1200  1000  850  650  550
 850
5
xi
2
3
4
6
7
xi  x yi  y
yi
1200
1000
850
650
550
-2,4
-1,4
-0,4
1,6
2,6
x
2



x
y

y


x

x
i
i
i
350
150
0
-200
-300
-840
-210
0
-320
-780
-2150
y
i  y
5,76
1,96
0,16
2,56
6,76
17,2
Die Berechnung der Koeffizienten der Regression:
 x
n
a
i 1
i
 x
n
i 1
xi
yi
1200
1000
850
650
550
i
x



2
 2150
 125 ,
17,2
geschätzte Werte
(
2
3
4
6
7

 x yi  y
Residuen
yˆi  axi  b ) ( yi  yˆi )
1150
1025
900
650
525
50
-25
-50
0
25
0
b  850  125  4,4  1400
( yi  yˆi )2
2500
625
2500
0
625
6250
2
122500
22500
0
40000
90000
275000
900
800
600
700
Preis (TFt)
1000
1100
1200
Beobachtungen und Regressionsgerade
2
3
4
5
6
7
Jahre
n
R2  1
 y
i
 yˆ i 
 y
 y
i 1
n
i 1
H0:
i
2
 1
2
6250
 0.977
275000
a=a0=0 mit der t-Test:
n
ˆ 
 y
i 1
i
 yˆ i 
n2
t  (aˆ  a0 ) 
2

6250
 45,64
3
 (x
i
 x)2
ˆ

 125  0
 17,2  -11,36
45,642
wo das Freiheitsgrad ist n-2 (wir haben diesmal 2 Parametern geschätzt).
t
bˆ  b0
1
x2
ˆ

n  ( xi  x ) 2
t
1400 - 0
1 4,4 2
45 

5 17,2
 26,64 Also beide Koeffizienten sind Signifikant.
Ein anderes Modell:
Y≈ax+bx2+c (es hat Sinn, weil die Punkte besser an eine Kurve zu passen scheinen, als an die Gerade)
Die Schätzungen (man braucht die Formeln nicht zu wissen): a=-251,94
Die Residuen: yi=axi+bxi2+c
7,79
-10,07 -5.844
18.83
-10.714
Daraus das Bestimmtheitsmass :
n
R2  1
 y
i
 yˆ i 
 y
 y
i 1
n
i 1
i
2
 1
2
665,6
 0.997
275000
Vorhersage1: 1400-1250=150
Vorhersage2: 1640+1396-2519=517
900
800
600
700
Preis (TFt)
1000
1100
1200
Beobachtungen und Regressionsgerade
2
3
4
5
Jahre
Das zweite Modell scheint besser zu sein.
6
7
b=13,96 c=1640,3
Herunterladen