Beispiel 2: Gegeben ist folgende Häufigkeitsverteilung der

Werbung
Beispiel 2:
Gegeben ist folgende Häufigkeitsverteilung der Merkmale X und Y:
Y1
2
6
4
12
X1
X2
X3
Y2
5
15
10
30
Y3
3
9
6
18
bedingte Verteilung von Y
Y1
Y2
Y3
X1
0,20 0,50 0,30
X2
0,20 0,50 0,30
X3
0,20 0,50 0,30
= 6 =
∙ 12 ∙ 30
10
30
20
60
bedingte Verteilung von X
Y1
Y2
Y3
X1
0,17 0,17 0,17
X2
0,50 0,50 0,50
X3
0,33 0,33 0,33
= 5 =
oder auch
∙ 10 ∙ 30
Die bedingte Verteilung für X (bzw. für Y) hängen nicht davon ab,
welche Ausprägung das zweite Merkmal Y (bzw. X) annimmt.
Man sagt: Die beiden Merkmale sind voneinander unabhängig.
Aufgabe:
Prüfen Sie durch Bestimmung der bedingten Verteilungen, bei
welcher der beiden angegebenen Verteilungen die Merkmale
abhängig bzw. unabhängig sind.
a)
b)
X1
X2
X3
Y1
4
5
11
Torsten Schreiber
Y2
6
7
7
Y3
10
8
2
X1
X2
X3
34
Y1
20
10
5
Y2
12
6
3
Y3
8
4
2
Y4
4
2
1
SS 2011
Regressionsfunktion für Zweidimensionalität
Es wird vorausgesetzt, dass bei einer zweidimensionalen Verteilung der
metrisch messbaren Merkmale X und Y, diese statistisch voneinander
abhängig sind.
Eine Funktion = (), die die Tendenz der Abhängigkeit dieser
Merkmale beschreibt, nennt man Regressionsfunktion.
y-x-Regressionsfunktion: Abhängigkeit vom Merkmal Y von X
x-y-Regressionsfunktion: Abhängigkeit vom Merkmal X von y
Als gängige Funktionen werden zumeist die auf Seite 27 genannten
Arten in der Praxis genutzt.
(Gerade, Parabel, Exponential-, Logarithmus bzw. Potenzfunktion)
Kriterium der kleinsten Quadrate (KQ-Kriterium):
Die Koeffizienten einer Regressionsfunktion der Form = () zur
Tendenzbeschreibung der Merkmale X und Y werden so bestimmt,
dass die Summe der quadrierten Abweichungen der Beobachtungswerte von den zugehörigen Funktionswerten ein Minimum wird.
( − ) = ( ) !
Die somit bestimmte Funktion wird KQ-Regressionsfunktion genannt
Grafische Interpretation der Differenzen:
Torsten Schreiber
35
SS 2011
Lineare Regressionsfunktion:
Existiert zwischen den Merkmalen X und Y statistische Abhängigkeit
und wird als Funktion die Form = " ∙ + $ gewählt werden die
Koeffizienten a und b wie folgt bestimmt:
"=
∑ − ∑ ∑ ∑ − &∑ '
bzw. mittels Varianz
"=
()*(+, -)
./
und
$=
∑ ∑ − ∑ ∑ ∑ − &∑ '
bzw. mittels Varianz
$=
∑ ∙ 01 −
∑ ./
∙ 0/
Zur Bestimmung der Regressionskoeffizienten berechnet man die
benötigten Summe am besten mittels einer Hilfstabelle, in der
Ausprägungen von X und Y verrechnet werden.
Für eine lineare Regressionsfunktion der Form = " ∙ + $ mit den
Mittelwerten 0/ und 01 gilt stets 01 = " ∙ 0/ + $, d.h. der Punkt
(0/ ; 01 ) muss auf der Geraden liegen.
Torsten Schreiber
36
SS 2011
Beispiel:
Gegeben sind die folgenden Beobachtungswerte ( ; )
(1;2), (2;3), (3;5), (4;4), (4;6), (5;4), (6;8), (7;7), (9;8).
0/ ≈ 4,6 ! 01 ≈ 5,2
Summen-Hilfstabelle:
xi
yi
xi²
yi²
xi yi
56 − 75
86 − 78
Produkt
1
2
1
4
2
-3,6
-3,2
11,5
2
3
4
9
6
-2,6
-2,2
5,7
3
5
9
25
15
-1,6
-0,2
0,3
4
4
16
16
16
-0,6
-1,2
0,7
4
6
16
36
24
-0,6
0,8
-0,4
5
4
25
16
20
0,4
-1,2
-0,5
6
8
36
64
48
1,4
2,8
4,0
7
7
49
49
49
2,4
1,8
4,3
9
8
81
64
72
4,4
2,8
12,3
Berechnung mittels Variante 1:
"=
∑ − ∑ ∑ 9 ∙ 252 − 41 ∙ 47
=
= 0,7544
∑ − (∑ )
9 ∙ 237 − 41
und
∑ ∑ − ∑ ∑ 237 ∙ 47 − 41 ∙ 252
$=
=
= 1,7845
∑ − (∑ )
9 ∙ 237 − 41
Berechnung mittels Variante 2:
"=
()*(+, -) 4,21
37,89
=
=
0,754
()*(+;
-)
=
./
5,58
9
und
$=
∑ ∙ 01 −
∑ ./
∙ 0/
237 47 252 41
∙
−
∙
9
9
9
9 = 1,785
=
5,58
1
41 . = ∙ 237 − < = = 5,58
9
9
Torsten Schreiber
37
SS 2011
41
47
237
283
252
37,89
Graph zur Regressionsgeraden: = 0,7544 ∙ + 1,7845
Aufgabe 1:
Gegeben sind folgende Wertepaare der Merkmale X und Y.
(1;2), (1;4), (2;4), (3;3), (3;5), (4;6), (5;4), (6;5), (7;9), (8;8)
a) Weisen Sie nach, dass die Merkmale X und Y abhängig sind.
b) Bestimmen Sie das arithmetische Mittel zu X und Y.
c) Berechnen Sie die Varianz als auch Kovarianz der Verteilung.
d) Berechnen Sie die lineare KQ-Regressionsfunktion mittels
Variante 1 (KQ-Kriterium)
Variante 2 (Varianz / Kovarianz)
Torsten Schreiber
38
SS 2011
Herunterladen