14 Regression, lineare Korrelation und Hypothesen

14
Regression, lineare Korrelation und
Hypothesen-Testverfahren
14.1 Regressionsverfahren
In der Meßtechnik kommt es häuﬁg vor, daß eine Schar von aufgenommenen
Meßpunkten durch eine geeignete analytische Funktion in Form einer Anpaßkurve beschrieben werden soll.
Im folgenden gehen wir davon aus, daß n Messungen durchgeführt werden, welche die Wertepaare {xi , yi }(i = 1, 2, . . . , n) liefern. Anschließend wird
an diese Meßwerte eine Kurve ỹ(x) angepaßt. Daraus ergeben sich die Abweichungen Δi zwischen den einzelnen Meßpunkten und der Anpaßkurve im
jeweiligen Meßpunkt xi zu
Δi = ỹ(xi ) − yi .
(14.1)
Dabei wird x als unabhängige (vorgebbare) Variable und y als abhängige
Variable bezeichnet.
Der Ansatz der minimalen Fehlerquadrate gemäß dem sog. Gaußschen
Minimalprinzip [69] (Gaußsches Prinzip der kleinsten Quadrate) ergibt
Δ=
n
i=1
Δ2i =
n
!
[ỹ(xi ) − yi ]2 =
min. .
(14.2)
i=1
In Gleichung (14.2) ist als unbekannte Funktion die Anpaßkurve ỹ(x) enthalten. Die beschriebene Fehlerquadratsumme Δ hängt nun von der Wahl dieser
Anpaßkurve ab. Die Festlegung der diese Anpaßkurve beschreibenden analytischen Funktion und die anschließende Berechnung ihrer Koeﬃzienten (s.u.)
wird als Regressionsverfahren bezeichnet. Falls Proportionalität zwischen der
abhängigen und unabhängigen Variablen herrscht, läßt sich in diesem Fall die
Schar vom Meßwerten durch eine Gerade beschreiben. Man spricht dann von
einer Ausgleichsgeraden, die durch sog. lineare Regression bestimmt wird.
434
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
14.1.1 Ausgleichsgerade (lineare Regression)
Die lineare Regression ist die für die ingenieurmäßige Praxis wichtigste Form
der Regressionsanalyse. Sie hat das Ziel, durch eine Schar von (in aller Regel) experimentell bestimmten Wertepaaren {xi , yi } eine Ausgleichsgerade zu
legen. Dabei wird x als unabhägige und y als abhängige Variable betrachtet.
Die Ausgleichsgerade bestimmt letztlich die nach dem Gaußschen Minimalprinzip beste lineare Approximation der Funktion y(x), die hier von diskreten
Wertetupeln repräsentiert wird.
Im folgenden gehen wir davon aus, daß n Meßwerte {xi , yi }(i = 1, 2, . . . , n)
vorliegen. An diese Meßwerte soll eine Gerade der Form ỹ(x) = mx + b angepaßt werden (Abb. 14.1). Die Abweichung der i-ten Einzelmessung lautet
Δi = ỹ(xi ) = [mxi + b] − yi .
(14.3)
Der Ansatz der minimalen Fehlerquadrate liefert gemäß Gl. (14.2)
Δ=
n
Δ2i
=
n
i=1
!
[mxi + b − yi ]2 =
min. .
(14.4)
i=1
Bei dem in Gl. (14.4) geforderten Minimum müssen die partiellen Ableitungen
nach den unbekannten Koeﬃzienten m und b gleich Null sein. Das führt zu
der im folgenden beschriebenen Ermittlung von Steigung und Achsenabschnitt
der Ausgleichsgeraden.
y(x)
y4
Δ4
y3
Δ3
Δ2
y2
y1
Δ1
x1
x2
x3
x4
x
Abb. 14.1: Ausgleichsgerade zur linearen Approximation aufgenommener Meßwerte
14.1 Regressionsverfahren
435
Ermittlung von Steigung m und Achsenabschnitt b der
Ausgleichsgeraden
Die partielle Diﬀerentiation von Gl. (14.4) nach m ergibt
2
n
[mxi + b − yi ]xi = 0 .
(14.5)
i=1
Aus der Diﬀerentiation nach b folgt
2
n
[mxi + b − yi ] = 0 .
(14.6)
i=1
Die Gleichungen (14.5) und (14.6) können wie folgt umgeformt werden
m
n
x2i + b
i=1
bzw.
m
n
xi =
i=1
n
n
y i xi
(14.7)
i=1
n
xi + nb =
i=1
yi .
(14.8)
i=1
Löst man dieses Gleichungssystem (Gl. (14.7) und (14.8)) nach den gesuchten
Werten m bzw. b auf, so erhält man die Geradensteigung m
n
m=
n
xi
i=1
yi − n
i=1
n
−n
i=1
n
=
xi y i −
i=1
n
i=1
und den Achsenabschnitt b
1
b=
n
"
x2i −
n
i=1
n
i=1
1
n
xi y i
i=1
2
xi
n
n
xi
i=1
1
n
yi − m
n
(14.9)
x2i
n
yi
i=1
2
xi
i=1
n
#
xi
.
(14.10)
i=1
Die Koeﬃzienten m und b lassen sich nach dem in Abb. 14.2 gezeigten Schema berechnen. Nachdem die Koeﬃzienten der Ausgleichsgeraden bestimmt
wurden, stellt sich im allgemeinen die Frage nach der Qualität dieser linearen
Approximation, d.h. nach der Güte bei der linearen Regression. Um letztlich die Vertrauensbereiche für die Parameter der Ausgleichsgeraden angeben
zu können, sind noch einige mathematische Deﬁnitionen notwendig, die im
folgenden Abschnitt (Kap. 14.1.2) behandelt werden.
436
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
Schema zur linearen Regression:
Berechnung einer Ausgleichsgeraden aus n Meßwertepaaren {xi , yi }
1. Berechnung der Mittelwerte
μx = x =
n
1
xi
n i=1
μy = y =
n
1
yi
n i=1
2. Berechnung von 3 Hilfsgrößen1
Qx =
s2x (n
− 1) =
n
n
(xi − x) =
2
i=1
Qy =
s2y (n
− 1) =
n
i=1
(yi − y) =
2
i=1
Qxy = sxy (n − 1) =
1
−
n
x2i
n
n
yi2
i=1
1
−
n
n
2
xi
i=1
n 2
yi
i=1
(xi − x) (yi − y)
i=1
=
n
xi yi −
i=1
n
n
1 xi
yi
n i=1 i=1
3. Berechnung der Koeﬃzienten m und b:
Steigung2
m = Qxy /Qx
Achsenabschnitt
1
b = y − mx =
n
n
i=1
yi − m
n
xi
i=1
Abb. 14.2: Schema zur linearen Regression: Berechnung einer Ausgleichsgeraden
aus n Meßwertepaaren {xi , yi }
1
2
Qx , Qy werden auch als Summe der quadratischen Abweichungen bezeichnet (abgekürzt: S.d.q.A.). sx und sy bezeichnen die Varianz von x bzw. y und sxy die
Kovarianz zwischen x und y (siehe folgenden Abschnitt).
Die Steigung m wird auch als Regressionskoeﬃzient bezeichnet.
14.1 Regressionsverfahren
437
14.1.2 Güte der Anpassung bei der linearen Regression
(Varianz, Kovarianz, Restvarianz und Korrelationskoeﬃzient)
Nach der eigentlichen Ermittlung der Ausgleichsgeraden gilt es, die Güte dieses Ergebnisses zu beurteilen. Konkret heißt dies, Vertrauensbereiche für die
Koeﬃzienten m (Geradensteigung) und b (Achsenabschnitt) anzugeben. Um
diese berechnen zu können, benötigen wir quantitative Angaben für Varianz, Kovarianz, Restvarianz und Korrelationskoeﬃzient [50]. Diese
und weitere, im Zusammenhang dazu stehende Begriﬀe sollen zunächst einmal in mathematischer Form deﬁniert werden.
Deﬁnition: Wahrscheinlichkeitsdichte
(Wahrscheinlichkeitsverteilung)
Im folgenden bezeichnet p(x) die Wahrscheinlichkeitsdichte (Wahrscheinlichkeitsverteilung) für eine Zufallsgröße x mit den Eigenschaften
+∞
p(x)dx = 1
(14.11)
−∞
p(x) ≥ 0 .
(14.12)
Die Wahrscheinlichkeit P(a), daß ein Funktionswert x kleiner oder höchstens
gleich a ist, ergibt sich aus dem Integral p(x)
a
P (a) =
p(x)dx.
(14.13)
−∞
P {a < x < b} entspricht der Wahrscheinlichkeit, mit der der Funktionswert
x zwischen den Größen a und b liegt
b
P {a < x < b} =
p(x)dx.
(14.14)
a
Deﬁnition: Gemeinsame Wahrscheinlichkeitsdichte
Die gemeinsame Wahrscheinlichkeitsdichte pxy (x, y) zweier Zufallsvariablen
pxy (x, y) ist gegeben als
∂ 2 Pxy (x, y)
∂x∂y
pxy (x, y) =
bzw.
Pxy (a, b) =
b
−∞
(14.15)
a
−∞
pxy (x, y)dxdy ,
(14.16)
wobei die Wahrscheinlichkeitsverteilung
Pxy (a, b) = P {a ≤ x ∧ b ≤ y}
(14.17)
zweier Zufallsvariablen x, y die Wahrscheinlichkeit P angibt, mit der der Funktionswert von x kleiner oder höchstens gleich a ist und der Funktionswert von
y kleiner oder höchstens gleich b ist.
438
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
Deﬁnition: Erwartungswert
Der Erwartungswert eines Zufallssignales x (auch als Zufallsvariable, Zufallsgröße bzw. Zufallsprozeß bezeichnet) entspricht dem Integral über dem Produkt aus der Zufallsgröße x und seiner Wahrscheinlichkeitsdichte p(x)
+∞
E{x} =
x p(x)dx .
(14.18)
−∞
Der Erwartungswert ist ein linearer Operator.
Deﬁnition: Erwartungswert 2. Ordnung
Der Erwartungswert-Operator läßt sich auch auf das Produkt mehrerer Zufallssignale bzw. deren Potenzen anwenden [67]. Das sog. Gemeinsame Moment zweier Zufallssignale ist deﬁniert als
+∞ +∞
μxy,kn = E{xk y n } =
xk y n pxy (x, y)dxdy .
(14.19)
−∞
−∞
Für den Spezialfall k = n = 1 folgt
+∞ μxy = E{xy} =
−∞
+∞
−∞
xypxy (x, y)dxdy .
(14.20)
Deﬁnition: Varianz
Die Varianz entspricht dem Quadrat der (empirischen) Standardabweichung
(s. auch Kap. 5.2)
Var(x) = s2x = E{(x − μx )2 } .
(14.21)
Dabei ist μx der Mittelwert der Zufallsvariablen x (siehe Abb. 14.2) und E
bezeichnet den Erwartungswert.
Die Varianz läßt sich auch mit Hilfe der Wahrscheinlichtsdichte px ausdrücken
+∞
Var(x) =
−∞
(x − μx ) px (x) dx .
(14.22)
Die Varianz s2x einer diskreten Zufallsvariablen-Stichprobe3 x1 , x2 ,
. . . , xn ist demnach folgendermaßen deﬁniert
1 1 =
(xi − x)2 =
(xi − μx )2 .
n − 1 i=1
n − 1 i=1
n
s2x
3
n
(14.23)
Um kompatibel zu der übrigen Meßtechnik-Literatur zu bleiben, wird im folgenden nicht mehr zwischen Varianz (Gesamtheit des Loses (N → ∞)) und Schwankung (=empirische Standardabweichung (N < ∞)) unterschieden.
14.1 Regressionsverfahren
Dies läßt sich auch ausdrücken als
1 2
1
=
xi −
n − 1 i=1
n(n − 1)
n
s2x
bzw.
1 2
n
1
μx =
x −
s2x =
n − 1 i=1 i
n−1
n−1
n
" n
439
#2
xi
(14.24)
i=1
" n
#
x2i − n μx
.
(14.25)
i=1
Aus der Varianz läßt sich leicht die ebenfalls oft verwendete Summe der quadratischen Abweichung Qx (S.d.q.A.) (s. auch Abb. 14.2) errechnen
Qx = (n − 1) s2x .
(14.26)
Deﬁnition: Kovarianz
Im Zuge der Regressionsanalyse ist die Frage zu klären, inwieweit zwei Zufallsvariable x und y voneinander abhängig sind. Dies wird durch die sog.
Kovarianz festgelegt
Cov(x, y) = sxy = E{(x − μx )(y − μy )} = E{x, y} − μx μy .
(14.27)
Dabei sind μx und μy die Mittelwerte der Zufallsvariablen x und y (siehe
Abb. 14.2) und E entspricht dem Erwartungswert.
Die Kovarianz, die auch als erstes gemeinsames Moment bezeichnet
wird, läßt sich auch mit Hilfe der gemeinsamen Wahrscheinlichtsdichte pxy
ausdrücken
+∞ +∞
(x − μx )(μ − μy )pxy (x, y)dxdy .
(14.28)
Cov(x, y) =
−∞
−∞
Sie beschreibt die statistische Abhängigkeit zweier Zufallssignale. Die beiden
Zufallsvariablen sind statistisch unabhängig, wenn ihre Kovarianz Null ist
Cov(x, y) = 0. In diesem Fall berechnet sich die Wahrscheinlichkeitsdichte
p(x, y) für das gleichzeitige Eintreten der Ereignisse x und y aus dem Produkt
der Einzelwahrscheinlichkeiten p(x, y) = p(x) p(y). Außerdem gilt E{x, y} =
E{x} E{y}.
Die Kovarianz zweier diskreter Zufallsvariablenfolgen x und y ergibt sich aus
1 (xi − μx ) (yi − μy )
n − 1 i=1
n
sxy =
1
=
n−1
sxy =
" n
Qxy
.
n−1
#
xi yi − n μx μy
(14.29)
i=1
(14.30)
440
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
Deﬁnition: Restvarianz
Die Restvarianz sr der Ausgleichsgeraden (Kap. 14.1.1) berechnet sich wie
folgt
"
#
Q2xy
Qy
Qy − m Qxy
2
=
1−
,
(14.31)
sr =
n−2
n−2
Qx Qy
wobei m der Steigung der Ausgleichsgeraden und n der Anzahl der behandelten Meßpunkte enspricht. Sie wird benötigt, um die Vertrauensbereiche von
Geradensteigung m und Achsenabschnitt b quantiﬁzieren zu können.
Deﬁnition: Korrelationskoeﬃzient
Der Korrelationskoeﬃzient r ist ein die Güte der Anpassung charakterisierender Parameter (0 < r < 1). Je näher der Korrelationskoeﬃzient r bei 1
liegt, desto besser ist die Anpassung.
Der Korrelationskoeﬃzient r läßt sich aus den beiden Einzelvarianzen
sx und sy sowie der Kovarianz sxy (siehe Abb. 14.2 bzw. Gln.(14.25) und
(14.29)) bestimmen
sxy
r=
.
(14.32)
sx sy
Mit den Wurzeln der Einzelvarianzen sx und sy und der Kovarianz sxy ergibt
sich schließlich der Korrelationskoeﬃzient, der die Güte der Anpassung der
Ausgleichsgeraden beschreibt
n 2
n
1
2
xi − n
xi
sxy
Qxy
i=1
rxy =
=
= m i=1
(14.33)
2 .
n
n
sx sy
Qx Qy
!
1
2
yi − n
yi
i=1
i=1
Angabe der Vertrauensbereiche für die Parameter der
Ausgleichsgeraden
Mit obigen Deﬁnitionsgleichungen kann schließlich die Angabe der Vertrauensbereiche (Konﬁdenzintervalle) für die Parameter m und b der Ausgleichsgeraden bzw. deren Ordinatenwerte erfolgen
n
s2 2
m ± t(n − 2, P )! r
x
n Qx i=1 i
(14.34)
b ± t(n − 2, P )
s2r
Qx
(14.35)
14.1 Regressionsverfahren
y ± t(n − 2, P )
(x − x)2 n(s2x − m2 s2x ) + s2x
.
n (n − 2) s2x
441
(14.36)
Der Vertrauensfaktor t ergibt sich nach Vorgabe der gewünschten statistischen
Sicherheit P [%] aus der Student-Verteilung (s. Tab. 5.2) für die Ereignisanzahl
(n − 2). Die Anzahl der betrachteten Meßpunkte beträgt n.
Tip:
Diese Berechnungen können mit dem Programm
berechne_regressionsgerade.vi auf der CDROM
nachvollzogen werden. Es können simulierte Messwerte
eingelesen, die statistischen Daten berechnet und Regressionsgeraden ermittelt werden.
14.1.3 Ausgleichspolynome
Die Erweiterung der linearen Regression (Kap. 14.1.1) führt zur polynomialen Regression, bei der die Anpaßkure ỹ durch ein Polynom p-ten Grades
beschrieben wird
ỹ = a0 + a1 x + a2 x2 + . . . ap xp .
(14.37)
Die Vorgehensweise soll zunächst anhand des folgenden Beispiels verdeutlicht
werden. Die Anpaßkurve wird hier in Form eines Polynoms dritten Grades
beschrieben
ỹ(x) = a0 + a1 x + a2 x2 + a3 x3 .
(14.38)
Das bereits oben angewandte Gaußsche Prinzip der kleinsten Quadrate (Gaußsches Minimalprinzip) soll auch hier Anwendung ﬁnden
Δ=
n
Δ2i =
i=1
n
!
[ỹ(xi ) − yi ]2 =
min. .
(14.39)
i=1
Dabei werden wiederum n Meßwertepaare {xi , yi } vorausgesetzt. Das Nullsetzen der partiellen Ableitungen nach den Koeﬃzienten ai (i = 1, 2, 3)
∂Δ
∂Δ
∂Δ
∂Δ
=
=
=
=0
∂a0
∂a1
∂a2
∂a3
führt zu folgendem Gleichungssystem
⎛
⎞
n
n
n
n
xi
x2i
x3i
⎜
⎟
i=1
i=1
i=1
⎜ n
⎟
n
n
n
⎜
⎟
2
3
4
⎜
⎟
x
x
x
x
⎜ i=1 i i=1 i i=1 i i=1 i ⎟
⎜
⎟
n
n
n
n
⎜
⎟
2
3
4
5⎟
⎜
xi
xi
xi
xi ⎟
⎜
⎜ i=1 i=1 i=1 i=1 ⎟
⎝
⎠
n
n
n
n
x3i
x4i
x5i
x6i
i=1
i=1
i=1
i=1
(14.40)
⎛ ⎞
n
yi
⎜ i=1
⎟
a0
⎜ n
⎟
⎜ ⎟ ⎜
⎟
⎜a ⎟ ⎜
⎟
x
y
⎜ 1 ⎟ ⎜ i=1 i i ⎟
⎜ ⎟=⎜
⎟.
n
⎜ ⎟ ⎜
⎟
2 ⎟
⎜ a2 ⎟ ⎜
xi y i ⎟
⎝ ⎠ ⎜
⎜ i=1
⎟
⎝
⎠
n
a3
3
xi y i
⎛
⎞
i=1
(14.41)
442
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
Die Lösung dieses Gleichungssystems ergibt schließlich die gesuchten Koeﬃzienten ai (i = 0, 1, 2, 3) des Polynoms.
14.1.4 Mehrfache lineare Regression
Die mehrfache lineare Regression (auch als multiple lineare Regression bezeichnet) ist eine Erweiterung der einfachen linearen Regression. Dabei hängt
ein Meßergebnis y linear von nunmehr mehreren Variablen x1 , x2 , . . . xp (man
spricht in diesem Zusammenhang auch von Covariablen) ab
y = a 0 + a 1 x1 + a 2 x2 + . . . + a p xp + E ,
(14.42)
wobei E eine Störgröße repräsentiert, also eine stochastische Variable (Zufallsvariable). Damit ist das Ergebnis ebenfalls eine Zufallsvariable. Die Aufgabe
der mehrfachen linearen Regression ist es nun, die abhängige Variable y als
Funktion mehrerer (in Bezug auf die Laufvariable i) unabhängiger Variablen,
die in Form eines Variablenvektors [xip ] = (xi1 , xi2 , . . . , xip ) zusammengefaßt
werden, mit Hilfe eines Schätzwertes ŷ vorherzusagen
ŷ = b0 + b1 x1 + b2 x2 + . . . + bp xp .
(14.43)
Dabei bilden die bj (j = 1, 2, . . . , p) die Elemente des Vektors der geschätzten
Regressionskoeﬃzienten.
Wir wollen davon ausgehen, daß für jeden Vektor [xip ](i = 1, 2, . . . , n)
jeweils n Meßwerte yi (i = 1, 2, . . . , n) vorliegen. Somit ergibt sich für jede
Beobachtung (Messung) i(i = 1, 2, . . . , n) eine Gleichung der Form
yi = a0 + a1 xi1 + a2 xi2 + . . . + ap xip + Ei .
(14.44)
Das daraus resultierende Gleichungssystem läßt sich mit Hilfe der folgenden
[n × (p + 1)]-Matrix [X]
⎛
1 x11 x12 . . . x1j . . . x1p
⎜
⎜1 x x ...
21 22
⎜
⎜
⎜
⎜ ..
⎜.
⎜
[X] = ⎜
⎜1 x x ...
i1
i2
⎜
⎜
⎜.
⎜.
⎜.
⎝
⎞
⎟
x2j . . . x2p ⎟
⎟
⎟
⎟
.. ⎟
..
. ⎟
.
⎟
⎟
xij . . . xip ⎟
⎟
⎟
.. ⎟
..
⎟
. ⎟
.
⎠
1 xn1 xn2 . . . xnj . . . xnp
(14.45)
14.1 Regressionsverfahren
sowie der n-dimensionalen Vektoren
⎛ ⎞
y1
⎜ ⎟
⎜ ⎟
⎜ y2 ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
[y] = ⎜ ... ⎟ ,
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ yi ⎟
⎝ ⎠
yn
und dem [p + 1]-dimensionalen Vektor
⎛
⎛
E1
⎞
⎜
⎟
⎜
⎟
⎜ E2 ⎟
⎜
⎟
⎜
⎟
⎜ .. ⎟
E=⎜ . ⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜ Ei ⎟
⎝
⎠
En
a0
443
(14.46)
⎞
⎜ ⎟
⎜a ⎟
⎜ 1⎟
⎜ ⎟
⎜ ⎟
⎜ a2 ⎟
⎜ ⎟
⎟
[a] = ⎜
⎜ . ⎟
⎜ .. ⎟
⎜ ⎟
⎜ ⎟
⎜ ⎟
⎜ aj ⎟
⎝ ⎠
ap
(14.47)
wie folgt darstellen
[y] = [X] [a] + [E] .
(14.48)
Die einfache lineare Regression ergibt sich aus obigen Gleichungen für p = 1.
Der Fall p ≥ 2 repräsentiert die mehrfache lineare Regression. Wie bei der
linearen Regression wird wiederum die Summe der quadratischen Abweichungen minimiert.
Nach dem sog. Gauß-Markov-Theorem erhält man schließlich den Vektor
der geschätzten Regressionskoeﬃzienten [b] als [96]4
⎛ ⎞
b0
⎜ ⎟
⎜b ⎟
⎜ 1⎟
⎜ ⎟
⎜ ⎟
⎜ .. ⎟
⎜ . ⎟ −1
⎜ ⎟
[b] = ⎜ ⎟ = [X]T [X]
[X]T [y] .
(14.49)
⎜b ⎟
⎜ j⎟
⎜ ⎟
⎜ . ⎟
⎜ . ⎟
⎜ . ⎟
⎝ ⎠
bp
4
Um die hier verwendete Schreibweise mit der Darstellung in [96] vergleichbar zu
machen, ist für die Matrix [X] deren Transponierte [X]T zu verwenden (siehe S.
62 in [96]).
444
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
Dabei bezeichnet [X]T die Transponierte der Matrix [X]. Dieser Schätzer
ist der sog. beste lineare unverzerrte Schätzer (Best Linear Unbiased
Estimator = BLUE). Mit Hilfe dieses Schätzers (Minimum-Quadrat-Schätzer)
ergibt sich folgendes Gleichungssystem
[y] = [X] [b] + [e] = [ŷ] + [e] ,
(14.50)
wobei [ŷ] die Schätzwerte von [y] enthält und [e] den Vektor der Residuen
repräsentiert. Der Vektor der Schätzwerte berechnet sich also aus
[ŷ] = [X] [b] = [X]([X]T [X])−1 [X]T [y] = [H][y] ,
(14.51)
wobei die [n×n]-Matrix [H] als sog. Hat-Matrix (Hut-Matrix) bezeichnet wird.
Die Residuen ergeben sich demnach wie folgt
[e] = [y] − [ŷ] = [y] − [H] [y] .
(14.52)
Im allgemeinen interessiert man sich für die sog. Prognose ŷ0 von [y] für ein
gegebenes Wertetupel [x0 ] (= Meßstelle [x01 , x02 , . . . , x0p ]). Sie berechnet sich
zu
ŷ0 = b0 + b1 x01 + b2 x02 + . . . + bp x0p = [x0 ]T [b] .
(14.53)
14.2 Lineare Korrelation
Die lineare Korrelation beschäftigt sich mit der Frage, inwieweit Wertepaare
{xi , yi } linear abhängig sind. Im Gegensatz zur linearen Regression wird hier
y nicht als abhängige und x nicht als unabhängige Variable bezeichnet.
Da nunmehr keine Unterscheidung nach abhängiger und unabhängiger Variable erfolgt, ist die Deﬁnition von zwei Ausgleichsgeraden sinnvoll, nachdem
die Wertepaare {xi , yi } in ein x-y-Diagramm eingetragen wurden. Zur Festlegung der Geraden wird wiederum das bereits bei der linearen Regression eingesetzte Verfahren der Fehlerquadratminimierung (Gaußsches Minimalprinzip)
eingesetzt (s. Kap. 14.1.1).
Die beiden Ausgleichsgeraden (Abb. 14.3) lassen sich wie folgt deﬁnieren
ỹ = m1 x + b1
(14.54)
x̃ = m2 y + b2 .
(14.55)
bzw.
Daraus resultieren zwei Möglichkeiten, die Fehlerquadratminimierung durchzuführen
!
(ỹ − yi )2 =
min.
(14.56)
bzw.
!
(x̃ − xi )2 =
min. .
(14.57)
14.2 Lineare Korrelation
445
y
x
Abb. 14.3: Meßwertepaare {xi , yi }, die durch zwei Ausgleichsgeraden gemäß
Gl. (14.54) bzw. Gl. (14.55) approximiert werden.
Im allgemeinen führt dieser Prozeß zu unterschiedlichen Geraden.
Für den Fall, daß vollkommene lineare Unabhängigkeit zwischen den Werten der Variablen x und y besteht, streben die beiden Steigungen m1 und m2
gegen Null (Abb. 14.4). Für den Fall, daß die beiden Geraden zusammenfallen
(Abb. 14.5), besteht ein direkter funktionaler Zusammenhang.
Je nach Grad der linearen Abhängigkeit variieren die Geradensteigungen
also zwischen den Werten m1 = m2 = 0 (lineare Unabhängigkeit) und einem
oberen Wert m1 = 1/m2 (vollständige lineare Abhängigkeit). Da dieser obere
y
m 2= 0
m 1= 0
x
Abb. 14.4: Fall der vollständigen linearen Unabhängigkeit (m1 = m2 = 0)
446
14 Regression, lineare Korrelation und Hypothesen-Testverfahren
y
1
m 1= m
2
x
Abb. 14.5: Fall des funktionalen Zusammenhangs: Die beiden Ausgleichsgeraden
fallen zusammen.
Wert aber nicht von vorneherein feststeht, läßt sich der Grad der linearen
Abhängigkeit erst nach einer Normierung beurteilen. Dies führt zu einer normierten Steigung r, die dem Korrelationskoeﬀzient entspricht (siehe auch
Gl. (14.32) und Gl. (14.33)).
Im Gegensatz zur Kovarianz ist der Korrelationskoeﬃzient eine reine Maßzahl ohne Einheit. Der Korrelationskoeﬃzient nimmt Werte zwischen −1 und
+1 an (−1 ≤ r ≤ +1).
Ein Korrelationskoeﬃzient r = 0 bedeutet, daß keine lineare Abhängigkeit
besteht. Bei vollkommener linearer Abhängigkeit nimmt r den Wert +1 bzw.
−1 an. Das Vorzeichen beschreibt dabei die Steigungsrichtung der gemeinsamen Geraden (Abb. 14.5).
Der Korrelationskoeﬃzient läßt sich wie folgt angeben
n
Qxy
r=
= %
Qx Qy
n
! y2 −
i=1
i
xi y i −
i=1
1
n
n
i=1
1
n
n
i=1
2 ' %
yi
xi
n
i=1
n
yi
i=1
x2i −
1
n
n
2 '
. (14.58)
xi
i=1
Bei der Beurteilung der linearen Abhängigkeit anhand des Korrelationskoeﬃzienten muß die Stichprobenanzahl mit ins Kalkül gezogen werden. So liefern
beispielsweise zwei Wertepaare immer den Wert r = 1. Aus diesem Grund
ist zu dieser Beurteilung noch der im folgenden behandelte Vertrauensbereich
von r hinzuziehen.
14.3 Testverfahren (Hypothesen-Testverfahren)
447
Vetrauensbereich des Korrelationskoeﬃzienten
Da der nach Gl. (14.58) ermittelte Korrelationskoeﬃzient nur ein Schätzwert
des Korrelationskoeﬃzienten ρ der Grundgesamtheit (setzt unendlich viele
Messungen voraus) darstellt, sollte man den Vertrauensbereich für r ermitteln, um eine Aussage der möglichen Abweichungen von ρ als Funktion einer
gewählten statistischen Sicherheit zu erhalten.
Um den Vertrauensbereich eines anhand einer Stichprobe mit n Einzelmessungen ermittelten Korrelationskoeﬃzienten anzugeben, bedient man sich
des nachfolgenden Schemas in Abb. 14.6. Die Grundlagen hierzu ﬁndet der
interessierte Leser beispielsweise in [69].
Korrelation und Kausalität
Ein hoher Korrelationskoeﬃzient ist auf eine starke lineare Abhängigkeit
zurückzuführen. Daraus darf aber nicht unmittelbar auf eine Kausalität
im Sinne eines Ursache-Wirkungs-Prinzips geschlossen werden. Es gibt
unzählige Beispiele für Scheinkorrelationen oder sogar Unsinnrelationen, die
durchaus nicht auf eine gemeinsame Ursache zurückzuführen sind. Ein kausaler Zusammenhang muß zunächst einmal von der Sache her begründet sein.
Anhand einer dazu durchgeführten Korrelation läßt sich lediglich prüfen, ob
eine Hypothese zu einem bestimmten Ursache-Wirkungs-Prinzip hält oder
nicht. Es darf aber keinesfalls aus einem hohen Korrelationsgrad unmittelbar auf einen entsprechenden Ursache-Wirkungs-Zusammenhang geschlossen
werden.
Als Beispiel könnte angeführt werden, daß die steigende Lebenserwartung
und die steigende Preisentwicklung sicherlich keinen unmittelbaren kausalen
Zusammenhang aufweisen, aber dennoch zwischen beiden ein von Null verschiedener Korrelationskoeﬃzient besteht.
14.3 Testverfahren (Hypothesen-Testverfahren)
14.3.1 Testen von Hypothesen, Entscheidungen
Die Wahrscheinlichkeitsverteilung, welche die Grundgesamtheit beschreibt,
wird als wahre Wahrscheinlichkeitsverteilung bezeichnet. Diese wahren
Verteilungen sind aber in der praktischen Meßtechnik nicht bekannt. Mit Hilfe von sog. Tests muß daher des öfteren entschieden werden, ob bestimmte
Vermutungen über die Wahrscheinlichkeitsverteilungen bzw. deren Parameter
zutreﬀen oder nicht.
Zur Durchführung eines Tests stellt man eine Arbeitshypothese auf. Diese
wird als Nullhypothese H0 bezeichnet. Die dieser Nullhypothese widersprechende Vermutung wird Alternativhypothese H1 genannt.
http://www.springer.com/978-3-540-73610-3

Zugehörige Unterlagen

Beispiel: Einstiegsgehalt und Gehalt nach 10 Jahren

14 Regression, lineare Korrelation und Hypothesen

Zugehörige Unterlagen

Produkte

Unterstützung

14 Regression, lineare Korrelation und Hypothesen

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können