Vorlesung Multivariate Statistik Sommersemester 2009

Werbung
P.Martus, Multivariate Statistik, SoSe 2009
Freie Universität Berlin
Charité Universitätsmedizin Berlin
Bachelor Studiengang Bioinformatik
Vorlesung Multivariate Statistik
Sommersemester 2009
Prof. Dr. rer. nat. Peter Martus
Institut für Biometrie und Klinische Epidemiologie
Charité Universitätsmedizin Berlin
1
P.Martus, Multivariate Statistik, SoSe 2009
Teil 1
Wiederholung der Wahrscheinlichkeitsrechnung
1.1 Vorbemerkung
Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall
gesteuert sind. Der zugrunde liegende Zufallsmechanismus wird als bekannt vorausgesetzt. In
der konfirmatorischen Statistik versucht man dagegen, aufgrund von Beobachtungen auf den
zugrunde liegenden Zufallsmechanismus zurückzuschließen. Grundlage ist aber immer die
Wahrscheinlichkeitsrechnung. Im ersten Teil der Vorlesung werden die Begriffsbildungen
und die für statistische Anwendungen wichtigsten Inhalte der Wahrscheinlichkeitsrechnung
aufgefrischt.
1.2 Anwendungsbeispiel (klinische Studie)
In einer klinischen Studie wird ein Medikament an n Patienten überprüft. Die
Heilungswahrscheinlichkeit für jeden Patienten beträgt p. Man interessiert sich für die
Wahrscheinlichkeit, dass mindestens k Patienten (0 ≤ k ≤ n) geheilt werden.
Lösung:
Die gesuchte Wahrscheinlichkeit heißt Binomialwahrscheinlichkeit, wird mit b(n,p,k)
abgekürzt und lautet
⎛n⎞
n −k
b( n, p, k ) := ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) .
k
⎝ ⎠
Der Binomialkoeffizient ist definiert als
⎛n⎞
⎜⎜ ⎟⎟ :=
⎝k ⎠
n!
.
k ! ⋅ (n − k ) !
1.3 Anwendungsbeispiel (Hardy Weinberg Gesetz)
Ein Gen kommt in einer Population mit zwei Allelen, A und a, mit den relativen Häufigkeiten
p und q:=1-p vor. Mit welchen Häufigkeiten treten bei zufälliger Durchmischung die
Genotypen AA, Aa, aa auf?
Lösung:
Die Häufigkeiten der 3 Genotypen lauten
AA: p2, Aa: 2pq, aa: q2.
2
P.Martus, Multivariate Statistik, SoSe 2009
1.4 Anwendungsbeispiel (DNA-Sequenzanalyse, vgl. Ewens und Grant, 2005)
Bei der DNA-Sequenzanalyse betrachtet man sogenannte Anker, kurze DNA-Sequenzen, die
im Genom eindeutig sind und deren Positionen bekannt sind. DNA-Fragmente, die Anker
enthalten, sind somit im Genom lokalisierbar.
In einer einfachen Modellierung geht man von folgenden Annahmen aus:
Die Anzahl von Ankern in einer DNA-Sequenz ist an jeder Stelle des Genoms
proportional zur Länge L dieser Sequenz mit identischem Proportionalitätsfaktor.
Beim Durchlaufen der Sequenz ist das Neuauftreten eines Ankers unabhängig davon,
wieviele Anker bereits aufgetreten sind.
Wie groß ist die Wahrscheinlichkeit für das Auftreten von k Ankern in einer Sequenz der
Länge L?
Lösung: Die Wahrscheinlichkeiten der entsprechenden Häufigkeiten lauten für k = 0,1,2,...
p( λ , k ) := e −λ ⋅
λk
k!
und die entsprechende Wahrscheinlichkeitsverteilung heißt Poissonverteilung mit Parameter
λ. Dieser Parameter ist proportional zur Länge L des Intervalls.
1.5 Anwendungsbeispiel (Genexpression)
Bei Genexpressionsmessungen von Patienten mit Aderhautmelanom ist für das Oligonukleotid 200657_at nach Logarithmierung die Intensität normalverteilt mit Erwartungswert 5 und
Streuung 1.5. In welchem Bereich liegen die 90% niedrigsten Werte?
Lösung: Die Dichtefunktion der Normalverteilung lautet allgemein
f ( x) =
−( x−μ )2
1
2πσ
2
e
2σ 2
und im Beispiel
f ( x) =
− ( x −5 ) 2
1
2π 1.5
2
e
2*1.5 2
.
Der gesuchte Bereich ergibt sich als die obere Integralgrenze T, für die
∫
T
−∞
f (t )dt = 0.9
erfüllt ist. Man erhält T = 6.92.
3
P.Martus, Multivariate Statistik, SoSe 2009
1.6 Definition (Endlicher Wahrscheinlichkeitsraum)
Eine endliche Menge Ω = {ω1, ω2,... ωm} zusammen mit einer Funktion P, für die gilt
P(ωi) ≥ 0 für i = 1,...,m
und
∑
m
i =1
P(ω i ) = 1
bezeichnen wir als endlichen Wahrscheinlichkeitsraum.
Einelementige Teilmengen von Ω heißen Elementarereignisse, beliebige Teilmengen heißen
Ereignisse.
Die Funktion P wird für beliebige Ereignisse A durch die Definition
P( A) =
∑ω
∈A
P(ω )
auf die Potenzmenge von Ω fortgesetzt. Für die leere Menge setzen wir P(∅) = 0.
1.7 Anwendungsbeispiel (Fortsetzung klinische Studie)
Der Wahrscheinlichkeitsraum Ω1 = {0,1} mit P(1) = p, P(0) = 1-p beschreibt den
Behandlungserfolg für einen Patienten.
Welcher Wahrscheinlichkeitsraum beschreibt den Behandlungserfolg von n Patienten?
Lösung 1:
Ωs = {0,1,2,...,n}
Das (Elementar)-Ereignis {k} steht für die Heilung von exakt k Patienten, das Ereignis
{k,k+1,...,n} steht für die Heilung von mindestens k Patienten.
Lösung 2:
Ωn = Ω1•Ω1•...•Ω1
(kartesisches Produkt mit n identischen Faktoren Ω1 = {0,1}).
Jeder Faktor Ω1 steht für den Behandlungserfolg eines Patienten.
Elementarereignisse haben die Form (x1, x2, ..., xn) mit xi = 1, wenn Patient i geheilt wird und
xi = 0, wenn Patient i nicht geheilt wird. Ωn hat 2n Elemente.
4
P.Martus, Multivariate Statistik, SoSe 2009
1.8 Bemerkung
Lösung 2 erscheint unnötig kompliziert, man interessiert sich für Ereignisse aus Ωs, nicht aber
aus Ωn. Mit Hilfe des "Umwegs" über Ωn lassen sich aber die gesuchten Wahrscheinlichkeiten
für Ωs herleiten. Hierfür werden drei weitere Definitionen benötigt.
1.9 Definition (Unabhängigkeit)
In einem endlichen Wahrscheinlichkeitsraum heißen zwei Ereignisse A und B unabhängig,
wenn gilt:
P(A ∩ B) = P(A) • P(B).
1.10 Anwendungsbeispiel (Fortsetzung Hardy Weinberg Gesetz)
Vom Vater wird das Allel A mit der Wahrscheinlichkeit p, das Allel a mit der
Wahrscheinlichkeit 1-p vererbt. Gleiches gilt für die Mutter. Somit ist bei unabhängiger
Kombination die Wahrscheinlichkeit für den Genotyp AA p2 und für den Genotyp aa q2. Die
Wahrscheinlichkeit für den Genotyp Aa ist 2p(1-p), weil A sowohl vom Vater als auch von
der Mutter vererbt sein kann.
1.11 Definition (Produktraum)
Für zwei endliche Wahrscheinlichkeitsräume Ωa = {ω1a, ω2a,... ωma} und Ωb = {ω1b, ω2b,...
ωmb} heißt das kartesische Produkt Ωa • Ωb Produktraum, wenn
P (ωja , ωib ) = P(ωja) • P(ωib)
für alle Paare von Elementarereignissen gilt. Man sieht leicht, dass dann diese Eigenschaft
sofort auf beliebige Ereignisse A ⊂ Ωa und B ⊂ Ωb verallgemeinerbar ist, d.h., dass
P(A•B) = P(A) • P(B)
gilt. Die Definition kann sofort auf endlich viele Faktoren erweitert werden.
1.12 Bemerkungen
Das Symbol "•" wird sowohl für die Bildung des kartesischen Produkts als auch für die
Multiplikation von Zahlen verwendet.
Das Symbol "P" tritt in den Formeln in 1.9 in dreifacher Bedeutung auf: P(A•B) bezieht sich
auf die Wahrscheinlichkeitsverteilung in Ωa • Ωb , P(A) auf diejenige in Ωa und P(B) auf
diejenige in Ωb.
5
P.Martus, Multivariate Statistik, SoSe 2009
Streng genommen wäre es in 1.11 falsch, zu sagen, die Ereignisse A und B seien unabhängig.
Die beiden Ereignisse A und B stammen aus verschiedenen Wahrscheinlichkeitsräumen und
man könnte (A ∩ B) überhaupt nicht bilden. Korrekt ist die folgende Formulierung:
Im Produktraum Ωa • Ωb sind die Ereignisse A • Ωb und Ωa • B von einander unabhängig,
denn P(A • Ωb ∩ Ωa • B) = P(A•B) = P(A)•P(B).
Der Einfachheit halber darf man aber A und B als unabhängig bezeichnen, wenn man weiß,
was damit gemeint ist.
1.13 Definition (Zufallsvariable)
Für einen endlichen Wahrscheinlichkeitsraum (Ω0, P0) und eine beliebige Menge Ω1 heißt
eine Abbildung X: Ω0 → Ω1 Zufallsvariable (oder Zufallsgröße). Durch
P1(ω) = P(X-1(ω))
wird auf Ω1 eine Wahrscheinlichkeitsverteilung P1 (auch PX) definiert. Diese
Wahrscheinlichkeitsverteilung heißt auch Verteilung von X.
1.14 Anwendungsbeispiel (Fortsetzung klinische Studie)
Die Lösung 2 aus Beispiel 1.7
Ωn = Ω1•Ω1•...•Ω1
stellt einen Produktraum dar, wenn man davon ausgeht, dass die Heilung für einen Patienten
unabhängig ist von der Heilung für beliebige andere Patienten.
Die Wahrscheinlichkeit des Elementarereignisses {x1, x2, ..., xn} ist dann
P(x1)• P(x2) • ... • P(xn)
und das ist gleich
pk • 1-p(n-k),
wenn
S ( x1 , x 2 , K x n ) :=
∑
n
i =1
ωi
= k gilt.
Die gesuchten Wahrscheinlichkeiten für Lösung 1 des Beispiels 1.7 erhält man also als
Verteilung der Zufallsgröße S (Summenbildung) von Ωn nach Ωs. Man muss nur noch
bestimmen, welche Mächtigkeit S-1(k) hat.
⎛n⎞
Man sieht leicht, dass in der Tat S-1(k) die Mächtigkeit ⎜⎜ ⎟⎟ hat.
⎝k ⎠
6
P.Martus, Multivariate Statistik, SoSe 2009
1.15 Bemerkung
In vielen Anwendungen bezieht man sich auf eine Zufallsvariable mit einer bestimmten
Verteilung (z.B. Normalverteilung) ohne sich über das "dahinter liegende" Ω Gedanken zu
machen.
1.16 Diskussion des Anwendungsbeispiels (1.2, 1.7, 1.14)
Die Annahme, dass jeder Patient unabhängig von den anderen behandelt wird, ist realistisch.
Die Annahme, dass jeder Patient die gleiche Heilungswahrscheinlichkeit hat, ist unrealistisch.
So könnte z.B. der Schweregrad der Erkrankung für Patienten verschieden sein. Dennoch
wird das entsprechende Modell als Standard z.B. für sog. Phase II Studien in der
Medikamentenprüfung verwendet.
1.17 Weiterführung (Beliebige Wahrscheinlichkeitsräume)
Für abzählbar unendliche Mengen (z.B. {0,1,2,...}) lässt sich die Begriffsbildung des
Wahrscheinlichkeitsraums direkt übertragen. Die Summe
P( A) =
∑ω
∈A
P(ω )
wird bei abzählbar unendlichen Mengen zu einer Reihe mit unendlich vielen Summanden.
Bei überabzählbar unendlichen Mengen, z.B.
[0,1],
R+,
R
oder
{0,1}•{0,1}•...(abzählbar viele Faktoren)
treten dagegen schwierige mathematische Probleme auf. In einem eigenen Teilgebiet der
Mathematik, der Maßtheorie, werden diese Probleme gelöst. Die Maßtheorie wir hier nicht
behandelt.
Eine wichtige Konsequenz aus der Maßtheorie ist, dass bei überabzählbarem Ω alle
Elementarereignisse die Wahrscheinlichkeit 0 haben können. Außerdem kann nicht mehr für
alle Teilmengen von Ω eine Wahrscheinlichkeit angegeben werde, sondern nur für die
messbaren Teilmengen. Für die reellen Zahlen R sind z.B. alle Intervalle messbar (vgl. z.B.
Bauer 1990, hier insbesondere S.32 ff).
Wir gehen im Folgenden stillschweigend davon aus, dass in unseren Anwendungen mit
unendlichen Wahrscheinlichkeitsräumen die Definitionen und Sätze für endliche Wahrscheinlichkeitsräume ihre Gültigkeit behalten.
7
P.Martus, Multivariate Statistik, SoSe 2009
1.18 Definition (Verteilungsfunktion und Dichte)
Die für Anwendungen relevanten Wahrscheinlichkeitsverteilungen auf R oder Teilintervallen
von R können durch Dichtefunktionen f(x) beschrieben werden (vgl. Beispiel 1.4). Ist also Ω
eine messbare Teilmenge von R und gilt für eine Wahrscheinlichkeitsverteilung P
∫
P( A) =
A
f (t )dt ,
für alle messbaren A ⊆ Ω, dann heißt f die Dichte von P und
F (T ) = ∫
T
−∞
f (t )dt
die Verteilungsfunktion von P. Dabei nehmen wir jetzt und im folgenden an, dass f auf R \ Ω
konstant 0 ist. Es gilt
∫
P (Ω ) =
Ω
f (t )dt
= 1
und
lim T →∞ F (T ) = 1,
lim T →−∞ F (T ) = 0 .
Die Verteilungsfunktion lässt sich analog für endliches oder abzählbares Ω ⊆ R durch
F (T ) =
∑ω
≤T
P(ω )
definieren.
1.19 Bemerkungen
Mit Begrifflichkeiten aus der Maßtheorie lässt sich P(ω) auch bei endlichem Ω als Dichte
interpretieren und die entsprechenden Summen als Integrale. Im folgenden werden wir immer
die Integralschreibweise verwenden.
In der multivariaten Statistik werden die Begriffe von Verteilungsfunktion und Dichte auf
Wahrscheinlichkeitsräume im Rp verallgemeinert.
1.20 Beispiel (Gleichverteilung)
Eine Zufallsgröße X heißt gleichverteilt auf einem Intervall [a,b] (-∞ < a < b < ∞), wenn für
die Dichtefunktion f gilt
f(x) = 1/(b-a)
für x ∈ [a, b]
f(x) = 0
für x <a, x > b
.
8
P.Martus, Multivariate Statistik, SoSe 2009
Für endliches Ω = Ω = {ω1, ω2,... ωm} mit P(ωi) = 1/m heißt P analog Gleichverteilung und
der Wahrscheinlichkeitsraum Laplaceraum mit m Elementen.
1.21 Satz (Gleichverteilung der Verteilungsfunktion)
Es sei X eine reelle Zufallsvariable mit stetiger Dichtefunktion f(t) > 0 und es sei
T
F (T ) = ∫ f (t )dt
−∞
die zugehörige Verteilungsfunktion. Dann gilt:
Die Zufallsvariable Y:=F(X) nimmt Werte zwischen 0 und 1 an und ist auf [0,1]
gleichverteilt.
Beweis: siehe Übung.
1.22 Definition (Erwartungswert und Varianz)
Für eine Zufallsgröße X mit Dichtefunktion f(x) ist der Erwartungswert μ(X) und die Varianz
σ2(X) definiert durch
μ ( X ) :=
σ 2 ( X ) :=
∫
∞
−∞
t f (t )dt
∫ [t − μ ( X )]
∞
−∞
2
f (t )dt ,
falls die entsprechenden Integrale existieren.
1.23 Satz (Erwartungswert und Varianz von Summen von Zufallsvariablen)
Seien X und Y beliebige reelle Zufallsvariable, für die Erwartungswert und Varianz existieren.
Dann gilt μ(X+Y) = μ(X) + μ(Y), μ(aX) = aμ(x) und σ2(aX) = a2σ2(X) für a beliebig aus R.
Für unabhängige X, Y gilt σ2(X+Y) = σ2(X) + σ2(Y).
Beweis:
Bis auf die letzte Aussage folgt alles direkt aus den Definitionen von Erwartungswert und
Varianz. Ein Beweis für die letzte Aussage findet sich z.B. bei Chung (1978), Seite 176.
1.24 Beispiel (Binomialverteilung)
Der Erwartungswert der Binomialverteilung b(n,p,k) ist np, die Varianz ist npq.
Dies folgt sofort aus Satz 1.23 und μ(X) = p und σ2(X) = p(1-p) für n= 1.
9
P.Martus, Multivariate Statistik, SoSe 2009
10
P.Martus, Multivariate Statistik, SoSe 2009
1.25 Poissonscher Grenzwertsatz
Wir betrachten eine Folge Xn (n=1,2, ... ∞) von Zufallsgrößen, die alle nach b(n,pn,k) verteilt
sind mit konstantem Erwartungswert npn= λ für beliebiges n. Dann gilt für alle k
lim n→∞ b(n, p n , k ) = p (λ , k ).
Bemerkung:
Es genügt vorauszusetzen, dass npn→ λ für n→∞.
Beweis:
Wir betrachten
λ
⎛n⎞ ⎛ λ ⎞ ⎛ λ ⎞
b(n, , k ) := ⎜⎜ ⎟⎟ • ⎜ ⎟ • ⎜1 − ⎟
n
⎝k ⎠ ⎝ n ⎠ ⎝ n ⎠
k
n−k
⎡⎛ λ ⎞ n − k ⎤
n − k + 1⎤
⎡ 1 ⎤ ⎡n n −1
k
= ⎢ ⎥•⎢ •
•K•
• λ • ⎢⎜1 − ⎟ ⎥.
n
n ⎥⎦
⎣ k!⎦ ⎣ n
⎢⎣⎝ n ⎠ ⎥⎦
[ ]
Die erste und die dritte Klammer haben bereits die gewünschte Form.
Die zweite Klammer geht (bei festem k) für n→∞ gegen 1, die letzte Klammer erfüllt
⎡⎛ λ ⎞ n − k ⎤ ⎡⎛ λ ⎞ n ⎤ ⎡⎛ λ ⎞ − k ⎤
⎢⎜ 1 − ⎟ ⎥ = ⎢⎜ 1 − ⎟ ⎥ • ⎢⎜ 1 − ⎟ ⎥ .
n ⎠ ⎦⎥ ⎣⎢⎝
n ⎠ ⎦⎥ ⎣⎢⎝
n ⎠ ⎦⎥
⎣⎢⎝
Die erste Klammer geht gegen e-λ, die zweite gegen 1 weil k fest ist und λ/n = pn → 0.
1.26 Diskussion des Anwendungsbeispiels 1.4
Im Beispiel zur DNA-Sequenzierung kann man sich vorstellen, dass in immer zahlreicheren
und immer kleineren Teilsequenzen des untersuchten DNA-Strangs immer nur ein oder kein
Anker auftritt. Bei Aufteilung in n gleichlange Teilsequenzen ist also die Zahl der Anker nach
b(1,pn,k) verteilt, die Gesamtzahl der Anker nach b(n,pn,k).
Der vorhergehende Satz rechtfertigt also die Annahme einer Poissonverteilung für die
Gesamtzahl der Anker.
Die Gesamtzahl der Anker kann natürlich nie größer als die Zahl der Basenpaare in der
untersuchten Gensequenz sein. Außerdem ist die Unabhängigkeitsannahme in 1.4 sehr
problematisch.
Dennoch eignet sich das Modell zur einfachen Beschreibung der Verteilung von
Ankerpunkten.
11
P.Martus, Multivariate Statistik, SoSe 2009
1.27 Definition (Standardisierung)
Es sei X eine reelle Zufallsvariable, für die μ (X) und σ2(X) existieren. Dann heißt die
Zufallsvariable Z mit
Z=
X − μ( X )
σ 2 (X )
die standardisierte Zufallsvariable für X.
Für Z gilt μ(X) = 0 und σ2 (X) = 1. Der Nenner
Streuung und wird mit σ (X) bezeichnet.
σ 2 ( X ) heißt auch Standardabweichung oder
1.28 Satz von de Moivre Laplace
Es sei Xn, n→∞ eine Folge von binomial verteilten Zufallsgrößen mit festem p, also Xn ~
b(n,p,k) und es sei Zn die zugehörige Folge standardisierter Zufallsgrößen
Zn =
X n − np
npq
.
Dann lässt sich die Verteilung von Zn durch die Normalverteilung annähern. Damit ist
gemeint:
Für beliebige Konstanten -∞ < a < b < +∞ gilt
lim n→∞ P(a < Z n ≤ b ) =
1
2π
∫
b
a
e
− x2
2
dx
Beweisskizze
Im ersten Schritt nähert man die Fakultäten in der Binomialverteilung
⎛n⎞ k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k
⎝k ⎠
mit der Stirlingschen Formel an:
⎛n⎞
n!≈ ⎜ ⎟
⎝e⎠
n
2π n .
Setzt man für die drei Fakultäten des Binomialkoeffizienten die entsprechenden Terme der
Stirlingformel ein, so erhält man
n
⎛n⎞ k
n−k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p ) ≈
k
k
⎝ ⎠
⎛k⎞
⎜ ⎟
⎝e⎠
⎛n⎞
⎜ ⎟ 2π n
n−k
⎝e⎠
p k ⋅ (1 − p )
n−k
n
k
−
⎛
⎞
2π k ⎜
2π (n − k )
⎟
⎝ e ⎠
12
P.Martus, Multivariate Statistik, SoSe 2009
und daraus durch Kürzen
n−k
k
⎛n⎞ k
⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k
⎝k ⎠
⎛n⎞ ⎛ n ⎞
⎜ ⎟ ⎜
⎟
k
n−k⎠
n−k
p k ⋅ (1 − p ) .
≈⎝ ⎠ ⎝
2π n p (1 − p )
In der Übung wird bewiesen, dass
k
⎛n⎞ ⎛ n ⎞
⎜ ⎟ ⎜
⎟
⎝k⎠ ⎝n−k⎠
n−k
p ⋅ (1 − p )
k
n−k
≈e
−
zk 2
2
erfüllt, wobei zk der standardisierte Wert für k ist.
Insgesamt erhalten wir also
k
⎛n⎞ ⎛ n ⎞
⎜ ⎟ ⎜
⎟
⎝k⎠ ⎝n−k⎠
n−k
p ⋅ (1 − p )
k
n−k
1
≈
2π n p (1 − p )
e
−
zk 2
2
Durch Aufsummieren der Wahrscheinlichkeiten aller Trefferzahlen k, für die zk im
gewünschten Intervall ]a,b] liegt, erhalten wir eine Riemannsumme, die gegen das im Satz
genannte Integral konvergiert (vgl. Chung, 1978, Seite 228-230).
Der Satz von de Moivre Laplace ist ein Spezialfall des Zentralen Grenzwertsatzes.
1.29 Zentraler Grenzwertsatz für identisch verteilte unabhängige Zufallsvariable
Es sei X eine reelle Zufallsvariable, für die Erwartungswert und Varianz existiert, Xi (i=1,...,n)
seien identisch verteilte, unabhängige Zufallsvariable mit der Verteilung von X. Mit Sn
bezeichnen wir die Summe der Xi
S n = ∑i =1 X i
n
und mit Zn die Standardisierung von Sn, also
Zn =
S n − nμ ( X )
nσ 2 ( X )
Dann ist
lim n→∞ P(a < Z n ≤ b ) =
1
2π
∫
b
a
e
− x2
2
dx .
Beweis: z.B. Chung, 1978, Seite 236-238.
13
P.Martus, Multivariate Statistik, SoSe 2009
1.30 Bemerkung
Der Zentrale Grenzwertsatz lässt sich noch allgemeiner formulieren. Es genügt z.B., dass für
nicht identisch verteilte, aber unabhängige Zufallsvariable Xi die Erwartungswerte μ (Xi) und
Varianzen σ2(Xi) existieren und für die Varianzen σ2(Sn) der Summenvariable
S n = ∑i =1 X i
n
die folgende Summe von Integralen
2
1
n
(x − E ( X i ) PX i dx
∑
∫
i =1
Var (S n )
| xi − E ( X i )|≥εS n
für beliebiges ε > 0 gegen Null konvergiert (Lindeberg-Bedingung, Bauer, 1991, Seite 238245).
1.31 Schlussbemerkung
Der Zentrale Grenzwertsatz stellt bei vielen statistischen Anwendungen die "Rechtfertigung"
für den Gebrauch der Normalverteilung dar. So kann man aus der Formulierung in 1.29
ableiten, dass wiederholte Messungen derselben Größe am selben Individuum, wenn sie
unabhängig erfolgen, zu normalverteilten Durchschnittswerten führen (Normalverteilung der
Messfehler).
Aus der allgemeineren Formulierung in 1.30 kann man folgern, dass die wahren (Messfehlerbereinigten) Werte von unterschiedlichen Individuen in einer Population normalverteilt sind
wenn der gesuchte Wert sich additiv aus vielen kleinen Einflüssen zusammensetzt, die
unabhängig sind und von denen keiner dominiert (Normalverteilung der „tatsächlichen“
biologischen Variabilität).
Literatur
Bauer H. Maß- und Integrationstheorie (de Gruyter 1990).
Bauer H. Wahrscheinlichkeitstheorie, 4. Auflage (de Gruyter, 1991).
Chung KL. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse (Springer,
1978).
Ewens WJ, Grant GR. Statistical Methods in Bioinformatics 2.ed. (Springer 2005).
14
P.Martus, Multivariate Statistik, SoSe 2009
Teil 2
Statistische Hypothesentests
2.1 Vorbemerkungen
Statistische Hypothesentests stellen das wichtigste Hilfsmittel der konfirmatorischen Statistik
dar. Sie ermöglichen, Entscheidungen über wissenschaftliche Hypothesen aufgrund
empirischer Daten zu treffen. Dabei können zwar Fehlentscheidungen nicht ausgeschlossen
werden, aber deren Wahrscheinlichkeit kann begrenzt werden.
Die Anwendung statistischer Tests ist aber nicht frei von Fehlerquellen:
•
Man muss sich über die "Natur" der Fehlerwahrscheinlichkeiten im Klaren sein, wenn
man statistische Tests korrekt anwendet. Eine Hauptaufgabe des Statistikers besteht
darin, dem Anwender die korrekte Interpretation von Testergebnissen zu ermöglichen.
•
Wird die zu testende Hypothese oder die akzeptierte Fehlerwahrscheinlichkeit erst
nachträglich, nach Kenntnis aller oder eines Teils der Daten, festgelegt, bricht diese
Absicherung ganz oder teilweise zusammen.
•
Im Rahmen dieses Teils der Vorlesung wird der frequentistische Ansatz dargestellt. In
einem anderen Abschnitt wird die Bayesianische Sichtweise dargestellt.
Das Prinzip des statistischen Tests wird zunächst an einem einfachen Beispiel dargestellt. Die
formal korrekte Behandlung schließt sich an.
2.2 Anwendungsbeispiel (Klinische Studie, vgl. 1.2, 1.7, 1.14, 1.16)
Für ein neues Medikament soll gezeigt werden, dass die Heilungswahrscheinlichkeit π größer
als 0.5 ist. Hierfür werden n = 15 Patienten mit diesem Medikament behandelt und die
Häufigkeit k von Heilungen beobachtet.
Wieviele Patienten müssen mindestens geheilt werden, um mit einer Fehlerwahrscheinlichkeit
von α=0.05 den Nachweis von π > 0.5 zu erbringen?
Gemeint ist der Fehler, sich irrtümlich zugunsten des neuen Medikaments zu entscheiden: Die
Heilungswahrscheinlichkeit ist maximal 0.5, in der Studie werden aber zufällig sehr viele
Patienten geheilt, d.h. die beobachtete relative Häufigkeit k/n ist deutlich größer als 0.5.
Die Mindestzahl K von Heilungen, ab der der Nachweis von π > 0.5 erbracht ist, muss also so
hoch liegen, dass die Wahrscheinlichkeit für das Ereignis k ≥ K entsprechend gering, d.h.
maximal 0.05 ist.
Diese Wahrscheinlichkeit kann für beliebiges π mit Hilfe der Binomialverteilung berechnet
werden. Sie ist sicher für jede Wahl von K am größten, wenn π exakt gleich 0.5 ist. Wir werden uns also für diesen Fall absichern und können uns darauf verlassen, dass die Fehlerwahrscheinlichkeit nur geringer werden kann, wenn π sogar kleiner als 0.5 ist.
15
P.Martus, Multivariate Statistik, SoSe 2009
2.3 Beispiel (Fortsetzung)
Im folgenden Diagramm sind die Binomialwahrscheinlichkeiten b(15,0.5,k) dargestellt:
15 Patienten - H0: Heilungsrate 50%
Wahrscheinlichkeit [%]
25
98.2%
20
1.8%
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
Unter der Annahme π = 0.5 ist die Wahrscheinlichkeit, 12 oder mehr Patienten zu heilen,
0.018. Man sieht leicht durch Nachrechnen, dass b(15,0.5,11) = 0.042 und somit b(15,0.5,k ≥
11) = 0.06 > 0.05. Man muss also mindestens 12 Patienten heilen, um π > 0.5 statistisch zu
beweisen.
2.4 Beispiel (Fortsetzung)
Für den Nachweis von π > 0.5 wird eine beobachtete Heilungshäufigkeit von 12/15 = 80%,
also deutlich mehr als 50%, verlangt!
Die beschriebene Studie wird natürlich mit der Absicht durchgeführt, diesen Nachweis zu
erbringen (andernfalls müsste der statistische Ansatz geändert werden!). Den Initiator der
Studie interessiert also, wie groß die Wahrscheinlichkeit für den Erfolg der Studie ist.
Diese Wahrscheinlichkeit hängt nun aber von der tatsächlichen Heilungswahrscheinlichkeit
des Medikaments ab. Die folgenden Grafiken zeigen, wie groß für unterschiedliches π die
Wahrscheinlichkeit eines Studienerfolgs (k ≥ 12) ist.
Aus den Grafiken geht klar hervor, dass die Studie eigentlich nur für π = 0.9 (oder größer)
erfolgversprechend ist.
Die Bezeichnung H0 und H1 in den Grafiken wird später erklärt.
16
P.Martus, Multivariate Statistik, SoSe 2009
15 Patienten - H1: Heilungsrate 60%
Wahrscheinlichkeit [%]
25
90.9%
20
9.1%
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Anzahl geheilter Patienten
15 Patienten - H1: Heilungsrate 70%
Wahrscheinlichkeit [%]
25
70.3%
20
29.7%
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
17
P.Martus, Multivariate Statistik, SoSe 2009
15 Patienten - H1: Heilungsrate 80%
Wahrscheinlichkeit [%]
30
35.2%
25
64.8%
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
15 Patienten - H1: Heilungsrate 90%
Wahrscheinlichkeit [%]
45
5.6%
40
94.4%
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Anzahl geheilter Patienten
18
P.Martus, Multivariate Statistik, SoSe 2009
2.5 Bemerkung
Für den Initiator der Studie ist eine zweite Fehlerwahrscheinlichkeit von Interesse: Die
Wahrscheinlichkeit β dafür, dass die Studie nicht das Ziel von mindestens 12 Heilungen
erreicht, obwohl die Heilungswahrscheinlichkeit π größer als 0.5 ist.
Ist die tatsächliche Heilungswahrscheinlichkeit also z.B. π = 0.6, dann können wir aus der
entsprechenden Grafik ablesen, dass β = 1-0.091 = 0.909. Diese Studie wäre also unsinnig.
Der Ausweg besteht darin, die Zahl der Patienten zu erhöhen.
2.6 Beispiel (Fortsetzung)
Es werden n = 150 Patienten behandelt. Wegen b(150,0.5,k≥86) = 0.043 und b(150,0.5,k≥85)
> 0.05 müssen mindestens 86 Patienten geheilt werden. Aus den folgenden Grafiken kann
abgelesen werden, dass diese Studie recht erfolgversprechend ist:
150 Patienten - H0: Heilungsrate 50%
Wahrscheinlichkeit [%]
7
6
95.7%
4.3%
5
4
3
2
1
0
50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
Anzahl geheilter Patienten
150 Patienten - H1: Heilungsrate 60%
Wahrscheinlickeit [%]
7
6
22.6%
77.4%
5
4
3
2
1
0
50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
Anzahl geheilter Patienten
19
P.Martus, Multivariate Statistik, SoSe 2009
2.7 Bemerkung
Zur Berechnung der Binomialwahrscheinlichkeiten in 2.6 benutzt man nicht den Rohwert k
sondern die standardisierte Zufallsgröße
Z=
X − μ (k )
σ 2 (k )
mit μ(k) = nπ und σ2 (k) = nπ(1-π).
Mit dem Zentralen Grenzwertsatz erhält man
1
b ( n, p , k ≥ K ) ≈
2π
∫
−
∞
Z (K )
e
z2
2
dz
⎛
⎜=
⎜
⎝
1
∫
2π np (1 − p)
∞
K
−
e
( x − np ) 2
2 np (1− p )
⎞
dx ⎟ .
⎟
⎠
2.8 Beispiel (Fortsetzung)
In Medikamentenstudien ist man dazu verpflichtet, auch immer mit zu überprüfen, ob die
Studie (entgegen der Intention des Initiators) statistisch beweist, dass das neue Medikament
sogar deutlich schlechter als erwartet ist. Dies bedeutet, dass man auch den Fall π < 0.05
berücksichtigen muss.
Praktisch erfolgt dies dadurch, dass man den zulässigen Fehler von 0.05 zu gleichen Teilen
auf besonders hohe und besonders niedrige Heilungshäufigkeiten verteilt:
150 Patienten - H0: Heilungsrate 50%
Zweiseitiger Test
Wahrscheinlichkeit [%]
7
6
2.04%
2.04%
5
4
3
2
1
0
50
55
60
65
70
75
80
85
90
95 100 105 110 115 120
Anzahl geheilter Patienten
Man verlangt jetzt mindestens 87 Heilungen, statt 86.
20
P.Martus, Multivariate Statistik, SoSe 2009
2.9 Bemerkung
Wenn in der Studie statt der geforderten 87 Patienten z.B. 78 geheilt werden, hat man den
geforderten Nachweis von π > 0.5 nicht erbracht. Werden z.B. 90 Patienten geheilt, hat man
ihn erbracht.
Um zu demonstrieren, wie "nahe" das Ergebnis an der vorgeschriebenen Grenze K = 87 lag,
betrachtet man die Fehlerwahrscheinlichkeit, die zum beobachteten k gehört. Im ersten Fall
mit k = 87 gilt b(150,0.5,k≥78) = 0.342, im zweiten Fall b(150,0.5,k≥90) = 0.0012.
Beachtet man die in 2.8 geforderte Erweiterung auf den Nachweis von π < 0.5, so kann man
folgende Aussage treffen:
Wäre die zulässige Fehlerwahrscheinlichkeit α = 0.682 gewesen, hätten die 78 Patienten zum
Nachweis π > 0.5 ausgereicht, wäre die Fehlerwahrscheinlichkeit dagegen α = 0.0024
gewesen, hätten 90 Patienten zum Nachweis π > 0.5 ausgereicht.
In den folgenden Abschnitten werden die bisher informell verwendeten Begriffsbildungen in
einer Serie von mathematischen Definitionen präzisiert. Es wird dringend empfohlen, das
Beispiel 2.2-2.8 jeweils gegen zu lesen.
2.10 Definition (statistischer Raum)
Gegeben sei eine Menge Ω zusammen mit einer Menge von Wahrscheinlichkeitsverteilungen
P auf Ω. Dann heißt das Paar (Ω ,P) statistischer Raum. Wir sprechen von einem
parametrischen statistischen Raum, wenn sich die Wahrscheinlichkeitsverteilungen in P
durch einen (üblicherweise reellwertigen) Parameter (oder Parametervektor im Rn)
beschreiben lassen, d.h.wenn man schreiben kann P = {Pθ | θ ∈ Θ}.
2.11 Bemerkungen
Für endliches Ω = {ω1, ω2,... ωm} oder abzählbares Ω = {ω1, ω2,...} können wir ohne
Einschränkung davon ausgehen, dass die einzelnen Wahrscheinlichkeitsverteilungen P aus P
jeweils für alle Teilmengen von Ω definiert sind.
Für beliebiges Ω müssen wir zusätzlich verlangen, dass jedes P aus P für dieselben Ereignisse
A ⊆ Ω definiert ist.
In vielen Anwendungen verlangt man zusätzlich, dass nicht nur jedes P für dieselben
Ereignisse definiert ist, sondern auch dass P(A) > 0 entweder für alle oder für kein P aus P
erfüllt ist.
Lässt man beliebige Parametermengen Θ zu, kann man man jeden statistischen Raum als
parametrisch auffassen. Im engeren Sinne spricht man von einem parametrischen Raum,
21
P.Martus, Multivariate Statistik, SoSe 2009
wenn der Parameter wie oben erwähnt ein- oder mehrdimensional reell ist. Als Parameter
werden häufig Erwartungswert und/oder Varianz gewählt. Diese Wahl ist aber nicht
zwingend, in manchen Fällen wählt man einfache Funktionen dieser Größen . Wir werden fast
immer davon ausgehen, dass der Raum, den wir betrachten, im engeren Sinne parametrisch
ist.
In sehr vielen Fällen hat man die Wahl, Ω in der Form (Ω1)n oder gleich als den Bildraum
einer Abbildung von (Ω1)n in einen einfachen Raum (Ω2) festzulegen.
2.12 Beispiel (Fortsetzung)
In der klinischen Studie wählen wir
Ω = {0, 1, 2,... 15 }
bzw.
Ω = {0, 1, 2,... 150}
P = {b(15,p,k) | p ∈]0,1[}
bzw.
P = {b(150,p,k) | p ∈]0,1[}.
und
Hier ist p der Parameter, n wird als konstant betrachtet. Die Werte p = 0 und p = 1 werden
bewusst nicht zugelassen, weil dann die Bedingung "P(A) > 0 entweder für alle oder für kein
P aus P " verletzt wäre.
Eine alternative Parametrisierung wäre p/(1-p) oder ln[p/(1-p)].
Eine alternative Wahl für Ω wäre {0,1}15. P wäre dann die Menge aller Wahrscheinlichkeitsverteilungen auf den Tupeln (ω1, ω2,... ω15) mit ωi ∈ {0,1} und für Σwi = k P(ω1, ω2,... ω15) =
pk(1-p)15-k. Die Parametermenge würde sich nicht ändern, wäre also z.B. wieder ]0,1[.
2.13 Definition (Testprobleme, Nullhypothese und Alternative, Entscheidungsfunktion,
kritischer Bereich, kritischer Wert)
Es sei (Ω, P) ein statistischer Raum mit P = {Pθ | θ ∈ Θ}. Θ0 und Θ1 seien zwei Teilmengen
von Θ mit Θ0 ∩ Θ1=∅.
Als Testproblem bezeichnet man die Aufgabe, aufgrund von Stichprobendaten zu
entscheiden, ob man die Annahme H0: P∈ Θ0 zugunsten der Annahme H1: P∈ Θ1 ablehnen
kann. H0 heißt Nullhypothese und H1 heißt Alternative.
Falls Θ = R, Θ0 = ]a,b] und Θ1 = ]b,c[, spricht man von einem einseitigen Testproblem, falls
Θ0={b} und Θ1 = ]a,b[∪]b,c[ spricht man von einem zweiseitigen Testproblem (-∞ ≤ a < b
< c ≤ ∞).
Als Entscheidungsfunktion bezeichnet man diejenige Funktion δ:Ω→{0,1}, die jedem
möglichen Versuchsergebnis ω den Wert 0 (keine Ablehnung der Nullhypothese) oder 1
(Ablehnung der Nullhypothese) zuordnet.
22
P.Martus, Multivariate Statistik, SoSe 2009
Als kritischen Bereich K bezeichnet man die Menge δ-1(1), also diejenigen
Versuchsergebnisse, die zur Ablehnung der Nullhypothese führen. Ist Ω reell und hat der
kritische Bereich die Gestalt eines Intervalls K = [K,∞[, bezeichnet man K als kritischen
Wert.
Wenn man vor die Entscheidungsfunktion eine Zufallsgröße X von Ω in einen einfacheren
Ω' "zwischenschaltet", bezeichnet man X als Prüfgröße und spricht dann analog vom
kritischen Wert für die Prüfgröße.
2.14 Bemerkungen
Meistens, aber nicht immer gilt Θ0 ∪ Θ1=Ω.. Es kann also in P Wahrscheinlichkeitsverteilungen geben, die weder zur Nullhypothese noch zur Alternative gehören.
Das Testproblem ist bewusst asymmetrisch formuliert:
Wenn man die Nullhypothese ablehnen kann, gilt die Alternative als statistisch
bewiesen.
Wenn man die Nullhypothese nicht ablehnen kann, gilt sie deswegen noch lange nicht
als statistisch bewiesen.
In vielen Anwendungen mit einseitigen Testproblemen bezieht man aus Θ0 nur die
ungünstigste Wahrscheinlichkeitsverteilung, also diejenige, die der Alternative am "nähesten"
kommt, in die weiteren Überlegungen ein.
In einem allgemeineren Ansatz kann die Entscheidungsfunktion auch Werte zwischen null
und eins annehmen. Gemeint ist folgendes: Wenn δ(ω) = ρ, dann sollte man sich mit
Wahrscheinlichkeit ρ für die Ablehnung der Nullhypothese entscheiden, also für die
Entscheidung selbst noch einmal ein Zufallsexperiment durchführen. Man spricht deswegen
von randomisierten Entscheidungsfunktionen. Diese werden in der Praxis nicht angewendet.
2.15 Beispiel (Fortsetzung)
In der klinischen Studie mit
Ω = {0, 1, 2,... 15 } und P = {b(15,p,k) | p ∈]0,1[}
lautet das einseitige Testproblem
H0: P ∈ ]0,0.5], H1: P ∈ ]0.5, 1[
und das zweiseitige Testproblem
H0: P ∈ {0.5}, H1: P ∈]0 , 0.5[ ∪ ]0.5, 1[.
Die Entscheidungsfunktion δ geht von {0,1,...,15} nach {0,1}. Beim einseitigen Testproblem
hatten wir uns entschieden, δ{k} = 1 zu wählen, falls k ≥ 12. Der kritische Wert K war also
23
P.Martus, Multivariate Statistik, SoSe 2009
12. Die Wahl von K war aufgrund der Vorgabe erfolgt, dass die Wahrscheinlichkeit, H0
abulehnen obwohl H0 zutrifft maximal 0.05 sein sollte.
Bei Verwendung einer randomisierten Entscheidungsfunktion dürfte man für k=11 Heilungen
mit Wahrscheinlichkeit 0.032/0.042 = 76% die Nullhypothese ablehnen.
Bei Verwendung von Ω = {0,1}15 wäre die Prüfgröße X definiert durch
X(ω1, ω2,... ω15) = Σwi (= k).
2.16 Definition (Fehler erster und Fehler zweiter Art, Macht, Machtfunktion)
Bei gegebenem Testproblem nennt man
Maxθ ∈Θ0 Pθ ( K )
den Fehler erster Art oder Signifikanzniveau und bezeichnet es mit α.
(K ist der kritische Bereich).
Für festes θ ∈ Θ1 nennt man
1 − Pθ ( K )
den Fehler zweiter Art.
Die Funktion
M : Θ → [0,1],
M (θ ) = Pθ ( K )
bezeichnet man als Machtfunktion.
2.17 Bemerkungen
Manchmal bezeichnet man auch die Entscheidung selbst als Fehler erster oder zweiter Art
und nicht die Wahrscheinlichkeit der jeweiligen Entscheidung.
In Anwendungen wird der Fehler erster Art als der wichtigere angesehen, dessen
Wahrscheinlichkeit in jeder Studie vorher begrenzt werden muss. In der Medizin wird
üblicherweise α=0.05 verlangt.
Um überhaupt vom Fehler zweiter Art zu sprechen, muss man sich auf eine spezielle
Alternative θ ∈ Θ1 festlegen. Demgegenüber ist der Fehler erster Art ja ein Maximalwert von
Wahrscheinlichkeiten, man muss sich hier nicht auf ein spezielles θ ∈ Θ0 festlegen. In guten
Studien wird der Fehler zweiter Art vor der Studie für eine realistische Alternative bestimmt.
Man kann für festes θ ∈ Θ1 den Fehler zweiter Art durch Erhöhung des Stichprobenumfangs
verringern (s.u. Fallzahlschätzung). Allerdings wird sich bei fester Fallzahl der Fehler zweiter
Art für Alternativen, die sich immer mehr der Nullhypothese annäheren, immer mehr dem
24
P.Martus, Multivariate Statistik, SoSe 2009
Wert 1-α annähern, in der Medizin also 95%. Extrem kleine Abweichungen von der
Nullhypothese können also statistisch kaum nachgewiesen werden.
.
2.18 Beispiel (Fortsetzung)
Im Beispiel mit 15 Patienten wurde der Fehler erster Art auf 0.05 begrenzt. Für den
einseitigen Test wurden der Fehler zweiter Art für die speziellen Alternativen θ = 0.60, θ =
0.70, θ = 0.80 und θ = 0.90 bestimmt. Die Machtfunktion hat auf ]0.5,1[ die Gestalt
1,00
0,80
macht
0,60
0,40
0,20
0,00
0,50
0,60
0,70
0,80
0,90
1,00
p
2.19 Definition (Überschreitungswahrscheinlichkeit)
Bei bekanntem Versuchsergebnis kann man das niedrigste Signifikanzniveau angeben, für das
das Studienergebnis noch signifikant gewesen wäre. Es liegt bei maximal α, wenn das
Studienergebnis signifikant für α war und bei größer α, wenn das Studienergebnis nicht
signifikant für α war.
Dieses "optimale" Signifikanzniveau bezeichnet man als Überschreitungswahrscheinlichkeit
oder kürzer als p-Wert.
2.20 Bemerkung
P-Werte enthalten mehr Information als die Angabe zur Ablehnung oder Nichtablehnung der
Nullhypothese.
P-Werte stellen aber keine Begrenzungen für die Wahrscheinlichkeiten von
Fehlentscheidungen dar, auch wenn sie oft in dieser Art interpretiert werden.
P-Werte werden in der Medizin extrem häufig berechnet.
2.21 Beispiel (Fortsetzung)
25
P.Martus, Multivariate Statistik, SoSe 2009
Der p-Wert für k = 11 Heilungen war 0.06, derjenige für k = 12 Heilungen 0.018.
2.22 Algorithmus (Fallzahlschätzung)
Wenn man für eine Studie den Fehler zweiter Art begrenzen will, muss man die notwendige
Mindestfallzahl bestimmen. Dabei geht man folgendermaßen vor:
Man legt durch die Wahl vonΘ0 die Nullhypothese und durch die Wahl von Θ1 die Alternative
fest. Man fixiert das Signifikanzniveau α. Weiterhin legt man für ein spezielles θ ∈ Θ1 den
gewünschten Fehler zweiter Art β fest.
Für eine initiale Festlegung n der Fallzahl bestimmt man zunächst den maximal möglichen
kritischen Bereich K aufgrund der Bedingung
Maxθ ∈Θ0 Pθ ( K ) ≤ α
Für das gefundene K und das spezielle θ ∈ Θ1 bestimmt man den Fehler zweiter Art
1 − Pθ ( K ) = β ( n ) .
Wenn β(n) > β muss n erhöht werden, wenn β(n) < β kann n verringert werden. Durch
Ausprobieren findet man die notwendige Fallzahl.
Bei sehr einfachen Testproblemen kann man geschlossene Formeln für die Fallzahl angeben.
2.23 Beispiel (Fortsetzung)
Für die Approximation der Binomial- durch die Normalverteilung lautet die geschlossene
Form der Fallzahlschätzung für den einseitigen Test
{z
n=
1−α
[π 0 (1 − π 0 )] + z1− β [π 1 (1 − π 1 )]}
(π 1 − π 0 )2
2
Dabei bezeichnet zγ das γ-Quantil der Standardnormalverteilung, also den z-Wert für den gilt:
1
2π
∫
zγ
−∞
−
e
z2
2
dz = γ
Es gilt z0.95 = 1.645 und z0.80 = 0.893. Die notwendige Fallzahl für π0 = 0.50 und π1 = 0.60 ist
n=
{1.645
[0.5 • (1 − 0.5)] + 0.893 [0.6 • (1 − 0.6)]}
(0.6 − 0.5)2
2
≈ 157 .
26
P.Martus, Multivariate Statistik, SoSe 2009
Für den zweiseitigen Test muss man α halbieren, also mit z0.975 (=1.96) statt z0.95 a(=1.645)
arbeiten.
27
P.Martus, Multivariate Statistik, SoSe 2009
Teil 3
Methodenkatalog
3.1 Vorbemerkungen und Überblick
In den folgenden Abschnitten werden wir einige statistische Tests vorstellen, die für
medizinisch / biologische Anwendungen von Bedeutung sind. Die zugrunde liegende Theorie
werden wird nur andeutungsweise behandeln, den Fehler erster Art immer auf 0.05 fixieren.
Bei den ausgewählten statistischen Tests lassen sich drei Stichprobenstrukturen
unterscheiden:
•
•
•
Eine Stichprobe wird gegen einen bekannten Wert verglichen.
Zwei Stichproben werden gegeneinander verglichen. Alle Werte können als
unabhängig betrachtet werden (meistens, weil sie von verschiedenen Patienten
stammen, die z.B. unterschiedliche Therapien erhalten oder zu unterschiedlichen
Diagnosegruppen gehören).
Zwei Stichproben werden gegeneinander verglichen. Jeweils ein Wert der ersten und
der zweiten Stichprobe sind voneinander abhängig. Ansonsten sind die Werte
unabhängig (meistens zwei Messungen am selben Patienten unter verschiedenen
Bedingungen, z.B. unter zwei Therapien, von der linken und rechten Körperseite, an
gesundem und krankem Gewebe).
Aus der Stichprobenstruktur und der Verteilung des zu untersuchenden Merkmals ergibt sich
dann jeweils der anzuwendende Test. Wir werden sehen, dass der dritte Fall einfach auf den
ersten zurückgeführt werden kann.
Die in diesem Abschnitt vorgestellten Beispiele sollen lediglich den Rechenweg verdeutlichen
und stammen nicht aus realistischen Anwendungen. In der Übung werden reale
Anwendungsbeispiele behandelt.
Um klar zwischen den theoretischen Parametern der Wahrscheinlichkeitsmodelle und den
Parametern der beobachteten Stichproben unterscheiden zu können, werden wir für die
theoretischen Parameter griechische und für die Stichprobenparameter lateinische
Buchstaben verwenden.
Beispiel:
Wir werden Wahrscheinlichkeiten mit π, beobachtete relative Häufigkeiten mit p bezeichnen.
28
P.Martus, Multivariate Statistik, SoSe 2009
3.2 Test einer Stichprobe gegen einen bekannten Wert - Häufigkeiten (Binomialtest)
Dieser Test wurde in Teil 2 ausführlich behandelt. Wir analysieren eine Stichprobe, bei der
die Häufigkeit eines bestimmten Ereignisses interessiert:
Notation
n
k
Stichprobenumfang
Häufigkeit des Ereignisses
Statistischer Raum
Ω = {0,1}n
P = {b(1,π,k)n| π ∈ ]0,1[}
oder
Statistischer Raum
Ω = {0,1,...,n}
P = {b(n,π,k)| π ∈ ]0,1[}
Nullhypothese:
π = π0
Alternative:
π > π0 (einseitig)
π < π0 (einseitig)
π ≠ π0, (zweiseitig, d.h. π > π0 oder π < π0 )
Prüfgröße
k = Σωi (für die erste Wahl des statistischen Raums)
k (also Identität für die zweite Wahl des statistischen Raums)
Verteilung der Prüfgröße
unter der Nullhypothese
b(n,π0,k) (gilt für beide Wahlen des statistischen Raums)
Kritischer Wert (einseitig)
Das kleinste K mit
∑
n
k =K
b(n, π 0 , k ) ≤ 0.05
Wenn nicht die exakte Formel der Binomialverteilung (vgl. 1.2) sondern die Näherung des
Zentralen Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße:
Notation
Prüfgröße
beobachtete Häufigkeit k/n
Dichtefunktion der Standardnormalverteilung
p −π0
Z=
n
π 0 • (1 − π 0 )
p
f
Verteilung der Prüfgröße
unter der Nullhypothese
Normalverteilung N(0,1)
Kritischer Wert (einseitig)
Das Z mit
∫
+∞
Z
f ( z )dz = 0.05
Für Beispiele mit π0 = 0.5 und n = 15 bzw. n = 150 siehe Teil 2 der Vorlesung.
29
P.Martus, Multivariate Statistik, SoSe 2009
3.3 Test einer Stichprobe gegen einen bekannten Wert - Normalverteilte Daten mit
bekannter Varianz und unbekanntem Erwartungswert (z-Test)
Wir analysieren eine Stichprobe des Umfangs n von normalverteilten Daten. Wir wollen
zeigen, dass sich der Erwartungswert μ der zugrundeliegenden Wahrscheinlichkeitsverteilung
von einem vorgegebenen Wert μ0 unterscheidet. Wir gehen davon aus, dass die Varianz σ2
bekannt ist.
Notation
S
Stichprobe
Stichprobenumfang
n
_
Mittelwert der Stichprobe
x
Statistischer Raum
Ω = Rn
P = {N(μ,σ2)n| μ ∈ R}
Nullhypothese:
μ = μ0
Alternative:
μ > μ0 (einseitig)
μ < μ0 (einseitig)
μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0 )
_
x− μ 0
Prüfgröße
Z=
Verteilung der Prüfgröße
unter der Nullhypothese
Normalverteilung N(0,1)
f ( z)
Kritischer Wert (μ > μ0)
Kritischer Wert (μ < μ0)
Kritischer Wert (μ ≠ μ0)
n
σ2
1
=
2π
∫
Das Z mit ∫
Das Z mit ∫
Das Z mit
−
e
z2
2
dz
+∞
Z
Z
−∞
Z
−Z
f ( z )dz = 0.05 , also Z = 1.645
f ( z )dz = 0.05 , also Z = -1.645
f ( z )dz = 0.95 , also Z = 1.96
d.h.
∫
+∞
Z
f ( z )dz = 0.025 und
∫
−Z
−∞
f ( z )dz = 0.025
Beispiel:
S = (1.5,2.5,1.5,2.5), μ0 = 1, σ2 = 0.25, Z = (2-1)/√0.25)√4 = 1/0.5*2 =4 > 1.96.
Wir können also die Nullhypothese ablehnen. Wir haben (statistisch) gezeigt, dass der
tatsächliche Erwartungswert größer als μ0 = 1 ist.
30
P.Martus, Multivariate Statistik, SoSe 2009
3.4 Test einer Stichprobe gegen einen bekannten Wert - Normalverteilte Daten mit
unbekannter Varianz und unbekanntem Erwartungswert (t-Test für eine Stichprobe)
Gegenüber 3.3 ändert sich nur, dass wir die Varianz nicht kennen, sondern aus der Stichprobe
schätzen müssen. Wir behandeln hier nur den zweiseitigen Test, die einseitigen Varianten
werden analog durchgeführt.
Die Varianz lässt sich aus der Stichprobe durch
s2 =
_
n ⎛
1
⎞
⎜ xi − x ⎟
∑
i =1
n −1
⎝
⎠
2
schätzen.
Notation
Stichprobenumfang
n
_
Mittelwert der Stichprobe
geschätzte Varianz
Gammafunktion
x
s2
Γ
Statistischer Raum
Ω = Rn
P = {N(μ,σ2)n| μ ∈ R, σ2 > 0}
Nullhypothese:
μ = μ0
Alternative:
μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0)
_
x− μ 0
Prüfgröße
t=
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n-1 Freiheitsgraden tν (für beliebiges σ2!)
n
s2
⎛ν + 1 ⎞
Γ⎜
⎟
⎝ 2 ⎠
⎛ν ⎞
Γ⎜ ⎟ πν
⎝2⎠
f (t ,ν ) =
⎛ t2
⎜⎜1 +
⎝ ν
⎞
⎟⎟
⎠
ν +1
−
2
Es gilt Γ(0.5) = √π, Γ(n+0.5) = (n-0.5)• Γ(n-0.5) und Γ(n) = (n-1)! (jeweils n>0, ganzzahlig). Dadurch lassen
sich die Werte der Γ-Funktion für alle Freiheitsgrade bestimmen.
Kritischer Wert (μ ≠ μ0)
Das T mit
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 3.18
Beispiel:
S = (1.5,2.5,1.5,2.5), μ0 = 1, s2 = 1/3 = 0.33, t = (2-1)/√0.33)√4 = 2/0.57 = 3.46 > 3.18.
Wir können also die Nullhypothese ablehnen. Es ist statistisch bewiesen, dass der tatsächliche
Erwartungswert μ0 größer als 1 ist!
31
P.Martus, Multivariate Statistik, SoSe 2009
3.5 Vergleich zweier unabhängiger Stichproben - Häufigkeiten (Chi-Quadrat Test)
Wir analysieren zwei nicht unbedingt gleichgroße, unabhängige Stichproben und beobachten
das Eintreten eines bestimmten Ereignisses. Z.B. könnte es sich um Patienten handeln, die
zufällig einer von zwei Therapien zugeordnet wurden und für die der Heilungserfolg
beobachtet wurde. Wir stellen hier nur den zweiseitigen Fall des Tests vor.
Notation
n1 ; n2 ; n
k1,obs ; k2,obs ; kobs
_
Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe
Beobachtete Häufigkeit Stichprobe 1, Stichprobe 2, Gesamtstichprobe
p
Relative Häufigkeit in der Gesamtstichprobe = kobs / n
k1,exp
Erwartete Häufigkeit erste Stichprobe, falls π = p , also p • n1
k2,exp
Erwartete Häufigkeit, zweite Stichprobe, falls π = p , also p • n2
_
_
_
_
Ω = {0,1}n1•{0,1}n2
P = {b(1,π1,k)n1• b(1,π1,k)n2| π1, π2 ∈ ]0,1[}
Statistischer Raum
oder
Statistischer Raum
Ω = {0,1,...,n1}•{0,1,...,n2}
P = {b(n1,π1,k) • b(n2,π2,k)| π1, π2 ∈ ]0,1[}
Nullhypothese:
π1 = π2
Alternative:
π1 ≠ π2, (zweiseitig)
Prüfgröße
(k
χ2 =
− k1,obs )
2
1,exp
Verteilung der Prüfgröße
unter der Nullhypothese
k1,exp
(k
+
n1 − k1,exp
(k
+
− k 2,obs )
2
2 ,exp
k 2,exp
(k
+
− k 2,obs )
2
2 ,exp
n2 − k 2,exp
Chi-Quadrat-Verteilung mit einem Freiheitsgrad
1 − 12 − 2t
t e
2π
f (x) =
Kritischer Wert
− k1,obs )
2
1,exp
X mit
∫
X
−∞
f (t )dt = 0.95 , also X = 3.84
Beispiel: In beiden Gruppen werden jeweils 40 Patienten behandelt. In der ersten Gruppe
_
werden 10, in der zweiten werden 30 Patienten geheilt, also p = 0.5. In beiden Gruppen
wären somit je 20 Heilungen zu erwarten. Wir erhalten χ2 = 1/20•(100+100+100+100) =
20, wir haben also (statistisch) nachgewiesen, dass π1 > π2.
32
P.Martus, Multivariate Statistik, SoSe 2009
3.6 Vergleich zweier Stichproben - Normalverteilte Daten mit unbekannter aber in
beiden Stichproben identischer Varianz und unbekannten Erwartungswerten (t-Test
für unabhängige/unverbundene Stichproben)
Die Bezeichnungen müssen gegenüber 3.4 jetzt auf zwei Gruppen ausgedehnt werden:
Notation:
n1 ; n2 ; n
_
_
Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe
x1 ; x 2
Mittelwert Stichprobe 1, Stichprobe 2
s12 ; s 22
(empirische) Varianz Stichprobe 1, Stichprobe 2
Die als identisch angesehene wahre Varianz σ2 lässt sich aus den beiden Stichproben durch
s2 =
(n1 − 1) s12 + (n2 − 1) s 22
n1 + n2 − 2
schätzen.
Statistischer Raum
Ω = Rn
P = {N(μ1,σ2)n1• N(μ2,σ2)n2| μ1, μ2 ∈ R, σ2 > 0}
Nullhypothese:
μ1 = μ2
Alternative:
μ1 ≠ μ2,
_
Prüfgröße
t=
_
x1 − x 2
s
2
•
n1 • n2
n1 + n2
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n1 + n2 - 2 Freiheitsgraden
(für beliebiges σ2!)
Kritischer Wert (μ ≠ μ0)
Das T mit
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 2.57
Beispiel:
_
_
S1 = (1.5,2.5,1.5,2.5), S2 = (2.5,3,3.5), x1 = 2, s12 = 1/3 = 0.33, x 2 = 3, s 22 = 0.25, s2 =
1/5*(3*0.33+2*0.25) = 0.3, t = (2-3)/√0.3*√(12/7) = - 2.39> - 2.57.
Wir können also die Nullhypothese nicht ablehnen. Wir haben aber deswegen nicht bewiesen,
dass der Erwartungswert in beiden Gruppen gleich groß ist.
33
P.Martus, Multivariate Statistik, SoSe 2009
3.7 Vergleich zweier abhängiger Stichproben - Normalverteilte Differenzen mit
unbekannter Varianz (t-Test für abhängige/verbundene Stichproben)
Wir führen pro Proband zwei Messungen durch. Man könnte z.B. die Schmerschwelle unter
zwei verschiedenen Schmerzmitteln messen oder den Blutdruck vor und nach Therapie
miteinander vergleichen.
In diesem Abschnitt gehen wir von Messungen einer kontinuierlichen Zufallsgröße aus, im
folgenden Abschnitt von ja/nein Messungen. Wir bezeichnen die beiden Zufallsvariablen mit
X1 und mit X2, die Stichproben entsprechend mit S1 und S2.
Wir setzen nicht voraus, dass X1 und X2 unabhängig sind, das wäre auch extrem unrealistisch.
Wir bestimmen vielmehr die Differenzenstichprobe SD aus der Zufallsvariablen D = X2 - X1
und setzen voraus, dass diese Stichprobe normalverteilt ist.
Das weitere Vorgehen wird an einem Beispiel erläutert:
S1:
S2:
SD:
1
1
0
3
5
2
4
3
-1
3
5
2
5
6
1
4
6
2
2
2
0
4
6
2
5
4
-1
4
6
2
6
7
1
5
7
2
Auf SD wenden wir dann den Test aus Abschnitt 3.4 mit μ0 = 0 an:
Mittlere Differenz:
Stichprobenvarianz der Differenzen:
Fallzahlfaktor √12
Prüfgröße t
Kritischer Wert (ν = 11)
1.0
1.455
3.46
2.872
2.20
Es ist statistisch gezeigt, dass die Werte der zweiten Stichprobe größer sind als diejenigen der
ersten.
Zum Vergleich:
Wenn S1 und S2 aus unabhängigen Stichproben kämen, wäre t = 1.44 und das Ergebnis nicht
signifikant. Der Grund liegt darin, dass die Varianz von X1 und X2 größer ist als diejenige von
D. Außerdem ist der Fallzahlfaktor bei unabhängigen Stichproben √[(12*12)/(12+12)] =
√(12/2) = √6und bei abhängigen Stichproben √(12).
3.8 Vergleich zweier abhängiger Stichproben - Häufigkeiten (Vorzeichentest)
Bei dychotomen (ja/nein) Variablen erhält man pro Proband ebenfalls zwei Messungen, die
wir als Zufallsvariablen mit Y1 und mit Y2 bezeichnen, also z.B. Heilung ja (1), nein (0).
Sowohl Y1 als auch Y2 können nur die Werte 0 und 1 annehmen. Die Differenzenvariable D =
Y1 - Y2 kann somit nur die Werte -1, 0 und 1 annehmen.
Zur Signifikanztestung ignoriert man die Null-Differenzen und vergleicht die positiven mit
den negativen Differenzen mit Hilfe des Binomialtests für π0 = 0.5 . Die Wahl von π0 ist
34
P.Martus, Multivariate Statistik, SoSe 2009
dadurch begründet, dass bei gleichen Heilungswahrscheinlichkeiten die Differenzen -1 und
+1 jeweils etwa gleichhäufig auftreten müssten.
Beispiel
S1
1
1
0
1
0
1
1
0
1
1
1
1
S2
0
0
0
0
1
0
0
0
0
1
0
0
SD
1
1
(0)
1
-1
1
1
(0)
1
(0)
1
1
Wir erhalten acht positive und eine negative Differenz. Drei Nulldifferenzen werden
gestrichen. Insgesamt müssen wir also einen Binomialtest mit n = 9, π0 = 0.5 und k = 8
rechnen.
Es gilt
∑
1
k =0
b(9,0.5, k ) + ∑k =8 b(9,0.5, k ) = 0.039.
9
Wir haben also (statistisch) nachgewiesen, dass die Heilungswahrscheinlichkeit unter der
ersten Therapie größer ist als unter der zweiten.
3.9 Bemerkungen
Die Formeln der Dichtefunktionen für die t- und die Chi-Quadrat Verteilung werden für das
weitere Verständnis nicht benötigt und sind nur aus Vollständigkeitsgründen angegeben.
Die Formeln der Prüfgrößen der einzelnen Tests sind dagegen wichtig, weil sie die Rationale
der entsprechenden Tests verdeutlichen.
Man kann zeigen, dass die Chi-Quadrat Verteilung die Verteilung des Quadrats einer
normalverteilten Zufallsgröße ist. Insbesondere gilt für die kritischen Werte 1.962 = 3.84.
Für quantitative Daten, die nicht normalverteilt sind, verwendet man „nichtparametrische“
Testverfahren, z.B. den Mann-Whitney Test. Diese Verfahren werden später behandelt, wenn
wir sie in Anwendungen benötigen.
35
P.Martus, Multivariate Statistik, SoSe 2009
Teil 4
Elementare Korrelations- und Regressionsanalyse
4.1 Vorbemerkung
Bei der Regressionsanalyse untersuchen wir die Möglichkeit, den Wert einer Zufallsgröße Y
aus dem Wert einer oder mehrerer anderer zufälliger oder deterministischer Variablen X bzw.
X1, X2,...,Xp vorherzusagen. Der hier behandelte, einfachste Fall ist durch vier Kriterien
charakterisiert:
•
•
•
•
Zur Vorhersage von Y wird nur eine Variable X verwendet.
Der Erwartungswert von Y hängt von X affin linear und vom Vektor (β0, β1) linear
ab, d.h. E(Y|X) = β0+β1X.
X wird als deterministisch angenommen.
Bei gegebenen X ist Y normalverteilt mit von x unabhängiger, also konstanter
Varianz σ2.
Insgesamt ergibt sich also die Modellgleichung
Yi = β0 + β1Xi + εi
mit εi ~ N(0,σ2)
Yi = E(Y|Xi) + εi
mit εi ~ N(0,σ2).
bzw.
Man beachte, dass σ2 nicht von i abhängt.
4.2 Anwendungsbeispiel (Diagnose des grünen Stars)
Grüner Star (Glaukom) ist eine Krankheit, bei der es zu Gesichtsfeldverlust kommt, der in
vielen Fällen verursacht ist durch Erhöhung des intraokularen Drucks und darauf folgende
Schädigung des Sehnervs. Die Entwicklung von Methoden zur Früherkennung dieser
Krankheit ist ein zentrales Forschungsgebiet der Augenheilkunde, weil die Schädigung des
Sehnerven irreversibel ist.
Die Perimetrie gilt als "Goldstandard" für die Erkennung funktioneller Schäden beim grünen
Star. Der Erlanger Flimmertest ist ein Schnelltest, der z.B. in Screeninguntersuchungen von
Risikogruppen verwendet werden soll. Man interessiert sich dafür, ob dieser Test die
Ergebnisse der Perimetrie grob vorhersagen kann.
Y:
Perimetrie
Abweichung der Lichtunterscheidungsempfindlichkeit [dB], gemittelt über 59 Punkte des
Gesichtsfeldes, gegenüber Normalwerten.
X:
Erlanger Flimmertest
Kontrastempfindlichkeit [%] auf Flimmerreiz, Stimulus im gesamten Gesichtsfeld.
36
P.Martus, Multivariate Statistik, SoSe 2009
Klinische Fragestellung:
Lässt sich das Ergebnis der Perimetrie aus dem Ergebnis des Erlanger Flimmertests durch
eine lineare Gleichung vorhersagen?
Stichprobe (verkleinert):
10 Augen von 10 Patienten mit beginnendem grünen Star aus dem Erlanger Glaukomregister
(Klinisches Register an der Universitäts-Augenklinik mit Poliklinik der Friedrich AlexanderUniversität Erlangen-Nürnberg).
Rohdaten:
Nr (=i)
Yi
Xi
1
6.1
13.2
2
9.7
12.5
3
4.1
15.5
4
8.8
10.1
5
4.0
12.5
6
7.9
11.9
7
7.4
8.9
8
6.4
10.2
9
10.4
5.4
10
10.3
8.3
Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen
Grafische Darstellung mit Regressionsgerade:
Gesichtsfeld Mittlerer Defekt (MD)
11
10
9
8
7
6
5
4
3
4
6
8
10
12
14
16
Erlanger Flimmertest
37
P.Martus, Multivariate Statistik, SoSe 2009
4.3 Die Kleinstquadrate Schätzung der Regressionsgerade
_
Erinnerung: Der Mittelwert y einer Stichprobe war derjenige Wert, der den Ausdruck
s2 =
_
1
n ⎛
⎞
−
y
y
⎜
⎟
∑
i
i =1
n −1
⎝
⎠
2
_
minimiert. y minimiert den quadrierten Abstand zu den beobachteten Werten und stellt somit
in der trivialen Regressionsgleichung E(Y) = β0 eine Kleinstquadrateschätzung des
Parameters β0 dar, also
_
^
y = β0 .
Für die Schätzung der Regressionsgerade kommt ein weiterer Parameter, β1, dazu. Ziel ist es
jetzt, die Abstandsquadrate
∑ [y − (β
i
i
0
+ β 1 ⋅ xi )]
2
zu minimieren.
Man kann mit Methoden der Differentialrechnung zeigen, dass die Lösung durch die
folgenden Gleichungen gegeben ist:
^
β1 =
s yx
s xx
,
^
β0
=
^
y − β1 ⋅ x
In diesen Gleichungen bedeutet sxx die (Stichproben-) Varianz von X und syx die Kovarianz
von Y und X.
In der Formel der Kovarianz von Y und X wird der quadratische Term
_
⎛
⎞
⎜ xi − x ⎟
⎝
⎠
2
durch den gemischten Term
_
_
⎞
⎞⎛
⎛
⎜ xi − x ⎟⎜ y i − y ⎟
⎠
⎠⎝
⎝
ersetzt, COV(X,Y) = syx =
s2 =
_
_
1
n ⎛
⎞
⎞⎛
x
x
y
y
−
−
⎜
⎟.
⎜
⎟
∑
i
i
i =1
n −1
⎠
⎝
⎠⎝
38
P.Martus, Multivariate Statistik, SoSe 2009
4.4 Fortsetzung des Beispiels, Berechnung der Stichprobenparameter
Nr (=i)
1
2
3
4
5
6
7
8
9
10
Σ
Σ/10
Σ/9
Yi
Xi
6.1
9.7
4.1
8.8
4.0
7.9
7.4
6.4
10.4
10.3
75.1
7.51
13.2
12.5
15.5
10.1
12.5
11.9
8.9
10.2
5.4
8.3
108.50
10.85
_
_
_
(Yi- y )2
1.99
4.80
11.63
1.66
12.32
0.15
0.01
1.23
8.35
7.78
49.93
--5.55
Yi- y
-1.41
2.19
-3.41
1.29
-3.51
0.39
-0.11
-1.11
2.89
2.79
0
0
Xi- x
2.35
1.65
4.65
-0.75
1.65
1.05
-1.95
-0.65
-5.45
-2.55
0
0
_
(Xi- x )2
5.52
2.72
21.62
0.56
2.72
1.10
3.80
0.42
29.70
6.50
74.69
--8.30
_
_
(Yi- y )(Xi- x )
-3.31
3.61
-15.86
-0.97
-5.79
0.41
0.21
0.72
-15.75
-7.11
-43.84
---4.87
_
Mittelwerte x ,
_
Varianzen s y2 = s yy , s x2 = s xx
Kovarianz s yx
y
Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen
^
β1 =
s yx
s xx
=
− 4.87
8.30
= − 0.59,
^
β0
=
^
y − β1 ⋅ x
= 7.51 − (−0.59) • 10.85 = 13.88
Also lautet die Gleichung der geschätzten Regressionsgerade Y = 13.88 - 0.59•X.
4.5 Bemerkung: Gütemaße für die Anpassung der Regressionsgerade
Bisher haben wir noch keine Aussage darüber treffen können, wie „gut“ die Regressionsgerade zu den Daten passt. Dies ist Thema der folgenden Abschnitte. Wir untersuchen
insgesamt fünf Gütemaße, die im Folgenden motiviert und beschrieben werden. Es handelt
sich um
•
•
•
•
•
das Quadrat des Korrelationskoeffizienten
den Korrelationskoeffizienten
die Kovarianz
die Residualquadratsumme
die mittlere Wurzel aus der Residualquadratsumme.
Alle fünf Maße basieren auf den Residuen der Regressionsanalyse.
39
P.Martus, Multivariate Statistik, SoSe 2009
4.6 Definition (Vorhergesagte Werte, Residuen)
Für eine Regressionsanalyse heißen die Ergebnisse, die man durch Einsetzen der x-Werte in
^
die Regressionsgleichung erhält, „vorhergesagte Werte“. Man bezeichnet sie mit y i :
^
yi
^
= β0
+
^
β1 xi ,
Die Differenzen aus beobachteten und vorhergesagten Werten
^
yi − yi
⎛ ^
yi − ⎜ β 0
⎝
=
^
⎞
+ β1 xi ⎟
⎠
heißen Residuen. Je größer (absolut) die Residuen, desto schlechter die Anpassung der
Regressionsgerade.
4.7 Fortsetzung des Beispiels: Berechnung der Residuen und der Residuenquadrate
Nr. (=i)
1
2
3
4
5
6
7
8
9
10
Σ
Σ/10
Σ/8
Yi
Xi
6.1
9.7
4.1
8.8
4.0
7.9
7.4
6.4
10.4
10.3
75.1
7.51
---
13.2
12.5
15.5
10.1
12.5
11.9
8.9
10.2
5.4
8.3
108.50
10.85
---
^
Yi
6.1
6.5
4.8
8.0
6.5
6.9
8.7
7.9
10.7
9.0
75.1
7.51
---
^
Yi - Yi
-0
3.2
-0.7
0.8
-2.5
1.0
-1.3
-1.5
-0.3
1.3
0
-----
^
(Yi - Yi )2
,00
10.0
0.5
0.7
6.5
1.0
1.6
2.2
0.1
1.7
24.2
--3.0
^
_
Yi - y
-1.4
-1.0
-2.7
0.4
-1.0
-0.6
1.1
0.4
3.2
1.5
0
-----
^
_
( Yi - y )2
1.9
0.9
7.5
0.2
0.9
0.4
1.3
0.2
10.2
2.2
25.7
-----
4.8 Definition: (quadrierter Korrelationskoeffizient, r2)
Da man ja immer die waagerechte Gerade y = y als triviale Regressionsgerade verwenden
könnte, weiß man, dass auf jeden Fall
2
2
∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ ≤ ∑ ( yi − y ) .
^
40
P.Martus, Multivariate Statistik, SoSe 2009
Man kann sogar noch mehr zeigen:
2
2
2
∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ + ∑ ⎛⎜⎝ yi − y ⎞⎟⎠ = ∑ ( yi − y )
^
^
Bei dieser Gleichung handelt es sich um eine typische Varianzzerlegung. Rechts steht (bis auf
den Faktor 1/[n-1]) die Gesamtvarianz der y-Werte. Ganz links steht die Quadratsumme der
Residuen, also die „nicht erklärte“ Restvarianz. Der zweite Summand links beschreibt den
Anteil der Varianz, der durch die Regression erklärt wird.
Die Idee hinter r2 ist es, zu messen, welcher Anteil der Variabilität
∑ (y
2
i
− y ) durch die
Regressionsanalyse erklärt wird. Man definiert daher
2
^
∑ ⎛⎜⎝ yi − y ⎞⎟⎠
=
2
∑ ( yi − y )
r2
2
^
∑ ⎛⎜⎝ yi − yi ⎞⎟⎠
= 1−
2
∑ ( yi − y )
und bezeichnet diese Zahl als Quadrat des Korrelationskoeffizienten. r2 liegt zwischen 0 und 1
und kann als Prozentwert interpretiert werden.
Im Beispiel erhalten wir mit Hilfe der Tabellen aus 4.4 und 4.7 r2 = 25.7/49.9 = 0.51.
4.9 Definition: (Korrelationskoeffizient r)
Der Korrelationskoeffizient ist definiert durch
r
=
s yx
s yy s xx
=
∑ ( y − y )(x − x )
∑ ( y − y ) ∑ (x − x )
i
i
2
i
2
i
Man kann zeigen, dass das in 4.8 definierte r2 tatsächlich das Quadrat von r ist. Insbesondere
liegt r zwischen -1 und +1. Im Gegensatz zu r2 kann man an r erkennen, ob die Regressionsgerade steigt oder fällt. Dafür lässt sich r aber nicht als Prozentwert interpretieren.
Im Beispiel erhalten wir mit Hilfe der Tabelle aus 4.4 r = -43.8/√(49.9•74.7) = -0.72. Es gilt
in der Tat (-0.72)2 = 0.51
41
P.Martus, Multivariate Statistik, SoSe 2009
4.10 Definition (Kovarianz, COV)
Die Kovarianz wurde bereits in 4.3 zur Schätzung der Regressionsgeraden eingeführt. Wie
man leicht sieht, hängt die Kovarianz von der Skalierung der Merkmale ab, im Gegensatz zur
Korrelation r oder zu r2.
Die Kovarianz ist in den meisten Anwendungen der einfachen linearen Regressionsanalyse
nicht von Interesse. Sie stellt jedoch eine wichtige Größe in der multivariaten Analyse dar und
wird dort ausführlicher diskutiert.
In Abschnitt 4.3 hatten wir bereits die Kovarianz als syx = -4.87 berechnet.
4.11 Definition (Residualquadratsumme, RSSQ)
Die Residualquadratsumme
^
Σ (yi - y i )2
ist besonders für den Vergleich unterschiedlich komplexer Modelle geeignet und wird im
Rahmen der multiplen Regression diskutiert.
Im Beispiel war RSSQ = 24.2.
4.12 Definition (Mittlere Wurzel aus der Residualquadratsumme, RRSSQ)
Die mittlere Wurzel aus der Residualquadratsumme ist definiert als
RRSSQ
=
2
n
1
( yi − yˆ i ) .
∑
i =1
n−2
Sie ist offenbar analog zur Standardabweichung definiert. Das bedeutet insbesondere, dass im
Bereich ±2•RRSSQ etwa 95% aller Residuen liegen.
Insofern gibt die RRSSQ die „direkteste“ Information über die Güte der Anpassung.
In unserem Beispiel war RRSSQ = 2.8. Das bedeutet, dass die Ergebnisse der Perimetrie in
etwa mit einer maximalen Abweichung von ± 5.6 dB durch den Flimmertest vorhersagbar
sind.
42
P.Martus, Multivariate Statistik, SoSe 2009
4.13 Zusammenfassung
In der folgenden Tabelle sind die Gütemaße für die Regressionsgerade zusammengefasst:
Maß
Kriterium
Symbol
Dimension
abhängig von der
Skala von X
abhängig von der
Skala von Y
abhängig von der
Streuung von X
abhängig von der
Streuung von Y
Interpretation
„Nutzen“ für
Anwender
Verwendung
quadrierter
Korrelationskoeffizient
r2
dimensionslos
nein
Korrelationskoeffizient
Kovarianz
Residualquadratsumme
r
dimensionslos
nein
Cov
dim(X)•dim(Y)
ja
RSSQ
dim(Y)2
nein
Wurzel der
Residualquadratsumme
RRSSQ
dim(Y)
nein
nein
nein
ja
ja
ja
ja
ja
ja
nein
nein
ja
ja
ja
ja
ja
Prozentwert
sehr hoch
Cosinus
hoch
Skalarprodukt
gering
Vektornorm
gering
Fehlerstreuung
sehr hoch
häufig
sehr häufig
sehr selten
selten
zu selten!
4.14 Signifikanztestung für einfache Regressionsanalysen (t-Test)
Die statistischen Tests in Regressionsanalysen der Form
E(Y) = β0+β1X
können sich entweder auf β0 oder auf β1 oder auf beide Parameter zusammen beziehen. Im
allgemeinen interessiert man sich vor allem für den Test der Nullhypothese β1 = 0 gegen die
Alternative β1 ≠ 0. Nur dieser wird hier dargestellt.
Notation:
n
Stichprobenumfang
sxx
syy
sxy
Empirische Varianz von X
Empirische Varianz von Y
Kovarianz von X und Y
RSSQ
Residuale Quadratsumme Σ (yi - y i )2
MRSSQ
mittlere residuale Quadratsumme
^
1/(n-Anzahl alle Modellparameter)*RSSQ
1/(n-2)*RSSQ
43
P.Martus, Multivariate Statistik, SoSe 2009
_
^
SSQ
Quadratsumme des „korrigierten Modells“, Σ( y i - y )2
MSSQ
mittlere Quadratsumme des korrigierten Modells
^
_
1/{Anzahl getestete Modellparameter} * Σ( y i - y )2
^
_
1/{1} * Σ( y i - y )2
Statistischer Raum
^
_
= Σ( y i - y )2
Ω = Rn
P = { Π in=1 [N(β0+β1xi,σ2)] | xi fest, β0, β1 ∈ R, σ2 > 0}
Nullhypothese:
β1 =0
Alternative:
β1 ≠ 0
Prüfgröße
t=
Verteilung der Prüfgröße
unter der Nullhypothese
t-Verteilung mit ν = n-2 Freiheitsgraden
Kritischer Wert
Das T mit
MSSQ
MRSSQ
∫
T
−T
f (t )dt = 0.95 , im Beispiel T = 2.31
Beispiel (Fortsetzung):
Im Beispiel ergibt sich t = √[25.7/(24.2/8.0)] = 2.93.
Wir können also die Nullhypothese ablehnen. Wir haben bewiesen, dass das Ergebnis der
Perimetrie vom Flimmerwert abhängt.
4.15 Schlussbemerkungen
•
•
•
•
Bei zwei Diagnoseverfahren stellt die statistische Signifikanz der Abhängigkeit eine
Minimalforderung dar. Es reicht also nicht, nachzuweisen, dass überhaupt ein
Zusammenhang existiert, sondern es kommt darauf an, wie gut die Vorhersage im
Einzelfall ist.
Der in 4.14 angegebene Ausdruck SSQ muss im allgemeinen durch die Zahl der
getesteten Parameter dividiert werden um MSSQ zu erhalten. Da β0 nicht getestet
wird, sondern nur ein Parameter, β1, ist diese Anzahl = 1 und somit MSSQ = SSQ.
^
Die beobachteten Residuen Yi - Yi sind nicht identisch mit den Fehlertermen der
Modellgleichung εi sondern Schätzungen dieser Fehlerterme. Im Gegensatz zu den
wahren Werten εi haben die beobachteten Residuen nicht konstante Varianz!
Die Meinungen, ob grundsätzlich r oder r2 das „bessere“ Zusammenhangsmaß ist,
gehen auseinander...
44
P.Martus, Multivariate Statistik, SoSe 2009
Teil 5
Multiple lineare Regression
5.0 Vorbemerkung
Im Folgenden werden Vorkenntnisse aus der linearen Algebra vorausgesetzt, wie sie z.B. im
Modul CoMa unterrichtet wurden. Im Einzelnen sollten Sie folgende Begriffe / Methoden
kennen:
Matrix, Vektor, Zeilenvektor, Spaltenvektor, Dimension
Transponierte Matrix
Multiplikation einer Matrix mit einem Vektor
Multiplikation einer Matrix mit einer Matrix
Einheitsmatrix und Inverse Matrix
n-dimensionaler Raum
Basis, rechtwinklig und schiefwinklig
Lineare Unabhängigkeit
Lineare Abbildung
5.1 Beispiel (Fortsetzung des Glaukombeispiels, Berücksichtigung des Alters)
Die Vorhersage des mittleren Defekts der Perimetrie durch den Flimmertest kann eventuell
noch verbessert werden, wenn das Alter der Probanden mit berücksichtigt wird. Die
folgenden Rohdaten wurden aus der Glaukomdatenbank ausgelesen:
Rohdaten:
Nr (=i)
Yi
X1i
X2i
1
6.1
13.2
46
2
9.7
12.5
51
3
4.1
15.5
25
4
8.8
10.1
59
5
4.0
12.5
23
6
7.9
11.9
54
7
7.4
8.9
44
8
6.4
10.2
42
9
10.4
5.4
47
10
10.3
8.3
50
X1: Erlanger Flimmertest
X2: Alter
45
P.Martus, Multivariate Statistik, SoSe 2009
Den Zusammenhang von Alter und Mittlerem Defekt stellt die folgende Grafik dar:
11,00
Mittlerer Defekt [dB]
10,00
9,00
8,00
7,00
6,00
5,00
4,00
20,00
30,00
40,00
50,00
60,00
Alter [Jahre]
Gesucht ist eine lineare Gleichung, dies es erlaubt, den mittleren Defekt aus der Kombination
von Alter und dem Flimmerwert vorherzusagen.
Diese Gleichung erhält man wieder, indem man die Summe der quadrierten Residuen aus
beobachteten und vorhergesagten Werten des MD minimiert:
∑ [ y − (β
i
i
0
+ β1 ⋅ x1i + β 2 ⋅ x 2i )]
2
Mit Hilfe einer Statistiksoftware erhalten wir β0 = 5.92, β1 = -0.36, β2 = -0.36, also das
folgende Ergebnis:
Vorhergesagter MD = 5.92 - 0.36•Flimmerwert + 0.12•Alter.
46
P.Martus, Multivariate Statistik, SoSe 2009
5.2 Grafische Darstellung des Modells mit Kovariaten
1. 3D-Plot
11,00
10,00
9,00
md
8,00
7,00
6,00
5,00
4,00
60,00
50,00
40,00
4,00 6,00
8,00 10,00
30,00
12,0014,00
r
16,00 20,00
lte
a
fli
2. Darstellung der geänderten vorhergesagten Werte im ursprünglichen 2D-Plot
10,00
8,00
6,00
4,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
(___: vorhergesagt aus Flimmern, z: vorhergesagt aus Flimmern und Alter {: beobachtet)
47
P.Martus, Multivariate Statistik, SoSe 2009
3. Darstellung der vorhergesagten und der tatsächlichen Werte:
11,00
10,00
Mittlerer Defekt
9,00
8,00
7,00
6,00
5,00
4,00
3,0
4,0
5,0
6,0
7,0
8,0
9,0
10,0
Vorhergesagter Mittlerer Defekt
5.3 Das Modell der multiplen linearen Regression:
Der hier behandelte Fall ist analog zu 4.1 durch vier Kriterien charakterisiert:
•
•
•
•
Zur Vorhersage von Y werden mehrere Variablen X1, X2, ..., Xk verwendet.
Der Erwartungswert von Y hängt von den Variablen X affin linear und vom Vektor
(β0, β1,..., βk) linear ab, d.h. E(Y|X) = β0+β1X1+β2X2+...+βkXk.
X wird als deterministisch angenommen.
Bei gegebenem Vektor X ist Y normalverteilt mit von x unabhängiger, also
konstanter Varianz σ2.
Insgesamt ergibt sich also die Modellgleichung
Yi = β0+β1Xi1+β2Xi2+...+βkXik + εi
mit εi ~ N(0,σ2)
bzw.
Yi = E(Y|Xi) + εi
mit εi ~ N(0,σ2).
Man beachte, dass wieder σ2 nicht von i abhängt.
48
P.Martus, Multivariate Statistik, SoSe 2009
5.4 Vorbemerkung
Im folgenden Abschnitt werden wir die einfache lineare Regression zur multiplen linearen
Regression verallgemeinern. Dies bedeutet, dass die Werte einer Zufallsvariablen Y jetzt
durch mehrere x-Werte vorhergesagt werden.
Wir werden die Regressionsanalyse unter verschiedenen Blickwinkeln betrachten, nämlich
als:
•
•
•
•
„Lösung“ eines überbestimmten Gleichungssystems
Anwendung der Vektor- und Matrizenrechnung
Anwendung linearer Abbildungen in Vektorräumen
Umsetzung geometrischer Konzepte.
Die notwendigen Vorkenntnisse können z.B. im CoMa-Script nachgelesen werden und
werden hier nur kurz wiederholt.
5.5 Beispiel eines nicht überbestimmten Linearen Gleichungssystems:
2b1 + b2 + b3 = 7
b1 + 2b2 + b3 = 8
b1 + b2 + 2b3 = 9
Die exakte und eindeutige Lösung lautet: b1= 1, b2 = 2, b3 = 3. Numerische
Lösungsalgorithmen sind nicht Bestandteil des Moduls Multivariate Statistik. Der Grund, dass
anstelle der üblichen Bezeichnung „x“ für Unbekannte die Bezeichnung „b“ gewählt wurde
liegt darin, dass in der Statistik „x“ für die (bekannten) Koeffizienten und b (oder β) für die
unbekannten Parameter gewählt wird (s.u.).
5.6 Anwendung der Vektor- und Matrizenrechnung
Das Gleichungssystem lässt sich in Matrizenschreibweise formulieren:
⎛ 7⎞
⎛ b1 ⎞
⎛ 2 1 1⎞
⎜ ⎟
⎟
⎜ ⎟
⎜
b
=
⋅
1
2
1
⎜8⎟
⎟
⎜ 2⎟
⎜
⎜ 9⎟
⎜b ⎟
⎜ 1 1 2⎟
⎝ ⎠
⎠
⎝ 3⎠
⎝
Für jede Zeile der Koeffizientenmatrix (d.h. für jede Einzelgleichung) wird das Skalarprodukt
mit dem Spaltenvektor der Unbekannten berechnet.
Das Gleichungssystem hat also die Form
X • B = Y
mit
⎛2 1 1⎞
⎟
⎜
X = ⎜1 2 1⎟ ,
⎜1 1 2⎟
⎠
⎝
⎛ 7⎞
⎛ b1 ⎞
⎜ ⎟
⎜ ⎟
B = ⎜ b2 ⎟ , Y = ⎜ 8 ⎟
⎜ 9⎟
⎜b ⎟
⎝ ⎠
⎝ 3⎠
49
P.Martus, Multivariate Statistik, SoSe 2009
Für gewöhnliche Zahlen kann man dieses System sofort nach B auflösen:
X • B = Y
X-1 • X • B = X-1 • Y
B = X-1 • Y
weil X-1 • X = 1
Für die Matrixgleichung kann die Lösung genauso erfolgen, wenn man
•
•
eine Matrix „1“ findet, welche die Rolle der Zahl 1 übernimmt (es muss also 1 • X
= X für alle Matrizen X mit „passender“ Dimension gelten).
für die Koeffizientenmatrix X eine Matrix X-1 findet, die X-1 • X = 1 erfüllt.
Aus dem CoMa Modul ist bekannt, dass
die Matrix
⎛1 0 0⎞
⎟
⎜
1 = ⎜ 0 1 0⎟
⎜0 0 1⎟
⎠
⎝
die Rolle der Zahl 1 übernimmt und dass man für bestimmte Matrizen X eine Matrix X-1
finden kann, die X-1 • X = 1 erfüllt.
Methoden zur Berechnung von X-1 sind nicht Bestandteil des Moduls Multivariate Statistik.
Für die Existenz von X-1 müssen die folgenden Kriterien erfüllt sein
•
•
X ist quadratisch (statistisch: die Zahl der Beobachtungen muss gleich der Zahl der
gesuchten Parameter sein).
Die Spalten (äquivalent: Zeilen) von X müssen linear unabhängig (s.u.) sein
(statistisch: Keine Kovariable darf durch die anderen linear und fehlerfrei erklärbar
sein).
5.7 Anwendung linearer Abbildungen in Vektorräumen
Die in 5.6 dargestellte Matrizen-Vektorgleichung lässt sich auch folgendermaßen
interpretieren:
Die Spalten von X stellen eine Basis des R3 dar, die Parameterwerte stellen die Koordinaten
von y als Element „desselben“ R3 in dieser Basisdarstellung dar. Diese Basis ist nicht
unbedingt orthogonal!
50
P.Martus, Multivariate Statistik, SoSe 2009
5.8 Geometrische Darstellung
Im drei-dimensionalen Raum mit dem Koordinatensystem X1, X2, X3 kann man den Punkt Y
durch die Linearkombination β1X1 + β2X2 + β3X3 darstellen. Die Lösungen β1, β2, β3 der
Unbekannten b1, b2, b3 sind also nichts anderes als die Koordinaten des Punktes Y im
Koordinatensystem X1, X2, X3. Durch die lineare Unabhängigkeit der drei Vektoren
(Orthogonalität ist nicht verlangt!) ist für jedes Y eine eindeutige Koordinatendarstellung
berechenbar.
5.9 Erweiterung des Gleichungssystems auf ein Regressionsproblem
Jetzt haben wir im ersten Gleichungssystem pro Gleichung zwei Beobachtungen, in die sich
jeweils ein Fehlerterm von +0.25 bzw. –0.25 eingeschlichen hat.
2b1 + b2 + b3 = 6.75
2b1 + b2 + b3 = 7.25
b1
b1
+ 2b2 + b3 = 7.75
+ 2b2 + b3 = 8.25
b1
b1
+ b2 + 2b3 = 8.75
+ b2 + 2b3 = 9.25
Dieses Gleichungssystem ist nicht mehr lösbar, da sich ja offensichtlich die beiden jeweils
zusammengehörenden Gleichungen widersprechen.
51
P.Martus, Multivariate Statistik, SoSe 2009
Man kann dieses System aber als Regressionsproblem (ohne y-Achsenabschnitt) auffassen:
2 β1
+ 1β 2
+ 1β 3
+ ε1
= 6.75
2 β1
+ 1β 2
+ 1β 3
+ ε2
= 7.25
1β1
+ 2β 2
+ 1β 3
+ ε3
= 7.75
1β1
+ 2β 2
+ 1β 3
+ ε4
= 8.25
1β1
+ 1β 2
+ 2β 3
+ ε5
= 8.75
1β1
+ 1β 2
+ 2β 3
+ ε6
= 9.25
Wie nicht anders zu erwarten, ist die Kleinst-Quadrate Lösung dieses Systems natürlich
ebenfalls
βˆ1 = 1,
βˆ2 = 2, βˆ3 = 3,
weil die Störungen + 0.5 und -0.5 sich jeweils herausheben.
5.10 Darstellung in Matrizenschreibweise
In Matrizenschreibweise ergibt sich
⎛2
⎜
⎜2
⎜1
⎜
⎜1
⎜1
⎜
⎜1
⎝
1 1⎞
⎛ ε1 ⎞
⎛ 6.75 ⎞
⎜ ⎟
⎟
⎜
⎟
ε
1 1⎟
⎜ 2⎟
⎜ 7.25 ⎟
⎛ β1 ⎞
⎜ε ⎟
⎜ 7.75 ⎟
⎜ ⎟
2 1⎟
⎟ ⋅ ⎜ β2 ⎟ + ⎜ 3 ⎟ = ⎜
⎟
2 1⎟
⎜ε 4 ⎟
⎜ 8.25 ⎟
⎜β ⎟
⎝ 3⎠
⎜ε ⎟
⎜ 8.75 ⎟
1 2⎟
⎜ 5⎟
⎟
⎜
⎟
⎜ 9.25 ⎟
⎜ε ⎟
1 2 ⎟⎠
⎝
⎠
⎝ 6⎠
Aus den Koeffizienten des Gleichungssystems ist in der Terminologie der Regression die
Kovariatenmatrix geworden, aus den Unbekannten der Parametervektor (β1, β2, β3)t.
5.11 Ergänzung zur Matrizenrechnung - Pseudoinverse
Für eine Matrix, bei der die Anzahl der Zeilen wie im Abschnitt 5.9 größer ist als die Zahl der
Spalten kann es keine inverse Matrix geben. Wenn A n Zeilen und p Spalten besitzt (n >p),
die p Spalten aber linear unabhängig sind, kann man aber eine p•n Matrix B (p Zeilen, n
Spalten) finden mit und B•A =1p (p Zeilen, p Spalten). Man bezeichnet dann B als
Pseudoinverse von A.
Man kann leicht sehen, dass A•B•A = A•1p = A, was die Bezeichnung Pseudoinverse
rechtfertigt.
52
P.Martus, Multivariate Statistik, SoSe 2009
„B•A=1p“ ist nicht die Definition der Pseudoinversen. Die Definition der Pseudoinversen
lautet:
Jedes B, das erfüllt A•B•A =A ist Pseudoinverse von A. Dieses B ist i.a. nicht eindeutig.
5.12 Bestimmung einer Pseudoinversen von X
Falls X die Dimension n•p hat und n ≠ p ist, also X nicht-quadratisch, kann man zwar das
Produkt X•X nicht bilden aber die Produkte X•Xt und Xt•X (Xt bezeichnet die transponierte
Matrix von X, also diejenige die durch Vertauschung der Zeilen und Spalten von X entsteht).
Die Matrix X•Xt hat Dimension n•n und die Matrix Xt•X hat Dimension p•p
Man kann nun zeigen, dass die lineare Unabhängigkeit der Spalten von X gerade äquivalent
ist dazu, dass die quadratische Matrix Xt•X invertierbar ist, dass also die Gleichung
(Xt•X)-1•(Xt•X) = 1p
sinnvoll ist. Das bedeutet aber nichts anderes, als
[(Xt•X)-1•Xt] • X = 1p
also ist
[(Xt•X)-1•Xt]
eine Pseudoinverse von X.
5.13 Berechnung der Kleinstquadratelösung für β - Normalengleichungen
Man kann zeigen, dass die Kleinstquadratelösung für β mit Hilfe der Pseudoinversen von X
bestimmt werden kann. Die Pseudoinverse spielt für die Regression die gleiche Rolle wie die
Inverse für das exakt lösbare Gleichungssystem (5.6):
β̂ = [(Xt•X)-1•Xt]•Y
Diese Gleichung(en) für βˆ bezeichnet man als Normalengleichungen.
53
P.Martus, Multivariate Statistik, SoSe 2009
5.14 Anwendung linearer Abbildungen
Die Spalten von X, also X1,...,Xp liegen als Vektoren in einem p-dimensionalen Unterraum
UpRn des Rn . Wenn diese Spalten linear unabhängig sind, stellen sie eine Basis dieses
Unterraums dar. Diese Basis ist im allgemeinen nicht rechtwinklig.
Der Vektor Y liegt ebenfalls im Rn, aber nicht im Unterraum UpRn.
Der Vektor der vorhergesagten Werte Yˆ ist die Projektion von Y auf den Unterraum UpRn.
Die Regressionskoeffizienten β̂ sind die Koordinaten von Yˆ bzgl. der Basis X1,...,Xp.
Der Residuenvektor Y - Yˆ ist der Differenzvektor dieser Projektion.
Achtung: Die erste Spalte von X ist üblicherweise konstant 1, sie entspricht dem yAchsenabschnitt der Regression. In statistischer Schreibweise würde man diese Spalte als X0
bezeichnen und die gesamte Notation auf den Vektoren X0, X1, ..., Xp-1 aufbauen. Im
Folgenden werden die betrachteten Modelle immer eine Kovariable enthalten, die konstant 1
ist, außer es wird explizit anders gesagt. Sie wird je nach Zusammenhang mit X0 oder X1
bezeichnet werden.
5.15 Geometrische Darstellung
54
P.Martus, Multivariate Statistik, SoSe 2009
5.16 Anwendung auf das fiktive Regressionsbeispiel 5.9
Das ursprüngliche Gleichungssystem ließ sich mit Hilfe der Inversen X-1 der 3•3
Koeffizientenmatrix lösen
XB = Y → B = X-1Y,
das Regressionsproblem
Xβ + ε = Y
lässt sich analog mit Hilfe der Pseudoinversen (XtX)-1Xt lösen:
β̂ = (XtX)-1XtY
Dabei muss jeweils X (Gleichungssystem) bzw. XtX (Regressionsproblem) invertierbar sein.
Für das Beispiel 5.9 werden die Berechnungen explizit dargestellt:
55
P.Martus, Multivariate Statistik, SoSe 2009
⎛2
⎜
⎜2
⎛2 2 1 1 1 1⎞
⎜1
⎜
⎟
= ⎜1 1 2 2 1 1⎟ ⋅ ⎜
⎜1
⎜1 1 1 1 2 2⎟
⎝
⎠
⎜1
⎜
⎜1
⎝
XtX
(X X )
=
(X X )
t
t
t
−1
−1
⎛ 11 − 5 − 5 ⎞
⎜
⎟
⋅ ⎜ − 5 11 − 5 ⎟
⎜ − 5 − 5 11 ⎟
⎝
⎠
1
32
=
⎛ 11 − 5 − 5 ⎞
⎛ 2 2 1 1 1 1⎞
⎜
⎟
⎜
⎟
⋅ ⎜ − 5 11 − 5 ⎟ ⋅ ⎜ 1 1 2 2 1 1 ⎟
⎜ − 5 − 5 11 ⎟
⎜ 1 1 1 1 2 2⎟
⎝
⎠
⎝
⎠
3 − 1 − 1 − 1 − 1⎞
⎛ 12 12 − 4 − 4 − 4 − 4 ⎞
⎛ 3
⎟ 1 ⎜
⎟
1 ⎜
⋅ ⎜ − 4 − 4 12 12 − 4 − 4 ⎟ = ⋅ ⎜ − 1 − 1 3
3 − 1 − 1⎟
32 ⎜
⎟ 8 ⎜−1 −1 −1 −1 3
3 ⎟⎠
⎝ − 4 − 4 − 4 − 4 12 12 ⎠
⎝
=
(X X )
t
=
X
1
32
1 1⎞
⎟
1 1⎟
⎛12 10 10 ⎞
⎜
⎟
2 1⎟
⎟ = ⎜10 12 10 ⎟
2 1⎟
⎜10 10 12 ⎟
⎝
⎠
1 2⎟
⎟
1 2 ⎟⎠
−1
X tY
=
1
8
⎛ 6.75 ⎞
⎜
⎟
⎜ 7.25 ⎟
−
−
−
−
3
3
1
1
1
1
⎛
⎞
⎜ 7.75 ⎟
⎜
⎟
⎟
⋅ ⎜−1 −1 3
3 − 1 − 1⎟ ⋅ ⎜
⎜ 8.25 ⎟
⎜−1 −1 −1 −1 3
⎟
3⎠
⎝
⎜ 8.75 ⎟
⎜
⎟
⎜ 9.25 ⎟
⎝
⎠
⎛ 3 ⋅ 14 − 16 − 18 ⎞
⎜
⎟
1
⋅ ⎜ − 14 + 3 ⋅ 16 − 18 ⎟ =
8
⎜ − 14 − 16 + 3 ⋅ 18 ⎟
⎝
⎠
⎛8⎞
⎛1⎞
⎜ ⎟
⎜ ⎟
1
⋅ ⎜ 16 ⎟ = ⎜ 2 ⎟
8
⎜ 24 ⎟
⎜ 3⎟
⎝ ⎠
⎝ ⎠
5.17 Bemerkung
Zu finden ist ein Beweis der Formel
βˆ
=
(X X )
t
−1
X tY
z.B. bei Schmidt und Trenkler (Moderne Matrix-Algebra, Springer 1998, S. 200).
Durch Minimierung des Kriteriums
56
P.Martus, Multivariate Statistik, SoSe 2009
∑
X ⋅ βˆ + ε = Y ,
n
i =1
εi2
→
Min
mit Methoden der Differentialrechnung lässt sich zeigen, dass das Minimum angenommen
wird für
X tY
=
X tYˆ
=
(X X )
X t Xβˆ
→
Yˆ
Xβ̂ ,
−1
t
X tY
= βˆ .
Berücksichtigt man die Beziehung
=
so erhält man die Projektionsabbildung von Y auf Yˆ durch Einsetzen in die vorletzte
Gleichung:
(
X XtX
)
−1
X tY
=
Xβˆ
= Yˆ .
Die Projektionsabbildung vom Rn in den UpRn ist also gegeben durch X(XtX)-1Xt für eine
beliebige Basis X1, ..., Xp des UpRn, die die Spalten der Matrix X definiert.
Das Gleichungssystem Xβ
Xβ
= Yˆ lässt sich im Gegensatz zum Gleichungssystem
= Y lösen, weil Ŷ im UpRn liegt.
5.18 Beispiel (Fortsetzung des Glaukombeispiels, Berücksichtigung des Geschlechts)
Als letzte potentielle Kovariable wird jetzt noch das Geschlecht der Probanden für die
Vorhersage des Mittleren Defekts verwendet:
Nr (=i)
Yi
X1i
X2i
X3i
1
6.1
13.2
46
0
2
9.7
12.5
51
1
3
4.1
15.5
25
1
4
8.8
10.1
59
0
5
4.0
12.5
23
1
6
7.9
11.9
54
0
7
7.4
8.9
44
0
8
6.4
10.2
42
0
9
10.4
5.4
47
1
10
10.3
8.3
50
1
X1: Erlanger Flimmertest
X2: Alter
X3: Geschlecht (0 = Männer, 1 = Frauen)
Die Regressionsgleichung lautet:
Vorhergesagter MD = 1.42 - 0.26•Flimmerwert + 0.18•Alter + 2.11•Geschlecht.
bzw. getrennt
für Männer:
Vorhergesagter MD = 1.42 - 0.26•Flimmerwert + 0.18•Alter.
57
P.Martus, Multivariate Statistik, SoSe 2009
für Frauen:
Vorhergesagter MD = 3.53 - 0.26•Flimmerwert + 0.18•Alter.
5.19 Vergleich geometrischer und statistischer Eigenschaften des Linearen Modells
In den folgenden Bemerkungen wird für 11 Eigenschaften des Linearen Modells jeweils die
geometrische der statistischen Sichtweise gegenübergestellt:
A1
Im Rahmen einer Studie werden an n Personen jeweils p Kovariable Xj (j=1,...,p) und
eine Zielgröße Y gemessen.
A2
Sowohl die Kovariablen als auch die Zielgröße liegen als Vektoren im „gleichen“ Rn.
Man kann jede Koordinatenachse mit einer Person identifizieren. Eine bestimmte
Kovariable hat - als Vektor des Rn betrachtet - als Koordinate in der Raumrichtung i
(i=1,...,n) gerade den Wert dieser Kovariablen für die entsprechende Person i.
B1
In den Daten sollte sich nicht eine der Kovariablen deterministisch durch die anderen
vorhersagen lassen.
B2
Die Kovariablenvektoren sollten linear unabhängig sein.
C1
Durch jede mögliche Wahl von Regressionskoeffizienten werden die Kovariablen
unterschiedlich gewichtet aufsummiert. Unter Annahme B führt jede Wahl der Regressionskoeffizienten zu einem anderen Kandidaten für den vorhergesagten Wert von Y.
C2
Die Kovariablen sollten eine Basis eines p-dimensionalen Unterraums des Rn
darstellen. Jeder Punkt in diesem Unterraum UpRn lässt sich dann durch einen
eindeutig bestimmten Koordinatenvektor als Linearkombination dieser Basis
darstellen.
D1
Die Regressionskoeffizienten werden so geschätzt, dass Yˆ nach dem Kleinstquadratekriterium die optimale Annäherung von Y durch eine Kombination der Kovariablen
darstellt.
D2
Yˆ wird aus Y durch die Projektionsabbildung vom Rn in den UpRn erzeugt.
E1
Die Residuen Y - Yˆ sind unkorreliert mit Yˆ .
E2
Der Differenzvektor Y - Yˆ steht senkrecht auf dem Raum UpRn.
F1
Im Regressionmodell ist die Varianz von Y immer gleich der Summe der erklärten
Varianz und der Residualvarianz.
58
P.Martus, Multivariate Statistik, SoSe 2009
F2
Für orthogonale Projektionen gilt immer der Satz des Pythagoras
||Y||2 = ||Y- Yˆ ||2 + || Yˆ ||2 .
G1
Die Kovariablen müssen nicht unbedingt unkorreliert sein.
G2
Die Basis des UpRn muss nicht unbedingt orthogonal sein.
H1
Bei unkorrelierten Kovariablen lässt sich jeder dieser Kovariablen ein bestimmter
Anteil der Varianz zuordnen. Die durch die Variablen insgesamt erklärte Varianz (also
die Varianz von Yˆ ) ist exakt die Summe dieser Anteile.
Bei korrelierten Kovariablen gilt dies nicht mehr.
H2
In orthogonalen Koordinatensystemen gilt der Pythagoräische Lehrsatz, also
2
2
2
Yˆ = βˆ12 X 1 + βˆ22 X 2 + ... + βˆ p2 X p
2
In schiefwinkligen Koordinatensystemen gilt dieser Satz nicht mehr (Man
beachte,dass hier X1 dem y-Achsenabschnitt enstpricht!).
I1
Wenn sich eine Kovariable deterministisch durch die anderen vorhersagen lässt,
verringert sich die „Zahl“ der vorhersagbaren Yˆ -Werte.
Die Regressionskoeffizienten sind dann nicht eindeutig bestimmt.
I2
Wenn die Kovariablenvektoren linear abhängig sind, legen sie einen Unterraum UqRn
des Rn fest. Dieser Unterraum hat eine kleinere Dimension als für linear unabhängige
Kovariablenvektoren, es gilt also q < p.
In diesem Unterraum sind die Kovariablenvektoren keine Basis. Manche Punkte in
diesem Unterraum haben mehrere (unendlich viele) Darstellungen als
Linearkombination dieser Vektoren.
J1
Der Vektor der vorhergesagten Werte, Yˆ , bleibt aber auch im Falle deterministisch
abhängiger Kovariablen eindeutig bestimmt!
Durch Weglassen oder Zusammenfassen überflüssiger Kovariablen lässt sich die
eindeutige Wahl der Regressionskoeffizienten erzwingen.
J2
Dennoch ist das Bild Yˆ der Projektion von Y auf UqRn eindeutig bestimmt. Dieses
Bild ist also eine Eigenschaft des speziellen UqRn , nicht der gewählten Basis oder des
„Erzeugendensystems“ X1,...,Xp.
59
P.Martus, Multivariate Statistik, SoSe 2009
Durch Weglassen oder Zusammenfassen überflüssiger Kovariablenvektoren kann man
eine Basis des UqRn erhalten.
K1
In vielen Anwendungen hat man es zwar nicht mit deterministisch abhängigen
Kovariablen zu tun, aber mit sehr hoch korrelierten („kollinearen“) Kovariablen.
In diesen Fällen wird die Schätzung von Regressionskoeffizienten instabil (nicht aber
die Schätzung von Yˆ !).
K2
Wenn die Basis des UpRn sehr schiefwinklig ist, dann ist die Koordinatendarstellung
einzelner Vektoren numerisch instabil.
60
P.Martus, Multivariate Statistik, SoSe 2009
5.20 Zusammenfassung Vergleich der Eigenschaften der Kovariablen Xi (Spalten der
Übersicht) mit den Eigenschaften der Regression (Zeilen der Übersicht)
falls Xj
deterministisch
abhängig
hoch
korreliert
„moderat“
korreliert
unabhängig
Yˆ eindeutig
ja
ja
ja
ja
Yˆ numerisch
stabil
ja
ja
ja
ja
ja
ja
ja
ja
Yˆ durch X eindeutig
darstellbar
nein
ja
ja
ja
Darstellung von Yˆ numerisch
stabil
nein
nein
ja
ja
Yˆ in βˆ1 x1 , βˆ2 x2 , ..., β̂ p x p
nein
nein
nein
ja
Y orthogonal in
Yˆ
und Y- Yˆ zerlegbar.
orthogonal zerlegbar.
5.21 Die besondere Rolle des Intercepts β0, also der Konstanten der
Regressionsgleichung
1 Dem Intercept entspricht die erste Spalte der Kovariablenmatrix X, die konstante Einträge
1 hat.
2 Auch dem Intercept lässt sich eine Quadratsumme zuordnen. Diese ist jedoch nicht ein
Teil der Quadratsumme
2
∑ ( yi − y )
.
Vielmehr basiert sie auf folgender Zerlegung:
∑y
2
i
= ∑ y + ∑ ( yi − y ) 2 = n • y 2 + ∑ ( yi − y ) 2
2
Mit anderen Worten: Die Summe der Abweichungsquadrate lässt sich ergänzen zur
2
Gesamtsumme der Quadrate ∑ y i durch die „Summe“ n • y 2 .
3 Im allgemeinen wird dieser „Schritt Null“ der Quadratsummenzerlegung „stillschweigend“ vorgeschaltet (und in der Ausgabe von Statistiksoftware manchmal weggelassen)
und nur das „korrigierte“ Modell auf Basis der Abweichungsquadrate analysiert.
4 Insbesondere wird man für Kovariablen, die mit dem Intercept korrelieren, niemals zuerst
den Quadratsummenanteil der Kovariablen und dann denjenigen des Intercepts betrachten.
Man geht immer umgekehrt vor.
61
P.Martus, Multivariate Statistik, SoSe 2009
5.23 Die Varianzzerlegung im Glaukombeispiel
Für das Glaukombeispiel lässt sich folgende Zerlegung der Quadratsummen angeben:
A Zerlegung der Quadratsumme der Beobachtungen
∑Y
2
i
nY
2
∑(y
=10•7.512=10*56.4
i
− y )2
=
613.93
=
564.00
=
49.93
B Zerlegung der Abweichungsquadrate in Regression und Residuen
∑(y
i
− y )2
=
49.93
∑( y
i
− yˆ i ) 2
=
0.78
∑ ( yˆ
i
− y)2
=
49.15
C Zerlegung der Regressionsabweichungsquadrate?
Modell mit
Modell mit
Modell mit
Modell mit
Flimmertest
+ Alter
+ Geschlecht
=
=
=
25.73
40.75
49.15
15.02
08.40
Flimmertest
+ Geschlecht
+ Alter
=
=
=
25.73
26.07
49.15
00.34
23.08
Geschlecht
+ Alter
+ Flimmertest
=
=
=
00.36
45.47
49.15
45.11
03.68
Alter
+ Geschlecht
+ Flimmertest
=
=
=
33.17
45.47
49.15
12.30
03.68
Die Zerlegung der Regressionsabweichungsquadrate hängt von der Reihenfolge ab, in der die
Variablen ins Modell eingebracht werden. Somit lässt sich die Gesamtsumme nicht sinnvoll
auf die einzelnen Kovariablen verteilen.
Der Grund liegt darin, dass die drei Kovariablen korreliert sind. Bei unabhängigen
Kovariablen (orthogonaler Basis) wäre dies möglich.
62
P.Martus, Multivariate Statistik, SoSe 2009
Die Korrelationsmatrix von Geschlecht, Alter und Flimmertest lautet
Geschlecht
Alter
Fli mmertest
Geschlecht
1
− 0.44
− 0.004
Alter
Fli mmertest
− 0.44
− 0.004
1
− 0.45
− 0.45
1
In der Tat kommt es bei den Modellen mit Flimmertest und Geschlecht (ohne Alter) nicht auf
die Reihenfolge der Variablen an:
Modell mit
Modell mit
Flimmertest
+ Geschlecht
=
=
25.73
26.07
00.34
Geschlecht
+ Flimmertest
=
=
00.36
26.07
25.71
Dagegen kommt es bei Alter und Geschlecht sehr wohl auf die Reihenfolge an:
63
P.Martus, Multivariate Statistik, SoSe 2009
5.24 Ein Beispiel für mehrkategorielle Kovariablen
In einer Studie wurden drei unterschiedliche Genotypen von Weihnachtsgänsen (benannt nach
ihren Herkunftsstaaten (Georgia, Virginia und Wisconsin)
Rohdaten zum Weihnachtsgansbeispiel
(Draper und Smith, 1998, S.302)
Tier
Nr
Alter
[Wochen]
Gewicht
[Pfund]
Bundesstaat
1
2
3
4
5
6
7
8
9
10
11
12
13
28
20
32
22
29
27
28
26
21
27
29
23
25
13.3
8.9
15.1
10.4
13.1
12.4
13.2
11.8
11.5
14.2
15.4
13.1
13.8
G
G
G
G
V
V
V
V
W
W
W
W
W
Fragestellungen
•
•
•
Ist der Zusammenhang zwischen Alter und Gewicht linear ?
Sind die Regressionsgleichungen in den drei Staaten identisch ?
Falls nicht, unterscheiden sich y-Achsenabschnitt, Steigung oder beides ?
Einfachstes Herangehen:
Jeweils eine Regressionsanalyse für alle Gänse und getrennt nach Bundesstaaten.
ŷ = -0.98 + 0.51 • X Georgia
ŷ = -0.30 + 0.47 • X Virginia
ŷ = +2.48 + 0.45 • X Wisconsin
Alter und Gewicht von
W eihnachtsgänsen aus drei Bundesstaaten
16
15
14
Gewicht [Pfund]
•
13
Heimat
12
11
Wiscons
10
Virginia
9
Georgia
8
18
Gesamt
20
22
24
26
28
Alter [Wochen]
30
32
34
64
P.Martus, Multivariate Statistik, SoSe 2009
Ergebnis:
Nach den Graphiken sind alle drei Regressionsgeraden parallel (identische Steigung), aber
offensichtlich ist der y-Achsenabschnitt bei Wisconsin größer als in Georgia und Virginia.
5.25 Darstellung als multivariates Regressionsmodell
Wenn es nur zwei genetische Varianten der Weihnachtsgänse gäbe, z.B. Georgia und
Virginia, könnte man diese modellieren, wie beim Glaukombeispiel das Geschlecht:
Yi = β0+β1Xi1+β2Xi2 + εi
mit εi ~ N(0,σ2)
Dabei wäre X1 das Alter und z.B. X2 = 0 für Georgia und X2 = 1 für Virginia.
Wie lassen sich die drei Genotypen modellieren ???
Lösung:
Für die drei Gruppen werden zwei Kovariablen, X2a und X2b benötigt!
Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi
mit εi ~ N(0,σ2)
Mögliche Codierung:
X2a
X2b
Georgia
1
0
Virginia
0
1
Wisconsin
0
0
Diese Codierung heißt Dummy-Codierung, Wisconsin wird als „Referenzkategorie“
bezeichnet. Man könnte genausogut Virginia oder Georgia als Referenzkategorie wählen.
Parameterinterpretation:
β0
Intercept für die Regression nur in Wisconsin
β1
Gemeinsame Steigung des Alters für alle Genotypen
β2a
Differenz der Intercepts Georgia minus Wisconsin
β2b
Differenz der Intercepts Virginia minus Wisconsin
65
P.Martus, Multivariate Statistik, SoSe 2009
5.26 Analyse der Daten mit Hilfe von Dummycodierungen
Die in 5.25 vorgeschlagene Dummycodierung führt zu den folgenden Variablen:
Tier
Nr
Alter
[Wochen]
Gewicht
[Pfund]
Bundesstaat
X2a
X2b
1
2
3
4
5
6
7
8
9
10
11
12
13
28
20
32
22
29
27
28
26
21
27
29
23
25
13.3
8.9
15.1
10.4
13.1
12.4
13.2
11.8
11.5
14.2
15.4
13.1
13.8
G
G
G
G
V
V
V
V
W
W
W
W
W
1
0
1
0
1
0
1
0
0
1
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
Die Analyse wird zunächst in zwei Schritten durchgeführt:
Analyse 1: Lineares Regressionsmodell mit der Kovariable Alter
Yi = β0+β1Xi1 + εi
Gewicht = 1.98 + 0.42•Alter + ε
Quadratsumme korrigiert für Intercept:
Regression (Alter):
Residuen
39.42
26.20
13.22
Analyse 2: Lineares Regressionsmodell mit den Kovariablen Alter und Bundesstaat
Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi
Yi = 1.43+0.49•Alter-1.92•Xi2a-2.19•Xi2b + εi
Gewicht
Gewicht
Gewicht
=
=
=
-0.49 + 0.49•Alter + ε
-0.76 + 0.49•Alter + ε
1.43 + 0.49•Alter + ε
Quadratsumme korrigiert für Intercept:
Regression (Alter, Staat):
Residuen
mit εi ~ N(0,σ2)
mit εi ~ N(0,σ2)
Georgia
Virginia
Wisconsin
39.42
38.61
00.81
66
P.Martus, Multivariate Statistik, SoSe 2009
Eine alternative Dummycodierung würde Victoria zur Referenzkategorie machen:
Tier
Nr
Bundesstaat
X2a
X2b
1
2
3
4
5
6
7
8
9
10
11
12
13
G
G
G
G
V
V
V
V
W
W
W
W
W
1
0
1
0
1
0
1
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
1
0
1
Aus den Ergebnissen der ersten Berechnung lassen sich sofort die Modellgleichung und die
Varianzzerlegung ableiten:
Yi = -0.76+0.49•Alter+0.27•Xi2a+2.19•Xi2b + εi
Quadratsumme korrigiert für Intercept:
Regression (Alter, Staat):
Residuen
mit εi ~ N(0,σ2)
39.42
38.61
00.81
Durch Einsetzen ergeben sich dieselben Gleichungen für die verschiedenen Bundesstaaten:
Gewicht
Gewicht
Gewicht
=
=
=
-0.49 + 0.49•Alter + ε
-0.76 + 0.49•Alter + ε
1.43 + 0.49•Alter + ε
Georgia
Virginia
Wisconsin
5.27 Analyse der Daten mit Hilfe von Dummycodierungen und Wechselwirkungen
Im bisherigen Modell haben wir für die Bundesstaaten zwar unterschiedliche Intercepts aber
nur identische Steigungen zugelassen. Ein Vergleich der Modellgleichungen aus 5.26 mit
denjenigen aus 5.24 zeigt diesen Unterschied. Wir müssen also eine Codierung (= die Basis
eines p-dimensionalen Unterraums) finden, die es erlaubt, unterschiedliche Steigungen
zuzulassen.
Schritt 1: Bestimmung der Dimension p des Spaltenraums der Kovariaten
In den drei Gleichungen
ŷ
ŷ
ŷ
=
=
=
-0.98 + 0.51 • X
-0.30 + 0.47 • X
+2.48 + 0.45 • X
Georgia
Virginia
Wisconsin
werden insgesamt 6 Parameter verwendet, im Modell
Yi = -0.76+0.49•Alter+0.27•Xi2a+2.19•Xi2b + εi
mit εi ~ N(0,σ2)
aus Abschnitt 25.26 werden 4 Parameter verwendet, sodass insgesamt noch zwei Parameter
frei sind.
Diese zusätzlichen zwei Parameter werden durch Aufnahme der „Wechselwirkung“ aus
Bundesstaat und Alter ins Modell aufgenommen:
67
P.Martus, Multivariate Statistik, SoSe 2009
Yi = β0 + β1Xi1 + β2aXi2a + β2bXi2b + β12a Xi1Xi2a + β12bXi1Xi2b + εi
mit εi ~ N(0,σ2)
Parameterinterpretation:
β1 gibt jetzt die Steigung des Alters im Modell nur für Wisconsin an (in gleicher Weise steht
ja β0 für den Intercept in Wisconsin). β12a gibt den Unterschied der Steigung des Alters
zwischen Georgia und Wisconsin an, β12b den Unterschied zwischen Virginia und Wisconsin
an (in gleicher Weise stehen β2a und β2b für den Unterschied der Intercepts von Georgia und
Virginia gegenüber Wisconsin).
Allgemein spricht man von „Wechselwirkung“, wenn der Parameter für eine Variable (Alter)
vom Parameterwert der anderen Variable (Bundesstaat) abhängt. Wechselwirkungen kann
man immer wie in unserem Beispiel durch Produkte von Kovariablen darstellen. Dies gilt
insbesondere auch für stetige Kovariablen X1 und X2 , deren Wechselwirkung man durch das
Produkt X1•X2 codiert.
Es ergeben sich die folgenden Parameterschätzungen:
Yi = 2.48+0.45•Alter-3.45Xi2a-2.78Xi2b + 0.061Xi1Xi2a + 0.025 Xi1Xi2b + εi
Dies ist (bis auf Rundungsfehler) gleichbedeutend mit den Gleichungen aus 5.24
ŷ
ŷ
ŷ
=
=
=
-0.98 + 0.51 • X
-0.30 + 0.47 • X
+2.48 + 0.45 • X
Georgia
Virginia
Wisconsin
Die Varianzzerlegung lautet nun
Quadratsumme korrigiert für Intercept:
39.42
Regression (Alter, Staat,Wechselwirkung): 38.71
Residuen
00.71
Gegenüber dem Modell ohne Wechselwirkung
Quadratsumme korrigiert für Intercept:
Regression (Alter, Staat):
Residuen
39.42
38.61
00.81
hat sich also nur eine sehr geringfügige Verbesserung ergeben.
5.28 Wechselwirkungen von mehrkategoriellen Kovariaten
Die Wechselwirkung zwischen einer stetigen Kovariablen und einer mehrkategoriellen
Kovariable modelliert man also durch die Produkte der stetigen Kovariable mit allen
Dummyvariablen der kategoriellen Kovariable, in unserem Fall also X1X2a und X1X2b.
Die Wechselwirkung von zwei kategoriellen Kovariablen mit k1 und k2 Kategorien und damit
k1-1 bzw. k2-1 Dummyvariablen wird durch (k1-1) •(k2-1) Produktvariablen und der gleichen
Zahl von Parametern codiert.
68
P.Martus, Multivariate Statistik, SoSe 2009
5.29 Vorbemerkungen zum Testen in der Regressionsanalyse
Wir haben noch immer keinen Test zur Verfügung, der es uns erlaubt, zu entscheiden,
welche Kovariablen oder Wechselwirkungen wir in unser lineares Modell aufnehmen sollten.
Im Beispiel der Weihnachtsgänse würden wir z.B. gerne zeigen, dass es überflüssig ist,
unterschiedliche Steigungen in den drei Bundesstaaten anzunehmen.
In den folgenden Abschnitten werden wir untersuchen, wie man einzelne Parameter oder
Gruppen von Parametern der linearen Regression auf Signifikanz (also i.a. auf
Verschiedenheit von 0) testen kann. Der Test basiert auf dem Quotienten von zwei
Quadratsummen: Derjenigen, die der Kovariablen zugeordnet ist und derjenigen, die den
Residuen zugeordnet ist.
Hierfür sind zunächst einige Vorüberlegungen nötig. Im Abschnitt 5.30 stellen wir aus
statistischer und geometrischer Sicht die Annahmen dar, die zur Entwicklung eines Tests für
Regressionskoeffizienten führen. In Abschnitt 5.31 zeigen wir, wie sich die Fehlervarianz σ2
aus den Daten schätzen lässt. In Abschnitt 5.32 definieren wir den bisher etwas unscharf
verwendeten Begriff der Freiheitsgrade, in Abschnitt 5.33 können wir, basierend auf dem
Begriff der Freiheitsgrade, die Verteilung der Quadratsummen angeben.
Schließlich wird in Abschnitt 5.34 der F-Test für Quotienten von Quadratsummen dargestellt,
der das gewünschte leistet: Mit Hilfe des F-Tests lassen sich einzelne Parameter oder ganze
Gruppen von Parametern bzw. ganze Teilmodelle testen.
5.30 Vorbemerkungen zum Test einzelner Parameter in der Regressionsanalyse
Wir betrachten noch einmal das lineare Modell
Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi
mit εi ~ N(0,σ2)
In geometrischer Interpretation wird jeder Kovariablen Xj (und auch dem Intercept) eine
Raumrichtung des p-dimensionalen Unterraums UpRn zugeordnet .
Man könnte auch sagen, dass jedem Parameter eine Raumrichtung zugeordnet wird, um
Missverständnisse für mehrkategoriellen Kovariablen zu vermeiden: Hier entstehen aus einer
Kovariable mehrere Dummy-Variablen und die Zahl der Raumrichtungen ist gleich der Zahl
der Dummy-Variablen, also gleich der Zahl der zu schätzenden Parameter. Wenn wir in
Zukunft über die Anzahl von Kovariablen sprechen, zählen wir im mehrkategoriellen Fall
jede Dummyvariable einzeln.
Die Länge des Vektors βjXj entspricht dabei der „Bedeutung“ der Kovariablen Xj für Y in der
Regressionsanalyse (diese Länge hängt nicht von der Skalierung von Xj ab).
Wenn eine Kovariable Xj eigentlich keine Information über die Zielgröße Y enthält, wäre es
dennoch unwahrscheinlich, dass der zugehörige Regressionskoeffizient βj exakt gleich Null
geschätzt wird. Er wird durch zufällige Schwankungen in der Stichprobe positiv oder negativ
geschätzt werden.
Genau wie bei den elementaren statistischen Tests wird jetzt wieder die Frage gestellt: Ist der
geschätzte Regressionskoeffizient noch im Bereich der Zufallsschwankung oder ist er so
69
P.Martus, Multivariate Statistik, SoSe 2009
deutlich von Null verschieden, dass ein tatsächlicher Einfluss auf Y angenommen werden
darf?
Um zu einem Test für den Regressionskoeffizienten zu kommen, müssen wir die
Zufallsschwankung von β̂ j unter der Annahme, dass Xj keinen Einfluss hat, untersuchen.
(Für eine Fallzahlschätzung müssten wir zusätzlich die Zufallsschwankung von β̂ j
untersuchen, unter der Annahme, dass Xj einen bestimmten Einfluss hat, also βj „in Wahrheit“
einen bestimmten Wert ≠ 0 hat).
Die Wahrscheinlichkeitsverteilung der Länge von β̂ j X j hängt von der Fehlerstreuung ε ~
N(0,σ2) ab, also vom Parameter σ2.
Fundamental ist nun der folgende Sachverhalt:
Unter der Nullhypothese
βj = 0, d.h. „Y lässt sich nicht aus Xj prognostizieren“,
ist βˆ j / (( X t X ) −1 ) jj N(0,σ2)-verteilt (Im Falle orthogonaler Kovariablen entspricht
βˆ j / (( X t X ) −1 ) jj gerade der signierten Länge des Vektors β̂ j X j , d.h. β̂ j X j .).
Wir benötigen also lediglich eine Schätzung für σ, dann können wir den Einfluss von Xj mit
dem t-Test überprüfen.
In 5.34 werden wir sogar allgemeiner lernen, wie man Gruppen von Parametern als Ganzes
testet. Dies ist entscheidend, wenn wir kategorielle Kovariable mit mehr als einer Kategorie
testen wollen.
Die quadrierte Länge des standardisierten Vektors Xβˆ / σ ist Chi-Quadrat verteilt.
Im Falle orthogonaler Kovariablen ist dies eine einfache Konsequenz des oben genannten
Sachverhaltes.
5.31 Die Schätzung der Fehlervarianz σ2.
Die Varianz einer Stichprobe lässt sich bekanntlich durch
s2 =
_
n ⎛
1
⎞
y
y
−
⎜
⎟
∑
i
n − 1 i =1 ⎝
⎠
2
schätzen. Dies ist zugleich die Schätzung der Fehlervarianz σ2 im einfachsten linearen Modell
Yi = β0 + εi
mit εi ~ N(0,σ2),
_
denn β0 würde ja gerade als Mittelwert der Stichprobe, also als y geschätzt. Ganz analog wird
nun die Fehlervarianz im allgemeinen Regressionsmodell
Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi
mit εi ~ N(0,σ2)
70
P.Martus, Multivariate Statistik, SoSe 2009
geschätzt:
σˆ 2 =
( (
n
1
yi − βˆ 0 + βˆ 1X i1 + βˆ 2 X i2 + ... + βˆ p −1X ip −1
∑
i =1
n−p
))
2
.
Der einzige Unterschied ist, dass die Quadratsumme aufgrund der höheren Zahl von
Parametern nicht mehr mit 1/(n-1) sondern mit 1/(n-p) multipliziert werden muss (vgl. 4.14,
dort war p = 2).
Die Quadratsumme wird auch mit RSSQ (residual sum of squares) bezeichnet.
Die tatsächliche Schätzung der Fehlervarianz hängt davon ab, welche Kovariablen ins Modell
mit aufgenommen wurden. Im allgemeinen wird sie bei Aufnahme zusätzlicher Kovariablen
geringer. Bei Aufnahme überflüssiger Kovariablen kann sie (im Gegensatz zur Fehlerquadratsumme) dagegen auch anwachsen.
Im Beispiel 5.24 ergeben sich die folgenden Fehlervarianzschätzungen
RSSQ
n-p
σˆ 2
Modell nur mit Alter
(und Intercept)
13.22
13-2=11
1.20
Modell mit Alter und Staat
00.81
13-4=9 0.09
Modell mit Alter, Staat
und Wechselwirkung
00.71
13-6=7 0.10
5.32 Freiheitsgrade im allgemeinen linearen Modell
Im ALM bezeichnet man die Zahl der unabhängigen Beobachtungen (also die Dimension des
Personenraums) auch als Freiheitsgrade. Eine Stichprobe vom Umfang n hat also n Freiheitsgrade. Allgemeiner bezeichnet man auch die Dimension von Teilräumen als Freiheitsgrade.
Jeder in ein Modell aufgenommenen Kovariable wird eine Raumrichtung und somit ein
Freiheitsgrad zugeordnet. Dies bedeutet insbesondere
Intercept
1 Freiheitsgrad
stetige Kovariablen
1 Freiheitsgrad
kategorielle Kovariable mit k Kategorien
k-1 Freiheitsgrade
Wechselwirkungen
stetiger mit stetigen Kovariablen
1 Freiheitsgrad
stetiger mit kategoriellen Kovariablen
k-1 Freiheitsgrade
kategorieller mit kategoriellen Kovariablen
(k1-1)•(k2-1) Freiheitsgrade
71
P.Martus, Multivariate Statistik, SoSe 2009
Bei einem Modell mit p Parametern bilden die verbliebenen Raumrichtungen (= Residuen)
einen n-p-dimensionalen Raum. Diesem Raum werden entsprechend n-p Freiheitsgrade
zugeordnet
Residuen
n-p Freiheitsgrade
Aus den Residuen wird der Parameter σ2 geschätzt. Man sagt deswegen auch, dass die
Schätzung von σ2 mit n-p Freiheitsgraden erfolgt.
Im Beispiel ergibt sich:
Alter
1 Freiheitsgrad
Staat
2 Freiheitsgrade
Wechselwirkung Alter Staat
2 Freiheitsgrade
5.33 Verteilung der Quadratsummen im allgemeinen linearen Modell
Sollen Gruppen von Parametern getestet werden, muss man berücksichtigen, dass die Länge
eines Vektors, der durch Kombination mehrerer Raumrichtungen entsteht, nicht mehr
normalverteilt ist.
Man kann aber zeigen, dass die quadrierte standardisierte Länge eines Vektors
(β1X1+β2X2+... + βkXk)/σ,
der durch Kombination von k Raumrichtungen entsteht wie die Summe von k unabhängigen
Chi-Quadrat verteilten Zufallsvariablen verteilt ist. Die Summe von k unabhängigen ChiQuadrat verteilten Zufallsvariablen ist aber Chi-Quadrat verteilt mit k Freiheitsgraden.
Insbesondere ist also der quadrierte standardisierte Residuenvektor Chi-Quadrat verteilt mit np Freiheitsgraden.
Die quadrierte Länge eines Vektors ist aber nichts anderes, als die dem Vektor zugeordnete
Quadratsumme. Somit ist die quadrierte standardisierte Länge eines Vektors die zugehörige
Quadratsumme dividiert durch σ2.
Wir können jetzt also jeder standardisierten Quadratsumme eine Chi-Quadrat Verteilung
zuordnen. Für die Freiheitsgrade ergibt sich ganz analog zu 5.32
Intercept
stetige Kovariablen
kategorielle Kovariable mit k Kategorien
Wechselwirkungen
stetiger mit stetigen Kovariablen
stetiger mit kategoriellen Kovariablen
kategorieller mit kategoriellen Kovariablen
1 Freiheitsgrad
1 Freiheitsgrad
k-1 Freiheitsgrade
1 Freiheitsgrad
k-1 Freiheitsgrade
(k1-1)•(k2-1) Freiheitsgrade
Residuen
n-p Freiheitsgrade
72
P.Martus, Multivariate Statistik, SoSe 2009
Insbesondere wissen wir aber auch, dass Quadratsummen aus Teilmodellen Chi-Quadrat
verteilt sind.
Wir bezeichnen die einer Kovariable X zugeordnete Quadratsumme mit
n
n
i =1
i =1
SSQ( X ) = ∑ ( βˆX i ) 2 bzw. SSQ( X ) = ∑ (Y − βˆ0 − βˆX i ) 2 ,
falls (stillschweigend) auch ein Intercept mit ins Modell aufgenommen wurde (siehe
Bemerkung 5.37).
Analog gilt für die einer Gruppe X1, X2, ... , Xk von Kovariablen zugeordnete Quadratsumme
mit
n
n
i =1
i =1
SSQ( X ) = ∑ ( βˆ1 X i1 + ... + βˆk X ik ) 2 bzw. SSQ( X ) = ∑ (Y − βˆ0 − βˆ1 X i1 + ... + βˆk X ik ) 2 .
Im Beispiel (mit Intercept) erhalten wir also
SSQ(Alter)
=
26.20
1 Freiheitsgrad
SSQ(Alter, Staat)
=
38.61
3 Freiheitsgrade
SSQ(Alter, Staat, Wewi)
=
38.71
5 Freiheitsgrade
Unter der Nullhypothese sind die Quotienten aus Quadratsummen und σ2 Chi-Quadrat verteilt
mit der entsprechenden Zahl von Freiheitsgraden. Bei bekanntem σ2 könnte man den
Quotienten SSQ/σ2 mit einem Chi-Quadrat Test auf Signifikanz prüfen.
Da die Fehlervarianz σ2 aus den Daten geschätzt wird, wäre dieser Test aber nicht korrekt.
(dies entspricht der Situation bei z-Test (3.3) und t-Test (3.4)).
Man kann aber die Verteilung des Quotienten aus (1/Freiheitsgrade)•SSQ und σˆ 2 bestimmen
und zeigen, dass diese Verteilung nur von der Zahl der Beobachtungen und der Zahl
Freiheitsgrade des Modells abhängt. Entscheidend ist, dass als Zufallsgrößen SSQ und
σˆ 2 unabhängig sind.
5.34 Die F-Verteilung
Es seien U und V unabhängige Chi-Quadrat verteilte Zufallsvariablen mit dfu und dfv
Freiheitsgraden. Dann heißt die Verteilung des Quotienten
U
df u
V
df v
73
P.Martus, Multivariate Statistik, SoSe 2009
F-Verteilung mit dfu Zählerfreiheitsgraden und dfv Nennerfreiheitsgraden oder kürzer mit dfu
und dfv Freiheitsgraden.
5.35 Die Anwendung der F-Verteilung für Tests in Regressionsmodellen
Zurück zur Frage: Ist die Länge von βjXj durch Zufall erklärbar oder nicht? Wir wissen, dass
die quadrierte standardisierte Länge dieses Vektors unter der Nullhypothese βj=0 Chi-Quadrat
verteilt ist. Unter der Alternative βj≠0 erwarten wir natürlich eine größere Länge von βjXj.
Für ein Modell mit Intercept, p-1 Kovariablen und n Beobachtungen wissen wir, dass
RSSQ/ σˆ 2 Chi-Quadrat verteilt mit n-p Freiheitsgraden
und
SSQ(Modell) / σˆ 2 Chi-Quadrat verteilt mit p-1 Freiheitsgraden ist
(1 Freiheitsgrad „verschwindet“ für den Intercept, der nicht mitgetestet werden soll).
Somit ist der Quotient
SSQ ( Modell )
σˆ 2
RSSQ
σˆ 2
=
SSQ ( Modell )
RSSQ
unter der Nullhypothese (β1=0, β2=0 ... βp-1=0) Quotient zweier Chiquadratverteilungen mit p1 bzw. n-p Freiheitsgraden. Für den Test eines Parameters βj mit Nullhypothese βj=0, ist p-1
= 1.
Aus 5.34 folgt, dass der Quotient
F
=
SSQ ( Modell )
p −1
RSSQ
n− p
unter der Nullhypothese F-verteilt mit p-1 bzw. n-p Freiheitsgraden ist.
Unter der Alternative, dass wenigstens ein βj ≠ 0 ist, wird ein größerer Wert von F erwartet,
weil ja SSQ(Modell) dann über die Zufallsschwankung hinausgeht.
Die Ausdrücke SSQ/(p-1) und RSSQ/(n-p) bezeichnet man auch als MSQ, wenn klar ist auf
welche Quadratsumme sie sich beziehen.
74
P.Martus, Multivariate Statistik, SoSe 2009
Daraus folgt, dass man für einen Test mit Signifikanzniveau α das 1-α Quantil der jeweiligen
F-Verteilung bestimmen muss und der F-Wert aus der Stichprobe mindestens so groß wie
dieses Quantil sein muss, um ein signifikantes Ergebnis zu erhalten.
75
P.Martus, Multivariate Statistik, SoSe 2009
Im Beispiel erhalten wir für das Modell mit
SSQ
MSQ
RSSQ
R-MSQ
F
p
Alter
26.20
26.20
13.22
1.20
021
0.001
Alter, Staat
38.61
12.87
00.81
0.09
142
<0.001
Alter, Staat
Wewi
38.71
07.74
00.71
0.10
076
<0.001
5.36 Der partielle F-Test in Regressionsmodellen
In den in 5.35 dargestellten Modelle waren alle F-Tests signifikant, also auch derjenige für
das Modell mit Alter, Staat und Wechselwirkung. Dennoch „sehen“ wir, dass die
Wechselwirkung vermutlich nichts zum Modell beiträgt.
Was wir benötigen ist ein schrittweiser Ansatz beim Testen. Im Beispiel betrachten wir die
zwei Modelle
Alter, Staat
Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi
mit εi ~ N(0,σ2)
und
Alter, Staat Wechselwirkung
Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + β12a Xi1Xi2a + β12bXi1Xi2b + εi mit εi ~ N(0,σ2)
mit Quadratsummen 38.61 und 38.71.
Man kann zeigen, dass die Differenzquadratsumme mit den gleichen Methoden getestet
werden kann, wie gesamte Modellquadratsummen. Allgemein gilt:
Für zwei Regressionsmodelle
Yi = β0+β1Xi1+...+βpXip + εi
und
Yi = β0+β1Xi1+...+βpXip +βp+1Xip+1 + ... + βp+kXip+k + εi
ist die „standardisierte“ Differenz der Quadratsummen
(SSQ(X1,..., Xp+k) - SSQ(X1,..., Xp)) / σˆ 2
Chi-Quadrat verteilt mit k Freiheitsgraden. Weiterhin ist diese Differenz unabhängig von der
Fehlerquadratsumme des größeren Modells.
76
P.Martus, Multivariate Statistik, SoSe 2009
Aus 5.34 und 5.35 folgt somit die Definition des partiellen F-Tests. Der Quotient
F
=
SSQ( Modell 2) − SSQ( Modell 1)
k
RSSQ
n − p − k −1
ist unter der Nullhypothese F-verteilt mit k bzw. n-p-k Freiheitsgraden.
Die Nullhypothese lautet in diesem Fall:
Nur die Kovariablen aus Modell 1 sind notwendig zur Prädiktion von Y, die Erweiterung auf
Modell 2 ist nicht nötig.
Die Alternative lautet:
Außer den Kovariablen von Modell 1 steuert noch wenigstens eine der Kovariablen
Xp+1,...,Xp+k Information zur Prädiktion von Y bei.
Im Beispiel ergibt sich:
F = [(38.71-38.61)/2]/ [(0.71)/7] = 1.
Man erhält als zugehörigen p-Wert = 0.59. Somit weiß man, dass die Wechselwirkung
tatsächlich nicht in das Modell mit aufgenommen werden muss.
5.37 Bemerkung zum Intercept
Eigentlich sind alle F-Tests die wir durchführen partielle F-Tests, wenn der Intercept
„stillschweigend“ vorab ins Modell mit aufgenommen wird.
5.38 Partielle F-Tests und schrittweise Modellbildung
Wir wissen, dass die einer einzelnen Kovariablen oder einer Gruppe von Kovariablen
zugeordnete Quadratsumme von der Reihenfolge abhängt, in der die Variablen ins Modell
aufgenommen werden (vgl. 5.23).
Offenbar hängt damit auch das Ergebnis der partiellen F-Tests für einzelne Variablen von der
Reihenfolge ab, in der diese Variablen betrachtet werden.
Theoretisch könnte man im Beispiel ein Modell nur mit Intercept und der Wechselwirkung
berechnen:
Yi = β0 + β12a Xi1Xi2a + β12bXi1Xi2b + εi
mit εi ~ N(0,σ2)
oder evtl. sogar auf den Intercept verzichten
Yi =
β12a Xi1Xi2a + β12bXi1Xi2b + εi
mit εi ~ N(0,σ2)
77
P.Martus, Multivariate Statistik, SoSe 2009
Diese Modelle wären sehr unsinnig, da sie ja unterstellen, dass in der Referenzkategorie
(Wisconsin) keine Altersabhängigkeit des Gewichts vorliegt. Das zweite Modell wäre
übrigens signifikant, das erste nicht.
Nicht für alle Konstellationen ist es aber völlig klar, wie die Reihenfolge der Variablen zu
wählen ist.
Grundsätzlich verwendet man folgende Regeln für die Reihenfolge von Kovariaten
1.
Wenn nicht zwingende Gründe dagegen sprechen, wird als erstes immer der Intercept
ins Modell aufgenommen.
2.
Kovariablen sollten in der Reihenfolge ihrer Bedeutung, also z.B. der zugeordneten
Quadratsummen ins Modell aufgenommen werden.
3.
Wechselwirkungen sollten erst im Anschluss an die Einzelkovariablen ins Modell
aufgenommen werden.
In unserem Beispiel würde die Anwendung von Regeln 1 und 2 den Ausschluss der
Wechselwirkung bedeuten. In den Übungen werden Sie jedoch ein „Konkurrenzmodell“ für
diese Daten kennenlernen, das eine echte Alternative zum hier favorisierten Modell darstellt.
Dieses Modell verwendet die Annahme, dass das Gewicht der Weihnachtsgänse zum
Zeitpunkt Null praktisch gleich Null ist.
5.39 Variablenselektion
In zahlreichen Anwendungen der Bioinformatik stehen sehr viele Kovariablen zur Verfügung.
Bei Genexpressionsanalysen könnten z.B. die Expressionswerte mehrerer tausend Gene
gemessen werden. Jedes Gen steuert dann eine potentielle Variable bei.
Um in diesen Fällen „vernünftige“ Modelle zu konstruieren, kann man ad hoc Strategien der
Variablenselektion verwenden, die für medizinische Fragestellungen mit Variablenanzahlen
zwischen 2 und etwa 20 entwickelt wurden. Im Wesentlichen existieren zwei Ansätze:
Vorwärtsselektion
Schritt 0:
Aufnahme des Intercepts ins Modell, egal ob signifikant oder nicht
Schritt 1:
Aufnahme derjenigen Variablen ins Modell, die den partiellen F-Wert
mit dem niedrigsten p-Wert beisteuert.
Wiederhole Schritt 1, bis keine Variable ein vorgegebenes Kriterium (z.B. p-Wert des
partiellen F-Tests ≤ vorgegebene Schranke) erfüllt.
78
P.Martus, Multivariate Statistik, SoSe 2009
Rückwärtsselektion
Schritt 0:
Bestimmung des vollen Modells mit allen Kovariablen
Schritt 1:
Ausschluss derjenigen Variablen, die den partiellen F-Wert
mit dem größten p-Wert beisteuert.
Wiederhole Schritt 1 bis keine Variable ein vorgegebenes Kriterium (z.B. p-Wert des
partiellen F-Tests > vorgegebene Schranke) erfüllt.
Bei diesen Strategien ist es üblich, kategorielle Kovariable als Ganzes aufzunehmen oder
auszuschließen, also immer den kompletten Satz aller zugehörigen Dummyvariablen zu
analysieren.
Es existieren Mischformen, bei denen man nachträglich Variablen ausschließen kann, die
ihre Signifikanz verlieren.
5.40 Praktische Tipps zur Variablenselektion
Strategien zur Variablenselektion sollten niemals „blind“ verwendet werden. Man sollte
(mindestens) 7 Vorbehalte im Hinterkopf haben:
•
•
•
•
•
•
•
Korrelierte Kovariablen können zu instabilen und unplausiblen Modellen führen.
Fehlende Signifikanz bedeutet nicht automatisch Unbrauchbarkeit für die Prädiktion.
Statistische Signifikanz ist abhängig von der Fallzahl, sehr große Datensätze können
zu übertrieben komplizierten Modellen führen, sehr kleine Datensätze können einfach
nicht „tauglich“ für das eigentlich adäquate „moderat“ komplexe Modell sein.
Statistische Signifikanz ist immer zu trennen von inhaltlicher Relevanz.
Wechselwirkungen erhöhen die Zahl der potentiellen Parameter eines Modells sehr
schnell. Wechselwirkungen zweiter Ordnung können relevant sein, diejenigen höherer
Ordnung sind oft nicht interpretierbar. Ganz analoges gilt für die Potenzterme X2, X3,
etc. bei stetigen Kovariablen (s.u.)
Dramatische Änderungen von Regressionskoeffizienten einer Kovariable bei
Aufnahme anderer Kovariablen, insbesondere Vorzeigenwechsel oder starke
Vergrößerung der Koeffizienten bei gleichzeitiger Vergrößerung der zugehörigen
Standardfehler, deuten auf unstabile Modelle hin.
Anwender wollen oft das „geeignete“ multiple Regressionsmodell publizieren,
obwohl die Daten eine derartige Festlegung gar nicht ermöglichen.
Bei multiplen Regressionsmodellen sollten immer Strategien der Kreuzvalidierung
(Kapitel 7) in Betracht gezogen werden.
Der wichtigste Tipp lautet:
•
Die Befähigung, Daten mittels Statistiksoftware zu analysieren, impliziert nicht die
Befähigung, Modelle korrekt auszuwählen und die gefundenen Ergebnisse korrekt zu
interpretieren.
79
P.Martus, Multivariate Statistik, SoSe 2009
5.41 Paarvergleiche als Spezialfall von Modellvergleichen
Uns fehlt noch der Vergleich zwischen den Bundesstaaten, also die Frage, ob sich die
Intercepts für die drei Bundesstaaten unterscheiden (unter der jetzt anscheinend
gerechtfertigten Annahme, dass sich die Steigungen nicht unterscheiden).
Im Regressionsmodell
mit εi ~ N(0,σ2)
Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi
mit den Kovariablen Alter, Staat und mit der spezielle Dummycodierung
X2a
X2b
Georgia
1
0
Virginia
0
1
Wisconsin
0
0
stellt der Test von β2a auf Null den Vergleich Georgia vs Wisconsin und der Test von β2b auf
Null den Vergleich von Victoria vs Wisconsin bereit.
Der Vergleich Georgia vs Victoria entspricht einem Test der Differenz β2a -β2b auf Null.
Die ersten beiden Tests könnten direkt aus den Differenzen der Quadratsummen der Modelle
mit
Intercept, Alter, X2b vs Intercept, Alter, X2b, X2a
bzw.
Intercept, Alter, X2a vs Intercept, Alter, X2a , X2b
gewonnen werden.
Für den dritten Test könnte man z.B. die Dummycodierung
X2a
X2b
Georgia
1
0
Virginia
0
0
Wisconsin
0
1
wählen und dann Georgia vs Virginia analog mittels X2a testen.
80
P.Martus, Multivariate Statistik, SoSe 2009
Im Beispiel erhalten wir:
Georgia vs Wisconsin
SSQ = 38.6 -30.4 = 8.2.
RSSQ = 0.81
F = [8.2/1]/[0.81/9] = 90.4
P < 0.001
Virginia vs Wisconsin
SSQ = 38.6 -28.9 = 9.7.
RSSQ = 0.81
F = [9.7/1]/[0.81/9] = 107.6
P < 0.001
Georgia vs Viriginia
SSQ = 38.606 -38.464 = 0.2.
RSSQ = 0.81
F = [0.142/1]/[0.81/9] = 1.58
P = 0.24
Man könnte also durchaus ein Modell betrachten, bei dem für Georgia und Virginia nur ein
Parameter geschätzt werden muss. Dieses Modell hätte dann z.B. die Codierung
X2a
Georgia
1
Virginia
1
Wisconsin
0
In den folgenden beiden Abschnitten werden zwei Alternativen für die Signifikanztestung
von Paarvergleichen vorgestellt.
81
P.Martus, Multivariate Statistik, SoSe 2009
5.42 Paarvergleiche mittels t-Test
Man kann für den partiellen F-Test von Einzelparametern zeigen, dass die Formel
t2 = F
gilt. Dies bedeutet, dass die Wurzel des F-Werts gerade t-verteilt ist (vgl. Abschnitt 3.4) und
man somit die Signifikanz wie bei einem t-Test berechnen kann.
Weiterhin kann man zeigen, dass auch in diesem Fall die „Grundformel“ aller t-Tests
t=
βˆ j
SE ( βˆ j )
Gültigkeit besitzt. Für den Standardfehler von β̂ j gilt die Formel
( )
SE βˆ j
(
wobei (X t X )
−1
((X X ) ) σ
=
t
−1
2
jj
) das zu β gehörige Diagonalelement der Matrix (X X )
t
j
jj
−1
bezeichnet und
man σ durch die Schätzung σˆ ersetzen darf.
2
2
Man beachte für den Fall orthogonaler Kovariablen die folgende Vereinfachung:
((X X ) )
t
−1
jj
=
1/ (X t X ) jj
=
1/<Xj, Xj>
=
1/[||Xj||2] .
In der Form dieses t-Tests, also nicht über den Vergleich von Quadratsummen, wird in
Standardsoftwarepaketen wie R oder SPSS üblicherweise die Signifikanztestung
dokumentiert. Man muss aber wissen, dass sämtliche t-Tests „konditional“ auf jeweils alle
anderen Variablen zu interpretieren sind. Dies bedeutet dann, dass hochkorrelierte Variablen
im Zweierset eine hochsignifikante Modellverbesserung erbringen können, die zugehörigen tTests u.U. aber beide nicht signifikant sein können.
5.43 Kontraste
Die Paarvergleiche in 5.41 und 5.42 wurden durch „Ausprobieren“ mehrerer Modelle mit
unterschiedlichen Referenzkategorien durchgeführt. Das ist im allgemeinen auch völlig
ausreichend.
Im Modell mit Referenzkategorie Wisconsin konnte der Unterschied zwischen Georgia und
Victoria durch die Differenz βˆ1 − βˆ2 zwar geschätzt, nicht aber getestet werden.
Letzten Endes sind alle Parameterschätzungen Zufallsvariablen, die i.a. nicht voneinander
unabhängig sind. Wir können für die Parameterschätzungen analog zum Vorgehen in 5.40
auch die zugehörigen Varianzen und Kovarianzen schätzen und auf diesen Schätzungen t-
82
P.Martus, Multivariate Statistik, SoSe 2009
Tests für beliebige lineare Kombinationen von Parametern, also insbesondere Differenzen der
Art βˆ1 − βˆ2 bestimmen. Dabei verwenden wir den grundlegenden Satz
Var (X+Y) = Var(X) + Var(Y) + 2COV(X,Y),
der sich auf beliebig viele Zufallsvariablen verallgemeinern lässt und jetzt auf die
Parameterschätzungen βˆ1 , βˆ2 angewendet wird.
Wir benötigen hierfür lediglich sämtliche Varianzen und Kovarianzen der geschätzten
Parameter, also ihre Varianzkovarianzmatrix. Diese Matrix (vgl. 5.40) wird geschätzt durch
()
Vaˆr βˆ
= σˆ 2 (X t X )
−1
Die Varianz des Kontrasts βˆ1 − βˆ2 ist
Var( β̂1 ) + Var( β̂ 2 ) - 2 COV( βˆ1 , βˆ2 )
Im Beispiel mit Referenzkategorie Wisconsin ergibt sich die folgende VarianzKovarianzmatrix:
0.0066 0.0003 0.0017
0.0003 0.041 0.019
0.0017 0.019 0.045
Somit erhalten wir
Vaˆr ( βˆ1 − βˆ2 ) = 0.041 + 0.045 - 2•0.019 = 0.048
und entsprechend als Standardfehler
0.048 = 0.22.
Die Differenz βˆ1 − βˆ2 beträgt -0.49-(-0.76) = 0.27. Der Quotient 0.27/0.22 = 1.25 wird mittels
des t-Tests mit 9 Freiheitsgraden geprüft. Es ergibt sich als p-Wert 0.24, also kein
signifikanter Unterschied.
Der t-Wert 1.25 ist die Wurzel des F-Werts 1.58 (vgl. 5.39), beide p-Werte sind identisch.
Dieser Zusammenhang zwischen t-Test und F-Test gilt allgemein (vgl. 5.42).
5.44 Vorbemerkungen zur Varianzanalyse
Für bestimmte Anwendungen existieren statistische Methoden, die eigentlich nur Spezialfälle
der multiplen linearen Regression darstellen, aber aus historischen Gründen und aufgrund
ihrer einheitlichen Struktur unter dem Begriff Varianzanalyse zusammengefasst werden. Die
Varianzanalyse wird hier nur überblicksmäßig behandelt.
5.45 Einfaktorielle Varianzanalyse
83
P.Martus, Multivariate Statistik, SoSe 2009
Wir gehen davon aus, dass Messungen eines stetigen Merkmals Y in K Gruppen verglichen
werden sollen. Dabei gelte die folgende Modellannahme:
in Gruppe k (k=1,...,K)
Y ~ N(μk,σ2)
Theoretisch könnte man folgende Modellgleichungen aufstellen
Y = β0 + β1X1 + β2X2 + ... + βKXK
mit Xk = 1 in Gruppe k und Xk = 0 sonst (k=1,...,K).
In dieser Modellgleichung soll β0 dem Gesamtmittelwert des Experiments entsprechen und
β1, β2 ... βK den Abweichungen in den Gruppen auf diesen Gesamtmittelwert.
Dieses Modell ist aber offensichtlich überbestimmt. Für jede Lösung
(b0, b1, ..., bK)
des entsprechenden Kleinstquadrateproblems und jede Konstante c ist
(b0+c, b1-c, ..., bK-c).
ebenfalls eine Lösung. Den möglichen Ausweg, Identifikation von β0 mit dem Mittelwert in
einer Referenzkategorie und Weglassen des Parameters βk für diese Gruppe, wollen wir aber
nicht wählen, β0 soll den Gesamtmittelwert beschreiben.
Die Designmatrix des obigen Modells hat z.B. für drei Gruppen mit jeweils zwei
Beobachtungen die Form
⎛1
⎜
⎜1
⎜1
⎜
⎜1
⎜1
⎜
⎜1
⎝
1 0 0⎞
⎟
1 0 0⎟
0 1 0⎟
⎟
0 1 0⎟
0 0 1⎟
⎟
0 0 1 ⎟⎠
mit offensichtlich linear abhängigen Spalten. Die Idee der Varianzanalyse ist es nun, für den
entsprechenden U3R6 dadurch eine Basis aufzufinden, dass man den zulässigen Parametern
Restriktionen auferlegt. Im oben beschriebenen Fall würde man sinnvollerweise die
Restriktion
β1 + β2 + ... + βK = 0
bzw.
βK = - (β1 + β2 + ... + βK-1)
wählen. Die neue Designmatrix wäre jetzt
84
P.Martus, Multivariate Statistik, SoSe 2009
0⎞
⎛1 1
⎟
⎜
0⎟
⎜1 1
⎜1 0
1⎟
⎟
⎜
1⎟
⎜1 0
⎜1 − 1 − 1⎟
⎟
⎜
⎜1 − 1 − 1⎟
⎠
⎝
Man erkennt, dass die Intercept-Spalte orthogonal zu den beiden anderen Spalten der
Designmatrix ist.
Wenn man die Parameter mit Hilfe der Normalengleichungen
β̂ = [(Xt•X)-1•Xt]•Y
schätzt, erhält man tatsächlich die folgenden Lösungen
βˆ0 = Y
β̂ k = Yk − Y
(k=1,...K-1)
und wegen
∑
K
k =1
Yk = KY
(gleichgroße Gruppen!)
erhält man auch für den aus den übrigen Parametern direkt berechneten Parameter β̂ K die
Schätzung
βˆK = −∑k =1 βˆk = −∑k =1 (Yk − Y ) = (K − 1)Y − kY + Yk = Yk − Y
K −1
K −1
Für ungleiche Gruppen, z.B. mit Gruppenstärken N1, ..., NK muss die Restriktion lauten
N1β1 + N2β2 + ... + NKβK = 0.
Damit verkompliziert sich die Darstellung von β̂ K durch die übrigen Parameter. Die
Designmatrix X wird ebenfalls entsprechend komplizierter.
Die Erstellung der Designmatrix wird durch die ANOVA Module der Statistiksoftware
automatisch vorgenommen, nicht aber durch die Regressionssoftware. Deswegen sollte man
in „ANOVA-tauglichen“ Situationen tatsächlich die ANOVA und nicht die
Regressionsmodule verwenden.
Bei Beobachtungsstudien mit sehr vielen Kovariaten ist aber aus unterschiedlichen Gründen
der allgemeine Regressionsansatz vorzuziehen.
85
P.Martus, Multivariate Statistik, SoSe 2009
5.46 Model Fit und Residuenanalyse
In Anwendungen wird man immer vor der Frage stehen, ob ein gefundenes Modell den Daten
auch wirklich gerecht wird. Man wird sich dafür interessieren, ob
1.
2.
3.
4.
5.
6.
7.
Einzelbeobachtungen zu weit vom Modell abweichen, also zu große Residuen zeigen,
die Residuen als Ganzes tatsächlich normalverteilt sind,
die Residuen als Ganzes tatsächlich identische Varianz besitzen,
für stetige Kovariablen höhere Potenzen ins Modell aufgenommen werden sollten,
zusätzliche gemessene Kovariablen mit ins Modell aufgenommen werden sollten,
zusätzliche nicht gemessene Kovariablen die Y-Werte beeinflussen,
zuviele Kovariablen ins Modell aufgenommen wurden.
In den folgenden Abschnitten werden wir uns ausführlicher mit den Fragen 1, 2, 3 und 6
beschäftigen. Die Fragen 4, 5 und 7 haben wir bereits in den Abschnitten 5.38-5.40 zur
Variablenselektion diskutiert.
5.47 Abweichende Einzelbeobachtungen
Beispiel: Weihnachtsgänse
Wir schmuggeln nun in die Daten der Weihnachtsgänse eine sechste Gans aus Wisconsin, die
sich offenbar untypisch verhält: Nach 32 Wochen wiegt sie nur 12 kg.
Heimat
16,00
Georgia
Virginia
Wisconsin
Gewicht [Pfund]
14,00
12,00
10,00
8,00
20,00 22,00 24,00 26,00 28,00 30,00 32,00
Alter [Wochen]
Das Histogramm für die Residuen Yi- Yˆi zeigt, dass dieser Wert in der Tat aus der Reihe fällt:
86
P.Martus, Multivariate Statistik, SoSe 2009
5
Häufigkeit
4
3
2
1
0
-2,00000
0,00000
Mean = -3,8857806
E-16
Std. Dev. =
1,13953285
N = 14
Unstandardized Residual
Für das zusätzliche Tier wurde ein Residuum von -3.2 beobachtet, die restlichen Residuen
liegen zwischen -1.3 und + 1.2.
Bemerkung
Die Überprüfung der rohen Residuen ist nicht optimal, weil die Varianz der beobachteten
Residuen im Gegensatz zur Varianz der Fehlerterme ε nicht konstant ist, sondern für extreme
Werte von X kleiner wird.
Genauer gilt: Die Varianz der beobachteten Residuen hängt vom Diagonalelement der
Projektionsmatrix an der Stelle i ab. Die Projektionsmatrix PX hat die Gestalt
PX
=
X (X t X ) X t
−1
und Dimension n•n. Das Diagonalelement an der Stelle (i,i) wird mit hii bezeichnet.
Die Varianz der beobachteten Residuen Yi - Yˆi ergibt sich als Produkt
(1 − hii ) • σ 2 .
Man bezeichnet die bezüglich dieser Varianz standardisierten Residuen auch als
„studentisierte“ Residuen. Man erhält also
si =
1
ei
σˆ (1 − hii )
87
P.Martus, Multivariate Statistik, SoSe 2009
Aufgrund der geringen Auflösung hat das Histogramm für die studentisierten Residuen aber
genau die gleiche Form wie das für die rohen Residuen und wird hier nicht gezeigt.
Allgemein kann man sehen, dass der Effekt des Faktors √(1-hii) bereits bei moderaten
Stichprobengrößen zu vernachlässigen ist, solange keine extremen Ausreißer bei den xWerten vorkommen.
Allerdings erlauben die studentisierten Residuen eine Bewertung der Absolutwerte: Etwa
95% dieser Residuen sollten zwischen -2 und +2 liegen, etwa 99% zwischen -2.5 und + 2.5.
Für den Umgang mit „nachgewiesenen“ Ausreißern gibt es keine festen Regeln, außer dass
man dokumentieren sollte, was man getan hat.
5.48 Prüfung auf Normalverteilung
Die Prüfung auf Normalverteilung könnte durch Vergleich des Histogramms der studentisierten Residuen mit einer Glockenkurve gleicher Varianz und Mittelwert 0 erfolgen. Man
wählt jedoch einen etwas geschickteren Weg und vergleicht die jeweils kumulierten
Wahrscheinlichkeiten.
Wie bei jeder Prüfung der Übereinstimmung stetiger Variablen kann man dabei die Variablen
selbst in einem Streudiagramm gegenüberstellen (Normalverteilungsplot) oder aber die
Differenz beider Variablen mit dem Mittelwert beider Variablen vergleichen (hier:
Trendbereinigter Normalverteilungsplot, allgemein: Bland-Altman Plot). Die zweite
Möglichkeit ist i.a. anschaulicher.
Ohne Ausreißer ergeben sich die folgenden Normalverteilungsplots für das Modell mit
verschiedenen Intercepts und fester Steigung:
Perzentil-Perzentil Plot
W eihnachtsgänse ohne Ausreißer
Erwartete Kum. Wahrsch.
1,00
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Beobachtete Kum. Wahrsch.
88
P.Martus, Multivariate Statistik, SoSe 2009
Trendbereinigter Perzentil-Perzentil Plot
W eihnachtsgänse ohne Ausreißer
Abweichung von Normal
,20
,10
0,00
-,10
-,20
0,0
,2
,4
,6
,8
1
Beobachtete Kum. Wahrsch.
Es lassen sich keine gravierenden Abweichungen von der Nulllinie erkennen.
Für die Daten mit dem einen Ausreißer aus Wisconsin erhält man die folgenden Diagramme:
Perzentil-Perzentil Plot
Perzentil-Perzentil Diagramm
Residuen der Weihnachtsgänse mit Ausreißer aus Wisconsin
Erwartete Kum. Wahrsch.
1,00
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Beopbachtete Kumulierter Wahrscheinlichkeiten
89
P.Martus, Multivariate Statistik, SoSe 2009
Trendbereinigter Perzentil-Perzentil Plot
Trendbereinigtes Perzentil-Perzentil Diagram
Abweichung von Normal
,2
,1
0,0
-,1
-,2
0,0
,2
,4
,6
,8
1
Beobachtete Kum. Wahrsch.
Auch hier erkennt man deutlich, dass die Ausreißer-behafteten Daten gegen die Annahmen
des Regressionsmodells verstoßen.
5.49 Prüfung auf identische Varianz
In vielen Anwendungen sind die beobachteten Residuen für größere Werte von Yˆ größer als
für kleinere. Im einfachsten Fall kann man sich diesen Effekt dadurch erklären, dass die
Residuen im Schnitt prozentual vom tatsächlichen Y-Wert abhängen.
Ein typisches Streudiagramm sieht in diesem Fall so aus:
600,00
500,00
y
400,00
300,00
200,00
100,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
nr
90
P.Martus, Multivariate Statistik, SoSe 2009
Die Grafik der (studentisierten) Residuen gegen die vorhergesagten y-Werte zeigt den
Zusammenhang noch deutlicher
Studentized Residual
2,00000
0,00000
-2,00000
-4,00000
-200,00000
0,00000
200,00000
400,00000
600,00000
Unstandardized Predicted Value
Wenn man die funktionale Abhängigkeit der Residuen vom vorhergesagten Wert genauer
prüfen will und die Abweichungen nach oben und unten wenigstens angenähert symmetrisch
sind, empfiehlt es sich, die absoluten (studentisierten) Residuen gegen die vorhergesagten
Werte auftzutragen:
5,00
abs_res
4,00
3,00
2,00
1,00
0,00
-200,00000
0,00000
200,00000
400,00000
600,00000
Unstandardized Predicted Value
91
P.Martus, Multivariate Statistik, SoSe 2009
Besonders zweckmäßig ist die letzte Darstellungsart bei komplexeren Abhängigkeiten der
Varianz vom wahren Wert.
600,00
500,00
400,00
z
300,00
200,00
100,00
0,00
-100,00
0,00
20,00
40,00
60,00
80,00
100,00
nr
Die Darstellung der Residuen ergibt
Studentized Residual
4,00000
2,00000
0,00000
-2,00000
-4,00000
0,00000
100,00000 200,00000 300,00000 400,00000 500,00000
Unstandardized Predicted Value
92
P.Martus, Multivariate Statistik, SoSe 2009
Und die Darstellung der Absolutresiduen zeigt deutlich die quadratische Abhängigkeit vom
X-Wert bzw. vorhergesagten Wert:
abs_res
3,00
2,00
1,00
0,00
0,00
20,00
40,00
60,00
80,00
100,00
nr
Wenn Varianzenungleichheit nachgewiesen wurde, kann die Methode der gewichteten
Kleinstquadrateschätzung (weighted least squares) angewendet werden. Diese Methode wird
in Abschnitt 5.52 dargestellt.
5.50 Aufnahme neuer Variablen oder Potenzen bereits aufgenommener Kovariablen
Im Prinzip kann man als grafische Unterstützung der Variablenselektion Streudiagramme der
Residuen gegen die Werte potentiell aufzunehmender Kovariablen plotten. Das Vorgehen ist
genau dasselbe wie bei der Prüfung auf Varianzenhomogenität ohne Bildung der Absolutwerte und kann auch im „Forward / Backward Modus“ erfolgen.
5.51 Fehlende Kovariaten
In manchen Datensätzen kann man (z.B für nicht gemessene kategorielle Kovariablen oder für
wiederholte Messungen an denselben Merkmalsträgern) anhand grafischer Darstellungen
erkennen, dass eine fehlende Zusatzinformation berücksichtigt werden müsste.
Wenn man beispielsweise die Daten im (regulären) Weihnachtsgansbeispiel so verändert,
dass man das Gewicht in Georgia und Virginia jeweils um 1 Pfund verringert und in
Wisconsin um 1 Pfund erhöht, erhält man folgende grafische Darstellung:
93
P.Martus, Multivariate Statistik, SoSe 2009
18,00
Gewicht [Pfund]
16,00
14,00
12,00
10,00
8,00
20,00
22,00
24,00
26,00
28,00
30,00
32,00
Alter [Wochen]
Aufgrund dieses Diagramms könnte man auf zwei Subpopulationen zurückschließen, weil
Beobachtungen in der Nähe der Regressiongerade fehlen. Wenn man die Information zum
Bundesstaat nicht zur Verfügung hätte, könnte man postulieren, dass offenbar wichtige
Kovariateninformationen fehlen. Leider sind die Effekte derartiger „latenter“ Klassen oft
nicht so eindeutig.
5.52 Gewichtete Kleinstquadrateschätzung
Manchmal ist die Annahme gleicher Varianzen im linearen Modell
Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi
nicht gerechtfertigt. Dies kann anhand der Residuenanalyse oder aufgrund inhaltlicher
Argumente begründbar sein. Eine Möglichkeit besteht in der Analyse eines Modells
Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi
mit εi~N(0,viσ2),
bei dem die Konstanten vi als bekannt vorausgesetzt werden.
Für dieses Modell referieren wir überblicksweise die wesentlichen Eigenschaften. Die Idee
ist, sowohl die Kovariatenmatrix X als auch den Ergebnisvektor Y mit dem Streuungsfaktor
1
vi
zu multiplizieren.
94
P.Martus, Multivariate Statistik, SoSe 2009
Es bezeichne V die n•n-Diagonalmatrix der Konstanten vi.
Dann lautet die Formel für die gewichtete Kleinstquadrateschätzung
βˆ = (X tV −1 X ) X tV −1Y
−1
und die Formel für die Varianz-Kovarianz des geschätzten Parametervektors
−1
Cov( βˆ ) = (X tV −1 X ) σ 2 .
Die Formeln der gewichteten Kleinstquadrateschätzung lassen sich auch auf den Fall
korrelierter Beobachtungen Y übertragen:
Man ersetzt die Diagonalmatrix σ2V der Varianzgewichte vi durch eine Kovarianzmatrix σ2V,
deren Nebendiagonalelemente σ2vij die Kovarianzen der Yi und Yj (mit i≠j) darstellen.
Als weitere Verallgemeinerung können die Werte vij aus den Daten geschätzt werden. In
diesem Fall muss aber ein iteratives Verfahren angewendet werden, da jede Schätzung von V
die Schätzung von b verändert und umgekehrt (iteratively reweighted least squares).
Beide Methoden sind wichtig in der Theorie der verallgemeinerten Modelle und werden
später nochmals aufgegriffen.
5.53 Konfidenzellipsoide
Die Tatsache, dass „Wackeln“ an einer Kovariate eine andere u.U. völlig überflüssig macht,
bedeutet auch, dass bei gegebenem Yˆ nicht beide Kovariaten gleichzeitig überflüssig
werden können.
Für zwei hochkorrelierte Kovariaten X1, X2 mit Parametern β1 und β2 folgt dann, dass, falls
βˆ = 0 gesetzt wird, β̂ „groß“ sein muss und umgekehrt.
2
1
Diese Idee lässt sich durch Konfidenzellipsen präzisieren. Sie geben in der β1 - β2 Ebene die
mit den Daten auf dem entsprechenden Niveau vereinbaren Wertepaare von β1 und β2 an.
Die Größe der Konfidenzellipsen beruht auf den Varianzen und die Verkippung auf den
Kovarianzen der beiden Parameterschätzungen, also auf den entsprechenden Einträgen in der
Matrix
(X X )
t
−1
σ2
(vgl. 5.40, 5.41). Genauer gesagt legt die Gleichung
(β − βˆ ) ⋅ (X X )⋅ (β − βˆ )
t
t
= const
95
P.Martus, Multivariate Statistik, SoSe 2009
mit
const = MSQ(Fehler) • (dfReg) • F(dfReg, dfFehler, 1-α)
für beliebig viele Parameter einen Konfidenzellipsoiden fest. Ein Beispiel aus einem hier
nicht analysierten Datensatz mit X1 = GEW und X2 = FEV führte auf das folgende Ergebnis:
Konfidenzellipsoid für GEW und FEV
1-alpha = 0.95
3,0
2,5
2,0
beta [FEV]
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
-1,0
-,5
0,0
,5
1,0
1,5
2,0
2,5
beta [GEW]
Offenbar kann jeder von beiden Parametern β1 = beta[GEW] und β2 = beta[FEV] einzeln Null
werden, aber nicht beide Parameter gemeinsam.
Der folgende Konfidenzellipsoid wurde für dasjenige alpha bestimmt, das genau dem p-Wert
des Gesamtmodells mit β1 und β2 entspricht.
Konfidenzellipsoid für GEW und FEV
1-alpha =1- p-W ert des F-Tests
3
beta [FEV]
2
1
0
-1
-2
-1,0
-,5
0,0
,5
1,0
beta [GEW]
1,5
2,0
2,5
96
P.Martus, Multivariate Statistik, SoSe 2009
Teil 6
Verallgemeinerte Lineare Modelle
6.1 Vorbemerkung
Im Teil 5 haben wir uns mit dem allgemeinen linearen Modell beschäftigt. Dieses Modell
(vgl. 5.3) konnte beschrieben werden durch die Modellgleichung
Yi = β0+β1Xi1+β2Xi2+...+βpXip + εi
mit εi ~ N(0,σ2)
bzw.
mit εi ~ N(0,σ2).
Yi = E(Y|Xi) + εi
Das Modell war durch drei Eigenschaften charakterisiert:
•
•
•
Der Erwartungswert von Y hängt vom Vektor (β0, β1,..., βp) linear ab, d.h. E(Y|Xi) =
β0+β1Xi1+β2Xi2+...+βpXip.
X wird als deterministisch angenommen.
Bei gegebenem Vektor x ist Y normalverteilt mit von x unabhängiger, also
konstanter Varianz σ2.
In den jetzt folgenden Modellen werden diese Eigenschaften verallgemeinert:
•
•
•
Die Zielgröße Y muss nicht mehr normalverteilt sein.
Die Zielgröße Y muss nicht mehr für alle Beobachtungen dieselbe Varianz besitzen.
Nicht mehr der Erwartungswert selbst, sondern eine Funktion des Erwartungswerts
hängt linear vom Vektor (β0, β1,..., βp) ab.
Das Verallgemeinerte Lineare Modell wird allgemein in 6.20 definiert. Wir beginnen mit dem
wichtigsten Beispiel, der logistischen Regression.
6.2 Beispiel zur Logistischen Regression
Bei Patienten mit Aderhautmelanom verschlechtert sich die Prognose drastisch, wenn
Metastasen auftreten. Aufgrund von klinischen und von Genexpressionsdaten soll die
Wahrscheinlichkeit für Metastasen bestimmt werden.
Aufgrund unabhängiger Daten kennt man drei Gene, deren Expressionslevel offenbar mit dem
Auftreten von Metastasen assoziiert ist. Weiterhin weiß man, dass für einen bestimmten
histologischen Subtyp des Aderhautmelanoms die Häufigkeit von Metastasen erhöht ist.
Wir untersuchen eine Stichprobe mit 200 Patienten, von denen exakt 100 = 50% eine
Metastase besitzen. Gesucht ist ein Modell, das anhand der Variablen
Y
X1
Metastase
Subtyp
(Y=0: nein, Y=1: ja)
(X1 = 0: normal , X1 = 1 besonders gefährlich)
97
P.Martus, Multivariate Statistik, SoSe 2009
X2
X3
X4
Expressionslevel Gen 1
Expressionslevel Gen 2
Expressionslevel Gen 3
(stetige Intensitätsmessung, Log-Skala)
(stetige Intensitätsmessung, Log-Skala)
(stetige Intensitätsmessung, Log-Skala)
die Vorhersage von Metastasen durch die Genexpressionslevels und durch den Subtyp
beschreibt.
Das mögliche Modell
bzw.
Yi = β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 + εi
mit εi ~ N(0,σ2)
Yi ~ N( β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 , σ2 )
ist einer dychotomen Variable völlig unangemessen. Für festen Kovariatenvektor
(Xi1,Xi2,Xi3,Xi4) ist es vernünftig, davon auszugehen, dass Yi nach b(1,pi) verteilt ist, also
P(Yi = 1) = pi
P(Yi = 0) = 1-pi .
Aber auch das Modell
Yi ~ b(1,β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4)
ist problematisch, weil die Restriktion
β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 ∈ [0,1]
nur sehr schwierig in ein Verfahren zur Schätzung des Parametervektors β aufgenommen
werden könnte.
Es ist viel einfacher, β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 einer Transformation zu unterziehen, die R,
den Bereich der möglichen Werte von β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 streng monoton auf das
Intervall [0,1], den Bereich der möglichen Werte von p, abbildet. Diese Transformation lautet
exp( x )
1 + exp( x )
Wir erhalten also die beiden äquivalenten Gleichungen
p
=
exp( β 0 + β1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 )
1 + exp( β 0 + β1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 )
bzw die üblichere Form
ln
p
1− p
=
β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x4 .
(0≠p≠1)
98
P.Martus, Multivariate Statistik, SoSe 2009
Die Funktion auf der linken Seite dieser Gleichung, ln[p/(1-p)], heißt auch logit Funktion.
In den folgenden Abschnitten werden wir uns mit
•
•
•
•
der Parameterschätzung von β,
der Signifikanzprüfung für β und Teilmodelle,
der Parameterinterpretation und Codierung und
der Prüfung der Modellgüte
für die logistische Regression befassen. Der entscheidende Schritt ist, dass wir die
Kleinstquadrate-Methode durch die Maximum-Likelihood-Methode ersetzen.
6.3 Die Maximum-Likelihood-Methode für binomial verteilte Daten
In einer klinischen Studie mit n Patienten (vgl. 1.2) und einer festen Heilungswahrscheinlichkeit p ist die Wahrscheinlichkeit für genau k Heilungen gleich
⎛n⎞
n −k
P( k ) = b( n, p, k ) = ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) .
⎝k ⎠
Man kann den Ausdruck b(n,p,k) als Funktion von drei Variablen, n, p und k auffassen. Im
Allgemeinen ist n durch die Studie fest vorgegeben, so dass man b(n,p,k) als Funktion von p
und k auffassen kann.
In der Wahrscheinlichkeitsrechnung geht man von einer festen Wahrscheinlichkeitsverteilung aus und untersucht für bekanntes p die Eigenschaften der Funktion
b (n, p, .) = P(.) mit P(k) = b (n, p, k)
mit k als unabhängiger Variable. Diese Funktion heißt Wahrscheinlichkeitsfunktion.
In der Statistik geht man dagegen von einer beobachteten Heilungszahl k aus und will
Aussagen über p treffen. Das bedeutet, man interessiert sich für die Funktion
b (n, ., k) = L(.) mit L(p) = b (n, p, k)
mit p als unabhängiger Variable. Die Funktion L heißt Likelihoodfunktion.
Die Likelihoodfunktion für die Binomialverteilung hat dieselbe Gestalt wie die
Wahrscheinlichkeitsfunktion, also
⎛ n⎞
n−k
L( p) = ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) ,
⎝k ⎠
ist aber anders zu interpretieren. Ziel ist, aus der Beobachtung k den Parameter p zu schätzen.
99
P.Martus, Multivariate Statistik, SoSe 2009
Mit Hilfe der Maximum Likelihood Methode schätzt man dasjenige p, das die Funktion L(p)
maximiert.
Äquivalent, aber einfacher umzusetzen, ist die Maximierung von l(p):= ln(L(p)).
Im Falle der Binomialverteilung sieht man sofort, dass die Likelihoodfunktion bei k = 0 durch
p = 0 und bei k = n durch p = 1 maximiert wird. Wir gehen ab jetzt davon aus, dass 0<k<n
und p ∈ ]0,1[ ist.
⎡⎛ n ⎞
n−k ⎤
l ( p ) = ln ⎢⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) ⎥ = ln(n!) − ln(k!) − ln(n − k )! + k ln( p ) + (n − k ) ln(1 − p ) .
⎣⎝ k ⎠
⎦
Offenbar hängen nur die letzten beiden Summanden von p ab, so dass bei der Maximierung
nur noch die Funktion
k ln( p ) + ( n − k ) ln(1 − p )
betrachtet werden muss. Diese Funktion ist zweimal differenzierbar in p, das Maximum kann
also durch Nullsetzen der ersten Ableitung gefunden werden.
Wir erhalten
∂[k ln( p ) + ( n − k ) ln(1 − p )]
=
∂p
k n−k
−
p 1− p
Nullsetzen der rechten Seite ergibt
0 = k (1 − p ) = p (n − k )
und daraus folgt sofort
p=
k
.
n
6.4 Die Maximum-Likelihood-Schätzung für die logistische Regression
In Beispiel 6.2 kann man davon ausgehen, dass für jeden Patienten eine andere
Metastasenwahrscheinlichkeit pi mit
ln
pi
1 − pi
= β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4
vorausgesagt wird, weil das Modell stetige Kovariablen enthält. Die Zahl der Metastasen
insgesamt ist nicht binomialverteilt und es ist schwierig, Wahrscheinlichkeiten für bestimmte
Gesamtzahlen zu berechnen.
100
P.Martus, Multivariate Statistik, SoSe 2009
Aufgrund der Unabhängigkeit der einzelnen Patienten können wir aber die
Wahrscheinlichkeit für das in der Stichprobe beobachtete Metastasenmuster sofort
hinschreiben:
P (Y1 = k1 , Y2 = k 2 , K , Yn = k n ) =
∏
n
i =1
P (Yi = k i ) =
∏ b(1, p , k )
n
i =1
i
i
Wenn wir das Produkt logarithmieren, können wir mit identischen Argumenten wie in 6.3
zeigen, dass jetzt der Ausdruck
∑
n
i =1
k i ln( pi ) + (1 − k i ) ln(1 − pi )
maximiert werden muss (wegen ki = 1 oder ki = 0, geht für Patienten mit Metastasen ln(pi)
und für Patienten ohne Metastasen ln(1-pi) in die Summe ein).
Im Folgenden werden implizite Gleichungen für β hergeleitet, die zwar keine geschlossene
Lösung bereitstellen, aus denen aber iterativ das gesuchte β bestimmt werden kann.
Wenn wir in der Formel
pi
=
exp( β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4 )
1 + exp( β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4 )
den Ausdruck β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 durch ηi ersetzen, erhalten wir
∂pi exp(ηi ) • [1 + exp(ηi )] − exp(ηi ) • exp(ηi )
exp(ηi ) • 1
=
=
= pi • (1 − pi )
[1 + exp(ηi )]2
[1 + exp(ηi )]2
∂ηi
und
∂ηi
= xij .
∂β j
Nun können wir mit Hilfe der Kettenregel aus der logarithmierten Likelihood
∑
n
k ln( pi ) + (1 − k i ) ln(1 − pi )
i =1 i
relativ einfache Gleichungen für die gesuchten Parameter β bestimmen. Wir müssen die
Ableitung der einzelnen Komponenten von β gleich Null setzen. Diese Ableitung ist
[
∂ ∑i =1 k i ln( pi ) + (1 − k i ) ln(1 − pi )
n
∂β j
]
=
∑
n
i =1
∂[k i ln( pi ) + (1 − k i ) ln(1 − pi )]
=
∂β j
⎡ n k i ∂pi ∂η i (1 − k i ) ∂pi ∂η i ⎤
−
⎢∑i =1
⎥.
pi ∂η i ∂β j (1 − pi ) ∂η i ∂β j ⎥⎦
⎢⎣
101
P.Martus, Multivariate Statistik, SoSe 2009
Einsetzen ergibt
ki ∂pi ∂ηi (1 − ki ) ∂pi ∂ηi
−
pi ∂ηi ∂β j (1 − pi ) ∂ηi ∂β j
∑
i =1
∑
n
i =1 i
n
k (1 − pi )xij − (1 − ki ) pi xij
=
∑
=
n
i =1
(1 − ki ) p (1 − p )x
ki
pi (1 − pi )xij −
i
ij
(1 − pi ) i
pi
∑ [k (1 − p ) − (1 − k ) p ]x
n
i =1
i
i
i
i
ij
=
∑ [k
n
i =1
i
=
− pi ]xij
Die zu lösenden Gleichungen (für jedes j eine) lauten also
∑ [k
n
i =1
i
− pi ]xij = 0 .
Sie haben mit k = Y in Matrixschreibweise die Gestalt
X t (Y − E (Y ) ) = 0
und das ist, wenn wir Yˆ = E(Y) setzen, die aus dem linearen Modell bekannte Form
X tY = X tYˆ .
Man spricht auch von Schätzgleichungen für die gesuchten Parameter.
Weil Yˆ = E(Y) nichtlinear von β abhängt, müssen die Schätzgleichungen numerisch gelöst
werden. Hierfür wird im allgemeinen der Newton-Raphson-Algorithmus verwendet, den wir
nicht behandeln.
Die Herleitungen verwenden an keiner Stelle, dass es genau vier Kovariablen gab. Somit
haben wir allgemein die Schätzgleichungen für die logistische Regression hergeleitet.
6.5 Signifikanzprüfung von β und Teilmodellen
Für die Signifikanzprüfung von β und Teilmodellen in der logistischen Regression sind vier
mathematische Sätze relevant, die hier lediglich angegeben, aber nicht mathematisch
bewiesen werden.
Es bezeichne β̂ den Vektor der Maximum-Likelihood-Schätzer von β und l(β) die
logarithmierte Likelihood des Modells mit Parametervektor β.
Die Diagonalmatrix V enthalte die geschätzten Varianzen pˆ i (1 − pˆ i ) der
Einzelbeobachtungen Yi.
Für zwei Modelle mit Kovariablen X1,...,Xp und Kovariablen X1,...,Xp, Xp+1,...,Xp+k und
Maximum-Likelihood-Schätzungen βˆ 1 und βˆ 2 schreiben wir für die zugehörigen
logarithmierten Likelihoods kurz
l1 = l β̂ 1 und l 2 = l β̂ 2 .
( )
( )
102
P.Martus, Multivariate Statistik, SoSe 2009
Satz 1
Die Zufallsvariable β̂ ist für große Stichproben angenähert normalverteilt.
Satz 2
Die Varianzen und Kovarianzen der Komponenten von βˆ sind gegeben durch:
(X VX )
−1
t
.
Satz 3
Der Quotient
β − βˆ
()
Var βˆ
ist angenähert standardnormalverteilt.
Satz 4
Unter der Nullhypothese, dass das Modell mit Kovariablen X1,...,Xp korrekt ist und die
Kovariablen Xp+1,...,Xp+k überflüssig sind, hat die zweifache Differenz der Loglikelihoods
2 • (l 2 − l1 )
angenähert eine Chi-Quadrat-Verteilung mit k Freiheitsgraden.
6.6 Bemerkungen
Die Sätze 1-4 stehen in engem Bezug zum multiplen linearen Regressionsmodell:
•
•
Im linearen Regressionsmodell ist β̂ exakt normal verteilt, hier nur angenähert.
Im linearen Regressionsmodell ist β − βˆ /SE( βˆ ) exakt t-verteilt, hier angenähert
Standard-normalverteilt.
•
•
•
Die Matrix (X tVX ) entspricht exakt der Varianzkovarianzmatrix bei der gewichteten
Kleinstquadrateschätzung, wenn wir dort die Konstante σ2 mit in die Matrix V ziehen.
Die logarithmierten Likelihood Quotienten 2 • (l2 − l1 ) übernehmen hier die Rolle der
Zählerquadratsummen des (partiellen) F-Tests.
⎛L ⎞
Der Ausdruck 2 • (l 2 − l1 ) ist nichts anderes als 2 • ln⎜⎜ 2 ⎟⎟ . Um Signifikanz beim
⎝ L1 ⎠
Vergleich zweier Modelle zu erreichen, die sich nur um einen Parameter
⎛L ⎞
unterscheiden, verlangt man also 2 • ln⎜⎜ 2 ⎟⎟ ≥ 3.84 , was bedeutet, dass die Likelihood
⎝ L1 ⎠
des komplexeren Modells etwa 7 mal so groß sein muss, wie die Likelihood des
einfachen Modells. Bei 10 Beobachtungen muss pro Beobachtung die Likelihood etwa
um 20%, bei 50 Beobachtungen etwa um 4% steigen, um im entsprechenden
−1
103
P.Martus, Multivariate Statistik, SoSe 2009
Signifikanztest die Nullhypothese „Das einfachere Modell reicht aus“ widerlegen zu
können.
Zusammenfassend lässt sich zeigen, dass man im linearen Regressionsmodell mit der
Maximum-Likelihood-Methode dieselben Ergebnisse erhält wie mit der KleinstquadrateMethode, wenn man ignoriert, dass σ2 aus den Daten geschätzt wird und so tut, als wäre σ2
bekannt.
Insofern ist die Maximum-Likelihood-Methode eine Verallgemeinerung des multiplen
linearen Regressionsmodells für große Stichproben. Für kleine Stichproben ist die
Anwendung dieser Methode problematisch.
6.7 Anwendung im Beispiel
Wir werden die folgenden Modelle untersuchen
M0:
Modell nur mit Intercept
M1a: Modell mit Intercept und Tumortyp
M1b: Modell mit Intercept und Gen 1
M1c: Modell mit Intercept und Gen 2
M1d: Modell mit Intercept und Gen 3
M2:
Modell mit Intercept, Gen 1 und Gen 2
M3a: Modell mit Intercept, Gen 1 und Gen 2, Tumortyp
M3b: Modell mit Intercept, Gen 1, Gen 2 und Gen 3
M4:
Modell mit Intercept, Gen1, Gen 2, Gen 3 und Tumortyp
Offenbar gelten die folgenden Beziehungen
M0 ⊆ M1a, M1b, ..., M4
M1a ⊆ M3a, M4
M1b, M1c ⊆ M2, M3a, M3b, M4
M1d ⊆ M3b, M4
M2 ⊆ M3a, M3b, M4
M3a, M3b ⊆ M4
Für jedes dieser Modelle werden zunächst die Parameterschätzungen bestimmt und nach Satz
3 aus Abschnitt 6.5 die P-Werte angegeben.
104
P.Martus, Multivariate Statistik, SoSe 2009
Dann werden ausgesuchte Modelle mit Hilfe des Chi-Quadrat-Tests aus Satz 4, Abschnitt 6.5
miteinander verglichen.
Im Aderhautmelanom-Beispiel ergeben sich die folgenden Parameterschätzungen:
Parameter
β0
β1
β2
β3
β4
M0
Wert
0.000
---
---
---
---
Standardfehler
0.141
---
---
---
---
1.0
---
---
---
---
M1a
M1b
M1c
M1d
P-Wert
Wert
zf
1.511
5.423
3.145
2.853
Standardfehler
zf
0.304
0.885
0.742
0.744
P-Wert
zf
<0.001
<0.001
<0.001
<0.001
M2
Wert
-24.443
---
5.697
3.651
---
Standardfehler
3.764
---
0.947
0.895
---
P-Wert
<0.001
---
<0.001
<0.001
---
M3a
Wert
-24.222
1.312
5.661
3.339
---
Standardfehler
3.937
0.363
1.008
0.926
---
P-Wert
<0.001
<0.001
<0.001
<0.001
---
M3b
Wert
-25.307
---
5.627
3.517
0.344
Standardfehler
4.440
---
0.965
0.962
0.912
P-Wert
<0.001
---
<0.001
<0.001
0.706
M4
Wert
-24.549
1.309
5.634
3.286
0.132
Standardfehler
4.593
0.364
1.026
1.000
0.945
P-Wert
<0.001
<0.001
<0.001
0.001
0.889
105
P.Martus, Multivariate Statistik, SoSe 2009
Für die Modelle wurden die Log-Likelihoods und für ausgewählte Modellvergleiche die
Teststatistiken χ2 bestimmt, wobei der Intercept in alle Modelle aufgenommen wurde:
2l
Vergleich
gegen
χ2
df
-277.26*
---
---
---
M1a: Tumortyp
-250.700
M0
26.559
1
M1b: Gen 1
-221.386
M0
55.873
1
M1c: Gen 2
-256.676
M0
20.583
1
M1d: Gen 3
-260.329
M0
16.930
1
M2:
-201.598
M0
75.661
2
M1c
55.078
1
M1b
19.788
1
M0
89.328
3
M1a
62.769
2
M2
13.667
1
M0
75.803
3
M2
00.142
1
M0
89.348
4
M3a
00.020
1
M3b
13.544
1
M0:
nur Intercept
Gen 1, Gen 2
M3a: Gen 1, Gen 2, Tumortyp
M3b: Gen 1, Gen 2, Gen 3
M4:
Gen1, Gen 2, Gen 3,
Tumortyp
-187.931
-201.456
-187.911
Offenbar ist Modell M3a das den Daten angemessene Modell. Gen 3 ist überflüssig, wenn
Gen 1 und Gen 2 im Modell sind.
Weil sowohl Satz 3 als auch Satz 4 nur Näherungsaussagen machen, sind die p-Werte der zTests für die Parameter verschieden von den p-Werten der Likelihood Ratio Tests für den
Modellvergleich, bei dem die jeweilige Variable als letzte aufgenommen wird.
Prinzipiell können wir aber dieselben Effekte bei korrelierten Kovariaten beobachten wie im
linearen Modell.
* Dieser Wert ist 2•200•ln(0.5), vgl. 6.2
106
P.Martus, Multivariate Statistik, SoSe 2009
6.8 Chance, odds und odds ratio
Für gewöhnlich werden Wahrscheinlichkeiten als Brüche oder Prozentwerte im Intervall [0,1]
dargestellt. Bei einem Spiel kann z.B. die Gewinnwahrscheinlichkeit 0.5 bzw. 50% betragen.
Aus der Alltagssprache kennt man aber auch die Formulierung „Die Gewinnchance ist 50:50“
oder „1:1“. In anderen Situationen kann die Chance 70:30 oder 90:10 betragen. In der
Alltagssprache rechnet man die entsprechenden Brüche nicht aus, sagt also nicht, die Chance
ist 1 (für 1:1) oder 7/3 (für 70:30).
Die entsprechende mathematische Definition lautet: Die einer Wahrscheinlichkeit p
zugeordnete Chance ist definiert als der Quotient
p
.
1− p
Im Gegensatz zu Wahrscheinlichkeiten können Chancen beliebige Werte zwischen 0 und +∞
annehmen. Daraus folgt sofort, dass logarithmierte Chancen zwischen -∞ und +∞ liegen, was
wir uns bei der logistischen Regression zunutze gemacht haben.
Chancen haben den „Vorteil“, dass sie um einen beliebigen Faktor erhöht werden können.
Eine Erfolgswahrscheinlichkeit von 25% kann höchstens vervierfacht werden, die zugehörige
Chance von 25:75= 0.33 kann dagegen auch verzehnfacht werden: Einer Chance von 10•0.33
= 3.3 ≈ 77:23 entspricht dann eine Wahrscheinlichkeit von etwa 77%.
Für sehr kleine p ist die Chance p/(1-p) etwa gleich p, weil 1-p etwa gleich 1 ist. Für p = 0.01
ist die Chance 1:99 ≈ 0.0101. Für sehr große p ist die Chance p/(1-p) ungefähr gleich 1/(1-p)
weil p etwa gleich 1 ist. Für p = 0.99 ist die Chance 99:1 = 99 ≈ 1/(1-p) = 1/0.01 = 100.
Wenn man zwei Gruppen A und B bzgl. einer Erfolgswahrscheinlichkeit vergleicht, kann man
die Differenz pA - pB, den Quotienten pA / pB und das Chancenverhältnis
pA
1 − pA
pB
1 − pB
berechnen. Wenn man sich nun aber für die Wahrscheinlichkeiten für einen Misserfolg
interessiert, also für 1-pA und 1-pB, dann erfüllt die Differenz eine „Symmetriebedingung“:
(1 − p A ) − (1 − p B ) = −[ p A − p B ]
Der Quotient aus pA und pB erfüllt keine derartige Symmetriebedingung. Es gilt i.a.
pA / pB ≠ [(1-pA) / (1-pB)]-1.
Für das Chancenverhältnis von pA und pB gilt aber offensichtlich:
[Chancenverhältnis von pA und pB] = 1 / [Chancenverhältnis von 1-pA und 1-pB].
107
P.Martus, Multivariate Statistik, SoSe 2009
Dies ist einer von vielen Gründen, warum Chancen und Chancenverhältnisse in der
multivariaten Statistik für Häufigkeiten so beliebte Parameter sind.
Im Englischen heißt Chance „odds“ und Chancenverhältnis „odds ratio“. Auch in deutschen
Texten werden im allgemeinen diese englischen Wörter verwendet.
6.9 Parameterinterpretation
Im finalen Aderhautmelanom-Modell ergaben sich die folgenden Parameterschätzungen:
β0
β1
β2
β3
β4
-24.222
1.312
5.661
3.339
---
Standardfehler
3.937
0.363
1.008
0.926
---
P-Wert
<0.001
<0.001
<0.001
<0.001
---
≈0
3.713
287.293
28.177
---
Parameter
Wert
odds ratio*
*vgl.6.8
Was bedeuten die genannten Parameter für die Modell-basierte Wahrscheinlichkeit einer
Metastase?
Im linearen Modell
E(Yi) = β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4
führt eine Änderung der Kovariable Xij um 1 zu einer Änderung des Erwartungswertes von Yi
um βj. Das bedeutet Y(Xi+1) = Y(Xi) + βj bei festen Werten für die anderen Kovariablen.
Beim Weihnachtsgänsebeispiel mit unterschiedlichen Intercepts und identischer Steigung
(5.26):
Gewicht
Gewicht
Gewicht
=
=
=
-0.49 + 0.49•Alter + ε
-0.76 + 0.49•Alter + ε
1.43 + 0.49•Alter + ε
Georgia
Victoria
Wisconsin
nehmen die Gänse in allen Bundesstaaten pro Woche um 0.49 Pfund zu. Dies gilt sowohl für
die erste als auch für jede andere Woche.
Für das logistische Regressionsmodell
ln
p
1− p
=
β 0 + β1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4
erhöht eine Änderung der Kovariable Xj um 1 den logit ln[p/(1-p)] um βj . Bezeichnen wir die
ursprüngliche Wahrscheinlichkeit mit px und die neue mit px+1, so erhalten wir
108
P.Martus, Multivariate Statistik, SoSe 2009
ln
p x +1
1 − p x +1
= ln
px
+ βj
1 − px
Durch Anwendung der Exponentialfunktion auf beiden Seiten erhalten wir
p x +1
1 − p x +1
=
px
• exp( β j )
1 − px
p x +1
1 − p x +1
px
1 − px
= exp( β j ) .
bzw.
Mit anderen Worten: βj ist die logarithmierte odds ratio für die Wahrscheinlichkeiten bei
Änderung der Kovariablen Xj um eine Einheit.
In Softwarepaketen wird standardmäßig mit βj auch exp(βj) angegeben, so dass man die odds
ratio direkt ablesen kann.
Im Beispiel erhalten wir also bei Erhöhung der Genexpression um eine Einheit (Modelle 1b,
1c, 1d) odds ratios von
227
für Gen 1
23
für Gen 2
17
für Gen 3.
Diese Gene haben aber Streuungen von 0.25, sodass es realistischer wäre, die odds ratios z.B.
für Erhöhung der gemessenen Intensität um 0.1 oder 0.25 zu betrachten:
Erhöhung um
.
0.1 Einheiten
0.25 Einheiten
für Gen 1
1.72
3.88
für Gen 2
1.37
2.19
für Gen 3
1.33
2.03
Patienten mit dem gefährdeten Subtyp haben gegenüber Patienten mit normalem Subtyp eine
odds ratio für Metastasen von 4.53.
.
Der Intercept kann als odds der „Basiswahrscheinlichkeit“ für Metastasen bei Patienten ohne
Expression der Risikogene und mit normalem Tumortyp interpretiert werden. Ein intercept
von β0 = 0 würde einer Basiswahrscheinlichkeit von 50% entsprechen.
´
109
P.Martus, Multivariate Statistik, SoSe 2009
6.10 Codierung
Eine Änderung der Codierung einer stetigen Variable um einen festen Faktor 1/c ändert den
Parameter von β auf cβ und die zugehörige odds ratio von exp(β) auf exp(cβ) = exp(β)c.
Allgemein führt eine Verdopplung von β zu einer Quadrierung der odds ratio usw.
Bei kategoriellen Variablen muss man genau dieselben Überlegungen anstellen wie im
linearen Modell: Man kann dummy-Codierungen mit Referenzkategorien wählen und erhält
als intercept die odds der jeweiligen Referenzkategorie. Der Vergleich zwischen den
Kategorien ergibt dann odds ratios.
Alternative Codierungen führen auf der logit Skala zu denselben Überlegungen wie beim
linearen Modell (vgl. 5.25). Auf der odds ratio Skala müssen Quotienten anstelle von
Differenzen betrachtet werden. Beispiele siehe Übung.
6.11 Vorbemerkungen zur Modellprüfung
In der logistischen Regression ist die Zielgröße Y für jeden Kovariablenvektor binomialverteilt mit Erwartungswert p abhängig vom Kovariatenvektor. Dies hat bzgl. der Varianz
von Y zwei Konsequenzen, die im Gegensatz zum linearen Modell stehen:
•
•
Die Varianzen der Einzelbeobachtungen sind verschieden.
Der Erwartungswert von Y, p, legt die Varianz von Y, p•(1-p), eindeutig fest.
Aus der ersten Konsequenz folgt, dass Kleinst-Quadrate-Schätzungen hier nicht adäquat sind,
die logistische Regression also „schwieriger“ als die lineare Regression ist.
Aus der zweiten Konsequenz folgt dagegen, dass man σ2 nicht schätzen muss. Das bedeutet
insbesondere, dass man überprüfen kann, ob die Abweichung der beobachteten Werte (Yi = 0
oder Y=1) von den im Modell vorhergesagten Werten (pi ∈ ]0,1[) zu groß ist.
6.12 Prüfung der Residuen
Wie in der linearen Regression berechnen wir die rohen Residuen, also die Differenzen
Yi − Yˆi .
Diese Residuen haben für Yi= 1 den Wert 1- p̂i und für Yi = 0 den Wert 0- p̂i = - p̂i .
Standardisieren wir diese Residuen bzgl. ihrer geschätzten Varianz pˆ i (1 − pˆ i ) , so erhalten wir
resi =
Yi − Yˆi
=
Yˆi • 1 − Yˆi
(
)
Yi − pˆ i
pˆ i • (1 − pˆ i )
Man sieht durch Einsetzen, dass für
110
P.Martus, Multivariate Statistik, SoSe 2009
pˆ i
(1 − pˆ i )
resi = −
Yi = 0:
und für
Yi =1: resi = −
(1 − pˆ i )
pˆ i
Dies lässt sich folgendermaßen plausibel machen: Wenn Yi = 0 beobachtet wurde, sollte die
vom logistischen Regressionsmodell vorhergesagte Chance für einen Erfolg niedrig sein,
wenn Yi = 1 beobachtet wurde, sollte die vorhergesagte Chance für einen Misserfolg niedrig
sein.
Die Residuen sind einfach die Quadratwurzeln dieser Chancen.
Man beachte allerdings, dass für p̂i = 0.5 das Residuum immer -1 oder +1 ist.
Die Residuenprüfung ist also sinnvoll für Beobachtungen, deren vorhergesagte
Wahrscheinlichkeiten nahe bei null oder eins sind.
6.13 Prüfung der Gesamtmodellgüte mit Hilfe des Tests von Hosmer und Lemeshow
Aufgrund von Problemen der Asymptotik bei stetigen Kovariablen muss man für die Gesamtmodellprüfung die Daten zunächst kategorisieren. Dabei geht man folgendermaßen vor:
1. Man sortiert die Beobachtungen Yi (i=1,...,n) nach den vom Modell vorhergesagten
Wahrscheinlichkeiten p̂i = Yˆi .
2. Man legt eine Zahl G von Klassen fest (üblicherweise G = 10).
3. Man fasst die 10% kleinsten Werte pi zur Klasse K1 zusammen, die nächst größeren
zur Klasse K2 usw. bis man die größten 10% Werte zur Klasse K10 zusammengefasst
hat.
4. Man bestimmt für jede Klasse Kg (g=1,...,G) die Anzahl von Beobachtungen ng ≈ n/G,
die Zahl der beobachteten Treffer obs g = ∑i∈K Yi und die beobachtete Durchschnittsg
wahrscheinlichkeit der Klasse g, πg = obsg/ng.
5. Man bestimmt für jede Klasse Kg (g=1,...,G) durch Aufsummieren der p̂i die
erwartete Zahl von „Treffern“ expg = ∑i∈K pˆ i .
g
6. Man setzt in die übliche Chi-Quadrat-Test Formel ein:
χ = ∑g =1
2
G
(obs
− exp g )
2
g
Varg
mit
Varg = n g • π g • (1 − π g )
111
P.Martus, Multivariate Statistik, SoSe 2009
Wenn das Modell korrekt ist, ist χ2 tatsächlich Chi-Quadrat verteilt mit G-2 Freiheitsgraden.
Man muss also den kritischen Wert der entsprechenden Verteilung mit dem aus der
Stichprobe berechneten Wert vergleichen.
Wie für alle „Goodness of Fit Tests“ trifft auch für diesen Test die Kritik zu, dass man mit
der Absicht testet, die Nullhypothese beizubehalten. Man sollte deswegen auch immer „naiv“
die Differenzen obsg - expg und πg - expg/ng beurteilen.
6.14 Die Maximum-Likelihood-Methode im allgemeinen Fall
Es sei (Ω ,P) ein p-dimensionaler parametrischer statistischer Raum mit
Ω ⊆ Rn und P = {Pβ | β ∈ Β ⊆ Rp}.
Dann heißt für festes x ∈ Ω die Funktion
Lx : Β → [0,1],
Lx ( β ) = Pβ ( x)
Likelihoodfunktion für x. Der Verweis auf x wird meistens weggelassen, wenn keine
Missverständnisse möglich sind.
Mit l bezeichnet man den (natürlichen) Logarithmus ln(L) der Likelihoodfunktion L und
nennt l die Log-Likelihood.
Falls er eindeutig bestimmt ist, bezeichnet man den Parameterwert β̂ , der l (oder äquivalent
L) maximiert, als Maximum-Likelihoodschätzung.
6.15 Eigenschaften der Maximum-Likelihood Schätzung und Informationsmatrix
Für zweimal differerenzierbares l bzw. L findet man βˆ mittels Kurvendiskussion durch
Nullsetzen der Ableitung von l nach β also i.a.
()
∂l ˆ
β
∂β
= 0 und
()
∂ 2l ˆ
β
∂β 2
< 0.
Diese Formeln gelten nicht, wenn βˆ ein Randpunkt des Parameterbereichs B ist.
Die zweite Ableitung der Log-Likelihood hat noch eine weitere wichtige Eigenschaft:
Je stärker für ein bestimmtes x die Krümmung von l an der Stelle des Maximums ist, desto
„unwahrscheinlicher“ wird x für Parameterwerte β, die in der Nähe von βˆ liegen. Dies
bedeutet aber statistisch gesehen, dass eine starke Krümmung von L, also ein (absolut)
gesehen großer Wert von
∂ 2l ˆ
∂β 2
(β )
112
P.Martus, Multivariate Statistik, SoSe 2009
dazu führt, dass das Konfidenzintervall für βˆ klein ist. Das wiederum bedeutet, dass die
Varianz und damit der Standardfehler von βˆ klein sind.
Für den p-dimensionalen Parameterwert β bezeichnet man die p•p-Matrix
⎛ ∂ 2l
⎞
⎜⎜ − 2 (β )⎟⎟
⎝ ∂β
⎠
deswegen auch als Informationsmatrix oder Fisher-Information I(β).
6.16 Asymptotische Verteilung des Maximum-Likelihood Schätzers - Hauptsatz
Unter bestimmten Annahmen gilt der folgende zentrale Satz (vgl. 6.5):
Es bezeichne β den wahren Parametervektor und βˆ den Maximum Likelihood-Schätzer in
einem korrekt spezifizierten statistischen Modell.
Dann ist βˆ asymptotisch normalverteilt mit Varianz-Kovarianzmatrix
1
• I ( β ) −1
n
Äquivalent dazu ist die Formulierung:
Es sei βˆn eine Folge von Maximum-Likelihood-Schätzern aus Stichproben des Umfangs n.
Dann gilt
(
n βˆn − β
)
(
→∞
⎯n⎯
⎯→ N 0, I ( β ) −1
)
Satz und Beweis für die iid-Situation finden Sie im Buch von Lehmann (Lehmann EL,
Elements of Large Sample Theory, Springer 1999, Theorem 7.3.1, Seite 469)
Die folgenden Abschnitte sind sehr theoretisch, kein Prüfungsstoff und werden hier nur als
„Service“ dargestellt.
6.17 Voraussetzungen für 6.16, einfachster Fall
Die Voraussetzungen für Satz 6.16 sind technischer Natur und in den meisten Anwendungen
erfüllt. Eine Ausnahme stellen sog. Mischverteilungen dar, die hier nicht behandelt werden.
Die Voraussetzungen werden hier zunächst für eindimensionale Parameter und identisch
verteilte Zufallsvariablen X1,..., Xn angegeben.
Es sei (Ω ,P) ein 1-dimensionaler parametrischer statistischer Raum mit P = {Pβ | β ∈ Β ⊆
R}. Es gelte
113
P.Martus, Multivariate Statistik, SoSe 2009
A1
Für β1 ≠ β2 gilt Pβ1 ≠ Pβ2.
A2
Der Parameterraum Β ist eine offene Teilmenge des Rp.
A3
Die Beobachtungen X1,...,Xn sind unabhängig und identisch verteilt (iid) nach Pβ.
Die Dichte Pβ ist entweder diskret oder stetig (aber nicht gemischt).
A4
Wenn für ein x1 und ein β1 die Wahrscheinlichkeit bzw. Dichtefunktion positiv ist,
dann ist für dieses x1 und beliebiges β∈ Β diese Funktion positiv.
A5/6 Die Likelihoodfunktion L ist für alle x dreimal stetig nach β differenzierbar. Für alle
drei Ableitungen dürfen Integration der Dichte und Differentiation nach β
vertauscht weden.
Es existiert eine Schranke c(β) und eine von β abhängige Funktion x a Mβ, so dass
der Erwartungswert Eβ (Mβ) < ∞ ist und die dritte Ableitung der Loglikelihood l für
alle x und für jedes β’ mit |β’-β| < c (β) durch Mβ(x) beschränkt ist.
A7
Für eindimensionale Parameter ist auch die folgende Voraussetzung unproblematisch:
B1
Die Likelihoodfunktion hat für alle Parameter β ein eindeutiges Maximum.
Diese Voraussetzungen können im Buch von Lehmann (s.o.) nachgelesen werden.
Mit den obigen Voraussetzungen decken wir nicht einmal den Fall der einfachen linearen
Regression, geschweige denn die multiple oder logistische Regression ab. In den folgenden
Abschnitten werden wir eine Familie von Wahrscheinlichkeitsverteilungen und eine Familie
von statistischen Modellen definieren, die lineare und logistische Regression umfassen. Dann
werden wir die Voraussetzungen für den Satz 6.16 in dieser Modellfamilie formulieren.
6.18 Exponentialfamilien
Eine mit Parameter β parametrisierte Familie von Wahrscheinlichkeitsverteilungen heißt
Exponentialfamilie, wenn sich jede Verteilung durch eine Dichtefunktion der Form
f ( y; β ) = f 1 ( y ) • f 2 ( β ) • f 3 ( y; β )
mit festen und bekannten Funktionen f1, f2, f3 darstellen lässt und die Funktion f3 die
(einfache) Form
e a ( y )•b ( β )
mit bekannten Funktionen a(y) und b(β) hat. In vielen Fällen gilt sogar a(y) = y und man kann
dann einfach statt β den Parameter b(β) wählen, sodass dann
ln ( f 3 ) = y • β
114
P.Martus, Multivariate Statistik, SoSe 2009
gilt.
6.19 Beispiele für Exponentialfamilien
Die meisten gängigen Verteilungen gehören zu Exponentialfamilien:
•
•
•
•
Binomialverteilung
Normalverteilung
Poissonverteilung
Gammaverteilung
Mit Ausnahme der Normalverteilung ist die Varianz für die genannten Verteilungen durch
eine Varianzfunktion und einen Dispersionsparameter Φ (z.B. Fallzahl n) mit dem
Erwartungswert verknüpft. Es gilt dann σ2 = Φ*f(μ).
Für die Binomialverteilung mit Parameter p ist f z.B. gleich p•(1-p), für die Poissonverteilung
mit Parameter α ist f gleich der Identität (σ2 = α = μ) und für die Normalverteilung setzt man
f = 1 und erklärt die vom Erwartungswert unabhängige Varianz durch σ2 = Φ.
Keine Exponentialfamilie stellen z.B. die Gleichverteilungen auf [-β,+β] dar.
6.20 Das Verallgemeinerte Lineare Modell
Es bezeichne wie im linearen Modell Y eine Zielgröße, X1,...,Xp Kovariablen und β1,..., βp
reellwertige Parameter.
Wir sprechen von einem
Verallgemeinerten Linearen Modell,
wenn die Verteilungen der Zielgröße Y aus einer festen
Exponentialfamilie
stammen und jeweils der Erwartungswert von Y mit dem
linearen Prädiktor ηi = β0+β1Xi1+β2Xi2+...+βnXip
durch eine sogenannte Linkfunktion g verknüpft ist. Es muss also gelten
g[E(Y)] = η .
Eine verständliche Einführung in Verallgemeinerte Lineare Modelle finden Sie z.B. im Buch
von Annette J. Dobson (Dobson AJ, An introduction to generalized linear models, 1.ed.
Chapman & Hall, 1990).
6.21 Voraussetzungen für 6.16, allgemeiner Fall
115
P.Martus, Multivariate Statistik, SoSe 2009
Wegen der Einschränkung A3 (iid) konnten wir den Satz 6.16 noch nicht auf „Modelle“
(multiple lineare Regression, logistische Regression) anwenden, bei denen ja die
Verteilungen Pβ noch von den Kovariablen X abhängen.
Bis auf A3 sind im verallgemeinerten linearen Modell sind die Voraussetzungen A1-A7 und
B1 erfüllt. Zusätzlich müssen noch die folgenden Voraussetzungen erfüllt sein, damit Satz
6.16 weiterhin gültig ist:
C1
Die Dispersionsparameter Φi sind für die Stichproben Xi nach oben und unten
beschränkt.
C2
Die zulässige Parametermenge Β ist eine offene Teilmenge des Rp.
C3
die Kovariablenwerte X müssen für wachsenden Stichprobenumfang beschränkt
bleiben (vereinfacht ausgedrückt).
C4
Die Kovariablenmatrix darf für wachsendes n nicht asymptotisch abhängige Spalten
haben.
C5
Die Ableitung der Funktion, die den Erwartungswert mit dem linearen Term Xβ
verknüpft (im Beispiel: ln[p/(1-p)]) muss beschränkt bleiben.
Diese Bedingungen bedeuten einfach, dass man bei Standardanwendungen
•
•
auf Ausreißer achten muss
auf Multikollinearität achten muss
und dass man für ausgefallenere Anwendungen mit speziellen Wahrscheinlichkeitsmodellen
•
nicht ad hoc Übertragungen der Maximum-Likelihood Methode verwenden darf.
Eine exakte Formulierung der Voraussetzungen und einen Beweis für 6.16 finden Sie im
Buch von Shao (Shao J, Mathematical Statistics, 1.ed. Springer 1999, Theorem 4.18 und
Abschnitt 4.4.2).
116
P.Martus, Multivariate Statistik, SoSe 2009
Teil 7
Nichtlineare Regression
7.1 Vorbemerkung
Wir haben in Teil 6 eine Verallgemeinerung des linearen Modells kennengelernt, bei der die
Linearität nur in einem „Schritt“, nämlich der Verknüpfung des Erwartungswerts einer
Zufallsgröße mit dem „üblichen“ linearen Prädiktor durch die Linkfunktion, verletzt war. Die
große Flexibilität des Verallgemeinerten Linearen Modells ergab sich durch die Vielfalt der
Wahrscheinlichkeitsverteilungen in Exponentialfamilien.
Die in Teil 7 behandelten Modelle sind dagegen „echt nichtlinear“, wie wir an den folgenden
Beispielen sehen werden, insofern also flexibler als die Verallgemeinerten Linearen Modelle.
Allerdings gehen wir jetzt wieder von normalverteilten Fehlern, die mit den wahren Werten
additiv verknüpft sind, aus. In Bezug auf die möglichen Wahrscheinlichkeitsverteilungen sind
die Verallgemeinerten Linearen Modelle also der flexiblere Ansatz.
Der große Vorteil der nichtlinearen Modelle ist, dass man Informationen über die
physiologischen Mechanismen direkt in die statistische Modellierung eingehen lassen kann.
Die Darstellung dieses Teils der Vorlesung orientiert sich an dem bekannten Buch von Draper
und Smith sowie an dem Buch Nonlinear Regression analysis and its applications von
Douglas M Bates und Donald G Watts (Wiley 1988).
7.2 Beispiel einer deterministischen nichtlinearen Beziehung
Das Michaelis Menten Modell der Enzymkinetik beschreibt die initiale Geschwindigkeit v
einer Enzymreaktion als Funktion der Substratkonzentration x in Abhängigkeit eines
zweidimensionalen Parametervektors θ1, θ2:
v =
f ( x ,θ ) =
f ( x ,θ 1 ,θ 2 ) =
θ1 x
θ2 + x
.
Offenbar wächst für θ1, θ2 > 0 die Geschwindigkeit mit steigender Substratkonzentration,
wird aber einen bestimmten Wert nicht übersteigen.
Genauer gesagt bezeichnet θ1 die Maximalgeschwindigkeit, die erreicht wird, wenn die
Konzentration x gegen unendlich geht, und θ2 denjenigen Konzentrationswert, bei dem die
halbe Maximalgeschwindigkeit θ1 erreicht wird, wie man durch Einsetzen in die Funktion f
leicht überprüft.
117
P.Martus, Multivariate Statistik, SoSe 2009
7.3 Das Puromycin Experiment (nach Bates DM, Watts DG 1988)
Aus einem Experiment zur Enzymkinetik von Puromycin sollen die Parameter θ1, θ2
geschätzt werden.
Substrat Konzentration
[ppm]
Geschwindigkeit
[counts/min2]
0.02
0.06
0.11
0.22
0.56
1.10
76
47
97
107
123
139
159
152
191
201
207
200
Die folgende Grafik zeigt die Rohdaten.
7.4 Parameterschätzung in der nichtlinearen Regression
Die Parameterschätzung erfolgt durch Minimierung der Fehlerquadratsumme
∑ (Y
n
i =1
i
)
2
− Yˆi .
Dies erfolgt wie im linearen Modell durch Nullsetzen der ersten Ableitung dieser Summe:
∑
n
i =1
(Y − Yˆ )
θ
∂
2
i
i
(
) θ( )
∂
n
= −∑i =1 2 Yi − Yˆi • Yˆi .
Wie man leicht sieht, sind die beiden partiellen Ableitungen von f(x, θ1, θ2) nach θ1 und θ2
gleich
x
θ2 + x
bzw.
−
θ1 x
(θ 2 + x )2
.
Im Gegensatz zum linearen Modell treten hier die Parameter θ1 und θ2 nicht nur in Yˆ sondern
auch in den partiellen Ableitung von f nach θ1 und θ2 auf. Dies ist der Grund, warum iterative
Verfahren angewendet werden müssen.
118
P.Martus, Multivariate Statistik, SoSe 2009
Genauer gesagt gilt folgendes:
In
( )
( )
∂ ˆ
∂ ˆ
Yi taucht der Term θ1 nicht auf, allerdings der Term θ2. In
Yi tauchen beide Terme
θ1
θ2
θ1 und θ2 auf. Das bedeutet, man könnte zwar bei bekanntem θ2 den Parameter θ1 wie im
linearen Modell schätzen (θ1 ist konditional linear), bei bekanntem θ1 aber nicht den
Parameter θ2.
Wenn in
( )
∂ ˆ
Yi der Parameter θ2 nicht vorkäme, müsste man zwar auch iterative Verfahren
θ2
anwenden, diese wären aber in jedem Einzelschritt linear, wenn man immer abwechselnd die
Schätzung von θ1 und von θ2 in Abhängigkeit des jeweils anderen Parameters aktualisieren
würde.
Da aber nicht einmal dies erfüllt ist, müssen nicht nur iterative Verfahren verwendet werden,
sondern auch für jede Iteration nichtlineare Probleme gelöst werden.
Für alle iterativen Verfahren müssen Startwerte der Parameterschätzung vorgegeben werden.
Die Qualität der Ergebnisse kann deutlich von diesen Startwerten abhängen, weil es
mehrfache lokale Minima der Fehlerquadratsumme geben kann, die abhängig vom Startwert
durch iterative Algorithmen angenähert werden.
Wir werden für das Puromycin-Experiment sehen, wie ungeschickte Startwerte zu falschen
Ergebnissen führen können. Bevor wir einen einfachen Algorithmen beschreiben präsentieren
wir die Ergebnisse des Beispiels.
7.5 Fortsetzung des Beispiels
Man erhält θˆ1 = 212.68, θˆ2 = 0.0641 und die „konkurrierenden“ Quadratsummenzerlegung
Modell nur mit Intercept
Gesamt
Intercept
Korrigiert
271409
240550
30859
Modell ohne Intercept mit Parametern θˆ1 und θˆ2
Gesamt
Regression
Residuen
271409
270213
1195
„Korrigiertes Modell“
„deswegen“
Gesamt
Residuen
30859
1195
Regression
29664
119
P.Martus, Multivariate Statistik, SoSe 2009
Die entsprechende Modellgleichung lautet
v =
212.68 • x
0.0641 + x
Die folgende Grafik zeigt, dass sich das Modell offenbar nicht in einem lokalen Minimum
„verloren“ hat.
Die Krümmung nahe bei Null ist ein Artefakt der Grafik, nicht der Lösung.
7.6 Abhängigkeit vom Startwert.
Für das Modell in 7.5 wurden die Startwerte 200 und 0.05 gewählt, also Näherungen für die
aus der Grafik in 7.3 ablesbare „Sättigungsgeschwindigkeit“ 200 und eine grobe Vermutung
für die Konzentration, die zur halben Sättigungsgeschwindigkeit führt, also zur Sättigungsgeschwindigkeit 0.05.
Führt man dieselben Berechnungen für ungeschickte Starwerte, z.B. θˆ10 = θˆ20 = 0.01 durch,
erhält man nach 53 Iterationen völlig unsinnige Ergebnisse:
θˆ1 = 25.95, θˆ2 = -0.4895
Die entsprechende Grafik sähe folgendermaßen aus:
120
P.Martus, Multivariate Statistik, SoSe 2009
Offenbar wurde bei diesem lokalen Minimum der Fehlerquadratsumme die Geschwindigkeit
für x = 0.60 gut angenähert und der entsprechende Parameterwert stellt zumindest numerisch
ein lokales Minimum der Abweichungsquadratsumme dar.
7.7 Linearisierung
Bei manchen nichtlinearen Modellen ist es möglich, durch Transformation der Messgrößen
und der Parameter ein bzgl. des deterministischen Teils äquivalentes lineares Modell zu
finden. Wenn man im Michaelis Menten Modell
v =
θ1 x
θ2 + x
die inversen Geschwindigkeiten 1/v betrachtet, gelangt man zur Gleichung
1
v
=
θ2 + x
θ1 x
=
1
θ1
+
θ2 1
,
θ1 x
die man mit y =1/v, u = 1/x, 1/θ1 = β0 und θ2/θ1 = β1 als lineares Modell
E(y) = β0 + β1u
darstellen kann. Man kann für dieses Modell die Parameter β0 und β1 schätzen und dann
durch die Rücktransformation
θ1 = 1/β0
und
θ2 = β1θ1 = β1/β0
auch die eigentlich interessanten Parameter erhalten.
121
P.Martus, Multivariate Statistik, SoSe 2009
Die folgende Grafik zeigt das linearisierte Modell mit 1/v und 1/x:
Es fällt auf, dass zwar ein deutlicher linearer Zusammenhang besteht, dass aber die Varianzen
offensichtlich ungleich sind.
Die Regressionsgleichung für das linearisierte Modell lautet:
1/v = 0.0051072 + 0.0002472•1/c
Die retransformierten Parameter lauten entsprechend
θ1 = 195.81 und θ2 =0.0484
sodass die geschätzte Gleichung auf der ursprünglichen Skala lautet
v =
195.81 • x
.
0.0484 + x
7.8 Zur Problematik der Linearisierung bei stochastischen Modellen
Wir betrachten die Michaelis Menten Gleichung mit einem stochastischen Fehlerterm:
v =
θ1 x
θ2 + x
+ε
ε ~ N (0,σ 2 )
mit zu schätzendem σ2, das für alle Beobachtungen als konstant angenommen wird. Es ist
leicht zu sehen, dass im linearisierten Modell
1
v
=
1
θ1
+
θ2 1
+ ε'
θ1 x
122
P.Martus, Multivariate Statistik, SoSe 2009
die Annahme ε ' ~ N (0,σ ' 2 ) , also normalverteilte Fehler mit einer anderen, aber ebenfalls
konstanten Varianz, unrealistisch ist. Dies ist keineswegs nur eine theoretische Überlegung,
wie die Grafik im vorangegangenen Abschnitt 7.7 gezeigt hat.
Die Konsequenz für das zurücktransformierte Modell zeigt die folgende Grafik.
Diese offensichtliche Abweichung des Modells von den tatsächlichen Daten erkennt man
übrigens nicht, wenn man einfach die von beiden Modellen vorhergesagten Werte vergleicht:
Hier steht auf der x-Achse der aus dem linearisierten Modell und auf der y-Achse der aus dem
ursprünglichen Modell vorhergesagte Wert für v. Die Abweichung von der Geraden ist
minimal, dennoch ist das nichtlineare Modell den Daten eindeutig angemessener.
123
P.Martus, Multivariate Statistik, SoSe 2009
7.9 Die Alternative „Gewichtete Kleinstquadratschätzung“
Die Linearisierung des Modells führte zur offensichtlichen Varianzenungleichheit. Diese kann
jedoch, wie wir aus Teil 5 wissen, durch eine gewichtete Kleinstquadrateschätzung
berücksichtigt werden.
Bezeichnet man für die fünf untersuchten Konzentrationen i=1,...,5 die beiden
Einzelmessungen mit Yi1 und Yi2 und den Mittelwert mit Y i , dann erhält man als Schätzung
für die Varianz von Yi den Term
2
2
2
Y +Y ⎞ ⎛
Y +Y ⎞
2
1
⎛
⎛Y −Y ⎞ ⎛Y −Y ⎞
∑ (Yij − Y i ) 2 = ⎜⎝Yi1 − i1 2 i 2 ⎟⎠ + ⎜⎝Yi 2 − i1 2 i 2 ⎟⎠ = ⎜⎝ i1 2 i 2 ⎟⎠ + ⎜⎝ i 2 2 i1 ⎟⎠
2 − 1 j =1
=
2
1
(Yi1 − Yi 2 )2 .
2
Man kann also die Absolutdifferenzen als empirische Gewichte Var verwenden. Dies führt
dann zur Parameterschätzung θ1 = 215.78 und θ2 =0.0725:
Die folgende Grafik zeigt die Anpassung der Punkte durch diese Funktion. Sie liegt auf jeden
Fall deutlich näher am wahren Wert aus der nichtlinearen Regression als die Anpassung aus
der ungewichteten Linearisierung 7.7:
124
P.Martus, Multivariate Statistik, SoSe 2009
7.10 Signifikanzprüfung
Es liegt nahe, aufgrund der Annahme normalverteilter Fehlerterme auch in der nichtlinearen
Regression für den Vergleich von Teilmodellen F-Tests und für die Prüfung von
Einzelparametern t-Tests zu verwenden. Die entsprechenden Formeln wären dann
F
SSQ ( Modell ) / ( p )
RSSQ / (n − p )
=
und
t=
θˆ
SE (θˆ)
()
SE θˆ
mit
=
Kommentar [KF1]: Seite: 122
V jjσ 2
wobei n die Zahl der Beobachtungen, p die Zahl der Parameter, V jj das zu Θj gehörige
Diagonalelement der Matrix
⎡⎛ ∂f ( X , θ ) ⎞ t ⎛ ∂f ( X , θ ) ⎞⎤
i
i
⎟⎜
⎟⎥
⎢⎜
⎢⎜⎝ ∂θ j ⎟⎠ ⎜⎝ ∂θ j ⎟⎠⎥
⎣
⎦
−1
bezeichnet und man σ 2 durch die Schätzung
σˆ 2 =
RSSQ
n− p
ersetzen darf. Allerdings kann man zeigen, dass diese Formeln nur approximativ gelten und
von einer linearen Näherung in der Nähe des wahren Parameters ausgehen. Insbesondere bei
kleinen Stichproben, schwachen Effekten oder fehlspezifizierten Modellen können die
Ergebnisse schlichtweg falsch sein.
7.11 Fortsetzung des Beispiels
Wir erhalten im Beispiel die folgenden Ergebnisse.
( )
θˆ1 = 212.68, SE θˆ1 = 6.95, t > 30;
( )
θˆ2 = 0.0641, SE θˆ2 = 0.0082, t > 7
und F = [270213/2]/[1195/10] > 500.
Die entsprechenden Signifikanztests (gegen Parameterwerte 0) sind natürlich hochsignifikant,
von größerem Interesse sind aber die beiden 95% Konfidenzintervalle
θˆ1 ∈ [197.2 , 228.2];
θˆ2 ∈ [0.0457 , 0.0826] .
Bates und Watts zeigen, dass diese Ergebnisse glaubwürdig sind. Im allgemeinen sollte man
jedoch den Hinweis aus 7.10 immer berücksichtigen und z.B. die Ergebniskurven für die
Grenzen der Konfidenzintervalle plotten.
125
P.Martus, Multivariate Statistik, SoSe 2009
7.12 Zur numerischen Lösung des Schätzproblems der nichtlinearen Regression
In der Literatur werden verschiedene Verfahren für die Kleinstquadrateschätzung in der
nichtlinearen Regression beschrieben, die alle darauf beruhen, die Fehlerquadratsumme
∑ (Y
n
i =1
i
− Yˆi
)
2
zu minimieren. Wir werden hier das einfachste Verfahren, die Linearisierung, darstellen.
Weitere Verfahren, z.B. das bereits erwähnte Newton-Raphson Verfahren, die Methoden des
steilsten Abstiegs („steepest descent“) und eine Verbindung aus dem Verfahren der
Linearisierung und des steilsten Abstiegs, der „Kompromiss von Marquardt“ (Marquardt’s
Compromise) sind in den genannten Büchern von Draper und Smith und von Bates und Watts
nachzulesen.
7.13 Linearisierung
Wir gehen davon aus, dass wir im Linearen Modell
Y = Xβ + ε
für eine Stichprobe Y0 die Kleinstquadrateschätzung β0 bereits kennen. Nun stellen wir fest,
dass zwar die Kovariablenwerte X korrekt gemessen wurden, aber die Stichprobe Y0
korrigiert werden muss. Die tatsächliche Stichprobe möge nun Y sein. Die Differenzenstichprobe ist also Y - Y0. Uns interessiert nun, wie sich β0 ändert, wenn wir die korrekte
Stichprobe Y anstelle von Y0 für eine Kleinstquadrateschätzung zugrundelegen.
Ganz allgemein gilt ja für beliebiges β
Xβ = Xβ0 + X(β-β0).
Insbesondere erhält man für die Kleinstquadrateschätzung
X β̂ = Xβ0 + X( β̂ -β0)
Mit Y = X βˆ +ε erhält man aus der vorangegangenen Gleichung
(Y − Y ) = X βˆ +ε - Xβ0 = X( βˆ -β0) + ε
0
und dieses Regressionsproblem ist bekanntlicherweise durch
( β̂ -β0) = (X t X ) X t (Y − Y 0 )
−1
lösbar. Mit anderen Worten:
Anstatt direkt β̂ durch X und Y zu schätzen kann man ( β̂ -β0) durch Y-Y0 und X schätzen.
126
P.Martus, Multivariate Statistik, SoSe 2009
Diese scheinbar umständliche Lösung hätte dann einen Sinn, wenn die Linearität des
ursprünglichen Regressionsproblems Y = Xβ nicht global für alle β, sondern nur in der
„Nähe“ von β0 gelten würde und β0 bereits nahe bei β̂ läge.
Dies beschreibt aber genau die Situation, in der man eine nichtlineare Funktion lokal durch
eine lineare Funktion annähert. Die lineare Annäherung erfolgt über die Taylorreihe. Das
Vorgehen wird im Folgenden beschrieben:
Wir gehen aus von einer Stichprobe Yi (i=1,...,n), gegebenen Kovariablen (X1, ..., Xp), einem
zu schätzenden Parametervektor θ = (θ1, θ2,..., θp) und einer in θ nichtlinearen Funktion
bekannter Gestalt
y
=
f ( x ,θ )
mit unbekanntem θ sowie einem „günstigen“ Startwert θ 0 = (θ10 ,θ 20 ,...,θ p0 ) für den
unbekannten Parametervektor θ.
Unser Ziel ist es, durch ein lineares Modell die Änderung des Parameters θ 0 zum
Parameterwert θ zu schätzen. Deswegen bezeichnen wir ganz bewusst die Differenzen von
beliebigen Parameterwerten θ und dem Startwert θ 0 mit β und wollen dann das optimale β
schätzen. Wir definieren also
β 0j := θ j − θ 0j
( j = 1,K, p ) .
Wenn man nun die Funktion f (Kovariablenwerte X fest, Parameter θ variabel) in der Nähe
des Startwerts θ 0 für jede Beobachtung i (i=1,...,n) einzeln durch eine Taylorreihe erster
Ordnung (nur bis zum linearen Glied) angenähert, erhält man:
p ⎡ ∂f ( X i ,θ ) ⎤
• θ j − θ 0j
f ( X i ,θ ) ≈ f ( X i ,θ 0 ) + ∑ j =1 ⎢
⎥
θ
∂
j
⎦⎥θ =θ 0
⎣⎢
(
)
Mit Yi = f ( X i ,θ ) + ε i erhält man analog zu den vorangegangenen Argumenten
p ⎡ ∂f ( X i ,θ ) ⎤
Yi − f ( X i ,θ 0 ) = f ( X i ,θ 0 ) + ∑ j =1 ⎢
• (θ j − θ 0j ) − f ( X i ,θ 0 ) + ε i
⎥
θ
∂
j
⎦⎥θ =θ 0
⎣⎢
p ⎡ ∂f ( X i ,θ ) ⎤
• (θ j − θ 0j ) + ε i .
= ∑ j =1 ⎢
⎥
⎢⎣ ∂θ j ⎥⎦θ =θ 0
Im linearen Modell war die Kovariablenmatrix X gerade die Matrix der Ableitungen der
Regressionsfunktion nach den Parameterwerten. Diese Ableitungsmatrix war unabhängig
vom gewählten Parameterwert. Beides trifft jetzt nicht mehr zu, wir verwenden aber trotzdem
ganz analog zum linearen Modell die Ableitungsmatrix
127
P.Martus, Multivariate Statistik, SoSe 2009
⎛ ∂f ( X i ,θ ) ⎞
⎜
⎟
⎜ ∂θ
⎟
j
⎝
⎠ i =1,...,n ; j =1,..., p
als Koeffizientenmatrix für das lokal linearisierte Problem.
7.14 Regeln zur nichtlinearen Analyse
•
•
•
•
•
In nichtlinearen Modellen sollte bereits vor der Datenanalyse das Modell feststehen.
„Explorative“ nichtlineare Analyse nur mit Lern-, (evtl. Test-) und Validierungsstichprobe!
In vielen nichtlinearen Modellen verschwindet die spezielle Rolle des Intercepts, die
wir aus linearen und verallgemeinerten linearen Modellen kennen.
Signifikanztests in nichtlinearen Modellen sind problematisch, je „nichtlinearer“ das
Modell ist. Eine Diskussion der Problematik findet sich im Buch von Bates und
Watts, Kapitel 7.
Separate Entscheidungen über einzelne Parameter (Tests, Konfidenzintervalle) sind
doppelt gefährlich, weil oft die Änderung eines Parameters die Änderungen anderer
Parameter nach sich zieht. Man sollte daher eher Konfidenzellipsoide für den
Gesamtparametervektor betrachten.
Im Allgemeinen steht bei nichtlinearen Modellen die Schätzung der Parameter im
Vordergrund, nicht der Signifikanztest. Insofern kann man die nichtlineare Regression
als relativ „unstochastisches“ Verfahren auffassen und als reines Approximationsproblem interpretieren. Dennoch benötigt man die stochastische Denkweise, wenn
man auf Basis der Modellierung Entscheidungen treffen will.
128
P.Martus, Multivariate Statistik, SoSe 2009
Teil 8
Hauptkomponenten- und Faktoranalyse
8.1 Einordnung in den bisherigen Stoff der Vorlesung
In den bisherigen Teilen der Vorlesung haben wir uns mit der Situation beschäftigt, dass eine
Zielgröße Y
durch eine Funktion der
Kovariablen X1, X2, ..., Xp
erklärt werden sollte. Die Zielgröße Y war
•
•
•
normalverteilt mit gleicher Varianz
normalverteilt mit ungleicher Varianz
aus Exponentialfamilie
und die genaue Gestalt der Funktion
•
•
•
linear
linear mit Linkfunktion
nichtlinear
legte die entsprechende Modellklasse
•
•
•
•
Lineares Modell mit Kleinstquadrate Methode
Lineares Modell mit gewichteter Kleinstquadrate Methode
Verallgemeinertes lineares Modell mit Maximum-Likelihood Methode
Nichtlineares Modell mit Kleinstquadrate Methode
fest.
In den in Teil 8 behandelten Modellen haben wir es mit einer Gruppe „gleichberechtigter“
Variablen
Y1, Y2, ..., Yp
zu tun. Die Unterscheidung zwischen Prädiktoren X und Zielgrößen Y fällt weg. Auch
werden diese Zielgrößen nur in einer Stichprobe untersucht.
Die Variablen Y1, Y2, ..., Yp sind i.a. moderat bis hoch korreliert und das Ziel der Analyse
besteht darin, die in Y1, Y2, ..., Yp enthaltene Information auf wesentliche Komponenten
zurückzuführen.
129
P.Martus, Multivariate Statistik, SoSe 2009
8.2 Einführung
Im bereits genannten Beispiel zum Aderhautmelanom betrachten wir die Gesamtgruppe der
Patienten und ignorieren die Information über das Auftreten von Metastasen. Unser Ziel ist
es, für Patienten mit Aderhautmelanom die Expression einer Gruppe von 8 Genen zu
studieren, die mit dem Schweregrad des Aderhautmelanoms in Verbindung stehen könnten.
Die Untersuchung soll sich auf die Patientengruppe beschränken, Vergleiche mit einer
Kontrollgruppe sind hier nicht von Interesse.
Ziel ist es, die Daten der 8 Gene in einer einzigen Variablen zusammenzufassen. Wir
interessieren uns aber nicht für den mittleren Expressionslevel der Gene, dieser wäre bei
Gruppenvergleichen wichtig (vgl. Teil 9 Diskriminanzanalyse). Vielmehr soll die
Zusammenfassung einerseits dazu führen
Patienten möglichst gut zu differenzieren
und andererseits
die in den acht Einzelgenen enthaltene Information möglichst gut wiederzuspiegeln.
Die Zusammenfassung soll durch eine lineare Funktion erfolgen. Wir werden also Funktionen
H (Y1 ,Y2 ,..., Y8 ) = γ 1Y1 + γ 2Y2 + ... + γ 8Y8
untersuchen. Da uns das mittlere Expressionlevel nicht interessiert, arbeiten wir mit zentrierten Variablen, d.h. Y j = 0 (j = 1,...,8) und nehmen keine Konstante γ0 in das Modell auf.
8.3 Berechnungen im Beispiel I
Wir können die Mittelwerte (identisch Null) ignorieren und untersuchen zunächst die
Varianzen und Standardabweichungen der einzelnen Genexpressionslevel.
Deskriptive Statistik
N
gen_1
gen_2
gen_3
gen_4
gen_5
gen_6
gen_7
gen_8
Gültige Werte
(Listenweise)
200
200
200
200
200
200
200
200
Standarda
bweichung
,88934
,71112
,64802
,89305
,91339
,86110
,86325
,82108
Varianz
,791
,506
,420
,798
,834
,741
,745
,674
200
Das erste Ziel der Zusammenfassung der Genexpressionen war es, eine möglichst gute
Differenzierung der Patienten zu erreichen. Ein Maß hierfür wäre die Varianz von
H (Y1 ,Y2 ,..., Y8 ) = γ 1Y1 + γ 2Y2 + ... + γ 8Y8 .
130
P.Martus, Multivariate Statistik, SoSe 2009
Die Varianz der Funktion H hängt natürlich von der Größe der Koeffizienten γj (j=1,...,8) ab.
Wenn man z.B. alle Koeffizienten mit der Konstanten 2 multipliziert erhält man die vierfache
Varianz der Funktion H, obwohl sich an der relativen Gewichtung der Yj nichts geändert hat.
Man muss also eine Standardisierung der Koeffizienten durchführen. Eine vernünftige
Möglichkeit besteht darin, zu verlangen, dass gilt:
γ 12 + γ 22 + ... + γ 82 = 1 .
Diese Annahme werden wir im Folgenden immer treffen. Eine andere Möglichkeit bestünde
darin, VAR(H) = 1 zu verlangen.
Bei unabhängigen Beobachtungen wäre die Lösung ganz einfach: Man wählt als H diejenige
Variable Y mit der größten Varianz. Denn offenbar gilt für unabhängige Variablen
Var (γ 1Y1 + γ 2Y2 + ... + γ 8Y8 ) = γ 12 • Var (Y1 ) + γ 22 • Var (Y2 ) + ... + γ 82 • Var (Y8 )
und diese Summe wird maximal, wenn man das ganze mögliche Gewicht auf die maximale
Varianz legt. In unserem Beispiel hätte man also γ5 = 1, γj = 0 (j≠5) und H = Y5.
Für korrelierte Variablen hat man aber die Beziehung
Var (γ 1Y1 + γ 2Y2 + ... + γ 8Y8 ) =
∑
8
j =1
γ 2j • Var (Y j ) + 2 *∑ γ jγ k Cov (Y j ,Yk )
j ≠k
und die ganze Sache wird komplizierter.
Eine weitere Möglichkeit bestünde darin, allen Variablen gleiches Gewicht zu geben. Das
führt aufgrund der Standardisierungsbedingungen zur Bedingung
γj=
1
.
8
Diese Gewichtung ist aber nicht optimal. Zur Varianz der Summe H trägt ja einerseits die
Varianz der Einzelvariablen bei, andererseits aber auch die Kovarianz der Variablen
untereinander.
Man kann sich also vorstellen, dass diejenigen Variablen besonders hoch gewichtet werden
sollten, die eine hohe Varianz besitzen, andererseits aber auch diejenigen Variablen, die eine
hohe Kovarianz mit anderen Variablen aufweisen.
Für die Bestimmung der optimalen Gewichte muss die Kovarianzstruktur berücksichtigt
werden.
131
P.Martus, Multivariate Statistik, SoSe 2009
Kovarianzmatrix(a)
gen_1
gen_2
,791
,582
,582
,506
,539
,398
,724
,573
,737
,564
,731
,553
,721
,569
,680
,536
a Determinante = 2,094E-09
gen_1
gen_2
gen_3
gen_4
gen_5
gen_6
gen_7
gen_8
gen_3
,539
,398
,420
,535
,488
,480
,504
,491
gen_4
,724
,573
,535
,798
,634
,628
,691
,685
gen_5
,737
,564
,488
,634
,834
,721
,677
,596
gen_6
,731
,553
,480
,628
,721
,741
,653
,586
gen_7
,721
,569
,504
,691
,677
,653
,745
,644
gen_8
,680
,536
,491
,685
,596
,586
,644
,674
Bevor wir die Lösung angeben betrachten wir einfachere Konstellationen mit zwei bzw. drei
Genen.
8.4 Die Situation mit zwei oder drei Genen
Um die Sache zu vereinfachen, betrachten wir nur Gen 1 und Gen 2. Wir untersuchen jetzt
also die Funktionen
H (Y1 , Y2 ) = γ 1Y1 + γ 2Y2
mit der Nebenbedingung
γ 12 + γ 22 = 1 ⇔ γ 2 = 1 − γ 12 .
Wir können für jede Wahl von γ1 ∈ [0,1] sofort die Varianz von H hinschreiben. Es gilt
(
)
Var ( H ( Y1 , Y2 ) ) = γ12 • 0.791 + 1 − γ12 • 0.506 + 2 • γ1 • 1 − γ12 • 0.582
Mit der Substitution
γ1 = sinα
und der bekannten Beziehung
cos2α = 1-sin2α
lässt sich diese Gleichung auflösen. Man erhält γ1 = 0.85 und γ2 = 0.53.
Uns interessiert aber eher qualitativ, wie die beiden Variablen relativ zueinander gewichtet
werden. Deswegen betrachten wir eine Grafik mit der Varianz auf der y-Achse und der
Differenz aus γ1 und γ2 auf der x-Achse.
132
P.Martus, Multivariate Statistik, SoSe 2009
1,00
varianz
0,90
0,80
0,70
0,60
0,50
-1,00
-0,50
0,00
0,50
1,00
dif_gew
Einer Differenz von 0 (dif_gew = γ1 - γ2 = 0) entspricht die Gleichgewichtung der Variablen.
Offenbar liegt das Optimum bei einer stärkeren Gewichtung zugunsten der Variable mit der
größeren Varianz. Aufgrund der Abhängigkeit beider Variablen geht aber auch die Variable
mit der kleineren Varianz in die optimale Funktion H mit ein.
Als nächstes betrachten wir theoretisch die Situation von drei Genen. Wir untersuchen die
folgenden Kovarianzmatrizen:
Gen 1 Gen 2 Gen 3⎞
⎛
⎜
⎟
1
0.2
0.2 ⎟
⎜ Gen 1
⎜ Gen 2 0.2
0.7
0.2 ⎟
⎜⎜
⎟
0.2
0.7 ⎟⎠
⎝ Gen 3 0.2
Gen 1 Gen 2 Gen 3 ⎞
⎛
⎜
⎟
Gen 1
1
0.2
0.2 ⎟
bzw. ⎜
⎜ Gen 2
0.2
0.7
0.6 ⎟
⎜⎜
⎟
0.2
0.6
0.7 ⎟⎠
⎝ Gen 3
Aus Symmetriegründen sollten für beide Kovarianzmatrizen die Gene 2 und 3 identische
Gewichte erhalten, also
H (Y1 , Y2 , Y3 ) = γ 1Y1 + γ 2Y2 + γ 2Y3 .
Weiterhin muss gelten
γ 12 + γ 22 + γ 32 = 1 ⇔ γ 12 + 2γ 22 = 1 ⇔ γ 2 =
1 − γ 12
.
2
Wir betrachten nun ganz analog die Varianz von H in Abhängigkeit der Differenz aus γ1 und
γ2 . Für die erste Kovarianzmatrix ergibt sich
133
P.Martus, Multivariate Statistik, SoSe 2009
1,10
1,05
varianz
1,00
0,95
0,90
0,85
0,80
-1,00
-0,50
0,00
0,50
1,00
dif_gew
Wie im ersten Beispiel wird das erste Gen höher gewichtet als die beiden anderen. Man erhält
das Ergebnis γ1 = 0.89 und γ2 = 0.39.
Für die zweite Kovarianzmatrix ergibt sich dagegen die folgende Grafik
1,15
1,125
varianz
1,10
1,075
1,05
1,025
1,00
-1,00
-0,50
0,00
0,50
1,00
dif_gew
.
Die optimalen Gewichte lauten jetzt γ1 = 0.71 und γ2 = 0.50. Offenbar führt die höhere
Kovarianz von Gen 2 und Gen 3 zu einer höheren Gewichtung gegenüber Gen 1.
134
P.Martus, Multivariate Statistik, SoSe 2009
8.5 Berechnungen im Beispiel II
Die gesuchte Funktion im Beispiel lautet
0.395*Y1 + 0.306*Y2 + 0.274*Y3 + 0.377*Y4 + 0.377*Y5 + 0.363*Y6 + 0.372*Y7 +
0.348*Y8
Das höchste Gewicht erhält die Variable Y1, das niedrigste die Variable Y3. Dies entspricht
der Tatsache, dass die Variable Y1 eine sehr große Varianz und sehr große Kovarianzen mit
anderen Variablen aufweist.
8.6 Definition Hauptkomponenten
Für p Variablen Y1, Y2, ..., Yp heißt diejenige Linearkombination
H 1 (Y1 , Y2 ,..., Y p ) = γ 1Y1 + γ 2Y2 + ... + γ pY p
mit maximaler Varianz unter allen Linearenkombinationen mit
γ 12 + γ 22 + ... + γ p2 = 1
erste Hauptkomponente dieser Variablen.
8.7 Allgemeine Hauptkomponenten
Nach Konstruktion der ersten Hauptkomponente kann man das Verfahren fortsetzen und eine
zweite Hauptkomponente H2 konstruieren. Diese Hauptkomponente muss die folgenden
Kriterien erfüllen:
H 2 (Y1 , Y2 ,..., Y p ) = δ 1Y1 + δ 2Y2 + ... + δ pY p
mit
δ 12 + δ 22 + ... + δ p2 = 1
und
H1 orthogonal zu H2.
Entsprechend kann man Hauptkomponenten H3, ..., Hp definieren. Diese bilden dann eine
orthogonale Basis des durch die Variablen Y1, Y2, ..., Yp aufgespannten p-dimensionalen
Teilraums des Rn.
Die bisher gewonnenen Ergebnisse kamen (außer der Existenz der Varianzen) ohne weitere
Verteilungsannahmen aus. Man könnte die Theorie der Hauptkomponenten sogar rein
geometrisch aufbauen. Konfirmatorische Aussagen wären dann allerdings nicht möglich. Wir
135
P.Martus, Multivariate Statistik, SoSe 2009
werden daher im Folgenden die Theorie aufbauend auf der multivariaten Normalverteilung
darstellen. Hierfür müssen zunächst einige Grundlagen behandelt werden.
136
P.Martus, Multivariate Statistik, SoSe 2009
8.8 Integration im Rn
Für nichtnegative Funktionen f entspricht das Integral
∫
∞
−∞
f ( x )dx
der Fläche unter dieser Funktion. Analoge ist die Fläche unter der Funktionskurve über dem
Teilintervall [a,b] gegeben durch:
∫
b
a
f ( x )dx .
Basis der Integrationstheorie ist, dass man das Integral einer konstanten Funktion mit dem
Wert c über dem Intervall [a,b] gleich
(b-a) •c,
also gleich der Fläche des entsprechenden Rechtecks setzt. Kompliziertere Funktionen
werden dann als gewichtete Summen derartiger Rechtecksfunktionen angenähert.
Funktionen, die auf dem R2 mit Koordinatensystem (x,y) definiert sind, können als
gekrümmte Flächen im R3 dargestellt werden. Bei positiven Funktionen kann man das
Volumen unter der Fläche ebenfalls als Integral
∫
R2
f ( x, y )d ( xy )
darstellen. Basis der Integrationstheorie sind Funktionen, die über einem Rechteck
[x1,x2]*[y1,y2] im R2 den konstanten Wert c annehmen. Das Integral wird dann gleich dem
Volumen
(x2-x1) • (y2-y1) •c
gesetzt.
Ganz analog kann man für Funktionen, die auf dem Rp definiert sind, Integrale als (p+1)dimensionale Volumina definieren und als Basis der Integrationstheorie konstante
Funktionen, die auf p-dimensionalen Quadern [x1,x2]*[y1,y2]*...* [z1,z2] den Wert c
annehmen, verwenden. Das Integral wird dann gleich
(x2-x1) • (y2-y1) •... • (z2-z1)•c
gesetzt.
137
P.Martus, Multivariate Statistik, SoSe 2009
8.9 Mehrdimensionale Wahrscheinlichkeitsverteilungen
Nichtnegative reellwertige Funktionen auf dem R1 können als Dichtefunktionen von
Zufallsvariablen aufgefasst werden, wenn gilt
∫
∞
−∞
f ( x )dx = 1 .
Analog kann eine (nichtnegative) reellwertige Funktion auf dem Rp als Dichtefunktion einer
p-dimensionalen Zufallsvariablen
Y = (Y1, Y2, ..., Yp)
aufgefasst werden, wenn das (p+1)-dimensionale Volumen dieser Funktion ebenfalls eins ist.
Besonders einfach ist die Situation bei unabhängigen Zufallsvariablen Y1, Y2, ..., Yp mit
Dichtefunktionen f1,…,fp . Für diese kann man zeigen, dass die Dichtefunktion im Punkt
(y1,...,yp) das Produkt
f1 ( y1 ) • f 2 ( y 2 ) • K • f p ( y p )
ist. Von Interesse sind aber im Allgemeinen korrelierte Zufallsvariablen.
8.10 Hauptkomponenten und die zweidimensionale Normalverteilung
Fasst man zwei zentrierte unabhängige normalverteilte Zufallsvariablen X1 und X2 mit
Dichten
f ( x1 ) =
− x12
1
2πσ 12
exp
2σ 12
1
g ( x2 ) =
,
2πσ 22
− x2 2
2
exp 2σ 2
also nicht notwendig identischen Varianzen σ 12 , σ 22 zu einer zweidimensionalen
Zufallsvariablen X = (X1,X2) zusammen, erhält man die folgende Dichte
h( x1 , x2 ) =
1
2πσ 12
− x12
exp
2σ 12
•
− x2 2
1
2πσ 22
exp
2σ 22
=
1
2π
2
σ 12σ 22
• exp
2
x 2
1 ⎛ x
− •⎜ 1 2 + 2 2
⎜
2 ⎝ 2σ 1 2σ 2
⎞
⎟
⎟
⎠
Man sieht leicht, dass der Term
⎛ 2
2
⎜ x1 + x2
⎜ 2σ 2 2σ 2
⎝ 1
2
⎞
⎟
⎟
⎠
138
P.Martus, Multivariate Statistik, SoSe 2009
in Matrixschreibweise geschrieben werden kann als
⎛ x⎞
⎜⎜ ⎟⎟
⎝ y⎠
t
⎛ σ 12 0 ⎞
⎜⎜
⎟
2⎟
⎝ 0 σ2 ⎠
−1
⎛ x⎞
⎜⎜ ⎟⎟ .
⎝ y⎠
Die mittlere Matrix ist gerade die Inverse der Varianz-Kovarianzmatrix von x und y.
Allgemein erhält man die Dichte der (zentrierten) zweidimensionalen Normalverteilung mit
Varianz-Kovarianzmatrix Σ als
t
h( x1 , x2 ) =
1
2π
2
det(Σ)
• exp
⎛x ⎞
1 ⎛x ⎞
− •⎜⎜ 1 ⎟⎟ Σ −1 ⎜⎜ 1 ⎟⎟
2 ⎝ x2 ⎠
⎝ x2 ⎠
.
Diese Funktion nimmt ihr Maximum im Punkt x1=0, x2=0, dem Erwartungswert der
zentrierten Zufallsvariablen, an.
Die bivariate Normalverteilung
für unabhängige Merkmale
1,2
1,0
,8
,6
Z
,4
,2
0,0
2
1
0
Y
-1
-1
0
1
2
X
139
P.Martus, Multivariate Statistik, SoSe 2009
Die Punkte gleicher Dichte liegen auf Ellipsen mit Mittelpunkt (0,0).
Die folgende Grafik verdeutlicht die Zusammenhänge (durch Zentrieren wird der Ursprung
des Koordinatensystems in das Zentrum der Ellipsen verschoben).
An der Struktur dieser Ellipsen lassen sich viele Informationen über die bivariate
Normalverteilung ablesen:
•
•
•
•
•
Für unabhängige Variablen mit gleicher Varianz entstehen konzentrische Kreise.
Für unabhängige Variablen mit ungleicher Varianz entstehen Ellipsen, die parallel zu
den Koordinatenachsen liegen.
Für abhängige Variablen mit gleicher Varianz entstehen Ellipsen die im 45% Winkel
im Koordinatensystem liegen
Für abhängige Variablen mit ungleicher Varianz entstehen Ellipsen, deren Winkel zur
Variable mit der größeren Varianz < 45° ist und entsprechend zur Variable mit der
kleineren Varianz > 45° ist.
Bei hochkorrelierten Variablen nähern sich die Ellipsen Geraden an, deren Winkel zu
den Koordinatenachsen jeweils wieder vom Verhältnis der Varianzen von X1 und X2
abhängen.
140
P.Martus, Multivariate Statistik, SoSe 2009
Ellipsen lassen sich beschreiben durch die sogenannten Hauptachsen. Die erste Hauptachsen
ist die Richtung des längsten Durchmessers der Ellipsen, die zweite Hauptachse steht
senkrecht darauf. In der Grafik sind v1 und v2 die Hauptachsen der beiden Ellipsen.
v1
v2
Man kann zeigen, dass die Koeffizientenvektoren der in 8.6 definierten Hauptkomponenten
für bivariat normalverteilte Daten nichts anderes als die Hauptachsen der zugehörigen
Ellipsen sind.
141
P.Martus, Multivariate Statistik, SoSe 2009
Zusätzlich kann man auch zeigen, dass der Koeffizientenvektor der ersten Hauptkomponente
die „symmetrische“ Regressionsgerade von X1 und X2 beschreibt, also diejenige Gerade, die
die senkrechten Abstände der Stichprobendaten minimiert.
Bei symmetrischen Problemen ohne klare Unterscheidung von Einfluss und Zielgröße stellen
die Hauptkomponenten also eine sinnvolle, aber kaum genutzte Alternative zur
Regressionsanalyse dar.
.
8.11 Hauptkomponenten und die n-dimensionale Normalverteilung
´
Die Begriffsbildung aus dem zwei-dimensionalen lässt sich sofort auf den beliebigdimensionalen Fall übertragen. Nur die geometrische Anschauung geht verloren.
142
P.Martus, Multivariate Statistik, SoSe 2009
8.12 Zur Berechnung der Hauptkomponenten
Für die Berechnung der Hauptkomponenten werden Vorkenntnisse aus der linearen Algebra
über quadratische Formen und Eigenwerte benötigt, die im Rahmen dieser Vorlesung nicht
bereitgestellt werden können. Die Mathematik der Hauptkomponenten ist daher in den
folgenden Definitionen und Sätzen zusammengefasst:
Definition 1
Eine quadratische, symmetrische p-dimensionale Matrix A definiert durch die Abbildung
SA:
x,y
→
xtAy
definiert ein Skalarprodukt auf dem (Rp )•(Rp).
Für x = y kann man
SA(x,x) = xtAx
als Quadrat einer verallgemeinerten Länge im Rp auffassen.
Insbesondere erhält man durch
SA(x-y,x-y) = (x-y)tA(x-y)
ein verallgemeinertes Abstandsmaß im Rp.
Wenn A eine Varianz-Kovarianz Matrix ist, heißt dieses Abstandsmaß „MahalanobisDistanz“.
Beispiel 1
Für A = Identitätsmatrix 1p erhält man das bekannte euklidische Skalarprodukt und die
„natürliche“ Längendefinition im Rp.
Satz 1
Für einen festen Punkt x0 ist der geometrische Ort der Punkte mit
SA(x0-y,x0-y) = const
ein (p-1)-dimensionaler Ellipsoid im Rp .
Definition 2
Für eine quadratische Matrix A und einen Vektor v mit
143
P.Martus, Multivariate Statistik, SoSe 2009
Av = λv
heißt λ Eigenwert von A und v Eigenvektor zum Eigenwert λ.
Bezüglich der Eigenvektoren ist die durch A vermittelte lineare Abbildung also eine
Streckung bzw. Stauchung. Eigenvektoren von A zum Eigenwert λ sind Eigenvektoren von
A-1 zum Eigenwert λ-1.
Satz 3
Für eine invertierbare, symmetrische (quadratische) Matrix stehen die Eigenvektoren zu
verschiedenen Eigenwerten senkrecht aufeinander.
Für eine Varianzkovarianzmatrix ohne deterministische Abhängigkeiten zwischen den
Zufallsvariablen lässt sich aus den Eigenvektoren eine orthogonale Basis des Rp auswählen.
Im Allgemeinen ist diese Auswahl eindeutig. Sie ist nicht eindeutig, wenn die Eigenvektoren
zu einem Eigenwert einen 2- oder höherdimensionalen Raum bilden.
Beispiel 3
Für p =2 und unabhängige Zufallsvariablen mit Varianz 1 ist die Varianzkovarianzmatrix die
2-dimensionale Einheitsmatrix
⎛ 1 0⎞
⎜⎜
⎟⎟ .
⎝ 0 1⎠
In diesem Fall ist jeder Vektor des R2 Eigenvektor und die Basis aus Eigenvektoren ist nicht
eindeutig bestimmt.
Für unabhängige Zufallsvariablen mit ungleichen Varianzen und Varianzkovarianzmatrix
⎛ σ 12 0 ⎞
⎜⎜
⎟
2⎟
⎝ 0 σ2 ⎠
sind die Vektoren (1,0)t und (0,1)t Eigenvektoren zu den Eigenwerten σ 12 und σ 22 .
Für abhängige Zufallsvariablen mit identischen Varianzen hat die Varianzkovarianzmatrix die
Form
⎛ σ2
⎜
⎜ cov
12
⎝
cov12 ⎞
⎟.
σ 2 ⎟⎠
Die Vektoren (1,1)t und (1,-1)t sind dann Eigenvektoren zu den Eigenwerten σ 2 + cov12 und
σ 2 - cov12.
144
P.Martus, Multivariate Statistik, SoSe 2009
Hauptsatz 1
Für Zufallsvariablen Y1, ..., Yp sind die Koeffizientenvektoren der Hauptkomponenten
Eigenvektoren der Varianzkovarianzmatrix S. Genauer gesagt gilt, falls die Eigenwerte λ1,...,
λp verschieden sind, dass den Eigenwerten λ1 > λ2 >… > λp die Hauptkomponenten H1,
H2,..., Hp zugeordnet sind.
Die Eigenwerte sind die Varianzen der Hauptkomponenten. Die Summe aller Eigenwerte ist
zugleich die Varianz der Summe der Hauptkomponenten und auch die Summe der Varianzen
aller Variablen. Insofern sagt man, dass eine Hauptkomponente Hj bzw. ein Eigenwert λj
einen bestimmten Prozentsatz der Varianz der ursprünglichen Variablen erklärt. Dieser
Prozentsatz berechnet sich als
100 •
λj
λ1 + λ2 + ... + λ p
.
Hauptsatz 2
Die Transformation der Zufallsvariablen Y1, ..., Yp mit Varianzkovarianzmatrix S auf die
Darstellung durch Hauptkomponenten ist gegeben durch die Matrix A, wobei die Spalten von
A die normalisierten (Länge = 1) Eigenvektoren von S sind. Es gilt also Z = YA mit Y =
(Y1,…,Yp).
Es lässt sich leicht sehen, dass die Varianz-Kovarianzmatrix der transformierten Variablen
eine Diagonalmatrix mit Einträgen λ1,..., λp ist.
8.13 Hauptkomponenten auf Basis der Korrelationsmatrix
In manchen Situationen, z.B. wenn man Variablen auf völlig unterschiedlichen Skalen misst,
ist es sinnvoll, die Variablen vor der Analyse nicht nur zu zentrieren (E(Yj) = 0 für j = 1,...,p),
sondern auch zu standardisieren, so dass Var(Yj) = 1 für j = 1,...,p gilt.
In diesen Situationen ist die Varianzkovarianzmatrix gleich der Korrelationsmatrix und man
spricht von Hauptkomponentenanalyse der Korrelationsmatrix.
Es ist offensichtlich, dass die Hauptkomponenten dann nur noch von den Korrelationen
zwischen den Variablen abhängen und somit „Skalen-unabhängig“ sind.
145
P.Martus, Multivariate Statistik, SoSe 2009
8.13 Fortsetzung des Beispiels auf Basis der Korrelationsmatrix
Im Beispiel 8.5 ergab sich für die Varianzkovarianzmatrix die erste Hauptkomponente
0.395*Y1 + 0.306*Y2 + 0.274*Y3 + 0.377*Y4 + 0.377*Y5 + 0.363*Y6 + 0.372*Y7 +
0.348*Y8.
Bzgl. der Korrelationsmatrix ergibt sich
0.363*Y1 + 0.355*Y2 + 0.350*Y3 + 0.347*Y4 + 0.337*Y5 + 0.347*Y6 + 0.355*Y7 +
0.353*Y8
als erste Hauptkomponente.
Offenbar ist die Gewichtung deutlich einheitlicher geworden. Für welchen Ansatz man sich
entscheidet, hängt davon ab, ob man der Varianz der Genexpressionswerte biologische
Bedeutung zuordnet oder nicht.
8.14 Erweiterung des Beispiels um Housekeeping-Gene
Wir betrachten nun die ersten drei Gene des Beispiels und noch weitere 3 Gene, die als
sogenannte „Housekeeping“-Gene bekannt sind und eher die „Gesamtaktivität“ als die
Tumoraktivität wiederspiegeln.
Die Korrelationsmatrix lautet:
⎛ 1
⎜
⎜ 0.89
⎜ 0.86
⎜
⎜ 0.26
⎜ 0.25
⎜
⎜ 0.29
⎝
0.89 0.86 0.26 0.25 0.29 ⎞
⎟
1
0.87 0.17 0.17 0.24 ⎟
0.87
1
0.18 0.17 0.25 ⎟
⎟
0.17 0.18
1
0.89 0.80 ⎟
0.17 0.17 0.89
1
0.75 ⎟
⎟
0.24 0.25 0.80 0.75
1 ⎟⎠
Die Korrelationsmatrix spiegelt deutlich die zwei verschiedenen Gengruppen, Tumoraktivität
und Housekeeping, wieder.
Die Eigenwerte der Korrelationsmatrix sind
3.4, 2.0, 0.27, 0.14, 0.12 und 0.10.
Das bedeutet, die ersten beiden Hauptkomponenten erklären 5.4/6 = 90% der Varianz.
Es scheint daher plausibel, die ersten beiden Hauptkomponenten zu betrachten.
Sie lauten in nicht standardisierter Form:
146
P.Martus, Multivariate Statistik, SoSe 2009
Komponentenmatrix a
Komponente
1
2
gen_1
,810
-,509
gen_2
,766
-,582
gen_3
,765
-,569
gen_4
,716
,641
gen_5
,696
,636
gen_6
,727
,540
Extraktionsmethode: Hauptkomponentenanalyse.
a. 2 Komponenten extrahiert
Offenbar kann man die beiden Hauptkomponenten auch inhaltlich interpretieren:
Die erste Hauptkomponente steht für die Gesamtaktivität der Zelle und gewichtet die Tumorassoziierten Gene und die Housekeeping Gene etwa gleich stark.
Die zweite Hauptkomponente unterscheidet durch Differenzbildung zwischen den beiden
Gengruppen. An den Werten der zweiten Hauptkomponente kann man also für einen
bestimmten Microarray ablesen, ob die Gesamtaktivität eher Tumor-assoziiert, eher
Housekeeping-assoziiert oder von beiden Gengruppen gleich stark beeinflusst ist.
8.15 Motivation der Faktoranalyse
Im Beispiel 8.14 könnte man sich eine „geschicktere“ Definition der beiden Komponenten
vorstellen: In die erste Komponente sollten die Tumor-assoziierten Gene, in die zweite
Komponente sollten die Housekeeping Gene eingehen.
Dies können die Hauptkomponenten nicht leisten, da die maximale Varianz eben durch die
Berücksichtigung aller Gene erklärt wird.
Die Faktoranalyse ist hier die geeignete Methode.
8.16 Faktoranalyse
Die Grundidee der Faktoranalyse ist es, die als relevant identifizierten Hauptkomponenten so
zu rotieren, dass die ursprünglichen Variablen möglichst nur mit einer Hauptkomponente
korrelieren und mit dieser möglichst hoch.
Man legt also im Unterraum des Rn, der durch die relevanten Hauptkomponenten aufgespannt
wird, eine neue, ebenfalls rechtwinklige Basis fest. Die neuen Basisvektoren heißen
„Faktoren“.
147
P.Martus, Multivariate Statistik, SoSe 2009
8.17 Ziel der Faktoranalyse
Im Gegensatz zur Hauptkomponentenanalyse ist das Ziel der Faktoranalyse zum einen, die
gefundenen Faktoren inhaltlich zu interpretieren, und zum zweiten, zu überprüfen, wie gut die
Variablen einem gefundenen Faktor entsprechen.
Im Beispiel bedeutet dies, dass man wissen will, welches Gen am Besten die Tumoraktivität
wiederspiegelt und welches am Besten geeignet ist, die allgemeine Zellaktivität zu
quantifizieren.
Deswegen interessiert man sich für die Korrelationen zwischen den Faktoren und den
Messvariablen. Diese Korrelationen bezeichnet man auch als „Faktorladungen“.
8.18 Ergebnisse im Beispiel
Im Genexpressionsbeispiel erhält man die folgenden Faktorladungen für die 6 Gene:
Rotierte Komponentenmatrix a
Komponente
1
2
gen_1
,942
,172
gen_2
,958
,089
gen_3
,948
,098
gen_4
,095
,956
gen_5
,084
,939
gen_6
,171
,890
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Varimax mit Kaiser-Normalisierung.
a. Die Rotation ist in 3 Iterationen konvergiert.
Die Faktoren lassen sich aus den Hauptkomponenten durch die folgende Matrix berechnen:
Komponententransformationsmatrix
Komponente
1
2
1
2
,737
,676
-,676
,737
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Varimax mit Kaiser-Normalisierung.
oder direkt aus den Variablen durch
148
P.Martus, Multivariate Statistik, SoSe 2009
Koeffizientenmatrix der Komponentenwerte
Komponente
1
2
gen_1
,348
-,022
gen_2
,362
-,057
gen_3
,358
-,053
gen_4
-,056
,377
gen_5
-,059
,371
gen_6
-,020
,343
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Varimax mit Kaiser-Normalisierung.
Komponentenwerte.
(Angegeben sind wieder die nicht-standardisierten Koeffizienten).
Offenbar entspricht der erste Faktor der Tumoraktivität und der zweite Faktor der
Housekeeping-Aktivität. Am besten geeignet erscheint Gen 2 für den ersten Faktor und Gen 4
für den zweiten Faktor zu sein.
Allerdings sind die Unterschiede geringfügig.
8.19 Zusammenfassung
Zwischen Hauptkomponenten- und Faktoranalyse besteht ein enger Zusammenhang, da die
Faktoren aus den Hauptkomponenten bestimmt werden.
Ziele und Interpretation der beiden Analyseformen sind aber deutlich verschieden: In der
Hauptkomponentenanalyse geht es um reine Datenreduktion ohne inhaltliche Interpretation.
In der Faktoranalyse geht es auch um die inhaltliche Interpretation. Häufig steht diese sogar
im Vordergrund.
Dadurch ist die Faktoranalyse ein subjektives, exploratives Verfahren und wird besonders in
den Sozialwissenschaften äußerst gerne verwendet, dagegen von manchen
Naturwissenschaftlern eher skeptisch eingeschätzt.
Es gibt allerdings Methoden, die Faktoranalyse „konfirmatorisch“ zu behandeln. Diese
werden hier aber nicht behandelt.
8.20 Ausblick auf die Clusteranalyse
Man kann die Faktoranalyse einfach als Verfahren zur weitergehenden Analyse von
Korrelationsstrukturen zu betrachten. Das Verfahren erlaubt es, Variablen durch Zuordnung
zu einer kleineren Zahl von Faktoren inhaltlich zu gruppieren.
In der Clusteranalyse wird es das Ziel sein, Objekte (Merkmalsträger) durch weitergehende
Analyse ihrer Distanzen inhaltlich zu gruppieren.
149
P.Martus, Multivariate Statistik, SoSe 2009
Teil 9
Clusteranalyse
9.1 Einführung
Im vorausgegangenen Teil haben wir mit der Faktoranalyse ein Verfahren zur Gruppierung
von Variablen kennengelernt. Kriterium war die Korrelationsstruktur der Variablen.
In diesem Teil der Vorlesung werden wir eine Gruppe von Verfahren kennenlernen, die es
erlauben, Objekte aufgrund von Variablen zu gruppieren. Kriterium wird die möglichst große
Übereinstimmung der Objekte innerhalb der Gruppen und die möglichst große Unähnlichkeit
der Objekte in verschiedenen Gruppen bzgl. der untersuchten Variablen sein.
Da es sich um eine große Gruppe von Verfahren handelt, werden wir eine Systematik der
unterschiedlichen Verfahren zu Grunde legen, die auf folgenden Eigenschaften der Verfahren
beruht
•
•
•
Definition der Distanz oder Ähnlichkeit von Objekten in Abhängigkeit von der
Skalierung der Merkmale
Definition der Distanz oder Ähnlichkeit von Gruppen von Objekten
Methoden der Zusammenfassung von Objekten oder Aufspaltung von Gruppen von
Objekten in neue Gruppen.
In der Bioinformatik wurde die Clusteranalyse in „unsupervised learning“ umgetauft.
9.2 Beispiele
In einer heterogenen Gruppe von Patienten sollen aufgrund klinischer Merkmale Subtypen
definiert werden, für die dann ätiologische Unterschiede gesucht werden.
Anhand der Expressionsmessung für eine große Zahl von Genen sollen bei Patienten mit
Aderhautmelanom solche mit und ohne Metastasen unterschieden werden. Im ersten Schritt
interessiert man sich dafür, ob ohne Verwendung der Information über Metastasen die
Patienten aufgrund der Gene „von allein“ in die zwei Untergruppen mit und ohne Metastasen
klassifiziert werden können.
9.3 Distanzmaße
Der weitaus häufigste Typ von Distanzmaßen erfüllt die mathematischen Eigenschaften einer
Metrik. Für eine gegebene Objektmenge O ist eine Metrik eine Abbildung von O • O in die
nichtnegativen reellen Zahlen, sodass für beliebige o1, o2, o3 ∈ O gilt:
d(o1, o2) ≥ 0
d(o1, o2) = 0 genau dann, wenn o1 = o2
d(o1, o2) = d(o2, o1)
d(o1, o2) + d(o2, o3) ≥ d(o1, o3)
150
P.Martus, Multivariate Statistik, SoSe 2009
9.4 Metriken für stetige, n-dimensionale Daten
Die Definition der Distanz- oder Ähnlichkeitsmaße kann i.a. theoretisch mathematisch,
geometrisch oder statistisch begründet sein. Im Folgenden gelte stets x = (x1,...,xn) und y =
(y1,...,yn). Gängige Distanzmaße sind:
Die L2-Distanz (auch euklidische Distanz)
∑ (x
− yi )
2
n
d ( x, y ) =
i =1
i
Die L1-Distanz (auch „Manhattan“-Distanz oder City-Block-Distanz)
d ( x, y ) = ∑i =1 | xi − yi |
n
Die L∞-Distanz (auch „Maximum- Distanz“)
d ( x, y ) = max i | xi − yi |
Die Lp-Distanz (p > 0, auch Minkowski-Distanz)
d ( x, y ) =
p
∑ (x
n
i =1
i
− yi )
p
Die Mahalanobis-Distanz zur Kovarianzmatrix S
d ( x, y ) =
(x − y )t S −1 (x − y )
Offenbar sind L1 und L2 Spezialfälle von Lp. Man kann zeigen, dass für p →∞ tatsächlich Lp
→ L∞ geht.
Die L2-Distanz ist die Mahalanobis-Distanz für die Einheitsmatrix 1n.
Für jede streng monotone, konkave Funktion f mit f(0) = 0 und jede Metrik d ist die
Abbildung
df (o1, o2) = f(d(o1, o2))
ebenfalls eine Metrik.
Für eine beliebige positive Konstante α ist mit d auch
α•d
eine Metrik.
Für beliebige positive Konstanten α1, α2 und beliebige Metriken d1, d2 ist
151
P.Martus, Multivariate Statistik, SoSe 2009
α1d1 + α2d2
ebenfalls eine Metrik.
Für komponentenweise definiertes d1,...,dn und Konstanten α1, ... , αn ist
d ( x, y ) = ∑i =1α i • d i ( xi ,yi )
n
ebenfalls eine Metrik auf dem Rn.
Die Funktion
d (o1, o2) = 1 für o1 ≠ o2
d (o1, o2) = 0 für o1 = o2
definiert eine Metrik.
9.5 Ähnlichkeitsmaße für stetige n-dimensionale Daten
Gängige Ähnlichkeitsmaße sind
der signierte „Korrelationskoeffizient“
die signierte „Kovarianz“
der absolute „Korrelationskoeffizient“
die absolute „Kovarianz“.
Die Anführungszeichen wurden gewählt, weil die Komponenten der Vektoren x und y nicht
Merkmalsträger sondern verschiedene Variablen eines Merkmalsträgers repräsentieren. Man
spricht daher auch von Q-Korrelationen und Q-Kovarianzen.
9.6 Bemerkung zu Ähnlichkeitsmaßen:
Der Ansatz dieses Ähnlichkeitsmaßes ist grundverschieden von den vorangegangenen Maßen:
Hat ein Objekt für alle Merkmale denselben Wert, lässt sich z.B. die Korrelation überhaupt
nicht berechnen!
Unterscheiden sich zwei Objekte in jeder Komponente um einen konstanten aber beliebig
großen Betrag, ist ihre Q-Korrelation maximal!
Eine Deutung der einzelnen Komponenten eines Merkmalsvektors als Stichprobe aus einer
Grundgesamtheit von Merkmalen ist im Allgemeinen nicht plausibel. Eine Ausnahme besteht,
wenn für zwei Objekte dasselbe Merkmal unter verschiedenen Bedingungen gemessen wird
und nur die Unterschiede bei verschiedenen Einzelbedingungen, nicht aber das absolute Level
152
P.Martus, Multivariate Statistik, SoSe 2009
der Messwerte interessiert. Die Situation von zwei Objekten, die bzgl. der genannten
Ähnlichkeitsmaße sehr ähnlich sind, ist der folgenden Grafik zu entnehmen.
8
7
6
WERT
5
4
3
2
OBJEKT
1
B
A
0
0,0
1,0
2,0
3,0
4,0
5,0
MERKMAL
9.7 Ähnlichkeitsmaße für n-dimensional dychotome Daten
Wenn für zwei Objekte n verschiedene dychotome Merkmale gemessen werden, lassen sich
die Ergebnisse in einer Vierfeldertafel zusammenfassen:
Merkmal bei Objekt
1 nicht vorhanden „-“
Merkmal bei Objekt
1 vorhanden „+“
Gesamt
Merkmal bei Objekt 2
nicht vorhanden, „-“
n--
Merkmal bei Objekt
2 vorhanden „+“
n-+
Gesamt
n+-
n++
n+.
n.-
n.+
n.. = n
n-.
Achtung:
Die Übereinstimmung mit der Vierfeldertafel des Chi-Quadrat Unabhängigkeitstests ist nur
formal. Für den Chi-Quadrat Test wurden n Merkmalsträger bzgl. zweier Merkmale
verglichen, hier werden zwei Merkmalsträger bzgl. n Merkmalen verglichen.
Für zwei Objekte o1, o2 mit dychotomen Merkmalen definiert die Funktion
a (o1 , o2 ) =
n− − + n+ +
n
das zunächst naheliegende Ähnlichkeitsmaß.
Wenn aber das Vorhandensein eines Merkmals viel „spezifischer“, also seltener als das
Nichtvorhandensein ist (z.B. Mutation an bestimmter Stelle des Genoms), erscheint es
sinnvoll, n++ stärker zu gewichten als n--.
Dies führt zu den folgenden Abstandsmaßen
153
P.Martus, Multivariate Statistik, SoSe 2009
Sα , β (o1 , o2 ) =
n+ +
n+ + + α • n− −
+ α • n− − + β • (n− + + n + − )
Spezialfälle davon sind
α
β
Tanimoto (oder Jaccard-Koeffizient)
0
1
Simple Matching
1
1
Dice
0
0.5
Weitere verwandte Abstandsmaße sind der
Koeffizient von Russel & Rao
n+ +
n+ +
+ n− − + n− + + n+ −
und der Koeffizient von Kulczynski
n+ +
+ n− + + n+ −
Bemerkung zur Ähnlichkeit
Kategorielle Daten stellen eine besondere Herausforderung für auf Metriken basierende
Clusterungsalgorithmen dar. Man müsste zwei Objekte als „identisch“ bezeichnen, wenn sie
gleiche Werte aufweisen und die Distanz gleich null setzen.,
Man würde aber doch verlangen, dass Übereinstimmung bzgl. seltener Ausprägungen viel
stärker zählt als Übereinstimmung bzgl. häufiger Ausprägungen. Wenn zwei Menschen bei 10
ausgewählten Genen jeweils den Wildtyp zeigen, sollten sie nicht so identisch angesehen
werden, als wenn sie über exakt dieselben 10 seltenen Mutationen verfügen.
Diese Tatsache berücksichtigen z.B. Maße, die auf der statistischen Entropie -p•ln(p)
aufbauen.
Schließlich könnte man sich überlegen, ob dann nicht auch bei stetigen Merkmalen (mit
Wahrscheinlichkeitsmodell!) Übereinstimmung stärker gewichtet werden sollte, wenn sie in
Wertebereichen mit geringer Dichte auftritt als wenn sie in Wertebereichen mit hoher Dichte
auftritt.
154
P.Martus, Multivariate Statistik, SoSe 2009
9.8 Beispiel 1: K-means Clustering
Wir gehen aus von n Objekten mit p Merkmalen pro Objekt und identifizieren die Objekte mit
n Punkten x1, ..., xn im Rp. Weiterhin legen wir von vornherein die Anzahl der zu bildenden
Cluster fest und bezeichnen diese mit K.
Ziel ist es, K Clusterzentren zu bestimmen und jedes Objekt so einem Clusterzentrum
zuzuordnen, dass die Punkte möglichst geringen Abstand zu den Zentren haben.
Praktisch geht man so vor, dass man initial Clusterzentren festlegt und dann immer
alternierend die Objekte den Clusterzentren zuordnet und die Clusterzentren dann als
Mittelwert der aktuell zugeordneten Objekte festlegt.
Der entsprechende Algorithmus lautet also:
Schritt 0a:
Lege Clusterzentren z10 ,..., z K0 fest mit z k0 ∈ Rp für k = 1,...,K.
Schritt 0b:
Ordne jedem Punkt xi (i=1,...,n) denjenigen Cluster k (k=1,...,K) zu, für den
der euklidische Abstand d(xi, z k0 ) minimal ist.
Schritt 1a:
Berechne für jeden Cluster k den Mittelwert der diesem Cluster
zugeordneten Punkte xi, ersetze z k0 durch diesen Mittelwert und bezeichne
ihn mit z 1k
Schritt 1b:
Ordne jedem Punkt xi (i=1,...,n) demjenigen Cluster k (k=1,...,K) zu, für den
der euklidische Abstand d(xi, z 1k ) minimal ist.
Wiederhole die letzten beiden Schritte solange, bis eine stabile Lösung erreicht ist.
9.9 Bemerkungen zum K-means Clustering
Das Problem, dass ein Punkt minimalen Abstand zu zwei oder mehr Clusterzentren hat, tritt
bei „echt“ kontinuierlichen Daten praktisch nicht auf.
Da sich die Gesamtsumme der Abstände bei jedem Schritt, der zur Änderung der Zentren
oder Zuordnung führt, verringert, kann es auch nicht zu zyklischen Endlosschleifen kommen.
Ein analoger Algorithmus wäre auch für andere Distanzmaße als die euklidische Distanz
denkbar. Die Berechnung der optimalen Clusterzentren im Schritt a wäre dann aber evtl.
deutlich aufwändiger.
Man kann das Verfahren mit unterschiedlichen Vorgaben von initialen Clusterzentren
ausprobieren und auch die Zahl K variieren. Man benötigt dann ein „Qualitäts“-Maß für den
Vergleich unterschiedlicher Lösungen. In Frage kommt eine Variante der F-Statistik, die die
Quadratsummen der Abweichungen vom Clustermittelwert mit denjenigen vom
Gesamtmittelwert vergleicht. Die Zahl der Cluster würde dann als „Freiheitsgrade“
berücksichtigt. Für p > 1 müsste der Umgang mit Variablen unterschiedlicher Varianz
(Standardisierung?) und mit korrelierten Variablen (Hauptkomponenten?) spezifiziert werden.
155
P.Martus, Multivariate Statistik, SoSe 2009
9.10 Ansätze, die ohne Vorgabe von Clusterzentren auskommen
Prinzipiell kann man Verfahren, die einen Gesamtcluster sukzessive in kleinere Cluster
aufspalten (divisive Verfahren) unterscheiden von solchen, die n Cluster, die aus
Einzelpunkten bestehen, sukzessive zu größeren Clustern vereinigen (agglomerative
Verfahren).
Voraussetzung bei diesen Verfahren ist, dass man Abstände oder Ähnlichkeiten nicht nur für
Paare von Objekten sondern allgemeiner für Paare von Clustern, also Objektmengen definiert.
9.11 Mengenabstände
Im folgenden seien zwei Cluster C und E mit Objekten c1,...,ck und e1,...,el gegeben. Für die
Objekte sei bereits ein Abstandsmaß d gegeben. Die folgenden Mengenabstände sind in der
Clusteranalyse üblich:
Single Linkage:
D(C , E ) = min{d ( ci , d j ) | i = 1,..., k ; j = 1,..., l }
Complete Linkage:
D(C , E ) = max{d ( ci , d j ) | i = 1,..., k ; j = 1,..., l }
Average Linkage:
D (C , E ) =
1
∑ ∑ d (ci , d j )
k • l j =1,...,l j =1,...,l
Single Linkage ergibt häufig kettenförmige Cluster, complete linkage eher „Kugelförmige“.
Average Linkage stellt einen Kompromiss dar.
Ein weiteres Verfahren ist die Ward Methode. Ziel der Ward Methode ist es, möglichst
homogene Cluster zu finden. Zwei Cluster werden vereinigt, wenn die Zunahme an
Heterogenität,z.B. gemessen an der euklidischen Distanz zum Mittelpunkt des Clusters,
möglichst gering ist.
156
P.Martus, Multivariate Statistik, SoSe 2009
9.12 Beispiel
Betrachten Sie die folgende Graphik. Verwenden Sie den Euklidischen Abstand und führen
Sie das single- und das complete linkage Verfahren durch.
6,0
5,5
5,0
4,5
Merkmal 2
4,0
3,5
3,0
2,5
2,0
1,5
1,0
,5
0,0
1,0
2,0
1,5
3,0
2,5
4,0
3,5
5,0
4,5
6,0
5,5
7,0
6,5
Merkmal 1
9.12 Beispiel Aderhautmelanome
Für 171 Gene, die von einer anderen Arbeitsgruppe für eine ähnliche Fragestellung Identifikation von Metastasen beim Aderhautmelanom - gefunden wurden, wurde eine
Clusteranalyse berechnet.
Als Distanzmaß wurde die quadrierte Euklidische Distanz und als Agglomerationsalgorithmus das Average-Linkage Verfahren verwendet.
Es wurden 16 Patienten ohne Metastasen (ni, i = 1, ..., 16) und 12 Patienten mit Metastasen
(mi, i = 1, ..., 12) geclustert, ohne dass die Information über die Gruppenzugehörigkeit
verwendet wurde
Es ergab sich folgendes Ergebnis (SPSS-Output):
157
P.Martus, Multivariate Statistik, SoSe 2009
* * * * * * H I E R A R C H I C A L
* * *
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
n01
13
òûòòòòòòòø
n05
n10
17
22
ò÷
ó
òûòòòòòòòôòòòòòòòòòø
n11
n04
n07
23
16
19
ò÷
ó
òûòòòòòø ó
ò÷
ó ó
ó
ó
ó
n03
n12
15
24
òûòø
ùò÷
ò÷ ùòø ó
ùòòòø
ó
ó
n15
m03
27
3
òòò÷ ùò÷
òòòòò÷
ó
ó
n06
n09
n02
18
21
14
òòòûòòòòòòòòòòòòòòò÷
ó ó
òòò÷
ó ùòòòòòòòòòòòòòòòòòòòòòòòø
òòòòòòòòòòòòòòòòòòòòòòò÷ ó
ó
n13
n16
25
28
òòòòòòòòòòòûòòòòòòòòòòòòò÷
òòòòòòòòòòò÷
ó
ó
m07
n08
m08
7
20
8
òòòòòûòòòòòòòòòòòø
òòòòò÷
ó
òòòòòòòûòòòø
ùòòòø
ó
ó
ó
m12
m05
12
5
òòòòòòò÷
ó
ó
òòòûòòòòòø ùòòòòò÷
ó
ó
ó
ó
m10
m01
10
1
òòò÷
òûòø
ó
ùòòòø
ó
ó
m06
m04
m02
6
4
2
ó
ó
ó
ó
ó
ó
m09
n14
9
26
òòòòòòòòòòòòòòòòòòòòò÷
ó
òòòòòòòòòòòòòòòòòòòòòòòòò÷
m11
11
òòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
ó ó
ùò÷
ò÷ ùòòòø ó
òòò÷
ùò÷
òòòòòòò÷
ó
ùòø
ó
ùòòòø
ó
ó
ùòòòòòòòòòòòòòòòòòòò÷
ó
Offenbar wurden von 28 Patienten 25 richtig klassifiziert. Allerdings wurde die
„Vorinformation“, dass nach 2 Clustern gesucht wurde, verwendet.
158
P.Martus, Multivariate Statistik, SoSe 2009
Teil 10
Diskriminanzanalyse
10.1 Vorbemerkung
Im Teil 9 haben wir uns mit dem Problem beschäftigt, eine Stichprobe in mehrere
Subgruppen, sogenannte Cluster, aufzuteilen. Diese Cluster wurden aus den Daten selbst
generiert, es gab keine vorherige Zuordnung zu den einzelnen Clustern.
Das hier beschriebene Verfahren, die Diskriminanzanalyse, konstruiert Klassifikatoren für
eine in der Stichprobe bekannte Klasssenzugehörigkeit. In der linearen Diskriminanzanalyse
sind diese Klassifikatoren lineare Funktionen von stetigen Kovariablen. Man geht - natürlich davon aus, dass die entsprechenden Kovariablen normalverteilt sind.
Im einfachsten Fall besteht die Stichprobe aus zwei Klassen. Im allgemeinen Fall können es
theoretisch beliebig viele Klassen und mehrere Diskrimininanzfunktionen sein.
Für zwei Gruppen stehen wir im Prinzip vor demselben Problem wie bei der logistischen
Regression. Die Konstruktion der Diskriminanzfunktionen ist allerdings völlig anders als bei
der logistischen Regression. Man kann jedoch zeigen, dass, falls die Voraussetzung der
Normalverteilung erfüllt ist, die lineare Diskriminanzfunktion der Diskriminanzanalyse mit
dem linearen Prädiktor der logistischen Regression übereinstimmt.
10.2 Beispiel (Diagnose mit zwei Merkmalen)
Die Diagnose von Glaukompatienten kann verbessert werden, wenn Diagnoseverfahren
kombiniert werden, die
•
•
•
unterschiedliche Arten der Glaukomschädigung erfassen und/oder
unterschiedliche physiologische „pathways“ abgreifen und/oder
unabhängige Messfehler aufweisen.
Für zwei diagnostische Verfahren, die psychophysische Messung der lokalen
örtlich/zeitlichen Kontrastempfindlichkeit (DYNKEF) und die elektrophysiologische
Messung der Gipfellatenz des visuell evozierten Potentials (VEP-LAT) nach blau auf gelb
Reiz sind alle drei Kriterien erfüllt, denn die Verfahren messen
•
•
Schädigung des Kontrastsehens vs Schädigung des Blau-Gelb Sehens
psychophysisch vs elektrophysiologisch.
Man kann daher davon ausgehen, dass die diagnostische Treffsicherheit erhöht wird, wenn
beide Messverfahren kombiniert werden.
Die folgende Grafik verdeutlicht dieses Argument:
159
P.Martus, Multivariate Statistik, SoSe 2009
Latenz des Blau auf Gelb VEPs
160
150
140
130
120
110
100
-20
0
20
40
60
80
100
120
140
160
Dynamische Kontrastempfindlichkeit
Offensichtlich trennt eine diagonale Linie die beiden Stichproben von Kranken (ausgefüllte
Kreise) und Gesunden (leere Quadrate) besser als senkrechte oder waagerechte Linien.
160
Latenz des Blau auf Gelb VEPs
Latenz des Blau auf Gelb VEPs
160
150
140
130
120
110
140
130
120
110
100
100
-20
150
0
20
40
60
80
100
120
140
Dynamische Kontrastempfindlichkeit
160
-20
0
20
40
60
80
100
120
140
160
Dynamische Kontrastempfindlichkeit
160
P.Martus, Multivariate Statistik, SoSe 2009
Wenn man die Geradengleichung der blauen Trenngerade kennt,
VEP-LAT = a0 + a1•DYNKEF
kann man die Klassifikationsregel festlegen:
Falls
VEP-Lat > a0 + a1•DYNKEF,
klassifiziere die untersuchte Person als
krank.
Falls
VEP-Lat < a0 + a1•DYNKEF,
klassifiziere die untersuchte Person als
gesund.
Äquivalent dazu ist die Klassifikation anhand des Vorzeichens der Funktion
VEP-LAT - [a0 + a1•DYNKEF]
bzw. anhand jeder Funktion, die aus dieser als Produkt mit fester Konstante c entsteht:
c•[ VEP-LAT - (a0 + a1•DYNKEF)].
Die gängigen Statistikpakete geben die Diskriminanzfunktion einfach in der Form
b0 + b1•DYNKEF + b2•VEP-LAT
an. Die Umrechnung ist aber nicht schwierig.
VEP-LAT =
− b1
b
DYNKEF − 0 .
b2
b2
Für die Diskriminanzfunktion existieren verschiedene Charakterisierungen. Die einfachste
lautet
Die Koeffizienten b1, b2 werden so gewählt, dass die Diskriminanzfunktion beim t-Test für
unverbundene Stichproben den niedrigst möglichen p-Wert ergibt.
Die Wahl des Koeffizienten b0 hängt ab von der Prävalenz der Erkrankung in der Studienoder in der Zielpopulation.
161
P.Martus, Multivariate Statistik, SoSe 2009
10.3 Diskriminanzanalyse mit mehr als zwei Messverfahren
Diskriminanzfunktionen lassen sich analog für mehr als 2 Messverfahren definieren:
D = b0 + b1 X 1 + b2 X 2 + ... + b p X p
Die Klassifikation erfolgt wieder nach dem Kriterium D > 0 bzw. D < 0.
Die Koeffizienten werden entsprechend so gewählt, dass sie den t-Test für unverbundene
Stichproben optimieren (t-Wert maximal, p-Wert minimal). Offensichtlich kann man wieder
die Funktion mit einer Konstanten c multiplizieren. Man wählt häufig die Koeffizienten so,
dass die Länge des Koeffizientenvektors (b0, b1, ..., bp) = 1 ist.
10.4 Beispiel für die Diskriminanzanalyse für mehr als zwei Gruppen
Das klassische Beispiel für die Diskriminanzanalyse wurde von R.A. Fisher im Jahr 1936
publiziert. Drei verschiedene Lilienarten (Iris Setosa, Iris Versicolor, Iris Virginica [ R. A.
Fischer 1936] ) sollen anhand der Länge und Breite von Kelch- und Blütenblättern
klassifiziert werden. Die Stichprobe umfasste jeweils 50 Irispflanzen von jeder Art.
Die deskriptive Analyse ergab:
Bericht
species Species
1,00
2,00
3,00
Insgesamt
Mittelwert
Standardabweichung
Minimum
Maximum
Mittelwert
Standardabweichung
Minimum
Maximum
Mittelwert
Standardabweichung
Minimum
Maximum
Mittelwert
Standardabweichung
Minimum
Maximum
sep_leng
Sepal Length
50,0600
3,52490
43,00
58,00
59,3600
5,16171
49,00
70,00
65,8800
6,35880
49,00
79,00
58,4333
8,28066
43,00
79,00
sep_widt
Sepal Width
34,2800
3,79064
23,00
44,00
27,7000
3,13798
20,00
34,00
29,7400
3,22497
22,00
38,00
30,5733
4,35866
20,00
44,00
pet_leng
Petal Length
14,6200
1,73664
10,00
19,00
42,6000
4,69911
30,00
51,00
55,5200
5,51895
45,00
69,00
37,5800
17,65298
10,00
69,00
pet_widt
Petal Width
2,4600
1,05386
1,00
6,00
13,2600
1,97753
10,00
18,00
20,2600
2,74650
14,00
25,00
11,9933
7,62238
1,00
25,00
Die absoluten standardisierten Differenzen waren etwa
1 vs 2
1 vs 3
2 vs 3
Kelchblatt
Länge
2.1
3.5
1
Kelchblatt
Breite
1.8
1.2
0.7
Blütenblatt
Länge
9
10
2.5
Blütenblatt
Breite
7
12
2.7
162
P.Martus, Multivariate Statistik, SoSe 2009
Man erkennt deutlich, dass sich die Iris Setosa Blüten einfach von den beiden anderen Arten
trennen lassen. Dagegen ist es offenbar schwierig, Iris Versicolor von Iris Virginica zu
trennen.
Die Klassifikation kann aufgrund einer oder mehrerer Diskriminanzfunktionen erfolgen. Bei
p Variablen und K Gruppen beträgt die Zahl der Diskriminanzfunktion maximal
min (p, K-1).
Im genannten Beispiel ist p = 4, K = 3, so dass eine oder zwei Diskriminanzfunktionen in
Frage kommen.
Die Diskriminanzfunktionen werden nach folgendem Kriterium ausgewählt:
Die erste Diskriminanzfunktion soll den maximalen F-Wert bei einer einfaktoriellen Varianzanalyse erzeugen. Die zweite Diskriminanzfunktion soll auf der ersten Diskriminanzfunktion
senkrecht stehen und unter dieser Nebenbedingung den maximalen F-Wert bei einer
einfaktoriellen Varianzanalyse erzeugen. Dieses Verfahren kann prinzipiell beliebig
fortgesetzt werden.
Kanonische Diskriminanzfunktion
Species
3
1
2
Funktion 2
2
3
Gruppenmittel
punkte
1
3
1
0
2
-1
-2
-3
-10
-5
0
5
10
Funktion 1
Der schrittweise orthogonale Aufbau der Diskriminanzfunktionen erinnert natürlich an die
Hauptkomponentenanalyse, aber das Ziel ist jetzt nicht, in jedem Schritt eine maximale
Varianz zu erzielen, sondern einen maximalen Quadratsummenquotient.
Ist die Zahl der Diskriminanzfunktionen gleich der Zahl der gemessenen Merkmale, hat man
bei der Richtung der letzten Diskriminanzfunktion keine Wahlmöglichkeiten mehr.
163
P.Martus, Multivariate Statistik, SoSe 2009
10.5 Das mathematische Modell der Diskriminanzanalyse
Es bezeichne N ( μ , Σ) die multivariate Normalverteilung mit Erwartungswertvektor μ und
Varianzkovarianzmatrix Σ 2 . p verschiedene Merkmale X1, ..., Xp in K verschiedenen
Gruppen seien multivariat normalverteilt mit identischer Varianzkovarianzmatrix:
(X , K , X )
1
p
~
N (μ k , Σ )
in Gruppe k (k=1,...,K)
Diese Modellannahmen sind oft verletzt, dennoch führt die Diskriminanzanalyse in vielen
Fällen auf gute Ergebnisse.
10.6 Die lineare Diskriminanzfunktion für zwei Gruppen - Geometrie des
zweidimensionalen Falls
Geometrisch bedeutet die Berechnung der Diskriminanzfunktion eine Projektion der
zweidimensionalen Daten auf eine Gerade, die bis auf Parallelverschiebung eindeutig festgelegt ist. Diese Gerade wird so gewählt, dass die Trennung zwischen beiden Gruppen
optimal ist (Kriterium: t-Test). Die Trennung ist immer mindestens so gut wie für jede
Einzelvariable, da ja auch die Koordinatenachsen „Kandidaten“ für die Projektion darstellen.
Aufgrund der Modellannahme der Diskriminanzanalyse müssen die beiden
Normalverteilungen gleiche Varianzen und Korrelationen in beiden Gruppen besitzen.
Geometrisch bedeutet dies, dass sich die Konturellipsen nur durch eine Parallelverschiebung
voneinander unterscheiden.
Achtung:
Dies ist das Standardbild für die lineare Diskriminanzanalyse, wie man es in zahllosen
Lehrbüchern findet. Es stellt jedoch einen Spezialfall dar, der im allgemeinen nicht verlangt
wird. Welchen?
164
P.Martus, Multivariate Statistik, SoSe 2009
Die Ellipsen sind nicht nur parallel sondern man erkennt auch, dass die Richtung der
Parallelverschiebung offenbar genau die zweite Hauptkomponente der zugrundeliegenden
bivariaten Normalverteilung ist. Dies ist aber in den Modellannahmen nicht verlangt.
Das allgemeine Bild würde so aussehen:
Nichtsdestotrotz führt der Spezialfall auf schönere Bilder und wird vorläufig den weiteren
Darstellungen zugrunde gelegt.
Die folgende Grafik zeigt die Überlappung der Marginalverteilungen im zweidimensionalen
Fall:
165
P.Martus, Multivariate Statistik, SoSe 2009
Die Diskriminanzfunktion lässt sich als Projektionsabbildung deuten:
Auch auf der Projektionsachse erhalten wir wieder zwei Normalverteilungen:
166
P.Martus, Multivariate Statistik, SoSe 2009
Offenbar ist die Überlappung auf der Projektionsachse geringer:
10.7 Die Berechnung der Diskriminanzfunktion für zwei Gruppen
In zwei Gruppen (I u. II) werden die Merkmale (X1, X2, ... Xp) beobachtet. X 1 bezeichne den
Mittelwertsvektor in Gruppe I, X 2 den Mittelwertsvektor in Gruppe II.
Σ bezeichne die gemeinsame Kovarianzmatrix. Dann können die Koeffizienten b1, ..., bp der
Diskriminanzfunktion aus der Gleichung
b = Σ −1 ( X 1 − X 2 )
bestimmt werden.
10.8 Sonderfall 1
Sind alle Merkmale X1, ..., Xp paarweise unabhängig und haben identische Varianz σ², dann
folgt
Σ −1 =
1
σ2
1p
und somit
167
P.Martus, Multivariate Statistik, SoSe 2009
b=
Bis auf die Konstante
1
σ2
1
σ2
( X 1 − X 2 ). .
ist der Koeffizientenvektor also der Differenzenvektor der beiden
Mittelwertsvektoren.
Je größer die Differenz, desto größer das Gewicht in der Diskriminanzfunktion.
10.9 Sonderfall 2
Sind diese Merkmale zwar unabhängig aber von ungleichen Varianzen σ 12 , σ 22 ,..., σ 2p dann
werden die p Komponenten des Differenzenvektors X 1 − X 2 noch einmal durch ihre
jeweilige Varianz dividiert.
Plausibilitätsbetrachtung:
Man stelle sich hierfür vor, dass gelte X 1 = − X 2 und dass eine Variable Xj mit der
Konstanten c multipliziert werde. Wir bezeichnen die neue Variable mit (cX)j und ihre
Mittelwerte in beiden Gruppen mit cX 1 j und cX 2 j . Offenbar gilt
cX 1 j - c X 2 j = c ( X 1 j − X 2 j )
und
var((cX)j)= c2•var((cX)j)
Der Beitrag von (cX)j zur Diskriminanzfunktion soll natürlich identisch zu dem von Xj sein,
weil ja die Trennungseigenschaften aller Variablen und die Koeffizienten für alle anderen
Variablen gleich geblieben sind.
Da sowohl alle Einzelwerte (erster Faktor c) als auch die Differenz X 1 − X 2 (zweiter Faktor
c) mit c multipliziert wurden, ist es plausibel, dass der Koeffizient mit
1
c2
multipliziert wird.
10.10 Sonderfall 3
Sind die Merkmale abhängig und liegt der Differenzvektor X 1 − X 2 in der Richtung einer der
Hauptachsen der zu den multivariaten Normalverteilungen gehörigen Konturellipsen, dann ist
der Koeffizientenvektor ein Vielfaches des Differenzvektors.
Mathematisch folgt dies aus der Tatsache, dass die Hauptachsen der Konturlinie gerade die
Eigenvektoren der Kovarianzmatrix bzw. ihrer Inverser darstellen. Man beachte, dass
Gleichheit der Kovarianzmatrizen in den Gruppen vorausgesetzt wurde.
168
P.Martus, Multivariate Statistik, SoSe 2009
Offenbar ist es am günstigsten, wenn der Differenzvektor der Mittlelwerte in Richtung des
steilsten Abfalls der Dichtefunktion also in Richtung der zweiten Hauptkomponente liegt.
169
P.Martus, Multivariate Statistik, SoSe 2009
10.11 Allgemeiner Fall
Der allgemeine Fall erfordert, dass der Differenzenvektor in die zwei Hauptkomponenten
(parallel zu den Hauptachsen) zerlegt wird.
Dann wird ein neuer Vektor konstruiert, der in der Richtung der kürzeren Komponente stärker
gewichtet wird und in der Richtung der längeren Komponente schwächer gewichtet wird.
Dieser Schritt entspricht der Gewichtung der ursprünglichen Komponenten nach dem
Inversen der Varianz für unabhängige Merkmale.
170
P.Martus, Multivariate Statistik, SoSe 2009
Der resultierende Vektor ist in der folgenden Grafik zu erkennen.
Die Projektion erfolgt auf diesen Vektor beziehungsweise eine zu ihm parallele Gerade.
171
P.Martus, Multivariate Statistik, SoSe 2009
10.12 Vorbemerkung zur Bestimmung der Diskriminanzfunktionen
Die Bestimmung der Diskriminanzfunktionen für mehr als zwei Gruppen erfordert tiefere
Kenntnisse der linearen Algebra. Hier können nur das Rechenverfahren und eine Skizze der
Herleitung angegeben werden.
Wir orientieren uns am mathematischen Modell der Diskriminanzanalyse (vgl. 10.5)
( X ,K, X )
1
p
~
N (μ k , Σ )
in Gruppe k (k=1,...,K)
mit p-dimensional normalverteiltem Merkmalsvektor (X 1 , K , X p ) in K Gruppen mit
identischer Varianzkovarianzmatrix Σ (dim p•p).
Die relativen Häufigkeiten der Gruppen werden mit π 1 ,..., π K bezeichnet ( ∑k =1 π K = 1 ), die
K
K verschiedenen Erwartungswertvektoren mit μ1 ,..., μ K (jeweils Dimension p), der
Erwartungswert der zugehörigen Mischverteilung
∑
K
k =1
π k N (μ k , Σ )
mit μ .
Es bezeichne Σ B die gewichte Summe der Kreuzprodukte der zentrierten
Erwartungswertvektoren,
∑
K
k =1
π K •(μ k − μ )(μ k − μ )t
also dim ( Σ B ) ebenfalls gleich p•p, aber Rang( Σ B ) maximal K-1.
Ziel der Diskriminanzanalyse ist die Auffindung von M orthogonalen, p-dimensionalen
Vektoren
b1, b2, ..., bM,
den Koeffizientenvektoren der M Diskriminanzfunktionen. Deren Anzahl M ist dabei durch
das Minimum aus der Zahl der Variablen p und der um eins verminderten Zahl der Gruppen,
K-1, nach oben beschränkt.
Die Vektoren bj (j=1,...,M) sollen orthogonal aufeinander stehen und unter dieser
Einschränkung sukzessive die Bedingung
bt Σ Bb
= max
b t Σb
erfüllen (in der Formel wurde der Index j weggelassen).
172
P.Martus, Multivariate Statistik, SoSe 2009
10.13 Die Bestimmung der Diskriminanzfunktionen
Die Eigenvektoren γ 1 , γ 2 ,..., γ M der Matrix Σ −1 • Σ B
sind die Koeffizientenvektoren der Diskrimininanzfunktionen.
Da Σ B höchstens Rang K-1 hat und Σ höchstens Rang p hat, kann der Rang von Σ −1 • Σ B und
damit M höchstens min (K-1,p) sein.
10.14 Skizze der Herleitung
Es seien W und A symmetrische Matrizen und zusätzlich W (aber nicht unbedingt A) positiv
definit, also insbesondere von maximalem Rang. W steht für die Intragruppen Varianzkovarianzmatrix Σ , A für die (i.a. singuläre) Kreuzproduktmatrix Σ B .
Basis des in 10.12 beschriebenen Verfahrens ist ein Satz über die simultane Spektralzerlegung
von W und A bzw. Σ und Σ B .
10.15 Die Spektralzerlegung einer symmetrischen Matrix A
Jede symmetrische Matrix A der Dimension p hat p nicht notwendig verschiedene Eigenwerte
γ 1 ≥ γ 2 ≥ ... ≥ γ p . Die Zahl der von Null verschiedenen Eigenwerte ist identisch mit dem
Rang der Matrix A. Wir werden den Fall γ i = γ j für i ≠ j für die Zukunft ausschließen. Bei
realen Daten tritt er so gut wie nie auf.
Als Spektralzerlegung von A bezeichnet man die Darstellung von A als Matrizenprodukt
A = B • Λ • Bt
Dabei sind die Spalten von B normierte (Länge = 1) Eigenvektoren von A und Λ ist die
Diagonalmatrix der zugehörigen Eigenwerte.
Falls Rang(A) = p ist B bis auf das Vorzeichen der Eigenvektoren eindeutig bestimmt. Falls
Rang(A) < p kann man normierte orthogonale Eigenvektoren zum Eigenwert 0 ergänzen.
Falls A eine Kovarianzmatrix ist, lässt sich aus der Spektralzerlegung sofort die Transformation auf Hauptachsen konstruieren, denn aus der Orthogonalität und Normierung der Eigenvektoren folgt sofort
B t • B = 1p
und daraus
Bt • A • B = Λ
Insofern diagonalisiert die Matrix B die Matrix A.
173
P.Martus, Multivariate Statistik, SoSe 2009
10.16 Die simultane Spektralzerlegung zweier symmetrischer Matrizen W und A
Die Hauptkomponenten einer Kovarianzmatrix sind bis auf das Vorzeichen eindeutig
festgelegt. Insofern wäre es ein großer „Zufall“, wenn sich zwei Matrizen W und A mit Hilfe
derselben orthogonalen Matrix B spektral zerlegen bzw. diagonalisieren ließe.
Wenn man aber zwei Einschränkungen macht, ist dies dennoch möglich. Man verlangt, dass
zumindest eine der beiden Matrizen, W, invertierbar ist und man erlaubt, dass die Matrix B
nicht mehr orthogonal ist und nennt diese dann Γ .
Es gilt dann der Satz:
Falls W und A symmetrische Matrizen sind und W invertierbar ist, existiert eine invertierbare
Matrix Γ und eine Diagonalmatrix Λ , so dass gilt
Γt •W • Γ = 1
Γt • A • Γ = Λ
und
Man sagt dann, dass W und A durch Γ simultan diagonalisiert werden. Die Bezeichnung
Spektralzerlegung ist gerechtfertigt, weil
( ) • (Γ )
W = Γt
−1
−1
und
( )
A = Γt
−1
• Λ • (Γ )
−1
Weiterhin kann man zeigen, dass in der Tat die Eigenvektoren der Matrix W-1A Spalten von
Γ sind (natürlich nicht alle, da ja W-1A i.a. nicht invertierbar ist).
Die Matrix (Γ t ) bezeichnen wir im Folgenden mit H. In der Formel
−1
bt Σ Bb
= max
b t Σb
kann man nun für die Matrizen Σ und Σ B die gemeinsame Spektralzerlegung einsetzen und
erhält
bt • H • Λ • H t • b
= max
bt • H • H t • b
Benennt man jetzt noch den Vektor „Ht•b“ um in „e“, dann erhält man die einfache
Bedingung
et • Λ • e
= max .
et e
Wie man leicht sieht, sind die Einheitsvektoren e1 = (1,0,...,0), e2 = (0,1,0,...,0) ... die
Lösungen dieses Maximierungsproblem.
174
P.Martus, Multivariate Statistik, SoSe 2009
( )
−1
Die Rücktransformation b = H t • e = Γ • e führt auf das gewünschte Ergebnis, da die
Bilder der Einheitsvektoren einer linearen Abbildung gerade die Spalten der Transformationsmatrix sind.
Die simultane Spektralzerlegung selbst berechnet man aus der (gewöhnlichen) Spektralzerlegung
S = B Λ Bt
der Matrix
S = Σ −1 / 2 • Σ B • Σ −1 / 2
mit orthogonalem B und Diagonalmatrix Λ .
Die Spalten der Matrix Γ = Σ −1 / 2 B enthalten dann die Eigenvektoren der Matrix Σ −1 • Σ B
10.17 Berechnung der vorhergesagten Klassen
Wenn man für zwei Gruppen die erste Diskriminanzfunktion oder für > 2 Gruppen die
weiteren Diskriminanzfunktionen berechnet hat, stellt sich das Problem, unbekannte Objekte
zu klassifizieren. Dies erfolgt üblicherweise durch Minimierung einer Verlustfunktion oder
durch Maximierung der sogenannten a posteriori Wahrscheinlichkeit.
Die a posteriori - Wahrscheinlichkeit gibt für jeden Beobachtungsvektor x = (x1,...,xp)t im
Modell
( X ,K, X )
1
p
N (μ k , Σ )
~
mit Klassenhäufigkeiten π 1 ,..., π K (a priori Wahrscheinlichkeiten) die nach der Bayesschen
Formel berechnete (a posteriori) Wahrscheinlichkeit der Klassenzugehörigkeiten an. Diese
wird folgendermaßen bestimmt:
Berechne für alle m Diskriminanzfunktionen die Mittelwerte in den K Gruppen. Diese
Mittelwerte werden mit μ km bezeichnet (k = 1,...,K; m = 1,...,M). Der Mittelwertsvektor für
Gruppe k wird mit μ k bezeichnet.
Berechne die Werte von x für die M Diskriminanzfunktionen
Γ1 • x,..., ΓM • x .
t
t
Dabei bezeichnet Γm die Spalte m der Matrix Γ . Dieses Werte werden mit
d1,...,dM
bezeichnet und im Vektor D zusammengefasst.
175
P.Martus, Multivariate Statistik, SoSe 2009
Berechne die k Funktionen
μ ⎞
⎛
t
f k (D ) = μ k • ⎜ D − k ⎟ + ln π j
2 ⎠
⎝
Die a posteriori-Wahrscheinlichkeit wird dann analog zur logistischen Regression berechnet:
P[k | x] = P[k | D ] =
exp[ f k ( D)]
∑
K
l =1
exp[ f l ( D)]
Die genannte Formel lässt sich aber auch rein geometrisch motivieren:
Man bildet die Gruppenzentroide (= Mittelwerte) bezüglich der Diskriminanzfunktionen. Für
ein neu zu klassifizierendes Objekt nimmt man diejenige Gruppe an, deren Zentroid das unbekannte Objekt am nächsten liegt.
Wenn man alle Diskriminanzfunktionen verwendet, ist das äquivalent dazu, die Mahalanobisdistanz zu den Zentroiden auf der ursprünglichen Skala zu minimieren (vgl. die K-means
Methode der Clusteranalyse).
10.18 Die Situation ungleicher Varianzen
Bei ungleichen Varianzen führt die Theorie auf Diskriminanzfunktionen mit quadratischen
Termen.
In der Praxis ist diese Methode aber häufig sehr unstabil, im Gegensatz zur linearen
Diskriminanzanalyse.
Die Empfehlung lautet, die quadratische Diskriminanzanalyse
nicht zu verwenden
und besser gegen die Voraussetzungen auch bei ungleichen Varianzen eine lineare
Diskriminanzanalyse zu rechnen.
176
Herunterladen