P.Martus, Multivariate Statistik, SoSe 2009 Freie Universität Berlin Charité Universitätsmedizin Berlin Bachelor Studiengang Bioinformatik Vorlesung Multivariate Statistik Sommersemester 2009 Prof. Dr. rer. nat. Peter Martus Institut für Biometrie und Klinische Epidemiologie Charité Universitätsmedizin Berlin 1 P.Martus, Multivariate Statistik, SoSe 2009 Teil 1 Wiederholung der Wahrscheinlichkeitsrechnung 1.1 Vorbemerkung Die Wahrscheinlichkeitsrechnung erlaubt es, Phänomene zu beschreiben, die durch den Zufall gesteuert sind. Der zugrunde liegende Zufallsmechanismus wird als bekannt vorausgesetzt. In der konfirmatorischen Statistik versucht man dagegen, aufgrund von Beobachtungen auf den zugrunde liegenden Zufallsmechanismus zurückzuschließen. Grundlage ist aber immer die Wahrscheinlichkeitsrechnung. Im ersten Teil der Vorlesung werden die Begriffsbildungen und die für statistische Anwendungen wichtigsten Inhalte der Wahrscheinlichkeitsrechnung aufgefrischt. 1.2 Anwendungsbeispiel (klinische Studie) In einer klinischen Studie wird ein Medikament an n Patienten überprüft. Die Heilungswahrscheinlichkeit für jeden Patienten beträgt p. Man interessiert sich für die Wahrscheinlichkeit, dass mindestens k Patienten (0 ≤ k ≤ n) geheilt werden. Lösung: Die gesuchte Wahrscheinlichkeit heißt Binomialwahrscheinlichkeit, wird mit b(n,p,k) abgekürzt und lautet ⎛n⎞ n −k b( n, p, k ) := ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) . k ⎝ ⎠ Der Binomialkoeffizient ist definiert als ⎛n⎞ ⎜⎜ ⎟⎟ := ⎝k ⎠ n! . k ! ⋅ (n − k ) ! 1.3 Anwendungsbeispiel (Hardy Weinberg Gesetz) Ein Gen kommt in einer Population mit zwei Allelen, A und a, mit den relativen Häufigkeiten p und q:=1-p vor. Mit welchen Häufigkeiten treten bei zufälliger Durchmischung die Genotypen AA, Aa, aa auf? Lösung: Die Häufigkeiten der 3 Genotypen lauten AA: p2, Aa: 2pq, aa: q2. 2 P.Martus, Multivariate Statistik, SoSe 2009 1.4 Anwendungsbeispiel (DNA-Sequenzanalyse, vgl. Ewens und Grant, 2005) Bei der DNA-Sequenzanalyse betrachtet man sogenannte Anker, kurze DNA-Sequenzen, die im Genom eindeutig sind und deren Positionen bekannt sind. DNA-Fragmente, die Anker enthalten, sind somit im Genom lokalisierbar. In einer einfachen Modellierung geht man von folgenden Annahmen aus: Die Anzahl von Ankern in einer DNA-Sequenz ist an jeder Stelle des Genoms proportional zur Länge L dieser Sequenz mit identischem Proportionalitätsfaktor. Beim Durchlaufen der Sequenz ist das Neuauftreten eines Ankers unabhängig davon, wieviele Anker bereits aufgetreten sind. Wie groß ist die Wahrscheinlichkeit für das Auftreten von k Ankern in einer Sequenz der Länge L? Lösung: Die Wahrscheinlichkeiten der entsprechenden Häufigkeiten lauten für k = 0,1,2,... p( λ , k ) := e −λ ⋅ λk k! und die entsprechende Wahrscheinlichkeitsverteilung heißt Poissonverteilung mit Parameter λ. Dieser Parameter ist proportional zur Länge L des Intervalls. 1.5 Anwendungsbeispiel (Genexpression) Bei Genexpressionsmessungen von Patienten mit Aderhautmelanom ist für das Oligonukleotid 200657_at nach Logarithmierung die Intensität normalverteilt mit Erwartungswert 5 und Streuung 1.5. In welchem Bereich liegen die 90% niedrigsten Werte? Lösung: Die Dichtefunktion der Normalverteilung lautet allgemein f ( x) = −( x−μ )2 1 2πσ 2 e 2σ 2 und im Beispiel f ( x) = − ( x −5 ) 2 1 2π 1.5 2 e 2*1.5 2 . Der gesuchte Bereich ergibt sich als die obere Integralgrenze T, für die ∫ T −∞ f (t )dt = 0.9 erfüllt ist. Man erhält T = 6.92. 3 P.Martus, Multivariate Statistik, SoSe 2009 1.6 Definition (Endlicher Wahrscheinlichkeitsraum) Eine endliche Menge Ω = {ω1, ω2,... ωm} zusammen mit einer Funktion P, für die gilt P(ωi) ≥ 0 für i = 1,...,m und ∑ m i =1 P(ω i ) = 1 bezeichnen wir als endlichen Wahrscheinlichkeitsraum. Einelementige Teilmengen von Ω heißen Elementarereignisse, beliebige Teilmengen heißen Ereignisse. Die Funktion P wird für beliebige Ereignisse A durch die Definition P( A) = ∑ω ∈A P(ω ) auf die Potenzmenge von Ω fortgesetzt. Für die leere Menge setzen wir P(∅) = 0. 1.7 Anwendungsbeispiel (Fortsetzung klinische Studie) Der Wahrscheinlichkeitsraum Ω1 = {0,1} mit P(1) = p, P(0) = 1-p beschreibt den Behandlungserfolg für einen Patienten. Welcher Wahrscheinlichkeitsraum beschreibt den Behandlungserfolg von n Patienten? Lösung 1: Ωs = {0,1,2,...,n} Das (Elementar)-Ereignis {k} steht für die Heilung von exakt k Patienten, das Ereignis {k,k+1,...,n} steht für die Heilung von mindestens k Patienten. Lösung 2: Ωn = Ω1•Ω1•...•Ω1 (kartesisches Produkt mit n identischen Faktoren Ω1 = {0,1}). Jeder Faktor Ω1 steht für den Behandlungserfolg eines Patienten. Elementarereignisse haben die Form (x1, x2, ..., xn) mit xi = 1, wenn Patient i geheilt wird und xi = 0, wenn Patient i nicht geheilt wird. Ωn hat 2n Elemente. 4 P.Martus, Multivariate Statistik, SoSe 2009 1.8 Bemerkung Lösung 2 erscheint unnötig kompliziert, man interessiert sich für Ereignisse aus Ωs, nicht aber aus Ωn. Mit Hilfe des "Umwegs" über Ωn lassen sich aber die gesuchten Wahrscheinlichkeiten für Ωs herleiten. Hierfür werden drei weitere Definitionen benötigt. 1.9 Definition (Unabhängigkeit) In einem endlichen Wahrscheinlichkeitsraum heißen zwei Ereignisse A und B unabhängig, wenn gilt: P(A ∩ B) = P(A) • P(B). 1.10 Anwendungsbeispiel (Fortsetzung Hardy Weinberg Gesetz) Vom Vater wird das Allel A mit der Wahrscheinlichkeit p, das Allel a mit der Wahrscheinlichkeit 1-p vererbt. Gleiches gilt für die Mutter. Somit ist bei unabhängiger Kombination die Wahrscheinlichkeit für den Genotyp AA p2 und für den Genotyp aa q2. Die Wahrscheinlichkeit für den Genotyp Aa ist 2p(1-p), weil A sowohl vom Vater als auch von der Mutter vererbt sein kann. 1.11 Definition (Produktraum) Für zwei endliche Wahrscheinlichkeitsräume Ωa = {ω1a, ω2a,... ωma} und Ωb = {ω1b, ω2b,... ωmb} heißt das kartesische Produkt Ωa • Ωb Produktraum, wenn P (ωja , ωib ) = P(ωja) • P(ωib) für alle Paare von Elementarereignissen gilt. Man sieht leicht, dass dann diese Eigenschaft sofort auf beliebige Ereignisse A ⊂ Ωa und B ⊂ Ωb verallgemeinerbar ist, d.h., dass P(A•B) = P(A) • P(B) gilt. Die Definition kann sofort auf endlich viele Faktoren erweitert werden. 1.12 Bemerkungen Das Symbol "•" wird sowohl für die Bildung des kartesischen Produkts als auch für die Multiplikation von Zahlen verwendet. Das Symbol "P" tritt in den Formeln in 1.9 in dreifacher Bedeutung auf: P(A•B) bezieht sich auf die Wahrscheinlichkeitsverteilung in Ωa • Ωb , P(A) auf diejenige in Ωa und P(B) auf diejenige in Ωb. 5 P.Martus, Multivariate Statistik, SoSe 2009 Streng genommen wäre es in 1.11 falsch, zu sagen, die Ereignisse A und B seien unabhängig. Die beiden Ereignisse A und B stammen aus verschiedenen Wahrscheinlichkeitsräumen und man könnte (A ∩ B) überhaupt nicht bilden. Korrekt ist die folgende Formulierung: Im Produktraum Ωa • Ωb sind die Ereignisse A • Ωb und Ωa • B von einander unabhängig, denn P(A • Ωb ∩ Ωa • B) = P(A•B) = P(A)•P(B). Der Einfachheit halber darf man aber A und B als unabhängig bezeichnen, wenn man weiß, was damit gemeint ist. 1.13 Definition (Zufallsvariable) Für einen endlichen Wahrscheinlichkeitsraum (Ω0, P0) und eine beliebige Menge Ω1 heißt eine Abbildung X: Ω0 → Ω1 Zufallsvariable (oder Zufallsgröße). Durch P1(ω) = P(X-1(ω)) wird auf Ω1 eine Wahrscheinlichkeitsverteilung P1 (auch PX) definiert. Diese Wahrscheinlichkeitsverteilung heißt auch Verteilung von X. 1.14 Anwendungsbeispiel (Fortsetzung klinische Studie) Die Lösung 2 aus Beispiel 1.7 Ωn = Ω1•Ω1•...•Ω1 stellt einen Produktraum dar, wenn man davon ausgeht, dass die Heilung für einen Patienten unabhängig ist von der Heilung für beliebige andere Patienten. Die Wahrscheinlichkeit des Elementarereignisses {x1, x2, ..., xn} ist dann P(x1)• P(x2) • ... • P(xn) und das ist gleich pk • 1-p(n-k), wenn S ( x1 , x 2 , K x n ) := ∑ n i =1 ωi = k gilt. Die gesuchten Wahrscheinlichkeiten für Lösung 1 des Beispiels 1.7 erhält man also als Verteilung der Zufallsgröße S (Summenbildung) von Ωn nach Ωs. Man muss nur noch bestimmen, welche Mächtigkeit S-1(k) hat. ⎛n⎞ Man sieht leicht, dass in der Tat S-1(k) die Mächtigkeit ⎜⎜ ⎟⎟ hat. ⎝k ⎠ 6 P.Martus, Multivariate Statistik, SoSe 2009 1.15 Bemerkung In vielen Anwendungen bezieht man sich auf eine Zufallsvariable mit einer bestimmten Verteilung (z.B. Normalverteilung) ohne sich über das "dahinter liegende" Ω Gedanken zu machen. 1.16 Diskussion des Anwendungsbeispiels (1.2, 1.7, 1.14) Die Annahme, dass jeder Patient unabhängig von den anderen behandelt wird, ist realistisch. Die Annahme, dass jeder Patient die gleiche Heilungswahrscheinlichkeit hat, ist unrealistisch. So könnte z.B. der Schweregrad der Erkrankung für Patienten verschieden sein. Dennoch wird das entsprechende Modell als Standard z.B. für sog. Phase II Studien in der Medikamentenprüfung verwendet. 1.17 Weiterführung (Beliebige Wahrscheinlichkeitsräume) Für abzählbar unendliche Mengen (z.B. {0,1,2,...}) lässt sich die Begriffsbildung des Wahrscheinlichkeitsraums direkt übertragen. Die Summe P( A) = ∑ω ∈A P(ω ) wird bei abzählbar unendlichen Mengen zu einer Reihe mit unendlich vielen Summanden. Bei überabzählbar unendlichen Mengen, z.B. [0,1], R+, R oder {0,1}•{0,1}•...(abzählbar viele Faktoren) treten dagegen schwierige mathematische Probleme auf. In einem eigenen Teilgebiet der Mathematik, der Maßtheorie, werden diese Probleme gelöst. Die Maßtheorie wir hier nicht behandelt. Eine wichtige Konsequenz aus der Maßtheorie ist, dass bei überabzählbarem Ω alle Elementarereignisse die Wahrscheinlichkeit 0 haben können. Außerdem kann nicht mehr für alle Teilmengen von Ω eine Wahrscheinlichkeit angegeben werde, sondern nur für die messbaren Teilmengen. Für die reellen Zahlen R sind z.B. alle Intervalle messbar (vgl. z.B. Bauer 1990, hier insbesondere S.32 ff). Wir gehen im Folgenden stillschweigend davon aus, dass in unseren Anwendungen mit unendlichen Wahrscheinlichkeitsräumen die Definitionen und Sätze für endliche Wahrscheinlichkeitsräume ihre Gültigkeit behalten. 7 P.Martus, Multivariate Statistik, SoSe 2009 1.18 Definition (Verteilungsfunktion und Dichte) Die für Anwendungen relevanten Wahrscheinlichkeitsverteilungen auf R oder Teilintervallen von R können durch Dichtefunktionen f(x) beschrieben werden (vgl. Beispiel 1.4). Ist also Ω eine messbare Teilmenge von R und gilt für eine Wahrscheinlichkeitsverteilung P ∫ P( A) = A f (t )dt , für alle messbaren A ⊆ Ω, dann heißt f die Dichte von P und F (T ) = ∫ T −∞ f (t )dt die Verteilungsfunktion von P. Dabei nehmen wir jetzt und im folgenden an, dass f auf R \ Ω konstant 0 ist. Es gilt ∫ P (Ω ) = Ω f (t )dt = 1 und lim T →∞ F (T ) = 1, lim T →−∞ F (T ) = 0 . Die Verteilungsfunktion lässt sich analog für endliches oder abzählbares Ω ⊆ R durch F (T ) = ∑ω ≤T P(ω ) definieren. 1.19 Bemerkungen Mit Begrifflichkeiten aus der Maßtheorie lässt sich P(ω) auch bei endlichem Ω als Dichte interpretieren und die entsprechenden Summen als Integrale. Im folgenden werden wir immer die Integralschreibweise verwenden. In der multivariaten Statistik werden die Begriffe von Verteilungsfunktion und Dichte auf Wahrscheinlichkeitsräume im Rp verallgemeinert. 1.20 Beispiel (Gleichverteilung) Eine Zufallsgröße X heißt gleichverteilt auf einem Intervall [a,b] (-∞ < a < b < ∞), wenn für die Dichtefunktion f gilt f(x) = 1/(b-a) für x ∈ [a, b] f(x) = 0 für x <a, x > b . 8 P.Martus, Multivariate Statistik, SoSe 2009 Für endliches Ω = Ω = {ω1, ω2,... ωm} mit P(ωi) = 1/m heißt P analog Gleichverteilung und der Wahrscheinlichkeitsraum Laplaceraum mit m Elementen. 1.21 Satz (Gleichverteilung der Verteilungsfunktion) Es sei X eine reelle Zufallsvariable mit stetiger Dichtefunktion f(t) > 0 und es sei T F (T ) = ∫ f (t )dt −∞ die zugehörige Verteilungsfunktion. Dann gilt: Die Zufallsvariable Y:=F(X) nimmt Werte zwischen 0 und 1 an und ist auf [0,1] gleichverteilt. Beweis: siehe Übung. 1.22 Definition (Erwartungswert und Varianz) Für eine Zufallsgröße X mit Dichtefunktion f(x) ist der Erwartungswert μ(X) und die Varianz σ2(X) definiert durch μ ( X ) := σ 2 ( X ) := ∫ ∞ −∞ t f (t )dt ∫ [t − μ ( X )] ∞ −∞ 2 f (t )dt , falls die entsprechenden Integrale existieren. 1.23 Satz (Erwartungswert und Varianz von Summen von Zufallsvariablen) Seien X und Y beliebige reelle Zufallsvariable, für die Erwartungswert und Varianz existieren. Dann gilt μ(X+Y) = μ(X) + μ(Y), μ(aX) = aμ(x) und σ2(aX) = a2σ2(X) für a beliebig aus R. Für unabhängige X, Y gilt σ2(X+Y) = σ2(X) + σ2(Y). Beweis: Bis auf die letzte Aussage folgt alles direkt aus den Definitionen von Erwartungswert und Varianz. Ein Beweis für die letzte Aussage findet sich z.B. bei Chung (1978), Seite 176. 1.24 Beispiel (Binomialverteilung) Der Erwartungswert der Binomialverteilung b(n,p,k) ist np, die Varianz ist npq. Dies folgt sofort aus Satz 1.23 und μ(X) = p und σ2(X) = p(1-p) für n= 1. 9 P.Martus, Multivariate Statistik, SoSe 2009 10 P.Martus, Multivariate Statistik, SoSe 2009 1.25 Poissonscher Grenzwertsatz Wir betrachten eine Folge Xn (n=1,2, ... ∞) von Zufallsgrößen, die alle nach b(n,pn,k) verteilt sind mit konstantem Erwartungswert npn= λ für beliebiges n. Dann gilt für alle k lim n→∞ b(n, p n , k ) = p (λ , k ). Bemerkung: Es genügt vorauszusetzen, dass npn→ λ für n→∞. Beweis: Wir betrachten λ ⎛n⎞ ⎛ λ ⎞ ⎛ λ ⎞ b(n, , k ) := ⎜⎜ ⎟⎟ • ⎜ ⎟ • ⎜1 − ⎟ n ⎝k ⎠ ⎝ n ⎠ ⎝ n ⎠ k n−k ⎡⎛ λ ⎞ n − k ⎤ n − k + 1⎤ ⎡ 1 ⎤ ⎡n n −1 k = ⎢ ⎥•⎢ • •K• • λ • ⎢⎜1 − ⎟ ⎥. n n ⎥⎦ ⎣ k!⎦ ⎣ n ⎢⎣⎝ n ⎠ ⎥⎦ [ ] Die erste und die dritte Klammer haben bereits die gewünschte Form. Die zweite Klammer geht (bei festem k) für n→∞ gegen 1, die letzte Klammer erfüllt ⎡⎛ λ ⎞ n − k ⎤ ⎡⎛ λ ⎞ n ⎤ ⎡⎛ λ ⎞ − k ⎤ ⎢⎜ 1 − ⎟ ⎥ = ⎢⎜ 1 − ⎟ ⎥ • ⎢⎜ 1 − ⎟ ⎥ . n ⎠ ⎦⎥ ⎣⎢⎝ n ⎠ ⎦⎥ ⎣⎢⎝ n ⎠ ⎦⎥ ⎣⎢⎝ Die erste Klammer geht gegen e-λ, die zweite gegen 1 weil k fest ist und λ/n = pn → 0. 1.26 Diskussion des Anwendungsbeispiels 1.4 Im Beispiel zur DNA-Sequenzierung kann man sich vorstellen, dass in immer zahlreicheren und immer kleineren Teilsequenzen des untersuchten DNA-Strangs immer nur ein oder kein Anker auftritt. Bei Aufteilung in n gleichlange Teilsequenzen ist also die Zahl der Anker nach b(1,pn,k) verteilt, die Gesamtzahl der Anker nach b(n,pn,k). Der vorhergehende Satz rechtfertigt also die Annahme einer Poissonverteilung für die Gesamtzahl der Anker. Die Gesamtzahl der Anker kann natürlich nie größer als die Zahl der Basenpaare in der untersuchten Gensequenz sein. Außerdem ist die Unabhängigkeitsannahme in 1.4 sehr problematisch. Dennoch eignet sich das Modell zur einfachen Beschreibung der Verteilung von Ankerpunkten. 11 P.Martus, Multivariate Statistik, SoSe 2009 1.27 Definition (Standardisierung) Es sei X eine reelle Zufallsvariable, für die μ (X) und σ2(X) existieren. Dann heißt die Zufallsvariable Z mit Z= X − μ( X ) σ 2 (X ) die standardisierte Zufallsvariable für X. Für Z gilt μ(X) = 0 und σ2 (X) = 1. Der Nenner Streuung und wird mit σ (X) bezeichnet. σ 2 ( X ) heißt auch Standardabweichung oder 1.28 Satz von de Moivre Laplace Es sei Xn, n→∞ eine Folge von binomial verteilten Zufallsgrößen mit festem p, also Xn ~ b(n,p,k) und es sei Zn die zugehörige Folge standardisierter Zufallsgrößen Zn = X n − np npq . Dann lässt sich die Verteilung von Zn durch die Normalverteilung annähern. Damit ist gemeint: Für beliebige Konstanten -∞ < a < b < +∞ gilt lim n→∞ P(a < Z n ≤ b ) = 1 2π ∫ b a e − x2 2 dx Beweisskizze Im ersten Schritt nähert man die Fakultäten in der Binomialverteilung ⎛n⎞ k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k ⎝k ⎠ mit der Stirlingschen Formel an: ⎛n⎞ n!≈ ⎜ ⎟ ⎝e⎠ n 2π n . Setzt man für die drei Fakultäten des Binomialkoeffizienten die entsprechenden Terme der Stirlingformel ein, so erhält man n ⎛n⎞ k n−k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p ) ≈ k k ⎝ ⎠ ⎛k⎞ ⎜ ⎟ ⎝e⎠ ⎛n⎞ ⎜ ⎟ 2π n n−k ⎝e⎠ p k ⋅ (1 − p ) n−k n k − ⎛ ⎞ 2π k ⎜ 2π (n − k ) ⎟ ⎝ e ⎠ 12 P.Martus, Multivariate Statistik, SoSe 2009 und daraus durch Kürzen n−k k ⎛n⎞ k ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p )n − k ⎝k ⎠ ⎛n⎞ ⎛ n ⎞ ⎜ ⎟ ⎜ ⎟ k n−k⎠ n−k p k ⋅ (1 − p ) . ≈⎝ ⎠ ⎝ 2π n p (1 − p ) In der Übung wird bewiesen, dass k ⎛n⎞ ⎛ n ⎞ ⎜ ⎟ ⎜ ⎟ ⎝k⎠ ⎝n−k⎠ n−k p ⋅ (1 − p ) k n−k ≈e − zk 2 2 erfüllt, wobei zk der standardisierte Wert für k ist. Insgesamt erhalten wir also k ⎛n⎞ ⎛ n ⎞ ⎜ ⎟ ⎜ ⎟ ⎝k⎠ ⎝n−k⎠ n−k p ⋅ (1 − p ) k n−k 1 ≈ 2π n p (1 − p ) e − zk 2 2 Durch Aufsummieren der Wahrscheinlichkeiten aller Trefferzahlen k, für die zk im gewünschten Intervall ]a,b] liegt, erhalten wir eine Riemannsumme, die gegen das im Satz genannte Integral konvergiert (vgl. Chung, 1978, Seite 228-230). Der Satz von de Moivre Laplace ist ein Spezialfall des Zentralen Grenzwertsatzes. 1.29 Zentraler Grenzwertsatz für identisch verteilte unabhängige Zufallsvariable Es sei X eine reelle Zufallsvariable, für die Erwartungswert und Varianz existiert, Xi (i=1,...,n) seien identisch verteilte, unabhängige Zufallsvariable mit der Verteilung von X. Mit Sn bezeichnen wir die Summe der Xi S n = ∑i =1 X i n und mit Zn die Standardisierung von Sn, also Zn = S n − nμ ( X ) nσ 2 ( X ) Dann ist lim n→∞ P(a < Z n ≤ b ) = 1 2π ∫ b a e − x2 2 dx . Beweis: z.B. Chung, 1978, Seite 236-238. 13 P.Martus, Multivariate Statistik, SoSe 2009 1.30 Bemerkung Der Zentrale Grenzwertsatz lässt sich noch allgemeiner formulieren. Es genügt z.B., dass für nicht identisch verteilte, aber unabhängige Zufallsvariable Xi die Erwartungswerte μ (Xi) und Varianzen σ2(Xi) existieren und für die Varianzen σ2(Sn) der Summenvariable S n = ∑i =1 X i n die folgende Summe von Integralen 2 1 n (x − E ( X i ) PX i dx ∑ ∫ i =1 Var (S n ) | xi − E ( X i )|≥εS n für beliebiges ε > 0 gegen Null konvergiert (Lindeberg-Bedingung, Bauer, 1991, Seite 238245). 1.31 Schlussbemerkung Der Zentrale Grenzwertsatz stellt bei vielen statistischen Anwendungen die "Rechtfertigung" für den Gebrauch der Normalverteilung dar. So kann man aus der Formulierung in 1.29 ableiten, dass wiederholte Messungen derselben Größe am selben Individuum, wenn sie unabhängig erfolgen, zu normalverteilten Durchschnittswerten führen (Normalverteilung der Messfehler). Aus der allgemeineren Formulierung in 1.30 kann man folgern, dass die wahren (Messfehlerbereinigten) Werte von unterschiedlichen Individuen in einer Population normalverteilt sind wenn der gesuchte Wert sich additiv aus vielen kleinen Einflüssen zusammensetzt, die unabhängig sind und von denen keiner dominiert (Normalverteilung der „tatsächlichen“ biologischen Variabilität). Literatur Bauer H. Maß- und Integrationstheorie (de Gruyter 1990). Bauer H. Wahrscheinlichkeitstheorie, 4. Auflage (de Gruyter, 1991). Chung KL. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse (Springer, 1978). Ewens WJ, Grant GR. Statistical Methods in Bioinformatics 2.ed. (Springer 2005). 14 P.Martus, Multivariate Statistik, SoSe 2009 Teil 2 Statistische Hypothesentests 2.1 Vorbemerkungen Statistische Hypothesentests stellen das wichtigste Hilfsmittel der konfirmatorischen Statistik dar. Sie ermöglichen, Entscheidungen über wissenschaftliche Hypothesen aufgrund empirischer Daten zu treffen. Dabei können zwar Fehlentscheidungen nicht ausgeschlossen werden, aber deren Wahrscheinlichkeit kann begrenzt werden. Die Anwendung statistischer Tests ist aber nicht frei von Fehlerquellen: • Man muss sich über die "Natur" der Fehlerwahrscheinlichkeiten im Klaren sein, wenn man statistische Tests korrekt anwendet. Eine Hauptaufgabe des Statistikers besteht darin, dem Anwender die korrekte Interpretation von Testergebnissen zu ermöglichen. • Wird die zu testende Hypothese oder die akzeptierte Fehlerwahrscheinlichkeit erst nachträglich, nach Kenntnis aller oder eines Teils der Daten, festgelegt, bricht diese Absicherung ganz oder teilweise zusammen. • Im Rahmen dieses Teils der Vorlesung wird der frequentistische Ansatz dargestellt. In einem anderen Abschnitt wird die Bayesianische Sichtweise dargestellt. Das Prinzip des statistischen Tests wird zunächst an einem einfachen Beispiel dargestellt. Die formal korrekte Behandlung schließt sich an. 2.2 Anwendungsbeispiel (Klinische Studie, vgl. 1.2, 1.7, 1.14, 1.16) Für ein neues Medikament soll gezeigt werden, dass die Heilungswahrscheinlichkeit π größer als 0.5 ist. Hierfür werden n = 15 Patienten mit diesem Medikament behandelt und die Häufigkeit k von Heilungen beobachtet. Wieviele Patienten müssen mindestens geheilt werden, um mit einer Fehlerwahrscheinlichkeit von α=0.05 den Nachweis von π > 0.5 zu erbringen? Gemeint ist der Fehler, sich irrtümlich zugunsten des neuen Medikaments zu entscheiden: Die Heilungswahrscheinlichkeit ist maximal 0.5, in der Studie werden aber zufällig sehr viele Patienten geheilt, d.h. die beobachtete relative Häufigkeit k/n ist deutlich größer als 0.5. Die Mindestzahl K von Heilungen, ab der der Nachweis von π > 0.5 erbracht ist, muss also so hoch liegen, dass die Wahrscheinlichkeit für das Ereignis k ≥ K entsprechend gering, d.h. maximal 0.05 ist. Diese Wahrscheinlichkeit kann für beliebiges π mit Hilfe der Binomialverteilung berechnet werden. Sie ist sicher für jede Wahl von K am größten, wenn π exakt gleich 0.5 ist. Wir werden uns also für diesen Fall absichern und können uns darauf verlassen, dass die Fehlerwahrscheinlichkeit nur geringer werden kann, wenn π sogar kleiner als 0.5 ist. 15 P.Martus, Multivariate Statistik, SoSe 2009 2.3 Beispiel (Fortsetzung) Im folgenden Diagramm sind die Binomialwahrscheinlichkeiten b(15,0.5,k) dargestellt: 15 Patienten - H0: Heilungsrate 50% Wahrscheinlichkeit [%] 25 98.2% 20 1.8% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten Unter der Annahme π = 0.5 ist die Wahrscheinlichkeit, 12 oder mehr Patienten zu heilen, 0.018. Man sieht leicht durch Nachrechnen, dass b(15,0.5,11) = 0.042 und somit b(15,0.5,k ≥ 11) = 0.06 > 0.05. Man muss also mindestens 12 Patienten heilen, um π > 0.5 statistisch zu beweisen. 2.4 Beispiel (Fortsetzung) Für den Nachweis von π > 0.5 wird eine beobachtete Heilungshäufigkeit von 12/15 = 80%, also deutlich mehr als 50%, verlangt! Die beschriebene Studie wird natürlich mit der Absicht durchgeführt, diesen Nachweis zu erbringen (andernfalls müsste der statistische Ansatz geändert werden!). Den Initiator der Studie interessiert also, wie groß die Wahrscheinlichkeit für den Erfolg der Studie ist. Diese Wahrscheinlichkeit hängt nun aber von der tatsächlichen Heilungswahrscheinlichkeit des Medikaments ab. Die folgenden Grafiken zeigen, wie groß für unterschiedliches π die Wahrscheinlichkeit eines Studienerfolgs (k ≥ 12) ist. Aus den Grafiken geht klar hervor, dass die Studie eigentlich nur für π = 0.9 (oder größer) erfolgversprechend ist. Die Bezeichnung H0 und H1 in den Grafiken wird später erklärt. 16 P.Martus, Multivariate Statistik, SoSe 2009 15 Patienten - H1: Heilungsrate 60% Wahrscheinlichkeit [%] 25 90.9% 20 9.1% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 15 Patienten - H1: Heilungsrate 70% Wahrscheinlichkeit [%] 25 70.3% 20 29.7% 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 17 P.Martus, Multivariate Statistik, SoSe 2009 15 Patienten - H1: Heilungsrate 80% Wahrscheinlichkeit [%] 30 35.2% 25 64.8% 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 15 Patienten - H1: Heilungsrate 90% Wahrscheinlichkeit [%] 45 5.6% 40 94.4% 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Anzahl geheilter Patienten 18 P.Martus, Multivariate Statistik, SoSe 2009 2.5 Bemerkung Für den Initiator der Studie ist eine zweite Fehlerwahrscheinlichkeit von Interesse: Die Wahrscheinlichkeit β dafür, dass die Studie nicht das Ziel von mindestens 12 Heilungen erreicht, obwohl die Heilungswahrscheinlichkeit π größer als 0.5 ist. Ist die tatsächliche Heilungswahrscheinlichkeit also z.B. π = 0.6, dann können wir aus der entsprechenden Grafik ablesen, dass β = 1-0.091 = 0.909. Diese Studie wäre also unsinnig. Der Ausweg besteht darin, die Zahl der Patienten zu erhöhen. 2.6 Beispiel (Fortsetzung) Es werden n = 150 Patienten behandelt. Wegen b(150,0.5,k≥86) = 0.043 und b(150,0.5,k≥85) > 0.05 müssen mindestens 86 Patienten geheilt werden. Aus den folgenden Grafiken kann abgelesen werden, dass diese Studie recht erfolgversprechend ist: 150 Patienten - H0: Heilungsrate 50% Wahrscheinlichkeit [%] 7 6 95.7% 4.3% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten 150 Patienten - H1: Heilungsrate 60% Wahrscheinlickeit [%] 7 6 22.6% 77.4% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten 19 P.Martus, Multivariate Statistik, SoSe 2009 2.7 Bemerkung Zur Berechnung der Binomialwahrscheinlichkeiten in 2.6 benutzt man nicht den Rohwert k sondern die standardisierte Zufallsgröße Z= X − μ (k ) σ 2 (k ) mit μ(k) = nπ und σ2 (k) = nπ(1-π). Mit dem Zentralen Grenzwertsatz erhält man 1 b ( n, p , k ≥ K ) ≈ 2π ∫ − ∞ Z (K ) e z2 2 dz ⎛ ⎜= ⎜ ⎝ 1 ∫ 2π np (1 − p) ∞ K − e ( x − np ) 2 2 np (1− p ) ⎞ dx ⎟ . ⎟ ⎠ 2.8 Beispiel (Fortsetzung) In Medikamentenstudien ist man dazu verpflichtet, auch immer mit zu überprüfen, ob die Studie (entgegen der Intention des Initiators) statistisch beweist, dass das neue Medikament sogar deutlich schlechter als erwartet ist. Dies bedeutet, dass man auch den Fall π < 0.05 berücksichtigen muss. Praktisch erfolgt dies dadurch, dass man den zulässigen Fehler von 0.05 zu gleichen Teilen auf besonders hohe und besonders niedrige Heilungshäufigkeiten verteilt: 150 Patienten - H0: Heilungsrate 50% Zweiseitiger Test Wahrscheinlichkeit [%] 7 6 2.04% 2.04% 5 4 3 2 1 0 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 Anzahl geheilter Patienten Man verlangt jetzt mindestens 87 Heilungen, statt 86. 20 P.Martus, Multivariate Statistik, SoSe 2009 2.9 Bemerkung Wenn in der Studie statt der geforderten 87 Patienten z.B. 78 geheilt werden, hat man den geforderten Nachweis von π > 0.5 nicht erbracht. Werden z.B. 90 Patienten geheilt, hat man ihn erbracht. Um zu demonstrieren, wie "nahe" das Ergebnis an der vorgeschriebenen Grenze K = 87 lag, betrachtet man die Fehlerwahrscheinlichkeit, die zum beobachteten k gehört. Im ersten Fall mit k = 87 gilt b(150,0.5,k≥78) = 0.342, im zweiten Fall b(150,0.5,k≥90) = 0.0012. Beachtet man die in 2.8 geforderte Erweiterung auf den Nachweis von π < 0.5, so kann man folgende Aussage treffen: Wäre die zulässige Fehlerwahrscheinlichkeit α = 0.682 gewesen, hätten die 78 Patienten zum Nachweis π > 0.5 ausgereicht, wäre die Fehlerwahrscheinlichkeit dagegen α = 0.0024 gewesen, hätten 90 Patienten zum Nachweis π > 0.5 ausgereicht. In den folgenden Abschnitten werden die bisher informell verwendeten Begriffsbildungen in einer Serie von mathematischen Definitionen präzisiert. Es wird dringend empfohlen, das Beispiel 2.2-2.8 jeweils gegen zu lesen. 2.10 Definition (statistischer Raum) Gegeben sei eine Menge Ω zusammen mit einer Menge von Wahrscheinlichkeitsverteilungen P auf Ω. Dann heißt das Paar (Ω ,P) statistischer Raum. Wir sprechen von einem parametrischen statistischen Raum, wenn sich die Wahrscheinlichkeitsverteilungen in P durch einen (üblicherweise reellwertigen) Parameter (oder Parametervektor im Rn) beschreiben lassen, d.h.wenn man schreiben kann P = {Pθ | θ ∈ Θ}. 2.11 Bemerkungen Für endliches Ω = {ω1, ω2,... ωm} oder abzählbares Ω = {ω1, ω2,...} können wir ohne Einschränkung davon ausgehen, dass die einzelnen Wahrscheinlichkeitsverteilungen P aus P jeweils für alle Teilmengen von Ω definiert sind. Für beliebiges Ω müssen wir zusätzlich verlangen, dass jedes P aus P für dieselben Ereignisse A ⊆ Ω definiert ist. In vielen Anwendungen verlangt man zusätzlich, dass nicht nur jedes P für dieselben Ereignisse definiert ist, sondern auch dass P(A) > 0 entweder für alle oder für kein P aus P erfüllt ist. Lässt man beliebige Parametermengen Θ zu, kann man man jeden statistischen Raum als parametrisch auffassen. Im engeren Sinne spricht man von einem parametrischen Raum, 21 P.Martus, Multivariate Statistik, SoSe 2009 wenn der Parameter wie oben erwähnt ein- oder mehrdimensional reell ist. Als Parameter werden häufig Erwartungswert und/oder Varianz gewählt. Diese Wahl ist aber nicht zwingend, in manchen Fällen wählt man einfache Funktionen dieser Größen . Wir werden fast immer davon ausgehen, dass der Raum, den wir betrachten, im engeren Sinne parametrisch ist. In sehr vielen Fällen hat man die Wahl, Ω in der Form (Ω1)n oder gleich als den Bildraum einer Abbildung von (Ω1)n in einen einfachen Raum (Ω2) festzulegen. 2.12 Beispiel (Fortsetzung) In der klinischen Studie wählen wir Ω = {0, 1, 2,... 15 } bzw. Ω = {0, 1, 2,... 150} P = {b(15,p,k) | p ∈]0,1[} bzw. P = {b(150,p,k) | p ∈]0,1[}. und Hier ist p der Parameter, n wird als konstant betrachtet. Die Werte p = 0 und p = 1 werden bewusst nicht zugelassen, weil dann die Bedingung "P(A) > 0 entweder für alle oder für kein P aus P " verletzt wäre. Eine alternative Parametrisierung wäre p/(1-p) oder ln[p/(1-p)]. Eine alternative Wahl für Ω wäre {0,1}15. P wäre dann die Menge aller Wahrscheinlichkeitsverteilungen auf den Tupeln (ω1, ω2,... ω15) mit ωi ∈ {0,1} und für Σwi = k P(ω1, ω2,... ω15) = pk(1-p)15-k. Die Parametermenge würde sich nicht ändern, wäre also z.B. wieder ]0,1[. 2.13 Definition (Testprobleme, Nullhypothese und Alternative, Entscheidungsfunktion, kritischer Bereich, kritischer Wert) Es sei (Ω, P) ein statistischer Raum mit P = {Pθ | θ ∈ Θ}. Θ0 und Θ1 seien zwei Teilmengen von Θ mit Θ0 ∩ Θ1=∅. Als Testproblem bezeichnet man die Aufgabe, aufgrund von Stichprobendaten zu entscheiden, ob man die Annahme H0: P∈ Θ0 zugunsten der Annahme H1: P∈ Θ1 ablehnen kann. H0 heißt Nullhypothese und H1 heißt Alternative. Falls Θ = R, Θ0 = ]a,b] und Θ1 = ]b,c[, spricht man von einem einseitigen Testproblem, falls Θ0={b} und Θ1 = ]a,b[∪]b,c[ spricht man von einem zweiseitigen Testproblem (-∞ ≤ a < b < c ≤ ∞). Als Entscheidungsfunktion bezeichnet man diejenige Funktion δ:Ω→{0,1}, die jedem möglichen Versuchsergebnis ω den Wert 0 (keine Ablehnung der Nullhypothese) oder 1 (Ablehnung der Nullhypothese) zuordnet. 22 P.Martus, Multivariate Statistik, SoSe 2009 Als kritischen Bereich K bezeichnet man die Menge δ-1(1), also diejenigen Versuchsergebnisse, die zur Ablehnung der Nullhypothese führen. Ist Ω reell und hat der kritische Bereich die Gestalt eines Intervalls K = [K,∞[, bezeichnet man K als kritischen Wert. Wenn man vor die Entscheidungsfunktion eine Zufallsgröße X von Ω in einen einfacheren Ω' "zwischenschaltet", bezeichnet man X als Prüfgröße und spricht dann analog vom kritischen Wert für die Prüfgröße. 2.14 Bemerkungen Meistens, aber nicht immer gilt Θ0 ∪ Θ1=Ω.. Es kann also in P Wahrscheinlichkeitsverteilungen geben, die weder zur Nullhypothese noch zur Alternative gehören. Das Testproblem ist bewusst asymmetrisch formuliert: Wenn man die Nullhypothese ablehnen kann, gilt die Alternative als statistisch bewiesen. Wenn man die Nullhypothese nicht ablehnen kann, gilt sie deswegen noch lange nicht als statistisch bewiesen. In vielen Anwendungen mit einseitigen Testproblemen bezieht man aus Θ0 nur die ungünstigste Wahrscheinlichkeitsverteilung, also diejenige, die der Alternative am "nähesten" kommt, in die weiteren Überlegungen ein. In einem allgemeineren Ansatz kann die Entscheidungsfunktion auch Werte zwischen null und eins annehmen. Gemeint ist folgendes: Wenn δ(ω) = ρ, dann sollte man sich mit Wahrscheinlichkeit ρ für die Ablehnung der Nullhypothese entscheiden, also für die Entscheidung selbst noch einmal ein Zufallsexperiment durchführen. Man spricht deswegen von randomisierten Entscheidungsfunktionen. Diese werden in der Praxis nicht angewendet. 2.15 Beispiel (Fortsetzung) In der klinischen Studie mit Ω = {0, 1, 2,... 15 } und P = {b(15,p,k) | p ∈]0,1[} lautet das einseitige Testproblem H0: P ∈ ]0,0.5], H1: P ∈ ]0.5, 1[ und das zweiseitige Testproblem H0: P ∈ {0.5}, H1: P ∈]0 , 0.5[ ∪ ]0.5, 1[. Die Entscheidungsfunktion δ geht von {0,1,...,15} nach {0,1}. Beim einseitigen Testproblem hatten wir uns entschieden, δ{k} = 1 zu wählen, falls k ≥ 12. Der kritische Wert K war also 23 P.Martus, Multivariate Statistik, SoSe 2009 12. Die Wahl von K war aufgrund der Vorgabe erfolgt, dass die Wahrscheinlichkeit, H0 abulehnen obwohl H0 zutrifft maximal 0.05 sein sollte. Bei Verwendung einer randomisierten Entscheidungsfunktion dürfte man für k=11 Heilungen mit Wahrscheinlichkeit 0.032/0.042 = 76% die Nullhypothese ablehnen. Bei Verwendung von Ω = {0,1}15 wäre die Prüfgröße X definiert durch X(ω1, ω2,... ω15) = Σwi (= k). 2.16 Definition (Fehler erster und Fehler zweiter Art, Macht, Machtfunktion) Bei gegebenem Testproblem nennt man Maxθ ∈Θ0 Pθ ( K ) den Fehler erster Art oder Signifikanzniveau und bezeichnet es mit α. (K ist der kritische Bereich). Für festes θ ∈ Θ1 nennt man 1 − Pθ ( K ) den Fehler zweiter Art. Die Funktion M : Θ → [0,1], M (θ ) = Pθ ( K ) bezeichnet man als Machtfunktion. 2.17 Bemerkungen Manchmal bezeichnet man auch die Entscheidung selbst als Fehler erster oder zweiter Art und nicht die Wahrscheinlichkeit der jeweiligen Entscheidung. In Anwendungen wird der Fehler erster Art als der wichtigere angesehen, dessen Wahrscheinlichkeit in jeder Studie vorher begrenzt werden muss. In der Medizin wird üblicherweise α=0.05 verlangt. Um überhaupt vom Fehler zweiter Art zu sprechen, muss man sich auf eine spezielle Alternative θ ∈ Θ1 festlegen. Demgegenüber ist der Fehler erster Art ja ein Maximalwert von Wahrscheinlichkeiten, man muss sich hier nicht auf ein spezielles θ ∈ Θ0 festlegen. In guten Studien wird der Fehler zweiter Art vor der Studie für eine realistische Alternative bestimmt. Man kann für festes θ ∈ Θ1 den Fehler zweiter Art durch Erhöhung des Stichprobenumfangs verringern (s.u. Fallzahlschätzung). Allerdings wird sich bei fester Fallzahl der Fehler zweiter Art für Alternativen, die sich immer mehr der Nullhypothese annäheren, immer mehr dem 24 P.Martus, Multivariate Statistik, SoSe 2009 Wert 1-α annähern, in der Medizin also 95%. Extrem kleine Abweichungen von der Nullhypothese können also statistisch kaum nachgewiesen werden. . 2.18 Beispiel (Fortsetzung) Im Beispiel mit 15 Patienten wurde der Fehler erster Art auf 0.05 begrenzt. Für den einseitigen Test wurden der Fehler zweiter Art für die speziellen Alternativen θ = 0.60, θ = 0.70, θ = 0.80 und θ = 0.90 bestimmt. Die Machtfunktion hat auf ]0.5,1[ die Gestalt 1,00 0,80 macht 0,60 0,40 0,20 0,00 0,50 0,60 0,70 0,80 0,90 1,00 p 2.19 Definition (Überschreitungswahrscheinlichkeit) Bei bekanntem Versuchsergebnis kann man das niedrigste Signifikanzniveau angeben, für das das Studienergebnis noch signifikant gewesen wäre. Es liegt bei maximal α, wenn das Studienergebnis signifikant für α war und bei größer α, wenn das Studienergebnis nicht signifikant für α war. Dieses "optimale" Signifikanzniveau bezeichnet man als Überschreitungswahrscheinlichkeit oder kürzer als p-Wert. 2.20 Bemerkung P-Werte enthalten mehr Information als die Angabe zur Ablehnung oder Nichtablehnung der Nullhypothese. P-Werte stellen aber keine Begrenzungen für die Wahrscheinlichkeiten von Fehlentscheidungen dar, auch wenn sie oft in dieser Art interpretiert werden. P-Werte werden in der Medizin extrem häufig berechnet. 2.21 Beispiel (Fortsetzung) 25 P.Martus, Multivariate Statistik, SoSe 2009 Der p-Wert für k = 11 Heilungen war 0.06, derjenige für k = 12 Heilungen 0.018. 2.22 Algorithmus (Fallzahlschätzung) Wenn man für eine Studie den Fehler zweiter Art begrenzen will, muss man die notwendige Mindestfallzahl bestimmen. Dabei geht man folgendermaßen vor: Man legt durch die Wahl vonΘ0 die Nullhypothese und durch die Wahl von Θ1 die Alternative fest. Man fixiert das Signifikanzniveau α. Weiterhin legt man für ein spezielles θ ∈ Θ1 den gewünschten Fehler zweiter Art β fest. Für eine initiale Festlegung n der Fallzahl bestimmt man zunächst den maximal möglichen kritischen Bereich K aufgrund der Bedingung Maxθ ∈Θ0 Pθ ( K ) ≤ α Für das gefundene K und das spezielle θ ∈ Θ1 bestimmt man den Fehler zweiter Art 1 − Pθ ( K ) = β ( n ) . Wenn β(n) > β muss n erhöht werden, wenn β(n) < β kann n verringert werden. Durch Ausprobieren findet man die notwendige Fallzahl. Bei sehr einfachen Testproblemen kann man geschlossene Formeln für die Fallzahl angeben. 2.23 Beispiel (Fortsetzung) Für die Approximation der Binomial- durch die Normalverteilung lautet die geschlossene Form der Fallzahlschätzung für den einseitigen Test {z n= 1−α [π 0 (1 − π 0 )] + z1− β [π 1 (1 − π 1 )]} (π 1 − π 0 )2 2 Dabei bezeichnet zγ das γ-Quantil der Standardnormalverteilung, also den z-Wert für den gilt: 1 2π ∫ zγ −∞ − e z2 2 dz = γ Es gilt z0.95 = 1.645 und z0.80 = 0.893. Die notwendige Fallzahl für π0 = 0.50 und π1 = 0.60 ist n= {1.645 [0.5 • (1 − 0.5)] + 0.893 [0.6 • (1 − 0.6)]} (0.6 − 0.5)2 2 ≈ 157 . 26 P.Martus, Multivariate Statistik, SoSe 2009 Für den zweiseitigen Test muss man α halbieren, also mit z0.975 (=1.96) statt z0.95 a(=1.645) arbeiten. 27 P.Martus, Multivariate Statistik, SoSe 2009 Teil 3 Methodenkatalog 3.1 Vorbemerkungen und Überblick In den folgenden Abschnitten werden wir einige statistische Tests vorstellen, die für medizinisch / biologische Anwendungen von Bedeutung sind. Die zugrunde liegende Theorie werden wird nur andeutungsweise behandeln, den Fehler erster Art immer auf 0.05 fixieren. Bei den ausgewählten statistischen Tests lassen sich drei Stichprobenstrukturen unterscheiden: • • • Eine Stichprobe wird gegen einen bekannten Wert verglichen. Zwei Stichproben werden gegeneinander verglichen. Alle Werte können als unabhängig betrachtet werden (meistens, weil sie von verschiedenen Patienten stammen, die z.B. unterschiedliche Therapien erhalten oder zu unterschiedlichen Diagnosegruppen gehören). Zwei Stichproben werden gegeneinander verglichen. Jeweils ein Wert der ersten und der zweiten Stichprobe sind voneinander abhängig. Ansonsten sind die Werte unabhängig (meistens zwei Messungen am selben Patienten unter verschiedenen Bedingungen, z.B. unter zwei Therapien, von der linken und rechten Körperseite, an gesundem und krankem Gewebe). Aus der Stichprobenstruktur und der Verteilung des zu untersuchenden Merkmals ergibt sich dann jeweils der anzuwendende Test. Wir werden sehen, dass der dritte Fall einfach auf den ersten zurückgeführt werden kann. Die in diesem Abschnitt vorgestellten Beispiele sollen lediglich den Rechenweg verdeutlichen und stammen nicht aus realistischen Anwendungen. In der Übung werden reale Anwendungsbeispiele behandelt. Um klar zwischen den theoretischen Parametern der Wahrscheinlichkeitsmodelle und den Parametern der beobachteten Stichproben unterscheiden zu können, werden wir für die theoretischen Parameter griechische und für die Stichprobenparameter lateinische Buchstaben verwenden. Beispiel: Wir werden Wahrscheinlichkeiten mit π, beobachtete relative Häufigkeiten mit p bezeichnen. 28 P.Martus, Multivariate Statistik, SoSe 2009 3.2 Test einer Stichprobe gegen einen bekannten Wert - Häufigkeiten (Binomialtest) Dieser Test wurde in Teil 2 ausführlich behandelt. Wir analysieren eine Stichprobe, bei der die Häufigkeit eines bestimmten Ereignisses interessiert: Notation n k Stichprobenumfang Häufigkeit des Ereignisses Statistischer Raum Ω = {0,1}n P = {b(1,π,k)n| π ∈ ]0,1[} oder Statistischer Raum Ω = {0,1,...,n} P = {b(n,π,k)| π ∈ ]0,1[} Nullhypothese: π = π0 Alternative: π > π0 (einseitig) π < π0 (einseitig) π ≠ π0, (zweiseitig, d.h. π > π0 oder π < π0 ) Prüfgröße k = Σωi (für die erste Wahl des statistischen Raums) k (also Identität für die zweite Wahl des statistischen Raums) Verteilung der Prüfgröße unter der Nullhypothese b(n,π0,k) (gilt für beide Wahlen des statistischen Raums) Kritischer Wert (einseitig) Das kleinste K mit ∑ n k =K b(n, π 0 , k ) ≤ 0.05 Wenn nicht die exakte Formel der Binomialverteilung (vgl. 1.2) sondern die Näherung des Zentralen Grenzwertsatzes verwendet wird, ändert sich die Prüfgröße: Notation Prüfgröße beobachtete Häufigkeit k/n Dichtefunktion der Standardnormalverteilung p −π0 Z= n π 0 • (1 − π 0 ) p f Verteilung der Prüfgröße unter der Nullhypothese Normalverteilung N(0,1) Kritischer Wert (einseitig) Das Z mit ∫ +∞ Z f ( z )dz = 0.05 Für Beispiele mit π0 = 0.5 und n = 15 bzw. n = 150 siehe Teil 2 der Vorlesung. 29 P.Martus, Multivariate Statistik, SoSe 2009 3.3 Test einer Stichprobe gegen einen bekannten Wert - Normalverteilte Daten mit bekannter Varianz und unbekanntem Erwartungswert (z-Test) Wir analysieren eine Stichprobe des Umfangs n von normalverteilten Daten. Wir wollen zeigen, dass sich der Erwartungswert μ der zugrundeliegenden Wahrscheinlichkeitsverteilung von einem vorgegebenen Wert μ0 unterscheidet. Wir gehen davon aus, dass die Varianz σ2 bekannt ist. Notation S Stichprobe Stichprobenumfang n _ Mittelwert der Stichprobe x Statistischer Raum Ω = Rn P = {N(μ,σ2)n| μ ∈ R} Nullhypothese: μ = μ0 Alternative: μ > μ0 (einseitig) μ < μ0 (einseitig) μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0 ) _ x− μ 0 Prüfgröße Z= Verteilung der Prüfgröße unter der Nullhypothese Normalverteilung N(0,1) f ( z) Kritischer Wert (μ > μ0) Kritischer Wert (μ < μ0) Kritischer Wert (μ ≠ μ0) n σ2 1 = 2π ∫ Das Z mit ∫ Das Z mit ∫ Das Z mit − e z2 2 dz +∞ Z Z −∞ Z −Z f ( z )dz = 0.05 , also Z = 1.645 f ( z )dz = 0.05 , also Z = -1.645 f ( z )dz = 0.95 , also Z = 1.96 d.h. ∫ +∞ Z f ( z )dz = 0.025 und ∫ −Z −∞ f ( z )dz = 0.025 Beispiel: S = (1.5,2.5,1.5,2.5), μ0 = 1, σ2 = 0.25, Z = (2-1)/√0.25)√4 = 1/0.5*2 =4 > 1.96. Wir können also die Nullhypothese ablehnen. Wir haben (statistisch) gezeigt, dass der tatsächliche Erwartungswert größer als μ0 = 1 ist. 30 P.Martus, Multivariate Statistik, SoSe 2009 3.4 Test einer Stichprobe gegen einen bekannten Wert - Normalverteilte Daten mit unbekannter Varianz und unbekanntem Erwartungswert (t-Test für eine Stichprobe) Gegenüber 3.3 ändert sich nur, dass wir die Varianz nicht kennen, sondern aus der Stichprobe schätzen müssen. Wir behandeln hier nur den zweiseitigen Test, die einseitigen Varianten werden analog durchgeführt. Die Varianz lässt sich aus der Stichprobe durch s2 = _ n ⎛ 1 ⎞ ⎜ xi − x ⎟ ∑ i =1 n −1 ⎝ ⎠ 2 schätzen. Notation Stichprobenumfang n _ Mittelwert der Stichprobe geschätzte Varianz Gammafunktion x s2 Γ Statistischer Raum Ω = Rn P = {N(μ,σ2)n| μ ∈ R, σ2 > 0} Nullhypothese: μ = μ0 Alternative: μ ≠ μ0, (zweiseitig, d.h. μ > μ0 oder μ < μ0) _ x− μ 0 Prüfgröße t= Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n-1 Freiheitsgraden tν (für beliebiges σ2!) n s2 ⎛ν + 1 ⎞ Γ⎜ ⎟ ⎝ 2 ⎠ ⎛ν ⎞ Γ⎜ ⎟ πν ⎝2⎠ f (t ,ν ) = ⎛ t2 ⎜⎜1 + ⎝ ν ⎞ ⎟⎟ ⎠ ν +1 − 2 Es gilt Γ(0.5) = √π, Γ(n+0.5) = (n-0.5)• Γ(n-0.5) und Γ(n) = (n-1)! (jeweils n>0, ganzzahlig). Dadurch lassen sich die Werte der Γ-Funktion für alle Freiheitsgrade bestimmen. Kritischer Wert (μ ≠ μ0) Das T mit ∫ T −T f (t )dt = 0.95 , im Beispiel T = 3.18 Beispiel: S = (1.5,2.5,1.5,2.5), μ0 = 1, s2 = 1/3 = 0.33, t = (2-1)/√0.33)√4 = 2/0.57 = 3.46 > 3.18. Wir können also die Nullhypothese ablehnen. Es ist statistisch bewiesen, dass der tatsächliche Erwartungswert μ0 größer als 1 ist! 31 P.Martus, Multivariate Statistik, SoSe 2009 3.5 Vergleich zweier unabhängiger Stichproben - Häufigkeiten (Chi-Quadrat Test) Wir analysieren zwei nicht unbedingt gleichgroße, unabhängige Stichproben und beobachten das Eintreten eines bestimmten Ereignisses. Z.B. könnte es sich um Patienten handeln, die zufällig einer von zwei Therapien zugeordnet wurden und für die der Heilungserfolg beobachtet wurde. Wir stellen hier nur den zweiseitigen Fall des Tests vor. Notation n1 ; n2 ; n k1,obs ; k2,obs ; kobs _ Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe Beobachtete Häufigkeit Stichprobe 1, Stichprobe 2, Gesamtstichprobe p Relative Häufigkeit in der Gesamtstichprobe = kobs / n k1,exp Erwartete Häufigkeit erste Stichprobe, falls π = p , also p • n1 k2,exp Erwartete Häufigkeit, zweite Stichprobe, falls π = p , also p • n2 _ _ _ _ Ω = {0,1}n1•{0,1}n2 P = {b(1,π1,k)n1• b(1,π1,k)n2| π1, π2 ∈ ]0,1[} Statistischer Raum oder Statistischer Raum Ω = {0,1,...,n1}•{0,1,...,n2} P = {b(n1,π1,k) • b(n2,π2,k)| π1, π2 ∈ ]0,1[} Nullhypothese: π1 = π2 Alternative: π1 ≠ π2, (zweiseitig) Prüfgröße (k χ2 = − k1,obs ) 2 1,exp Verteilung der Prüfgröße unter der Nullhypothese k1,exp (k + n1 − k1,exp (k + − k 2,obs ) 2 2 ,exp k 2,exp (k + − k 2,obs ) 2 2 ,exp n2 − k 2,exp Chi-Quadrat-Verteilung mit einem Freiheitsgrad 1 − 12 − 2t t e 2π f (x) = Kritischer Wert − k1,obs ) 2 1,exp X mit ∫ X −∞ f (t )dt = 0.95 , also X = 3.84 Beispiel: In beiden Gruppen werden jeweils 40 Patienten behandelt. In der ersten Gruppe _ werden 10, in der zweiten werden 30 Patienten geheilt, also p = 0.5. In beiden Gruppen wären somit je 20 Heilungen zu erwarten. Wir erhalten χ2 = 1/20•(100+100+100+100) = 20, wir haben also (statistisch) nachgewiesen, dass π1 > π2. 32 P.Martus, Multivariate Statistik, SoSe 2009 3.6 Vergleich zweier Stichproben - Normalverteilte Daten mit unbekannter aber in beiden Stichproben identischer Varianz und unbekannten Erwartungswerten (t-Test für unabhängige/unverbundene Stichproben) Die Bezeichnungen müssen gegenüber 3.4 jetzt auf zwei Gruppen ausgedehnt werden: Notation: n1 ; n2 ; n _ _ Stichprobenumfang Stichprobe 1, Stichprobe 2, Gesamtstichprobe x1 ; x 2 Mittelwert Stichprobe 1, Stichprobe 2 s12 ; s 22 (empirische) Varianz Stichprobe 1, Stichprobe 2 Die als identisch angesehene wahre Varianz σ2 lässt sich aus den beiden Stichproben durch s2 = (n1 − 1) s12 + (n2 − 1) s 22 n1 + n2 − 2 schätzen. Statistischer Raum Ω = Rn P = {N(μ1,σ2)n1• N(μ2,σ2)n2| μ1, μ2 ∈ R, σ2 > 0} Nullhypothese: μ1 = μ2 Alternative: μ1 ≠ μ2, _ Prüfgröße t= _ x1 − x 2 s 2 • n1 • n2 n1 + n2 Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n1 + n2 - 2 Freiheitsgraden (für beliebiges σ2!) Kritischer Wert (μ ≠ μ0) Das T mit ∫ T −T f (t )dt = 0.95 , im Beispiel T = 2.57 Beispiel: _ _ S1 = (1.5,2.5,1.5,2.5), S2 = (2.5,3,3.5), x1 = 2, s12 = 1/3 = 0.33, x 2 = 3, s 22 = 0.25, s2 = 1/5*(3*0.33+2*0.25) = 0.3, t = (2-3)/√0.3*√(12/7) = - 2.39> - 2.57. Wir können also die Nullhypothese nicht ablehnen. Wir haben aber deswegen nicht bewiesen, dass der Erwartungswert in beiden Gruppen gleich groß ist. 33 P.Martus, Multivariate Statistik, SoSe 2009 3.7 Vergleich zweier abhängiger Stichproben - Normalverteilte Differenzen mit unbekannter Varianz (t-Test für abhängige/verbundene Stichproben) Wir führen pro Proband zwei Messungen durch. Man könnte z.B. die Schmerschwelle unter zwei verschiedenen Schmerzmitteln messen oder den Blutdruck vor und nach Therapie miteinander vergleichen. In diesem Abschnitt gehen wir von Messungen einer kontinuierlichen Zufallsgröße aus, im folgenden Abschnitt von ja/nein Messungen. Wir bezeichnen die beiden Zufallsvariablen mit X1 und mit X2, die Stichproben entsprechend mit S1 und S2. Wir setzen nicht voraus, dass X1 und X2 unabhängig sind, das wäre auch extrem unrealistisch. Wir bestimmen vielmehr die Differenzenstichprobe SD aus der Zufallsvariablen D = X2 - X1 und setzen voraus, dass diese Stichprobe normalverteilt ist. Das weitere Vorgehen wird an einem Beispiel erläutert: S1: S2: SD: 1 1 0 3 5 2 4 3 -1 3 5 2 5 6 1 4 6 2 2 2 0 4 6 2 5 4 -1 4 6 2 6 7 1 5 7 2 Auf SD wenden wir dann den Test aus Abschnitt 3.4 mit μ0 = 0 an: Mittlere Differenz: Stichprobenvarianz der Differenzen: Fallzahlfaktor √12 Prüfgröße t Kritischer Wert (ν = 11) 1.0 1.455 3.46 2.872 2.20 Es ist statistisch gezeigt, dass die Werte der zweiten Stichprobe größer sind als diejenigen der ersten. Zum Vergleich: Wenn S1 und S2 aus unabhängigen Stichproben kämen, wäre t = 1.44 und das Ergebnis nicht signifikant. Der Grund liegt darin, dass die Varianz von X1 und X2 größer ist als diejenige von D. Außerdem ist der Fallzahlfaktor bei unabhängigen Stichproben √[(12*12)/(12+12)] = √(12/2) = √6und bei abhängigen Stichproben √(12). 3.8 Vergleich zweier abhängiger Stichproben - Häufigkeiten (Vorzeichentest) Bei dychotomen (ja/nein) Variablen erhält man pro Proband ebenfalls zwei Messungen, die wir als Zufallsvariablen mit Y1 und mit Y2 bezeichnen, also z.B. Heilung ja (1), nein (0). Sowohl Y1 als auch Y2 können nur die Werte 0 und 1 annehmen. Die Differenzenvariable D = Y1 - Y2 kann somit nur die Werte -1, 0 und 1 annehmen. Zur Signifikanztestung ignoriert man die Null-Differenzen und vergleicht die positiven mit den negativen Differenzen mit Hilfe des Binomialtests für π0 = 0.5 . Die Wahl von π0 ist 34 P.Martus, Multivariate Statistik, SoSe 2009 dadurch begründet, dass bei gleichen Heilungswahrscheinlichkeiten die Differenzen -1 und +1 jeweils etwa gleichhäufig auftreten müssten. Beispiel S1 1 1 0 1 0 1 1 0 1 1 1 1 S2 0 0 0 0 1 0 0 0 0 1 0 0 SD 1 1 (0) 1 -1 1 1 (0) 1 (0) 1 1 Wir erhalten acht positive und eine negative Differenz. Drei Nulldifferenzen werden gestrichen. Insgesamt müssen wir also einen Binomialtest mit n = 9, π0 = 0.5 und k = 8 rechnen. Es gilt ∑ 1 k =0 b(9,0.5, k ) + ∑k =8 b(9,0.5, k ) = 0.039. 9 Wir haben also (statistisch) nachgewiesen, dass die Heilungswahrscheinlichkeit unter der ersten Therapie größer ist als unter der zweiten. 3.9 Bemerkungen Die Formeln der Dichtefunktionen für die t- und die Chi-Quadrat Verteilung werden für das weitere Verständnis nicht benötigt und sind nur aus Vollständigkeitsgründen angegeben. Die Formeln der Prüfgrößen der einzelnen Tests sind dagegen wichtig, weil sie die Rationale der entsprechenden Tests verdeutlichen. Man kann zeigen, dass die Chi-Quadrat Verteilung die Verteilung des Quadrats einer normalverteilten Zufallsgröße ist. Insbesondere gilt für die kritischen Werte 1.962 = 3.84. Für quantitative Daten, die nicht normalverteilt sind, verwendet man „nichtparametrische“ Testverfahren, z.B. den Mann-Whitney Test. Diese Verfahren werden später behandelt, wenn wir sie in Anwendungen benötigen. 35 P.Martus, Multivariate Statistik, SoSe 2009 Teil 4 Elementare Korrelations- und Regressionsanalyse 4.1 Vorbemerkung Bei der Regressionsanalyse untersuchen wir die Möglichkeit, den Wert einer Zufallsgröße Y aus dem Wert einer oder mehrerer anderer zufälliger oder deterministischer Variablen X bzw. X1, X2,...,Xp vorherzusagen. Der hier behandelte, einfachste Fall ist durch vier Kriterien charakterisiert: • • • • Zur Vorhersage von Y wird nur eine Variable X verwendet. Der Erwartungswert von Y hängt von X affin linear und vom Vektor (β0, β1) linear ab, d.h. E(Y|X) = β0+β1X. X wird als deterministisch angenommen. Bei gegebenen X ist Y normalverteilt mit von x unabhängiger, also konstanter Varianz σ2. Insgesamt ergibt sich also die Modellgleichung Yi = β0 + β1Xi + εi mit εi ~ N(0,σ2) Yi = E(Y|Xi) + εi mit εi ~ N(0,σ2). bzw. Man beachte, dass σ2 nicht von i abhängt. 4.2 Anwendungsbeispiel (Diagnose des grünen Stars) Grüner Star (Glaukom) ist eine Krankheit, bei der es zu Gesichtsfeldverlust kommt, der in vielen Fällen verursacht ist durch Erhöhung des intraokularen Drucks und darauf folgende Schädigung des Sehnervs. Die Entwicklung von Methoden zur Früherkennung dieser Krankheit ist ein zentrales Forschungsgebiet der Augenheilkunde, weil die Schädigung des Sehnerven irreversibel ist. Die Perimetrie gilt als "Goldstandard" für die Erkennung funktioneller Schäden beim grünen Star. Der Erlanger Flimmertest ist ein Schnelltest, der z.B. in Screeninguntersuchungen von Risikogruppen verwendet werden soll. Man interessiert sich dafür, ob dieser Test die Ergebnisse der Perimetrie grob vorhersagen kann. Y: Perimetrie Abweichung der Lichtunterscheidungsempfindlichkeit [dB], gemittelt über 59 Punkte des Gesichtsfeldes, gegenüber Normalwerten. X: Erlanger Flimmertest Kontrastempfindlichkeit [%] auf Flimmerreiz, Stimulus im gesamten Gesichtsfeld. 36 P.Martus, Multivariate Statistik, SoSe 2009 Klinische Fragestellung: Lässt sich das Ergebnis der Perimetrie aus dem Ergebnis des Erlanger Flimmertests durch eine lineare Gleichung vorhersagen? Stichprobe (verkleinert): 10 Augen von 10 Patienten mit beginnendem grünen Star aus dem Erlanger Glaukomregister (Klinisches Register an der Universitäts-Augenklinik mit Poliklinik der Friedrich AlexanderUniversität Erlangen-Nürnberg). Rohdaten: Nr (=i) Yi Xi 1 6.1 13.2 2 9.7 12.5 3 4.1 15.5 4 8.8 10.1 5 4.0 12.5 6 7.9 11.9 7 7.4 8.9 8 6.4 10.2 9 10.4 5.4 10 10.3 8.3 Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen Grafische Darstellung mit Regressionsgerade: Gesichtsfeld Mittlerer Defekt (MD) 11 10 9 8 7 6 5 4 3 4 6 8 10 12 14 16 Erlanger Flimmertest 37 P.Martus, Multivariate Statistik, SoSe 2009 4.3 Die Kleinstquadrate Schätzung der Regressionsgerade _ Erinnerung: Der Mittelwert y einer Stichprobe war derjenige Wert, der den Ausdruck s2 = _ 1 n ⎛ ⎞ − y y ⎜ ⎟ ∑ i i =1 n −1 ⎝ ⎠ 2 _ minimiert. y minimiert den quadrierten Abstand zu den beobachteten Werten und stellt somit in der trivialen Regressionsgleichung E(Y) = β0 eine Kleinstquadrateschätzung des Parameters β0 dar, also _ ^ y = β0 . Für die Schätzung der Regressionsgerade kommt ein weiterer Parameter, β1, dazu. Ziel ist es jetzt, die Abstandsquadrate ∑ [y − (β i i 0 + β 1 ⋅ xi )] 2 zu minimieren. Man kann mit Methoden der Differentialrechnung zeigen, dass die Lösung durch die folgenden Gleichungen gegeben ist: ^ β1 = s yx s xx , ^ β0 = ^ y − β1 ⋅ x In diesen Gleichungen bedeutet sxx die (Stichproben-) Varianz von X und syx die Kovarianz von Y und X. In der Formel der Kovarianz von Y und X wird der quadratische Term _ ⎛ ⎞ ⎜ xi − x ⎟ ⎝ ⎠ 2 durch den gemischten Term _ _ ⎞ ⎞⎛ ⎛ ⎜ xi − x ⎟⎜ y i − y ⎟ ⎠ ⎠⎝ ⎝ ersetzt, COV(X,Y) = syx = s2 = _ _ 1 n ⎛ ⎞ ⎞⎛ x x y y − − ⎜ ⎟. ⎜ ⎟ ∑ i i i =1 n −1 ⎠ ⎝ ⎠⎝ 38 P.Martus, Multivariate Statistik, SoSe 2009 4.4 Fortsetzung des Beispiels, Berechnung der Stichprobenparameter Nr (=i) 1 2 3 4 5 6 7 8 9 10 Σ Σ/10 Σ/9 Yi Xi 6.1 9.7 4.1 8.8 4.0 7.9 7.4 6.4 10.4 10.3 75.1 7.51 13.2 12.5 15.5 10.1 12.5 11.9 8.9 10.2 5.4 8.3 108.50 10.85 _ _ _ (Yi- y )2 1.99 4.80 11.63 1.66 12.32 0.15 0.01 1.23 8.35 7.78 49.93 --5.55 Yi- y -1.41 2.19 -3.41 1.29 -3.51 0.39 -0.11 -1.11 2.89 2.79 0 0 Xi- x 2.35 1.65 4.65 -0.75 1.65 1.05 -1.95 -0.65 -5.45 -2.55 0 0 _ (Xi- x )2 5.52 2.72 21.62 0.56 2.72 1.10 3.80 0.42 29.70 6.50 74.69 --8.30 _ _ (Yi- y )(Xi- x ) -3.31 3.61 -15.86 -0.97 -5.79 0.41 0.21 0.72 -15.75 -7.11 -43.84 ---4.87 _ Mittelwerte x , _ Varianzen s y2 = s yy , s x2 = s xx Kovarianz s yx y Y: Stichprobe der Perimetriemessungen, X: Stichprobe der Flimmertestmessungen ^ β1 = s yx s xx = − 4.87 8.30 = − 0.59, ^ β0 = ^ y − β1 ⋅ x = 7.51 − (−0.59) • 10.85 = 13.88 Also lautet die Gleichung der geschätzten Regressionsgerade Y = 13.88 - 0.59•X. 4.5 Bemerkung: Gütemaße für die Anpassung der Regressionsgerade Bisher haben wir noch keine Aussage darüber treffen können, wie „gut“ die Regressionsgerade zu den Daten passt. Dies ist Thema der folgenden Abschnitte. Wir untersuchen insgesamt fünf Gütemaße, die im Folgenden motiviert und beschrieben werden. Es handelt sich um • • • • • das Quadrat des Korrelationskoeffizienten den Korrelationskoeffizienten die Kovarianz die Residualquadratsumme die mittlere Wurzel aus der Residualquadratsumme. Alle fünf Maße basieren auf den Residuen der Regressionsanalyse. 39 P.Martus, Multivariate Statistik, SoSe 2009 4.6 Definition (Vorhergesagte Werte, Residuen) Für eine Regressionsanalyse heißen die Ergebnisse, die man durch Einsetzen der x-Werte in ^ die Regressionsgleichung erhält, „vorhergesagte Werte“. Man bezeichnet sie mit y i : ^ yi ^ = β0 + ^ β1 xi , Die Differenzen aus beobachteten und vorhergesagten Werten ^ yi − yi ⎛ ^ yi − ⎜ β 0 ⎝ = ^ ⎞ + β1 xi ⎟ ⎠ heißen Residuen. Je größer (absolut) die Residuen, desto schlechter die Anpassung der Regressionsgerade. 4.7 Fortsetzung des Beispiels: Berechnung der Residuen und der Residuenquadrate Nr. (=i) 1 2 3 4 5 6 7 8 9 10 Σ Σ/10 Σ/8 Yi Xi 6.1 9.7 4.1 8.8 4.0 7.9 7.4 6.4 10.4 10.3 75.1 7.51 --- 13.2 12.5 15.5 10.1 12.5 11.9 8.9 10.2 5.4 8.3 108.50 10.85 --- ^ Yi 6.1 6.5 4.8 8.0 6.5 6.9 8.7 7.9 10.7 9.0 75.1 7.51 --- ^ Yi - Yi -0 3.2 -0.7 0.8 -2.5 1.0 -1.3 -1.5 -0.3 1.3 0 ----- ^ (Yi - Yi )2 ,00 10.0 0.5 0.7 6.5 1.0 1.6 2.2 0.1 1.7 24.2 --3.0 ^ _ Yi - y -1.4 -1.0 -2.7 0.4 -1.0 -0.6 1.1 0.4 3.2 1.5 0 ----- ^ _ ( Yi - y )2 1.9 0.9 7.5 0.2 0.9 0.4 1.3 0.2 10.2 2.2 25.7 ----- 4.8 Definition: (quadrierter Korrelationskoeffizient, r2) Da man ja immer die waagerechte Gerade y = y als triviale Regressionsgerade verwenden könnte, weiß man, dass auf jeden Fall 2 2 ∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ ≤ ∑ ( yi − y ) . ^ 40 P.Martus, Multivariate Statistik, SoSe 2009 Man kann sogar noch mehr zeigen: 2 2 2 ∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ + ∑ ⎛⎜⎝ yi − y ⎞⎟⎠ = ∑ ( yi − y ) ^ ^ Bei dieser Gleichung handelt es sich um eine typische Varianzzerlegung. Rechts steht (bis auf den Faktor 1/[n-1]) die Gesamtvarianz der y-Werte. Ganz links steht die Quadratsumme der Residuen, also die „nicht erklärte“ Restvarianz. Der zweite Summand links beschreibt den Anteil der Varianz, der durch die Regression erklärt wird. Die Idee hinter r2 ist es, zu messen, welcher Anteil der Variabilität ∑ (y 2 i − y ) durch die Regressionsanalyse erklärt wird. Man definiert daher 2 ^ ∑ ⎛⎜⎝ yi − y ⎞⎟⎠ = 2 ∑ ( yi − y ) r2 2 ^ ∑ ⎛⎜⎝ yi − yi ⎞⎟⎠ = 1− 2 ∑ ( yi − y ) und bezeichnet diese Zahl als Quadrat des Korrelationskoeffizienten. r2 liegt zwischen 0 und 1 und kann als Prozentwert interpretiert werden. Im Beispiel erhalten wir mit Hilfe der Tabellen aus 4.4 und 4.7 r2 = 25.7/49.9 = 0.51. 4.9 Definition: (Korrelationskoeffizient r) Der Korrelationskoeffizient ist definiert durch r = s yx s yy s xx = ∑ ( y − y )(x − x ) ∑ ( y − y ) ∑ (x − x ) i i 2 i 2 i Man kann zeigen, dass das in 4.8 definierte r2 tatsächlich das Quadrat von r ist. Insbesondere liegt r zwischen -1 und +1. Im Gegensatz zu r2 kann man an r erkennen, ob die Regressionsgerade steigt oder fällt. Dafür lässt sich r aber nicht als Prozentwert interpretieren. Im Beispiel erhalten wir mit Hilfe der Tabelle aus 4.4 r = -43.8/√(49.9•74.7) = -0.72. Es gilt in der Tat (-0.72)2 = 0.51 41 P.Martus, Multivariate Statistik, SoSe 2009 4.10 Definition (Kovarianz, COV) Die Kovarianz wurde bereits in 4.3 zur Schätzung der Regressionsgeraden eingeführt. Wie man leicht sieht, hängt die Kovarianz von der Skalierung der Merkmale ab, im Gegensatz zur Korrelation r oder zu r2. Die Kovarianz ist in den meisten Anwendungen der einfachen linearen Regressionsanalyse nicht von Interesse. Sie stellt jedoch eine wichtige Größe in der multivariaten Analyse dar und wird dort ausführlicher diskutiert. In Abschnitt 4.3 hatten wir bereits die Kovarianz als syx = -4.87 berechnet. 4.11 Definition (Residualquadratsumme, RSSQ) Die Residualquadratsumme ^ Σ (yi - y i )2 ist besonders für den Vergleich unterschiedlich komplexer Modelle geeignet und wird im Rahmen der multiplen Regression diskutiert. Im Beispiel war RSSQ = 24.2. 4.12 Definition (Mittlere Wurzel aus der Residualquadratsumme, RRSSQ) Die mittlere Wurzel aus der Residualquadratsumme ist definiert als RRSSQ = 2 n 1 ( yi − yˆ i ) . ∑ i =1 n−2 Sie ist offenbar analog zur Standardabweichung definiert. Das bedeutet insbesondere, dass im Bereich ±2•RRSSQ etwa 95% aller Residuen liegen. Insofern gibt die RRSSQ die „direkteste“ Information über die Güte der Anpassung. In unserem Beispiel war RRSSQ = 2.8. Das bedeutet, dass die Ergebnisse der Perimetrie in etwa mit einer maximalen Abweichung von ± 5.6 dB durch den Flimmertest vorhersagbar sind. 42 P.Martus, Multivariate Statistik, SoSe 2009 4.13 Zusammenfassung In der folgenden Tabelle sind die Gütemaße für die Regressionsgerade zusammengefasst: Maß Kriterium Symbol Dimension abhängig von der Skala von X abhängig von der Skala von Y abhängig von der Streuung von X abhängig von der Streuung von Y Interpretation „Nutzen“ für Anwender Verwendung quadrierter Korrelationskoeffizient r2 dimensionslos nein Korrelationskoeffizient Kovarianz Residualquadratsumme r dimensionslos nein Cov dim(X)•dim(Y) ja RSSQ dim(Y)2 nein Wurzel der Residualquadratsumme RRSSQ dim(Y) nein nein nein ja ja ja ja ja ja nein nein ja ja ja ja ja Prozentwert sehr hoch Cosinus hoch Skalarprodukt gering Vektornorm gering Fehlerstreuung sehr hoch häufig sehr häufig sehr selten selten zu selten! 4.14 Signifikanztestung für einfache Regressionsanalysen (t-Test) Die statistischen Tests in Regressionsanalysen der Form E(Y) = β0+β1X können sich entweder auf β0 oder auf β1 oder auf beide Parameter zusammen beziehen. Im allgemeinen interessiert man sich vor allem für den Test der Nullhypothese β1 = 0 gegen die Alternative β1 ≠ 0. Nur dieser wird hier dargestellt. Notation: n Stichprobenumfang sxx syy sxy Empirische Varianz von X Empirische Varianz von Y Kovarianz von X und Y RSSQ Residuale Quadratsumme Σ (yi - y i )2 MRSSQ mittlere residuale Quadratsumme ^ 1/(n-Anzahl alle Modellparameter)*RSSQ 1/(n-2)*RSSQ 43 P.Martus, Multivariate Statistik, SoSe 2009 _ ^ SSQ Quadratsumme des „korrigierten Modells“, Σ( y i - y )2 MSSQ mittlere Quadratsumme des korrigierten Modells ^ _ 1/{Anzahl getestete Modellparameter} * Σ( y i - y )2 ^ _ 1/{1} * Σ( y i - y )2 Statistischer Raum ^ _ = Σ( y i - y )2 Ω = Rn P = { Π in=1 [N(β0+β1xi,σ2)] | xi fest, β0, β1 ∈ R, σ2 > 0} Nullhypothese: β1 =0 Alternative: β1 ≠ 0 Prüfgröße t= Verteilung der Prüfgröße unter der Nullhypothese t-Verteilung mit ν = n-2 Freiheitsgraden Kritischer Wert Das T mit MSSQ MRSSQ ∫ T −T f (t )dt = 0.95 , im Beispiel T = 2.31 Beispiel (Fortsetzung): Im Beispiel ergibt sich t = √[25.7/(24.2/8.0)] = 2.93. Wir können also die Nullhypothese ablehnen. Wir haben bewiesen, dass das Ergebnis der Perimetrie vom Flimmerwert abhängt. 4.15 Schlussbemerkungen • • • • Bei zwei Diagnoseverfahren stellt die statistische Signifikanz der Abhängigkeit eine Minimalforderung dar. Es reicht also nicht, nachzuweisen, dass überhaupt ein Zusammenhang existiert, sondern es kommt darauf an, wie gut die Vorhersage im Einzelfall ist. Der in 4.14 angegebene Ausdruck SSQ muss im allgemeinen durch die Zahl der getesteten Parameter dividiert werden um MSSQ zu erhalten. Da β0 nicht getestet wird, sondern nur ein Parameter, β1, ist diese Anzahl = 1 und somit MSSQ = SSQ. ^ Die beobachteten Residuen Yi - Yi sind nicht identisch mit den Fehlertermen der Modellgleichung εi sondern Schätzungen dieser Fehlerterme. Im Gegensatz zu den wahren Werten εi haben die beobachteten Residuen nicht konstante Varianz! Die Meinungen, ob grundsätzlich r oder r2 das „bessere“ Zusammenhangsmaß ist, gehen auseinander... 44 P.Martus, Multivariate Statistik, SoSe 2009 Teil 5 Multiple lineare Regression 5.0 Vorbemerkung Im Folgenden werden Vorkenntnisse aus der linearen Algebra vorausgesetzt, wie sie z.B. im Modul CoMa unterrichtet wurden. Im Einzelnen sollten Sie folgende Begriffe / Methoden kennen: Matrix, Vektor, Zeilenvektor, Spaltenvektor, Dimension Transponierte Matrix Multiplikation einer Matrix mit einem Vektor Multiplikation einer Matrix mit einer Matrix Einheitsmatrix und Inverse Matrix n-dimensionaler Raum Basis, rechtwinklig und schiefwinklig Lineare Unabhängigkeit Lineare Abbildung 5.1 Beispiel (Fortsetzung des Glaukombeispiels, Berücksichtigung des Alters) Die Vorhersage des mittleren Defekts der Perimetrie durch den Flimmertest kann eventuell noch verbessert werden, wenn das Alter der Probanden mit berücksichtigt wird. Die folgenden Rohdaten wurden aus der Glaukomdatenbank ausgelesen: Rohdaten: Nr (=i) Yi X1i X2i 1 6.1 13.2 46 2 9.7 12.5 51 3 4.1 15.5 25 4 8.8 10.1 59 5 4.0 12.5 23 6 7.9 11.9 54 7 7.4 8.9 44 8 6.4 10.2 42 9 10.4 5.4 47 10 10.3 8.3 50 X1: Erlanger Flimmertest X2: Alter 45 P.Martus, Multivariate Statistik, SoSe 2009 Den Zusammenhang von Alter und Mittlerem Defekt stellt die folgende Grafik dar: 11,00 Mittlerer Defekt [dB] 10,00 9,00 8,00 7,00 6,00 5,00 4,00 20,00 30,00 40,00 50,00 60,00 Alter [Jahre] Gesucht ist eine lineare Gleichung, dies es erlaubt, den mittleren Defekt aus der Kombination von Alter und dem Flimmerwert vorherzusagen. Diese Gleichung erhält man wieder, indem man die Summe der quadrierten Residuen aus beobachteten und vorhergesagten Werten des MD minimiert: ∑ [ y − (β i i 0 + β1 ⋅ x1i + β 2 ⋅ x 2i )] 2 Mit Hilfe einer Statistiksoftware erhalten wir β0 = 5.92, β1 = -0.36, β2 = -0.36, also das folgende Ergebnis: Vorhergesagter MD = 5.92 - 0.36•Flimmerwert + 0.12•Alter. 46 P.Martus, Multivariate Statistik, SoSe 2009 5.2 Grafische Darstellung des Modells mit Kovariaten 1. 3D-Plot 11,00 10,00 9,00 md 8,00 7,00 6,00 5,00 4,00 60,00 50,00 40,00 4,00 6,00 8,00 10,00 30,00 12,0014,00 r 16,00 20,00 lte a fli 2. Darstellung der geänderten vorhergesagten Werte im ursprünglichen 2D-Plot 10,00 8,00 6,00 4,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 (___: vorhergesagt aus Flimmern, z: vorhergesagt aus Flimmern und Alter {: beobachtet) 47 P.Martus, Multivariate Statistik, SoSe 2009 3. Darstellung der vorhergesagten und der tatsächlichen Werte: 11,00 10,00 Mittlerer Defekt 9,00 8,00 7,00 6,00 5,00 4,00 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 Vorhergesagter Mittlerer Defekt 5.3 Das Modell der multiplen linearen Regression: Der hier behandelte Fall ist analog zu 4.1 durch vier Kriterien charakterisiert: • • • • Zur Vorhersage von Y werden mehrere Variablen X1, X2, ..., Xk verwendet. Der Erwartungswert von Y hängt von den Variablen X affin linear und vom Vektor (β0, β1,..., βk) linear ab, d.h. E(Y|X) = β0+β1X1+β2X2+...+βkXk. X wird als deterministisch angenommen. Bei gegebenem Vektor X ist Y normalverteilt mit von x unabhängiger, also konstanter Varianz σ2. Insgesamt ergibt sich also die Modellgleichung Yi = β0+β1Xi1+β2Xi2+...+βkXik + εi mit εi ~ N(0,σ2) bzw. Yi = E(Y|Xi) + εi mit εi ~ N(0,σ2). Man beachte, dass wieder σ2 nicht von i abhängt. 48 P.Martus, Multivariate Statistik, SoSe 2009 5.4 Vorbemerkung Im folgenden Abschnitt werden wir die einfache lineare Regression zur multiplen linearen Regression verallgemeinern. Dies bedeutet, dass die Werte einer Zufallsvariablen Y jetzt durch mehrere x-Werte vorhergesagt werden. Wir werden die Regressionsanalyse unter verschiedenen Blickwinkeln betrachten, nämlich als: • • • • „Lösung“ eines überbestimmten Gleichungssystems Anwendung der Vektor- und Matrizenrechnung Anwendung linearer Abbildungen in Vektorräumen Umsetzung geometrischer Konzepte. Die notwendigen Vorkenntnisse können z.B. im CoMa-Script nachgelesen werden und werden hier nur kurz wiederholt. 5.5 Beispiel eines nicht überbestimmten Linearen Gleichungssystems: 2b1 + b2 + b3 = 7 b1 + 2b2 + b3 = 8 b1 + b2 + 2b3 = 9 Die exakte und eindeutige Lösung lautet: b1= 1, b2 = 2, b3 = 3. Numerische Lösungsalgorithmen sind nicht Bestandteil des Moduls Multivariate Statistik. Der Grund, dass anstelle der üblichen Bezeichnung „x“ für Unbekannte die Bezeichnung „b“ gewählt wurde liegt darin, dass in der Statistik „x“ für die (bekannten) Koeffizienten und b (oder β) für die unbekannten Parameter gewählt wird (s.u.). 5.6 Anwendung der Vektor- und Matrizenrechnung Das Gleichungssystem lässt sich in Matrizenschreibweise formulieren: ⎛ 7⎞ ⎛ b1 ⎞ ⎛ 2 1 1⎞ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ b = ⋅ 1 2 1 ⎜8⎟ ⎟ ⎜ 2⎟ ⎜ ⎜ 9⎟ ⎜b ⎟ ⎜ 1 1 2⎟ ⎝ ⎠ ⎠ ⎝ 3⎠ ⎝ Für jede Zeile der Koeffizientenmatrix (d.h. für jede Einzelgleichung) wird das Skalarprodukt mit dem Spaltenvektor der Unbekannten berechnet. Das Gleichungssystem hat also die Form X • B = Y mit ⎛2 1 1⎞ ⎟ ⎜ X = ⎜1 2 1⎟ , ⎜1 1 2⎟ ⎠ ⎝ ⎛ 7⎞ ⎛ b1 ⎞ ⎜ ⎟ ⎜ ⎟ B = ⎜ b2 ⎟ , Y = ⎜ 8 ⎟ ⎜ 9⎟ ⎜b ⎟ ⎝ ⎠ ⎝ 3⎠ 49 P.Martus, Multivariate Statistik, SoSe 2009 Für gewöhnliche Zahlen kann man dieses System sofort nach B auflösen: X • B = Y X-1 • X • B = X-1 • Y B = X-1 • Y weil X-1 • X = 1 Für die Matrixgleichung kann die Lösung genauso erfolgen, wenn man • • eine Matrix „1“ findet, welche die Rolle der Zahl 1 übernimmt (es muss also 1 • X = X für alle Matrizen X mit „passender“ Dimension gelten). für die Koeffizientenmatrix X eine Matrix X-1 findet, die X-1 • X = 1 erfüllt. Aus dem CoMa Modul ist bekannt, dass die Matrix ⎛1 0 0⎞ ⎟ ⎜ 1 = ⎜ 0 1 0⎟ ⎜0 0 1⎟ ⎠ ⎝ die Rolle der Zahl 1 übernimmt und dass man für bestimmte Matrizen X eine Matrix X-1 finden kann, die X-1 • X = 1 erfüllt. Methoden zur Berechnung von X-1 sind nicht Bestandteil des Moduls Multivariate Statistik. Für die Existenz von X-1 müssen die folgenden Kriterien erfüllt sein • • X ist quadratisch (statistisch: die Zahl der Beobachtungen muss gleich der Zahl der gesuchten Parameter sein). Die Spalten (äquivalent: Zeilen) von X müssen linear unabhängig (s.u.) sein (statistisch: Keine Kovariable darf durch die anderen linear und fehlerfrei erklärbar sein). 5.7 Anwendung linearer Abbildungen in Vektorräumen Die in 5.6 dargestellte Matrizen-Vektorgleichung lässt sich auch folgendermaßen interpretieren: Die Spalten von X stellen eine Basis des R3 dar, die Parameterwerte stellen die Koordinaten von y als Element „desselben“ R3 in dieser Basisdarstellung dar. Diese Basis ist nicht unbedingt orthogonal! 50 P.Martus, Multivariate Statistik, SoSe 2009 5.8 Geometrische Darstellung Im drei-dimensionalen Raum mit dem Koordinatensystem X1, X2, X3 kann man den Punkt Y durch die Linearkombination β1X1 + β2X2 + β3X3 darstellen. Die Lösungen β1, β2, β3 der Unbekannten b1, b2, b3 sind also nichts anderes als die Koordinaten des Punktes Y im Koordinatensystem X1, X2, X3. Durch die lineare Unabhängigkeit der drei Vektoren (Orthogonalität ist nicht verlangt!) ist für jedes Y eine eindeutige Koordinatendarstellung berechenbar. 5.9 Erweiterung des Gleichungssystems auf ein Regressionsproblem Jetzt haben wir im ersten Gleichungssystem pro Gleichung zwei Beobachtungen, in die sich jeweils ein Fehlerterm von +0.25 bzw. –0.25 eingeschlichen hat. 2b1 + b2 + b3 = 6.75 2b1 + b2 + b3 = 7.25 b1 b1 + 2b2 + b3 = 7.75 + 2b2 + b3 = 8.25 b1 b1 + b2 + 2b3 = 8.75 + b2 + 2b3 = 9.25 Dieses Gleichungssystem ist nicht mehr lösbar, da sich ja offensichtlich die beiden jeweils zusammengehörenden Gleichungen widersprechen. 51 P.Martus, Multivariate Statistik, SoSe 2009 Man kann dieses System aber als Regressionsproblem (ohne y-Achsenabschnitt) auffassen: 2 β1 + 1β 2 + 1β 3 + ε1 = 6.75 2 β1 + 1β 2 + 1β 3 + ε2 = 7.25 1β1 + 2β 2 + 1β 3 + ε3 = 7.75 1β1 + 2β 2 + 1β 3 + ε4 = 8.25 1β1 + 1β 2 + 2β 3 + ε5 = 8.75 1β1 + 1β 2 + 2β 3 + ε6 = 9.25 Wie nicht anders zu erwarten, ist die Kleinst-Quadrate Lösung dieses Systems natürlich ebenfalls βˆ1 = 1, βˆ2 = 2, βˆ3 = 3, weil die Störungen + 0.5 und -0.5 sich jeweils herausheben. 5.10 Darstellung in Matrizenschreibweise In Matrizenschreibweise ergibt sich ⎛2 ⎜ ⎜2 ⎜1 ⎜ ⎜1 ⎜1 ⎜ ⎜1 ⎝ 1 1⎞ ⎛ ε1 ⎞ ⎛ 6.75 ⎞ ⎜ ⎟ ⎟ ⎜ ⎟ ε 1 1⎟ ⎜ 2⎟ ⎜ 7.25 ⎟ ⎛ β1 ⎞ ⎜ε ⎟ ⎜ 7.75 ⎟ ⎜ ⎟ 2 1⎟ ⎟ ⋅ ⎜ β2 ⎟ + ⎜ 3 ⎟ = ⎜ ⎟ 2 1⎟ ⎜ε 4 ⎟ ⎜ 8.25 ⎟ ⎜β ⎟ ⎝ 3⎠ ⎜ε ⎟ ⎜ 8.75 ⎟ 1 2⎟ ⎜ 5⎟ ⎟ ⎜ ⎟ ⎜ 9.25 ⎟ ⎜ε ⎟ 1 2 ⎟⎠ ⎝ ⎠ ⎝ 6⎠ Aus den Koeffizienten des Gleichungssystems ist in der Terminologie der Regression die Kovariatenmatrix geworden, aus den Unbekannten der Parametervektor (β1, β2, β3)t. 5.11 Ergänzung zur Matrizenrechnung - Pseudoinverse Für eine Matrix, bei der die Anzahl der Zeilen wie im Abschnitt 5.9 größer ist als die Zahl der Spalten kann es keine inverse Matrix geben. Wenn A n Zeilen und p Spalten besitzt (n >p), die p Spalten aber linear unabhängig sind, kann man aber eine p•n Matrix B (p Zeilen, n Spalten) finden mit und B•A =1p (p Zeilen, p Spalten). Man bezeichnet dann B als Pseudoinverse von A. Man kann leicht sehen, dass A•B•A = A•1p = A, was die Bezeichnung Pseudoinverse rechtfertigt. 52 P.Martus, Multivariate Statistik, SoSe 2009 „B•A=1p“ ist nicht die Definition der Pseudoinversen. Die Definition der Pseudoinversen lautet: Jedes B, das erfüllt A•B•A =A ist Pseudoinverse von A. Dieses B ist i.a. nicht eindeutig. 5.12 Bestimmung einer Pseudoinversen von X Falls X die Dimension n•p hat und n ≠ p ist, also X nicht-quadratisch, kann man zwar das Produkt X•X nicht bilden aber die Produkte X•Xt und Xt•X (Xt bezeichnet die transponierte Matrix von X, also diejenige die durch Vertauschung der Zeilen und Spalten von X entsteht). Die Matrix X•Xt hat Dimension n•n und die Matrix Xt•X hat Dimension p•p Man kann nun zeigen, dass die lineare Unabhängigkeit der Spalten von X gerade äquivalent ist dazu, dass die quadratische Matrix Xt•X invertierbar ist, dass also die Gleichung (Xt•X)-1•(Xt•X) = 1p sinnvoll ist. Das bedeutet aber nichts anderes, als [(Xt•X)-1•Xt] • X = 1p also ist [(Xt•X)-1•Xt] eine Pseudoinverse von X. 5.13 Berechnung der Kleinstquadratelösung für β - Normalengleichungen Man kann zeigen, dass die Kleinstquadratelösung für β mit Hilfe der Pseudoinversen von X bestimmt werden kann. Die Pseudoinverse spielt für die Regression die gleiche Rolle wie die Inverse für das exakt lösbare Gleichungssystem (5.6): β̂ = [(Xt•X)-1•Xt]•Y Diese Gleichung(en) für βˆ bezeichnet man als Normalengleichungen. 53 P.Martus, Multivariate Statistik, SoSe 2009 5.14 Anwendung linearer Abbildungen Die Spalten von X, also X1,...,Xp liegen als Vektoren in einem p-dimensionalen Unterraum UpRn des Rn . Wenn diese Spalten linear unabhängig sind, stellen sie eine Basis dieses Unterraums dar. Diese Basis ist im allgemeinen nicht rechtwinklig. Der Vektor Y liegt ebenfalls im Rn, aber nicht im Unterraum UpRn. Der Vektor der vorhergesagten Werte Yˆ ist die Projektion von Y auf den Unterraum UpRn. Die Regressionskoeffizienten β̂ sind die Koordinaten von Yˆ bzgl. der Basis X1,...,Xp. Der Residuenvektor Y - Yˆ ist der Differenzvektor dieser Projektion. Achtung: Die erste Spalte von X ist üblicherweise konstant 1, sie entspricht dem yAchsenabschnitt der Regression. In statistischer Schreibweise würde man diese Spalte als X0 bezeichnen und die gesamte Notation auf den Vektoren X0, X1, ..., Xp-1 aufbauen. Im Folgenden werden die betrachteten Modelle immer eine Kovariable enthalten, die konstant 1 ist, außer es wird explizit anders gesagt. Sie wird je nach Zusammenhang mit X0 oder X1 bezeichnet werden. 5.15 Geometrische Darstellung 54 P.Martus, Multivariate Statistik, SoSe 2009 5.16 Anwendung auf das fiktive Regressionsbeispiel 5.9 Das ursprüngliche Gleichungssystem ließ sich mit Hilfe der Inversen X-1 der 3•3 Koeffizientenmatrix lösen XB = Y → B = X-1Y, das Regressionsproblem Xβ + ε = Y lässt sich analog mit Hilfe der Pseudoinversen (XtX)-1Xt lösen: β̂ = (XtX)-1XtY Dabei muss jeweils X (Gleichungssystem) bzw. XtX (Regressionsproblem) invertierbar sein. Für das Beispiel 5.9 werden die Berechnungen explizit dargestellt: 55 P.Martus, Multivariate Statistik, SoSe 2009 ⎛2 ⎜ ⎜2 ⎛2 2 1 1 1 1⎞ ⎜1 ⎜ ⎟ = ⎜1 1 2 2 1 1⎟ ⋅ ⎜ ⎜1 ⎜1 1 1 1 2 2⎟ ⎝ ⎠ ⎜1 ⎜ ⎜1 ⎝ XtX (X X ) = (X X ) t t t −1 −1 ⎛ 11 − 5 − 5 ⎞ ⎜ ⎟ ⋅ ⎜ − 5 11 − 5 ⎟ ⎜ − 5 − 5 11 ⎟ ⎝ ⎠ 1 32 = ⎛ 11 − 5 − 5 ⎞ ⎛ 2 2 1 1 1 1⎞ ⎜ ⎟ ⎜ ⎟ ⋅ ⎜ − 5 11 − 5 ⎟ ⋅ ⎜ 1 1 2 2 1 1 ⎟ ⎜ − 5 − 5 11 ⎟ ⎜ 1 1 1 1 2 2⎟ ⎝ ⎠ ⎝ ⎠ 3 − 1 − 1 − 1 − 1⎞ ⎛ 12 12 − 4 − 4 − 4 − 4 ⎞ ⎛ 3 ⎟ 1 ⎜ ⎟ 1 ⎜ ⋅ ⎜ − 4 − 4 12 12 − 4 − 4 ⎟ = ⋅ ⎜ − 1 − 1 3 3 − 1 − 1⎟ 32 ⎜ ⎟ 8 ⎜−1 −1 −1 −1 3 3 ⎟⎠ ⎝ − 4 − 4 − 4 − 4 12 12 ⎠ ⎝ = (X X ) t = X 1 32 1 1⎞ ⎟ 1 1⎟ ⎛12 10 10 ⎞ ⎜ ⎟ 2 1⎟ ⎟ = ⎜10 12 10 ⎟ 2 1⎟ ⎜10 10 12 ⎟ ⎝ ⎠ 1 2⎟ ⎟ 1 2 ⎟⎠ −1 X tY = 1 8 ⎛ 6.75 ⎞ ⎜ ⎟ ⎜ 7.25 ⎟ − − − − 3 3 1 1 1 1 ⎛ ⎞ ⎜ 7.75 ⎟ ⎜ ⎟ ⎟ ⋅ ⎜−1 −1 3 3 − 1 − 1⎟ ⋅ ⎜ ⎜ 8.25 ⎟ ⎜−1 −1 −1 −1 3 ⎟ 3⎠ ⎝ ⎜ 8.75 ⎟ ⎜ ⎟ ⎜ 9.25 ⎟ ⎝ ⎠ ⎛ 3 ⋅ 14 − 16 − 18 ⎞ ⎜ ⎟ 1 ⋅ ⎜ − 14 + 3 ⋅ 16 − 18 ⎟ = 8 ⎜ − 14 − 16 + 3 ⋅ 18 ⎟ ⎝ ⎠ ⎛8⎞ ⎛1⎞ ⎜ ⎟ ⎜ ⎟ 1 ⋅ ⎜ 16 ⎟ = ⎜ 2 ⎟ 8 ⎜ 24 ⎟ ⎜ 3⎟ ⎝ ⎠ ⎝ ⎠ 5.17 Bemerkung Zu finden ist ein Beweis der Formel βˆ = (X X ) t −1 X tY z.B. bei Schmidt und Trenkler (Moderne Matrix-Algebra, Springer 1998, S. 200). Durch Minimierung des Kriteriums 56 P.Martus, Multivariate Statistik, SoSe 2009 ∑ X ⋅ βˆ + ε = Y , n i =1 εi2 → Min mit Methoden der Differentialrechnung lässt sich zeigen, dass das Minimum angenommen wird für X tY = X tYˆ = (X X ) X t Xβˆ → Yˆ Xβ̂ , −1 t X tY = βˆ . Berücksichtigt man die Beziehung = so erhält man die Projektionsabbildung von Y auf Yˆ durch Einsetzen in die vorletzte Gleichung: ( X XtX ) −1 X tY = Xβˆ = Yˆ . Die Projektionsabbildung vom Rn in den UpRn ist also gegeben durch X(XtX)-1Xt für eine beliebige Basis X1, ..., Xp des UpRn, die die Spalten der Matrix X definiert. Das Gleichungssystem Xβ Xβ = Yˆ lässt sich im Gegensatz zum Gleichungssystem = Y lösen, weil Ŷ im UpRn liegt. 5.18 Beispiel (Fortsetzung des Glaukombeispiels, Berücksichtigung des Geschlechts) Als letzte potentielle Kovariable wird jetzt noch das Geschlecht der Probanden für die Vorhersage des Mittleren Defekts verwendet: Nr (=i) Yi X1i X2i X3i 1 6.1 13.2 46 0 2 9.7 12.5 51 1 3 4.1 15.5 25 1 4 8.8 10.1 59 0 5 4.0 12.5 23 1 6 7.9 11.9 54 0 7 7.4 8.9 44 0 8 6.4 10.2 42 0 9 10.4 5.4 47 1 10 10.3 8.3 50 1 X1: Erlanger Flimmertest X2: Alter X3: Geschlecht (0 = Männer, 1 = Frauen) Die Regressionsgleichung lautet: Vorhergesagter MD = 1.42 - 0.26•Flimmerwert + 0.18•Alter + 2.11•Geschlecht. bzw. getrennt für Männer: Vorhergesagter MD = 1.42 - 0.26•Flimmerwert + 0.18•Alter. 57 P.Martus, Multivariate Statistik, SoSe 2009 für Frauen: Vorhergesagter MD = 3.53 - 0.26•Flimmerwert + 0.18•Alter. 5.19 Vergleich geometrischer und statistischer Eigenschaften des Linearen Modells In den folgenden Bemerkungen wird für 11 Eigenschaften des Linearen Modells jeweils die geometrische der statistischen Sichtweise gegenübergestellt: A1 Im Rahmen einer Studie werden an n Personen jeweils p Kovariable Xj (j=1,...,p) und eine Zielgröße Y gemessen. A2 Sowohl die Kovariablen als auch die Zielgröße liegen als Vektoren im „gleichen“ Rn. Man kann jede Koordinatenachse mit einer Person identifizieren. Eine bestimmte Kovariable hat - als Vektor des Rn betrachtet - als Koordinate in der Raumrichtung i (i=1,...,n) gerade den Wert dieser Kovariablen für die entsprechende Person i. B1 In den Daten sollte sich nicht eine der Kovariablen deterministisch durch die anderen vorhersagen lassen. B2 Die Kovariablenvektoren sollten linear unabhängig sein. C1 Durch jede mögliche Wahl von Regressionskoeffizienten werden die Kovariablen unterschiedlich gewichtet aufsummiert. Unter Annahme B führt jede Wahl der Regressionskoeffizienten zu einem anderen Kandidaten für den vorhergesagten Wert von Y. C2 Die Kovariablen sollten eine Basis eines p-dimensionalen Unterraums des Rn darstellen. Jeder Punkt in diesem Unterraum UpRn lässt sich dann durch einen eindeutig bestimmten Koordinatenvektor als Linearkombination dieser Basis darstellen. D1 Die Regressionskoeffizienten werden so geschätzt, dass Yˆ nach dem Kleinstquadratekriterium die optimale Annäherung von Y durch eine Kombination der Kovariablen darstellt. D2 Yˆ wird aus Y durch die Projektionsabbildung vom Rn in den UpRn erzeugt. E1 Die Residuen Y - Yˆ sind unkorreliert mit Yˆ . E2 Der Differenzvektor Y - Yˆ steht senkrecht auf dem Raum UpRn. F1 Im Regressionmodell ist die Varianz von Y immer gleich der Summe der erklärten Varianz und der Residualvarianz. 58 P.Martus, Multivariate Statistik, SoSe 2009 F2 Für orthogonale Projektionen gilt immer der Satz des Pythagoras ||Y||2 = ||Y- Yˆ ||2 + || Yˆ ||2 . G1 Die Kovariablen müssen nicht unbedingt unkorreliert sein. G2 Die Basis des UpRn muss nicht unbedingt orthogonal sein. H1 Bei unkorrelierten Kovariablen lässt sich jeder dieser Kovariablen ein bestimmter Anteil der Varianz zuordnen. Die durch die Variablen insgesamt erklärte Varianz (also die Varianz von Yˆ ) ist exakt die Summe dieser Anteile. Bei korrelierten Kovariablen gilt dies nicht mehr. H2 In orthogonalen Koordinatensystemen gilt der Pythagoräische Lehrsatz, also 2 2 2 Yˆ = βˆ12 X 1 + βˆ22 X 2 + ... + βˆ p2 X p 2 In schiefwinkligen Koordinatensystemen gilt dieser Satz nicht mehr (Man beachte,dass hier X1 dem y-Achsenabschnitt enstpricht!). I1 Wenn sich eine Kovariable deterministisch durch die anderen vorhersagen lässt, verringert sich die „Zahl“ der vorhersagbaren Yˆ -Werte. Die Regressionskoeffizienten sind dann nicht eindeutig bestimmt. I2 Wenn die Kovariablenvektoren linear abhängig sind, legen sie einen Unterraum UqRn des Rn fest. Dieser Unterraum hat eine kleinere Dimension als für linear unabhängige Kovariablenvektoren, es gilt also q < p. In diesem Unterraum sind die Kovariablenvektoren keine Basis. Manche Punkte in diesem Unterraum haben mehrere (unendlich viele) Darstellungen als Linearkombination dieser Vektoren. J1 Der Vektor der vorhergesagten Werte, Yˆ , bleibt aber auch im Falle deterministisch abhängiger Kovariablen eindeutig bestimmt! Durch Weglassen oder Zusammenfassen überflüssiger Kovariablen lässt sich die eindeutige Wahl der Regressionskoeffizienten erzwingen. J2 Dennoch ist das Bild Yˆ der Projektion von Y auf UqRn eindeutig bestimmt. Dieses Bild ist also eine Eigenschaft des speziellen UqRn , nicht der gewählten Basis oder des „Erzeugendensystems“ X1,...,Xp. 59 P.Martus, Multivariate Statistik, SoSe 2009 Durch Weglassen oder Zusammenfassen überflüssiger Kovariablenvektoren kann man eine Basis des UqRn erhalten. K1 In vielen Anwendungen hat man es zwar nicht mit deterministisch abhängigen Kovariablen zu tun, aber mit sehr hoch korrelierten („kollinearen“) Kovariablen. In diesen Fällen wird die Schätzung von Regressionskoeffizienten instabil (nicht aber die Schätzung von Yˆ !). K2 Wenn die Basis des UpRn sehr schiefwinklig ist, dann ist die Koordinatendarstellung einzelner Vektoren numerisch instabil. 60 P.Martus, Multivariate Statistik, SoSe 2009 5.20 Zusammenfassung Vergleich der Eigenschaften der Kovariablen Xi (Spalten der Übersicht) mit den Eigenschaften der Regression (Zeilen der Übersicht) falls Xj deterministisch abhängig hoch korreliert „moderat“ korreliert unabhängig Yˆ eindeutig ja ja ja ja Yˆ numerisch stabil ja ja ja ja ja ja ja ja Yˆ durch X eindeutig darstellbar nein ja ja ja Darstellung von Yˆ numerisch stabil nein nein ja ja Yˆ in βˆ1 x1 , βˆ2 x2 , ..., β̂ p x p nein nein nein ja Y orthogonal in Yˆ und Y- Yˆ zerlegbar. orthogonal zerlegbar. 5.21 Die besondere Rolle des Intercepts β0, also der Konstanten der Regressionsgleichung 1 Dem Intercept entspricht die erste Spalte der Kovariablenmatrix X, die konstante Einträge 1 hat. 2 Auch dem Intercept lässt sich eine Quadratsumme zuordnen. Diese ist jedoch nicht ein Teil der Quadratsumme 2 ∑ ( yi − y ) . Vielmehr basiert sie auf folgender Zerlegung: ∑y 2 i = ∑ y + ∑ ( yi − y ) 2 = n • y 2 + ∑ ( yi − y ) 2 2 Mit anderen Worten: Die Summe der Abweichungsquadrate lässt sich ergänzen zur 2 Gesamtsumme der Quadrate ∑ y i durch die „Summe“ n • y 2 . 3 Im allgemeinen wird dieser „Schritt Null“ der Quadratsummenzerlegung „stillschweigend“ vorgeschaltet (und in der Ausgabe von Statistiksoftware manchmal weggelassen) und nur das „korrigierte“ Modell auf Basis der Abweichungsquadrate analysiert. 4 Insbesondere wird man für Kovariablen, die mit dem Intercept korrelieren, niemals zuerst den Quadratsummenanteil der Kovariablen und dann denjenigen des Intercepts betrachten. Man geht immer umgekehrt vor. 61 P.Martus, Multivariate Statistik, SoSe 2009 5.23 Die Varianzzerlegung im Glaukombeispiel Für das Glaukombeispiel lässt sich folgende Zerlegung der Quadratsummen angeben: A Zerlegung der Quadratsumme der Beobachtungen ∑Y 2 i nY 2 ∑(y =10•7.512=10*56.4 i − y )2 = 613.93 = 564.00 = 49.93 B Zerlegung der Abweichungsquadrate in Regression und Residuen ∑(y i − y )2 = 49.93 ∑( y i − yˆ i ) 2 = 0.78 ∑ ( yˆ i − y)2 = 49.15 C Zerlegung der Regressionsabweichungsquadrate? Modell mit Modell mit Modell mit Modell mit Flimmertest + Alter + Geschlecht = = = 25.73 40.75 49.15 15.02 08.40 Flimmertest + Geschlecht + Alter = = = 25.73 26.07 49.15 00.34 23.08 Geschlecht + Alter + Flimmertest = = = 00.36 45.47 49.15 45.11 03.68 Alter + Geschlecht + Flimmertest = = = 33.17 45.47 49.15 12.30 03.68 Die Zerlegung der Regressionsabweichungsquadrate hängt von der Reihenfolge ab, in der die Variablen ins Modell eingebracht werden. Somit lässt sich die Gesamtsumme nicht sinnvoll auf die einzelnen Kovariablen verteilen. Der Grund liegt darin, dass die drei Kovariablen korreliert sind. Bei unabhängigen Kovariablen (orthogonaler Basis) wäre dies möglich. 62 P.Martus, Multivariate Statistik, SoSe 2009 Die Korrelationsmatrix von Geschlecht, Alter und Flimmertest lautet Geschlecht Alter Fli mmertest Geschlecht 1 − 0.44 − 0.004 Alter Fli mmertest − 0.44 − 0.004 1 − 0.45 − 0.45 1 In der Tat kommt es bei den Modellen mit Flimmertest und Geschlecht (ohne Alter) nicht auf die Reihenfolge der Variablen an: Modell mit Modell mit Flimmertest + Geschlecht = = 25.73 26.07 00.34 Geschlecht + Flimmertest = = 00.36 26.07 25.71 Dagegen kommt es bei Alter und Geschlecht sehr wohl auf die Reihenfolge an: 63 P.Martus, Multivariate Statistik, SoSe 2009 5.24 Ein Beispiel für mehrkategorielle Kovariablen In einer Studie wurden drei unterschiedliche Genotypen von Weihnachtsgänsen (benannt nach ihren Herkunftsstaaten (Georgia, Virginia und Wisconsin) Rohdaten zum Weihnachtsgansbeispiel (Draper und Smith, 1998, S.302) Tier Nr Alter [Wochen] Gewicht [Pfund] Bundesstaat 1 2 3 4 5 6 7 8 9 10 11 12 13 28 20 32 22 29 27 28 26 21 27 29 23 25 13.3 8.9 15.1 10.4 13.1 12.4 13.2 11.8 11.5 14.2 15.4 13.1 13.8 G G G G V V V V W W W W W Fragestellungen • • • Ist der Zusammenhang zwischen Alter und Gewicht linear ? Sind die Regressionsgleichungen in den drei Staaten identisch ? Falls nicht, unterscheiden sich y-Achsenabschnitt, Steigung oder beides ? Einfachstes Herangehen: Jeweils eine Regressionsanalyse für alle Gänse und getrennt nach Bundesstaaten. ŷ = -0.98 + 0.51 • X Georgia ŷ = -0.30 + 0.47 • X Virginia ŷ = +2.48 + 0.45 • X Wisconsin Alter und Gewicht von W eihnachtsgänsen aus drei Bundesstaaten 16 15 14 Gewicht [Pfund] • 13 Heimat 12 11 Wiscons 10 Virginia 9 Georgia 8 18 Gesamt 20 22 24 26 28 Alter [Wochen] 30 32 34 64 P.Martus, Multivariate Statistik, SoSe 2009 Ergebnis: Nach den Graphiken sind alle drei Regressionsgeraden parallel (identische Steigung), aber offensichtlich ist der y-Achsenabschnitt bei Wisconsin größer als in Georgia und Virginia. 5.25 Darstellung als multivariates Regressionsmodell Wenn es nur zwei genetische Varianten der Weihnachtsgänse gäbe, z.B. Georgia und Virginia, könnte man diese modellieren, wie beim Glaukombeispiel das Geschlecht: Yi = β0+β1Xi1+β2Xi2 + εi mit εi ~ N(0,σ2) Dabei wäre X1 das Alter und z.B. X2 = 0 für Georgia und X2 = 1 für Virginia. Wie lassen sich die drei Genotypen modellieren ??? Lösung: Für die drei Gruppen werden zwei Kovariablen, X2a und X2b benötigt! Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi mit εi ~ N(0,σ2) Mögliche Codierung: X2a X2b Georgia 1 0 Virginia 0 1 Wisconsin 0 0 Diese Codierung heißt Dummy-Codierung, Wisconsin wird als „Referenzkategorie“ bezeichnet. Man könnte genausogut Virginia oder Georgia als Referenzkategorie wählen. Parameterinterpretation: β0 Intercept für die Regression nur in Wisconsin β1 Gemeinsame Steigung des Alters für alle Genotypen β2a Differenz der Intercepts Georgia minus Wisconsin β2b Differenz der Intercepts Virginia minus Wisconsin 65 P.Martus, Multivariate Statistik, SoSe 2009 5.26 Analyse der Daten mit Hilfe von Dummycodierungen Die in 5.25 vorgeschlagene Dummycodierung führt zu den folgenden Variablen: Tier Nr Alter [Wochen] Gewicht [Pfund] Bundesstaat X2a X2b 1 2 3 4 5 6 7 8 9 10 11 12 13 28 20 32 22 29 27 28 26 21 27 29 23 25 13.3 8.9 15.1 10.4 13.1 12.4 13.2 11.8 11.5 14.2 15.4 13.1 13.8 G G G G V V V V W W W W W 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 Die Analyse wird zunächst in zwei Schritten durchgeführt: Analyse 1: Lineares Regressionsmodell mit der Kovariable Alter Yi = β0+β1Xi1 + εi Gewicht = 1.98 + 0.42•Alter + ε Quadratsumme korrigiert für Intercept: Regression (Alter): Residuen 39.42 26.20 13.22 Analyse 2: Lineares Regressionsmodell mit den Kovariablen Alter und Bundesstaat Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi Yi = 1.43+0.49•Alter-1.92•Xi2a-2.19•Xi2b + εi Gewicht Gewicht Gewicht = = = -0.49 + 0.49•Alter + ε -0.76 + 0.49•Alter + ε 1.43 + 0.49•Alter + ε Quadratsumme korrigiert für Intercept: Regression (Alter, Staat): Residuen mit εi ~ N(0,σ2) mit εi ~ N(0,σ2) Georgia Virginia Wisconsin 39.42 38.61 00.81 66 P.Martus, Multivariate Statistik, SoSe 2009 Eine alternative Dummycodierung würde Victoria zur Referenzkategorie machen: Tier Nr Bundesstaat X2a X2b 1 2 3 4 5 6 7 8 9 10 11 12 13 G G G G V V V V W W W W W 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 Aus den Ergebnissen der ersten Berechnung lassen sich sofort die Modellgleichung und die Varianzzerlegung ableiten: Yi = -0.76+0.49•Alter+0.27•Xi2a+2.19•Xi2b + εi Quadratsumme korrigiert für Intercept: Regression (Alter, Staat): Residuen mit εi ~ N(0,σ2) 39.42 38.61 00.81 Durch Einsetzen ergeben sich dieselben Gleichungen für die verschiedenen Bundesstaaten: Gewicht Gewicht Gewicht = = = -0.49 + 0.49•Alter + ε -0.76 + 0.49•Alter + ε 1.43 + 0.49•Alter + ε Georgia Virginia Wisconsin 5.27 Analyse der Daten mit Hilfe von Dummycodierungen und Wechselwirkungen Im bisherigen Modell haben wir für die Bundesstaaten zwar unterschiedliche Intercepts aber nur identische Steigungen zugelassen. Ein Vergleich der Modellgleichungen aus 5.26 mit denjenigen aus 5.24 zeigt diesen Unterschied. Wir müssen also eine Codierung (= die Basis eines p-dimensionalen Unterraums) finden, die es erlaubt, unterschiedliche Steigungen zuzulassen. Schritt 1: Bestimmung der Dimension p des Spaltenraums der Kovariaten In den drei Gleichungen ŷ ŷ ŷ = = = -0.98 + 0.51 • X -0.30 + 0.47 • X +2.48 + 0.45 • X Georgia Virginia Wisconsin werden insgesamt 6 Parameter verwendet, im Modell Yi = -0.76+0.49•Alter+0.27•Xi2a+2.19•Xi2b + εi mit εi ~ N(0,σ2) aus Abschnitt 25.26 werden 4 Parameter verwendet, sodass insgesamt noch zwei Parameter frei sind. Diese zusätzlichen zwei Parameter werden durch Aufnahme der „Wechselwirkung“ aus Bundesstaat und Alter ins Modell aufgenommen: 67 P.Martus, Multivariate Statistik, SoSe 2009 Yi = β0 + β1Xi1 + β2aXi2a + β2bXi2b + β12a Xi1Xi2a + β12bXi1Xi2b + εi mit εi ~ N(0,σ2) Parameterinterpretation: β1 gibt jetzt die Steigung des Alters im Modell nur für Wisconsin an (in gleicher Weise steht ja β0 für den Intercept in Wisconsin). β12a gibt den Unterschied der Steigung des Alters zwischen Georgia und Wisconsin an, β12b den Unterschied zwischen Virginia und Wisconsin an (in gleicher Weise stehen β2a und β2b für den Unterschied der Intercepts von Georgia und Virginia gegenüber Wisconsin). Allgemein spricht man von „Wechselwirkung“, wenn der Parameter für eine Variable (Alter) vom Parameterwert der anderen Variable (Bundesstaat) abhängt. Wechselwirkungen kann man immer wie in unserem Beispiel durch Produkte von Kovariablen darstellen. Dies gilt insbesondere auch für stetige Kovariablen X1 und X2 , deren Wechselwirkung man durch das Produkt X1•X2 codiert. Es ergeben sich die folgenden Parameterschätzungen: Yi = 2.48+0.45•Alter-3.45Xi2a-2.78Xi2b + 0.061Xi1Xi2a + 0.025 Xi1Xi2b + εi Dies ist (bis auf Rundungsfehler) gleichbedeutend mit den Gleichungen aus 5.24 ŷ ŷ ŷ = = = -0.98 + 0.51 • X -0.30 + 0.47 • X +2.48 + 0.45 • X Georgia Virginia Wisconsin Die Varianzzerlegung lautet nun Quadratsumme korrigiert für Intercept: 39.42 Regression (Alter, Staat,Wechselwirkung): 38.71 Residuen 00.71 Gegenüber dem Modell ohne Wechselwirkung Quadratsumme korrigiert für Intercept: Regression (Alter, Staat): Residuen 39.42 38.61 00.81 hat sich also nur eine sehr geringfügige Verbesserung ergeben. 5.28 Wechselwirkungen von mehrkategoriellen Kovariaten Die Wechselwirkung zwischen einer stetigen Kovariablen und einer mehrkategoriellen Kovariable modelliert man also durch die Produkte der stetigen Kovariable mit allen Dummyvariablen der kategoriellen Kovariable, in unserem Fall also X1X2a und X1X2b. Die Wechselwirkung von zwei kategoriellen Kovariablen mit k1 und k2 Kategorien und damit k1-1 bzw. k2-1 Dummyvariablen wird durch (k1-1) •(k2-1) Produktvariablen und der gleichen Zahl von Parametern codiert. 68 P.Martus, Multivariate Statistik, SoSe 2009 5.29 Vorbemerkungen zum Testen in der Regressionsanalyse Wir haben noch immer keinen Test zur Verfügung, der es uns erlaubt, zu entscheiden, welche Kovariablen oder Wechselwirkungen wir in unser lineares Modell aufnehmen sollten. Im Beispiel der Weihnachtsgänse würden wir z.B. gerne zeigen, dass es überflüssig ist, unterschiedliche Steigungen in den drei Bundesstaaten anzunehmen. In den folgenden Abschnitten werden wir untersuchen, wie man einzelne Parameter oder Gruppen von Parametern der linearen Regression auf Signifikanz (also i.a. auf Verschiedenheit von 0) testen kann. Der Test basiert auf dem Quotienten von zwei Quadratsummen: Derjenigen, die der Kovariablen zugeordnet ist und derjenigen, die den Residuen zugeordnet ist. Hierfür sind zunächst einige Vorüberlegungen nötig. Im Abschnitt 5.30 stellen wir aus statistischer und geometrischer Sicht die Annahmen dar, die zur Entwicklung eines Tests für Regressionskoeffizienten führen. In Abschnitt 5.31 zeigen wir, wie sich die Fehlervarianz σ2 aus den Daten schätzen lässt. In Abschnitt 5.32 definieren wir den bisher etwas unscharf verwendeten Begriff der Freiheitsgrade, in Abschnitt 5.33 können wir, basierend auf dem Begriff der Freiheitsgrade, die Verteilung der Quadratsummen angeben. Schließlich wird in Abschnitt 5.34 der F-Test für Quotienten von Quadratsummen dargestellt, der das gewünschte leistet: Mit Hilfe des F-Tests lassen sich einzelne Parameter oder ganze Gruppen von Parametern bzw. ganze Teilmodelle testen. 5.30 Vorbemerkungen zum Test einzelner Parameter in der Regressionsanalyse Wir betrachten noch einmal das lineare Modell Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi mit εi ~ N(0,σ2) In geometrischer Interpretation wird jeder Kovariablen Xj (und auch dem Intercept) eine Raumrichtung des p-dimensionalen Unterraums UpRn zugeordnet . Man könnte auch sagen, dass jedem Parameter eine Raumrichtung zugeordnet wird, um Missverständnisse für mehrkategoriellen Kovariablen zu vermeiden: Hier entstehen aus einer Kovariable mehrere Dummy-Variablen und die Zahl der Raumrichtungen ist gleich der Zahl der Dummy-Variablen, also gleich der Zahl der zu schätzenden Parameter. Wenn wir in Zukunft über die Anzahl von Kovariablen sprechen, zählen wir im mehrkategoriellen Fall jede Dummyvariable einzeln. Die Länge des Vektors βjXj entspricht dabei der „Bedeutung“ der Kovariablen Xj für Y in der Regressionsanalyse (diese Länge hängt nicht von der Skalierung von Xj ab). Wenn eine Kovariable Xj eigentlich keine Information über die Zielgröße Y enthält, wäre es dennoch unwahrscheinlich, dass der zugehörige Regressionskoeffizient βj exakt gleich Null geschätzt wird. Er wird durch zufällige Schwankungen in der Stichprobe positiv oder negativ geschätzt werden. Genau wie bei den elementaren statistischen Tests wird jetzt wieder die Frage gestellt: Ist der geschätzte Regressionskoeffizient noch im Bereich der Zufallsschwankung oder ist er so 69 P.Martus, Multivariate Statistik, SoSe 2009 deutlich von Null verschieden, dass ein tatsächlicher Einfluss auf Y angenommen werden darf? Um zu einem Test für den Regressionskoeffizienten zu kommen, müssen wir die Zufallsschwankung von β̂ j unter der Annahme, dass Xj keinen Einfluss hat, untersuchen. (Für eine Fallzahlschätzung müssten wir zusätzlich die Zufallsschwankung von β̂ j untersuchen, unter der Annahme, dass Xj einen bestimmten Einfluss hat, also βj „in Wahrheit“ einen bestimmten Wert ≠ 0 hat). Die Wahrscheinlichkeitsverteilung der Länge von β̂ j X j hängt von der Fehlerstreuung ε ~ N(0,σ2) ab, also vom Parameter σ2. Fundamental ist nun der folgende Sachverhalt: Unter der Nullhypothese βj = 0, d.h. „Y lässt sich nicht aus Xj prognostizieren“, ist βˆ j / (( X t X ) −1 ) jj N(0,σ2)-verteilt (Im Falle orthogonaler Kovariablen entspricht βˆ j / (( X t X ) −1 ) jj gerade der signierten Länge des Vektors β̂ j X j , d.h. β̂ j X j .). Wir benötigen also lediglich eine Schätzung für σ, dann können wir den Einfluss von Xj mit dem t-Test überprüfen. In 5.34 werden wir sogar allgemeiner lernen, wie man Gruppen von Parametern als Ganzes testet. Dies ist entscheidend, wenn wir kategorielle Kovariable mit mehr als einer Kategorie testen wollen. Die quadrierte Länge des standardisierten Vektors Xβˆ / σ ist Chi-Quadrat verteilt. Im Falle orthogonaler Kovariablen ist dies eine einfache Konsequenz des oben genannten Sachverhaltes. 5.31 Die Schätzung der Fehlervarianz σ2. Die Varianz einer Stichprobe lässt sich bekanntlich durch s2 = _ n ⎛ 1 ⎞ y y − ⎜ ⎟ ∑ i n − 1 i =1 ⎝ ⎠ 2 schätzen. Dies ist zugleich die Schätzung der Fehlervarianz σ2 im einfachsten linearen Modell Yi = β0 + εi mit εi ~ N(0,σ2), _ denn β0 würde ja gerade als Mittelwert der Stichprobe, also als y geschätzt. Ganz analog wird nun die Fehlervarianz im allgemeinen Regressionsmodell Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi mit εi ~ N(0,σ2) 70 P.Martus, Multivariate Statistik, SoSe 2009 geschätzt: σˆ 2 = ( ( n 1 yi − βˆ 0 + βˆ 1X i1 + βˆ 2 X i2 + ... + βˆ p −1X ip −1 ∑ i =1 n−p )) 2 . Der einzige Unterschied ist, dass die Quadratsumme aufgrund der höheren Zahl von Parametern nicht mehr mit 1/(n-1) sondern mit 1/(n-p) multipliziert werden muss (vgl. 4.14, dort war p = 2). Die Quadratsumme wird auch mit RSSQ (residual sum of squares) bezeichnet. Die tatsächliche Schätzung der Fehlervarianz hängt davon ab, welche Kovariablen ins Modell mit aufgenommen wurden. Im allgemeinen wird sie bei Aufnahme zusätzlicher Kovariablen geringer. Bei Aufnahme überflüssiger Kovariablen kann sie (im Gegensatz zur Fehlerquadratsumme) dagegen auch anwachsen. Im Beispiel 5.24 ergeben sich die folgenden Fehlervarianzschätzungen RSSQ n-p σˆ 2 Modell nur mit Alter (und Intercept) 13.22 13-2=11 1.20 Modell mit Alter und Staat 00.81 13-4=9 0.09 Modell mit Alter, Staat und Wechselwirkung 00.71 13-6=7 0.10 5.32 Freiheitsgrade im allgemeinen linearen Modell Im ALM bezeichnet man die Zahl der unabhängigen Beobachtungen (also die Dimension des Personenraums) auch als Freiheitsgrade. Eine Stichprobe vom Umfang n hat also n Freiheitsgrade. Allgemeiner bezeichnet man auch die Dimension von Teilräumen als Freiheitsgrade. Jeder in ein Modell aufgenommenen Kovariable wird eine Raumrichtung und somit ein Freiheitsgrad zugeordnet. Dies bedeutet insbesondere Intercept 1 Freiheitsgrad stetige Kovariablen 1 Freiheitsgrad kategorielle Kovariable mit k Kategorien k-1 Freiheitsgrade Wechselwirkungen stetiger mit stetigen Kovariablen 1 Freiheitsgrad stetiger mit kategoriellen Kovariablen k-1 Freiheitsgrade kategorieller mit kategoriellen Kovariablen (k1-1)•(k2-1) Freiheitsgrade 71 P.Martus, Multivariate Statistik, SoSe 2009 Bei einem Modell mit p Parametern bilden die verbliebenen Raumrichtungen (= Residuen) einen n-p-dimensionalen Raum. Diesem Raum werden entsprechend n-p Freiheitsgrade zugeordnet Residuen n-p Freiheitsgrade Aus den Residuen wird der Parameter σ2 geschätzt. Man sagt deswegen auch, dass die Schätzung von σ2 mit n-p Freiheitsgraden erfolgt. Im Beispiel ergibt sich: Alter 1 Freiheitsgrad Staat 2 Freiheitsgrade Wechselwirkung Alter Staat 2 Freiheitsgrade 5.33 Verteilung der Quadratsummen im allgemeinen linearen Modell Sollen Gruppen von Parametern getestet werden, muss man berücksichtigen, dass die Länge eines Vektors, der durch Kombination mehrerer Raumrichtungen entsteht, nicht mehr normalverteilt ist. Man kann aber zeigen, dass die quadrierte standardisierte Länge eines Vektors (β1X1+β2X2+... + βkXk)/σ, der durch Kombination von k Raumrichtungen entsteht wie die Summe von k unabhängigen Chi-Quadrat verteilten Zufallsvariablen verteilt ist. Die Summe von k unabhängigen ChiQuadrat verteilten Zufallsvariablen ist aber Chi-Quadrat verteilt mit k Freiheitsgraden. Insbesondere ist also der quadrierte standardisierte Residuenvektor Chi-Quadrat verteilt mit np Freiheitsgraden. Die quadrierte Länge eines Vektors ist aber nichts anderes, als die dem Vektor zugeordnete Quadratsumme. Somit ist die quadrierte standardisierte Länge eines Vektors die zugehörige Quadratsumme dividiert durch σ2. Wir können jetzt also jeder standardisierten Quadratsumme eine Chi-Quadrat Verteilung zuordnen. Für die Freiheitsgrade ergibt sich ganz analog zu 5.32 Intercept stetige Kovariablen kategorielle Kovariable mit k Kategorien Wechselwirkungen stetiger mit stetigen Kovariablen stetiger mit kategoriellen Kovariablen kategorieller mit kategoriellen Kovariablen 1 Freiheitsgrad 1 Freiheitsgrad k-1 Freiheitsgrade 1 Freiheitsgrad k-1 Freiheitsgrade (k1-1)•(k2-1) Freiheitsgrade Residuen n-p Freiheitsgrade 72 P.Martus, Multivariate Statistik, SoSe 2009 Insbesondere wissen wir aber auch, dass Quadratsummen aus Teilmodellen Chi-Quadrat verteilt sind. Wir bezeichnen die einer Kovariable X zugeordnete Quadratsumme mit n n i =1 i =1 SSQ( X ) = ∑ ( βˆX i ) 2 bzw. SSQ( X ) = ∑ (Y − βˆ0 − βˆX i ) 2 , falls (stillschweigend) auch ein Intercept mit ins Modell aufgenommen wurde (siehe Bemerkung 5.37). Analog gilt für die einer Gruppe X1, X2, ... , Xk von Kovariablen zugeordnete Quadratsumme mit n n i =1 i =1 SSQ( X ) = ∑ ( βˆ1 X i1 + ... + βˆk X ik ) 2 bzw. SSQ( X ) = ∑ (Y − βˆ0 − βˆ1 X i1 + ... + βˆk X ik ) 2 . Im Beispiel (mit Intercept) erhalten wir also SSQ(Alter) = 26.20 1 Freiheitsgrad SSQ(Alter, Staat) = 38.61 3 Freiheitsgrade SSQ(Alter, Staat, Wewi) = 38.71 5 Freiheitsgrade Unter der Nullhypothese sind die Quotienten aus Quadratsummen und σ2 Chi-Quadrat verteilt mit der entsprechenden Zahl von Freiheitsgraden. Bei bekanntem σ2 könnte man den Quotienten SSQ/σ2 mit einem Chi-Quadrat Test auf Signifikanz prüfen. Da die Fehlervarianz σ2 aus den Daten geschätzt wird, wäre dieser Test aber nicht korrekt. (dies entspricht der Situation bei z-Test (3.3) und t-Test (3.4)). Man kann aber die Verteilung des Quotienten aus (1/Freiheitsgrade)•SSQ und σˆ 2 bestimmen und zeigen, dass diese Verteilung nur von der Zahl der Beobachtungen und der Zahl Freiheitsgrade des Modells abhängt. Entscheidend ist, dass als Zufallsgrößen SSQ und σˆ 2 unabhängig sind. 5.34 Die F-Verteilung Es seien U und V unabhängige Chi-Quadrat verteilte Zufallsvariablen mit dfu und dfv Freiheitsgraden. Dann heißt die Verteilung des Quotienten U df u V df v 73 P.Martus, Multivariate Statistik, SoSe 2009 F-Verteilung mit dfu Zählerfreiheitsgraden und dfv Nennerfreiheitsgraden oder kürzer mit dfu und dfv Freiheitsgraden. 5.35 Die Anwendung der F-Verteilung für Tests in Regressionsmodellen Zurück zur Frage: Ist die Länge von βjXj durch Zufall erklärbar oder nicht? Wir wissen, dass die quadrierte standardisierte Länge dieses Vektors unter der Nullhypothese βj=0 Chi-Quadrat verteilt ist. Unter der Alternative βj≠0 erwarten wir natürlich eine größere Länge von βjXj. Für ein Modell mit Intercept, p-1 Kovariablen und n Beobachtungen wissen wir, dass RSSQ/ σˆ 2 Chi-Quadrat verteilt mit n-p Freiheitsgraden und SSQ(Modell) / σˆ 2 Chi-Quadrat verteilt mit p-1 Freiheitsgraden ist (1 Freiheitsgrad „verschwindet“ für den Intercept, der nicht mitgetestet werden soll). Somit ist der Quotient SSQ ( Modell ) σˆ 2 RSSQ σˆ 2 = SSQ ( Modell ) RSSQ unter der Nullhypothese (β1=0, β2=0 ... βp-1=0) Quotient zweier Chiquadratverteilungen mit p1 bzw. n-p Freiheitsgraden. Für den Test eines Parameters βj mit Nullhypothese βj=0, ist p-1 = 1. Aus 5.34 folgt, dass der Quotient F = SSQ ( Modell ) p −1 RSSQ n− p unter der Nullhypothese F-verteilt mit p-1 bzw. n-p Freiheitsgraden ist. Unter der Alternative, dass wenigstens ein βj ≠ 0 ist, wird ein größerer Wert von F erwartet, weil ja SSQ(Modell) dann über die Zufallsschwankung hinausgeht. Die Ausdrücke SSQ/(p-1) und RSSQ/(n-p) bezeichnet man auch als MSQ, wenn klar ist auf welche Quadratsumme sie sich beziehen. 74 P.Martus, Multivariate Statistik, SoSe 2009 Daraus folgt, dass man für einen Test mit Signifikanzniveau α das 1-α Quantil der jeweiligen F-Verteilung bestimmen muss und der F-Wert aus der Stichprobe mindestens so groß wie dieses Quantil sein muss, um ein signifikantes Ergebnis zu erhalten. 75 P.Martus, Multivariate Statistik, SoSe 2009 Im Beispiel erhalten wir für das Modell mit SSQ MSQ RSSQ R-MSQ F p Alter 26.20 26.20 13.22 1.20 021 0.001 Alter, Staat 38.61 12.87 00.81 0.09 142 <0.001 Alter, Staat Wewi 38.71 07.74 00.71 0.10 076 <0.001 5.36 Der partielle F-Test in Regressionsmodellen In den in 5.35 dargestellten Modelle waren alle F-Tests signifikant, also auch derjenige für das Modell mit Alter, Staat und Wechselwirkung. Dennoch „sehen“ wir, dass die Wechselwirkung vermutlich nichts zum Modell beiträgt. Was wir benötigen ist ein schrittweiser Ansatz beim Testen. Im Beispiel betrachten wir die zwei Modelle Alter, Staat Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi mit εi ~ N(0,σ2) und Alter, Staat Wechselwirkung Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + β12a Xi1Xi2a + β12bXi1Xi2b + εi mit εi ~ N(0,σ2) mit Quadratsummen 38.61 und 38.71. Man kann zeigen, dass die Differenzquadratsumme mit den gleichen Methoden getestet werden kann, wie gesamte Modellquadratsummen. Allgemein gilt: Für zwei Regressionsmodelle Yi = β0+β1Xi1+...+βpXip + εi und Yi = β0+β1Xi1+...+βpXip +βp+1Xip+1 + ... + βp+kXip+k + εi ist die „standardisierte“ Differenz der Quadratsummen (SSQ(X1,..., Xp+k) - SSQ(X1,..., Xp)) / σˆ 2 Chi-Quadrat verteilt mit k Freiheitsgraden. Weiterhin ist diese Differenz unabhängig von der Fehlerquadratsumme des größeren Modells. 76 P.Martus, Multivariate Statistik, SoSe 2009 Aus 5.34 und 5.35 folgt somit die Definition des partiellen F-Tests. Der Quotient F = SSQ( Modell 2) − SSQ( Modell 1) k RSSQ n − p − k −1 ist unter der Nullhypothese F-verteilt mit k bzw. n-p-k Freiheitsgraden. Die Nullhypothese lautet in diesem Fall: Nur die Kovariablen aus Modell 1 sind notwendig zur Prädiktion von Y, die Erweiterung auf Modell 2 ist nicht nötig. Die Alternative lautet: Außer den Kovariablen von Modell 1 steuert noch wenigstens eine der Kovariablen Xp+1,...,Xp+k Information zur Prädiktion von Y bei. Im Beispiel ergibt sich: F = [(38.71-38.61)/2]/ [(0.71)/7] = 1. Man erhält als zugehörigen p-Wert = 0.59. Somit weiß man, dass die Wechselwirkung tatsächlich nicht in das Modell mit aufgenommen werden muss. 5.37 Bemerkung zum Intercept Eigentlich sind alle F-Tests die wir durchführen partielle F-Tests, wenn der Intercept „stillschweigend“ vorab ins Modell mit aufgenommen wird. 5.38 Partielle F-Tests und schrittweise Modellbildung Wir wissen, dass die einer einzelnen Kovariablen oder einer Gruppe von Kovariablen zugeordnete Quadratsumme von der Reihenfolge abhängt, in der die Variablen ins Modell aufgenommen werden (vgl. 5.23). Offenbar hängt damit auch das Ergebnis der partiellen F-Tests für einzelne Variablen von der Reihenfolge ab, in der diese Variablen betrachtet werden. Theoretisch könnte man im Beispiel ein Modell nur mit Intercept und der Wechselwirkung berechnen: Yi = β0 + β12a Xi1Xi2a + β12bXi1Xi2b + εi mit εi ~ N(0,σ2) oder evtl. sogar auf den Intercept verzichten Yi = β12a Xi1Xi2a + β12bXi1Xi2b + εi mit εi ~ N(0,σ2) 77 P.Martus, Multivariate Statistik, SoSe 2009 Diese Modelle wären sehr unsinnig, da sie ja unterstellen, dass in der Referenzkategorie (Wisconsin) keine Altersabhängigkeit des Gewichts vorliegt. Das zweite Modell wäre übrigens signifikant, das erste nicht. Nicht für alle Konstellationen ist es aber völlig klar, wie die Reihenfolge der Variablen zu wählen ist. Grundsätzlich verwendet man folgende Regeln für die Reihenfolge von Kovariaten 1. Wenn nicht zwingende Gründe dagegen sprechen, wird als erstes immer der Intercept ins Modell aufgenommen. 2. Kovariablen sollten in der Reihenfolge ihrer Bedeutung, also z.B. der zugeordneten Quadratsummen ins Modell aufgenommen werden. 3. Wechselwirkungen sollten erst im Anschluss an die Einzelkovariablen ins Modell aufgenommen werden. In unserem Beispiel würde die Anwendung von Regeln 1 und 2 den Ausschluss der Wechselwirkung bedeuten. In den Übungen werden Sie jedoch ein „Konkurrenzmodell“ für diese Daten kennenlernen, das eine echte Alternative zum hier favorisierten Modell darstellt. Dieses Modell verwendet die Annahme, dass das Gewicht der Weihnachtsgänse zum Zeitpunkt Null praktisch gleich Null ist. 5.39 Variablenselektion In zahlreichen Anwendungen der Bioinformatik stehen sehr viele Kovariablen zur Verfügung. Bei Genexpressionsanalysen könnten z.B. die Expressionswerte mehrerer tausend Gene gemessen werden. Jedes Gen steuert dann eine potentielle Variable bei. Um in diesen Fällen „vernünftige“ Modelle zu konstruieren, kann man ad hoc Strategien der Variablenselektion verwenden, die für medizinische Fragestellungen mit Variablenanzahlen zwischen 2 und etwa 20 entwickelt wurden. Im Wesentlichen existieren zwei Ansätze: Vorwärtsselektion Schritt 0: Aufnahme des Intercepts ins Modell, egal ob signifikant oder nicht Schritt 1: Aufnahme derjenigen Variablen ins Modell, die den partiellen F-Wert mit dem niedrigsten p-Wert beisteuert. Wiederhole Schritt 1, bis keine Variable ein vorgegebenes Kriterium (z.B. p-Wert des partiellen F-Tests ≤ vorgegebene Schranke) erfüllt. 78 P.Martus, Multivariate Statistik, SoSe 2009 Rückwärtsselektion Schritt 0: Bestimmung des vollen Modells mit allen Kovariablen Schritt 1: Ausschluss derjenigen Variablen, die den partiellen F-Wert mit dem größten p-Wert beisteuert. Wiederhole Schritt 1 bis keine Variable ein vorgegebenes Kriterium (z.B. p-Wert des partiellen F-Tests > vorgegebene Schranke) erfüllt. Bei diesen Strategien ist es üblich, kategorielle Kovariable als Ganzes aufzunehmen oder auszuschließen, also immer den kompletten Satz aller zugehörigen Dummyvariablen zu analysieren. Es existieren Mischformen, bei denen man nachträglich Variablen ausschließen kann, die ihre Signifikanz verlieren. 5.40 Praktische Tipps zur Variablenselektion Strategien zur Variablenselektion sollten niemals „blind“ verwendet werden. Man sollte (mindestens) 7 Vorbehalte im Hinterkopf haben: • • • • • • • Korrelierte Kovariablen können zu instabilen und unplausiblen Modellen führen. Fehlende Signifikanz bedeutet nicht automatisch Unbrauchbarkeit für die Prädiktion. Statistische Signifikanz ist abhängig von der Fallzahl, sehr große Datensätze können zu übertrieben komplizierten Modellen führen, sehr kleine Datensätze können einfach nicht „tauglich“ für das eigentlich adäquate „moderat“ komplexe Modell sein. Statistische Signifikanz ist immer zu trennen von inhaltlicher Relevanz. Wechselwirkungen erhöhen die Zahl der potentiellen Parameter eines Modells sehr schnell. Wechselwirkungen zweiter Ordnung können relevant sein, diejenigen höherer Ordnung sind oft nicht interpretierbar. Ganz analoges gilt für die Potenzterme X2, X3, etc. bei stetigen Kovariablen (s.u.) Dramatische Änderungen von Regressionskoeffizienten einer Kovariable bei Aufnahme anderer Kovariablen, insbesondere Vorzeigenwechsel oder starke Vergrößerung der Koeffizienten bei gleichzeitiger Vergrößerung der zugehörigen Standardfehler, deuten auf unstabile Modelle hin. Anwender wollen oft das „geeignete“ multiple Regressionsmodell publizieren, obwohl die Daten eine derartige Festlegung gar nicht ermöglichen. Bei multiplen Regressionsmodellen sollten immer Strategien der Kreuzvalidierung (Kapitel 7) in Betracht gezogen werden. Der wichtigste Tipp lautet: • Die Befähigung, Daten mittels Statistiksoftware zu analysieren, impliziert nicht die Befähigung, Modelle korrekt auszuwählen und die gefundenen Ergebnisse korrekt zu interpretieren. 79 P.Martus, Multivariate Statistik, SoSe 2009 5.41 Paarvergleiche als Spezialfall von Modellvergleichen Uns fehlt noch der Vergleich zwischen den Bundesstaaten, also die Frage, ob sich die Intercepts für die drei Bundesstaaten unterscheiden (unter der jetzt anscheinend gerechtfertigten Annahme, dass sich die Steigungen nicht unterscheiden). Im Regressionsmodell mit εi ~ N(0,σ2) Yi = β0+β1Xi1+β2aXi2a+β2bXi2b + εi mit den Kovariablen Alter, Staat und mit der spezielle Dummycodierung X2a X2b Georgia 1 0 Virginia 0 1 Wisconsin 0 0 stellt der Test von β2a auf Null den Vergleich Georgia vs Wisconsin und der Test von β2b auf Null den Vergleich von Victoria vs Wisconsin bereit. Der Vergleich Georgia vs Victoria entspricht einem Test der Differenz β2a -β2b auf Null. Die ersten beiden Tests könnten direkt aus den Differenzen der Quadratsummen der Modelle mit Intercept, Alter, X2b vs Intercept, Alter, X2b, X2a bzw. Intercept, Alter, X2a vs Intercept, Alter, X2a , X2b gewonnen werden. Für den dritten Test könnte man z.B. die Dummycodierung X2a X2b Georgia 1 0 Virginia 0 0 Wisconsin 0 1 wählen und dann Georgia vs Virginia analog mittels X2a testen. 80 P.Martus, Multivariate Statistik, SoSe 2009 Im Beispiel erhalten wir: Georgia vs Wisconsin SSQ = 38.6 -30.4 = 8.2. RSSQ = 0.81 F = [8.2/1]/[0.81/9] = 90.4 P < 0.001 Virginia vs Wisconsin SSQ = 38.6 -28.9 = 9.7. RSSQ = 0.81 F = [9.7/1]/[0.81/9] = 107.6 P < 0.001 Georgia vs Viriginia SSQ = 38.606 -38.464 = 0.2. RSSQ = 0.81 F = [0.142/1]/[0.81/9] = 1.58 P = 0.24 Man könnte also durchaus ein Modell betrachten, bei dem für Georgia und Virginia nur ein Parameter geschätzt werden muss. Dieses Modell hätte dann z.B. die Codierung X2a Georgia 1 Virginia 1 Wisconsin 0 In den folgenden beiden Abschnitten werden zwei Alternativen für die Signifikanztestung von Paarvergleichen vorgestellt. 81 P.Martus, Multivariate Statistik, SoSe 2009 5.42 Paarvergleiche mittels t-Test Man kann für den partiellen F-Test von Einzelparametern zeigen, dass die Formel t2 = F gilt. Dies bedeutet, dass die Wurzel des F-Werts gerade t-verteilt ist (vgl. Abschnitt 3.4) und man somit die Signifikanz wie bei einem t-Test berechnen kann. Weiterhin kann man zeigen, dass auch in diesem Fall die „Grundformel“ aller t-Tests t= βˆ j SE ( βˆ j ) Gültigkeit besitzt. Für den Standardfehler von β̂ j gilt die Formel ( ) SE βˆ j ( wobei (X t X ) −1 ((X X ) ) σ = t −1 2 jj ) das zu β gehörige Diagonalelement der Matrix (X X ) t j jj −1 bezeichnet und man σ durch die Schätzung σˆ ersetzen darf. 2 2 Man beachte für den Fall orthogonaler Kovariablen die folgende Vereinfachung: ((X X ) ) t −1 jj = 1/ (X t X ) jj = 1/<Xj, Xj> = 1/[||Xj||2] . In der Form dieses t-Tests, also nicht über den Vergleich von Quadratsummen, wird in Standardsoftwarepaketen wie R oder SPSS üblicherweise die Signifikanztestung dokumentiert. Man muss aber wissen, dass sämtliche t-Tests „konditional“ auf jeweils alle anderen Variablen zu interpretieren sind. Dies bedeutet dann, dass hochkorrelierte Variablen im Zweierset eine hochsignifikante Modellverbesserung erbringen können, die zugehörigen tTests u.U. aber beide nicht signifikant sein können. 5.43 Kontraste Die Paarvergleiche in 5.41 und 5.42 wurden durch „Ausprobieren“ mehrerer Modelle mit unterschiedlichen Referenzkategorien durchgeführt. Das ist im allgemeinen auch völlig ausreichend. Im Modell mit Referenzkategorie Wisconsin konnte der Unterschied zwischen Georgia und Victoria durch die Differenz βˆ1 − βˆ2 zwar geschätzt, nicht aber getestet werden. Letzten Endes sind alle Parameterschätzungen Zufallsvariablen, die i.a. nicht voneinander unabhängig sind. Wir können für die Parameterschätzungen analog zum Vorgehen in 5.40 auch die zugehörigen Varianzen und Kovarianzen schätzen und auf diesen Schätzungen t- 82 P.Martus, Multivariate Statistik, SoSe 2009 Tests für beliebige lineare Kombinationen von Parametern, also insbesondere Differenzen der Art βˆ1 − βˆ2 bestimmen. Dabei verwenden wir den grundlegenden Satz Var (X+Y) = Var(X) + Var(Y) + 2COV(X,Y), der sich auf beliebig viele Zufallsvariablen verallgemeinern lässt und jetzt auf die Parameterschätzungen βˆ1 , βˆ2 angewendet wird. Wir benötigen hierfür lediglich sämtliche Varianzen und Kovarianzen der geschätzten Parameter, also ihre Varianzkovarianzmatrix. Diese Matrix (vgl. 5.40) wird geschätzt durch () Vaˆr βˆ = σˆ 2 (X t X ) −1 Die Varianz des Kontrasts βˆ1 − βˆ2 ist Var( β̂1 ) + Var( β̂ 2 ) - 2 COV( βˆ1 , βˆ2 ) Im Beispiel mit Referenzkategorie Wisconsin ergibt sich die folgende VarianzKovarianzmatrix: 0.0066 0.0003 0.0017 0.0003 0.041 0.019 0.0017 0.019 0.045 Somit erhalten wir Vaˆr ( βˆ1 − βˆ2 ) = 0.041 + 0.045 - 2•0.019 = 0.048 und entsprechend als Standardfehler 0.048 = 0.22. Die Differenz βˆ1 − βˆ2 beträgt -0.49-(-0.76) = 0.27. Der Quotient 0.27/0.22 = 1.25 wird mittels des t-Tests mit 9 Freiheitsgraden geprüft. Es ergibt sich als p-Wert 0.24, also kein signifikanter Unterschied. Der t-Wert 1.25 ist die Wurzel des F-Werts 1.58 (vgl. 5.39), beide p-Werte sind identisch. Dieser Zusammenhang zwischen t-Test und F-Test gilt allgemein (vgl. 5.42). 5.44 Vorbemerkungen zur Varianzanalyse Für bestimmte Anwendungen existieren statistische Methoden, die eigentlich nur Spezialfälle der multiplen linearen Regression darstellen, aber aus historischen Gründen und aufgrund ihrer einheitlichen Struktur unter dem Begriff Varianzanalyse zusammengefasst werden. Die Varianzanalyse wird hier nur überblicksmäßig behandelt. 5.45 Einfaktorielle Varianzanalyse 83 P.Martus, Multivariate Statistik, SoSe 2009 Wir gehen davon aus, dass Messungen eines stetigen Merkmals Y in K Gruppen verglichen werden sollen. Dabei gelte die folgende Modellannahme: in Gruppe k (k=1,...,K) Y ~ N(μk,σ2) Theoretisch könnte man folgende Modellgleichungen aufstellen Y = β0 + β1X1 + β2X2 + ... + βKXK mit Xk = 1 in Gruppe k und Xk = 0 sonst (k=1,...,K). In dieser Modellgleichung soll β0 dem Gesamtmittelwert des Experiments entsprechen und β1, β2 ... βK den Abweichungen in den Gruppen auf diesen Gesamtmittelwert. Dieses Modell ist aber offensichtlich überbestimmt. Für jede Lösung (b0, b1, ..., bK) des entsprechenden Kleinstquadrateproblems und jede Konstante c ist (b0+c, b1-c, ..., bK-c). ebenfalls eine Lösung. Den möglichen Ausweg, Identifikation von β0 mit dem Mittelwert in einer Referenzkategorie und Weglassen des Parameters βk für diese Gruppe, wollen wir aber nicht wählen, β0 soll den Gesamtmittelwert beschreiben. Die Designmatrix des obigen Modells hat z.B. für drei Gruppen mit jeweils zwei Beobachtungen die Form ⎛1 ⎜ ⎜1 ⎜1 ⎜ ⎜1 ⎜1 ⎜ ⎜1 ⎝ 1 0 0⎞ ⎟ 1 0 0⎟ 0 1 0⎟ ⎟ 0 1 0⎟ 0 0 1⎟ ⎟ 0 0 1 ⎟⎠ mit offensichtlich linear abhängigen Spalten. Die Idee der Varianzanalyse ist es nun, für den entsprechenden U3R6 dadurch eine Basis aufzufinden, dass man den zulässigen Parametern Restriktionen auferlegt. Im oben beschriebenen Fall würde man sinnvollerweise die Restriktion β1 + β2 + ... + βK = 0 bzw. βK = - (β1 + β2 + ... + βK-1) wählen. Die neue Designmatrix wäre jetzt 84 P.Martus, Multivariate Statistik, SoSe 2009 0⎞ ⎛1 1 ⎟ ⎜ 0⎟ ⎜1 1 ⎜1 0 1⎟ ⎟ ⎜ 1⎟ ⎜1 0 ⎜1 − 1 − 1⎟ ⎟ ⎜ ⎜1 − 1 − 1⎟ ⎠ ⎝ Man erkennt, dass die Intercept-Spalte orthogonal zu den beiden anderen Spalten der Designmatrix ist. Wenn man die Parameter mit Hilfe der Normalengleichungen β̂ = [(Xt•X)-1•Xt]•Y schätzt, erhält man tatsächlich die folgenden Lösungen βˆ0 = Y β̂ k = Yk − Y (k=1,...K-1) und wegen ∑ K k =1 Yk = KY (gleichgroße Gruppen!) erhält man auch für den aus den übrigen Parametern direkt berechneten Parameter β̂ K die Schätzung βˆK = −∑k =1 βˆk = −∑k =1 (Yk − Y ) = (K − 1)Y − kY + Yk = Yk − Y K −1 K −1 Für ungleiche Gruppen, z.B. mit Gruppenstärken N1, ..., NK muss die Restriktion lauten N1β1 + N2β2 + ... + NKβK = 0. Damit verkompliziert sich die Darstellung von β̂ K durch die übrigen Parameter. Die Designmatrix X wird ebenfalls entsprechend komplizierter. Die Erstellung der Designmatrix wird durch die ANOVA Module der Statistiksoftware automatisch vorgenommen, nicht aber durch die Regressionssoftware. Deswegen sollte man in „ANOVA-tauglichen“ Situationen tatsächlich die ANOVA und nicht die Regressionsmodule verwenden. Bei Beobachtungsstudien mit sehr vielen Kovariaten ist aber aus unterschiedlichen Gründen der allgemeine Regressionsansatz vorzuziehen. 85 P.Martus, Multivariate Statistik, SoSe 2009 5.46 Model Fit und Residuenanalyse In Anwendungen wird man immer vor der Frage stehen, ob ein gefundenes Modell den Daten auch wirklich gerecht wird. Man wird sich dafür interessieren, ob 1. 2. 3. 4. 5. 6. 7. Einzelbeobachtungen zu weit vom Modell abweichen, also zu große Residuen zeigen, die Residuen als Ganzes tatsächlich normalverteilt sind, die Residuen als Ganzes tatsächlich identische Varianz besitzen, für stetige Kovariablen höhere Potenzen ins Modell aufgenommen werden sollten, zusätzliche gemessene Kovariablen mit ins Modell aufgenommen werden sollten, zusätzliche nicht gemessene Kovariablen die Y-Werte beeinflussen, zuviele Kovariablen ins Modell aufgenommen wurden. In den folgenden Abschnitten werden wir uns ausführlicher mit den Fragen 1, 2, 3 und 6 beschäftigen. Die Fragen 4, 5 und 7 haben wir bereits in den Abschnitten 5.38-5.40 zur Variablenselektion diskutiert. 5.47 Abweichende Einzelbeobachtungen Beispiel: Weihnachtsgänse Wir schmuggeln nun in die Daten der Weihnachtsgänse eine sechste Gans aus Wisconsin, die sich offenbar untypisch verhält: Nach 32 Wochen wiegt sie nur 12 kg. Heimat 16,00 Georgia Virginia Wisconsin Gewicht [Pfund] 14,00 12,00 10,00 8,00 20,00 22,00 24,00 26,00 28,00 30,00 32,00 Alter [Wochen] Das Histogramm für die Residuen Yi- Yˆi zeigt, dass dieser Wert in der Tat aus der Reihe fällt: 86 P.Martus, Multivariate Statistik, SoSe 2009 5 Häufigkeit 4 3 2 1 0 -2,00000 0,00000 Mean = -3,8857806 E-16 Std. Dev. = 1,13953285 N = 14 Unstandardized Residual Für das zusätzliche Tier wurde ein Residuum von -3.2 beobachtet, die restlichen Residuen liegen zwischen -1.3 und + 1.2. Bemerkung Die Überprüfung der rohen Residuen ist nicht optimal, weil die Varianz der beobachteten Residuen im Gegensatz zur Varianz der Fehlerterme ε nicht konstant ist, sondern für extreme Werte von X kleiner wird. Genauer gilt: Die Varianz der beobachteten Residuen hängt vom Diagonalelement der Projektionsmatrix an der Stelle i ab. Die Projektionsmatrix PX hat die Gestalt PX = X (X t X ) X t −1 und Dimension n•n. Das Diagonalelement an der Stelle (i,i) wird mit hii bezeichnet. Die Varianz der beobachteten Residuen Yi - Yˆi ergibt sich als Produkt (1 − hii ) • σ 2 . Man bezeichnet die bezüglich dieser Varianz standardisierten Residuen auch als „studentisierte“ Residuen. Man erhält also si = 1 ei σˆ (1 − hii ) 87 P.Martus, Multivariate Statistik, SoSe 2009 Aufgrund der geringen Auflösung hat das Histogramm für die studentisierten Residuen aber genau die gleiche Form wie das für die rohen Residuen und wird hier nicht gezeigt. Allgemein kann man sehen, dass der Effekt des Faktors √(1-hii) bereits bei moderaten Stichprobengrößen zu vernachlässigen ist, solange keine extremen Ausreißer bei den xWerten vorkommen. Allerdings erlauben die studentisierten Residuen eine Bewertung der Absolutwerte: Etwa 95% dieser Residuen sollten zwischen -2 und +2 liegen, etwa 99% zwischen -2.5 und + 2.5. Für den Umgang mit „nachgewiesenen“ Ausreißern gibt es keine festen Regeln, außer dass man dokumentieren sollte, was man getan hat. 5.48 Prüfung auf Normalverteilung Die Prüfung auf Normalverteilung könnte durch Vergleich des Histogramms der studentisierten Residuen mit einer Glockenkurve gleicher Varianz und Mittelwert 0 erfolgen. Man wählt jedoch einen etwas geschickteren Weg und vergleicht die jeweils kumulierten Wahrscheinlichkeiten. Wie bei jeder Prüfung der Übereinstimmung stetiger Variablen kann man dabei die Variablen selbst in einem Streudiagramm gegenüberstellen (Normalverteilungsplot) oder aber die Differenz beider Variablen mit dem Mittelwert beider Variablen vergleichen (hier: Trendbereinigter Normalverteilungsplot, allgemein: Bland-Altman Plot). Die zweite Möglichkeit ist i.a. anschaulicher. Ohne Ausreißer ergeben sich die folgenden Normalverteilungsplots für das Modell mit verschiedenen Intercepts und fester Steigung: Perzentil-Perzentil Plot W eihnachtsgänse ohne Ausreißer Erwartete Kum. Wahrsch. 1,00 ,75 ,50 ,25 0,00 0,00 ,25 ,50 ,75 1,00 Beobachtete Kum. Wahrsch. 88 P.Martus, Multivariate Statistik, SoSe 2009 Trendbereinigter Perzentil-Perzentil Plot W eihnachtsgänse ohne Ausreißer Abweichung von Normal ,20 ,10 0,00 -,10 -,20 0,0 ,2 ,4 ,6 ,8 1 Beobachtete Kum. Wahrsch. Es lassen sich keine gravierenden Abweichungen von der Nulllinie erkennen. Für die Daten mit dem einen Ausreißer aus Wisconsin erhält man die folgenden Diagramme: Perzentil-Perzentil Plot Perzentil-Perzentil Diagramm Residuen der Weihnachtsgänse mit Ausreißer aus Wisconsin Erwartete Kum. Wahrsch. 1,00 ,75 ,50 ,25 0,00 0,00 ,25 ,50 ,75 1,00 Beopbachtete Kumulierter Wahrscheinlichkeiten 89 P.Martus, Multivariate Statistik, SoSe 2009 Trendbereinigter Perzentil-Perzentil Plot Trendbereinigtes Perzentil-Perzentil Diagram Abweichung von Normal ,2 ,1 0,0 -,1 -,2 0,0 ,2 ,4 ,6 ,8 1 Beobachtete Kum. Wahrsch. Auch hier erkennt man deutlich, dass die Ausreißer-behafteten Daten gegen die Annahmen des Regressionsmodells verstoßen. 5.49 Prüfung auf identische Varianz In vielen Anwendungen sind die beobachteten Residuen für größere Werte von Yˆ größer als für kleinere. Im einfachsten Fall kann man sich diesen Effekt dadurch erklären, dass die Residuen im Schnitt prozentual vom tatsächlichen Y-Wert abhängen. Ein typisches Streudiagramm sieht in diesem Fall so aus: 600,00 500,00 y 400,00 300,00 200,00 100,00 0,00 0,00 20,00 40,00 60,00 80,00 100,00 nr 90 P.Martus, Multivariate Statistik, SoSe 2009 Die Grafik der (studentisierten) Residuen gegen die vorhergesagten y-Werte zeigt den Zusammenhang noch deutlicher Studentized Residual 2,00000 0,00000 -2,00000 -4,00000 -200,00000 0,00000 200,00000 400,00000 600,00000 Unstandardized Predicted Value Wenn man die funktionale Abhängigkeit der Residuen vom vorhergesagten Wert genauer prüfen will und die Abweichungen nach oben und unten wenigstens angenähert symmetrisch sind, empfiehlt es sich, die absoluten (studentisierten) Residuen gegen die vorhergesagten Werte auftzutragen: 5,00 abs_res 4,00 3,00 2,00 1,00 0,00 -200,00000 0,00000 200,00000 400,00000 600,00000 Unstandardized Predicted Value 91 P.Martus, Multivariate Statistik, SoSe 2009 Besonders zweckmäßig ist die letzte Darstellungsart bei komplexeren Abhängigkeiten der Varianz vom wahren Wert. 600,00 500,00 400,00 z 300,00 200,00 100,00 0,00 -100,00 0,00 20,00 40,00 60,00 80,00 100,00 nr Die Darstellung der Residuen ergibt Studentized Residual 4,00000 2,00000 0,00000 -2,00000 -4,00000 0,00000 100,00000 200,00000 300,00000 400,00000 500,00000 Unstandardized Predicted Value 92 P.Martus, Multivariate Statistik, SoSe 2009 Und die Darstellung der Absolutresiduen zeigt deutlich die quadratische Abhängigkeit vom X-Wert bzw. vorhergesagten Wert: abs_res 3,00 2,00 1,00 0,00 0,00 20,00 40,00 60,00 80,00 100,00 nr Wenn Varianzenungleichheit nachgewiesen wurde, kann die Methode der gewichteten Kleinstquadrateschätzung (weighted least squares) angewendet werden. Diese Methode wird in Abschnitt 5.52 dargestellt. 5.50 Aufnahme neuer Variablen oder Potenzen bereits aufgenommener Kovariablen Im Prinzip kann man als grafische Unterstützung der Variablenselektion Streudiagramme der Residuen gegen die Werte potentiell aufzunehmender Kovariablen plotten. Das Vorgehen ist genau dasselbe wie bei der Prüfung auf Varianzenhomogenität ohne Bildung der Absolutwerte und kann auch im „Forward / Backward Modus“ erfolgen. 5.51 Fehlende Kovariaten In manchen Datensätzen kann man (z.B für nicht gemessene kategorielle Kovariablen oder für wiederholte Messungen an denselben Merkmalsträgern) anhand grafischer Darstellungen erkennen, dass eine fehlende Zusatzinformation berücksichtigt werden müsste. Wenn man beispielsweise die Daten im (regulären) Weihnachtsgansbeispiel so verändert, dass man das Gewicht in Georgia und Virginia jeweils um 1 Pfund verringert und in Wisconsin um 1 Pfund erhöht, erhält man folgende grafische Darstellung: 93 P.Martus, Multivariate Statistik, SoSe 2009 18,00 Gewicht [Pfund] 16,00 14,00 12,00 10,00 8,00 20,00 22,00 24,00 26,00 28,00 30,00 32,00 Alter [Wochen] Aufgrund dieses Diagramms könnte man auf zwei Subpopulationen zurückschließen, weil Beobachtungen in der Nähe der Regressiongerade fehlen. Wenn man die Information zum Bundesstaat nicht zur Verfügung hätte, könnte man postulieren, dass offenbar wichtige Kovariateninformationen fehlen. Leider sind die Effekte derartiger „latenter“ Klassen oft nicht so eindeutig. 5.52 Gewichtete Kleinstquadrateschätzung Manchmal ist die Annahme gleicher Varianzen im linearen Modell Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi nicht gerechtfertigt. Dies kann anhand der Residuenanalyse oder aufgrund inhaltlicher Argumente begründbar sein. Eine Möglichkeit besteht in der Analyse eines Modells Yi = β0+β1Xi1+β2Xi2+... + βp-1Xip-1 + εi mit εi~N(0,viσ2), bei dem die Konstanten vi als bekannt vorausgesetzt werden. Für dieses Modell referieren wir überblicksweise die wesentlichen Eigenschaften. Die Idee ist, sowohl die Kovariatenmatrix X als auch den Ergebnisvektor Y mit dem Streuungsfaktor 1 vi zu multiplizieren. 94 P.Martus, Multivariate Statistik, SoSe 2009 Es bezeichne V die n•n-Diagonalmatrix der Konstanten vi. Dann lautet die Formel für die gewichtete Kleinstquadrateschätzung βˆ = (X tV −1 X ) X tV −1Y −1 und die Formel für die Varianz-Kovarianz des geschätzten Parametervektors −1 Cov( βˆ ) = (X tV −1 X ) σ 2 . Die Formeln der gewichteten Kleinstquadrateschätzung lassen sich auch auf den Fall korrelierter Beobachtungen Y übertragen: Man ersetzt die Diagonalmatrix σ2V der Varianzgewichte vi durch eine Kovarianzmatrix σ2V, deren Nebendiagonalelemente σ2vij die Kovarianzen der Yi und Yj (mit i≠j) darstellen. Als weitere Verallgemeinerung können die Werte vij aus den Daten geschätzt werden. In diesem Fall muss aber ein iteratives Verfahren angewendet werden, da jede Schätzung von V die Schätzung von b verändert und umgekehrt (iteratively reweighted least squares). Beide Methoden sind wichtig in der Theorie der verallgemeinerten Modelle und werden später nochmals aufgegriffen. 5.53 Konfidenzellipsoide Die Tatsache, dass „Wackeln“ an einer Kovariate eine andere u.U. völlig überflüssig macht, bedeutet auch, dass bei gegebenem Yˆ nicht beide Kovariaten gleichzeitig überflüssig werden können. Für zwei hochkorrelierte Kovariaten X1, X2 mit Parametern β1 und β2 folgt dann, dass, falls βˆ = 0 gesetzt wird, β̂ „groß“ sein muss und umgekehrt. 2 1 Diese Idee lässt sich durch Konfidenzellipsen präzisieren. Sie geben in der β1 - β2 Ebene die mit den Daten auf dem entsprechenden Niveau vereinbaren Wertepaare von β1 und β2 an. Die Größe der Konfidenzellipsen beruht auf den Varianzen und die Verkippung auf den Kovarianzen der beiden Parameterschätzungen, also auf den entsprechenden Einträgen in der Matrix (X X ) t −1 σ2 (vgl. 5.40, 5.41). Genauer gesagt legt die Gleichung (β − βˆ ) ⋅ (X X )⋅ (β − βˆ ) t t = const 95 P.Martus, Multivariate Statistik, SoSe 2009 mit const = MSQ(Fehler) • (dfReg) • F(dfReg, dfFehler, 1-α) für beliebig viele Parameter einen Konfidenzellipsoiden fest. Ein Beispiel aus einem hier nicht analysierten Datensatz mit X1 = GEW und X2 = FEV führte auf das folgende Ergebnis: Konfidenzellipsoid für GEW und FEV 1-alpha = 0.95 3,0 2,5 2,0 beta [FEV] 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 2,5 beta [GEW] Offenbar kann jeder von beiden Parametern β1 = beta[GEW] und β2 = beta[FEV] einzeln Null werden, aber nicht beide Parameter gemeinsam. Der folgende Konfidenzellipsoid wurde für dasjenige alpha bestimmt, das genau dem p-Wert des Gesamtmodells mit β1 und β2 entspricht. Konfidenzellipsoid für GEW und FEV 1-alpha =1- p-W ert des F-Tests 3 beta [FEV] 2 1 0 -1 -2 -1,0 -,5 0,0 ,5 1,0 beta [GEW] 1,5 2,0 2,5 96 P.Martus, Multivariate Statistik, SoSe 2009 Teil 6 Verallgemeinerte Lineare Modelle 6.1 Vorbemerkung Im Teil 5 haben wir uns mit dem allgemeinen linearen Modell beschäftigt. Dieses Modell (vgl. 5.3) konnte beschrieben werden durch die Modellgleichung Yi = β0+β1Xi1+β2Xi2+...+βpXip + εi mit εi ~ N(0,σ2) bzw. mit εi ~ N(0,σ2). Yi = E(Y|Xi) + εi Das Modell war durch drei Eigenschaften charakterisiert: • • • Der Erwartungswert von Y hängt vom Vektor (β0, β1,..., βp) linear ab, d.h. E(Y|Xi) = β0+β1Xi1+β2Xi2+...+βpXip. X wird als deterministisch angenommen. Bei gegebenem Vektor x ist Y normalverteilt mit von x unabhängiger, also konstanter Varianz σ2. In den jetzt folgenden Modellen werden diese Eigenschaften verallgemeinert: • • • Die Zielgröße Y muss nicht mehr normalverteilt sein. Die Zielgröße Y muss nicht mehr für alle Beobachtungen dieselbe Varianz besitzen. Nicht mehr der Erwartungswert selbst, sondern eine Funktion des Erwartungswerts hängt linear vom Vektor (β0, β1,..., βp) ab. Das Verallgemeinerte Lineare Modell wird allgemein in 6.20 definiert. Wir beginnen mit dem wichtigsten Beispiel, der logistischen Regression. 6.2 Beispiel zur Logistischen Regression Bei Patienten mit Aderhautmelanom verschlechtert sich die Prognose drastisch, wenn Metastasen auftreten. Aufgrund von klinischen und von Genexpressionsdaten soll die Wahrscheinlichkeit für Metastasen bestimmt werden. Aufgrund unabhängiger Daten kennt man drei Gene, deren Expressionslevel offenbar mit dem Auftreten von Metastasen assoziiert ist. Weiterhin weiß man, dass für einen bestimmten histologischen Subtyp des Aderhautmelanoms die Häufigkeit von Metastasen erhöht ist. Wir untersuchen eine Stichprobe mit 200 Patienten, von denen exakt 100 = 50% eine Metastase besitzen. Gesucht ist ein Modell, das anhand der Variablen Y X1 Metastase Subtyp (Y=0: nein, Y=1: ja) (X1 = 0: normal , X1 = 1 besonders gefährlich) 97 P.Martus, Multivariate Statistik, SoSe 2009 X2 X3 X4 Expressionslevel Gen 1 Expressionslevel Gen 2 Expressionslevel Gen 3 (stetige Intensitätsmessung, Log-Skala) (stetige Intensitätsmessung, Log-Skala) (stetige Intensitätsmessung, Log-Skala) die Vorhersage von Metastasen durch die Genexpressionslevels und durch den Subtyp beschreibt. Das mögliche Modell bzw. Yi = β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 + εi mit εi ~ N(0,σ2) Yi ~ N( β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 , σ2 ) ist einer dychotomen Variable völlig unangemessen. Für festen Kovariatenvektor (Xi1,Xi2,Xi3,Xi4) ist es vernünftig, davon auszugehen, dass Yi nach b(1,pi) verteilt ist, also P(Yi = 1) = pi P(Yi = 0) = 1-pi . Aber auch das Modell Yi ~ b(1,β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4) ist problematisch, weil die Restriktion β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 ∈ [0,1] nur sehr schwierig in ein Verfahren zur Schätzung des Parametervektors β aufgenommen werden könnte. Es ist viel einfacher, β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 einer Transformation zu unterziehen, die R, den Bereich der möglichen Werte von β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 streng monoton auf das Intervall [0,1], den Bereich der möglichen Werte von p, abbildet. Diese Transformation lautet exp( x ) 1 + exp( x ) Wir erhalten also die beiden äquivalenten Gleichungen p = exp( β 0 + β1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 ) 1 + exp( β 0 + β1 x1 + β 2 x 2 + β 3 x3 + β 4 x 4 ) bzw die üblichere Form ln p 1− p = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x4 . (0≠p≠1) 98 P.Martus, Multivariate Statistik, SoSe 2009 Die Funktion auf der linken Seite dieser Gleichung, ln[p/(1-p)], heißt auch logit Funktion. In den folgenden Abschnitten werden wir uns mit • • • • der Parameterschätzung von β, der Signifikanzprüfung für β und Teilmodelle, der Parameterinterpretation und Codierung und der Prüfung der Modellgüte für die logistische Regression befassen. Der entscheidende Schritt ist, dass wir die Kleinstquadrate-Methode durch die Maximum-Likelihood-Methode ersetzen. 6.3 Die Maximum-Likelihood-Methode für binomial verteilte Daten In einer klinischen Studie mit n Patienten (vgl. 1.2) und einer festen Heilungswahrscheinlichkeit p ist die Wahrscheinlichkeit für genau k Heilungen gleich ⎛n⎞ n −k P( k ) = b( n, p, k ) = ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) . ⎝k ⎠ Man kann den Ausdruck b(n,p,k) als Funktion von drei Variablen, n, p und k auffassen. Im Allgemeinen ist n durch die Studie fest vorgegeben, so dass man b(n,p,k) als Funktion von p und k auffassen kann. In der Wahrscheinlichkeitsrechnung geht man von einer festen Wahrscheinlichkeitsverteilung aus und untersucht für bekanntes p die Eigenschaften der Funktion b (n, p, .) = P(.) mit P(k) = b (n, p, k) mit k als unabhängiger Variable. Diese Funktion heißt Wahrscheinlichkeitsfunktion. In der Statistik geht man dagegen von einer beobachteten Heilungszahl k aus und will Aussagen über p treffen. Das bedeutet, man interessiert sich für die Funktion b (n, ., k) = L(.) mit L(p) = b (n, p, k) mit p als unabhängiger Variable. Die Funktion L heißt Likelihoodfunktion. Die Likelihoodfunktion für die Binomialverteilung hat dieselbe Gestalt wie die Wahrscheinlichkeitsfunktion, also ⎛ n⎞ n−k L( p) = ⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) , ⎝k ⎠ ist aber anders zu interpretieren. Ziel ist, aus der Beobachtung k den Parameter p zu schätzen. 99 P.Martus, Multivariate Statistik, SoSe 2009 Mit Hilfe der Maximum Likelihood Methode schätzt man dasjenige p, das die Funktion L(p) maximiert. Äquivalent, aber einfacher umzusetzen, ist die Maximierung von l(p):= ln(L(p)). Im Falle der Binomialverteilung sieht man sofort, dass die Likelihoodfunktion bei k = 0 durch p = 0 und bei k = n durch p = 1 maximiert wird. Wir gehen ab jetzt davon aus, dass 0<k<n und p ∈ ]0,1[ ist. ⎡⎛ n ⎞ n−k ⎤ l ( p ) = ln ⎢⎜⎜ ⎟⎟ ⋅ p k ⋅ (1 − p ) ⎥ = ln(n!) − ln(k!) − ln(n − k )! + k ln( p ) + (n − k ) ln(1 − p ) . ⎣⎝ k ⎠ ⎦ Offenbar hängen nur die letzten beiden Summanden von p ab, so dass bei der Maximierung nur noch die Funktion k ln( p ) + ( n − k ) ln(1 − p ) betrachtet werden muss. Diese Funktion ist zweimal differenzierbar in p, das Maximum kann also durch Nullsetzen der ersten Ableitung gefunden werden. Wir erhalten ∂[k ln( p ) + ( n − k ) ln(1 − p )] = ∂p k n−k − p 1− p Nullsetzen der rechten Seite ergibt 0 = k (1 − p ) = p (n − k ) und daraus folgt sofort p= k . n 6.4 Die Maximum-Likelihood-Schätzung für die logistische Regression In Beispiel 6.2 kann man davon ausgehen, dass für jeden Patienten eine andere Metastasenwahrscheinlichkeit pi mit ln pi 1 − pi = β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4 vorausgesagt wird, weil das Modell stetige Kovariablen enthält. Die Zahl der Metastasen insgesamt ist nicht binomialverteilt und es ist schwierig, Wahrscheinlichkeiten für bestimmte Gesamtzahlen zu berechnen. 100 P.Martus, Multivariate Statistik, SoSe 2009 Aufgrund der Unabhängigkeit der einzelnen Patienten können wir aber die Wahrscheinlichkeit für das in der Stichprobe beobachtete Metastasenmuster sofort hinschreiben: P (Y1 = k1 , Y2 = k 2 , K , Yn = k n ) = ∏ n i =1 P (Yi = k i ) = ∏ b(1, p , k ) n i =1 i i Wenn wir das Produkt logarithmieren, können wir mit identischen Argumenten wie in 6.3 zeigen, dass jetzt der Ausdruck ∑ n i =1 k i ln( pi ) + (1 − k i ) ln(1 − pi ) maximiert werden muss (wegen ki = 1 oder ki = 0, geht für Patienten mit Metastasen ln(pi) und für Patienten ohne Metastasen ln(1-pi) in die Summe ein). Im Folgenden werden implizite Gleichungen für β hergeleitet, die zwar keine geschlossene Lösung bereitstellen, aus denen aber iterativ das gesuchte β bestimmt werden kann. Wenn wir in der Formel pi = exp( β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4 ) 1 + exp( β 0 + β1 xi1 + β 2 xi 2 + β 3 xi 3 + β 4 xi 4 ) den Ausdruck β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 durch ηi ersetzen, erhalten wir ∂pi exp(ηi ) • [1 + exp(ηi )] − exp(ηi ) • exp(ηi ) exp(ηi ) • 1 = = = pi • (1 − pi ) [1 + exp(ηi )]2 [1 + exp(ηi )]2 ∂ηi und ∂ηi = xij . ∂β j Nun können wir mit Hilfe der Kettenregel aus der logarithmierten Likelihood ∑ n k ln( pi ) + (1 − k i ) ln(1 − pi ) i =1 i relativ einfache Gleichungen für die gesuchten Parameter β bestimmen. Wir müssen die Ableitung der einzelnen Komponenten von β gleich Null setzen. Diese Ableitung ist [ ∂ ∑i =1 k i ln( pi ) + (1 − k i ) ln(1 − pi ) n ∂β j ] = ∑ n i =1 ∂[k i ln( pi ) + (1 − k i ) ln(1 − pi )] = ∂β j ⎡ n k i ∂pi ∂η i (1 − k i ) ∂pi ∂η i ⎤ − ⎢∑i =1 ⎥. pi ∂η i ∂β j (1 − pi ) ∂η i ∂β j ⎥⎦ ⎢⎣ 101 P.Martus, Multivariate Statistik, SoSe 2009 Einsetzen ergibt ki ∂pi ∂ηi (1 − ki ) ∂pi ∂ηi − pi ∂ηi ∂β j (1 − pi ) ∂ηi ∂β j ∑ i =1 ∑ n i =1 i n k (1 − pi )xij − (1 − ki ) pi xij = ∑ = n i =1 (1 − ki ) p (1 − p )x ki pi (1 − pi )xij − i ij (1 − pi ) i pi ∑ [k (1 − p ) − (1 − k ) p ]x n i =1 i i i i ij = ∑ [k n i =1 i = − pi ]xij Die zu lösenden Gleichungen (für jedes j eine) lauten also ∑ [k n i =1 i − pi ]xij = 0 . Sie haben mit k = Y in Matrixschreibweise die Gestalt X t (Y − E (Y ) ) = 0 und das ist, wenn wir Yˆ = E(Y) setzen, die aus dem linearen Modell bekannte Form X tY = X tYˆ . Man spricht auch von Schätzgleichungen für die gesuchten Parameter. Weil Yˆ = E(Y) nichtlinear von β abhängt, müssen die Schätzgleichungen numerisch gelöst werden. Hierfür wird im allgemeinen der Newton-Raphson-Algorithmus verwendet, den wir nicht behandeln. Die Herleitungen verwenden an keiner Stelle, dass es genau vier Kovariablen gab. Somit haben wir allgemein die Schätzgleichungen für die logistische Regression hergeleitet. 6.5 Signifikanzprüfung von β und Teilmodellen Für die Signifikanzprüfung von β und Teilmodellen in der logistischen Regression sind vier mathematische Sätze relevant, die hier lediglich angegeben, aber nicht mathematisch bewiesen werden. Es bezeichne β̂ den Vektor der Maximum-Likelihood-Schätzer von β und l(β) die logarithmierte Likelihood des Modells mit Parametervektor β. Die Diagonalmatrix V enthalte die geschätzten Varianzen pˆ i (1 − pˆ i ) der Einzelbeobachtungen Yi. Für zwei Modelle mit Kovariablen X1,...,Xp und Kovariablen X1,...,Xp, Xp+1,...,Xp+k und Maximum-Likelihood-Schätzungen βˆ 1 und βˆ 2 schreiben wir für die zugehörigen logarithmierten Likelihoods kurz l1 = l β̂ 1 und l 2 = l β̂ 2 . ( ) ( ) 102 P.Martus, Multivariate Statistik, SoSe 2009 Satz 1 Die Zufallsvariable β̂ ist für große Stichproben angenähert normalverteilt. Satz 2 Die Varianzen und Kovarianzen der Komponenten von βˆ sind gegeben durch: (X VX ) −1 t . Satz 3 Der Quotient β − βˆ () Var βˆ ist angenähert standardnormalverteilt. Satz 4 Unter der Nullhypothese, dass das Modell mit Kovariablen X1,...,Xp korrekt ist und die Kovariablen Xp+1,...,Xp+k überflüssig sind, hat die zweifache Differenz der Loglikelihoods 2 • (l 2 − l1 ) angenähert eine Chi-Quadrat-Verteilung mit k Freiheitsgraden. 6.6 Bemerkungen Die Sätze 1-4 stehen in engem Bezug zum multiplen linearen Regressionsmodell: • • Im linearen Regressionsmodell ist β̂ exakt normal verteilt, hier nur angenähert. Im linearen Regressionsmodell ist β − βˆ /SE( βˆ ) exakt t-verteilt, hier angenähert Standard-normalverteilt. • • • Die Matrix (X tVX ) entspricht exakt der Varianzkovarianzmatrix bei der gewichteten Kleinstquadrateschätzung, wenn wir dort die Konstante σ2 mit in die Matrix V ziehen. Die logarithmierten Likelihood Quotienten 2 • (l2 − l1 ) übernehmen hier die Rolle der Zählerquadratsummen des (partiellen) F-Tests. ⎛L ⎞ Der Ausdruck 2 • (l 2 − l1 ) ist nichts anderes als 2 • ln⎜⎜ 2 ⎟⎟ . Um Signifikanz beim ⎝ L1 ⎠ Vergleich zweier Modelle zu erreichen, die sich nur um einen Parameter ⎛L ⎞ unterscheiden, verlangt man also 2 • ln⎜⎜ 2 ⎟⎟ ≥ 3.84 , was bedeutet, dass die Likelihood ⎝ L1 ⎠ des komplexeren Modells etwa 7 mal so groß sein muss, wie die Likelihood des einfachen Modells. Bei 10 Beobachtungen muss pro Beobachtung die Likelihood etwa um 20%, bei 50 Beobachtungen etwa um 4% steigen, um im entsprechenden −1 103 P.Martus, Multivariate Statistik, SoSe 2009 Signifikanztest die Nullhypothese „Das einfachere Modell reicht aus“ widerlegen zu können. Zusammenfassend lässt sich zeigen, dass man im linearen Regressionsmodell mit der Maximum-Likelihood-Methode dieselben Ergebnisse erhält wie mit der KleinstquadrateMethode, wenn man ignoriert, dass σ2 aus den Daten geschätzt wird und so tut, als wäre σ2 bekannt. Insofern ist die Maximum-Likelihood-Methode eine Verallgemeinerung des multiplen linearen Regressionsmodells für große Stichproben. Für kleine Stichproben ist die Anwendung dieser Methode problematisch. 6.7 Anwendung im Beispiel Wir werden die folgenden Modelle untersuchen M0: Modell nur mit Intercept M1a: Modell mit Intercept und Tumortyp M1b: Modell mit Intercept und Gen 1 M1c: Modell mit Intercept und Gen 2 M1d: Modell mit Intercept und Gen 3 M2: Modell mit Intercept, Gen 1 und Gen 2 M3a: Modell mit Intercept, Gen 1 und Gen 2, Tumortyp M3b: Modell mit Intercept, Gen 1, Gen 2 und Gen 3 M4: Modell mit Intercept, Gen1, Gen 2, Gen 3 und Tumortyp Offenbar gelten die folgenden Beziehungen M0 ⊆ M1a, M1b, ..., M4 M1a ⊆ M3a, M4 M1b, M1c ⊆ M2, M3a, M3b, M4 M1d ⊆ M3b, M4 M2 ⊆ M3a, M3b, M4 M3a, M3b ⊆ M4 Für jedes dieser Modelle werden zunächst die Parameterschätzungen bestimmt und nach Satz 3 aus Abschnitt 6.5 die P-Werte angegeben. 104 P.Martus, Multivariate Statistik, SoSe 2009 Dann werden ausgesuchte Modelle mit Hilfe des Chi-Quadrat-Tests aus Satz 4, Abschnitt 6.5 miteinander verglichen. Im Aderhautmelanom-Beispiel ergeben sich die folgenden Parameterschätzungen: Parameter β0 β1 β2 β3 β4 M0 Wert 0.000 --- --- --- --- Standardfehler 0.141 --- --- --- --- 1.0 --- --- --- --- M1a M1b M1c M1d P-Wert Wert zf 1.511 5.423 3.145 2.853 Standardfehler zf 0.304 0.885 0.742 0.744 P-Wert zf <0.001 <0.001 <0.001 <0.001 M2 Wert -24.443 --- 5.697 3.651 --- Standardfehler 3.764 --- 0.947 0.895 --- P-Wert <0.001 --- <0.001 <0.001 --- M3a Wert -24.222 1.312 5.661 3.339 --- Standardfehler 3.937 0.363 1.008 0.926 --- P-Wert <0.001 <0.001 <0.001 <0.001 --- M3b Wert -25.307 --- 5.627 3.517 0.344 Standardfehler 4.440 --- 0.965 0.962 0.912 P-Wert <0.001 --- <0.001 <0.001 0.706 M4 Wert -24.549 1.309 5.634 3.286 0.132 Standardfehler 4.593 0.364 1.026 1.000 0.945 P-Wert <0.001 <0.001 <0.001 0.001 0.889 105 P.Martus, Multivariate Statistik, SoSe 2009 Für die Modelle wurden die Log-Likelihoods und für ausgewählte Modellvergleiche die Teststatistiken χ2 bestimmt, wobei der Intercept in alle Modelle aufgenommen wurde: 2l Vergleich gegen χ2 df -277.26* --- --- --- M1a: Tumortyp -250.700 M0 26.559 1 M1b: Gen 1 -221.386 M0 55.873 1 M1c: Gen 2 -256.676 M0 20.583 1 M1d: Gen 3 -260.329 M0 16.930 1 M2: -201.598 M0 75.661 2 M1c 55.078 1 M1b 19.788 1 M0 89.328 3 M1a 62.769 2 M2 13.667 1 M0 75.803 3 M2 00.142 1 M0 89.348 4 M3a 00.020 1 M3b 13.544 1 M0: nur Intercept Gen 1, Gen 2 M3a: Gen 1, Gen 2, Tumortyp M3b: Gen 1, Gen 2, Gen 3 M4: Gen1, Gen 2, Gen 3, Tumortyp -187.931 -201.456 -187.911 Offenbar ist Modell M3a das den Daten angemessene Modell. Gen 3 ist überflüssig, wenn Gen 1 und Gen 2 im Modell sind. Weil sowohl Satz 3 als auch Satz 4 nur Näherungsaussagen machen, sind die p-Werte der zTests für die Parameter verschieden von den p-Werten der Likelihood Ratio Tests für den Modellvergleich, bei dem die jeweilige Variable als letzte aufgenommen wird. Prinzipiell können wir aber dieselben Effekte bei korrelierten Kovariaten beobachten wie im linearen Modell. * Dieser Wert ist 2•200•ln(0.5), vgl. 6.2 106 P.Martus, Multivariate Statistik, SoSe 2009 6.8 Chance, odds und odds ratio Für gewöhnlich werden Wahrscheinlichkeiten als Brüche oder Prozentwerte im Intervall [0,1] dargestellt. Bei einem Spiel kann z.B. die Gewinnwahrscheinlichkeit 0.5 bzw. 50% betragen. Aus der Alltagssprache kennt man aber auch die Formulierung „Die Gewinnchance ist 50:50“ oder „1:1“. In anderen Situationen kann die Chance 70:30 oder 90:10 betragen. In der Alltagssprache rechnet man die entsprechenden Brüche nicht aus, sagt also nicht, die Chance ist 1 (für 1:1) oder 7/3 (für 70:30). Die entsprechende mathematische Definition lautet: Die einer Wahrscheinlichkeit p zugeordnete Chance ist definiert als der Quotient p . 1− p Im Gegensatz zu Wahrscheinlichkeiten können Chancen beliebige Werte zwischen 0 und +∞ annehmen. Daraus folgt sofort, dass logarithmierte Chancen zwischen -∞ und +∞ liegen, was wir uns bei der logistischen Regression zunutze gemacht haben. Chancen haben den „Vorteil“, dass sie um einen beliebigen Faktor erhöht werden können. Eine Erfolgswahrscheinlichkeit von 25% kann höchstens vervierfacht werden, die zugehörige Chance von 25:75= 0.33 kann dagegen auch verzehnfacht werden: Einer Chance von 10•0.33 = 3.3 ≈ 77:23 entspricht dann eine Wahrscheinlichkeit von etwa 77%. Für sehr kleine p ist die Chance p/(1-p) etwa gleich p, weil 1-p etwa gleich 1 ist. Für p = 0.01 ist die Chance 1:99 ≈ 0.0101. Für sehr große p ist die Chance p/(1-p) ungefähr gleich 1/(1-p) weil p etwa gleich 1 ist. Für p = 0.99 ist die Chance 99:1 = 99 ≈ 1/(1-p) = 1/0.01 = 100. Wenn man zwei Gruppen A und B bzgl. einer Erfolgswahrscheinlichkeit vergleicht, kann man die Differenz pA - pB, den Quotienten pA / pB und das Chancenverhältnis pA 1 − pA pB 1 − pB berechnen. Wenn man sich nun aber für die Wahrscheinlichkeiten für einen Misserfolg interessiert, also für 1-pA und 1-pB, dann erfüllt die Differenz eine „Symmetriebedingung“: (1 − p A ) − (1 − p B ) = −[ p A − p B ] Der Quotient aus pA und pB erfüllt keine derartige Symmetriebedingung. Es gilt i.a. pA / pB ≠ [(1-pA) / (1-pB)]-1. Für das Chancenverhältnis von pA und pB gilt aber offensichtlich: [Chancenverhältnis von pA und pB] = 1 / [Chancenverhältnis von 1-pA und 1-pB]. 107 P.Martus, Multivariate Statistik, SoSe 2009 Dies ist einer von vielen Gründen, warum Chancen und Chancenverhältnisse in der multivariaten Statistik für Häufigkeiten so beliebte Parameter sind. Im Englischen heißt Chance „odds“ und Chancenverhältnis „odds ratio“. Auch in deutschen Texten werden im allgemeinen diese englischen Wörter verwendet. 6.9 Parameterinterpretation Im finalen Aderhautmelanom-Modell ergaben sich die folgenden Parameterschätzungen: β0 β1 β2 β3 β4 -24.222 1.312 5.661 3.339 --- Standardfehler 3.937 0.363 1.008 0.926 --- P-Wert <0.001 <0.001 <0.001 <0.001 --- ≈0 3.713 287.293 28.177 --- Parameter Wert odds ratio* *vgl.6.8 Was bedeuten die genannten Parameter für die Modell-basierte Wahrscheinlichkeit einer Metastase? Im linearen Modell E(Yi) = β0+β1Xi1+β2Xi2+β3Xi3+β4Xi4 führt eine Änderung der Kovariable Xij um 1 zu einer Änderung des Erwartungswertes von Yi um βj. Das bedeutet Y(Xi+1) = Y(Xi) + βj bei festen Werten für die anderen Kovariablen. Beim Weihnachtsgänsebeispiel mit unterschiedlichen Intercepts und identischer Steigung (5.26): Gewicht Gewicht Gewicht = = = -0.49 + 0.49•Alter + ε -0.76 + 0.49•Alter + ε 1.43 + 0.49•Alter + ε Georgia Victoria Wisconsin nehmen die Gänse in allen Bundesstaaten pro Woche um 0.49 Pfund zu. Dies gilt sowohl für die erste als auch für jede andere Woche. Für das logistische Regressionsmodell ln p 1− p = β 0 + β1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 erhöht eine Änderung der Kovariable Xj um 1 den logit ln[p/(1-p)] um βj . Bezeichnen wir die ursprüngliche Wahrscheinlichkeit mit px und die neue mit px+1, so erhalten wir 108 P.Martus, Multivariate Statistik, SoSe 2009 ln p x +1 1 − p x +1 = ln px + βj 1 − px Durch Anwendung der Exponentialfunktion auf beiden Seiten erhalten wir p x +1 1 − p x +1 = px • exp( β j ) 1 − px p x +1 1 − p x +1 px 1 − px = exp( β j ) . bzw. Mit anderen Worten: βj ist die logarithmierte odds ratio für die Wahrscheinlichkeiten bei Änderung der Kovariablen Xj um eine Einheit. In Softwarepaketen wird standardmäßig mit βj auch exp(βj) angegeben, so dass man die odds ratio direkt ablesen kann. Im Beispiel erhalten wir also bei Erhöhung der Genexpression um eine Einheit (Modelle 1b, 1c, 1d) odds ratios von 227 für Gen 1 23 für Gen 2 17 für Gen 3. Diese Gene haben aber Streuungen von 0.25, sodass es realistischer wäre, die odds ratios z.B. für Erhöhung der gemessenen Intensität um 0.1 oder 0.25 zu betrachten: Erhöhung um . 0.1 Einheiten 0.25 Einheiten für Gen 1 1.72 3.88 für Gen 2 1.37 2.19 für Gen 3 1.33 2.03 Patienten mit dem gefährdeten Subtyp haben gegenüber Patienten mit normalem Subtyp eine odds ratio für Metastasen von 4.53. . Der Intercept kann als odds der „Basiswahrscheinlichkeit“ für Metastasen bei Patienten ohne Expression der Risikogene und mit normalem Tumortyp interpretiert werden. Ein intercept von β0 = 0 würde einer Basiswahrscheinlichkeit von 50% entsprechen. ´ 109 P.Martus, Multivariate Statistik, SoSe 2009 6.10 Codierung Eine Änderung der Codierung einer stetigen Variable um einen festen Faktor 1/c ändert den Parameter von β auf cβ und die zugehörige odds ratio von exp(β) auf exp(cβ) = exp(β)c. Allgemein führt eine Verdopplung von β zu einer Quadrierung der odds ratio usw. Bei kategoriellen Variablen muss man genau dieselben Überlegungen anstellen wie im linearen Modell: Man kann dummy-Codierungen mit Referenzkategorien wählen und erhält als intercept die odds der jeweiligen Referenzkategorie. Der Vergleich zwischen den Kategorien ergibt dann odds ratios. Alternative Codierungen führen auf der logit Skala zu denselben Überlegungen wie beim linearen Modell (vgl. 5.25). Auf der odds ratio Skala müssen Quotienten anstelle von Differenzen betrachtet werden. Beispiele siehe Übung. 6.11 Vorbemerkungen zur Modellprüfung In der logistischen Regression ist die Zielgröße Y für jeden Kovariablenvektor binomialverteilt mit Erwartungswert p abhängig vom Kovariatenvektor. Dies hat bzgl. der Varianz von Y zwei Konsequenzen, die im Gegensatz zum linearen Modell stehen: • • Die Varianzen der Einzelbeobachtungen sind verschieden. Der Erwartungswert von Y, p, legt die Varianz von Y, p•(1-p), eindeutig fest. Aus der ersten Konsequenz folgt, dass Kleinst-Quadrate-Schätzungen hier nicht adäquat sind, die logistische Regression also „schwieriger“ als die lineare Regression ist. Aus der zweiten Konsequenz folgt dagegen, dass man σ2 nicht schätzen muss. Das bedeutet insbesondere, dass man überprüfen kann, ob die Abweichung der beobachteten Werte (Yi = 0 oder Y=1) von den im Modell vorhergesagten Werten (pi ∈ ]0,1[) zu groß ist. 6.12 Prüfung der Residuen Wie in der linearen Regression berechnen wir die rohen Residuen, also die Differenzen Yi − Yˆi . Diese Residuen haben für Yi= 1 den Wert 1- p̂i und für Yi = 0 den Wert 0- p̂i = - p̂i . Standardisieren wir diese Residuen bzgl. ihrer geschätzten Varianz pˆ i (1 − pˆ i ) , so erhalten wir resi = Yi − Yˆi = Yˆi • 1 − Yˆi ( ) Yi − pˆ i pˆ i • (1 − pˆ i ) Man sieht durch Einsetzen, dass für 110 P.Martus, Multivariate Statistik, SoSe 2009 pˆ i (1 − pˆ i ) resi = − Yi = 0: und für Yi =1: resi = − (1 − pˆ i ) pˆ i Dies lässt sich folgendermaßen plausibel machen: Wenn Yi = 0 beobachtet wurde, sollte die vom logistischen Regressionsmodell vorhergesagte Chance für einen Erfolg niedrig sein, wenn Yi = 1 beobachtet wurde, sollte die vorhergesagte Chance für einen Misserfolg niedrig sein. Die Residuen sind einfach die Quadratwurzeln dieser Chancen. Man beachte allerdings, dass für p̂i = 0.5 das Residuum immer -1 oder +1 ist. Die Residuenprüfung ist also sinnvoll für Beobachtungen, deren vorhergesagte Wahrscheinlichkeiten nahe bei null oder eins sind. 6.13 Prüfung der Gesamtmodellgüte mit Hilfe des Tests von Hosmer und Lemeshow Aufgrund von Problemen der Asymptotik bei stetigen Kovariablen muss man für die Gesamtmodellprüfung die Daten zunächst kategorisieren. Dabei geht man folgendermaßen vor: 1. Man sortiert die Beobachtungen Yi (i=1,...,n) nach den vom Modell vorhergesagten Wahrscheinlichkeiten p̂i = Yˆi . 2. Man legt eine Zahl G von Klassen fest (üblicherweise G = 10). 3. Man fasst die 10% kleinsten Werte pi zur Klasse K1 zusammen, die nächst größeren zur Klasse K2 usw. bis man die größten 10% Werte zur Klasse K10 zusammengefasst hat. 4. Man bestimmt für jede Klasse Kg (g=1,...,G) die Anzahl von Beobachtungen ng ≈ n/G, die Zahl der beobachteten Treffer obs g = ∑i∈K Yi und die beobachtete Durchschnittsg wahrscheinlichkeit der Klasse g, πg = obsg/ng. 5. Man bestimmt für jede Klasse Kg (g=1,...,G) durch Aufsummieren der p̂i die erwartete Zahl von „Treffern“ expg = ∑i∈K pˆ i . g 6. Man setzt in die übliche Chi-Quadrat-Test Formel ein: χ = ∑g =1 2 G (obs − exp g ) 2 g Varg mit Varg = n g • π g • (1 − π g ) 111 P.Martus, Multivariate Statistik, SoSe 2009 Wenn das Modell korrekt ist, ist χ2 tatsächlich Chi-Quadrat verteilt mit G-2 Freiheitsgraden. Man muss also den kritischen Wert der entsprechenden Verteilung mit dem aus der Stichprobe berechneten Wert vergleichen. Wie für alle „Goodness of Fit Tests“ trifft auch für diesen Test die Kritik zu, dass man mit der Absicht testet, die Nullhypothese beizubehalten. Man sollte deswegen auch immer „naiv“ die Differenzen obsg - expg und πg - expg/ng beurteilen. 6.14 Die Maximum-Likelihood-Methode im allgemeinen Fall Es sei (Ω ,P) ein p-dimensionaler parametrischer statistischer Raum mit Ω ⊆ Rn und P = {Pβ | β ∈ Β ⊆ Rp}. Dann heißt für festes x ∈ Ω die Funktion Lx : Β → [0,1], Lx ( β ) = Pβ ( x) Likelihoodfunktion für x. Der Verweis auf x wird meistens weggelassen, wenn keine Missverständnisse möglich sind. Mit l bezeichnet man den (natürlichen) Logarithmus ln(L) der Likelihoodfunktion L und nennt l die Log-Likelihood. Falls er eindeutig bestimmt ist, bezeichnet man den Parameterwert β̂ , der l (oder äquivalent L) maximiert, als Maximum-Likelihoodschätzung. 6.15 Eigenschaften der Maximum-Likelihood Schätzung und Informationsmatrix Für zweimal differerenzierbares l bzw. L findet man βˆ mittels Kurvendiskussion durch Nullsetzen der Ableitung von l nach β also i.a. () ∂l ˆ β ∂β = 0 und () ∂ 2l ˆ β ∂β 2 < 0. Diese Formeln gelten nicht, wenn βˆ ein Randpunkt des Parameterbereichs B ist. Die zweite Ableitung der Log-Likelihood hat noch eine weitere wichtige Eigenschaft: Je stärker für ein bestimmtes x die Krümmung von l an der Stelle des Maximums ist, desto „unwahrscheinlicher“ wird x für Parameterwerte β, die in der Nähe von βˆ liegen. Dies bedeutet aber statistisch gesehen, dass eine starke Krümmung von L, also ein (absolut) gesehen großer Wert von ∂ 2l ˆ ∂β 2 (β ) 112 P.Martus, Multivariate Statistik, SoSe 2009 dazu führt, dass das Konfidenzintervall für βˆ klein ist. Das wiederum bedeutet, dass die Varianz und damit der Standardfehler von βˆ klein sind. Für den p-dimensionalen Parameterwert β bezeichnet man die p•p-Matrix ⎛ ∂ 2l ⎞ ⎜⎜ − 2 (β )⎟⎟ ⎝ ∂β ⎠ deswegen auch als Informationsmatrix oder Fisher-Information I(β). 6.16 Asymptotische Verteilung des Maximum-Likelihood Schätzers - Hauptsatz Unter bestimmten Annahmen gilt der folgende zentrale Satz (vgl. 6.5): Es bezeichne β den wahren Parametervektor und βˆ den Maximum Likelihood-Schätzer in einem korrekt spezifizierten statistischen Modell. Dann ist βˆ asymptotisch normalverteilt mit Varianz-Kovarianzmatrix 1 • I ( β ) −1 n Äquivalent dazu ist die Formulierung: Es sei βˆn eine Folge von Maximum-Likelihood-Schätzern aus Stichproben des Umfangs n. Dann gilt ( n βˆn − β ) ( →∞ ⎯n⎯ ⎯→ N 0, I ( β ) −1 ) Satz und Beweis für die iid-Situation finden Sie im Buch von Lehmann (Lehmann EL, Elements of Large Sample Theory, Springer 1999, Theorem 7.3.1, Seite 469) Die folgenden Abschnitte sind sehr theoretisch, kein Prüfungsstoff und werden hier nur als „Service“ dargestellt. 6.17 Voraussetzungen für 6.16, einfachster Fall Die Voraussetzungen für Satz 6.16 sind technischer Natur und in den meisten Anwendungen erfüllt. Eine Ausnahme stellen sog. Mischverteilungen dar, die hier nicht behandelt werden. Die Voraussetzungen werden hier zunächst für eindimensionale Parameter und identisch verteilte Zufallsvariablen X1,..., Xn angegeben. Es sei (Ω ,P) ein 1-dimensionaler parametrischer statistischer Raum mit P = {Pβ | β ∈ Β ⊆ R}. Es gelte 113 P.Martus, Multivariate Statistik, SoSe 2009 A1 Für β1 ≠ β2 gilt Pβ1 ≠ Pβ2. A2 Der Parameterraum Β ist eine offene Teilmenge des Rp. A3 Die Beobachtungen X1,...,Xn sind unabhängig und identisch verteilt (iid) nach Pβ. Die Dichte Pβ ist entweder diskret oder stetig (aber nicht gemischt). A4 Wenn für ein x1 und ein β1 die Wahrscheinlichkeit bzw. Dichtefunktion positiv ist, dann ist für dieses x1 und beliebiges β∈ Β diese Funktion positiv. A5/6 Die Likelihoodfunktion L ist für alle x dreimal stetig nach β differenzierbar. Für alle drei Ableitungen dürfen Integration der Dichte und Differentiation nach β vertauscht weden. Es existiert eine Schranke c(β) und eine von β abhängige Funktion x a Mβ, so dass der Erwartungswert Eβ (Mβ) < ∞ ist und die dritte Ableitung der Loglikelihood l für alle x und für jedes β’ mit |β’-β| < c (β) durch Mβ(x) beschränkt ist. A7 Für eindimensionale Parameter ist auch die folgende Voraussetzung unproblematisch: B1 Die Likelihoodfunktion hat für alle Parameter β ein eindeutiges Maximum. Diese Voraussetzungen können im Buch von Lehmann (s.o.) nachgelesen werden. Mit den obigen Voraussetzungen decken wir nicht einmal den Fall der einfachen linearen Regression, geschweige denn die multiple oder logistische Regression ab. In den folgenden Abschnitten werden wir eine Familie von Wahrscheinlichkeitsverteilungen und eine Familie von statistischen Modellen definieren, die lineare und logistische Regression umfassen. Dann werden wir die Voraussetzungen für den Satz 6.16 in dieser Modellfamilie formulieren. 6.18 Exponentialfamilien Eine mit Parameter β parametrisierte Familie von Wahrscheinlichkeitsverteilungen heißt Exponentialfamilie, wenn sich jede Verteilung durch eine Dichtefunktion der Form f ( y; β ) = f 1 ( y ) • f 2 ( β ) • f 3 ( y; β ) mit festen und bekannten Funktionen f1, f2, f3 darstellen lässt und die Funktion f3 die (einfache) Form e a ( y )•b ( β ) mit bekannten Funktionen a(y) und b(β) hat. In vielen Fällen gilt sogar a(y) = y und man kann dann einfach statt β den Parameter b(β) wählen, sodass dann ln ( f 3 ) = y • β 114 P.Martus, Multivariate Statistik, SoSe 2009 gilt. 6.19 Beispiele für Exponentialfamilien Die meisten gängigen Verteilungen gehören zu Exponentialfamilien: • • • • Binomialverteilung Normalverteilung Poissonverteilung Gammaverteilung Mit Ausnahme der Normalverteilung ist die Varianz für die genannten Verteilungen durch eine Varianzfunktion und einen Dispersionsparameter Φ (z.B. Fallzahl n) mit dem Erwartungswert verknüpft. Es gilt dann σ2 = Φ*f(μ). Für die Binomialverteilung mit Parameter p ist f z.B. gleich p•(1-p), für die Poissonverteilung mit Parameter α ist f gleich der Identität (σ2 = α = μ) und für die Normalverteilung setzt man f = 1 und erklärt die vom Erwartungswert unabhängige Varianz durch σ2 = Φ. Keine Exponentialfamilie stellen z.B. die Gleichverteilungen auf [-β,+β] dar. 6.20 Das Verallgemeinerte Lineare Modell Es bezeichne wie im linearen Modell Y eine Zielgröße, X1,...,Xp Kovariablen und β1,..., βp reellwertige Parameter. Wir sprechen von einem Verallgemeinerten Linearen Modell, wenn die Verteilungen der Zielgröße Y aus einer festen Exponentialfamilie stammen und jeweils der Erwartungswert von Y mit dem linearen Prädiktor ηi = β0+β1Xi1+β2Xi2+...+βnXip durch eine sogenannte Linkfunktion g verknüpft ist. Es muss also gelten g[E(Y)] = η . Eine verständliche Einführung in Verallgemeinerte Lineare Modelle finden Sie z.B. im Buch von Annette J. Dobson (Dobson AJ, An introduction to generalized linear models, 1.ed. Chapman & Hall, 1990). 6.21 Voraussetzungen für 6.16, allgemeiner Fall 115 P.Martus, Multivariate Statistik, SoSe 2009 Wegen der Einschränkung A3 (iid) konnten wir den Satz 6.16 noch nicht auf „Modelle“ (multiple lineare Regression, logistische Regression) anwenden, bei denen ja die Verteilungen Pβ noch von den Kovariablen X abhängen. Bis auf A3 sind im verallgemeinerten linearen Modell sind die Voraussetzungen A1-A7 und B1 erfüllt. Zusätzlich müssen noch die folgenden Voraussetzungen erfüllt sein, damit Satz 6.16 weiterhin gültig ist: C1 Die Dispersionsparameter Φi sind für die Stichproben Xi nach oben und unten beschränkt. C2 Die zulässige Parametermenge Β ist eine offene Teilmenge des Rp. C3 die Kovariablenwerte X müssen für wachsenden Stichprobenumfang beschränkt bleiben (vereinfacht ausgedrückt). C4 Die Kovariablenmatrix darf für wachsendes n nicht asymptotisch abhängige Spalten haben. C5 Die Ableitung der Funktion, die den Erwartungswert mit dem linearen Term Xβ verknüpft (im Beispiel: ln[p/(1-p)]) muss beschränkt bleiben. Diese Bedingungen bedeuten einfach, dass man bei Standardanwendungen • • auf Ausreißer achten muss auf Multikollinearität achten muss und dass man für ausgefallenere Anwendungen mit speziellen Wahrscheinlichkeitsmodellen • nicht ad hoc Übertragungen der Maximum-Likelihood Methode verwenden darf. Eine exakte Formulierung der Voraussetzungen und einen Beweis für 6.16 finden Sie im Buch von Shao (Shao J, Mathematical Statistics, 1.ed. Springer 1999, Theorem 4.18 und Abschnitt 4.4.2). 116 P.Martus, Multivariate Statistik, SoSe 2009 Teil 7 Nichtlineare Regression 7.1 Vorbemerkung Wir haben in Teil 6 eine Verallgemeinerung des linearen Modells kennengelernt, bei der die Linearität nur in einem „Schritt“, nämlich der Verknüpfung des Erwartungswerts einer Zufallsgröße mit dem „üblichen“ linearen Prädiktor durch die Linkfunktion, verletzt war. Die große Flexibilität des Verallgemeinerten Linearen Modells ergab sich durch die Vielfalt der Wahrscheinlichkeitsverteilungen in Exponentialfamilien. Die in Teil 7 behandelten Modelle sind dagegen „echt nichtlinear“, wie wir an den folgenden Beispielen sehen werden, insofern also flexibler als die Verallgemeinerten Linearen Modelle. Allerdings gehen wir jetzt wieder von normalverteilten Fehlern, die mit den wahren Werten additiv verknüpft sind, aus. In Bezug auf die möglichen Wahrscheinlichkeitsverteilungen sind die Verallgemeinerten Linearen Modelle also der flexiblere Ansatz. Der große Vorteil der nichtlinearen Modelle ist, dass man Informationen über die physiologischen Mechanismen direkt in die statistische Modellierung eingehen lassen kann. Die Darstellung dieses Teils der Vorlesung orientiert sich an dem bekannten Buch von Draper und Smith sowie an dem Buch Nonlinear Regression analysis and its applications von Douglas M Bates und Donald G Watts (Wiley 1988). 7.2 Beispiel einer deterministischen nichtlinearen Beziehung Das Michaelis Menten Modell der Enzymkinetik beschreibt die initiale Geschwindigkeit v einer Enzymreaktion als Funktion der Substratkonzentration x in Abhängigkeit eines zweidimensionalen Parametervektors θ1, θ2: v = f ( x ,θ ) = f ( x ,θ 1 ,θ 2 ) = θ1 x θ2 + x . Offenbar wächst für θ1, θ2 > 0 die Geschwindigkeit mit steigender Substratkonzentration, wird aber einen bestimmten Wert nicht übersteigen. Genauer gesagt bezeichnet θ1 die Maximalgeschwindigkeit, die erreicht wird, wenn die Konzentration x gegen unendlich geht, und θ2 denjenigen Konzentrationswert, bei dem die halbe Maximalgeschwindigkeit θ1 erreicht wird, wie man durch Einsetzen in die Funktion f leicht überprüft. 117 P.Martus, Multivariate Statistik, SoSe 2009 7.3 Das Puromycin Experiment (nach Bates DM, Watts DG 1988) Aus einem Experiment zur Enzymkinetik von Puromycin sollen die Parameter θ1, θ2 geschätzt werden. Substrat Konzentration [ppm] Geschwindigkeit [counts/min2] 0.02 0.06 0.11 0.22 0.56 1.10 76 47 97 107 123 139 159 152 191 201 207 200 Die folgende Grafik zeigt die Rohdaten. 7.4 Parameterschätzung in der nichtlinearen Regression Die Parameterschätzung erfolgt durch Minimierung der Fehlerquadratsumme ∑ (Y n i =1 i ) 2 − Yˆi . Dies erfolgt wie im linearen Modell durch Nullsetzen der ersten Ableitung dieser Summe: ∑ n i =1 (Y − Yˆ ) θ ∂ 2 i i ( ) θ( ) ∂ n = −∑i =1 2 Yi − Yˆi • Yˆi . Wie man leicht sieht, sind die beiden partiellen Ableitungen von f(x, θ1, θ2) nach θ1 und θ2 gleich x θ2 + x bzw. − θ1 x (θ 2 + x )2 . Im Gegensatz zum linearen Modell treten hier die Parameter θ1 und θ2 nicht nur in Yˆ sondern auch in den partiellen Ableitung von f nach θ1 und θ2 auf. Dies ist der Grund, warum iterative Verfahren angewendet werden müssen. 118 P.Martus, Multivariate Statistik, SoSe 2009 Genauer gesagt gilt folgendes: In ( ) ( ) ∂ ˆ ∂ ˆ Yi taucht der Term θ1 nicht auf, allerdings der Term θ2. In Yi tauchen beide Terme θ1 θ2 θ1 und θ2 auf. Das bedeutet, man könnte zwar bei bekanntem θ2 den Parameter θ1 wie im linearen Modell schätzen (θ1 ist konditional linear), bei bekanntem θ1 aber nicht den Parameter θ2. Wenn in ( ) ∂ ˆ Yi der Parameter θ2 nicht vorkäme, müsste man zwar auch iterative Verfahren θ2 anwenden, diese wären aber in jedem Einzelschritt linear, wenn man immer abwechselnd die Schätzung von θ1 und von θ2 in Abhängigkeit des jeweils anderen Parameters aktualisieren würde. Da aber nicht einmal dies erfüllt ist, müssen nicht nur iterative Verfahren verwendet werden, sondern auch für jede Iteration nichtlineare Probleme gelöst werden. Für alle iterativen Verfahren müssen Startwerte der Parameterschätzung vorgegeben werden. Die Qualität der Ergebnisse kann deutlich von diesen Startwerten abhängen, weil es mehrfache lokale Minima der Fehlerquadratsumme geben kann, die abhängig vom Startwert durch iterative Algorithmen angenähert werden. Wir werden für das Puromycin-Experiment sehen, wie ungeschickte Startwerte zu falschen Ergebnissen führen können. Bevor wir einen einfachen Algorithmen beschreiben präsentieren wir die Ergebnisse des Beispiels. 7.5 Fortsetzung des Beispiels Man erhält θˆ1 = 212.68, θˆ2 = 0.0641 und die „konkurrierenden“ Quadratsummenzerlegung Modell nur mit Intercept Gesamt Intercept Korrigiert 271409 240550 30859 Modell ohne Intercept mit Parametern θˆ1 und θˆ2 Gesamt Regression Residuen 271409 270213 1195 „Korrigiertes Modell“ „deswegen“ Gesamt Residuen 30859 1195 Regression 29664 119 P.Martus, Multivariate Statistik, SoSe 2009 Die entsprechende Modellgleichung lautet v = 212.68 • x 0.0641 + x Die folgende Grafik zeigt, dass sich das Modell offenbar nicht in einem lokalen Minimum „verloren“ hat. Die Krümmung nahe bei Null ist ein Artefakt der Grafik, nicht der Lösung. 7.6 Abhängigkeit vom Startwert. Für das Modell in 7.5 wurden die Startwerte 200 und 0.05 gewählt, also Näherungen für die aus der Grafik in 7.3 ablesbare „Sättigungsgeschwindigkeit“ 200 und eine grobe Vermutung für die Konzentration, die zur halben Sättigungsgeschwindigkeit führt, also zur Sättigungsgeschwindigkeit 0.05. Führt man dieselben Berechnungen für ungeschickte Starwerte, z.B. θˆ10 = θˆ20 = 0.01 durch, erhält man nach 53 Iterationen völlig unsinnige Ergebnisse: θˆ1 = 25.95, θˆ2 = -0.4895 Die entsprechende Grafik sähe folgendermaßen aus: 120 P.Martus, Multivariate Statistik, SoSe 2009 Offenbar wurde bei diesem lokalen Minimum der Fehlerquadratsumme die Geschwindigkeit für x = 0.60 gut angenähert und der entsprechende Parameterwert stellt zumindest numerisch ein lokales Minimum der Abweichungsquadratsumme dar. 7.7 Linearisierung Bei manchen nichtlinearen Modellen ist es möglich, durch Transformation der Messgrößen und der Parameter ein bzgl. des deterministischen Teils äquivalentes lineares Modell zu finden. Wenn man im Michaelis Menten Modell v = θ1 x θ2 + x die inversen Geschwindigkeiten 1/v betrachtet, gelangt man zur Gleichung 1 v = θ2 + x θ1 x = 1 θ1 + θ2 1 , θ1 x die man mit y =1/v, u = 1/x, 1/θ1 = β0 und θ2/θ1 = β1 als lineares Modell E(y) = β0 + β1u darstellen kann. Man kann für dieses Modell die Parameter β0 und β1 schätzen und dann durch die Rücktransformation θ1 = 1/β0 und θ2 = β1θ1 = β1/β0 auch die eigentlich interessanten Parameter erhalten. 121 P.Martus, Multivariate Statistik, SoSe 2009 Die folgende Grafik zeigt das linearisierte Modell mit 1/v und 1/x: Es fällt auf, dass zwar ein deutlicher linearer Zusammenhang besteht, dass aber die Varianzen offensichtlich ungleich sind. Die Regressionsgleichung für das linearisierte Modell lautet: 1/v = 0.0051072 + 0.0002472•1/c Die retransformierten Parameter lauten entsprechend θ1 = 195.81 und θ2 =0.0484 sodass die geschätzte Gleichung auf der ursprünglichen Skala lautet v = 195.81 • x . 0.0484 + x 7.8 Zur Problematik der Linearisierung bei stochastischen Modellen Wir betrachten die Michaelis Menten Gleichung mit einem stochastischen Fehlerterm: v = θ1 x θ2 + x +ε ε ~ N (0,σ 2 ) mit zu schätzendem σ2, das für alle Beobachtungen als konstant angenommen wird. Es ist leicht zu sehen, dass im linearisierten Modell 1 v = 1 θ1 + θ2 1 + ε' θ1 x 122 P.Martus, Multivariate Statistik, SoSe 2009 die Annahme ε ' ~ N (0,σ ' 2 ) , also normalverteilte Fehler mit einer anderen, aber ebenfalls konstanten Varianz, unrealistisch ist. Dies ist keineswegs nur eine theoretische Überlegung, wie die Grafik im vorangegangenen Abschnitt 7.7 gezeigt hat. Die Konsequenz für das zurücktransformierte Modell zeigt die folgende Grafik. Diese offensichtliche Abweichung des Modells von den tatsächlichen Daten erkennt man übrigens nicht, wenn man einfach die von beiden Modellen vorhergesagten Werte vergleicht: Hier steht auf der x-Achse der aus dem linearisierten Modell und auf der y-Achse der aus dem ursprünglichen Modell vorhergesagte Wert für v. Die Abweichung von der Geraden ist minimal, dennoch ist das nichtlineare Modell den Daten eindeutig angemessener. 123 P.Martus, Multivariate Statistik, SoSe 2009 7.9 Die Alternative „Gewichtete Kleinstquadratschätzung“ Die Linearisierung des Modells führte zur offensichtlichen Varianzenungleichheit. Diese kann jedoch, wie wir aus Teil 5 wissen, durch eine gewichtete Kleinstquadrateschätzung berücksichtigt werden. Bezeichnet man für die fünf untersuchten Konzentrationen i=1,...,5 die beiden Einzelmessungen mit Yi1 und Yi2 und den Mittelwert mit Y i , dann erhält man als Schätzung für die Varianz von Yi den Term 2 2 2 Y +Y ⎞ ⎛ Y +Y ⎞ 2 1 ⎛ ⎛Y −Y ⎞ ⎛Y −Y ⎞ ∑ (Yij − Y i ) 2 = ⎜⎝Yi1 − i1 2 i 2 ⎟⎠ + ⎜⎝Yi 2 − i1 2 i 2 ⎟⎠ = ⎜⎝ i1 2 i 2 ⎟⎠ + ⎜⎝ i 2 2 i1 ⎟⎠ 2 − 1 j =1 = 2 1 (Yi1 − Yi 2 )2 . 2 Man kann also die Absolutdifferenzen als empirische Gewichte Var verwenden. Dies führt dann zur Parameterschätzung θ1 = 215.78 und θ2 =0.0725: Die folgende Grafik zeigt die Anpassung der Punkte durch diese Funktion. Sie liegt auf jeden Fall deutlich näher am wahren Wert aus der nichtlinearen Regression als die Anpassung aus der ungewichteten Linearisierung 7.7: 124 P.Martus, Multivariate Statistik, SoSe 2009 7.10 Signifikanzprüfung Es liegt nahe, aufgrund der Annahme normalverteilter Fehlerterme auch in der nichtlinearen Regression für den Vergleich von Teilmodellen F-Tests und für die Prüfung von Einzelparametern t-Tests zu verwenden. Die entsprechenden Formeln wären dann F SSQ ( Modell ) / ( p ) RSSQ / (n − p ) = und t= θˆ SE (θˆ) () SE θˆ mit = Kommentar [KF1]: Seite: 122 V jjσ 2 wobei n die Zahl der Beobachtungen, p die Zahl der Parameter, V jj das zu Θj gehörige Diagonalelement der Matrix ⎡⎛ ∂f ( X , θ ) ⎞ t ⎛ ∂f ( X , θ ) ⎞⎤ i i ⎟⎜ ⎟⎥ ⎢⎜ ⎢⎜⎝ ∂θ j ⎟⎠ ⎜⎝ ∂θ j ⎟⎠⎥ ⎣ ⎦ −1 bezeichnet und man σ 2 durch die Schätzung σˆ 2 = RSSQ n− p ersetzen darf. Allerdings kann man zeigen, dass diese Formeln nur approximativ gelten und von einer linearen Näherung in der Nähe des wahren Parameters ausgehen. Insbesondere bei kleinen Stichproben, schwachen Effekten oder fehlspezifizierten Modellen können die Ergebnisse schlichtweg falsch sein. 7.11 Fortsetzung des Beispiels Wir erhalten im Beispiel die folgenden Ergebnisse. ( ) θˆ1 = 212.68, SE θˆ1 = 6.95, t > 30; ( ) θˆ2 = 0.0641, SE θˆ2 = 0.0082, t > 7 und F = [270213/2]/[1195/10] > 500. Die entsprechenden Signifikanztests (gegen Parameterwerte 0) sind natürlich hochsignifikant, von größerem Interesse sind aber die beiden 95% Konfidenzintervalle θˆ1 ∈ [197.2 , 228.2]; θˆ2 ∈ [0.0457 , 0.0826] . Bates und Watts zeigen, dass diese Ergebnisse glaubwürdig sind. Im allgemeinen sollte man jedoch den Hinweis aus 7.10 immer berücksichtigen und z.B. die Ergebniskurven für die Grenzen der Konfidenzintervalle plotten. 125 P.Martus, Multivariate Statistik, SoSe 2009 7.12 Zur numerischen Lösung des Schätzproblems der nichtlinearen Regression In der Literatur werden verschiedene Verfahren für die Kleinstquadrateschätzung in der nichtlinearen Regression beschrieben, die alle darauf beruhen, die Fehlerquadratsumme ∑ (Y n i =1 i − Yˆi ) 2 zu minimieren. Wir werden hier das einfachste Verfahren, die Linearisierung, darstellen. Weitere Verfahren, z.B. das bereits erwähnte Newton-Raphson Verfahren, die Methoden des steilsten Abstiegs („steepest descent“) und eine Verbindung aus dem Verfahren der Linearisierung und des steilsten Abstiegs, der „Kompromiss von Marquardt“ (Marquardt’s Compromise) sind in den genannten Büchern von Draper und Smith und von Bates und Watts nachzulesen. 7.13 Linearisierung Wir gehen davon aus, dass wir im Linearen Modell Y = Xβ + ε für eine Stichprobe Y0 die Kleinstquadrateschätzung β0 bereits kennen. Nun stellen wir fest, dass zwar die Kovariablenwerte X korrekt gemessen wurden, aber die Stichprobe Y0 korrigiert werden muss. Die tatsächliche Stichprobe möge nun Y sein. Die Differenzenstichprobe ist also Y - Y0. Uns interessiert nun, wie sich β0 ändert, wenn wir die korrekte Stichprobe Y anstelle von Y0 für eine Kleinstquadrateschätzung zugrundelegen. Ganz allgemein gilt ja für beliebiges β Xβ = Xβ0 + X(β-β0). Insbesondere erhält man für die Kleinstquadrateschätzung X β̂ = Xβ0 + X( β̂ -β0) Mit Y = X βˆ +ε erhält man aus der vorangegangenen Gleichung (Y − Y ) = X βˆ +ε - Xβ0 = X( βˆ -β0) + ε 0 und dieses Regressionsproblem ist bekanntlicherweise durch ( β̂ -β0) = (X t X ) X t (Y − Y 0 ) −1 lösbar. Mit anderen Worten: Anstatt direkt β̂ durch X und Y zu schätzen kann man ( β̂ -β0) durch Y-Y0 und X schätzen. 126 P.Martus, Multivariate Statistik, SoSe 2009 Diese scheinbar umständliche Lösung hätte dann einen Sinn, wenn die Linearität des ursprünglichen Regressionsproblems Y = Xβ nicht global für alle β, sondern nur in der „Nähe“ von β0 gelten würde und β0 bereits nahe bei β̂ läge. Dies beschreibt aber genau die Situation, in der man eine nichtlineare Funktion lokal durch eine lineare Funktion annähert. Die lineare Annäherung erfolgt über die Taylorreihe. Das Vorgehen wird im Folgenden beschrieben: Wir gehen aus von einer Stichprobe Yi (i=1,...,n), gegebenen Kovariablen (X1, ..., Xp), einem zu schätzenden Parametervektor θ = (θ1, θ2,..., θp) und einer in θ nichtlinearen Funktion bekannter Gestalt y = f ( x ,θ ) mit unbekanntem θ sowie einem „günstigen“ Startwert θ 0 = (θ10 ,θ 20 ,...,θ p0 ) für den unbekannten Parametervektor θ. Unser Ziel ist es, durch ein lineares Modell die Änderung des Parameters θ 0 zum Parameterwert θ zu schätzen. Deswegen bezeichnen wir ganz bewusst die Differenzen von beliebigen Parameterwerten θ und dem Startwert θ 0 mit β und wollen dann das optimale β schätzen. Wir definieren also β 0j := θ j − θ 0j ( j = 1,K, p ) . Wenn man nun die Funktion f (Kovariablenwerte X fest, Parameter θ variabel) in der Nähe des Startwerts θ 0 für jede Beobachtung i (i=1,...,n) einzeln durch eine Taylorreihe erster Ordnung (nur bis zum linearen Glied) angenähert, erhält man: p ⎡ ∂f ( X i ,θ ) ⎤ • θ j − θ 0j f ( X i ,θ ) ≈ f ( X i ,θ 0 ) + ∑ j =1 ⎢ ⎥ θ ∂ j ⎦⎥θ =θ 0 ⎣⎢ ( ) Mit Yi = f ( X i ,θ ) + ε i erhält man analog zu den vorangegangenen Argumenten p ⎡ ∂f ( X i ,θ ) ⎤ Yi − f ( X i ,θ 0 ) = f ( X i ,θ 0 ) + ∑ j =1 ⎢ • (θ j − θ 0j ) − f ( X i ,θ 0 ) + ε i ⎥ θ ∂ j ⎦⎥θ =θ 0 ⎣⎢ p ⎡ ∂f ( X i ,θ ) ⎤ • (θ j − θ 0j ) + ε i . = ∑ j =1 ⎢ ⎥ ⎢⎣ ∂θ j ⎥⎦θ =θ 0 Im linearen Modell war die Kovariablenmatrix X gerade die Matrix der Ableitungen der Regressionsfunktion nach den Parameterwerten. Diese Ableitungsmatrix war unabhängig vom gewählten Parameterwert. Beides trifft jetzt nicht mehr zu, wir verwenden aber trotzdem ganz analog zum linearen Modell die Ableitungsmatrix 127 P.Martus, Multivariate Statistik, SoSe 2009 ⎛ ∂f ( X i ,θ ) ⎞ ⎜ ⎟ ⎜ ∂θ ⎟ j ⎝ ⎠ i =1,...,n ; j =1,..., p als Koeffizientenmatrix für das lokal linearisierte Problem. 7.14 Regeln zur nichtlinearen Analyse • • • • • In nichtlinearen Modellen sollte bereits vor der Datenanalyse das Modell feststehen. „Explorative“ nichtlineare Analyse nur mit Lern-, (evtl. Test-) und Validierungsstichprobe! In vielen nichtlinearen Modellen verschwindet die spezielle Rolle des Intercepts, die wir aus linearen und verallgemeinerten linearen Modellen kennen. Signifikanztests in nichtlinearen Modellen sind problematisch, je „nichtlinearer“ das Modell ist. Eine Diskussion der Problematik findet sich im Buch von Bates und Watts, Kapitel 7. Separate Entscheidungen über einzelne Parameter (Tests, Konfidenzintervalle) sind doppelt gefährlich, weil oft die Änderung eines Parameters die Änderungen anderer Parameter nach sich zieht. Man sollte daher eher Konfidenzellipsoide für den Gesamtparametervektor betrachten. Im Allgemeinen steht bei nichtlinearen Modellen die Schätzung der Parameter im Vordergrund, nicht der Signifikanztest. Insofern kann man die nichtlineare Regression als relativ „unstochastisches“ Verfahren auffassen und als reines Approximationsproblem interpretieren. Dennoch benötigt man die stochastische Denkweise, wenn man auf Basis der Modellierung Entscheidungen treffen will. 128 P.Martus, Multivariate Statistik, SoSe 2009 Teil 8 Hauptkomponenten- und Faktoranalyse 8.1 Einordnung in den bisherigen Stoff der Vorlesung In den bisherigen Teilen der Vorlesung haben wir uns mit der Situation beschäftigt, dass eine Zielgröße Y durch eine Funktion der Kovariablen X1, X2, ..., Xp erklärt werden sollte. Die Zielgröße Y war • • • normalverteilt mit gleicher Varianz normalverteilt mit ungleicher Varianz aus Exponentialfamilie und die genaue Gestalt der Funktion • • • linear linear mit Linkfunktion nichtlinear legte die entsprechende Modellklasse • • • • Lineares Modell mit Kleinstquadrate Methode Lineares Modell mit gewichteter Kleinstquadrate Methode Verallgemeinertes lineares Modell mit Maximum-Likelihood Methode Nichtlineares Modell mit Kleinstquadrate Methode fest. In den in Teil 8 behandelten Modellen haben wir es mit einer Gruppe „gleichberechtigter“ Variablen Y1, Y2, ..., Yp zu tun. Die Unterscheidung zwischen Prädiktoren X und Zielgrößen Y fällt weg. Auch werden diese Zielgrößen nur in einer Stichprobe untersucht. Die Variablen Y1, Y2, ..., Yp sind i.a. moderat bis hoch korreliert und das Ziel der Analyse besteht darin, die in Y1, Y2, ..., Yp enthaltene Information auf wesentliche Komponenten zurückzuführen. 129 P.Martus, Multivariate Statistik, SoSe 2009 8.2 Einführung Im bereits genannten Beispiel zum Aderhautmelanom betrachten wir die Gesamtgruppe der Patienten und ignorieren die Information über das Auftreten von Metastasen. Unser Ziel ist es, für Patienten mit Aderhautmelanom die Expression einer Gruppe von 8 Genen zu studieren, die mit dem Schweregrad des Aderhautmelanoms in Verbindung stehen könnten. Die Untersuchung soll sich auf die Patientengruppe beschränken, Vergleiche mit einer Kontrollgruppe sind hier nicht von Interesse. Ziel ist es, die Daten der 8 Gene in einer einzigen Variablen zusammenzufassen. Wir interessieren uns aber nicht für den mittleren Expressionslevel der Gene, dieser wäre bei Gruppenvergleichen wichtig (vgl. Teil 9 Diskriminanzanalyse). Vielmehr soll die Zusammenfassung einerseits dazu führen Patienten möglichst gut zu differenzieren und andererseits die in den acht Einzelgenen enthaltene Information möglichst gut wiederzuspiegeln. Die Zusammenfassung soll durch eine lineare Funktion erfolgen. Wir werden also Funktionen H (Y1 ,Y2 ,..., Y8 ) = γ 1Y1 + γ 2Y2 + ... + γ 8Y8 untersuchen. Da uns das mittlere Expressionlevel nicht interessiert, arbeiten wir mit zentrierten Variablen, d.h. Y j = 0 (j = 1,...,8) und nehmen keine Konstante γ0 in das Modell auf. 8.3 Berechnungen im Beispiel I Wir können die Mittelwerte (identisch Null) ignorieren und untersuchen zunächst die Varianzen und Standardabweichungen der einzelnen Genexpressionslevel. Deskriptive Statistik N gen_1 gen_2 gen_3 gen_4 gen_5 gen_6 gen_7 gen_8 Gültige Werte (Listenweise) 200 200 200 200 200 200 200 200 Standarda bweichung ,88934 ,71112 ,64802 ,89305 ,91339 ,86110 ,86325 ,82108 Varianz ,791 ,506 ,420 ,798 ,834 ,741 ,745 ,674 200 Das erste Ziel der Zusammenfassung der Genexpressionen war es, eine möglichst gute Differenzierung der Patienten zu erreichen. Ein Maß hierfür wäre die Varianz von H (Y1 ,Y2 ,..., Y8 ) = γ 1Y1 + γ 2Y2 + ... + γ 8Y8 . 130 P.Martus, Multivariate Statistik, SoSe 2009 Die Varianz der Funktion H hängt natürlich von der Größe der Koeffizienten γj (j=1,...,8) ab. Wenn man z.B. alle Koeffizienten mit der Konstanten 2 multipliziert erhält man die vierfache Varianz der Funktion H, obwohl sich an der relativen Gewichtung der Yj nichts geändert hat. Man muss also eine Standardisierung der Koeffizienten durchführen. Eine vernünftige Möglichkeit besteht darin, zu verlangen, dass gilt: γ 12 + γ 22 + ... + γ 82 = 1 . Diese Annahme werden wir im Folgenden immer treffen. Eine andere Möglichkeit bestünde darin, VAR(H) = 1 zu verlangen. Bei unabhängigen Beobachtungen wäre die Lösung ganz einfach: Man wählt als H diejenige Variable Y mit der größten Varianz. Denn offenbar gilt für unabhängige Variablen Var (γ 1Y1 + γ 2Y2 + ... + γ 8Y8 ) = γ 12 • Var (Y1 ) + γ 22 • Var (Y2 ) + ... + γ 82 • Var (Y8 ) und diese Summe wird maximal, wenn man das ganze mögliche Gewicht auf die maximale Varianz legt. In unserem Beispiel hätte man also γ5 = 1, γj = 0 (j≠5) und H = Y5. Für korrelierte Variablen hat man aber die Beziehung Var (γ 1Y1 + γ 2Y2 + ... + γ 8Y8 ) = ∑ 8 j =1 γ 2j • Var (Y j ) + 2 *∑ γ jγ k Cov (Y j ,Yk ) j ≠k und die ganze Sache wird komplizierter. Eine weitere Möglichkeit bestünde darin, allen Variablen gleiches Gewicht zu geben. Das führt aufgrund der Standardisierungsbedingungen zur Bedingung γj= 1 . 8 Diese Gewichtung ist aber nicht optimal. Zur Varianz der Summe H trägt ja einerseits die Varianz der Einzelvariablen bei, andererseits aber auch die Kovarianz der Variablen untereinander. Man kann sich also vorstellen, dass diejenigen Variablen besonders hoch gewichtet werden sollten, die eine hohe Varianz besitzen, andererseits aber auch diejenigen Variablen, die eine hohe Kovarianz mit anderen Variablen aufweisen. Für die Bestimmung der optimalen Gewichte muss die Kovarianzstruktur berücksichtigt werden. 131 P.Martus, Multivariate Statistik, SoSe 2009 Kovarianzmatrix(a) gen_1 gen_2 ,791 ,582 ,582 ,506 ,539 ,398 ,724 ,573 ,737 ,564 ,731 ,553 ,721 ,569 ,680 ,536 a Determinante = 2,094E-09 gen_1 gen_2 gen_3 gen_4 gen_5 gen_6 gen_7 gen_8 gen_3 ,539 ,398 ,420 ,535 ,488 ,480 ,504 ,491 gen_4 ,724 ,573 ,535 ,798 ,634 ,628 ,691 ,685 gen_5 ,737 ,564 ,488 ,634 ,834 ,721 ,677 ,596 gen_6 ,731 ,553 ,480 ,628 ,721 ,741 ,653 ,586 gen_7 ,721 ,569 ,504 ,691 ,677 ,653 ,745 ,644 gen_8 ,680 ,536 ,491 ,685 ,596 ,586 ,644 ,674 Bevor wir die Lösung angeben betrachten wir einfachere Konstellationen mit zwei bzw. drei Genen. 8.4 Die Situation mit zwei oder drei Genen Um die Sache zu vereinfachen, betrachten wir nur Gen 1 und Gen 2. Wir untersuchen jetzt also die Funktionen H (Y1 , Y2 ) = γ 1Y1 + γ 2Y2 mit der Nebenbedingung γ 12 + γ 22 = 1 ⇔ γ 2 = 1 − γ 12 . Wir können für jede Wahl von γ1 ∈ [0,1] sofort die Varianz von H hinschreiben. Es gilt ( ) Var ( H ( Y1 , Y2 ) ) = γ12 • 0.791 + 1 − γ12 • 0.506 + 2 • γ1 • 1 − γ12 • 0.582 Mit der Substitution γ1 = sinα und der bekannten Beziehung cos2α = 1-sin2α lässt sich diese Gleichung auflösen. Man erhält γ1 = 0.85 und γ2 = 0.53. Uns interessiert aber eher qualitativ, wie die beiden Variablen relativ zueinander gewichtet werden. Deswegen betrachten wir eine Grafik mit der Varianz auf der y-Achse und der Differenz aus γ1 und γ2 auf der x-Achse. 132 P.Martus, Multivariate Statistik, SoSe 2009 1,00 varianz 0,90 0,80 0,70 0,60 0,50 -1,00 -0,50 0,00 0,50 1,00 dif_gew Einer Differenz von 0 (dif_gew = γ1 - γ2 = 0) entspricht die Gleichgewichtung der Variablen. Offenbar liegt das Optimum bei einer stärkeren Gewichtung zugunsten der Variable mit der größeren Varianz. Aufgrund der Abhängigkeit beider Variablen geht aber auch die Variable mit der kleineren Varianz in die optimale Funktion H mit ein. Als nächstes betrachten wir theoretisch die Situation von drei Genen. Wir untersuchen die folgenden Kovarianzmatrizen: Gen 1 Gen 2 Gen 3⎞ ⎛ ⎜ ⎟ 1 0.2 0.2 ⎟ ⎜ Gen 1 ⎜ Gen 2 0.2 0.7 0.2 ⎟ ⎜⎜ ⎟ 0.2 0.7 ⎟⎠ ⎝ Gen 3 0.2 Gen 1 Gen 2 Gen 3 ⎞ ⎛ ⎜ ⎟ Gen 1 1 0.2 0.2 ⎟ bzw. ⎜ ⎜ Gen 2 0.2 0.7 0.6 ⎟ ⎜⎜ ⎟ 0.2 0.6 0.7 ⎟⎠ ⎝ Gen 3 Aus Symmetriegründen sollten für beide Kovarianzmatrizen die Gene 2 und 3 identische Gewichte erhalten, also H (Y1 , Y2 , Y3 ) = γ 1Y1 + γ 2Y2 + γ 2Y3 . Weiterhin muss gelten γ 12 + γ 22 + γ 32 = 1 ⇔ γ 12 + 2γ 22 = 1 ⇔ γ 2 = 1 − γ 12 . 2 Wir betrachten nun ganz analog die Varianz von H in Abhängigkeit der Differenz aus γ1 und γ2 . Für die erste Kovarianzmatrix ergibt sich 133 P.Martus, Multivariate Statistik, SoSe 2009 1,10 1,05 varianz 1,00 0,95 0,90 0,85 0,80 -1,00 -0,50 0,00 0,50 1,00 dif_gew Wie im ersten Beispiel wird das erste Gen höher gewichtet als die beiden anderen. Man erhält das Ergebnis γ1 = 0.89 und γ2 = 0.39. Für die zweite Kovarianzmatrix ergibt sich dagegen die folgende Grafik 1,15 1,125 varianz 1,10 1,075 1,05 1,025 1,00 -1,00 -0,50 0,00 0,50 1,00 dif_gew . Die optimalen Gewichte lauten jetzt γ1 = 0.71 und γ2 = 0.50. Offenbar führt die höhere Kovarianz von Gen 2 und Gen 3 zu einer höheren Gewichtung gegenüber Gen 1. 134 P.Martus, Multivariate Statistik, SoSe 2009 8.5 Berechnungen im Beispiel II Die gesuchte Funktion im Beispiel lautet 0.395*Y1 + 0.306*Y2 + 0.274*Y3 + 0.377*Y4 + 0.377*Y5 + 0.363*Y6 + 0.372*Y7 + 0.348*Y8 Das höchste Gewicht erhält die Variable Y1, das niedrigste die Variable Y3. Dies entspricht der Tatsache, dass die Variable Y1 eine sehr große Varianz und sehr große Kovarianzen mit anderen Variablen aufweist. 8.6 Definition Hauptkomponenten Für p Variablen Y1, Y2, ..., Yp heißt diejenige Linearkombination H 1 (Y1 , Y2 ,..., Y p ) = γ 1Y1 + γ 2Y2 + ... + γ pY p mit maximaler Varianz unter allen Linearenkombinationen mit γ 12 + γ 22 + ... + γ p2 = 1 erste Hauptkomponente dieser Variablen. 8.7 Allgemeine Hauptkomponenten Nach Konstruktion der ersten Hauptkomponente kann man das Verfahren fortsetzen und eine zweite Hauptkomponente H2 konstruieren. Diese Hauptkomponente muss die folgenden Kriterien erfüllen: H 2 (Y1 , Y2 ,..., Y p ) = δ 1Y1 + δ 2Y2 + ... + δ pY p mit δ 12 + δ 22 + ... + δ p2 = 1 und H1 orthogonal zu H2. Entsprechend kann man Hauptkomponenten H3, ..., Hp definieren. Diese bilden dann eine orthogonale Basis des durch die Variablen Y1, Y2, ..., Yp aufgespannten p-dimensionalen Teilraums des Rn. Die bisher gewonnenen Ergebnisse kamen (außer der Existenz der Varianzen) ohne weitere Verteilungsannahmen aus. Man könnte die Theorie der Hauptkomponenten sogar rein geometrisch aufbauen. Konfirmatorische Aussagen wären dann allerdings nicht möglich. Wir 135 P.Martus, Multivariate Statistik, SoSe 2009 werden daher im Folgenden die Theorie aufbauend auf der multivariaten Normalverteilung darstellen. Hierfür müssen zunächst einige Grundlagen behandelt werden. 136 P.Martus, Multivariate Statistik, SoSe 2009 8.8 Integration im Rn Für nichtnegative Funktionen f entspricht das Integral ∫ ∞ −∞ f ( x )dx der Fläche unter dieser Funktion. Analoge ist die Fläche unter der Funktionskurve über dem Teilintervall [a,b] gegeben durch: ∫ b a f ( x )dx . Basis der Integrationstheorie ist, dass man das Integral einer konstanten Funktion mit dem Wert c über dem Intervall [a,b] gleich (b-a) •c, also gleich der Fläche des entsprechenden Rechtecks setzt. Kompliziertere Funktionen werden dann als gewichtete Summen derartiger Rechtecksfunktionen angenähert. Funktionen, die auf dem R2 mit Koordinatensystem (x,y) definiert sind, können als gekrümmte Flächen im R3 dargestellt werden. Bei positiven Funktionen kann man das Volumen unter der Fläche ebenfalls als Integral ∫ R2 f ( x, y )d ( xy ) darstellen. Basis der Integrationstheorie sind Funktionen, die über einem Rechteck [x1,x2]*[y1,y2] im R2 den konstanten Wert c annehmen. Das Integral wird dann gleich dem Volumen (x2-x1) • (y2-y1) •c gesetzt. Ganz analog kann man für Funktionen, die auf dem Rp definiert sind, Integrale als (p+1)dimensionale Volumina definieren und als Basis der Integrationstheorie konstante Funktionen, die auf p-dimensionalen Quadern [x1,x2]*[y1,y2]*...* [z1,z2] den Wert c annehmen, verwenden. Das Integral wird dann gleich (x2-x1) • (y2-y1) •... • (z2-z1)•c gesetzt. 137 P.Martus, Multivariate Statistik, SoSe 2009 8.9 Mehrdimensionale Wahrscheinlichkeitsverteilungen Nichtnegative reellwertige Funktionen auf dem R1 können als Dichtefunktionen von Zufallsvariablen aufgefasst werden, wenn gilt ∫ ∞ −∞ f ( x )dx = 1 . Analog kann eine (nichtnegative) reellwertige Funktion auf dem Rp als Dichtefunktion einer p-dimensionalen Zufallsvariablen Y = (Y1, Y2, ..., Yp) aufgefasst werden, wenn das (p+1)-dimensionale Volumen dieser Funktion ebenfalls eins ist. Besonders einfach ist die Situation bei unabhängigen Zufallsvariablen Y1, Y2, ..., Yp mit Dichtefunktionen f1,…,fp . Für diese kann man zeigen, dass die Dichtefunktion im Punkt (y1,...,yp) das Produkt f1 ( y1 ) • f 2 ( y 2 ) • K • f p ( y p ) ist. Von Interesse sind aber im Allgemeinen korrelierte Zufallsvariablen. 8.10 Hauptkomponenten und die zweidimensionale Normalverteilung Fasst man zwei zentrierte unabhängige normalverteilte Zufallsvariablen X1 und X2 mit Dichten f ( x1 ) = − x12 1 2πσ 12 exp 2σ 12 1 g ( x2 ) = , 2πσ 22 − x2 2 2 exp 2σ 2 also nicht notwendig identischen Varianzen σ 12 , σ 22 zu einer zweidimensionalen Zufallsvariablen X = (X1,X2) zusammen, erhält man die folgende Dichte h( x1 , x2 ) = 1 2πσ 12 − x12 exp 2σ 12 • − x2 2 1 2πσ 22 exp 2σ 22 = 1 2π 2 σ 12σ 22 • exp 2 x 2 1 ⎛ x − •⎜ 1 2 + 2 2 ⎜ 2 ⎝ 2σ 1 2σ 2 ⎞ ⎟ ⎟ ⎠ Man sieht leicht, dass der Term ⎛ 2 2 ⎜ x1 + x2 ⎜ 2σ 2 2σ 2 ⎝ 1 2 ⎞ ⎟ ⎟ ⎠ 138 P.Martus, Multivariate Statistik, SoSe 2009 in Matrixschreibweise geschrieben werden kann als ⎛ x⎞ ⎜⎜ ⎟⎟ ⎝ y⎠ t ⎛ σ 12 0 ⎞ ⎜⎜ ⎟ 2⎟ ⎝ 0 σ2 ⎠ −1 ⎛ x⎞ ⎜⎜ ⎟⎟ . ⎝ y⎠ Die mittlere Matrix ist gerade die Inverse der Varianz-Kovarianzmatrix von x und y. Allgemein erhält man die Dichte der (zentrierten) zweidimensionalen Normalverteilung mit Varianz-Kovarianzmatrix Σ als t h( x1 , x2 ) = 1 2π 2 det(Σ) • exp ⎛x ⎞ 1 ⎛x ⎞ − •⎜⎜ 1 ⎟⎟ Σ −1 ⎜⎜ 1 ⎟⎟ 2 ⎝ x2 ⎠ ⎝ x2 ⎠ . Diese Funktion nimmt ihr Maximum im Punkt x1=0, x2=0, dem Erwartungswert der zentrierten Zufallsvariablen, an. Die bivariate Normalverteilung für unabhängige Merkmale 1,2 1,0 ,8 ,6 Z ,4 ,2 0,0 2 1 0 Y -1 -1 0 1 2 X 139 P.Martus, Multivariate Statistik, SoSe 2009 Die Punkte gleicher Dichte liegen auf Ellipsen mit Mittelpunkt (0,0). Die folgende Grafik verdeutlicht die Zusammenhänge (durch Zentrieren wird der Ursprung des Koordinatensystems in das Zentrum der Ellipsen verschoben). An der Struktur dieser Ellipsen lassen sich viele Informationen über die bivariate Normalverteilung ablesen: • • • • • Für unabhängige Variablen mit gleicher Varianz entstehen konzentrische Kreise. Für unabhängige Variablen mit ungleicher Varianz entstehen Ellipsen, die parallel zu den Koordinatenachsen liegen. Für abhängige Variablen mit gleicher Varianz entstehen Ellipsen die im 45% Winkel im Koordinatensystem liegen Für abhängige Variablen mit ungleicher Varianz entstehen Ellipsen, deren Winkel zur Variable mit der größeren Varianz < 45° ist und entsprechend zur Variable mit der kleineren Varianz > 45° ist. Bei hochkorrelierten Variablen nähern sich die Ellipsen Geraden an, deren Winkel zu den Koordinatenachsen jeweils wieder vom Verhältnis der Varianzen von X1 und X2 abhängen. 140 P.Martus, Multivariate Statistik, SoSe 2009 Ellipsen lassen sich beschreiben durch die sogenannten Hauptachsen. Die erste Hauptachsen ist die Richtung des längsten Durchmessers der Ellipsen, die zweite Hauptachse steht senkrecht darauf. In der Grafik sind v1 und v2 die Hauptachsen der beiden Ellipsen. v1 v2 Man kann zeigen, dass die Koeffizientenvektoren der in 8.6 definierten Hauptkomponenten für bivariat normalverteilte Daten nichts anderes als die Hauptachsen der zugehörigen Ellipsen sind. 141 P.Martus, Multivariate Statistik, SoSe 2009 Zusätzlich kann man auch zeigen, dass der Koeffizientenvektor der ersten Hauptkomponente die „symmetrische“ Regressionsgerade von X1 und X2 beschreibt, also diejenige Gerade, die die senkrechten Abstände der Stichprobendaten minimiert. Bei symmetrischen Problemen ohne klare Unterscheidung von Einfluss und Zielgröße stellen die Hauptkomponenten also eine sinnvolle, aber kaum genutzte Alternative zur Regressionsanalyse dar. . 8.11 Hauptkomponenten und die n-dimensionale Normalverteilung ´ Die Begriffsbildung aus dem zwei-dimensionalen lässt sich sofort auf den beliebigdimensionalen Fall übertragen. Nur die geometrische Anschauung geht verloren. 142 P.Martus, Multivariate Statistik, SoSe 2009 8.12 Zur Berechnung der Hauptkomponenten Für die Berechnung der Hauptkomponenten werden Vorkenntnisse aus der linearen Algebra über quadratische Formen und Eigenwerte benötigt, die im Rahmen dieser Vorlesung nicht bereitgestellt werden können. Die Mathematik der Hauptkomponenten ist daher in den folgenden Definitionen und Sätzen zusammengefasst: Definition 1 Eine quadratische, symmetrische p-dimensionale Matrix A definiert durch die Abbildung SA: x,y → xtAy definiert ein Skalarprodukt auf dem (Rp )•(Rp). Für x = y kann man SA(x,x) = xtAx als Quadrat einer verallgemeinerten Länge im Rp auffassen. Insbesondere erhält man durch SA(x-y,x-y) = (x-y)tA(x-y) ein verallgemeinertes Abstandsmaß im Rp. Wenn A eine Varianz-Kovarianz Matrix ist, heißt dieses Abstandsmaß „MahalanobisDistanz“. Beispiel 1 Für A = Identitätsmatrix 1p erhält man das bekannte euklidische Skalarprodukt und die „natürliche“ Längendefinition im Rp. Satz 1 Für einen festen Punkt x0 ist der geometrische Ort der Punkte mit SA(x0-y,x0-y) = const ein (p-1)-dimensionaler Ellipsoid im Rp . Definition 2 Für eine quadratische Matrix A und einen Vektor v mit 143 P.Martus, Multivariate Statistik, SoSe 2009 Av = λv heißt λ Eigenwert von A und v Eigenvektor zum Eigenwert λ. Bezüglich der Eigenvektoren ist die durch A vermittelte lineare Abbildung also eine Streckung bzw. Stauchung. Eigenvektoren von A zum Eigenwert λ sind Eigenvektoren von A-1 zum Eigenwert λ-1. Satz 3 Für eine invertierbare, symmetrische (quadratische) Matrix stehen die Eigenvektoren zu verschiedenen Eigenwerten senkrecht aufeinander. Für eine Varianzkovarianzmatrix ohne deterministische Abhängigkeiten zwischen den Zufallsvariablen lässt sich aus den Eigenvektoren eine orthogonale Basis des Rp auswählen. Im Allgemeinen ist diese Auswahl eindeutig. Sie ist nicht eindeutig, wenn die Eigenvektoren zu einem Eigenwert einen 2- oder höherdimensionalen Raum bilden. Beispiel 3 Für p =2 und unabhängige Zufallsvariablen mit Varianz 1 ist die Varianzkovarianzmatrix die 2-dimensionale Einheitsmatrix ⎛ 1 0⎞ ⎜⎜ ⎟⎟ . ⎝ 0 1⎠ In diesem Fall ist jeder Vektor des R2 Eigenvektor und die Basis aus Eigenvektoren ist nicht eindeutig bestimmt. Für unabhängige Zufallsvariablen mit ungleichen Varianzen und Varianzkovarianzmatrix ⎛ σ 12 0 ⎞ ⎜⎜ ⎟ 2⎟ ⎝ 0 σ2 ⎠ sind die Vektoren (1,0)t und (0,1)t Eigenvektoren zu den Eigenwerten σ 12 und σ 22 . Für abhängige Zufallsvariablen mit identischen Varianzen hat die Varianzkovarianzmatrix die Form ⎛ σ2 ⎜ ⎜ cov 12 ⎝ cov12 ⎞ ⎟. σ 2 ⎟⎠ Die Vektoren (1,1)t und (1,-1)t sind dann Eigenvektoren zu den Eigenwerten σ 2 + cov12 und σ 2 - cov12. 144 P.Martus, Multivariate Statistik, SoSe 2009 Hauptsatz 1 Für Zufallsvariablen Y1, ..., Yp sind die Koeffizientenvektoren der Hauptkomponenten Eigenvektoren der Varianzkovarianzmatrix S. Genauer gesagt gilt, falls die Eigenwerte λ1,..., λp verschieden sind, dass den Eigenwerten λ1 > λ2 >… > λp die Hauptkomponenten H1, H2,..., Hp zugeordnet sind. Die Eigenwerte sind die Varianzen der Hauptkomponenten. Die Summe aller Eigenwerte ist zugleich die Varianz der Summe der Hauptkomponenten und auch die Summe der Varianzen aller Variablen. Insofern sagt man, dass eine Hauptkomponente Hj bzw. ein Eigenwert λj einen bestimmten Prozentsatz der Varianz der ursprünglichen Variablen erklärt. Dieser Prozentsatz berechnet sich als 100 • λj λ1 + λ2 + ... + λ p . Hauptsatz 2 Die Transformation der Zufallsvariablen Y1, ..., Yp mit Varianzkovarianzmatrix S auf die Darstellung durch Hauptkomponenten ist gegeben durch die Matrix A, wobei die Spalten von A die normalisierten (Länge = 1) Eigenvektoren von S sind. Es gilt also Z = YA mit Y = (Y1,…,Yp). Es lässt sich leicht sehen, dass die Varianz-Kovarianzmatrix der transformierten Variablen eine Diagonalmatrix mit Einträgen λ1,..., λp ist. 8.13 Hauptkomponenten auf Basis der Korrelationsmatrix In manchen Situationen, z.B. wenn man Variablen auf völlig unterschiedlichen Skalen misst, ist es sinnvoll, die Variablen vor der Analyse nicht nur zu zentrieren (E(Yj) = 0 für j = 1,...,p), sondern auch zu standardisieren, so dass Var(Yj) = 1 für j = 1,...,p gilt. In diesen Situationen ist die Varianzkovarianzmatrix gleich der Korrelationsmatrix und man spricht von Hauptkomponentenanalyse der Korrelationsmatrix. Es ist offensichtlich, dass die Hauptkomponenten dann nur noch von den Korrelationen zwischen den Variablen abhängen und somit „Skalen-unabhängig“ sind. 145 P.Martus, Multivariate Statistik, SoSe 2009 8.13 Fortsetzung des Beispiels auf Basis der Korrelationsmatrix Im Beispiel 8.5 ergab sich für die Varianzkovarianzmatrix die erste Hauptkomponente 0.395*Y1 + 0.306*Y2 + 0.274*Y3 + 0.377*Y4 + 0.377*Y5 + 0.363*Y6 + 0.372*Y7 + 0.348*Y8. Bzgl. der Korrelationsmatrix ergibt sich 0.363*Y1 + 0.355*Y2 + 0.350*Y3 + 0.347*Y4 + 0.337*Y5 + 0.347*Y6 + 0.355*Y7 + 0.353*Y8 als erste Hauptkomponente. Offenbar ist die Gewichtung deutlich einheitlicher geworden. Für welchen Ansatz man sich entscheidet, hängt davon ab, ob man der Varianz der Genexpressionswerte biologische Bedeutung zuordnet oder nicht. 8.14 Erweiterung des Beispiels um Housekeeping-Gene Wir betrachten nun die ersten drei Gene des Beispiels und noch weitere 3 Gene, die als sogenannte „Housekeeping“-Gene bekannt sind und eher die „Gesamtaktivität“ als die Tumoraktivität wiederspiegeln. Die Korrelationsmatrix lautet: ⎛ 1 ⎜ ⎜ 0.89 ⎜ 0.86 ⎜ ⎜ 0.26 ⎜ 0.25 ⎜ ⎜ 0.29 ⎝ 0.89 0.86 0.26 0.25 0.29 ⎞ ⎟ 1 0.87 0.17 0.17 0.24 ⎟ 0.87 1 0.18 0.17 0.25 ⎟ ⎟ 0.17 0.18 1 0.89 0.80 ⎟ 0.17 0.17 0.89 1 0.75 ⎟ ⎟ 0.24 0.25 0.80 0.75 1 ⎟⎠ Die Korrelationsmatrix spiegelt deutlich die zwei verschiedenen Gengruppen, Tumoraktivität und Housekeeping, wieder. Die Eigenwerte der Korrelationsmatrix sind 3.4, 2.0, 0.27, 0.14, 0.12 und 0.10. Das bedeutet, die ersten beiden Hauptkomponenten erklären 5.4/6 = 90% der Varianz. Es scheint daher plausibel, die ersten beiden Hauptkomponenten zu betrachten. Sie lauten in nicht standardisierter Form: 146 P.Martus, Multivariate Statistik, SoSe 2009 Komponentenmatrix a Komponente 1 2 gen_1 ,810 -,509 gen_2 ,766 -,582 gen_3 ,765 -,569 gen_4 ,716 ,641 gen_5 ,696 ,636 gen_6 ,727 ,540 Extraktionsmethode: Hauptkomponentenanalyse. a. 2 Komponenten extrahiert Offenbar kann man die beiden Hauptkomponenten auch inhaltlich interpretieren: Die erste Hauptkomponente steht für die Gesamtaktivität der Zelle und gewichtet die Tumorassoziierten Gene und die Housekeeping Gene etwa gleich stark. Die zweite Hauptkomponente unterscheidet durch Differenzbildung zwischen den beiden Gengruppen. An den Werten der zweiten Hauptkomponente kann man also für einen bestimmten Microarray ablesen, ob die Gesamtaktivität eher Tumor-assoziiert, eher Housekeeping-assoziiert oder von beiden Gengruppen gleich stark beeinflusst ist. 8.15 Motivation der Faktoranalyse Im Beispiel 8.14 könnte man sich eine „geschicktere“ Definition der beiden Komponenten vorstellen: In die erste Komponente sollten die Tumor-assoziierten Gene, in die zweite Komponente sollten die Housekeeping Gene eingehen. Dies können die Hauptkomponenten nicht leisten, da die maximale Varianz eben durch die Berücksichtigung aller Gene erklärt wird. Die Faktoranalyse ist hier die geeignete Methode. 8.16 Faktoranalyse Die Grundidee der Faktoranalyse ist es, die als relevant identifizierten Hauptkomponenten so zu rotieren, dass die ursprünglichen Variablen möglichst nur mit einer Hauptkomponente korrelieren und mit dieser möglichst hoch. Man legt also im Unterraum des Rn, der durch die relevanten Hauptkomponenten aufgespannt wird, eine neue, ebenfalls rechtwinklige Basis fest. Die neuen Basisvektoren heißen „Faktoren“. 147 P.Martus, Multivariate Statistik, SoSe 2009 8.17 Ziel der Faktoranalyse Im Gegensatz zur Hauptkomponentenanalyse ist das Ziel der Faktoranalyse zum einen, die gefundenen Faktoren inhaltlich zu interpretieren, und zum zweiten, zu überprüfen, wie gut die Variablen einem gefundenen Faktor entsprechen. Im Beispiel bedeutet dies, dass man wissen will, welches Gen am Besten die Tumoraktivität wiederspiegelt und welches am Besten geeignet ist, die allgemeine Zellaktivität zu quantifizieren. Deswegen interessiert man sich für die Korrelationen zwischen den Faktoren und den Messvariablen. Diese Korrelationen bezeichnet man auch als „Faktorladungen“. 8.18 Ergebnisse im Beispiel Im Genexpressionsbeispiel erhält man die folgenden Faktorladungen für die 6 Gene: Rotierte Komponentenmatrix a Komponente 1 2 gen_1 ,942 ,172 gen_2 ,958 ,089 gen_3 ,948 ,098 gen_4 ,095 ,956 gen_5 ,084 ,939 gen_6 ,171 ,890 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. Die Faktoren lassen sich aus den Hauptkomponenten durch die folgende Matrix berechnen: Komponententransformationsmatrix Komponente 1 2 1 2 ,737 ,676 -,676 ,737 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. oder direkt aus den Variablen durch 148 P.Martus, Multivariate Statistik, SoSe 2009 Koeffizientenmatrix der Komponentenwerte Komponente 1 2 gen_1 ,348 -,022 gen_2 ,362 -,057 gen_3 ,358 -,053 gen_4 -,056 ,377 gen_5 -,059 ,371 gen_6 -,020 ,343 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. Komponentenwerte. (Angegeben sind wieder die nicht-standardisierten Koeffizienten). Offenbar entspricht der erste Faktor der Tumoraktivität und der zweite Faktor der Housekeeping-Aktivität. Am besten geeignet erscheint Gen 2 für den ersten Faktor und Gen 4 für den zweiten Faktor zu sein. Allerdings sind die Unterschiede geringfügig. 8.19 Zusammenfassung Zwischen Hauptkomponenten- und Faktoranalyse besteht ein enger Zusammenhang, da die Faktoren aus den Hauptkomponenten bestimmt werden. Ziele und Interpretation der beiden Analyseformen sind aber deutlich verschieden: In der Hauptkomponentenanalyse geht es um reine Datenreduktion ohne inhaltliche Interpretation. In der Faktoranalyse geht es auch um die inhaltliche Interpretation. Häufig steht diese sogar im Vordergrund. Dadurch ist die Faktoranalyse ein subjektives, exploratives Verfahren und wird besonders in den Sozialwissenschaften äußerst gerne verwendet, dagegen von manchen Naturwissenschaftlern eher skeptisch eingeschätzt. Es gibt allerdings Methoden, die Faktoranalyse „konfirmatorisch“ zu behandeln. Diese werden hier aber nicht behandelt. 8.20 Ausblick auf die Clusteranalyse Man kann die Faktoranalyse einfach als Verfahren zur weitergehenden Analyse von Korrelationsstrukturen zu betrachten. Das Verfahren erlaubt es, Variablen durch Zuordnung zu einer kleineren Zahl von Faktoren inhaltlich zu gruppieren. In der Clusteranalyse wird es das Ziel sein, Objekte (Merkmalsträger) durch weitergehende Analyse ihrer Distanzen inhaltlich zu gruppieren. 149 P.Martus, Multivariate Statistik, SoSe 2009 Teil 9 Clusteranalyse 9.1 Einführung Im vorausgegangenen Teil haben wir mit der Faktoranalyse ein Verfahren zur Gruppierung von Variablen kennengelernt. Kriterium war die Korrelationsstruktur der Variablen. In diesem Teil der Vorlesung werden wir eine Gruppe von Verfahren kennenlernen, die es erlauben, Objekte aufgrund von Variablen zu gruppieren. Kriterium wird die möglichst große Übereinstimmung der Objekte innerhalb der Gruppen und die möglichst große Unähnlichkeit der Objekte in verschiedenen Gruppen bzgl. der untersuchten Variablen sein. Da es sich um eine große Gruppe von Verfahren handelt, werden wir eine Systematik der unterschiedlichen Verfahren zu Grunde legen, die auf folgenden Eigenschaften der Verfahren beruht • • • Definition der Distanz oder Ähnlichkeit von Objekten in Abhängigkeit von der Skalierung der Merkmale Definition der Distanz oder Ähnlichkeit von Gruppen von Objekten Methoden der Zusammenfassung von Objekten oder Aufspaltung von Gruppen von Objekten in neue Gruppen. In der Bioinformatik wurde die Clusteranalyse in „unsupervised learning“ umgetauft. 9.2 Beispiele In einer heterogenen Gruppe von Patienten sollen aufgrund klinischer Merkmale Subtypen definiert werden, für die dann ätiologische Unterschiede gesucht werden. Anhand der Expressionsmessung für eine große Zahl von Genen sollen bei Patienten mit Aderhautmelanom solche mit und ohne Metastasen unterschieden werden. Im ersten Schritt interessiert man sich dafür, ob ohne Verwendung der Information über Metastasen die Patienten aufgrund der Gene „von allein“ in die zwei Untergruppen mit und ohne Metastasen klassifiziert werden können. 9.3 Distanzmaße Der weitaus häufigste Typ von Distanzmaßen erfüllt die mathematischen Eigenschaften einer Metrik. Für eine gegebene Objektmenge O ist eine Metrik eine Abbildung von O • O in die nichtnegativen reellen Zahlen, sodass für beliebige o1, o2, o3 ∈ O gilt: d(o1, o2) ≥ 0 d(o1, o2) = 0 genau dann, wenn o1 = o2 d(o1, o2) = d(o2, o1) d(o1, o2) + d(o2, o3) ≥ d(o1, o3) 150 P.Martus, Multivariate Statistik, SoSe 2009 9.4 Metriken für stetige, n-dimensionale Daten Die Definition der Distanz- oder Ähnlichkeitsmaße kann i.a. theoretisch mathematisch, geometrisch oder statistisch begründet sein. Im Folgenden gelte stets x = (x1,...,xn) und y = (y1,...,yn). Gängige Distanzmaße sind: Die L2-Distanz (auch euklidische Distanz) ∑ (x − yi ) 2 n d ( x, y ) = i =1 i Die L1-Distanz (auch „Manhattan“-Distanz oder City-Block-Distanz) d ( x, y ) = ∑i =1 | xi − yi | n Die L∞-Distanz (auch „Maximum- Distanz“) d ( x, y ) = max i | xi − yi | Die Lp-Distanz (p > 0, auch Minkowski-Distanz) d ( x, y ) = p ∑ (x n i =1 i − yi ) p Die Mahalanobis-Distanz zur Kovarianzmatrix S d ( x, y ) = (x − y )t S −1 (x − y ) Offenbar sind L1 und L2 Spezialfälle von Lp. Man kann zeigen, dass für p →∞ tatsächlich Lp → L∞ geht. Die L2-Distanz ist die Mahalanobis-Distanz für die Einheitsmatrix 1n. Für jede streng monotone, konkave Funktion f mit f(0) = 0 und jede Metrik d ist die Abbildung df (o1, o2) = f(d(o1, o2)) ebenfalls eine Metrik. Für eine beliebige positive Konstante α ist mit d auch α•d eine Metrik. Für beliebige positive Konstanten α1, α2 und beliebige Metriken d1, d2 ist 151 P.Martus, Multivariate Statistik, SoSe 2009 α1d1 + α2d2 ebenfalls eine Metrik. Für komponentenweise definiertes d1,...,dn und Konstanten α1, ... , αn ist d ( x, y ) = ∑i =1α i • d i ( xi ,yi ) n ebenfalls eine Metrik auf dem Rn. Die Funktion d (o1, o2) = 1 für o1 ≠ o2 d (o1, o2) = 0 für o1 = o2 definiert eine Metrik. 9.5 Ähnlichkeitsmaße für stetige n-dimensionale Daten Gängige Ähnlichkeitsmaße sind der signierte „Korrelationskoeffizient“ die signierte „Kovarianz“ der absolute „Korrelationskoeffizient“ die absolute „Kovarianz“. Die Anführungszeichen wurden gewählt, weil die Komponenten der Vektoren x und y nicht Merkmalsträger sondern verschiedene Variablen eines Merkmalsträgers repräsentieren. Man spricht daher auch von Q-Korrelationen und Q-Kovarianzen. 9.6 Bemerkung zu Ähnlichkeitsmaßen: Der Ansatz dieses Ähnlichkeitsmaßes ist grundverschieden von den vorangegangenen Maßen: Hat ein Objekt für alle Merkmale denselben Wert, lässt sich z.B. die Korrelation überhaupt nicht berechnen! Unterscheiden sich zwei Objekte in jeder Komponente um einen konstanten aber beliebig großen Betrag, ist ihre Q-Korrelation maximal! Eine Deutung der einzelnen Komponenten eines Merkmalsvektors als Stichprobe aus einer Grundgesamtheit von Merkmalen ist im Allgemeinen nicht plausibel. Eine Ausnahme besteht, wenn für zwei Objekte dasselbe Merkmal unter verschiedenen Bedingungen gemessen wird und nur die Unterschiede bei verschiedenen Einzelbedingungen, nicht aber das absolute Level 152 P.Martus, Multivariate Statistik, SoSe 2009 der Messwerte interessiert. Die Situation von zwei Objekten, die bzgl. der genannten Ähnlichkeitsmaße sehr ähnlich sind, ist der folgenden Grafik zu entnehmen. 8 7 6 WERT 5 4 3 2 OBJEKT 1 B A 0 0,0 1,0 2,0 3,0 4,0 5,0 MERKMAL 9.7 Ähnlichkeitsmaße für n-dimensional dychotome Daten Wenn für zwei Objekte n verschiedene dychotome Merkmale gemessen werden, lassen sich die Ergebnisse in einer Vierfeldertafel zusammenfassen: Merkmal bei Objekt 1 nicht vorhanden „-“ Merkmal bei Objekt 1 vorhanden „+“ Gesamt Merkmal bei Objekt 2 nicht vorhanden, „-“ n-- Merkmal bei Objekt 2 vorhanden „+“ n-+ Gesamt n+- n++ n+. n.- n.+ n.. = n n-. Achtung: Die Übereinstimmung mit der Vierfeldertafel des Chi-Quadrat Unabhängigkeitstests ist nur formal. Für den Chi-Quadrat Test wurden n Merkmalsträger bzgl. zweier Merkmale verglichen, hier werden zwei Merkmalsträger bzgl. n Merkmalen verglichen. Für zwei Objekte o1, o2 mit dychotomen Merkmalen definiert die Funktion a (o1 , o2 ) = n− − + n+ + n das zunächst naheliegende Ähnlichkeitsmaß. Wenn aber das Vorhandensein eines Merkmals viel „spezifischer“, also seltener als das Nichtvorhandensein ist (z.B. Mutation an bestimmter Stelle des Genoms), erscheint es sinnvoll, n++ stärker zu gewichten als n--. Dies führt zu den folgenden Abstandsmaßen 153 P.Martus, Multivariate Statistik, SoSe 2009 Sα , β (o1 , o2 ) = n+ + n+ + + α • n− − + α • n− − + β • (n− + + n + − ) Spezialfälle davon sind α β Tanimoto (oder Jaccard-Koeffizient) 0 1 Simple Matching 1 1 Dice 0 0.5 Weitere verwandte Abstandsmaße sind der Koeffizient von Russel & Rao n+ + n+ + + n− − + n− + + n+ − und der Koeffizient von Kulczynski n+ + + n− + + n+ − Bemerkung zur Ähnlichkeit Kategorielle Daten stellen eine besondere Herausforderung für auf Metriken basierende Clusterungsalgorithmen dar. Man müsste zwei Objekte als „identisch“ bezeichnen, wenn sie gleiche Werte aufweisen und die Distanz gleich null setzen., Man würde aber doch verlangen, dass Übereinstimmung bzgl. seltener Ausprägungen viel stärker zählt als Übereinstimmung bzgl. häufiger Ausprägungen. Wenn zwei Menschen bei 10 ausgewählten Genen jeweils den Wildtyp zeigen, sollten sie nicht so identisch angesehen werden, als wenn sie über exakt dieselben 10 seltenen Mutationen verfügen. Diese Tatsache berücksichtigen z.B. Maße, die auf der statistischen Entropie -p•ln(p) aufbauen. Schließlich könnte man sich überlegen, ob dann nicht auch bei stetigen Merkmalen (mit Wahrscheinlichkeitsmodell!) Übereinstimmung stärker gewichtet werden sollte, wenn sie in Wertebereichen mit geringer Dichte auftritt als wenn sie in Wertebereichen mit hoher Dichte auftritt. 154 P.Martus, Multivariate Statistik, SoSe 2009 9.8 Beispiel 1: K-means Clustering Wir gehen aus von n Objekten mit p Merkmalen pro Objekt und identifizieren die Objekte mit n Punkten x1, ..., xn im Rp. Weiterhin legen wir von vornherein die Anzahl der zu bildenden Cluster fest und bezeichnen diese mit K. Ziel ist es, K Clusterzentren zu bestimmen und jedes Objekt so einem Clusterzentrum zuzuordnen, dass die Punkte möglichst geringen Abstand zu den Zentren haben. Praktisch geht man so vor, dass man initial Clusterzentren festlegt und dann immer alternierend die Objekte den Clusterzentren zuordnet und die Clusterzentren dann als Mittelwert der aktuell zugeordneten Objekte festlegt. Der entsprechende Algorithmus lautet also: Schritt 0a: Lege Clusterzentren z10 ,..., z K0 fest mit z k0 ∈ Rp für k = 1,...,K. Schritt 0b: Ordne jedem Punkt xi (i=1,...,n) denjenigen Cluster k (k=1,...,K) zu, für den der euklidische Abstand d(xi, z k0 ) minimal ist. Schritt 1a: Berechne für jeden Cluster k den Mittelwert der diesem Cluster zugeordneten Punkte xi, ersetze z k0 durch diesen Mittelwert und bezeichne ihn mit z 1k Schritt 1b: Ordne jedem Punkt xi (i=1,...,n) demjenigen Cluster k (k=1,...,K) zu, für den der euklidische Abstand d(xi, z 1k ) minimal ist. Wiederhole die letzten beiden Schritte solange, bis eine stabile Lösung erreicht ist. 9.9 Bemerkungen zum K-means Clustering Das Problem, dass ein Punkt minimalen Abstand zu zwei oder mehr Clusterzentren hat, tritt bei „echt“ kontinuierlichen Daten praktisch nicht auf. Da sich die Gesamtsumme der Abstände bei jedem Schritt, der zur Änderung der Zentren oder Zuordnung führt, verringert, kann es auch nicht zu zyklischen Endlosschleifen kommen. Ein analoger Algorithmus wäre auch für andere Distanzmaße als die euklidische Distanz denkbar. Die Berechnung der optimalen Clusterzentren im Schritt a wäre dann aber evtl. deutlich aufwändiger. Man kann das Verfahren mit unterschiedlichen Vorgaben von initialen Clusterzentren ausprobieren und auch die Zahl K variieren. Man benötigt dann ein „Qualitäts“-Maß für den Vergleich unterschiedlicher Lösungen. In Frage kommt eine Variante der F-Statistik, die die Quadratsummen der Abweichungen vom Clustermittelwert mit denjenigen vom Gesamtmittelwert vergleicht. Die Zahl der Cluster würde dann als „Freiheitsgrade“ berücksichtigt. Für p > 1 müsste der Umgang mit Variablen unterschiedlicher Varianz (Standardisierung?) und mit korrelierten Variablen (Hauptkomponenten?) spezifiziert werden. 155 P.Martus, Multivariate Statistik, SoSe 2009 9.10 Ansätze, die ohne Vorgabe von Clusterzentren auskommen Prinzipiell kann man Verfahren, die einen Gesamtcluster sukzessive in kleinere Cluster aufspalten (divisive Verfahren) unterscheiden von solchen, die n Cluster, die aus Einzelpunkten bestehen, sukzessive zu größeren Clustern vereinigen (agglomerative Verfahren). Voraussetzung bei diesen Verfahren ist, dass man Abstände oder Ähnlichkeiten nicht nur für Paare von Objekten sondern allgemeiner für Paare von Clustern, also Objektmengen definiert. 9.11 Mengenabstände Im folgenden seien zwei Cluster C und E mit Objekten c1,...,ck und e1,...,el gegeben. Für die Objekte sei bereits ein Abstandsmaß d gegeben. Die folgenden Mengenabstände sind in der Clusteranalyse üblich: Single Linkage: D(C , E ) = min{d ( ci , d j ) | i = 1,..., k ; j = 1,..., l } Complete Linkage: D(C , E ) = max{d ( ci , d j ) | i = 1,..., k ; j = 1,..., l } Average Linkage: D (C , E ) = 1 ∑ ∑ d (ci , d j ) k • l j =1,...,l j =1,...,l Single Linkage ergibt häufig kettenförmige Cluster, complete linkage eher „Kugelförmige“. Average Linkage stellt einen Kompromiss dar. Ein weiteres Verfahren ist die Ward Methode. Ziel der Ward Methode ist es, möglichst homogene Cluster zu finden. Zwei Cluster werden vereinigt, wenn die Zunahme an Heterogenität,z.B. gemessen an der euklidischen Distanz zum Mittelpunkt des Clusters, möglichst gering ist. 156 P.Martus, Multivariate Statistik, SoSe 2009 9.12 Beispiel Betrachten Sie die folgende Graphik. Verwenden Sie den Euklidischen Abstand und führen Sie das single- und das complete linkage Verfahren durch. 6,0 5,5 5,0 4,5 Merkmal 2 4,0 3,5 3,0 2,5 2,0 1,5 1,0 ,5 0,0 1,0 2,0 1,5 3,0 2,5 4,0 3,5 5,0 4,5 6,0 5,5 7,0 6,5 Merkmal 1 9.12 Beispiel Aderhautmelanome Für 171 Gene, die von einer anderen Arbeitsgruppe für eine ähnliche Fragestellung Identifikation von Metastasen beim Aderhautmelanom - gefunden wurden, wurde eine Clusteranalyse berechnet. Als Distanzmaß wurde die quadrierte Euklidische Distanz und als Agglomerationsalgorithmus das Average-Linkage Verfahren verwendet. Es wurden 16 Patienten ohne Metastasen (ni, i = 1, ..., 16) und 12 Patienten mit Metastasen (mi, i = 1, ..., 12) geclustert, ohne dass die Information über die Gruppenzugehörigkeit verwendet wurde Es ergab sich folgendes Ergebnis (SPSS-Output): 157 P.Martus, Multivariate Statistik, SoSe 2009 * * * * * * H I E R A R C H I C A L * * * C L U S T E R A N A L Y S I S * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ n01 13 òûòòòòòòòø n05 n10 17 22 ò÷ ó òûòòòòòòòôòòòòòòòòòø n11 n04 n07 23 16 19 ò÷ ó òûòòòòòø ó ò÷ ó ó ó ó ó n03 n12 15 24 òûòø ùò÷ ò÷ ùòø ó ùòòòø ó ó n15 m03 27 3 òòò÷ ùò÷ òòòòò÷ ó ó n06 n09 n02 18 21 14 òòòûòòòòòòòòòòòòòòò÷ ó ó òòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòø òòòòòòòòòòòòòòòòòòòòòòò÷ ó ó n13 n16 25 28 òòòòòòòòòòòûòòòòòòòòòòòòò÷ òòòòòòòòòòò÷ ó ó m07 n08 m08 7 20 8 òòòòòûòòòòòòòòòòòø òòòòò÷ ó òòòòòòòûòòòø ùòòòø ó ó ó m12 m05 12 5 òòòòòòò÷ ó ó òòòûòòòòòø ùòòòòò÷ ó ó ó ó m10 m01 10 1 òòò÷ òûòø ó ùòòòø ó ó m06 m04 m02 6 4 2 ó ó ó ó ó ó m09 n14 9 26 òòòòòòòòòòòòòòòòòòòòò÷ ó òòòòòòòòòòòòòòòòòòòòòòòòò÷ m11 11 òòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó ó ùò÷ ò÷ ùòòòø ó òòò÷ ùò÷ òòòòòòò÷ ó ùòø ó ùòòòø ó ó ùòòòòòòòòòòòòòòòòòòò÷ ó Offenbar wurden von 28 Patienten 25 richtig klassifiziert. Allerdings wurde die „Vorinformation“, dass nach 2 Clustern gesucht wurde, verwendet. 158 P.Martus, Multivariate Statistik, SoSe 2009 Teil 10 Diskriminanzanalyse 10.1 Vorbemerkung Im Teil 9 haben wir uns mit dem Problem beschäftigt, eine Stichprobe in mehrere Subgruppen, sogenannte Cluster, aufzuteilen. Diese Cluster wurden aus den Daten selbst generiert, es gab keine vorherige Zuordnung zu den einzelnen Clustern. Das hier beschriebene Verfahren, die Diskriminanzanalyse, konstruiert Klassifikatoren für eine in der Stichprobe bekannte Klasssenzugehörigkeit. In der linearen Diskriminanzanalyse sind diese Klassifikatoren lineare Funktionen von stetigen Kovariablen. Man geht - natürlich davon aus, dass die entsprechenden Kovariablen normalverteilt sind. Im einfachsten Fall besteht die Stichprobe aus zwei Klassen. Im allgemeinen Fall können es theoretisch beliebig viele Klassen und mehrere Diskrimininanzfunktionen sein. Für zwei Gruppen stehen wir im Prinzip vor demselben Problem wie bei der logistischen Regression. Die Konstruktion der Diskriminanzfunktionen ist allerdings völlig anders als bei der logistischen Regression. Man kann jedoch zeigen, dass, falls die Voraussetzung der Normalverteilung erfüllt ist, die lineare Diskriminanzfunktion der Diskriminanzanalyse mit dem linearen Prädiktor der logistischen Regression übereinstimmt. 10.2 Beispiel (Diagnose mit zwei Merkmalen) Die Diagnose von Glaukompatienten kann verbessert werden, wenn Diagnoseverfahren kombiniert werden, die • • • unterschiedliche Arten der Glaukomschädigung erfassen und/oder unterschiedliche physiologische „pathways“ abgreifen und/oder unabhängige Messfehler aufweisen. Für zwei diagnostische Verfahren, die psychophysische Messung der lokalen örtlich/zeitlichen Kontrastempfindlichkeit (DYNKEF) und die elektrophysiologische Messung der Gipfellatenz des visuell evozierten Potentials (VEP-LAT) nach blau auf gelb Reiz sind alle drei Kriterien erfüllt, denn die Verfahren messen • • Schädigung des Kontrastsehens vs Schädigung des Blau-Gelb Sehens psychophysisch vs elektrophysiologisch. Man kann daher davon ausgehen, dass die diagnostische Treffsicherheit erhöht wird, wenn beide Messverfahren kombiniert werden. Die folgende Grafik verdeutlicht dieses Argument: 159 P.Martus, Multivariate Statistik, SoSe 2009 Latenz des Blau auf Gelb VEPs 160 150 140 130 120 110 100 -20 0 20 40 60 80 100 120 140 160 Dynamische Kontrastempfindlichkeit Offensichtlich trennt eine diagonale Linie die beiden Stichproben von Kranken (ausgefüllte Kreise) und Gesunden (leere Quadrate) besser als senkrechte oder waagerechte Linien. 160 Latenz des Blau auf Gelb VEPs Latenz des Blau auf Gelb VEPs 160 150 140 130 120 110 140 130 120 110 100 100 -20 150 0 20 40 60 80 100 120 140 Dynamische Kontrastempfindlichkeit 160 -20 0 20 40 60 80 100 120 140 160 Dynamische Kontrastempfindlichkeit 160 P.Martus, Multivariate Statistik, SoSe 2009 Wenn man die Geradengleichung der blauen Trenngerade kennt, VEP-LAT = a0 + a1•DYNKEF kann man die Klassifikationsregel festlegen: Falls VEP-Lat > a0 + a1•DYNKEF, klassifiziere die untersuchte Person als krank. Falls VEP-Lat < a0 + a1•DYNKEF, klassifiziere die untersuchte Person als gesund. Äquivalent dazu ist die Klassifikation anhand des Vorzeichens der Funktion VEP-LAT - [a0 + a1•DYNKEF] bzw. anhand jeder Funktion, die aus dieser als Produkt mit fester Konstante c entsteht: c•[ VEP-LAT - (a0 + a1•DYNKEF)]. Die gängigen Statistikpakete geben die Diskriminanzfunktion einfach in der Form b0 + b1•DYNKEF + b2•VEP-LAT an. Die Umrechnung ist aber nicht schwierig. VEP-LAT = − b1 b DYNKEF − 0 . b2 b2 Für die Diskriminanzfunktion existieren verschiedene Charakterisierungen. Die einfachste lautet Die Koeffizienten b1, b2 werden so gewählt, dass die Diskriminanzfunktion beim t-Test für unverbundene Stichproben den niedrigst möglichen p-Wert ergibt. Die Wahl des Koeffizienten b0 hängt ab von der Prävalenz der Erkrankung in der Studienoder in der Zielpopulation. 161 P.Martus, Multivariate Statistik, SoSe 2009 10.3 Diskriminanzanalyse mit mehr als zwei Messverfahren Diskriminanzfunktionen lassen sich analog für mehr als 2 Messverfahren definieren: D = b0 + b1 X 1 + b2 X 2 + ... + b p X p Die Klassifikation erfolgt wieder nach dem Kriterium D > 0 bzw. D < 0. Die Koeffizienten werden entsprechend so gewählt, dass sie den t-Test für unverbundene Stichproben optimieren (t-Wert maximal, p-Wert minimal). Offensichtlich kann man wieder die Funktion mit einer Konstanten c multiplizieren. Man wählt häufig die Koeffizienten so, dass die Länge des Koeffizientenvektors (b0, b1, ..., bp) = 1 ist. 10.4 Beispiel für die Diskriminanzanalyse für mehr als zwei Gruppen Das klassische Beispiel für die Diskriminanzanalyse wurde von R.A. Fisher im Jahr 1936 publiziert. Drei verschiedene Lilienarten (Iris Setosa, Iris Versicolor, Iris Virginica [ R. A. Fischer 1936] ) sollen anhand der Länge und Breite von Kelch- und Blütenblättern klassifiziert werden. Die Stichprobe umfasste jeweils 50 Irispflanzen von jeder Art. Die deskriptive Analyse ergab: Bericht species Species 1,00 2,00 3,00 Insgesamt Mittelwert Standardabweichung Minimum Maximum Mittelwert Standardabweichung Minimum Maximum Mittelwert Standardabweichung Minimum Maximum Mittelwert Standardabweichung Minimum Maximum sep_leng Sepal Length 50,0600 3,52490 43,00 58,00 59,3600 5,16171 49,00 70,00 65,8800 6,35880 49,00 79,00 58,4333 8,28066 43,00 79,00 sep_widt Sepal Width 34,2800 3,79064 23,00 44,00 27,7000 3,13798 20,00 34,00 29,7400 3,22497 22,00 38,00 30,5733 4,35866 20,00 44,00 pet_leng Petal Length 14,6200 1,73664 10,00 19,00 42,6000 4,69911 30,00 51,00 55,5200 5,51895 45,00 69,00 37,5800 17,65298 10,00 69,00 pet_widt Petal Width 2,4600 1,05386 1,00 6,00 13,2600 1,97753 10,00 18,00 20,2600 2,74650 14,00 25,00 11,9933 7,62238 1,00 25,00 Die absoluten standardisierten Differenzen waren etwa 1 vs 2 1 vs 3 2 vs 3 Kelchblatt Länge 2.1 3.5 1 Kelchblatt Breite 1.8 1.2 0.7 Blütenblatt Länge 9 10 2.5 Blütenblatt Breite 7 12 2.7 162 P.Martus, Multivariate Statistik, SoSe 2009 Man erkennt deutlich, dass sich die Iris Setosa Blüten einfach von den beiden anderen Arten trennen lassen. Dagegen ist es offenbar schwierig, Iris Versicolor von Iris Virginica zu trennen. Die Klassifikation kann aufgrund einer oder mehrerer Diskriminanzfunktionen erfolgen. Bei p Variablen und K Gruppen beträgt die Zahl der Diskriminanzfunktion maximal min (p, K-1). Im genannten Beispiel ist p = 4, K = 3, so dass eine oder zwei Diskriminanzfunktionen in Frage kommen. Die Diskriminanzfunktionen werden nach folgendem Kriterium ausgewählt: Die erste Diskriminanzfunktion soll den maximalen F-Wert bei einer einfaktoriellen Varianzanalyse erzeugen. Die zweite Diskriminanzfunktion soll auf der ersten Diskriminanzfunktion senkrecht stehen und unter dieser Nebenbedingung den maximalen F-Wert bei einer einfaktoriellen Varianzanalyse erzeugen. Dieses Verfahren kann prinzipiell beliebig fortgesetzt werden. Kanonische Diskriminanzfunktion Species 3 1 2 Funktion 2 2 3 Gruppenmittel punkte 1 3 1 0 2 -1 -2 -3 -10 -5 0 5 10 Funktion 1 Der schrittweise orthogonale Aufbau der Diskriminanzfunktionen erinnert natürlich an die Hauptkomponentenanalyse, aber das Ziel ist jetzt nicht, in jedem Schritt eine maximale Varianz zu erzielen, sondern einen maximalen Quadratsummenquotient. Ist die Zahl der Diskriminanzfunktionen gleich der Zahl der gemessenen Merkmale, hat man bei der Richtung der letzten Diskriminanzfunktion keine Wahlmöglichkeiten mehr. 163 P.Martus, Multivariate Statistik, SoSe 2009 10.5 Das mathematische Modell der Diskriminanzanalyse Es bezeichne N ( μ , Σ) die multivariate Normalverteilung mit Erwartungswertvektor μ und Varianzkovarianzmatrix Σ 2 . p verschiedene Merkmale X1, ..., Xp in K verschiedenen Gruppen seien multivariat normalverteilt mit identischer Varianzkovarianzmatrix: (X , K , X ) 1 p ~ N (μ k , Σ ) in Gruppe k (k=1,...,K) Diese Modellannahmen sind oft verletzt, dennoch führt die Diskriminanzanalyse in vielen Fällen auf gute Ergebnisse. 10.6 Die lineare Diskriminanzfunktion für zwei Gruppen - Geometrie des zweidimensionalen Falls Geometrisch bedeutet die Berechnung der Diskriminanzfunktion eine Projektion der zweidimensionalen Daten auf eine Gerade, die bis auf Parallelverschiebung eindeutig festgelegt ist. Diese Gerade wird so gewählt, dass die Trennung zwischen beiden Gruppen optimal ist (Kriterium: t-Test). Die Trennung ist immer mindestens so gut wie für jede Einzelvariable, da ja auch die Koordinatenachsen „Kandidaten“ für die Projektion darstellen. Aufgrund der Modellannahme der Diskriminanzanalyse müssen die beiden Normalverteilungen gleiche Varianzen und Korrelationen in beiden Gruppen besitzen. Geometrisch bedeutet dies, dass sich die Konturellipsen nur durch eine Parallelverschiebung voneinander unterscheiden. Achtung: Dies ist das Standardbild für die lineare Diskriminanzanalyse, wie man es in zahllosen Lehrbüchern findet. Es stellt jedoch einen Spezialfall dar, der im allgemeinen nicht verlangt wird. Welchen? 164 P.Martus, Multivariate Statistik, SoSe 2009 Die Ellipsen sind nicht nur parallel sondern man erkennt auch, dass die Richtung der Parallelverschiebung offenbar genau die zweite Hauptkomponente der zugrundeliegenden bivariaten Normalverteilung ist. Dies ist aber in den Modellannahmen nicht verlangt. Das allgemeine Bild würde so aussehen: Nichtsdestotrotz führt der Spezialfall auf schönere Bilder und wird vorläufig den weiteren Darstellungen zugrunde gelegt. Die folgende Grafik zeigt die Überlappung der Marginalverteilungen im zweidimensionalen Fall: 165 P.Martus, Multivariate Statistik, SoSe 2009 Die Diskriminanzfunktion lässt sich als Projektionsabbildung deuten: Auch auf der Projektionsachse erhalten wir wieder zwei Normalverteilungen: 166 P.Martus, Multivariate Statistik, SoSe 2009 Offenbar ist die Überlappung auf der Projektionsachse geringer: 10.7 Die Berechnung der Diskriminanzfunktion für zwei Gruppen In zwei Gruppen (I u. II) werden die Merkmale (X1, X2, ... Xp) beobachtet. X 1 bezeichne den Mittelwertsvektor in Gruppe I, X 2 den Mittelwertsvektor in Gruppe II. Σ bezeichne die gemeinsame Kovarianzmatrix. Dann können die Koeffizienten b1, ..., bp der Diskriminanzfunktion aus der Gleichung b = Σ −1 ( X 1 − X 2 ) bestimmt werden. 10.8 Sonderfall 1 Sind alle Merkmale X1, ..., Xp paarweise unabhängig und haben identische Varianz σ², dann folgt Σ −1 = 1 σ2 1p und somit 167 P.Martus, Multivariate Statistik, SoSe 2009 b= Bis auf die Konstante 1 σ2 1 σ2 ( X 1 − X 2 ). . ist der Koeffizientenvektor also der Differenzenvektor der beiden Mittelwertsvektoren. Je größer die Differenz, desto größer das Gewicht in der Diskriminanzfunktion. 10.9 Sonderfall 2 Sind diese Merkmale zwar unabhängig aber von ungleichen Varianzen σ 12 , σ 22 ,..., σ 2p dann werden die p Komponenten des Differenzenvektors X 1 − X 2 noch einmal durch ihre jeweilige Varianz dividiert. Plausibilitätsbetrachtung: Man stelle sich hierfür vor, dass gelte X 1 = − X 2 und dass eine Variable Xj mit der Konstanten c multipliziert werde. Wir bezeichnen die neue Variable mit (cX)j und ihre Mittelwerte in beiden Gruppen mit cX 1 j und cX 2 j . Offenbar gilt cX 1 j - c X 2 j = c ( X 1 j − X 2 j ) und var((cX)j)= c2•var((cX)j) Der Beitrag von (cX)j zur Diskriminanzfunktion soll natürlich identisch zu dem von Xj sein, weil ja die Trennungseigenschaften aller Variablen und die Koeffizienten für alle anderen Variablen gleich geblieben sind. Da sowohl alle Einzelwerte (erster Faktor c) als auch die Differenz X 1 − X 2 (zweiter Faktor c) mit c multipliziert wurden, ist es plausibel, dass der Koeffizient mit 1 c2 multipliziert wird. 10.10 Sonderfall 3 Sind die Merkmale abhängig und liegt der Differenzvektor X 1 − X 2 in der Richtung einer der Hauptachsen der zu den multivariaten Normalverteilungen gehörigen Konturellipsen, dann ist der Koeffizientenvektor ein Vielfaches des Differenzvektors. Mathematisch folgt dies aus der Tatsache, dass die Hauptachsen der Konturlinie gerade die Eigenvektoren der Kovarianzmatrix bzw. ihrer Inverser darstellen. Man beachte, dass Gleichheit der Kovarianzmatrizen in den Gruppen vorausgesetzt wurde. 168 P.Martus, Multivariate Statistik, SoSe 2009 Offenbar ist es am günstigsten, wenn der Differenzvektor der Mittlelwerte in Richtung des steilsten Abfalls der Dichtefunktion also in Richtung der zweiten Hauptkomponente liegt. 169 P.Martus, Multivariate Statistik, SoSe 2009 10.11 Allgemeiner Fall Der allgemeine Fall erfordert, dass der Differenzenvektor in die zwei Hauptkomponenten (parallel zu den Hauptachsen) zerlegt wird. Dann wird ein neuer Vektor konstruiert, der in der Richtung der kürzeren Komponente stärker gewichtet wird und in der Richtung der längeren Komponente schwächer gewichtet wird. Dieser Schritt entspricht der Gewichtung der ursprünglichen Komponenten nach dem Inversen der Varianz für unabhängige Merkmale. 170 P.Martus, Multivariate Statistik, SoSe 2009 Der resultierende Vektor ist in der folgenden Grafik zu erkennen. Die Projektion erfolgt auf diesen Vektor beziehungsweise eine zu ihm parallele Gerade. 171 P.Martus, Multivariate Statistik, SoSe 2009 10.12 Vorbemerkung zur Bestimmung der Diskriminanzfunktionen Die Bestimmung der Diskriminanzfunktionen für mehr als zwei Gruppen erfordert tiefere Kenntnisse der linearen Algebra. Hier können nur das Rechenverfahren und eine Skizze der Herleitung angegeben werden. Wir orientieren uns am mathematischen Modell der Diskriminanzanalyse (vgl. 10.5) ( X ,K, X ) 1 p ~ N (μ k , Σ ) in Gruppe k (k=1,...,K) mit p-dimensional normalverteiltem Merkmalsvektor (X 1 , K , X p ) in K Gruppen mit identischer Varianzkovarianzmatrix Σ (dim p•p). Die relativen Häufigkeiten der Gruppen werden mit π 1 ,..., π K bezeichnet ( ∑k =1 π K = 1 ), die K K verschiedenen Erwartungswertvektoren mit μ1 ,..., μ K (jeweils Dimension p), der Erwartungswert der zugehörigen Mischverteilung ∑ K k =1 π k N (μ k , Σ ) mit μ . Es bezeichne Σ B die gewichte Summe der Kreuzprodukte der zentrierten Erwartungswertvektoren, ∑ K k =1 π K •(μ k − μ )(μ k − μ )t also dim ( Σ B ) ebenfalls gleich p•p, aber Rang( Σ B ) maximal K-1. Ziel der Diskriminanzanalyse ist die Auffindung von M orthogonalen, p-dimensionalen Vektoren b1, b2, ..., bM, den Koeffizientenvektoren der M Diskriminanzfunktionen. Deren Anzahl M ist dabei durch das Minimum aus der Zahl der Variablen p und der um eins verminderten Zahl der Gruppen, K-1, nach oben beschränkt. Die Vektoren bj (j=1,...,M) sollen orthogonal aufeinander stehen und unter dieser Einschränkung sukzessive die Bedingung bt Σ Bb = max b t Σb erfüllen (in der Formel wurde der Index j weggelassen). 172 P.Martus, Multivariate Statistik, SoSe 2009 10.13 Die Bestimmung der Diskriminanzfunktionen Die Eigenvektoren γ 1 , γ 2 ,..., γ M der Matrix Σ −1 • Σ B sind die Koeffizientenvektoren der Diskrimininanzfunktionen. Da Σ B höchstens Rang K-1 hat und Σ höchstens Rang p hat, kann der Rang von Σ −1 • Σ B und damit M höchstens min (K-1,p) sein. 10.14 Skizze der Herleitung Es seien W und A symmetrische Matrizen und zusätzlich W (aber nicht unbedingt A) positiv definit, also insbesondere von maximalem Rang. W steht für die Intragruppen Varianzkovarianzmatrix Σ , A für die (i.a. singuläre) Kreuzproduktmatrix Σ B . Basis des in 10.12 beschriebenen Verfahrens ist ein Satz über die simultane Spektralzerlegung von W und A bzw. Σ und Σ B . 10.15 Die Spektralzerlegung einer symmetrischen Matrix A Jede symmetrische Matrix A der Dimension p hat p nicht notwendig verschiedene Eigenwerte γ 1 ≥ γ 2 ≥ ... ≥ γ p . Die Zahl der von Null verschiedenen Eigenwerte ist identisch mit dem Rang der Matrix A. Wir werden den Fall γ i = γ j für i ≠ j für die Zukunft ausschließen. Bei realen Daten tritt er so gut wie nie auf. Als Spektralzerlegung von A bezeichnet man die Darstellung von A als Matrizenprodukt A = B • Λ • Bt Dabei sind die Spalten von B normierte (Länge = 1) Eigenvektoren von A und Λ ist die Diagonalmatrix der zugehörigen Eigenwerte. Falls Rang(A) = p ist B bis auf das Vorzeichen der Eigenvektoren eindeutig bestimmt. Falls Rang(A) < p kann man normierte orthogonale Eigenvektoren zum Eigenwert 0 ergänzen. Falls A eine Kovarianzmatrix ist, lässt sich aus der Spektralzerlegung sofort die Transformation auf Hauptachsen konstruieren, denn aus der Orthogonalität und Normierung der Eigenvektoren folgt sofort B t • B = 1p und daraus Bt • A • B = Λ Insofern diagonalisiert die Matrix B die Matrix A. 173 P.Martus, Multivariate Statistik, SoSe 2009 10.16 Die simultane Spektralzerlegung zweier symmetrischer Matrizen W und A Die Hauptkomponenten einer Kovarianzmatrix sind bis auf das Vorzeichen eindeutig festgelegt. Insofern wäre es ein großer „Zufall“, wenn sich zwei Matrizen W und A mit Hilfe derselben orthogonalen Matrix B spektral zerlegen bzw. diagonalisieren ließe. Wenn man aber zwei Einschränkungen macht, ist dies dennoch möglich. Man verlangt, dass zumindest eine der beiden Matrizen, W, invertierbar ist und man erlaubt, dass die Matrix B nicht mehr orthogonal ist und nennt diese dann Γ . Es gilt dann der Satz: Falls W und A symmetrische Matrizen sind und W invertierbar ist, existiert eine invertierbare Matrix Γ und eine Diagonalmatrix Λ , so dass gilt Γt •W • Γ = 1 Γt • A • Γ = Λ und Man sagt dann, dass W und A durch Γ simultan diagonalisiert werden. Die Bezeichnung Spektralzerlegung ist gerechtfertigt, weil ( ) • (Γ ) W = Γt −1 −1 und ( ) A = Γt −1 • Λ • (Γ ) −1 Weiterhin kann man zeigen, dass in der Tat die Eigenvektoren der Matrix W-1A Spalten von Γ sind (natürlich nicht alle, da ja W-1A i.a. nicht invertierbar ist). Die Matrix (Γ t ) bezeichnen wir im Folgenden mit H. In der Formel −1 bt Σ Bb = max b t Σb kann man nun für die Matrizen Σ und Σ B die gemeinsame Spektralzerlegung einsetzen und erhält bt • H • Λ • H t • b = max bt • H • H t • b Benennt man jetzt noch den Vektor „Ht•b“ um in „e“, dann erhält man die einfache Bedingung et • Λ • e = max . et e Wie man leicht sieht, sind die Einheitsvektoren e1 = (1,0,...,0), e2 = (0,1,0,...,0) ... die Lösungen dieses Maximierungsproblem. 174 P.Martus, Multivariate Statistik, SoSe 2009 ( ) −1 Die Rücktransformation b = H t • e = Γ • e führt auf das gewünschte Ergebnis, da die Bilder der Einheitsvektoren einer linearen Abbildung gerade die Spalten der Transformationsmatrix sind. Die simultane Spektralzerlegung selbst berechnet man aus der (gewöhnlichen) Spektralzerlegung S = B Λ Bt der Matrix S = Σ −1 / 2 • Σ B • Σ −1 / 2 mit orthogonalem B und Diagonalmatrix Λ . Die Spalten der Matrix Γ = Σ −1 / 2 B enthalten dann die Eigenvektoren der Matrix Σ −1 • Σ B 10.17 Berechnung der vorhergesagten Klassen Wenn man für zwei Gruppen die erste Diskriminanzfunktion oder für > 2 Gruppen die weiteren Diskriminanzfunktionen berechnet hat, stellt sich das Problem, unbekannte Objekte zu klassifizieren. Dies erfolgt üblicherweise durch Minimierung einer Verlustfunktion oder durch Maximierung der sogenannten a posteriori Wahrscheinlichkeit. Die a posteriori - Wahrscheinlichkeit gibt für jeden Beobachtungsvektor x = (x1,...,xp)t im Modell ( X ,K, X ) 1 p N (μ k , Σ ) ~ mit Klassenhäufigkeiten π 1 ,..., π K (a priori Wahrscheinlichkeiten) die nach der Bayesschen Formel berechnete (a posteriori) Wahrscheinlichkeit der Klassenzugehörigkeiten an. Diese wird folgendermaßen bestimmt: Berechne für alle m Diskriminanzfunktionen die Mittelwerte in den K Gruppen. Diese Mittelwerte werden mit μ km bezeichnet (k = 1,...,K; m = 1,...,M). Der Mittelwertsvektor für Gruppe k wird mit μ k bezeichnet. Berechne die Werte von x für die M Diskriminanzfunktionen Γ1 • x,..., ΓM • x . t t Dabei bezeichnet Γm die Spalte m der Matrix Γ . Dieses Werte werden mit d1,...,dM bezeichnet und im Vektor D zusammengefasst. 175 P.Martus, Multivariate Statistik, SoSe 2009 Berechne die k Funktionen μ ⎞ ⎛ t f k (D ) = μ k • ⎜ D − k ⎟ + ln π j 2 ⎠ ⎝ Die a posteriori-Wahrscheinlichkeit wird dann analog zur logistischen Regression berechnet: P[k | x] = P[k | D ] = exp[ f k ( D)] ∑ K l =1 exp[ f l ( D)] Die genannte Formel lässt sich aber auch rein geometrisch motivieren: Man bildet die Gruppenzentroide (= Mittelwerte) bezüglich der Diskriminanzfunktionen. Für ein neu zu klassifizierendes Objekt nimmt man diejenige Gruppe an, deren Zentroid das unbekannte Objekt am nächsten liegt. Wenn man alle Diskriminanzfunktionen verwendet, ist das äquivalent dazu, die Mahalanobisdistanz zu den Zentroiden auf der ursprünglichen Skala zu minimieren (vgl. die K-means Methode der Clusteranalyse). 10.18 Die Situation ungleicher Varianzen Bei ungleichen Varianzen führt die Theorie auf Diskriminanzfunktionen mit quadratischen Termen. In der Praxis ist diese Methode aber häufig sehr unstabil, im Gegensatz zur linearen Diskriminanzanalyse. Die Empfehlung lautet, die quadratische Diskriminanzanalyse nicht zu verwenden und besser gegen die Voraussetzungen auch bei ungleichen Varianzen eine lineare Diskriminanzanalyse zu rechnen. 176