Verallgemeinerte lineare Regressionsmodelle SS 2012 R. Dutter 8. März 2012 Dieses Skriptum dient zur Unterstützung der Vorlesung. Es ist im Prinzip als Hilfestellung und auch als (allerdings sehr knappes) Nachschlagewerk gedacht. Durch Einbeziehung von Übungsbeispielen mit statistischen Computerprogrammsystemen sollte es auch möglich sein, sich größtenteils selbständig in die Materie einzuarbeiten und Beispiele zu rechnen. Das Stichwortverzeichnis (Index) sollte das formale Finden von Prüfungsfragen (und eventuell deren Antworten) erleichtern. Inhaltsverzeichnis 1 Regression und Korrelation 1.1 Das Regressionsproblem . . . . . . . . . . . . . . 1.2 Schätzung der Parameter . . . . . . . . . . . . . . 1.3 Schätzungen und Tests bei Normalverteilung . . . 1.3.1 Konfidenzintervalle der Parameter . . . . . 1.3.2 Schätzung der Mittelwerte und zukünftiger 1.3.3 Test auf Abhängigkeit . . . . . . . . . . . 1.4 Das Korrelationsproblem . . . . . . . . . . . . . . 2 Varianzanalyse 2.1 Einleitung . . . . . . . . . . . . 2.2 Varianzanalyse - Modell I . . . 2.2.1 Einfache Varianzanalyse 2.3 Das allgemeine lineare Modell . 3 Multiple lineare Regression 3.1 Lineare Regression . . . . 3.2 Auswahl von Variablen . . 3.3 Diagnostik . . . . . . . . . 3.4 Robuste Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beobachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 3 5 6 7 . . . . 9 9 11 11 15 . . . . 23 23 28 29 31 4 Verallgemeinerte Modelle 34 Literaturverzeichnis 35 i Kapitel 1 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen betrachtet die gemeinsame Verteilung von zwei Variablen, von denen keine durch den Experimentator fixiert wird, beide sind also zufällig. Typische Regressionsprobleme sind z.B. beim Studium des Ernteertrages mit verschiedenen Mengen von Dünger, bei der Lebensdauer von Tieren bei verschiedenen Strahlungsdosen etc., zu finden. Dabei werden immer die Werte einer Variablen festgehalten, und diese unterliegen keiner zufälligen Variation. Ein typisches Korrelationsproblem wäre das Studium des Zusammenhangs zwischen Intelligenzquotienten und Schulleistung von Kindern. 1.1 Das Regressionsproblem Als einfaches Beispiel wollen wir den Zusammenhang der Verteilung des Gewichts von Männern mit ihrer Größe studieren. Dann wählen wir zu vorgegebenen Körpergrößen Männer zufällig aus und erhalten z.B. folgende Daten (siehe Abbildung 1.1). Für jede gewählte Größe x bekommen wir eine gewisse Verteilung der Gewichte Y der Männer mit dieser Größe. Von dieser können eventuell Mittel µy.x und 2 Varianz σy.x angegeben werden. Weil die Verteilung von Y von den Werten von x abhängt, wird Y auch als abhängige und x als unabhängige Variable bezeichnet. Es muss aber festgehalten werden, dass x hier keine Zufallsvariable darstellt. 2 Normalerweise wird die Varianz σy.x als konstant über x angenommen. In vielen Anwendungsbeispielen der Regressionsanalyse kann die Abhängigkeit der Mittelwerte von Y (µy.x ) von x im Bereich der x-Werte durch eine gerade Linie angegeben werden. Man spricht von einfacher, linearer Regression und schreibt z.B. µy.x = a + b(x − x̄) , wobei a und b feste Parameter darstellen. 1 1.2. Schätzung der Parameter x [cm] 150 150 150 155 155 155 155 160 160 175 175 175 y = Y (ω) [kg] 55 67.5 60 60 70 65 67.5 75 72.5 85 92.5 80 2 95 90 85 80 75 Y (in kg) 70 65 60 55 150 160 x (in cm) 170 180 Abbildung 1.1: Körpergewichte über den Größen. 1.2 Schätzung der Parameter Die Parameter der Regressionsgeraden müssen aus den Daten geschätzt werden. Dies geschieht zumeist mit der Methode der kleinsten Quadrate. Eine lineare, erwartungstreue Schätzung1 für a ist dann das arithmetische Mittel der Y -Werte, â = ȳ , und für b wobei s2x = sxy b̂ = 2 = sx 1 n−1 (xi − x̄)(yi − ȳ) , P (xi − x̄)2 P (xi − x̄)2 die empirische Varianz der x-Werte und P sxy = 1 X (xi − x̄)(yi − ȳ) n−1 die empirische Kovarianz (siehe später) zwischen x und Y bezeichnet. Sei ŷx der geschätzte mittlere Wert von Y an der Stelle x (also von µy.x ). Dann gilt µ̂y.x = ŷx = â + b̂(x − x̄) . 2 Eine erwartungstreue Schätzung für σ 2 = σy.x ist s2 = 1 1 X 1 X (yi − ŷi )2 = [yi − â − b̂(xi − x̄)]2 . n−2 n−2 : lm(y ∼ x) , aber Vorsicht: In wird x̄ nicht abgezogen! 1.3. Schätzungen und Tests bei Normalverteilung 3 s heißt auch mittlerer Fehler oder Standardabweichung der Beobachtungen. Bei der Berechnung der Werte für das obige Beispiel der Körpergewichte von Männern ergibt sich folgendes: P x P i y P i xy P i2 i x P 2i s2x s2y sxy b̂ s2 ŷx yi = = = = = = = 1 915 x̄ = = 850 ȳ = = 136 725 = 306 675 = 61 525 1 (306675 − 12 ∗ 159.582 ) 11 1 (61525 − 12 ∗ 70.832 ) 11 1 (136725 − 12 ∗ 159.38 ∗ 70.83) 11 98.11/97.54 11 (119.70 − 1.012 ∗ 97.54) 10 70.83 + 1.01(x − 159.58) 95 95 90 90 85 85 80 80 75 Y (in kg) 70 75 Y (in kg) 70 65 65 60 60 55 55 150 160 x (in cm) 170 180 159.58 70.83 = 97.54 = 119.70 = 98.11 = 1.01 = 23.12 150 160 x (in cm) 170 180 Abbildung 1.2: Regression der Körpergewichte über den Größen. In der rechten Skizze der Abbildung 1.2 sind auch die Residuen yi − ŷi , also die Differenzen zwischen den gemessenen und geschätzten Werten, angedeutet. Die Art der obigen Berechnung der Parameter â und b̂ ergibt sich auch aus dem Prinzip der kleinsten Quadrate, das heißt, die Gerade wird so gewählt, dass die Summe der quadrierten Residuen minimal wird. Die Motivierung kommt auch aus der Ausgleichsrechnung.2 1.3 Schätzungen und Tests bei Normalverteilung 1.3.1 Konfidenzintervalle der Parameter 2 Bis jetzt wurde nur angenommen, dass die Varianz σy.x = σ 2 für alle Werte von x gleich und dass die Regression linear ist. Wenn wir nun zusätzlich die Verteilung 2 : summary(lm(y ∼ x)) 1.3. Schätzungen und Tests bei Normalverteilung 4 von Y bei jedem Wert x als normal annehmen, können wir Konfidenzintervalle für die Parameter a, b, σ 2 und µy.x angeben. Es gilt dann, dass die Statistiken √ (Ȳ − a) n Ta = S und √ (b̂ − b)sx n − 1 Tb = S eine t-Verteilung mit n − 2 Freiheitsgraden besitzen, die Verteilung von (n − 2) S2 σ2 ist χ2n−2 mit n − 2 Freiheitsgraden. Konfidenzintervalle3 mit der Konfidenzzahl α erhält man folglich sofort als S S Ȳ − tn−2;1− α2 √ < a < Ȳ + tn−2;1− α2 √ , n n b̂ − tn−2;1− α2 und (n − 2) S S √ < b < b̂ + tn−2;1− α2 √ sx n − 1 sx n − 1 S2 χ2n−2;1− α < σ 2 < (n − 2) 2 S2 χ2n−2; α . 2 Für unser obiges Beispiel ergeben sich 90%-Konfidenzintervalle als s s 23.12 23.12 70.83 − 1.81 < a < 70.83 + 1.81 12 12 oder 68.32 < a < 73.34 , für b s s 23.12 23.12 1.01 − 1.81 < b < 1.01 + 1.81 97.54 ∗ 11 97.54 ∗ 11 oder .74 < b < 1.28 , und für σ 2 10 23.12 23.12 < σ 2 < 10 18.31 3.94 oder 12.63 < σ 2 < 58.68 . 3 : confint(lm(y ∼ x)) 1.3. Schätzungen und Tests bei Normalverteilung 1.3.2 5 Schätzung der Mittelwerte und zukünftiger Beobachtungen Ein Konfidenzintervall4 für den Mittelwert µy.x an der Stelle x erhält man mit der Formel v u u1 α St ŷx − tn−2;1− 2 v u u1 (x − x̄)2 (x − x̄)2 α St + + < µ < ŷ + t . y.x x n−2;1− 2 n (n − 1)s2x n (n − 1)s2x In unserem Beispiel erhalten wir für Männer mit x = 162.5 cm Körpergröße einen geschätzten mittleren Wert für das Körpergewicht ŷ162.5 = 70.83 + 1.01(162.5 − 159.58) = 73.78 und ein 95%-Konfidenzintervall s 73.78 − 2.23 23.12[ 1 (162.5 − 159.58)2 + ] < µy.162.5 12 11 ∗ 97.54 s < 73.78 + 2.23 23.12[ 1 (162.5 − 159.58)2 + ] 12 11 ∗ 97.54 oder 70.54 < µy.162.5 < 77.02 . Wollen wir eine Aussage über eine zukünftige Beobachtung y an der Stelle x machen5 , so kommt zur Varianz von ŷx noch ein σ 2 dazu und wir erhalten v u u α S t1 + ŷx − tn−2;1− 2 1 (x − x̄)2 + <y n (n − 1)s2x v u u α S t1 + < ŷx + tn−2;1− 2 1 (x − x̄)2 + . n (n − 1)s2x Dies ist ein Toleranzintervall für einen an der Stelle x zu beobachtenden Wert, das auf Grund der Information aus der Stichprobe gefunden wurde. Für unser Beispiel erhalten wir an der Stelle x = 162.5 (α = .05) s 73.78 − 2.23 23.12[1 + 1 (162.5 − 159.58)2 + ] < yx < . . . 12 11 ∗ 97.54 oder 62.58 < yx < 84.98 . 4 5 : predict(lm(y ∼ x), interval=’confidence’) : predict(lm(y ∼ x), interval=’prediction’) 1.3. Schätzungen und Tests bei Normalverteilung 1.3.3 6 Test auf Abhängigkeit Eine häufig aufgestellte Hypothese ist die der Abhängigkeit der Variablen Y von x. Eine Methode, diese zu testen, ist auf Gleichheit der Mittelwerte von Y bei allen Werten von x zu testen. Dieser Fall bedeutet aber in der betrachteten linearen Regression Ho : b = 0 . Algorithmisch würde ein Test so aussehen: 1. Die Hypothese b = 0 wird getestet. Wird sie verworfen, so gibt dies auf Grund der Stichprobe genügend Grund zur Annahme, dass Y von x abhängt. 2. Ho : b = 0 mit der Alternative b 6= 0 (oder > 0 oder < 0 ). 3. Man wähle ein α. 4. Die Teststatistik sei √ (b̂ − 0)sx n − 1 . T = S 5. Wenn die Verteilung von Y normal mit gleichem Mittel und Varianz für jedes x ist, so besitzt T eine t-Verteilung mit n − 2 Freiheitsgraden. 6. Der kritische Bereich wird dann als (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , ∞) berechnet. 7. Man berechne den Wert für T und sehe nach, ob er in den kritischen Bereich fällt. 8. Man verwerfe oder akzeptiere entsprechend die Nullhypothese. 9. Man ziehe die Schlussfolgerung über die Abhängigkeit oder Unabhängigkeit zwischen Y und x. In unserem numerischen Beispiel ergibt sich ein Wert für T als s 1.01 97.54 × 11 = 6.88 , 23.12 wobei der kritische Bereich (bei α = .05) mit T < −2.23 und T > 2.23 gegeben ist, sodass wir auf Abhängigkeit des Körpergewichts von der Körpergröße schließen müssen. 1.4. Das Korrelationsproblem 1.4 7 Das Korrelationsproblem Im Gegensatz zur Abhängigkeit einer Zufallsvariablen von einer deterministischen Größe betrachten wir jetzt den Zusammenhang zwischen zwei zufälligen Größen. In einer Stichprobe müssen hier immer paarweise Messungen vorliegen. Meistens werden Analysen unter der Annahme, dass das Paar der betrachteten Zufallsvariablen (X, Y ) eine bivariate Normalverteilung aufweist, durchgeführt. Diese ist in Abbildung 1.3 dargestellt. Es ist keine der Variablen ausgezeichnet. Bei jedem fixen Wert von X besitzt Y eine Normalverteilung und umgekehrt. Neben den Mittel2 werten µX , µY und den Varianzen σX = E(X − µX )2 , σY2 = E(Y − µY )2 dient zur Charakterisierung dieser bivariaten Verteilung als Maß der Abhängigkeit zwischen X und Y noch die Kovarianz σXY = E[(X − µX )(Y − µY )] . y Abbildung 1.3: Dichte der bivariaten Normalverteilung. Als relative (dimensionslose) Größe ist die Korrelation zwischen X und Y als ρXY = σXY σX σY definiert. Ihr Wert liegt zwischen -1 und +1. Unabhängigkeit der beiden Variablen bedeutet σXY = 0 und damit ρXY = 0. Als Schätzung für ρ dient meistens der empirische Korrelationskoeffizient rXY = 1 1 X (xi − x̄)(yi − ȳ) . sX sY n − 1 Das am Anfang des Kapitels angeführte Beispiel der Körpergrößen und Gewichte kann natürlich auch als Korrelationsproblem interpretiert werden. Als em- 1.4. Das Korrelationsproblem 8 pirischen Korrelationskoeffizient errechnen wir 98.11 rXY = √ = .91 . 97.54 ∗ 119.70 Test auf Unkorreliertheit Sind die beiden Zufallsvariablen X und Y voneinander unabhängig und normalverteilt, so besitzt die Statistik s T =R n−2 1 − R2 eine tn−2 -Verteilung, wobei R die Zufallsvariable bezeichnet, die die Werte des empirischen Korrelationskoeffizienten rXY annimmt. T kann sofort als Teststatistik zum Testen der Nullhypothese Ho : ρ = 0 verwendet werden. Bei Spezifizierung der Gegenhypothese H1 : ρ 6= 0 ergibt sich als kritischer Bereich | T | > tn−2;1− α2 6 . Beispiel 1.1: Betrachten wir die Abhängigkeit des Eisengehaltes Y (in %) kieseliger Hämatiterze von der Dichte X (g/cm3 ), wie im Beispiel auf Seite ??. Nun testen wir Ho : ρ = 0 gegen H1 : ρ 6= 0 mit α = .05. Der Wert des empirischen Korrelationskoeffizienten R beträgt r = .69. Mit n = 9 ergibt sich der Wert der Teststatistik T als s s n−2 7 = .69 = 2.52 , t=r 2 1−r 1 − .692 was absolut größer als tn−2;1− α2 = t7;.975 = 2.365 ausfällt. Die Hypothese der Unkorreliertheit muss daher verworfen werden. 6 : cor.test(Daten1, Daten2) Kapitel 2 Varianzanalyse 2.1 Einleitung Die Varianzanalyse (analysis of variance - ANOVA) stellt ein häufig verwendetes und effizientes Verfahren der angewandten Statistik zur Auswertung komplexer Versuche dar. Sie wurde von R.A. Fisher in den Zwanzigerjahren zur statistischen Auswertung von Feldversuchen entwickelt und seither laufend zu einer wirkungsvollen Methode zur Analyse ähnlicher und auch komplexerer Versuchsanordnungen verbessert und ausgebaut. Klassische und auch heute noch umfassende Werke sind in erster Linie die Bücher von Scheffé (1959) und Cochran and Cox (1957). Neuere Bücher, auch mit multivariaten Modellen (MANOVA), wären Afifi and Azen (1979), Hartung et al. (1984, 1986), Seber (1977) oder Winer (1971). Die folgenden Beispiele stellen eine bescheidene Auswahl von Situationen dar, die mit Modellen der Varianzanalyse behandelt werden können. Beispiel 2.1: Vier Weizensorten werden hinsichtlich ihrer Erträge verglichen; bei verschiedenen Landwirten ergaben sich nachfolgende Werte, wobei jeder Landwirt bloß eine Sorte anbaut: Sorte 1 2 3 4 82 83 96 88 94 78 110 98 100 68 107 82 Erträge 84 92 80 86 104 106 90 96 102 98 Liefern die Sorten durchschnittlich gleiche Erträge? Ist die Sorte 3 ertragreicher? Beispiel 2.2: Für den Autobahnbau wurden im Raum Wr. Neustadt Voruntersuchungen für die Schottergewinnung durchgeführt. Dabei wurden an drei Plätzen mehrere Proben genommen und (als eines von mehreren wichtigen Qualitätsmerkmalen) für jede Probe die durchschnittliche Korngröße ermittelt. Dabei fielen folgende Werte an: 9 2.1. Einleitung 10 Bereich 1 2 3 14 21 12 Probe (in 18 14 15 14 10 13 mm) 16 15 18 21 14 14 Beispiel 2.3: Im Zuge der Errichtung einer komplexen Reinigungsanlage wurden unter anderem drei Typen einer speziellen Düsenart untersucht. Hiezu führten fünf Ziviltechniker jeweils drei Messungen an allen drei Düsentypen durch. Dabei ergab sich folgende Aufstellung, wobei die Werte als Durchflussindex kodiert sind: Düsentype A B C 6 13 10 1 6 6 10 -15 13 -11 26 4 -35 2 12 4 0 5 11 -14 Techniker 3 11 4 4 17 10 17 11 -10 -17 21 -5 12 4 14 2 -2 7 -5 -16 25 15 -4 5 18 25 8 1 10 24 Die angeführten Beispiele deuten bereits auf die unterschiedlichen Fragestellungen und damit auch Modelle der Varianzanalyse hin. Gemeinsam ist allen drei Beispielen eine beobachtbare (abhängige) Größe (Ertrag, Korngröße, Durchflussindex), deren Beeinflussung durch externe Einflüsse zu untersuchen ist. Im ersten Beipiel steht die Frage im Vordergrund, ob die vier Weizensorten den gleichen durchschnittlichen Ernteertrag aufweisen. Es wird also der Einfluss des Faktors Weizensorte“ auf den Ernteertrag untersucht, wobei die Stufen des ” Faktors fix vorgegeben sind und daher einen bestimmten, allerdings durch andere Unsicherheiten noch unbekannten Einfluss auf den Ernteertrag aufweisen. Man spricht daher von einem Modell mit festen Effekten oder auch vom Modell I. Der offensichtliche Unterschied in der Ausgangssituation zwischen dem ersten und zweiten Beispiel liegt in der Art des Einflussfaktors. Während im ersten Fall die Stufen (= Ausprägungen des Faktors) fest vorgegeben sind, fehlt diese Bestimmtheit im zweiten Fall. Die Gruppen (= Proben in einem konkreten Bereich) stellen keine festen Stufen eines Faktors dar, sondern sind durch die mehr oder weniger zufällige Auswahl von drei Probenbereichen entstanden. Der Einfluss, den diese auf die durchschnittliche Korngröße ausüben, erklärt sich möglicherweise aus der Entfernung eines Probenbereiches zu einem ehemaligen Flussverlauf, aus der relativen Erhöhung gegenüber dessen Niveau oder ähnlichen meist unbekannten Gründen. Diese Unkenntnis zusammen mit der willkürlichen Auswahl der Probenbereiche führt zu einem zufälligen Einfluss des Faktors Probenbereich“ auf die ” durchschnittliche Korngröße, der dann noch durch kleine Unsicherheiten und Ungenauigkeiten wie im ersten Beispiel überlagert wird. Man spricht daher hier von einem Modell mit zufälligen Effekten oder auch vom Modell II der Varianzanalyse. Eine typische Fragestellung ergibt die Analyse von Varianzkomponenten einer beobachteten Größe, die dem Einfluss bestimmter Faktoren zugeschrieben werden können. Eine Mischung der beiden Aspekte treffen wir im dritten Beispiel. Die Düsentype hat (möglicherweise) einen festen Einfluss auf die Durchflussmenge, die 2.2. Varianzanalyse - Modell I 11 untersuchenden Techniker aber sicherlich einen zufälligen, da sie aus der (großen) Zahl von in Frage kommenden Technikern (mit jeweils spezifischen Einfluss auf das Messergebnis) willkürlich herausgegriffen wurden. Wir sprechen hier von einem gemischten Modell oder einem Modell III. Allen Modellen gemeinsam ist das Prinzip, das zur Herleitung geeigneter Methoden für die Beantwortung aufgeworfener Fragen verwendet wird. In jedem Fall wird die Gesamtvarianz“ X ” const × (y − ȳ)2 , y in der y alle Beobachtungen durchläuft und ȳ das (Gesamt-)Mittel darüber darstellt, in entsprechende Teile (Komponenten) aufgespaltet, die miteinander verglichen werden. Daraus leitet sich auch der Name dieser Verfahren ab. 2.2 2.2.1 Varianzanalyse - Modell I Einfache Varianzanalyse Wir untersuchen den Einfluss eines Faktors A mit I Stufen auf die abhängige und beobachtbare Größe y. Dazu werden pro Stufe Ji Versuche durchgeführt; yij (i = 1, . . . , I, j = 1, . . . , Ji ) bezeichne den beobachteten Wert von y im j-ten Versuch bei Behandlung (Stufe) i. Die Zufallsvariable yij wird dann üblicherweise als Summe eines für die Stufe i spezifischen Mittelwertes µi und eines zufälligen Fehlers eij interpretiert: yij = µi + eij (i = 1, . . . , I, j = 1, . . . , Ji ) . Zumeist interessieren aber die Abweichungen αi von einem Gesamtmittel µ, die durch die Behandlung i entstehen, sodass üblicherweise die Beziehung yij = µ + αi + eij (i = 1, . . . , I, j = 1, . . . , Ji ) (2.1) gewählt wird. Da in diesem Fall für die I + 1 Parameter µ, α1 , . . . , αI nur I Beziehungen (nämlich die Stufen des Faktors A) vorhanden sind, wählt man als Nebenbedingung meist I X Ji αi = 0 . (2.2) i=1 Die Fehler eij werden in der Standardanalyse unabhängig normalverteilt mit konstanter Varianz σ 2 angenommen (Homoskedastizität). Damit lautet das Modell für die einfache Varianzanalyse yij = µ + αi + eij (i = 1, . . . , I, 2 eij ∼ N (0, σ ) unabhängig. j = 1, . . . , Ji ) (2.3) 2.2. Varianzanalyse - Modell I 12 Für die Frage, ob der Faktor A einen Einfluss auf die abhängige Größe hat, testet man die Nullhypothese HA : α1 = α2 = . . . = αI = 0 (2.4) (Gegenhypothese: mindestens ein Ungleichungszeichen). Zur Herleitung der Teststatistik versucht man, die Gesamtvariation der Beobachtungen aufzuspalten in einen Teil, der die Schwankung der Gruppen (als Gruppe werden alle Beobachtungen zu einer Stufe des Faktors A aufgefasst) um einen gemeinsamen Mittelwert beschreibt (Variation zwischen den Gruppen), und einen zweiten, der das Streuverhalten innerhalb der Gruppen erfasst. Wesentlich für die Untersuchung ist dann die Schwankung der Gruppenmittel relativ zum Streuverhalten innerhalb der Gruppen (die nur mehr die unkontrollierbare Zufälligkeit enthalten). Mit den Abkürzungen ȳi. = Ji 1 X yij Ji j=1 und ȳ.. = PI Ji I X X 1 i=1 Ji yij i=1 j=1 nützt man die Identität (yij − ȳ.. ) = (yij − ȳi. ) + (ȳi. − ȳ.. ) | {z | } {z } zwischen innerhalb und erhält für die Gesamtquadratsumme SST = Ji I X X i=1 j=1 2 (yij − ȳ.. ) = Ji I X X 2 I X } | (yij − ȳi. ) + i=1 j=1 | Ji (ȳi. − ȳ.. )2 i=1 {z SSe +2 I X (ȳi. − ȳ.. ) i=1 {z SSA Ji X (yij − ȳi. ) j=1 | = SSe + SSA } , {z 0 } (2.5) also die oben erwähnte Aufspaltung in eine Quadratsumme (engl. sum of squares, SS ) SSA zwischen den Gruppen und eine, nämlich SSe , innerhalb derselben. Bei starken Gruppeneinflüssen wird SSA größer ausfallen als im Falle eines fehlenden Gruppeneinflusses, wogegen SSe davon (theoretisch) unbeeinflusst bleibt. Daher wird der Einwand gegen die Nullhypothese HA umso stärker sein, je größer SSA relativ zu SSe ausfällt. 2.2. Varianzanalyse - Modell I 13 Für die exakte Formulierung der Teststatistik sind noch die statistischen Eigenschaften der Quadratsummen notwendig. Im Modell (2.3) gilt Ji X (yij − ȳi. )2 ∼ σ 2 χ2Ji −1 , j=1 da die Fehler eij unabhängig normalverteilt sind. Aus dem Additionstheorem der χ2 –Verteilung folgt somit SSe = Ji I X X (yij − ȳi. )2 ∼ σ 2 χ2P(Ji −1) = σ 2 χ2n−I . i=1 j=1 Als mittlere Quadratsumme (engl. mean squares, MS ) wird der Quotient einer SS durch die Anzahl ihrer Freiheitsgrade bezeichnet. Damit erhält man mit M Se = P SSe /( Ii=1 Ji −I) einen erwartungstreuen Schätzer für σ 2 , d.h. der Erwartungswert (engl. expected mean squares, EMS ) ist EM Se = σ 2 . Aus diesem Grund wird SSe oft auch Fehler–Quadratsumme (engl. error sum of squares) genannt. Unter der Nullhypothese HA gilt für die Verteilung von SSA SSA = I X Ji (ȳi. − ȳ.. )2 ∼ σ 2 χ2I−1 , i=1 also eine χ2 –Verteilung mit I − 1 Freiheitsgraden (engl. degrees of freedom, df ), wobei SSA und SSe unabhängig sind (Satz von Cochran). Daher ist dann die Statistik SSA /(I − 1) M SA F = = ∼ FI−1,n−I M Se SSe /(n − I) F–verteilt. Wie oben angedeutet, sind große Werte für diese Statistik signifikant, sodass die Nullhypothese HA dann zum Signifikanzniveau α zu verwerfen ist, falls F = M SA > FI−1,n−I;1−α M Se gilt. Wird HA hingegen nicht verworfen, nimmt man an, dass die I Stufen des Faktors A keinen (nennenswerten) Einfluss auf das Mittel der beobachteten Variable y haben (Achtung vor einem Fehler 2. Art!) > werner_bcd <- matrix(scan("werner_bcd.txt", na.strings = "*"), + ncol = 9, byrow = T) > dimnames(werner_bcd) <- list(werner_bcd[, 1], c("ID", "AGE", + "HEIGHT", "WEIGHT", "BRTHPILL", "CHOLSTRL", "ALBUMIN", "CALCIUM", + "URICACID")) > werner_bcd_corr <- werner_bcd[werner_bcd[, "CHOLSTRL"] > 150 & + werner_bcd[, "CHOLSTRL"] < 400, ] 2.2. Varianzanalyse - Modell I > > > > > > 14 werner_bcd_corr <- as.data.frame(werner_bcd_corr) AGE_fac <- cut(werner_bcd_corr[, "AGE"], c(18, 25, 32, 42, 55)) werner_bcd_corr <- cbind(werner_bcd_corr, AGE_fac) rm(AGE_fac) r_aov <- aov(CHOLSTRL ~ AGE_fac, data = werner_bcd_corr) anova(r_aov) Analysis of Variance Table Response: CHOLSTRL Df Sum Sq Mean Sq F value Pr(>F) AGE_fac 3 39738 13246.1 8.1641 3.96e-05 *** Residuals 182 295291 1622.5 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Die im Zuge einer Varianzanalyse berechneten Zwischen- und Testgrößen werden üblicherweise in Tabellenform nach dem Schema in Tab. 2.1 angeordnet. Dabei Tabelle 2.1: Einfache Varianzanalyse Ursprung der Variabilität A SS PI i=1 Ji (ȳi. − ȳ.. )2 d.f. MS F p I −1 SSA I−1 M SA M Se pA Fehler PI PJi (yij − ȳi. )2 n − I SSe n−I − − Total PI PJi (yij − ȳ.. )2 n − 1 − − − i=1 i=1 j=1 j=1 enthält die Spalte F“ den berechneten Wert der entsprechenden F–Statistik und ” die Spalte p“ die Wahrscheinlichkeit, dass unter der jeweiligen Nullhypothese die ” Teststatistik einen Wert größer oder gleich dem tatsächlich berechneten annimmt. Um Schätzwerte für die in (2.3) verwendeten Parameter µ und αi zu berechnen, wendet man die Methode der kleinsten Quadrate (engl. least squares, LS ) an und minimiert die Summe der Residuenquadrate S= Ji I X X (yij − µ − αi )2 . i=1 j=1 Für die partiellen Ableitungen nach den Parametern gilt Ji I X X ∂S = (−2) (yij − µ − αi ) ∂µ i=1 j=1 Ji X ∂S = (−2) (yij − µ − αi ) . ∂αi j=1 2.3. Das allgemeine lineare Modell Aus der Nebenbedingung PI i=1 Ji αi = 0 erhält man sofort die LS –Schätzer α̂i = ȳi. − ȳ.. µ̂ = ȳ.. > > > > + + > > 15 . attach(werner_bcd_corr) mu <- mean(CHOLSTRL) alpha <- levels(AGE_fac) FUN <- function(x) { fitted.values(r_aov)[AGE_fac == x][1] - mu } alpha <- apply(as.matrix(alpha), 1, FUN = FUN) detach(werner_bcd_corr) µ̂ α̂1 α̂2 α̂3 α̂4 2.3 Wert 236.15 -14.03 -11.03 4.75 22.41 Das allgemeine lineare Modell Die Modelle der Varianzanalyse mit festen Effekten lassen sich in einen allgemeineren Ansatz einbinden, der als Konzept der linearen Modelle bekannt ist. Dabei wird eine beobachtbare Zufallsgröße als linearer Ausdruck gegebener, bekannter Größen und unbekannter (aber fester) Parameter dargestellt, dem eine zufällige, additive Störgröße überlagert ist. Im Falle von n Beobachtungen y1 , . . . , yn ergibt sich dann: y1 = x11 β1 + x12 β2 + . . . + x1p βp + e1 y2 = x21 β1 + x22 β2 + . . . + x2p βp + e2 .. .. .. .. .. .. . . . . . . yn = xn1 β1 + xn2 β2 + . . . + xnp βp + en . Die Fehlerterme ei werden üblicherweise mit Mittel 0 und gleicher Varianz σ 2 (Homoskedastizität) normalverteilt und unabhängig angenommen. Damit lässt sich der obige Ansatz zu einem linearen Modell in Matrixschreibweise y = Xβ+e e ∼ N (0, σ 2 I n ) (2.6) zusammenfassen mit y = (y1 , . . . , yn )> e = (e1 , . . . , en )> β = (β1 , . . . , βp )> 2.3. Das allgemeine lineare Modell 16 und der Designmatrix X ∈ IRn×p X= x11 x12 · · · x1p x21 x22 · · · x2p .. .. .. .. . . . . xn1 xn2 · · · xnp . Beispiel 2.4: Der einfache lineare Regressionsansatz yi = β1 + β2 xi + ei i = 1, . . . , n ist ein lineares Modell mit der Designmatrix 1 ··· 1 x1 · · · xn X= !> und dem Parametervektor β = (β1 , β2 )> . Für den Rang von X gilt, wenn nicht alle xi gleich sind, offensichtlich rg(X) = 2. Beispiel 2.5: Der Ansatz der einfachen Varianzanalyse aus Abschnitt ?? stellt in der Form yij = µ + δ1i α1 + δ2i α2 + . . . + δIi αI + eij und ( δk` = 1 0 für k = ` sonst ein lineares Modell mit der Designmatrix X= 1 ... 1 0 .. . 1 1 0 .. . 1 ... 0 1 .. . 1 ... 0 1 .. . 1 ... 0 0 .. . 1 0 0 .. . 0 ... 0 0 ... 0 ... 1 ... 1 | {z J1 } | {z J2 } | {z JI > I . } Wie man unmittelbar erkennt, gilt rg(X) = I. Um einen Schätzer für den unbekannten Parametervektor β zu erhalten, verwendet man - wie im vorigen Kapitel bereits angedeutet - die LS–Methode. Minimieren von p S(y, β) := n X i=1 (yi − X xij βj )2 = ky − Xβk2 j=1 führt nach dem Nullsetzen von ∂S(y, β) = −2 X > y + 2 X > Xβ ∂β (2.7) 2.3. Das allgemeine lineare Modell 17 auf die Normalgleichungen X > Xβ = X > y. (2.8) Es existiert mindestens eine LS-Lösung β̂, für die die Gleichung (2.8) eine notwendige Bedingung darstellt. Geometrisch lässt sich ŷ = X β̂ als Projektion von y ∈ IRn auf den durch die Spaltenvektoren von X erzeugten linearen Unterraum des IRn interpretieren. Der Residuenvektor y − ŷ besitzt minimale euklidische Länge. Es gilt nunmehr: 1. Falls rg(X) = p, so ist X > X regulär und es gilt für die nunmehr eindeutige LS–Lösung β̂ = (X > X)−1 X > y . (2.9) 2. In diesem Fall gilt für die Kovarianzmatrix der LS–Lösung β̂ Σβ̂ = σ 2 (X > X)−1 . (2.10) 3. Ein erwartungstreuer Schätzer für σ 2 ergibt sich durch s2 = σc2 = 1 1 S(y, β̂) = ky − X β̂k2 n−r n−r (2.11) mit r = rg(X). Auf Grund der Normalverteilungsvoraussetzung in Modell (2.6) ist (n − r) s2 /σ 2 dann χ2n−r –verteilt. Falls rg(X) < p, ist die LS–Lösung nicht eindeutig. An Möglichkeiten zur Behebung dieses Problems bieten sich an: • Man betrachtet ein reduziertes Problem mit bloß r = rg(X) Parametern βj∗∗ , indem man aus den p Spaltenvektoren ξ j = (x1j , . . . , xnj )> von X, die einen r–dimensionalen Unterraum Vr des IRn aufspannen, r linear unabhängige auswählt und nur die entsprechenden βj betrachtet. Durch Streichen der übrigen Spalten hat die neue Matrix X ∗ Maximalrang und β ∗ = (β1∗ , . . . , βr∗ )> kann nunmehr eindeutig aus (2.8) geschätzt werden. Diese Form stellt einen Spezialfall der sogenannten Reparametrisierung dar. • Man wählt q geeignete Linearkombinationen pj=1 h`j βj , ` = 1, . . . , q in den βj und verlangt, dass ein LS–Schätzer für β auch die Bedingung P H β̂ = 0 , mit H = (h`j )`=1,...,q, j=1,...,p (2.12) erfüllt. Diese Lösung wird eindeutig, falls die Zeilen von X und H eine Zerlegung des IRp in zwei orthogonale Komponenten definieren. Dies stellt auch die übliche Art zur Erzielung der Eindeutigkeit dar (siehe auch im vorigen Abschnitt über die einfache Varianzanalyse). 2.3. Das allgemeine lineare Modell 18 • Man kann auch einfach vom numerischen Standpunkt her verallgemeinerte Matrixinverse verwenden, die sich allerdings auch als Spezialfall des vorigen darstellen lassen. Schätzbare Funktionen Unter einer Parameterfunktion ψ versteht man eine lineare Funktion der unbekannten Parameter β1 , . . . , βp ψ = ψ(β) = p X cj β j = c > β , (2.13) j=1 wobei die Koeffizienten c1 , . . . , cp bekannt sind. Sie heißt schätzbar, falls für ψ ein linearer, erwartungstreuer Schätzer ψ̂ = a> y mit a ∈ IRn existiert, für den also E(a> y) = ψ (2.14) identisch für alle β gilt. Es lässt sich leicht zeigen, dass eine Parameterfunktion genau dann schätzbar ist, falls ein Vektor a ∈ IRn existiert mit c> = a> X . (2.15) Einen Spezialfall schätzbarer Funktionen stellen in der Varianzanalyse (lineare) Kontraste dar, für die ψ = ψ(β) = p X cj βj j=1 außerdem pj=1 cj = 0 erfüllen muss. Beispiel 2.6: Ergibt eine einfache Varianzanalyse, dass die Hypothese HA verworfen wird, also die αi nicht alle gleich (null) sind, stellt sich die Frage, welche Stufenmittel von A besonders differieren: unterscheidet sich α1 von α3 , oder ist zwischen den Gruppen mit Effekten α1 , α2 bzw. α4 , α5 , α6 ein Unterschied festzustellen? Zur Beantwortung dieser Fragen betrachtet man Kontraste der Form ψ1 = α1 − α3 und ψ2 = 21 (α1 + α2 ) − 13 (α4 + α5 + α6 ). Dass es sich dabei um schätzbare Funktionen handelt, ergibt sich daraus, dass µ + αi , i = 1, . . . , I, schätzbar sind (der dazugehörende Koeffizientenvektor c tritt sogar als Zeile in X auf) und demnach auch alle Linearkombinationen davon. P Satz von Gauß–Markoff Jede im Modell (2.6) schätzbare Funktion ψ = c> β besitzt einen erwartungstreuen, in der Klasse der linearen Schätzer effizienten Schätzer ψb (engl. best linear unbiased estimator, BLUE ) . Dieser ergibt sich als ψb = a> y = c> β̂ , (2.16) 2.3. Das allgemeine lineare Modell 19 indem man also einfach in die Parameterfunktion eine LS-Lösung β̂ von β anstelle des Parametervektors einsetzt. Weiters gilt mit a aus (2.15) für die Varianz von ψ̂ σψ̂2 2 > =σ a a=σ 2 n X a2i . i=1 Ein erwartungstreuer Schätzer dafür ergibt sich als σcψ̂2 = s2 n X a2i i=1 mit s2 aus (2.11). Vertrauensbereiche für schätzbare Funktionen: Für q schätzbare Funktionen ψ` = p X c`j βj (` = 1, . . . , q) (2.17) j=1 im linearen Modell (2.6) mit den LS–Schätzern c = ψ ` n X a`i yi (` = 1, . . . , q) (2.18) i=1 gilt: 1. mit A = (a`i )`=1,...,q, i=1,...,n und ψ = (ψ1 , . . . , ψq )> ist ψ̂ ∼ N (ψ, Σψ̂ ) , Σψ̂ = σ 2 AA> ; (2.19) 2. die beiden Schätzer ψ̂ und s2 sind unabhängig. Dabei geht die Annahme der Normalverteilung wesentlich ein. Falls die ψ` linear unabhängig sind (d.h. A hat vollen Rang), folgt aus obigem zusammen mit (2.11) (ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ) ∼ Fq,n−r q s2 , (2.20) woraus man unmittelbar Tests und Konfidenzbereiche herleiten kann. So ist etwa die Nullhypothese H0 : ψ1 = . . . = ψq = 0 auf dem Signifikanzniveau α zu verwerfen, falls > ψ̂ (AA> )−1 ψ̂ > q s2 Fq,n−r;1−α (2.21) ausfällt. Ein gemeinsames, q–dimensionales Konfidenzellipsoid für ψ1 , . . . , ψq zur Überdeckungswahrscheinlichkeit 1 − α erhält man als (ψ̂ − ψ)> (AA> )−1 (ψ̂ − ψ) ≤ q s2 Fq,n−r;1−α . (2.22) 2.3. Das allgemeine lineare Modell 20 Simultane Konfidenzintervalle Im Gegensatz zu den obigen (evtl. mehrdimensionalen) Konfidenzbereichen werden hier Verfahrensregeln angegeben, die gleichzeitig (simultan) für alle schätzbaren Funktionen aus einem von q linear unabhängigen schätzbaren Funktionen ψ1 , . . . , ψq aufgespannten Raum L Konfidenzintervalle mit gemeinsamer Überdeckungswahrscheinlichkeit 1−α liefern. Diese stellen speziell für Modelle der Varianzanalyse eine Alternative zu den dabei verwendeten Tests simultaner Hypothesen der Form H0 : β1 = β2 = . . . = βq dar (vgl. Kontraste in der Varianzanalyse). Eine sehr allgemeines Verfahren zur Konstruktion ist die S–Methode (nach q Scheffé): Mit k = q Fq,n−r;1−α gilt für simultane Konfidenzintervalle schätzbarer Funktionen ψ ∈ L √ √ ψb − k s a> a ≤ ψ ≤ ψb + k s a> a , (2.23) wobei ψb = a> y den LS–Schätzer gemäß (2.14) darstellt. In der Literatur ist daneben noch die T–Methode (nach Tukey) sehr verbreitet, doch gilt diese nur für Kontraste und ist nur bei einfacher Gestalt derselben (z.B. einfache Differenzen) der S–Methode vorzuziehen. Hypothesen im linearen Modell Ausgehend vom Modell (2.6), im folgenden mit Ω abgekürzt, Ω : y = Xβ+e e ∼ N (0, σ 2 I n ) , betrachtet man eine (Null–) Hypothese H H : ψ1 = ψ2 = . . . = ψq = 0 mit q linear unabhängigen, schätzbaren Funktionen ψ` steht ein neues, eingeschränktes lineares Modell ω =Ω∩H . (` = 1, . . . , q). Damit ent(2.24) Während Ω in dem von den p Spalten von X aufgespannten r–dimensionalen Unterraum Vr ⊂ IRn (r = rg(X)) operiert, ist das neue Modell auf Grund der Annahmen über H auf einen (r − q)–dimensionalen Unterraum Vr−q von Vr eingeschränkt (für Beweise siehe Scheffé, 1959). Bezeichnen SΩ bzw. Sω die Minimalausdrücke für die Residuenquadratsumme (2.7) und stehen ŷ bzw. ŷ ω für den LS–Schätzer jeweils im Modell Ω bzw. ω, so gibt die Abb. 2.1 (aus Scheffé, 1959) den geometrischen Zusammenhang wieder. Mit den für quadratische Formen normalverteilter Zufallsgrößen bekannten Eigenschaften gilt nun im Modell Ω der geometrisch anschauliche Sachverhalt: 2.3. Das allgemeine lineare Modell 21 Abbildung 2.1: Geometrische Deutung im linearen Modell y ^ y 0 y-y^ω .. : Lange = Sω y-y^ .. : Lange = SΩ = ^ y-y^ .. : Lange = Sω SΩ = SSe ^ yω ω Vr-q 1. SΩ = SSe = ky − ŷk2 ∼ σ 2 χ2n−r SSH Vr ; 2. Sω −SΩ = SSH = kŷ− ŷ ω k2 ∼ σ 2 χ2q,δ , d.h. SSH besitzt eine nichtzentrale χ2 – Verteilung mit Nichtzentralitätsparameter δ = kP Vq X βk/σ, wobei P Vq die Projektion auf Vq mit Vr = Vq ⊕Vr−q darstellt. Im Modell ω, d.h. bei Gültigkeit der Hypothese H, ist SSH dann zentral χ2 –verteilt mit q Freiheitsgraden; 3. y − ŷ und ŷ − ŷ ω sind statistisch unabhängig (orthogonal!). Daraus folgt unmittelbar, dass bei gültiger Hypothese H F = n − r SSH n − r Sω − SΩ = q SΩ q SSe (2.25) F–verteilt ist mit q und n−r Freiheitsgraden. Für theoretisch Interessierte sei angemerkt, dass es sich bei dieser F–Statistik um eine einfach transformierte Likelihood– Quotienten–Statistik für die zwei in Betracht kommenden Modelle handelt. Beispiel 2.7: Die für die einfache Varianzanalyse im Abschnitt ?? betrachtete Hypothese HA : α1 = . . . = αq lässt sich nach dem obigen Schema durch die q − 1 unabhängigen schätzbaren Funktionen ψl = αl − αl+1 (l = 1, . . . , q − 1) beschreiben. Zusammen mit Beispiel 2.5 ergeben sich damit sofort die Aussagen aus Abschnitt ??. Offensichtlich scheint die Hypothese H wenig plausibel, wenn y − ŷ deutlich kleiner als y − ŷ ω ausfällt, wenn also y im Modell Ω viel besser als im Modell ω (d.h. unter der Hypothese H ) erklärt wird. Misst man mit der üblichen L2 –Norm, so ist dies genau dann der Fall, wenn kŷ − ŷ ω k im Vergleich zu ky − ŷk groß wird, bzw. wenn der Wert der F–Statistik groß ist. Damit ist die Hypothese auf dem Signifikanzniveau α zu verwerfen, wenn n − r SSH > Fq,n−r;1−α q SSe gilt. (2.26) 2.3. Das allgemeine lineare Modell 22 Geschachtelte Hypothesen im linearen Modell Betrachtet man anstelle bloß einer Hypothese eine Reihe von h (≥ 1) Hypothesen H1 , H2 , . . . , Hh , die jeweils qk (k = 1, . . . , h) schätzbare Funktionen gleich 0 setzen, wobei die q1 + . . . + qh schätzbaren Funktionen linear unabhängig seien, so lässt sich eine Folge geschachtelter“ Hypothesen bzw. Modelle der Form ” Ω, ω1 = Ω ∩ H1 , ω2 = Ω ∩ H1 ∩ H2 , . . . · · · , ωh = Ω ∩ H1 ∩ . . . ∩ Hh definieren. Analog zum einfachen Fall ergibt sich eine zugehörende Folge Vr = V 0 ⊃ V (1) ⊃ . . . ⊃ V (k) von Aktionsräumen V (k) der Modelle ωk mit den Projektionen ŷ ωk von y auf eben diese Räume. Es gilt nunmehr, dass sich y durch y = (y − ŷ) + (ŷ − ŷ ω1 ) + (ŷ ω1 − ŷ ω2 ) + . . . + (ŷ ωh−1 − ŷ ωh ) + ŷ ωh , (2.27) in h + 2 paarweise orthogonale Vektoren zerlegt lässt, woraus kyk2 = ky − ŷk2 +kŷ − ŷ ω1 k2 +kŷ ω1 − ŷ ω2 k2 +. . .+kŷ ωh−1 − ŷ ωh k2 +kŷ ωh k2 (2.28) folgt. Diese Abstandsquadrate sind unabhängig und besitzen im Modell Ω eine nichtzentrale χ2 –Verteilung mit n − r, q1 , . . . , qh , r − h X qk k=1 Freiheitsgraden und den Nichtzentralitätsparametern 0, 1 1 kP V(k) Xβk (k = 1, . . . , h), kP V (h) Xβk , σ σ wobei P V(k) die Projektion auf V(k) mit V (k−1) = V(k) ⊕ V (k) darstellt. Damit lassen sich analog dem einfachen Fall sehr rasch die entsprechenden Testvorschriften angeben. Die wichtigste Anwendung findet sich in der mehrfachen Varianzanalyse. Kapitel 3 Multiple lineare Regression 3.1 Lineare Regression Im linearen Modell, auf das wir uns im folgenden weiterhin konzentrieren wollen, betrachten wir die Beziehung: y = Xβ + e (3.1) wobei y = (y1 , . . . , yn )> , e = (e1 , . . . , en )> , und X= x11 x12 · · · x1p x21 x22 · · · x2p .. .. .. .. . . . . xn1 xn2 · · · xnp β = (β1 , . . . , βp ) . Die y-Variable wird üblicherweise abhängige und die x-Variablen unabhängige Variablen genannt, e bezeichnet den Fehlerterm. Üblicherweise werden die Fehlerterme ei als unabhängig normalverteilt mit Mittel 0 und gleicher Varianz σ 2 angenommen. Gesucht ist nun der Parametervektor β, der gewöhnlich durch die Minimierung der quadratischen Abstände 2 S(y, β) := ky − Xβk = n X (yi − i=1 p X xij βj )2 (3.2) j=1 gefunden wird. (Andere Möglichkeiten werden im Abschnitt 3.4 behandelt). Das gewünschte Minimum bekommen wir durch Ableiten und Nullsetzen von S(y,β) und wir erhalten die sogenannten Normalgleichungen: X > Xβ = X > y. Bei vollem Rang von X > X gibt es eine eindeutige Lösung: β̂ = (X > X)−1 X > y. 23 (3.3) 3.1. Lineare Regression 24 Die Kovarianzmatrix der LS-Schätzung ergibt sich als Σβ̂ = (X > X)−1 σ 2 , wobei σ 2 durch σˆ2 = 1 ||y n−p − X β̂||2 geschätzt wird. Konfidenzintervalle Um Konfidenzintervalle für die geschätzten Parameter βj zu konstruieren, benutzen wir die Verteilungsannahmen: die Fehlerterme ei haben Mittel 0 und gleiche Varianz σ 2 (Homoskedastizität), sind unabhängig und normalverteilt, e ∼ N (0, σ 2 I n ). Damit gilt, dass β̂j − βj q für j = 1, . . . , p σ̂ 2 ((X > X)−1 )jj Student-t-verteilt ist mit n − p Freiheitsgraden. Daraus lassen sich (1 − α) × 100% Konfidenzintervalle für βj ableiten: q [ β̂j − t n−p;1− α 2 σ̂ 2 ((X > X)−1 )jj , q β̂j + t n−p;1− α 2 σ̂ 2 ((X > X)−1 )jj ]. Weiters können wir über die einzelnen Parameter die x-Variablen auf ihre Wichtigkeit im Modell überprüfen. Wenn der Parameter β̂j nicht signifikant von 0 verschieden ist, dann trägt die j-te Variable nichts Wesentliches zu unserem Modell bei. Wir testen also H0 : βj = 0 gegen H1 : βj 6= 0 mittels folgender Teststatistik: T =q β̂j σ̂ 2 ((X > X)−1 )jj . Wird |T | größer als tn−p;1− α2 , so ist β̂j signifikant von 0 verschieden, d.h. die j-te Variable ist für unser Modell wesentlich. Zusätzlich zu Konfidenzintervallen für die einzelnen Parameter können wir auch ein Konfidenzintervall für den mittleren Wert von y (den Erwartungswert µ) an einer fixen Stelle x0 berechnen: q > −1 [ ŷ0 − tn−p;1− α2 σ̂ x> 0 (X X) x0 , q > −1 ŷ0 + tn−p;1− α2 σ̂ x> 0 (X X) x0 ] wobei ŷ0 = x> 0 β̂. Das entprechende Toleranzintervall für die Beobachtung y0 ist q > −1 [ ŷ0 −tn−p;1− α2 σ̂ 1 + x> 0 (X X) x0 , q > −1 ŷ0 +tn−p;1− α2 σ̂ 1 + x> 0 (X X) x0 ]. 3.1. Lineare Regression 25 Bestimmtheitsmaß Als Maß für die Güte der Anpassung der Regression dient der quadratische (empirische) Korrelationskoeffizient zwischen den beobachteten y und den geschätzten ŷ: R2 = cor2 (y, ŷ). R2 wird auch Bestimmtheitsmaß genannt und kann auch durch die äquivalente Formel R2 = SSR /SST berechnet werden, wobei am einfachsten die Definitionen für SSR und SST die Größen aus der folgenden Varianzanalysetafel der Quadratsummenzerlegung“ über” nommen werden können, also > SSR = β̂ X > y = ŷ > ŷ und SST = y > y Man bemerke aber, dass dabei keine echten Korrelationen (mit zentrierten Werten ¯ berechnet werden, sondern unzentrierte“, weil die Originalwerte y − ȳ und ŷ − ŷ) ” y (und ŷ) verwendet werden. Die entsprechenden Freiheitsgrade sind hier p bzw. n. Nimmt man die richtige“ Definition der Korrelation, so bekommt man ” ¯ > (y − ȳ)]2 [(ŷ − ŷ) R2 = ¯ > (ŷ − ŷ)(y ¯ (ŷ − ŷ) − ȳ)> (y − ȳ) wobei y − ȳ (Subtraktion des Mittelwertes von y, einem Skalar von einem Vektor, einfach komponentweise Subtraktion bedeutet. Nun zeigt sich aber wieder, dass R2 als R2 = SSR /SST geschrieben werden kann, wobei jetzt ¯ > (ŷ − ŷ) ¯ und SST = (y − ȳ)> (y − ȳ) . SSR (= SSp−1 ) = (ŷ − ŷ) Beweis: Wir nehmen an, dass die Matrix X ein Spalte 1 mit nur Einsen enthält. 1. Beide Mittelwerte ŷ¯ und ȳ sind gleich: Multipliziert man X auf ŷ = X(X > X)−1 X > y X > ŷ = X > X(X > X)−1 X > y = X > y . Dabei gilt natürlich auch die Gleichheit für die Spalte 1 von X: ¯ = 1> X(X > X)−1 X > y = 1> y = nȳ . 1> ŷ (= nŷ) 2. Die inneren Produkte ŷ > y und ŷ > ŷ sind gleich: ŷ > y = y > X(X > X)−1 X > y 3.1. Lineare Regression 26 = y > X(X > X)−1 X > X(X > X)−1 X > y = ŷ > ŷ . 3. Die Kovarianz von ŷ und y ist gleich der Kovarianz von ŷ und ŷ: In exakter Matrizenform geschrieben gilt für das Produkt ¯ > (y − ȳ1) = ŷ > y − ŷ1 ¯ > y − ŷ > ȳ1 + ŷ¯ȳ1> 1 (ŷ − ŷ1) Mit den obigen Punkten 1. und 2. weitergerechnet, erhalten wir ¯ > (y − ȳ1) = ŷ > ŷ − nŷ¯2 = (ŷ − ŷ) ¯ > (ŷ − ŷ) ¯ (ŷ − ŷ1) worauf sich die Formel für den Bestimmtheitsgrad auf R2 = SSR /SST zusammenkürzt. R2 liegt naturgemäß zwischen 0 und 1; je größer R2 wird, desto besser passt sich das gewählte Modell an die Daten an. Gewichtete Regression Es kann vorkommen, dass manche Beobachtungen weniger zuverlässig sind als andere. Das bedeutet, dass die Varianz von e nicht Iσ 2 ist, sondern eine Diagonalmatrix mit unterschiedlichen Elementen (Verletzung der Homoskedastizität). Es kann auch vorkommen, dass die Nichtdiagonalelemente ungleich sind, das bedeutet, dass die ei nicht unkorreliert sind (Verletzung der Unabhängigkeit). Beide Fälle stellen eine Verletzung der Voraussetzungen dar und damit können obige Aussagen nicht mehr aufrechterhalten werden. Die grundsätzliche Idee zur Beseitigung dieser Schwierigkeit ist recht einfach: man versucht, y derart zu transformieren, dass die Voraussetzungen für die transformierte Variable z wieder gelten. Nehmen wir an, dass e ∼ N (0, V σ 2 ), wobei V eine bekannte, positiv definite Matrix ist. Man kann für V eine Matrix P finden, sodass P P > = V gilt (siehe Draper and Smith, 1981, pp. 108). Wenn wir die urprüngliche Regressionsgleichung y = Xβ + e mit P −1 multiplizieren, erhalten wir −1 −1 P −1 y = P | {z X} β + P | {z e} | {z } z Q f bzw. z = Qβ + f mit den gewünschten Eigenschaften, weil > V ar(f ) = E(f f > ) = E(P −1 ee> P −1 ) > > = P −1 E(ee> )P −1 = P −1 P P > P −1 σ 2 = Iσ 2 . 3.1. Lineare Regression 27 Lineares Modell? Als lineares Modell bezeichnen wir alle Modelle der Form: y = β0 + β1 x1 + . . . + βp xp . Man kann aber auch Regressionsansätze, die im ersten Moment nicht als linear erscheinen, durch geeignete Transformationen linearisieren: y = β0 + β1 x1 + β2 x2 + . . . + βp xp kann durch Setzen von x̃i = xi−1 , i = 1, ..., p + 1, auf ein lineares Modell zurückgeführt werden. Auch y = β0 eβ1 x kann durch Logarithmieren linearisiert werden. Als nichtlinear bezeichnen wir Modelle, die nicht durch Transformationen auf die lineare Form gebracht werden können, wie etwa y = β0 eβ1 x1 +β2 x2 + β3 x3 . Quadratsummenzerlegung Mit Hilfe einer Zerlegung der gesamten Quadratsumme SST = y > y können wir folgende Varianzanalysetabelle erstellen (siehe auch Abschnitt 2.2): Variationsquelle FG Quadratsumme Regression p SSR = β̂ X > y mittlere QS F-Wert > ˆ >y M SR = β X p > > Residuen n−p SSe = y > y − β̂ X > y Gesamt n SST = y > y M Se = MSR /MSe ˆ> (y > y −β X > y ) (n−p) Aus Abschnitt 2.2 wissen wir, dass MSR /MSe F-verteilt ist. Als Hypothese nehmen wir H0 : β1 = β2 = . . . = βp = 0. Eine weitere Aufteilung der Quadratsummen der Regression kann vorgenommen werden, wenn ein konstanter Term im Modell vorhanden ist: > > SSR = β̂ X > y = nȳ 2 + β̂ X > y − nȳ 2 |{z} SSkons | {z SSp−1 } Diese Art der Zerlegung finden wir auch in den entsprechenden Programmen. Wird die mittlere Quadratsumme der Regression MSR im Verhältnis zur mittleren Quadratsumme der Residuen zu groß, müssen wir H0 verwerfen, und es gilt, dass zumindest ein βj 6= 0 sein muss. 3.2. Auswahl von Variablen 3.2 28 Auswahl von Variablen In der Regressionsanalyse stellt sich oft die Frage, ob es sich gelohnt hat, gewisse Variablen in das Modell einzubeziehen, bzw. welche Variablen am besten geeignet erscheinen. Die erste Frage lässt sich mit Hilfe jenes Teils der Quadratsumme der Regression, der auf die zur Diskussion stehenden Variablen zurückzuführen ist, untersuchen. Man nennt das Prinzip nach dem dabei vorgegangen wird, Extra-Quadratsummenprinzip. Dazu nehmen wir folgendes (volles) Modell Ω an: Ω : y = Xβ + e mit p unabhängigen Variablen. Nun betrachten wir ein reduziertes Modell mit q (q > 0) Variablen mit der Hypothese (ohne Einschränkung der Allgemeinheit) βq+1 = βq+2 = . . . = βp = 0. Damit wissen wir aus Abschnitt 2.2), dass SSeω − SSeΩ n − p ∼ Fp−q,n−p . × SSeΩ p−q Die Differenz SSeω - SSeΩ der Quadratsummen des reduzierten und des vollen Modells wird häufig als Extra-Quadratsumme bezeichnet. Mit Hilfe von SSeω kann man einzelne Variablen auf ihren Wert für das Regressionsmodell überprüfen. Wir vergleichen dabei die Quadratsumme des Modells ohne die i-te Variable mit der Quadratsumme des Modells mit der i-ten Variablen. Dieses Verfahren kann Schritt für Schritt für jede in Frage kommende Variable durchgeführt werden; deswegen wird es auch sequentieller F-Test genannt. Im Programm für schrittweise Regression von beispielsweise BMDP werden diese F-Statistiken ‘F-to-enter’ und ‘F-to-remove’ genannt, wobei die Größe der F-Statistik bestimmt, welche Variable als nächste zum Modell hinzugefügt bzw. weggenommen wird. Man bemerke, dass hier wegen der theoretischen Unzulässigkeit des ‘sequentiellen F-Tests’ keine Quantile mit gegebenen Wahrscheinlichkeiten, sondern feste, aber willkürliche Werte genommen werden. Durch Grenzwerte für die F-Werte kann man festlegen, bis zu welcher Größe des F-Wertes eine Variable in das Modell aufgenommen wird. Es kann vorkommen, dass eine Variable im Modell plötzlich unwesentlich wird. Diese soll dann aus dem Modell genommen werden. Die Entscheidung wird sukzessive mit der Größe des F-Wertes im Vergleich mit einem F-to-remove“ durchgeführt. ” Wie wir in vielen Beispielen sehen, ist es nicht immer notwendig, alle zur Verfügung stehenden Variablen in das Modell einzubeziehen. Gerade bei mehreren Variablen ist es möglich, dass manche Variablen ähnliche Dinge messen, bzw. dass es Abhängigkeiten zwischen einzelnen Variablen gibt (Multikollinearität). Das kann dazu führen, dass die Matrix X > X fast singulär wird. Bei der Auswahl der Variablen gilt es, einen Kompromiss zu finden zwischen folgenden Zielen: • um eine möglichst gute Vorhersage treffen zu können, sollten möglichst viele Variablen in unser Modell eingehen 3.3. Diagnostik 29 • um das Modell übersichtlich und einfach zu gestalten, sollten möglichst wenige Variablen in unser Modell eingehen. Wir wollen nun einige Verfahren anführen, die sich mit einer möglichst guten Auswahl der Variablen befassen. Eine Möglichkeit haben wir bereits kennengelernt: die schrittweise Regression mit einem Grenzwert für F-to-enter und einen für F-to-remove. Eine andere Möglichkeit besteht darin, die Regressionsanalyse für alle möglichen Variablenkombinationen durchzurechnen und dann die ‘beste’ Kombination zu wählen. Üblicherweise wird als Kriterium dafür entweder R2 oder Mallows-Cp -Statistik herangezogen. Für R2 sieht die Vorgangsweise folgendermaßen aus: pro p (Anzahl der Variablen) werden die größten Werte R2 mit den entsprechenden Variablen gelistet. Man kann nun entscheiden, ab welcher Anzahl von Variablen R2 nicht mehr wesentlich größer wird. Als ‘bestes’ Modell wird dann jenes gewählt, das das größte R2 hat bei der Anzahl von Variablen, wobei durch Hinzunahme einer weiteren Variablen nichts Entscheidendes mehr gewonnen wird. Mallows-Cp -Statistik stellt die Restquadratsumme als Summe des quadrierten Fehlers und des quadrierten Bias (Verzerrung durch das falsche Modell) dar und ist wie folgt definiert: Cp0 = RSSp0 /s2 − (n − 2p0 ), wobei RSS0p die Residuenquadratsumme eines Modells mit p0 Parametern darstellt, s2 ist die mittlere Residuenquadratsumme des vollen, idealen Modells. Vorausgesetzt p0 Parameter reichen aus, dann gibt es keinen Mangel an Anpassung und damit ist E(RSSp0 ) = (n − p0 )σ 2 . Da E(s2 ) = σ 2 gilt, folgt (approximativ), dass E(RSSp0 /s2 ) = (n − p0 )σ 2 /σ 2 = n − p0 , sodass E(Cp0 ) = n − p0 − (n − 2p0 ) = p0 . Daraus folgt, dass ein Plot von Cp gegen p die geeigneten Modelle als Punkte nahe der Cp = p-Linie zeigen wird. Modelle mit einem Mangel an Anpassung (Modellfehler, Bias) werden deutlich über der Cp = p-Linie zu finden sein. Das Kriterium der Auswahl des ‘optimalen’ Modells ist nun einerseits ein Cp -Wert nahe dem p bei einer möglichst geringen Anzahl von Variablen. ( : Siehe Paket wle!) 3.3 Diagnostik Bisher haben wir uns mit der Berechnung und der optimalen Zusammensetzung von Modellen beschäftigt und dabei stillschweigend angenommen, dass alle Voraussetzungen, die wir postuliert haben, zutreffen. Wie aber können wir überprüfen, ob 3.3. Diagnostik 30 unsere Annahmen stimmen? Dazu gibt es eine Reihe von diagnostischen Verfahren von denen wir im folgenden einige wichtige kennenlernen werden. Eine ausführliche Diskussion von diagnostischen Routinen findet sich in Draper and Smith (1981), sowie in Atkinson (1985), eines der neueren Bücher auf diesem Gebiet ist Rousseeuw and Leroy (1987). Wahrscheinlichkeitspapier Eine der Annahmen, die wir getroffen haben, war, dass die Residuen normalverteilt sind (e = N (0, Iσ 2 ). Eine Möglichkeit, diese Annahme anschaulich zu testen, ist das Wahrscheinlichkeitspapier. Dabei werden die Residuen gegen G−1 (Fn (Residuen)) aufgetragen, wobei G−1 die Inverse der Normalverteilungsfunktion und Fn die empirische Verteilungsfunktion der Residuen bezeichnet. Wenn die Residuen in etwa normalverteilt sind, so liegen die entstehenden Punkte einer Treppenfunktion ungefähr auf einer Geraden. ( : Siehe Paket e1071: probplot, qqplot ...!) Andere Möglichkeiten, die Residuen auf Normalverteilung zu überprüfen, wären etwa der χ2 -Test, Shapiro-Wilk oder der Kolmogorow-Smirnow-Test. Residuen - ŷ- Plot Eine weitere Annahme, die von uns getroffen wurde, ist die Annahme der Homoskedastizität, d.h. die Residuen besitzen alle die gleiche Varianz. Eine anschauliche Möglichkeit einer Überprüfung dieser Annahme bietet ein Plot der Residuen e gegen die geschätzten Werte ŷ. Bei Homoskedastizität sollten die Residuen in y-Richtung über die gesamte x-Achse in etwa die gleiche Streuung aufweisen. Darüberhinaus können wir mit dieser Grafik auch unser Modell prüfen: wenn es korrekt ist, so dürfen die Residuen nur zufällig um die 0-Linie streuen; wenn die Residuen aber noch eine Struktur erkennen lassen, so kann unser Modell nicht richtig sein. Entdeckung von einflussreichen Beobachtungen Es kann vorkommen, dass einzelne Beobachtungen die gesamte Schätzung sehr stark beeinflussen; man spricht dann von einflussreichen Beobachtungen oder Ausreißern. Da in extremen Situationen eine einzelne ‘schlechte’ Beobachtung ausreicht, um die Schätzung gänzlich unsinnig zu machen, oder zumindest sehr stark zu verfälschen, ist es wichtig, zu überprüfen, ob solche einflussreichen Beobachtungen vorhanden sind. Eine Testgröße, die von den meisten Programmpaketen als Erkennungshilfe für Ausreißer angeboten wird, ist die Cook-Distanz1 : b −β d }> X > X{β b −β d }/(p × σ̂ 2 ) Di = {β (i) (i) 1 ( : Siehe Funktion cooks.distance!) 3.4. Robuste Regression 31 wobei βd (i) der geschätzte Parametervektor ist, der ohne die i-te Beobachtung berechnet wurde. Ein großer Wert Di für eine Beobachtung i weist auf eine einflussreiche Beobachtung hin. Auf diese Art kann man einzelne Ausreißer gut feststellen, bei mehreren Ausreißern hingegen tritt ein sogenannter Maskierungseffekt zu Tage, der die entsprechenden Abstände klein hält und damit Ausreißer ‘maskiert’. Mit diagnostischen Hilfsmitteln - wie dem Cook-Abstand, oder der äquivalenten Mahalanobisdistanz - ist es daher nicht möglich, eine Gruppe von Ausreißern zu erkennen, man muss also sinnvollerweise das Problem der Ausreißererkennung auf grundsätzlich andere Art anpacken. Im nächsten Kapitel werden wir robuste Methoden in der Regressionsanalyse kennenlernen, mit deren Hilfe sich auch dieses Problem lösen lässt. 3.4 Robuste Regression Mit robusten statistischen Verfahren meint man Verfahren, die nicht sehr empfindlich auf Verletzungen der zugrundeliegenden Verteilungsannahmen reagieren. Bisher haben wir für die Schätzung unserer Parameter praktisch nur die Methode der kleinsten Quadrate verwendet, es gibt aber noch verschiedene andere Möglichkeiten, die Parameter zu schätzen. In der kleinsten Quadrate-Schätzung minimieren wir ja folgenden Ausdruck (ri bezeichnet das i-te Residuum): n X ri2 = min; i=1 dabei geht jede Beobachtung mit demselben Gewicht in die Berechnung ein. Das bedeutet, dass eine einzelne ‘schlechte’ Beobachtung (Ausreißer) die Schätzung beliebig verzerren kann. Ein Ansatz, der von Huber (1981) und Hampel et al. (1986) gewählt wurde, geht von einer Verallgemeinerung der quadratischen Schätzung der Parameter aus. Wir versuchen dabei, folgenden Ausdruck zu minimieren: n X i=1 ρ( ri )vi pi = min, σpi wobei σ den (robust geschätzten) Skalierungsfaktor bezeichnet, pi , vi sind Gewichtsfaktoren, die nur vom Faktorraum, also von den xi. = (xi1 , xi2 , ..., xip )> , abhängen sollen und üblicherweise zunächst gleich 1 sind, und ρ ist eine Funktion, mit deren Hilfe wir den Einfluss von den Residuen beschränken können. Diese verallgemeinerte Art der Schätzung nennt man auch M-Schätzung. Im folgenden sind einige der gebräuchlichsten ρ-Funktionen durch ihre Ableitungen ψ angeführt: ψLS (t) = t (kleinste Quadrate-Schätzung ). 3.4. Robuste Regression 32 ψL1 (t) = sgn(t), (L1 -Schätzung, Minimierung der absoluten Abstände). ψH (t) = max(−c, min(t, c)) mit c > 0 (Huber’s ψ). t wenn |t| ≤ a sgn(t)a wenn a < |t| ≤ b ψHA (t) = d−|t| d−b sgn(t)a wenn b < |t| ≤ d 0 wenn d < |t| mit 0 < a < b < d (Hampel’s ψ). ( ψA (t) = c sin(t/c) wenn |t| ≤ cπ 0 wenn |t| > cπ mit c > 0 (Andrews’ ψ). Die erste ψ-Funktion entspricht der kleinsten Quadrate-Schätzung. Durch die Unbeschränktheit dieser Funktion lässt sich auch die Verwundbarkeit der Schätzung durch Ausreißer in den Residuen erklären. Die anderen ψ-Funktionen sind beschränkt und damit robust gegen Ausreißer in den Residuen. Unabhängig von der Gestalt der gewählten ψ-Funktion können Ausreißer im Faktorraum (in den x-Variablen) die Schätzung immer noch ‘beliebig’ stark beeinflussen. Wir können aber die Gewichte pi und vi der M-Schätzung benutzen, um den Einfluss der unabhängigen Variablen zu beschränken. Wählen wir die Gewichte identisch 1, so erhalten wir die Schätzung, wie wir sie bisher kennengelernt haben - die x-Variablen bleiben ungewichtet, und damit ist ihr Einfluss weiter unbeschränkt. Diese Art der Schätzung wird auch Huber-Typ-Schätzung genannt. Setzen wir nur pi gleich 1, so erhalten wir den sogenannten Mallows-Typ-Schätzer, bei dem alle Beobachtungen, die im Faktorraum als ‘weit entfernt’ erkannt werden, ungeachtet der Größe ihres Residuums ein kleineres Gewicht bekommen. Damit bekommen aber auch Beobachtungen, die durchaus in die Schätzung passen würden, nur auf Grund ihrer Lage im Faktorraum ein niedriges Gewicht. Setzen wir pi = vi , so erhalten wir die sogenannte Schweppe-Typ-Schätzung, bei der Beobachtungen nur dann ein niedriges Gewicht erhalten, wenn einerseits die Lage im Faktorraum ‘extrem’ ist, und andererseits das Residuum dieser Beobachtung groß ist. Die Mallows- und die Schweppe-Typ-Schätzung wird auch robuste Regression mit beschränktem Einfluss der unabhängigen Variablen genannt (bounded influence regression). Als ein Maß der Robustheit eines Schätzers gilt der Bruchpunkt. Damit bezeichnet man jenen Anteil an Ausreißern, der ausreicht, um die Schätzung beliebig zu beeinflussen und im schlechtesten Fall sinnlos zu machen. Rousseeuw (siehe 3.4. Robuste Regression 33 Rousseeuw and Leroy, 1987) zeigt, dass bei M -Schätzern der Bruchpunkt maximal 1/p werden kann, wobei p die Anzahl der unabhängigen Variablen bezeichnet. Mit steigender Anzahl der Dimensionen sinkt also der Bruchpunkt rapide. Rousseeuw schlägt daher eine Methode vor, die unabhängig von der Anzahl der Dimensionen den Bruchpunkt nahe 0.5 hat, das bedeutet, dass bis zu 50% der Beobachtungen schlecht sein können, ohne dass deshalb die Schätzung zusammenbricht (0.5 ist auch der höchst mögliche Bruchpunkt, wie man sich leicht überlegen kann). Dabei schlägt er vor, statt der Summe der quadrierten Residuen den Median der quadrierten Residuen zu minimieren: med(ri2 ) = min. Wir suchen also jenes Band, das eine minimale Breite hat und 50% der Beobachtungen beinhaltet. Als praktischer Algorithmus bietet sich ein wiederholtes Ziehen von Unterstichproben der Größe p an, wobei man entweder alle möglichen Unterstichproben zieht, oder so viele, dass die Wahrscheinlichkeit z.B. 0.95 beträgt, mindestens eine Probe mit ausschließlich guten Beobachtungen zu erhalten: 0.95 = 1 − (1 − (1 − ε)p )m , ε bezeichnet den Anteil der schlechten Beobachtungen im Datensatz, p die Anzahl der unabhängigen Variablen und m die Anzahl der zu ziehenden Stichproben, damit die gewünschte Wahrscheinlichkeit erreicht wird. Die in diesem Kapitel beschriebenen Methoden sind in dem bisher verwendeten Programmpaket BMDP nicht enthalten. Am Institut für Statistik und Wahrscheinlichkeitstheorie gibt es jedoch FORTRAN-Programme (BLINWDR und PROGRESS), sowie ein APL-Programmpaket (GRIPS), in dem diese Methoden verwirklicht sind. Auch S-PLUS und ROBSYS/ROBETH bieten diese Möglichkeiten. Als Lektüre können die Bücher von Huber (1981), Hampel et al. (1986) und Rousseeuw and Leroy (1987) empfohlen werden. Kapitel 4 Verallgemeinerte Modelle 34 Literaturverzeichnis A.A. Afifi and S.P. Azen. Statistical Analysis. A Computer Oriented Approach. Acad. Press, New York, 1979. F. Anscombe. Computing in Statistical Science through APL. Springer Verlag, Berlin, 1981. A.C. Atkinson. Plots, Transformations, and Regression. Clarendon Press, Oxford, 1985. J.A. Brown, S. Pakin and R.P. Polivka. APL-2 at a Glance. Prentice-Hall Inc., New Jersey, 1988. J.L. Bruning and B.L. Kintz. Computational Handbook of Statistics. Scott, Foresman & Co., Glenview, 1977. J.M. Chambers. Computational Methods for Data Analysis. Wiley & Sons, New York, 1977. W.G. Cochran and G.M. Cox. Experimental Designs. Wiley & Sons, New York, second edition, 1957. P. Dalgaard. Introductory Statistics with R. Springer, New York, Berlin, 2002. N.R. Draper and H. Smith. Applied Regression Analysis. Wiley & Sons, New York, 1981. K. Enslein, A. Ralston and H.S. Wilf. Statistical Methods for Digital Computers. Wiley & Sons, New York, 1977. John Fox. Applied Regression Analysis, Linear Models, and Related Methods. Sage Publications, Thousand Oaks, CA, USA, 1997. ISBN 0-8039-4540-X. John Fox. An R and S-Plus Companion to Applied Regression. Sage Publications, Thousand Oaks, CA, USA, 2002. URL http://socserv.socsci.mcmaster.ca/jfox/Books/Companion/index.html. ISBN 0-761-92279-2. 35 LITERATURVERZEICHNIS 36 I. Francis, editor. A Comparative Review of Statistical Software. North Holland, New York, 1981. W. Freiberger and U. Grenander. A Short Course in Computational Probability and Statistics. Springer Verlag, Berlin, 1971. F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W. Stahel. Robust Statistics. The Approach Based on Influence Functions. Wiley & Sons, New York, 1986. J. Hartung, B. Elpelt und H.-K. Klösener. Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 1984. J. Hartung und B. Elpelt. Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 2. edition, 1986. P.J. Huber. Robust Statistics. Wiley & Sons, New York, 1981. W.J. Kennedy, Jr. and J.E. Gentle. Statistical Computing. Marcel Dekker, Inc., New York, 1980. C.F. Kossack and C.I. Henschke. Introduction to Statistics and Computer Programming. Holden-Day Inc., San Francisco, 1975. H. Küffner und R. Wittenberg. Datenanalysesystem für statistische Auswertungen. Eine Einführung in SPSS, BMDP und SAS. G. Fischer Verlag, Stuttgart, 1985. E. Lehmann. Fallstudien mit dem Computer. B.G. Teubner, Stuttgart, 1986. P.R. Lohnes and W.W. Cooley. Introduction to Statistical Procedures: with Computer Exercises. Wiley & Sons, New York, 1986. D.R. McNeil. Interactive Data Analysis, A Practical Primer. Wiley & Sons, New York, 1977. R.C. Milton and J.A. Nelder. Statistical Computation. Acad. Press, New York, 1969. A. Ralston und H.S. Wilf. Mathematische Methoden für Digitalrechner. Oldenbourg Verlag, München, 1960. V.K. Rohatgi. Statistical Inference. Wiley & Sons, New York, 1984. P.J. Rousseeuw and A.M. Leroy. Robust Regression and Outlier Detection. Wiley & Sons, New York, 1987. H. Scheffé. The Analysis of Variance. Wiley & Sons, New York, 1959. S.R. Searle. Linear Models for Unbalanced Data. Wiley & Sons, New York, 1987. LITERATURVERZEICHNIS 37 G.A.F. Seber. Linear Regression Analysis. Wiley & Sons, New York, 1977. J.B. Siegel. Statistical Software for Microcomputers. A Guide to 40 Programs. North Holland, New York, 1985. E.J. Snell. Applied Statistics. A Handbook of BMDP Analysis. Chapman and Hall, London, 1987. J.W. Tukey. Exploratory Data Analysis. Addison-Wesley, Reading, Mass., 1977. J.W. Tukey and F. Mosteller. Data Analysis and Regression, a second Course in Statistics. Addison-Wesley, Reading, Mass., 1977. G. Tutz. Regression for Categorical Data. Cambridge University Press, Cambridge, 2012. W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, New York, Berlin, 2002. B.J. Winer. Statistical Principles in Experimental Design. McGraw-Hill Comp., New York, 1971. S.J. Yakowitz. Computational Probability and Simulation. Addison-Wesley, Reading, Mass., 1977.