Kapitel 3 Multiple lineare Regression 3.1 Lineare Regression Im linearen Modell, auf das wir uns im folgenden weiterhin konzentrieren wollen, betrachten wir die Beziehung: y = Xβ + e (3.1) wobei y = (y1 , . . . , yn )⊤ , und X= e = (e1 , . . . , en )⊤ , x11 x12 · · · x1p x21 x22 · · · x2p .. .. .. .. . . . . xn1 xn2 · · · xnp β = (β1 , . . . , βp ) . Die y-Variable wird üblicherweise abhängige und die x-Variablen unabhängige Variablen genannt, e bezeichnet den Fehlerterm. Üblicherweise werden die Fehlerterme ei als unabhängig normalverteilt mit Mittel 0 und gleicher Varianz σ 2 angenommen. Gesucht ist nun der Parametervektor β, der gewöhnlich durch die Minimierung der quadratischen Abstände 2 S(y, β) := ky − Xβk = n X (yi − i=1 p X xij βj )2 (3.2) j=1 gefunden wird. (Andere Möglichkeiten werden im Abschnitt 3.4 behandelt). Das gewünschte Minimum bekommen wir durch Ableiten und Nullsetzen von S(y,β) und wir erhalten die sogenannten Normalgleichungen: X ⊤ Xβ = X ⊤ y. Bei vollem Rang von X ⊤ X gibt es eine eindeutige Lösung: β̂ = (X ⊤ X)−1 X ⊤ y. 30 (3.3) 31 3.1. Lineare Regression Die Kovarianzmatrix der LS-Schätzung ergibt sich als Σβ̂ = (X ⊤ X)−1 σ 2 , wobei σ 2 durch σˆ2 = 1 ||y n−p − X β̂||2 geschätzt wird. Konfidenzintervalle Um Konfidenzintervalle für die geschätzten Parameter βj zu konstruieren, benutzen wir die Verteilungsannahmen: die Fehlerterme ei haben Mittel 0 und gleiche Varianz σ 2 (Homoskedastizität), sind unabhängig und normalverteilt, e ∼ N (0, σ 2 I n ). Damit gilt, dass q β̂j − βj für j = 1, . . . , p σ̂ 2 ((X ⊤ X)−1 )jj Student-t-verteilt ist mit n − p Freiheitsgraden. Daraus lassen sich (1 − α) × 100% Konfidenzintervalle für βj ableiten: q [ β̂j − tn−p;1− α2 σ̂ 2 ((X ⊤ X)−1 )jj , q β̂j + tn−p;1− α2 σ̂ 2 ((X ⊤ X)−1 )jj ]. Weiters können wir über die einzelnen Parameter die x-Variablen auf ihre Wichtigkeit im Modell überprüfen. Wenn der Parameter β̂j nicht signifikant von 0 verschieden ist, dann trägt die j-te Variable nichts Wesentliches zu unserem Modell bei. Wir testen also H0 : βj = 0 gegen H1 : βj 6= 0 mittels folgender Teststatistik: T =q β̂j σ̂ 2 ((X ⊤ X)−1 )jj . Wird |T | größer als tn−p;1− α2 , so ist β̂j signifikant von 0 verschieden, d.h. die j-te Variable ist für unser Modell wesentlich. Zusätzlich zu Konfidenzintervallen für die einzelnen Parameter können wir auch ein Konfidenzintervall für den mittleren Wert von y (den Erwartungswert µ) an einer fixen Stelle x0 berechnen: q ⊤ −1 [ ŷ0 − tn−p;1− α2 σ̂ x⊤ 0 (X X) x0 , q ⊤ −1 ŷ0 + tn−p;1− α2 σ̂ x⊤ 0 (X X) x0 ] wobei ŷ0 = x⊤ 0 β̂. Das entprechende Toleranzintervall für die Beobachtung y0 ist q ⊤ −1 [ ŷ0 −tn−p;1− α2 σ̂ 1 + x⊤ 0 (X X) x0 , q ⊤ −1 ŷ0 +tn−p;1− α2 σ̂ 1 + x⊤ 0 (X X) x0 ]. 32 3.1. Lineare Regression Bestimmtheitsmaß Als Maß für die Güte der Anpassung der Regression dient der quadratische (empirische) Korrelationskoeffizient zwischen den beobachteten y und den geschätzten ŷ: R2 = cor2 (y, ŷ). R2 wird auch Bestimmtheitsmaß genannt und kann auch durch die äquivalente Formel ⊤ R2 = (β̂ X ⊤ y/y ⊤ y)2 = ŷ ⊤ ŷ/y ⊤ y = SSR /SST berechnet werden. R2 liegt naturgemäß zwischen 0 und 1; je größer R2 wird, desto besser passt sich das gewählte Modell an die Daten an. Gewichtete Regression Es kann vorkommen, dass manche Beobachtungen weniger zuverlässig sind als andere. Das bedeutet, dass die Varianz von e nicht Iσ 2 ist, sondern eine Diagonalmatrix mit unterschiedlichen Elementen (Verletzung der Homoskedastizität). Es kann auch vorkommen, dass die Nichtdiagonalelemente ungleich sind, das bedeutet, dass die ei nicht unkorreliert sind (Verletzung der Unabhängigkeit). Beide Fälle stellen eine Verletzung der Voraussetzungen dar und damit können obige Aussagen nicht mehr aufrechterhalten werden. Die grundsätzliche Idee zur Beseitigung dieser Schwierigkeit ist recht einfach: man versucht, y derart zu transformieren, dass die Voraussetzungen für die transformierte Variable z wieder gelten. Nehmen wir an, dass e ∼ N (0, V σ 2 ), wobei V eine bekannte, positiv definite Matrix ist. Man kann für V eine Matrix P finden, sodass P P ⊤ = V gilt (siehe Draper and Smith, 1981, pp. 108). Wenn wir die urprüngliche Regressionsgleichung y = Xβ + e mit P −1 multiplizieren, erhalten wir bzw. −1 −1 P −1 y = P | {z X} β + |P {z e} z Q f | {z } z = Qβ + f mit den gewünschten Eigenschaften, weil ⊤ V ar(f ) = E(f f ⊤ ) = E(P −1 ee⊤ P −1 ) ⊤ ⊤ = P −1 E(ee⊤ )P −1 = P −1 P P ⊤ P −1 σ 2 = Iσ 2 . Lineares Modell? 33 3.1. Lineare Regression Als lineares Modell bezeichnen wir alle Modelle der Form: y = β0 + β1 x1 + . . . + βp xp . Man kann aber auch Regressionsansätze, die im ersten Moment nicht als linear erscheinen, durch geeignete Transformationen linearisieren: y = β0 + β1 x1 + β2 x2 + . . . + βp xp kann durch Setzen von x̃i = xi−1 , i = 1, ..., p + 1, auf ein lineares Modell zurückgeführt werden. Auch y = β0 eβ1 x kann durch Logarithmieren linearisiert werden. Als nichtlinear bezeichnen wir Modelle, die nicht durch Transformationen auf die lineare Form gebracht werden können, wie etwa y = β0 eβ1 x1 +β2 x2 + β3 x3 . Quadratsummenzerlegung Mit Hilfe einer Zerlegung der gesamten Quadratsumme SST = y ⊤ y können wir folgende Varianzanalysetabelle erstellen (siehe auch Abschnitt 2.2): Variationsquelle FG Quadratsumme Regression p SSR = β̂ X ⊤y mittlere QS F-Wert ⊤ ˆ ⊤y M SR = β X p ⊤ ⊤ Residuen n−p SSe = y ⊤y − β̂ X ⊤y Gesamt n SST = y ⊤y M Se = MSR /MSe ˆ⊤ (y ⊤ y − β X ⊤ y ) (n−p) Aus Abschnitt 2.2 wissen wir, dass MSR /MSe F-verteilt ist. Als Hypothese nehmen wir H0 : β1 = β2 = . . . = βp = 0. Eine weitere Aufteilung der Quadratsummen der Regression kann vorgenommen werden, wenn ein konstanter Term im Modell vorhanden ist: ⊤ ⊤ SSR = β̂ X ⊤y = nȳ 2 + β̂ X ⊤y − nȳ 2 |{z} SSkons | {z SSp−1 } Diese Art der Zerlegung finden wir auch in den entsprechenden Programmen. Wird die mittlere Quadratsumme der Regression MSR im Verhältnis zur mittleren Quadratsumme der Residuen zu groß, müssen wir H0 verwerfen, und es gilt, dass zumindest ein βj 6= 0 sein muss. 3.2. Auswahl von Variablen 3.2 34 Auswahl von Variablen In der Regressionsanalyse stellt sich oft die Frage, ob es sich gelohnt hat, gewisse Variablen in das Modell einzubeziehen, bzw. welche Variablen am besten geeignet erscheinen. Die erste Frage lässt sich mit Hilfe jenes Teils der Quadratsumme der Regression, der auf die zur Diskussion stehenden Variablen zurückzuführen ist, untersuchen. Man nennt das Prinzip nach dem dabei vorgegangen wird, Extra-Quadratsummenprinzip. Dazu nehmen wir folgendes (volles) Modell Ω an: Ω : y = Xβ + e mit p unabhängigen Variablen. Nun betrachten wir ein reduziertes Modell mit q (q > 0) Variablen mit der Hypothese (ohne Einschränkung der Allgemeinheit) βq+1 = βq+2 = . . . = βp = 0. Damit wissen wir aus Abschnitt 2.2), dass SSeω − SSeΩ n − p × ∼ Fp−q,n−p . SSeΩ p−q Die Differenz SSeω - SSeΩ der Quadratsummen des reduzierten und des vollen Modells wird häufig als Extra-Quadratsumme bezeichnet. Mit Hilfe von SSeω kann man einzelne Variablen auf ihren Wert für das Regressionsmodell überprüfen. Wir vergleichen dabei die Quadratsumme des Modells ohne die i-te Variable mit der Quadratsumme des Modells mit der i-ten Variablen. Dieses Verfahren kann Schritt für Schritt für jede in Frage kommende Variable durchgeführt werden; deswegen wird es auch sequentieller F-Test genannt. Im Programm für schrittweise Regression von beispielsweise BMDP werden diese F-Statistiken ‘F-to-enter’ und ‘F-to-remove’ genannt, wobei die Größe der F-Statistik bestimmt, welche Variable als nächste zum Modell hinzugefügt bzw. weggenommen wird. Man bemerke, dass hier wegen der theoretischen Unzulässigkeit des ‘sequentiellen F-Tests’ keine Quantile mit gegebenen Wahrscheinlichkeiten, sondern feste, aber willkürliche Werte genommen werden. Durch Grenzwerte für die F-Werte kann man festlegen, bis zu welcher Größe des F-Wertes eine Variable in das Modell aufgenommen wird. Es kann vorkommen, dass eine Variable im Modell plötzlich unwesentlich wird. Diese soll dann aus dem Modell genommen werden. Die Entscheidung wird sukzessive mit der Größe des F-Wertes im Vergleich mit einem F-to-remove“ durchgeführt. ” Wie wir in vielen Beispielen sehen, ist es nicht immer notwendig, alle zur Verfügung stehenden Variablen in das Modell einzubeziehen. Gerade bei mehreren Variablen ist es möglich, dass manche Variablen ähnliche Dinge messen, bzw. dass es Abhängigkeiten zwischen einzelnen Variablen gibt (Multikollinearität). Das kann dazu führen, dass die Matrix X ⊤X fast singulär wird. Bei der Auswahl der Variablen gilt es, einen Kompromiss zu finden zwischen folgenden Zielen: • um eine möglichst gute Vorhersage treffen zu können, sollten möglichst viele Variablen in unser Modell eingehen 35 3.3. Diagnostik • um das Modell übersichtlich und einfach zu gestalten, sollten möglichst wenige Variablen in unser Modell eingehen. Wir wollen nun einige Verfahren anführen, die sich mit einer möglichst guten Auswahl der Variablen befassen. Eine Möglichkeit haben wir bereits kennengelernt: die schrittweise Regression mit einem Grenzwert für F-to-enter und einen für F-to-remove. Eine andere Möglichkeit besteht darin, die Regressionsanalyse für alle möglichen Variablenkombinationen durchzurechnen und dann die ‘beste’ Kombination zu wählen. Üblicherweise wird als Kriterium dafür entweder R2 oder Mallows-Cp -Statistik herangezogen. Für R2 sieht die Vorgangsweise folgendermaßen aus: pro p (Anzahl der Variablen) werden die größten Werte R2 mit den entsprechenden Variablen gelistet. Man kann nun entscheiden, ab welcher Anzahl von Variablen R2 nicht mehr wesentlich größer wird. Als ‘bestes’ Modell wird dann jenes gewählt, das das größte R2 hat bei der Anzahl von Variablen, wobei durch Hinzunahme einer weiteren Variablen nichts Entscheidendes mehr gewonnen wird. Mallows-Cp -Statistik stellt die Restquadratsumme als Summe des quadrierten Fehlers und des quadrierten Bias (Verzerrung durch das falsche Modell) dar und ist wie folgt definiert: Cp′ = RSSp′ /s2 − (n − 2p′ ), wobei RSS′p die Residuenquadratsumme eines Modells mit p′ Parametern darstellt, s2 ist die mittlere Residuenquadratsumme des vollen, idealen Modells. Vorausgesetzt p′ Parameter reichen aus, dann gibt es keinen Mangel an Anpassung und damit ist E(RSSp′ ) = (n − p′ )σ 2 . Da E(s2 ) = σ 2 gilt, folgt (approximativ), dass E(RSSp′ /s2 ) = (n − p′ )σ 2 /σ 2 = n − p′ , sodass E(Cp′ ) = n − p′ − (n − 2p′ ) = p′ . Daraus folgt, dass ein Plot von Cp gegen p die geeigneten Modelle als Punkte nahe der Cp = p-Linie zeigen wird. Modelle mit einem Mangel an Anpassung (Modellfehler, Bias) werden deutlich über der Cp = p-Linie zu finden sein. Das Kriterium der Auswahl des ‘optimalen’ Modells ist nun einerseits ein Cp -Wert nahe dem p bei einer möglichst geringen Anzahl von Variablen. ( : Siehe Paket wle!) 3.3 Diagnostik Bisher haben wir uns mit der Berechnung und der optimalen Zusammensetzung von Modellen beschäftigt und dabei stillschweigend angenommen, dass alle Voraussetzungen, die wir postuliert haben, zutreffen. Wie aber können wir überprüfen, ob 36 3.3. Diagnostik unsere Annahmen stimmen? Dazu gibt es eine Reihe von diagnostischen Verfahren von denen wir im folgenden einige wichtige kennenlernen werden. Eine ausführliche Diskussion von diagnostischen Routinen findet sich in Draper and Smith (1981), sowie in Atkinson (1985), eines der neueren Bücher auf diesem Gebiet ist Rousseeuw and Leroy (1987). Wahrscheinlichkeitspapier Eine der Annahmen, die wir getroffen haben, war, dass die Residuen normalverteilt sind (e = N (0, Iσ 2 ). Eine Möglichkeit, diese Annahme anschaulich zu testen, ist das Wahrscheinlichkeitspapier. Dabei werden die Residuen gegen G−1 (Fn (Residuen)) aufgetragen, wobei G−1 die Inverse der Normalverteilungsfunktion und Fn die empirische Verteilungsfunktion der Residuen bezeichnet. Wenn die Residuen in etwa normalverteilt sind, so liegen die entstehenden Punkte einer Treppenfunktion ungefähr auf einer Geraden. ( : Siehe Paket e1071: probplot, qqplot ...!) Andere Möglichkeiten, die Residuen auf Normalverteilung zu überprüfen, wären etwa der χ2 -Test, Shapiro-Wilk oder der Kolmogorow-Smirnow-Test. Residuen - ŷ- Plot Eine weitere Annahme, die von uns getroffen wurde, ist die Annahme der Homoskedastizität, d.h. die Residuen besitzen alle die gleiche Varianz. Eine anschauliche Möglichkeit einer Überprüfung dieser Annahme bietet ein Plot der Residuen e gegen die geschätzten Werte ŷ. Bei Homoskedastizität sollten die Residuen in y-Richtung über die gesamte x-Achse in etwa die gleiche Streuung aufweisen. Darüberhinaus können wir mit dieser Grafik auch unser Modell prüfen: wenn es korrekt ist, so dürfen die Residuen nur zufällig um die 0-Linie streuen; wenn die Residuen aber noch eine Struktur erkennen lassen, so kann unser Modell nicht richtig sein. Entdeckung von einflussreichen Beobachtungen Es kann vorkommen, dass einzelne Beobachtungen die gesamte Schätzung sehr stark beeinflussen; man spricht dann von einflussreichen Beobachtungen oder Ausreißern. Da in extremen Situationen eine einzelne ‘schlechte’ Beobachtung ausreicht, um die Schätzung gänzlich unsinnig zu machen, oder zumindest sehr stark zu verfälschen, ist es wichtig, zu überprüfen, ob solche einflussreichen Beobachtungen vorhanden sind. Eine Testgröße, die von den meisten Programmpaketen als Erkennungshilfe für Ausreißer angeboten wird, ist die Cook-Distanz: b −β d }⊤ X ⊤X{β b −β d }/(p × σ̂ 2 ) D i = {β (i) (i) wobei βd (i) der geschätzte Parametervektor ist, der ohne die i-te Beobachtung berechnet wurde. Ein großer Wert Di für eine Beobachtung i weist auf eine einflussreiche Beobachtung hin. Auf diese Art kann man einzelne Ausreißer gut feststellen, 37 3.4. Robuste Regression bei mehreren Ausreißern hingegen tritt ein sogenannter Maskierungseffekt zu Tage, der die entsprechenden Abstände klein hält und damit Ausreißer ‘maskiert’. Mit diagnostischen Hilfsmitteln - wie dem Cook-Abstand, oder der äquivalenten Mahalanobisdistanz - ist es daher nicht möglich, eine Gruppe von Ausreißern zu erkennen, man muss also sinnvollerweise das Problem der Ausreißererkennung auf grundsätzlich andere Art anpacken. Im nächsten Kapitel werden wir robuste Methoden in der Regressionsanalyse kennenlernen, mit deren Hilfe sich auch dieses Problem lösen lässt. 3.4 Robuste Regression Mit robusten statistischen Verfahren meint man Verfahren, die nicht sehr empfindlich auf Verletzungen der zugrundeliegenden Verteilungsannahmen reagieren. Bisher haben wir für die Schätzung unserer Parameter praktisch nur die Methode der kleinsten Quadrate verwendet, es gibt aber noch verschiedene andere Möglichkeiten, die Parameter zu schätzen. In der kleinsten Quadrate-Schätzung minimieren wir ja folgenden Ausdruck (ri bezeichnet das i-te Residuum): n X ri2 = min; i=1 dabei geht jede Beobachtung mit demselben Gewicht in die Berechnung ein. Das bedeutet, dass eine einzelne ‘schlechte’ Beobachtung (Ausreißer) die Schätzung beliebig verzerren kann. Ein Ansatz, der von Huber (1981) und Hampel et al. (1986) gewählt wurde, geht von einer Verallgemeinerung der quadratischen Schätzung der Parameter aus. Wir versuchen dabei, folgenden Ausdruck zu minimieren: n X i=1 ρ( ri )vi pi = min, σpi wobei σ den (robust geschätzten) Skalierungsfaktor bezeichnet, pi , vi sind Gewichtsfaktoren, die nur vom Faktorraum, also von den xi. = (xi1 , xi2 , ..., xip )⊤ , abhängen sollen und üblicherweise zunächst gleich 1 sind, und ρ ist eine Funktion, mit deren Hilfe wir den Einfluss von den Residuen beschränken können. Diese verallgemeinerte Art der Schätzung nennt man auch M-Schätzung. Im folgenden sind einige der gebräuchlichsten ρ-Funktionen durch ihre Ableitungen ψ angeführt: ψLS (t) = t (kleinste Quadrate-Schätzung ). ψL1 (t) = sgn(t), (L1 -Schätzung, Minimierung der absoluten Abstände). 3.4. Robuste Regression 38 ψH (t) = max(−c, min(t, c)) mit c > 0 (Huber’s ψ). t wenn |t| ≤ a sgn(t)a wenn a < |t| ≤ b ψHA (t) = d−|t| d−b sgn(t)a wenn b < |t| ≤ d 0 wenn d < |t| mit 0 < a < b < d (Hampel’s ψ). ψA (t) = ( c sin(t/c) wenn |t| ≤ cπ 0 wenn |t| > cπ mit c > 0 (Andrews’ ψ). Die erste ψ-Funktion entspricht der kleinsten Quadrate-Schätzung. Durch die Unbeschränktheit dieser Funktion lässt sich auch die Verwundbarkeit der Schätzung durch Ausreißer in den Residuen erklären. Die anderen ψ-Funktionen sind beschränkt und damit robust gegen Ausreißer in den Residuen. Unabhängig von der Gestalt der gewählten ψ-Funktion können Ausreißer im Faktorraum (in den x-Variablen) die Schätzung immer noch ‘beliebig’ stark beeinflussen. Wir können aber die Gewichte pi und vi der M-Schätzung benutzen, um den Einfluss der unabhängigen Variablen zu beschränken. Wählen wir die Gewichte identisch 1, so erhalten wir die Schätzung, wie wir sie bisher kennengelernt haben - die x-Variablen bleiben ungewichtet, und damit ist ihr Einfluss weiter unbeschränkt. Diese Art der Schätzung wird auch Huber-Typ-Schätzung genannt. Setzen wir nur pi gleich 1, so erhalten wir den sogenannten Mallows-Typ-Schätzer, bei dem alle Beobachtungen, die im Faktorraum als ‘weit entfernt’ erkannt werden, ungeachtet der Größe ihres Residuums ein kleineres Gewicht bekommen. Damit bekommen aber auch Beobachtungen, die durchaus in die Schätzung passen würden, nur auf Grund ihrer Lage im Faktorraum ein niedriges Gewicht. Setzen wir pi = vi , so erhalten wir die sogenannte Schweppe-Typ-Schätzung, bei der Beobachtungen nur dann ein niedriges Gewicht erhalten, wenn einerseits die Lage im Faktorraum ‘extrem’ ist, und andererseits das Residuum dieser Beobachtung groß ist. Die Mallows- und die Schweppe-Typ-Schätzung wird auch robuste Regression mit beschränktem Einfluss der unabhängigen Variablen genannt (bounded influence regression). Als ein Maß der Robustheit eines Schätzers gilt der Bruchpunkt. Damit bezeichnet man jenen Anteil an Ausreißern, der ausreicht, um die Schätzung beliebig zu beeinflussen und im schlechtesten Fall sinnlos zu machen. Rousseeuw (siehe Rousseeuw and Leroy, 1987) zeigt, dass bei M -Schätzern der Bruchpunkt maximal 1/p werden kann, wobei p die Anzahl der unabhängigen Variablen bezeichnet. Mit steigender Anzahl der Dimensionen sinkt also der Bruchpunkt rapide. Rousseeuw schlägt daher eine Methode vor, die unabhängig von der Anzahl der Dimensionen 39 3.4. Robuste Regression den Bruchpunkt nahe 0.5 hat, das bedeutet, dass bis zu 50% der Beobachtungen schlecht sein können, ohne dass deshalb die Schätzung zusammenbricht (0.5 ist auch der höchst mögliche Bruchpunkt, wie man sich leicht überlegen kann). Dabei schlägt er vor, statt der Summe der quadrierten Residuen den Median der quadrierten Residuen zu minimieren: med(ri )2 = min. Wir suchen also jenes Band, das eine minimale Breite hat und 50% der Beobachtungen beinhaltet. Als praktischer Algorithmus bietet sich ein wiederholtes Ziehen von Unterstichproben der Größe p an, wobei man entweder alle möglichen Unterstichproben zieht, oder so viele, dass die Wahrscheinlichkeit z.B. 0.95 beträgt, mindestens eine Probe mit ausschließlich guten Beobachtungen zu erhalten: 0.95 = 1 − (1 − (1 − ε)p )m , ε bezeichnet den Anteil der schlechten Beobachtungen im Datensatz, p die Anzahl der unabhängigen Variablen und m die Anzahl der zu ziehenden Stichproben, damit die gewünschte Wahrscheinlichkeit erreicht wird. Die in diesem Kapitel beschriebenen Methoden sind in dem bisher verwendeten Programmpaket BMDP nicht enthalten. Am Institut für Statistik und Wahrscheinlichkeitstheorie gibt es jedoch FORTRAN-Programme (BLINWDR und PROGRESS), sowie ein APL-Programmpaket (GRIPS), in dem diese Methoden verwirklicht sind. Auch S-PLUS und ROBSYS/ROBETH bieten diese Möglichkeiten. Als Lektüre können die Bücher von Huber (1981), Hampel et al. (1986) und Rousseeuw and Leroy (1987) empfohlen werden. Literaturverzeichnis A.A. Afifi and S.P. Azen. Statistical Analysis. A Computer Oriented Approach. Acad. Press, New York, 1979. F. Anscombe. Computing in Statistical Science through APL. Springer Verlag, Berlin, 1981. A.C. Atkinson. Plots, Transformations, and Regression. Clarendon Press, Oxford, 1985. J.A. Brown, S. Pakin and R.P. Polivka. APL-2 at a Glance. Prentice-Hall Inc., New Jersey, 1988. J.L. Bruning and B.L. Kintz. Computational Handbook of Statistics. Scott, Foresman & Co., Glenview, 1977. J.M. Chambers. Computational Methods for Data Analysis. Wiley & Sons, New York, 1977. W.G. Cochran and G.M. Cox. Experimental Designs. Wiley & Sons, New York, second edition, 1957. P. Dalgaard. Introductory Statistics with R. Springer, New York, Berlin, 2002. N.R. Draper and H. Smith. Applied Regression Analysis. Wiley & Sons, New York, 1981. K. Enslein, A. Ralston and H.S. Wilf. Statistical Methods for Digital Computers. Wiley & Sons, New York, 1977. I. Francis, editor. A Comparative Review of Statistical Software. North Holland, New York, 1981. W. Freiberger and U. Grenander. A Short Course in Computational Probability and Statistics. Springer Verlag, Berlin, 1971. F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W. Stahel. Robust Statistics. The Approach Based on Influence Functions. Wiley & Sons, New York, 1986. 40 LITERATURVERZEICHNIS 41 J. Hartung, B. Elpelt und H.-K. Klösener. Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 1984. J. Hartung und B. Elpelt. Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, 2. edition, 1986. P.J. Huber. Robust Statistics. Wiley & Sons, New York, 1981. W.J. Kennedy, Jr. and J.E. Gentle. Statistical Computing. Marcel Dekker, Inc., New York, 1980. C.F. Kossack and C.I. Henschke. Introduction to Statistics and Computer Programming. Holden-Day Inc., San Francisco, 1975. H. Küffner und R. Wittenberg. Datenanalysesystem für statistische Auswertungen. Eine Einführung in SPSS, BMDP und SAS. G. Fischer Verlag, Stuttgart, 1985. E. Lehmann. Fallstudien mit dem Computer. B.G. Teubner, Stuttgart, 1986. P.R. Lohnes and W.W. Cooley. Introduction to Statistical Procedures: with Computer Exercises. Wiley & Sons, New York, 1986. D.R. McNeil. Interactive Data Analysis, A Practical Primer. Wiley & Sons, New York, 1977. R.C. Milton and J.A. Nelder. Statistical Computation. Acad. Press, New York, 1969. A. Ralston und H.S. Wilf. Mathematische Methoden für Digitalrechner. Oldenbourg Verlag, München, 1960. V.K. Rohatgi. Statistical Inference. Wiley & Sons, New York, 1984. P.J. Rousseeuw and A.M. Leroy. Robust Regression and Outlier Detection. Wiley & Sons, New York, 1987. H. Scheffé. The Analysis of Variance. Wiley & Sons, New York, 1959. S.R. Searle. Linear Models for Unbalanced Data. Wiley & Sons, New York, 1987. G.A.F. Seber. Linear Regression Analysis. Wiley & Sons, New York, 1977. J.B. Siegel. Statistical Software for Microcomputers. A Guide to 40 Programs. North Holland, New York, 1985. E.J. Snell. Applied Statistics. A Handbook of BMDP Analysis. Chapman and Hall, London, 1987. J.W. Tukey. Exploratory Data Analysis. Addison-Wesley, Reading, Mass., 1977. LITERATURVERZEICHNIS 42 J.W. Tukey and F. Mosteller. Data Analysis and Regression, a second Course in Statistics. Addison-Wesley, Reading, Mass., 1977. W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, New York, Berlin, 2002. B.J. Winer. Statistical Principles in Experimental Design. McGraw-Hill Comp., New York, 1971. S.J. Yakowitz. Computational Probability and Simulation. Addison-Wesley, Reading, Mass., 1977.