Biostatistik 2 Jürgen Dippon 4. April 2016 1 Inhaltsverzeichnis 1 Testen von Hypothesen 1.1 Binomial- und Gauß-Test . . . . . . . . . . . . . . 1.1.1 Approximativer Binomialtest . . . . . . . . 1.1.2 Gauß-Test . . . . . . . . . . . . . . . . . . . 1.2 Prinzipien des Testens . . . . . . . . . . . . . . . . 1.2.1 Fehlentscheidungen . . . . . . . . . . . . . . 1.2.2 Zusammenhang zwischen statistischen Tests 1.2.3 Überschreitungswahrscheinlichkeit . . . . . 1.2.4 Gütefunktion . . . . . . . . . . . . . . . . . 1.3 Durchführung eines Tests mit R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . und Konfidenzintervallen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Nichtparametrische Tests 2.1 Tests auf Lageparameter . . . . . . . . . . . . . . . . . . . . 2.1.1 Vorzeichen-Test für den Median . . . . . . . . . . . . 2.1.2 Vorzeichen-Rang-Test von Wilcoxon (eine Stichpr.) . 2.1.3 Rangsummen-Test von Wilcoxon (zwei Stichproben) 2.2 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Kolmogorov-Smirnov-Test . . . . . . . . . . . . . . . 2.2.2 Shapiro-Wilk-Test . . . . . . . . . . . . . . . . . . . 2.3 Test auf Unabhängigkeit: Exakter Test von Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 6 8 9 10 11 11 12 13 15 15 15 16 17 18 18 19 20 3 Verfahrensübersicht 22 4 Einfache lineare Regression 4.1 Einfache lineare Regression . . . . . . . . 4.2 Methode der kleinsten Quadrate . . . . . 4.3 Gütemaß für die Anpassung der Geraden . 4.4 Stochastisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 24 25 27 29 5 Varianzanalyse 5.1 Einfache Klassifikation . . . . . . . . . . . . 5.2 Einfache Varianzanalyse mit R . . . . . . . 5.3 Nichtparametrische einfache Varianzanalyse 5.4 Zweifache Varianzanalyse . . . . . . . . . . 5.5 Zweifache Varianzanalyse mit R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 40 46 49 51 53 6 Lineare Modelle 6.1 Testen von Hypothesen . . . . . . . . . . . . . . 6.1.1 Globaler F -Test . . . . . . . . . . . . . . 6.1.2 Partieller F -Test . . . . . . . . . . . . . 6.2 Test einzelner metrischer Regressoren . . . . . . 6.2.1 Einschub: Partielle Korrelation . . . . . 6.3 Variablenselektion . . . . . . . . . . . . . . . . 6.4 Regressionsdiagnostik . . . . . . . . . . . . . . 6.5 Vorhersage . . . . . . . . . . . . . . . . . . . . . 6.6 Allgemeines lineares Modell . . . . . . . . . . . 6.7 Nichtlineare und nichtparametrische Regression 6.7.1 Nichtlineare Regression . . . . . . . . . 6.7.2 Nichtlineare Regression in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 59 59 60 60 62 63 63 65 65 66 66 67 2 6.7.3 Nichtparametrische Regression . . . . . . . . . . . . . . . . . . . . . 69 7 Verallgemeinertes Lineares Modell 7.1 Logistische Regression . . . . . . 7.1.1 Hypothesentests . . . . . 7.1.2 Logistische Regression mit 7.2 Poisson-Regression . . . . . . . . 7.2.1 Poisson-Regression mit R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 72 74 75 8 Bayesianische Statistik 8.1 Grundlagen der Bayesianischen Statistik . . . . . . . . . . . . 8.2 Diagnostische Tests . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Normalverteilte Zufallsgröße mit stetiger a-priori-Verteilung . 8.4 Bayesianisches Testen einer Hypothese . . . . . . . . . . . . . 8.5 Bernoulli-verteilte Zufallsgröße mit stetiger a-priori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 78 79 80 81 9 Versuchsplanung 9.1 Wahl geeigneter Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung 9.3 Grundlegende Aspekte der Versuchsplanung . . . . . . . . . . . . . . . 9.3.1 Varianzquellen in biowissenschaftlichen Untersuchungen . . . . 9.3.2 Allgemeine Prinzipien der Versuchsplanung . . . . . . . . . . . 9.3.3 Typen von Stichproben . . . . . . . . . . . . . . . . . . . . . . 9.3.4 Einige wichtige Versuchspläne . . . . . . . . . . . . . . . . . . . 9.4 Bestimmung optimaler Stichprobenumfänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 82 83 83 84 84 84 84 10 Analyse hochdimensionaler Daten 10.1 Hauptkomponentenanalysis . . . 10.2 Multidimensionale Skalierung . . 10.3 Cluster-Methoden . . . . . . . . . 10.3.1 K-Means Clustering . . . 10.3.2 Hierarchisches Clustering . . . . . . . . . . . . . . . 86 86 88 89 89 90 . . . . R . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Testen von Hypothesen Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft von Interesse, Vermutungen über einen Parameter oder eine Verteilung in der Grundgesamtheit zu überprüfen. Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren Überprüfung jedoch unter Verwendung einer Stichprobe durchgeführt. Inwieweit der Schluss von der Stichprobe auf die Grundgesamtheit zulässig ist, ist Teil des statistischen Tests. 1.1 Binomial- und Gauß-Test Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. Frage: Hat der Student geraten oder tatsächlich etwas gewusst? 1, falls i-te Antwort des Studenten richtig Xi = 0, sonst X1 , ..., X30 seien P unabhängige Bin(1, p)-verteilte Zufallsvariablen. Also ist S = 30 i=1 Xi Bin(30, p)-verteilt. Wenn der Student nichts weiß, ist p = 12 . Besitzt der Student gewisse Kenntnisse, so ist p > 12 Auf Grundlage der Daten (S = 19) wollen wir uns zwischen der Nullhypothese Ho : p = 1 2 H1 : p > 1 2 und der Alternativhypothese entscheiden. Ist die Prüfgröße oder Teststatistik S= 30 X Xi i=1 größer oder gleich einem kritischer Wert c, entscheiden wir uns für H1 . Wie ist der kritische Wert c nun zu wählen? c = 16, c = 17, c = 18, . . .? Wähle das kleinste c so, dass H0 höchstens mit Wahrscheinlichkeit α = 0.05 fälschlicherweise abgelehnt wird: α = 0.05 ≥ P ( S≥c | {z } |H0 ) H0 wird abgelehnt = 1 − P (S ≤ c − 1|H0 ) c−1 i X 30 1 1 30−i =1− 1− i 2 2 i=0 4 Es ist also die kleinste natürliche Zahl c gesucht, so dass c−1 30 X 30 1 i=0 i 2 ≥ 0.95 Bestimmung des kritischen Wertes c mittels R: > qbinom(0.95, size=30, prob=0.5) > 19 Damit wählen wir c = 20 als kritischen Wert. Da S = 19, können wir H0 nicht ablehnen, wenn wir sicherstellen wollen, dass H0 höchstens mit Wahrscheinlichkeit α = 0.05, dem sogenannten Niveau, fälschlicherweise abgelehnt wird. Abbildung 1: Binomialverteilung Erstellung der Grafiken mittels: plot(dbinom(0:30, size=30, prob=0.5), type="h"); plot(pbinom(0:30, size=30, prob=0.5), type="s"); In unserem Beispiel wird {0, 1, . . . , 19} als Annahmebereich {20, 21, . . . , 30} als Ablehnungsbereich bezeichnet. Der so konstruierte statistische Hypothesentest heißt exakter Binomialtest. Da der kritische Wert c für große Stichprobenumfänge n aufwändig zu berechnen ist, verwendet man stattdessen den approximativen Binomialtest. 5 1.1.1 Approximativer Binomialtest Beispiel: statistische Qualitätskontrolle Bei der Produktion von Speicherchips entstehen 10% unbrauchbare Chips. Anhand einer Stichprobe mit Umfang n = 1000 soll überprüft werden, ob der Produktionsprozess sich verschlechtert hat, also mehr als 10% Ausschuss entsteht. Wie oben seien Xi = 1, falls i-tes Stichprobenelement Ausschuss ist 0, sonst und X1 , ..., Xn unabhängige Bin(1, p)-verteilte Zufallsvariablen. Dann ist n X S= Xi ∼ Bin(n, p) i=1 und nach dem zentralen Grenzwertsatz von Moivre-Laplace S − np Z=p ungefähr N (0, 1)-verteilt np(1 − p) Das Testproblem ist: H0 : p = p0 = 0.1 gegen H1 : p > p0 = 0.1 Der eigentlich interessierende Sachverhalt wird durch die Alternativhypothese ausgedrückt. Wir lehnen H0 ab, falls S bzw. Z zu groß ist. Dabei soll sichergestellt werden, dass die Abweichung von S zu E(S) = np0 bei Vorliegen der Nullhypothese nicht alleine durch den Zufall erklärt werden kann. Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln: |H0 ) 0.05 = α > P ( Z > }c | {z H0 ablehnen ≈ 1 − Φ(c), da Z ∼ N (0, 1) unter H0 Also ist c = z1−α , das (1−α)-Quantil der N (0, 1)-Verteilung, als kritischer Wert zu wählen. Daraus ergibt sich der Ablehnungsbereich c = (z1−α , ∞) H0 wird also zum Niveau α abgelehnt, falls S − np0 Z=p > z1−α np0 (1 − p0 ) 6 Abbildung 2: Kritischer Bereich zum rechtsseitigen Test (Quellcode auf S.??) Für n = 1000, p = 0.1, α = 0.05 wird H0 abgelehnt, falls S − 100 √ > 1.64 90 Z= d.h. S > 115.56 Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verbessert hat, ist das Testproblem: H0 : p = p0 gegen H1 : p < p0 zu betrachten. Der dazugehörige kritische Bereich lautet c = (−∞, −z1−α ) = (−∞, zα ) Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verändert hat, ist das Testproblem: H0 : p = p0 gegen H1 : p 6= p0 zu betrachten. Der dazugehörige kritische Bereich lautet c = (−∞, zα/2 ) ∪ (z1−α/2 , ∞) 7 Abbildung 3: Kritischer Bereich zum zweiseitigen Test (Quellcode auf S.??) Zusammenfassung: Approximativer Binomialtest Gegeben seien folgende Testprobleme über den Parameter p in einer Bin(n, p)-Verteilung: (a) (b) (c) H0 : p = p0 gegen H1 : p 6= p0 H0 : p = p0 gegen H1 : p < p0 H0 : p = p0 gegen H1 : p > p0 Basierend auf der Prüfgröße S − np0 Z=p np0 (1 − p0 ) welche unter H0 näherungsweise N (0, 1)-verteilt ist, und dem vorgegebenen Niveau α entscheidet man sich für H1 im Testproblem (a), (b), (c), falls |z| > z1−α/2 falls z < −z1−α falls z > z1−α 1.1.2 Gauß-Test Beispiel: Kontrollkarten Es sei bekannt, dass ein Produktionsprozess Bleistifte produziert, deren Längen X approximativ N (µ, σ 2 )-verteilt sind mit Erwartungswert µ = 17[cm] und bekannter Varianz σ 2 = 2.25[cm2 ] Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit erlaubter zufälliger Abweichung) entsprechen, d.h. EX = µ0 = 17, betrachtet man das Testproblem H0 : µ = µ0 = 17 gegen H1 : µ 6= 17 8 Dazu entnimmt man der laufenden Produktion Bleistifte mit Längen X1 , ..., Xn ∼ N (µ, σ 2 ) und untersucht die Prüfgröße X̄ oder die standardisierte Prüfgröße Z= X̄ − µ0 √ n σ welche unter H0 N (0, 1)-verteilt ist. H0 wird dann zum Niveau α abgelehnt, falls |Z| > z1−α/2 Zahlenbeispiel: n = 5, x̄ = 18.1, α = 0.01 z= x̄ − µ0 √ 18.1 − 17 √ n= 5 = 1.64 σ 1.5 z1−α/2 = 2.5758 Da |z| ≤ z1−α/2 kann H0 zum Niveau α = 0.01 nicht abgelehnt werden. Ein Eingriff in den Produktionsprozess ist also nicht nötig. In der statistischen Qualitätskontrolle werden für jede Stichprobe die Mittelwerte x̄ über der Stichprobennummer in einer Grafik eingetragen und mit den Kontrollgrenzen σ µ0 − z1−α/2 · √ n und σ µ0 + z1−α/2 · √ n verglichen. Befindet sich x̄ außerhalb dieses dadurch definierten horizontalen Streifens, gilt der Prozess als statistisch außer Kontrolle. Zusammenfassung: Gauß-Test Unabhängige Zufallsvariablen X1 , ...Xn jeweils N (µ, σ 2 )-verteilt mit bekannter Varianz σ 2 oder, falls n groß (Faustregel: n ≥ 30) mit beliebiger stetiger Verteilung, E(Xi ) = µ, V ar(Xi ) = σ 2 . Betrachte folgende Testprobleme: (a) (b) (c) H0 : µ = µ0 gegen H1 : µ 6= µ0 H0 : µ = µ0 gegen H1 : µ < µ0 H0 : µ = µ0 gegen H1 : µ > µ0 Unter H0 (d.h. µ = µ0 ) ist Z= X̄ − µ0 √ n N (0, 1)-verteilt bzw. näherungsweise N (0, 1)-verteilt σ Basierend auf der Prüfgröße Z fällt die Entscheidung für H1 im Testproblem (a), (b), (c), falls |z| > z1−α/2 falls z < −z1−α falls z > z1−α 1.2 Prinzipien des Testens 1. Schritt: Quantifizierung der Fragestellung 2. Schritt: Formulierung der Modellannahmen 3. Schritt: Festlegung der Null- und Alternativhypothese 9 4. Schritt: Wahl des Signifikanzniveaus 5. Schritt: Wahl einer Prüfgröße (Teststatistik), die in der Lage ist, zwischen H0 und H1 zu differenzieren. Bestimmung der Verteilung der Prüfgröße unter der Nullhypothese. Konstruktion des Ablehnungsbereiches. 6. Schritt: Berechnung des Wertes der Prüfgröße für die konkrete Stichprobe 7. Schritt: Testentscheidung Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im Gauß-Test, heißt das Testproblem zweiseitig, falls nur Abweichungen in eine Richtung interessieren, wie im Fall (b) und (c) im Gauß-Test, heißt das Testproblem einseitig. Besteht die Hypothese H0 oder H1 nur aus einem Punkt, nennt man H0 bzw. H1 einfach, sonst zusammengesetzt Tests, die keine genaueren Annahmen über die Verteilung der Zufallsvariablen X1 , ... Xn machen, heißen nichtparametrisch. Werden Annahmen über den Verteilungstyp gemacht, so heißen die Tests parametrisch. 1.2.1 Fehlentscheidungen Bei einem statistischen Testproblem H0 gegen H1 und einem geeigneten statistischen Test spricht man von einem • Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist • Fehler 2. Art, wenn H0 beibehalten wird, obwohl H1 wahr ist Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar: H0 wahr H1 wahr Entscheidung für H0 H1 falsch richtig Fehler 1. Art (α-Fehler) falsch Fehler 2. Art richtig (β-Fehler) Ein statistischer Test heißt Test zum Signifikanzniveau α (wobei 0 < α < 1) oder Signifikanztest, falls: P (H1 annehmen |H0 wahr) ≤ α d.h. P (Fehler 1. Art) ≤ α Typische Werte für das Signifikanzniveau α sind 0.1, 0.05, 0.01. Interpretation: Es werden 100 Stichproben vom Umfang n gezogen und es gelte die Nullhypothese. Bei 100 Tests zum Niveau α wird die Nullhypothese dann im Mittel höchstens in 5% der Fälle (fälschlicherweise) abgelehnt werden. Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis statistisch signifikant zum Niveau α sei. Die Wahrscheinlichkeit für einen Fehler 2. Art kann man meist nicht kontrollieren. Diese Ungleichbehandlung der Fehler 1. und 2. Art ist der Grund dafür, dass die zu sichernde Behauptung als Alternativhypothese formuliert wird. 10 1.2.2 Zusammenhang zwischen statistischen Tests und Konfidenzintervallen Beispiel Gauß-Test Verwerfe H0 , falls Behalte H0 , falls √ 0 |z| = x̄−µ n > z1−α/2 σ x̄ − µ0 √ n ≤ z1−α/2 |z| = σ {z } | σ √ ⇔ |x̄ − µ0 | ≤ z1−α/2 · n h ⇔ µ0 ∈ x̄ − z1−α/2 · √σn , x̄ + z1−α/2 · √σ n i Damit ist H0 genau dann beizubehalten, wenn µ0 im (1 − α)-Konfidenzintervall für µ liegt. Allgemein: Ein 2-seitiges (1 − α)-Konfidenzintervall entspricht dem Annahmebereich des zugehörigen 2-seitigen Signifikanztests zum Niveau α. 1.2.3 Überschreitungswahrscheinlichkeit Der p-Wert oder die Überschreitungswahrscheinlichkeit ist definiert als die Wahrscheinlichkeit den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu beobachten — vorausgesetzt, die Nullhypothese H0 ist wahr: Ist der p-Wert kleiner oder gleich dem vorgegebenen Signifikanzniveau, wird H0 verworfen, andernfalls beibehalten. Fortsetzung des Beispiels zum Gauß-Test: Dort wurde die Teststatistik |z| betrachtet, welche für die Stichprobe den Wert z = 1.64 lieferte. Der p-Wert ist jetzt gegeben durch p = P (|Z| ≥ 1, 64|H0 ) = 2(1 − Φ(1.64)) ≈ 0.1 Abbildung 4: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p. Inhalt der dunkleren Fläche ist p) (Quellcode auf S.??) 11 1.2.4 Gütefunktion Für vorgegebenes Signifikanzniveau α und festen Stichprobenumfang n gibt die Gütefunktion g die Wahrscheinlichkeit für einen statistischen Test an, die Nullhypothese zu verwerfen: g(µ) = P (H0 verwerfen| µ ) |{z} wahrer Parameter Ist µ ∈ H0 , so ist g(µ) ≤ α Ist µ ∈ H1 , so ist 1 − g(µ) die Wahrscheinlichkeit für den Fehler 2. Art Abbildung 5: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist. (Quellcode auf S.??) Abbildung 6: Verlauf der Gütefunktion beim einseitigen Gauß-Test. (Quellcode auf S.??) 12 Berechnung der Gütefunktion für den einseitigen Gauß-Test: g(µ) = P (H0 verworfen | µ) X̄ − µ0 √ n > z1−α µ = P σ X̄ − µ + µ − µ0 √ = P n > z1−α µ σ µ − µ0 √ X̄ − µ √ n > z1−α − nµ = P σ | σ{z } ∼N (0,1) µ − µ0 √ = 1 − Φ z1−α − n σ Abbildung 7: Verlauf der Gütefunktion beim zweiseitigen Gauß-Test. (Quellcode auf S.??) Eigenschaften der Gütefunktionen eines statistischen Tests • Für Werte aus H1 heißt die Gütefunktion Trennschärfe oder Macht • Für Werte aus H0 ist die Gütefunktion kleiner oder gleich α • Für wachsendes n wird die Macht eines Tests größer, d.h. die Gütefunktion wird steiler • Für wachsendes α wird die Macht eines Tests größer • Für einen wachsenden Abstand zwischen Werten aus H1 und H0 wird die Macht eines Tests größer. 1.3 Durchführung eines Tests mit R Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. > binom.test(x=19, n=30, p=0.5, alternative="greater") 13 Exact binomial test data: 19 and 30 number of successes = 19, number of trials = 30, p-value = 0.1002 alternative hypothesis: true probability of success is greater than 0.5 95 percent confidence interval: 0.4669137 1.0000000 sample estimates: probability of success 0.6333333 14 2 Nichtparametrische Tests In manchen Situationen ist es nicht möglich oder sinnvoll, eine Verteilungsannahme über die Daten zu treffen. Nichtparametrische Verfahren bieten häufig eine höhere Flexibilität in der Modellierung. Die damit unter Umständen in Kauf genommenen Nachteile, wie eine geringeren Power, sind oft vernachlässigbar. 2.1 Tests auf Lageparameter 2.1.1 Vorzeichen-Test für den Median Sei X ein ordinal skaliertes Merkmal und x1 , . . . , xn die Realisierungen von unabhängigen wie X verteilten Zufallsvariablen X1 , . . . , Xn . Zur Überprüfung der (Null-)Hypothese, ob der Median xmed von X verschieden von einem hypothetischen Wert δ0 ist, wird kontrolliert, ob die Anzahl S der Messwerte X1 , . . . , Xn , die kleiner als der hypothetische Wert δ0 sind, “deutlich” von der Anzahl abweicht, die man bei Gültigkeit der Nullhypothese H0 erwarten würde. Hypothesen: H0 : xmed = δ0 H1 : xmed 6= δ0 Gilt die Nullhypothese, dann ist S Bin(n, p = 1/2)-verteilt. Damit kann der exakte Binomialtest zur Überprüfung der Hypothese p = 1/2 angewendet werden. Wähle zu einem vorgegebenen Signifikanzniveau α ∈ (0, 1) als kritischen Wert c den größten Wert c, so dass P (S = 0) + P (S = 1) + . . . + P (S = c) ≤ α/2 Für den kritischen Wert c muss also c ≤ PcBin(n, 1/2)α/2 gelten, wobei nur dann c = Bin(n, 1/2)α/2 gewählt werden darf, falls i=0 Bin(n, 1/2; i) = α/2. Dann kann H0 zum Niveau α abgelehnt werden, falls S ≤ c oder S ≥ n − c wobei S := Pn i=1 1[Xi <δ0 ] . In ähnlicher Weise können auch linksseitige oder rechtsseitige Tests formuliert werden. Zusammenfassung: Vorzeichen-Test X1 , . . . , Xn unabhängige Wiederholungen der Zufallsgröße X mit stetiger VF. 1. H0 : xmed = δ0 versus H1 : xmed 6= δ0 2. H0 : xmed ≥ δ0 versus H1 : xmed < δ0 3. H0 : xmed ≤ δ0 versus H1 : xmed > δ0 Teststatistik: S = Anzahl der Stichprobenvariablen mit einem Wert ≤ δ0 . Unter xmed = δ0 ist S Bin(n, 0.5)-verteilt oder für n ≥ 25 approximativ N (0.5n, 0.25n)verteilt. Ablehnungsbereiche: 15 1. S < Bin(n, 0.5)α/2 oder S > 1 − Bin(n, 0.5)α/2 2. S > 1 − Bin(n, 0.5)α 3. S < Bin(n, 0.5)α Gibt es ein Stichprobenelement mit xi = δ0 , so wird dieses Element aus der Stichprobe ausgeschlossen, da es keinen Hinweis über die Richtung der Abweichung von der Nullhypothese liefert. Da die Verteilung von X als stetig angenommen wird, sollte dies nur selten auftreten. 2.1.2 Vorzeichen-Rang-Test von Wilcoxon (eine Stichpr.) Der Vorzeichen-Test nützt von den Daten nur die Information aus, ob sie kleiner oder größer als der hypothetische Wert δ0 sind. Der Vorzeichen Rang-Test von Wilcoxon geht mit der in der Stichprobe enthaltenen Information effizienter um: • Berechne die Differenzen Di = Xi − δ0 , i = 1, . . . , n • Bilde die Beträge dieser Differenzen |D1 |, . . . , |Dn | • Ermittle die Ränge rg|Di | dieser Beträge: der kleinste Betrag erhält den Rang 1, . . . , der größte Betrag erhält den Rang n • Bilde die Summe über alle Ränge, die zu Beobachtungen mit Di > 0 gehören: W + := n X rg|Di |1[Di >0] i=1 Ist der wahre Median tatsächlich δ0 , sollten bei symmetrischer Verteilung von Xi die Summen der Ränge mit Di > 0 und Di < 0 etwa gleich sein. In diesem Fall gilt E(W + ) = n(n+1) , was der Hälfte der totalen Rangsumme von n(n + 1)/2 entspricht. 4 Ist der tatsächliche Median kleiner als δ0 reduziert sich auch der Erwartungswert von W + . Da die Verteilung der Teststatistik W + unter Annahme, dass der wahre Median von X gleich δ0 ist, berechnet werden kann, können auch die kritischen Werte ermittelt werden. X1 , . . . , Xn unabhängig und identisch verteilt wie X X metrisch skaliert und symmetrisch verteilt mit stetiger Verteilungsfunktion. 1. H0 : xmed = δ0 versus H1 : xmed 6= δ0 2. H0 : xmed ≥ δ0 versus H1 : xmed < δ0 3. H0 : xmed ≤ δ0 versus H1 : xmed > δ0 Teststatistik W + := Pn i=1 rg|Di |1[Di >0] Für n ≥ 20 ist W + approximativ N ( n(n+1) , n(n+1)(2n+1) )-verteilt 4 24 Ablehnungsbereiche: + 1. W + < wα/2 oder W + > w1−α/2 2. W + < wα+ 16 + 3. W + > w1−α wobei wα+ das α-Quantil der Verteilung von W + mit Parameter n ist. Treten bei den Rängen Bindungen (Ties) auf, d.h. es tritt für mehrere i derselbe Wert für |Di | auf, so ordnet man diesen Beobachtungen den Durchschnittsrang zu. Beispiel: |Di | rg|Di | 2.5 1 3.8 2 4.1 4 4.1 4 4.1 4 da die drei Beobachtungen mit Betragsdifferenz |Di | = 4.1 den Durchschnittsrang (3 + 4 + 5)/3 = 4 besitzen. Beobachtungen mit Di = 0 werden wie beim Vorzeichen-Test ignoriert. 2.1.3 Rangsummen-Test von Wilcoxon (zwei Stichproben) X1 , . . . , Xn unabhängig und identisch verteilt wie X mit VF F Y1 , . . . , Ym unabhängig und identisch verteilt wie Y mit VF G Es soll überprüft werden, ob X und Y dieselbe Verteilung besitzen. Unterscheiden sich die beiden Verteilungsfunktionen F und G nur um eine horizontale Verschiebung δ0 , so ist die Hypothese, dass die beiden Verteilungen denselben Median besitzen, äquivalent mit δ0 = 0. Dies ist wiederum äquivalent damit, dass die beiden Verteilungen von X und Y übereinstimmen. In diesem Fall erwartet man, dass die Ränge der Xi -Werte in der gepoolten Stichprobe X1 , . . . , Ym in etwa dieselbe Verteilung aufweisen wie die Ränge der Yj -Werte in der gepoolten Stichprobe. Dies führt zum Rangsummen-Test von Wilcoxon. Bei Bindungen werden wieder die Durchschnittsränge gebildet. X1 , . . . , Xn unabhängig und identisch verteilt wie X Y1 , . . . , Ym unabhängig und identisch verteilt wie Y X und Y besitzen stetige Verteilungsfunktionen F und G, die sich nur durch eine horizontale Verschiebung unterscheiden, d.h., es gibt ein δ0 , so dass F (x − δ0 ) = G(x). 1. H0 : xmed = ymed versus H1 : xmed 6= ymed 2. H0 : xmed ≥ ymed versus H1 : xmed < ymed 3. H0 : xmed ≤ ymed versus H1 : xmed > ymed Bilde aus sämtlichen Beobachtungen X1 , . . . , Xn , Y1 , . . . , Ym die gemeinsamen Ränge rg(X1 ), . . . , rg(Xn ), rg(Y P Teststatistik W := ni=1 rg(Xi ) Ablehnungsbereiche: 1. W < wα/2 oder W > w1−α/2 2. W < wα 3. W > w1−α wobei wα das α-Quantil der Verteilung von W zu den Parametern n und m ist. Für große Stichproben (n oder m ≥ 25) ist W approximativ N ( n(n+m+1) , nm(n+m+1) )2 12 verteilt 17 2.2 Anpassungstests Mittels Anpassungstests (oder Goodness-Of-Fit-Tests) kann überprüft werden, ob eine Zufallsvariable einer oder einer Familie hypothetischer Wahrscheinlichkeitsverteilungen folgt. Mit dem χ2 -Anpassungstest haben wir bereits einen ersten nichtparametrischen Test kennengelernt, der für beliebige Skalenniveaus eine Überprüfung der Verteilung erlaubt. Dieser Test ist sehr flexibel, ist aber von asymptotischer Art. Im Weiteren stellen wir den Kolmogorov-Smirnov-Test vor, der auch für sehr kleine Stichprobenumfänge (und in erster Linie stetige Verteilungen) geeignet ist. Der Shapiro-Wilk-Test dient zur Überprüfung der Hypothese, ob die zugrunde liegende Verteilung normalverteilt ist. Er zeichnet sich gegenüber dem χ2 - und dem KolmogorovSmirnov-Test in vielen Testsituationen durch eine vergleichsweise hohe Trennschärfe aus. 2.2.1 Kolmogorov-Smirnov-Test X1 , X2 , . . . unabhängige identisch verteilte reellwertige Zufallsvariablen, die jeweils die VF F besitzen Beobachtet sei die Realisierung x1 , . . . , xn von X1 , . . . , Xn Die empirische Verteilungsfunktion (empirical cumulative distribution function) Fn : R → [0, 1] zur Stichprobe x1 , . . . , xn ist definiert durch n Fn (x) := Fn (x1 , . . . , xn ; x) = 1X 1[xi ≤x] n i=1 Die Schätzfunktion Fn zur VF F ist erwartungstreu und konsistent. Es gilt sogar der Satz von Glivenko-Cantelli: Dn := sup |Fn (X1 , . . . , Xn ; x) − F (x)| → 0 (n → ∞) f.s. x∈R Ist F stetig, dann ist Dn unabhängig von der speziellen Wahl von F . Die Quantile Dn,α der Verteilung von Dn sind vertafelt. √ Für n → ∞ konvergiert nDn in Verteilung gegen die Kolmogorov-Smirnov-Verteilung. Es kann deshalb der folgende Kolmogorov-Smirnov-Test formuliert werden: Sei F0 eine hypothetische Verteilung mit stetiger Verteilungsfunktion. H0 :F = F0 versus H1 :F 6= F0 Lehne H0 zum Niveau α ∈ (0, 1) ab, falls Dn > Dn,1−α Es gibt verschiedene Varianten dieses Tests, z.B. 1-seitige Tests oder Tests, bei denen sich die Nullhypothese auf eine ganze Familie von Verteilungen bezieht. 18 ## Normalverteilte Zufallszahlen x <- rnorm(20) ## Empirische Verteilungsfunktion Fn <- ecdf(x) plot(Fn) z <- seq(from=min(x),to=max(x),by=0.05) lines(z,pnorm(z),col="green") diff <- Fn(z) - pnorm(z,mean=0,sd=1) maxdiff <- which(abs(diff) == max(abs(diff))) xmax <- z[maxdiff] lines(c(xmax,xmax), c(Fn(xmax),pnorm(xmax,mean=0,sd=1)), lwd=3, col="blue") text(xmax, Fn(xmax)-diff[maxdiff]/2, "Kolmogorov-Smirnov-D", pos=4) ## Kolmogorov-Smirnov-Test ks.test(x,"pnorm",mean=0,sd=1) Abbildung 8: Kolmogorov-Smirnov-Teststatistik (Quellcode auf S.??) > ks.test(x,"pnorm",mean=0,sd=1) One-sample Kolmogorov-Smirnov test data: x D = 0.1633, p-value = 0.6035 alternative hypothesis: two-sided 2.2.2 Shapiro-Wilk-Test Beim Shapiro-Wilks-Test werden die Differenzen zwischen größtem und kleinstem Wert, zwischen zweitgrößtem und zweitkleinstem Wert, . . . der Stichprobe mit entsprechenden Differenzen aus der Normalverteilung verglichen und bewertet. 19 Spezifikation einer bestimmten Normalverteilung durch Angabe konkreter Parameterwerte für µ und σ ist nicht möglich. ## Normalverteilte Zufallszahlen > x <- rnorm(20) ## Shapiro-Wilk-Test > shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.9658, p-value = 0.6647 2.3 Test auf Unabhängigkeit: Exakter Test von Fisher Um die Unabhängigkeit zweier kategorialer Merkmale zu überprüfen, kann der χ2 -Unabhängigkeitstest angewendet werden. Hierbei muss allerdings sichergestellt werden, dass die erwarteten Zellhäufigkeiten nicht kleiner als 5 sind. Beispiel: Besteht ein Zusammenhang zwischen der Fähigkeit in einem Versuch einzuparken und dem Geschlecht? erfolgreich nicht erfolgreich weiblich 1 2 3 männlich 3 2 5 4 4 8 Da die erwarteten Zellhäufigkeiten durchweg kleiner als 5 sind, sollte der χ2 -Test auf Unabhängigkeit nicht angewendet werden. Wir betrachten die folgende 1-seitige Testsituation: Nullhypothese H0 : Männer parken nicht häufiger besser ein als Frauen Alternativhypothese H1 : Männer parken häufiger besser ein als Frauen Der exakte Test von Fisher berechnet jetzt unter Voraussetzung der Gültigkeit der Nullhypothese bei festgehaltenen Randsummen die bedingte Wahrscheinlichkeit, das vorliegende Ergebnis oder ein aus Sicht der Nullhypothese extremeres Ergebnis zu beobachten, Sei X die zufällige Anzahl der Frauen, die in der Untersuchung erfolgreich einparkten, so ist X unter der Voraussetzung, dass die Einpark-Geschicklichkeit geschlechtsunabhängig ist, hypergeometrisch verteilt mit den Parametern n = 1 + 3, M = 3, N = 8, also M N −M 3 5 P (X = 1) = 1 n−1 N n = 1 3 = 0.429 8 4 Lautet die Alternativhypothese, dass Männer häufiger besser einparken als Frauen, so stellt die folgende Tabelle aus Sicht der Nullhypothese ein extremeres Ergebnis dar: erfolgreich nicht erfolgreich weiblich 0 3 3 20 männlich 4 1 5 4 4 8 also P (X = 0) = M 0 N −M n−0 N n 5 = 3 0 4 = 0.071 8 4 Damit ist die Wahrscheinlichkeit, das vorliegende Ergebnis oder ein extremeres zu beobachten, gleich P (X = 0) + P (X = 1) = 0.5. Dies ist zugleich der p-Wert für den 1-seitigen Test. Ist er kleiner oder gleich dem vorgegebenen Signifikanzniveau α, wird die Nullhypothese zu diesem Niveau α verworfen. Zum Niveau α = 0.05 gibt es also keinen Grund, die Alternativhypothese, wonach Männer häufiger auf einen Versuch einparken als Frauen, anzunehmen. Wir betrachten jetzt die folgende 2-seitige Testsituation: H0 : Erfolgreiches Einparken und Geschlecht sind unabhängig H1 : Erfolgreiches Einparken und Geschlecht sind abhängig Als p-Wert wählen wir den doppelten Wert des p-Wertes des 1-seitigen Tests. Der Test kann auch auf größere als 2 × 2-Tabellen angewendet werden. Wird der Test von Hand durchgeführt (was praktisch nie gemacht wird), empfiehlt es sich, die Tabelle so anzuordnen, dass links oben die kleinste Häufigkeit steht. Wir untersuchen dann wieder, wie groß die bedingte Wahrscheinlichkeit ist (bei festgehaltenen Randsummen), diesen oder einen kleineren Wert zu beobachten, vorausgesetzt, die Nullhypothese hinsichtlich Unabhängigkeit ist richtig. Der exakte Test von Fisher kann sowohl als Unabhängigkeitstest als auch als Homogenitätstest zu zwei kategorialen Merkmalen X und Y verwendet werden: • Sind X und Y stochastisch unabhängig? D.h. gilt P (X = i, Y = j) = P (X = i) · P (Y = j)? • Sind die bedingten Verteilungen von X gegeben Y identisch? D.h. gilt P (X = i|Y = 1) = . . . = P (X = i|Y = k) für alle möglichen Werte von i von X und j von Y ? 21 3 Verfahrensübersicht Bestimme zunächst: • die Struktur der Stichprobe: 1-Stichprobenfall, 2-Stichprobenfall usw. • Funktion der Beobachtungsvariablen – keine Funktionsdifferenzierung der Variablen – Differenzierung in ∗ Kriteriumsvariable (Zielgröße, Regressand) ∗ Kovariable (Begleitvariable, Prädiktor, Regressor, Faktor) • Skalentyp – kategorial ∗ normal ∗ ordinal – metrisch ∗ intervallskaliert ∗ verhältnisskaliert Variablen gleichberechtigt und vom gleichen Skalentyp Datenstruktur 1 Stichprobe kategorial Binomialtest χ2 -Anpassungstest Skalentyp ordinal K-S-Anpassungstest t-Test Wilc. Vorz.-Rang-T., jew. für Differenzen 2 verbundene Stichproben 2 unabh. Stichproben metrisch t-Test χ2 -Varianztest Wilc. Vorz.-Rang-T. χ2 -Homogenitätstest in 2 × j Tafeln k verbundene Stichproben Wilc. Rang-Su.-T. 2-Stichpr. t-Test 2-Stichpr. Varianztest FriedmanRang-VA Zweifache VA (mit Besetzungszahl 1) K-W-Rang-VA Einfache VA Bartlett-Test Levene-Test k unabh. Stichproben χ2 -Homogenitätstest in k × j Tafeln bivariate Stichprobe χ2 -Unabhängigkeit in Kontingenztafeln Gewöhnlicher Korrelationskoeff. m-variate Stichprobe log-lineare Modelle Korrelationsanalyse Kriteriumsvariable 1-dimensional, Kovariable m-dimensional 22 Skalentyp der Kovariablen alle kategorial Skalentyp der Kriteriumsvariablen kategorial ordinal metrisch Logit-Modell VA mit m-fach Klassif. alle metrisch logistische RA kumul. logist. RA gemischt kateg./metrisch multiple RA KovarianzAnalyse Kriteriumsvariable k-dimensional Datenstruktur ohne Kovariablen Analyse Faktorenanalyse , falls Gruppenstruktur der Variablen gesucht. Clusteranalyse, falls Gruppenstruktur der Fälle gesucht. mit 1 kat. Faktor MANOVA mit Einfachklassifkation mit 2, 3,. . . kat. Faktoren MANOVA mit 2-fach, 3-fach, . . . Klassifkation mit m metrischen Regressoren Multivariate Regressionsanalyse 23 4 Einfache lineare Regression 4.1 Einfache lineare Regression Beispiel: Rohöl und Benzinpreise Die folgenden Daten geben die mittleren Rohöl-Preise xi (in Dollar/Barrel) und Benzinpreise yi (in Cent/Gallone) wieder: i 1 2 3 .. . Jahr i 1980 1981 1982 .. . yi 125 138 129 .. . xi 28.07 35.24 31.87 .. . 21 22 2000 2001 151 146 28.26 22.96 Zu diesen Daten stellen sich einige Fragen: • Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis feststellbar? • Welchen Benzinpreis würde man im Mittel anhand der Daten prognostizieren, wenn der Rohölpreis auf 50$ pro Barerel steigt? • In welchem Bereich würde der Benzinpreis — nicht nur sein Erwartungswert — mit großer Wahrscheinlichkeit liegen? Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms Abbildung 9: Darstellung der Daten als Streudiagramm (Quellcode auf S.??) Schritt 2: Vermutung über Zusammenhang anstellen. Nicht unerwartet korrespondieren größere Ölpreise mit höheren Benzinpreisen. Man könnte näherungsweise einen linearen Zusammenhang mutmaßen. Seien (xi , yi ) die Datenpaare, wobei xi den Rohölpreisen und yi den Benzinpreisen entspricht, dann gilt: yi = a + bxi + ei 24 wobei die ei die Abweichungen von der Gerade a + bx beschreiben. Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den Daten möglichst gut beschreibt. Dazu wird die Methode der kleinsten Quadrate verwendet. 4.2 Methode der kleinsten Quadrate Ausgehend von der Beziehung: yi = a + bxi + ei , ei = yi − (a + bxi ) “Fehler” (Residuum) sucht man nach einer Gerade, für die alle “Fehlerterme” (error) ei möglichst klein werden. Das erreicht man z.B. in dem man Q(a, b) := n X e2i i=1 = n X [yi − (a + bxi )]2 i=1 minimiert. Wir gehen im Folgenden davon aus, dass die xi nicht alle identisch sind. Abbildung 10: Darstellung der Fehlerquadrate (Quellcode auf S.??) Das Minimierungsproblem ist: Q(a, b) = n X [yi − (a + bxi )]2 → Min i=1 Die kritischen Stellen werden ermittelt: n X ∂Q (a, b) = 2 · [yi − (a + bxi )] · (−1) ∂a i=1 ∂Q (a, b) = ∂b n X 2 · [yi − (a + bxi )] · (−xi ) i=1 25 Die Lösung des linearen Gleichungssystems ∂Q (a, b) = 0 ∂a ∂Q (a, b) = 0 ∂b führt auf genau eine Lösung â, b̂, die Q minimiert: Pn xi yi − nx̄ȳ , â = ȳ − b̂x̄ b̂ = Pi=1 n 2 2 i=1 xi − nx̄ Einfache lineare Regression und Kleinste-Quadrate-Methode Gegeben seien die reellwertigen Beobachtungswerte (x1 , y1 ), ..., (xn , yn ). Dann heißt yi = a + bxi + ei , i = 1, ..., n einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b den Steigungsparameter und ei die Residuen (Fehler) bezeichnen. Unter der Annahme s2X > 0 sind die Kleinste-Quadrate-Koeffizienten für a und b gegeben durch: Pn 1 Pn xi yi − nx̄ȳ i=1 (xi − x̄)(yi − ȳ) n−1 i=1 â = ȳ − b̂x̄, b̂ = Pn = Pn 2 1 2 2 i=1 xi − nx̄ i=1 (xi − x̄) n−1 Die Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch ŷ(x) = â + b̂x. Die Werte yˆi = â + b̂xi und eˆi = yi − yˆi bezeichnen wir als KQ-gefittete Werte bzw. KQResiduen. Eigenschaften • Die KQ-Gerade geht durch den Mittelpunkt (x̄, ȳ). â = ȳ − b̂x̄ ⇒ ȳ = â + b̂x̄ = ŷ/(x̄). • Die Summe der KQ-Residuen ist gleich 0: n X êi = 0 i=1 • ŷ¯ = ȳ • Wenn alle Punkte (xi , yi ) auf der Geraden a + bx liegen, dann sind: â = a, b̂ = b, yˆi = yi , eˆi = 0 • Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen Wert x prognostiziert man den y-Wert: ŷ(x) = â + b̂x 26 4.3 Gütemaß für die Anpassung der Geraden Wie gut lassen sich die Daten mit einer Geraden beschreiben? Streuungszerlegung der Regression n X (yi − ȳ)2 = i=1 n X (yˆi − ȳ)2 + i=1 n X (yi − yˆi )2 i=1 Ansatz: • Die Residualstreuung ist die Summe der verbliebenen quadrierten Fehler nach Anpassung der Geraden. • Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der Gesamtstreuung groß ist: Pn (yˆi − ȳ)2 Erklärte Streuung 2 R = Pi=1 = n 2 Gesamtstreuung (y − ȳ) i=1 i Bestimmtheitsmaß Gegeben seien die reellwertigen Beobachtungswerte (x1 , y1 ), ..., (xn , yn ) mit s2X > 0 und s2Y > 0 Dann ist das Bestimmtheitsmaß der KQ-Regression gegeben durch: Pn Pn (yˆi − ȳ)2 (yi − yˆi )2 2 i=1 R = Pn = 1 − Pi=1 n 2 2 i=1 (yi − ȳ) i=1 (yi − ȳ) Eigenschaften • 0 ≤ R2 ≤ 1 2 • R2 = rXY • R2 = 1 genau dann, wenn alle Punkte (xi , yi ) auf einer Geraden liegen. • R2 = 0 genau dann, wenn sXY = 0 ist. Eine gute Beschreibung der Daten durch eine Gerade liegt bei großen Werten von R2 (nahe 1) vor, eine schlechte bei kleinen Werten von R2 (nahe 0). Beispiel (fortgesetzt): Ölpreise Direkte Berechnung der Regressionsgeraden: X x̄ = 21.572, ȳ = 117.635, x2i = 11078.277 i X yi2 = 309218, X i 2 i xi − nx̄2 11078.277 − 22 · 21.5722 = = 40.026 n−1 21 P 2 2 57284.35 − 22 · 117.6362 i yi − nȳ = = 227.475 21 P n−1 57284.35 − 22 · 21.572 · 117.636 i xi yi − nx̄ȳ = = 69.342 n−1 21 P s2X = s2Y = sXY = xi yi = 57284.35 i 27 Daher: b̂ = sxy 69.342 = = 1.732, â = ȳ − b̂x̄ = 117.636 − 1.732 · 21.572 = 80.273 2 40.026 sX Und für das Bestimmtheitsmaß ergibt sich: 69.342 sXY = 0.727, =√ rXY = q 40.026 · 227.475 s2X s2Y 2 R2 = rXY = 0.529 Prognose für x = 50 durch Einsetzen in KQ-Gleichung ŷ(x) = â + b̂x, x = 50 ergibt ŷ(50) ≈ 166.9. In R lässt sich die Regressionsgerade mit eine paar einfachen Kommandos berechnen und in das Streudiagramm einzeichnen: plot(oelpreis,benzinpreis) ## Scatterplot myregression <- lm(benzinpreis~oelpreis) myregression ## zeigt Ergebnis der Regressionsrechnung an abline(myregression) ## zeichnet Regressionsgerade Abbildung 11: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??) Vorhersage des Blutdrucks Für 15 zufällig ausgewählte Frauen wurde das Alter (xi ) festgestellt und der Blutdruck (yi ) gemessen. Wie kann zu gegebenem Alter der zu erwartende Blutdruck vorhergesagt werden? 28 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Alter (xi ) 47 52 30 35 59 44 63 38 49 41 32 55 46 51 63 Blutdruck (yi ) 129 139 112 119 145 133 152 117 145 136 115 137 134 141 157 Die Berechnung der KQ-Daten und des Bestimmtheitsmaßes wird R überlassen. Abbildung 12: Regression zu Blutdruckdaten (Quellcode auf S.??) Der “Fit” der Geraden ist hier besser: R2 ist größer als im vorigen Beispiel. ŷ(45) = 77.363 + 1.2065 · 45 = 131.6 ≈ 132 Im Mittel würde man bei einer 45-jährigen Frau einen Blutdruck von 132 erwarten. Wie genau ist der Wert und wie groß ist der “normale” Schwankungsbereich dieses Wertes für einzelne Frauen? 4.4 Stochastisches Modell Um für Datenpaare (xi , yi ), i = 1, ..., n, für die man lineare Zusammenhänge zwischen den xi und yi -Werten vermutet, Wahrscheinlichkeitsaussagen ableiten zu können, muss man sie mit einem geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt sollen die Daten durch eine Geradenbeziehung yi = α + βxi + ei beschrieben werden. Wenn die yi funktional beschrieben werden durch die xi bezeichnet man 29 • yi als abhängige oder endogene Variablen • xi als unabhängige oder exogene Variablen oder Regressoren und die • ei als latente Variablen oder Störvariablen. Die ei können nicht beobachtet werden und die Parameter α und β sind unbekannt. Wo gibt es im Modell zufällige Komponenten? Beispiel: College-Absolventen Die folgenden Daten geben die Anzahl der Absolventen eines kleinen Colleges an, die im Jahr (xi ) ihres Abschlusses einen Job gefunden haben. Die Anzahl (yi ) der Absolventen soll über die Jahre etwa gleich groß gewesen sein. Jahr Berufseinsteiger 1 121 2 138 3 115 4 162 5 160 6 174 Die Jahre xi sind nichtzufällig, während die konkreten Berufseinsteigerzahlen yi nicht vorhersehbar waren und als “zufällig” interpretiert werden können. Streudiagramm Abbildung 13: Berufseinsteiger (Quellcode auf S.??) Modell mit deterministischen Regressoren xi sind deterministisch und yi sind als Realisierungen von Zufallsvariablen Yi aufzufassen. Dann sind aber auch die ei = yi − α − βxi als Realisierungen von Zufallsvariablen εi = Yi − α − βxi aufzufassen. Modellansatz: Yi = α + βxi + εi Beispiel (fortgesetzt): Blutdruckdaten Im Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld der Erhebung ist i.A. sowohl das Alter (xi ) als auch der Blutdruck (yi ) nicht bekannt und muss als Realisierung von Zufallsvariablen Xi bzw. Yi aufgefasst werden. 30 Modell mit stochastischen Regressoren: Das “zufällige” Verhalten der Beobachtung xi und yi sowie ei werden beschrieben mit Zufallsvariablen Xi , Yi und εi , die in folgender Beziehung stehen: Yi = α + βXi + εi Dabei wird die Zusatzannahme getroffen, dass Xi und εi unabhängig sind. Beide Regressionsmodelle haben große Gemeinsamkeiten: • Die Schätzer für die Parameter α und β werden mit den gleichen Formeln berechnet, s.u. • Die bedingte Verteilung von Yi gegeben Xi = xi ist gleich der Verteilung, die sich aus dem deterministischen Ansatz ergibt. Wir beschränken uns im Folgenden auf die nähere Untersuchung des Modells mit deterministischen Regressoren. Standardmodell der linearen Einfachregression x1 , . . . , xn seien reelle Zahlen und Y1 , . . . , Yn seien reelle Zufallsvariablen. Die Vektoren (x1 , Y1 ), . . . , (xn , Yn ) erfüllen das Standardmodell der linearen Einfachregression mit den Parametern α, β und σ 2 > 0, wenn Yi = α + βxi + εi , i = 1, . . . , n gilt, wobei εi u.i.v. Zufallsvariablen sind, für die E(εi ) = 0 und V ar(εi ) = σ 2 gilt. Anmerkungen: • Die Zufallsvariablen εi können nicht beobachtet werden. Sie beschreiben die Abweichungen der Yi -Werte von der Regressionsgeraden α + βx. • Die xi -Werte sind entweder als einstellbare deterministische, d.h. nicht zufällige, Regressoren oder als Realisierungen von Zufallsvariablen Xi aufzufassen. • Der Parameter β beschreibt die lineare Abhängigkeit der yi - von den xi -Werten. Ist β = 0, gibt es keine (lineare) Abhängigkeit. Die Schätzer im Standardmodell berechnen wir wie oben durch Minimierung von Q(α, β) := n X [Yi − (α + β · xi )]2 → Minα,β i=1 Als Ergebnis erhalten wir in Analogie zu oben: Wenn s2X > 0 ergeben sich als Schätzer α̂ und β̂ im Standardmodell α̂ = Ȳn − β̂ · x̄, Pn 1 Pn xi Yi − nx̄Ȳn sXY i−1 (xi − x̄)(Yi − Ȳn ) n−1 i=1 β̂ = Pn = = . Pn 2 1 2 2 s2X i=1 xi − nx̄ i=1 (xi − x̄) n−1 α̂ und β̂ sind erwartungstreue Schätzer von α bzw. β, d.h. E(α̂) = α und 31 E(β̂) = β . Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen α̂ und β̂ i.F. sowohl die Schätzer als auch die Schätzwerte für α und β. Die jeweilige Bedeutung erschließt sich aus dem Kontext. Beispiel (fortgesetzt): College-Absolventen. X X X x̄ = 3.5, ȳ = 145, x2i = 91, yi2 = 129030, xi yi = 3234 i i i 2 i xi − n · x̄2 91 − 6 · 3.52 = = 3.5 n−1 5 P 2 y − n · ȳ 2 29030 − 6 · 1452 s2Y = i i = = 576 5 P n−1 xi yi − n · x̄ · ȳ 3234 − 6 · 3.5 · 145 sXY = i = = 37.8 n−1 5 s2X P = Daher β̂ = 37.5 sXY = = 10.8 2 3.5 sX α̂ = ȳ − β̂ · x̄ = 145 − 10.8 · 3.5 = 107.2 37.5 sXY =√ rXY = q = 0.8419 3.5 · 576 s2 · s2 X 2 R2 = rXY = 0.84192 = 0.788 Y Abbildung 14: Streudiagramm mit Regressionsgeraden (Quellcode auf S.??) Zur näheren Beschreibung der Verteilung von α̂ und β̂ kann man die Varianzen berechnen. Dazu macht man sich zunutze, dass n n X X 1 β̂ = β + ci εi und α̂ = α + − ci x̄ εi n i=1 mit i=1 xi − x̄ 2 i=1 (xi − x̄) ci = Pn 32 gilt. Die Varianzen berechnen sich als σ2 2 i=1 (xi − x̄) P σ 2 n x2 Pn i=1 i 2 V ar(α̂) = σα̂2 = n · i=1 (xi − x̄) V ar(β̂) = σβ̂2 = Pn Die Varianzen kann man nicht direkt berechnen, da sie vom unbekannten Parameter σ 2 abhängen. Aber: α̂ bzw. β̂ sind MSE- und schwach konsistent für α bzw. β, wenn die Konsistenzbedingung n X (xi − x̄)2 → ∞ für n → ∞ i=1 gilt. Ausgehend von der Definition des Bestimmtheitsmaß kann man die Berechnung von σ̂ 2 auf bekannte Größen zurückführen: P2 (yi − ŷi )2 2 R = 1 − Pi=1 n 2 i=1 (yi − ȳ) ⇒ n n X X (yi − ŷi )2 = (1 − R2 ) (yi − ȳ)2 = (1 − R2 )(n − 1)s2Y i=1 Also i=1 n−1 n−1 σ̂ = (1 − R2 )s2Y = n−1 n−2 2 s2XY 2 2 mit R2 = RXY sY − 2 sX Beispiel (fortgesetzt): Für die College-Daten gilt dann σ̂ 2 = n−1 2 5 s (1 − R2 ) = 576 · (1 − 0.7088) = 209.664 n−2 Y 4 Mit dem Schätzer für σ 2 kann man die Varianzen bzw. Standardfehler von α̂ und β̂ schätzen P q σ̂ 2 ni=1 x2i 2 P σ̂α̂ = σ̂α̂ = σ̂α̂2 n · ni=1 (xi − x̄)2 q σ̂ 2 σ̂β̂2 = Pn σ̂ = σ̂ 2 β̂ 2 β̂ i=1 (xi − x̄) Unter präziseren Verteilungsannahmen kann auch die Verteilung der Schätzer genauer beschrieben werden und es können Tests konstruiert werden. Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi u.i.v. und εi ∼ N (0, σ 2 ). Unter der Normalverteilungsannahme gilt • α̂ und β̂ sind gemeinsam normalverteilt. • (n − 2) · σ̂ 2 /σ 2 ist χ2 -verteilt mit n − 2 Freiheitsgraden. • α̂ und σ̂ 2 bzw. β̂ und σ̂ 2 sind unabhängig. 33 Aus der Normalverteilungsannahme und der Definition der t-Verteilung folgt α̂ − α α̂ − α σ̂α̂ α̂ − α σ̂ = = σ̂α̂ σα̂ σα̂ σα̂ σ s s α̂ − α (n − 2)σ̂ 2 W2 = = Z ∼ tn−2 σα̂ σ 2 (n − 2) (n − 2) mit Z = α̂ (n − 2)σ̂ 2 ∼ N (0, 1), W 2 = ∼ χ2n−1 . σα̂ σ2 Eine analoge Aussage gilt für β̂ Unter der Normalverteilungsannahme gilt α̂ − α β̂ − β ∼ tn−2 ∼ tn−2 und σ̂α̂ σ̂β̂ Mit Hilfe dieser Aussagen lassen sich Tests für α und β konstruieren: Tests für die Regressionskoeffizienten Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung sowie s2X > 0. Wir betrachten folgende Testprobleme über die Parameter α und β: a) H0 :α = α0 gegen H1 :α 6= α0 , d) H0 :β = β0 gegen H1 :β 6= β0 , b) H0 :α ≥ α0 gegen H1 :α < α0 , e) H0 :β ≥ β0 gegen H1 :β < β0 , c) H0 :α ≤ α0 gegen H1 :α > α0 , f) H0 :β ≤ β0 gegen H1 :β > β0 . Basierend auf der Teststatistik β̂ − β0 α̂ − α0 Tα0 = q bzw. Tβ0 = q σ̂ 2 σ̂α̂2 β̂ und dem vorgegebenen Signifikanzniveau α∗ fällt die Entscheidung für H1 im Testproblem a) , falls |Tα0 | > tn−2,1−a∗ /2 , d) , falls |Tβ0 | > tn−2,1−α∗ /2 ∗ b) , falls Tα0 < −tn−2,1−a , e) , falls Tβ0 < −tn−2,1−α∗ c ) , falls Tα0 > tn−2,1−a∗ , f ) , falls Tβ0 > tn−2,1−α∗ Insbesondere der Test H0 : β = 0 ist wichtig, da hiermit überprüft wird, ob es einen linearen Zusammenhang zwischen den yi - und xi -Werten gibt. Beispiel (fortgesetzt) College-Daten. Wir wollen überprüfen, ob β = 0 ist. Das Signifikanzniveau sei α∗ = 0.05. Dazu berechnen wir den Schätzer für den Standardfehler von β̂. σ̂ 2 209.664 σ̂ 2 = = = 11.9808 ⇒ σ̂β̂ = 3.4613. 2 2 5 · 3.5 (n − 1)sX i=1 (xi − x̄) σ̂β̂2 = Pn Damit ist β̂ − β0 10.8 − 0 t= q = = 3.12. 2 3.4613 σ̂ β̂ Der kritische Wert ist tn−2,1−α∗ /2 = t4,0.975 = 2.7764. Wegen 3.12 > 2.7 ist die Nullhypothese β = 0 abzulehnen. Es gibt also einen signifikanten linearen Trend bei den Berufseinsteigerzahlen. Statistische Tests für die Regressionsparameter mit R 34 > x <- 1:6 > y <- c(121,138,115,162,160,174) > mymodel <- lm(y~x) > summary(mymodel) Call: lm(formula = y ~ x) Residuals: 1 2 3 3.0 9.2 -24.6 4 11.6 5 -1.2 6 2.0 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 107.200 13.481 7.952 x 10.800 3.462 3.120 0.00135 ** 0.03553 * Residual standard error: 14.48 on 4 degrees of freedom Multiple R-squared: 0.7087, Adjusted R-squared: 0.6359 F-statistic: 9.734 on 1 and 4 DF, p-value: 0.03553 Konfidenzintervalle für die Regressionsparameter Ausgehend von der Verteilungsaussage zu α̂ und β̂ kann man Konfidenzintervalle für α und β herleiten: Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung. Dann sind α̂ − tn−2,1−α∗ /2 σ̂α̂ , α̂ + tn−2,1−α∗ /2 σ̂α̂ bzw. h i β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂ (1 − α∗ )-Konfidenzintervalle für die Parameter α bzw. β. Anmerkung: Diese Struktur von Konfidenzintervallen ist sehr typisch. θ̂ sei ein Parameterschätzer für einen Parameter θ und σθ̂ sein Standardfehler. θ̂ − θ ∼ N (0, 1) für alle zulässigen θ σθ̂ h i ⇒ θ̂ − z1−α/2 σθ̂ , θ̂ + z1−α/2 σθ̂ ist (1 − α)-Konfidenzintervall für θ Beispiel: Konfidenzintervall für µ bei bekanntem σ 2 . X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann gilt für den Schätzer X̄n für µ : V ar(X̄n ) = σ 2 /n: h i p p X̄n − z1−α/2 σ 2 /n, X̄n + z1−α/2 σ 2 /n = X̄n − z1−α/2 σX̄n , X̄n + z1−α/2 σX̄n θ̂ sei ein Parameterschätzer für einen Parameter θ und σ̂θ̂ ein Schätzer für seinen Standardfehler. θ̂ − θ ∼ tm für alle zullässigen θ σ̂θ̂ h i ⇒ θ̂ − tm,1−α/2 σ̂θ̂ , θ̂ + tm,1−α/2 σ̂θ̂ ist (1 − α)-Konfidenzintervall für θ 35 Anmerkung: i.A. m = n Anzahl der geschätzten Parameter. Beispiel: Konfidenzintervall für µ bei unbekanntem σ 2 . X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann gilt 2 = S 2 /n, für den Schätzer X̄n für µ : V ar(X̄n ) = σ 2 /n und σ̂X̄ n n h X̄n − tn−1,1−α/2 i p p Sn2 /n, X̄n + tn−1,1−α/2 Sn2 /n = X̄n − t−1,1−α/2 σ̂X̄n , X̄n + tn−1,1−α/2 σ̂X̄n Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen Modellen Schätzwerte für die Parameter und Standardfehler. Wenn die zugehörigen standardisierten Schätzer t-verteilt oder asymptotisch normal verteilt sind, kann man obige Konfidenzintervallkonstruktion direkt verwenden. Beispiel: College-Absolventen. Wir berechnen ein 0.95-Konfidenzintervall für β. σ̂β̂ = 3.4613 und β̂ = 10.8 wurde bereits früher berechnet. Mit tn−2,1−α∗ = t4,0.975 = 2.7764 gilt h i β̂ − tn−2,1−α∗ /2 σ̂β̂ , β̂ + tn−2,1−α∗ /2 σ̂β̂ = [10.8 − 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613] = [1.19, 20.41] Falls die Normalverteilungsannahme εi ∼ N (0, σ 2 ) verletzt, aber die Konsistenzbedingung n X (xi − x̄)2 → ∞ für n → ∞ i=1 erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer auch approximativ. Dann gelten auch die angegebenen Tests und Konfidenzintervalle approximativ. Beispiel (Fortsetzung): College-Daten. Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen Regression, n X 2 n X } |i=1 {z (yi − ȳ) = |i=1 {z (ŷi − ȳ) 2 + } Gesamtstreuung Erklärte Streuung (SQT) (SQE) n X (yi − ŷi )2 |i=1 {z Reststreuung (SQR) Konfidenzintervalle für die Regressionsparameter mit R > x <- 1:6 > y <- c(121,138,115,162,160,174) > mymodel <- lm(y~x) > confint(mymodel) 2.5 % 97.5 % (Intercept) 69.770472 144.62953 x 1.188984 20.41102 Prognose Ausgehend vom Regressionsmodell Yi = α + βxi + εi 36 } interessiert man sich für die Regressionsgerade y(x) = α + βx für einen Vorgabewert x. Schätzung von y(x) : Ŷ (x) = α̂ + β̂ · x Dann gilt E(Ŷ (x)) = E(α̂ + β̂ · x) = E(α̂) + E(β̂) · x = α + β · x = y(x) 1 (x − x̄)2 2 2 +P σŶ (x) = V ar(Ŷ (x)) = V ar(α̂ + β̂ · x) = . . . = σ . 2 n i (xi − x̄) Ŷ (x) ist also erwartungstreu und MSE- bzw. schwach konsistent. Die Varianz können wir schätzen mit 1 (x − x̄)2 +P . σ̂Ŷ2 (x) = σ̂ 2 2 n i (xi − x̄) Prognose für y(x): Ŷ (x) = α̂ + β̂ · x ist der Schätzer für y(x). Unter der Normalverteilungsannahme ist i h Ŷ (x) − tn−2,1−α∗ /2 σ̂Ŷ (x) , Ŷ (x) + tn−2,1−α∗ /2 σ̂Ŷ (x) ein (1 − α)-Konfidenzintervall für y(x). y(x0 ) beschreibt nur die “Mittellage” einer Zufallsvariable Y0 , die zu einem Regressor x0 erhoben wird. Interessant ist häufig der Wertebereich, in dem wir Y0 mir großer Wahrscheinlichkeit finden. Dazu muss nicht nur die Mittellage y(x0 ), sondern auch der Schwankung um diese Mittellage mit einem Störterm ε0 Rechnung getragen werden. Ansatz: Ỹ0 = α̂ + β̂ · x0 + ε0 = Ŷ (x0 ) + ε0 , E(ε0 ) = 0, V ar(ε0 ) = σ 2 , wobei ε0 unabhängig von ε1 , . . . , εn . Damit ist 1 (x0 − x̄)2 V ar(Ỹ0 ) = V ar(Ŷ (x0 )) + V ar(ε0 ) = σ 1 + + P 2 n i (xi − x̄) 2 und 1 (x0 − x̄)2 σ̂Ỹ2 = σ̂ 2 1 + + P . 2 0 n i (xi − x̄) Prognose für Y0 zu gegebenen x0 : Unter der Normalverteilungsannahme ist h i Ŷ (x0 ) − tn−2,1−α∗ /2 σ̂Ŷ0 , Ŷ (x0 ) + tn−2,1−α∗ /2 σ̂Ŷ0 ein (1 − α)-Konfidenz- oder Prognoseintervall für Y0 . Beispiel: College-Absolventen. 37 Wir berechnen ein 0.95-Konfidenzintervall für y(x0 ) und Y0 zu x0 = 7. Aus x̄ = 3.5, s2x = 3.5, σ̂ = 14.461, t4,0.975 = 2.7764 ergibt sich σ̂Ŷ2 (7) = σ̂ 2 1 (x0 − x̄)2 +P 2 n i (xi − x̄) σ̂Ỹ2 = σ̂ 2 + σ̂Ŷ2 (7) = 391.44, 0 = 209.7 · 1 (7 − 3.5)2 + 6 5 · 3.5 σ̂Ŷ (7) = 13.4811, = 181.74 σ̂Ỹ0 = 19.7848 Damit sind Ŷ (7) = α̂ + β̂ · 7 = 107.2 + 10.8 · 7 = 182.8, t4,0.975 = 2.7764, und h i Ŷ (7) − tn−2,1−α∗ /2 σ̂Ŷ (7) , Ŷ (7) + tn−2,1−α∗ /2 σ̂Ŷ (7) = [145.37, 220.23] i h bzw. Ŷ (7) − tn−2,1−α∗ /2 σ̂Ỹ0 , Ŷ (7) + tn−2,1−α∗ /2 σ̂Ỹ0 = [127.87, 237.73] die gesuchten Konfidenzintervalle. Abbildung 15: Prognose und Konfidenzintervalle (Quellcode auf S.??) In das Streudiagramm der “College-Absolventen” wurde in der obenstehenden Abbildung die geschätzte Regressionsgerade Ŷ (x) und zu jedem x0 die Konfidenzintervalle zu Ŷ (x0 ) und Ỹ0 eingezeichnet. Der rote Punkt kennzeichnet den Prognosenpunkt zu x0 = 7. Die Konfidenzintervalle werden größer, je weiter x0 von x̄ = 3.5 entfernt ist. Konfidenz- und Prognosestreifen mit R x <- 1:6; y <- c(121,138,115,162,160,174) plot(x,y,xlim=c(0,8.5), ylim=c(50,260), xlab="Jahr",ylab="Berufseinsteiger",col="blue") mymodel <- lm(y~x) y0 <- sum(mymodel$coefficients*c(1,0)) 38 y8 <- sum(mymodel$coefficients*c(1,8)) lines(matrix(c(0,y0,8,y8),byrow=TRUE,ncol=2)) newx <- data.frame(x=seq(0,8,by=0.1)) predEY <- predict(mymodel, newx, interval="confidence") lines(data.matrix(newx), data.matrix(predEY[,2]),col="red") lines(data.matrix(newx), data.matrix(predEY[,3]),col="red") predY <- predict(mymodel, newx, interval="prediction") lines(data.matrix(newx), data.matrix(predY[,2]),col="green") lines(data.matrix(newx), data.matrix(predY[,3]),col="green") points(7,predict(mymodel, data.frame(x=7)),col="red", pch=15) 39 5 Varianzanalyse Modelle der Varianzanalyse (ANOVA - Analysis of Variance) dienen zur Untersuchung der Frage, ob eine oder mehrere kategoriale Größen (Faktoren) einen Einfluss auf die metrische Kriteriumsvariable besitzen. Je nach Anzahl der Faktoren spricht man von einer Varianzanalyse mit Einfach-, Zweifach-, . . . Klassifikation. Ausprägungen eines Faktors werden als Stufen des Faktors bezeichnet. Ist jede Stufe eines Faktors mit jeder Stufe eines anderen kombiniert, so spricht man von (einem Versuchsplan mit) Kreuzklassifikation, andernfalls von hierarchischer Klassifikation. 5.1 Einfache Klassifikation Welchen (Mittelwert-) Einfluss haben die k Stufen eines Faktors auf die Kriteriumsvariable Y ?[10pt] Gruppe (=Faktorstufe) EW Umfang 1 .. . µ1 .. . n1 .. . Y11 .. . ... Y1n1 .. . Ȳ1 .. . i .. . µi .. . ni .. . Yi1 .. . ... Yini .. . Ȳi .. . k µk nk Yk1 ... Yknk Ȳk Ȳi = ni 1 X Yi,j ni Stichprobe Mittelwert Mittelwert der Gruppe i j=1 n = n 1 + · · · + nk k Ȳ Umfang der gesamten Stichprobe n = i 1 XX Yi,j n = k 1X ni Ȳi n i=1 j=1 Mittelwert der gesamten Stichprobe i=1 Modell 1 Yij = µi + eij i = 1, . . . , k, j = 1, . . . , ni mit unabhängigen Zufallsvariablen e11 , . . . , ek,nk (Fehlervariablen) und Gruppen-Erwartungswerten µ1 , . . . , µ k . Annahmen: E(eij ) = 0 Var(eij ) = σ 2 (Varianzhomogenität) 40 Matrixschreibweise der Modellgleichungen: Y = Xβ + e mit Y11 Y = ... n-dim. Beobachtungsvektor Yk,nk µ1 .. β= . n-dim. Vektor der unbekannten Parameter µk 1 .. . 1 0 .. . X= 0 .. . 0 .. . 0 0 ··· .. . 0 ) .. . n1 Zeilen 0 ) 0 .. n2 Zeilen . 0 .. . ) 1 nk Zeilen .. . 0 ··· 1 0 ··· .. . 0 ··· 1 ··· .. . 1 ··· .. . X ist eine n × k-Matrix mit Rang(X) = k, die sog. Designmatrix. e11 e = ... n-dim. Fehlervektor ek,nk Andere Parametrisierung µi = := 1 n µ0 |{z} Pk + αi |{z} := µi − µ0 i=1 ni µi Effekt der Gruppe i mittlerer EW Modell 2 (Effektdarstellung) Yij = µ0 + αi + eij Hier gilt Pk i=1 ni αi i = 1, . . . , k j = 1, . . . , ni = 0 (Reparametrisierungsbedingung). Aufgabe: Schreibe das Modell in Matrixschreibweise Y = Xβ + e 41 mit geeigneter Designmatrix X und Parametervektor β. Schätzen des Parametervektors β in Modell 1 mittels Methode der kleinsten Quadrate: ni k X X (Yij − µi )2 Minimiere i=1 j=1 liefert die Schätzwerte µ̂i = Ȳi Für Modell 2 erhält man: und α̂i = Ȳi − Ȳ µ̂0 = Ȳi Schätzung der Varianz in beiden Modellen durch: σ̂ 2 = SSE n−k (mittlere Fehlerquadratsumme) wobei SSE := ni k X X (Yij − Ȳi )2 i=1 j=1 (Sum of Squares due to Errors — Summe der quadrierten Residuen). Es gilt die folgende Streuungszerlegung: ni ni k X k k X X X X 2 2 (Yij − Ȳ ) = ni (Ȳi − Ȳ ) + (Yij − Ȳi )2 i=1 j=1 i=1 i=1 j=1 Kurz: SST = SSA + SSE Sum of Squares Sum of Squares Sum of Squares Total due to factor A due to Errors Die Variation der gesamten Stichprobe (SST) ist also die Summe der Variation zwischen den Gruppen und der Variation innerhalb der Gruppen. Begründung: SST = ni k X X (Yij − Ȳ )2 i=1 j=1 = ni k X X (Yij − Ȳi + Ȳi − Ȳ )2 i=1 j=1 = ni k X X (Yij − Ȳi )2 + 2(Yij − Ȳi )(Ȳi − Ȳ ) + (Ȳi − Ȳ )2 i=1 j=1 = SSA + 2 k X i=1 (Ȳi − Ȳ ) ni X (Yij − Ȳi ) +SSE j=1 | {z =0 } = SSA + SSE Man sagt auch, dass die Gesamtvariation SST der Daten sich aus der erklärten Variation SSA und der unerklärten Restvariation SSE zusammensetzt. 42 Zur Überprüfung der globalen Nullhypothese H0 : µ1 = · · · = µk (oder äquivalent α1 = · · · = αk = 0) vergleicht man SSA und SSE, genauer SSE SSA und M SE := M SA := k−1 n−k Haben die Faktorstufen von A keinen unterschiedlichen Einfluss auf die Zielgröße, dann ist SSA/(k − 1) klein im Vergleich zu SSE/(n − k). Sind die Fehlervariablen ei normalverteilt (also N(0, σ 2 )-verteilt), so ist F := SSA/(k − 1) M SA = SSE/(n − k) M SE unter der Nullhypothese F-verteilt mit den Freiheitsgraden k − 1 und n − k Definition: Seien Z1 , . . . , Zm , Z̃1 , . . . , Z̃n unabhängige N(0, 1)-verteilte Zufallsvariablen. Dann heißt die Verteilung von F := 2 )/m (Z12 + · · · + Zm (Z̃12 + · · · + Z̃n2 )/n F-verteilt mit den Freiheitsgraden m und n. F-Test Damit ergibt sich der F-Test der einfaktoriellen (oder einfachen) Varianzanalyse: Lehne H0 zum Niveal α ab, falls F > Fk−1,n−k;1−α | {z } (1 − α)-Quantil der F-Verteilung mit (k − 1) und (n − k) Freiheitsgraden. Zur Beurteilung der Teststatistik von F verwendet man idealerweise die folgende Tafel der einfachen Varianzanalyse: Quadratsummen Freiheitsgrade mittlere Quadratsummen zwischen den Stufen des Faktors A SSA (k − 1) M SA innerhalb der Stufen des Faktors A SSE (n − k) M SE Gesamt SST (n − 1) Variationsursache F = Überprüfung der Vorraussetzung zur Varianzhomogenität • Grafisch mit parallelen Boxplots • Inferenzstatistisch mit – Levene-Test oder – Bartlett-Test zur Überprüfung der Nullhypothese: H0 : σ12 = · · · = σn2 43 wobei σi2 = Var(Yij ) M SA M SE Multiple Mittelwertvergleiche Führt der F-Test zur Ablehnung der globalen Nullhypothese, so sind zumindest nicht alle Gruppen-Erwartungswerte identisch. Welche (Kombination von) Gruppen sind für die Ablehnung verantwortlich? Zur Beantwortung dieser Frage gibt es mehrere Methoden: Scheffé-Test: Lehne H0 : µi = µj zum Niveau α ab, falls: q |µ̂i − µ̂j | > (k − 1)Fk−1,n−k,1−α se(µ̂i − µ̂j ) wobei r se(µ̂i − µ̂j ) = SSE · n−k s 1 1 + ni nj Den Scheffé-Test gibt es auch in einer allgemeineren Version für lineare Kontraste zur Überprüfung von Hypothesen der Form H0 : k X ci µi = 0 wobei i=1 k X ci = 0. i=1 Wichtiges Beispiel (s.o.): ci = 1, cj = −1, alle übrigen c0 s = 0. Anderer populärer Test zum simultanen Vergleich von Mittelwerten: Tukey-Test. Kumulierung der Fehlerwahrscheinlichkeit beim multiplen Testen Werden alle Nullhypothesen: H0ij : µi = µj z.B. mittels 2-Stichproben-t-Test durchgeführt, so sind insgesamt k k · (k − 1) l= = 2 2 Einzeltests erforderlich. Wird jeder Einzeltest zum Niveau α durchgeführt, so führt dies zu einer Inflation des multiplen α-Fehlers (auch experimentwise oder familywise error rate), definiert durch p = P(mindestens eine Nullhypothese H0ij fälschlicherweise ablehnen) Sei Aij das Ereignis, H0ij fälschlicherweise abzulehnen: p = P(A12 ∪ A13 ∪ · · · ∪ A(i−1)j ) [ = P Aij i6=j = 1 − P \ Aij i6=j | {z } Y ij ≥ P(A ) | {z } i6=j =1−α ≤ 1 − (1 − α)l 44 wobei l die Gesamtzahl der Einzeltests zum Niveau α. Bei Unabhängigkeit der Ereignisse Aij gilt Gleichheit. Beispiel: α = 0.05, k = 5, also l = 10 ⇒ p ≤ 1 − (1 − 0.05)10 ≈ 0.4 Paarvergleiche nach dem Bonferroni-Verfahren Nach der Bonferroni-Ungleichung gilt: X P ∩Aij ≥ 1 − P(Aij ) | {z } l·α Also gilt für die multiple Fehlerrate p: α ≤ p ≤ lα Werden die Einzelvergleiche statt zum Niveau α zum Niveau α/l durchgeführt, so ist die multiple Fehlerrate höchstens gleich α! Die Bonferroni-Korrektur ist jedoch sehr konservativ, der resultierende multiple Test besitzt eine geringe Power! Äquivalente Formulierung des Bonferroni-Verfahrens: Seien pij die p-Werte zu den Tests mit den Hypothesen H0ij : µi = µj Dann ist der Bonferroni-korrigierte multiple p-Wert gegeben durch: pBonf = l · max pij i6=j Bonferroni-Holm-Verfahren (Holm 1979) Multiple Testsitiuation zur Überprüfung von K Nullhypothesen. geordnete p-Werte: p(1) ≤ (1) (2) (K) p(2) ≤ · · · ≤ p(K) zugehörige Nullhypothesen: H0 , H0 , . . . , H0 Die schrittweise verwerfende Bonferroni-Holm Prozedur kontrolliert wie folgt das multiple Niveau α: (1) (K) α • 1. Schritt p(1) > K : Behalte H0 , . . . , H0 ab. Weiter mit Schritt 2. • 2. Schritt p(2) > (2) H0 α K−1 (2) bei. STOP p(1) ≤ (K) : Behalte H0 , . . . , H0 α K bei. STOP p(2) ≤ (1) : Lehne H0 α K−1 : Lehne ab. Weiter mit Schritt 3. • ... Beweisidee: Sei W die (unbekannte!) Anzahl wahrer Hypothesen unter den H0k , k = 1, . . . , K. W = K : Ein Fehler 1. Art passiert auf jeden Fall dann, wenn für mindestens eine der K α wahren Nullhypothesen gilt: p ≤ K . Die Wahrscheinlichkeit dafür ist ≤ α (nach BonferroniUngleichung) 45 W = K − 1 : Ein Fehler 1. Art passiert auf jeden Fall dann, wenn für mindestens eine der α K − 1 wahren Nullhypothesen gilt: p ≤ K−1 . Die Wahrscheinlichkeit dafür ist ≤ α (nach Bonferroni-Ungleichung) W = K − 2 : ... Also kontrolliert das Bonferroni-Holm-Verfahren das multiple Niveau α Bemerkung: Das Bonferroni-Holm-Verfahren lehnt mindestens so viele Nullhypothesen ab, wie das Bonferroni-Verfahren und kontrolliert dasselbe multiple Niveau α. ⇒ Verwende Bonferroni-Holm, da i.A. höhere Power! 5.2 Einfache Varianzanalyse mit R Im Datensatz survey aus dem Paket MASS finden sich die Variablen Pulse (Pulsrate pro Minute), Smoke (Rauchverhalten) und weitere. Frage: Besteht ein Zusammenhang zwischen Pulsrate und Rauchverhalten? > library(MASS) > attach(survey) > summary(Pulse) Min. 1st Qu. 35.00 66.00 Median 72.50 Mean 3rd Qu. 74.15 80.00 Max. 104.00 NA’s 45.00 > summary(Smoke) Heavy Never Occas Regul 11 189 19 17 NA’s 1 Die Faktorstufen werden in R standardmäßig in alphanumerischer Reihenfolge dargestellt. Referenzkategorie (“Baseline”) ist damit die Faktorstufe, welche alphabetisch (oder numerisch) gesehen als erste auftaucht. In obigem Beispiel ist dies die Faktorstufe Heavy. Vermutlich ist es jedoch sinnvoller, Never als Referenzkategorie zu wählen: > table(Smoke) Smoke Heavy Never Occas Regul 11 189 19 17 > Smoke <- factor(Smoke,levels=c("Never","Occas","Regul","Heavy")) > table(Smoke) Smoke Never Occas Regul Heavy 189 19 17 11 46 Abbildung 16: Puls in Abhängigkeit vom Rauchverhalten > boxplot(Pulse ~ Smoke) > aov(Pulse ~ Smoke) Call: aov(formula = Pulse ~ Smoke) Terms: Sum of Squares Deg. of Freedom Smoke Residuals 127.433 25926.797 3 187 Residual standard error: 11.77480 Estimated effects may be unbalanced 46 observations deleted due to missingness > summary(aov(Pulse ~ Smoke)) Df Sum Sq Mean Sq F value Pr(>F) Smoke 3 127.4 42.478 0.3064 0.8208 Residuals 187 25926.8 138.646 46 observations deleted due to missingness Besteht ein Zusammenhang zwischen Pulsrate und Geschlecht? Überprüfen Sie, dass die Varianzanalyse bei einem Merkmal mit zwei Gruppen der Vergleich der Gruppenmittel identisch ist zum 2-Stichproben-t-Test. Zunächst die Varianzanalyse: 47 > summary(aov(Pulse ~ Sex)) Df Sum Sq Mean Sq F value Pr(>F) Sex 1 177.6 177.56 1.2953 0.2565 Residuals 189 25909.7 137.09 46 observations deleted due to missingness Um zu vermeiden, dass R beim 2-Stichproben-t-Test den Welch-Test, welcher die Gleichheit der Varianzen nicht veraussetzt, verwendet, muss explizit die Gleichheit der Varianzen angenommen werden: > t.test(Pulse ~ Sex, var.equal=TRUE) Two Sample t-test data: Pulse by Sex t = 1.1381, df = 189, p-value = 0.2565 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.413995 5.270794 sample estimates: mean in group Female mean in group Male 75.12632 73.19792 Wird im linearen Modell für die Gruppenmittel angenommen, dass µi = µ + α i , i = 1, . . . , I mit unbekannten µ und αi , so sind diese Parameter nicht eindeutig bestimmt. Für ungeordnete Faktoren wird in R wird standardmäßig angenommen, dass α1 = 0 (Berechne die Behandlungskontraste) α2 , . . . αI sind dann die Abweichungen vom ersten Gruppenmittel in den Gruppen 2, . . . , I. Über das Argument contrasts kann der Typ der Kontraste auch explizit gewählt werden. > model1 <- lm(Pulse ~ Smoke, contrasts=list(Smoke="contr.treatment")) > model1 Call: lm(formula = Pulse ~ Smoke, contrasts = list(Smoke = "contr.treatment")) Coefficients: (Intercept) SmokeOccas 73.99342 -0.05592 SmokeRegul -0.30592 SmokeHeavy 4.29229 > dummy.coef(model1) Full coefficients are (Intercept): Smoke: 73.99342 Never Occas Regul 0.00000000 -0.05592105 -0.30592105 > mean(Pulse[Smoke=="Never"], na.rm=TRUE) [1] 73.99342 Heavy 4.29229323 Eine andere Wahl der Parametrisierung liefert die Nebenbedingung: I X αi = 0 Berechne die Kontraste so, dass deren Summe = 0 i=1 In R: 48 > model2 <- lm(Pulse ~ Smoke, contrasts=list(Smoke="contr.sum")) > model2 Call: lm(formula = Pulse ~ Smoke, contrasts = list(Smoke = "contr.sum")) Coefficients: (Intercept) 74.9760 Smoke1 -0.9826 Smoke2 -1.0385 Smoke3 -1.2885 > dummy.coef(model2) Full coefficients are (Intercept): Smoke: 74.97603 Never Occas Regul -0.9826128 -1.0385338 -1.2885338 > sum(dummy.coef(model2)$Smoke) [1] -4.440892e-16 Heavy 3.3096805 Überprüfung auf gleiche Varianzen: > bartlett.test(Pulse ~ Smoke) Bartlett test of homogeneity of variances data: Pulse by Smoke Bartlett’s K-squared = 2.8627, df = 3, p-value = 0.4133 > library(car) > leveneTest(Pulse ~ Smoke, data=survey) Levene’s Test for Homogeneity of Variance (center = median) Df F value Pr(>F) group 3 0.6535 0.5817 187 Multipler paarweiser Vergleich von Hypothesen: > pairwise.t.test(Pulse, Smoke, pool.sd=FALSE) Pairwise comparisons using t tests with non-pooled SD data: Pulse and Smoke Heavy Never 1 Occas 1 Regul 1 Never 1 1 Occas 1 P value adjustment method: holm Hier könnte die Varianz auch aus der gesamten Stichprobe ermittelt werden: pool.sd=TRUE. 5.3 Nichtparametrische einfache Varianzanalyse: Der Kruskal-Wallis-Test Vergleich der Mittelwerte zweier unabhängiger Stichproben: parametrisch: nichtparametrisch: t-Test Wilcoxon-Test Vergleich der Mittelwerte von k ≥ 3 unabhängigen Stichproben: 49 parametrisch: nichtparametrisch: Einfache Varianzanalyse Kruskal-Wallis-Test Beim Kruskal-Wallis-Test werden nicht die Mittelwerte Ȳ1 , . . . , Ȳk jeder Stichprobe (Gruppe / Faktorstufe) miteinander verglichen, sondern deren mittleren Ränge. Stichprobe Umfang 1 n1 .. . .. . k nk Summe n Stichprobenwerte Rangzahlen Rangsummen Rangmittelwerte Y11 , . . . , Y1,n1 R11 , . . . , R1,n1 .. . R1 R̄1 Rk R̄k n(n + 1)/2 (n + 1)/2 Yk1 , . . . , Yk,nk Rk1 , . . . , Rk,nk Bei Bindungen werden mittlere Ränge vergeben. Die Teststatistik H des Kruskal-Wallis-Tests vergleicht die Rangmittelwerte R̄1 , . . . , R̄k mit dem mittleren Gesamtrang R̄ = (1 + · · · + n)/n = n+1 2 : H = = 2 k X 12 1 ni R̄i − (n + 1) n(n + 1) 2 12 n(n + 1) i=1 k X i=1 Ri2 − 3(n + 1) ni Man kann zeigen, dass H asymptotisch χ2k−1 -verteilt ist (ni → ∞ für jedes i = 1, . . . , k), falls alle Yij unabhängig identisch verteilt sind mit jeweiligen stetigen Verteilungsfunktionen F1 = · · · = Fk (zu Y1j , . . . , Ykj ). Deshalb ist folgender Test sinnvoll: H0 : F1 = · · · = Fk d.h. alle Xij besitzen die dieselbe Verteilungsfunktion F . Lehne H0 zum Niveau α ab, falls H > χ2k−1,1−α (und n1 , . . . , nk “groß”) Für kleine n1 , . . . , nk ist die Verteilung von H vertafelt. Für Mathematiker: Zeigen Sie die Gültigkeit der beiden Darstellungen für H. Für Alle: Zeigen Sie, dass der Kruskal-Wallis-Test für k = 2 zum Wilcoxon-Test äquivalent ist. Beispiel in R: > boxplot(Ozone ~ Month, data=airquality) > kruskal.test(Ozone ~ Month, data=airquality) Kruskal-Wallis rank sum test data: Ozone by Month Kruskal-Wallis chi-squared = 29.2666, df = 4, p-value = 6.901e-06 50 5.4 Zweifache Varianzanalyse Welchen Einfluss haben zwei Faktoren A und B auf die Zielvariable Y ? Faktor A mit I Stufen Faktor B mit J Stufen Der Einfachheit halber mögen für jeden Stufenkombination (i, j) gleich viele unabhängige Messungen Yij,1 , . . . , Yij,k vorliegen (mit i = 1, . . . , I; j = 1, . . . , J). Modell 1: i = 1, . . . , I j = 1, . . . , J k = 1, . . . , K Yij,k = µij + eij,k wobei EYij,k = µij und alle ejij,k unabhängig mit E(eij,k ) = 0, Var(eij,k ) = σ 2 . Interessanter ist das Modell 2: Yij,k = µ0 + αi + βj + γij + eij,k mit z.B. den Nebenbedingungen: X X αi = 0, βj = 0, X γij = 0, i X γij = 0 j Die αi bzw. βj beschreiben die Haupteffekte der Faktoren A bzw. B, die γij die Wechselwirkungen (Interaktionen) zwischen den Faktoren. Schätzung der unbekannten Modellparameter mittels Methode der kleinsten Quadrate. K 1X Yij,k Für Modell 1: µ̂ij = Ȳij = k k=1 Für Modell 2: µ̂0 = Ȳ = 1 XX Ȳij IJ i 1X Ȳij J j 1X wobei Ȳ·j = Ȳij I α̂i = Ȳi· − Ȳ β̂j j wobei Ȳi· = = Ȳ·j − Ȳ i γ̂ij = Ȳij − Ȳi· − Ȳ·j + Ȳ (= Ȳij − µ̂0 − α̂i − β̂j ) Tafel der Mittelwerte bei der zweifachen Varianzanalyse B A 1 2 J MW 1 2 .. . Ȳ11 .. . Ȳ12 .. . ··· .. . Ȳ1J .. . Ȳ1· .. . I ȲI1 ȲI2 ··· ȲIJ ȲI· MW Ȳ·1 Ȳ·2 ··· Ȳ·J Ȳ·· = Ȳ 51 Schätzer für die Varianz σ 2 der Fehlervariablen: σ̂ 2 = 1 SSE n − IJ mit XXX (Yij,k − Ȳij )2 SSE = i j k Testen von Hypothesen HA : α1 = . . . = αI = 0 (Faktor A hat keinen Einfluss) HB : β1 = . . . = βJ = 0 (Faktor B hat keinen Einfluss) HA×B : γ11 = . . . = γIJ = 0 (Keine Wechselwirkungen) Man kann zeigen, dass die Teststatistiken: FA = MSA , MSE FB = MSB , MSE FA×B = MSAB MSE unter den jeweiligen Nullhypothesen FI−1,n−IJ - bzw. FJ−1,n−IJ - bzw. F(I−1)(J−1),n−IJ verteilt sind. Tafel der zweifachen Varianzanalyse mit Zellenbesetzung K ≥ 2 Variation SS DF i (Ȳi· − Ȳ ) I −1 MSA = SSA I−1 i (Ȳi· − Ȳ )2 J −1 MSB = SSB J−1 Faktor A SSA = JK Faktor B SSB = IK P Wechselwirkung innerhalb total MS 2 P P SSAB = K i,j Ci,j P SSE = i,j,k (Yij,k − Ȳij )2 P SST = i,j,k (Yij,k − Ȳ )2 (I − 1)(J − 1) IJ(K − 1) MSAB = MSE = n−1 wobei Ci,j = (Ȳij − Ȳi· − Ȳ·j + Ȳ )2 Streuungszerlegung: SST = SSA + SSB + SSAB + SSE Testentscheidungen: Lehne HA , HB , HA×B zum Niveau α ab, falls FA > FI−1,n−IJ;1−α bzw. FB > FJ−1,n−IJ;1−α bzw. FA×B > F(I−1)(J−1),n−IJ;1−α 52 SSAB (I−1)(J−1) SSE n−IJ 5.5 Zweifache Varianzanalyse mit R Beispiel: Aggression im Straßenverkehr. Wie hängt die Dauer bis zum ersten Hupen von den beiden Faktoren Autotyp des blockierenden Fahrzeugs (BMW X5 oder Ford Ka) und dem Geschlecht des hupenden Fahrers ab. > aggression <- read.table("aggression.dat", + header=TRUE) > attach(aggression) > huper <- subset(aggression, subset=(frequenz > 0)) > detach(aggression) > attach(huper) > dim(huper) [1] 109 4 Boxplot und Mittelwerttabelle > boxplot(dauer ~ (Auto + Geschlecht), ylab="Sekunden") > mittelwerte <- tapply(dauer, list(Auto, Geschlecht), + mean) > round(mittelwerte, digits=2) Frau Mann BMW 6.21 5.13 Ford 3.80 5.30 53 Abbildung 17: Hupdauer in Abhängigkeit von Fahrzeug und Geschlecht. Interaktionsplot: par(mfrow=c(1,2)) interaction.plot(Geschlecht, Auto, dauer, ylab="Mittlere Dauer bis zum Hupen") interaction.plot(Auto, Geschlecht, dauer, ylab="...") 54 Abbildung 18: Interaktions-Plot Modellselektion in der Varianzanalyse Allgemeine Devise: So einfach wie möglich — so komplex wie nötig. Einfachheit: möglichst wenig Parameter Komplexität: guter Erklärungswert des Modells für die Daten Anwendung des partiellen F-Tests auf unser Beispiel: Vergleich von Modell 2 (mit Interaktion) und Modell 1 (ohne Interaktion). H0 : γij = 0 für alle i = 1, . . . , I und j = 1, . . . , J SSE1 df1 SSE2 df2 Residualquadratsumme des Modells ohne Interaktion dazugehörige Anzahl an Freiheitsgraden Residualquadratsumme des Modells mit Interaktion dazugehörige Anzahl an Freiheitsgraden F = (SSE1 − SSE2 )/(df1 − df2 ) SSE2 /df2 Diese Teststatistik ist unter H0 Fdf1 −df2 ,df2 −verteilt. Lehne H0 zum Niveau α ab, falls F > Fdf1 −df2 ,df2 ;1−α Zweifache Varianzanalyse mit R Mit Interaktion: > model2 <- lm(dauer ~ Auto * Geschlecht) > anova(model1) Analysis of Variance Table 55 Response: dauer Df Sum Sq Mean Sq F value Pr(>F) Auto 1 11.53 11.529 1.7504 0.18871 Geschlecht 1 3.01 3.012 0.4573 0.50039 Auto:Geschlecht 1 38.09 38.086 5.7821 0.01794 * Residuals 105 691.63 6.587 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Ohne Interaktion: > model1 <- lm(dauer ~ Auto + Geschlecht) > anova(model1) Analysis of Variance Table Response: dauer Df Sum Sq Mean Sq F value Pr(>F) Auto 1 11.53 11.5295 1.6748 0.1984 Geschlecht 1 3.01 3.0120 0.4375 0.5098 Residuals 106 729.72 6.8841 Reihenfolge in der Interpretation der Effekte: 1. Zuerst Wechselwirkungseffekt interpretieren 2. Nur wenn Wechselwirkungseffekt nicht signifikant, Haupteffekte interpretieren Was tun, wenn der Wechselwirkungseffekt nicht signifikant? Partieller F-Test mit R: > anova(model1, model2) Analysis of Variance Table Model 1: dauer ~ Auto + Geschlecht Model 2: dauer ~ Auto * Geschlecht Res.Df RSS Df Sum of Sq F Pr(>F) 1 106 729.72 2 105 691.63 1 38.086 5.7821 0.01794 * --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Besteht ein signifikanter Unterschied zwischen diesen beiden Modellen, wird man die Interaktion beibehalten. Andernfalls überprüft man analog, ob einer der beiden Haupteffekte überflüssig ist. 56 Gegebenenfalls schließlich, ob nicht das Nullmodell sinnvoll ist. Abbildung 19: Reihenfolge der Interpretation 57 6 Lineare Modelle Varianzanalyse: Besteht ein Mittelwerteinfluss von Faktoren A, B, . . . auf eine intervallskalierte Kriteriumsvariable Y ? [0.5cm] Regressionsanalyse: Besteht ein Mittelwerteinfluss von intervallskalierten Regressoren X1 , X2 , . . . auf eine intervallskalierte Kriteriumsvariable Y (auch Regressand oder Zielvariable genannt)? Fall Nr. Regressorenwerte Kriteriumswerte 1 x11 x21 . . . xm1 Y1 .. .. .. .. .. .. . . . . . . n x1n ... ... xmn Yn m = 1: einfache Regression m ≥ 2: m-fache oder multiple Regression Lineares Modell Yi = α + β1 x1i + . . . + βm xmi + ei , i = 1, . . . , n mit unabhängigen zufallsabhängigen Fehlern e1 , . . . , en mit E(ei ) = 0 und Var(ei ) = σ 2 . In Matrixschreibweise Y = Xβ + e. mit e1 e2 e=. , .. en Y1 .. Y= . , Yn α β1 β= . .. βm und der n × (m + 1)-Matrix der Einflussgrößen (Designmatrix) 1 x11 . . . x1m 1 x21 . . . x2m X = . .. .. . . . . . . . . 1 xn1 . . . xnm Annahme: Rang(X) = m + 1 ≤ n. Bestimmung des Parametervektors β mittels der Methode der kleinsten Quadrate: Wähle α, β1 , β2 , . . . , βm so dass SSE(β) := n X (yi − (α + β1 x1i + . . . + βm xmi ))2 i=1 minimal. Vorgehen: Setze partielle Ableitungen von SSE(β) gleich Null und löse nach α, β1 , . . . , βm auf. Äquivalent, aber kompakter ! SSE(β) = (y − Xβ)T (y − Xβ) = Min ! ∇β SSE(β) = −XT y − yT X + XT Xβ + β T XT X = 0 ⇔ (XT X)β = XT y ⇔ β̂ = (XT X)−1 XT y (X T X)−1 existiert, da XT X und X denselben Rang gesitzen (Übung) 58 • β̂ ist der Kleinste-Quadrate-Schätzer für β • ŷ = Xβ̂ ist die Vorhersage (Prädiktion) von Y mittels linearer Regression • ê = y − ŷ Vektor der empirischen Residuen P • SSE := SSE(β̂) = êT ê = ni=1 (yi − ŷi )2 • Ein erwartungstreuer Schätzer für die unbekannte Fehlervarianz σ 2 = Var(ei ) ist σ̂ 2 = SSE n−m−1 6.1 Testen von Hypothesen 6.1.1 Globaler F -Test Im Folgenden gehen wir immer davon aus, dass ei ∼ N(0, σ 2 ). Besteht eine lineare Abhängigkeit des Kriteriums Y von den Regressoren? Globale Nullhypothese: H0 : β1 = . . . = βm = 0 Zu diesem Fall gilt also yi = α+ei . Damit liegt also keine Abhängigkeit von den Regressoren x1 , . . . , xm vor. Wie im Fall der einfachen linearen Regression kann gezeigt werden, dass die folgende Streuungszerlegung gilt: SST = SSE + SSR n X mit SST = (yi − ȳ)2 SSE = SSR = i=1 n X i=1 n X totale Streuung (yi − ŷi )2 Reststreuung (ŷi − ȳ)2 erklärte Streuung i=1 Ferner SSE mittlere Reststreuung (mean squares due to error) n−m−1 SSR MSR = mittlere erklärte Streuung (mean squares due to regression) m MSE = Ist der Wert der Teststatistik MSR MSE groß, so spricht dies eher gegen H0 . Unter H0 ist F Fm,n−m−1 -verteilt. Testentscheidung: Lehne H0 zum Niveau α ab, falls F = F > Fm,n−m−1;1−α Tafel der Varianzanalyse der m-fachen linearen Regression 59 Variationsursache Regression SS P SSR = (ŷi − ȳ)2 FG m Abweichung von der Regression Total SSE = P (yi − ŷi )2 n−m−1 SST = P (yi − ȳ)2 n−1 MS MSR = MSE = SSR m SSE n−m−1 6.1.2 Partieller F -Test Partielle Nullhypothese: Hk : βk+1 = . . . = βm = 0 mit k < m In diesem Fall gilt, dass das Teilmodell LM(k) : yi = α + β1 x1i + . . . + βk xki mit i = 1, . . . , n nicht von den Regressoren xk+1,i , . . . , xm,i abhängt. Das volle Modell LM(m) : yi = α + β1 x1i + . . . + βm xmi erklärt die Kriteriumsvariablen besser als das Teilmodell LM(k), falls die Reststreuung des vollen Modells LM(m) X SSE(m) = (yi − ŷi )2 deutlich kleiner ist, als die des Teilmodells LM(k) X SSE(k) = (yi − ỹi )2 , ỹi := α̃ + β̃1 x1i + . . . + β̃k xki . Hierbei sind die Parameter α̃, β̃1 , . . . , β̃k Lösungen der Normalgleichung bezüglich des Modells LM(k). Da für (SSE(k) − SSE(m)) /(m − k) Fk := SSE(m)/(n − m − 1) unter H0 : Fk ∼ Fm−k,n−m−1 , kann H0 zum Niveau α abgelehnt werden, falls Fk > Fm−k,n−m−1;1−α . Tafel der Varianzanalyse für den partiellen Test auf das Modell LM(k) innerhalb LM(m), k<m Abweichungen von der Regression im Modell LM(k) SSE FG SSE(k) n−k−1 im Modell LM(m) Differenz SSE(m) SSE(k) − SSE(m) n−m−1 m−k MS MSE(m) 6.2 Test einzelner metrischer Regressoren Für den Kleinsten-Quadrate-Schätzer β̂ im linearen Modell Y = Xβ + e Eei = 0 60 Var(ei ) = σ 2 gilt β̂ = (X T X)−1 X T Y β̂ ist erwartungstreu, d.h.Eβ̂ = β Σ := Cov(β̂) := E (β̂ − β)T (β̂ − β) = σ 2 (X T X)−1 und, falls e ∼ N(0, σ 2 ) (Normalitätsannahme), β̂ ∼ N(β, Σ)-verteilt. Daraus könnte, falls σ 2 bekannt wäre, ein Test zur Überprüfung von H0 : βi = 0 abgeleitet werden. Da β̂ unter H0 normalverteilt ist mit Kovarianzmatrix Σ, gilt unter H0 p β̂i ∼ N(0, se(β̂i )) wobei se(β̂i ) = Σii H0 könnte also zum Niveau α abgelehnt werden, falls β̂ i > z1− α2 . se(β̂i ) Da σ 2 in der Praxis meist unbekannt ist, wird es erwartungstreu geschätzt durch σ̂ 2 := MSE := SSE , n−m−1 σ̂ wird im R-Output residual standard error genannt (häufig auch standard error of regression). Dann kann Cov(β̂) durch Σ̂ := σ̂ 2 (X T X)−1 geschätzt werden und es gilt unter H0 t := wobei se( ˆ β̂i ) := β̂i se( ˆ β̂i ) ∼ tn−m−1 -verteilt q σ̂ 2 (X T X)−1 ii den geschätzten Standardfehler von β̂i darstellt. H0 kann also zum Niveau α abgelehnt werden, falls |t| > tn−m−1,1−α/2 (Wald-Test) Bemerkung: Dieser Test ist (im hier behandelten Fall der linearen Regression) äquivalent zum partiellen F -Test, falls sich die dort betrachteten Modelle nur um einen zusätzlichen Regressor unterscheiden. Beispiel in R > > > > library(DAAG) data(litters) model1 <- lm(brainwt ~ lsize, data = litters) summary(model1)$coef Estimate Std. Error t value Pr(>|t|) (Intercept)0.447000000 0.009624762 46.44270 3.3911e-20 lsize -0.004033333 0.001198423 -3.36553 3.4445e-03 > model2 <- lm(brainwt > summary(model2)$coef Estimate (Intercept)0.178246962 lsize 0.006690331 bodywt 0.024306344 ~ lsize + bodywt, data = litters) Std. Error t value Pr(>|t|) 0.075322590 2.366448 0.0300972 0.003132075 2.136070 0.0475132 0.006778653 3.585719 0.0022784 61 Zur Interpretation • Im Modell brainwt~lsize wird ignoriert, dass lsize stark negativ mit bodywt korreliert ist, welches wiederum positiv mit brainwt korreliert ist. • Das Modell brainwt~lsize+bodywt zeigt, dass bei konstant gehaltenem Körpergewicht, dass die Wurfgröße (allein) einen positiven Einfluss auf die Gehirngröße hat (brain sparing). 6.2.1 Einschub: Partielle Korrelation Hängen zwei Größen X und Y noch jeweils von der dritten Größe Z ab, so könnte die Interpretation des Korrelationskoeffizienten Cor(X, Y ) irreführend sein, solange der Einfluss von Z auf X und Y nicht korrigert wird. Vorhersage von X und Y aus Z mittels linearer Regression Ŷi = a0 + b0 zi X̂i = a + bzi aus den Stichproben (zi , xi ), i = 1, . . . , n und (zi , yi ), i = 1, . . . , n. Der empirische partielle Korrelationskoeffizient von X und Y gegeben Z ist definiert durch rX,Y |Z := rX−X̂,Y −Ŷ rX,Y − rX,Z · rY,Z =q 2 ) · (1 − r 2 ) (1 − rX,Z Y,Z Besitzen die drei Variablen X, Y, Z eine gemeinsame 3-dimensionale Normalverteilung, so wird die Hypothese H0 : ρX,Y |Z = 0 zum Niveau α verworfen, falls für die Teststatistik t = √ rX,Y = 0, 7 rX,Y |Z = 0 |t| > tn−3,1− α2 r n − 3 √1−r mit r = rX,Y |Z . 2 rX,Y = 0.7 rX,Y |Z = 0.9 rX,Y = 0 rX,Y |Z = −0, 7 Beispiel in R: Diskutiere die Daten litters aus dem Paket DAAG unter Verwendung des partiellen Korrelationskoeffizienten. 62 6.3 Variablenselektion Bestimmtheitsmaß R2 R2 = SSR erklärte Variation = ∈ [0, 1] SST Gesamtvariation R2 = 1 ⇔ Alle Punkte (xi , yi ) ∈ Rm × R liegen auf einer Hyperebene des Rm+1 Also: Je näher R2 bei 1 umso besser ist die Vorhersage eines Zielwertes Y durch Ŷ = α + β1 x1 +. . .+βm xm — zumindest für Paare (x, y) aus der Stichprobe {(x1 , y1 ), . . . , (xn , yn )}. Für neue Paare (x, y) braucht dies nicht zu gelten (Problem des Overfittings bei m groß). (Empirischer) multipler Korrelationskoeffizient Cor(Y, Ŷ ) = Cor(Y, X β̂) = . . . = R R2 wird deshalb auch quadrierter multipler Korrelationskoeffizient genannt. Problem: R2 % für wachsende Anzahl von Parametern. Alternative: Adjustiere R2 2 Radj := 1 − wobei σ̂ 2 = MSE und s2y = n−1 σ̂ 2 R2 = 1 − 2 n−m−1 sy SST n−1 . • Forward • Backward • Forward-Backward z.B. mittels partiellem F -Test oder AIC liefert nicht notwendigerweise “bestes” Modell. Best Subset Selection 2 -Kriterium oder Akaikes Informationskriterium AIC. Ist rechentechZ.B. mit R2 oder Radj nisch unter Umständen sehr aufwendig. R: Z.B. mit leaps()aus der leaps-Bibliothek. R: Z.B. mit step oder stepAIC aus der MASS-Bibliothek. 6.4 Regressionsdiagnostik Sind die Residuen normalverteilt? > > > > mymodel <- lm(Volume ~ Girth + Height, data = trees) qqnorm(residuals(mymodel)) qqline(residuals(mymodel)) shapiro.test(residuals(mymodel)) Shapiro-Wilk normality test data: residuals(mymodel) W = 0.9743, p-value = 0.644 63 Abbildung 20: QQ-Plot Ist die Varianz des Fehlerterms konstant im gesamten Bereich der erklärenden Variablen (Homoskedastizität)? plot(fitted(mymodel),residuals(mymodel)) Abbildung 21: Residualplot Bei heteroskedastischen Fehlern sollte 64 • ein adäquates Modell oder • eine Transformation der Responsevariablen und/oder der erklärenden Variablen in Erwägung gezogen werden. Beispiele für Transformationen • Logarithmus • quadratische oder kubische Wurzel Allgemeiner: Box-Cox-Transformation ( Y (λ) = Y λ −1 λ log(Y ) für λ 6= 0 für λ = 0 Beispiel: Klassische Allometrieformel Y = aX b wobei X z.B. die Körpermaße eines Tieres und Y das Gewicht eines Organs. Die damit zusammenhängende Differentialgleichung kann in der Form dX dY =b Y X geschrieben werden. a ist die sog. Integrationskonstante und beschreibt den Schnittpunkt mit der y-Achse b ist die relative Wachstumsgeschwindigkeit Zur Bestimmung von a und b aus Daten (x1 , y1 ), . . . , (xn , yn ) aus Daten wird die Allometrieformel logarithmiert log Y = log a + b log X Die Bestimmung von log a und b kann jetzt mit Methoden der Regressionsanalyse erfolgen. 6.5 Vorhersage Vorhersage der Zielgröße bei neuen Daten (erklärende Variable) mittels Regressionsgleichung Ŷ = α̂ + β̂1 x1 + . . . + β̂m xm In R: predict(fitted.model, newdata = mydataframe) Hierbei muss mydataframe exakt dasselbe Format haben wie der Datensatz, welcher zur Modellanpassung verwendet wurde. 6.6 Allgemeines lineares Modell Y = Xβ + e beinhaltet als Spezialfälle unter anderem • Einfache und mehrfache Varianzanalyse • Einfache und mehrfache Regressionsanalyse • Polynomiale Regression • Trigonometrische Regression • Lineare Modelle mit Interaktion 65 6.7 Nichtlineare und nichtparametrische Regression Metrische Zielvariable Y , metrischer Regressor x. (Multiple) Lineare Regression Y = xT β + e mit unbekanntem Parametervektor β ∈ Rp . Nichtlineare (parametrische) Regression Y = f (x, β) + e mit bekannter Funktion f , aber unbekanntem Parametervektor β ∈ Rp . Nichtparametrische Regression Y = f (x) + e mit unbekannter Funktion f . 6.7.1 Nichtlineare Regression Modell: Yi = f (xi , β) + ei mit i = 1, . . . , n wobei Yi metrisch xi = (xi1 , . . . , xim ) ∈ Rm β = (β1 , . . . , βp ) ∈ Rp f : Rm × Rp → R e1 , . . . , en unabhängig, Eei = 0 und Var(ei ) = σ 2 Beispiele für f 1. f (xi , β) = exp(xTi β) exponentielles Wachstum in η(xi , β) = xTi β 2. f (xi , β) = exp(xT i β) 1+exp(xT i β) logistisches Wachtum in η(xi , β) = xTi β 3. f (xi , β) = α + xTi β m-faches lineares Regressionsmodell 4. f (xi , β) = β1 eβ2 xi wobei p = 2 5. f (xi , β) = β1 + xβi 2 wobei p = 2 Schätzen des unbekannten Parametervektors β mittels Methode der kleinsten Quadrate: β̂ := argminβ n X (Yi − f (xi , β))2 i=1 Setze Y1 Y := ... , Yn e1 .. e := . , en f (x1 , β) .. f (x, β) := . f (xn , β) 66 Funktionalmatrix von f (x, β): .. . ... .. . ∂f (x1 ,β) ∂βp ∂f (xn ,β) ∂β1 ... ∂f (xn ,β) ∂βp ∂f (x 1 ,β) ∂β1 M (β) := .. . Wir setzen voraus: M (β) besitzt vollen Rang (p < n). Aufgabe: Zeige, dass β̂ Lösung der nichtlinearen Normalengleichungen M (β)T (Y − f (x, β)) = 0 Diese Gleichungen werden mittels Newton-Verfahren (näherungsweise) gelöst. Ŷi := f (xi , β̂) Prädiktionswerte êi := Yi − Ŷi Residuen n 2 X SSE := (empirische) Residuenquadrat-Summe Yi − Ŷi i=1 Schätzer für σ 2 = Var(ei ) n 2 SSE 1 X σ̂ = = Yi − Ŷi n−p n−p 2 i=1 Unter geeigneten Voraussetzungen gilt √ D n(β̂ n − β) → Np 0, σ 2 V −1 (β) für n → ∞ wobei σ 2 durch σ̂ 2 und V −1 (β) durch n(M̂ T M̂ )−1 approximiert werden können. Daraus kann (wie im linearen Modell) eine Wald-Statistik hergeleitet werden, welche z.B. den Test der Hypothesen H0i : βi = 0 oder H0 : Cβ = 0 wobei C die Kontrastmatrix ermöglicht. Ferner ermöglicht die asymptotische Verteilung die Konstruktion von asymptotischen Konfidenzintervallen. 6.7.2 Nichtlineare Regression in R Die Daten wtloss in der Bibliothek MASS beschreiben den Gewichtsverlust eines männlichen Patienten, (193cm, 184kg), im Rahmen einer Therapie. library(MASS) attach(wtloss) plot(Weight ~ Days) Modell Yi = β1 + β2 · 2−ti /β3 + ei mit i = 1, . . . , n Interpretation der Parameter β1 (asymptotisches) Gewicht bei Therapieende 67 β2 gesamter Gewichtsverlust β3 Zeitspanne bis zum Verlust der Hälfte des Übergewichtes (Halbwertszeit) Abbildung 22: Gewicht in Abhängigkeit von Tagen > mymodel <- nls(Weight ~ b1 + b2*2^(-Days/b3), + start = c(b1=90, b2=93, b3=120)) > mymodel Nonlinear regression model model: Weight ~ b1 + b2 * 2^(-Days/b3) data: parent.frame() b1 b2 b3 81.37 102.68 141.91 residual sum-of-squares: 39.24 Number of iterations to convergence: 3 Achieved convergence tolerance: 2.969e-06 > summary(mymodel) Formula: Weight ~ b1 + b2 * 2^(-Days/b3) Parameters: Estimate Std. Error t value Pr(>|t|) b1 81.374 2.269 35.86 <2e-16 b2 102.684 2.083 49.30 <2e-16 b3 141.910 5.295 26.80 <2e-16 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’.’ 0.1 ’ ’ 1 *** *** *** ’*’ 0.05 Residual standard error: 0.8949 on 49 degrees of freedom 68 Number of iterations to convergence: 3 Achieved convergence tolerance: 2.969e-06 > confint(mymodel) Waiting for profiling to be done... 2.5% 97.5% b1 76.48216 85.63207 b2 98.78366 107.18786 b3 131.98995 153.34165 6.7.3 Nichtparametrische Regression Modell: Yi = f (xi ) + ei mit i = 1, . . . , n mit unbekannter Funktion f : R → R. Es gibt eine Vielzahl von Methoden um f zu schätzen. Kernschätzer von Nadaraya-Watson für die unbekannte Regressionsfunktion f : Pn x−xi i=1 Yi K h ˆ fn (x) := Pn , x∈R x−xi i=1 K h R∞ mit einem Kern K : R → R mit −∞ K(x)dx = 1. Beispiele für eine Kernfunktion ( 1 für |x| ≤ 1 Rechteck-Fenster K(x) = 2 0 sonst ( 1 − |x| für |x| ≤ 1 K(x) = Dreiecks-Fenster 0 sonst ( 3 (1 − x2 ) für |x| ≤ 1 K(x) = 4 Epanechnikov-Fenster 0 sonst x2 1 K(x) = √ e− 2 für x ∈ R Gauß-Fenster 2π Problem: Bestimmung der Fensterbreite h > 0. Methoden: • Visuell: Kompromiss zwischen Over- und Unterfitting • Leave-One-Out-Cross-Validation: Wähle h so, dass n 2 X −j Yj − Ŷj minimal j=1 wobei Ŷj−j eine Vorhersage von Yj an der Stelle xj ohne das Datum (xj , Yj ) zu verwenden: P xj −xi Y K i6=j i h Ŷj−j := fn(−j) (xj ) := P xj −xi K i6=j h 69 Kern-Schätzer von Nadaraya-Watson mit R: attach(cars) plot(dist ~ speed) K <- function(x){ 1/(sqrt(2*pi))*exp(-x^2) } NW <- function(x,h,xi,yi){ t(yi) %*% K((x-xi)/h)/sum(K((x-xi)/h)) } i <- 0 for(h in c(0.2, 1, 2, 5, 10)){ i <- i+1 x.seq <- seq(from=min(speed), to=max(speed), by=0.1) y.seq <- apply(as.matrix(x.seq), 1, FUN=NW, xi=speed, yi=dist, h=h) lines(x.seq, y.seq, type="l", col=i) } Abbildung 23: Nadaraya-Watson Kern-Schätzer 70 7 Verallgemeinertes Lineares Modell Verallgemeinerte lineare Modelle (Generalized Linear Models) verallgemeinern lineare Modelle auf Zielvariable Y , deren Verteilung nicht normal und deren Erwartungswert nicht linear in den Regressoren ist. Bei verallgemeinerten linearen Modellen wird u.a. angenommen, dass • Die Regressoren x1 , . . . , xp beeinflussen die Verteilung von Y nur über den linearen Prädiktor η = β1 x1 + . . . + βp xp • Es gibt eine Response-Funktion F : R → R mit E(Y ) = F (β1 x1 + . . . + βp xp ) Die Umkehrfunktion F −1 heißt Link-Funktion. • Die Verteilung von Y gehört zur sog. Exponentialfamilie (zu der u.a. die Normal-, Binomial-, Gamma- und Poisson-Verteilung gehören. 7.1 Logistische Regression Analyse und Modellierung des Zusammenhangs zwischen einer kategorialen Zielgröße und metrischen (oder auch kategorialen) Regressoren. Beispiel: Wie hängt die Reaktion eines Patienten (Y = 1 Patient bewegt sich, Y = 0 Patient bewegt sich nicht) bei einer OP von der Dosierung x des Anästhetikums ab? Ist das Modell Y = a + bx + e mit Ee = 0 sinnvoll? Falls ja, würde daraus folgen, dass + bx E(Y ) = a | {z } | {z } ∈R ∈[0,1] Deshalb neuer Ansatz E(Y ) = F (a + bx) mit Y ∼ Bin(1, F (a + bx)) mit einer geeigneten Response-Funktion, z.B. F (t) = 1 et = mit t ∈ R 1 + e−t 1 + et Damit wäre sichergestellt, dass F (a + bx) ∈ [0, 1]. Annahme: Unabhängige 0-1-wertige Beobachtungen Y1 , . . . , Yn die jeweils von Regressoren x11 , . . . , xm1 ; . . . ; x1n , . . . , xmn abhängen. Modell der binären logistischen Regression πi := P(Yi = 1) = E(Yi ) = 1 1 + e−ηi (β) wobei ηi (β) = β0 + β1 x1i + . . . + βm xmi mit i = 1, . . . , n 71 der sogenannte lineare Prädiktor. Damit gilt ln πi 1 − πi = ηi (β) Schätzung des unbekannten Parametervektors β mittels ML-Methode. β̂ : = argmaxβ n Y |i=1 ln (β) := ln Ln (β) = n X πiYi (1 − πi )1−Yi {z =:Ln (β) } (Yi ln πi + (1 − Yi ) ln(1 − πi )) i=1 = = n X (Yi (ηi − ln(1 − πi )) + ln(1 − πi ) − Yi ln(1 − πi )) i=1 n X Yi ηi (β) + ln(1 + eηi (β) ) i=1 Löse ∇β ln (β) = 0 mittels Newton-Verfahren nach β auf und erhalte damit β̂. 7.1.1 Hypothesentests Zum Überprüfen der Hypothese H0 : βm−r+1 = . . . = βm = 0 berechnet man den ML-Schätzer β̃ = β̃1 , . . . , β̃m−r , 0, . . . , 0 im Untermodell mit m − r | {z } r-mal Parametern. β̂ sei der ML-Schätzer im vollen Modell. Dann gilt unter H0 , dass die logLikelihood-Statistik Tn = 2 ln (β̂) − ln (β̃) asymptotisch χ2r -verteilt ist. Ferner kann man zeigen, dass unter H0 : βj = 0 die WaldStatistik β̂n,j se(β̂n,j ) asymptotisch N(0, 1)-verteilt ist. 7.1.2 Logistische Regression mit R > > > + > library(DAAG) data(anesthetic) mymodel <- glm(nomove ~ conc, family=binomial("logit"), data=anesthetic) summary(mymodel) Call: glm(formula = nomove ~ conc, family = binomial("logit"), data = anesthetic) 72 Deviance Residuals: Min 1Q -1.76666 -0.74407 Median 0.03413 3Q 0.68666 Max 2.06900 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.469 2.418 -2.675 0.00748 ** conc 5.567 2.044 2.724 0.00645 ** --Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 41.455 Residual deviance: 27.754 AIC: 31.754 on 29 on 28 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 5 Sind Ŷi die durch ein an die Daten angepassten Werte in einem Logit-Modell, dann heißen êi := Yi − Ŷi Residuen der Zielgröße (response residuals) und r ˆ di := sign(êi ) −2 Yi ln(Ŷi ) + (1 − Yi ) ln(1 − Ŷi ) heißen Devianz-Residuen. Die Definition der dˆi wurde so gewählt, dass für die sogenannte (Residuen-)Devianz D gilt, dass D := 2 (log L(saturiertes Modell) − log L(aktuelles Modell)) n X = dˆ2i i=1 Hierbei bezeichnet L die Likelihood-Funktion des betrachteten Modells. Im saturierten Modell ist die Zahl der Parameter identisch zur Anzahl der Beobachtungen. Werden weitere Parameter in ein Modell aufgenommen, reduziert sich die Devianz. Werden zwei geschachtelte Modelle mit p1 < p2 Parametern betrachtet, so gilt für die Differenz ihrer Devianzen D(p1 ) − D(p2 ) asymptotisch χ2p2 −p1 -verteilt Die Devianz eignet sich deshalb zur Modellwahl. Zusätzlich zur Devianz wird bei linearen und verallgemeinerten linearen Modellen der AICWert (Akaike Information Criterion) zur Modellwahl verwendet. Hierbei ist bei einem Modell mit k Parametern AIC(k) := −2LogLikelihood(betrachtetes Modell mit k Par.) + 2k Angestrebt wird ein Modell mit einem möglichst kleinen AIC-Wert. 73 Da ein Modell mit mehr Parametern eine größere LogLikelihood besitzt, wird dieser Tatsache durch den Strafterm 2k Rechnung getragen. Die Hinzunahme eines weiteren Parameter macht also keinen Sinn, wenn die LogLikelihood nicht um mindestens den Wert 2 steigt. Ansonsten würde eine Hinzunahme des Parameters den AIC-Wert nicht reduzieren. Zur Interpretation der Parameter in einem logistischen Modell: Logistisches Modell mit einer einer dichothomen Zielgröße Y mit Werten 0 und 1 und einem dichothomen Regressor x ebenfalls mit Werten 0 und 1: p := P (Y = 1) = exp(α + βx) 1 + exp(α + βx) Dann gilt: Y =1 Y =0 x=1 P (Y = 1|x = 1) = P (Y = 0|x = 1) = exp(α+β) 1+exp(α+β) 1 1+exp(α+β) x=0 P (Y = 1|x = 0) = P (Y = 0|x = 0) = exp(α) 1+exp(α) 1 1+exp(α) Daraus folgt für das sogenannte Odds Ratio (Chancenverhältnis) von Y = 1 zu Y = 0: OR := exp(α + β) P (Y = 1|x = 1)/(1 − P (Y = 1|x = 1)) = = exp(β) P (Y = 1|x = 0)/(1 − P (Y = 1|x = 0)) exp(α) also, β = log(OR) library(MASS) data(bacteria) help(bacteria) attach(bacteria) ap <- relevel(ap,"p") logreg1 <- glm(y~ap,data=bacteria,family=binomial) summary(logreg1) logreg2 <- glm(y~ap+hilo,data=bacteria,family=binomial) summary(logreg2) anova(logreg1,logreg2,test="Chisq") pchisq(0.95,df=1) extractAIC(logreg1) extractAIC(logreg2) 7.2 Poisson-Regression Zur Modellierung von Zähldaten eignet sich in besonderer Weise die Poisson-Verteilung. −µ Sei Yi ∼ Pois(µi ) mit i = 1, . . . , n, d.h. P(Yi = k) = µki e k! i mit k ∈ N0 . Dann gilt E(Yi ) = µi und Var(Yi ) = µi 74 Die Abhängigkeit des Parameters µi von dem Regressionsvektor xi ∈ Rp kann z.B. durch log(µi ) = XiT β log-lineares Poisson-Modell oder µi = XiT β lineares Poisson-Modell modelliert werden. 7.2.1 Poisson-Regression mit R Log-lineare Poisson-Regression: glm(y ~ x, family=poisson(log)) Lineare Poisson-Regression: glm(y ~ x, family=poisson(identity)) Problem: E(Yi ) < Var(Yi ) (Überdispersion) Abhilfe: Var(Yi ) = ΦE(Yi ) mit Φ > 1. > cellular <- read.csv("cellular.csv", header=TRUE) > model1 <- glm(number.of.cells~TNF+INF, + family=poisson(log),data=cellular) > summary(model1) Call: glm(formula = number.of.cells ~ TNF + INF, family = poisson(log), data = cellular) Deviance Residuals: Min 1Q Median -4.8374 -3.1107 -0.7031 3Q 2.5661 Max 5.8151 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.5731167 0.0516829 69.135 <2e-16 *** TNF 0.0131423 0.0005991 21.938 <2e-16 *** INF 0.0058544 0.0006445 9.083 <2e-16 *** --Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 707.03 Residual deviance: 160.16 AIC: 259.46 on 15 on 13 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > model2 <- glm(number.of.cells~TNF+INF, + family=poisson(identity),data=cellular) > summary(model2) 75 Call: glm(formula = number.of.cells ~ TNF + INF, family = poisson(identity), data = cellular) Deviance Residuals: Min 1Q Median -4.5442 -2.0895 -0.7052 3Q 1.8986 Max 4.0668 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 25.12879 2.07617 12.103 <2e-16 *** TNF 1.26883 0.06804 18.649 <2e-16 *** INF 0.49512 0.05395 9.177 <2e-16 *** --Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 707.03 Residual deviance: 117.59 AIC: 216.89 on 15 on 13 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 6 76 8 Bayesianische Statistik Im Gegensatz zur klassischen oder frequentistischen Statistik geht man in der BayesStatistik davon aus, dass der Parameter θ selber Realisierung einer Zufallsvariablen Θ mit einer vorgegebenen a-priori-Verteilung ist. Unter Verwendung einer Bayes-Formel wird dann, basierend auf einer Stichprobe, die aposteriori-Verteilung von Θ bestimmt. Als Schätzwert für θ wählt man dann häufig den Erwartungswert, Median oder Modus der a-posteriori-Verteilung von Θ. 8.1 Grundlagen der Bayesianischen Statistik Wir betrachten zunächst den Fall, dass nur eine Beobachtung x der diskreten oder stetigen Zufallsvariablen X vorliegt. Benötigte Bezeichnungen: • f (x, θ) gemeinsame Dichte von X und Θ • f (θ) a-priori-Dichte von Θ (Randdichte von Θ) • f (x) Randverteilung von X • f (θ|x) a-posteriori-Dichte von Θ (bedingte Dichte von Θ, gegeben die Beobachtung X = x) • f (x|θ) die bedingte Dichte von X, gegeben Θ = θ Dann gilt folgende Form des Satzes von Bayes f (θ|x) = = f (x, θ) f (x|θ)f (θ) = f (x) f (x) f (x|θ)f (θ) P falls Θ diskret i f (x|θi )f (θi ) R f (x|θ)f (θ) f (x|θ)f (θ)dθ falls Θ stetig Liegt statt einer Beobachtung x eine Stichprobe (x1 , . . . , xn ) vor, ersetzen wir f (x|θ) durch die bedingte gemeinsame Dichte f (x1 , . . . , xn |θ). Sind die Variablen X1 , . . . , Xn unabhängig und identisch verteilt, so gilt f (x1 , . . . , xn |θ) = f (x1 |θ) · . . . · f (xn |θ) = L(θ) Die a-posteriori-Dichte von θ zur Stichprobe (x1 , . . . , xn ) ist dann gegeben durch f (θ|x1 , . . . , xn ) = R L(θ)f (θ) L(θ)f (θ)dθ vorausgesetzt, Θ ist eine stetige Zufallsvariable. (Ist Θ diskret, muss das Integral im Nenner sinngemäß durch eine Summe ersetzt werden.) Daraus können dann verschiedene Bayes-Schätzer abgeleitet werden: • A-posteriori-Erwartungswert: Z θ̂p = E(θ|x1 , . . . , xn ) = (falls θ stetig) 77 θf (θ|x1 , . . . , xn )dθ • A-posteriori-Modus oder Maximum-a-posteriori-Schätzer: Wähle denjenigen Parameterwert θ̂M AP , für den die a-posteriori-Dichte maximal wird, d.h. L(θ̂M AP )f (θ̂M AP ) = max L(θ)f (θ) θ oder äquivalent ln L(θ̂M AP ) + ln f (θ̂M AP ) = max {ln L(θ) + ln f (θ)} θ Bemerkungen • Das Integral im Nenner der a-posteriori-Dichte ist nur in speziellen Fällen explizit zu berechnen und muss deshalb häufig approximiert werden, z.B. mit Monte-CarloMethoden. Für die Berechnung des Maximum-a-posteriori-Schätzers genügt die Maximierung des Zählers. • Je flacher die a-priori-Dichte von Θ, d.h. je geringer die (angenommene) Kenntnis über die Lage des wahren Parameters θ, umso mehr stimmt der MAP-Schätzer mit dem Maximum-Likelihood-Schätzer überein. 8.2 Diagnostische Tests Bezeichnung K+ K− D+ D− Ereignis Krankheit K liegt bei einem Individuum vor Krankheit K liegt bei diesem Individuum nicht vor diagnostischer Test auf Krankheit K fällt positiv aus diagnostischer Test auf Krankheit K fällt negativ aus Die folgenden Wahrscheinlichkeiten seien bekannt: • a-priori-Wahrscheinlichkeit P (K+) für die Krankheit (sog. Prävalenz) • bedingten Wahrscheinlichkeiten P (D + |K+) und P (D + |K−) für eine positive Diagnose, falls die Krankheit vorliegt bzw. nicht vorliegt Sensitivität des diagnostischen Tests: P (D + |K+) Spezifität des Tests: P (D − |K−) = 1 − P (D + |K−) Wie groß sind die (a-posteriori-)Wahrscheinlichkeiten P (K + |D+) und P (K + |D−) für ein Vorliegen der Krankheit, vorausgesetzt, die Diagnose war positiv bzw. negativ? positiver prädiktiver Wert: P (K + |D+) = P (D + |K+)P (K+) P (D + |K+)P (K+) + P (D + |K−)P (K−) negativer prädiktiver Wert: P (K + |D−) = P (D − |K+)P (K+) P (D − |K+)P (K+) + P (D − |K−)P (K−) Sensititivät und Spezifität können mittels relativer Häufigkeiten aus retrospektiven Studien geschätzt werden. Die Prävalenz muss aus einer u.U. großen Stichprobe von zufällig ausgewählten Personen (aus einer bestimmten Gruppe) geschätzt werden. Zahlenbeispiel für HIV unter Erwachsenen: 78 Sensitivität des HIV-Tests Spezifität des HIV-Tests Prävalenz positiver prädiktiver Wert negativer prädiktiver Wert W-Europa 0,995 0,995 0,002 0,28 0,9999 Afrika südl. der Sahara 0,995 0,995 0,05 0,91 0,9997 Mit R: ppv <- function(sens=0.995,spez=0.995,prae){ sens*prae/(sens*prae + (1-spez)*(1-prae)) } npv <- function(sens=0.995,spez=0.995,prae){ spez*(1-prae)/(spez*(1-prae) + (1-sens)*prae) } In diesem Beispiel kann die Diagnose D als eine Bernoulli-verteilte Zufallsvariable mit bedingter Wahrscheinlichkeit ( sens, falls k = K+, P (D = D + |K = k) = 1 − spez, falls k = K− und K als (zufallsabhängiger) Parameter mit a-priori-Verteilung ( praev, falls k = K+, P (K = k) = 1 − praev, falls k = K− angesehen werden. Mittels Bayes-Formel wird die a-priori-Verteilung über die Prävalenz der Krankheit K zur a-posteriori Verteilung von K|D verbessert, abhängig davon, ob eine positive oder negative Diagnose D = D+ bzw. D = D− vorliegt. 8.3 Normalverteilte Zufallsgröße mit stetiger a-priori-Verteilung X1 , . . . , Xn unabhängige Wiederholungen von X ∼ N (µ, σ 2 ), wobei µ gesucht und σ 2 bekannt sei. A-priori-Verteilung von µ: N (µ0 , σ02 ) mit bekanntem µ0 und σ02 Likelihoodfunktion zu x1 , . . . , xn |µ: 1 (x1 − µ)2 1 (xn − µ)2 L(µ) = √ exp − · ... · √ exp − 2σ 2 2σ 2 2πσ 2πσ A-posteriori-Dichte von µ|x1 , . . . , xn f (µ|x1 , . . . , xn ) = R L(µ)f (µ) L(µ)f (µ)dµ = · · · = Dichte der N (µ̃, σ̃ 2 )-Verteilung mit a-posteriori-Erwartungswert µ̃ = σ2 nσ02 x̄ + µ0 2 2 nσ0 + σ 2 nσ0 + σ 2 79 und a-posteriori-Varianz σ̃ 2 = σ2 n+ σ2 σ02 Extremfälle: Für σ02 → 0 (exaktes Vorwissen) folgt µ̃ → µ0 und σ̃ 2 → 0 Für σ02 → ∞ (kein Vorwissen) folgt µ̃ → x̄ und σ̃ 2 → σ2 n Je größer n desto geringer wird der Unterschied zwischen µ̃ und x̄ Je kleiner n desto geringer ist der Einfluss der Stichprobe auf die a-posteriori-Verteilung 8.4 Bayesianisches Testen einer Hypothese Mit dem “impliziten” Stichprobenumfang der a-priori-Verteilung n0 = σ 2 /σ02 erhalten wir im letzten Beispiel für die a-priori- und a-posteriori-Verteilung des Erwartungswertes µ: µ ∼ N (µ0 , σ 2 /no ) n0 µ + nx̄ σ2 µ|X = x ∼ N , n0 + n n0 + n Sei µ1 ein hypothetischer Wert für den Erwartungswert von X1 Überprüfung der Hypothesen H0 : µ ≤ µ1 gegen H1 : µ > µ1 A-priori-Wahrscheinlichkeit von H0 : Z µ1 − µ 0 P (H0 ) = f (µ) dµ = Φ √ σ/ n0 µ≤µ1 A-posteriori-Wahrscheinlichkeit von H0 : Z P (H0 |X = x) = f (µ|X = x) dµ = Φ µ≤µ1 →Φ µ1 − x̄ √ σ/ n +nx̄ µ1 − n0nµ00+n √ σ/ n0 + n ! (n0 → 0) Für n0 → 0 konvergiert die a-priori-Verteilung von µ gegen eine “uninformative” a-prioriVerteilung. Werden die Nullhypothese im Sinne der frequentistischen Statistik mittels einseitigem Gauß-Test überprüft, folgt für den dazugehörigen p-Wert X̄ − µ1 x̄ − µ1 √ ≥ √ P (X̄ ≥ x̄|H0 ) = P σ/ n σ/ n x̄ − µ1 µ1 − x̄ √ √ =1−Φ =Φ σ/ n σ/ n Mit abnehmender Information über die a-priori-Verteilung des Erwartungswertes konvergiert die a-posteriori-Wahrscheinlichkeit von H0 gegen den p-Wert des entsprechenden frequentistischen Tests. 80 8.5 Bernoulli-verteilte Zufallsgröße mit stetiger a-priori-Verteilung Häufig ist es sinnvoll davon auszugehen, dass der Parameter p einer Bernoulli-verteilten Zufallsvariablen Realisierung einer auf dem Intervall [0, 1] stetigen Zufallsgröße ist. Als apriori-Verteilung eignet sich hierzu insbesondere eine Beta-Verteilung mit den Parametern a, b > 0 und der Dichte ( a−1 p (1−p)b−1 , falls p ∈ (0, 1), Beta(a,b) f (p; a, b) = 0, sonst Der Faktor Beta(a, b) dient nur zur Normierung und hat die Form Beta(a, b) = Γ(a)Γ(b)/Γ(a+ b). R∞ Zur Erinnerung: Für x > 0 gilt Γ(x) = 0 tx−1 e−t dt, Γ(x + 1) = xΓ(x), Γ(1) = 1 Ist X eine Bin(n, p)-verteilte Zufallsgröße, so kann mittels Bayes-Formel gezeigt werden, dass die a-posteriori-Verteilung von p|X = x wieder eine Beta-Verteilung mit neuen Parametern a + x und b + n − x besitzt: p|X = x ∼ Beta(a + x, b + n − x) Aus dieser a-posteriori-Verteilung können viele interessante Statistiken abgeleitet werden: • Bayesianische Punktschätzer für den Erwartungswert, Median, Modus, . . . • Bayesianische Intervallschätzer • Bayesianische Tests 81 9 Versuchsplanung Die folgende Darstellung orientiert sich an Köhler et alt., Biostatistik, 2007, und Rudolf et alt., Biostatistik, 2008. 9.1 Wahl geeigneter Merkmale Objektivität, Reliabilität, Validität Liegt dem Fachwissenschaftler eine Fragestellung vor, so muss er sich entscheiden, welche Merkmale er zur Beantwortung seiner Frage sinnvollerweise untersucht. Dazu sollte er zunächst die folgenden drei Kriterien bei der Auswahl seiner Merkmale beachten: Die Ausprägung des zu ermittelnden Merkmals ist unabhängig von der Person des Auswerters eindeutig festzustellen. Beispiel: die Bewertung von Deutsch-Aufsätzen ist oft stark vom beurteilenden Lehrer abhängig und somit wenig objektiv. Das Merkmal gestattet reproduzierbare Mess- (bzw. Beobachtungs-) Ergebnisse, bei Wiederholung liegen also gleiche Resultate vor. Statt Reliabilität wird auch von “Zuverlässigkeit” gesprochen. Beispiel: Beim Test einer neuen Methode zur Messung der Enzymaktivität wurde das untersuchte Homogenat in mehrere gleiche Proben aufgeteilt und jeweils gemessen. Die erhaltenen Ergebnisse unterschieden sich teilweise um eine Größenordnung (Faktor 10). Die Methode musste als unzuverlässig verworfen werden. Das Merkmal in seinen Ausprägungen spiegelt die für die Fragestellung wesentlichen Eigenschaften wider. Statt Valitität wird auch von “Gültigkeit” oder “Aussagekraft” gesprochen. Beispiel: Bei der Zulassung zum Medizin-Studium spielt die Durchschnittsnote im Abitur eine wichtige Rolle. Hat dieses Merkmal tatsächlich eine zentrale Bedeutung für die Beurteilung, ob die Fähigkeit zum Arztberuf vorliegt? • Ableitung einer durch einen Versuch zu bearbeitenden Fragestellung. • Überführung dieser Fragestellung in ein biowissenschaftliches Modell mit entsprechenden Forschungshypothesen. • Erarbeitung einer Untersuchungsmethode zur Überprüfung der Hypothese. 9.2 Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung • Formalisierung des biowissenschaftlichen Modells durch ein entpsrechendes mathematischstatistisches Modell mit den entsprechenden statistischen Hypothesen. • Festlegung der Stichprobengewinnung. • Detaillierte Festlegung des Versuchsplanes (zum Beispiel Anzahl der Faktorstufen, Anzahl der Wiederholungen, Umgang mit Störvariablen, Verteilung der Untersuchungseinheiten auf die unterschiedlichen Versuchsbedingungen). • Festlegung der Verfahren zur Datenanalyse einschließlich der Untersuchung der notwendigen Voraussetzungen. • Bestimmung des optimalen Stichprobenumfangs. 82 Eine abgestimmte fachwissenschaftliche und biostatistische Versuchsplanung schafft die Voraussetzungen für • die Genauigkeit der Versuchsergebnisse und ihre Kontrolle bei der Auswertung • die Kontrolle oder die Elimination vor Störgrößen • die sachgerechte Beschreibung der Versuchsergebnisse durch grafische Darstellungen und statistische Maßzahlen • die Quantifizierung und kritischen Wertung charakteristischer Beziehungen (Zusammenhänge, Unterschiede) und • die ökonomische Durchführung des Versuchs. 9.3 Grundlegende Aspekte der Versuchsplanung 9.3.1 Varianzquellen in biowissenschaftlichen Untersuchungen Definition: Als Primärvarianz wird der Varianzanteil der Zielvariablen bezeichnet, der auschließlich auf die Variation der experimentellen Bedingungen zurückgeführt werden kann. Die biostatistische Versuchsplanung soll die Voraussetzungen dafür schaffen, dass dieser Varianzanteil möglichst groß sein kann, damit die interessierenden Effekte nachgewiesen werden können. Definition: Als Sekundärvarianz wird der Varianzanteil bezeichnet, der durch die Wirkung von Störvariablen hervorgerufen wird. Die biostatistische Versuchsplanung soll eine Kontrolle potentieller Störvariablen sicherstellen. Definition: Als Fehlervarianz wird der aus zufälligen Unterschieden zwischen den Untersuchungseinheiten oder aus unsystematischen, zufälligen Einflüssen der Untersuchung resultierende Varianzanteil bezeichnet. Die biostatistische Versuchsplanung hat die Aufgabe, diesen Varianzanteil so gering wie möglich zu halten. Merksatz: ein wichtiges Ziel der biostatistischen Versuchsplanung besteht darin, die Primärvarianz zu maximieren, die Sekundärvarianz zu kontrollieren und die Fehlervarianz zu minimieren. Das Verhältnis der Anteil von Primär-, Sekundär- und Fehlervarianz ist eng mit dem Begriff der internen Validität einer Untersuchung verbunden. Definition: eine Untersuchung ist intern valide (nach innen gültig), wenn die Unterschiede in der abhängigen Variablen (dem interessierenden Merkmal) zwischen den verschiedenen Versuchbedingungen eindeutig auf die Veränderungen der unabhängigen Variablen, d.h. auf die unterschiedlichen Versuchsbedingungen zurückgeführt werden können. Definition: Eine Untersuchung ist extern valide (nach außen gültig), wenn die Ergebnisse der Untersuchung auf die Population und auf andere Situationen übertragen werden können. 83 9.3.2 Allgemeine Prinzipien der Versuchsplanung • Maximieren der Primärvarianz • Konstanthalten von Störgrößen • Randomisierung von Versuchsbedingungen • Matching • Blockbildung • Verblindung (einfach oder mehrfach) • Wiederholungen • mehrfaktorielle Strukturen • statistische Kontrolle von Störfaktoren mittels Regressionsmethoden • Einbeziehung einer Kontrollgruppe • Symmetrie 9.3.3 Typen von Stichproben • Einfache Zufallsstichproben • Geschichtete Stichproben (zB hinsichtlich Alter und/oder Geschlecht) • Klumpenstichproben (zB Herden oder Familien) • Mehrstufige zufällige Auswahlverfahren 9.3.4 Einige wichtige Versuchspläne • Einfaktorielle Randomisierungspläne für große Stichprobenumfänge, dreifache Zufallszuordnung • Blockversuchspläne • Messwiederholungspläne • Mehrfaktorielle Pläne • Mischversuchspläne • Unvollständige Versuchspläne wie hierarchische Pläne oder Lateinische Quadrate 9.4 Bestimmung optimaler Stichprobenumfänge Einfaches Beispiel: 1-Stichproben-Gaußtest X1 , . . . , Xn unabhängige Zufallsgrößen, verteilt wie N (µ, σ 2 ) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 > 0. Zu testen ist H0 : µ ≤ µ0 gegen H1 : µ > µ0 84 (Signifikanztest) mit dem rechtsseitigen Gauß-Test: Lehne H0 zum Niveau α ∈ (0, 1) ab, falls √ x̄ − µ0 n > z1−α := Φ−1 (1 − α) σ Gütefunktion dieses Tests: √ µ − µ0 n G(µ) = Φ − z1−α σ Die Wahrscheinlichkeit für einen Fehler 2. Art liegt damit für ein µ, das nur wenig größer ist als µ0 , knapp unterhalb von 1 − α. Sind wir nur an µ-Werten interessiert sind, die um mindestens eine von uns gewählte Größe ∆ > 0 von µ0 abweichen, testen wir die Hypothesen H0 : µ ≤ µ0 gegen H∆ : µ > µ0 + ∆ (Relevanztest) Für diesen Test kann die Wahrscheinlichkeit β für einen Fehler 2. Art kontrolliert werden: √ ∆ β = 1 − G(µ0 + ∆) = Φ z1−α − n σ Diese Beziehung ist äquivalent mit σ ∆ = √ (z1−α − zβ ) n Zu vorgegebenen Wahrscheinlichkeiten α und β für einen Fehler 1. bzw. 2. Art, Streuung σ (geschätzt z.B. im Rahmen einer Pilotstudie) und minimaler relevanter Abweichung (Mindesteffekt) ∆ ergibt sich für den minimalen Stichprobenumfang n≥ σ 2 (z1−α + z1−β )2 ∆2 85 10 Analyse hochdimensionaler Daten Viele biologische Experimente wie Hochdurchsatzverfahren liefern hochdimensionale Daten, deren Information nicht mehr durch direkte visuelle Inspektion extrahiert werden kann. In diesem Abschnitt behandeln wir hierzu drei Verfahren: • Hauptkomponentenanalyse • Multidimensionale Skalierung • Clustermethoden 10.1 Hauptkomponentenanalysis Die Hauptkomponentenanalyse versucht, hochdimensionale Daten so auf niedrigdimensionale Räume zu projizieren, dass die wesentliche Information erhalten bleibt. Zu Daten x1 , . . . , xn ∈ Rp ist deren Kovarianzmatrix gegeben durch n S := 1 X (xi − x̄)(xi − x̄)T n−1 i=1 Da S symmetrisch und positiv semidefinit, existieren p nichtnegative Eigenwerte λ1 ≥ . . . ≥ λp ≥ 0. Die dazugehörigen Eigenvektoren r1 , . . . , rp können so gewählt werden, dass rjT rk = δjk und Srj = λj rj Sei R die p × p-dimensionale Matrix, deren Spalten aus den p Eigenvektoren von S besteht und Λ eine p × p-dimensionale Matrix, deren Hauptdiagonale die Eigenwerte λ1 , . . . , λp trägt. Dann gilt die Zerlegung S = RΛRT Im Folgenden gehen wir oBdA davon aus, dass die Datenvektoren x1 , . . . , xn an ihrem arithmetischen Mittel x̄ zentriert sind. Sei x ∈ {x1 , . . . , xn } ein Datenvektor (∈ Rp ). Die Linearkombination y i := rit x heißt i-te Hauptkomponente von x (i ∈ {1, . . . , p}). Die Vektoren y = (y 1 , . . . , y p ) und x besitzen dieselbe Länge. Die Koordinateneinträge der einzelnen Eigenvektoren werden auch als Ladungen bezeichnet, denn sie geben die Gewichte wieder, mit denen die einzelnen Variablen zu den Hauptkomponenten der Beobachtungen beitragen. Die Scores der einzelnen Beobachtungen sind die Koordinaten bezüglich der Hauptkomponenten (also der orthonormierten Eigenvektoren). Im Biplot (Gabriel 1971) werden die ersten beiden Hauptkomponenten aller Beobachtungen gemeinsam mit den ersten beiden Ladungen der Variablen dargestellt. Der Biplot vereinigt damit Score- und Loadingplot: • Projektionen der Pfeile auf die Achsen entspricht den Loadingwerten. • Die Länge der Pfeile ist proportional zur Standardabweichung der dargestellten Variablen. 86 • Der Kosinus des Winkels zwischen zwei Variablen approximiert den Korrelationskoeffizienten dieser beiden Variablen. • Der euklidische Abstand zweier Punkte approximiert ein gewisses Abstandsmaß der Merkmalsträger. Je näher zwei Punkte im Biplot liegen, desto ähnlicher sind sich die Merkmalsträger. • Die Lage der Punkte steht in Beziehung zu den Pfeilen. Liegt der i-te Punkt in derselben Richtung wie der j-te Pfeil, so ist der i-te Merkamlsträger bezüglich der j-ten Variablen überdurchschnittlich ausgeprägt. In Richtung der neuen Achse rj beträgt die Varianz der Daten λj . Die im durch r1 , . . . , rk aufgespannten Unterraum liegende relative Anteil an der Gesamtvarianz beträgt Pk λj Ppj=1 j=1 λj Ist dieser Anteil schon für ein kleines k groß, so kann die weitere statistische Untersuchung auf diesen Unterraum beschränkt werden. Besitzen nicht alle Komponenten der Vektoren xi dieselbe Skalierung, sollte anstelle der Kovarianzmatrix die Korrelationsmatrix verwendet werden. Kriterien zur Bestimmung der Anzahl der relevanten Hauptkomponenten • Wähle den kleinsten Wert, so dass Pk Pj=1 p λj j=1 λj ≥α Typische Werte für α: 0.75, 0.8 oder 0.85 • Screeplot (Geröllhalde): Trage die Eigenwerte (=Varianzen) der Hauptkomponenten über ihrem Rang auf. Verbinde die Punkte stückweise linear. Berücksichtige nur diejenigen Hauptkomponenten, die links bis zum “Knick” liegen. • Kriterium von Kaiser: Berücksichtige nur die Hauptkomponenten, deren zugehörige Eigenwerte größer sind als das arithmetische Mittel aller Eigenwerte. • Kriterium von Joliffe: Berücksichtige nur die Hauptkomponenten, deren zugehörige Eigenwerte größer sind als das 0.7-fache des arithmetischen Mittels aller Eigenwerte. In R: noten <- read.csv("http://www.isa.uni-stuttgart.de/LstStoch/Dippon/ Lehre/Biostat-2/noten.csv") noten.pca <- princomp(noten,cor=FALSE) noten.pca plot(noten.pca) noten.pca$loadings noten.pca$scores ## Anzahl der "relevanten" Hauptkomponenten screeplot(noten.pca,type="lines") ## Loading-Plot plot(noten.pca$loadings[,1:2],type="n") text(noten.pca$loadings[,1:2],label=names(noten)) 87 ## Score-Plot plot(noten.pca$scores[,1:2],type="n") text(noten.pca$scores[,1:2],label=1:17) ## Biplot biplot(noten.pca,choices=1:2,scale=0,pc.biplot=FALSE) 10.2 Multidimensionale Skalierung Ausgehend von einer Datenmatrix X mit n Zeilen (Anzahl der Merkmalsträger) und d Spalten (Anzahl der Merkmale) kann man eine n × n Distanzmatrix D gewinnen, welche die paarweisen (z.B. euklidischen) Distanzen zwischen den einzelnen Merkmalsträgern widerspiegelt. Umgekehrt sucht die multidimensionale Skalierung zu einer gegebenen Distanzmatrix, die die paarweisen Abstände der Merkmalsträger beschreibt, zu jedem Merkmalsträger i einen Vektor xi in einem Vektorraum der Dimension d, so dass die (euklidischen) Abstände zwischen je zwei Vektoren mit den durch die Distanzmatrix vorgegebenen Werten übereinstimmt. Beispiele: Fahrzeiten zwischen Städte, paarweiser Vergleich von Rassen einer Tierart mittels eines Scores gebildet aus Einzelmerkmalen, paarweiser Vergleich von Automodellen Sei D eine gegebene n × n Distanzmatrix Definiere die symmetrische Matrix A mittels 1 aij := − d2ij − d2i· − d2·j + d2·· 2 wobei n 1X 2 di· = dik n k=1 n 1X 2 dkj d·j = n d·· = k=1 n X n X 1 n2 k=1 l=1 88 d2kl Führe eine Spektralzerlegung von A durch: A = U ΛU 0 U : die orthogonale Matrix mit den Eigenvektoren von A als Spalten Λ: die Diagonalmatrix mit den absteigend geordneten Eigenwerten von A Sind die k ersten Eigenwerte positiv, die restlichen gleich Null, Uk die Matrix mit den ersten k Eigenvektoren und Λk die Diagonalmatrix der ersten k Eigenwerte, so löst die Matrix 1/2 Xk = Uk Λk das MDS-Problem. Für eine approximative grafische Darstellung der Matrix Xk , wählt man 1/2 X2 = U2 Λ2 Das MDS-Problem ist genau dann für eine n × n Distanzmatrix D lösbar, wenn die Matrix A positiv semidefinit ist (mit Rang d ∈ {1, . . . , n − 1}). (Falk et alt. Satz 7.3.1) Bemerkung: Diese Lösung ist im Allgemeinen nicht eindeutig, da Translationen und orthogonale Transformationen der Vektoren x1 , . . . , xn die Distanzmatrix invariant lassen. Der Datensatz eurodist enthält die Straßendistanz zwischen 21 europäischen Städten. loc <- cmdscale(eurodist) x <- loc[, 1] y <- -loc[, 2] # reflect so North is at the top ## note asp = 1, to ensure Euclidean distances are represented correctly plot(x, y, type = "n", xlab = "", ylab = "", asp = 1, axes = FALSE, main = "cmdscale(eurodist)") text(x, y, rownames(loc), cex = 0.6) Können die Abstände in D nur bezüglich ihrer Ordnung sinnvoll interpretiert werden, kann die nichtmetrische MDS nach Shepard-Kruskal angewendet werden. 10.3 Cluster-Methoden Cluster-Verfahren dienen zur Zerlegung von mehr- oder hochdimensionalen Datensätzen in einzelne Gruppen, so dass die Ähnlichkeit innerhalb einer Gruppe möglichst groß, zwischen den Gruppen jedoch möglichst klein ist. Typisch für diese Verfahren ist, dass die wahre Gruppenzugehörigkeit nicht zur Konstruktion der Cluster verwendet wird (unüberwachtes Lernverfahren). Wir behandeln zwei Cluster-Verfahren: • K-Means-Clustering (Clusteranzahl K vorgegeben) • Hierarchisches Clustering (Anzahl der Cluster unbekannt) 10.3.1 K-Means Clustering Eines der populärsten Verfahren zur Gruppierung von Daten ist der k-Means-Algorithmus: 1. Wähle die Anzahl der zu bestimmenden Gruppen 2. Wähle k zufällige Punkte des Raumes als Cluster-Schwerpunkte 89 3. Ordne jeden Punkt der Stichprobe der im nächstliegenden Schwerpunkt zu. Die dabei verwendete Distanzfunktion kann z.B. die euklidische Norm sein 4. Für jedes Cluster wird der Schwerpunkt neu berechnet 5. Basierend auf den neu berechneten Zentren werden die Stichprobenpunkte neu in Gruppen eingeteilt. Wiederhole die Schritte 2 bis 5, bis sich die Schwerpunkte nicht mehr wesentlich bewegen Clustern des Iris-Datensatzes in 3 Gruppen M <- data.matrix(iris)[,1:4] fit <- kmeans(M,3) fit ## Einfärbung gemäß Clusterverfahren pairs(M, col=fit$cluster) ## Einfärbung gemäß wahrer Spezies-Zugehörigkeit pairs(M, col=data.matrix(iris)[,5]) 10.3.2 Hierarchisches Clustering Sollen z.B. 1000 Gene mittels einer Stichprobe vom Umfang 50 anhand ihrer Genexpressionprofile klassifiziert werden, so müssen in einem 1000-dimensionalen Raum geeignete Teilmengen (Cluster) gefunden werden Zusätzlich kann auch die Stichprobe geclustert werden. Probleme: • Wahl einer Abstandsfunktion • Strategie zur Konstruktion von Clustern • Anzahl der Cluster Typen von Verfahren: • Divisive Verfahren • Agglomerative Verfahren 90 A G OCI Ly3 OCI Ly10 DLCL-0042 DLCL-0007 DLCL-0031 DLCL-0036 DLCL-0030 DLCL-0004 DLCL-0029 Tonsil Germinal Center B Tonsil Germinal Center Centroblasts SUDHL6 DLCL-0008 DLCL-0052 DLCL-0034 DLCL-0051 DLCL-0011 DLCL-0032 DLCL-0006 DLCL-0049 Tonsil DLCL-0039 Lymph Node DLCL-0001 DLCL-0018 DLCL-0037 DLCL-0010 DLCL-0015 DLCL-0026 DLCL-0005 DLCL-0023 DLCL-0027 DLCL-0024 DLCL-0013 DLCL-0002 DLCL-0016 DLCL-0020 DLCL-0003 DLCL-0014 DLCL-0048 DLCL-0033 DLCL-0025 DLCL-0040 DLCL-0017 DLCL-0028 DLCL-0012 DLCL-0021 Blood B;anti-IgM+CD40L low 48h Blood B;anti-IgM+CD40L high 48h Blood B;anti-IgM+CD40L 24h Blood B;anti-IgM 24h Blood B;anti-IgM+IL-4 24h Blood B;anti-IgM+CD40L+IL-4 24h Blood B;anti-IgM+IL-4 6h Blood B;anti-IgM 6h Blood B;anti-IgM+CD40L 6h Blood B;anti-IgM+CD40L+IL-4 6h Blood T;Adult CD4+ Unstim. Blood T;Adult CD4+ I+P Stim. Cord Blood T;CD4+ I+P Stim. Blood T;Neonatal CD4+ Unstim. Thymic T;Fetal CD4+ Unstim. Thymic T;Fetal CD4+ I+P Stim. OCI Ly1 WSU1 Jurkat U937 OCI Ly12 OCI Ly13.2 SUDHL5 DLCL-0041 FL-9 FL-9;CD19+ FL-12;CD19+ FL-10;CD19+ FL-10 FL-11 FL-11;CD19+ FL-6;CD19+ FL-5;CD19+ Blood B;memory Blood B;naive Blood B Cord Blood B CLL-60 CLL-68 CLL-9 CLL-14 CLL-51 CLL-65 CLL-71#2 CLL-71#1 CLL-13 CLL-39 CLL-52 DLCL-0009 DLBCL Germinal Center B Nl. Lymph Node/Tonsil Activated Blood B Resting/Activated T Transformed Cell Lines FL Resting Blood B CLL Pan B cell Germinal Center B cell T cell Activated B cell Proliferation Lymph Node -2 -1 0 1 2 0.250 0.500 1.000 2.000 4.000 91