Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 1: Deskriptive Statistik Statistik Teil 2: Wahrscheinlichkeitsrechnung R. Frühwirth [email protected] Teil 3: Zufallsvariable und Verteilungen VO 142.090 http://tinyurl.com/TU142090 Teil 4: Schätzen von Parametern Februar 2010 R. Frühwirth Statistik 1/495 R. Frühwirth Statistik 2/495 Übersicht über die Vorlesung Statistik Statistik R. Frühwirth R. Frühwirth Teil 5: Testen von Hypothesen Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und Häufigkeiten Teil 6: Regression und lineare Modelle Teil 1 Eindimensionale Merkmale Graphische Darstellung Empirische Verteilungsfunktion Kernschätzer Maßzahlen Beispiele Teil 7: Einführung in die Bayes-Statistik Deskriptive Statistik Zweidimensionale Merkmale Qualitative Merkmale Quantitative Merkmale Korrelation Teil 8: Simulation von Experimenten R. Frühwirth Statistik 3/495 R. Frühwirth Statistik 4/495 Übersicht Teil 5 Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Teil 5 Testen von Hypothesen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Statistik R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einleitung Parametrische Tests 18 Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Anpassungstests Statistik 382/495 Einleitung Statistik 17 Parametrische Tests R. Frühwirth R. Frühwirth 16 17 381/495 Abschnitt 16: Einleitung Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einleitung Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth 16 Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F . Ein Test soll feststellen, ob die Beobachtungen mit einer gewissen Annahme über F verträglich sind. Die Annahme wird als Nullhypothese H0 bezeichnet. Ist die Form von F bis auf einen oder mehrere Parameter spezifiziert, heißt der Test parametrisch. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist die Form von F nicht spezifiziert, heißt der Test nichtparametrisch oder parameterfrei. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist, nicht ob die Hypothese richtig ist! R. Frühwirth Statistik 383/495 R. Frühwirth Statistik 384/495 Einleitung Einleitung Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Allgemeine Vorgangsweise R. Frühwirth Einleitung Aus der Stichprobe wird eine Testgröße (Teststatistik) T berechnet. Parametrische Tests Der Wertebereich von T wird, in Abhängigkeit von H0 , in einen Ablehnungsbereich (kritischen Bereich) C und einen Annahmebereich C 0 unterteilt. Der Annahmebereich ist meist ein Prognoseintervall für T . Fällt der Wert von T in den Ablehnungsbereich, wird H0 verworfen. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Einseitige und zweiseitige Tests Ist der Annahmebereich das symmetrische Prognoseintervall für T , wird der Test zweiseitig genannt. Der kritische Bereich zerfällt dann in zwei Teilintervalle. Ist der Annahmebereich ein Intervall der Form T ≤ c oder T ≥ c, wird der Test einseitig genannt. Der kritische Bereich ist dann ein Intervall der Form T > c bzw. T < c. Der Chiquadrat-Test Der KolmogorovSmirnov-Test Andernfalls wird H0 vorläufig beibehalten. Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich, dass die Daten mit der Hypothese vereinbar sind. R. Frühwirth Statistik 385/495 R. Frühwirth Einleitung Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 386/495 Einleitung Statistik R. Frühwirth Statistik Statistik Der p-Wert R. Frühwirth Der Test kann alternativ auch unter Benütung des p-Werts P (T ) durchgeführt werden. Der p-Wert gibt an, wie wahrscheinlich es ist, unter Annahme der Nullhypothese mindestens den Wert T bzw. höchstens den Wert T zu beobachten. Zweiseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich P (T ) = 2 min(F0 (T ), 1 − F0 (T )) Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Signifikanz und Güte Bei jedem Testverfahren sind zwei Arten von Fehlern möglich. 1 Fehler 1. Art: Die Hypothese H0 wird abgelehnt, obwohl sie zutrifft. 2 Fehler 2. Art: Die Hypothese H0 wird beibehalten, obwohl sie nicht zutrifft. Die Verteilung von T unter Annahme von H0 wird bestimmt. Der Ablehnungsbereich wird so festgelegt, dass die Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich einem Wert α ist. Einseitiger Test: Ist F0 (x) die Verteilungsfunktion von T unter der Nullhypothese, so ist der p-Wert gleich α heißt das Signifikanzniveau des Tests. Gängige Werte sind α = 0.05, 0.01, 0.005. P (T ) = F0 (T ) bzw. p = 1 − F0 (T ) Die Nullhypothese wird verworfen, wenn P (T ) < α. R. Frühwirth Statistik 387/495 R. Frühwirth Statistik 388/495 Einleitung Abschnitt 17: Parametrische Tests Statistik Statistik Ist der Ablehnungsbereich festgelegt, kann für eine Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines Fehlers 2. Art berechnet werden. R. Frühwirth Einleitung R. Frühwirth Einleitung Parametrische Tests Parametrische Tests 1 − β(H1 ) heißt die Güte des Tests für H1 . Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Güte sollte nie kleiner als α sein. Ist die Güte nie kleiner als α, heißt der Test unverzerrt. Ein Ziel der Testtheorie ist es, unverzerrte Tests mit maximaler Güte (UMPU) zu konstruieren. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Einleitung Einleitung Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Anpassungstests Statistik 390/495 Grundlagen Statistik Anpassungstests 18 R. Frühwirth R. Frühwirth 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 389/495 Statistik Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 17 Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth 16 Einleitung Anpassungstests Unterabschnitt: Grundlagen Parametrische Tests 16 Einleitung Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer Verteilung F , die bis auf einen oder mehrere Parameter spezifiziert ist. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Tests von Hypothesen über F heißen parametrisch. Eine Nullhypothese H0 kann als eine Teilmenge des Parameterraums Θ aufgefasst werden. Der Test entscheidet, ob die Stichprobe mit der Hypothese vereinbar ist. Vor der Anwendung ist zu klären, ob die angenommene parametrische Form plausibel ist. Anpassungstests R. Frühwirth Statistik 391/495 R. Frühwirth Statistik 392/495 Grundlagen Grundlagen Statistik R. Frühwirth Statistik Zunächst wird die Teststatistik T und das Signifikanzniveau α gewählt. Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Beispiel mit Exponentialverteilung Einleitung Dann wird der kritische Bereich C so festgelegt, dass X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus Ex(τ ). Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe getestet werden. Als Teststatistik T wählen wir das Stichprobenmittel: T = X. Unter Annahme von H0 hat T die folgende Dichte: tn−1 t f (t) = exp − (τ0 /n)n Γ(n) τ0 /n Parametrische Tests W (T ∈ C|ϑ ∈ H0 ) ≤ α Zu einer Nullhypothese H0 kann eine Gegenhypothese H1 formuliert werden. H1 kann ebenfalls als Teilmenge des Parameterraums Θ aufgefasst werden. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1 die Güte berechnet werden: T ist also verteilt gemäß Ga(n, τ0 /n). Das symmetrische Prognoseintervall [y1 (τ0 ), y2 (τ0 )] für T zum Niveau 1 − α erhält man mit: 1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 ) 1 − β(ϑ) heißt die Gütefunktion des Tests. R. Frühwirth Statistik y1 (τ0 ) = γα/2,n,τ0 /n , 393/495 R. Frühwirth Grundlagen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 394/495 Statistik Der Verwerfungsbereich mit Signifikanzniveau α ist daher die Menge C = [0, y1 (τ0 )] ∪ [y2 (τ0 ), ∞[ Dichte des Stichprobenmittels (τ0=1) und kritische Bereiche R. Frühwirth 4.5 Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen H0 wird also abgelehnt, wenn T “weit entfernt” vom hypothetischen Wert τ0 ist. Die Gütefunktion für einen Wert τ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(y1 (τ0 )) + 1 − G(y2 (τ0 )) Anpassungstests wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist. Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25 Der Chiquadrat-Test Der KolmogorovSmirnov-Test n=25 n=100 4 3.5 3 2.5 f(T) Einleitung Statistik Grundlagen Statistik R. Frühwirth y2 (τ0 ) = γ1−α/2,n,τ0 /n 2 1.5 1 1 − β(0.986) = 0.0495 < α 0.5 0 0 Matlab: make test exponential mean.m R. Frühwirth Statistik 395/495 0.2 0.4 0.6 R. Frühwirth 0.8 Statistik 1 T 1.2 1.4 1.6 1.8 2 396/495 Grundlagen Unterabschnitt: Tests für binomialverteilte Beobachtungen Statistik Statistik Gütefunktion (τ =1) R. Frühwirth R. Frühwirth 0 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(τ) Anpassungstests Parametrische Tests 16 Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 n=25 n=100 0 0.5 0.6 0.7 0.8 R. Frühwirth 0.9 1 τ 1.1 1.2 Statistik 1.3 1.4 1.5 R. Frühwirth 397/495 Tests für binomialverteilte Beobachtungen Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 398/495 Tests für binomialverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik Zweiseitiger Test für den Parameter p R. Frühwirth k ist eine Beobachtung aus der Binomialverteilung Bi(n, p). Die Hypothese H0 : p = p0 soll anhand der Beobachtung gegen die Alternativhypothese H1 : p 6= p0 getestet werden. H0 wird abgelehnt, wenn k unter Annahme von H0 nicht im symmetrischen Prognoseintervall [y1 (p0 ), y2 (p0 )] liegt, also zu klein“ oder zu groß“ ist. ” ” Das ist der Fall, wenn entweder k X n i p0 (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α/2 i i=0 oder n X n i p (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α/2 i 0 i=k Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Einseitiger Test für den Parameter p Die Hypothese H0 : p ≤ p0 soll anhand der Beobachtung k gegen die Alternativhypothese H1 : p > p0 getestet werden. H0 wird abgelehnt, wenn k zu groß“ ist und damit der ” p-Wert zu klein: n X n i P (k) = p (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α i 0 i=k Die Hypothese H0 : p ≥ p0 wird abgelehnt, wenn k zu ” klein“ ist und damit auch der p-Wert zu klein: P (k) = k X n i=0 i pi0 (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α gilt. R. Frühwirth Statistik 399/495 R. Frühwirth Statistik 400/495 Tests für binomialverteilte Beobachtungen Tests für binomialverteilte Beobachtungen Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Beispiel Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9 Stück defekt. Kann die Behauptung des Herstellers widerlegt werden? Es gilt: ! 300 X 300 0.02i 0.98300−i = 0.1507 P (k) = i i=9 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Näherung durch Normalverteilung Einleitung Ist n genügend groß, kann die Verteilung von k durch eine Normalverteilung No(np, np(1 − p)) angenähert werden. H0 wird abgelehnt, wenn das Standardscore Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen k − np0 Z=p np(1 − p0 ) Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Behauptung des Herstellers lässt sich also auf einem Signifikanzniveau von 5 Prozent nicht widerlegen. nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. Zweiseitiger Test: H0 wird abgelehnt wenn Z < zα/2 oder Z > z1−α/2 Matlab: make test binomial.m Einseitiger Test: H0 wird abgelehnt wenn Z < zα bzw. Z > z1−α R. Frühwirth Statistik 401/495 R. Frühwirth Tests für binomialverteilte Beobachtungen Einleitung Statistik Beispiel R. Frühwirth Mit der Angabe des letzten Beispiels ergibt die Näherung: Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 402/495 Unterabschnitt: Tests für Poissonverteilte Beobachtungen Statistik R. Frühwirth Statistik Parametrische Tests Z = 1.2372 < z0.95 = 1.6449 Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Hypothese kann also nicht abgelehnt werden. Statistik Einleitung 17 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 18 Anpassungstests Anpassungstests Matlab: make test binomial.m R. Frühwirth 16 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 403/495 R. Frühwirth Statistik 404/495 Tests für Poissonverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Zweiseitiger Test auf den Erwartungswert R. Frühwirth X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ). Die Hypothese H0 : λ = λ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : λ 6= λ0 getestet werden. Als Teststatistik T wählen wir die Stichprobensumme: Anpassungstests T = Der Chiquadrat-Test Der KolmogorovSmirnov-Test n X Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Einseitiger Test auf den Erwartungswert Die Hypothese H0 : λ ≤ λ0 wird abgelehnt, wenn T zu ” groß“ ist und damit der p-Wert zu klein: P (T ) = k=T Anpassungstests Xi Der Chiquadrat-Test Der KolmogorovSmirnov-Test i=1 Die Hypothese H0 : λ ≥ λ0 wird abgelehnt, wenn T zu ” klein“ ist und damit auch der p-Wert zu klein: T ist Poissonverteilt gemäß Po(nλ). H0 wird abgelehnt, wenn T zu klein“ oder zu groß“ ist, ” ” also wenn T X (nλ0 )k e−nλ0 k=0 k! < α/2 oder R. Frühwirth P (T ) = Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen <α k=T Statistik 405/495 R. Frühwirth Statistik 406/495 Tests für Poissonverteilte Beobachtungen Statistik Beispiel R. Frühwirth Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5 Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller sein Ziel erreicht? Es gilt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test k! ∞ X (nλ0 )k e−nλ0 < α/2 k! Statistik Einleitung T X (nλ0 )k e−nλ0 k=0 Tests für Poissonverteilte Beobachtungen R. Frühwirth ∞ X (nλ0 )k e−nλ0 <α k! T = 154, P (T ) = Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests ∞ X (125)k e−125 = 0.0067 k! Der Chiquadrat-Test Der KolmogorovSmirnov-Test Näherung durch Normalverteilung Ist n genügend groß, kann die Verteilung von T durch eine Normalverteilung No(nλ, nλ) angenähert werden. H0 wird abgelehnt, wenn das Standardscore T − nλ0 Z= √ nλ0 nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. k=T Beispiel Die Hypothese lässt sich also auf einem Signifikanzniveau von 1 Prozent widerlegen. Mit der Angabe des letzten Beispiels ergibt die Näherung: Z = 2.5938 > z0.99 = 2.3263 Matlab: make test poisson mean.m R. Frühwirth Statistik Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent abgelehnt werden. 407/495 R. Frühwirth Statistik 408/495 Unterabschnitt: Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Erwartungswert bei bekannter Varianz Einleitung 16 17 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 18 Einleitung X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit bekanntem σ 2 . Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels: √ n(X − µ0 ) T = σ Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Unter Annahme von H0 ist T verteilt gemäß No(0, 1). H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der Standardnormalverteilung liegt. R. Frühwirth Statistik 409/495 R. Frühwirth Tests für normalverteilte Beobachtungen Statistik Zweiseitiger Test R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Gütefunktion des zweiseitigen Tests (µ =1) R. Frühwirth 0 1 Die Hypothese H0 wird abgelehnt, wenn √ n X − µ0 |T | = > z1−α/2 σ Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Gütefunktion für einen Wert µ ergibt sich durch: Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 410/495 Tests für normalverteilte Beobachtungen 1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.8 0.7 0.6 1−β(µ) Statistik Statistik 0.5 0.4 0.3 Der Test ist unverzerrt. 0.2 0.1 Matlab: make test normal mean.m R. Frühwirth Statistik 0 0.5 411/495 n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 1.5 412/495 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Einseitiger Test Einleitung R. Frühwirth Die Hypothese H0 : µ ≤ µ0 soll mit der Teststatistik T gegen die Alternativhypothese H1 : µ > µ0 getestet werden. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen H0 wird abgelehnt, wenn T zu groß“ ist. ” Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge C = [z1−α , ∞[ Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Statistik Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α ) √ wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist. Analog verläuft der Test mit H0 : µ ≥ µ0 und H1 : µ < µ0 . Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 T = > z1−α σ R. Frühwirth Einleitung Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch: 413/495 Matlab: make test normal mean.m R. Frühwirth Tests für normalverteilte Beobachtungen Statistik 414/495 Tests für normalverteilte Beobachtungen Statistik Statistik Gütefunktion des einseitigen Tests (µ =1) R. Frühwirth R. Frühwirth 0 Erwartungswert bei unbekannter Varianz: t-Test 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(µ) Anpassungstests Parametrische Tests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 0 1 X1 , . . . , Xn ist eine normalverteilte Stichprobe aus No(µ, σ 2 ) mit unbekanntem σ 2 . Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden. Als Teststatistik T wählen wir das Standardscore des Stichprobenmittels, unter Benützung der Stichprobenvarianz S2: √ n(X − µ0 ) T = S Unter Annahme von H0 ist T verteilt gemäß t(n − 1). n=25 n=100 1.1 1.2 1.3 R. Frühwirth 1.4 Statistik 1.5 µ 1.6 1.7 1.8 1.9 2 415/495 R. Frühwirth Statistik 416/495 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall vom Niveau 1 − α der t-Verteilung mit n − 1 Freiheitsgraden liegt. R. Frühwirth Einleitung Parametrische Tests R. Frühwirth Die Gütefunktion für einen Wert µ ergibt sich durch: 1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 ) Einleitung Parametrische Tests Ein Verwerfungsbereich mit Signifikanzniveau α ist die Menge n−1 C =] − ∞, tn−1 α/2 ] ∪ [t1−α/2 , ∞[ Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen wo tn−1 das Quantil der t-Verteilung mit n − 1 p Freiheitsgraden zum Niveau p ist. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Hypothese H0 wird also abgelehnt, wenn √ n X − µ0 |T | = > tn−1 1−α/2 S R. Frühwirth wo G die Verteilungsfunktion der nichtzentralen t(n − 1, δ)-Verteilung mit √ δ = n(µ − µ0 )/σ ist. Der Test ist unverzerrt. Matlab: make test normal mean.m Statistik 417/495 R. Frühwirth Tests für normalverteilte Beobachtungen Statistik 418/495 Tests für normalverteilte Beobachtungen Statistik Statistik Gütefunktion des zweiseitigen t−Tests (µ =1) R. Frühwirth R. Frühwirth 0 Gleichheit von zwei Erwartungswerten 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(µ) Anpassungstests Parametrische Tests Anpassungstests 0.5 Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : µx = µy soll anhand der Stichproben gegen die Alternativhypothese H1 : µx 6= µy getestet werden. Sind die Varianzen bekannt, wählen wir als Teststatistik T die Differenz der Stichprobenmittel: T =X −Y 0.3 0.2 0.1 0 0.5 Unter Annahme von H0 ist T verteilt gemäß No(0, σx2 /n + σy2 /m). n=25 n=100 0.6 0.7 0.8 R. Frühwirth 0.9 Statistik 1 µ 1.1 1.2 1.3 1.4 1.5 419/495 R. Frühwirth Statistik 420/495 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Das Standardscore Einleitung Z=q Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen R. Frühwirth T σx2 /n Einleitung + Sind die Varianzen unbekannt und gleich, kann die Varianz aus der kombinierten ( gepoolten“) Stichprobe ” geschätzt werden: Parametrische Tests σy2 /m Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen ist dann standardnormalverteilt. Die Hypothese H0 wird also abgelehnt, wenn Anpassungstests S2 = (n − 1)Sx2 + (m − 1)Sy2 n+m−2 Unter Annahme von H0 ist X −Y Anpassungstests |Z| > z1−α/2 Der Chiquadrat-Test Der KolmogorovSmirnov-Test oder |X − Y | q σx2 /n + σy2 /m T =p Der Chiquadrat-Test Der KolmogorovSmirnov-Test S 2 (1/n + 1/m) t-verteilt mit n + m − 2 Freiheitsgraden. Die Hypothese H0 wird also abgelehnt, wenn > z1−α/2 |T | > tn+m−2 1−α/2 wo tn+m−2 1−α/2 das Quantil der t-Verteilung mit n + m − 2 Freiheitsgraden ist. R. Frühwirth Statistik 421/495 R. Frühwirth Tests für normalverteilte Beobachtungen Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 422/495 Tests für normalverteilte Beobachtungen Statistik R. Frühwirth Statistik Statistik t-Test für gepaarte Stichproben R. Frühwirth Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen, wenn für jedes beobachtete Objekt die selbe Größe zweimal gemessen wird, vor und nach einer bestimmten Intervention. Die Wirkung der Intervention wird durch die Differenzen Wi = Yi − Xi , i = 1, . . . , n beschrieben. Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel 2 µw und unbekannter Varianz σw ist. Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Test der Varianz X1 , . . . , Xn ist eine normalverteilte Stichprobe mit unbekanntem Erwartungswert µ und unbekannter Varianz σ2 . Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet werden. Als Teststatistik T wählen wir: Die Hypothese H0 : µw = 0 (keine Wirkung der Intervention) soll anhand der Stichprobe gegen die Alternativhypothese H1 : µw 6= 0 getestet werden. T = Unter Annahme von H0 ist T χ2 -verteilt mit n − 1 Freiheitsgraden. Dies erfolgt mit dem t-Test für einzelne Stichproben. R. Frühwirth Statistik (n − 1)S 2 σ02 423/495 R. Frühwirth Statistik 424/495 Tests für normalverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Statistik Die Hypothese H0 wird also abgelehnt, wenn T < χ2α/2,n−1 Einleitung 1 oder T > χ21−α/2,n−1 Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Gütefunktion des zweiseitigen Tests (σ20=1) R. Frühwirth 0.9 Parametrische Tests χ2p,k 2 wo das Quantil der χ -Verteilung mit k Freiheitsgraden zum Niveau p ist. Die Gütefunktion für einen Wert σ 2 ergibt sich durch: 2 1 − β(σ ) = G(σ02 /σ 2 · χ2α/2 ) +1− G(σ02 /σ 2 · χ2(1−α)/2 ) Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist. 0.8 0.7 0.6 1−β(σ2) R. Frühwirth 0.5 0.4 0.3 Der Test ist nicht unverzerrt. 0.2 0.1 Matlab: make test normal variance.m R. Frühwirth Statistik 425/495 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.7 0.8 0.9 1 σ2 1.1 1.2 1.3 Statistik 1.4 1.5 426/495 Tests für normalverteilte Beobachtungen Statistik Einleitung 0.6 R. Frühwirth Tests für normalverteilte Beobachtungen R. Frühwirth n=25 n=100 0 0.5 Statistik Gleichheit von zwei Varianzen R. Frühwirth X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ). Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben gegen die Alternativhypothese H1 : σx2 6= σy2 getestet werden. Die Teststatistik T ist das Verhältnis der Stichprobenvarianzen: T = Einleitung T < Fα/2 oder T > F1−α/2 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Sx2 Sy2 Die Hypothese H0 wird also abgelehnt, wenn wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1 Freiheitsgraden zum Niveau p ist. Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k ergibt durch: 1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 ) wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist. Der Test ist unverzerrt. Unter Annahme von H0 ist T F-verteilt gemäß F(n − 1, m − 1). Matlab: make test normal variance.m R. Frühwirth Statistik 427/495 R. Frühwirth Statistik 428/495 Tests für normalverteilte Beobachtungen Abschnitt 18: Anpassungstests Statistik Statistik Gütefunktion des zweiseitigen Tests (σ2x =σ2y ) R. Frühwirth R. Frühwirth 1 Einleitung Einleitung 0.9 Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der Chiquadrat-Test Der KolmogorovSmirnov-Test Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 0.8 0.7 0.6 1−β(k) Anpassungstests Parametrische Tests Anpassungstests 0.5 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test 0.4 0.3 0.2 0.1 0 n=25 n=100 −0.6 −0.4 R. Frühwirth −0.2 0 ln k=ln(σ2y /σ2x ) 0.2 0.4 0.6 Statistik 429/495 R. Frühwirth Anpassungstests Einleitung Statistik Ein Test, der die Hypothese überprüft, ob die Daten einer gewissen Verteilung entstammen können, heißt ein Anpassungstest. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen 430/495 Unterabschnitt: Der Chiquadrat-Test Statistik R. Frühwirth Statistik R. Frühwirth Einleitung Parametrische Tests Die Verteilung kann völlig oder bis auf unbekannte Parameter bestimmt sein. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Ein Anpassungstest kann einem parametrischen Test vorausgehen, um dessen Anwendbarkeit zu überprüfen. Anpassungstests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik 431/495 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test R. Frühwirth Statistik 432/495 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Der Chiquadrat-Test für diskrete Beobachtungen Parametrische Tests Wir testen die Hypothese H0 , dass die Dichte f die Werte f (j) = pj , j = 1, . . . , k hat: H0 : W (Xi = j) = pj , j = 1, . . . , k Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test gegen H1 : W (Xi = j) 6= pj , für ein j Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj . Statistik Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Statistik 434/495 Der Chiquadrat-Test Statistik Einleitung k X (Yj − npj )2 npj j=1 Die Nullhypothese wird verworfen, wenn T groß ist. 433/495 Der Chiquadrat-Test R. Frühwirth T = Satz Unter Annahme der Nullhypothese ist die Zufallsvariable T asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1 Freiheitsgraden. Es sei Yj die Zahl der Beobachtungen, die gleich j sind. R. Frühwirth Die Testgröße vergleicht die beobachteten Häufigkeiten Yj mit ihren Erwartungswerten: Einleitung Die Stichprobe X1 , . . . , Xn entstammt einer diskreten Verteilung mit Wertebereich {1, . . . , k}. Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test R. Frühwirth Statistik Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1 wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden zum Niveau 1 − α ist. Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist der lineare Zusammenhang zwischen den Yj : Anpassungstests R. Frühwirth Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Beispiel Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat: W (X = 1) = . . . = W (X = 6) = Eine Simulation von N = 100000 Stichproben ergibt: Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test k X Der Chiquadrat-Test Der KolmogorovSmirnov-Test Yj = n j=1 Als Faustregel gilt: n sollte so groß sein, dass npj > 5, j = 1, . . . , k. Statistik T = 5.000, ST2 = 9.789 Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist χ20.95,5 = 11.07, und W (T ≥ 11.07) = 0.048 Matlab: make chi2test wuerfel.m Ist das nicht erfüllt, sollte der Ablehnungsbereich durch Simulation bestimmt werden. R. Frühwirth 1 6 435/495 R. Frühwirth Statistik 436/495 Der Chiquadrat-Test Der Chiquadrat-Test Statistik R. Frühwirth Statistik Der Chiquadrat-Test für stetige Beobachtungen Einleitung R. Frühwirth Einleitung Die Stichprobe X1 , . . . , Xn entstammt einer stetigen Verteilung F . Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Wir testen die Hypothese H0 : F (x) = F0 (x). Dazu wird der Wertebereich von X in k Gruppen G1 , . . . , Gk eingeteilt. Anpassungstests Anpassungstests Es sei Yj die Zahl der Beobachtungen in Gruppe Gj . Der Chiquadrat-Test Der KolmogorovSmirnov-Test Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit Der Chiquadrat-Test Der KolmogorovSmirnov-Test pj = W (X ∈ Gj |H0 ) Unbekannte Parameter Die Nullhypothese muss nicht vollständig spezifiziert sein. Wir betrachten den Fall, dass die pj noch von unbekannten Parametern ϑ abhängen: W (X ∈ Gj ) = pj (ϑ) Die Statistik T ist nun eine Funktion der unbekannten Parameter: k X (Yj − npj (ϑ))2 T (ϑ) = npj (ϑ) j=1 Zunächst werden die Parameter geschätzt, durch ML-Schätzung oder Minimierung von T : Der Test verläuft weiter wie im diskreten Fall. ϑ̃ = arg min T (ϑ) ϑ R. Frühwirth Statistik 437/495 R. Frühwirth Der Chiquadrat-Test Statistik Der kritische Bereich kann nach dem folgenden Ergebnis bestimmt werden. R. Frühwirth Einleitung Einleitung Parametrische Tests Parametrische Tests Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 438/495 Der Chiquadrat-Test Statistik R. Frühwirth Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Statistik Satz Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃) asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden. Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt, wenn T ≥ χ21−α,k−1−m wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m Freiheitsgraden zum Niveau 1 − α ist. Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Beispiel Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb über 30 Wochen erhoben. Es ergaben sich folgende Werte: X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0, 1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2} Es soll die Hypothese überprüft werden, dass die Beobachtungen Poisson-verteilt gemäß Po(λ) sind. Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt: Gruppe 1 2 3 4 5 X 0 1 2–3 4–5 >5 Die Häufigkeiten der Gruppen sind: Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5 R. Frühwirth Statistik 439/495 R. Frühwirth Statistik 440/495 Der Chiquadrat-Test Unterabschnitt: Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Einleitung Statistik Beispiel (Fortsetzung) R. Frühwirth Der Schätzwert für λ ist das Stichprobenmittel: Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Parametrische Tests λ̃ = 3.1667 Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind: j 1 2 3 4 5 E[Y1 ] 1.2643 4.0037 13.0304 8.6522 3.0493 Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Die Testgröße T ist gleich 16 Einleitung 17 Parametrische Tests 18 Anpassungstests Der Chiquadrat-Test Der Kolmogorov-Smirnov-Test T = 21.99 Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen Poisson-verteilt sind, ist also abzulehnen. Matlab: make chi2test poisson.m R. Frühwirth Statistik 441/495 R. Frühwirth Der Kolmogorov-Smirnov-Test Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test 442/495 Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Statistik Statistik Eine Stichprobe R. Frühwirth Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung mit Verteilungsfunktion F . Wir testen die Hypothese H0 : F (x) = F0 (x). Die Testgröße Dn ist die maximale absolute Abweichung der empirischen Verteilungsfunktion Fn (x) der Stichprobe von der hypothetischen Verteilungsfunktion F0 (x): x Für Stichproben aus F0 ist die Verteilung von Dn unabhängig von F0 ! Für √ Stichproben aus F0 strebt die Verteilungsfunktion von nD für n → ∞ gegen: K(x) = 1 − 2 ∞ X (−1)k−1 e−2k Einleitung Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test Dn = max |Fn (x) − F0 (x)| 2 Aus der asymptotischen Verteilungsfunktion können Quantile K1−α berechnet werden. Die Nullhypothese wird abgelehnt, wenn √ nDn > K1−α Werden vor dem Test Parameter von F0 geschätzt, sind die Quantile nicht mehr gültig. In diesem Fall muss der Ablehnungsbereich durch Simulation ermittelt werden. Matlab: Funktion kstest x2 k=1 R. Frühwirth Statistik 443/495 R. Frühwirth Statistik 444/495 Der Kolmogorov-Smirnov-Test Statistik R. Frühwirth Statistik Zwei Stichproben Einleitung R. Frühwirth Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus der gleichen Verteilung F stammen. Parametrische Tests Grundlagen Tests für binomialverteilte Beobachtungen Tests für Poissonverteilte Beobachtungen Tests für normalverteilte Beobachtungen Die Testgröße ist die maximale absolute Differenz der empirischen Verteilungsfunktionen: Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Teil 6 Mehrfache Regression Dn,m = Anpassungstests Der Chiquadrat-Test Der KolmogorovSmirnov-Test max |Fn1 (x) x − Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 2 Fm (x)| Die Nullhypothese wird abgelehnt, wenn r nm Dn,m > K1−α n+m Regression und lineare Modelle Matlab: Funktion kstest2 R. Frühwirth Statistik 445/495 R. Frühwirth Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik 448/495 Einleitung Einfache Regression Mehrfache Regression 446/495 Abschnitt 19: Einleitung Übersicht Teil 6 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Einfache Regression 19 Einleitung 20 Einfache Regression 21 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik 447/495 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression R. Frühwirth Einleitung Abschnitt 20: Einfache Regression Statistik Statistik Regressionsanalyse untersucht die Abhängigkeit der Beobachtungen von diversen Variablen. R. Frühwirth R. Frühwirth Einleitung Einleitung Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ). Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ergebnisvariable (abhängige Variable) Y . Regressionsmodell: Mehrfache Regression Einleitung 20 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 21 Mehrfache Regression Mehrfache Regression Y = f (β, x) + ε Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 19 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression mit Regressionskoeffizienten β und Fehlerterm ε. Ziel ist die Schätzung von β anhand von Beobachtungen Y1 , . . . , Yn . Eine Einflussvariable: einfache Regression; Mehrere Einflussvariable: mehrfache (multiple) Regression. R. Frühwirth Statistik R. Frühwirth 449/495 Unterabschnitt: Lineare Regression Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 450/495 Lineare Regression R. Frühwirth Einfache Regression Statistik Einleitung Das einfachste Regressionsmodell ist eine Gerade: Y = α + βx + ε, E[ε] = 0, var[ε] = σ 2 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. Die Schätzung von α und β kann nach dem Prinzip der kleinsten Fehlerquadrate erfolgen. Die folgende Zielfunktion wird minimiert: SS = Mehrfache Regression n X (Yi − α − βxi )2 i=1 Gradient von SS: n n X X ∂SS ∂SS = −2 (Yi − α − βxi ), = −2 xi (Yi − α − βxi ) ∂α ∂β i=1 i=1 R. Frühwirth Statistik 451/495 R. Frühwirth Statistik 452/495 Lineare Regression Lineare Regression Statistik R. Frühwirth Statistik Nullsetzen des Gradienten gibt die Normalgleichungen: n X Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression i=1 n X Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Yi = nα + β n X R. Frühwirth Einleitung xi Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression i=1 xi Yi = α i=1 n X i=1 xi + β n X x2i Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n 1 X 2 r σ̂ 2 = n − 2 i=1 i mit ri = Yi − Ŷi , Mehrfache Regression i=1 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die geschätzten Regressionskoeffizienten lauten: Pn Pn x Y − x̄ i=1 Yi Pni i 2 β̂ = i=1 2 i=1 xi − nx̄ α̂ = Y − β̂ x̄ Ŷi = α̂ + β̂xi Kovarianzmatrix der geschätzten Regressionkoeffizienten: P P 2 xi x P 2 i P − n ( x − nx̄2 ) n ( x2i − nx̄2 ) i 2 Cov[α̂, β̂] = σ P xi 1 P P − 2 2 n ( xi − nx̄2 ) xi − nx̄2 Es gilt E[α̂] = α und E[β̂] = β. R. Frühwirth Statistik 453/495 R. Frühwirth Lineare Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Beispiel R. Frühwirth Datensatz 4: Einleitung x̄ = 167.60 ȳ = 76.16 sx = 8.348 sy = 4.727 rxy = 0.5562 â = 0.3150 b̂ = 23.37 Beispiel (Fortsetzung) Datensatz 4: Einfache Regression Datensatz 4 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 90 85 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Matlab: make dataset4 80 Gewicht (kg) Einleitung 454/495 Lineare Regression Statistik R. Frühwirth Statistik 75 70 65 60 55 140 R. Frühwirth Statistik 455/495 150 R. Frühwirth 160 170 Körpergröße (cm) Statistik 180 190 Streudiagramm mit Regressionsgerade 456/495 Lineare Regression Lineare Regression Statistik Statistik Die Streuung der Werte Yi hat im Regressionsmodell unterschiedliche Ursachen. R. Frühwirth R. Frühwirth Einleitung Einleitung Einerseits gibt es systematische Unterschiede durch unterschiedliche Werte von x. Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Dazu kommt noch die zufällige Streuung der Daten. Mehrfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Erklärbare Streuung SS ∗ = n X Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 2 (Ŷi − Y )2 = rxy ns2Y i=1 n X Streuungszerlegung SST = SS ∗ + SSR Die Güte der Regressionsgeraden kann durch das Bestimmtheitsmaß angegeben werden: Bestimmheitsmaß der Regression 2 (Yi − Ŷi )2 = (1 − rxy )ns2Y Reststreuung SSR = Totale Streuung n X SST = (yi − Y )2 = ns2Y B= i=1 Es gibt an, welcher Anteil an der Gesamtstreuung durch die Korrelation von x und Y erklärt werden kann. i=1 R. Frühwirth Statistik R. Frühwirth 457/495 Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik 458/495 Tests, Konfidenz- und Prognoseintervalle R. Frühwirth Einfache Regression SS ∗ 2 = rxy SST Ist β = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen ab. Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0 beruht auf dem folgenden Satz. Satz Ist ε normalverteilt, so sind α̂ − α , σ̂α̂ β̂ − β σ̂β̂ t-verteilt mit n − 2 Freiheitsgraden, wobei P σ̂ 2 x2 σ̂ 2 P 2 i 2 , σ̂β̂2 = P 2 σ̂α̂2 = n ( xi − nx̄ ) xi − nx̄2 Statistik 459/495 R. Frühwirth Statistik 460/495 Tests, Konfidenz- und Prognoseintervalle Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die Testgröße β̂ T = σ̂β̂ R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression relativ klein oder relativ groß ist, also wenn Mehrfache Regression Mehrfache Regression |β̂| > tn−2 1−α/2 σ̂β̂ Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Die symmetrischen Konfidenzintervalle mit 95% Sicherheit lauten: n−2 α̂ ± σ̂α̂ · tn−2 β̂ ± σ̂β̂ · t1−α/2 1−α/2 , Für n > 30 können die Quantile der t-Verteilung durch Quantile der Standardnormalverteilung ersetzt werden. Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 der Einflussvariablen x prognostiziert werden. Der Erwartungswert von Y0 ist wo tn−2 das Quantil der t-Verteilung mit n − 2 p Freiheitsgraden zum Niveau p ist. E[Y0 ] = α̂ + β̂x0 Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: (x̄ − x0 )2 2 1 var[E[Y0 ]] = σ +P 2 n xi − nx̄2 Ein analoger Test kann für die Nullhypothese H0 : α = 0 durchgeführt werden. R. Frühwirth Statistik 461/495 R. Frühwirth Tests, Konfidenz- und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik 462/495 Tests, Konfidenz- und Prognoseintervalle Statistik Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: (x̄ − x0 )2 n+1 var[Y0 ] = σ 2 +P 2 n xi − nx̄2 R. Frühwirth Die Angemessenheit des Modells kann durch Untersuchung der studentisierten Residuen (Restfehler) überprüft werden. Einleitung Einfache Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: s n+1 (x̄ − x0 )2 +P 2 α̂ + β̂x0 ± tn−2 1−α/2 σ̂ n xi − nx̄2 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das Residuum rk hat die Varianz 1 (xk − x̄)2 2 var[rk ] = σ 1 − − P 2 n xi − nx̄2 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das studentisierte Residuum ist dann rk rk0 = σ̂ q 1− 1 n − (xk −x̄)2 P x2i −nx̄2 Es hat Erwartung 0 und Varianz 1. Matlab: make regression diagnostics R. Frühwirth Statistik 463/495 R. Frühwirth Statistik 464/495 Tests, Konfidenz- und Prognoseintervalle Tests, Konfidenz- und Prognoseintervalle Statistik Statistik R. Frühwirth R. Frühwirth 2.5 40 3 Einleitung 35 2.5 Einfache Regression 30 2 40 2 Einleitung 35 1.5 Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 30 1 25 Mehrfache Regression 20 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 15 −1 5 15 0.5 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression −0.5 10 1 Mehrfache Regression 0 1.5 20 y r’ y 0.5 25 r’ Einfache Regression 10 0 5 −0.5 0 −1.5 −1 −5 0 0 5 10 x 15 20 −2 0 5 10 x 15 20 0 Regressionsgerade und studentisierte Residuen R. Frühwirth Statistik 465/495 15 R. Frühwirth 20 0 5 10 x 15 20 Statistik 466/495 Robuste Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h. empfindlich gegen Ausreißer. Einleitung 19 20 Mehrfache Regression Einfache Regression Matlab: make regression outliers Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 150 Data Outlier LS w/o outlier LS with outlier 170 Mehrfache Regression 140 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 160 150 130 140 120 y Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einleitung y Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 10 x Regressionsgerade und studentisierte Residuen Unterabschnitt: Robuste Regression Einfache Regression 5 −1.5 130 110 120 21 Mehrfache Regression 100 110 100 90 90 80 40 45 50 x 55 60 40 50 60 70 80 90 100 110 x Lineare Regression mit Ausreißern R. Frühwirth Statistik 467/495 R. Frühwirth Statistik 468/495 Robuste Regression Robuste Regression Statistik Statistik LMS (Least Median of Squares): Anstatt der Summe der Fehlerquadrate wird der Median der Fehlerquadrate minimiert. R. Frühwirth Einleitung 150 Data Outlier LS w/o outlier LS with outlier LMS LTS (75%) 170 Einleitung 140 160 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Berechnung kombinatorisch. Mehrfache Regression 150 130 140 120 y “Exact fit property”: Die LMS-Gerade geht durch zwei Datenpunkte. Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression y Einfache Regression R. Frühwirth 110 120 Mehrfache Regression LTS (Least Trimmed Squares): Es wird die Summe einer festen Anzahl h ≤ n von Fehlerquadraten minimiert. Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Berechnung iterativ (FAST-LTS). Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 130 100 110 100 90 90 80 40 Beide Methoden gehen auf P. Rousseeuw zurück. 45 50 x 55 60 40 50 60 70 80 90 100 110 x Robuste Regression mit Ausreißern Matlab: make robust regression R. Frühwirth Statistik 469/495 R. Frühwirth Unterabschnitt: Polynomiale Regression Statistik Statistik R. Frühwirth Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 20 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 21 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ist der Zusammenhang zwischen x und Y nicht annähernd linear, kann man versuchen, ein Polynom anzupassen. Das Modell lautet dann: Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε, E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte x1 , . . . , xn der Einflussvariablen x. In Matrix-Vektor-Schreibweise: Y = Xβ + ε mit Mehrfache Regression R. Frühwirth 470/495 Polynomiale Regression R. Frühwirth Einfache Regression Statistik 1 1 X= .. . 1 Statistik 471/495 R. Frühwirth x1 x2 .. . xn Statistik x21 x22 .. . x2n ··· ··· .. . ··· xr1 xr2 .. . xrn 472/495 Polynomiale Regression Polynomiale Regression Statistik Statistik Die folgende Zielfunktion wird minimiert: R. Frühwirth SS = (Y − Xβ)T (Y − Xβ) Einleitung Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i R. Frühwirth Einleitung Einfache Regression Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression mit r = Y − Ŷ , Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Nullsetzen des Gradienten gibt die Normalgleichungen: Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 XT Y = XT Xβ Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT Die Lösung lautet: β̂ = XT X R. Frühwirth −1 XT Y Statistik 473/495 R. Frühwirth Polynomiale Regression Statistik Statistik R. Frühwirth 45 2 Einleitung 40 1.5 Einfache Regression 35 Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 30 0.5 25 19 Einleitung 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression r’ y 0 20 Mehrfache Regression −0.5 15 Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression −1 10 −1.5 5 −2 0 −5 474/495 Einleitung 1 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik Abschnitt 21: Mehrfache Regression R. Frühwirth Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ŷ = Xβ̂ 0 5 10 x 15 20 −2.5 0 5 10 x 15 20 Regressionsparabel und studentisierte Residuen R. Frühwirth Statistik 475/495 R. Frühwirth Statistik 476/495 Unterabschnitt: Das lineare Modell Das lineare Modell Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression R. Frühwirth Statistik Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression 477/495 Statistik Einleitung Einleitung Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einfache Regression Mehrfache Regression 21 x1,2 x2,2 .. . xn,2 ··· ··· .. . ··· x1,r x2,r .. . xn,r Statistik 478/495 Die folgende Zielfunktion wird minimiert: SS = (Y − Xβ)T (Y − Xβ) Einfache Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression x1,1 x2,1 .. . xn,1 Schätzung, Tests und Prognoseintervalle R. Frühwirth 20 Y = Xβ + ε R. Frühwirth Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression E[ε] = 0, var[ε] = σ 2 Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ). In Matrix-Vektor-Schreibweise: 1 1 X= .. . 1 R. Frühwirth 19 Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε, mit Unterabschnitt: Schätzung, Tests und Prognoseintervalle Einfache Regression Hängt das Ergebnis Y von mehreren Einflussvariablen ab, lautet das einfachste lineare Regressionmodell: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT (Y − Xβ) ∂β Nullsetzen des Gradienten gibt die Normalgleichungen: XT Y = XT Xβ Die Lösung lautet: β̂ = XT X R. Frühwirth Statistik 479/495 R. Frühwirth Statistik −1 XT Y 480/495 Schätzung, Tests und Prognoseintervalle Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Statistik Die Varianz des Fehlerterms wird erwartungstreu geschätzt durch: n X 1 r2 σ̂ 2 = n − r − 1 i=1 i mit r = Y − Ŷ , Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Ŷ = Xβ̂ Ist βk = 0, hängt das Ergebnis überhaupt nicht von den Einflussvariablen xk ab. Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0 beruht auf dem folgenden Satz. R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Satz Ist ε normalverteilt, so ist Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT X −1 β̂k − βk σ̂β̂k t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te k Diagonalelement der geschätzten Kovarianzmatrix σ̂ 2 XT X −1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT X −1 XT ist. R. Frühwirth Statistik R. Frühwirth 481/495 Schätzung, Tests und Prognoseintervalle Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 482/495 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Statistik Statistik Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die Testgröße β̂k T = σ̂β̂k R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression relativ klein oder relativ groß ist, also wenn Mehrfache Regression Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ). Der Erwartungswert von Y0 ist dann E[Y0 ] = x+ · β̂ Mehrfache Regression |β̂k | > tn−r−1 1−α/2 σ̂β̂k Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen prognostiziert werden. Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression tn−2 p wo das Quantil der t-Verteilung mit n − 2 Freiheitsgraden zum Niveau p ist. Die Varianz von E[Y0 ] ergibt sich mittels Fehlerfortpflanzung: var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T Das symmetrische Konfidenzintervall für βk mit 95% Sicherheit lautet: β̂k ± σ̂β̂k · tn−r−1 1−α/2 R. Frühwirth Statistik 483/495 R. Frühwirth Statistik 484/495 Schätzung, Tests und Prognoseintervalle Statistik R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Unterabschnitt: Gewichtete Regression Statistik Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut, ergibt sich: var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T R. Frühwirth Einleitung Einfache Regression Das symmetrische Prognoseintervall für Y0 mit Sicherheit α ist daher gleich: q x+ · β̂ ± tn−k−1 σ̂ 1 + x+ (XT X) −1 x+ T 1−α/2 R. Frühwirth Statistik Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Statistik 486/495 Gewichtete Regression Statistik Im allgemeinen Fall können die Fehlerterme eine beliebige Kovarianzmatrix haben: Einleitung Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 R. Frühwirth 485/495 Statistik Einfache Regression Einleitung Mehrfache Regression Gewichtete Regression R. Frühwirth 19 R. Frühwirth Einleitung Y = Xβ + ε, Cov[ε] = V Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Ist V bekannt, lautet die Zielfunktion: SS = (Y − Xβ)T G(Y − Xβ), Kovarianzmatrix der geschätzten Regressionkoeffizienten: Cov[β̂] = σ 2 XT GX −1 G = V−1 Kovarianzmatrix der Residuen r: Cov[β̂] = σ 2 I − X XT GX −1 XT Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Gradient von SS: ∂SS = −2XT G(Y − Xβ) ∂β Tests und Prognoseintervalle können entsprechend modifizert werden. Nullsetzen des Gradienten gibt die Normalgleichungen: XT GY = XT GXβ Die Lösung lautet: β̂ = XT GX −1 XT GY R. Frühwirth Statistik 487/495 R. Frühwirth Statistik 488/495 Unterabschnitt: Nichtlineare Regression Nichtlineare Regression Statistik Statistik R. Frühwirth R. Frühwirth Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Einleitung 19 Einleitung Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression 20 Einfache Regression 21 Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression In der Praxis ist die Abhängigkeit der Ergebnisse von den Regressionskoeffizienten oft nichtlinear: Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression Y = h(β) + ε, Cov[ε] = V Ist V bekannt, lautet die Zielfunktion: SS = [Y − h(β)]T G[Y − h(β)], SS kann mit dem Gauß-Newton-Verfahren minimiert werden. Dazu wird h an einer Stelle β0 linearisiert: h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ, R. Frühwirth Statistik G = V−1 489/495 R. Frühwirth H= ∂h ∂β β0 Statistik 490/495 Nichtlineare Regression Statistik R. Frühwirth Einleitung Statistik Die Schätzung von β lautet: β̂ = HT GH −1 HT G(Y − c) R. Frühwirth Einfache Regression Lineare Regression Tests, Konfidenz- und Prognoseintervalle Robuste Regression Polynomiale Regression Mehrfache Regression Das lineare Modell Schätzung, Tests und Prognoseintervalle Gewichtete Regression Nichtlineare Regression h wird neuerlich an der Stelle β1 = β̂ linearisiert. Teil 7 Das Verfahren wird iteriert, bis die Schätzung sich nicht mehr wesentlich ändert. Viele andere Methoden zur Minimierung von SS verfügbar. R. Frühwirth Statistik 491/495 Einführung in die Bayes-Statistik R. Frühwirth Statistik 492/495