Statistik Teil 1

Werbung
Übersicht über die Vorlesung
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Teil 1: Deskriptive Statistik
Statistik
Teil 2: Wahrscheinlichkeitsrechnung
R. Frühwirth
[email protected]
Teil 3: Zufallsvariable und Verteilungen
VO 142.090
http://tinyurl.com/TU142090
Teil 4: Schätzen von Parametern
Februar 2010
R. Frühwirth
Statistik
1/495
R. Frühwirth
Statistik
2/495
Übersicht über die Vorlesung
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Teil 5: Testen von Hypothesen
Einleitung
Grundbegriffe
Merkmal- und
Skalentypen
Aussagen und
Häufigkeiten
Teil 6: Regression und lineare Modelle
Teil 1
Eindimensionale
Merkmale
Graphische Darstellung
Empirische
Verteilungsfunktion
Kernschätzer
Maßzahlen
Beispiele
Teil 7: Einführung in die Bayes-Statistik
Deskriptive Statistik
Zweidimensionale
Merkmale
Qualitative Merkmale
Quantitative Merkmale
Korrelation
Teil 8: Simulation von Experimenten
R. Frühwirth
Statistik
3/495
R. Frühwirth
Statistik
4/495
Übersicht Teil 5
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Einleitung
Parametrische Tests
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Teil 5
Testen von Hypothesen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Statistik
Statistik
R. Frühwirth
Einleitung
Einleitung
Parametrische Tests
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Einleitung
Parametrische Tests
18
Anpassungstests
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
18
Anpassungstests
Statistik
382/495
Einleitung
Statistik
17
Parametrische Tests
R. Frühwirth
R. Frühwirth
16
17
381/495
Abschnitt 16: Einleitung
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Einleitung
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
16
Wir beobachten eine Stichprobe X1 , . . . , Xn aus einer
Verteilung F .
Ein Test soll feststellen, ob die Beobachtungen mit einer
gewissen Annahme über F verträglich sind.
Die Annahme wird als Nullhypothese H0 bezeichnet.
Ist die Form von F bis auf einen oder mehrere Parameter
spezifiziert, heißt der Test parametrisch.
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Ist die Form von F nicht spezifiziert, heißt der Test
nichtparametrisch oder parameterfrei.
Der Test entscheidet, ob die Stichprobe mit der Hypothese
vereinbar ist, nicht ob die Hypothese richtig ist!
R. Frühwirth
Statistik
383/495
R. Frühwirth
Statistik
384/495
Einleitung
Einleitung
Statistik
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Statistik
Allgemeine Vorgangsweise
R. Frühwirth
Einleitung
Aus der Stichprobe wird eine Testgröße (Teststatistik) T
berechnet.
Parametrische Tests
Der Wertebereich von T wird, in Abhängigkeit von H0 , in
einen Ablehnungsbereich (kritischen Bereich) C und einen
Annahmebereich C 0 unterteilt.
Der Annahmebereich ist meist ein Prognoseintervall für T .
Fällt der Wert von T in den Ablehnungsbereich, wird H0
verworfen.
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Einseitige und zweiseitige Tests
Ist der Annahmebereich das symmetrische Prognoseintervall
für T , wird der Test zweiseitig genannt. Der kritische
Bereich zerfällt dann in zwei Teilintervalle.
Ist der Annahmebereich ein Intervall der Form T ≤ c oder
T ≥ c, wird der Test einseitig genannt. Der kritische
Bereich ist dann ein Intervall der Form T > c bzw. T < c.
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Andernfalls wird H0 vorläufig beibehalten.
Das ist jedoch keine Bestätigung von H0 . Es heißt lediglich,
dass die Daten mit der Hypothese vereinbar sind.
R. Frühwirth
Statistik
385/495
R. Frühwirth
Einleitung
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
386/495
Einleitung
Statistik
R. Frühwirth
Statistik
Statistik
Der p-Wert
R. Frühwirth
Der Test kann alternativ auch unter Benütung des p-Werts
P (T ) durchgeführt werden.
Der p-Wert gibt an, wie wahrscheinlich es ist, unter
Annahme der Nullhypothese mindestens den Wert T bzw.
höchstens den Wert T zu beobachten.
Zweiseitiger Test: Ist F0 (x) die Verteilungsfunktion von T
unter der Nullhypothese, so ist der p-Wert gleich
P (T ) = 2 min(F0 (T ), 1 − F0 (T ))
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Signifikanz und Güte
Bei jedem Testverfahren sind zwei Arten von Fehlern
möglich.
1
Fehler 1. Art: Die Hypothese H0 wird abgelehnt,
obwohl sie zutrifft.
2
Fehler 2. Art: Die Hypothese H0 wird beibehalten,
obwohl sie nicht zutrifft.
Die Verteilung von T unter Annahme von H0 wird
bestimmt.
Der Ablehnungsbereich wird so festgelegt, dass die
Wahrscheinlichkeit eines Fehlers 1. Art maximal gleich
einem Wert α ist.
Einseitiger Test: Ist F0 (x) die Verteilungsfunktion von T
unter der Nullhypothese, so ist der p-Wert gleich
α heißt das Signifikanzniveau des Tests. Gängige Werte
sind α = 0.05, 0.01, 0.005.
P (T ) = F0 (T ) bzw. p = 1 − F0 (T )
Die Nullhypothese wird verworfen, wenn P (T ) < α.
R. Frühwirth
Statistik
387/495
R. Frühwirth
Statistik
388/495
Einleitung
Abschnitt 17: Parametrische Tests
Statistik
Statistik
Ist der Ablehnungsbereich festgelegt, kann für eine
Gegenhypothese H1 die Wahrscheinlichkeit β(H1 ) eines
Fehlers 2. Art berechnet werden.
R. Frühwirth
Einleitung
R. Frühwirth
Einleitung
Parametrische Tests
Parametrische Tests
1 − β(H1 ) heißt die Güte des Tests für H1 .
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Die Güte sollte nie kleiner als α sein.
Ist die Güte nie kleiner als α, heißt der Test unverzerrt.
Ein Ziel der Testtheorie ist es, unverzerrte Tests mit
maximaler Güte (UMPU) zu konstruieren.
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
Statistik
Einleitung
Einleitung
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
18
Anpassungstests
Statistik
390/495
Grundlagen
Statistik
Anpassungstests
18
R. Frühwirth
R. Frühwirth
17
Parametrische Tests
Grundlagen
Tests für binomialverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
389/495
Statistik
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
17
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
16
Einleitung
Anpassungstests
Unterabschnitt: Grundlagen
Parametrische Tests
16
Einleitung
Wir betrachten eine Stichprobe X1 , . . . , Xn aus einer
Verteilung F , die bis auf einen oder mehrere Parameter
spezifiziert ist.
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Parametrische Tests
Grundlagen
Tests für binomialverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Tests von Hypothesen über F heißen parametrisch.
Eine Nullhypothese H0 kann als eine Teilmenge des
Parameterraums Θ aufgefasst werden.
Der Test entscheidet, ob die Stichprobe mit der Hypothese
vereinbar ist.
Vor der Anwendung ist zu klären, ob die angenommene
parametrische Form plausibel ist.
Anpassungstests
R. Frühwirth
Statistik
391/495
R. Frühwirth
Statistik
392/495
Grundlagen
Grundlagen
Statistik
R. Frühwirth
Statistik
Zunächst wird die Teststatistik T und das Signifikanzniveau
α gewählt.
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
Beispiel mit Exponentialverteilung
Einleitung
Dann wird der kritische Bereich C so festgelegt, dass
X1 , . . . , Xn ist eine exponentialverteilte Stichprobe aus
Ex(τ ).
Die Hypothese H0 : τ = τ0 soll anhand der Stichprobe
getestet werden.
Als Teststatistik T wählen wir das Stichprobenmittel:
T = X.
Unter Annahme von H0 hat T die folgende Dichte:
tn−1
t
f (t) =
exp −
(τ0 /n)n Γ(n)
τ0 /n
Parametrische Tests
W (T ∈ C|ϑ ∈ H0 ) ≤ α
Zu einer Nullhypothese H0 kann eine Gegenhypothese H1
formuliert werden.
H1 kann ebenfalls als Teilmenge des Parameterraums Θ
aufgefasst werden.
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Ist das Signifikanzniveau α festgelegt, kann für jedes ϑ ∈ H1
die Güte berechnet werden:
T ist also verteilt gemäß Ga(n, τ0 /n).
Das symmetrische Prognoseintervall [y1 (τ0 ), y2 (τ0 )] für T
zum Niveau 1 − α erhält man mit:
1 − β(ϑ) = W (T ∈ C|ϑ ∈ H1 )
1 − β(ϑ) heißt die Gütefunktion des Tests.
R. Frühwirth
Statistik
y1 (τ0 ) = γα/2,n,τ0 /n ,
393/495
R. Frühwirth
Grundlagen
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
394/495
Statistik
Der Verwerfungsbereich mit Signifikanzniveau α ist daher
die Menge
C = [0, y1 (τ0 )] ∪ [y2 (τ0 ), ∞[
Dichte des Stichprobenmittels (τ0=1) und kritische Bereiche
R. Frühwirth
4.5
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
H0 wird also abgelehnt, wenn T “weit entfernt” vom
hypothetischen Wert τ0 ist.
Die Gütefunktion für einen Wert τ ergibt sich durch:
1 − β(τ ) = W (T ∈ C) = G(y1 (τ0 )) + 1 − G(y2 (τ0 ))
Anpassungstests
wo G die Verteilungsfunktion der Ga(n, τ /n)-Verteilung ist.
Der Test ist nicht unverzerrt, da z.B. für τ0 = 1 und n = 25
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
n=25
n=100
4
3.5
3
2.5
f(T)
Einleitung
Statistik
Grundlagen
Statistik
R. Frühwirth
y2 (τ0 ) = γ1−α/2,n,τ0 /n
2
1.5
1
1 − β(0.986) = 0.0495 < α
0.5
0
0
Matlab: make test exponential mean.m
R. Frühwirth
Statistik
395/495
0.2
0.4
0.6
R. Frühwirth
0.8
Statistik
1
T
1.2
1.4
1.6
1.8
2
396/495
Grundlagen
Unterabschnitt: Tests für binomialverteilte Beobachtungen
Statistik
Statistik
Gütefunktion (τ =1)
R. Frühwirth
R. Frühwirth
0
1
Einleitung
Einleitung
0.9
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
0.8
0.7
0.6
1−β(τ)
Anpassungstests
Parametrische Tests
16
Einleitung
17
Parametrische Tests
Grundlagen
Tests für binomialverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
18
Anpassungstests
Anpassungstests
0.5
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.4
0.3
0.2
0.1
n=25
n=100
0
0.5
0.6
0.7
0.8
R. Frühwirth
0.9
1
τ
1.1
1.2
Statistik
1.3
1.4
1.5
R. Frühwirth
397/495
Tests für binomialverteilte Beobachtungen
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
398/495
Tests für binomialverteilte Beobachtungen
Statistik
R. Frühwirth
Statistik
Statistik
Zweiseitiger Test für den Parameter p
R. Frühwirth
k ist eine Beobachtung aus der Binomialverteilung Bi(n, p).
Die Hypothese H0 : p = p0 soll anhand der Beobachtung
gegen die Alternativhypothese H1 : p 6= p0 getestet werden.
H0 wird abgelehnt, wenn k unter Annahme von H0 nicht im
symmetrischen Prognoseintervall [y1 (p0 ), y2 (p0 )] liegt, also
zu klein“ oder zu groß“ ist.
”
”
Das ist der Fall, wenn entweder
k X
n i
p0 (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α/2
i
i=0
oder
n X
n i
p (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α/2
i 0
i=k
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Einseitiger Test für den Parameter p
Die Hypothese H0 : p ≤ p0 soll anhand der Beobachtung k
gegen die Alternativhypothese H1 : p > p0 getestet werden.
H0 wird abgelehnt, wenn k zu groß“ ist und damit der
”
p-Wert zu klein:
n X
n i
P (k) =
p (1 − p0 )n−i = β(p0 ; k, n − k + 1) < α
i 0
i=k
Die Hypothese H0 : p ≥ p0 wird abgelehnt, wenn k zu
”
klein“ ist und damit auch der p-Wert zu klein:
P (k) =
k X
n
i=0
i
pi0 (1 − p0 )n−i = β(1 − p0 ; n − k, k + 1) < α
gilt.
R. Frühwirth
Statistik
399/495
R. Frühwirth
Statistik
400/495
Tests für binomialverteilte Beobachtungen
Tests für binomialverteilte Beobachtungen
Statistik
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Statistik
Beispiel
Ein Hersteller behauptet, dass nicht mehr als 2 Prozent eines gewissen
Bauteils fehlerhaft sind. In einer Stichprobe vom Umfang 300 sind 9
Stück defekt. Kann die Behauptung des Herstellers widerlegt werden?
Es gilt:
!
300
X
300
0.02i 0.98300−i = 0.1507
P (k) =
i
i=9
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
Näherung durch Normalverteilung
Einleitung
Ist n genügend groß, kann die Verteilung von k durch eine
Normalverteilung No(np, np(1 − p)) angenähert werden.
H0 wird abgelehnt, wenn das Standardscore
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
k − np0
Z=p
np(1 − p0 )
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Die Behauptung des Herstellers lässt sich also auf einem
Signifikanzniveau von 5 Prozent nicht widerlegen.
nicht in einem Prognoseintervall vom Niveau 1 − α der
Standardnormalverteilung liegt.
Zweiseitiger Test: H0 wird abgelehnt wenn
Z < zα/2 oder Z > z1−α/2
Matlab: make test binomial.m
Einseitiger Test: H0 wird abgelehnt wenn
Z < zα bzw. Z > z1−α
R. Frühwirth
Statistik
401/495
R. Frühwirth
Tests für binomialverteilte Beobachtungen
Einleitung
Statistik
Beispiel
R. Frühwirth
Mit der Angabe des letzten Beispiels ergibt die Näherung:
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
402/495
Unterabschnitt: Tests für Poissonverteilte Beobachtungen
Statistik
R. Frühwirth
Statistik
Parametrische Tests
Z = 1.2372 < z0.95 = 1.6449
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Die Hypothese kann also nicht abgelehnt werden.
Statistik
Einleitung
17
Parametrische Tests
Grundlagen
Tests für binomialverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
18
Anpassungstests
Anpassungstests
Matlab: make test binomial.m
R. Frühwirth
16
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
403/495
R. Frühwirth
Statistik
404/495
Tests für Poissonverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Statistik
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Statistik
Zweiseitiger Test auf den Erwartungswert
R. Frühwirth
X1 , . . . , Xn ist eine Poissonverteilte Stichprobe aus Po(λ).
Die Hypothese H0 : λ = λ0 soll anhand der Stichprobe
gegen die Alternativhypothese H1 : λ 6= λ0 getestet werden.
Als Teststatistik T wählen wir die Stichprobensumme:
Anpassungstests
T =
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
n
X
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Einseitiger Test auf den Erwartungswert
Die Hypothese H0 : λ ≤ λ0 wird abgelehnt, wenn T zu
”
groß“ ist und damit der p-Wert zu klein:
P (T ) =
k=T
Anpassungstests
Xi
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
i=1
Die Hypothese H0 : λ ≥ λ0 wird abgelehnt, wenn T zu
”
klein“ ist und damit auch der p-Wert zu klein:
T ist Poissonverteilt gemäß Po(nλ).
H0 wird abgelehnt, wenn T zu klein“ oder zu groß“ ist,
”
”
also wenn
T
X
(nλ0 )k e−nλ0
k=0
k!
< α/2 oder
R. Frühwirth
P (T ) =
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
<α
k=T
Statistik
405/495
R. Frühwirth
Statistik
406/495
Tests für Poissonverteilte Beobachtungen
Statistik
Beispiel
R. Frühwirth
Ein Hersteller strebt an, dass in einer Fabrik täglich im Mittel nicht
mehr als 25 defekte Bauteile hergestellt werden. Eine Stichprobe von 5
Tagen ergibt 28,34,32,38 und 22 defekte Bauteile. Hat der Hersteller
sein Ziel erreicht?
Es gilt:
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
k!
∞
X
(nλ0 )k e−nλ0
< α/2
k!
Statistik
Einleitung
T
X
(nλ0 )k e−nλ0
k=0
Tests für Poissonverteilte Beobachtungen
R. Frühwirth
∞
X
(nλ0 )k e−nλ0
<α
k!
T = 154, P (T ) =
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
∞
X
(125)k e−125
= 0.0067
k!
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Näherung durch Normalverteilung
Ist n genügend groß, kann die Verteilung von T durch eine
Normalverteilung No(nλ, nλ) angenähert werden.
H0 wird abgelehnt, wenn das Standardscore
T − nλ0
Z= √
nλ0
nicht in einem Prognoseintervall vom Niveau 1 − α der
Standardnormalverteilung liegt.
k=T
Beispiel
Die Hypothese lässt sich also auf einem Signifikanzniveau von 1
Prozent widerlegen.
Mit der Angabe des letzten Beispiels ergibt die Näherung:
Z = 2.5938 > z0.99 = 2.3263
Matlab: make test poisson mean.m
R. Frühwirth
Statistik
Die Hypothese kann also auf einem Signifikanzniveau von 1 Prozent
abgelehnt werden.
407/495
R. Frühwirth
Statistik
408/495
Unterabschnitt: Tests für normalverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Erwartungswert bei bekannter Varianz
Einleitung
16
17
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
18
Einleitung
X1 , . . . , Xn ist eine normalverteilte Stichprobe aus
No(µ, σ 2 ) mit bekanntem σ 2 .
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Parametrische Tests
Grundlagen
Tests für binomialverteilte Beobachtungen
Tests für Poissonverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe
gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden.
Als Teststatistik T wählen wir das Standardscore des
Stichprobenmittels:
√
n(X − µ0 )
T =
σ
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Anpassungstests
Unter Annahme von H0 ist T verteilt gemäß No(0, 1).
H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall
vom Niveau 1 − α der Standardnormalverteilung liegt.
R. Frühwirth
Statistik
409/495
R. Frühwirth
Tests für normalverteilte Beobachtungen
Statistik
Zweiseitiger Test
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Gütefunktion des zweiseitigen Tests (µ =1)
R. Frühwirth
0
1
Die Hypothese H0 wird abgelehnt, wenn
√ n X − µ0 |T | =
> z1−α/2
σ
Einleitung
0.9
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Die Gütefunktion für einen Wert µ ergibt sich durch:
Anpassungstests
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
410/495
Tests für normalverteilte Beobachtungen
1 − β(µ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 )
√
wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist.
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.8
0.7
0.6
1−β(µ)
Statistik
Statistik
0.5
0.4
0.3
Der Test ist unverzerrt.
0.2
0.1
Matlab: make test normal mean.m
R. Frühwirth
Statistik
0
0.5
411/495
n=25
n=100
0.6
0.7
0.8
R. Frühwirth
0.9
Statistik
1
µ
1.1
1.2
1.3
1.4
1.5
412/495
Tests für normalverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Statistik
R. Frühwirth
Statistik
Einseitiger Test
Einleitung
R. Frühwirth
Die Hypothese H0 : µ ≤ µ0 soll mit der Teststatistik T
gegen die Alternativhypothese H1 : µ > µ0 getestet werden.
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
H0 wird abgelehnt, wenn T zu groß“ ist.
”
Ein Verwerfungsbereich mit Signifikanzniveau α ist die
Menge
C = [z1−α , ∞[
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Statistik
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
1 − β(τ ) = W (T ∈ C) = 1 − G(z1−α )
√
wo G die Verteilungsfunktion der No( n(µ − µ0 )/σ, 1)Verteilung ist.
Analog verläuft der Test mit H0 : µ ≥ µ0 und H1 : µ < µ0 .
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Die Hypothese H0 wird also abgelehnt, wenn
√
n X − µ0
T =
> z1−α
σ
R. Frühwirth
Einleitung
Die Gütefunktion für einen Wert µ > µ0 ergibt sich durch:
413/495
Matlab: make test normal mean.m
R. Frühwirth
Tests für normalverteilte Beobachtungen
Statistik
414/495
Tests für normalverteilte Beobachtungen
Statistik
Statistik
Gütefunktion des einseitigen Tests (µ =1)
R. Frühwirth
R. Frühwirth
0
Erwartungswert bei unbekannter Varianz: t-Test
1
Einleitung
Einleitung
0.9
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
0.8
0.7
0.6
1−β(µ)
Anpassungstests
Parametrische Tests
Anpassungstests
0.5
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.4
0.3
0.2
0.1
0
1
X1 , . . . , Xn ist eine normalverteilte Stichprobe aus
No(µ, σ 2 ) mit unbekanntem σ 2 .
Die Hypothese H0 : µ = µ0 soll anhand der Stichprobe
gegen die Alternativhypothese H1 : µ 6= µ0 getestet werden.
Als Teststatistik T wählen wir das Standardscore des
Stichprobenmittels, unter Benützung der Stichprobenvarianz
S2:
√
n(X − µ0 )
T =
S
Unter Annahme von H0 ist T verteilt gemäß t(n − 1).
n=25
n=100
1.1
1.2
1.3
R. Frühwirth
1.4
Statistik
1.5
µ
1.6
1.7
1.8
1.9
2
415/495
R. Frühwirth
Statistik
416/495
Tests für normalverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Statistik
Statistik
H0 wird abgelehnt, wenn T nicht in einem Prognoseintervall
vom Niveau 1 − α der t-Verteilung mit n − 1 Freiheitsgraden
liegt.
R. Frühwirth
Einleitung
Parametrische Tests
R. Frühwirth
Die Gütefunktion für einen Wert µ ergibt sich durch:
1 − β(τ ) = W (T ∈ C) = G(zα/2 ) + 1 − G(z(1−α)/2 )
Einleitung
Parametrische Tests
Ein Verwerfungsbereich mit Signifikanzniveau α ist die
Menge
n−1
C =] − ∞, tn−1
α/2 ] ∪ [t1−α/2 , ∞[
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
wo tn−1
das Quantil der t-Verteilung mit n − 1
p
Freiheitsgraden zum Niveau p ist.
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Die Hypothese H0 wird also abgelehnt, wenn
√ n X − µ0 |T | =
> tn−1
1−α/2
S
R. Frühwirth
wo G die Verteilungsfunktion der nichtzentralen
t(n − 1, δ)-Verteilung mit
√
δ = n(µ − µ0 )/σ
ist.
Der Test ist unverzerrt.
Matlab: make test normal mean.m
Statistik
417/495
R. Frühwirth
Tests für normalverteilte Beobachtungen
Statistik
418/495
Tests für normalverteilte Beobachtungen
Statistik
Statistik
Gütefunktion des zweiseitigen t−Tests (µ =1)
R. Frühwirth
R. Frühwirth
0
Gleichheit von zwei Erwartungswerten
1
Einleitung
Einleitung
0.9
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
0.8
0.7
0.6
1−β(µ)
Anpassungstests
Parametrische Tests
Anpassungstests
0.5
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.4
X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige
normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ).
Die Hypothese H0 : µx = µy soll anhand der Stichproben
gegen die Alternativhypothese H1 : µx 6= µy getestet
werden.
Sind die Varianzen bekannt, wählen wir als Teststatistik T
die Differenz der Stichprobenmittel:
T =X −Y
0.3
0.2
0.1
0
0.5
Unter Annahme von H0 ist T verteilt gemäß
No(0, σx2 /n + σy2 /m).
n=25
n=100
0.6
0.7
0.8
R. Frühwirth
0.9
Statistik
1
µ
1.1
1.2
1.3
1.4
1.5
419/495
R. Frühwirth
Statistik
420/495
Tests für normalverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Statistik
R. Frühwirth
Statistik
Das Standardscore
Einleitung
Z=q
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
R. Frühwirth
T
σx2 /n
Einleitung
+
Sind die Varianzen unbekannt und gleich, kann die
Varianz aus der kombinierten ( gepoolten“) Stichprobe
”
geschätzt werden:
Parametrische Tests
σy2 /m
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
ist dann standardnormalverteilt.
Die Hypothese H0 wird also abgelehnt, wenn
Anpassungstests
S2 =
(n − 1)Sx2 + (m − 1)Sy2
n+m−2
Unter Annahme von H0 ist
X −Y
Anpassungstests
|Z| > z1−α/2
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
oder
|X − Y |
q
σx2 /n + σy2 /m
T =p
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
S 2 (1/n
+ 1/m)
t-verteilt mit n + m − 2 Freiheitsgraden.
Die Hypothese H0 wird also abgelehnt, wenn
> z1−α/2
|T | > tn+m−2
1−α/2
wo tn+m−2
1−α/2 das Quantil der t-Verteilung mit n + m − 2
Freiheitsgraden ist.
R. Frühwirth
Statistik
421/495
R. Frühwirth
Tests für normalverteilte Beobachtungen
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
422/495
Tests für normalverteilte Beobachtungen
Statistik
R. Frühwirth
Statistik
Statistik
t-Test für gepaarte Stichproben
R. Frühwirth
Gepaarte Stichproben (X1 , Y1 ), . . . , (Xn , Yn ) entstehen,
wenn für jedes beobachtete Objekt die selbe Größe zweimal
gemessen wird, vor und nach einer bestimmten Intervention.
Die Wirkung der Intervention wird durch die Differenzen
Wi = Yi − Xi , i = 1, . . . , n beschrieben.
Wir nehmen an, dass W1 , . . . , Wn normalverteilt mit Mittel
2
µw und unbekannter Varianz σw
ist.
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Test der Varianz
X1 , . . . , Xn ist eine normalverteilte Stichprobe mit
unbekanntem Erwartungswert µ und unbekannter Varianz
σ2 .
Die Hypothese H0 : σ 2 = σ02 soll anhand der Stichprobe
gegen die Alternativhypothese H1 : σ 2 6= σ02 getestet
werden.
Als Teststatistik T wählen wir:
Die Hypothese H0 : µw = 0 (keine Wirkung der
Intervention) soll anhand der Stichprobe gegen die
Alternativhypothese H1 : µw 6= 0 getestet werden.
T =
Unter Annahme von H0 ist T χ2 -verteilt mit n − 1
Freiheitsgraden.
Dies erfolgt mit dem t-Test für einzelne Stichproben.
R. Frühwirth
Statistik
(n − 1)S 2
σ02
423/495
R. Frühwirth
Statistik
424/495
Tests für normalverteilte Beobachtungen
Tests für normalverteilte Beobachtungen
Statistik
Statistik
Die Hypothese H0 wird also abgelehnt, wenn
T < χ2α/2,n−1
Einleitung
1
oder T > χ21−α/2,n−1
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Gütefunktion des zweiseitigen Tests (σ20=1)
R. Frühwirth
0.9
Parametrische Tests
χ2p,k
2
wo
das Quantil der χ -Verteilung mit k Freiheitsgraden
zum Niveau p ist.
Die Gütefunktion für einen Wert σ 2 ergibt sich durch:
2
1 − β(σ ) =
G(σ02 /σ 2
·
χ2α/2 )
+1−
G(σ02 /σ 2
·
χ2(1−α)/2 )
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
wo G die Verteilungsfunktion der χ2 (n − 1)Verteilung ist.
0.8
0.7
0.6
1−β(σ2)
R. Frühwirth
0.5
0.4
0.3
Der Test ist nicht unverzerrt.
0.2
0.1
Matlab: make test normal variance.m
R. Frühwirth
Statistik
425/495
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.7
0.8
0.9
1
σ2
1.1
1.2
1.3
Statistik
1.4
1.5
426/495
Tests für normalverteilte Beobachtungen
Statistik
Einleitung
0.6
R. Frühwirth
Tests für normalverteilte Beobachtungen
R. Frühwirth
n=25
n=100
0
0.5
Statistik
Gleichheit von zwei Varianzen
R. Frühwirth
X1 , . . . , Xn und Y1 , . . . , Ym sind zwei unabhängige
normalverteilte Stichprobe aus No(µx , σx2 ) bzw. No(µy , σy2 ).
Die Hypothese H0 : σx2 = σy2 soll anhand der Stichproben
gegen die Alternativhypothese H1 : σx2 6= σy2 getestet
werden.
Die Teststatistik T ist das Verhältnis der
Stichprobenvarianzen:
T =
Einleitung
T < Fα/2
oder T > F1−α/2
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Sx2
Sy2
Die Hypothese H0 wird also abgelehnt, wenn
wo Fp das Quantil der F-Verteilung mit n − 1 bzw. m − 1
Freiheitsgraden zum Niveau p ist.
Ist σy2 = kσx2 , ergibt sich die Gütefunktion für einen Wert k
ergibt durch:
1 − β(τ ) = G(σ02 /σ 2 · Fα/2 ) + 1 − G(σ02 /σ 2 · F(1−α)/2 )
wo G die Verteilungsfunktion der F(n − 1, m − 1)Verteilung ist.
Der Test ist unverzerrt.
Unter Annahme von H0 ist T F-verteilt gemäß
F(n − 1, m − 1).
Matlab: make test normal variance.m
R. Frühwirth
Statistik
427/495
R. Frühwirth
Statistik
428/495
Tests für normalverteilte Beobachtungen
Abschnitt 18: Anpassungstests
Statistik
Statistik
Gütefunktion des zweiseitigen Tests (σ2x =σ2y )
R. Frühwirth
R. Frühwirth
1
Einleitung
Einleitung
0.9
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
0.8
0.7
0.6
1−β(k)
Anpassungstests
Parametrische Tests
Anpassungstests
0.5
16
Einleitung
17
Parametrische Tests
18
Anpassungstests
Der Chiquadrat-Test
Der Kolmogorov-Smirnov-Test
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
0.4
0.3
0.2
0.1
0
n=25
n=100
−0.6
−0.4
R. Frühwirth
−0.2
0
ln k=ln(σ2y /σ2x )
0.2
0.4
0.6
Statistik
429/495
R. Frühwirth
Anpassungstests
Einleitung
Statistik
Ein Test, der die Hypothese überprüft, ob die Daten einer
gewissen Verteilung entstammen können, heißt ein
Anpassungstest.
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
430/495
Unterabschnitt: Der Chiquadrat-Test
Statistik
R. Frühwirth
Statistik
R. Frühwirth
Einleitung
Parametrische Tests
Die Verteilung kann völlig oder bis auf unbekannte
Parameter bestimmt sein.
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Ein Anpassungstest kann einem parametrischen Test
vorausgehen, um dessen Anwendbarkeit zu überprüfen.
Anpassungstests
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
Statistik
431/495
16
Einleitung
17
Parametrische Tests
18
Anpassungstests
Der Chiquadrat-Test
Der Kolmogorov-Smirnov-Test
R. Frühwirth
Statistik
432/495
Der Chiquadrat-Test
Der Chiquadrat-Test
Statistik
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Statistik
Der Chiquadrat-Test für diskrete Beobachtungen
Parametrische Tests
Wir testen die Hypothese H0 , dass die Dichte f die Werte
f (j) = pj , j = 1, . . . , k hat:
H0 : W (Xi = j) = pj , j = 1, . . . , k
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
gegen
H1 : W (Xi = j) 6= pj , für ein j
Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt
gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj .
Statistik
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Der kritische Bereich kann nach dem folgenden Ergebnis
bestimmt werden.
R. Frühwirth
Statistik
434/495
Der Chiquadrat-Test
Statistik
Einleitung
k
X
(Yj − npj )2
npj
j=1
Die Nullhypothese wird verworfen, wenn T groß ist.
433/495
Der Chiquadrat-Test
R. Frühwirth
T =
Satz
Unter Annahme der Nullhypothese ist die Zufallsvariable T
asymptotisch, d.h. für n → ∞, χ2 -verteilt mit k − 1
Freiheitsgraden.
Es sei Yj die Zahl der Beobachtungen, die gleich j sind.
R. Frühwirth
Die Testgröße vergleicht die beobachteten Häufigkeiten Yj
mit ihren Erwartungswerten:
Einleitung
Die Stichprobe X1 , . . . , Xn entstammt einer diskreten
Verteilung mit Wertebereich {1, . . . , k}.
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
R. Frühwirth
Statistik
Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt,
wenn
T ≥ χ21−α,k−1
wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1
Freiheitsgraden zum Niveau 1 − α ist.
Der Grund dafür, dass T nur k − 1 Freiheitsgrade hat, ist
der lineare Zusammenhang zwischen den Yj :
Anpassungstests
R. Frühwirth
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Beispiel
Wir testen anhand einer Stichprobe vom Umfang 50, ob ein Würfel
symmetrisch ist, d.h. ob die Augenzahl X folgende Verteilung hat:
W (X = 1) = . . . = W (X = 6) =
Eine Simulation von N = 100000 Stichproben ergibt:
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
k
X
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Yj = n
j=1
Als Faustregel gilt: n sollte so groß sein, dass
npj > 5, j = 1, . . . , k.
Statistik
T = 5.000,
ST2 = 9.789
Das 0.95-Quantil der χ2 -Verteilung mit fünf Freiheitsgraden ist
χ20.95,5 = 11.07, und
W (T ≥ 11.07) = 0.048
Matlab: make chi2test wuerfel.m
Ist das nicht erfüllt, sollte der Ablehnungsbereich durch
Simulation bestimmt werden.
R. Frühwirth
1
6
435/495
R. Frühwirth
Statistik
436/495
Der Chiquadrat-Test
Der Chiquadrat-Test
Statistik
R. Frühwirth
Statistik
Der Chiquadrat-Test für stetige Beobachtungen
Einleitung
R. Frühwirth
Einleitung
Die Stichprobe X1 , . . . , Xn entstammt einer stetigen
Verteilung F .
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Wir testen die Hypothese H0 : F (x) = F0 (x).
Dazu wird der Wertebereich von X in k Gruppen
G1 , . . . , Gk eingeteilt.
Anpassungstests
Anpassungstests
Es sei Yj die Zahl der Beobachtungen in Gruppe Gj .
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Unter der Nullhypothese ist Y1 , . . . , Yk multinomial verteilt
gemäß Mu(n, p1 , . . . , pk ) und E[Yj ] = npj , mit
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
pj = W (X ∈ Gj |H0 )
Unbekannte Parameter
Die Nullhypothese muss nicht vollständig spezifiziert sein.
Wir betrachten den Fall, dass die pj noch von unbekannten
Parametern ϑ abhängen:
W (X ∈ Gj ) = pj (ϑ)
Die Statistik T ist nun eine Funktion der unbekannten
Parameter:
k
X
(Yj − npj (ϑ))2
T (ϑ) =
npj (ϑ)
j=1
Zunächst werden die Parameter geschätzt, durch
ML-Schätzung oder Minimierung von T :
Der Test verläuft weiter wie im diskreten Fall.
ϑ̃ = arg min T (ϑ)
ϑ
R. Frühwirth
Statistik
437/495
R. Frühwirth
Der Chiquadrat-Test
Statistik
Der kritische Bereich kann nach dem folgenden Ergebnis
bestimmt werden.
R. Frühwirth
Einleitung
Einleitung
Parametrische Tests
Parametrische Tests
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
438/495
Der Chiquadrat-Test
Statistik
R. Frühwirth
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Statistik
Satz
Werden m Parameter aus der Stichprobe geschätzt, so ist T (ϑ̃)
asymptotisch χ2 -verteilt mit k − 1 − m Freiheitsgraden.
Soll der Test Signifikanzniveau α haben, wird H0 abgelehnt,
wenn
T ≥ χ21−α,k−1−m
wo χ21−α,k das Quantil der χ2 -Verteilung mit k − 1 − m
Freiheitsgraden zum Niveau 1 − α ist.
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Beispiel
Angabe: Die Zahl der Arbeitsunfälle wurde in einem großen Betrieb
über 30 Wochen erhoben. Es ergaben sich folgende Werte:
X ={8, 0, 0, 1, 3, 4, 0, 2, 12, 5, 1, 8, 0, 2, 0,
1, 9, 3, 4, 5, 3, 3, 4, 7, 4, 0, 1, 2, 1, 2}
Es soll die Hypothese überprüft werden, dass die Beobachtungen
Poisson-verteilt gemäß Po(λ) sind.
Lösung: Die Beobachtungen werden in fünf Gruppen eingeteilt:
Gruppe
1
2
3
4
5
X
0
1
2–3
4–5
>5
Die Häufigkeiten der Gruppen sind:
Y1 = 6, Y2 = 5, Y3 = 8, Y4 = 6, Y5 = 5
R. Frühwirth
Statistik
439/495
R. Frühwirth
Statistik
440/495
Der Chiquadrat-Test
Unterabschnitt: Der Kolmogorov-Smirnov-Test
Statistik
R. Frühwirth
Einleitung
Statistik
Beispiel (Fortsetzung)
R. Frühwirth
Der Schätzwert für λ ist das Stichprobenmittel:
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Parametrische Tests
λ̃ = 3.1667
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Die Erwartungswerte der Yj unter Annahme von H0 = Po(λ̃) sind:
j
1
2
3
4
5
E[Y1 ]
1.2643
4.0037
13.0304
8.6522
3.0493
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Die Testgröße T ist gleich
16
Einleitung
17
Parametrische Tests
18
Anpassungstests
Der Chiquadrat-Test
Der Kolmogorov-Smirnov-Test
T = 21.99
Das 99%-Quantil der χ2 -Verteilung mit drei Freiheitsgraden ist gleich
χ20.99,3 = 11.35. Die Hypothese, dass die Beobachtungen
Poisson-verteilt sind, ist also abzulehnen.
Matlab: make chi2test
poisson.m
R. Frühwirth
Statistik
441/495
R. Frühwirth
Der Kolmogorov-Smirnov-Test
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
442/495
Der Kolmogorov-Smirnov-Test
Statistik
R. Frühwirth
Statistik
Statistik
Eine Stichprobe
R. Frühwirth
Die Stichprobe X1 , . . . , Xn ist aus der stetigen Verteilung
mit Verteilungsfunktion F .
Wir testen die Hypothese H0 : F (x) = F0 (x).
Die Testgröße Dn ist die maximale absolute Abweichung der
empirischen Verteilungsfunktion Fn (x) der Stichprobe von
der hypothetischen Verteilungsfunktion F0 (x):
x
Für Stichproben aus F0 ist die Verteilung von Dn
unabhängig von F0 !
Für
√ Stichproben aus F0 strebt die Verteilungsfunktion von
nD für n → ∞ gegen:
K(x) = 1 − 2
∞
X
(−1)k−1 e−2k
Einleitung
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
Dn = max |Fn (x) − F0 (x)|
2
Aus der asymptotischen Verteilungsfunktion können
Quantile K1−α berechnet werden.
Die Nullhypothese wird abgelehnt, wenn
√
nDn > K1−α
Werden vor dem Test Parameter von F0 geschätzt, sind die
Quantile nicht mehr gültig.
In diesem Fall muss der Ablehnungsbereich durch Simulation
ermittelt werden.
Matlab: Funktion kstest
x2
k=1
R. Frühwirth
Statistik
443/495
R. Frühwirth
Statistik
444/495
Der Kolmogorov-Smirnov-Test
Statistik
R. Frühwirth
Statistik
Zwei Stichproben
Einleitung
R. Frühwirth
Wir testen, ob zwei Stichproben vom Umfang n bzw. m aus
der gleichen Verteilung F stammen.
Parametrische Tests
Grundlagen
Tests für
binomialverteilte
Beobachtungen
Tests für Poissonverteilte
Beobachtungen
Tests für normalverteilte
Beobachtungen
Die Testgröße ist die maximale absolute Differenz der
empirischen Verteilungsfunktionen:
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Teil 6
Mehrfache Regression
Dn,m =
Anpassungstests
Der Chiquadrat-Test
Der KolmogorovSmirnov-Test
max |Fn1 (x)
x
−
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
2
Fm
(x)|
Die Nullhypothese wird abgelehnt, wenn
r
nm
Dn,m > K1−α
n+m
Regression und lineare Modelle
Matlab: Funktion kstest2
R. Frühwirth
Statistik
445/495
R. Frühwirth
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Statistik
448/495
Einleitung
Einfache Regression
Mehrfache Regression
446/495
Abschnitt 19: Einleitung
Übersicht Teil 6
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Statistik
Einfache Regression
19
Einleitung
20
Einfache Regression
21
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
R. Frühwirth
Statistik
447/495
19
Einleitung
20
Einfache Regression
21
Mehrfache Regression
R. Frühwirth
Einleitung
Abschnitt 20: Einfache Regression
Statistik
Statistik
Regressionsanalyse untersucht die Abhängigkeit der
Beobachtungen von diversen Variablen.
R. Frühwirth
R. Frühwirth
Einleitung
Einleitung
Einflussvariable (unabhängige Variable) x = (x1 , . . . , xr ).
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Ergebnisvariable (abhängige Variable) Y .
Regressionsmodell:
Mehrfache Regression
Einleitung
20
Einfache Regression
Lineare Regression
Tests, Konfidenz- und Prognoseintervalle
Robuste Regression
Polynomiale Regression
21
Mehrfache Regression
Mehrfache Regression
Y = f (β, x) + ε
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
19
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
mit Regressionskoeffizienten β und Fehlerterm ε.
Ziel ist die Schätzung von β anhand von Beobachtungen
Y1 , . . . , Yn .
Eine Einflussvariable: einfache Regression;
Mehrere Einflussvariable: mehrfache (multiple) Regression.
R. Frühwirth
Statistik
R. Frühwirth
449/495
Unterabschnitt: Lineare Regression
Statistik
Statistik
R. Frühwirth
Einleitung
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einleitung
19
20
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
21
450/495
Lineare Regression
R. Frühwirth
Einfache Regression
Statistik
Einleitung
Das einfachste Regressionsmodell ist eine Gerade:
Y = α + βx + ε,
E[ε] = 0, var[ε] = σ 2
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Es seien nun Y1 , . . . , Yn die Ergebnisse für die Werte
x1 , . . . , xn der Einflussvariablen x.
Die Schätzung von α und β kann nach dem Prinzip der
kleinsten Fehlerquadrate erfolgen.
Die folgende Zielfunktion wird minimiert:
SS =
Mehrfache Regression
n
X
(Yi − α − βxi )2
i=1
Gradient von SS:
n
n
X
X
∂SS
∂SS
= −2
(Yi − α − βxi ),
= −2
xi (Yi − α − βxi )
∂α
∂β
i=1
i=1
R. Frühwirth
Statistik
451/495
R. Frühwirth
Statistik
452/495
Lineare Regression
Lineare Regression
Statistik
R. Frühwirth
Statistik
Nullsetzen des Gradienten gibt die Normalgleichungen:
n
X
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
i=1
n
X
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Yi = nα + β
n
X
R. Frühwirth
Einleitung
xi
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
i=1
xi Yi = α
i=1
n
X
i=1
xi + β
n
X
x2i
Die Varianz des Fehlerterms wird erwartungstreu geschätzt
durch:
n
1 X 2
r
σ̂ 2 =
n − 2 i=1 i
mit
ri = Yi − Ŷi ,
Mehrfache Regression
i=1
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Die geschätzten Regressionskoeffizienten lauten:
Pn
Pn
x Y − x̄ i=1 Yi
Pni i 2
β̂ = i=1
2
i=1 xi − nx̄
α̂ = Y − β̂ x̄
Ŷi = α̂ + β̂xi
Kovarianzmatrix der geschätzten Regressionkoeffizienten:
P
P 2


xi
x
P 2 i
P
−
 n ( x − nx̄2 )
n ( x2i − nx̄2 ) 
i


2

Cov[α̂, β̂] = σ 

P


xi
1
P
P
−
2
2
n ( xi − nx̄2 )
xi − nx̄2
Es gilt E[α̂] = α und E[β̂] = β.
R. Frühwirth
Statistik
453/495
R. Frühwirth
Lineare Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Statistik
Beispiel
R. Frühwirth
Datensatz 4:
Einleitung
x̄ = 167.60
ȳ = 76.16
sx = 8.348
sy = 4.727
rxy = 0.5562
â = 0.3150
b̂ = 23.37
Beispiel (Fortsetzung)
Datensatz 4:
Einfache Regression
Datensatz 4
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
90
85
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Matlab: make dataset4
80
Gewicht (kg)
Einleitung
454/495
Lineare Regression
Statistik
R. Frühwirth
Statistik
75
70
65
60
55
140
R. Frühwirth
Statistik
455/495
150
R. Frühwirth
160
170
Körpergröße (cm)
Statistik
180
190
Streudiagramm mit Regressionsgerade
456/495
Lineare Regression
Lineare Regression
Statistik
Statistik
Die Streuung der Werte Yi hat im Regressionsmodell
unterschiedliche Ursachen.
R. Frühwirth
R. Frühwirth
Einleitung
Einleitung
Einerseits gibt es systematische Unterschiede durch
unterschiedliche Werte von x.
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Dazu kommt noch die zufällige Streuung der Daten.
Mehrfache Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Erklärbare Streuung
SS ∗ =
n
X
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
2
(Ŷi − Y )2 = rxy
ns2Y
i=1
n
X
Streuungszerlegung
SST = SS ∗ + SSR
Die Güte der Regressionsgeraden kann durch das
Bestimmtheitsmaß angegeben werden:
Bestimmheitsmaß der Regression
2
(Yi − Ŷi )2 = (1 − rxy
)ns2Y
Reststreuung
SSR =
Totale Streuung
n
X
SST =
(yi − Y )2 = ns2Y
B=
i=1
Es gibt an, welcher Anteil an der Gesamtstreuung durch die
Korrelation von x und Y erklärt werden kann.
i=1
R. Frühwirth
Statistik
R. Frühwirth
457/495
Unterabschnitt: Tests, Konfidenz- und Prognoseintervalle
Statistik
Statistik
R. Frühwirth
Einleitung
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einleitung
19
20
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
21
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
R. Frühwirth
Statistik
458/495
Tests, Konfidenz- und Prognoseintervalle
R. Frühwirth
Einfache Regression
SS ∗
2
= rxy
SST
Ist β = 0, hängt das Ergebnis überhaupt nicht von den
Einflussvariablen ab.
Ein Test der Nullhypothese H0 : β = 0 gegen H1 : β 6= 0
beruht auf dem folgenden Satz.
Satz
Ist ε normalverteilt, so sind
α̂ − α
,
σ̂α̂
β̂ − β
σ̂β̂
t-verteilt mit n − 2 Freiheitsgraden, wobei
P
σ̂ 2 x2
σ̂ 2
P 2 i 2 , σ̂β̂2 = P 2
σ̂α̂2 =
n ( xi − nx̄ )
xi − nx̄2
Statistik
459/495
R. Frühwirth
Statistik
460/495
Tests, Konfidenz- und Prognoseintervalle
Tests, Konfidenz- und Prognoseintervalle
Statistik
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Statistik
Die Nullhypothese H0 : β = 0 wird abgelehnt, wenn die
Testgröße
β̂
T =
σ̂β̂
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
relativ klein oder relativ groß ist, also wenn
Mehrfache Regression
Mehrfache Regression
|β̂|
> tn−2
1−α/2
σ̂β̂
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Die symmetrischen Konfidenzintervalle mit 95% Sicherheit
lauten:
n−2
α̂ ± σ̂α̂ · tn−2
β̂ ± σ̂β̂ · t1−α/2
1−α/2 ,
Für n > 30 können die Quantile der t-Verteilung durch
Quantile der Standardnormalverteilung ersetzt werden.
Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten
Wert x0 der Einflussvariablen x prognostiziert werden.
Der Erwartungswert von Y0 ist
wo tn−2
das Quantil der t-Verteilung mit n − 2
p
Freiheitsgraden zum Niveau p ist.
E[Y0 ] = α̂ + β̂x0
Die Varianz von E[Y0 ] ergibt sich mittels
Fehlerfortpflanzung:
(x̄ − x0 )2
2 1
var[E[Y0 ]] = σ
+P 2
n
xi − nx̄2
Ein analoger Test kann für die Nullhypothese H0 : α = 0
durchgeführt werden.
R. Frühwirth
Statistik
461/495
R. Frühwirth
Tests, Konfidenz- und Prognoseintervalle
Statistik
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Statistik
462/495
Tests, Konfidenz- und Prognoseintervalle
Statistik
Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut,
ergibt sich:
(x̄ − x0 )2
n+1
var[Y0 ] = σ 2
+P 2
n
xi − nx̄2
R. Frühwirth
Die Angemessenheit des Modells kann durch Untersuchung
der studentisierten Residuen (Restfehler) überprüft werden.
Einleitung
Einfache Regression
Das symmetrische Prognoseintervall für Y0 mit Sicherheit α
ist daher gleich:
s
n+1
(x̄ − x0 )2
+P 2
α̂ + β̂x0 ± tn−2
1−α/2 σ̂
n
xi − nx̄2
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Das Residuum rk hat die Varianz
1
(xk − x̄)2
2
var[rk ] = σ 1 − − P 2
n
xi − nx̄2
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Das studentisierte Residuum ist dann
rk
rk0 =
σ̂
q
1−
1
n
−
(xk −x̄)2
P
x2i −nx̄2
Es hat Erwartung 0 und Varianz 1.
Matlab: make regression diagnostics
R. Frühwirth
Statistik
463/495
R. Frühwirth
Statistik
464/495
Tests, Konfidenz- und Prognoseintervalle
Tests, Konfidenz- und Prognoseintervalle
Statistik
Statistik
R. Frühwirth
R. Frühwirth
2.5
40
3
Einleitung
35
2.5
Einfache Regression
30
2
40
2
Einleitung
35
1.5
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
30
1
25
Mehrfache Regression
20
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
15
−1
5
15
0.5
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
−0.5
10
1
Mehrfache Regression
0
1.5
20
y
r’
y
0.5
25
r’
Einfache Regression
10
0
5
−0.5
0
−1.5
−1
−5
0
0
5
10
x
15
20
−2
0
5
10
x
15
20
0
Regressionsgerade und studentisierte Residuen
R. Frühwirth
Statistik
465/495
15
R. Frühwirth
20
0
5
10
x
15
20
Statistik
466/495
Robuste Regression
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Als LS-Schätzer ist die Regressionsgerade nicht robust, d.h.
empfindlich gegen Ausreißer.
Einleitung
19
20
Mehrfache Regression
Einfache Regression
Matlab: make regression outliers
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und Prognoseintervalle
Robuste Regression
Polynomiale Regression
150
Data
Outlier
LS w/o outlier
LS with outlier
170
Mehrfache Regression
140
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
160
150
130
140
120
y
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Einleitung
y
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
10
x
Regressionsgerade und studentisierte Residuen
Unterabschnitt: Robuste Regression
Einfache Regression
5
−1.5
130
110
120
21
Mehrfache Regression
100
110
100
90
90
80
40
45
50
x
55
60
40
50
60
70
80
90
100
110
x
Lineare Regression mit Ausreißern
R. Frühwirth
Statistik
467/495
R. Frühwirth
Statistik
468/495
Robuste Regression
Robuste Regression
Statistik
Statistik
LMS (Least Median of Squares): Anstatt der Summe der
Fehlerquadrate wird der Median der Fehlerquadrate
minimiert.
R. Frühwirth
Einleitung
150
Data
Outlier
LS w/o outlier
LS with outlier
LMS
LTS (75%)
170
Einleitung
140
160
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Berechnung kombinatorisch.
Mehrfache Regression
150
130
140
120
y
“Exact fit property”: Die LMS-Gerade geht durch zwei
Datenpunkte.
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
y
Einfache Regression
R. Frühwirth
110
120
Mehrfache Regression
LTS (Least Trimmed Squares): Es wird die Summe einer
festen Anzahl h ≤ n von Fehlerquadraten minimiert.
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Berechnung iterativ (FAST-LTS).
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
130
100
110
100
90
90
80
40
Beide Methoden gehen auf P. Rousseeuw zurück.
45
50
x
55
60
40
50
60
70
80
90
100
110
x
Robuste Regression mit Ausreißern
Matlab: make robust regression
R. Frühwirth
Statistik
469/495
R. Frühwirth
Unterabschnitt: Polynomiale Regression
Statistik
Statistik
R. Frühwirth
Einleitung
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einleitung
19
20
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
21
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Ist der Zusammenhang zwischen x und Y nicht annähernd
linear, kann man versuchen, ein Polynom anzupassen.
Das Modell lautet dann:
Y = β0 +β1 x+β2 x2 +· · ·+βr xr +ε,
E[ε] = 0, var[ε] = σ 2
Es seien wieder Y1 , . . . , Yn die Ergebnisse für die Werte
x1 , . . . , xn der Einflussvariablen x.
In Matrix-Vektor-Schreibweise:
Y = Xβ + ε
mit
Mehrfache Regression
R. Frühwirth
470/495
Polynomiale Regression
R. Frühwirth
Einfache Regression
Statistik

1

1
X=
 ..
.
1
Statistik
471/495
R. Frühwirth
x1
x2
..
.
xn
Statistik
x21
x22
..
.
x2n
···
···
..
.
···

xr1

xr2 
.. 

. 
xrn
472/495
Polynomiale Regression
Polynomiale Regression
Statistik
Statistik
Die folgende Zielfunktion wird minimiert:
R. Frühwirth
SS = (Y − Xβ)T (Y − Xβ)
Einleitung
Die Varianz des Fehlerterms wird erwartungstreu geschätzt
durch:
n
X
1
r2
σ̂ 2 =
n − r − 1 i=1 i
R. Frühwirth
Einleitung
Einfache Regression
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Gradient von SS:
∂SS
= −2XT (Y − Xβ)
∂β
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
mit
r = Y − Ŷ ,
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Nullsetzen des Gradienten gibt die Normalgleichungen:
Kovarianzmatrix der geschätzten Regressionkoeffizienten:
Cov[β̂] = σ 2 XT X −1
XT Y = XT Xβ
Kovarianzmatrix der Residuen r:
Cov[β̂] = σ 2 I − X XT X −1 XT
Die Lösung lautet:
β̂ = XT X
R. Frühwirth
−1
XT Y
Statistik
473/495
R. Frühwirth
Polynomiale Regression
Statistik
Statistik
R. Frühwirth
45
2
Einleitung
40
1.5
Einfache Regression
35
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
30
0.5
25
19
Einleitung
20
Einfache Regression
21
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
r’
y
0
20
Mehrfache Regression
−0.5
15
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
−1
10
−1.5
5
−2
0
−5
474/495
Einleitung
1
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Statistik
Abschnitt 21: Mehrfache Regression
R. Frühwirth
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Ŷ = Xβ̂
0
5
10
x
15
20
−2.5
0
5
10
x
15
20
Regressionsparabel und studentisierte Residuen
R. Frühwirth
Statistik
475/495
R. Frühwirth
Statistik
476/495
Unterabschnitt: Das lineare Modell
Das lineare Modell
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einleitung
19
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
20
Einfache Regression
21
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
R. Frühwirth
Statistik
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
477/495
Statistik
Einleitung
Einleitung
Einleitung
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einfache Regression
Mehrfache Regression
21
x1,2
x2,2
..
.
xn,2
···
···
..
.
···

x1,r

x2,r 
.. 

. 
xn,r
Statistik
478/495
Die folgende Zielfunktion wird minimiert:
SS = (Y − Xβ)T (Y − Xβ)
Einfache Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
x1,1
x2,1
..
.
xn,1
Schätzung, Tests und Prognoseintervalle
R. Frühwirth
20
Y = Xβ + ε
R. Frühwirth
Statistik
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
E[ε] = 0, var[ε] = σ 2
Es seien wieder Y1 , . . . , Yn die Ergebnisse für n Werte
x1 , . . . , xn der Einflussvariablen x = (x1 , . . . , xr ).
In Matrix-Vektor-Schreibweise:

1

1
X=
 ..
.
1
R. Frühwirth
19
Y = β0 +β1 x1 +β2 x1 +· · ·+βr xr +ε,
mit
Unterabschnitt: Schätzung, Tests und Prognoseintervalle
Einfache Regression
Hängt das Ergebnis Y von mehreren Einflussvariablen ab,
lautet das einfachste lineare Regressionmodell:
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Gradient von SS:
∂SS
= −2XT (Y − Xβ)
∂β
Nullsetzen des Gradienten gibt die Normalgleichungen:
XT Y = XT Xβ
Die Lösung lautet:
β̂ = XT X
R. Frühwirth
Statistik
479/495
R. Frühwirth
Statistik
−1
XT Y
480/495
Schätzung, Tests und Prognoseintervalle
Schätzung, Tests und Prognoseintervalle
Statistik
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Statistik
Die Varianz des Fehlerterms wird erwartungstreu geschätzt
durch:
n
X
1
r2
σ̂ 2 =
n − r − 1 i=1 i
mit
r = Y − Ŷ ,
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Ŷ = Xβ̂
Ist βk = 0, hängt das Ergebnis überhaupt nicht von den
Einflussvariablen xk ab.
Ein Test der Nullhypothese H0 : βk = 0 gegen H1 : βk 6= 0
beruht auf dem folgenden Satz.
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Satz
Ist ε normalverteilt, so ist
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Kovarianzmatrix der geschätzten Regressionkoeffizienten:
Cov[β̂] = σ 2 XT X −1
β̂k − βk
σ̂β̂k
t-verteilt mit n − r − 1 Freiheitsgraden, wobei σ̂β̂2 das k-te
k
Diagonalelement der geschätzten Kovarianzmatrix
σ̂ 2 XT X −1
Kovarianzmatrix der Residuen r:
Cov[β̂] = σ 2 I − X XT X −1 XT
ist.
R. Frühwirth
Statistik
R. Frühwirth
481/495
Schätzung, Tests und Prognoseintervalle
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
482/495
Schätzung, Tests und Prognoseintervalle
Statistik
R. Frühwirth
Statistik
Statistik
Die Nullhypothese H0 : βk = 0 wird abgelehnt, wenn die
Testgröße
β̂k
T =
σ̂β̂k
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
relativ klein oder relativ groß ist, also wenn
Mehrfache Regression
Wir erweitern x0 um den Wert 1: x+ = (1, x01 , . . . , x0r ).
Der Erwartungswert von Y0 ist dann
E[Y0 ] = x+ · β̂
Mehrfache Regression
|β̂k |
> tn−r−1
1−α/2
σ̂β̂k
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Es soll nun das Ergebnis Y0 = Y (x0 ) für einen bestimmten
Wert x0 = (x01 , . . . , x0r ) der Einflussvariablen
prognostiziert werden.
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
tn−2
p
wo
das Quantil der t-Verteilung mit n − 2
Freiheitsgraden zum Niveau p ist.
Die Varianz von E[Y0 ] ergibt sich mittels
Fehlerfortpflanzung:
var[E[Y0 ]] = σ 2 x+ XT X −1 x+ T
Das symmetrische Konfidenzintervall für βk mit 95%
Sicherheit lautet:
β̂k ± σ̂β̂k · tn−r−1
1−α/2
R. Frühwirth
Statistik
483/495
R. Frühwirth
Statistik
484/495
Schätzung, Tests und Prognoseintervalle
Statistik
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Unterabschnitt: Gewichtete Regression
Statistik
Da Y0 um seinen Erwartungswert mit Varianz σ 2 streut,
ergibt sich:
var[E[Y0 ]] = σ 2 1 + x+ XT X −1 x+ T
R. Frühwirth
Einleitung
Einfache Regression
Das symmetrische Prognoseintervall für Y0 mit Sicherheit α
ist daher gleich:
q
x+ · β̂ ± tn−k−1
σ̂
1 + x+ (XT X) −1 x+ T
1−α/2
R. Frühwirth
Statistik
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Einfache Regression
21
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Statistik
486/495
Gewichtete Regression
Statistik
Im allgemeinen Fall können die Fehlerterme eine beliebige
Kovarianzmatrix haben:
Einleitung
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
20
R. Frühwirth
485/495
Statistik
Einfache Regression
Einleitung
Mehrfache Regression
Gewichtete Regression
R. Frühwirth
19
R. Frühwirth
Einleitung
Y = Xβ + ε,
Cov[ε] = V
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Ist V bekannt, lautet die Zielfunktion:
SS = (Y − Xβ)T G(Y − Xβ),
Kovarianzmatrix der geschätzten Regressionkoeffizienten:
Cov[β̂] = σ 2 XT GX −1
G = V−1
Kovarianzmatrix der Residuen r:
Cov[β̂] = σ 2 I − X XT GX −1 XT
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Gradient von SS:
∂SS
= −2XT G(Y − Xβ)
∂β
Tests und Prognoseintervalle können entsprechend
modifizert werden.
Nullsetzen des Gradienten gibt die Normalgleichungen:
XT GY = XT GXβ
Die Lösung lautet:
β̂ = XT GX −1 XT GY
R. Frühwirth
Statistik
487/495
R. Frühwirth
Statistik
488/495
Unterabschnitt: Nichtlineare Regression
Nichtlineare Regression
Statistik
Statistik
R. Frühwirth
R. Frühwirth
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Einleitung
19
Einleitung
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
20
Einfache Regression
21
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
In der Praxis ist die Abhängigkeit der Ergebnisse von den
Regressionskoeffizienten oft nichtlinear:
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
Y = h(β) + ε,
Cov[ε] = V
Ist V bekannt, lautet die Zielfunktion:
SS = [Y − h(β)]T G[Y − h(β)],
SS kann mit dem Gauß-Newton-Verfahren minimiert
werden.
Dazu wird h an einer Stelle β0 linearisiert:
h(β) ≈ h(β0 ) + H(β − β0 ) = c + Hβ,
R. Frühwirth
Statistik
G = V−1
489/495
R. Frühwirth
H=
∂h ∂β β0
Statistik
490/495
Nichtlineare Regression
Statistik
R. Frühwirth
Einleitung
Statistik
Die Schätzung von β lautet:
β̂ = HT GH −1 HT G(Y − c)
R. Frühwirth
Einfache Regression
Lineare Regression
Tests, Konfidenz- und
Prognoseintervalle
Robuste Regression
Polynomiale Regression
Mehrfache Regression
Das lineare Modell
Schätzung, Tests und
Prognoseintervalle
Gewichtete Regression
Nichtlineare Regression
h wird neuerlich an der Stelle β1 = β̂ linearisiert.
Teil 7
Das Verfahren wird iteriert, bis die Schätzung sich nicht
mehr wesentlich ändert.
Viele andere Methoden zur Minimierung von SS verfügbar.
R. Frühwirth
Statistik
491/495
Einführung in die Bayes-Statistik
R. Frühwirth
Statistik
492/495
Herunterladen