Jackknife

Werbung
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
1
Jackknife
...manipuliert mit Resamples, aus denen jeweils eine Beobachtung
weggelassen wird.
QUENOUILLE (1949, 1956), TUKEY (1958)
Sei
x = (x1, x2, ... , xn)
θˆ = t (x)
(Typisch
die beobachtete Stichprobe,
ein Schätzer des Parameters θ.
θ = t (F ) – Funktional der Verteilung,
θˆ = t ( Fn ) – plug-in Schätzer)
Wir möchten die Verzerrung und Standardfehler von θˆ schätzen.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
2
Dazu erstellen wir die n Jackknife Stichproben
x(–1) = (x2, x3, ... , xn)
(x1 weggelassen)
x(–2) = (x1, x3, ... , xn)
(x2 weggelassen)
...
x(–n) = (x1, x2, ... , xn–1)
(xn weggelassen)
Wir definieren die i-te Jackknife Replikation von θˆ als
θˆ( −i ) = t(x(–i)).
Die Jackknife und Bootstrap Replikationen von θˆ sehen ganz
unterschiedlich auch. Die Jackknife Replikationen sind viel näher
aneinander (viel ähnlicher einander), d.h. sie haben eine viel
kleinere Varianz, da sie sich paarweise nur in zwei
Stichprobenelementen unterscheiden.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
3
Beispiel: Variationskoeffizient
Daten: 25 Beobachtungen aus N(µ=10,σ=5) (Var.Koeff.= 0.5)
s2
Var. Koeff. geschätzt durch
= 0.466
x
Sichproben-Var.Koeff.
Bootstrap Replikationen
Jackknife Replikationen
0.3
0.4
0.5
0.6
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
4
Bezeichne θˆ(.) den Mittelwert der Jackknife Replikationen:
n
θˆ(.) = 1n ∑θˆ( −i )
i =1
Jackknife Schätzung von Verzerrung
biasjack = (n–1)(θˆ(.) –θˆ )
Jackknife Schätzung von Standardfehler
sejack =
n −1
n
n
2
ˆ
ˆ
∑ (θ ( −i ) − θ (.) )
i =1
Diese Schätzungen sind den „plug-in“ Schätzungen sehr ähnlich,
ausgenommen der Faktor (n–1). Intuitiv sieht man klar, daß dieser
Faktor die Abhängigkeit zwischen den Jackknife Replikationen
korrigiert.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
Pseudowerte („pseudo-values“, „jackknife influence values“)
θ~ = nθˆ − (n − 1)θˆ = θˆ − (n − 1)(θˆ − θˆ )
( −i )
i
( −i )
1. Wenn θ der Mittelwert bezeichnet, dann gilt θ~i = xi .
~
2. Bezeichne θ den Mittelwert der Pseudowerte:
(.)
n
~
θ (.) = 1n ∑ θ~i = θˆ(.)
i =1
Damit lässt sich sejack genauso berechnen wie aus beobachteten
Daten:
n
~ ~ 2 n
1
sejack = n −1 ∑ (θ i − θ (.) ) /
i =1
5
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
6
Sichproben-Var.Koeff.
Bootstrap Replikationen
Jackknife Replikationen
Jackknife Pseudowerte
Replikationen
0
0.2
0.4
0.6
0.8
1
Das Diagram zeigt, daß die Pseudowerte keine wirklich klare
Bedeutung haben.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
7
Beispiel: Ektoparasiten von Wildgänsen
Daten: Parasitenzahlen (Anatoecus dentatus) per Wirt (n = 15)
1, 1, 2, 2, 2, 3, 3, 5, 6, 15, 16, 17, 20, 75, 83
0
20
40
60
80
100
Eine typisch „aggregierte“ Parasiten-Verteilung (viele Wirte mit
wenig Parasiten, manche Wirte mit sehr vielen Parasiten).
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
8
Der gewöhnliche „Aggregationsindex“:
Variance V ( X )
s2
=
, geschätzt durch
Mittelwert E ( X )
x
Dieser Schätzer ist verzerrt (asymptotisch unverzerrt und
normalverteilt, aber Konvergenz ist sehr langsam).
Jackknife: für Schätzung der Verzerrung und des Standardfehlers.
Wert der Statistik für die beobachtete Stichprobe
Jackknife Werte und ihr Mittelwert
30
35
40
45
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
9
Vorsicht mit der Korrektur von Verzerrung!
Mit Korrektion ist es manchmal schlimmer als ohne!
Erklärung: Die Schätzung der Verzerrung kann einen großen
Standardfehler haben. In diesem Fall, wenn man, um zu
korrigieren, das Korrekturglied dem Schätzer addiert, wird die
Verzerrung kleiner, aber der Standardfehler viel größer!
Damit kann der mittlere quadratische Fehler größer sein als ohne
Korrektur. (Der mittlere quadratische Fehler spiegelt die
Genauigkeit des Schätzers wieder.)
(dasselbe gilt für das bootstrap)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
10
Der mittlere quadratische Fehler und die Varianz eines Schätzers:
(
MQF(θˆ) = E (θˆ − θ ) 2
wobei
)
(
var(θˆ) = E (θˆ − Eθˆ) 2
θ der wahre, zu schätzende Parameterwert,
θˆ die Schätzung, und
E der Erwartungswert ist.
Varianz ~ Präzision
MQF ~ Genauigkeit
)
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
2500
1000
0
• Histogramm 1: Verteilung
des Schätzers ohne Korrektur
der Verzerrung
Histogram of yy - true
Frequency
Beispiel: wenn es mit
Korrektur schlimmer wird
11
-20
-10
0
10
20
10
20
10
20
yy - true
(Bootstrap ist jetzt besser...)
0 1000 2500
-10
0
jacbc - true
1500 3000
Histogram of bobc - true
0
• Histogramm 3: Verteilung
des Schätzers mit Bootstrap
Korrektur der Verzerrung
-20
Frequency
• Histogramm 2: Verteilung
des Schätzers mit Jackknife
Korrektur der Verzerrung
Frequency
Histogram of jacbc - true
-20
-10
0
bobc - true
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
12
Vergleich mit dem Bootstrap
• Weniger Rechnen
• Beschränkte Effizienz
• Jackknife ist eine Approximation zum Bootstrap
- Für lineare Schätzer asymptotisch äquivalent
n
ein linearer Schätzer: θˆ = µ + ∑α ( xi )
1
n
i =1
- Für nichtlineare Schätzer bietet es eine lineare Approximation
• θˆ muß „glatt“ sein (Jackknife Standardfehler ist inkonsistent für
den Median!)
• wenn man nur die Varianz schätzen möchte, ist Jackknife besser,
für Verteilungs-, oder Intervallschätzungen ist Bootstrap besser.
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
13
Delete-d jackknife
Nicht nur eine Beobachtung wird weggelassen, sondern d (immer
d). d = 2, 3, ...
n!
n  n 
Anzahl der d-jackknife Stichproben:   = 
.
=
 d   n − d  d !(n − d )!
Wenn es zu viel ist, werden nicht alle generiert und auswertet,
sondern nur eine zufällige Auswahl (z. B. 1000 zufällige d-jacknife
Replikationen).
d-jackknife Standardfehler ist konsistent für den Median, falls
n/d → 0 und n – d → ∞
Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel)
14
d-jackknife Schätzung des Standardfehlers
Angenommen, daß n = r⋅d (also r = n/d )
sejack =
r
∑
n
  S ⊆{1, ... , n}
 d  |S | = d
 
(θˆ( − S ) − θˆ(.) ) 2 ,
wobei θˆ(.) den Mittelwert aller d-jackknife Replikationen
bezeichnet:
θˆ(.) =  1n  ∑ θˆ( − S )
  S ⊆{1, ... , n}
 d  | S |= d
d-jackknife ist mit dem subsampling-Verfahren verwandt.
Herunterladen