Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 1 Jackknife ...manipuliert mit Resamples, aus denen jeweils eine Beobachtung weggelassen wird. QUENOUILLE (1949, 1956), TUKEY (1958) Sei x = (x1, x2, ... , xn) θˆ = t (x) (Typisch die beobachtete Stichprobe, ein Schätzer des Parameters θ. θ = t (F ) – Funktional der Verteilung, θˆ = t ( Fn ) – plug-in Schätzer) Wir möchten die Verzerrung und Standardfehler von θˆ schätzen. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 2 Dazu erstellen wir die n Jackknife Stichproben x(–1) = (x2, x3, ... , xn) (x1 weggelassen) x(–2) = (x1, x3, ... , xn) (x2 weggelassen) ... x(–n) = (x1, x2, ... , xn–1) (xn weggelassen) Wir definieren die i-te Jackknife Replikation von θˆ als θˆ( −i ) = t(x(–i)). Die Jackknife und Bootstrap Replikationen von θˆ sehen ganz unterschiedlich auch. Die Jackknife Replikationen sind viel näher aneinander (viel ähnlicher einander), d.h. sie haben eine viel kleinere Varianz, da sie sich paarweise nur in zwei Stichprobenelementen unterscheiden. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 3 Beispiel: Variationskoeffizient Daten: 25 Beobachtungen aus N(µ=10,σ=5) (Var.Koeff.= 0.5) s2 Var. Koeff. geschätzt durch = 0.466 x Sichproben-Var.Koeff. Bootstrap Replikationen Jackknife Replikationen 0.3 0.4 0.5 0.6 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 4 Bezeichne θˆ(.) den Mittelwert der Jackknife Replikationen: n θˆ(.) = 1n ∑θˆ( −i ) i =1 Jackknife Schätzung von Verzerrung biasjack = (n–1)(θˆ(.) –θˆ ) Jackknife Schätzung von Standardfehler sejack = n −1 n n 2 ˆ ˆ ∑ (θ ( −i ) − θ (.) ) i =1 Diese Schätzungen sind den „plug-in“ Schätzungen sehr ähnlich, ausgenommen der Faktor (n–1). Intuitiv sieht man klar, daß dieser Faktor die Abhängigkeit zwischen den Jackknife Replikationen korrigiert. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) Pseudowerte („pseudo-values“, „jackknife influence values“) θ~ = nθˆ − (n − 1)θˆ = θˆ − (n − 1)(θˆ − θˆ ) ( −i ) i ( −i ) 1. Wenn θ der Mittelwert bezeichnet, dann gilt θ~i = xi . ~ 2. Bezeichne θ den Mittelwert der Pseudowerte: (.) n ~ θ (.) = 1n ∑ θ~i = θˆ(.) i =1 Damit lässt sich sejack genauso berechnen wie aus beobachteten Daten: n ~ ~ 2 n 1 sejack = n −1 ∑ (θ i − θ (.) ) / i =1 5 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 6 Sichproben-Var.Koeff. Bootstrap Replikationen Jackknife Replikationen Jackknife Pseudowerte Replikationen 0 0.2 0.4 0.6 0.8 1 Das Diagram zeigt, daß die Pseudowerte keine wirklich klare Bedeutung haben. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 7 Beispiel: Ektoparasiten von Wildgänsen Daten: Parasitenzahlen (Anatoecus dentatus) per Wirt (n = 15) 1, 1, 2, 2, 2, 3, 3, 5, 6, 15, 16, 17, 20, 75, 83 0 20 40 60 80 100 Eine typisch „aggregierte“ Parasiten-Verteilung (viele Wirte mit wenig Parasiten, manche Wirte mit sehr vielen Parasiten). Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 8 Der gewöhnliche „Aggregationsindex“: Variance V ( X ) s2 = , geschätzt durch Mittelwert E ( X ) x Dieser Schätzer ist verzerrt (asymptotisch unverzerrt und normalverteilt, aber Konvergenz ist sehr langsam). Jackknife: für Schätzung der Verzerrung und des Standardfehlers. Wert der Statistik für die beobachtete Stichprobe Jackknife Werte und ihr Mittelwert 30 35 40 45 Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 9 Vorsicht mit der Korrektur von Verzerrung! Mit Korrektion ist es manchmal schlimmer als ohne! Erklärung: Die Schätzung der Verzerrung kann einen großen Standardfehler haben. In diesem Fall, wenn man, um zu korrigieren, das Korrekturglied dem Schätzer addiert, wird die Verzerrung kleiner, aber der Standardfehler viel größer! Damit kann der mittlere quadratische Fehler größer sein als ohne Korrektur. (Der mittlere quadratische Fehler spiegelt die Genauigkeit des Schätzers wieder.) (dasselbe gilt für das bootstrap) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 10 Der mittlere quadratische Fehler und die Varianz eines Schätzers: ( MQF(θˆ) = E (θˆ − θ ) 2 wobei ) ( var(θˆ) = E (θˆ − Eθˆ) 2 θ der wahre, zu schätzende Parameterwert, θˆ die Schätzung, und E der Erwartungswert ist. Varianz ~ Präzision MQF ~ Genauigkeit ) Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 2500 1000 0 • Histogramm 1: Verteilung des Schätzers ohne Korrektur der Verzerrung Histogram of yy - true Frequency Beispiel: wenn es mit Korrektur schlimmer wird 11 -20 -10 0 10 20 10 20 10 20 yy - true (Bootstrap ist jetzt besser...) 0 1000 2500 -10 0 jacbc - true 1500 3000 Histogram of bobc - true 0 • Histogramm 3: Verteilung des Schätzers mit Bootstrap Korrektur der Verzerrung -20 Frequency • Histogramm 2: Verteilung des Schätzers mit Jackknife Korrektur der Verzerrung Frequency Histogram of jacbc - true -20 -10 0 bobc - true Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 12 Vergleich mit dem Bootstrap • Weniger Rechnen • Beschränkte Effizienz • Jackknife ist eine Approximation zum Bootstrap - Für lineare Schätzer asymptotisch äquivalent n ein linearer Schätzer: θˆ = µ + ∑α ( xi ) 1 n i =1 - Für nichtlineare Schätzer bietet es eine lineare Approximation • θˆ muß „glatt“ sein (Jackknife Standardfehler ist inkonsistent für den Median!) • wenn man nur die Varianz schätzen möchte, ist Jackknife besser, für Verteilungs-, oder Intervallschätzungen ist Bootstrap besser. Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 13 Delete-d jackknife Nicht nur eine Beobachtung wird weggelassen, sondern d (immer d). d = 2, 3, ... n! n n Anzahl der d-jackknife Stichproben: = . = d n − d d !(n − d )! Wenn es zu viel ist, werden nicht alle generiert und auswertet, sondern nur eine zufällige Auswahl (z. B. 1000 zufällige d-jacknife Replikationen). d-jackknife Standardfehler ist konsistent für den Median, falls n/d → 0 und n – d → ∞ Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 14 d-jackknife Schätzung des Standardfehlers Angenommen, daß n = r⋅d (also r = n/d ) sejack = r ∑ n S ⊆{1, ... , n} d |S | = d (θˆ( − S ) − θˆ(.) ) 2 , wobei θˆ(.) den Mittelwert aller d-jackknife Replikationen bezeichnet: θˆ(.) = 1n ∑ θˆ( − S ) S ⊆{1, ... , n} d | S |= d d-jackknife ist mit dem subsampling-Verfahren verwandt.