1 Statistik, Abschnitt 3.1 3. Grundbegrie der Schätztheorie In der konrmatorischen Statistik will man unter anderem auf Grund einer Stichprobe vom Umfang n Informationen über unbekannte Parameter θ der Verteilung F der zugrundeliegenden Grundgesamtheit erhalten. Dabei faÿt man die Stichprobe als Vektor X = (X1 , . . . , Xn ) von unabhängig identisch verteilten Zufallsvariablen Xi aus einer Verteilung F mit Parameter θ auf. Die grundsätzliche Frage ist, auf welche Weise man von einer Stichprobe auf die zugehörige Grundgesamtheit schlieÿen kann, und welche Genauigkeit (im statistischen Sinn) dieser Schluss aufweist. In diesem Kapitel interessieren wir uns für zwei besonders wichtige und naheliegende Fragestellungen. (1) Wie erhält man Schätzgröÿen Tn = T (X1 , . . . , Xn ) für θ aus einer Stichprobe vom Umfang n mit mathematisch vernünftigen Eigenschaften? (2) Wie kann man Kondenzintervalle (Vertrauensbereiche) für den unbekannten Parameter θ mit Hilfe der Schätzgröÿen konstruieren? Zur Illustration ein einfaches Beispiel. Beispiel 8 Die Grundgesamtheit Ω bestehe aus allen erwachsenen Männern der Regionen Aichfeld und Murau. Wir betrachten als Merkmal X die Vitalkapazität VC und nehmen an, dass X normalverteilt sei mit unbekannten Parametern µ und σ . Xi = X(ωi ) ist dann die Vitalkapazität eines zufällig ausgewählten Mannes mit Xi ∼ N (µ, σ). (1) Im folgenden werden wir zeigen, dass n X= 1X Xi n i=1 n bzw. S2 = 1 X (Xi − X)2 n − 1 i=1 vernünftige Schätzer für den Erwartungswert µ bzw. die Varianz σ2 der Vitalkapazität sind. Die aimu.datStichprobe liefert Stichprobenwerte von 0.578 [l2 ]. x = 5.54 [l] bzw. s2 = (2) Vertrauensbereiche für µ und σ 2 lassen sich mit Hilfe der Zufallsvariablen X bzw. S 2 und der Kenntnis ihrer Verteilung konstruieren. Aufgrund unserer Stichprobe von n = 79 kann man ein konkretes 95%Kondenzintervall für die erwartete Vitalkapazität µ von [5.37, 5.71] angeben (siehe Abschnitt 13.2.1). Das entsprechende 95%Kondenzintervall für σ 2 ergibt sich als [0.432, 0.813] (siehe Abschnitt 13.2.1). 2 Statistik, Abschnitt 3.1 3.1 Punktschätzer Wir nehmen an, dass die Verteilung F der Stichprobenvariablen Xi unbekannte Parameter θ enthält und dass eine Funktion Tn = T (X1 , . . . , Xn ) existiert, die θ schätzt. 3.1.1. Eigenschaften Denition 3.1 Schätzfunktionen Tn = T (X1 , . . . , Xn ) heiÿt Stichprobenfunktion oder Statistik. Schätzt Tn einen unbekannten Parameter, dann nennt man Tn eine Schätzfunktion oder kurz Schätzer. Eine Realisierung tn = t(x1 , . . . , xn ) des Schätzers Tn heiÿt Schätzwert oder Schätzung. Wir werden den Begri Schätzung aber auch für den Schätzer Tn selbst verwenden. Beispiel 9 Die Verteilung F µ = E(Xi ) und σ 2 = V ar(Xi ). der Xi enthalte die Parameter µ und σ mit n 1X X = X(X1 , . . . , Xn ) = Xi n i=1 ist Schätzer für µ. Die Realisierung n x = µ̂ = x heiÿt 1X xi n i=1 schätzt µ aus der Stichprobe. empirisches Mittel der Stichprobe (x1 , . . . , xn ). n 1 X S = S (X1 , . . . , Xn ) = (Xi − X)2 n − 1 i=1 2 2 ist Schätzer für σ2 . Die Realisation n 1 X s = σ̂ = (xi − x)2 n − 1 i=1 2 s2 bezeichnet man als Denition 3.2 falls 2 approximiert σ 2 . empirische Varianz der Stichprobe. Eine Folge von Schätzern (Tn )n∈IN des Parameters θ heiÿt lim PTn (|Tn − θ| > ) = 0 . n→∞ Ein Schätzer T heiÿt konsistent, (1) erwartungstreu (unbiased), falls E(T ) = θ . (2) 3 Statistik, Abschnitt 3.1 Ein nicht erwartungstreuer Schätzer heiÿt verzerrt (biased). (3) b(θ, T ) := E(T ) − θ heiÿt systematischer Fehler (Bias). Eine Folge (Tn )n∈IN von Schätzfunktionen nennt man asymptotisch erwartungstreu, wenn (4) lim E(Tn ) = θ . n→∞ Lemma 3.1 Xi seien unabhängig identisch verteilt mit E(Xi ) = µ, V ar(Xi ) = σ2 . Dann gilt: 1. X ist erwartungstreuer und konsistenter Schätzer für µ. 2. S 2 ist erwartungstreuer Schätzer für σ2 . 3. Aus Xi ∼ N (µ, σ) folgt die V ar(S 2 ) = Konsistenz von S 2 wegen 2σ 4 und der TschebyschevUngleichung . n−1 Beweis 1. Die Erwartungstreue von X folgt sofort aus der Linearität des Erwartungswertes ! n n 1X 1X E(X) = E Xi = E(Xi ) = µ. n i=1 n i=1 Die Konsistenz läÿt sich wie folgt nachweisen: ! n n 1X 1 X σ2 V ar(X) = V ar Xi = 2 V ar(Xi ) = . n i=1 n i=1 n PX̄ (|X − µ| > ) = PX̄ (|X − E(X)| > ) ≤ ≤ σ2 → 0 für n → ∞. n2 1 V ar(X) 2 4 Statistik, Abschnitt 3.1 2. Für den Erwartungswert von S 2 erhält man ! n n X 1 X 1 2 2 E(S ) = E (Xi − X) = E (Xi − X)2 n − 1 i=1 n − 1 i=1 n o 1 Xn 2 2 E(Xi ) − 2E(Xi X) + E(X ) = n − 1 i=1 n o P 1 Xn 2 2 µ + σ 2 − n2 E(Xi nj=1 Xj ) + µ2 + σn = n − 1 i=1 n o P 1 Xn 2 = 2µ + σ 2 1 + n1 − n2 E(Xi2 ) − n2 i=/ j E(Xi Xj ) n − 1 i=1 n 1 X 2 2 µ = 2µ + σ 2 (1 + n1 ) − n2 (µ2 + σ 2 ) − 2 n−1 n n − 1 i=1 n = 1 X 2 σ n − 1 i=1 n−1 n − n2 µ2 + n2 µ2 = σ 2 . 3. Wir werden später zeigen, dass Y = n n−1 2 1 X S = (Xi − X)2 ∼ χ2n−1 (Chi-Quadrat-Verteilung) σ2 σ 2 i=1 und somit E(Y ) = n − 1, V ar(Y ) = 2 (n − 1). Für S 2 ergibt sich somit 2 σ σ2 2 E(S ) = E Y = E(Y ) = σ 2 , n−1 n−1 2 σ σ4 2σ 4 2 V ar(S ) = V ar Y = V ar(Y ) = . ♠ n−1 (n − 1)2 n−1 Beispiel 10 Als Schätzer für σ 2 wird manchmal SL2 = Schätzung ist nicht erwartungstreu. Der Bias ist b(σ 2 , SL2 ) = E(SL2 ) − σ 2 = 1 n Pn 2 i=1 (Xi − X) benutzt. Diese n−1 2 σ2 σ − σ2 = − . n n SL2 ist aber asymptotisch erwartungstreu wegen lim E(SL2 ) = σ 2 . n→∞ Die Güte verschiedener Schätzfunktionen Ti für θ wird vor allem aufgrund ihrer zu erwartenden quadratischen Abweichungen E[(Ti − θ)2 ] von θ bestimmt. 5 Statistik, Abschnitt 3.1 Denition 3.3 T1 und T2 seien zwei Schätzer des Parameters θ. T1 heiÿt wirksamer als T2 , falls (5) E (T1 − θ)2 < E (T2 − θ)2 . Sind T1 und T2 erwartungstreu, so bedeutet das V ar(T1 ) < V ar(T2 ). T0 heiÿt eektiver (wirksamster) Schätzer von θ, falls gilt: E (T0 − θ)2 ≤ E (T − θ)2 (6) für alle Schätzer T von θ. Satz 3.1 Für Stichprobenvariable Xi mit E(Xi ) = µ, V ar(Xi ) = σ2 gilt: (1) X ist wirksamster linearer Schätzer für µ. (2) Für Xi ∼ N (µ, σ) hat SL2 den quadratischen Fehler 2 σ4 1 2 2 E (SL − σ ) = 2− . n n Dieser quadratische Fehler ist kleiner als der quadratische Fehler von S 2 , der sich ergibt als 2σ 4 . V ar(S 2 ) = E (S 2 − σ 2 )2 = n−1 Beweis (1) Sei Z linearer Schätzer mit Z= n X ai Xi , wobei i=1 n X ai = 1, ai ∈ IR. i=1 P V ar(Z) = σ 2 Pni=1 a2i ist genau dann minimal, wenn Pn die Koezienten ai so gewählt n 2 werden, dass i=1 ai mit der Nebenbedingung i=1 ai = 1 minimal wird. 2 X 2 n n n n X X 1 1 1 1 2X 1 2 ai − = ai − + + ai = ai − + n n n n i=1 n n i=1 i=1 i=1 | {z } =0 = n X ai − i=1 Dies ist minimal für ai = 1 n 2 + 1 . n 1 , i = 1, . . . , n. n 6 Statistik, Abschnitt 3.1 (2) Nach Lemma 3.1 gilt: V ar(S 2 ) = E[(S 2 − σ 2 )2 ] = E(S 4 ) − E 2 (S 2 ) = 2σ 4 n−1 E[(SL2 − σ 2 )2 ] = E(SL4 ) − 2σ 2 E(SL2 ) + σ 4 . Mit SL2 = n−1 2 S n E[(SL2 folgt 2 2 −σ ) ] = n−1 n 2 E(S 4 ) − 2 2σ 2 (n − 1) E(S 2 ) + σ 4 n 2σ 4 (n − 1) V ar(S ) + E (S ) − + σ4 = n 2 4 n−1 2σ + (n − 1)σ 4 2σ 4 (n − 1) − nσ 4 = − n n−1 n σ4 n − 1 σ4 1 = (n + 1) − n + 2 = 2− .♠ n n n n n−1 n 2 2 2 Satz 3.2 iid Seien Xi ∼ F stetige Zufallsvariable mit Dichte f , k = bnpc + 1 und f (xp ) > 0, wobei xp das pQuantil der Verteilung F : F (xp ) = p. X(1) ≤ X(2) · · · ≤ X(n) die Ordnungsstatistiken. Dann hat die k te Ordnungsstatistik X(k) folgende Eigenschaften. (a) X(k) ist as. erwartungstreuer und konsistenter Schätzer von xp mit 1 p(1 − p) a , V ar(X ) ≈ E(X(k) ) = xp + + O (k) n n2 nf 2 (xp ) ! r 1 p(1 − p) as (b) X(k) ∼ N xp , . f (xp ) n Beispiel 11 (Median und arithmetisches Mittel für N (0, σ) und L (0, λ)) Sei n ungerade, p = 21 , k = b n2 c + 1, dann ist X̃ = Xmed = X(k) der Schätzer für den Median m = x0.5 mit der asymptotischen Eigenschaft 1 as √ X̃ ∼ N x0.5 , . 2f (x0.5 ) n • Sei Xi ∼ N (0, σ), f (x) = dass as X̃ ∼ N √1 2π σ 2 /2σ 2 e−x =⇒ f (x0.5 ) = f (0) = ! √ σ 2πσ 0, √ = N 0, 1.253 √ , 2 n n σ d.h. σ(X̃) ≈ 1.253 √ = 1.253 σ(X). n √1 2πσ womit folgt, 7 Statistik, Abschnitt 3.1 • Sei Xi ∼ L(0, λ), f (x) = λ2 e−λ|x| , E(X) = 0, V ar(X) = 2 , λ2 f (0) = √ 2 2 1 √ folgt. Dann ist V ar(X) = V ar(X) = woraus σ(X) = n nλ2 λ n 1 1 1 √ √ V ar(X̃) ≈ = X = 0.707 σ X . und σ( X̃) = σ nλ2 λ n 2 λ 2 . ♥ Bemerkung • Das arithmetische Mittel X ist nach Satz 3.1 wirksamster linearer Schätzer für die Lokation E(X) = µ. Bei symmetrischen Verteilungen stimmt der Erwartungswert µ mit dem Median x0.50 = m überein. Nach Satz 3.1 wird der Median m durch den empirischen Median Xmed geschätzt, der als Ordnungsstatistik ein nicht-linearer Schätzer ist. Beispiel 11 vergleicht diese beiden Schätzer. • Falls Xi ∼ N (0, σ) ist das arithmetische Mittel X ein wirksamerer Schätzer für die Lokation µ = x0.5 = 0 als der Median Xmed . • Falls Xi ∼ L(0, λ) ist aber der Median Xmed ein asymptotisch wirksamerer Schätzer für die Lokation µ = x0.5 = 0 als das arithmetische Mittel X .