17 Punkt-Schätzung Aufgabe: Mit Hilfe einer vorgegebenen Stichprobe x = (x1 , . . . , xn ) ist ein möglichst guter ” Näherungswert“ für den unbekannten Wert γ(ϑ) zu finden. Dabei ist γ : Θ → R eine auf Θ erklärte Funktion. 17.1 Beispiel a) Schätzen von ϑ selbst (falls ϑ ∈ R) Hierbei ist γ(ϑ) = ϑ. b) Schätzen des Erwartungswertes γ(ϑ) = Eϑ X1 ist der unbekannte Erwartungswert der Stichprobenvariablen. c) Schätzen der Varianz γ(ϑ) = Vϑ (X1 ) ist die unbekannte Varianz der Stichprobenvariablen. d) Schätzen von Wahrscheinlichkeiten Sei B ∈ B eine beliebige Menge. Zu schätzen ist γ(ϑ) = Pϑ (X1 ∈ B), also die Wahrscheinlichkeit, dass die Stichprobenvariablen einen Wert in B annehmen. 17.2 Modellannahmen: X1 , . . . , Xn sind unabhängig und identisch verteilt mit Verteilung Qϑ . fϑ sei die Zähldichte bzw. Dichte von X1 , falls X1 diskret bzw. stetig ist. M ⊂ R sei der Wertebereich der Zufallsvariablen X1 , . . . , Xn . Die Stichproben x = (x1 , . . . , xn ) sind Elemente des Stichprobenraumes S := M n. 17.3 Definition (Schätzfunktion) Jede Abbildung ( T: S → R x = (x1 , . . . , xn ) → T (x1 , . . . , xn ) heißt Schätzer (oder Schätzfunktion) für γ(ϑ). T (x) heißt Schätzwert für γ(ϑ) zur Stichprobe x. 17.1 Prinzipien zur Konstruktion von Schätzern 17.1.1 Schätzen von Maßzahlen durch entsprechende empirische Maßzahlen Median t1/2 (X1 ) Schätzer P x̄ = n1 nj=1 xj Pn 1 k j=1 xj n Pn 1 2 s2x = n−1 j=1 (xj − x̄) bzw. P s̃2x = n1 nj=1 (xj − x̄)2 Quantil tp (X1 ) empirisches Quantil x̃p Pϑ (X1 ∈ B) relative Häufigkeit hx (B) γ(ϑ) Eϑ X1 Eϑ (X1k ) Vϑ (X1 ) empirischer Median x̃ 17.1.2 Die Maximum-Likelihood-Methode Vorgehen: Die Beobachtungen x1 , . . . , xn seien Realisierungen von diskreten Zufallsvariablen X1 , . . . , Xn . Wähle denjenigen Parameterwert ϑ, der dem beobachteten Ereignis {X1 = x1 , . . . , Xn = xn } die größte Wahrscheinlichkeit des Eintretens verleiht; maximiere also die Wahrscheinlichkeit Pϑ (X1 = x1 , . . . , Xn = xn ) = fϑ (x1 ) . . . fϑ (xn ) als Funktion von ϑ. Bei stetigen Zufallsvariablen X1 , . . . , Xn geht man analog vor: man maximiert die gemeinsame Dichte fϑ (x1 ) . . . fϑ (xn ) bezüglich ϑ; dies ist aber keine Wahrscheinlichkeit mehr! 17.4 Definition a) Für eine feste Stichprobe x = (x1 , . . . , xn ) heißt ϑ → Lx (ϑ) : = n Y fϑ (xj ) = fϑ (x1 ) · . . . · fϑ (xn ), ϑ ∈ Θ, j=1 die Likelihood-Funktion zu x. b) Wenn für jedes x die Funktion Lx (·) einen Maximalwert in ϑ annimmt, d.h., wenn zu jedem x ein ϑ̂(x) ∈ Θ mit Lx (ϑ̂(x)) = max{Lx (ϑ) : ϑ ∈ Θ} (17.1) existiert, so heißt ϑ̂(x) Maximum–Likelihood-Schätzwert von ϑ zur Beobachtung x. Ein Schätzer ϑ̂ : S −→ Θ mit der Eigenschaft (17.1) heißt Maximum–Likelihood– Schätzer (ML–Schätzer) für ϑ. Oft gilt: ML-Schätzer ϑ̂ existiert, er ist eindeutig bestimmt, und er ist gewöhnlich ein guter“ Schätzer für ϑ. ” Meist ist es zweckmäßig, statt Lx die sogenannte Loglikelihood-Funktion Mx (ϑ) := log Lx (ϑ) = n X log(fϑ (xj )) j=1 zu betrachten, die wegen der Monotonie der Logarithmus-Funktion das Maximum an der gleichen Stelle hat. Rechenregel für Logarithmus: log(a · b) = log(a) + log(b) Ist Θ = (a, b) ein offenes Intervall und Mx stetig differenzierbar auf Θ, so führt die Bestimmung von ϑ̂ auf nachfolgendes Maximum-Likelihood-Verfahren: a) Berechne die Loglikelihood-Funktion Mx (ϑ) = n X log(fϑ (xj )), ϑ ∈ Θ. j=1 b) Bestimme Mx′ (ϑ) aus Mx (ϑ) oder direkt Mx′ (ϑ) = n X d = log(fϑ (xj )). fϑ (xj ) dϑ j=1 n X f ′ (xj ) ϑ j=1 c) Ist M ′ (ϑ0 ) = 0 für ein ϑ0 aus [a, b] und Mx′′ (ϑ) ≤ 0 für alle ϑ ∈ Θ, oder ≥ < ′ 0 für ϑ ϑ0 , Mx (ϑ) > ≤ so ist ϑ̃(x) := ϑ0 der gesuchte ML-Schätzwert. In c) reicht es auch aus zu zeigen, dass die Gleichung M ′ (ϑ) = 0 die einzige Lösung ϑ = ϑ0 mit ϑ0 ∈ (a, b) besitzt und dass Mx′′ (ϑ0 ) < 0 gilt. Jede der drei Bedingungen in c) sichert, dass ϑ0 eine Maximumstelle von Mx ist. 17.5 Beispiel Für normalverteilte Stichprobenvariablen X1 , . . . , Xn ∼ N (µ, σ 2) mit ϑ = (µ, σ 2) ∈ Θ := R × (0, ∞) ist ϑ̂(x) = n 1 X x̄, (xj − x̄)2 n j=1 ! n−1 2 = x̄, · sx n der Maximum-Likelihood-Schätzer von ϑ. 17.6 Beispiel Im Bernoulli-Experiment gilt X1 , . . . , Xn ∼ Bin(1, ϑ) mit ϑ ∈ Θ = (0, 1). Hier ist ϑ̂(x) = x̄ der Maximum-Likelihood-Schätzer von ϑ. Hier gilt ϑ̂(x) ∈ [0, 1] ! Die Ableitungsmethode“ versagt, wenn die Funktion Mx nicht stetig ist. ” 17.7 Beispiel Seien die Stichprobenvariablen X1 , . . . , Xn unabhängig mit Verteilung U(0, ϑ) mit einem unbekannten ϑ ∈ Θ := (0, ∞) und der Dichte fϑ (t) = 1/ϑ, 0 ≤ t ≤ ϑ. Bei Vorliegen der Stichprobe x = (x1 , . . . , xn ) mit xj > 0 ist 0 , falls ϑ < max{x1 , . . . , xn }, Lx (ϑ) = 1/ϑn , falls ϑ ≥ max{x1 , . . . , xn } an der Stelle ϑ̂(x) = max{x1 , . . . , xn } unstetig und besitzt dort ihr Maximum. Lx (ϑ) 0 0 max xj 1≤j≤n ϑ