5. Statistische Schätztheorie Problem: • Sei X eine Zufallsvariable (oder X ein Zufallsvektor), die einen interessierenden Zufallsvorgang repräsentiere • Man möchte die tatsächliche Verteilung von X (oder X) kennenlernen Man beachte: • In praxi ist die Verteilung von X zunächst unbekannt 191 Deshalb: • Sammle Informationen über die unbekannte Verteilung des Zufallsvorgangs, indem man diesen (und damit die Zufallsvariable X) mehrfach beobachtet −→ Zufallsstichprobe −→ Statistiken −→ Schätzer 192 5.1 Stichproben, Schätzer, Grenzwertsätze Situation: • Sei X die Zufallsvariable, die den interessierenden Zufallsvorgang repräsentiere (zunächst Betrachtung univariater Variablen) • Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt n mal zu beobachten • Vor den Realisierungen kann man die n potenziellen Beobachtungen als ZV’en X1, . . . , Xn auffassen 193 Definition 5.1: (Stichprobe) Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn (a) jedes Xi, i = 1, . . . , n, wie X verteilt ist, (b) X1, . . . , Xn stochastisch unabhängig sind. Die Anzahl n heißt Stichprobenumfang. 194 Bemerkungen: • Der interessierende Zufallsvorgang kann prinzipiell beliebig oft wiederholt werden • Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißen konkrete Stichprobe • Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor, so ist die gemeinsame Dichtefunktion wegen der Unabhängigkeit gegeben durch fX1,...,Xn (x1, . . . , xn) = n Y i=1 fXi (xi) (vgl. Definition 3.8, Folie 125) 195 Modell der einfachen Zufallsstichprobe Zufallsvorgang X X1 (ZV) X2 (ZV) ... Xn (ZV) x1 (Realisation 1. Exp.) x2 (Realisation 2. Exp.) ... xn (Realisation n. Exp.) Mögliche Realisationen 196 Jetzt: • Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn −→ Statistiken −→ Schätzer Definition 5.2: (Statistik, Stichprobenfunktion) Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g : Rn −→ R eine reellwertige Funktion mit n Argumenten, die keine unbekannten Parameter enthält. Dann nennt man die ZV T = g(X1, . . . , Xn) eine Statistik oder Stichprobenfunktion. 197 Beispiele: • Stichprobenmittel: n 1 X X = g1(X1, . . . , Xn) = · Xi n i=1 • Stichprobenvarianz: n 2 1 X 2 S = g2(X1, . . . , Xn) = · Xi − X n i=1 • Stichprobenstandardabweichung: v u n 2 u1 X Xi − X S = g3(X1, . . . , Xn) = t · n i=1 198 Bemerkungen: • Alle bisherigen Begriffe können inhaltsgleich auf den multivariaten Fall übertragen werden • Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’en und damit selbst eine ZV −→ eine Statistik hat eine Verteilung (d.h. auch einen Erwartungswert und eine Varianz) Zweck von Statistiken: • Liefern Informationen über die Verteilung von X • Sind Grundbausteine beim Schätzen von Parametern Testen von Hypothesen über Parameter 199 Stichproben und Statistiken Stichprobe ( X1, . . ., Xn) g( X1, . . ., Xn) Statistik Messung Stichprobenrealisation ( x1, . . ., xn) g( x1, . . ., xn) Realisation der Statistik 200 Jetzt folgende Situation: • Es sei X (oder X) eine ZV’e mit unbekannter VF FX (x) • Wir interessieren uns für einen oder mehrere Parameter von X • Es sei θ dieser unbekannte Parametervektor, z.B. θ= " E(X) Var(X) # • Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N (µ, σ 2), nicht aber die Parameter, d.h. θ= " µ σ2 # • Der unbekannte Parametervektor wird mit Hilfe von Statistiken einer Stichprobe X1, . . . , Xn geschätzt 201 Definition 5.3: (Schätzer, Schätzwert) b (X , . . . , X ) heißt Schätzer (auch Schätzfunktion) Die Statistik θ n 1 für den unbekannten Parametervektor θ . Für die konkrete Stichprobe x1, . . . , xn bezeichnet man die damit verbundene Realb (x , . . . , x ) als Schätzwert. isierung des Schätzers θ n 1 Bemerkungen: b (X , . . . , X ) ist ein Zufallsvektor • Der Schätzer θ n 1 −→ Schätzer hat eine Verteilung, einen Erwartungswert und eine Varianz b (x , . . . , x ) ist dagegen eine Zahl oder ein • Der Schätzwert θ n 1 Zahlenvektor 202 Beispiel: • X sei N (µ, σ 2)-verteilt mit unbek. Parametern µ und σ 2 • Der zu schätzende Parametervektor ist dann θ= " µ σ2 # = " E(X) Var(X) # • Mögliche Schätzer für µ und σ 2 sind n 1 X µ̂ = Xi n i=1 und −→ ein Schätzer für θ ist θb = " µ̂ σ̂ 2 n X 1 σ̂ 2 = (Xi − µ̂)2 n − 1 i=1 # 1 Pn X i=1 i = 1 n Pn 2 n − 1 i=1 (Xi − µ̂) 203 Frage: • Wozu braucht man das scheinbar komplizierte theoretische Konzept des Schätzers als Zufallsvariable? Antwort: • Zum Vergleich alternativer Schätzer für ein und denselben Parametervektor θ im Hinblick auf bestimmte Güteeigenschaften Beispiel: • Es sei θ = Var(X) die Varianz von X 204 • Zwei alternative Schätzer für θ sind n 2 1 X θ̂1(X1, . . . , Xn) = Xi − X n i=1 n 2 1 X θ̂2(X1, . . . , Xn) = Xi − X n − 1 i=1 Frage: • Welcher Schätzer ist ’besser’ und warum? −→ Eigenschaften (Qualitätskriterien) von Punktschätzern (vgl. Abschnitt 5.2) 205 Wichtig: • Einige dieser Kriterien beurteilen das Verhalten eines Schätzers für große Stichprobenumfänge (n → ∞, Große-Stichproben-Eigenschaften) Deshalb: • Erläuterung einiger stochastischer Konvergenzbegriffe: Zentraler Grenzwertsatz Schwaches Gesetz der großen Zahl Konvergenz nach Wahrscheinlichkeit Konvergenz nach Verteilung 206 Satz 5.4: (Univariater zentraler Grenzwertsatz) Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ und Var(X) = σ 2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobe aus X und n 1 X Xi Xn = n i=1 das arithmetische Stichprobenmittel. Dann gilt für n → ∞: X n ∼ N µ, σ2 n ! bzw. √ Xn − µ n ∼ N (0, 1). σ Jetzt: • Verallgemeinerung auf multivariaten Fall 207 Satz 5.5: (Multivariater zentraler Grenzwertsatz) Es sei X = (X1, . . . , Xm)0 ein beliebig verteilter Zufallsvektor mit E(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . , Xn eine (multivariate) einfache Stichprobe aus X und n 1 X Xn = Xi n i=1 das multivariate arithmetische Stichprobenmittel. Dann gilt für n → ∞: √ 1 Xn ∼ N µ , Σ bzw. n Xn − µ ∼ N (0, Σ). n 208 Bemerkungen: • Eine multivariate einfache Stichprobe aus dem Zufallsvektor X erhält man, indem man in Definition 5.1 (Folie 194) alle univariaten Zufallsvariablen durch entsprechende multivariate Zufallsvektoren ersetzt • Man beachte die formale Analogie zum univariaten Fall in Satz 5.4 (Rechenoperationen für Matrizen beachten!) Jetzt: • Bekannter Satz über das arithmetische Stichprobenmittel 209 Satz 5.6: (Schwaches Gesetz der großen Zahl) Es sei X1, X2, . . . eine Folge von unabhängigen und identisch verteilten Zufallsvariablen mit E(Xi) = µ < ∞, Var(Xi) = σ 2 < ∞. Weiterhin betrachte man die Zufallsvariable n 1 X Xi Xn = n i=1 (arithmetisches Stichprobenmittel). Für jedes > 0 gilt dann: lim P X n − µ ≥ = 0. n→∞ 210 Bemerkungen: • Satz 5.6 ist das schwache Gesetz der großen Zahl • Für jedes noch so kleine > 0 konvergiert die Wskt., dass X n um ± vom Erwartungswert µ abweicht, bei zunehmendem Stichprobenumfang gegen Null • Man beachte die Analogie zwischen einer Folge von unabhängig, identisch verteilten ZV’en und der Definition 5.1 (Folie 194) einer einfachen Stichprobe aus X Jetzt: • Erster wichtiger Konvergenzbegriff 211 Definition 5.7: (Konvergenz nach Wahrscheinlichkeit) Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die Folge Y1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn für jedes > 0 gilt: lim P (|Yn − θ| ≥ ) = 0. n→∞ Man notiert die Konvergenz nach Wahrscheinlichkeit mit plim Yn = θ oder p Yn → θ. Bemerkungen: • Spezialfall: Schwaches Gesetz der großen Zahlen plim X n = µ oder p Xn → µ 212 • Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folge der ZV’en meistens gegen einen Wert (θ ∈ R) • Für multivariate Folgen von Zufallsvektoren Y1, Y2, . . . ist die Definition 5.7 elementweise anzuwenden • Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beurteilung von Schätzern eine wichtige Rolle Jetzt: • Alternativer stochastischer Konvergenzbegriff 213 Definition 5.8: (Konvergenz nach Verteilung) Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eine Zufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nach Verteilung gegen Z, wenn lim FYn (y) = FZ (y) n→∞ für jedes y ∈ R. Man notiert die Konvergenz nach Verteilung mit d Yn → Z. Bemerkungen: • Spezialfall: Zentraler Grenzwertsatz √ Xn − µ d → U ∼ N (0, 1) Yn = n σ • Bei der Konvergenz nach Verteilung strebt die Folge der ZV’en stets gegen eine Zufallsvariable 214 Satz 5.9: (plim -Rechenregeln) Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen für die gilt plim Xn = a bzw. plim Yn = b. Dann gilt: (a) plim (Xn ± Yn) = a ± b. (b) plim (Xn · Yn) = a · b. (c) plim Xn = a , falls b 6= 0. Yn b (d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funktion ist, dann gilt plim g (Xn) = g(a). 215 Bemerkung: • Eine mit dem Slutsky-Theorem verwandte Eigenschaft gilt auch für die Konvergenz nach Verteilung d Satz 5.10: (→-Rechenregel) Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls d eine Zufallsvariable und es gelte Xn → Z. Weiterhin sei h : R −→ R eine stetige Funktion. Dann gilt: d h (Xn) → h(Z). Jetzt: • Verbindung der beiden Konvergenzkonzepte 216 Satz 5.11: (Cramér-Theorem) Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen, Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = a d und Yn → Z. Dann gelten: d (a) Xn + Yn → a + Z. d (b) Xn · Yn → a · Z. Beispiel: • Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) = µ bzw. Var(X) = σ 2 217 • Man kann zeigen, dass plim Sn∗2 = plim n 2 1 X Xi − X n = σ 2 n − 1 i=1 n 2 1 X 2 plim Sn = plim Xi − X n = σ 2 n i=1 • Für g1(x) = x/σ 2 folgt aus dem Slutksky-Theorem: plim g1 Sn∗2 plim g1 Sn2 Sn∗2 = plim 2 = g1(σ 2) = 1 σ Sn2 = plim 2 = g1(σ 2) = 1 σ 218 √ • Für g2(x) = σ/ x folgt aus dem Slutksky-Theorem: σ ∗2 = plim ∗ = g2(σ 2) = 1 plim g2 Sn Sn plim g2 Sn2 σ = g2(σ 2) = 1 = plim Sn • Mit dem zentralen Grenzwertsatz folgt: √ Xn − µ d n → U ∼ N (0, 1) σ 219 • Mit dem Cramér-Theorem folgt: √ Xn − µ ∗2 g2 Sn · n σ = σ √ Xn − µ · n ∗ Sn σ √ Xn − µ = n Sn∗ d → 1·U = U ∼ N (0, 1) • Ebenso liefert das Cramér-Theorem: √ Xn − µ d → U ∼ N (0, 1) n Sn 220 5.2 Eigenschaften von Schätzern Inhalt von Definition 5.3: • Ein Schätzer ist eine Statistik (Stichprobenfunktion) −→ Es gibt verschiedene Schätzer für den unbekannten Parametervektor θ Beispiel: • Es seien X ∼ N (0, σ 2) mit unbekannter Varianz σ 2 und X1, . . . , Xn eine einfache Stichprobe aus X • Mögliche Schätzer für θ = σ 2 sind: n 2 1 X θ̂1 = Xi − X n i=1 bzw. n 2 1 X θ̂2 = Xi − X n − 1 i=1 221 Wichtige Fragen: • Welche Qualitätskriterien dienen zur Auswahl eines ’guten’ Schätzers ? • Wie findet man ’gute’ Schätzer ? 1. Qualitätseigenschaft: • Konzept der wiederholten Stichprobe: Ziehe mehrere einfache Stichproben aus X Betrachte den Schätzer an jeder Stichprobe Eine ’Mittelung’ der Schätzwerte sollte ’nahe’ am unbekannten Parameter liegen (keine systematische Verzerrung) −→ Erwartungstreue eines Schätzers 222 Definition 5.12: (Erwartungstreue, Verzerrung) Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls h i E θ̂(X1, . . . , Xn) = θ. Unter der Verzerrung des Schätzers (engl. Bias) versteht man den Abstand Bias(θ̂) = E(θ̂) − θ. Bemerkungen: • Übertragung auf den multivariaten Fall möglich • Bei erwartungstreuen Schätzern ist der Bias gleich Null 223 Jetzt: • Wichtiges allgemeingültiges Resultat Satz 5.13: (E-treue Schätzer für E(X) und Var(X)) Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter Varianz σ 2 = Var(X). Dann sind die beiden Schätzer bzw. n 1 X µ̂(X1, . . . , Xn) = X = · Xi n i=1 σ̂ 2(X1, . . . , Xn) = S 2 = n 2 X 1 Xi − X · n − 1 i=1 stets erwartungstreu für die Parameter µ = E(X) und σ 2 = Var(X). 224 Bemerkungen: • Beweis: Übungsaufgabe • Man beachte, dass keine explizite Verteilung für X unterstellt wird • Erwartungstreue pflanzt sich bei Parametertransformationen nicht beliebig fort, z.B. ist q √ 2 S = S nicht erwartungstreu für σ = SD(X) = Var(X) Frage: • Wie kann man zwei erwartungstreue Schätzer für den unbekannten Parameter θ miteinander vergleichen? 225 Definition 5.14: (Relative Effizienz) Es seien θ̂1 und θ̂2 zwei erwartungstreue Schätzer für den unbekannten Parameter θ. Dann heißt θ̂1 relativ effizienter als θ̂2, falls gilt Var(θ̂1) ≤ Var(θ̂2) für alle möglichen Parameterwerte für θ und Var(θ̂1) < Var(θ̂2) für mindestens einen möglichen Parameterwert für θ. 226 Beispiel: • Es sei θ = E(X) • Betrachte die beiden Schätzer n 1 X Xi θ̂1(X1, . . . , Xn) = n i=1 n X 1 X1 θ̂2(X1, . . . , Xn) = + Xi 2 2(n − 1) i=2 • Welcher Schätzer ist relativ effizienter ? (Übungsaufgabe) Frage: • Wie vergleicht man 2 Schätzer, wenn (mindestens) einer verzerrt ist? 227 Definition 5.15: (Mittlerer quadratischer Fehler) Es sei θ̂ ein beliebiger Schätzer für den unbekannten Parameter θ. Unter dem mittleren quadratischen Fehler (mean-squared error) des Schätzers versteht man die Maßzahl MSE(θ̂) = E θ̂ − θ 2 h = Var θ̂ + Bias(θ̂) i2 . Bemerkungen: • Bei einem erwartungstreuen Schätzer ist der MSE gleich der Varianz des Schätzers • Der MSE eines Schätzers θ̂ hängt i.d.R. vom Wert des unbekannten Parameters θ ab 228 Vergleich beliebiger Schätzer: • Über ihre MSEs Definition 5.16: (MSE-Effizienz) Es seien θ̂1 und θ̂2 zwei beliebige Schätzer für den unbekannten Parameter θ. Dann heißt θ̂1 MSE-efffizienter als θ̂2, falls gilt MSE(θ̂1) ≤ MSE(θ̂2) für alle möglichen Parameterwerte für θ und MSE(θ̂1) < MSE(θ̂2) für mindestens einen möglichen Parameterwert für θ. 229 Vergleich erwartungstreuer vs. verzerrter Schätzer ∧ θ 2 ( X 1, K , X n ) ∧ θ 1 ( X 1, K , X n ) θ 230 Bemerkungen: • Oft sind 2 Schätzer für θ nicht im Sinne der MSE-Effizienz vergleichbar, da sich die MSE-Kurven schneiden • Es gibt kein allgemeines mathematisches Prinzip zur Bestimmung eines MSE-effizienten Schätzers • Es gibt aber Methoden, unter allen erwartungstreuen Schätzern den mit der gleichmäßig geringsten Varianz zu bestimmen −→ Beschränkung auf erwartungstreue Schätzer • Diese Methoden nicht Gegenstand der VL (Theoreme von Rao-Blackwell, Lehmann-Scheffé) • Hier nur ein wichtiges Resultat: 231 Satz 5.17: (Cramér-Rao Varianzuntergrenze) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zu schätzender Parameter. Man betrachte die gemeinsame Dichtefunktion der Stichprobe, fX1,...,Xn (x1, . . . , xn), und definiere den Wert !2−1 ∂ fX1,...,Xn (X1, . . . , Xn) . CR(θ) ≡ E ∂θ Unter bestimmten Voraussetzungen gilt dann für jeden beliebigen erwartungstreuen Schätzer θ̂(X1, . . . , Xn): Var(θ̂) ≥ CR(θ). 232 Bemerkungen: • Der Wert CR(θ) ist die geringste Varianz, die ein erwartungstreuer Schätzer haben kann −→ Optimalitätskriterium für erwartungstreue Schätzer • Gilt für den erwartungstreuen Schätzer θ̂(X1, . . . , Xn) Var(θ̂) = CR(θ), so bezeichnet man θ̂ als UMVUE-Schätzer (Uniformly Minimum-Variance Unbiased Estimator) 233 2. Qualitätseigenschaft: • Lasse den Stichprobenumfang wachsen (n → ∞): Notation: θ̂n(X1, . . . , Xn) = θ̂(X1, . . . , Xn) Untersuchung der Eigenschaften der asymptotischen Verteilung von θ̂n −→ Konsistenz eines Schätzers Definition 5.18: ((Schwache) Konsistenz) Der Schätzer θ̂n(X1, . . . , Xn) heißt (schwach) konsistent für θ, falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls plim θ̂n(X1, . . . , Xn) = θ. 234 Beispiel: • Es sei X ∼ N (µ, σ 2) mit σ 2 bekannt (z.B. σ 2 = 1) • Betrachte 2 Schätzer für µ: n 1 X Xi µ̂n(X1, . . . , Xn) = n i=1 n X 2 1 ∗ µ̂n(X1, . . . , Xn) = Xi + n i=1 n • µ̂n ist (schwach) konsistent für µ (Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl) 235 • µ̂∗n ist (schwach) konsistent für µ (folgt aus Satz 5.9(a), Folie 215) • Exakte Verteilung von µ̂n: µ̂n ∼ N (µ, σ 2/n) (Lineare Transformation der NV) • Exakte Verteilung von µ̂∗n: µ̂∗n ∼ N (µ + 2/n, σ 2/n) (Lineare Transformation der NV) 236 Dichtefunktionen des Schätzers µ̂n für n = 2, 10, 20 (σ 2 = 1) 8 6 4 2 0 -1 -0.5 µ=0 0.5 1 237 Dichtefunktionen des Schätzers µ̂∗n für n = 2, 10, 20 (σ 2 = 1) 8 6 4 2 0 -0.5 µ=0 0.5 1 1.5 2 2.5 238 Bemerkungen: • Hinreichende (aber nicht notwendige) Bedingung für Konsistenz: lim E(θ̂n) = θ n→∞ (asymptotische Erwartungstreue) lim Var(θ̂n) = 0 n→∞ • Mögliche Eigenschaften eines Schätzers: konsistent und erwartungstreu inkonsistent und erwartungstreu konsistent und verzerrt inkonsistent und verzerrt 239 Jetzt: • Anwendung des zentralen Grenzwertsatzes auf Schätzer −→ asymptotische Normalität des Schätzers Definition 5.19: (Asymptotische Normalität) Ein Schätzer θ̂n(X1, . . . , Xn) für den unbekannten Parameter θ heißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlen θ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt: √ d n · θ̂n − θn → U ∼ N (0, V (θ)). 240 Bemerkungen: • Andere Schreibweise: appr. θ̂n ∼ N (θn, V (θ)/n) • Zur asymptotischen Normalität gibt es eine multivariate Verallgemeinerung 241 5.3 Schätzmethoden Bisher: • Definitionen + Qualitätskriterien für Schätzer Jetzt: • Konstruktion von Schätzern 3 traditionelle Verfahren: • Methode der kleinsten Quadrate (KQ) • Momenten-Methode (MM) • Maximum-Likelihood-Methode (ML) 242 Bemerkungen: • Es gibt weitere Verfahren (z.B. die verallgemeinerte Momenten-Methode, GMM) • Hier: hauptsächlich ML-Methode 243 5.3.1 Kleinste-Quadrate-Methode Historie: • Eingeführt von A.M. Legendre (1752-1833) C.F. Gauß (1777-1855) Idee: • Approximiere verrauschte Beobachtungen x1, . . . , xn durch Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch S(x1, . . . , xn; θ ) = • KQ-Schätzer ist dann n X [xi − gi(θ )]2 −→ min θ i=1 θb (X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ ) 244 Bemerkung: • KQ-Methode ist zentrale Schätztechnik beim linearen Regressionsmodell (vgl. VLen Ökonometrie I + II) 245 5.3.2 Momenten-Methode Historie: • Eingeführt von K. Pearson (1857-1936) Definition 5.20: (Theoretische und empirische Momente) (a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dann ist das gewöhnliche theoretische p-te Moment von X (in Zeichen: µ0p) definiert als als µp0 = E(X p). Das zentrale theoretische p-te Moment von X (in Zeichen: µp) ist definiert durch µp = E {[X − E(X)]p} . 246 (b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und es bezeichne X das arithmetische Stichprobenmittel. Dann ist das gewöhnliche empirische p-te Moment (in Zeichen: µ̂0p) definiert durch n 1 X p 0 Xi . µ̂p = n i=1 Das zentrale empirische p-te Moment (in Zeichen: µ̂p) ist definiert durch n p 1 X µ̂p = Xi − X . n i=1 247 Bemerkungen: • Die theoretischen Momente µ0p und µp wurden bereits in der Definition 2.21 (Folie 76) eingeführt • Die empirischen Momente µ̂0p bzw. µ̂p sind Schätzer für die theoretischen Momente µ0p bzw. µp • Das arithmetische Stichprobenmittel ist das 1. gewöhnliche empirische Moment von X1, . . . , Xn • Die Stichprobenvarianz ist das 2. zentrale empirische Moment von X1, . . . , Xn 248 Ausgangssituation: • Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen die r unbekannten Parameter θ1, . . . , θr geschätzt werden Grundidee der Momentenmethode: 1. Drücke r theoretische Momente als Funktionen der r unbekannten Parameter aus: µ01 = g1(θ1, . . . , θr ) ... µ0r = gr (θ1, . . . , θr ) 249 2. Drücke die r unbekannten Parameter als Funktionen der r theoretischen Momente aus: θ1 = h1(µ1, . . . , µr , µ01, . . . , µ0r ) ... 0 , . . . , µ0 ) θr = hr (µ1, . . . , µr , µ1 r 3. Ersetze theoretische durch empirische Momente: θ̂1(X1, . . . , Xn) = h1(µ̂1, . . . , µ̂r , µ̂01, . . . , µ̂0r ) ... θ̂r (X1, . . . , Xn) = hr (µ̂1, . . . , µ̂r , µ̂01, . . . , µ̂0r ) 250 Beispiel: (Exponentialverteilung) • Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0, falls X die Dichtefunktion fX (x) = ( λe−λx 0 , für x > 0 , sonst aufweist • Es gilt: 1 E(X) = λ Var(X) = 1 λ2 251 • Momentenschätzer über den Erwartungswert: 1. Wir wissen: 1 0 E(X) = µ1 = λ 2. Also folgt: 1 λ= 0 µ1 3. Momentenschätzer für λ: λ̂(X1, . . . , Xn) = 1 Pn 1/n i=1 Xi 252 • Momentenschätzer über die Varianz: 1. Wir wissen: 1 Var(X) = µ2 = 2 λ 2. Also folgt: λ= s 1 µ2 3. Momentenschätzer für λ: v u u λ̂(X1, . . . , Xn) = u t 1 2 Pn 1/n i=1 Xi − X −→ Momentenschätzer für einen unbekannten Parameter sind nicht eindeutig bestimmt 253 Bemerkungen: • Momentenschätzer sind konsistent, denn 0 , . . . , µ̂0 ) plim θ̂1 = plim h1(µ̂1, . . . , µ̂r , µ̂1 r 0 , . . . , plim µ̂0 ) = h1(plim µ̂1, . . . , plim µ̂r , plim µ̂1 r = h1(µ1, . . . , µr , µ01, . . . , µ0r ) = θ1 • I.a. sind Momentenschätzer nicht erwartungstreu • Momentenschätzer sind (i.a.) asymptotisch normalverteilt • Die asymptotischen Varianzen sind häufig schwer zu bestimmen 254 5.3.3 Maximum-Likelihood-Methode Historie: • Eingeführt von Ronald Fisher (1890-1962) Grundidee: • Schätze die unbekannten Parameter θ1, . . . , θr derart, dass die Wahrscheinlichkeit (likelihood) der konkreten Stichprobe x1, . . . , xn als Funktion der unbekannten Parameter maximal wird 255 Beispiel: • Eine Urne enthalte schwarze und weiße Kugeln • Bekannt ist das Verhältnis der Kugelanzahlen von 3 : 1 • Unbekannt ist, welche der Kugeln häufiger vorkommt • Ziehe n Kugeln mit Zurücklegen • X bezeichne die Anzahl schwarzer gezogener Kugeln • Verteilung von X: n P (X = x) = px(1−p)n−x, x (Binomialverteilung) x ∈ {0, 1, . . . , n}, p ∈ {0.25, 0.75} 256 • p ∈ {0.25, 0.75} ist zu schätzender Parameter • Ziehe eine Stichprobe vom Umfang n = 3 −→ Mögliche Stichprobenausgänge: Anzahl schwarze Kugeln: x P (X = x; p = 0.25) P (X = x; p = 0.75) 0 1 2 3 27 64 1 64 27 64 9 64 9 64 27 64 1 64 27 64 • Intuitives Schätzen: Schätze p als den Wert, der die Wskt. der tatsächlichen Beobachtung x (ex-ante) maximiert: ( 0.25 , für x = 0, 1 0.75 , für x = 2, 3 −→ Maximum-Likelihood-Methode p̂ = 257 Jetzt: • Formalisierung der Maximum-Likelihood-Methode Begriffe: • Likelihood-, Loglikelihoodfunktion • Maximum-Likelihood-Schätzer Definition 5.21: (Likelihoodfunktion) Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als die gemeinsame Dichte der n ZV’en, fX1,...,Xn (x1, . . . , xn; θ ), jedoch aufgefasst als eine Funktion des Parametervektors θ . 258 Bemerkungen: • Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigen ZV’en X mit Dichtefunktion fX (x, θ ), so ist fX1,...,Xn (x1, . . . , xn; θ ) = n Y i=1 fXi (xi; θ ) = n Y fX (xi; θ ) i=1 • Die Likelihoodfunktion wird oft mit L(θ ; x1, . . . , xn) oder L(θ ) bezeichnet, also im vorhergehenden Fall L(θ ; x1, . . . , xn) = L(θ ) = n Y fX (xi; θ ) i=1 259 • Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’en X, so ist die Likelihoodfunktion L(θ ; x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ ) = n Y P (X = xi; θ ) i=1 (Hier: Likelihood = Wahrscheinlichkeit der Stichprobe) Beispiel: • Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N (µ, σ 2). Dann ist θ = (µ, σ 2)0 und L(θ ; x1, . . . , xn) = = n Y i=1 √ 1 2πσ 2 1 2πσ 2 2 −1/2((x −µ)/σ) i e n/2 · exp − n X 1 2 (x − µ) i 2σ 2 i=1 260 Definition 5.22: (Maximum-Likelihood Schätzer) Es sei L(θ , x1, . . . , xn) die Likelihoodfunktion der einfachen Stichb (wobei θ b (x , . . . , x ) von den probe X1, . . . , Xn. Es bezeichne θ n 1 Beobachtungen x1, . . . , xn abhängt) denjenigen Parametervektor, b (X , . . . , X ) der der L(θ , x1, . . . , xn) maximiert. Dann heißt θ n 1 Maximum-Likelihood Schätzer von θ . Bemerkungen: • Man erhält den ML-Schätzer über die Maximierung der Likelihood-Funktion b ; x , . . . , x ) = max L(θ ; x , . . . , x ) L(θ n n 1 1 θ und anschließendem Ersetzen der Realisationen x1, . . . , xn durch die Stichprobenvariablen X1, . . . , Xn 261 • Oft ist die Maximierung der Loglikelihoodfunktion ln[L(θ ; x1, . . . , xn)] einfacher (Man beachte: L(θ ) und ln[L(θ )] haben ihre Maxima an derselben Stelle) b = (θ̂ , . . . , θ̂ )0 durch Lösen des Gleichungs• Man bestimmt θ r 1 systems ∂ ln[L(θ ; x1, . . . , xn)] = 0 ∂ θ1 ... ∂ ln[L(θ ; x1, . . . , xn)] = 0 ∂ θr 262 Beispiel: • Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N (µ, σ 2) mit Likelihoodfunktion L(µ, σ 2) = 1 2πσ 2 n/2 · exp − • Die Loglikelihoodfunktion ist n X 1 2 µ) (x − i 2σ 2 i=1 L∗(µ, σ 2) = ln[L(µ, σ 2)] n X n n 1 2 µ = − ln(2π) − ln(σ 2) − x − ) ( i 2 2 2σ 2 i=1 263 • Die partiellen Ableitungen lauten bzw. n ∂ L∗(µ, σ 2) 1 X = 2 (xi − µ) ∂µ σ i=1 n ∂ L∗(µ, σ 2) 1 X n 1 2 = − + − µ) (x i ∂ σ2 2 σ2 2σ 4 i=1 • Gleich-Null-Setzen, Lösen des Gleichungssystems und Ersetzen der Realisationen durch die Stichprobenvariablen liefert die ML-Schätzer n 1 X Xi = X µ̂(X1, . . . , Xn) = n i=1 σ̂ 2(X1, . . . , Xn) = n 2 1 X Xi − X n i=1 264 Eigenschaften der ML-Methode: • Verteilungsannahmen sind unbedingt notwendig • Unter bestimmten Bedingungen haben ML-Schätzer sehr angenehme Eigenschaften: 1. Wenn θ̂ der ML-Schätzer für θ ist, dann ist g(θ̂) der MLSchätzer von g(θ) (Äquivarianz) 2. Konsistenz: plim θ̂n = θ 265 3. Asymptotische Normalität: √ d n θ̂n − θ → U ∼ N (0, V (θ)) 4. Asymptotische Effizienz: V (θ) ist die Cramér-Rao-Untergrenze 5. Berechenbarkeit (numerische Methoden) 6. Quasi-ML-Schätzung: ML-Schätzer, berechnet auf der Basis normalverteilter Stichproben, sind robust gegenüber Abweichungen von normalverteilten Grundgesamtheiten 266