6. Schätzverfahren für Parameter Ausgangssituation: • Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert • X habe eine unbekannte Verteilungsfunktion FX (x) • Wir interessieren uns für einen (oder mehrere) Parameter der Verteilung von X 313 Wichtige Parameter sind: • Der Erwartungswert von X • Die Varianz von X • Werte der VF FX (x) • Quantile der VF FX (x) (vgl. Definition 3.3, Folie 122) 314 Ansatz zur Informationsbeschaffung: • Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus X • Schätze den unbekannten Parameter von X anhand einer geeigneten Statistik T = g(X1, . . . , Xn) der Zufallsstichprobe (vgl. Definition 5.2, Folie 300) 315 6.1 Punktschätzung Bezeichnungen: • Der unbekannte Parameter von X sei θ (z.B. θ = E(X)) • Die Statistik der einfachen Zufallsstichprobe X1, . . . , Xn aus X zur Schätzung des unbekannten Parameters θ wird häufig mit θ̂(X1, . . . , Xn) bezeichnet (memotechnisch sinnvoll) 316 Definition 6.1: (Schätzer, Schätzwert) Die Statistik θ̂(X1, . . . , Xn) heißt Schätzer (auch Schätzfunktion) für den Parameter θ. Hat sich die Zufallsstichprobe X1, . . . , Xn in den Werten x1, . . . , xn realisiert, so bezeichnet man die damit verbundene Realisierung des Schätzers θ̂(x1, . . . , xn) als Schätzwert. Bemerkungen: • Der Schätzer θ̂(X1, . . . , Xn) ist eine Zufallsvariable −→ Schätzer hat Vtlg., E-Wert und Varianz • Der Schätzwert θ̂(x1, . . . , xn) ist dagegen eine Zahl (vgl. Abbildungen auf den Folien 295 + 302) 317 Frage: • Wozu braucht man das scheinbar komplizierte theoretische Konzept des Schätzers als Zufallsvariable? Antwort: • Um alternative Schätzer für ein und denselben Parameter θ im Hinblick auf ihre jeweilige ’Genauigkeit’ miteinander vergleichen zu können 318 Beispiel: • Es sei θ = V (X) die Varianz von X • Zwei alternative Schätzer für θ sind n 2 X 1 2 θ̂1(X1, . . . , Xn) = S = Xi − X n i=1 θ̂2(X1, . . . , Xn) = S ∗2 n 2 1 X Xi − X = n − 1 i=1 Frage: • Welcher Schätzer ist ’besser’ und warum? −→ Eigenschaften von Punktschätzern 319 6.2 Eigenschaften von Punktschätzern Ziel: • Formulierung von Qualitätskriterien zur Beurteilung der Eigenschaften eines Schätzers θ̂(X1, . . . , Xn) für θ Hier 3 Kriterien: • Erwartungstreue • Mittlerer quadratischer Fehler • (schwache) Konsistenz 320 Definition 6.2: (Erwartungstreue) Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls h i E θ̂(X1, . . . , Xn) = θ. Bemerkung: • Anschaulich bedeutet Erwartungstreue, dass der Schätzer θ̂(X1, . . . , Xn) nicht ’systematisch daneben’ schätzt, wenn man den Schätzer nicht nur für eine, sondern für ’viele’ Stichproben auswertet (Gedankenexperiment: Wiederholte Stichprobe) 321 Beispiel 1: [I] • Es sei θ = E(X) • Betrachte den Schätzer n 1 X Xi θ̂(X1, . . . , Xn) = X = n i=1 (arithmetisches Stichprobenmittel) 322 Beispiel 1: [II] • Es gilt: h E θ̂(X1, . . . , Xn) i = E n 1 X n i=1 Xi n n 1 X 1 X E(Xi) = E(X) = n i=1 n i=1 n 1 X 1 = θ = ·n·θ =θ n i=1 n −→ θ̂(X1, . . . , Xn) = X ist erwartungstreu für θ = E(X) (vgl. Satz 4.13, Folie 281) 323 Beispiel 2: [I] • Es sei θ = V (X) die Varianz von X • Betrachte den Schätzer n 2 X 1 2 θ̂1(X1, . . . , Xn) = S = Xi − X n i=1 (Stichprobenvarianz) • Hier gilt h i n−1 ·θ n −→ S 2 ist nicht erwartungstreu für θ = V (X) E θ̂1(X1, . . . , Xn) = E(S 2) = 324 Beispiel 2: [II] • Betrachte korrigierte Stichprobenvarianz θ̂2(X1, . . . , Xn) = S • Hier gilt: h E θ̂2(X1, . . . , Xn) ∗2 i n 2 1 X n = · S2 Xi − X = n − 1 i=1 n−1 n = E(S ∗2) = E · S2 n−1 n n−1 n ·θ = E(S 2) = · n−1 n−1 n = θ = V (X) −→ S ∗2 ist erwartungstreu für θ = V (X) 325 Satz 6.3: (E-treue Schätzer für E(X) und V (X)) Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter Varianz σ 2 = V (X). Dann sind die beiden Schätzer n 1 X Xi µ̂(X1, . . . , Xn) = X = · n i=1 bzw. σˆ2(X1, . . . , Xn) = S ∗2 = n 2 X 1 · Xi − X n − 1 i=1 stets erwartungstreu für die Parameter µ = E(X) und σ 2 = V (X). 326 Vorsicht: • Erwartungstreue pflanzt sich bei Parametertransformationen nicht beliebig fort Beispiel: • Zwar ist S ∗2 erwartungstreu für σ 2 = V (X) • Jedoch ist S ∗ nicht erwartungstreu für σ = q V (X) Bemerkung: • Im übrigen ist auch S nicht E-treu für σ = q V (X) 327 Übersicht: • Weitere Parameter von X und zugehörige potenzielle Schätzer, wie sie aus der deskriptiven Statistik (Statistik I) bekannt sind Parameter Wahrscheinlichkeit Verteilungsfunktion Quantil Standardabweichung Gemeinsame Wskt. Kovarianz Korrelationskoeffizient Potenzieller Schätzer relative Häufigkeit emp. Verteilungsfunktion Quantil emp. Standardabweichung gem. relative Häufigkeit emp. Kovarianz emp. Korrelationskoeffizient Vorsicht: • Die potenziellen Schätzer sind oft, aber nicht immer erwartungstreu für die zu schätzenden Parameter 328 Jetzt: • Strengeres Qualitätskriterium für Schätzer Dichtefunktionen zweier erwartungstreuer Schätzer für den Parameter θ ∧ Dichte von θ 1 ( X1, K , X n ) ∧ Dichte von θ 2 ( X1, K , X n ) θ 329 Intuition: • Ist ein Schätzer erwartungstreu, so ist es günstig, wenn er eine kleine Varianz aufweist −→ Optimal: Erwartungstreuer Schätzer mit minimaler Varianz Problem: • Solche Schätzer sind oft schwer oder gar nicht auffindbar Ausweg: • Kennzahlen zum Vergleich zweier alternativer Schätzer Bekannteste Kennzahl: • Mittlerer quadratischer Fehler 330 Definition 6.4: (Mittlerer quadratischer Fehler) Es sei θ̂(X1, . . . , Xn) einer Schätzer für den unbekannten Parameter θ. Dann heißt die Kennzahl MSE(θ̂) = E[(θ̂ − θ)2] der mittlere quadratische Fehler (englisch: mean squared error) des Schätzers θ̂. Bemerkung: • Der mittlere quadratische Fehler lässt sich auch schreiben als h MSE(θ̂) = V (θ̂) + E(θ̂) − θ | {z i2 } Verzerrung −→ Bei erwartungstreuen Schätzern ist der MSE gleich der Varianz des Schätzers 331 Weiteres Gütekriterium für einen Schätzer: • Konsistenz eines Schätzers Intuition: • Ein Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ heißt konsistent, falls die Schätzung bei zunehmenden Stichprobenumfang immer genauer wird (Konzept wird hier nicht genauer behandelt) 332 Weitere zentrale Fragestellung: • Wie findet man geeignete Schätzer Es gibt allgemeine Konstruktionsprinzipien, z.B. die: • Methode der Kleinsten-Quadrate • Momenten-Methode • Maximum-Likelihood-Methode (Gegenstand der Ökonometrie-VL im Hauptstudium) 333 6.3 Intervallschätzung Bisher: • Schätzung des Parameters θ auf der Basis einer Stichprobe durch Punktschätzung θ̂(X1, . . . , Xn) Problem: • Punktschätzung trifft in der Regel den exakten Wert des unbekannten Parameters θ nicht • Bei Stichproben aus stetigen Verteilungen gilt sogar P θ̂(X1, . . . , Xn) = θ = 0 bzw. P θ̂(X1, . . . , Xn) 6= θ = 1 334 Alternativer Ansatz: • Konstruktion eines zufälligen Intervalls anhand einer Stichprobe X1, . . . , Xn, das den Parameter θ mit einer vorgebenen Wskt. überdeckt Vorteil: • Genauigkeit der Schätzung wird ’quantifiziert’ Ansatz: • Wähle 2 Statistiken θ̂u(X1, . . . , Xn) und θ̂o(X1, . . . , Xn), derart dass das zufällige Intervall h i I = θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn) θ mit einer vorgegebenen Wahrscheinlichkeit überdeckt 335 Definition 6.5: (Konfidenzintervall) Es sei X1, . . . , Xn eine Zufallsstichprobe aus X, θ ein unbekannter Parameter und α ∈ [0, 1] eine reelle Zahl. Dann bezeichnet man das zufällige Intervall h θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn) mit der Eigenschaft i P θ̂u(X1, . . . , Xn) ≤ θ ≤ θ̂o(X1, . . . , Xn) = 1 − α als Konfidenzintervall für θ zum Konfidenzniveau 1 − α. Die Zahl α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit. 336 Bemerkungen: • Die Grenzen des Intervalls sind ZV’en • Nach Realisation der Stichprobe heißt das Intervall h θ̂u(x1, . . . , xn), θ̂o(x1, . . . , xn) konkretes Konfidenzintervall i 337 Konfidenzintervall 1: [I] • Der interessierende Zufallsvorgang repräsentiert durch die ZV X sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei µ unbekannt und σ 2 bekannt sein sollen • Gesucht wird (1 − α)-Konfidenzintervall für µ • Betrachte Stichprobe X1, . . . , Xn aus X • Wissen aufgrund von Satz 5.5(b), Folie 310: √ X −µ n· ∼ N (0, 1) σ 338 N (0, 1)-Dichtefunktion der Statistik Dichte von n⋅ √ n· X −µ σ ~ N (0,1) α/2 α/2 −c X−µ σ 0 c Konfidenzintervall 1: [II] • c ist das (1 − α/2)-Quantil der N (0, 1)-Verteilung 339 Konfidenzintervall 1: [III] • Das p-Quantil der Standardnormalverteilung wird im Lehrbuch Mosler/Schmid mit up bezeichnet, d.h. c = u1−α/2 • Es gilt also: ⇐⇒ √ −µ ≤c P −c ≤ n · X σ P −u1−α/2 ≤ √ −µ ≤u n·Xσ 1−α/2 ⇐⇒ P X − u1−α/2 · √σ ≤ µ ≤ X + u1−α/2 · √σ n n = 1−α = 1−α = 1−α 340 Konfidenzintervall 1: [IV] • Ein Konfidenzintervall für µ zum Niveau 1 − α ist also " σ σ X − u1−α/2 · √ , X + u1−α/2 · √ n n # • Z.B. gilt für 1 − α = 0.95: 1−α = 0.95 =⇒ α = 0.05 =⇒ u1−α/2 = u0.975 = 1.96 (vgl.Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid) 341 Konkretes Beispiel: [I] • Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade • Angenommen, X ∼ N (µ, 4) mit unbek. Erwartungswert µ • Eine einfache Stichprobe vom Umfang n = 8 liefert x1 201.15 x2 197.57 x3 201.38 x4 203.15 x5 199.92 x6 198.99 x7 203.44 342 x8 200.50 Konkretes Beispiel: [II] • Ein Punktschätzwert für µ ist x = 200.7625 • Ein konkretes 0.95-Konfidenzintervall für µ ist " 2 2 x − 1.96 · √ , x + 1.96 · √ 8 8 # = [199.3766 , 202.1484] 343 Konfidenzintervall 2: [I] • Der interessierende Zufallsvorgang repräsentiert durch die ZV X sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei sowohl µ als auch σ 2 unbekannt sein sollen • Gesucht wird (1 − α)-Konfidenzintervall für µ • Betrachte Stichprobe X1, . . . , Xn aus X • Wissen aufgrund von Satz 5.5(c), Folie 311: √ X −µ n−1· ∼ t(n − 1) S 344 Dichtefunktion der t(n)-Verteilung 0.4 n = 10 Dichtefunktion 0.3 0.2 n=1 0.1 0.0 -2 -1 0 1 2 x Konfidenzintervall 2: [II] • c ist das (1 − α/2)-Quantil der t(n)-Verteilung 345 Konfidenzintervall 2: [III] • Das p-Quantil der t(ν)-Verteilung wird in Mosler/Schmid mit tν,p bezeichnet, d.h. c = tn−1,1−α/2 • Es gilt also: √ X − µ P −c ≤ n − 1 · S ≤c = 1−α ≤µ≤X +c·√ S ⇐⇒ P X − c · √ S n−1 n−1 = 1−α 346 Konfidenzintervall 2: [IV] • Ein Konfidenzintervall für µ zum Niveau 1 − α ist somit " S S X − tn−1,1−α/2 · √ , X + tn−1,1−α/2 · √ n−1 n−1 # • Z.B. gilt für 1 − α = 0.95: 1−α = 0.95 =⇒ α = 0.05 =⇒ tn−1,1−α/2 = t7,0.975 = 2.3646 (vgl. Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid) 347 Konkretes Beispiel: [I] • Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade • Angenommen, X ∼ N (µ, σ 2) mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 • Eine einfache Stichprobe vom Umfang n = 8 war x1 201.15 x2 197.57 x3 201.38 x4 203.15 x5 199.92 x6 198.99 x7 203.44 348 x8 200.50 Konkretes Beispiel: [II] • Ein Punktschätzwert für µ ist x = 200.7625 • Ein Punktschätzwert für σ ist s = 1.8545 • Ein konkretes 0.95-Konfidenzintervall für µ ist " x − 2.3646 · 1.8545 1.8545 √ , x + 2.3646 · √ 7 7 # = [199.1051 , 202.4199] • KI ist breiter als das KI auf Folie 343, weil Schätzung der unbekannten Varianz σ 2 durch S 2 zusätzliche Unsicherheit birgt 349