7 Modellanpassung und Parameterschätzung Kapitel 7: 1 Modellanpassung und Parameterschätzung A: Übungsaufgaben [1] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit eines “Erfolges” und xi , i = 1, 2, . . . , n das Resultat des i-ten Experiments (xi = 1 bei Erfolg, xi = 0 bei Misserfolg). Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. Der Maximum-Likelihood-Schätzer des Parameters π der Binomialverteilung ist x π̂ = , d.h. gleich dem Anteil der Erfolge bei n Versuchen. n b) Der p Standardfehler des Schätzers von π ist π (1 − π )/n. a) ( ) ( ) c) Der Standardfehler des Schätzers von π ist eine Zufallsvariable. ( ) d) Bei der ML–Methode erhält man denselben Schätzer für π wie mit der Methode der ( Momente. √ Der Standardfehler des Schätzers von π wird durch x/ n geschätzt. ( ) e) ) [2] Die Zufallsvariable X sei exponentialverteilt. Es wurde eine Stichprobe der Größe n = 64 gezogen und in R unter x abgespeichert. Ihnen ist folgender R–Ausdruck gegeben: > sum(x) [1] 107.0801 > sum(x^2) [1] 222.0044 Schätzen Sie µ = 1 und berechnen Sie den geschätzten Standardfehler des Schätzers von µ . λ Der Wert des Schätzers von µ ist: Der Wert des geschätzten Standardfehlers des Schätzers von µ ist: Bestimmen Sie den Bias und den geschätzten mittleren quadratischen Fehler. Bias(x) = [ = MQF 7 Modellanpassung und Parameterschätzung [3] Die ersten 20 Ziffern xi , i = 1, 2, ..., 20 einer Zufallszahlentafel sind: 0, 3, 4, 7, 9, 3, 6, 3, 8, 6, 3, 4, 6, 9, 4, 7, 3, 7, 6, 1 Bei einer Zufallszahlentafel treten die Ziffern 0–9 mit der selben Wahrscheinlichkeit auf. a) Berechnen Sie x. x: b) Wie groß ist der Fehler des Schätzers x für den Erwartungswert E X? (Hinweis: Fehler(x)= x − E X) Fehler des Schätzers x : c) Wie groß ist der Bias von x? Bias(x) : d) Wie groß ist der geschätzte Standardfehler von x? c : SE(x) 2 7 Modellanpassung und Parameterschätzung 3 [4] An 1000 zufällig ausgewählten Betriebstagen eines Großrechners wird die Anzahl der Zusammenbrüche X des Betriebssystems pro Tag ermittelt: i 1 2 3 4 5 Anzahl der Zusammenbrüche/Tag x 0 1 2 3 4 Häufigkeit 670 269 53 7 1 Es wird vermutet, die Zahl der Zusammenbrüche X des Betriebssystems pro Tag sei poissonverteilt. Schätzen Sie den Parameter λ und die Standardabweichung des Schätzers (geschätzter Standardfehler). Der Schätzer von λ ist: Der geschätzte Standardfehler des Schätzers von λ ist: [5] Welche der folgenden Aussagen sind wahr? Kreuzen Sie sie an. a) Der Schätzer eines unbekannten Parameters einer Verteilung ist eine Zufallsvariable und besitzt deshalb selber eine Verteilung. ( ) b) Die Varianz des Fehlers Var(θ̂ − θ ) eines Schätzers ist gleich der Varianz des Schätzers Var(θ̂ ). ( ) c) ( ) ( ) ( ) Hat der Schätzer einen Bias, so wird der zu schätzende Parameter im Durchschnitt weder über- noch unterschätzt. d) Bias(θ̂ ) = E(θ̂ − θ ) e) Der zu schätzende Parameter liegt immer im Intervall Schätzer ± Standardfehler. 7 Modellanpassung und Parameterschätzung 4 [6] Die Parameter der Normalverteilung werden geschätzt durch µ̂ = x = 1P xi n σ̂ 2 = S2 = 1P (xi − x)2 n Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. a) Der Schätzer x ist erwartungstreu. ( ) ( ) ( ) d) Für x gilt: geschätzter mittlerer quadratischer Fehler ist ( ) e) ( ) b) Der geschätzte Standardfehler von S2 wird geschätzt durch S2 · c) p 2(n − 1)/n2 . Der Bias von S2 ist 0 . S2 . n σ Der geschätzte Standardfehler von x wird geschätzt durch √ . n [7] Welche der folgenden Begriffe (bzw. Symbole) sind Zufallsvariablen? Kreuzen Sie sie an. a) µ̂ ( ) b) σ2 ( ) c) Bias ( ) d) Fehler des Schätzers, z.B. µ̂ − µ ( ) e) EX ( ) 7 Modellanpassung und Parameterschätzung 5 [8] Ein fairer Würfel wird n-mal geworfen. Die entsprechende (unvollständige) Häufigkeitstabelle enthält ki ni die relativen Häufigkeiten und die relativen kumulierten Häufigkeiten , i = 1, . . . , 6. n n i xi 1 2 3 4 5 6 1 2 3 4 5 6 ni n · · 0.10 · 0.15 · ki n 0.14 · 0.40 · 0.80 · Runden Sie die Ergebnisse auf 3 Stellen. Berechnen Sie den Mittelwert der Stichprobe x . Geben Sie den Fehler von x an, d.h. x − E X. x: Fehler (x): Berechnen Sie die Varianz des Schätzers. Var (x): Berechnen Sie die geschätzte Varianz des Schätzers. d (x): Var Wie groß ist der Bias von x ? Bias (x): [9] Eine Grundgesamtheit besitzt hinsichtlich der Variablen X eine N(µ , σ 2 )-Verteilung. Aus der Grundgesamtheit wird eine Zufallsstichprobe vom Umfang n > 2 gezogen. x bezeichnet dabei das arithmetische Mittel der Variablen X in der Stichprobe. Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. a) E(x) = µ b) Bias(x) = E (x) − µ = 0 √ c) Für den Schätzer x des Erwartungswertes µ gilt: x−σ µ n ∼ N(0, 1) σ d) Standardfehler von x = √ n e) MQF(x) = Bias2 + Standardfehler2 = σ2 n ( ) ( ) ( ) ( ) ( ) 7 Modellanpassung und Parameterschätzung 6 [ 10 ] Bei einer Stichprobe der Größe 100 wurden als Stichprobenmittelwert x = 6 und als Stichprobenvarianz S2 = 9 geschätzt. d : Var(x) Wie groß ist die geschätzte Varianz des Schätzers? Wie groß ist der Standardfehler? Standardfehler : Bias (x): Wie groß ist der Bias von x ? Wie groß ist der geschätzte mittlere quadratische Fehler des Schätzers des Erwartungswertes E X ? [ = MQF [ 11 ] Gegeben sei die Dichtefunktion einer Zufallsvariablen X: ( a für −1 ≤ x < 0 f (x) = 1 − a für 0 ≤ x ≤ 1 0 sonst Der Parameter a soll mit Hilfe der Maximum-Likelihood-Methode aus einer Stichprobe der Größe n geschätzt werden. Dabei sei m die Anzahl der negativen Werte in der Stichprobe. Hinweis: Unter “Stichprobe der Größe n” verstehen wir eine Folge von n unabhängigen Ziehungen, die die Unabhängigkeit der entsprechenden n Zufallsvariablen nach sich zieht: f (x1 , x2 , . . . , xn |a) = n Y f (xi | a) . i=1 Geben Sie die Likelihoodfunktion an, und bestimmen Sie den Schätzer für a nach der MaximumLikelihood-Methode. L(a|x1 , x2 , . . . , xm , . . . , xn ) = ab = 7 Modellanpassung und Parameterschätzung 7 [ 12 ] Die Zufallsvariable X sei exponentialverteilt mit dem Parameter λ . Die Ergebnisse einer Stichprobe seien x1 , x2 , ..., xn . Geben Sie die zugehörige Log-LikelihoodFunktion log L = log L(λ |x1 , x2 , . . . , xn ) sowie die Ableitungsfunktion von log L nach λ an. d log L = dλ log L = [ 13 ] Nehmen Sie an, eine Poissonverteilung mit dem Parameter λ sei ein gutes Modell für die folgenden Beobachtungen: 0, 3, 2, 1, 5, 6, 3, 0, 1, 0, 2, 0, 4, 3, 1, 1. a) Berechnen Sie aus den Daten den Wert des Schätzers b λ b) Berechnen ³ Sie´aus den Daten den Wert desgeschätzten mittleren quadratischen Fehler des Schät[ λ̂ ). zers (also MQF a) b λ = b) ³ ´ [ λ̂ = MQF [ 14 ] Gegeben sei die Dichtefunktion einer Zufallsvariablen X: ½ α −1 für 0 ≤ x ≤ 1, α > 0 f (x) = α · x 0 sonst Der Parameter α soll mit Hilfe der Maximum-Likelihood-Methode aus einer zufälligen Stichprobe x1 , x2 , . . . , xn geschätzt werden. a) Geben Sie die Likelihoodfunktion L(α |x1 , x2 , . . . , xn ) an. bML , den Schätzer für α nach der Maximum-Likelihood-Methode. b) Bestimmen Sie α bMM , den Schätzer für α nach der Methode der Momente. c) Bestimmen Sie α bML = α L(α |x1 , x2 , . . . , xn ) = bMM = α 7 Modellanpassung und Parameterschätzung 8 [ 15 ] Betrachten Sie als Grundmodell die Altersverteilung der Bewohner der Bundesrepublik Deutschland im Jahre 2000. Das Alter sei in Jahren von 1 bis 100 angegeben. Nehmen Sie an, dass Sie diese Verteilung durch ein Histogramm mit K Klassen approximieren wollen und dass Sie gegebenenfalls Stichproben zur Schätzung verwenden. Welche der folgenden Aussagen sind WAHR? Kreuzen Sie diese an. a) Falls eine Totalerhebung zur Verfügung steht, ist nur der Fehler durch Approximation ( ) zu berücksichtigen. b) Der Fehler durch Approximation nimmt mit wachsender Klassenzahl ab. ( ) c) Der Fehler durch Schätzung hängt von der Stichprobe ab und ist daher eine Zufallsvariable. ( ) d) Wenn eine Stichprobe verwendet wird, um die Altersverteilung zu schätzen, ist nur der Fehler durch Schätzung zu berücksichtigen. ( ) e) ( ) ( ) b) In der Regel wird der Fehler durch Schätzung mit steigender Anzahl der Parameter kleiner. ( ) c) Modelle mit vielen Parametern sind flexibler und sind daher in jedem Fall Modelle mit wenigen Parametern vorzuziehen. ( ) d) Der Gesamtfehler setzt sich aus dem Fehler durch Approximation und dem Fehler durch Schätzung zusammen. ( ) e) ( ) Beide Fehler, der Fehler durch Approximation und der Fehler durch Schätzung nehmen mit wachsender Klassenzahl ab. [ 16 ] Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. a) Der Fehler durch Approximation ist eine Zufallsvariable. Der Fehler durch Approximation ist Null, wenn das Grundmodell zur approximierenden Modellfamilie gehört. [ 17 ] Es sei folgende Dichtefunktion gegeben: ½ 2 α · 2 · x · e−α x x > 0, α > 0 f (x) = 0 x≤0 a) Geben Sie die Log–Likelihoodfunktion an. Log–Likelihoodfunktion = b) Berechnen Sie den ML–Schätzer für α . b = α 7 Modellanpassung und Parameterschätzung 9 [ 18 ] Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. a) Der Maximum–Likelihood–Schätzer eines Parameters ist der Wert des Parameters, der den Beobachtungen die größte Wahrscheinlichkeit gibt. ( ) b) Der Maximum–Likelihood–Schätzer eines Parameters stimmt niemals mit dem Schätzer nach der Methode der Momente überein. ( ) c) ( ) d) Der Schätzer eines Parameters nach der Methode der Momente ist eine Zufallsvariable. ( ) e) ) Maximum–Likelihood-Schätzer haben niemals einen Bias. Daher schätzt man mit der ML–Methode den Parameter immer genau richtig. Der Schätzer eines Parameters sollte eine möglichst kleine Streuung besitzen und im Mittel den Parameter weder unter- noch überschätzen. [ 19 ] Gegeben sei die Zufallsvariable X mit folgender Dichtefunktion: ½ 2 λ · x · e−λ ·x x ≥ 0, λ > 0 f (x) = 0 sonst a) Geben Sie die Log–Likelihoodfunktion an. Log–Likelihoodfunktion = b) Berechnen Sie den ML–Schätzer für λ . b λ = ( 7 Modellanpassung und Parameterschätzung 10 B: Klausuraufgaben [ 20 ] II07S In R liegt der Datensatz Corngewicht vor. In diesem ist das tatsächliche Gewicht von 300 CornflakesPackungen, die mit 500 g gefüllt sein sollten, abgespeichert. Gehen Sie davon aus, dass das Gewicht normalverteilt ist. Folgende R-Ausdrücke liegen vor: > sum(Corngewicht) [1] 149908.9 > sum((Corngewicht-mean(Corngewicht))^2) [1] 2630.44 Berechnen Sie den Schätzer von µ und den geschätzten Standardfehler von µ̂ . c µ b) = SE( b= µ [ 21 ] IV07S Die Verteilung einer stetigen Zufallsvariablen X hänge von einem Parameter α ab und es gelte α E(X) = . Es liegen die folgenden 10 Beobachtungen vor, die in R unter dem Namen x gespeiα −1 chert wurden: > x [1] 2.0 1.1 6.5 1.4 5.8 1.4 1.5 1.8 4.8 4.9 > sum(x) [1] 31.2 > sum(x^2) [1] 137.56 Verwenden Sie die Methode der Momente, um den Parameter α zu schätzen. b= α [ 22 ] II07S1 Welche der folgenden Aussagen sind WAHR? Kreuzen Sie sie an. a) Ein Histogramm vermittelt einen Eindruck, wie die zu schätzende Dichtefunktion aussehen könnte. ( ) b) Jedes Histogramm hat alle Eigenschaften einer Dichtefunktion. ( ) c) Ein normiertes Histogramm ist nichtnegativ und die Summe aller Flächen ist Eins. ( ) d) Ein normiertes Histogramm kann verwendet werden, um gewisse Wahrscheinlichkeiten zu schätzen. ( ) e) ( ) Die Wahl der Klassen für ein Histogramm und inbesondere die Anzahl der Klassen ist unbedeutend für die Güte und damit die Aussagekraft eines Histogramms. 7 Modellanpassung und Parameterschätzung [ 23 ] IV07S Es sei X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktion ½ θ (1 − θ )x x = 0, 1, 2, ... P(x) = 0 sonst Nehmen Sie an, dass Beobachtungen x1 , x2 , ..., xn gegeben sind. Bestimmen Sie den Maximum– Likelihood–Schätzer von θ . θb = 11 7 Modellanpassung und Parameterschätzung 12 C: Lösungen 1) a, b, d 2) 1.673 ; 0.209 ; 0 ; 0.044 3) 4.95 ; 0.45 ; 0 ; 0.55 4) 0.4 ; 0.02 5) a, b, d 6) a, b, d 7) a, d 8) 3.71 ; 0.21 ; 2.917 2.866 ; ;0 n n 9) a, b, c, d, e 10) 0.09 ; 0.3 ; 0 ; 0.09 11) am · (1 − a)n−m 12) n log λ − λ n P xi ; i=1 n n P − xi λ i=1 13) 2 ; 0.125 14) α n n Q i=1 xiα −1 ; − n n P ; log xi x 1−x i=1 15) a, b, c 16) d, e 17) n log α + n log 2 + n P log xi − α i=1 n P i=1 xi2 ; n n P i=1 18) a, d, e 19) 2n log λ + n P log xi − λ i=1 n P i=1 xi ; 2n n P i=1 20) 499.696 ; 0.171 21) 1.472 22) a, c, d 23) 1 1+x xi xi2