PARAMETERSCHÄTZUNG 1. Punktschätzung Bisher waren die Wahrscheinschlichkeitsverteilungen der Zufallsvariablen stets bekannt, so dass wir Aussagen über die Wahrscheinlichkeiten von Werten bzw. Wertebereichen treffen konnten. In der Praxis ist es jedoch meistens umgekehrt; es liegen gemessene Werte vor, aber die zugehörige Verteilung ist weitestgehend unbekannt. Da die Anzahl der beobachteten Werte in der Regel jedoch zu niedrig ist, um die Verteilung genau zu schätzen, muss man sich damit begnügen, Verteilungsparameter wie Erwartungswert oder Varianz zu schätzen. Für viele Zwecke ist dies jedoch ausreichend, da man häufig das statistische Modell kennt und somit die konkrete Verteilung durch diese Parameter eindeutig bestimmt ist (z.B. die Normalverteilung N (µ, σ 2 )). Definition Die Angabe eines solchen Schätzwertes für einen Verteilungsparameter heißt eine Punktschätzung. Die Menge aller zugrundeliegenden potentiellen Untersuchungsobjekte bezeichnet man als Grundgesamtheit. Eine zufällige Auswahl von Untersuchungsobjekten aus der zugrundeliegenden Grundgesamtheit nennt man eine Stichprobe. Aus pragmatischen Gründen wird normalerweise nicht die ganze Grundgesamtheit, sondern eine repräsentative Stichprobe untersucht. An ihr wird dann (repräsentativ) eine gewisse Zufallsvariable X gemessen. Dies liefert eine Messreihe {x1 , . . . , xn }. Ist der Kontext klar, spricht man bei der Messreihe ebenfalls häufig von einer Stichprobe. Statt nun aber jeden dieser Werte als Realisation einer Zufallsvariablen zu verstehen, ist es häufig nützlich, die Werte als Realisationen von n verschiedenen (identisch verteilten, unabhängigen) Zufallsvariablen zu interpretieren. Definition Es seien X1 , . . . , Xn : Ω → R unabhängige und identisch verteilte Zufallsvariablen. Dann nennen wir X1 , . . . , Xn Stichprobenvariablen und jedes n-Tupel von Werten/Realisationen x1 , . . . , xn ein Stichprobenergebnis oder eine Messreihe der Länge oder des Umfangs n. Eine Funktion T (X1 , . . . , Xn ) der Stichprobenvariablen heißt Schätzfunktion für einen Verteilungsparameter θ, falls ihr Wert θ̂ als Schätzwert für θ verwendet wird. T heißt erwartungstreue Schätzfunktion für θ, wenn E(T ) = θ gilt, und T heißt konsistent, falls die Varianz von Tn = T (X1 , . . . , Xn ) beliebig klein wird, d.h. falls limn→∞ V (Tn ) = 0 ist (hierbei wird angenommen, dass T für jede Anzahl von Stichprobenvariablen definiert ist). Beispiel Es sei µ der gemeinsame Erwartungswert und σ 2 die Varianz der PnStichprobenvariablen X1 , . . . , Xn . Dann hat das arithmetische Mittel X̄ = 1/n i=1 Xi den Erwartungswert E(X̄) = µ und die Varianz V (X̄) = σ 2 /n (vgl. Zentralen Grenzwertsatz), d.h. X̄ ist eine erwartungstreue und konsistente Schätzfunktion für den Erwartungswert µ von X. Auch Schätzfunktionen sind Zufallsvariablen. Ihr Wert kann jedoch erst berechnet werden, wenn die Stichprobenvariablen gewisse Werte angenommen haben, d.h. wenn eine Messreihe vorliegt. Mithilfe eines Stichprobenergebnisses, also einer Messreihe, kann sogar eine Näherungsfunktion für die unbekannte Verteilungsfunktion konstruiert werden. Definition Es sei {x1 , . . . , xn } eine Messreihe und Y : {x1 , . . . , xn } → R bezeichne die zufällige Auswahl eines Wertes dieser Messreihe. Dann heißt die Verteilung von Y die durch das Stichpobenergebnis bestimmte empirische Verteilung. Bemerkung Y nimmt jeden Wert mit Wahrscheinlichkeit 1/n an, sofern alle Werte verschieden sind. Kommt eine Zahl k-mal vor, so wird sie mit Wahrscheinlichkeit k/n angenommen. Pn Der i=1 xi · 1/n = PnErwartungswert der empirischen Verteilung ist E(Y ) = 1/n i=1 xi , d.h. E(Y ) ist immer gleich dem Wert, den das Stichprobenmittel X̄ annimmt. Wir folgen daher mit unserem Schätzwert für den Erwartungswert dem folgenden Prinzip. Allgemeines Schätzprinzip Ein unbekannter Parameter der Verteilungsfunktion der Stichprobenvariablen kann durch den entsprechenden Parameter der empirischen Verteilung geschätzt werden. Pn Beispiel Die Varianz der empirischen Verteilung ist V (Y ) = i=1 (xi −x̄)2 ·1/n mit Pn Pn x̄ = 1/n i=1 xi . Dies ist gerade der Wert der Schätzfunktion Ŝ 2 = 1/n i=1 (Xi − 2 2 X̄)2 . Allerdings kann man zeigen, dass E(Ŝ 2 ) = n−1 n σ , d.h. Ŝ ist nicht erwarn tungstreu für die Varianz. Dies lässt sich beheben durch S 2 = n−1 Ŝ 2 . Dann ist n n n n−1 2 2 2 2 2 nämlich E(S ) = E( n−1 Ŝ ) = n−1 E(Ŝ ) = n−1 n σ = σ und somit S 2 erwartungstreu für σ 2 . Als √ Schätzfunktion für die Standardabweichung σ verwendet man entsprechend S = S 2 . Diese ist in der Regel ebenfalls nicht erwartungstreu. Eine weitere Schätzmethode ist die Maximum-Likelihood-Schätzung . Ihr zugrunde liegt der Ansatz eine Schätzgröße zu verwenden, so dass die Messung der vorliegenden Messwerte am wahrscheinlichsten wird. Ist hierbei die zugrundeliegende Zufallsvariable X diskret mit Wahrscheinlichkeitsverteilung f = fθ , d.h. sie hängt von einem unbekannten Parameter θ ab, so hängt für eine Messreihe x1 , . . . , xn die Wahrscheinlichkeit P (x1 , . . . , xn ) = P (x1 , . . . , xn )(θ) von θ ab und man erhält die sogenannte Likelihood-Funktion L(θ) = P (x1 , . . . , xn )(θ) = fθ (x1 ) · · · fθ (xn ). In der Praxis gibt es hierbei dann meistens genau eine Maximumsstelle θ̂, welche dann als Schätzwert für θ verwendet wird. Im stetigen Fall geht man genauso vor und nimmt für die Likelihood-Funktion einfach die Dichte statt der Wahrscheinlichkeitsverteilung, d.h. ist X stetig mit Dichte f = fθ , so ist die Likelihood-Funktion gegeben durch L(θ) = fθ (x1 ) · · · fθ (xn ). 2. Intervallschätzung Bei der Punktschätzung versucht man einen konkreten Wert für einen unbekannten Parameter zu schätzen. Eine andere Form der Parameterschätzung besteht darin, dass man gerne ein Intervall angeben würde, in dem der unbekannte Parameter sicher liegt. Wie wir in Beispiel 4 der Vorlesung gesehen haben, ist dies gelegentlich auch möglich, in den meisten Fällen muss man sich jedoch mit einem Intervall zufrieden geben, das den unbekannten Parameter (lediglich) mit hoher Wahrscheinlichkeit enthält. Ziel: Angabe des Fehlers einer Schätzgröße θ̂ für einen Parameter θ mit einer Sicherheit von mindestens β. Dabei bedeutet - Fehler ≤ d: θ ∈ [θ̂ − d, θ̂ + d], - Sicherheit von mindestens β: P (θ ∈ [θ̂ − d, θ̂ + d]) ≥ β Definition Eine Intervallschätzung für einen Parameter θ ist die Angabe eines (um den Schätzwert θ̂ symmetrischen) Intervalls I, in dem θ mit Sicherheit ≥ β liegt, d.h. P (θ ∈ I) ≥ β für β ∈ (0, 1). Ein solches Intervall I mit P (θ ∈ I) = β nennt man dann ein Konfidenzintervall zum Konfidenzniveau β. Je nachdem was man über die zugrundeliegende Verteilung weiß und je nach Fragestellung, gibt es verschiedene Vorgehensweisen bei der Bestimmung des Konfidenzintervalls oder des Konfidenzniveaus. Wir diskutieren hier im Folgenden exemplarisch den Fall einer Messreihe x1 , . . . , xn mit zugrundeliegender Normalverteilung X ∼ N (µ, σ 2 ). Schätzung von µ 1. Fall: σ bekannt. Problem A: Gegeben sei das Konfidenzniveau β und gesucht sei der Fehler d vom Schätzwert µ̂ = x̄. Wie in der Vorlesung ausführlich diskutiert nutzt man hier aus, dass das arithmePn 2 tische Mittel X̄ = 1/n i=1 Xi ∼ N (µ, σn ) normalverteilt, bzw. die standardisierte X̄−µ √ ∼ N (0, 1) standardnormalverteilt ist. Für d > 0 erhält man dann Variable σ/ n leicht √ √ d n d n x̄ − µ √ ∈ − µ ∈ [x̄ − d, x̄ + d] ⇐⇒ , . σ σ σ/ n Somit führt die Gleichung P µ ∈ [X̄ − d, X̄ + d] = P √ √ X̄ − µ d n d n √ ∈ − , =β σ σ σ/ n unter Aussnutzung der √Symmetrie der Dichte der Standardnormalverteilung mit α = 1 − β darauf, dass d σ n gerade das 1 − α2 -Quantil der Standardnormalverteilung sein muss, das man üblicherweise mit z1− α2 bezeichnet. Also muss d = z1− α2 √σn gelten. Ergebnis: Das symmetrische Konfidenzintervall zum Konfidenzniveau β ist gegeben durch [x̄ − d, x̄ + d] mit d = z1− α2 √σn und α = 1 − β. Zum Beispiel erhält man für n = 20 = σ und β = 95%, dass 1 − α2 = 97.5% und wir entnehmen der Wertetabelle der Standardnormalverteilung, dass z0.975 ≈ 1.96. Also ist der gesuchte Fehler in diesem Fall d = 1.96 √2020 ≈ 8.77. Problem B: Gegeben sei der Fehler d von x̄ und gesucht sei das zugehörige Konfidenzniveau β. Lösung: Aus der obigen Rechnung zu Problem A folgt, dass β =√ 1 − α das zugehörige Konfidenzniveau ist, falls man α so wählt, dass z1−α/2 = d σ n ist. Problem C: Gegeben seien nun das Niveau β sowie der Fehler d und gesucht sei der Umfang n der Messreihe, so dass das entsprechende Konfidenzintervall höchstens die Länge 2d hat. Lösung: Hierfür löst man einfach die Gleichung d = z1− α2 √σn nach n auf und erhält die Bedingung n ≥ (z1−α/2 σd )2 . In der Praxis ist der Umfang der Stichprobe meistens vorgegeben. Will man daher ein kleines Konfidenzintervall/eine große Sicherheit, so muss man sich mit geringer Sicherheit/einem großen Konfidenzintervall zufrieden geben. 2. Fall: σ unbekannt. In diesem Fall ersetzt man σ 2 durch die Schätzung s2n = 1 n−1 Pn i=1 (xi − x̄)2 , al- X̄−µ √ so durch die Stichprobenvarianz. Statt der N (0, 1)-verteilten Zufallsvariablen σ/ n p X̄−µ 2 erhält man dann die Zufallsvariable Tn−1 = sn /√n mit sn = sn . Die Zufallsvariable Tn−1 ist ebenfalls symmetrisch um 0 verteilt. Die entsprechende Verteilung nennt man die tn−1 -Verteilung oder Student-Verteilung mit n − 1 Freiheitsgraden. Man erhält nun völlig analog zum ersten Fall z.B. das symmetrische Konfidenzinsn tervall zum Niveau β = 1 − α durch [x̄ − d, x̄ + d] mit d = tn−1,1−α/2 √ , wobei n hier tn−1,1−α/2 das (1 − α/2)-Quantil der tn−1 -Verteilung bezeichnet. Die restlichen Problemstellungen werden ebenfalls völlig analog behandelt. Neben dem Erwartungswert bestimmt auch die Varianz die Normalverteilung. Wir müssen uns daher auch Gedanken zu ihrer Schätzung machen. Schätzung von σ 2 Es sei wieder x1 , . . . , xn eine Messreihe mit X ∼ N (µ, σ 2 ) und s2n bezeichne wieder die Varianz derP empirischen Verteilung, welche wir als Realisation der Schätzn 1 2 2 2 funktion S 2 = n−1 i=1 (Xi − X̄) deuten. Wie wir gesehen haben, gilt E(S ) = σ 4 2σ , d.h. S 2 ist eine erwartungstreue und konsistente Schätzfunktion und V (S 2 ) = n−1 2 für σ 2 . Die Zufallsvariable n−1 σ 2 S folgt einer besonderen Verteilung, der sogenann2 ten χ -Verteilung mit n − 1 Freiheitsgraden (kurz: X ∼ χ2n−1 ). Bemerkung: Die χ2 -Verteilung geht zurück auf Helmert und die zugrundeliegende Beobachtung ist die folgende: Sind X1 , . . . ,P Xf unabhängige Zufallsvariablen, die n alle standardnormalverteilt sind, so ist χ2 = i=1 Xi2 nicht normalverteilt, sondern besitzt eine Verteilung mit Dichte ( 0, x < 0, g(x) = f −2 1 −x/2 2 x e , x ≥ 0. 2f /2 Γ(f /2) R∞ mit der Gammafunktion Γ(s) = 0 e−t ts−1 dt, d.h. die Verteilungsfunktion der χ2f -Verteilung ist ( 0, x < 0, R x f −2 −t/2 Fχ2f (x) = 1 2 t e dt, x ≥ 0. 2f /2 Γ(f /2) 0 Auch hierzu gibt es Tabellen für ausgewählte Freiheitsgrade bzw. Tabellen für die entsprechenden Quantile χ2n−1,α . Als Anwendung der χ2 -Verteilung werden wir später noch den χ2 -Test kennenlernen, mit dem man überprüfen kann welcher Verteilung eine Zufallsvariable folgt. Um nun ein Konfidenzintervall für σ 2 zum Konfidenzniveau β = 1 − α zu be2 stimmen, verwenden wir die χ2n−1 -verteilte Zufallsvariable n−1 σ 2 S . Per Definition der Quantile gilt dann ! n − 1 n−1 2 S ≤ χ2n−1,α/2 = P S 2 ≤ σ2 α/2 = P σ2 χ2n−1,α/2 sowie 1 − α/2 = P n−1 2 S ≤ χ2n−1,1−α/2 σ2 =1−P n−1 2 S ≥ χ2n−1,1−α/2 σ2 bzw. α/2 = P n−1 2 S ≥ χ2n−1,1−α/2 σ2 =P Daraus erhalten wir das Konfidenzintervall ! n−1 2 χ2n−1,1−α/2 n−1 2 χ2n−1,1−α/2 2 s , χ2 S ≥σ n−1 2 . s , wobei hier s2 2 n−1,α/2 wieder die konkrete Realisation der Schätzfunktion S , also die Stichprobenvarianz, bezeichnet.