Kapitel 2 Induktive Statistik 2.1 Grundprinzipien der induktiven Statistik Ziel: Inferenzschluss, Repräsentationsschluss: Schluss von einer Stichprobe auf Eigenschaften der Grundgesamtheit, aus der sie stammt. • Von Interesse sei ein Merkmal X̃ in der Grundgesamtheit Ω̃. • Ziehe eine Stichprobe (ω1 , . . . , ωn ) von Elementen aus Ω̃ und werte X̃ jeweils aus. • Man erhält Werte x1 , . . . , xn . Diese sind Realisationen der i.i.d Zufallsvariablen oder Zufallselemente X1 , . . . , Xn wobei die Wahrscheinlichkeitsverteilung der X1 , . . . , Xn genau die Häufigkeitsverhältnisse in der Grundgesamtheit widerspiegelt. Die Frage lautet also: wie kommt man von Realisationen x1 , . . . , xn von i.i.d. Zufallsvariablen X1 , . . . , Xn auf die Verteilung der Xi ? • Dazu nimmt man häufig an, man kenne den Grundtyp der Verteilung der X1 , . . . , Xn . Unbekannt seien nur einzelne Parameter davon. Beispiel: Xi sei normalverteilt, unbekannt seien nur µ, σ 2 . =⇒ parametrische Verteilungsannahme (meist im Folgenden) • Alternativ: Verteilungstyp nicht oder nur schwach festgelegt (z.B. symmetrische Verteilung) =⇒ nichtparametrische Modelle • Klarerweise gilt im Allgemeinen (generelles Problem bei der Modellierung): Parametrische Modelle liefern schärfere Aussagen – wenn ihre Annahmen zutreffen. Wenn ihre Annahmen nicht zutreffen, dann existiert die große Gefahr von Fehlschlüssen. Wichtige Fragestellungen der induktiven Statistik: Treffe mittels der Auswertung einer • Zufallsstichprobe • möglichst gute ? ? ? • Aussagen ?? 63 64 2.2. Punkschätzung • über bestimmte Charakteristika ? • der Grundgesamtheit. ? Welche Charakteristika sind für die Fragestellung relevant? Natürlich werden für die Inferenz bezüglich des Erwartungswerts andere Methoden als für Schlüsse über die Varianz benötigt. ?? verschiedene Formen: – Punktschätzung: z.B. wahrer Anteil 0.4751 – Intervallschätzung: z.B. wahrer Anteil liegt zwischen 0.46 und 0.48 – Hpothesentest: der Anteil liegt höchstens bei 50% ? ? ? Was heißt gut? – Festlegung von Gütekriterien “(Genauigkeit? Wahrscheinlichkeit eines Fehlers ” gering?) – Wie konstruiert man ein gutes/optimales Verfahren? 2.2 Punkschätzung Ziel: Finde einen möglichst guten Schätzwert für eine bestimmte Kenngröße ϑ (Parameter) der Grundgesamtheit, z.B. den wahren Anteil der rot/grün-Wähler, den wahren Mittelwert, die wahre Varianz, aber auch z.B. das wahre Maximum (Windgeschwindigkeit). 2.2.1 Schätzfunktionen Gegeben sei die in Kapitel 2.1 beschriebene Situation: X1 , . . . , Xn i.i.d. Stichprobe eines Merkmales X̃. Definition: Sei X1 , . . . , Xn i.i.d. Stichprobe. Eine Funktion T = g(X1 , . . . , Xn ) heißt Schätzer oder Schätzfunktion. Beachte nochmals: Vor Ziehung der Stichprobe sind die Werte von T zufällig, deshalb werden Schätzfunktionen mit Großbuchstaben bezeichnet wie Zufallsvariablen Typische Beispiele für Schätzfunktionen: 1. Arithmetisches Mittel der Stichprobe: n 1X X̄ = g(X1 , . . . , Xn ) = Xi n i=1 Für binäre, dummy-kodierte Xi ist X̄ auch die relative Häufigkeit des Auftretens von Xi = 1“ in der Stichprobe ” Kapitel 2. Induktive Statistik 65 2. Stichprobenvarianz: n S̃ 2 = g(X1 , . . . , Xn ) = 1X (Xi − X̄)2 n i=1 3. Korrigierte Stichprobenvarianz: n 1 X 1 S 2 = g(X1 , . . . , Xn ) = (Xi − X̄)2 = n − 1 i=1 n−1 Ã n X i=1 Xi2 − n · X̄ 2 ! 4. Größter Stichprobenwert: X(n) = g(X1 , . . . , Xn ) = max Xi i=1,...,n 5. Kleinster Stichprobenwert: X(1) = g(X1 , . . . , Xn )) = min Xi i=1,...,n Schätzfunktion und Schätzwert: Da X1 , . . . , Xn zufällig sind, ist auch die Schätzfunktion T = g(X1 , . . . , Xn ) zufällig. Zieht man mehrere Stichproben, so erhält man jeweils andere Realisationen von X1 , . . . , Xn , und damit auch von T . Die Realisation t (konkreter Wert) der Zufallsvariable T (Variable) heißt Schätzwert. X1 , . . . Xn Zufallsvariable T = g(X1 , . . . , Xn ) ↓ ↓ ↓ ↓ x1 , . . . xn Realisationen t = g(x1 , . . . , xn ) Man hat in der Praxis meist nur eine konkrete Stichprobe und damit auch nur einen konkreten Wert t von T . Zur Beurteilung der mathematischen Eigenschaften werden aber alle denkbaren Stichproben und die zugehörigen Realisationen der Schätzfunktion T herangezogen. D.h. beurteilt wird nicht der einzelne Schätzwert als solcher, sondern die Schätzfunktion, als Methode, d.h. als Regel zur Berechnung des Schätzwerts aus der Stichprobe. Andere Notation in der Literatur: ϑ̂ Schätzer für ϑ. Dabei wird nicht mehr direkt unterschieden zwischen Zufallsvariable (bei uns Großbuchstaben) und Realisation (bei uns klein). =⇒ Schreibe ϑ̂(X1 , . . . , Xn ) bzw. ϑ̂(x1 , . . . , xn ) wenn die Unterscheidung benötigt wird. Beispiel: Durchschnittliche Anzahl der Statistikbücher in einer Grundgesamtheit von Studenten schätzen. 66 2.2. Punkschätzung • Grundgesamtheit: Drei Personen Ω̃ = {ω˜1 , ω˜2 , ω˜3 }. • Merkmal X̃: Anzahl der Statistikbücher X̃(ω̃1 ) = 3 X̃(ω̃2 ) = 1 X̃(ω̃3 ) = 2. Wahrer Durchschnittswert: µ = 2. • Stichprobe X1 , X2 ohne Zurücklegen (Stichprobenumfangn = 2): X1 = X̃(ω1 ) X2 = X̃(ω2 ) wobei ω1 erste gezogene Person, ω2 zweite gezogene Person. Betrachte folgende möglichen Schätzer: T1 = g1 (X1 , X2 ) = X̄ = X1 + X2 2 T2 = X1 T3 = g(X1 , X2 ) = 1 max(X1 , X2 ) X(2) = 2 2 Zur Beurteilung: Alle möglichen Stichproben (vom Umfang n = 2, ohne Zurücklegen) betrachten: Nummer der Stichprobe 1 2 3 4 5 6 2.2.2 Personen ω˜1 , ω˜1 , ω˜2 , ω˜2 , ω˜3 , ω˜3 , ω˜2 ω˜3 ω˜1 ω˜3 ω˜1 ω˜2 Realisationen von X1 X2 T1 T2 T3 3 3 1 2 3 2 3 3 2 2.5 3 2 3 1 3 2 1 2 1 2 1.5 1 1 3 2 3 2.5 2 2 2 1 1.5 2 1 Gütekriterien Beurteile die Schätzfunktionen, also das Verfahren an sich, nicht den einzelnen Schätzwert. Besonders bei komplexeren Schätzproblemen sind klar festgelegten Güteeigenschaften wichtig. Natürlich ist auch festzulegen, was geschätzt werden soll. Im Folgenden sei der Parameter ϑ stets eine eindimensionale Kenngröße der Grundgesamtheit (z.B. Mittelwert, Varianz, Maximum) Da T zufällig ist, kann man nicht erwarten, dass man immer den richtigen Wert trifft, aber den Erwartungswert von T berechnen: Erstes Kriterium: keine systematische Unter- oder Überschätzung, d.h. Erwartungswert des Schätzers = wahrer Wert Kapitel 2. Induktive Statistik 67 Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1 , . . . , Xn und eine Schätzfunktion T = g(X1 , . . . , Xn ) (mit existierendem Erwartungswert). • T heißt erwartungstreu für den Parameter ϑ, falls gilt Eϑ (T ) = ϑ für alle ϑ. • Die Größe Biasϑ (T ) = Eϑ (T ) − ϑ heißt Bias (oder Verzerrung) der Schätzfunktion. Erwartungstreue Schätzfunktionen haben per Definition einen Bias von 0. Man schreibt Eϑ (T ) und Biasϑ (T ), um deutlich zu machen, dass die Größen von dem wahren ϑ abhängen. Anschauliche Interpretation: Erwartungstreue bedeutet, dass man im Mittel (bei wiederholter Durchführung des Experiments) den wahren Wert trifft. Fortsetzung des Beispiels: Stichprobenziehung gemäß reiner Zufallsauswahl, d.h. jede Stichprobe hat dieselbe Wahrscheinlichkeit gezogen zu werden (hier 16 ). Es gilt: (bei ϑ = µ = 2) 1 12 Eµ (T1 ) = (2 + 2.5 + 2 + 1.5 + 2.5 + 1.5) = =2 6 6 In der Tat gilt allgemein: Das arithmetische Mittel ist erwartungstreu für den Erwartungswert. 1 Eµ (T2 ) = (3 + 3 + 1 + 1 + 2 + 2) = 2 6 Wieder gilt allgemein: Einzelne Stichprobenvariablen ergeben erwartungstreue Schätzer für den Erwartungswert. 3 4 1 Eµ (T3 ) = (4 · + 2 · 1) = 6= 2 6 2 3 T3 ist nicht erwartungstreu. 4 6 2 Biasµ (T3 ) = Eµ (T3 ) − 2 = − = − 3 3 3 Bias und Erwartungstreue bei einigen typischen Schätzfunktionen P • Das arithmetische Mittel X̄ = n1 ni=1 Xi ist erwartungstreu für den Mittelwert µ einer Grundgesamtheit: Aus X1 , . . . , Xn i.i.d. und Eµ (X1 ) = Eµ (X2 ) = . . . = µ folgt: Ã n ! Ã n ! X 1X 1 E(X̄) = Eµ Xi = Eµ Xi n i=1 n i=1 n 1X = E(Xi ) n i=1 n 1X 1 = µ= ·n·µ=µ n i=1 n 68 2.2. Punkschätzung • Sei σ 2 die Varianz in der Grundgesamtheit. Es gilt Eσ2 (S̃ 2 ) = n−1 2 σ , n also ist S̃ 2 nicht erwartungstreu für σ 2 . Biasσ2 (S̃ 2 ) = n−1 2 1 σ − σ2 = − σ2 n n • Für die korrigierte Stichprobenvarianz gilt dagegen: Ã ! n X 1 Eσ2 (S 2 ) = Eσ2 (Xi − X̄)2 n − 1 i=1 Ã ! n nX 1 = Eσ 2 · (Xi − X̄)2 n − 1 n i=1 µ ¶ n n n−1 2 2 S = · σ = σ2 = Eσ 2 n−1 n−1 n Also ist S 2 erwartungstreu für σ 2 . Diese Eigenschaft ist auch die Motivation für die Korrektur der Stichprobenvarianz. • Vorsicht: Im Allgemeinen gilt für beliebige, nichtlineare Funktionen g E g(X) 6= g(E(X)). √ Man kann also nicht einfach √ z.B. · und E vertauschen. In der√Tat gilt: S 2 ist zwar erwartungstreu für σ 2 , aber S 2 ist nicht erwartungstreu für σ 2 = σ. Beispiel Wahlumfrage: Gegeben sei eine Stichprobe der wahlberechtigten Bundesbürger. Geben Sie einen erwartungstreuen Schätzer des Anteils der rot-grün Wähler an. Grundgesamtheit: Dichotomes Merkmal ( 1 rot/grün: ja X̃ = 0 rot/grün: nein Der Mittelwert π von X̃ ist der Anteil der rot/grün-Wähler in der Grundgesamtheit. Stichprobe X1 , . . . , Xn vom Umfang n: ( 1 i-te Person wählt rot/grün Xi = 0 sonst Aus den Überlegungen zum arithmetischen Mittel folgt, dass n 1X X̄ = Xi n i=1 ein erwartungstreuer Schätzer für den hier betrachteten Parameter π ist. Kapitel 2. Induktive Statistik 69 Also verwendet man die relative Häufigkeit in der Stichprobe, um den wahren Anteil π in der Grundgesamtheit zu schätzen. Bedeutung der Erwartungstreue: Erwartungstreue ist ein schwaches Kriterium! Betrachte die offensichtlich unsinnige Schätzfunktion T2 = g2 (X1 , . . . , Xn ) = X1 , d.h. T2 = 100%, falls der erste Befragte rot-grün wählt und T2 = 0% sonst. Die Schätzfunktion ignoriert fast alle Daten, ist aber erwartungtreu: E(T2 ) = E(X1 ) = µ Deshalb betrachtet man zusätzlich die Effizienz eines Schätzers, s.u. Asymptotische Erwartungstreue • Eine Schätzfunktion heißt asymptotisch erwartungstreu, falls lim E(θ̂) = θ. n→∞ bzw. lim Bias(θ̂) = 0. n→∞ gelten. • Abschwächung des Begriffs der Erwartungstreue: Gilt nur noch bei einer unendlich großen Stichprobe. • Erwartungstreue Schätzer sind auch asmptotisch erwartungstreu. • Sowohl S 2 als auch S̃ 2 sind asymptotisch erwartungstreu. 2.2.3 Effizienz Beispiel Wahlumfrage: Gegeben sind die drei erwartungstreuen Schätzer (n sei gerade): T1 T2 n 1 X = Xi n i=1 n/2 1 X = Xi n/2 i=1 Was unterscheidet T1 von dem unsinnigen Schätzer T2 , der die in der Stichprobe enthaltene Information nicht vollständig ausnutzt? Vergleiche die Schätzer über ihre Varianz, nicht nur über den Erwartungswert! 70 2.2. Punkschätzung Wenn n so groß ist, dass der zentrale Grenzwertsatz angewendet werden kann, dann gilt approximativ Pn Pn Pn 1 Xi − π 1 i=1 (Xi − π) n i=1 Xi − n · π √ p qi=1 = p = ∼ N (0; 1) n π(1−π) π(1 − π) π(1 − π) n und damit n Analog kann man zeigen: 1X Xi ∼ N T1 = n i=1 n/2 µ 1 X Xi ∼ N T2 = n/2 i=1 π(1 − π) π; n ¶ . µ ¶ π(1 − π) π, . n/2 T1 und T2 sind approximativ normalverteilt, wobei T1 eine deutlich kleinere Varianz als T2 hat. T1 und T2 treffen beide im Durchschnitt den richtigen Wert π. T1 schwankt aber weniger um das wahre π, ist also im Durchschnitt genauer“. ” Andere Interpretation: Dichte von T1 ¡ ¡ ª Dichte von T2 ¡ ¡ ª π− π π+ Für jeden Punkt π+ > π ist damit P (T1 > π+ ) < P (T2 > π+ ) und für jeden Punkt π− < π ist P (T1 < π− ) < P (T2 < π− ). Es ist also die Wahrscheinlichkeit, mindstens um π+ − π bzw. π − π− daneben zu liegen, bei T2 stets größer als bei T1 . Ein konkreter Wert ist damit verlässlicher, wenn er von T1 , als wenn er von T2 stammt. Diese Überlegung gilt ganz allgemein: Ein erwartungstreuer Schätzer ist umso besser, je kleiner seine Varianz ist. Var(T ) = Erwartete quadratische Abweichung von T von E(T ) | {z } =ϑ ! Je kleiner die Varianz, umso mehr konzentriert sich die Verteilung eines erwartungstreuen Schätzers um den wahren Wert. Dies ist umso wichtiger, da der Schätzer den wahren Wert i.A. nur selten exakt trifft. Kapitel 2. Induktive Statistik 71 Effizienz: • Gegeben seien zwei erwartungstreue Schätzfunktionen T1 und T2 für einen Parameter ϑ. Gilt Varϑ (T1 ) ≤ Varϑ (T2 ) für alle ϑ und Varϑ∗ (T1 ) < Varϑ∗ (T2 ) für mindestens ein ϑ∗ so heißt T1 effizienter als T2 . • Eine für ϑ erwartungstreue Schätzfunktion T heißt UMVU-Schätzfunktion für ϑ (uniformly minimum v ariance unbiased), falls Varϑ (T ) ≤ Varϑ (T ∗ ) für alle ϑ und für alle erwartungstreuen Schätzfunktionen T ∗ . Bemerkungen: • Inhaltliche Bemerkung: Der (tiefere) Sinn von Optimalitätskriterien wird klassischerweise insbesondere auch in der Gewährleistung von Objektivität gesehen. Ohne wissenschaftlichen Konsens darüber, welcher Schätzer in welcher Situation zu wählen ist, wäre die Auswertung einer Stichprobe willkürlich und der Manipulation Tür und Tor geöffnet. • Ist X1 , . . . , Xn eine i.i.d. Stichprobe mit Xi ∼ N (µ, σ 2 ), dann ist – X̄ UMVU-Schätzfunktion für µ und – S 2 UMVU-Schätzfunktion für σ 2 . • Ist X1 , . . . , Xn mit Xi ∈ {0, 1} eine i.i.d. Stichprobe mit π = P (Xi = 1), dann ist die relative Häufigkeit X̄ UMVU-Schätzfunktion für π. • Bei nicht erwartungstreuen Schätzern macht es keinen Sinn, sich ausschließlich auf die Varianz zu konzentrieren. Z.B. hat der unsinnige Schätzer T = g(X1 , . . . , Xn ) = 42, der die Stichprobe nicht beachtet, Varianz 0. Man zieht dann den sogenannten Mean Squared Error MSEϑ (T ) := Eϑ (T − ϑ)2 zur Beurteilung heran. Es gilt MSEϑ (T ) = Varϑ (T ) + (Biasϑ (T ))2 . Der MSE kann als Kompromiss zwischen zwei Auffassungen von Präzision gesehen werden: möglichst geringe systematische Verzerrung (Bias) und möglichst geringe Schwankung (Varianz). 72 2.2. Punkschätzung Konsistenz • Ein Schätzer heißt MSE-konsistent, wenn gilt lim (MSE(T )) = 0. n→∞ Beispiel: Der MSE von X̄ ist gegeben durch MSE(X̄) = Var(X̄) + Bias2 (X̄) σ2 = +0 n σ2 = → 0. n X̄ ist also eine MSE-konsistente Schätzung für den Erwartungswert. • Ein Schätzer heißt konsistent, wenn gilt lim (Var(T )) = 0. n→∞ X̄ ist also auch konsistent. 2.2.4 Konstruktionsprinzipien guter Schätzer Die Methode der kleinsten Quadrate =⇒ Regressionsanalyse Das Maximum-Likelihood-Prinzip Aufgabe: Schätze den Parameter ϑ eines parametrischen Modells anhand einer i.i.d. Stichprobe X1 , . . . , Xn mit der konkreten Realisation x1 , . . . , xn . Idee der Maximium-Likelihood (ML) Schätzung für diskrete Verteilungen: • Man kann für jedes ϑ die Wahrscheinlichkeit ausrechnen, genau die Stichprobe x1 , . . . , xn zu erhalten: Pϑ (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = n Y Pϑ (Xi = xi ) i=1 • Je größer für ein gegebenes ϑ0 diese Wahrscheinlichkeit ist, umso plausibler ist es, dass tatsächlich ϑ0 der wahre Wert ist (gute Übereinstimmung zwischen Modell und Daten). Beispiel: I.i.d. Stichprobe vom Umfang n = 5 aus einer B(10, π)-Verteilung: 6 5 3 4 4 Kapitel 2. Induktive Statistik 73 Wahrscheinlichkeit der Stichprobe für gegebenes π: P (X1 = 6, . . . , X5 = 4|π) = P (X1 = 6|π) · . . . · P (X5 = 4|π) µ ¶ µ ¶ 10 6 10 4 4 = π (1 − π) · . . . · π (1 − π)6 . 6 4 Wahrscheinlichkeit für einige Werte von π: π 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 P (X1 = 6, . . . , X5 = 4|π) 0.0000000000001 0.0000000227200 0.0000040425220 0.0003025481000 0.0002487367000 0.0000026561150 0.0000000250490 0.0000000000055 0.0000000000000 Man nennt daher L(ϑ) = Pϑ (X1 = x1 , . . . , Xn = xn ), nun als Funktion von ϑ gesehen, die Likelihood (deutsch: Plausibilität, Mutmaßlichkeit) von ϑ gegeben die Realisation x1 , . . . , xn . • Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-LikelihoodSchätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer. Bemerkungen: • Für stetige Verteilungen gilt Pϑ (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = 0 für beliebige Werte ϑ. In diesem Fall verwendet man die Dichte fϑ (x1 , . . . , xn ) = n Y fϑ (xi ) i=1 als Maß für die Plausibilität von ϑ. • Für die praktische Berechnung maximiert man statt der Likelihood typischerweise die Log-Likelihood l(ϑ) = ln(L(ϑ)) = ln n Y Pϑ (Xi = xi ) = i=1 bzw. l(ϑ) = ln n Y i=1 n X ln Pϑ (Xi = xi ) i=1 fϑ (xi ) = n X ln fϑ (xi ). i=1 Dies liefert denselben Schätzwert ϑ̂ und erspart beim Differenzieren die Anwendung der Produktregel. 74 2.2. Punkschätzung Der Logarithmus ist streng monoton wachsend. Allgemein gilt für streng monoton wachsende Funktionen g: x0 Stelle des Maximums von L(x) ⇐⇒ x0 auch Stelle des Maximums von g(L(x)). Definition: Gegeben sei die Realisation x1 , . . . , xn einer i.i.d. Stichprobe. Die Funktion in ϑ Y n Pϑ (Xi = xi ) falls Xi diskret i=1 L(ϑ) = Y n falls Xi stetig. fϑ (xi ) i=1 heißt Likelihood des Parameters ϑ bei der Beobachtung x1 , . . . , xn . Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer. Beispiel: Wahlumfrage Xi = ( 1 falls Rot/Grün 0 sonst Verteilung der Xi : Binomialverteilung P (Xi = 1) = π P (Xi = 0) = 1 − π P (Xi = xi ) = π xi · (1 − π)1−xi , xi ∈ {0; 1}. Likelihood: L(π) = P (X1 = x1 , . . . , Xn = xn ) n Y = π xi (1 − π)1−xi i=1 Pn = π i=1 xi · (1 − π)n− Pn i=1 xi Logarithmierte Likelihood: l(ϑ) = ln(P (X1 = x1 , . . . , Xn = xn )) = n X xi · ln(π) + (n − i=1 Ableiten (nach ϑ): ∂ l(π) = ∂π Nullsetzen und nach π Auflösen: ∂ l(π) = 0 ⇔ ∂π n X xi i=1 π n X + n− π ⇔ (1 − π) i=1 = n− n X i=1 i=1 xi 1−π xi i=1 n X n X n X · (−1) xi i=1 1−π xi = n · π − π n X i=1 xi xi ) · ln(1 − π) Kapitel 2. Induktive Statistik 75 ⇔ n X i=1 also π̂ = xi = n · π Pn i=1 xi n ML-Schätzung bei Normalverteilung 1. Schritt: Bestimme die Likelihoodfunktion µ ¶ 1 2 L(µ, σ ) = − 2 (xi − µ) √ 1 exp 2σ 2π(σ 2 ) 2 i=1 Ã ! n 1 1 X (xi − µ)2 = − 2 n n exp 2σ i=1 2π 2 (σ 2 ) 2 n Y 2 1 2. Schritt: Bestimme die Log-Likelihoodfunktion l(µ, σ 2 ) = ln(L(µ, σ 2 )) n n n 1 X 2 = ln(1) − ln(2π) − ln(σ ) − 2 (xi − µ)2 2 2 2σ i=1 3. Schritt: Ableiten und Nullsetzen der Loglikelihoodfunktion n X ∂l(µ, σ 2 ) 1 = 2 · (xi − µ) = 0 ∂µ 2σ 2 i=1 n ∂l(µ, σ 2 ) n 1 1 X = − + (xi − µ)2 = 0 ∂σ 2 2 σ 2 2(σ 2 )2 i=1 4. Schritt: Auflösen der beiden Gleichungen nach µ und σ 2 Aus der ersten Gleichung erhalten wir n X i=1 xi − nµ = 0 also µ̂ = x̄. Aus der zweiten Gleichung erhalten wir durch Einsetzen von µ̂ = x̄ n X i=1 also (xi − x̄)2 = nσ 2 n 1X σ̂ = (xi − x̄)2 n i=1 2 76 2.3. Intervallschätzung Fazit: • Der ML-Schätzer µ̂ = X̄ für µ stimmt mit dem üblichen Schätzer für den Erwartungswert überein. • Der ML-Schätzer σ̂ 2 = S̃ 2 für σ 2 ist verzerrt, d.h. nicht erwartungstreu. Einige allgemeine Eigenschaften von ML-Schätzern • ML-Schätzer θ̂ sind im Allgemeinen nicht erwartungstreu. • ML-Schätzer θ̂ sind asymptotisch erwartungstreu. • ML-Schätzer θ̂ sind konsistent. 2.3 2.3.1 Intervallschätzung Motivation und Hinführung Beispiel Wahlumfrage: Der wahre Anteil der rot-grün Wähler 2002 war genau 47.1%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau einen relativen Anteil von 47.1% von rot-grün Anhängern erhalten zu haben? Xi = ( 1, rot/grün 0, sonst P (Xi = 1) = π = 0.471 n X X = Xi ∼ B(n, π) mit n = 1000 i=1 µ ¶ n P (X = 471) = · π x · (1 − π)n−x x µ ¶ 1000 = · 0.471471 · (1 − 0.471)529 471 = 0.02567 D.h., mit Wahrscheinlichkeit von etwa 97.4%, verfehlt der Schätzer den wahren Wert. Hat man ein stetiges Merkmal, so ist sogar P (X̄ = a) = 0 für jedes a, d.h. der wahre Wert wird mit Wahrscheinlichkeit 1 verfehlt. Konsequenzen: • Insbesondere Vorsicht bei der Interpretation knapper Ergebnisse“ (z.B. Anteil ” 50.2%) Kapitel 2. Induktive Statistik 77 • Suche Schätzer mit möglichst kleiner Varianz, um im Durchschnitt möglichst nahe ” dran zu sein“ • Es ist häufig auch gar nicht nötig, sich genau auf einen Wert festzulegen. Oft reicht die Angabe eines Intervalls, von dem man hofft, dass es den wahren Wert überdeckt: Intervallschätzung Symmetrische Intervallschätzung basierend auf einer Schätzfunktion T = g(X1 , . . . , Xn ): I(T ) = [T − a, T + a] Trade off“ bei der Wahl von a: ” Je größer man a wählt, also je breiter man das Intervall I(T ) macht, umso größer ist die Wahrscheinlichkeit, dass I(T ) den wahren Wert überdeckt, aber umso weniger aussagekräftig ist dann die Schätzung. Extremfall im Wahlbeispiel: I(T ) = [0, 1] überdeckt sicher π, macht aber eine wertlose Aussage ⇒ Wie soll man a wählen? Typisches Vorgehen: • Man gebe sich einen Sicherheitsgrad (Konfidenzniveau) γ vor. • Dann konstruiert man das Intervall so, dass es mindestens mit der Wahrscheinlichkeit γ den wahren Parameter überdeckt. 2.3.2 Definition von Konfidenzintervallen: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn zur Schätzung eines Parameters ϑ und eine Zahl γ ∈ (0; 1). Ein zufälliges Intervall C(X1 , . . . , Xn ) heißt Konfidenzintervall zum Sicherheitsgrad γ (Konfidenzniveau γ), falls für jedes ϑ gilt: Pϑ (ϑ ∈ Bemerkungen: C(X1 , . . . , Xn ) ) ≥ γ. {z } | zufälliges Intervall • Die Wahrscheinlichkeitsaussage bezieht sich auf das Ereignis, dass das zufällige Intervall den festen, wahren Parameter überdeckt. Streng genommen darf man im objektivistischen Verständnis von Wahrscheinlichkeit nicht von der Wahrscheinlichkeit sprechen, dass ϑ in dem Intervall liegt“, da ϑ nicht zufällig ist und somit keine ” Wahrscheinlichkeitsverteilung besitzt. • Typischerweise konstruiert man Konfidenzintervalle symmetrisch um einen Schätzer T . Es sind aber auch manchmal z.B. einseitige Konfidenzintervalle, etwa der Form [X̄, X̄ + b], sinnvoll (beispielsweise bei sozial unerwünschten Ereignissen). 78 2.3. Intervallschätzung 2.3.3 Konstruktion von Konfidenzintervallen Für die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die • den gesuchten Parameter ϑ enthält und • deren Verteilung aber nicht mehr von dem Parameter abhängt, ( Pivotgröße“, dt. ” Angelpunkt). • Dann wähle den Bereich CZ so, dass Pϑ (Z ∈ CZ ) = γ und • löse nach ϑ auf. Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei bekannter Varianz: X1 , . . . , Xn i.i.d. Stichprobe gemäß Xi ∼ N (µ, σ 2 ), wobei σ 2 bekannt sei. Starte mit der Verteilung von X̄: X̄ ∼ N (µ, σ 2 /n). Dann erfüllt X̄ − µ √ · n ∼ N (0; 1) σ die obigen Bedingungen an eine Pivotgröße. Z= Bestimme jetzt einen Bereich [−z, z], wobei z so gewählt sei, dass P (Z ∈ [−z; z]) = γ 1−γ 2 1−γ 2 γ @ ¡ ¡ ª ¡ @ @ R -z 0 z ⇔ P (Z ≥ z) = Bestimmung von z: P (Z ∈ [−z; z]) = γ 1−γ 2 beziehungsweise 2−1+γ 1+γ 1−γ = = . 2 2 2 Der entsprechende Wert lässt sich aus der Tabelle der Standardnormalverteilung ablesen. P (Z ≤ z) = 1 − Typische Beispiele: Kapitel 2. Induktive Statistik 79 1+γ 2 1+γ 2 1+γ 2 γ = 90% γ = 95% γ = 99% 1+γ -Quantil 2 Die Größe z heißt das = 95% = 97.5% = 99.5% z = 1.65 z = 1.96 z = 2.58 und wird mit z 1+γ bezeichnet. 2 Damit gilt also ³ P −z 1+γ ≤ Z ≤ z 1+γ 2 2 ´ µ ¶ X̄ − µ = P −z 1+γ ≤ ≤ z 1+γ = γ 2 2 σ Jetzt nach µ auflösen: µ z 1+γ · σ z 1+γ · σ ¶ 2 2 γ = P − √ ≤ X̄ − µ ≤ √ n n µ z 1+γ · σ z 1+γ · σ ¶ 2 2 = P −X̄ − √ ≤ −µ ≤ −X̄ + √ n n µ z 1+γ · σ z 1+γ · σ ¶ 2 2 = P X̄ − √ ≤ µ ≤ X̄ + √ n n Damit ergibt sich das Konfidenzintervall · z 1+γ · σ ¸ z 1+γ · σ ¸ · z 1+γ · σ 2 2 2 , X̄ + √ = X̄ ± √ X̄ − √ n n n Bemerkungen: • Je größer σ, desto größer das Intervall! (Größeres σ ⇒ Grundgesamtheit bezüglich des betrachteten Merkmals heterogener, also größere Streuung von X̄ ⇒ ungenauere Aussagen.) • Je größer γ, desto größer z 1+γ 2 (Je mehr Sicherheit/Vorsicht desto breiter das Intervall) √ • Je größer n und damit n, desto schmaler ist das Intervall (Je größer der Stichprobenumfang ist, desto genauer!) Kann man zur Stichprobenplanung verwenden! Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei unbekannter Varianz: Neben dem Erwartungswert ist auch σ 2 unbekannt und muss entsprechend durch den UMVU-Schätzer n 1 X S = (Xi − X̄)2 , n − 1 i=1 2 (mit S = √ S 2 ) geschätzt werden. Allerdings ist Z= X̄ − µ √ · n S 80 2.3. Intervallschätzung jetzt nicht mehr normalverteilt, denn S ist zufällig. Wir führen deshalb ein neues Verteilungsmodell ein. t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ). Dann heißt die Verteilung von X̄ − µ √ Z= · n S t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼ t(ν). Informelle Erklärung zum Begriff Freiheitsgrade: Bei Kenntnis von x̄ nur n − 1 frei variierbare Daten. Wichtige Werte der t-Verteilung sind tabelliert. Angegeben sind, für verschiedene δ, die Lösung tδ der Gleichung (ν) P (Z ≤ tδ ) = δ, (ν) wobei tδ von der Anzahl ν der Freiheitsgrade abhängt. tδ ist das δ-Quantil der entsprechenden t-Verteilung (analog zu zδ als Quantil der Standardnormalverteilung). Die Dichte einer t-Verteilung ist der Dichte der Standardnormalverteilung sehr ähnlich: Sie ist auch symmetrisch um 0, besitzt aber etwas höhere Dichte für extreme Werte (schwerere Enden). f(x) 0.4 0.3 0.2 0.1 0.0 x -4 -2 0 2 4 Dichten von t-Verteilungen für ν = 1 (—), = 2 (· · · ), = 5 (- - -) und = 20 (−−) Freiheitsgrade. Unsicherheit durch zusätzliche Schätzung von σ lässt Daten stärker schwanken. Je größer ν ist, umso ähnlicher sind sich die t(ν)-Verteilung und die Standardnormalverteilung. Für ν → ∞ sind sie gleich, ab ν = 30 gilt der Unterschied als vernachlässigbar. Je größer n, desto√geringer ist der Unterschied zwischen S 2 und σ 2 und damit zwischen X̄−µ √ n und X̄−µ n. S σ Konfidenzintervall zum Konfidenzniveau γ: Kapitel 2. Induktive Statistik Ausgehend von P µ 81 ¶ X̄ − µ −t 1+γ (n − 1) ≤ ≤ t 1+γ (n − 1) = γ 2 2 S wie im Beispiel mit bekannter Varianz nach µ auflösen (mit S statt σ) P Ã t 1+γ (n − 1) · S t 1+γ (n − 1) · S X̄ − 2 √ ≤ µ ≤ X̄ + 2 √ n n ! =γ Damit ergibt sich das Konfidenzintervall " t 1+γ (n − 1) · S X̄ ± 2 √ n # Bemerkungen: • Es gelten analoge Aussagen zum Stichprobenumfang und Konfidenzniveau wie bei bekannter Varianz. • Für jedes γ (und jedes ν) gilt t 1+γ > z 1+γ 2 2 also ist das t-Verteilungs-Konfidenzintervall (etwas) breiter. Da σ 2 unbekannt ist, muss es geschätzt werden. Dies führt zu etwas größerer Ungenauigkeit. • Je größer ν, umso kleiner ist der Unterschied. Für n ≥ 30 rechnet man einfach auch bei der t-Verteilung mit z 1+γ . 2 Beispiel: Eine Maschine füllt Gummibärchen in Tüten ab, die laut Aufdruck 250g Füllgewicht versprechen. Wir nehmen im folgenden an, dass das Füllgewicht normalverteilt ist. Bei 16 zufällig aus der Produktion herausgegriffenen Tüten wird ein mittleres Füllgewicht von 245g und eine Stichprobenstreuung (Standardabweichung) von 10g festgestellt. a) Berechnen Sie ein Konfidenzintervall für das mittlere Füllgewicht zum Sicherheitsniveau von 95%. b) Wenn Ihnen zusätzlich bekannt würde, dass die Stichprobenstreuung gleich der tatsächlichen Streuung ist, wäre dann das unter a) zu berechnende Konfidenzintervall für das mittlere Füllgewicht breiter oder schmäler? Begründen Sie ihre Antwort ohne Rechnung. • Füllgewicht normalverteilt. • 16 Tüten gezogen ⇒ n = 16. • Mittleres Füllgewicht in der Stichprobe: x̄ = 245g. • Stichprobenstreuung: s = 10g. 82 2.3. Intervallschätzung zu a) Konstruktion des Konfidenzintervalls: Da die Varianz σ 2 unbekannt ist, muss das Konfidenzintervall basierend auf der t-Verteilung konstruiert werden: S [X̄ ± t 1+γ (n − 1) · √ ] 2 n Aus dem Sicherheitsniveau γ = 0.95 errechnet sich 1+γ 2 = 0.975. Nachschauen in t-Tabelle bei 0.975 und 15 Freiheitsgraden (T = verteilt mit n-1 Freiheitsgeraden) liefert t0.975 = 2.13. X̄−µ √ n S ist t- Einsetzen liefert damit [245 ± 2.13 · 10 ] = [239.675; 250.325] 4 zu b) Jetzt sei σ 2 bekannt. Dann kann man mit dem Normalverteilungs-Intervall rechnen: σ [X̄ ± z 1+γ · √ ] 2 n Da jetzt σ bekannt, ist die Unsicherheit geringer und damit das Konfidenzintervall schmaler. In der Tat ist z 1+γ < t 1+γ . 2 2 Rechnerisch ergibt sich mit z 1+γ = 1.96 das Konfidenzintervall 2 [240.100; 249.900] Beispiel: Klausurergebnisse i 1 2 3 4 5 6 punkte 16.5 16.5 25.5 25 20.5 27.5 i 7 8 9 10 11 12 punkte 27.5 22 16.5 8 33.5 19.5 i 13 14 15 16 17 18 punkte 23 15 31 26 13.5 24 i 19 20 21 22 23 24 punkte 14 21 19.5 17.5 36 31.5 i 25 26 27 28 29 30 punkte 19.5 18 37.5 15.5 7.5 18 i 31 32 33 34 35 punkte 35.5 12.5 25 25.5 18.5 • Mittelwert und Varianz der Grundgesamtheit (alle 35 Klausuren): µ̂ = punkte = 21.81 σ̂ 2 = s2punkte = 7.562 • Wir ziehen insgesamt 80 Stichproben vom Umfang n = 5, n = 10, n = 20, n = 35 und bestimmen Konfidenzintervalle zum Niveau 95%. Kapitel 2. Induktive Statistik 83 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=5 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 Stichprobe 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=10 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 Stichprobe Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit jeweiligem Stichprobenumfang n = 5 (oben) und n = 10 (unten). 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=20 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 Stichprobe 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=35 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 Stichprobe Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit jeweiligem Stichprobenumfang n = 20 (oben), n = 35 (unten). 84 2.3. Intervallschätzung 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=5 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 56 58 60 62 64 66 68 70 72 74 76 78 80 Stichprobe 5 10 15 20 25 30 35 40 95% KI’s, Stichprobenumfang n=5, Varianz bekannt 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 Stichprobe Punktzahl der Klausur Statistik I: Konfidenzintervalle für 80 Stichproben mit Stichprobenumfang n = 5. Oben ist die Varianz unbekannt, unten als bekannt vorausgesetzt. • Ergebnis: – Die Breite der Konfidenzintervalle nimmt mit wachsendem n ab. – Nicht alle Konfidenzintervalle enthalten den wahren Mittelwert µ = 23.1 (per Konstruktion mit Wahrscheinlichkeit 5%). – Die Intervalle mit bekannter Varianz sind im Mittel enger. – Die Intervalle mit bekannter Varianz sind immer gleich lang. Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann wegen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Erwartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden und erhält approximative Konfidenzintervalle. Beispiel: Konfidenzintervall für den Anteil π: Seien X1 , . . . , Xn i.i.d. mit ( 1 Xi = , P (Xi = 1) = π. 0 E(Xi ) = π Var(Xi ) = π · (1 − π) ⇒ E(X̄) = π π · (1 − π) Var(X̄) = n Kapitel 2. Induktive Statistik 85 und approximativ für großes n: X̄ − π q ∼ N (0, 1) π·(1−π) n π im Zähler: unbekannter Anteil = interessierender Parameter q π(1−π) π im Nenner: unbekannte Varianz von X̄; schätzen, indem X̄ für π eingesetzt n wirdim Nenner X̄ − π γ ≈ P −z 1+γ ≤ q ≤ z 1+γ 2 = P Ã 2 X̄(1−X̄) n X̄ − z 1+γ · 2 r X̄(1 − X̄) n ! 0.465(1 − 0.465) 500 # X̄(1 − X̄) ≤ π ≤ X̄ + z 1+γ · 2 n und damit das Konfidenzintervall " X̄ ± z 1+γ · 2 r X̄(1 − X̄) n r # Beispiel Wahlumfrage: Seien n = 500, X̄ = 46.5% und γ = 95%. z 1+γ = 1.96 2 Konfidenzintervall: " X̄ ± z 1+γ · 2 r X̄(1 − X̄) n # = " 0.465 ± 1.96 · = [0.421; 0.508] r