Parameterschätzung Einführung in Quantitative Methoden Karin Waldherr & Pantelis Christodoulides 16. Mai 2012 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 1/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Parameterschätzung I Schätzung von Populationsparametern aufgrund einer Stichprobe 1. Punktschätzer 2. Vertrauensbereiche (Konfidenzintervalle) I Punktschätzer: Wir benötigen eine Schätzfunktion (kurz: Schätzer). I Bei der Konstruktion von Schätzern werden bestimmte Eigenschaften berücksichtigt. I ”Güte” (Qualität) eines Schätzers spielt zentrale Rolle. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 2/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Gütekriterien von Schätzfunktionen nach R.A. Fisher Populationsparameter sollen aus Stichprobenkennwerten möglichst ’gut’ geschätzt werden. Nach welchen Kriterien können wir entscheiden, ob ein Stichprobenkennwert ein brauchbarer Schätzer ist? I Erwartungstreue I Konsistenz I Effizienz I Suffizienz (erschöpfend) Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 3/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Erwartungstreue I Eine Schätzfunktion (kurz: Schätzer) Θ̂ ist erwartungstreu, wenn sein Erwartungswert dem Populationsparameter entspricht. E (Θ̂) = θ D.h., zieht man aus der Population immer wieder Stichproben vom Umfang n und berechnet z.B. jedes Mal x̄, entspricht (auf lange Sicht) das arithmetische Mittel dieser x̄i dem Populationsparameter µ. Der Erwartungswert der ZV X̄ ist µ. I Unter- oder überschätzt ein Schätzer den Parameter systematisch, weist er einen Bias auf. Der Bias ist die Differenz E (Θ̂) − θ. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 4/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Beispiel Schütze Erwartungstreuer Schütze und Schütze mit Bias Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 5/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung I X̄ ist ein erwartungstreuer Schätzer für den Populationsparameter µ: E (X̄ ) = µ. I n 1 X (Xi − X̄ )2 S = n−1 2 i=1 ist ein erwartungstreuer Schätzer für den Populationsparameter σ 2 . I n 1X S = (Xi − X̄ )2 n 2 i=1 ist kein erwartungstreuer Schätzer für σ 2 . Würde man die Varianzen aller möglichen Zufallsstichproben aus der Population mit dieser Formel berechnen, und daraus den Durchschnittswert, würde die Populationsvarianz um den Faktor (n − 1)/n unterschätzt. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 6/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung I Analog für die Kovarianz: n CXY 1 X = (Xi − X̄ )(Yi − Ȳ ) n−1 i=1 ist ein erwartungstreuer Schätzer. I Weitere erwartungstreue Schätzer: Die relative Häufigkeit R für die Wahrscheinlichkeit eines Ereignisses, und die Stichprobenkorrelation für ρXY Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 7/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Effizienz I I I I Ein Schätzer soll auch schon für kleine Stichprobenumfänge eine möglichst geringe Varianz aufweisen. Effizienz meint also die Präzision eines Schätzers. Je kleiner die Varianz der Verteilung eines Stichprobenkennwertes, umso größer ist seine Effizienz als Schätzer. Beispiel Schütze: Weniger effizienter Schütze und effizienter Schütze Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 8/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Streuung von Stichprobenmittelwerten I I I I I Wie effizient ist X̄ als Schätzer für µ? Standardabweichung von Stichprobenkennwerten heißt Standardfehler Der Standardfehler des Mittelwertes σX̄ ist abhängig von der Varianz der Variable X in der Population. σX̄ ändert sich proportional zur Populationsstreuung. Weiters beeinflusst der Stichprobenumfang den Standardfehler. Mit zunehmendem Stichprobenumfang wird σX̄ kleiner. Der Standardfehler des Mittelwertes beträgt s σX2 σX̄ = n Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 9/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Standardfehler des Medians I Der Standardfehler des Medians beträgt s σX2 σMd = 1.25 n I Somit ist die Varianz der Medianwerteverteilung immer größer als jene der Mittelwerteverteilung. I Der Mittelwert schätzt µ effizienter als der Median. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 10/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Konsistenz I Ein Schätzer soll für große Stichprobenumfänge (n → ∞) einen möglichst kleinen zufälligen Fehler aufweisen, d.h. mit größer werdendem Stichprobenumfang soll Θ̂n gegen den wahren Parameter θ streben, also immer genauer werden. I Mathematisch P(|Θ̂n − θ| > ) −→ 0 n→∞ für jedes > 0. Ein Schätzer ist konsistent, wenn die Wahrscheinlichkeit, dass der Absolutbetrag der Differenz zum wahren Parameter größer als jede beliebig kleine reelle Zahl ist, mit wachsendem n gegen 0 strebt. I Konsistente Schätzer sind: Relative Häufigkeit, X̄ , S 2 , und die Korrelation. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 11/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Suffizienz I Ein Schätzer ist dann suffizient (oder erschöpfend), wenn er alle in den Daten einer Stichprobe enthaltenen Informationen berücksichtigt, so dass die Berechnung eines weiteren statistischen Kennwertes keine zusätzliche Information über den zu schätzenden Parameter liefert. I X̄ und S 2 sind suffiziente Schätzer I Beispiel: Unter ganz bestimmten Bedingungen ist der Rohscore (= Anzahl richtig gelöster Aufgaben), den eine Person in einem Test erreicht, eine erschöpfende Schätzfunktion für die Fähigkeit der Person. Die Kenntnis, welche Aufgaben die Person gelöst hat und welche nicht, liefert keine zusätzliche Information über die Fähigkeit der Person. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 12/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Methode der kleinsten Quadrate I auch Ordinary Least Squares-Methode genannt. I Schätzwert θ̂ für θ, sodass Stichprobe möglichst gut repräsentiert wird in der Form, I dass die Summe der quadrierten Abweichungen zwischen θ̂ und Messwerten minimiert wird. I Es wird die Summe der Abweichungsquadrate gebildet, S(θ) = n X (xi − θ)2 → min, i=1 und anschließend die partielle Ableitung nach dem Parameter Null gesetzt. I Beispiel: Regression Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 13/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung Beispiel Mittelwert S(µ) = n X n X (xi − µ) = (xi2 − 2µxi + µ2 ) = 2 i=1 = i=1 n X xi2 n X − 2µ i=1 xi + nµ2 i=1 ∂S =2 ∂µ n X xi + 2nµ = 0 i=1 Pn ⇒ µ̂ = Waldherr / Christodoulides i=1 xi n = x̄ Einführung in Quantitative Methoden- 9. VO 14/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Maximum-Likelihood Schätzung I I Likelihood-Funktion: Wahrscheinlichkeit konkret beobachteter Daten unter einem bestimmten Wahrscheinlichkeitsmodell. Für eine diskrete Verteilung, die durch den Parameter θ charakterisiert ist, ist die Likelihood-Funktion definiert durch: n Y L(θ) = P(Xi = xi |θ) i=1 I I I Gesucht: Maximum der Likelihood-Funktion für die beobachteten Daten, d.h. jenes θ̂, bei dem die Likelihood den größten Wert hat. Man bestimmt die Wahrscheinlichkeit für das Auftreten der beobachteten Daten unter der Annahme aller in Frage kommenden Stichprobenverteilungen. Der ML-Schätzer ist der Parameter jener Verteilung, bei dem das beobachtete Resultat am wahrscheinlichsten ist. Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 15/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Beispiel: Schätzen des Parameters p einer Binomialverteilung aufgrund beobachteter Daten I I Pilotstudie mit neuem Antidepressivum; bei 5 der 15 teilnehmenden PatientInnen erfolgreich. Wie kann man aufgrund dieser Beobachtungen den Parameter p für Erfolg in der Population schätzen? Numerische Lösung: Einsetzen verschiedener p̂ in 5 10 L(p) = 15 5 p (1 − p) I L(p̂ = 0.1) = 0.01 L(p̂ = 0.2) = 0.103 L(p̂ = 0.3) = 0.206 L(p̂ = 0.4) = 0.186 L(p̂ = 0.5) = 0.092 I Die Likelihoodfunktion hat den größten Wert bei p̂ = 0.3. Vielleicht ist ein Wert rund um 0.3 noch besser? Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 16/49 Parameterschätzung I Punktschätzung Konfidenzintervalle (KI) Analytische Lösung: Finden des Maximums der Funktion n k L(p) = p (1 − p)n−k k durch partielles Differenzieren und Nullsetzen Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 17/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Da mathematisch einfacher: Logarithmieren der Likelihoodfunktion ln L n ln L(p) = ln + k ln p + (n − k) ln(1 − p) → Max k ∂ ln p ∂ ln(1 − p) ∂ ln L =k + (n − k) =0 ∂p ∂p ∂p k −1 + (n − k) =0 p̂ 1 − p̂ k(1 − p̂) = (n − k)p̂ k =r n 2. Ableitung ist < 0 ⇒ r ist der ML-Schätzer für den Parameter p der Binomialverteilung. L(p̂ = 0.33) = 0.214 p̂ = Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 18/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) ML-Schätzer für Poisson-Verteilung P(K = k|λ) = λk e −λ k! 1. Fall: ein Wert k beobachtet ln L = k ln λ − ln k! − λ → Max ∂ ln L k = −1=0 ∂λ λ λ̂ = k Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 19/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung 2. Fall: n Werte k1 , . . . , kn beobachtet, ki unabhängig L(λ) = n Y P(k1 , . . . , kn |λ) = i=1 ln L = n Y λki e −λ i=1 ki ! n X (ki ln λ − ln ki ! − λ) → Max i=1 n ∂ ln L 1X = ki − n = 0 ∂λ λ i=1 n λ̂ = 1X ki n i=1 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 20/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Eigenschaften von ML-Schätzern Sie sind stets I konsistent, I suffizient, I nicht unbedingt erwartungstreu (z.B. Varianz berechnet mit 1/n) I ML-Schätzer sind z.B.: R, X̄ I Nachteile: Oft existiert keine analytische Lösung. Numerische Lösungsverfahren oft mathematisch nicht trivial Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 21/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Allgemeines I Wir interessieren uns für einen unbekannten wahren Parameter θ, der die Verteilung einer Zufallsvariable charakterisiert I θ wird durch eine Schätzfunktion Θ̂ aus einer (repräsentativen) Stichprobe mit Umfang n geschätzt I Es wird davon ausgegangen, dass die Stichprobe in etwa die Grundgesamtheit widerspiegelt, und dass deshalb die Schätzung in der Nähe des wahren Parameters liegen müsste I Die Schätzfunktion ist selbst eine Zufallsvariable mit einer Verteilung, die den Parameter θ enthält Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 22/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Allgemeines I Bei der Schätzung von Parametern geht es nicht nur darum, Schätzfunktionen zu finden und deren Eigenschaften (Erwartungstreue, Konsistenz, etc.) abzuklären I Man möchte auch Intervalle angeben, in welchen θ mit einer gewissen Sicherheit liegt I Es sei α eine vorgegebene Irrtumswahrscheinlichkeit, und a bzw. b reelle Zahlen, mit a ≤ b. Die Schätzung des Bereiches a ≤ θ ≤ b mit der Vertrauenswahrscheinlichkeit (1 − α) nennen wir Konfidenzintervall des Parameters θ mit Irrtumswahrscheinlichkeit α I Θ̂ Punktschätzung von θ, im Vergleich zur Intervallschätzung Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 23/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Allgemeines I Wir konstruieren ein symmetrisches Konfidenzintervall auf Grundlage einer Schätzfunktion Θ̂ I Von besonderem Interesse ist die Breite des Konfidenzintervalls. Diese bestimmt sich durch die Standardabweichung von Θ̂ I Erwünscht ist in der Regel ein möglichst schmales Konfidenzintervall, denn dies weist auf eine genaue Schätzung hin Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 24/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Überblick I Konfidenzintervall für den Parameter p einer B(n, p) Variable I Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 ) Variable bei bekannter Varianz σ 2 I Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 ) Variable bei unbekannter Varianz σ 2 I Näherungsweises Konfidenzintervall für den Erwartungswert µ einer Variable mit unbekannter Verteilung I Konfidenzintervall für die Varianz σ 2 einer N(µ, σ 2 ) Variable Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 25/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) I Befragung einer Zufallsstichprobe von n Personen aus einer unendlichen Population zu einem Thema mit Antwortkategorien ja/nein I k ist die Anzahl der ’ja’ Antworten in der Stichprobe I r= I p = P (’ja’) ist der wahre (unbekannte) Anteil der Ja-Stimmen in der Population I r ist ein erwartungstreuer Schätzer für p I K ist jene Zufallsvariable, die durch wiederholte Ziehung unabhängiger Stichproben vom Umfang n aus der unendlichen Population entsteht, R ist die entsprechende Zufallsvariable der relativen Häufigkeiten k n die entsprechende relative Häufigkeit Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 26/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) I K ∼ B(n, p) I Wenn np ≥ 5 und n(1 − p) ≥ 5 darf die Binomialverteilung näherungsweise durch die N(np, np(1 − p)) ersetzt werden I K ∼a N(np, np(1 − p)) und auch I np(1−p) ) = N(p, p(1−p) ) R ∼a N( np n , n n2 I Um die Tabelle der N(0, 1) für die Bestimmung der Endpunkte des Konfidenzintervalls anwenden zu können, standardisieren wir R I Z= R −p R − E (R) =q ∼ N(0, 1) σR p(1−p) n I Sei α = 0.05 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 27/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) Tabelle 1b: P(−1.96 ≤ Z ≤ 1.96) = 0.95 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 28/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) I Für 95% aller Stichproben mit Umfang n gilt |R − p| |Z | = q ≤ 1.96 p(1−p) n I Wir ersetzen σR durch einen Schätzer σc R r r p(1 − p) r (1 − r ) σR = , σc R = n n−1 I Also gilt für 95% aller Stichproben mit Umfang n r r (1 − r ) |R − p| ≤ 1.96 n−1 I Grundlage für ein KI mit einer Irrtumswahrscheinlichkeit α = 0.05 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 29/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) I Die Grenzen des KI mit Irrtumswahrscheinlichkeit α = 0.05 werden wie folgt bestimmt r r (1 − r ) p1,2 = r ± 1.96 n−1 I Allgemeiner für beliebige Irrtumswahrscheinlichkeit α r r (1 − r ) p1,2 = r ± z1− α2 n−1 I KI ist symmetrisch um den Punkt r , symmetrisches KI Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 30/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für p einer B(n, p) I Bei gegebenem p̂ hängt die Breite des KI von zwei Faktoren ab: der gewünschten Sicherheit und dem Stichprobenumfang I Je höher die Sicherheit, desto kleiner die Irrtumswahrscheinlichkeit α, desto größer wird z1− α2 , und desto breiter das Intervall I Je größer die Stichprobe, desto kleiner wird σR und dessen Schätzung σc R , und desto schmäler das Intervall I Interpretation des KI: Werden immer wieder unabhängige Stichproben vom Umfang n gezogen, und wird für jede dieser Stichproben p̂ = r gerechnet, so liegt p̂ in (1 − α) Prozent dieser Stichproben innerhalb des Intervalles [p1 , p2 ]. Der Parameter p wird mit einer Vertrauenswahrscheinlichkeit von (1 − α) vom Intervall [p1 , p2 ] überdeckt Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 31/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung KI für p einer B(n, p) I Beispiel: Es wurden n = 200 Personen befragt, von denen k = 78 mit ’ja’ geantwortet haben. α = 0.05, bzw. α = 0.01 I r = p̂ = 78 200 I = 0.39 r p1,2 = 0.39 ± 1.96 r p1,2 = 0.39 ± 2.58 (0.39)(0.61) = 0.39 ± 0.068 199 (0.39)(0.61) = 0.39 ± 0.089 199 I p1,2 = [0.322, 0.458] Waldherr / Christodoulides p1,2 = [0.301, 0.479] Einführung in Quantitative Methoden- 9. VO 32/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI in SPSS File: SPSS-Konfidenzintervalle.sav; Konfidenzintervall für Anteil der Haustierbesitzer (n = 166, α = 0.05) Deskriptive Statistiken → Explorative Datenanalyse Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 33/49 Parameterschätzung Waldherr / Christodoulides Punktschätzung Konfidenzintervalle (KI) Einführung in Quantitative Methoden- 9. VO 34/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2 I Die Normalverteilung ist eine reproduzierende Verteilung I Seien X1 , X2 , . . . , Xn voneinander unabhängig normalverteilte Zufallsvariablen mit Erwartungswerten µ1 , µ2 , . . . , µn und Varianzen σ12 , σ22 , . . . , σn2 . Dann ist die Zufallsvariable Y = X1 + X2 + . . . + Xn ebenfalls normalverteilt mit E [Y ] = µ1 + µ2 + . . . + µn und σY2 = σ12 + σ22 + . . . + σn2 I Wie ist die Verteilung von Mittelwerten x̄ einer normalverteilten Variable? I X sei N(µ, σ 2 ) Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 35/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2 I Wir ziehen unabhängige Zufallsstichproben vom Umfang n. Die Mittelwerte x̄ aller Zufallsstichproben erzeugen eine Variable X̄ = n1 (X1 + X2 + . . . + Xn ) I X̄ ist abgesehen von der multiplikativen Konstante Summe normalverteilter Variablen, und es gilt X̄ ∼ N(µ, 1 n eine σ2 ) n I Wenn X normalverteilt ist, hat X̄ wiederum Normalverteilung mit dem selben Erwartungswert, aber wesentlich kleinerer 2 Varianz σn I Die Mittelwerte aus Stichproben vom Umfang n gruppieren sich also enger zusammen als die Messwerte Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 36/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2 I Wir verwenden die Verteilung von X̄ um ein KI für µ aufzustellen I Standardisieren der normalverteilten Variable X̄ Z= I X̄ − µ √σ n Es gilt für (1 − α)% aller Stichproben mit Umfang n σ |x̄ − µ| ≤ z1− α2 √ n I Waldherr / Christodoulides σ µ1,2 = x̄ ± z1− α2 √ n Einführung in Quantitative Methoden- 9. VO 37/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2 I I I I I I Die Breite des KI hängt von 3 Faktoren ab: von der Streuung der Variable X bzw. σ, von n, und von der Irrtumswahrscheinlichkeit α Je kleiner σ, desto enger das KI Je größer die Stichprobe, desto enger das KI Je kleiner α, desto breiter das KI Beispiel: Eine Stichprobe von n = 234 14-jährigen SchülerInnen wurde mit einem Intelligenztest, der für 14-18 jährige Jugendliche normiert wurde, getestet. Der Mittelwert der 14-Jährigen ist x̄ = 98.10. In der Gesamtpopulation aller Jugendlichen wurde der Test so geeicht, dass die Messwerte normalverteilt mit µ = 100 und σ = 15 sind. In welchem Bereich liegt der Erwartungswert der 14-Jährigen, µ14 (α = 0.05)? Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 38/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei bekanntem σ 2 I 15 = 98.10 ± 1.92 µ1,2 = 98.10 ± 1.96 √ 234 I µ14 wird mit einer Vertrauenswahrscheinlichkeit von 0.95 vom KI [96.18, 100.02] überdeckt I Berechnung des KI beruht auf der Voraussetzung, dass σ 2 bekannt und gültig auch für die Teilpopulation der 14-Jährigen ist I Es kommt selten vor, dass σ 2 bekannt ist I Typischer ist der Fall unbekannter Varianz Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 39/49 Punktschätzung Konfidenzintervalle (KI) Parameterschätzung KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2 I Unbekannte Varianz σ 2 wird aus den vorliegenden Daten geschätzt n 1 X (xi − x̄)2 σ̂ 2 = n−1 i=1 I Anstelle der Verteilung Z= I X̄ − µ √σ n ∼ N(0, 1) wird folgender Ausdruck als Grundlage für das KI verwendet T = Waldherr / Christodoulides X̄ − µ √σ̂ n ∼ t(n−1) Einführung in Quantitative Methoden- 9. VO 40/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2 I Das KI für µ ergibt sich aus X̄ − µ ≤ t1− α2 , df = n − 1 σ̂ √ I n Mit Irrtumswahrscheinlichkeit α gilt σ̂ |x̄ − µ| ≤ t1− α2 √ , df = n − 1 n I Und schließlich das KI σ̂ µ1,2 = x̄ ± t1− α2 √ , df = n − 1 n Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 41/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2 I Beispiel: Der Subtest ’Rechenaufgaben’ eines Intelligenztests wird einer Zufallsstichprobe von n = 87 15-jährigen Wiener HauptschulabsolventInnen vorgegeben, wobei x̄ = 25.48 und s = 6.12. Gesucht ist das Konfidenzintervall für den Erwartungswert µ der Population der Wiener HauptschulabsolventInnen (α = 0.05 bzw. 0.01) I Waldherr / Christodoulides 6.12 µ1,2 = 25.48 ± t1− α2 √ , df = 86 87 Einführung in Quantitative Methoden- 9. VO 42/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für µ einer N(µ, σ 2 ) bei unbekanntem σ 2 I Tabelle enthält keine Eintragung für df = 86, aber nächstgelegene Wert ist df = 60; t0.975 = 2.00 bzw. t0.995 = 2.66 6.12 6.12 µ1,2 = 25.48 ± (2.00) √ , µ1,2 = 25.48 ± (2.66) √ 87 87 I µ liegt mit einer Irrtumswahrscheinlichkeit α = 0.05 bzw. 0.01 im Intervall [24.17, 26.79] bzw. [23.74, 27.23] Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 43/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) Näherungsweises KI für µ einer Variable mit unbekannter Verteilung I Normalverteilung der betrachteten Variable X war Grundlage für alle dargestellten KI I Was tun, wenn die Normalverteilungsannahme nicht gerechtfertigt erscheint? I KI bleiben näherungsweise gültig wegen Zentralem Grenzwertsatz I Güte der Näherung hängt von der Verteilung von X und dem Stichprobenumfang n ab I Bei kleinem n sollte sich die Verteilung von X nicht allzusehr von einer Normalverteilung entfernen I Großes n kann praktisch jede Abweichung von der Normalverteilung kompensieren Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 44/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für σ 2 einer N(µ, σ 2 ) I Ebenso wichtig wie die Verteilung von X̄ ist auch jene von S 2 , wobei S 2 jene Variable bezeichnet, die durch wiederholtes Ziehen von Zufallsstichproben vom Umfang n und Berechnung von s 2 in dieser Stichprobe entsteht I Um σ 2 zu schätzen, verwenden wir n S2 = n 1 X 1 X (xi − x̄)2 = σ 2 n−1 n−1 i=1 |i=1 I σ2 2 S = χ n − 1 (n−1) 2 Waldherr / Christodoulides oder χ2(n−1) n−1 xi − x̄ 2 σ {z } ∼χ2(n−1) = S2 σ2 Einführung in Quantitative Methoden- 9. VO 45/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für σ 2 einer N(µ, σ 2 ) I Grundlage für Aufstellung eines KI für σ 2 I I (n − 1)S 2 = σ2 χ2(n−1) KI mit Irrtumswahrscheinlichkeit α und Freiheitsgraden df = n − 1 (n − 1)s 2 (n − 1)s 2 2 ≥ σ ≥ χ2α χ21− α 2 Waldherr / Christodoulides 2 Einführung in Quantitative Methoden- 9. VO 46/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für σ 2 einer N(µ, σ 2 ) I Beispiel: Angenommen, s = 14.7 für eine normalverteilte Variable in einer Stichprobe von (n = 234) Personen: in welchem Bereich vermuten wir σ 2 für die entsprechende Population (α = 0.05)? I Tabelle enthält für df = 233 keine Eintragungen ⇒ asymptotische Entwicklung Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 47/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für σ 2 einer N(µ, σ 2 ) I Bei df → ∞ strebt χ2 gegen die Normalverteilung N(df , 2df ) I χ20.975 − 233 √ 466 √ = 233 + 1.96 466 = 275.3 z0.975 = 1.96 = χ20.975 χ20.025 − 233 √ 466 √ = 233 − 1.96 466 = 190.7 z0.025 = −1.96 = χ20.025 I KI für die Varianz 233 14.72 14.72 ≤ σ 2 ≤ 233 ⇒ 182.89 ≤ σ 2 ≤ 264.02 275.3 190.7 Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 48/49 Parameterschätzung Punktschätzung Konfidenzintervalle (KI) KI für σ 2 einer N(µ, σ 2 ) I Beispiel: Wie vorhin, aber mit einer Stichprobe vom Umfang n = 24 I Aus Tabelle für df = 23 χ20.975 = 38.08 χ20.025 = 11.69 I KI für σ 2 23 I 14.72 14.72 ≤ σ 2 ≤ 23 ⇒ 130.52 ≤ σ 2 ≤ 425.16 38.08 11.69 Wir sehen, dass die kleine Stichprobe zu einer unzuverlässigeren Schätzung (breiteres KI) der Varianz führt Waldherr / Christodoulides Einführung in Quantitative Methoden- 9. VO 49/49