Wahrscheinlichkeitsverteilungen III Parameterschätzung Einführung in Quantitative Methoden Pantelis Christodoulides & Karin Waldherr 21. Mai 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden 1/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Prüfverteilungen - Motivation I I I Inferenzstatistik verwendet Stichprobenkennwerte (Stichprobenmittelwert, Stichprobenvarianz oder auch den Quotient zweier Stichprobenvarianzen) als Schätzfunktionen für die entsprechenden Populationsparameter. Zieht man immer wieder voneinander unabhängige Zufallsstichproben und berechnet die Kennwerte, werden die einzelnen Kennwerte aufgrund der zufälligen Zusammensetzung der Stichproben nicht ident sein sondern streuen zufällig um den Erwartungswert. Die Kennwerte einzelner Zufallsstichproben sind Realisierungen von Zufallsvariablen (z.B. X̄ , S 2 ). Kenntnis der Verteilung dieser ZV (= Stichprobenverteilung) ist Grundlage für Inferenzstatistik, z.B. von Hypothesentests, Vertrauensbereichen für Schätzwerte. Christodoulides / Waldherr Einführung in Quantitative Methoden 2/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Empirische und Theoretische Verteilungen Empirisch (beobachtet) Stichprobe (Umfang n) Häufigkeitsverteilung Theoretisch (erwartet) Population n→∞ Wahrscheinlichkeitsfunktion bzw. Dichte Verteilungsfunktion Kumulative relative Häufigkeitsverteilung Kennwerte der Verteilung x̄ E (X ) = µ 2 s σ2 rXY ρXY Empirische Quantile Theoretische Quantile Christodoulides / Waldherr Einführung in Quantitative Methoden 3/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen χ2 -Verteilung I I I Gegeben: standardnormalverteilte ZV (µ = 0, σ = 1) Man entnimmt wiederholt (theoretisch unendlich oft) zufällig einzelne z-Werte und quadriert diese. Diese Zufallsvariable wird als Z 2 = χ2(1) -verteilte ZV bezeichnet. Welche Verteilungsform ergibt sich? I I da die z-Werte quadriert werden, können nur Werte ≥ 0 vorkommen da bei einer N(0,1)-verteilten ZV die Werte zwischen 0 und ± 1 am häufigsten sind, werden daher auch χ2 -Werte zwischen 0 und 1 am häufigsten sein Christodoulides / Waldherr Einführung in Quantitative Methoden 4/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen χ2 -Verteilung I Entnimmt man wiederholt 2, 3, 4 . . . , oder m unabhängige zi -Werte, quadriert diese und bildet die Summe der zi2 , ergeben sich χ2(2) , χ2(3) , χ2(4) , ... bzw. χ2(m) - verteilte ZV I Es entstehen χ2 -Verteilungen mit 2, 3, 4, . . . , bzw. m Freiheitsgraden (df ) I Freiheitsgrade = Anzahl der Summanden, die frei variieren dürfen (d.h. für die es gleichgültig ist, welchen Wert sie annehmen) I E (χ2 ) = df , σ 2 = 2df Christodoulides / Waldherr Einführung in Quantitative Methoden 5/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Dichten verschiedener χ2 -Verteilungen Christodoulides / Waldherr Einführung in Quantitative Methoden 6/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen χ2 -Verteilung I Die Summe einer χ2 -verteilten Variablen mit df = n und einer unabhängigen χ2 -verteilten Variablen mit df = m ist ebenfalls χ2 -verteilt mit df = m + n. (= Reproduktionseigenschaft der χ2 -Verteilung) I Mit wachsender Anzahl von Summanden wird die χ2 -Verteilung immer symmetrischer und nähert sich einer NV mit µ = df und σ 2 = 2df (vgl. Zentraler Grenzwertsatz) Christodoulides / Waldherr Einführung in Quantitative Methoden 7/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen χ2 -Tabelle Tabelle 2 gibt ausgewählte α-Quantile der χ2 -Verteilung für verschiedene Freiheitsgrade an (jene Werte χ20 , für die gilt P(χ2 ≤ χ20 ) = α). α df 1 2 3 4 5 .. . 0.005 0.01 0.025 0.05 0.90 0.95 0.975 0.99 0.995 0.00 0.01 0.07 0.21 0.41 .. . 0.00 0.02 0.11 0.30 0.55 .. . 0.00 0.05 0.22 0.48 0.83 .. . 0.00 0.10 0.35 0.71 1.15 .. . 2.71 4.61 6.25 7.78 9.24 .. . 3.84 5.99 7.82 9.49 11.07 .. . 5.02 7.38 9.35 11.14 12.83 .. . 6.64 9.21 11.34 13.28 15.09 .. . 7.88 10.60 12.84 14.86 16.75 .. . Christodoulides / Waldherr Einführung in Quantitative Methoden 8/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Beispiel: df = 15, α = 0.95 α df 1 .. . 15 0.005 0.01 0.025 0.05 0.90 0.95 0.975 0.99 0.995 0.00 .. . 4.60 0.00 .. . 5.23 0.00 .. . 6.26 0.00 .. . 7.26 2.71 .. . 22.31 3.84 .. . 25.00 5.02 .. . 27.49 6.64 .. . 30.58 7.88 .. . 32.80 Christodoulides / Waldherr Einführung in Quantitative Methoden 9/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Asymptotische Entwicklung von χ2 I I Wenn df > 100 asymptotische Entwicklung von χ2 Beispiel√df = 200: annähernd normalverteilt mit N(200, 400) I Z= I χ2 − 200 χ2 − E (χ2 ) √ = σ(χ2 ) 400 χ20.99 − 200 ∼ z0.99 = 2.33(Tab. 1b) 20 I χ20.99 ∼ 200 + 20 · 2.33 = 246.6 I χ20.01 ∼ 200 − 20 · 2.33 = 153.4 Christodoulides / Waldherr Einführung in Quantitative Methoden 10/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen t-Verteilung I Durch Standardisieren einer normalverteilten Variablen erhält man eine standardnormalverteilte Variable Z= X̄ − µX X̄ − µX = q 2 σX̄ σX n I Ist Populationsvarianz jedoch nicht bekannt und muss geschätzt werden, dann ist der Quotient nicht standardnormalverteilt sondern t-verteilt T = X̄ − µX X̄ − µX = q 2 σ̂X̄ σ̂X n mit n Freiheitsgraden. Christodoulides / Waldherr Einführung in Quantitative Methoden 11/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Dichten verschiedener t-Verteilungen Die t-Verteilung ist wie die NV eingipfelig und symmetrisch, mit E (T ) = 0 (für df ≥ 2), und Varianz n/(n − 2) (für df ≥ 3). Mit wachsender Zahl der Freiheitsgrade nähert sich die t-Verteilung der N(0,1). Christodoulides / Waldherr Einführung in Quantitative Methoden 12/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen t-Tabelle Tabelle 3 gibt ausgewählte α-Quantile der t-Verteilung für verschiedene Freiheitsgrade an (jene Werte t0 , für welche gilt P(t ≤ t0 ) = α) df 1 2 .. . 0.90 0.95 0.975 α 0.99 0.995 0.999 0.9995 3.09 1.89 .. . 6.31 2.92 .. . 12.71 4.30 .. . 31.82 6.97 .. . 63.66 9.93 .. . 318.31 22.33 .. . 636.62 31.60 .. . Christodoulides / Waldherr Einführung in Quantitative Methoden 13/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Beispiel 0.90 0.95 0.975 α 0.99 0.995 0.999 0.9995 df 10 .. . 1.37 .. . 1.81 .. . 2.23 .. . 2.76 .. . 3.17 .. . 4.14 .. . 4.59 .. . 120 ∞ 1.29 1.28 1.66 1.65 1.98 1.96 2.36 2.33 2.62 2.58 3.16 3.09 3.37 3.29 Christodoulides / Waldherr Einführung in Quantitative Methoden 14/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen F -Verteilung I I Gegeben seien zwei stochastisch unabhängige χ2 -verteilte Variablen, χ2(n) und χ2(m) . Der Quotient χ2(n) n χ2(m) m I I I ist F -verteilt mit df1 = n (Zählerfreiheitsgrade) und df2 = m (Nennerfreiheitsgrade) F -Verteilungen sind stetig und asymmetrisch Da F das Verhältnis zweier quadrierter Werte ist, können nur positive Werte vorkommen Form ist abhängig von der Anzahl der Zähler- und Nennerfreiheitsgrade Christodoulides / Waldherr Einführung in Quantitative Methoden 15/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen Dichten verschiedener F -Verteilungen Christodoulides / Waldherr Einführung in Quantitative Methoden 16/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen F -Tabelle I I I I I Tabelle 4a gibt jene Werte F0 einer F -verteilten Variablen mit bestimmter Anzahl von Freiheitsgraden an, für welche gilt P(F ≤ F0 ) = α. Quotient wird so gebildet, dass der größere Wert im Zähler steht. Für die Werte in der jeweils oberen Zeile ist α = 0.95, für jene der unteren Zeile ist α = 0.99. df1 . . . Anzahl der Zählerfreiheitsgrade df2 . . . Anzahl der Nennerfreiheitsgrade df1 1 2 3 4 5 ... 10 df2 1 2 161 4052 200 4999 18.51 98.50 19.00 99.00 Christodoulides / Waldherr 216 5403 225 5625 230 5764 ... ... 242 6056 19.16 99.17 19.25 99.25 19.30 99.30 ... ... 19.40 99.40 Einführung in Quantitative Methoden 17/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Fortsetzung Stetige Verteilungen 1 2 3 4 5 ... 10 161 4052 200 4999 216 5403 225 5625 230 5764 ... ... 242 6056 18.51 98.50 19.00 99.00 19.16 99.17 19.25 99.25 19.30 99.30 ... ... 19.40 99.40 Beispiel df1 df2 1 2 Christodoulides / Waldherr Einführung in Quantitative Methoden 18/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Parameterschätzung I Schätzung von Populationsparameter aufgrund einer Stichprobe 1. Punktschätzer 2. Vertrauensbereiche (Konfidenzintervalle) I Punktschätzer: Wir benötigen eine Schätzfunktion (kurz: Schätzer). I Bei der Konstruktion von Schätzern werden bestimmte Eigenschaften berücksichtigt. I ”Güte” (Qualität) eines Schätzers spielt zentrale Rolle. Christodoulides / Waldherr Einführung in Quantitative Methoden 19/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Gütekriterien von Schätzfunktionen nach R.A. Fisher Populationsparameter sollen aus Stichprobenkennwerten möglichst ’gut’ geschätzt werden. Nach welchen Kriterien können wir entscheiden, ob ein Stichprobenkennwert ein brauchbarer Schätzer ist? I Erwartungstreue I Konsistenz I Effizienz I Suffizienz (erschöpfend) Christodoulides / Waldherr Einführung in Quantitative Methoden 20/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Erwartungstreue I Eine Schätzfunktion (kurz: Schätzer) Θ̂ ist erwartungstreu, wenn sein Erwartungswert dem Populationsparameter entspricht. E (Θ̂) = θ D.h., zieht man aus der Population immer wieder Stichproben vom Umfang n und berechnet z.B. jedes Mal x̄, entspricht (auf lange Sicht) das arithmetische Mittel dieser x̄i dem Populationsparameter µ. Der Erwartungswert der ZV X̄ ist µ. I Unter- oder überschätzt ein Schätzer den Parameter systematisch, weist er einen Bias auf. Der Bias ist die Differenz E (Θ̂) − θ. Christodoulides / Waldherr Einführung in Quantitative Methoden 21/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Beispiel Schütze Erwartungstreuer Schütze und Schütze mit Bias Christodoulides / Waldherr Einführung in Quantitative Methoden 22/53 Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Wahrscheinlichkeitsverteilungen III Parameterschätzung I X̄ ist ein erwartungstreuer Schätzer für den Populationsparameter µ: E (X̄ ) = µ. I n 1 X S = (Xi − X̄ )2 n−1 2 i=1 ist ein erwartungstreuer Schätzer für den Populationsparameter σ 2 . I n 1X S = (Xi − X̄ )2 n 2 i=1 ist kein erwartungstreuer Schätzer für σ 2 . Würde man die Varianzen aller möglichen Zufallsstichproben aus der Population mit dieser Formel berechnen, und daraus den Durchschnittswert, würde die Populationsvarianz um den Faktor (n − 1)/n unterschätzt. Christodoulides / Waldherr Einführung in Quantitative Methoden 23/53 Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Wahrscheinlichkeitsverteilungen III Parameterschätzung I Analog für die Kovarianz: n CXY = 1 X (Xi − X̄ )(Yi − Ȳ ) n−1 i=1 ist ein erwartungstreuer Schätzer. I Weitere erwartungstreue Schätzer: Die relative Häufigkeit R für die Wahrscheinlichkeit eines Ereignisses, und die Stichprobenkorrelation für ρXY Christodoulides / Waldherr Einführung in Quantitative Methoden 24/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Effizienz I I I I Ein Schätzer soll auch schon für kleine Stichprobenumfänge eine möglichst geringe Varianz aufweisen. Effizienz meint also die Präzision eines Schätzers. Je kleiner die Varianz der Verteilung eines Stichprobenkennwertes, umso größer ist seine Effizienz als Schätzer. Effizienter Schütze: Christodoulides / Waldherr Einführung in Quantitative Methoden 25/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Streuung von Stichprobenmittelwerten I I I I I Wie effizient ist X̄ als Schätzer für µ? Standardabweichung von Stichprobenkennwerten heißt Standardfehler Der Standardfehler des Mittelwertes σX̄ ist abhängig von der Varianz der Variable X in der Population. σX̄ ändert sich proportional zur Populationsstreuung. Weiters beeinflusst der Stichprobenumfang den Standardfehler. Mit zunehmendem Stichprobenumfang wird σX̄ kleiner. Der Standardfehler des Mittelwertes beträgt s σX2 σX̄ = n Christodoulides / Waldherr Einführung in Quantitative Methoden 26/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Standardfehler des Medians I Der Standardfehler des Medians beträgt s σX2 σMd = 1.25 n I Somit ist die Varianz der Medianwerteverteilung immer größer als jene der Mittelwerteverteilung. I Der Mittelwert schätzt µ effizienter als der Median. Christodoulides / Waldherr Einführung in Quantitative Methoden 27/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Konsistenz I I Ein Schätzer soll für große Stichprobenumfänge (n → ∞) einen möglichst kleinen zufälligen Fehler aufweisen, d.h. mit größer werdendem Stichprobenumfang soll Θ̂n gegen den wahren Parameter θ streben, also immer genauer werden. Mathematisch P(|Θ̂n − θ| > ) −→ 0 n→∞ I für jedes > 0. Ein Schätzer ist konsistent, wenn die Wahrscheinlichkeit, dass der Absolutbetrag der Differenz zum wahren Parameter größer als jede beliebig kleine reelle Zahl ist, mit wachsendem n gegen 0 strebt. Konsistente Schätzer sind: Relative Häufigkeit, X̄ , S 2 , und die Korrelation. Christodoulides / Waldherr Einführung in Quantitative Methoden 28/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Suffizienz I Ein Schätzer ist dann suffizient (oder erschöpfend), wenn er alle in den Daten einer Stichprobe enthaltenen Informationen berücksichtigt, so dass die Berechnung eines weiteren statistischen Kennwertes keine zusätzliche Information über den zu schätzenden Parameter liefert. I X̄ und S 2 sind suffiziente Schätzer I Beispiel: Unter ganz bestimmten Bedingungen ist der Rohscore (= Anzahl richtig gelöster Aufgaben), den eine Person in einem Test erreicht, eine erschöpfende Schätzfunktion für die Fähigkeit der Person. Die Kenntnis, welche Aufgaben die Person gelöst hat und welche nicht, liefert keine zusätzliche Information über die Fähigkeit der Person. Christodoulides / Waldherr Einführung in Quantitative Methoden 29/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Methoden zur Konstruktion von Punktschätzern Überblick I Methode der kleinsten Quadrate I Maximum-Likelihood-Schätzung Christodoulides / Waldherr Einführung in Quantitative Methoden 30/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Methode der kleinsten Quadrate I I I I auch Ordinary Least Squares-Methode genannt. Schätzwert θ̂ für θ, sodass Stichprobe möglichst gut repräsentiert wird in der Form, dass die Summe der quadrierten Abweichungen zwischen θ̂ und Messwerten minimiert wird. Es wird die Summe der Abweichungsquadrate gebildet, S(θ) = n X (xi − θ)2 → min, i=1 I und anschließend die partielle Ableitung nach dem Parameter Null gesetzt. Beispiel: Regression Christodoulides / Waldherr Einführung in Quantitative Methoden 31/53 Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Wahrscheinlichkeitsverteilungen III Parameterschätzung Beispiel Mittelwert S(µ) = n X (xi − µ)2 = i=1 = n X (xi2 − 2µxi + µ2 ) = i=1 n X xi2 − 2µ i=1 n X xi + nµ2 i=1 n X ∂S =2 xi + 2nµ = 0 ∂µ i=1 Pn xi ⇒ µ̂ = i=1 = x̄ n Christodoulides / Waldherr Einführung in Quantitative Methoden 32/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Maximum-Likelihood Schätzung I Likelihood-Funktion: Wahrscheinlichkeit konkret beobachteter Daten unter einem bestimmten Wahrscheinlichkeitsmodell. I Für eine diskrete Verteilung, die durch den Parameter θ charakterisiert ist, ist die Likelihood-Funktion definiert durch: L(θ) = n Y P(Xi = xi |θ) i=1 I Gesucht: Maximum der Likelihood-Funktion für die beobachteten Daten, d.h. jenes θ̂, bei dem die Likelihood den größten Wert hat. Christodoulides / Waldherr Einführung in Quantitative Methoden 33/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Maximum-Likelihood Schätzung I Man bestimmt die Wahrscheinlichkeit für das Auftreten der beobachteten Daten unter der Annahme aller in Frage kommenden Stichprobenverteilungen. I Der ML-Schätzer ist der Parameter jener Verteilung, bei dem das beobachtete Resultat am wahrscheinlichsten ist. Christodoulides / Waldherr Einführung in Quantitative Methoden 34/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Beispiel: Schätzen des Parameters p einer Binomialverteilung aufgrund beobachteter Daten I I Pilotstudie mit neuem Antidepressivum; bei 5 der 15 teilnehmenden PatientInnen erfolgreich. Wie kann man aufgrund dieser Beobachtungen den Parameter p für Erfolg in der Population schätzen? Numerische Lösung: Einsetzen verschiedener p̂ in 5 10 L(p) = 15 5 p (1 − p) I L(p̂ = 0.1) = 0.01 L(p̂ = 0.2) = 0.103 L(p̂ = 0.3) = 0.206 L(p̂ = 0.4) = 0.186 L(p̂ = 0.5) = 0.092 I Die Likelihoodfunktion hat den größten Wert bei p̂ = 0.3. Vielleicht ist ein Wert rund um 0.3 noch besser? Christodoulides / Waldherr Einführung in Quantitative Methoden 35/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung I Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Analytische Lösung: Finden des Maximums der Funktion n k L(p) = p (1 − p)n−k k durch partielles Differenzieren und Nullsetzen Christodoulides / Waldherr Einführung in Quantitative Methoden 36/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Da mathematisch einfacher: Logarithmieren der Likelihoodfunktion ln L n ln L(p) = ln + k ln p + (n − k) ln(1 − p) → Max k ∂ ln L ∂ ln p ∂ ln(1 − p) =k + (n − k) =0 ∂p ∂p ∂p k −1 + (n − k) =0 p̂ 1 − p̂ k(1 − p̂) = (n − k)p̂ k =r n 2. Ableitung ist < 0 ⇒ r ist der ML-Schätzer für den Parameter p der Binomialverteilung. L(p̂ = 0.33) = 0.214 p̂ = Christodoulides / Waldherr Einführung in Quantitative Methoden 37/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) ML-Schätzer für Poisson-Verteilung P(K = k|λ) = λk e −λ k! 1. Fall: ein Wert k beobachtet ln L = k ln λ − ln k! − λ → Max ∂ ln L k = −1=0 ∂λ λ λ̂ = k Christodoulides / Waldherr Einführung in Quantitative Methoden 38/53 Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Wahrscheinlichkeitsverteilungen III Parameterschätzung 2. Fall: n Werte k1 , . . . , kn beobachtet, ki unabhängig L(λ) = n Y P(k1 , . . . , kn |λ) = i=1 ln L = n Y λki e −λ i=1 ki ! n X (ki ln λ − ln ki ! − λ) → Max i=1 n ∂ ln L 1X = ki − n = 0 ∂λ λ i=1 n λ̂ = 1X ki n i=1 Christodoulides / Waldherr Einführung in Quantitative Methoden 39/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Eigenschaften von ML-Schätzern Sie sind stets I konsistent, I suffizient, I nicht unbedingt erwartungstreu (z.B. Varianz berechnet mit 1/n) I ML-Schätzer sind z.B.: R, X̄ I Nachteile: Oft existiert keine analytische Lösung. Numerische Lösungsverfahren oft mathematisch nicht trivial Christodoulides / Waldherr Einführung in Quantitative Methoden 40/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Konfidenzintervalle - Allgemeines I Wir interessieren uns für einen unbekannten wahren Parameter θ, der die Verteilung einer Zufallsvariable charakterisiert I θ wird durch eine Schätzfunktion Θ̂ aus einer (repräsentativen) Stichprobe mit Umfang n geschätzt I Es wird davon ausgegangen, dass die Stichprobe in etwa die Grundgesamtheit widerspiegelt, und dass deshalb die Schätzung in der Nähe des wahren Parameters liegen müsste I Die Schätzfunktion ist selbst eine Zufallsvariable mit einer Verteilung, die den Parameter θ enthält Christodoulides / Waldherr Einführung in Quantitative Methoden 41/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Konfidenzintervalle - Allgemeines I Bei der Schätzung von Parametern geht es nicht nur darum, Schätzfunktionen zu finden und deren Eigenschaften (Erwartungstreue, Konsistenz, etc.) abzuklären I Man möchte auch Intervalle angeben, in welchen θ mit einer gewissen Sicherheit liegt I Es sei α eine vorgegebene Irrtumswahrscheinlichkeit, und a bzw. b reelle Zahlen, mit a ≤ b. Die Schätzung des Bereiches a ≤ θ ≤ b mit der Vertrauenswahrscheinlichkeit (1 − α) nennen wir Konfidenzintervall des Parameters θ mit Irrtumswahrscheinlichkeit α I Θ̂ Punktschätzung von θ, im Vergleich zur Intervallschätzung Christodoulides / Waldherr Einführung in Quantitative Methoden 42/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Konfidenzintervalle - Allgemeines I Wir konstruieren ein symmetrisches Konfidenzintervall auf Grundlage einer Schätzfunktion Θ̂ I Von besonderem Interesse ist die Breite des Konfidenzintervalls. Diese bestimmt sich durch die Standardabweichung von Θ̂ I Erwünscht ist in der Regel ein möglichst schmales Konfidenzintervall, denn dies weist auf eine genaue Schätzung hin Christodoulides / Waldherr Einführung in Quantitative Methoden 43/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Überblick I Konfidenzintervall für den Parameter p einer B(n, p) Variable I Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 ) Variable bei bekannter Varianz σ 2 I Konfidenzintervall für den Erwartungswert µ einer N(µ, σ 2 ) Variable bei unbekannter Varianz σ 2 I Näherungsweises Konfidenzintervall für den Erwartungswert µ einer Variable mit unbekannter Verteilung I Konfidenzintervall für die Varianz σ 2 einer N(µ, σ 2 ) Variable Christodoulides / Waldherr Einführung in Quantitative Methoden 44/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) I Befragung einer Zufallsstichprobe von n Personen aus einer unendlichen Population zu einem Thema mit Antwortkategorien ja/nein I k ist die Anzahl der ’ja’ Antworten in der Stichprobe I r= I p = P (’ja’) ist der wahre (unbekannte) Anteil der Ja-Stimmen in der Population I r ist ein erwartungstreuer Schätzer für p I K ist jene Zufallsvariable, die durch wiederholte Ziehung unabhängiger Stichproben vom Umfang n aus der unendlichen Population entsteht, R ist die entsprechende Zufallsvariable der relativen Häufigkeiten k n die entsprechende relative Häufigkeit Christodoulides / Waldherr Einführung in Quantitative Methoden 45/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) I I I I I K ∼ B(n, p) Wenn np ≥ 5 und n(1 − p) ≥ 5 darf die Binomialverteilung näherungsweise durch die N(np, np(1 − p)) ersetzt werden K ∼a N(np, np(1 − p)) und auch np(1−p) R ∼a N( np ) = N(p, p(1−p) ) n , n n2 Um die Tabelle der N(0, 1) für die Bestimmung der Endpunkte des Konfidenzintervalls anwenden zu können, standardisieren wir R I Z= R − E (R) R −p ∼ N(0, 1) =q σR p(1−p) n I Sei α = 0.05 Christodoulides / Waldherr Einführung in Quantitative Methoden 46/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) Tabelle 1b: P(−1.96 ≤ Z ≤ 1.96) = 0.95 Christodoulides / Waldherr Einführung in Quantitative Methoden 47/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) I Für 95% aller Stichproben mit Umfang n gilt |R − p| |Z | = q ≤ 1.96 p(1−p) n I I I Wir ersetzen σR durch einen Schätzer σc R r r p(1 − p) r (1 − r ) σR = , σc R = n n−1 Also gilt für 95% aller Stichproben mit Umfang n r r (1 − r ) |R − p| ≤ 1.96 n−1 Grundlage für ein KI mit einer Irrtumswahrscheinlichkeit α = 0.05 Christodoulides / Waldherr Einführung in Quantitative Methoden 48/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) I Die Grenzen des KI mit Irrtumswahrscheinlichkeit α = 0.05 werden wie folgt bestimmt r r (1 − r ) p1,2 = r ± 1.96 n−1 I Allgemeiner für beliebige Irrtumswahrscheinlichkeit α r r (1 − r ) p1,2 = r ± z1− α2 n−1 I KI ist symmetrisch um den Punkt r , symmetrisches KI Christodoulides / Waldherr Einführung in Quantitative Methoden 49/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI für p einer B(n, p) I I I I Bei gegebenem p̂ hängt die Breite des KI von zwei Faktoren ab: der gewünschten Sicherheit und dem Stichprobenumfang Je höher die Sicherheit, desto kleiner die Irrtumswahrscheinlichkeit α, desto größer wird z1− α2 , und desto breiter das Intervall Je größer die Stichprobe, desto kleiner wird σR und dessen Schätzung σc R , und desto schmäler das Intervall Interpretation des KI: Werden immer wieder unabhängige Stichproben vom Umfang n gezogen, und wird für jede dieser Stichproben p̂ = r gerechnet, so liegt p̂ in (1 − α) Prozent dieser Stichproben innerhalb des Intervalles [p1 , p2 ]. Der Parameter p wird mit einer Vertrauenswahrscheinlichkeit von (1 − α) vom Intervall [p1 , p2 ] überdeckt Christodoulides / Waldherr Einführung in Quantitative Methoden 50/53 Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Wahrscheinlichkeitsverteilungen III Parameterschätzung KI für p einer B(n, p) I Beispiel: Es wurden n = 200 Personen befragt, von denen k = 78 mit ’ja’ geantwortet haben. α = 0.05, bzw. α = 0.01 I r = p̂ = 78 200 I = 0.39 r p1,2 = 0.39 ± 1.96 r p1,2 = 0.39 ± 2.58 (0.39)(0.61) = 0.39 ± 0.068 199 (0.39)(0.61) = 0.39 ± 0.089 199 I p1,2 = [0.322, 0.458] Christodoulides / Waldherr p1,2 = [0.301, 0.479] Einführung in Quantitative Methoden 51/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) KI in SPSS File: SPSS-Konfidenzintervalle.sav; Konfidenzintervall für Anteil der Haustierbesitzer (n = 166, α = 0.05) Deskriptive Statistiken → Explorative Datenanalyse Christodoulides / Waldherr Einführung in Quantitative Methoden 52/53 Wahrscheinlichkeitsverteilungen III Parameterschätzung Christodoulides / Waldherr Punktschätzung Eigenschaften von Schätzfunktionen Methoden zur Konstruktion von Punktschätzern Konfidenzintervalle (KI) Einführung in Quantitative Methoden 53/53