Methoden der Statistik Mathias Trabs 1. September 2015 Inhaltsverzeichnis 1 Grundbegrie der Statistik 1.1 2 Drei grundlegende Fragestellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 Schätzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Hypothesentests 6 1.1.3 Kondenzmengen (Bereichsschätzung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Minimax- und Bayesansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Ergänzungen: Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 Lineares Modell 15 2.1 Regression und kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Inferenz unter Normalverteilungsannahme . . . . . . . . . . . . . . . . . . . . . . . 21 2.3 Varianzanalyse 26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Exponentialfamilien and verallgemeinerte lineare Modelle 15 30 3.1 Die Informationsungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Verallgemeinerte Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.3 Ergänzung: Numerische Bestimmung des Maximum-Likelihood-Schätzers . . . . . . 37 4 Klassikation 38 4.1 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Bayesklassikation 4.3 Lineare Diskriminanzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Ausblick 38 40 42 43 Literatur Georgii, H.-O.: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik, de Gruyter, 2007 James, G., Witten, D., Hastie, T., Tibshirani, R.: An Introduction to Statistical Learning (with Applications in R), Springer, 2013 Lehmann, E.L., Romano, J.P.: Testing Statistical Hypotheses, Springer, 2005 Lehmann, E.L. and G. Casella: Theory of Point Estimation, Springer, 2003 Shao, J: Mathematical Statistics, Springer, 2003 Venables, W.N., Ripley, B.D.: Modern Applied Statistics with S-Plus, Springer, 1997 Wasserman, L.: All of Statistics, Springer, 2003 Witting, H.: Mathematische Statistik I, Teubner, 1985 1 1 Grundbegrie der Statistik Während die Wahrscheinlichkeitstheorie anhand eines gegebenen Modells die Eigenschaften der (zufälligen) Ereignisse untersucht, ist das Ziel der Statistik genau andersherum: Wie kann man aus den gegebenen Beobachtungen Rückschlüsse auf das Modell ziehen? Beispiel 1.1 . (Werbung) Wir verwenden den Advertising-Datensatz aus James et al. (2013). Für 200 Märkte haben wir die Anzahl der verkauften Produkte Fernsehwerbung XF , für Radiowerbung XR Y sowie das jeweilige Budget für und für Zeitungsannoncen XZ gegeben. Betrachten wir das Modell Yi = aXiF + b + εi , wobei die zufälligen Störgröÿen εi i = 1, . . . , 200, Marktunsicherheiten, externe Einüsse etc. modellieren. Plau- sible Annahmen an das Modell sind (i) (εi ) sind unabhängig (näherungsweise), (ii) (εi ) sind identisch verteilt, (iii) E[εi ] = 0 (iv) εi (kein systematischer Fehler) normalverteilt (wegen ZGWS). Naheliegende Ziele/Fragestellungen: (i) Es sollen a, b anhand der Daten ermittelt werden. Ein mögliches Schätzverfahren ist der Kleinste-Quadrate-Schätzer (b a, bb) := arg min a,b n X (Yi − aXi − b)2 i=1 (wir minimieren die Summe der quadrierten Residuen). Mit onsgrade b a, bb erhalten wir die Regressi- y=b axF + bb. (ii) Sind die Modellannahmen erfüllt? Histogramm, Boxplot und QQ-Plot (Quantil-QuantilPlot) der Residuen. b a kennen (Verteilungsannahme an ε nötig!), können wir InterI = [b a − c, b a + c] für c > 0 konstruieren, so dass der tatsächlich Parameter a vorgegebener Wahrscheinlichkeit in I liegt. (iii) Wenn wir die Verteilung von valle der Form mit (iv) Wir wollen testen, ob es einen Eekt gibt, d.h. gilt die Hypothese H0 : a = 0 sie verworfen werden? Beispielsweise kann man die Hypothese verwerfen, falls einen kritischen Wert c > 0. (εi ). Wir können das Modell auf polynomielle Regression Yi = a0 + für Um einen sinnvollen Wert zu bestimmen, benötigen wir wieder Verteilungsannahmen an die Fehler multiple Regression oder kann |b a| > c a1 XiF + a2 XiR + Yi = a0 + a1 XiF + · · · + an (XiF )n + εi oder + εi erweitern. Dies führt auf das Problem a3 XiZ der Modellwahl. Denition 1.2. Ein messbarer Raum (X , F ) (Pϑ )ϑ∈Θ von WahrΘ 6= ∅ heiÿt statistisches Experiment (F, S )-messbare Funktion Y : X → S versehen mit einer Familie scheinlichkeitsmaÿen mit einer beliebigen Parametermenge oder statistisches Modell. X heiÿt Stichprobenraum. Jede (S, S ) und induziert das statistische Modell Y1 , . . . , Yn für jedes Pϑ unabhängig und identisch ver- heiÿt Beobachtung oder Statistik mit Werten in (S, S , (PYϑ )ϑ∈Θ ). Sind die Beobachtungen teilt (iid.), so nennt man Y1 , . . . , Yn eine mathematische Stichprobe. 2 Beispiel 1.3 . Für n ∈ N seien X1 , . . . , Xn iid. verteilte ZufallsX und Randverteilung X1 ∼ Pϑ mit Parameter ϑ ∈ Θ. Dann ist der Qn (X1 , . . . , Xn ) gemäÿ dem Produktmaÿ Pnϑ (dx) = i=1 Pϑ (dxi ) auf (X n , F ⊗n ) (mathematische Stichprobe) variablen mit Werten in Stichprobenvektor verteilt. Wir werden uns in dieser Vorlesung weitgehend mit (verallgemeinerten) linearen Modellen befassen, d.h. die Abhängigkeit der Zufallsvariablen Xi bzw. deren Verteilung vom unbekannten Parameter kann durch eine lineare Abbildung dargestellt werden. 1.1 Drei grundlegende Fragestellungen Die meisten statistischen Fragestellungen kann man einer der drei Grundprobleme Schätzen, Testen und Kondenzintervalle zuordnen. Diese werden im folgenden kurz umrissen und im Laufe der Vorlesung weiter vertieft. 1.1.1 Schätzprobleme Ziel ist es, aufgrund der vorhandenen Beobachtungen den unbekannten Parameter im statistischen Modell (X , F , (Pϑ )ϑ∈Θ ) zu bestimmen, also einen einzelnen (bestmöglichen) Wert anzuge- ben (Punktschätzung ). Damit ist ein Schätzer eine Abbildung, die nur von den Beobachtungen abhängt. Denition 1.4. (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell, ρ : Θ → Rd ein (abgeleiteter) db: X → Rd . Gilt dimensionaler Parameter, d ∈ N. Ein Schätzer ist eine messbare Abbildung ρ Eϑ [b ρ] = ρ(ϑ) so heiÿt ρb unverzerrt oder erwartungstreu (engl.: unbiased). Beispiel 1.5. p ∈ (0, 1). Also ist p bn Sei Seien X1 , . . . , Xn eine Bernoulli-verteilte mathematische Stichprobe mit Parameter Pn pn ] = n−1 i=1 E[Xi ] = p. i=1 Xi . Dann gilt Ep [b erwartungstreu. Um die Streuung des Schätzers um den wahren Parameter p zu messen, Betrachte den Schätzer pbn := n−1 berechnen wir Varp (b pn ) = n−2 Pn n X Varp (Xi ) = i=1 p(1 − p) . n Für gröÿer werdenden Stichprobenumfang konzentriert sich also pbn um p. Wie gut ein Schätzer ist, wird mithilfe einer Verlustfunktion bestimmt. Diese misst den Abstand zwischen geschätztem und wahrem Parameter. Denition 1.6. ϑ∈Θ Eine Funktion L : Θ × Rd → R+ heiÿt Verlustfunktion, falls L(ϑ, ·) für jedes R(ϑ, ρb) := Eϑ [L(ϑ, ρb)] eines Schätzers ρb heiÿt Risiko. messbar ist. Der erwartete Verlust Typische Verlustfunktionen sind (i) der 0-1-Verlust L(ϑ, r) = 1{r6=ρ(ϑ)} , (ii) der absolute Verlust L(ϑ, r) = |r − ρ(ϑ)| (iii) der quadratische Verlust Rp ) sowie L(ϑ, r) = |r − ρ(ϑ)|2 . Lemma 1.7 (Bias-Varianz-Zerlegung). Rd (euklidischer Abstand im ein Schätzer des Parameters ρ(ϑ) (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Eϑ [|b ρ|2 ] < ∞ für alle ϑ ∈ Θ. Dann Sei mit Modell und ρb: X → gilt für den quadra- tischen Verlust Eϑ |b ρ − ρ(ϑ)|2 = Varϑ (b ρ) + | Eϑ [b ρ] − ρ(ϑ) |2 | {z } für alle ϑ ∈ Θ. Bias Beweis. Es gilt Eϑ |b ρ − ρ(ϑ)|2 =Eϑ |b ρ − Eϑ [b ρ] + Eϑ [b ρ] − ρ(ϑ)|2 =Eϑ [|b ρ − Eϑ [b ρ]|2 ] + 2Eϑ (b ρ − Eϑ [b ρ])> (Eϑ [b ρ] − ρ(ϑ)) + |Eϑ [b ρ] − ρ(ϑ)|2 = Varϑ (b ρ) + |Eϑ [b ρ] − ρ(ϑ)|2 . 3 Beispiel. 2). In der Situation von Beispiel 1.5, betrachten wir den Schätzer Dieser hat den Bias 1 − 2p n+2 E[e pn ] − p = und die Varianz np(1 − p) . (n + 2)2 Var(e pn ) = Damit hat pen Pn pen := ( i=1 Xi +1)/(n+ einen kleineren quadratischen Fehler als pbn , wenn √ |p − 1/2| 6 1/ 8. Bemerkung 1.8. Ein Schätzproblem, bei dem der interessierende Parameter nur endliche viele Werte annehmen kann, heiÿt auch Klassikationsproblem und der entsprechende Schätzer heiÿt Klassizierer (mehr dazu in Kapitel 4). Obwohl wir in dieser Vorlesung keine Asymptotik, d.h. das Verhalten der Schätzer bei Stichprobenumfängen n → ∞, Denition 1.9. Sei ρbn vom abgeleiteten behandeln, seien noch zwei weitere wichtige Grundbegrie erwähnt. iid. X1 , . . . , Xn ∼ Pϑ eine mathematische Parameter ρ(ϑ) konsistent, falls P ϑ ρbn → ρ(ϑ) Der Schätzer ρbn Stichprobe. Dann heiÿt ein Schätzer n → ∞. für E[|b ρn |2 ] < ∞ heiÿt asymptotisch normalverteilt, falls ρbn − Eϑ [b ρn ] L p → N (0, 1) Varϑ (b ρn ) unter und Pϑ . Aufgrund des zentralen Grenzwertsatzes sind viele Schätzer asymptotisch normalverteilt, so auch in Beispiel 1.5. Daher kommt der Untersuchung von statistischen Modellen unter Normalverteilungsannahme eine besondere Bedeutung zu. Zwei wichtige Konstruktionsprinzipien von Schätzern sind die Momentenmethode und Maximum-Likelihood-Schätzer: Methode 1: Momentenmethode. Sei X1 , . . . , Xn eine mathematische Stichprobe reeller E[|X1 |d ] < ∞. Oensichtlich hängen i.A. die Momente einer Verteilung mk = mk (ϑ) := Eϑ [X1k ], k ∈ N, von ihrem Parameter ϑ ∈ Rd ab. Aufgrund des Gesetzes der groÿen Zahlen ist der kanonische Schätzer von mk gegeben durch das Stichprobenmoment Pn m b k := n1 j=1 Xjk . Der Momentenschätzer ϑb von ϑ ist deniert als die Lösung der d-Gleichungen Zufallsvariablen mit b m1 (ϑ) b m2 (ϑ) = m b 1, = m b 2, . . . . . . b md (ϑ) Beispiel 1.10. . . . = m b d. iid. X1 , . . . , Xn ∼ N (µ, σ 2 ). Dann ist m1 = Eµ,σ2 [X1 ] = µ und m2 = Eµ,σ2 [X12 ] = Varµ,σ2 (X1 ) + Eµ,σ2 [X1 ]2 = σ 2 + µ2 . Folglich müssen wir die Gleichungen Sei n µ b= 1X Xj n j=1 n σ b2 + µ b2 = und lösen. Bezeichnen wir das Stichprobenmittel mit X n := n µ b = X n, σ b2 = 1 n 1X 2 X n j=1 j Pn j=1 Xj , 1X (Xj − X n )2 . n j=1 4 erhalten wir die Lösung Die Momentenmethode kann auf die Erwartungswerte allgemeinerer Funktionale verallgemeinert werden (siehe Übung 2 ). Für die zweite Methode benötigen wir etwas mehr Struktur, die wir auch im weiteren Verlauf der Vorlesung immer wieder aufgreifen. Denition 1.11. Maÿ µ Ein statistisches Modell gibt, so dass Pϑ (X , F , (Pϑ )ϑ∈Θ ) heiÿt dominiert, falls es ein σ -endliches µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametri- absolut stetig bzgl. sierte Radon-Nikodym-Dichte L(ϑ, x) := dPϑ (x), dµ ϑ ∈ Θ, x ∈ X heiÿt Likelihoodfunktion, wobei diese meist als durch x parametrisierte Funktion in ϑ aufgefasst wird. Beispiel 1.12. (i) X = R, F = B(R), Pϑ ist gegeben durch die Lebesguedichte fϑ , N (µ, σ 2 ) oder Pϑ = U([0, ϑ]). Dann ist L(ϑ, x) = fϑ (x). beispielsweise Pµ,σ2 = (N, P(N)) oder allgemeiner auf einem (X , P(X )) ist vom Zählmaÿ dominiert. Die Likelihoodfunktion ist durch (ii) Jedes statistische Modell auf dem Stichprobenraum abzählbaren Raum die Zähldichte gegeben. (iii) Ist Θ = {ϑ1 , ϑ2 , . . . } abzählbar, so ist µ= P i ci Pϑi mit ci > 0 und P i ci =1 ein dominie- rendes Maÿ. Methode 2: Maximum-Likelihood-Prinzip. Likelihoodfunktion L(ϑ, x) heiÿt eine Statistik Für ein dominiertes statistisches Modell mit ϑb : X → Θ (Θ trage eine σ -Algebra) Maximum- Likelihood-Schätzer (MLE: maximum likelihood estimator), falls b x) = sup L(ϑ, x) L(ϑ, für Pϑ -f.a. x ∈ X und alle ϑ ∈ Θ. ϑ∈Θ Beispiel 1.13. Betrachten wir wieder eine mathematische Stichprobe (Rn , B(Rn ), Pnµ,σ2 ) mit Pµ,σ2 = N (µ, σ 2 ) n Likelihoodfunktion, x = (x1 , . . . , xn ) ∈ R , Zufallsvariablen. Dann ist dominiertes Modell mit L(µ, σ 2 ; x) = (2πσ 2 )−n/2 X1 , . . . , Xn normalverteilter Rn ein vom Lebesguemaÿ auf n Y (x − µ)2 j . exp − 2σ 2 j=1 Um den Maximum-Likelihood-Schätzer zu berechnen, nutzen wir die Monotonie des Logarithmus und betrachten n X (xj − µ)2 n → max . log L(µ, σ 2 ; x) = − (log(2π) + log σ 2 ) − 2 2σ 2 µ,σ 2 j=1 Ableiten nach µ und σ2 führt auf die Gleichungen 0 = σ −2 n X (xj − µ), j=1 n n 1 X = (xj − µ)2 . 2σ 2 2σ 4 j=1 µ liefert µ b = X n und Einsetzen in die zweite Gleichung ergibt 2 (X − X ) . Es ist leicht nachzuprüfen, dass µ b und σ b2 tatsächlich das Maximierungsj n j Umstellen der ersten Gleichung nach σ b2 = n−1 P problem lösen (und messbar sind). In diesem Fall stimmt der Maximum-Likelihood-Schätzer also mit dem Momentenschätzer überein. 5 Beispiel 1.14. λ > 0, d.h. X = X1 , . . . , Xn eine Poisson-verteilte mathematische Stichprobe mit Parameter k −k e n . Dann ist die gemeinsame Verteilung Z+ , F = P(X ) und Pλ (X1 = k) = λ k! Sei gegeben durch Pλ (X1 = k1 , . . . , Xn = kn ) = Ableiten nach λ P ki −nλ e (k!)n i k1 , . . . , kn ∈ Z+ . , b = X n (hinreichende λ und null setzen führt auf den Maximum-Likelihood-Schätzer λ Bedingung prüfen!). 1.1.2 Hypothesentests Häug interessiert man sich weniger für die gesamte zugrunde liegende Verteilung, als die Frage, ob eine bestimmte Eigenschaft erfüllt ist, oder nicht. Beispielsweise möchte man wissen, ob eine neue Behandlungsmethode I besser ist als die alte bisher genutzte Methode II. Aufgrund einer Beobachtung soll entschieden werden, ob die Hypothese I ist besser als II akzeptiert werden kann oder verworfen werden sollte. Um derartige Fragestellungen in einem statistischen Modell wird die Parametermenge in zwei disjunkte Teilmengen ∅ = Θ0 ∩ Θ1 . Θ0 und (X , F , (Pϑ )ϑ∈Θ ) zu formalisieren, Θ1 zerlegt, d.h. Θ = Θ0 ∪ Θ1 und Das Testproblem liest sich dann als H0 : ϑ ∈ Θ0 versus H1 : ϑ ∈ Θ1 . H0 , H1 als Hypothesen bezeichnet, genauer heiÿt H0 Nullhypothese und H1 Alternativhypothese oder Alternative. Ein statistischer Test entscheidet nun zwischen H0 und H1 aufgrund Dabei werden einer Beobachtung Denition 1.15. x ∈ X. Ein (nicht-randomisierter) statistischer Test ist eine messbare Abbildung ϕ : (X , F ) → ({0, 1}, P({0, 1})), ϕ(x) = 1 heiÿt, dass die Nullhypothese verworfen/ die ϕ(x) = 0 bedeutet, dass die Nullhypothese nicht verworfen wird/ akzeptiert wird. Die Menge {ϕ = 1} = {x ∈ X : ϕ(x) = 1} heiÿt Ablehnbereich von ϕ. Allgemeiner ist ein randomisierter statistischer Test eine messbare Abbildung ϕ : (X , F ) → ([0, 1], B([0, 1])). Im Fall ϕ(x) ∈ (0, 1) entscheidet ein unabhängiges Bernoulli-Zufallsexperiment mit Erfolgswahrscheinlichkeit p = ϕ(x), ob die Hypothese verworfen wird. wobei Alternative angenommen wird und Testen beinhaltet mögliche Fehlerentscheidungen: (i) Fehler 1. Art (α-Fehler, type I error): Entscheidung für H1 , (ii) Fehler 2. Art (β -Fehler, type II error): Entscheidung für Denition 1.16. Sei obwohl H0 , H0 obwohl H1 wahr ist, wahr ist. ϕ ein Test der Hypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1 (X , F , (Pϑ )ϑ∈Θ ). Die Gütefunktion von ϕ ist deniert als im statistischen Modell βϕ : Θ → R+ , ϑ 7→ Eϑ [ϕ] ϕ erfüllt das Signikanzniveau α ∈ [0, 1] (oder ϕ ist Test zum Niveau α), falls βϕ (ϑ) 6 α ϑ ∈ Θ0 . Ein Test ϕ zum Niveau α heiÿt unverfälscht, falls βϕ (ϑ) > α für alle ϑ ∈ Θ1 . Ein Test für alle Somit hat ein nicht-randomisierten Test das Niveau Pϑ (ϕ = 1) 6 α, α ∈ (0, 1), für alle falls ϑ ∈ Θ0 , beschränkt also die Wahrscheinlichkeit des Fehlers 1. Art mit der vorgegeben oberen Schranke α. In der Regel ist es nicht möglich, die Wahrscheinlichkeiten für die Fehler 1. und 2. Art gleichzeitig zu minimieren. Daher werden diese typischerweise asymmetrisch betrachtet: (i) Begrenzung der Fehlerwahrscheinlichkeit 1. Art durch ein vorgegebenes Signikanzniveau 6 α. (ii) Unter der Maÿgabe (i) wird die Wahrscheinlichkeit für Fehler 2. Art minimiert. Eine zum Niveau H1 α statistisch abgesicherte Entscheidung kann also immer nur zu Gunsten von getroen werden. Daraus folgt die Merkregel Was nachzuweisen ist, stets als Alternative H1 formulieren. Beispiel 1.17 . (Einseitiger Binomialtest) Von den 13 Todesfällen unter 55- bis 65-jährigen Ar- beitern eines Kernkraftwerkes im Jahr 1995 waren 5 auf einen Tumor zurückzuführen. Die Todesursachenstatistik 1995 weist aus, dass Tumore bei etwa 1/5 aller Todesfälle die Ursache in der betreenden Altersklasse (in der Gesamtbevölkerung) darstellen. Ist die beobachtete Häufung von tumorbedingten Todesfällen signikant zum Niveau 5%? Bezeichne X die Anzahl der Tumortoten unter Modell gegeben durch X = {0, . . . n}, F = P(X ) n = 13 Todesfällen. Dann ist das statistische Pp = Bin(13, p) mit Parameter p ∈ [0, 1] und und das Testproblem ist gegeben durch H0 : p 6 1/5 Ziel ist ein nicht-randomisierter Test zum Niveau ϕ(x) = 1{x>c} wobei der kritische Wert c > 0 k∈X c supp61/5 Pp (X > c) 6 α. unter dieser Nebenbedingung möglichst klein k X 13 l l=0 p 7→ Pp (X 6 k) für alle k ∈ X c) = P1/5 (X > c). Wegen Da pl (1 − p)13−l . monoton fallend auf P1/5 (X 6 4) ≈ 0, 901 c = 5. Somit ϕ Naheliegenderweise konstruieren wir gilt Pp (X 6 k) = wählen wir α = 0, 05. so gewählt wird, dass Um eine möglichst groÿe Güte zu erreichen, sollte gewählt werden. Für H1 : p > 1/5. versus und [0, 1] ist (ableiten), folgt supp61/5 Pp (X > P1/5 (X 6 5) ≈ 0, 970, kann die Hypothese zum Niveau 0, 05 nicht verworfen werden. Die Gütefunktion von βϕ (p) = Pp (X > 5) = 13 X 13 l p (1 − p)13−l , l p ∈ [0, 1], l=6 ist monoton wachsend und somit ist ϕ auch unverfälscht. Dieses Beispiel führt uns auf ein allgemeines Konstruktionsprinzip von Tests einer Hypothese H0 : ϑ ∈ Θ0 vs. H1 : ϑ ∈ Θ1 mit Methode 3: Teststatistiken. T : (X , F ) → (R, B(R)) Θ0 6= ∅ und Θ1 = Θ \ Θ0 . Für Ablehnbereiche (Γα )α∈(0,1) ⊆ B(R) und eine Teststatistik sei ein Test gegeben durch ϕ(x) = 1{T (x)∈Γα } , x ∈ X. (1.1) Γα = (cα , ∞) konstruiert für kritische n o cα = inf c ∈ R : sup Pϑ (T (X) > c) 6 α , α ∈ (0, 1). Oft werden die Ablehnbereiche als Intervalle Werte (1.2) ϑ∈Θ0 Ist Θ0 = {ϑ0 } einelementig, dann sind die kritischen Werte genau das (1 − α)-Quantil der VerT unter Pϑ0 . Ein wichtiges Konzept in der Testtheorie, insbesondere in Anwendungen, teilung von sind die p-Werte. Denition 1.18. H0 : ϑ ∈ Θ0 6= ∅ Sei (X , F , (Pϑ )ϑ∈Θ ) deniert als pϕ (x) = ϕ der Hypothese x ∈ X bezüglich ϕ ein statistisches Modell und der Test gegeben durch (1.1). Dann ist der p-Wert einer Realisierung inf sup Pϑ (T (X) ∈ Γα ). α:T (x)∈Γα ϑ∈Θ0 7 Statt nur zu prüfen, ob ein Test eine Hypothese akzeptiert oder ablehnt, gibt der p-Wert (die Signikanzwahrscheinlichkeit) das kleinste Signikanzniveau an, zu dem eine Hypothese abgelehnt würde. Damit gibt der p-Wert Aufschluss darüber wie stark die Daten der Hypothese widersprechen. Satz 1.19. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und sei ϕ ein Test der Hypothese H0 : ϑ ∈ Θ0 6= ∅ gegeben durch ϕ = 1{T >cα } für eine Teststatistik T : X → R und kritische Werten (cα )α∈(0,1) aus (1.2). Dann ist der p-Wert einer Realisierung x ∈ X bezüglich ϕ gegeben durch pϕ (x) = sup Pϑ (T (X) > t∗ ) mit t∗ := T (x). ϑ∈Θ0 Sei α ∈ (0, 1) ein fest vorgegebenes ϕ(x) = 1 Ist PTϑ ⇐⇒ pϕ (x) < α (topologisch) diskret verteilt für alle ϕ(x) = 1 Beweis. Deniere ⇐⇒ P0 := supϑ∈Θ0 Pϑ . pϕ (x) = Da Niveau. Ist die Verteilung cα < t∗ ϑ ∈ Θ0 , pϕ (x) 6 α Da Pϑ − f.s. inf äquivalent zur Existenz eines stetig für alle für alle ϑ ∈ Θ0 . für alle ϑ ∈ Θ0 . ϑ ∈ Θ0 , gilt gilt Pϑ − f.s. c 7→ P0 (T > c) α:t∗ >cα PTϑ monoton fallend ist, gilt P0 (T > cα ) > P0 (T > t∗ ). c < t∗ mit P0 (T > c) 6 α ist, folgt aus P0 (T > cα ) 6 α (Rechtsstetigkeit der Verteilungsfunktion), dass pϕ (x) 6 inf{α : cα < t∗ } 6 inf α : P0 ∩c<t∗ {T > c} 6 α = P0 (T > t∗ ). Zusammen erhalten wir Sei nun α ∗ folgt (c, t )) = 0 pϕ (x) = P0 (T > t∗ ). T zunächst stetig verteilt. Aus pϕ (x) = P0 (T > t∗ ) < α und limc↑t∗ P0 (T ∈ P0 (T > c) 6 α für ein c < t∗ . Dann muss aber ϕ(x) = 1 gelten. Andersherum gilt fest und ϕ(x) = 1 ⇒ ∃c < t∗ : P0 (T > t∗ ) 6 α − P0 (T ∈ (c, t∗ )). Pϑ (T ∈ (c, t∗ )) = Pϑ (T ∈ (c, T (x))) > 0 für Pϑ -f.a. x ∈ X und für alle ϑ ∈ Θ0 . ∗ ∗ verteilt, bleibt zu bemerken, dass pϕ (x) = P0 (T > t ) = P0 (T > c) für ein c < t . Dabei gilt diskret Ist T Bemerkung 1.20. (i) Der Vorteil von p-Werten ist, dass sie unabhängig von einem a priori festgesetzten Signikanzniveau α berechnet werden können. Deshalb werden in allen gängigen Statistik- Softwaresystemen statistische Hypothesentests über die Berechnung von p-Werten implementiert. (ii) Warnung: Alle Rahmenbedingungen des Experiments, insbesondere also das Signikanzniveau, müssen vor dessen Durchführung festgelegt werden! Ein Signikanzniveau darf nicht a posteriori aufgrund der erzielten p-Werte festgelegt werden. Dies widerspricht richtiger statistischer Praxis! Insbesondere wäre α eine Zufallsvariable (als Funktion in den Beobach- tungen) und obiger Satz kann nicht angewendet werden. (iii) Der p-Wert gibt eine Antwort auf die Frage: Wie wahrscheinlich sind die gemessenen Daten, gegeben, dass die Nullhypothese stimmt? (und nicht auf die Frage Wie wahrscheinlich ist es, dass die Nullhypothese wahr ist, gegeben den gemessenen Daten?) Beispiel 1.21. Geburten in Berlin: 8 (i) Hypothese : Es werden genauso viele Jungen wie Mädchen geboren. Sind von n∈N Geburten w6n Mädchen zur Welt gekommen, ist das statistische Modell X = {0, . . . , n} und somit (X , P(X ), (Pϑ )ϑ∈[0,1] ) mit Pϑ = Bin(n, ϑ). Die Hypothese führt auf das zweiseitige Testproblem gegeben durch den Stichprobenraum Binomialverteilungen H0 : ϑ = 1/2 w∈X − ϑ| führt |w n wobei versus H1 : ϑ 6= 1/2, beobachtet wird. Wir setzten das Niveau α = 0, 05. Die Teststatistik T (w) = auf einen zweiseitigen Binomialtest. (ii) Hypothese : Höchstens die Hälfte der geborenen Kinder hat nicht verheiratete Eltern. Von n∈N geboren Kindern haben v 6n verheiratete Eltern. Mit (X , P(X ), (Pϑ )ϑ∈[0,1] ) wie oben betrachten wir hier das einseitige Testproblem H0 : ϑ 6 1/2 wobei w n −ϑ v∈X beobachtet wird. Das Niveau versus H1 : ϑ > 1/2, α = 0, 05 zusammen mit der Teststatistik T (w) = führt auf einen einseitigen Binomialtest. Bemerkung 1.22. Bei groÿen Stichprobenumfängen ist es sinnvoll, einen Gauÿ-Test für geeignet normalisierter Teststatistik zu verwenden, um Binomialtest zu approximieren: Für normalisieren wir die Beobachtung X ∼ Bin(n, ϑ) durch Y := √X−nϑ nϑ(1−ϑ) Grenzwertsatz folgt dann für eine standardnormalverteilte Zufallsvariable q ϑ0 (1−ϑ0 ) −1 Φ (1 n − 2α) mit Z ∼ N (0, 1), dass r |X − nϑ| n Pϑ p > cα ϑ(1 − ϑ) nϑ(1 − ϑ) r n n→∞ cα −→ P |Z| > ϑ(1 − ϑ) r 1 n ! 1−Φ cα = α, = 2 ϑ(1 − ϑ) q ϑ0 (1−ϑ0 ) Φ(x) = P(Z 6 x). Folglich wählen wir cα = q1−2α = n Pϑ (T (X) > cα ) Mit der Verteilungsfunktion ϑ ∈ (0, 1) . Aus dem Zentralen ϑ = ϑ0 = unter H0 . 1.1.3 Kondenzmengen (Bereichsschätzung) Während ein (Punkt-)Schätzer einen einzelnen Wert angibt, möglichst in der Nähe des wahren Parameters, um Rückschlüsse auf das zugrunde liegende Modell zu ziehen, geben Kondenzbereiche ein Intervall an, in dem der Parameter mit gegebener Wahrscheinlichkeit liegt. Denition 1.23. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell mit abgeleitetem Parameter C : X → P(Rd ) heiÿt Kondenzmenge zum Kondenzniveau 1 − α (oder zum Irrtumsniveau α) für α ∈ (0, 1), falls die Messbarkeitsbedingung {x ∈ X : ρ(ϑ) ∈ C(x)} ∈ F für alle ϑ ∈ Θ erfüllt ist und es gilt Pϑ (ρ(ϑ) ∈ C) = Pϑ {x ∈ X : ρ(ϑ) ∈ C(x)} > 1 − α für alle ϑ ∈ Θ. ρ : Θ → Rd . Im Fall d=1 Eine mengenwertige Abbildung und falls Beachte, dass ρ(ϑ) C(x) x∈X ein Intervall ist, heiÿt C Kondenzintervall. C zufällig ist. Man muss Kondenzmengen also wie folgt m unabhängigen Experimenten für (verschiedene) Parameter Kondenz- x ist, während interpretieren : Werden in mengen zum Niveau für jedes 0, 95 konstruiert, dann liegt der unbekannte Parameter in 95% der Fälle im der jeweiligen Kondenzmenge (für m groÿ genug; starkes Gesetz der groÿen Zahlen). Ein verbreitetes Konstruktionsprinzip für die Kondenzintervalle ist die Verwendung eines Schätzers und dessen Verteilung, wie im nächsten Beispiel illustriert. 9 Beispiel 1.24. Im Bernoulli-Experiment von Beispiel 1.5 gilt für Cn := [b pn − εn , pbn + εn ] n X ! Pp (p ∈ Cn ) = Pp (|b pn − p| < εn ) = Pp (Xi − p) < nεn > 1 − α. i=1 Da Pn i=1 Xi ∼ Bin(n, p) n könnte men. Für groÿe können wir εn mithilfe der Quantile der Binomialverteilung bestim- man wieder eine Normalapproximation verwenden. Das resultierende Kondenzintervall besitzt dann aber nur asymptotisch das Niveau 1 − α. Eine alternative Konstruktion von Kondenzmengen bietet folgender Korrespondenzsatz: Satz 1.25. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und α ∈ (0, 1). Dann gilt: ϑ0 ∈ Θ ein Test ϕϑ0 der Hypothese H0 : ϑ = ϑ0 zum Signikanzniveau α vor, C(x) = {ϑ ∈ Θ : ϕϑ (x) = 0} eine Kondenzmenge zum Kondenzniveau 1 − α. (i) Liegt für jedes so deniert C eine Kondenzmenge zum Niveau 1 − α, α-Test der Hypothese H0 : ϑ = ϑ0 . (ii) Ist dann ist ϕϑ0 (x) = 1 − 1C(x) (ϑ0 ) ein Niveau- Beweis. Nach Konstruktion erhält man in beiden Fällen, ∀ϑ ∈ Θ : ∀x ∈ X : ϕϑ (x) = 0 Damit ist ϕϑ ein Test zum Niveau α für alle ϑ ⇐⇒ ϑ ∈ C(x). genau dann, wenn 1 − α 6 Pϑ (ϕ = 0) = Pϑ ({x : ϑ ∈ C(x)}) und somit ist C Beispiel 1.26. 0, 95 eine Kondenzmenge zum Niveau α. Mit Hilfe des Korrespondenzsatzes können wir ein Kondenzintervall zum Niveau für die Geburtswahrscheinlichkeit von Mädchen in Berlin berechnen. Im Modell aus Beispiel 1.21(i) ist das Kondenzintervall gegeben durch C(w) = {ϑ ∈ [0, 1] : | wobei pϕ (w) ϕ gehörigen 2 ). den zu zintervall? (Übung w − ϑ| 6 c0,05 } = {ϑ ∈ [0, 1], pϕ (w) > 0, 05}, n p-Wert der Realisierung w bezeichnet. Ist C sogar ein Konden- 1.2 Minimax- und Bayesansatz Wir haben bereits verschiedene Schätzmethoden, wie den Maximum-Likelihood-Schätzer oder die Momentenmethode kennen gelernt. Natürlich gibt es noch viel mehr Konstruktionen. Wie sollte (X , F , (Pϑ )ϑ∈Θ ) ρ : Θ → Rd und Verlustfunktion L. Als mögliches Vergleichskriterium käme die Risikofunktion R(ϑ, ρ b) = Eϑ [L(ϑ, ρb)] eines Schätzers ρb in Frage. eine Methode anhand des gegeben Schätzproblems ausgewählt werden? Sei also ein statistisches Modell mit abgeleitetem Parameter Beachte jedoch folgendes Beispiel: Beispiel 1.27. µ b1 = X und X ∼ N (µ, 1), µ ∈ R, Sei µ b2 = 5. und L(µ, µ b) = (b µ − µ)2 . R(µ, µ b1 ) = Eϑ [(X − µ)2 ] = 1 Damit hat µ b1 kleineres Risiko als Denition 1.28. Rd Betrachte die zwei Schätzer Die Risiken sind dann gegeben durch µ b2 genau dann, wenn Im statistischen Modell und Verlustfunktion L, und R(µ, µ b2 ) = (5 − µ)2 . µ∈ / [4, 6]. (X , F , (Pϑ )ϑ∈Θ ) mit ρb minimax, falls abgeleitetem Parameter ρ: Θ → heiÿt ein Schätzer sup R(ϑ, ρb) = inf sup R(ϑ, ρe), ϑ∈Θ ρ e ϑ∈Θ wobei sich das Inmum über alle Schätzer (d.h. messbaren Funktionen) 10 ρe: X → Rd erstreckt. Denition 1.29. Der Parameterraum Θ trage eine σ -Algebra FΘ , die Verlustfunktion L sei proϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die a-priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaÿ auf (Θ, FΘ ). Das zu π assoziierte Bayesrisiko eines Schätzers ρ b ist ˆ ˆ Rπ (b ρ) := Eπ [R(ϑ, ρb)] = L(ϑ, ρb(x))Pϑ (dx)π(dϑ). duktmessbar und X Θ Der Schätzer ρb heiÿt Bayesschätzer oder Bayes-optimal (bezüglich π ), falls Rπ (ρ) = inf Rπ (e ρ), ρ e wobei sich das Inmum über alle Schätzer (d.h. messbaren Funktionen) ρe: X → Rd erstreckt. Während ein Minimaxschätzer den maximal zu erwartenden Verlust minimiert, kann das Bayesrisiko als ein (mittels ternativ wird π π) gewichtetes Mittel der zu erwartenden Verluste angesehen werden. Al- als die subjektive Einschätzung der Verteilung des zugrundeliegenden Parameters interpretiert. Beispiel 1.27 (fortgesetzt). µ b2 kein Minimaxschätzer sein. Zunächst ist es µ b2 gibt. Tatsächlich werden wir später beweisen, dass µ b1 minimax ist. Unter der a-priori-Verteilung µ ∼ π = U([4, 6]) hat jedoch µ b2 das kleinere Bayesrisiko Rπ (b µ2 ) = 31 < 1 = Rπ (b µ1 ). Oensichtlich kann aber nicht klar, ob es einen besseren Schätzer als Das Bayesrisiko kann auch als insgesamt zu erwartender Verlust in folgendem Sinne verstanden Ω := X × Θ und die gemeinsame Verteilung von Beobachtung und Parameter e (X × Θ, F ⊗ FΘ ) gemäÿ P(dx, dϑ) = Pϑ (dx)π(dϑ). Bezeichnen X und T die Koordinatenprojektionen von Ω auf X bzw. Θ, dann gilt Rπ (b ρ) = EeP [L(T, ρb(X))]. werden: Deniere e P auf Wiederholung: Auf einem Wahrscheinlichkeitsraum (Ω,F ,P) ist die bedingte Wahrscheinlich- keit eines Ereignisses Sei die Ω= S i∈I Bi A∈F gegeben B∈F P(B) > 0 deniert als P(A|B) = P(A ∩ B)/P(B). Bi ∈ F , dann besagt P(A) > 0 und alle k ∈ I mit eine abzählbare Zerlegung in paarweise disjunkte Ereignisse Bayesformel für jedes A ∈ F mit P(Bk )P(A|Bk ) . i∈I P(Bi )P(A|Bi ) P(Bk |A) = P Mittels bedingten Erwartungswerten (Stochastik II) kann diese Formel auf Dichten ausgedehnt werden. Denition 1.30. Sei (X , F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes statistisches Modell mit Dichten ϑ fX|T =ϑ := dP dµ . Sei π eine a-priori-Verteilung auf (Θ, FΘ ) mit Dichte fT bzgl. einem Maÿ ν . Ist fX|T =· : X × Θ → R+ (F ⊗ FΘ )-messbar, dann ist die a-posteriori-Verteilung des Parameters gegeben der Beobachtung X = x deniert durch die ν -Dichte fT |X=x (ϑ) = ´ fX|T =ϑ (x)fT (ϑ) , f (x)fT (t)ν(dt) Θ X|T =t ϑ∈Θ eX -f.ü.). (P (1.3) ρb gegeben X = x ist deniert durch ˆ Rπ (b ρ|x) = L(ϑ, ρb(x))fT |X=x (ϑ)ν(dϑ). Das a-posteriori-Risiko eines Schätzers Θ Beachte, dass im Nenner in (1.3) die Randdichte in e (X × Θ, F ⊗ FΘ , P) fX = ´ steht, so dass der Nenner in (1.3) für 11 fX|T =t (·)fT (t)ν(dt) bzgl. µ von X e PX -f.a. x ∈ X gröÿer als null ist. Θ Beispiel 1.31. π Verteilung und P1 Θ = {0, 1}, L(ϑ, r) = |ϑ − r| (0-1-Verlust) und betrachte eine a-prioriπ({0}) =: π0 und π({1}) =: π1 = 1 − π0 . Die Wahrscheinlichkeitsmaÿe P0 Dichten p0 und p1 bzgl. einem Maÿ µ besitzen (z.B. µ = P0 + P1 ). Dann ist die Setze mit mögen a-posteriori-Verteilung durch die Zähldichte fT |X=x (i) = πi pi (x) , π0 p0 (x) + π1 p1 (x) i = 0, 1 gegeben. Damit ist das a-posteriori-Risiko eines Schätzers eX -f.ü.) (P ϑb : X → {0, 1} gegeben durch b b b = ϑ(x)π0 p0 (x) + (1 − ϑ(x))π1 p1 (x) . Rπ (ϑ|x) π0 p0 (x) + π1 p1 (x) Satz 1.32. Schätzers Es gelten die Bedingungen der vorangegangenen Denition. Für das Bayesrisiko eines ρb gilt ˆ Rπ (b ρ) = Minimiert ρb(x) für eX -f.a. P Rπ (b ρ|x)fX (x)µ(dx). das a-posteriori-Risiko mint∈ran(ρ) Rπ (t|x), dann ist ρb Bayesschätzer. fT |x=x (ϑ)fX (x) = fX|T =ϑ (x)fT (ϑ). Der Satz von Fubini ergibt ˆ ˆ Rπ (b ρ) = L(ϑ, ρb(x))Pϑ (dx)π(dϑ) ˆΘ ˆX ˆ = L(ϑ, ρb(x))fT |x=x (ϑ)fX (x)µ(dx)ν(dϑ) = Rπ (b ρ|x)µ(dx). Beweis. Aus (1.3) folgt Θ Korollar 1.33. X X Unter quadratischem Verlust ist der Bayesschätzer gegeben durch ˆ ρb(x) = ρ(ϑ)fT |X=x (ϑ)ν(dϑ) =: E[ρ(ϑ)|X = x]. Θ Der Bayesschätzer bzgl. absolutem Verlust ist gegeben durch den Median der a-posterioriVerteilung. Für den 0-1-Verlust ist der Bayesschätzer der Modus der a-posteriori-Verteilung. Beweis. Übung 2 . Methode 4: Bayesschätzer. Durch die Wahl einer Verlustfunktion und einer a-priori- Verteilung im statistischen Modell erhalten wir nach Berechnung der a-posteriori-Verteilung und durch das vorangegangene Korollar einen expliziten Bayesschätzer. Beispiel 1.34. X1 , . . . , Xn ∼ N (µ, σ 2 ) eine mathematische Stichprobe mit bekanntem σ 2 > 0 2 und a-priori-Verteilung µ ∼ N (a, b ). Mittels Bayesformel kann die a-posteriori-Verteilung für eine Realisierung x = (x1 , . . . , xn ) berechnet werden: Sei fT |X=x (µ) ∼fX|T =µ (x)fT (µ) n X (µ − a)2 (xi − µ)2 ∼ exp − exp − 2σ 2 2b2 i=1 µ2 − 2µx µ2 − 2aµ n ∼ exp − − 2σ 2 /n 2b2 (b2 + σ 2 /n)µ2 − 2µ(b2 x + aσ 2 /n) n ∼ exp − 2b2 σ 2 /n 1 n 1 b2 xn aσ 2 /n 2 ∼ exp − + µ − − . 2 σ2 b2 b2 + σ 2 /n b2 + σ 2 /n 12 Gegeben der Beobachtung X N ϑ ist also a-posteriori verteilt gemäÿ σ² n 1 −1 b2 n + . a, X − n σ2 b2 b2 + σn² b2 + σn² Der Bayesschätzer bzgl. quadratischem Verlust, gegeben durch den a-posteriori Mittelwert, ist damit ϑbn = σ² b2 n X − a. n b2 + σn² b2 + σn² Bemerkung 1.35. Erhalten wir bei Wahl einer Klasse von a-priori-Verteilungen für ein statistisches Modell dieselbe Klasse (i.A. mit anderen Parametern) als a-posteriori-Verteilung zurück, so nennt man die entsprechenden Verteilungsklassen konjugiert. Im obigen Beispiel haben wir gesehen, dass die Normalverteilungen zur den Normalverteilungen konjugiert sind (genauer müsste man sagen, dass für unbekannten Mittelwert in der Normalverteilung a-priori Normalverteilungen konjugiert sind). Als weiteres Beispiel sind die Beta-Verteilungen zur Binomialverteilung konjugiert sind (siehe Übung 2 ). In diesen (Einzel-)Fällen ist es besonders einfach, die Bayesschätzer zu konstruieren. Für komplexere Modelle werden häug computer-intensive Methoden wie MCMC (Markov Chain Monte Carlo) verwendet, um die a-posteriori-Verteilung zu berechnen (Problem: i.A. hochdimensionale Integration). Lemma 1.36. Unter den Bedingungen der vorangegangen Denition gilt für jeden Schätzer ρb sup R(ϑ, ρb) = sup Rπ (b ρ), π ϑ∈Θ wobei sich das zweite Supremum über alle a-priori-Verteilungen π erstreckt. Insbesondere ist das Risiko eines Bayesschätzers stets kleiner oder gleich dem Minimaxrisiko. Beweis. Natürlich gilt priori-Verteilung δϑ Rπ (b ρ) = ´ R(ϑ, ρb)π(dϑ) 6 supϑ∈Θ R(ϑ, ρb). Θ Durch Betrachtung der a- folgt daher die Behauptung. Durch dieses Lemma können wir untere Schranken für das Minimaxrisiko durch das Risiko von Bayesschätzern abschätzen. Mögliche Anwendungen illustriert folgender Satz. Satz 1.37. X1 , . . . , Xn eine N (µ, σ 2 )-verteilte mathematische Stichprobe mit unbekanntem µ ∈ R und bekanntem σ 2 > 0. Bezüglich quadratischem Risiko ist das arithmetische Mittel X n ein Minimaxschätzer von µ. Sei Beweis. Wir betrachten a-priori-Verteilungen µ ∼ π = N (0, b2 ). Nach Beispiel 1.34 ist die a- posteriori-Verteilung N b2 X n −1 n −2 , + b , 2 σ2 b2 + σn der Bayesschätzer bzgl. quadratischem Risiko ist gegeben durch den a-posteriori-Erwartungswert µ bn = b2 X n /(b2 + σ 2 n−1 ) und dessen a-posteriori-Risiko ist gegeben durch die e, folgt aus Satz 1.32 posteriori-Verteilung. Ist fX die Randdichte von X von P ˆ Rπ (b µn ) = VarT |X=x (µ)fX (x)dx n ˆR −1 −1 = nσ −2 + b−2 fX (x)dx = nσ −2 + b−2 . Varianz der a- Rn Somit können wir das Minimaxrisiko nach unten abschätzen: inf sup R(µ, µ e) = inf sup Rπ (e µ) > inf sup RN (0,b2 ) (e µ) µ e µ∈R µ e µ e b>0 π > sup inf RN (0,b2 ) (e µ) = sup nσ 2 + b−2 e b>0 µ wie behauptet, da 2 R(µ, X n ) = σ /n. 13 b>0 −1 = σ2 , n 1.3 Ergänzungen: Quantile Denition. Sei P((−∞, x]). Für P ein Wahrscheinlichkeitsmaÿ auf (R, B(R)) mit Verteilungsfunktion F (x) = α ∈ (0, 1) ist das α-Quantil qα ∈ R von P deniert durch P((−∞, qα )) 6 α 6 P((−∞, qα ]). Die Quantilfunktion ist deniert als verallgemeinertes Inverses von F −1 (p) := inf{x ∈ R : F (x) > p}, α-Quantile Lemma. sind nicht eindeutig, falls F −1 (α) ist ein F auf dem Niveau F lim r↑F −1 (α) F (x) = Das verallgemeinerte Inverse hat folgende (i) (ii) irgendwo konstant ist. Es gilt aber F (F −1 (α)) > α. Für alle x < F −1 (α) gilt F lim r↑F −1 (α) P((−∞, r]) = P((−∞, r)). Eigenschaften: F −1 (p) 6 x ⇔ p 6 F (x); F ◦ F −1 (p) > p und Gleichheit gilt genau dann, wenn dann nicht gelten, wenn (iii) gilt und wegen der linken Grenzwerte von α> p ∈ [0, 1]. α-Qunatil. Beweis. Aufgrund der Rechtsstetigkeit von F (x) < α α F: F −1 ◦ F (x) 6 x, F unstetig bei F −1 (p) p ∈ ran F. wobei Gleichheit genau dann nicht gilt wenn Rand einer Ebene (kein Anstieg) von F Die Gleichheit kann nur ist; x im Inneren oder am rechten liegt. F ◦ F −1 (p) = p auf (0, 1) genau dann, wenn F stetig ist (d.h. ran F = [0, 1]) und F ◦ F (x) = x gilt auf R genau dann, wenn F strikt monoton wachsend ist. Folglich ist F −1 ein echtes Inverses genau dann, wenn F stetig und streng monoton wachsend ist. Damit gilt −1 Satz. Ist U ∼ U ni([0, 1]), dann besitzt die Zufallsvariable (Quantilstransformation). Besitzt nau dann, wenn F die Verteilungsfunktion stetig ist. Beweis. Aus (i) folgt p ∈ (0, 1) X F −1 (U ) die Verteilungsfunktion F F , dann gilt F (X) ∼ U ni([0, 1]) ge- P(F −1 (U ) 6 x) = P(U 6 F (x)) = F (x) für alle P(F (X) 6 p) = P(X 6 F −1 (p)) = F (F −1 (p)) = p Schlieÿlich rische x ∈ R. Anderseits gilt für wegen (i) und (ii) wollen wir Verteilungsfunktion Pn F (x) = n1 i=1 1{Xi 6x} . ´ nx 2 (2π)−1/2 e−y /2 dy . Für −∞ noch einer den QQ-Plot ⇐⇒ (Qunatil-Quantil-Plot) mathematischen Stichprobe p ∈ ran F. verstehen: X1 , . . . , Xn ist Die empi- gegeben durch Φ(x) = Fn die wahre Verteilungsfunktion F , da nach dem starken Gesetz der groÿen Zahlen Fn (x) → E[1{X1 6x} ] = F (x) P-f.s. für alle x ∈ R gilt (tatsächlich gilt diese Konvergenz sogar gleichmäÿig auf R nach dem Satz von Borel-Cantelli). Falls Xi ∼ N (µ, σ 2 ), so gilt F (x) = Φ( x−m σ ). Für die Quantilfunktion gilt also Die Verteilungsfunktion der Standardnormalverteilung ist groÿe n approximiert F −1 (Φ(x)) = Φ−1 (Φ(x)) · σ + m = σ · x + m, d.h. F −1 ◦ Φ ist eine Gerade. Im QQ-Plot wird tragen und unter einer 2 N (µ, σ )-Annahme Fn−1 (die empirischen Quantile) gegen Φ−1 aufge- sollten die Werte in etwa auf einer Geraden liegen. 14 2 Lineares Modell 2.1 Regression und kleinste Quadrate Regression ist eine Methode um den Zusammenhang zwischen einer Zielgröÿe (Response-Variable ) Y und einem Vektor von erklärenden Variablen (Kovariablen, Regressoren ) X = (x1 , . . . , xk ) zu analysieren. Beginnen wir mit dem einfachen linearen Modell Yi = axi + b + εi , i = 1, . . . , n, ε1 , . . . , εn , die zentriert sind (Ei [εi ] = 0) und endliche Varianz Var(εi ) = σ 2 > 0 haben. Die Parameter a, b ∈ R, σ > 0 sind unbekannt. Gesucht ist eine Regressionsgerade der Form y = ax + b, die die Beobachtungen möglichst gut erklärt. Der Parameter σ ist typischerweise mit Zufallsvariablen nicht das Ziel der statistischen Inferenz und somit ein Störparameter. Beispiel 2.1. Kovariable xi Yi ist das Wachstum von Deutschlands Bruttoinlandsproduktes im Jahr i. Die ist die Veränderung der Arbeitslosenquote im Vergleich zum Vorjahr. Unter Ver- wendung der Daten von 1992 bis 2012 aus den World Development Indicators der Weltbank erhalten als Regressionsgrade erhalten wir y = −1, 080 · x + 1, 338. Betrachten wir alle sechs Grüny = −1, 075 · x + 1, 819 Der dungsmitglieder der EU im gleichen Zeitraum ergibt ganz ähnlich lineare Zusammenhang beider Gröÿen ist als Okuns Gesetz bekannt. Um die Situation weiter zu vereinfachen nehmen wir zunächst an, dass und N (0, σ 2 )-verteilt ε1 , . . . , ε n unabhängig sind. Nun können wir den Maximum-Likelihood-Schätzer bestimmen: Der Beobachtungsvektor ist verteilt gemäÿ der Lebesguedichte L(a, b, σ; y) = n Y (y − ax − b)2 i i (2πσ 2 )−1/2 exp − 2 2σ i=1 n 1 X (yi − axi − b)2 , = (2πσ 2 )−n/2 exp − 2 2σ i=1 y ∈ Rn . Somit ist die Loglikelihoodfunktion n n 1 X l(a, b, σ; y) := log L(a, b, σ; y) = − (log σ 2 + log(2π)) − 2 (yi − axi − b)2 . 2 2σ i=1 a, b Das Maximieren der Likelihood über ist also äquivalent zum Minimieren der Summe der quadrierten Residuen (RSS: residual sum of squares). Auch wenn die Fehler nicht normalverteilt sind, kann diese Methode gute Ergebnisse erzielen. Methode 5: Methode der kleinesten Quadrate. Kleinste-Quadrate-Schätzer b a, bb durch Im einfachen linearen Modell sind die Minimierung der Summe quadratischen Abstände (b a, bb) := arg min a,b n X (Yi − axi − b)2 i=1 gegeben. Satz 2.2. Im einfachen linearen Modell mit unabhängigen und N (0, σ 2 )-verteilten Fehlern, ist der Maximum-Likelihood-Schätzer gleich dem Kleinste-Quadrate-Schätzer und es gilt Pn b a= wobei Yn = 1 n Pn i=1 Yi und (x − xn )(Yi − i=1 Pni 2 i=1 (xi − xn ) xn = 1 n Pn i=1 Y n) xi . 15 und bb = Y n − b axn , Beweis. Es bleibt festzustellen, dass wir durch Dierentiation folgende Normalgleichungen erhalten: 0= n X xi (Yi − axi − b) 0= und i=1 n X (Yi − axi − b), i=1 die leicht gelöst werden können. Bemerkung 2.3. Bei der Wahl anderer Fehlerverteilungen ergibt das Maximum-Likelihood-Prinzip andere (nicht weniger sinnvolle) Schätzer (Übung 2 ), die aber im Allgemeinen nicht in ge- schlossener Form darstellbar sind. Populäre nicht gauÿsche Fehlerverteilungen sind Laplace- und Exponential-Verteilungen. Haben wir k > 2 Kovariablen und n Beobachtungen Yi , führt das zur multiplen linearen Regression Yi = β0 + k X βj xi,j + εi , i = 1, . . . , n, j=1 wobei die Fehlerterme (εi ) iid. und zentriert sind mit 0 < Var(εi ) =: σ 2 < ∞. In Vektorschreibweise erhalten wir Y = (Y1 , . . . , Yn )> ∈ Rn 1 x1,1 · · · x1,k . . n×(k+1) . . ∈ R X := ... . . 1 xn,1 · · · xn,k Response-Vektor, Design-Matrix, ε := (ε1 , . . . , εn )> ∈ Rn > β := (β0 , . . . , βk ) ∈ R Vektor der Fehlerterme, k+1 Parametervektor, so dass das multiple Regressionsmodell in der Form Y = Xβ + ε geschrieben werden kann. Der kleinste-Quadrate-Schätzer löst folglich das Minimierungsproblem min |Xb − Y |2 . b Beispiel 2.4. Im crime-Datensatz von Agresti and Finlay (1997, Kap. 9) stehen für die 51 Staaten der USA die beiden Responsevariablen Anzahl der Gewaltverbrechen pro 100.000 Einwohnern (crime), Morde pro 1.000.000 Einwohner (murder), und folgende Kovariablen zur Verfügung: Prozentualer Anteil der Bevölkerung die in Ballungs-/ Groÿstadtgebieten leben (pctmetro), Prozentualer Anteil der weiÿen Bevölkerung (pctwhite), Prozentualer Anteil der Bevölkerung mit einem High-School-Abschluss (pcths), Prozentualer Anteil der Bevölkerung der unter der Armutsgrenze leben (poverty) und Prozentualer Anteil der Bevölkerung mit alleinerziehenden Eltern (single). 16 Bemerkung 2.5. Wechselwirkungen zwischen zwei Kovariablen tionsterme xi · xj xi und xj werden durch Interak- modelliert. Kategorielle Kovariablen sollten durch eine Menge von sogenann- ten Dummy-Indikatoren kodiert werden, um nicht implizit eine (inadäquate) Metrisierung auf dem diskreten Wertebereich solcher Kovariablen zu induzieren. Eine kategorielle Kovariable mit ` möglichen Ausprägungen wird dabei durch j -te repräsentiert. Der (` − 1) Indikatoren (d.h. {0, 1}-wertige Variablen) Dummy-Indikator kodiert dabei das Ereignis, dass die Kategorie bei der zugehörigen Kovariablen vorliegt, j = 1, . . . , ` − 1. Sind also alle (` − 1) (j + 1) Indikatoren gleich Null, so entspricht dies der (Referenz-) Kategorie 1 der zugehörigen kategoriellen Kovariable (vgl. Varianzanalyse). Dies führt uns zur allgemeinen Denition des linearen Modells: Denition 2.6. Ein lineares Modell mit n reellwertigen Beobachtungen Y = (Y1 , . . . , Yn )> und k -dimensionalem Parameter β ∈ Rk , k < n, besteht aus einer reellen Matrix X ∈ Rn×k von > vollem Rang k , der Designmatrix, und einem Zufallsvektor ε = (ε1 , . . . , εn ) , den Fehler- oder Störgröÿen, mit E[εi ] = 0, Cov(εi , εj ) = Σi,j für eine Kovarianzmatrix Σ > 0. Beobachtet wird eine Realisierung von Der (gewichtete) Y = Xβ + ε. b von β Kleinste-Quadrate-Schätzer β minimiert den gewichteten Euklidischen Abstand zwischen Beobachtungen und Modellvorhersage: |Σ−1/2 (X βb − Y )|2 = inf |Σ−1/2 (Xb − Y )|2 . b∈Rk Im gewöhnlichen Fall Σ = σ 2 En mit Fehlerniveau σ>0 erhalten wir den gewöhnlichen Kleinste- Quadrate-Schätzer (OLS: ordinary least squares) |X βb − Y |2 = inf |Xb − Y |2 , b∈Rk der unabhängig von der Kenntniss von σ2 ist. Σ > 0, falls Σ eine symmetrische, strikt positiv-denite Matrix Σ = T DT > , D = diag(λ1 , . . . , λn ) Diagonalmatrix und T −1/2 −1/2 −1/2 orthogonale Matrix, und wir setzen Σ := T D−1/2 T > mit D1/2 := diag(λ1 , . . . , λn ). Wie −1/2 2 −1 −1/2 2 −1 erwartet, gilt (Σ ) = Σ und somit |Σ v| = hΣ v, vi. Bemerkung 2.7. Wir schreiben ist. Dann ist Σ diagonalisierbar mit Zusätzlich zur einfachen und multiplen Regression umfasst das lineare Modell weitere Beispiele. Beispiel 2.8 (Polynomiale Regression). Wir beobachten Yi = a0 + a1 xi + a2 x2i + · · · + ak−1 xk−1 + εi , i Damit ergibt sich als Parameter β = (a0 , . . . , ak−1 )> i = 1, . . . , n. und eine Designmatrix vom Vandermonde- Typ 1 . X = .. 1 Die Matrix hat vollen Rang, sofern Lemma 2.9. Bildraum Setze ran(XΣ ) k XΣ := Σ−1/2 X . x1 x21 . . . . . . xn x2n ··· . . . ··· der Designpunkte Mit ΠX Σ xk−1 1 . xk−1 n (xi ) verschieden sind. werde die Orthogonalprojektion von Rn bezeichnet. Dann gilt ΠΣ = XΣ (XΣ> XΣ )−1 XΣ> und für den Kleinste-Quadrate-Schätzer βb = (X > Σ−1 X)−1 X > Σ−1 Y. Insbesondere existiert der Kleinste-Quadrate-Schätzer, ist eindeutig und erwartungstreu. 17 auf den XΣ> XΣ = X > Σ−1 X an X : Beweis. Zunächst beachte, dass von Σ und der Rangbedingung invertierbar ist wegen der Invertierbarkeit X > Σ−1 Xv = 0 ⇒ v > X > Σ−1 Xv = 0 ⇒ |Σ−1/2 Xv| = 0 ⇒ |Xv| = 0 ⇒ v = 0. PXΣ := XΣ (XΣ> XΣ )−1 XΣ> und w = PXΣ v für ein v ∈ Rn . Dann folgt w ∈ ran(XΣ ) und im Fall v = XΣ u durch Einsetzen w = PXΣ XΣ u = v, so dass PXΣ eine Projektion auf ran(XΣ ) ist. Da PXΣ selbstadjungiert (symmertrisch) ist, handelt es sich um die Orthogonalprojektion ΠXΣ : Setze ∀u ∈ Rn , ∀w ∈ ran XΣ : hu − PXΣ u, wi = hu, wi − hu, PXΣ wi = 0. b = arg min |Σ−1/2 (Y − Xb)|2 folgt, dass βb die beste Approximation von Aus der Eigenschaft β b Σ−1/2 Y durch XΣ b liefert. Diese ist durch die Orthogonalprojektionseigenschaft ΠXΣ Σ−1/2 Y = XΣ βb bestimmt. Es folgt b XΣ> ΠXΣ Σ−1/2 Y = (XΣ> XΣ )βb ⇒ (XΣ> XΣ )−1 X > Σ−1 Y = β. Schlieÿlich folgt aus der Linearität des Erwartungswertes und E[ε] = 0: b = E[(X > XΣ )−1 X > Σ−1 (Xβ + ε)] = β + 0 = β. E[β] Σ Bemerkung 2.10. Im gewöhnlichen (X > X)−1 X > Y linearen Modell bzw. der multiplen linearen Regression und ist somit unabhängig vom unbekannten Parameter XΣ† := (XΣ> XΣ )−1 XΣ> heiÿt auch Moore-Penrose-(Pseudo-)Inverse XΣ† Σ−1/2 Y bzw. βb = X † Y im gewöhnlichen linearen Modell gilt. gilt βb = σ > 0. XΣ , von so dass βb = Wir kommen zum zentralen Satz in der Regressionsanalyse: Satz 2.11 . ρ = hβ, vi für ein v ∈ Rk im linearen Modell ein (in den Daten Y ) linearer erwartungstreuer Schätzer, der erwartungstreuen Schätzern minimale Varianz besitzt, nämlich Var(b ρ) = (Gauÿ-Markov) zu schätzen, so ist unter allen linearen |XΣ (XΣ> XΣ )−1 v|2 . Ist der Parameter b vi ρb = hβ, Beweis. Die Linearität ist klar und aus dem vorangegangen Lemma folgt, dass ist. Sei nun alle β ∈ Rk und somit ρe = hY, wi ρ. ein beliebiger linearer erwartungstreuer Schätzer von ρb erwartungstreu Dies impliziert für E[hY, wi] = ρ ⇒ hXβ, wi = hβ, vi ⇒ hX > w − v, βi = 0 v = X > w = XΣ> Σ1/2 w. Nach Pythagoras erhalten wir Var(e ρ) = E[hε, wi2 ] = E[w> εε> w] = w> Σw = |Σ1/2 w|2 = |ΠXΣ (Σ1/2 w)|2 + |(En − ΠΣ )(Σ1/2 w)|2 . Damit gilt Var(e ρ) > |ΠXΣ (Σ1/2 w)|2 = |XΣ (XΣ> XΣ )−1 X > w| = |XΣ (XΣ> XΣ )−1 v| = Var(b ρ). Bemerkung 2.12. Man sagt, dass der Schätzer ρb im Satz von Gauÿ-Markov bester linearer erwartungstreuer Schätzer (blue: best linear unbiased estimator) ist. Eingeschränkt auf lineare Schätzer ist der Kleinste-Quadrate-Schätzer damit minimax. Ob es einen besseren nichtlinearen Schätzer geben kann, werden wir in Kapitel 3 beantworten. Im gewöhnlichen linearen Modell ist die optimale Varianz insbesondere diesem Spezialfall ist es auch von Interesse das Rauschniveau insbesondere Tests und Kondenzbereiche zu konstruieren. 18 σ 2 σ 2 |X(X > X)−1 v|2 . In zu schätzen. Dies ermöglicht es Lemma 2.13. X βb = ΠX Y Im gewöhnlichen linearen Modell mit und R := Y − X βb σ>0 und Kleinste-Quadrate-Schätzer βb gilt bezeichne den Vektor der Residuen. Die geeignet normalisierte Stichprobenvarianz σ b2 := ist erwartungstreuer Schätzer von σ2 . X βb = ΠX Y folgt aus Lemma E[|(En − ΠX )ε|2 ]. Ist nun e1 , . . . , en−k ran(En − ΠX ) ⊆ Rn , so folgt Beweis. b2 |R|2 |Y − X β| = n−k n−k b 2 ] = E[|Y − ΠX Y |2 ] = E[|Y − X β| Orthnormalbasis vom (n − k)-dimensionalen Bild 2.9. Einsetzen zeigt eine E[|(En − ΠX )ε|2 ] = n−k X E[hε, ei i2 ] = σ 2 (n − k), i=1 was die Behauptung impliziert. Beachte, dass der Maximum-Likelihood-Schätzer von σ b 2 (Übung Varianz als 2 ). Der 2 σ bM L. erwartungstreue Schätzer σ b 2 σ2 2 −1 σ bM |R|2 6= L = n gegeben ist durch wird in der Praxis bevorzugt, hat jedoch gröÿere Bevor wir uns mit statistischer Inferenz, also der Konstruktion von Tests und Kondenzintervallen, im linearen Modell beschäftigen, soll der Baysianische Ansatz auf das Regressionsproblem angewendet werden. Satz 2.14. σ>0 Im gewöhnlichen linearen Modell k genüge β ∈ R der a-priori-Verteilung Y = Xβ + ε ε ∼ N (0, σ 2 En ) mit und bekanntem β ∼ N (m, σ 2 M ) mit Parametern m ∈ Rk k×k und symmetrisch positiv deniter Matrix M ∈ R . Dann ist die an gegeben einer Realisierung y ∈ R gegeben durch β posteriori-Verteilung von β|Y = y ∼ N (µy , Σy ) mit Σy = σ 2 X > X + M −1 −1 , µy = Σy (σ −2 X > y + σ −2 M −1 m). Insbesondere ist der Bayesschätzer bzgl. quadratischem Verlust gegeben durch −1 > M −1 (X Y + M −1 m). βbBayes = X > X + t ∈ Rk gilt 1 1 fβ|Y =y (t) ∼ exp − 2 (y − Xt)> (y − Xt) exp − 2 (t − m)> M −1 (t − m) 2σ 2σ 1 1 > > 1 > −1 1 > > ∼ exp 2 t X y − 2 t X Xt − 2 t M t + 2 t> M −1 m σ 2σ 2σ σ 1 1 > > > > −1 −1 = exp 2 t X y + M m − 2 t X X + M t . σ 2σ Beweis. Für die a-posteriori-Dichte an der Stelle Daher ist β Y = y normalverteilt mit µy = Σy (X > y + M −1 m)/σ 2 . gegeben und Mittelwert Kovarianzmatrix Es ist erneut bemerkenswert, dass der Bayesschätzer Bemerkung 2.15. Indem wir auch den Parameter σ 2 βbBayes Σy = (σ −2 X > X + σ −2 M −1 )−1 nicht von σ2 abhängt. mit einer a-priori-Verteilung versehen, er- halten wir ein (mehrstuges) Bayesmodell. Da wir besonders an konjugierten Verteilungsklassen interessiert sind, wird hierzu oft die inverse Gamma-Verteilung verwendet: Ist 1/Z ∼ IG(a, b) invers Gamma-verteilt mit Parametern fa,b (x) = a, b > 0 ba −(a−1) −a/x x e 1(0,∞) (x), Γ(a) 19 Z ∼ Γ(a, b) und Lebesguedichte x ∈ R. so ist Das Bayesmodell ist also gegeben durch Y |β, σ 2 ∼ N (Xβ, σ 2 En ), Die gemeinsame Verteilung von β|σ 2 ∼ N (m, σ 2 M ), σ ∼ IG(a, b). (β, σ 2 ) ∼ N IG(m, M, a, b) wird Normal-inverse Gammaverteilung genannt und besitzt die Dichte 2 1 ba > −1 exp − (β − m) M (β − m) e−a/σ 2 2 a+1 2 k/2 1/2 2σ Γ(a)(σ ) (2πσ ) |M | 1 1 ∼ 2 k/2+a+1 exp β ∈ Rk , σ 2 > 0. (β − m)> M −1 (β − m) + b , 2σ 2 (σ ) 1 f (β, σ 2 ) = In diesem Modell ist die a-posteriori-Verteilung von 0 0 IG(a , b ) mit 0 a =a+ n 2 + σ2 gegeben β und Y gegeben durch σ 2 |β, Y ∼ k 2 und 1 1 b0 = b + (Y − Xβ)> (Y − Xβ) + (β − m)> M −1 (β − m). 2 2 Die a-posteriori-Verteilung von (β, σ 2 ) gegeben Y ist f, e (β, σ 2 )|Y ∼ N IG(m, e M a, eb) mit Parametern f = (X > X + M −1 )−1 , m f(M −1 m + X > y), e =M M n 1 f−1 m e a = a + , eb = b + Y > Y + m> M −1 m − m e >M e , 2 2 siehe Fahrmeir et al. (2009, Kap. 3.5). Korollar 2.16. τ 2 Ek , τ > 0, Unter den Voraussetzungen des vorangegangenen Satzes mit m = 0 und M = gilt für den Bayesschätzer unter quadratischem Verlust 1 βbBayes = arg min |Y − Xβ|2 + 2 |β|2 . τ β∈Rk Beweis. Im Spezialfall m = 0 und −1 > τ −2 Ek X y . Andererseits gilt M = τ 2 Ek folgt aus obigem Satz βbBayes = X >X + 1 arg min (Y > − β > X > )(Y − Xβ) + 2 β > β τ β 1 = arg min − 2Y > Xβ + β > (X > X + 2 Ek )β . τ β β 7→ −2Y > Xβ + β > (X > X + τ12 Ek )β liefert 0 = 1 −2Y X +2β (X X + τ 2 Ek ), so dass aus der positiv Denitheit und Symmetrie von X > X + τ12 Ek die Behauptung folgt. Null setzen des Dierenzials der Funktion > > > Der Bayesansatz führt uns also zu einer neuen Schätzmethode im linearen Modell: Methode 6: Ridge-Regression. Ridge-Regressionsschätzer koezient λ>0 oder Im linearen Schrumpfungsschätzer Modell (engl.: Y = Shrinkage) Xβ + ε mit ist der Schrumpfungs- deniert als βbridge = arg min |Y − Xβ|2 + λ|β|2 . β∈Rk Durch Einführung des Strafterms (engl.: penalty ) λ|β|2 wird die Varianz auf Kosten eines Bias verringert. Dies ist insbesondere sinnvoll, wenn einige (wenige) Koezienten von β groÿ sind und die übrigen klein und liefert in diesen Fällen gute Schätzergebnisse auch wenn die Parameterdi- ∼ p). Dies λ ist allerdings mension in einer ähnlichen Gröÿenordnung liegt wie die Anzahl der Beobachtungen (n wird im nächsten Beispiel illustriert. Die richtige Wahl des Strumpfungsparameters ein schwieriges Problem. 20 Beispiel 2.17. rameter β ∈ R Betrachten wir das Modell p und iid. εi ∼ N (0, 1) Yi = x> i β + εi i = 1, . . . , n. mit mit Kovariablenvektor n = 50 Wir wählen x i ∈ Rp , p = 30 und Pa- wobei 10 Koezienten groÿ sind (zwischen 0,5 und 1) und 20 klein (zwischen 0 und 0,3) und bestimmen den mittleren Quadratischen Fehler aus 200 Simulationen für verschiedene Werte von (Übung λ ∈ [0, 20] 2 ). 2.2 Inferenz unter Normalverteilungsannahme Im Folgenden werden wir das gewöhnliche lineare Modell unter der Normalverteilungsannahme (εi ) ∼ N (0, σ 2 En ) Beispiel 2.18. für v∈R k betrachten. (εi ) ∼ N (0, σ 2 En ) Sind die Messfehler βb ∼ N (β, σ 2 (X > X)−1 ) Ist σ>0 gemeinsam normalverteilt und ρ = hv, βi , so gilt b ∼ N (γ, σ 2 v > (X > X)−1 v). ρb = hv, βi und 95% für ρ gegeben durch q v > (X > X)> v, ρb + 1, 96σ v > (X > X)> v . bekannt, so ist ein Kondenzintervall zum Niveau I0,95 (ρ) := ρb − 1, 96σ q 1, 96 gerade das 0,975-Qunatil bzw. 0,025 Fraktil der Standardnormalverteilung. H0 : ρ = ρ0 gegen H1 : ρ 6= ρ0 zum Niveau α ∈ (0, 1) konstruiert: Wähle die Teststatistik |b ρ − ρ | und den kritischen 0 p Wert q1−α/2 σ v > (X > X)> v mit dem (1 − α/2)-Quantil von N (0, 1). Dabei ist der Wert Analog (Korrespondenzsatz) wird der zweiseitige Gauÿ-Test der Hypothese Ist σ unbekannt, so ist eine Idee, einfach σ durch den Schätzer σ b in obiger Formel zu ersetzen. Allerdings wird dann das vorgegebene Niveau nur noch asymptotisch erreicht für einen konsistenten Schätzer (Slutsky-Lemma). Im vorliegenden Fall können wir aber sogar die Verteilung für endliche Stichprobenumfänge exakt bestimmen. Denition 2.19. auf (R, B(R)) t(n) Die t-Verteilung (oder Student-t-Verteilung) mit n ∈ N Freiheitsgraden ist gegeben durch die Lebesguedichte tn (x) = Die F-Verteilung F (m, n) Γ( n+1 x2 −(n+1)/2 2 ) , 1+ n √ n Γ( 2 ) πn x ∈ R. (m, n) ∈ N2 (oder Fisher-Verteilung) mit Freiheitsgraden auf (R, B(R)) ist gegeben durch die Lebesguedichte fm,n (x) = Dabei bezeichnet Γ(p) = ´∞ 0 mm/2 nn/2 xm/2−1 1 + (x), n (m+n)/2 R B( m 2 , 2 ) (mx + n) tp−1 e−t dt die Gamma-Funktion und x ∈ R. B(p, q) = Γ(p)Γ(q) Γ(p+q) die Beta- Funktion. Erinnerung: Für X1 , . . . , Xm ∼ N (0, 1) ist −1 m/2−1 −x/2 fX (x) = (2m/2 Γ( m x e R+ (x). 2 )) 1 Lemma 2.20. Es seien X := X1 , . . . , Xm , Y1 , . . . , Yn Pm i=1 unabhängige Dann gilt X1 Tn := q P n 1 n Beweis. Es gilt gilt. Da Tn ∼ t(n) 2 j=1 Yj Tn2 = F1,n , Fm,n N (0, 1)-verteilte Tn , −Tn ) sofern Zufallsvariablen. Pm 1 X2 m := 1 Pni=1 2i ∼ F (m, n). j=1 Yj n f|Tn | (x) = fF1,n (x2 )2x, x > 0, = FF1,n (x2 )|x|, x ∈ R, und Einsetzen so dass mittels Dichtetransformation symmetrisch (wie zeigt die Behauptung für und Xi2 ∼ χ2 (n) verteilt mit Lebesguedichte verteilt ist, folgt fTn F1,n F (1, n)-verteilt ist. 21 Um die Behauptung für Pn Fm,n 2 2 Y := j=1 Yj χ (n)-verteilt w = x/y ) Pm X := i=1 Xi2 χ2 (m)-verteilt und von X und Y gilt für z > 0 (setze nachzuweisen, benutze, dass sind. Wegen Unabhängigkeit ˆ ˆ P(X/Y 6 z) = ˆ = 1{x/y6z} fx (x)fY (y)dxdy 1{w6z} so dass sich die Dichte wie folgt ergibt (setze ˆ fX (wy)fY (y)ydy dw, w = (z + 1)y ) ˆ fX/Y (z) = fX (zy)fY (y)ydy ˆ 2−(m+n)/2 ∞ (zy)m/2−1 y n/2 e−(zy+y)/2 dy = m Γ( 2 )Γ( n2 ) 0 ˆ 2−(m+n)/2 ∞ = m (zw/(z + 1))m/2−1 (w/(z + 1))n/2 e−w/2 (z + 1)−1 dw Γ( 2 )Γ( n2 ) 0 = Γ( m+n 2 ) z m/2−1 (z + 1)−(m+n)/2 , m Γ( 2 )Γ( n2 ) Fm,n = Dichtetransformation ergibt damit für z > 0. m n X m Y die Dichte n fX/Y (m n x) = fm,n (x). Tn2 = F1,n . Für n = 1 ist die t(n)-Verteilung gerade die Cauchy-Verteilung und für n → ∞ konvergiert sie schwach gegen die Standardnormalverteilung. Für jedes n ∈ N besitzt t(n) nur Momente bis zur Ordnung p < n (sie ist heavy-tailed ). Ähnliches gilt für die 2 F-Verteilung, insbesondere konvergiert die Verteilung von mFm,n für n → ∞ gegen die χ (m)Bemerkung 2.21. Es gilt Verteilung. Aus diesem Lemma ergeben sich die Standardtests für die Parameter der Normalverteilung, siehe Witting (1985, S. 200-204). Bevor wir zur Konstruktion von Tests und Kondenzbändern im linearen Modell kommen noch ein weiteres nützliches Hilfsresultat zur Verteilung quadratischer Formen: Lemma 2.22. R = R> (i) (ii) und Seien R2 = R) X ∼ N (0, En ) und R eine symmetrische, mit rank(R) = r 6 n. Dann gilt idempotente (n × n)-Matrix (d.h. X > RX ∼ χ2 (r), X > RX ist unabhängig von BX für jede Matrix B ∈ Rp×n (iii) für jede weitere symmetrische, idempotente Matrix RS = 0 sind X > RX und X > SX unabhängig und mit S ∈ Rn×n p6n mit und BR = 0, rank(S) = s 6 n und s X > RX ∼ F (r, s). r X > SX Beweis. (i) Da P Dr P > R symmetrisch und idempotent ist, existiert eine Orthogonalmatrix , wobei Dr = P > X ∼ N (0, En ). Er 0 0 . 0 Da P orthogonal ist und X Wegen r X i=1 X > RX χ2 (r)-verteilt. 22 mit standardnormalverteilt, folgt X > RX =X > R2 X = (RX)> (RX) = (P Dr W )> (P Dr W ) = W > Dr W = ist P Wi2 R= W := (ii) Wir setzen Y := BX ∼ N (0, B > B) und Z := RX ∼ N (0, R). Dann gilt Cov(Y, Z) = B Var(X)R> = BR = 0. Da (X, Y ) als Lineartransformation von X gemeinsam normalverteilt ist, folgt aus der Unkorre- liertheit bereits die Unabhängigkeit. Y := SX und Z := RX und somit Z Z = X > RX . Zusammen mit (i) und dem (iii) Genau wie in (ii) folgt die Unabhängigkeit von > > > auch die Unabhängigkeit von Y Y = X SX und vorangegangenen Lemma folgt die Behauptung. Als Korollar erhalten wir Kondenzbereiche für die Schätzung von β und linearen Funktionalen im gewöhnlichen linearen Modell unter der Normalverteilungsannahme. Satz 2.23. N (0, σ 2 En ) (i) Ist (εi ) ∼ Im gewöhnlichen linearen Modell unter der Normalverteilungsannahme für σ>0 qF (k,n−k);1−α gelten folgende Kondenzaussagen für gegebenes Niveau (1 − α)-Quantil das der F (k, n − k)-Verteilung, α ∈ (0, 1) : so ist b 2 < kb σ 2 qF (k,n−k);1−α C := β ∈ Rk |X(β − β)| ein Kondenzellipsoid zum Kondenzniveau (ii) Ist qt(n−k);1−α/2 das h I := ρb − σ b (1 − α2 )-Quantil q der 1−α für β. t(n − k)-Verteilung, so ist q i v > (X > X)−1 vqt(n−k);1−α/2 , ρb + σ b v > (X > X)−1 vqt(n−k);1−α/2 ein Kondenzintervall zum Kondenzniveau 1−α für ρ = hv, βi. Beweis. (i) Nach Konstruktion gilt X βb = XX † Y = ΠX Y = Xβ + ΠX ε, Da ΠX und σ b2 = |(En − ΠX )ε|2 . (n − k) (En − ΠX ) symmetrische, idempotente Matrizen mit Rang k bzw. (n − k) sind ran X bzw. (ran X)⊥ ) und es gilt (En + ΠX )ΠX = 0, folgt aus Lemma 2.22: (Pro- jektionen auf b 2 |X(β − β)| (n − k) ε> (En − ΠX )ε = ∼ F (k, n − k). 2 kb σ k ε> ΠX ε Durch die Wahl des Quaniles folgt die Kondenzaussage (ii) Wegen ρb ∼ N (ρ, σ 2 v > (X > X)−1 v) ρ − ρb σ Andererseits sind 2 Z ∼ χ (n − k). ρb und Damit ist σ b2 p Pβ (β ∈ C) = 1 − α. nach dem Satz von Gauÿ-Markov, ist v > (X > X)−1 v unabhängig und es gilt ∼ N (0, 1). σ b2 = σ 2 Z/(n − k) für eine Zufallsvariable ρ − ρb p ∼ t(n − k). 2 > σ b v (X > X)−1 v Bemerkung 2.24. Ebenso kann man ein Kondenzintervall für die Varianz konstruieren (Übung 2 ). Zusammen mit dem Korrespondenzsatz liefert dieses Resultat: 23 Methode 7: t-Test und F-Test. Im gewöhnlichen linearen Modell unter Normalverteilungs- (εi ) ∼ N (0, σ 2 En ) ist der (zweiseitige) t-Test der Hypothese H0 : ρ = ρ0 Alternative H1 : ρ 6= ρ0 für ρ0 = hv, β0 i zum Niveau α ∈ (0, 1) gegeben durch gegen die annahme ϕρ0 (Y ) = 1{|Tn−k (Y )|>qt(n−k);1−α/2 } Der F-Test der Hypothese H0 : β = β 0 vs. Tn−k (Y ) := mit H1 : β 6= β0 ϕβ0 (Y ) = 1{Fk,n−k (Y )>qF (k,n−k);1−α } ρ − ρb p 0 . > σ b v (X > X)−1 v zum Niveau α ∈ (0, 1) Fk,n−k (Y ) := mit ist gegeben durch b 2 |X(β0 − β)| . kb σ2 Schlieÿlich wollen wir Hypothesentests noch für den allgemeineren Fall von linearen (bzw. anen) Hypothesen konstruieren. Denition 2.25. Im gewöhnlichen linearen Modell ist ein (zweiseitiges) lineares Testproblem gegeben durch H0 : Kβ = d für eine (deterministische) Matrix r d∈R .K K ∈ Rr×k H1 : Kβ 6= d versus mit vollem Rang wird Kontrastmatrix genannt. Unter der Hypothese rank(K) = r 6 k und einem Vektor H0 sind also insgesamt r 6 k linear unabhängige Bedingungen an die Parameter des linearen Modells gestellt. Beispiel 2.26. 2 6 j < l 6 k Test auf Gleichheit zweier Regressionskoezienten: Für ist das Testproblem gegeben durch H0 : β j = β l Damit ist die Kontrastmatrix K = (a1,i ) ∈ R Weitere Beispiele sind der Globaltest (Übung H0 : ∀j ∈ {1, . . . , k} : βj = 0 sowie der Test eines Subvektors H1 : βj 6= βl . versus 1×k gegeben durch 2 ): versus β ∗ = (β1∗ , . . . , βr∗ )> H0 : ∀j ∈ {1, . . . , r} : βj = βj∗ r6k (Übung H1 : ∃j ∈ {1, . . . , r} : βj 6= βj∗ . Kleinste-Quardrate-Schätzers mit den Residuen des auf βbH0 , H0 : Kβ = d b2 RSS = |Y − X β| des eingeschränkten Kleinste- d.h. RSSH0 := |Y − X βbH0 |2 |Y − X βbH0 |2 = mit zu vergleichen. Ist die Abweichung (relativ zu Satz 2.27. d = 0. 2 ): Die Grundidee für das Testen linearer Hypothesen ist, die Residuen Quardate-Schätzers und H1 : ∃j ∈ {1, . . . , k} : βj 6= 0 mit versus a1,i = 1{i=j} − 1{i=l} RSS ) min β∈Rk :Kβ=d |Y − Xβ|2 , zu groÿ, spricht dies gegen die Hypothese. Im gewöhnlichen linearen Modell unter Normalverteilungsannahme (εj ) ∼ N (0, σ 2 En ) ist die lineare Hypothese H0 : Kβ = d mit Kontrastmatrix (i) (ii) K∈R r×k und d∈R r versus H1 : Kβ 6= d zu testen. Es gilt βbH0 = βb − (X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d), RSSH0 − RSS = (K βb − d)> (K(X > X)−1 K > )−1 (K βb − d) unter H0 (iii) die Fisher-Statistik F := n−k RSSH0 −RSS ist unter r RSS 24 H0 und gemäÿ (RSSH0 − RSS)/σ 2 ∼ χ2 (r) F (r, n − k) verteilt. Beweis. (i) Für jeden Vektor γ ∈ Rk , der die Nebenbedingung Kγ =d erfüllt, gilt b 2 + |X(βb − γ)|2 |Y − Xγ|2 = |Y − X βb + X(βb − γ)|2 = |Y − X β| nach Pythagoras, da Y − X βb = (En − ΠX )Y ⊥ ran(X). Auÿerdem ist |X(βb − γ)|2 = |X(βb − βbH0 )|2 + |X(βbH0 − γ)|2 + 2hX(βb − βbH0 ), X(βbH0 − γ)i. Die Wahl von βbH0 impliziert jedoch > hX(βb − βbH0 ), X(βbH0 − γ)i = (X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d) X > X(βbH0 − γ) =(K βb − d)> (K(X > X)−1 K > )−1 (K βbH − Kγ) = 0, 0 denn βbH0 erfüllt die Nebenbedingung: K βbH0 = K βb − K(X > X)−1 K > (K(X > X)−1 K > )−1 (K βb − d) = d. Insgesamt erhalten wir also b 2 + |X(βb − βbH )|2 + |X(βbH − γ)|2 , |Y − Xγ|2 = |Y − X β| 0 0 γ = βbH0 bH mit γ = β 0 was oensichtlich für (ii) Aus (2.1) (2.1) minimal ist. folgt durch Einsetzen von βbH0 b 2 = |X(βb − βbH )|2 RSSH0 − RSS =|Y − X βbH0 |2 − |Y − X β| 0 =(βb − βbH )> X > X(βb − βbH ) 0 0 =(K βb − d)> (K(X > X)−1 K > )−1 (K βb − d). Z := K βb, dass E[Z] = d und Var(Z) = σ 2 K(X > X)−1 K > . 2 2 b Aus der Normalverteilung von β folgt daher (RSSH0 − RSS)/σ ∼ χ (r). b (iii) Da RSSH0 − RSS eine Funktion von β ist und somit unabhängig von RSS ist (Lemma 2.22), folgt die Verteilungsaussage für F aus der Charakterisierung der F (r, n − p)- Unter H0 gilt für die Zufallsvariable Verteilung. Bemerkung 2.28. W := rF ein linearer Unterraum von Y auf L. heiÿt auch Wald-Statistik. Im Fall ran X und X βbH0 = ΠL Y d = 0 ist L := {Xβ|β ∈ Rk , Kβ = 0} die Orthogonalprojektion der Beobachtungen In diesem Fall gilt nach Pythagoras RSSH0 = |Y − ΠL Y |2 = |Y − ΠX Y + (ΠX − ΠL )Y |2 = |Y − ΠX Y |2 + |X βb − X βbH0 |2 , so dass die Fisher-Statistik auch als F = |X βb − X βbH0 |2 rb σ2 geschrieben werden kann. Beispiel 2.26 (fortgesetzt). Einsetzen von F = K und d liefert n−k (βbj − βbl )2 . RSS K(X > X)−1 K > b = σ 2 K(X > X)−1 K > ist Var d (βbj -βbl ) = K(X > X)−1 K > σ Var(βbj − βbl ) = Var(K β) b2 mit σ b = RSS/(n − k) der natürliche (plug-in) Varianzschätzer. Damit können wir die Test-Statistik F als (βbj − βbl )2 H0 ∼ F (1, n − k) F = d βbj − βbl ) Var( Wegen 2 25 schreiben. Dieser F-Test ist äquivalent zum (zweiseitigen) t-Test mit der Teststatistik T = Beispiel 2.29 betrachten βbj − βbl ∼ t(n − k). d βbj − βbl ))1/2 (Var( . (Klimaentwicklung) die mittleren Wir folgen Augusttemperaturen Beispiel von 1799 12.24 bis von 2008 in Georgii (2007) Karlsruhe und (Quelle: http://www.klimadiagramme.de/Europa/special01.htm). Für die Jahre 1854 und 1945 liegen n = 208 Beobachtungen haben. Eine polynomielle Regression in der Zeit t (in Jahrhunderten beginnend bei 1799) mit Graden d = 1, . . . , 4 liefert keine Daten vor, so dass wir p1 (t) = 18, 7 + 0, 1t, p2 (t) = 20, 0 − 3, 5t + 1, 7t2 , p3 (t) = 19, 5 − 0, 6t − 1, 7t2 + 1, 1t3 , p4 (t) = 19, 4 + 0, 5t − 4, 1t2 + 2, 9t3 − 0, 4t4 . Zunächst ist es plausibel, dass die zufälligen Schwankungen unabhängig von einander sind und als näherungsweise normalverteilt angenommen werden können (QQ-Plot). Um statistisch verwertbare Aussagen zu treen, setzen wir noch das Niveau β = (β0 , . . . , βd )> . α = 0, 05 fest. Der Parametervektor ist Welcher Grad des Regressionspolynoms ist sinnvoll? Frage 1 : Ist der positive Trend von p1 signikant? H0 : β1 6 0 vs. H1 : β1 > 0. Die zugehörige b1 β ≈ 0, 62 liegt deutlich unter dem kritischen Wert qt(n−2),1−α ≈ 1, 65 t-Statistik T = √ σ b v > (X > X)−1 v (einseitiger T-Test), so dass die Hypothese nicht verworfen werden kann. Frage 2 : Liegt den Beobachtungen ein linearer Zusammenhang zugrunde (im Modell mit d= 4)? H0 : β2 = β3 = β4 = 0. Mittels Bemerkung 2.28 berechnen wir die Fisher-Statistik Pn (p4 (tk ) − p1 (tk ))2 F = k=1 ≈ 13, 68 > 2, 65 ≈ qF (3,n−5),1−α . 3b σ2 Folglich kann die Hypothese abgelehnt werden und wir schlussfolgern, dass eine Regressionsgerade unzureichend ist. Frage 3 : Benötigen wir ein Polynom vierten Grades? den Wert −0, 41 H0 : β4 = 0. Die zugehörige t-Statistik hat qt(n−5),0.975 ≈ 1, 97 ist (zweiseitiger dessen Absolutbetrag kleiner als das Quantil t-Test). Diese Nullhypothese kann also akzeptiert werden. Frage 4: Benötigen wir ein Polynom dritten Grades ? H0 : β3 = 0 (im Modell mit d = 3). Die zugehörige t-Statistik hat den Wert 2, 05 dessen Absolutbetrag gröÿer als das Quantil qt(n−4),0.975 ≈ 1, 97 ist. Die Hypothese kann also abgelehnt werden und der kubische Anteil im Regressionspolynom ist signikant, d.h. p3 ist signikant besser geeignet die Beobachtungen zu beschreiben als p2 . p3 zeigt einen deutlichen Anstieg der Temperaturen im 19. Jahrhundert. Es sei bemerkt, dass wir hier nur eine Zeitreihe betrachtet haben und somit nicht auf einen allgemeinen Zusammenhang schlieÿen können (Aufgabe der Klimatologen). 2.3 Varianzanalyse Beispiel 2.30. k ∈ N verschiedenen Düngemitteln auf den Ernteertrag zu i ∈ {1, . . . , k} auf ni verschiedenen Agrarächen ausgebracht. Der durch Witterungseinüsse etc. zufällige Ernteertrag kann mittels Yij = µi +εij für j = 1, . . . , ni und i = 1, . . . , k modelliert werden, wobei µi der mittlere Ernteertrag von Düngemittel i ist und εij unabhängige, zentrierte Störgröÿen sind. Wir fragen uns also ob µ1 = · · · = µk gilt oder nicht. Um den Einuss von vergleichen wird jedes Düngemittel Denition 2.31. Das Modell der einfaktoriellen Varianzanalyse (ANOVA1: (one-way) analysis of variance) ist gegeben durch Beobachtungen Yij = µi + εij , i = 1, . . . , k, j = 1, . . . , ni , 26 mit iid.-verteilten Störgröÿen und den Wert i = 1, . . . , k εij ∼ N (0, σ 2 ). Wir bezeichnen die erste Dimension als den Faktor gigen Versuchswiederholungen pro Faktor an und Gilt n1 = · · · = nk , (ni )i=1,...,k die Anzahl der unabhäni=1 ni ist der Gesamtstichprobenumfang. als die Faktorstufe. Folglich geben n := Pk so sprechen wir von balanciertem Design. Damit ist das ANOVA1-Modell ein Spezialfall des gewöhnlichen linearen Modells der Form 1 .. .. . . Y1n1 1 Rn 3 Y := ... = ... Yk1 0 . . . . .. 0 Yknk | Beachte, dass rank X = k . Y11 ··· 0 . . . ··· 0 . . . 0 ··· 0 ··· {z =:X∈Rn×k 0 ε11 .. . . . . 0 µ1 ε1n1 . . . . · . + . . . . . εk1 1 µk . . | {z } . =:µ∈Rk . . . 1 εknk } Die klassische Fragestellung der Varianzanalyse lautet: Existieren Unterschiede in den Faktorstufen-spezischen Mittelwerten µi ? oder anders formuliert Hat der Faktor einen Einuss auf die Response oder nicht?. Dies führt auf das Testproblem H0 : µ1 = · · · = µk Satz 2.32 (Streuungszerlegung). 1, . . . , k , H1 : ∃i, l ∈ {1, . . . , k} : µi 6= µl . versus Im ANOVA1-Modell denieren wir das i-te Gruppenmittel, i= bzw. das Gesamtmittel als Y i• := sowie SSB := k X ni 1 X Yij ni j=1 n k bzw. ni (Y i• − Y •• )2 und Y •• := i 1 XX Yij n i=1 j=1 SSW := ni k X X (Yij − Y i• )2 i=1 j=1 i=1 (SSB: sum of squares between groups; SSW: sum of squares within groups ). Dann gilt SST := ni k X X (Yij − Y •• )2 = SSB + SSW. i=1 j=1 Beweis. Es gilt SST = XX = XX i i (Yij − Y •• )2 = j XX (Yij − Y i• + Y i• − Y •• )2 i j 2 (Yij − Y i• ) + 2(Yij − Y i• )(Y i• − Y •• ) + (Y i• − Y •• )2 , j wobei XX i j (Yij − Y i• )(Y i• − Y •• ) = X X (Y i• − Y •• ) (Yij − Y i• ) i j X = (Y i• − Y •• )(ni Y i• − ni Y i• ) = 0. i Oenbar spricht es gegen die Nullhypothese, wenn die Streuung zwischen den Gruppen gröÿer ist als die Streuung innerhalb der Gruppen. Dies motiviert sowohl den Namen ANOVA als auch folgende Methode: 27 zwischen innerhalb total Fg Quadratsummen Quadratmittel F-Statistik k−1 n−k n−1 Pk SSB = i=1 ni (Y i• − Y •• )2 Pk Pni (Yij − Y i• )2 SSW = i=1 j=1 Pk Pni SST = i=1 j=1 (Yij − Y •• )2 SSB/(k − 1) SSW/(n − k) SST /(n − 1) n − k SSB k − 1 SSW Tabelle 1: ANOVA-Tafel Methode 8: Einfaktorielle Varianzanalyse (ANOVA1). Im Modell der einfaktoriellen Va- rianzanalyse testen wir H0 : µ1 = · · · = µk zum Niveau α ∈ (0, 1) H1 : ∃i, l ∈ {1, . . . , k} : µi 6= µl versus durch den F-Test ϕµ (Y ) = 1{F (Y )>qF (k−1,n−k);1−α } wobei qF (k−1,n−k);1−α Satz 2.33. das (1 − α)-Quantil (ii) (iii) Kleinste-Quadrate-Schätzer > 1• , . . . , Y k,• ) . SSW/σ 2 ∼ χ2 (n − k) SSW n − k SSB , k − 1 SSW F (k − 1, n − k)-Verteilung ist. Im einfaktoriellen Varianzanalysemodell gilt: (i) Der (Y der F (Y ) := mit und SSB und unter µ von H0 (µ1 , . . . , µk )> = ist gegeben durch µ b = SSB/σ 2 ∼ χ2 (k − 1) gilt sind unabhängig und somit F := n−k SSB H0 k−1 SSW ∼ F (k − 1, n − k). Beweis. (i) Nachrechnen zeigt 1/n1 > −1 > µ b = (X X) X Y = 0 .. . = Y 1• . . . . Y k• SSW/σ 2 ∼ χ2 (n−k) und die Unabhängigkeit von SSW und µ b aus Lemma 2.22. Nach dem vorangegangen Satz gilt weiterhin SSB = SST − SSW . Somit folgt die Behauptung aus Satz 2.27, falls SST = RSSH0 . Nun gilt 1 µ 2 2 .. .. RSSH0 = min Y − X . = min Y − . µ . µ∈R µ∈R µ 1 | {z } | {z } (ii)+(iii) Wegen RSS = |Y −X µ b|2 = SSW Pn1 j=1 Y1j . . Pnk. 1/nk j=1 Ykj 0 folgt =:X0 ∈Rn• ×1 ∈Rk Dieses Minimierungsproblem wird gelöst durch Damit folgt RRSH0 = SST . µ bH0 = (X0> X0 )−1 X0> Y = n−1 P i,j Yij = Y •• . Bemerkung 2.34. In der Eektdarstellung wird das einfaktorielle Varianzanalysemodell als Yij = µ0 + αi + εij , i = 1, . . . , k, j = 1, . . . , ni , Pk 1 i=1 ni µi = E[Y•• ] und αi := µi − µ0 , den Eekt der n Faktorstufe i = 1, . . . , k . Insbesondere muss in dieser Darstellung die Nebenbedingung 0 = Pk Pk−1 i=1 ni αi oder äquivalent nk αk = − i=1 ni αi beachtet werden, damit die Designmatrix weiter > vollen Rang hat. Der Parametervektor ist also gegeben durch (µ0 , α1 , . . . , αk−1 ) . Die F-Statistik geschrieben mit Intercept um die Globalhypothese µ0 := H0 : α1 = · · · = αk−1 = 0 Satz 2.33. 28 zu überprüfen, ist identisch zur Statistik aus Beispiel 2.35 (Zweistichproben t-Test) getestet werden, ist k = 2 nY •• = n1 Y 1• + n2 Y 2• . Soll die Gleichwertigkeit von bspw. zwei Düngemitteln H0 : µ1 = µ2 und das Testproblem versus H1 : µ1 6= µ2 . Wegen gilt SSB = n1 (Y 1• − Y •• )2 + n2 (Y 2• − Y •• )2 2 2 2 = n1 Y 1• + n2 Y 2• + nY •• − 2(n1 Y 1• + n2 Y 2• )Y •• 2 1 n1 n2 2 2 2 2 2 = n1 Y 1• + n2 Y 2• − n1 Y 1• + n2 Y 2• = Y 1• − Y 2• . n n Somit ist ϕ = 1{|T |>qt(n−2),1−α/2 } (1 − α/2)-Quantil α ∈ (0, 1). mit dem Niveau Denition 2.36. der T := q mit Y 1• − Y 2• ( n11 + 1 n2 )SSW/(n t(n − 2)-Verteilung qt(n−2),1−α/2 − 2) ein Test der Hypothese H0 zum Das Modell der zweifaktoriellen Varianzanalyse mit balanciertem Design (ANO- VA2) ist gegeben durch Beobachtungen Yijk =µij + εijk , i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K =µ0 + αi + βj + γij + εijk I, J, K > 2, mit iid.-verteilten Störgröÿen εijk ∼ N (0, σ 2 ) und Nebenbedingungen (der Eektdar- stellung) I X αi = i=1 J X βj = j=1 I X i=1 Wir haben also zwei Faktoren mit Faktorstufen (βj ) γij = J X γij = 0. j=1 i = 1, . . . , I und j = 1, . . . , J . (αi ) (γij ) heiÿen Interaktions- heiÿen Haupteekte des ersten bzw. zweiten Faktors. bzw. bzw. Wechselwirkungseekte. Das ANOVA2-Modell ist also ein lineares Modell mit zwei kategoriellen Kovariablen. Die Gesamtanzahl an Beobachtungen ist gegeben durch Satz 2.37. n = I · J · K. Die typische Testprobleme sind H0 : ∀i : αi = 0 versus H1 : ∃i ∈ {1, . . . , I} : αi 6= 0, (2.2) H0 : ∀j : βj = 0 versus H1 : ∃j ∈ {1, . . . , J} : βj 6= 0, (2.3) H0 : ∀i, j : γij = 0 versus H1 : ∃i ∈ {1, . . . , I}, j ∈ {1, . . . , J} : γij 6= 0. (2.4) Im zweifaktoriellen Varianzanalysemodell mit balanciertem Design gilt: µ0 , αi , βj und γij , i = 1, . . . , I − 1, j = sind gegeben durch (• heiÿt, dass über die jeweilige Koordinate gemittelt wird) (i) Die Kleinsten-Quadrate-Schätzer für 1, . . . , J − 1, α bi = Y i•• − Y ••• , βbj = Y •j• − Y ••• , γ bij = (Y ij• − Y ••• ) − α bi − βbj = Y ij• − Y i•• − Y •j• + Y ••• . µ b0 = Y ••• , (ii) Denieren wir SSW := I X J X K X (Yijk − Y ij• )2 , i=1 j=1 k=1 SSB1 := JK I X (Y i•• − Y ••• )2 , i=1 SSB12 := K SSB2 := IK J X (Y •j• − Y ••• )2 , j=1 I X J X (Y ij• − Y i•• − Y •j• + Y ••• )2 , i=1 j=1 29 dann können die Hypothesen (2.2), (2.3) bzw. (2.4) mit den F-Statistiken IJ(K − 1) SSB2 IJ(K − 1) SSB1 ∼ F (I − 1, IJ(K − 1)), ∼ F (J − 1, IJ(K − 1)) I − 1 SSW J − 1 SSW IJ(K − 1) SSB12 ∼ F (I − 1)(J − 1), IJ(K − 1) (I − 1)(J − 1) SSW bzw. getestet werden. Beweis. Übung 2 . Bemerkung 2.38. Selbstverständlich erhält man analoge Resultate, wenn wir für jede Zelle {1, . . . , I} × {1, . . . , J} Beispiel 2.39. verschiedene Stichprobenumfänge nij > 2 (i, j) ∈ beobachten. Ein Bauer möchte wissen ob die Gröÿe seiner geernteten Kohlköpf sich für zwei verschiedene Kultursorten unterscheidet. Auch der Panztag könnte eine Rolle spielen. 3 Exponentialfamilien and verallgemeinerte lineare Modelle 3.1 Die Informationsungleichung Der Satz von Gauÿ-Markov hat uns bereits ein Optimalitätsresultat geliefert, dass allerdings auf lineare Schätzer im linearen Modell eingeschränkt ist. Wir suchen nun allgemeiner nach unverzerrten Schätzern deren Schätzwerte möglichst wenig um den korrekten Wert streuen. Denition 3.1. Sei (X , F , (Pϑ )ϑ∈Θ ) ein statistisches Modell. Ein erwartungstreuer Schätzer T ρ(ϑ) heiÿt varianzminimierend bzw. (gleichmäÿig) bester Schätzer eines abgeleiteten Parameters (UMVUE: uniformly minimum variance unbiased estimator), wenn für jeden weiteren erwartungs- S treuen Schätzer gilt: Varϑ (T ) 6 Varϑ (S) für alle ϑ ∈ Θ. Wir werden zunächst eine untere Schranke für die Varianz beweisen und anschlieÿend untersuchen, für welche Schätzer diese erreicht wird. Denition 3.2. Ein vom Maÿ µ dominiertes, statistisches Modell (X , F , (Pϑ )ϑ∈Θ ) heiÿt regulär, wenn die folgenden Eigenschaften erfüllt sind: (i) Θ ist eine oene Menge in (ii) Die Likelihood-Funktion Rd , d > 1 . L(ϑ, x) ist auf Θ×X strikt positiv und nach ϑ stetig dierenzierbar. ∂ ∂ > ϑ mit ∇ϑ = ( ∂ϑ , . . . , ∂ϑ ) , existiert insbesondere die 1 d Bezeichnen wir den Gradienten in Scorefunktion Uϑ (x) := ∇ϑ log L(ϑ, x) = (iii) Für jedes ϑ∈Θ ∇ϑ L(ϑ, x) . L(ϑ, x) existiert die Fisher-Information h i I(ϑ) := Eϑ Uϑ (X)Uϑ (X)> und ist positiv denit. (iv) Es gilt die Vertauschungsrelation ˆ ˆ h(x)∇ϑ L(ϑ, x)µ(dx) = ∇ϑ für h(x) = 1. 30 h(x)L(ϑ, x)µ(dx) (3.1) Ein Schätzer T: X →R heiÿt regulär, falls E[|T (X)|2 ] < ∞ und (3.1) auch für h(x) = T (x) gilt. Bemerkung 3.3. (i) Der Satz von Lebesgue liefert eine hinreichende Bedingung für die Vertauschungsrelation (3.1): Sie gilt falls für jedes ϑ0 ∈ Θ eine Umgebung Vϑ0 ⊆ Θ existiert, ˆ sup ∇ϑ L(ϑ, x)µ(dx) < ∞. so dass X ϑ∈Vϑ0 Auÿerdem kann man (3.1) für jedes gegebene Modell (und jeden Schätzer) explizit nachprüfen. (ii) Als Konsequenz von (3.1) ergibt sich ˆ und damit L(ϑ, x)µ(dx) = ∇ϑ 1 = 0 Varϑ (Uϑ ) = I(ϑ). ϑ zweimal stetig dierenzierbar und gilt (3.1) mit h(x) = 1 und L ersetzt mit i ∈ {1, . . . , d}, dann gilt I(ϑ) = −Eϑ [HUϑ (X) (ϑ)] für die Hesse-Matrix HU· (x) der Scorefunktion ϑ 7→ Uϑ (x) (Übung 2 ). (iii) Ist L(ϑ, x) ˆ ∇ϑ L(ϑ, x)µ(dx) = ∇ϑ Eϑ [Uϑ ] = in ∂L ∂ϑi für alle I(ϑ) Information? Erstens: I(ϑ) = 0 gilt auf einer Umgebung Θ0 ⊆ Θ genau Uϑ (x) = 0 für alle ϑ ∈ Θ0 und µ-f.a. x ∈ X , also wenn L(ϑ, x) für µ-f.s. konstant somit keine Beobachtung die Parameter in Θ0 unterscheiden kann (dieser Fall ist (iv) Warum heiÿt dann, wenn ist und daher in der Denition ausgeschlossen). Zweitens, verhält sich die Fisher-Information bei (X , F , (Pϑ )ϑ∈Θ ) ein reguläres Modell mit Fisher⊗n I , so hat das Produktmodell (X n , F ⊗n , (P⊗n = ϑ )ϑ∈Θ ) die Fisher-Information I als Übung 2 ). unabhängigen Beobachtungen additiv: Ist Information nI (Beweis Satz 3.4 (Cramér-Rao-Ungleichung, Informationsschranke). sches Modell (X , F, (Pϑ )ϑ∈Θ ), ein regulärer erwartungstreuer Schätzer T von ρ. Beweis. Aus der Zentriertheit von Uϑ ρ : Θ → R, und Dann gilt > Varϑ (T ) > ∇ρ(ϑ) I(ϑ)−1 ∇ρ(ϑ) wir Gegeben seien ein reguläres statisti- eine zu schätzende stetig dierenzierbare Funktion für alle ϑ ∈ Θ. und der Regularität und Erwartungstreue von (3.2) T erhalten ˆ Covϑ (Uϑ , T ) = Eϑ [T Uϑ ] = T (x)∇ϑ L(ϑ, x)µ(dx) X ˆ =∇ T (x)L(ϑ, x)µ(dx) = ∇Eϑ [T ] = ∇ρ X für alle ϑ ∈ Θ. Für jeden Vektor e ∈ Rd ergibt die Cauchy-Schwarz-Ungleichung somit (he, ∇ρi)2 = Covϑ (he, Uϑ i, T )2 6 Varϑ (he, Uϑ i) Varϑ (T ) = hI(ϑ)e, ei Varϑ (T ), also Varϑ (T ) > (h∇ρ, ei)2 . hI(ϑ)e, ei e = I(ϑ)−1 ∇ρ(ϑ) Maximieren über e ∈ Rd Denition 3.5. Ein regulärer erwartungstreuer Schätzer für den Gleichheit in (3.2) gilt, heiÿt ergibt mit Cramér-Rao-ezient. 31 die Behauptung. Im Folgenden beschränken wir uns auf einparametrische (d Satz 3.6. Unter den Bedingungen von Satz 3.4 mit Schranke für alle ϑ∈Θ genau dann, wenn µ-f.ü. ρ0 6= 0 Modelle. erreicht der Schätzer T die untere gilt T − ρ(ϑ) = ρ0 (ϑ)I(ϑ)−1 Uϑ Falls Θ ⊆ R = 1) für alle ϑ ∈ Θ. ist dies äquivalent zu L(ϑ, x) = exp η(ϑ)T (x) − ζ(ϑ) c(x), η : Θ → R eine Stammfunktion von I/ρ0 , c : X → (0, ∞) c(x) exp(η(ϑ)T (x))µ(dx) eine Normierungsfunktion sind. wobei log ´ Beweis. Denieren wir 0 v(ϑ) := ρ0 (ϑ)I −1 (ϑ) (konstant in x) messbar und erhalten wir wegen ζ(ϑ) = Covϑ (Uϑ , T ) = ρ (ϑ) 0 6 Varϑ T − v(ϑ)Uϑ = Varϑ (T ) + v(ϑ)2 Varϑ (Uϑ ) − 2v(ϑ) Covϑ (Uϑ , T ) = Varϑ (T ) − ρ0 (ϑ)2 I −1 (ϑ), also wieder die Informationsungleichung. Gleichheit gilt genau dann, wenn konstant also gleich seinem Erwartungswert µ(T − ρ(ϑ) 6= v(ϑ)Uϑ ) = 0. ρ(ϑ) ist. Da Wenn dies nun für alle µ T − ρ(ϑ) 6= v(ϑ)Uϑ ϑ∈Θ für ein denn aus Stetigkeitsgründen kann man sich auf rationale T − v(ϑ)Uϑ Pϑ -f.s. µ-Dichte hat gilt eine strikt positive Pϑ gilt, so folgt sogar ϑ ∈ Θ = 0, ϑ beschränken und die abzählbare Ver- einigung von Nullmengen ist wieder eine Nullmenge. Die explizite Form der Likelihood-Funktion folgt durch unbestimmte Integration bzgl. ϑ. Dieser Satz führt uns in natürlicher Weise auf eine wichtige Klasse von statistischen Modellen: Denition 3.7. (X , F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes statistisches Modell mit Θ ⊆ R (Pϑ )ϑ∈Θ (einparametrische) Exponentialfamilie in η(ϑ) und T , wenn messbare η : Θ → R, T : X → R und c : X → (0, ∞) existieren, so dass Es sei oen. Dann heiÿt Funktionen dPϑ (x) = c(x) exp η(ϑ)T (x) − ζ(ϑ) , dµ wobei stant x ∈ X , ϑ ∈ Θ, ´ ζ(ϑ) := log c(x) exp(η(ϑ)T (x))µ(dx). Dabei wird angenommen, ist. η(ϑ) heiÿt natürlicher Parameter der Exponentialfamilie und ˆ n o Ξ := η ∈ R : c(x)eηT (x) µ(dx) ∈ (0, ∞) dass T nicht µ-f.s. kon- X heiÿt natürlicher Parameterraum. Ist die Exponentialfamilie durch η ∈ Ξ parametrisiert, dann wird sie als natürliche Exponentialfamilie bezeichnet. Bemerkung 3.8. a 6= 0 erhält man beispielsweise eine ExponenTe(x) = T (x)/a. Auÿerdem kann die Funktion c in das werden: µ e(dx) := c(x)µ(dx). (i) Die Darstellung ist nicht eindeutig, mit tialfamilie in ηe(ϑ) = aη(ϑ) und dominierenden Maÿ absorbiert (ii) Die Identizierbarkeitsfordung Pϑ 6= Pϑ0 für alle Beispiel 3.9. 32 ϑ 6= ϑ0 ist äquivalent zur Injektivität von η. (i) (N (µ, σ 2 ))µ∈R mit σ>0 L(ϑ, x) = √ bekannt ist eine Exponentialfamilie in 1 2 2πσ 2 e−(x−µ) /(2σ 2 ) (ii) Die Familie der Poissonverteilungen =√ 1 2πσ 2 e−(x 2 η(µ) = µ/σ 2 −2µx+µ2 )/(2σ 2 ) und T (x) = x: x ∈ R. , (P oiss(λ))λ>0 mit Intensitätsparameter λ η(λ) = log λ und T (x) = x: bildet eine Exponentialfamilie mit natürlichem Parameter 1 λx e−λ = ex log λ−λ , x! x! L(λ, x) = Lemma 3.10. R x ∈ Z+ . Ist ein statistisches Modell durch eine Exponentialfamilie in mit dierenzierbarem η S : X → R mit existierendem Erwartungswert ρ0 (ϑ) = η 0 (ϑ) Varϑ (T ) 6= 0, ϑ ∈ Θ. (i) Jede Statistik η : Θ → R und T : X → gegeben, so ist dieses regulär. Ferner gilt ρ(ϑ) := Eϑ [T ] ist ζ 0 (ϑ) = η 0 (ϑ)Eϑ [T ] für ist regulär. stetig dierenzierbar mit (ii) Die Normierungsfunktion ϑ ∈ Θ. ζ Θ ⊆ R stetig dierenzierbar Uϑ = η 0 (ϑ)T − ζ 0 (ϑ). ist auf Die Scorefunktion ist (iii) Für die Fisher-Information gilt η(ϑ) = ϑ Beweis. O.B.d.A. ist I(ϑ) = η 0 (ϑ)ζ 00 (ϑ) = η 0 (ϑ)ρ0 (ϑ) und somit 0 η =1 für alle ϑ ∈ Θ. mit für alle ϑ ∈ Θ. Der allgemeine Fall ergibt sich durch Reparametrisierung und Anwendung der Kettenregel. S Schritt 1: Sei eine beliebige reelle Statistik mit S ∈ L1 (Pϑ ) für alle ϑ ∈ Θ. Dann ist die ˆ Funktion uS (ϑ) := eζ(ϑ) Eϑ [S] = S(x)eϑT (x) c(x)µ(dx) X auf Θ wohl deniert. Wir zeigen nun, dass Ist ϑ ∈ Θ und t ∈ R X |t|k ˆ k>0 k! ˆ us beliebig oft dierenzierbar ist. ϑ ± t ∈ Θ, so gilt mittels monotoner Konvergenz ˆ k ϑT (x) |S(x)||T (x)| e c(x)µ(dx) = |S(x)|eϑT (x)+|tT (x)| c(x)dx so klein, dass auch X X |S(x)| e(ϑ+t)T (x) + e(ϑ−t)T (x) c(x)dx < ∞. 6 X Also ist k 1 ST ∈ L (Pϑ ) für alle ϑ∈Θ Xt k>0 k k! und insbesondere ˆ T ∈ L2 (Pϑ ) für alle ϑ. Ferner ist die Reihe S(x)T (x)k eϑT (x) c(x)µ(dx) X absolut konvergent und Summation und Integration können vertauscht werden. Die Reihe nimmt uS (ϑ + t) an. Damit ist uS sogar analytisch. ζ(ϑ) 0 Eϑ [ST ] und insbesondere u01 (ϑ) = u1 (ϑ)Eϑ [T ] sowie Schritt 2: Es folgt uS (ϑ) = e 2 u1 (ϑ)Eϑ [T ]. Für ζ(ϑ) = log u1 (ϑ) bekommen wir also ζ 0 (ϑ) = Eϑ [T ] =: ρ(ϑ) und daher den Wert u001 (ϑ) = ρ0 (ϑ) = ζ 00 (ϑ) = u001 (ϑ)/u1 (ϑ) − (u01 (ϑ)/u1 (ϑ))2 = Varϑ (T ). Aus der Dierenzierbarkeit von ζ folgt ∂ log L(ϑ, x) = T − ζ 0 (ϑ), ϑ ∈ Θ ∂ϑ I(ϑ) = Varϑ (Uϑ ) = Varϑ (T ) > 0. Weiter können wir schreiben 0 d Eϑ [S] = uS (ϑ)e−ζ(ϑ) = u0S (ϑ) − uS (ϑ)ζ 0 (ϑ) e−ζ(ϑ) dϑ =Eϑ [ST ] − Eϑ [S]ζ 0 (ϑ) = Eϑ [SUϑ ] ˆ ∂ = S(x) L(ϑ, x)µ(dx). ∂ϑ X Uϑ = und somit Daher gilt einerseits (3.1) für alle h ∈ L1 (Pϑ ) und anderseits folgt die Regularität des Modells. 33 Korollar 3.11 (Existenz von besten Schätzern). Exponentialfamlie mit dierenzierbarem η und bester und Cramér-Rao-ezienter Schätzer für Varϑ (T ) = ρ0 (ϑ)/η 0 (ϑ) und Für jedes statistische Modell gegeben durch eine η 0 6= 0 ist die zugrunde liegende Statistik T ρ(ϑ) := Eϑ [T ] = ζ 0 (ϑ)/η 0 (ϑ). In dem Fall gilt I(ϑ) = η 0 (ϑ)ρ0 (ϑ) Für natürliche Exponentialfamilien gilt also insbesondere für alle ein ϑ ∈ Θ. Varη (T ) = I(η). Beweis. Folgt unmittelbar aus Satz 3.4 und Lemma 3.10. Für natürliche Exponentialfamilien 0 0 2 gilt also Varη (T ) = ρ (η) = I(η) und die Informationsschranke ist gegeben durch ρ (η) /I(η) = I(η). Beispiel 3.9 (fortgesetzt). (i) (N (µ, σ 2 ))µ∈R und bekanntem σ > 0 ist wie oben gesehen eine Exponentialfamilie in η(µ) = µ/σ 2 , T (x) = x und mit ζ(µ) = µ2 /(2σ 2 ). Somit ist ρ(µ) = Eµ [T ] = µ und Varµ (T ) = σ 2 . Da T nicht von σ > 0 abhängt, ist T sogar bester Schätzer für den Erwartungswert für alle Normalverteilungen. (P oiss(λ))λ>0 in η(λ) = log λ und T (x) = x gilt ζ(λ) = λ. Wegen Varλ (T ) = λ ist T bester Schätzer für λ. (ii) Für die Exponentialfamilie ρ(λ) = Eλ [T ] = λ und Lemma 3.12. Ist (Pϑ )ϑ∈Θ auf (X , F ) eine Exponentialfamilie in η : Θ → R und T : X → R ⊗n n ⊗n so ist (Pϑ )ϑ∈Θ eine Exponentialfamilie auf (X , F ) mit zugrundeliegender Statistik Tn = Pn 1 0 T ◦ X . Ist η dierenzierbar mit η = 6 0 , folgt insbesondere, dass Tn ein bester Schätzer für i i=1 n ρ(ϑ) = Eϑ [T ] ist. Beweis. Übung 2 . Abschlieÿend klären wir noch die Frage was das Maximum-Likelihood-Prinzip für natürliche Exponentialfamilien ergibt. Lemma 3.13. Ist (Pϑ )ϑ∈Θ auf (X , F ) eine natürliche Exponentialfamilie in η ∈ Ξ und T : X → 0 auf dem Ereignis {T (X) ∈ ran(ζ )} der eindeutige Maximum-Likelihood-Schätzer 0 des Parameters ρ(η) := Eη [T ]. Ferner ist ζ : Θ → R invertierbar und der eindeutige Maximum- R, dann ist T Likelihood-Schätzer des natürlichen Parameters η ist gegeben durch ηb = (ζ 0 )−1 (T (X)). Beweis. Um die Maximalstelle der Likelihood-Funktion zu nden, setzen wir die Scorefunktion 0 gleich null. Auf {T (X) ∈ ran(ζ )} gilt ∂η log L(η, x) = Uη (x) = 0 ⇔ T (x) = ζ 0 (η). ∂η2 log L(η, x) = −ζ 00 (η) = − Varη (T ) < 0, ist η 7→ − log L(η, x) konvex und somit T der eindeu0 00 tige Maximum-Likelihood-Schätzer des Parameters ρ(η) = ζ (η). Aus ζ > 0 folgt auÿerdem, dass 0 ζ invertierbar ist, so dass der Maximum-Likelihood-Schätzer des natürlichen Parameters gegeben 0 −1 ist durch (ζ ) ◦ T. Da 3.2 Verallgemeinerte Lineare Modelle Mit Hilfe von Exponentialfamilien wollen wir nun lineare Modelle verallgemeinern. Wie in Bei- (N (µ, σ 2 ))µ∈R eine Exponentialfamilie mit natürlichem Parameter η(µ) = T (x) = x, die ein ezienter Schätzer des Parameters ρ(µ) = Eµ [T ] = µ ist. Im spiel 3.9 gesehen bildet µ/σ 2 und Statistik gewöhnlichen linearen Modell sind nun die Beobachtungen gegeben durch Rn 3 Y = Xβ + ε, 34 mit Parametervektor Varianz σ > 0. β ∈ Rk , Designmatrix X ∈ Rn×k x1 mit Zeilenvektoren Yi gemäÿ N (xi β, σ 2 ) verteilt, folgt ρi (β) = xi β , i = 1, . . . , n. Lassen wir nun ist Beobachtung und mit X = ... xn xi β/σ εi ∼ N (0, σ 2 ) Schreiben wir die Designmatrix als 2 und iid. Fehlervariablen x 1 , . . . , x n ∈ Rk , also einer Exponentialfamilie mit sowohl Situationen modellieren in den der Zusammenhang zwischen (codiert in der Designmatrix Denition 3.14. X) Auf einem Produktmodell (GLM: generalized linear model) mit Randverteilungen von Yi E[Yi ] und den Kovariablen nichtlinear ist als auch diskrete Beobachtungen n (X , F n ηi (β) = andere Exponentialfamilien zu, können wir ⊗n Yi zulassen. ) liegt ein verallgemeinertes lineares Modell Y1 , . . . , Yn vor, falls die unabhängigen Beobachtungen durch natürliche Exponentialfamilien gegeben sind mit Dichten dPYηii dµ (yi ) = exp η y − ζ(η ) i i i c(yi , ϕ), ϕ i = 1, . . . , n, µ, mit unbekanntem Dispersionsparameter ϕ > 0, ˆ n o ηi ∈ Ξ = η ∈ R : eηy/ϕ c(y, ϕ)µ(dy) ∈ (0, ∞) ⊆ R bzgl. einem dominierenden Maÿ X i und bekannten Funktionen ζ : Ξ → R und c : X → R+ mit ζ 00 (η) > 0 für alle inneren ◦ k Punkte η ∈ Ξ . Setze ρ(ηi ) := Eη [Yi ]. Für einen unbekannten Parametervektor β ∈ R , eine n×k Designmatrix X ∈ R und eine bijektive, stetig dierenzierbare Funktion g : R → R gelte weiter g(ρ(η1 )) . . = Xβ. . für alle g(ρ(ηn )) g heiÿt Linkfunktion. Falls ρ = g −1 , gilt (η1 , . . . , ηn )> = Xβ und g heiÿt kanonische Linkfunktion (oder kanonischer Link). Während xiertes ϕ ist β Yi der interessierende Parameter ist, wird ϕ als Störparameter angesehen. Für - also gemäÿ einer natürlichen Exponentialfamilie in T (y) = y/ϕ verteilt. Aus den Eigenschaften natürlicher Exponentialfamilien folgt Eβ,ϕ [Yi ] = ζ 0 (ηi ) Beispiel 3.15. Varβ,ϕ (Yi ) = ϕζ 00 (ηi ), und i = 1, . . . , n. Das gewöhnliche lineare Modell ist ein GLM mit kanonischer Linkfunktion g(x) = x, ζ(η) = η 2 /2 und Dispersionsparameter ϕ = σ2 . Lassen wir allgemeinere Linkfunk- tionen zu erhalten wir nicht-lineare Regressionsmodelle (mit normalverteilten Fehlern) gegeben durch Beobachtungen Yi ∼ N (g −1 ((Xβ)i ), ϕ). Der Dispersionsparameter wird dazu verwendet eine Unterschätzung der (empirisch beobachteten) Varianz durch das Modell auszugleichen (siehe Übung Um den unbekannten Parametervektor β 2 ). in einem verallgemeinerten linearen Modell zu schät- ζ 0 streng monoton wachsend und die ψ := (g ◦ ρ)−1 . Ist xi ∈ Rk wieder die i-te zen, verwenden wir den Maximum-Likelihood-Ansatz. Da Linkfunktion Zeile von X, g invertierbar sind, existiert die Funktion kann Loglikelihood-Funktion geschrieben werden als log L(β, ϕ; y) = n X ψ(xi β)yi − ζ(ψ(xi β)) ϕ i=1 + log(c(yi , ϕ)) . Als notwendige Bedingung an einen Maximum-Likelihood-Schätzer b ϕ; y) = ∇β log L(β, 1 ϕ n X βb erhalten b ψ 0 (xi β)x b > = 0. yi − ρ(ψ(xi β)) i i=1 35 wir durch Ableiten (3.3) Lemma 3.16. In einem verallgemeinerten linearen Modell mit kanonischer Linkfunktion ist die Fisher-Information gegeben durch n 1 X 00 k×k I(β) = ζ (xi β)x> . i xi ∈ R ϕ i=1 I(β) Ist positiv denit für alle β βb und existiert eine Lösung Maximum-Likelihood-Schätzer von von (3.3), so ist βb der eindeutige β. Beweis. Aus Lemma 3.10 folgt, dass die Fisher-Information im natürlichen Parameter Pn (η1 , . . . , ηn )> gegeben ist durch ϕ1 i=1 ζ 00 (ηi ). Die Reparametrisierung ηi = xi β zusammen mit der Kettenregel ergibt die Darstellung von Der kanonische Link ist gegeben durch ρ = ζ 0, I(β). g = ρ−1 , gilt also so dass ψ in (3.3) die Identität ist. Wegen n 1 X 00 ∂ 2 log L(β, ϕ; y) =− ζ (xi β)x> i xi = −I(β). > ∂β∂β ϕ i=1 Da I(β) > 0, ist β 7→ − log L(β, ϕ; y) streng konvex und somit βb der eindeutige Maximum- Likelihood-Schätzer. Bemerkung 3.17. (i) Typischerweise besitzt βb keine geschlossene Form mehr und muss durch numerische Verfahren bestimmt werden. Fishers Scoring-Methode verwendet hierfür das iterative Verfahren βb(t+1) = βb(t) + I(β)−1 ∇β log L(βb(t) , ϕ; y), (Beachte, dass sich der unbekannte Dispersionsparameter ϕ t = 0, 1, . . . gerade rauskürzt). Für den ka- nonischen Link ist dieses Verfahren äquivalent zur Newton-Raphson-Methode. (ii) Ist g nicht der kanonische Link ist eine Lösung von (3.3) nicht notwendigerweise ein Maximum-Likelihood-Schätzer. Zwei wichtige Beispielklassen für verallgemeinerte lineare Modelle sind die Poisson-Regression und die logistische Regression, die abschlieÿend eingeführt werden. Die Poisson-Regression modelliert unabhängige Poisson-verteilte Beobachtungen, deren Intensitätsparameter von Kovariablen abhängen. Sie eignet sich also für Beobachtungen die Zähldatenstruktur haben. Wir hatten bereits gesehen dass die Familie in η(λ) = log λ und T (x) = x durch L(λ, x) = und es gilt (P oiss(λ))λ>0 eine Exponentialfamilie ist: Bezüglich des Zählmaÿes ist die Likelihood-Funktion gegeben λx e−λ 1 = ex log λ−λ , x! x! x ∈ Z+ , ρ(λ) = Eλ [T ] = λ. Denition 3.18. Ein verallgemeinertes lineares Modell Poisson-Regression, falls die unabhängigen Beobachtungen λ i = e ηi mit natürlichen Parametern ηi ∈ R, i = 1, . . . , n, auf (Zn+ , P(Zn+ )) Yi P oiss(λi )-verteilt heiÿt sind, wobei und η = (η1 , . . . , ηn )> = Xβ mit unbekanntem β ∈ Rk und Designmatrix X ∈ Rn×k . g(λ) = log λ. In der Praxis wird Yi ∼ P oiss(λi · si ) verwendet für einen so genannten Zählrahmen si > 0, Eβ [Yi ] = exp(xi β + log(si )) mit den Zeilen xi von X . Der Term log(si ) Bemerkung 3.19. Wir verwenden hier also den kanonischen Link oft das erweiterte Modell i = 1, . . . , n. Dann gilt wird als Oset bezeichnet, da er jeder Beobachtung einen individuellen Intercept zuweist. 36 Beispiel 3.20. In einem groÿen Krankenhaus wird die Anzahl der Beschwerden über n = 44 Notfallärzten untersucht (Daten aus Le (2003)). Der Zählrahmen pro Arzt ist die Anzahl an Patientenbesuchen, die vier zu berücksichtigenden Kovariablen sind Vergütung (in $/h), Erfahrung (in h), Geschlecht und Facharztausbildung (ja/nein). Lemma 3.21. tialfamilie in Die Familie der Bernoulli-Verteilungen p 1−p und T (x) = x. (Bernoulli(p))p∈(0,1) bildet eine Exponen- η(p) = log Beweis. Die vom Zählmaÿ dominierte Familie besitzt die Likelihood-Funktion p x p L(p, x) = px (1 − p)1−x = (1 − p) = exp x log + log(1 − p) , 1−p 1−p Denition 3.22. x ∈ {0, 1}. ({0, 1}n , P({0, 1}n )) heiÿt logistische Regression, falls die unabhängigen Beobachtungen Yi Bernoulli(pi )-verteilt sind, i = 1, . . . , n, mit natürlichem Parameterraum R, der kanonischen Link-Funktion g : (0, 1) → R, g(p) = log(p/(1−p)) Ein verallgemeinertes lineares Modell auf und η = (g(p1 ), . . . , g(pn ))> = Xβ β ∈ Rk und Designmatrix X ∈ Rn×k . Die Funktion g heiÿt Logit-Funktion −1 Umkehrfunktion g : R → (0, 1), g −1 (x) = (1 + e−x )−1 heiÿt logistische Funktion. mit unbekanntem ihre Bemerkung 3.23. Es gilt also E[Yi ] = g −1 (ηi ) = eηi /(1 + eηi ), wobei die Funktion g −1 und gerade die Verteilungsfunktion der standardisierten logistischen Verteilung ist (welche im Allgmeinen einen Mittelwerts- und einen Streuungsparameter besitzt). Das motiviert ein populäres Beispiel für eine nicht kanonische Linkfunktion: die Probit-Funktion der Standardnormalverteilung g(λ) = Φ−1 (λ) mit der Verteilungsfunktion Φ. Da wir hier ein Modell gefunden haben um {0, 1}-wertige Zufallsvariablen durch Kovariablen zu erklären, werden wir die logistische Regression im nächsten Kapitel zur Klassikation verwenden. 3.3 Ergänzung: Numerische Bestimmung des Maximum-LikelihoodSchätzers Das vermutlich grundlegendste numerische Verfahren zur Bestimmung von Nullstellen ist das Newton-Verfahren oder Newton-Raphson-Verfahren: Ziel: Finde Verfahren: x∗ ∈ R: f (x∗ ) = 0 (i) Wähle einen Startpunkt (ii) Approximiere x ∗ für eine Funktion x0 ∈ R (der möglichst nahe an Abbruchkriterien: Geometrisch ist (xn , f (xn )). xn+1 f (xn ) f 0 (xn ) |f (xn )| < ε oder Im allgemeineren Fall falls |xn+1 − nn | < ε genau die Nullstelle der Tangente k f: R →R Jf (xn )(xn+1 − xn ) = −f (xn ) mit der Jacobi-Matrix x∗ liegen sollte). mit der rekursiven Vorschrift xn+1 := xn − f : R → R. k f 0 (xn ) 6= 0 für ein ε > 0. y = f (xn ) + f 0 (xn )(x − xn ) an f im Punkt erhalten wir die Rekursionsvorschrift xn+1 = xn − Jf (xn )−1 f (xn ) ⇐⇒ ∂fi Jf (x) = ( ∂x )i,j=1,...,k ∈ Rk×k j falls diese positiv denit ist. Das Newton-Verfahren soll nun verwendet werden um den Maximum-Likelihood-Schätzer βb in einem verallgemeinerten linearen Modell (X , F , (P⊗n β,ϕ )β∈Rk ,ϕ>0 ) mit kanonischem Link zu bestimmen. Zur Erinnerung ist in diesem Fall die Likelihood-Funktion gegeben durch n L(β, ϕ; y) = n Y i=1 exp ⊗n (x β)y − ζ(x β) i i i c(yi , ϕ) ϕ 37 mit n Zeilenvektoren x i ∈ Rk . Setzen wir also f (β) = ∇β log L(β, ϕ; y) = n 1X yi − ζ 0 (xi β) x> i , ϕ i=1 dann ist die Jacobi-Matrix gleich der Hesse-Matrix der Loglikelihood-Funktion Jf (β) = n ∂ log L(β, ϕ; y) 1 X 00 βl =− ζ (xi β)xi,l xi,j ∂βj ϕ i=1 l,j=1,...,k l,j=1,...,k n =− Da diese nicht mehr von y 1 X 00 ζ (xi β)x> i xi . ϕ i=1 abhängt, erhalten wir Jf (β) = Eβ Hlog L(·,ϕ,Y ) (β) = −I(β). Einsetzen in obige Iterationsvorschrift liefert Fishers Scoring-Methode: βb(t+1) = βb(t) + I(β)−1 ∇β log L(βb(t) , ϕ; y) n n X −1 X ζ 00 (xi βb(t) )x> Yi − ζ 0 (xi βb(t) ) x> = βb(t) − i xi i , i=1 wobei wir βb(0) = 0 t ∈ N, i=1 setzen. 4 Klassikation Während im linearen Modell die Zielvariable quantitativ ist, gibt es viele Situationen in denen die Daten qualitativ bzw. kategoriell sind. Das Grundprinzip der Klassikation ist anhand einer sogenannten Trainingsmenge (x1 , Y1 ), . . . , (xn , Yn ) zu lernen, die Klassen zu unterscheiden, um xn+1 , . . . , xn+m gehören klassiziert werden. anschlieÿend vorherzusagen, zu welcher Klasse Beobachtungen zu neuen (statistisches Lernen ). Anders ausgedrückt, sollen Beispiel 4.1. xn+1 , . . . , xn+m Auf Grundlage vom monatlichen Kontostand der Kreditkarte und dem Jahresein- kommen soll vorhergesagt werden ob jemand zahlungsunfähig wird oder nicht. Als Trainingsdatensatz haben wir Daten (xi,1 , xi,2 , Yi ) für i = 1, . . . , n xi,1 bzw. xi,2 i sind und Yi default-Datensatz Personen gegeben, wobei der monatliche Kontostand der Kreditkarte bzw. das Jahreseinkommen von Person die Frage Zahlungsunfähig? mit Ja oder Nein beantwortet (simulierter aus James et al. (2013)). Etwa 3% der Personen sind zahlungsunfähig. Beachte, dass in realen Anwendungen die Beziehung zwischen Ko- und Zielvariablen typischerweise nicht so eindeutig sind. 4.1 Logistische Regression Stammen die Zielvariablen nur aus zwei verschiedenen Klassen (die mit 0 und 1 codiert werden), bietet sich die logistische Regression aus Kapitel 3 als Modell an. Zur Erinnerung heiÿt ein stati- ({0, 1}n , P({0, 1}n ), (Pβ ⊗n )β∈Rk ) k blen xi = (1, xi,1 , . . . , xi,k−1 ) ∈ R (Zeilenvektor mit ist, wobei pi = p(xi , β) gegeben ist durch sches Experiment log multiple logistische Regression mit KovariaAbsolutglied), falls k−1 p X i = β0 + βj xi,j 1 − pi j=1 für Yi Bernoulli(pi )-verteilt i = 1, . . . , n. Äquivalent gilt p(xi , β) = Die Wahrscheinlichkeit, dass Yi exi β . 1 + exi β zur Klasse 1 gehört, wird also durch die 38 k − 1 Kovariablen erklärt. Methode 9: Klassikation mittels logistischer Regression. Nach Schätzung des Parame- βb auf der Trainingsmenge (xi , Yi )i=1,...,n können wir für eine jede neue xn+1 = (1, xn+1,1 , . . . , xn+1,k−1 ) (Zeilenvektor) einen zugehörigen Wert tervektors lisierung Kovariablenrea- exn+1 β b b = pbn+1 = p(xn+1 , β) vorhersagen und xn+1 der Klasse 1 zuordnen, falls Andernfalls klassizieren wir xn+1 mit 0. 1 + exn+1 βb pbn+1 > τ für einen Schwellenwert τ ∈ [0, 1]. Der Maximum-Likelihood-Ansatz führt auf die Maximierung der Loglikelihood-Funktion `(β, y) := log L(β, y) = n X yi log p(xi , β) + (1 − yi )(1 − p(xi , β) i=1 = n X yi (xi β) − log 1 + exi β . i=1 Nullsetzen des Gradienten führt auf k Gleichungen, die nichtlinear in β sind. Um den Maximum- Likelihood-Schätzer numerisch zu bestimmen, verwenden wir wieder das Newton-Verfahren. Dieses führt uns auf die iterativ neugewichteten Kleinste-Quadrate-Methode (IRLS: iteratively reweighted least squares): Lemma 4.2. In der logistischen Regression mit Designmatrix X von vollem Rang ist der (t+1)ste Iterationsschritt von Fishers Scoring-Methode gegeben durch 1/2 2 βb(t+1) = (X > Wβb(t) X)−1 X > Wβb(t) Zβb(t) = arg min W b(t) (Zβb(t) − Xb) b mit adjustiertem Responsevektor Zβ = Xβ + Wβ−1 (Y − pβ ), pβ = p(x1 , β), . . . , p(xn , β) > ∈ Rn β wobei und Wβ = diag p(x1 , β)(1 − p(x1 , β), . . . , p(xn , β)(1 − p(xn , β)) ∈ Rn×n . g(x) = ex /(1 + ex ) gilt g 0 (x) = g(x)(1 − g(x)). Aus der expliziten Form der Loglikelihood-Funktion `(β) folgt damit, dass Scorefunction und Hesse-Matrix Beweis. Für die logistische Funktion gegeben sind durch ∇β `(β, y) = X > (y − pβ ) bzw. H`(·,y) (β) = −X > Wβ X. Somit ist der Iterationsschritt von Fishers Scoring-Methode −1 > βb(t+1) = βb(t) + X > Wβb(t) X X (Y − pβb(t) ) −1 = X > Wβb(t) X X > Wβb(t) X βb(t) + W −1 (Y − pβb(t) ) −1 > = X > Wβb(t) X X Wβb(t) Zβb(t) . Wie in Kapitel 2 gesehen, ist dies gerade die Lösung des gewichteten Kleinste-Quadrate-Problems. Bemerkung 4.3. (i) Der Maximum-Likelihood-Schätzer erste Koezient von xi gleich 1 ist b y) = Pn x> (y − p(xi , β)) b = 0. Da βb erfüllt ∇β `(β, i=1 i P P b folgt i yi = i p(xi , β), d.h. die erwartete Anzahl Beobachtungen in Klasse eins stimmt mit der beobachteten Anzahl überein. 39 der der βb die Lösung eines −1 b gewichteten Kleinste-Quadrate-Problems mit Responsevektor Z b = X β + W b (Y − p b) und β β β b Gewichten wi = p bi (1 − pbi ), wobei beides wieder von β abhängt. Die gewichteten Quadrat- (ii) Insbesondere zeigt dieses Lemma, dass der Maximum-Likelihood-Schätzer summen der Residuen sind dann n X (Yi − pbi )2 i=1 pbi (1 − pbi ) und messen die Abweichung der Daten von der Modellvorhersage. Beispiel 4.4. Wir betrachten wieder den Datensatz aus Beispiel 4.1, wobei wir eine zusätzliche Kovariable Student mit Werten Ja oder Nein zur Verfügung haben. Eine Logistische Regression, die nur Student und einen Intercept verwendet führt zu einem positiven Koezienten der Dummy-Variable, d.h. die Zahlungsunfähigkeitswahrscheinlichkeit ist für Studenten höher als für Nicht-Studenten. Verwenden wir alle drei Kovariablen erhalten wir jedoch einen negativen Zusammenhang! Wie kann man diesen so genannten Konfundierungseekt erklären? Die logistische Regression kann auch auf mehr als zwei Klassen ausgeweitet werden, indem wir statt der Bernoulli-Verteilung die Multinomialverteilung verwenden. Häug wird jeden die Methode des nächsten Abschnittes dieser Variante vorgezogen. Inferenz für die logistische Regression beruht auf asymptotischen Überlegungen auf die wir in dieser Vorlesung nicht weiter eingehen werden. 4.2 Bayesklassikation1 P(Y = 1) unter Verwendung des Rex für zwei Klassen 0 und 1. Verstehen wir den Kovariablenvektor als Zufallsvariable X , wird also die bedingte Wahrscheinlichkeit P(Y = 1|X = x) der Klasse 1 gegeben einer Kovariablenrealisierung X = x modelliert. Stattdessen wird nun ein Bayesianischer Ansatz verfolgt. d Gegeben sei das zufällige Paar X, Y , welches Werte in R × 1, . . . , K annimmt. Hierbei bezeichnet Y die Klassizierung von X . Das heiÿt, dass die Verteilung PX von X durch die bedingte Verteilung PX|Y festgelegt wird. Dieser Zusammenhang wird später durch die Bayesformel genauer erläutert. Wie in der logistischen Klassizierung möchten wir einen Klassikator C konstruieren, der einer Realisierung X = x eine Klasse C(x) ∈ 1, . . . , K zuordnet. Formal haben wir es also Die logistische Regression modelliert die Wahrscheinlichkeit gressorvektors mit einer deterministischen Abbildung C : Rd 7→ 1, . . . , K zu tun. In der Praxis wird C normalerweise über ein Trainingsample Xn = (x1 , y1 ), . . . , (xn , yn ) konstruiert, worauf wir später genauer eingehen werden. Ein wesentliche Frage bezüglich eines Klassikators ist seine Qualität hinsichtlich einer korrekten Klassizierung. Diese können wir über die Wahrscheinlichkeit einer fehlerhaften Klassizierung P C(X) 6= Y beschreiben, und bezeich- nen sie allgemein mit R C = P C(X) 6= Y . R(C) entspricht also dem 0-1-Risiko. Ein optimaler Klassizierer barkeit) C opt = arg min R C . C 1 Vielen Dank an Moritz Jirak für die Ausarbeitung dieses Abschnitts 40 C opt wäre daher (gegeben Mess- Wie können wir diesen konstruieren? Zunächst ist es günstig das Risiko ˆ R C umzuformen: R C = P C(X) 6= Y = P C(x) 6= Y X = x PX (dx) ˆ = 1 − P(C(x) = Y X = x) PX (dx) ˆ = 1 − P C(x) = Y X = x PX (dx). Wir sehen also, dass R C klein ist, wenn die bedingte Wahrscheinlichkeit möglichst groÿ ist. Bedingen auf R C =1− ˆ X K Y P C(x) = Y X = x liefert weiter P C(x) = k Y = k, X = x P Y = k X = x PX (dx). k=1 Nun benutzen wir die Tatsache, dass Unabhängigkeit von Y ). C deterministisch ist (eine leichte Verallgemeinerung ist Dadurch erhalten wir P C(x) = k Y = k, X = x = P C(x) = k = 1{C(x)=k} , und somit R C =1− ˆ X K 1{C(x)=k} P Y = kX = x PX (dx). k=1 Wir haben es nun mit einer überraschend einfachen Optimierung zu tun. Um R C zu minimieren, genügt es den Ausdruck A(x) := K X α(k, x)P Y = k X = x mit α(k, x) = 1{C(x)=k} , k=1 für jedes x ∈ Rd α(k, x) ∈ {0, 1}. Die Gröÿe A(x) ist folglich α(k, x) = 1) auf max P Y = k X = x zu maximieren. Es gilt nun allerdings genau dann maximal, wenn wir das meiste Gewicht (und somit 1≤k≤K legen (dies kann leicht bewiesen werden). A(x) ist also genau dann maximal, wenn wir für jedes x ∈ Rd ( α(k, x) = Dieses k∗ 1, 0, k = k∗ , sonst, für wobei k ∗ = arg maxk=1,...,K P Y = k X = x . liefert uns automatisch die optimale Klassikation: C opt x = arg maxk=1,...,K P Y = k X = x . Theorem 4.5. Der deterministische Klassikator, welcher das Risiko (4.1) R C minimiert, ist durch die Klassikation in (4.1) gegeben und wird Bayesklassikator genannt. Bemerkung 4.6. (i) Die Optimalität der Bayesklassikation hängt essentiell mit der Denition des Risikos R C zusammen. K = 2, (ii) Falls 1/2, erhalten wir eine sehr einfache Klassizierungsregel: Wenn dann wählen wir Klasse k = 1, ansonsten Klasse P Y = 1X = x ≥ k = 2. Viele Klassikationsalgorithmen versuchen die Bayesklassikation zu imitieren. Ein allgemeiner Zugang ist die bedingte Wahrscheinlichkeit P Y = k X = x anhand eines Trainingsamples zu schätzen. Ein bekannter Repräsentant dieser Art ist das KNN-Verfahren (K-nearest neighbour, Übung wird. 2 ). Ein anderes ist die lineare Diskrimimanzanalyse, die im nächsten Abschnitt behandelt 41 4.3 Lineare Diskriminanzanalyse2 Das Problem der Bayesklassikation ist, dass es nicht so einfach ist, gute Schätzer für die bedingten Wahrscheinlichkeiten P Y = k X = x zu konstruieren. Allerdings kann die Bayesformel hier helfen. Wir modellieren die Verteilung von gegeben Y) X für jede Klasse k ∈ {1, . . . , K} mit K > 2 (also durch eine Dichte fk (x) = P(X = dx|Y = k) und wählen a-priori-Wahrscheinlichkeiten der Klassen πk = P(Y = k) ∈ [0, 1] für k = 1, . . . , K P k πk = 1. Die Bayesformel liefert dann die a-posteriori-Zähldichte von Y P X = dxY = k P Y = k πk fk (x) pk (x) = P Y = k X = dx = . = PK P X=x l=1 πl fl (x) Die Idee der linearen Diskrimimanzanalyse (LDA) ist nun, fk (x) mit als Gauÿdichte (univariat) zu modellieren, also 1 (x − µk )2 fk (x) = √ exp − , 2σk2 2πσk wobei µk und σk der Mittelwert und die Varianz der k -ten Klasse 2 in der folgenden Diskussion. Dann erhalten wir σ12 = . . . = σK sind. Der Einfachheit halber sei 2 1 k) πk √2πσ exp − (x−µ 2 2σ k k pk (x) = PK . (x−µl )2 √ 1 π exp − l l=1 2σ 2 2πσ l Durch umformen erhalten wir, dass pk (x) (4.2) l genau dann maximal ist, wenn δk (x) maximal ist, gege- ben durch δk (x) = x Tatsächlich sind die Werte πk , µk und σ2 µk µ2k − + log πk . 2 2 σ 2σ aber unbekannt, und müssen geschätzt werden. Methode 10: Lineare Diskriminanzanalyse. π bk = nk , n µ bk = 1 X xj |nk | und Wir denieren σ b2 = K 2 1 X X xj − µ bk , n−K k=1 j:yj =k j: yj =k n die Gesamtanzahl des Trainingssamples Xn und nk die k -ten Klasse sind. Dann ist der Klassizierer gegeben durch wobei der (4.3) C(x) = arg maxk=1,...,K δbk (x) mit Anzahl des Trainingssamples in µ bk µ b2 δbk (x) = x 2 − k2 + log π bk . σ b 2b σ Im multivariaten Fall erhalten wir analog die Klassizierungsregel 1 −1 δk (x) = x> Σ−1 µk − µ> µk + log πk , kΣ 2 (4.4) Σ die d-dimensionale Kovarianzmatrix von X ∈ Rd ist, und µk ∈ Rd der Vektor der komponentenweisen Erwartungswerte. Dabei können Σ, µ1 , . . . , µK sowie π1 , . . . , πK wieder über Plug-in wobei bzw. relative Häugkeiten geschätzt werden. Bemerkung 4.7. Eine weitere Verallgemeinerung stellt die quadratische Diskriminanzanalyse (QDA) dar, wo jede Klasse k eigene, im allgemeinen unterschiedliche Kovarianzmatrizen sitzen. Dies führt zu einer quadratischen Klassizierungsregel. 2 Vielen Dank an Moritz Jirak für die Ausarbeitung dieses Abschnitts 42 Σk be- Obwohl die Motivation für die logistische Klassikation und LDA unterschiedlich ist, gibt es einen engen Zusammenhang. Betrachten wir den Fall K = 2. Dann gilt p2 (x) = 1 − p1 (x) und eine kurze Rechnung ergibt für die LDA log wobei die Konstanten c1 , c2 p1 (x) 1 − p1 (x) von µ1 , µ2 und = log σ2 p1 (x) p2 (x) = c1 + c2 x, abhängen. Im Fall der logistischen Klassizierung haben wir: log p1 (x) 1 − p1 (x) = log p1 (x) p2 (x) = β1 + β2 x. Der Unterschied liegt also nur in der Art und Weise, wie die Konstanten geschätzt werden! In der Praxis führt das oft zu sehr ähnlichen Ergebnissen, aber nicht immer. 5 Ausblick Im letzten Teil der Vorlesung werden (voraussichtlich) noch folgende Themen behandelt: (i) Modellwahl und statistisches Lernen (a) Variablenselektion (Cp , AIC, BIC, R2 ) (b) Lasso (c) Dimensionsreduktion / Hauptkompontenanalyse (ii) Resampling (a) Bootstrap (b) Kreuzvalidierung Literatur Agresti, A. and Finlay, B. (1997). Statistical Methods for Social Sciences. Prentice Hall. Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression: Modelle, Methoden und Anwendungen. Springer, Berlin. Georgii, H.-O. (2007). Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter, Berlin. James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An Introduction to Statistical Lear- ning (with Applications in R). Springer, New York. Le, C. T. (2003). Introductory biostatistics. John Wiley & Sons. Witting, H. (1985). Mathematische Statistik I. Teubner. 43