Bestrafte parametrische Regression Jens Wagener Ruhr-Universität Bochum Fakultät für Mathematik Lehrstuhl für Statistik Oktober und November 2010 1/ 74 Übersicht klassiche Modellwahl bestrafte Regression Asymptotische Eigenschaften von BKQS Verallgemeinerungen Kritik 2/ 74 Parametrisches Regressionsmodell Wir betrachten ein einfaches parametrisches Regressionsmodell Yi = g(xTi θ) + εi , i = 1, . . . , n. (1) Dabei: xi ∈ Rpn Kovariatenvektor ε1 , . . . , εn iid Zufallsvariablen mit E [εi |xi ] = 0 und V ar (εi |xi ) = σ 2 < ∞ Für den wahren Parameter θ0 gilt θ0 = (θ0 (1)T , θ0 (2)T )T ∈ Rpn mit θ0 (2) = 0pn −sn g bekannt Zu beachten: es ist unbekannt, welche Kovariaten Einfluss auf Y haben, also welche Parameter nicht 0 sind (Modell unbekannt). Unter einem Modell M verstehen wir eine Menge M ⊂ {1, . . . , pn } welche angibt, welche Parameter als ungleich 0 angenommen werden. Klassisch nimmt man pn = p als fest an. 3/ 74 Mögliche Ziele in Modell (1) Nur die relevanten Einflussgrößen sollen ermittelt werden (Bsp.: welche Gene haben Einfluss auf eine Phänotypsausprägung) Auswahl des Modells selbst ist nicht von Interesse, es soll Modell gewählt und danach θ1 geschätzt werden Auswahl des Modells selbst ist nicht von Interesse, es soll Modell gewählt und danach Vorhersagen gemacht werden Sowohl Modell als auch Schätzung/Vorhersage ist von Interesse Zur Erreichung unterschiedlicher Ziele können unterschiedliche Strategien verfolgt werden. Klassicher Ansatz: Modellwahl mittels Informationskriterien. 4/ 74 Informationskriterien Typischer Weise ist Informationskriterium (IC) Ausdruck der Form IC(M ) = l θb(M ) + P (n) (M ), (2) wobei M ein Modell, l(θ) = l(Y, θ) eine „Verlustfunktion“, θb(M ) einen Parameterschätzer im Modell M und P (n) einen Strafterm (monoton wachsende Funktion in |M |) bezeichnet. l ist Maß dafür, wie gut Modell die Daten anpasst, P (n) bestraft Modellkomplexität (typisch: l fallend in |M |). Bsp. für IC: AIC (l Log-Likelihoodfunktion*(-1) und P (n) (M ) = |M |), BIC (l Log-Likelihoodfunktion*(-1) und P (n) (M ) = 1/2 log(n)|M |). P Ohne Verteilungsannahme an Fehler benutze z.B. l(θ) = i [Yi − g(xTi θ)]2 . 5/ 74 Modellwahlstrategie Mittels IC wählt man Modell wie folgt: 1 2 3 Für alle 2pn Modelle M ⊂ {1, . . . , pn } berechne θb(M ) = argminθ∈RM l(θ) Berechne IC(M ) für alle 2pn Modelle M ⊂ {1, . . . , pn } c = argmin IC(M ) Wähle Modell M M 4 Falls nur Modell interessiert ist man jetzt fertig 5 c so, als wäre Modell Falls Schätzung/Vorhersage interessiert: arbeite in Modell M a priori bekannt gewesen Obige Strategie hat gewisse Nachteile, auf die in der Folge eingegangen wird. 6/ 74 Nachteile von Modellwahl mittels IC 1 Immenser Rechenaufwand: es müssen 2pn unter Umständen nicht-triviale numerische Minimierungen durchgeführt werden. Nachteil besteht egal welches Ziel verfolgt wird und macht Modellwahl schnell unmöglich. 2 Falls in gewähltem Modell weitere Statistik betrieben werden soll: sämtliche auf c basierenden Statistiken haben extrem komplizierte dem zufälligen Modell M Verteilungen durch nicht-trivialen Einfluss der Unsicherheit der Korrektheit des gewählten Modells. In der Praxis wird dies in der Regel ignoriert und so gearbeitet, als sei das Modell von vornherein bekannt gewesen; dadurch sind p−Werte, Kofidenzintervalle etc. falsch. 3 Modellwahl führt zu instabilen Schätzern: „kleine“ Schwankungen der Daten können schon zu einer anderen Modellwahl führen und damit sind Schätzer nicht stetig in Daten. 4 Korrekte Wahl des Modells und „gute“ Eigenschaften der Schätzer in gewähltem Modell stellen konkurrierende Ziele dar (wird nun näher erläutert). 7/ 74 Konsistenz Definition Ein IC heißt konsistent, falls gilt cIC = {1, . . . , sn } = 1. lim P M n→∞ Z.B. BIC ist unter gewissen Voraussetzungen konsistent, aber AIC ist nicht konsistent. Falls nur Modellwahl interessiert, ist Konsistenz wichtigste Eigenschaft eines IC. Theorem Ein notwendiges Kriterium für Konsistenz eines IC ist P (n) (M ) → ∞ für jedes feste M. 8/ 74 Effizienz Sei YbM,i = g(xTi,0 θb(M ) ) eine Vorhersage für Ỹi = g(xTi,0 θ) + ε̃i . Dabei sind (ε̃i )i=1,...,n und (εi )i=1,...,n iid und der Schätzer θb(M ) basiert auf den Daten (Yi , xi )i=1,...,n . (xi )i=1,...,n und (xi,0 )i=1,...,n sind ebenfalls unabhängig. Sei Lpre (M ) = n X h i E (YbM,i − Ỹi )2 |M i=1 der erwartete Vorhersagefehler. Dieser sollte durch die Modellwahl minimiert werden, wenn das Ziel eine Vorhersage ist. Weiter sei Lest (M ) = n X h i E (g(xTi θb(M ) ) − Yi )2 |M i=1 der erwartete Schätzfehler. Es gelte ∗ = argminM Lpre (M ), Mpre ∗ Mest = argminM Lest (M ). 9/ 74 Effizienz II Definition Ein IC heißt asymptotisch effizient zur Vorhersage, falls gilt cIC ) P Lpre (M −→ 1 ∗ ) Lpre (Mpre und asymptotisch effizient zur Schätzung, falls gilt cIC ) P Lest (M −→ 1. ∗ Lest (Mest ) Unter bestimmten Voraussetzungen ist AIC effizient, BIC jedoch nicht. Schlimmer noch: es gilt cBIC ) Lpre (M cBIC ) P Lest (M , −→ ∞ cAIC ) Lpre (M cAIC ) Lest (M 10/ 74 Konsistenz und Effizienz passen nicht zusammen Falls Ziel der Datenanalyse sowohl korrekte Modellwahl als auch Schätzung/Vorhersage ist, wäre IC sinnvoll, das sowohl konsistent als auch effizient ist. GEHT NICHT! Theorem Sei IC ein konsistentes Informationskriterium, dann gilt cIC ) P cIC ) Lest (M Lpre (M , −→ ∞ ∗ ∗ Lpre (Mpre ) Lest (Mest ) 11/ 74 Neuer Ansatz Fazit Sowohl aus praktischer als auch aus theoretischer Sicht ist Alternative zur Modellwahl mittels IC wünschenswert. Der Lösungsansatz hierfür ist die bestrafte Regression, die in der Folge vorgestellt wird. Es wird sich zeigen: Problem 1 (großer Rechenaufwand) und Problem 3 (Instabilität) lassen sich so lösen. Problem 2 (komplizierte Verteilung von Schätzern nach Modellwahl) wird nur in einem punktweisen Sinne gelöst, dessen Nutzen fraglich ist. Problem 4 (keine simultane Konsistenz und Effizienz) ist auch hier nicht lösbar, auch wenn manche Resultate so aussehen und von manchen Autoren so propagiert werden. 12/ 74 Bestrafte KQ-Schätzer Wir betrachten im Modell (1) folgende Schätzer: θb = argminθ (l(θ) + Pλn (θ)) . (3) Hier ist l wieder eine „Verlustfunktion“, in der Regel l(θ) = n h i2 X b , Yi − g(xTi θ) i=1 und Pλ stellt einen Strafterm dar, der in irgendeiner Weise die „Größe“ von θ misst. λn ist ein Tuning-Parameter, dessen Wahl in der Praxis ein Problem darstellt. Hat erstmal noch nichts mit Modellwahl zu tun. 13/ 74 Motivation Risiko eines Schätzers ist gegeben durch pn h i X h i T h i b T (θ − θ) b = E (θ − θ) V ar θbj + E θb − θ E θb − θ . j=1 KQ-Schätzung unbiased, also zweiter Term ist null, Varianz unter Umständen „groß“. Zur Vorhersage ist kleinere Varianz wünschenswert, auch wenn hierbei Bias in Kauf genommen werden muss. Zur Minimierung der Varianz suche Schätzer, deren Koordinaten alle nur „kleine“ Beträge haben und somit nicht sehr variabel sind. Dies führt zu Minimierung des KQ-Kriteriums unter der Nebenbedingung kθk ≤ tn für einen Parameter tn > 0. Lagrange-Methode führt zu Schätzer (3) (mit Pλn (θ) = λn kθk), wobei λn aus tn erhalten wird. 14/ 74 Verbindung zu Modellwahl Durch Wahl des Strafterms Pλ (θ) bei der Berechnung des Schätzers (3) kann unter Umständen Folgendes erreicht werden: lim P (θb =s θ) = 1, n→∞ (4) wobei für zwei Vektoren u, v gilt u =s v ⇔ sgn(u) = sgn(v) und sgn(u) = (sgn(u1 ), . . . , sgn(up )). Eigenschaft (4) heißt Vorzeichenkonsistenz. Damit schätzt θb sämtliche Einträge von θ0 (2) mit hoher Wahrscheinlichkeit als 0 und wählt damit konsistent ein Modell. Es gibt auch Strafterme die dazu führen, dass gewisse Einträge von θb exakt 0 werden, Eigenschaft (4) jedoch nicht gilt. Diese wählen dann ebenfalls ein Modell, allerdings ist die Modellwahl nicht konsistent. Verfahren mit der Eigenschaft limn→∞ P (θj = 0) > 0 für manche j werden in der Regel als „Shrinkage-Schätzer“ bezeichnet. 15/ 74 Wünschenswerte Eigenschaften von Pλ Idealerweise sollte der Strafterm Pλ so gewählt werden, dass die resultierenden Schätzer folgende Eigenschaften haben: Schätzer asymptotisch unbiased Schätzer stetig in Daten Schätzer vorzeichenkonsistent b = (θb1 , . . . , θbsn ) „asymptotisch normalverteilt“ (möglichst mit gleicher θ(1) Varianz wie KQ-Schätzer der verwendet wird, wenn Modell a priori bekannt; was dies für sn → ∞ heißt wird später erklärt) Erfüllt ein Schätzer (3) sämtliche vorgenannten Eigenschaften, so spricht man davon, dass dieser Schätzer die Orakel-Eigenschaft besitzt. Manchen Autoren reichen hierfür auch die letzten beiden Eigenschaften. Für praktische Anwendungen sollte Pλ so gewählt werden, dass das Minimierungsproblem in (3) entweder eine explizite Lösung hat oder ein schnell konvergierender Algorithmus zur Berechnung des Schätzers existiert. 16/ 74 Verbreitete Strafterme P In der Literatur häufig vorkommende und untersuchte Strafterme sind: Bridge-Regression: Pλ (θ) = λkθkqq mit q > 0 (Name?) LASSO („least absolute shrinkage and selection operator“): Spezialfall von Bridge-Regression mit q = 1 Ridge-Regression: Spezialfall von Bridge-Regression mit q = 2 P n Hard Thresholding: Pλ (θ) = 2 pj=1 (λ2 − (|θj | − λ)2 I{|θj | < λ}) P n SCAD („smoothly clipped absolute deviation“): Pλ (θ) = n pj=1 Pλ,1 (|θj |) mit (aλ − θj )+ ∂Pλ,1 (θj ) = 2λ I{θj ≤ λ} + I{θj > λ} , ∂θj (a − 1)λ (a > 2 und θj ≥ 0) Adaptives LASSO: Pλ (θ) = λ für θ ist. Ppn j=1 |θj |/|θ̃j |γ (γ > 0), wobei θ̃ ein Vorschätzer Achtung: bei Bridge-Regression ist für q < 1 Minimum möglicherweise nicht eindeutig. In diesem Fall wählen wir einen beliebigen Repräsentanten aus der Menge der Minimalpunkte und definieren diesen als argmin. 17/ 74 Zu minimierende Bridge-Funktionen für verschiedene q 100 Bridge_2(theta) 80 60 0 0 20 50 40 Lasso(theta) 150 100 200 120 Abbildung: Bridge-Funktionen −10 −5 0 5 10 −10 −5 0 10 4.0 2.0 2.5 Bridge_.1(theta) 3.0 3.5 3.5 3.0 2.5 2.0 1.5 1.5 1.0 1.0 Bridge_.5(theta) 5 theta 4.0 theta −0.5 0.0 0.5 1.0 −0.5 theta 0.0 0.5 theta 18/ 74 1.0 Erste Eigenschaften erhaltener Schätzer Zum ersten Verständnis der Eigenschaften von Schätzern basierend auf obigen Straftermen betrachte das Modell Y = Xθ + ε, wobei Y = (Y1 , . . . , Yn ), X = (x1 , . . . , xn )T und ε = (ε1 , . . . , εn ). Fordere zusätzlich orthonormales Design: X T X = Ipn . Mit der Notation Z = X T Y und Yb = XX T Y erhalten wir kY − Xθk22 + Pλ (θ) = kY − Yb k22 + pn pn X X (Zj − θj )2 + Pλ,1 (θj ), j=1 so dass eine Minimierung komponentenweise stattfinden kann. Untersuche also das Minimierungsproblem argminθ∈R M (z, θ), mit M (z, θ) = (z − θ)2 + Pλ,1 (θ). 19/ 74 j=1 Erste Eigenschaften erhaltener Schätzer II Für LASSO gilt + λ θb = sgn(z) |z| − , 2 denn: 1.Fall: 0 ≤ z ≤ λ/2. Es gilt M (z, 0) = z 2 . Für θ < 0 gilt M (z, θ) > (z − θ)2 > z 2 und für θ > 0 M (z, θ) = z 2 + θ(θ + λ − 2z) > z 2 . 2. Fall: z > λ/2. Für θ > 0 gilt ∂M (z, θ) λ b < z2 . = −2z + 2θ + λ ⇒ θb = z − , denn M (z, θ) ∂θ 2 Die Fälle 0 > z ≥ −λ/2 und z < −λ/2 verlaufen analog. 20/ 74 Erste Eigenschaften erhaltener Schätzer III Für Ridge-Regression erhalten wir ∂M (z, θ) z = −2z + 2(1 + λ)θ ⇒ θb = . ∂θ 1+λ Ähnlich wie beim LASSO ergibt sich für Hard Thresholding θb = zI{|z| > λ} und für SCAD + sgn(z)(|z| − λ) , θb = [(a − 1)z − sgn(z)aλ]/(a − 2), z, 21/ 74 falls |z| ≤ 2λ, falls 2λ < |z| ≤ aλ, falls |z| > aλ. Erste Eigenschaften erhaltener Schätzer IV 4 2 0 Ridge(z, 1) −4 −2 0 −4 −2 Hard(z, 1) 2 4 Abbildung: Obige Schätzer (rot: KQ-Schätzer) −4 −2 0 2 4 −4 −2 0 2 4 2 4 z 2 0 SCAD(z, 1) −2 0 −4 −2 −4 LASSO(z, 1) 2 4 4 z −4 −2 0 2 4 −4 z −2 0 z 22/ 74 Erste Eigenschaften erhaltener Schätzer V Man sieht: Hard-Thresholding schrumpft kleine Parameter auf exakt 0 (wählt also ein Modell) und hat für große Parameter kein Bias, ist aber nicht stetig in den Daten. Ridge-Regression ist stetig in den Daten und schrumpft Parameter um konstanten Faktor, sie werden aber nicht exakt 0, also keine Modellwahl. Außerdem immer stärkerer Bias für Daten weit weg von 0. LASSO ist stetig in Daten und schrumpft kleine Parameter auf exakt 0. Allerdings konstanter Bias für größere Parameter. SCAD ist stetig in den Daten, schrumpft kleine Parameter auf exakt 0 und kein Bias für größere Parameter. Damit ist der SCAD-Schätzer der einzige der hier untersuchten Schätzer, der die Orakel-Eigenschaft (im strengeren Sinne) haben könnte. 23/ 74 Lineare Regression und endlich dimensionale Parameter Wir leiten nun asymptotische Eigenschaften von bestimmten Schätzern der Form (3) her. Zunächst betrachten wir nur den Fall von Parametern mit beschränkter Dimension, das heißt pn = p und sn = s fest. Wir betrachten nur lineare Regression Y = Xθ + ε, mit Y = (Y1 , . . . , Yn )T , X = (x1 , . . . , xn )T ist deterministisch, ε = (ε1 , . . . , εn )T , wobei ε1 , . . . , εn iid mit Varianz σ 2 und unabhängig von X. X(1) bezeichne die ersten s Spalten von X und X(2) die restlichen (p − s). Basisvoraussetzungen in diesem Fall sind lim n→∞ 1 T X X = C > 0, n lim n→∞ 1 max xTi xi = 0. n 1≤i≤n Außerdem nehmen wir 1/nX T X als invertierbar an. Die letzten Voraussetzungen sind nicht notwendig, aber wir wollen schöne Beweise sehen. 24/ 74 Asymptotik von Bridge-Schätzern Sei θb Bridge-Schätzer, Strafterm ist also gegeben durch Pλn (θ) = λn kθkqq mit q > 0. Theorem (Knight und Fu (2000)) √ Für q ≥ 1 gelte λn / n → λ0 ≥ 0 und für q < 1 gelte λn /nq/2 → λ0 ≥ 0. Dann gilt die schwache Konvergenz √ D n(θb − θ0 ) −→ argmin(V ), wobei Ps Pp T T −2u W + u Cu + λ0 Pj=1 uj sgn(θ0,j ) + λ0 j=s+1 |uj |, V (u) = −2uT W + uT Cu + λ0 q sj=1 uj sgn(θ0,j )|θ0,j |q−1 , P −2uT W + uT Cu + λ0 pj=s+1 |uj |q , Dabei hat W eine N (0p , σ 2 C)-Verteilung. 25/ 74 falls q = 1, falls q > 1, falls q < 1. Beweis Beweis: Es gilt θb = argminθ [X(θ0 − θ) + ε]T [X(θ0 − θ) + ε] + λn kθkqq . Setze u = √ n(θ − θ0 ) und addiere in θ konstante Terme, um √ n(θb − θ0 ) = argminu Vn (u) mit T 1 1 1 Vn (u) = ε − √ Xu ε − √ Xu − εT ε + λn kθ0 + √ ukqq − kθ0 kqq n n n zu erhalten. " # 2 n X 1 T D 2 εi − √ xi u − εi −→ −2uT W + uT Cu n i=1 (nach ZGWS und Slutsky). Dabei gilt die Lindeberg-Bedingung wegen limn→∞ n1 max1≤i≤n xTi xi = 0. 26/ 74 Beweis II Für n hinreichend groß erhält man im Falle q = 1 direkt ( λn sgn(θ0,j ) √ u , uj n j λn θ0,j + √ − |θ0,j | = λn √ |uj | n n für θ0,j 6= 0, sonst, und damit p s X X 1 λn kθ0 + √ uk1 − kθ0 k1 → λ0 uj sgn(θ0,j ) + λ0 |uj |. n j=1 j=s+1 Für q > 1 und θ0,j 6= 0 erhält man für hinreichend großes n q q−1 uj ξ uj λn θ0,j + √ − |θ0,j |q = λn √ qsgn(θ0,j ) θ0,j + √ n n n → λ0 sgn(θ0,j )q|θ0,j |q−1 uj , wobei |ξ| ≤ |uj |. Also s X 1 λn kθ0 + √ ukqq − kθ0 kqq → λ0 q uj sgn(θ0,j )|θ0,j |q−1 . n j=1 27/ 74 Beweis III D Damit hat man für q ≥ 1 die schwache Konvergenz Vn (u) −→ V (u) für jedes u gezeigt. Definition Eine Folge tn heißt approximative minimierende Folge einer Funktionenfolge gn : Rp → R, falls zwei Folgen ηn & 0 und rn & −∞ existieren, so dass gilt ( inf gn + ηn , falls inf gn > −∞ gn (tn ) = rn sonst. Lemma (Geyer (1996)) Seien g, g1 , g2 , · · · : Rp → R zufällige konvexe Funktionen, die jeweils auf einer offenen Menge endlich sind. Mit Wahrscheinlichkeit 1 habe g ein Minimum in genau einem Punkt t ∈ Rp und es bezeichne tn eine approximative minimierende Folge. D Falls gilt gn (u) −→ g(u) für alle u ∈ D, wobei D eine abzählbare, dichte Teilmenge p von R bezeichnet, so folgt D tn −→ t und D gn (tn ) −→ g(t). 28/ 74 Beweis IV Für q > 1 ist V zweimal differenzierbar und die Hessematrix ist gegeben durch C > 0, also ist V strikt konvex. Für q = 1 sind ersten drei Terme in V zweimal differenzierbar mit Hessematrix C > 0 und der letzte Term ist konvex, also ist V auch in diesem Fall strikt konvex. Analog erhält man Konvexität von Vn für q ≥ 1. Die Behauptung folgt für q ≥ 1 direkt aus obigem Lemma. Sei nun q < 1. Wegen λn /nq/2 → λ0 folgt für θ0,j 6= 0 q uj λn √ λn θ0,j + √ − |θ0,j |q = q/2 q| nθ0,j + ξ|q−1 uj → 0 n n und damit p X 1 λn kθ0 + √ ukqq − kθ0 kqq → λ0 |uj |q . n j=s+1 Also gilt Vn V, im Raum der stetigen Funktionen versehen mit der Topologie induziert durch gleichmäßige Konvergenz auf kompakten Mengen. Asymptotische Straffheit folgt dabei so: 29/ 74 Beweis V Es gilt nach der Definition von Vn 2 1 |Vn (u) − Vn (w)| ≤ √ εT X(w − u) + uT X T Xu − wT X T Xw n n √ √ + λn kθ0 + u/ nkqq − kθ0 + w/ nkqq = Vn(1) (u, w) + Vn(2) (u, w) + Vn(3) (u, w). Mit dem ZGWS und dem Satz von der stetigen Abbildung erhalten wir 2 √ T Vn(1) (u, w) ≤ √ ε XX T εkw − uk2 = OP (1)kw − uk2 . n Nach Voraussetzung erhalten wir Vn(2) (u, w) = 1 |(u − w)T X T X(u − w)| → (u − w)T C(u − w) ≤ λmax (C)kw − uk22 . n Wie oben folgt Vn(3) (u, w) p X q q → λ0 (|uj | − |wj | ) ≤ λ0 ku − wkqq . j=s+1 30/ 74 Beweis VI Damit erhalten wir für > 0 und η > 0 ! lim sup P n→∞ ∗ sup |Vn (u) − Vn (w)| > < η, ku−wk2 <δ falls δ > 0 hinreichend klein gewählt ist. Dies ist asymptotische Gleichstetigkeit in Wahrscheinlichkeit aus der asymptotische Straffheit und schwache Konvergenz von Vn als Funktion folgt (vgl. Wellner und van der Vaart (1996)). Lemma (Kim und Pollard (1990)) Es seien g1 , g2 , · · · : Rp → R zufällige , lokal beschränkte Funktionen und g : Rp → R sei eine zufällige stetige Funktion die mit Wahrscheinlichkeit 1 ein Minimum in genau einem Punkt t hat. tn bezeichne eine approximative minimierende Folge. Falls gilt tn = OP (1) und D so folgt tn −→ t. 31/ 74 gn g, Beweis VII Also noch zu zeigen u bn = √ b n(θ − θ0 ) = OP (1). Es gilt per Definition kb un kqq T q 1 1 ≤ argminu ε − √ Xu ε − √ Xu . n n q Mit dem ZGWS zusammen mit dem Lemma von Geyer erhält man analog zu oben T 1 1 argminu ε − √ Xu ε − √ Xu = OP (1). n n Damit folgt die Behauptung des Satzes aus dem Lemma von Kim und Pollard. 2 32/ 74 Konsistente Modellwahl für q < 1 √ Stellt man im vorherigen Satz für q < 1 die Bedingung λn / n → λ0 ≥ 0 und q/2 λn /n → ∞, so erhält man wie oben direkt ( P −2uT W + uT Cu + qλ0 sj=1 uj |θ0,j |q−1 , falls uj = 0 ∀j > s, D Vn (u) −→ V (u) = ∞, sonst. Außerdem gilt wieder D argminu Vn (u) −→ argminu V (u), und damit wählt das Verfahren konsistent ein Modell. Außerdem gilt mit den Bezeichnungen argminu V (u) = (b uT1 , 0Tp−s )T , W = (W1T , W2T )T und W1 ∼ N (0, σ 2 C11 ) −1 −1 ), u b1 = C11 (W1 − λ0 q|θ0 (1)|q−1 /2) ∼ N (−λ0 q|θ0 (1)|q−1 /2, σ 2 C11 wobei |θ0 |q−1 koordinatenweise zu verstehen ist. Dies erhält man direkt aus ∂V (u1 , 0p−s ) = −2W1 + 2C11 u1 + λ0 q|θ0 (1)|q−1 . ∂u1 33/ 74 Konsistente Modellwahl für q < 1 II Damit hat der Schätzer die gleiche asymptotische Varianz wie der KQ-Schätzer den man im bekannten Modell verwendet hätte. Allerdings hat der Schätzer für λ0 6= 0 asymptotisch Bias (der für große Parameter klein wird) und ist nicht stetig in den Daten. Außerdem muss zur Berechnung eine nicht-konvexe Funktion minimiert werden. Für q > 1 erhalten wir ∂V (u) = −2W + 2Cu + λ0 qsgn(θ0 )|θ0 |q−1 ∂u und damit direkt argminu V (u) = C −1 (W − λ0 qsgn(θ0 )|θ0 |q−1 /2) ∼ N (−λ0 qsgn(θ0 )|θ0 |q−1 /2, σ 2 C −1 ). Damit wählt das Verfahren asymptotisch kein Modell, da keine Koeffizienten auf 0 gesetzt werden (vgl. auch erste Eigenschaften von Schätzern). Außerdem hat man für λ0 6= 0 Bias der für große Parameter sehr groß wird. Was ist für q = 1 (LASSO)? 34/ 74 Modellwahl mit LASSO Wir schreiben u = (uT1 , uT2 )T mit u1 ∈ Rs und partitionieren sämtliche Matrizen und Vektoren passend dazu. Dies liefert (mit selbsterklärender Notation) V (u) = −2(uT1 W1 + uT2 W2 ) + uT1 C11 u1 + uT1 C12 u2 + uT2 C21 u1 + uT2 C22 u2 + λ0 s X j=1 uj sgn(θ0,j ) + λ0 p X |uj |. j=s+1 Nach dem VZW-Kriterium hat V ein Minimum genau dann, wenn gilt −2W1 + 2C11 u1 + 2C12 u2 + λ0 sgn(θ0 (1)) = 0, −2W2 + 2C21 u1 + 2C22 u2 − λ0 1p−s ≤ 0 ≤ −2W2 + 2C21 u1 + 2C22 u2 + λ0 1p−s , wobei die Ungleichungen koordinatenweise zu verstehen sind. 35/ 74 Modellwahl mit LASSO II Setzen wir oben u2 = 0, so erhalten wir λ0 −1 u1 = C11 W1 − sgn(θ0 (1)) 2 und V hat ein Minimum in (uT1 , 0Tp−s )T , falls gilt λ0 λ0 λ0 −1 sgn(θ0 (1)) − W2 ≤ 1p−s . − 1p−s ≤ C21 C11 W1 − 2 2 2 Dieses Ereignis hat für λ0 6= 0 positive Wahrscheinlichkeit und damit schrumpft LASSO (asymptotisch) Koeffizienten zu exakt 0. Jedoch zeigt dies auch, dass die Modellwahl inkonsistent ist, denn W ∼ N (0p , σ 2 C) und damit (in der Regel, außer für spezielle C) λ0 λ0 −1 sgn(θ0 (1)) − W2 ≤ 1p−s < 1. W1 − P C21 C11 2 2 36/ 74 Modellwahl mit LASSO III Gibt es eine Möglichkeit, LASSO konsistent zur Modellwahl zu machen? √ Versuche große Parameter stärker zu bestrafen, also λn / n → ∞ und λn /n → 0. Dann gilt: Theorem (Zou (2006)) Der LASSO-Schätzer θb erfüllt n b P (θ − θ0 ) −→ argminu (Ṽ ), λn mit Ṽ (u) = uT Cu + s X uj sgn(θ0,j ) + j=1 p X |uj |. j=s+1 Der Beweis verläuft im Wesentlichen analog zu dem von Satz 5. Also wird die Konvergenzrate schlechter. Doch selbst wenn man dies hinnimmt führt dieser Ansatz noch nicht zur konsistenten Modellwahl. 37/ 74 Modellwahl mit LASSO IV Theorem (Zou (2006)) Falls der LASSO-Schätzer θb vorzeichenkonsistent ist, so gilt die weak irrepresentable condition −1 |C21 C11 S| ≤ 1 (5) für ein S ∈ {±1}s . Die weak irrepresentable condition ist nicht trivial: Sei z.B. s = 3, p = s + 1, C11 = Is + 1s 1Ts , C12 = 51s , C22 = 20. Dann ist C > 0 und −1 C11 = Is − 1 1s 1Ts , 4 also −1 C21 C11 = 5 1s 4 und (5) kann nicht gelten. Eine weitere Beispielklasse ist s ≥ 3, p = s + 1, C11 = (1 − ρ1 )Is + ρ1 1s 1Ts , C12 = ρ2 1s , C22 = 1 mit p −1/(s − 1) < ρ1 < −1/s und 1 + (s − 1)ρ1 < |ρ2 | < (1 + (s − 1)ρ1 )/s. 38/ 74 Beweis Beweis: Wir haben bereits oben gesehen, dass die Modellwahl inkonstent ist für √ λn / n → λ0 . Wir unterscheiden die Fälle (a) (b) (c) λn n λn n λn n → ∞, → λ0 mit 0 < λ0 < ∞, → 0 und λn √ n → ∞. Zunächst zeigen wir für λ0 ∈ [0, ∞] P θb −→ argminu V (u) mit V (u) = (u − θ0 )T C(u − θ0 ) + λ0 kuk1 . Hierzu reicht Konvergenz der zu minimierenden Funktionenfolge in Wahrscheinlichkeit gegen V gleichmäßig über Kompakta (folgt aus einschlägigen Glivenko-Cantelli-Resultaten), sowie θb = OP (1) (folgt wie im Beweis oben). P Man erhält direkt, dass im Fall (a) gilt θb −→ 0 und damit Inkonsistenz zur Modellwahl. 39/ 74 Beweis II Im Fall (b) erhalten wir P θb −→ θ mit einem nicht-stochastischen Vektor θ. Ist θb vorzeichenkonsistent, so gilt θj = 0 für j = s + 1, . . . , p. Sei An = {j|θbj 6= 0} und j ≤ s. Aus der Minimalitätseigenschaft von θb folgt b −2 X T (Y − X θ) + λn sgn(θbj ) = 0. j Damit gilt b X T (Y − X θ) λn j . P (j ∈ An ) ≤ P = 2 n n Da weiter gilt b X T (Y − X θ) j P −→ (C(θ − θ0 ))j , n impliziert P (j ∈ An ) → 1 die Gleichung 2|(C(θ − θ0 ))j | = λ0 . 40/ 74 Beweis III Sei nun k ≥ s + 1. Mit dem VZW-Kriterium erhalten wir analog zu gerade, dass P (k 6∈ An ) → 1 impliziert |2(C(θ − θ0 ))k | ≤ λ0 . Wegen der Vorzeichenkonsistenz gilt C(θ − θ0 ) = und damit C11 (θ(1) − θ0 (1)) = λ0 S, 2 C11 (θ(1) − θ0 (1)) C21 (θ(1) − θ0 (1)) |C21 (θ(1) − θ0 (1))| ≤ λ0 , 2 wobei S = sgn(C11 (θ(1) − θ0 (1))). Setzt man die letzte Gleichung in die Ungleichung ein, erhält man direkt −1 C21 C11 S ≤ 1. Der Fall (c) verläuft weitgehend analog unter Verwendung des Satzes zur Asymptotik des LASSO-Schätzers unter den Bedingungen von (c). 2 41/ 74 Modellwahl mit LASSO V Aber immerhin hat man auch ein positives Resultat: Theorem (Zhao und Yu (2006)) Es gelte λn /n → 0 und λn /n(1+c)/2 → ∞ für 0 ≤ c < 1 sowie die strong irrepresentable condition −1 |C21 C11 sgn(θ0 (1))| ≤ 1 − η für ein η > 0. Dann ist der LASSO-Schätzer θb vorzeichenkonsistent. (n) Zum Beweis verwenden wir die Notation Cij = 1/nX(i)T X(j) (i, j = 1, 2) und √ (n) Wi = 1/ nεT X(i). Wir verwenden folgendes Lemma, das auch für s = sn , p = pn → ∞ gültig ist. 42/ 74 (6) Beweis Lemma (Zhao und Yu (2006)) Es gelte die strong irrepresentable condition. Dann gilt P (θb =s θ0 ) ≥ P (An ∩ Bn ), wobei √ n o (n) (n) (n) An = (C11 )−1 W1 < n |θ0 (1)| − λn /(2n)|(C11 )−1 sgn(θ0 (1))| n o √ (n) (n) (n) (n) Bn = C21 (C11 )−1 W1 − W2 ≤ λn /(2 n)η . Beweis des Satzes von Zhao und Fu: Nach obigem Lemma ist zu zeigen P (An ∩ Bn ) → 1. Es gilt 1 − P (An ∩ Bn ) ≤ P (Acn ) + P (Bnc ) ≤ s X i=1 43/ 74 P (An,i ) + p−s X i=1 P (Bn,i ). Beweis II Dabei An,i = {|zi | ≥ Bn,i √ n(|θ0,i | − λn /(2n)ai )}, √ = {|z̃i | > λn /(2 n)η}, (n) (n) und zi , z̃i bzw. ai bezeichnen jeweils die i−ten Koordinaten von z = (C11 )−1 W1 , (n) (n) (n) (n) (n) z̃ = C21 (C11 )−1 W1 − W2 bzw. a = (C11 )−1 sgn(θ0 (1)). Da gilt (s.o.) T D (n) (n) (W1 )T , (W2 )T −→ N (0, σ 2 C) und (n) P Cij −→ Cij erhält man direkt D −1 z −→ N (0, σ 2 C11 ) D −1 und z̃ −→ N (0, C22 − C21 C11 C12 ). √ √ Weiter gilt nach Voraussetzung λn /(2 n)η → ∞ und n(|θ0,i | − λn /(2n)ai ) → ∞ und damit folgt die Behauptung. 2 44/ 74 Adaptives LASSO Gibt es ein Verfahren, das konsistent Modell wählt, asymptotisch effizient, stetig in den Daten sowie ein konvexes Optimierungsproblem ist? Ja: Theorem (Zou (2006)) √ (γ−1)/2 Sei γ > → ∞. (an ) sei eine Folge mit √ 0 und es gelte λn / n → 0 und λn n γ an λn / n → ∞ und θ̃ sei ein Schätzer für θ0 mit an (θ̃ − θ0 ) = OP (1). Dann wählt der adaptive LASSO-Schätzer θb konsistent ein Modell und erfüllt √ D −1 b − θ0 (1)) −→ n(θ(1) N (0, σ 2 C11 ). Da p fest ist, kann man für θ̃ den KQ-Schätzer verwenden. Minimierungsproblem ist konvex und Schätzer stetig in Daten. 45/ 74 Beweis Setze wieder u = √ n(θ − θ0 ). Dann gilt √ n(θb − θ0 ) = argminu Vn (u), wobei Vn (u) = p 1 T T 2 λn X √ uj u X Xu − √ εT Xu + √ w bj n θ0,j + √ − |θ0,j | n n n j=1 n und w bj = 1 . |θ̃|γ Wie oben ergibt sich 1 D √ εT X −→ N (0, σ 2 C). n Untersuche noch den letzten Term in Vn . 46/ 74 Beweis II P Ist j ≤ s, so gilt θ0,j 6= 0. Nach Voraussetzung gilt w bj −→ |θ0,j |−γ . Außerdem gilt wie beim LASSO für j ≤ s √ uj n θ0,j + √ − |θ0,j | → uj sgn(θ0,j ). n √ Damit folgt wegen λn / n → 0 √ λn uj P √ w bj n θ0,j + √ − |θ0,j | −→ 0 n n für j ≤ s. Für j > s gilt √ und uj n θ0,j + √ − |θ0,j | = |uj | n λn λn P √ w bj = √ aγn |an θ̃j |−γ −→ ∞. n n 47/ 74 Beweis III Mit Slutsky folgt hieraus für alle u ∈ Rp D Vn (u) −→ V (u) mit V (u) = V (u1 , u2 ) = ( uT1 C11 u1 − 2u1 W1 , ∞ falls uj = 0 ∀j > s, sonst, wobei W1 ∼ N (0, σ 2 C11 ). Da Vn und V konvex sind und V mit Wahrscheinlichkeit 1 ein eindeutiges Minimum besitzt folgt aus dem Lemma von Geyer (1996) √ D −1 n(θb − θ0 ) −→ argminu V (u) = ((C11 W1 )T , 0Tp−s )T . Hieraus folgt die Behauptung. 2 48/ 74 SCAD Beachte: Pλn (θ) = n Pp j=1 Pλn ,1 (|θj |) und λn → 0 in diesem Fall. Minimierungsproblem ist nicht konvex und Schätzer unter Umständen nicht eindeutig. Theorem (Fan und Li (2001)) √ √ Es gelte λn → 0 und nλn → ∞. Dann gibt es ein n−konsistentes Minimum θb des SCAD-Kriteriums, dieses Minimum ist konsistent zur Modellwahl und es gilt √ D −1 b − θ0 (1)) −→ n(θ(1) N (0, σ 2 C11 ). Satz wurde bewiesen für l(θ) Log-Likelihoodfunktion und Daten iid mit Dichte f (y|x, θ) die bestimmte Voraussetzungen erfüllt. In diesem Fall ist C11 durch die Fisher-Information zu ersetzen, die sich bei θ(2) = 0p−s ergibt. Schätzer erfüllt also ebenfalls die Orakel-Eigenschaft und Schätzer ist stetig in den Daten. Allerdings ist nicht klar, ob das Minimum welches man in der Praxis wählt, das richtige ist! 49/ 74 Divergierende Parameterdimension Von nun an gelte s = sn , p = pn und sn , pn → ∞. Insbesondere hängt auch θ von n ab. Wir versuchen analoge Resultate zu oben auch in diesem Fall zu erhalten. In diesem Fall ist die Bedingung lim n→∞ 1 T X X=C>0 n unsinnig, da die Dimension von X T X = nC (n) mit n wächst. Wir fordern stattdessen, dass Konstanten c1 , c2 existieren, so dass für alle n gilt (n) (n) 0 < c1 ≤ λmin (C11 ) ≤ λmax (C11 ) ≤ c2 < ∞. (n) wobei wir die Notation nCij = X(i)T X(j) für i, j = 1, 2 verwenden. Weiterhin gelte ab jetzt 1 lim √ max xi (1)T xi (1) = 0, n 1≤i≤n n→∞ und sowohl die Daten und die Kovariaten seien zentriert und normiert. Die letzten Bedingungen sind nicht für sämtliche folgenden Resultate notwendig. 50/ 74 Bridge-Regression für pn < n Wir betrachten zunächst die Asymptotik von Bridge-Schätzern für q < 1. Man erhält folgenden Satz. Theorem (Huang, Horowitz und Ma (2008)) Es gelte pn + λn sn → 0, n √ sn λn √ → 0, n λn 1−q/2 nq/2 pn → ∞. Weiterhin existieren Konstanten b1 , b2 mit 0 < b1 ≤ min |θ0,j | ≤ max |θ0,j | ≤ b2 < ∞. j≤sn j≤sn b T , θ(2) b T )T konsistent ein Modell und für Dann wählt der Bridge-Schätzer θb = (θ(1) sn αn ∈ R mit kαn k2 = 1 gilt √ −1/2 T D b − θ0 (1)) −→ nVn αn (θ(1) N (0, 1), (n) T wobei Vn = σ 2 αn (C11 )−1 αn . Man hat also auch in diesem Fall eine Orakel-Eigenschaft. Allerdings implizieren obige Bedingungen pn < n. 51/ 74 Bridge-Regression für pn ≥ n Es sei weiterhin q < 1 aber nun pn ≥ n. In der Regel sind in diesem Fall die Parameter nicht identifizierbar, man benötigt zusätzliche Bedingungen. Folgende Bedingung wird in der Literatur als „partial orthogonality“ bezeichnet: n 1 X xij xik ≤ c für j ≤ sn , k > sn , √ n i=1 für n hinreichend groß und eine Konstante c. Weiterhin definieren wir für j = 1, . . . , pn ξnj = n 1X xi (1)T θ0 (1)xij n i=1 und erinnern daran, dass man sagt, eine Zufallsvariable ε habe Sub-Gauss’sche Schwänze, falls Konstanten C und K existieren mit P (|ε| > x) ≤ K exp (−Cx2 ). 52/ 74 Bridge-Regression für pn ≥ n II Im Fall pn ≥ n und q < 1 erhalten wir folgendes Resultat: Theorem (Huang, Horowitz und Ma (2008)) Es sei die partial orthogonality Bedingung von den Kovariaten erfüllt und die Fehler εi haben Sub-Gauss’sche Schwänze. Weiter gebe es Konstanten b1 , b2 , so dass gilt min |ξnj | ≥ b1 > 0, j≤sn max |θ0,j | ≤ b2 < ∞. j≤sn Falls gilt λn → 0, n λn → ∞, nq/2 s2−q n log(pn − sn ) = o((λn n−q/2 )2/(2−q) ), so wählt der Bridge-Schätzer konsistent ein Modell. Aus obigen Bedingungen√an die Konvergenzgeschwindigkeiten kann man ableiten, dass gelten muss sn = o( n) und pn − sn = k exp(o(n)). Huang, Horowitz und Ma schreiben, der Bridge-Schätzer sei für pn ≥ n nicht mehr konsistent für die Schätzung von θ0 , ohne dazu einen Beweis oder nähere Erläuterungen zu geben. Sie schlagen daher Modellwahl mittels Bridge-Schätzern und Schätzung im gewählten Modell vor. 53/ 74 LASSO Es gelte die strong irrepresentable condition |C21 (C11 )−1 sgn(θ0 (1))| ≤ 1 − η (n) (n) für ein η > 0 (komponentenweise) und es existiere γ ∈ (0, 1] mit kC21 (C11 )−1 kop,∞ ≤ 1 − γ, (n) (n) wobei k · kop,∞ die Operatornorm bezüglich der Norm k · k∞ bezeichnet. Unter diesen Bedingungen und maxj≤sn |θ0,j | ≤ b2 < ∞ erhält man den folgenden Satz: Theorem (Wainwright (2009)) Falls die Fehler εi Sub-Gauss’sche Schwänze haben und falls Konstanten 0 < δ1 , δ2 , δ3 < 1 mit δ1 + δ3 < δ2 existieren, so dass gilt pn = O(exp(nδ3 )), sn = O(nδ1 ), min |θ0,j | > nδ2 −1 , j≤sn λn ∼ n(1+δ4 )/2 mit einem δ4 ∈ (δ3 , δ2 − δ1 ), so ist der LASSO-Schätzer vorzeichenkonsistent und konsistent bezüglich der Norm k · k∞ . 54/ 74 Zwischenfazit Damit bleibt festzuhalten: Bridge-Schätzer wählen für q > 1 kein Modell (vgl. letzter Vortrag) Bridge-Schätzer haben für q < 1 die Orakel-Eigenschaft für festes pn = p und pn < n Bridge-Schätzer wählen für q < 1 unter zusätzlichen Bedingungen auch für pn > n konsistent ein Modell, sind aber nicht konsistent zur Paramterschätzung (??) LASSO ist in der Regel nicht konsistent zur Modellwahl, wählt jedoch ein (in der Regel zu großes) Modell und schätzt für pn = p fest bei richtiger Skalierung Parameter effizient LASSO schätzt unter strong irrepresentable condition und mit anderer Skalierung konsistent √ Modell für p = pn fest; Parameterschätzung mit schlechterer Rate als n LASSO schätzt unter Zusatzbedingungen mit richtiger Skalierung auch für pn > n konsistent ein Modell und schätzt Parameter noch immer konsistent, jedoch mit schlechterer Rate als möglich Adaptives LASSO und SCAD besitzen Orakel-Eigenschaft für pn = p fest Wie verhalten sich adaptives LASSO und SCAD für pn → ∞? 55/ 74 Adaptives LASSO Wir betrachten nur den Fall γ = 1, also Pλ (θ) = λ Ppn j=1 |θj |/|θ̃j |−1 . Wir definieren bn = minj≤sn |θ0,j |. Der Schätzer θ̃ erfülle folgende Eigenschaften: Es existiere eine Konstante c1 , so dass für alle > 0 und n hinreichend groß gilt P min |θ̃j | ≥ c1 bn > 1 − . j≤sn Es gelte rn max |θ̃j | = Op (1) j>sn für eine Folge rn → ∞. Ein Schätzer mit obigen Eigenschaften heißt null-konsistent mit Rate rn . Weiter gebe es Konstanten K, C und 1 ≤ d ≤ 2 mit P (|ε| > x) ≤ K exp (−Cxd ). 56/ 74 Adaptives LASSO II Unter obigen Bedingungen gilt: Theorem (Huang, Ma und Chang (2006),(2008)) Es gelte λn → ∞, λn sn √ →0 n und für d > 1 (log sn )1/d √ → 0, nbn λn sn → 0, nb2n √ n(log(pn − sn ))1/d → 0, λn rn s2n → 0. r n bn b T , θ(2) b T )T konsistent ein Modell Dann wählt der adaptive LASSO-Schätzer θb = (θ(1) sn und für αn ∈ R mit kαn k2 = 1 gilt √ −1/2 T D b − θ0 (1)) −→ nVn αn (θ(1) N (0, 1), (n) T wobei Vn = σ 2 αn (C11 )−1 αn . Satz funktioniert auch für d = 1, dann hat man andere Bedingungen an die Konvergenzgeschwindigkeiten. 57/ 74 Adaptives LASSO III Falls gilt rn = n1/2−δ und λn = na für 0 < a < 1/2 und δ > 0 „klein“, so kann pn − sn von der Ordnung exp(na (2 − δ)) und sn von der Ordnung na/2 sein, falls bn > > 0. Satz gilt also auch im Fall pn ≥ n. Damit hat das adaptive LASSO die Orakel-Eigenschaft, und zwar unter allgemeineren Bedingungen als Bridge-Schätzer für q < 1. Aber Problem: man benötigt mit Rate rn null-konsistenten Vorschätzer θ̃. Für pn = p fest konnte man KQ-Schätzer verwenden, was im Fall pn > n nicht mehr möglich ist. Unter zusätzlichen Bedingungen (im Wesentlichen partial orthogonality und weitere Bedingungen an Konvergenzgeschwindigkeiten, die jedoch keine zusätzlichen starken Einschränkungen implizieren), zeigen Huang, Ma und Chang, dass die Schätzer θ̃j = n 1X xij Yi n i=1 (j = 1, . . . , pn ) null-konsistent mit Rate rn sind. Damit hat man die Orakel-Eigenschaft für pn > n unter den gleichen Bedingungen, wie die konsistente Modellwahl der Bridge-Schätzer für q < 1. 58/ 74 Beweisidee Man kann weitgehend analog zum LASSO zeigen P (θb =s θ0 ) ≥ P (An ∩ Bn ), wobei An und Bn Ereignisse der Form {|Mn ε| < c + v(θ̃)} mit verschiedenen Matrizen Mn und Vektoren v sind (die Ungleichungen sind komponentenweise zu verstehen). Sei ψd (x) = exp(xd ) − 1 und kXkψd = inf{c > 0 | E [ψd (|X|/c)] ≤ 1} die Orlicz-Norm der X. Falls gilt P (|εi | > x) ≤ K exp(−Cxd ) für 1 < d ≤ 2 und Pn Zufallsvariable 2 i=1 ai beschränkt ist, so gilt n X ai εi ≤ c. i=1 ψd Für Zufallsvariablen Wj mit beschränkter Orlicz-Norm gilt c(log m)1/d . P max |Wj | ≥ wn ≤ 1≤j≤m wn Wir wenden dies auf Mn ε an und nutzen die Eigenschaften von θ̃ um P (Acn ), P (Bnc ) → 0 zu zeigen, woraus die Vorzeichenkonsistenz des adaptiven LASSO Schätzers folgt. Die asymptotische Normalverteilung folgt durch Bedingen auf das Ereignis {θb =s θ0 } und Anwendung des Lindeberg-ZGWS. 59/ 74 SCAD Für SCAD-Schätzer gilt folgendes Resultat. (Wieder aufpassen: anderes λn .) Theorem (Fan und Peng (2004)) Es gelte minj≤sn |θ0,j | → ∞, λn p λn → 0, n/pn λn → ∞, p3n → 0. n Weiterhin existieren Konstanten b1 , b2 mit 0 < b1 ≤ min |θ0,j | ≤ max |θ0,j | ≤ b2 < ∞. j≤sn j≤sn p Dann existiert ein n/pn −konsistentes Minimum des SCAD-Kriteriums b T , θ(2) b T )T das konsistent ein Modell wählt und für αn ∈ Rsn mit kαn k2 = 1 θb = (θ(1) gilt √ −1/2 T D b − θ0 (1)) −→ nVn αn (θ(1) N (0, 1), (n) T wobei Vn = σ 2 αn (C11 )−1 αn . Man hat also auch Orakel-Eigenschaft für SCAD-Schätzer. Allerdings hat man wieder das Problem der Nicht-Eindeutigkeit und eine starke Bedingung an pn : p3n /n → 0. 60/ 74 SCAD für pn ≥ n Es sei An (λn ) die Menge der Minimalstellen des SCAD-Kriteriums. θb0 bezeichne den KQ-Schätzer im wahren Modell. Dann gilt: Theorem (Kim, Choi, Oh (2008)) Es gelte E ε2k < ∞ für ein k ∈ N und es gebe Konstanten 0 < δ1 < δ2 ≤ 1 und i δ3 > 0 mit pn √ sn = O(nδ1 ), δ3 ≤ min |θ0,j |n(1−δ2 )/2 , λn = o(n−(1−(δ1 −δ2 )/2) ), → 0. j≤sn ( nλn )2k Dann gilt P (θb0T , 0Tpn −sn )T ∈ An (λn ) → 1. Dies ist sogar mehr als Orakel-Eigenschaft für SCAD-Schätzer. Nutzen des Resultats ist jedoch fraglich: in Wirklichkeit bestimmt man eine Minimalstelle des SCAD-Kriteriums. Ob diese die Orakel-Eigenschaft erfüllt ist nach obigen Sätzen nicht klar. 61/ 74 Verallgemeinerte lineare Modelle Ursprünglich waren wir an Modellen der Form Y = g(Xθ0 ) + ε (7) interessiert. Ist g hinreichend glatt, so gelten die Eigenschaften der BKQS die im linearen Modell hergeleitet wurden im Wesentlichen auch im Modell (7) (Taylorentwicklung). Allerdings findet man dazu fast nichts in der Literatur. Andere Möglichkeit: betrachte nicht bestrafte KQ- sondern bestrafte ML-Schätzer. Unter gewissen Regularitätsannahmen an die Log-Likelihoodfunktion gelten obige asymptotische Eigenschaften dann ebenfalls. Asymptotische Varianz ist in diesem Fall gegeben durch die inverse Fisher-Information. Nimmt man ein lineares Modell Y = Xθ0 + Σ(X, θ0 )ε mit ε1 , . . . , εn unabhängig identisch verteilt mit Erwartungswert 0 und Varianz 1 und Σ(X, θ0 ) = diag(σ(xi , θ0 )) an, so erhält man leicht ähnliche Resultate wie im homoskedastischen Fall. 62/ 74 Heteroskedastische Fehler Für das adaptive LASSO ergibt sich z.B.: Lemma (Wagener (2010)) Ist pn = p fest und ist zusätzlich zu den Annahmen im homoskedastischen Fall 1 X(1)T Σ(X, θ0 )2 X(1) → B11 > 0 n erfüllt, so ist der adaptive LASSO-Schätzer konsistent zur Modellwahl und für die b ersten p Koordinaten θ(1) gilt √ D −1 −1 b − θ0 (1)) −→ n(θ(1) N (0, C11 B11 C11 ). Die Modellwahleigenschaft wird also nicht beeinflusst, jedoch erhält man suboptimale asymptotische Varianz (wünschenswert wäre asymptotische Varianz −1 C̃11 = limn→∞ (1/nX(1)T Σ(X, θ0 )−2 X(1))−1 ). Naheliegend um obiges Problem zu lösen: betrachte gewichteten bestraften KQ-Schätzer, also # " n p X X Yi − xTi θ 2 θbsca = argminθ + λn |θj ||θ̃j |−1 , σ(xi , θ) i=1 j=1 wobei θ ebenfalls ein Vorschätzer für θ ist. 63/ 74 Heteroskedastische Fehler II Theorem (Wagener (2010)) Zusätzlich zu den Bedingungen im homoskedastischen Fall gelte 1 T X Σ(X, θ0 )−2 X → C̃ > 0 n und es gebe eine Folge an → ∞ mit (θ − θ0 ) = Op (a−1 n ) die erfüllt an → ∞, n1/4 λn an √ → ∞. n Ist 0 < σ(x, θ) von 0 weg beschränkt und in einer Umgebung von θ0 zweimal differenzierbar bezüglich θ und sind sämtliche zweiten partiellen Ableitungen bezüglich der Koordinaten von θ beschränkt in einer Umgebung von θ0 , so ist θbsca konsistent zur Modellwahl und es gilt √ D −1 n(θbsca (1) − θ0 (1)) −→ N (0, C̃11 ). Dies ist die Orakel-Eigenschaft auch im heteroskedastischen Fall. Für pn → ∞ gibt es noch ungelöste Probleme zum Beweis eines entsprechenden Satzes. 64/ 74 Partiell lineare Modelle und bestrafte Quantilsregression Manche Autoren betrachten partiell lineare Modelle der Form Y = Xθ0 + g(T ) + ε, wobei T weitere Kovariaten sind und g eine unbekannte Funktion darstellt. Gibt es eine Möglichkeit, g hinreichend gut nichtparametrisch zu schätzen, so lassen sich die wesentlichen Eigenschaften bestrafter KQ-Schätzer für θ0 aus linearen Modellen übertragen. Dazu bis jetzt jedoch fast keine Literatur. Ist man nicht an Mittelwertregression sondern an linearer Quantilsregression interessiert, so betrachtet man " n # X θb = argmin ρu (Yi − xTi θ) + Pλ (θ) θ n i=1 mit ρu (x) = (u − I{x ≤ 0})x. Belloni und Chernozhukov (2010) zeigen für Pλn (θ) = kθk1 analoge Eigenschaften zur bestraften KQ-Schätzung unter recht allgemeinen Bedingungen. 65/ 74 Kritik I: Unbeschränktes Risiko Besonders an der Orakel-Eigenschaft gibt es heftige und berechtigte Kritik. Zwar sind die Resultate korrekt, aber die Eigenschaften der erhaltenen Schätzer sind völlig anders, als die Orakel-Eigenschaft suggeriert. Wir konzentrieren uns in diesem Abschnitt wieder auf das lineare Regressionsmodell mit iid Fehlern. Es gilt: Theorem (Leeb, Pötscher (2008)) Sei pn = p fest und zusätzlich zu den Regularitätsannahmen im linearen Regressionsmodell gelte, dass die Dichte f der Fehler erfüllt 2 Z 0 f (x) f (x)dx < ∞. 0< f (x) Ist θb ein Schätzer von θ0 der konsistent ein Modell wählt, so gilt lim sup Eθ0 [n(θb − θ0 )T (θb − θ0 )] = ∞. n→∞ θ ∈Rp 0 Der maximale skalierte MSE ist also unbeschränkt, während für den KQ-Schätzer θbKQ gilt Eθ0 [n(θbKQ − θ0 )T (θbKQ − θ0 )] = Sp (n−1 X T X)−1 → Sp(C −1 ) < ∞. 66/ 74 Kritik II: Modellwahl nicht gleichmäßig über Parameterraum Von nun an sei die Designmatrix orthogonal und die Fehler N (0, 1)-verteilt. In diesem Fall kann die Minimierung koordinatenweise durchgeführt werden, man hat explizite Darstellungen der Schätzer und wir untersuchen Schätzer von θ basierend auf n iid Zufallsvariablen Yi ∼ N (θ, 1). Um ein vollständigeres Bild der Asymptotik der bestraften kleinsten Quadrate-Schätzer zu bekommen, untersuchen wir nicht nur das Verhalten für einen b festen Parameter θ sondern für θn . Es gilt für den LASSO-Schäzter θ: Theorem (Pötscher, Leeb (2009)) √ √ Falls gilt λn / n → λ0 ≥ 0 und nθn → v ∈ R, so folgt Pθn (θb = 0) → Φ(−v + λ0 ) − Φ(−v − λ0 ). √ Falls gilt λn / n → ∞ und θn n/λn → v ∈ R, so folgt Pθn (θb = 0) → 1, falls |v| < 1 √ Pθn (θb = 0) → Φ(r), falls |v| = 1 und n(λn /n − θn v) → r ∈ R b Pθn (θ = 0) → 0, falls |v| > 1. 67/ 74 Kritik III: Komplizierte Verteilung der Schätzer Das heißt bei einer Skalierung zur konsistenten Modellwahl ist√der LASSO-Schätzer „blind“ für Abweichungen der Parameter von der Ordnung 1/ n, solche Parameter werden asymptotisch 0 gesetzt, auch wenn sie es nicht sind. Die Modellwahl ist also nicht konsistent gleichmäßig über den Parameterraum. Ein völlig analoger Satz gilt für SCAD und adaptives LASSO (die durch andere Skalierungen ebenfalls nicht mehr konsistent zur Modellwahl sind) sowie für Hard Thresholding. Andere Autoren sehen diese Eigenschaft konsistenter Modellwahlverfahren als positiv an, weil so in einem Modell mit hoher Parameterdimension „unwichtige“ Parameter aussortiert werden und nur wichtige Kovariateneinflüsse übrig bleiben. Theorem (Pötscher, Leeb (2009)) Die endlich dimensionale Verteilung von √ n(θb − θ) ist gegeben durch dFθb(x) = [Φ(−θ + n/λn ) − Φ(−θ − n/λn )] dδ−√nθ (x) √ √ √ √ + φ(x − λn / n)I{x + nθ < 0}dx + φ(x + λn / n)I{x + nθ > 0}dx. Ähnliche Sätze gelten für SCAD, adaptives LASSO und Hard Thresholding. 68/ 74 Kritik IV: Nicht-normale asymptotische Verteilung für nicht-feste Parameter Aus dem letzten Satz erhält man folgende Asymptotik: Theorem (Pötscher, Leeb (2009)) √ √ √ Falls gilt λn / n → λ0 ≥ 0 und nθn → v ∈ R, so konvergiert n(θb − θ) in Verteilung gegen [Φ(−v + λ0 ) − Φ(−v − λ0 )] dδ−v (x)+[φ(x + λ0 )I{x > −v} + φ(x − λ0 )I{x < −v}] dx. Die asymptotische Normalverteilung die man für festes θ erhält ist damit keine verlässliche Approximation der Verteilung des Schätzers, insbesondere wenn θ von √ der Ordnung 1/ n ist. Dieses Phänomen ist für SCAD, adaptives LASSO oder Hard Thresholding noch wesentlich ausgeprägter (multimodale Verteilungen werden durch Normalverteilung approximiert), besonders im Fall der konsistenten Modellwahl, wo man für bestimmte Folgen θn asymptotisch Punktmassen in ±∞ erhalten kann. Insgesamt: asymptotische Resultate bei festen Parametern liefern ein unvollständiges Bild der Asymptotik von bestraften KQ-Schätzern. Der Name „Orakel-Eigenschaft“ ist irreführend, weil sich die Schätzer auch asymptotisch nicht verhalten wie der Schätzer, der durch ein Modellwahl-Orakel unterstützt wäre. 69/ 74 Kritik V: Es gibt keine gleichmäßig konsistenten Schätzer der Verteilung von BKQS Theorem (Pötscher, Leeb (2009)) √ √ Falls gilt λn / n → λ0 ∈ R und falls Fθ die Verteilungsfunktion von n(θb − θ) bezeichnet, so gilt für jeden konsistenten Schätzer Fbθ (t) von Fθ (t) sup√ Pθ Fbθ (t) − Fθ (t) > ε → 1 |θ|≤c/ n für jedes 0 < ε < (Φ(t + λ0 ) − Φ(t − λ0 ))/2 und jedes c > |t|. Ein vollkommen analoger Satz gilt für SCAD, adaptives LASSO und Hard Thresholding. Immerhin erhält man Konsistenz von BKQS gleichmäßig über den Parameterraum: 70/ 74 Gleichmäßige Konsistenz und Propaganda Theorem (Pötscher, Leeb (2009)) Es gelte λn /n → 0. Dann ist der (adaptive) LASSO-Schätzer θb im orthogonalen linearen Modell gleichmäßig konsistent: für jedes ε > 0 ex. M ∈ R so dass sup sup P (an |θb − θ| > M ) < ε, n∈N θ∈R √ wobei an = min( n, n/λn ). Übertragung des Resultats auf allgemeinere Modelle erscheint mir schwierig, da der Beweis stark von den expliziten Darstellungen der Schätzer abhängt. Kritik an der Kritik: die kritisierenden Autoren geben keine Alternative zum Umgang mit hochdimensionalen Daten. Im Fall p > n hat man als Alternative zum Aussortieren bestimmter Kovariaten nur das Unterlassen einer Datenanalyse. Irgendwie muss man sich in der Praxis für ein Modell entscheiden. Ein statitsiches Verfahren, auch mit Schwächen, scheint eher geeignet als eine willkürliche Entscheidung für ein Modell. Sämtliche statistischen Methoden haben Nachteile, teils eher auf praktischer Seite („Wie wähle ich denn bei meinen Daten nun die Bandbreite und den Kern?“), teils auf theoretischer. BKQS sind praktisch gut brauchbar, allerdings muss man sich im Klaren über die Gefahren der punktweisen Asymptotik sein. 71/ 74 Literatur A. Belloni, V. Chernozhukov: „l1 -penalized quantile regression in high-dimensional sparse models“, erscheint in The Annals of Statistics (2010) G. Claeskens, N. Hjort: „Model selection and model averaging“, Cambridge University Press (2008) J. Fan, R. Li: „Variable selection via nonconcave penalized likelihood and its oracle properties“, Journal of the American Statistical Association 96, 1348-1360 (2001) J. Fan, H. Peng: „Nonconcave penalized likelihood with a diverging number of parameters“, The Annals of Statistics 32, 928-961 (2004) C.J. Geyer: „On the asymptotics of convex stochastic optimization“, unveröffentlicht (1996) J. Huang, J.L. Horowitz, S. Ma: „Asymptotic properties of bridge estimators in sparse high dimensional regression models“, The Annals of Statistics 36, 587-613 (2008) J. Huang, S. Ma, C. Zhang: „Adaptive lasso for sparse high-dimensional regression models“, Statistica Sinica 18, 1603-1618 (2008) Y. Kim, H. Choi, H.-S. Oh: „Smoothly Clipped Absolute Deviation on High Dimensions“, Journal of the American Statistical Association 103, 1665-1673 (2008) 72/ 74 Literatur II J. Kim, D. Pollard: „Cube root asymptotics“, The Annals of Statistics 18, 191-219 (1990) K. Knight, W. Fu: „Asymptotics for Lasso-type estimators“, The Annals of Statistics 28, 1356-1378 (2000) H. Leeb, B. M. Pötscher: „Model selection and inference: facts and fiction“, Econometric Theory 21, 21-59 (2005) H. Leeb, B. M. Pötscher: „Sparse estimators and the oracle property, or the return of Hodges’ estimator“, Journal of Econometrics 142, 201-211 (2008) B. M. Pötscher, H. Leeb: „On the distribution of penalized maximum likelihood estimators: The LASSO, SCAD, and thresholding“, Journal of Multivariate Analysis 100, 2065-2082 (2009) B. M. Pötscher, U. Schneider: „On the distribution of the adaptive LASSO estimator“, Journal of Statistical Planning and Inference 139, 2775-2790 (2009) R. Tibshirani: „Regression shrinkage and selection via the Lasso“, J.R.Statist. Soc. B 58, 267-288 (1996) 73/ 74 Literatur III M.J. Wainwright: „Sharp thresholds for high-dimensional and noisy sparsity recovery using l1 -constrained quadratic programming (lasso)“, IEEE Transactions on Information Theory 55 (2009) J. Wellner, A.v.d.Vaart: „Weak Convergence and Empirical Processes“, Springer (1996) P. Zhao, B. Yu „On model selection consistency of Lasso“, Journal of Machine Learning Research 7, 2541-2563 (2006) H.Zou: „The adaptive Lasso and its oracle properties“, , Journal of the American Statistical Association 101, 1418-1429 (2006) 74/ 74