Bestrafte parametrische Regression - Ruhr

Werbung
Bestrafte parametrische Regression
Jens Wagener
Ruhr-Universität Bochum
Fakultät für Mathematik
Lehrstuhl für Statistik
Oktober und November 2010
1/ 74
Übersicht
klassiche Modellwahl
bestrafte Regression
Asymptotische Eigenschaften von BKQS
Verallgemeinerungen
Kritik
2/ 74
Parametrisches Regressionsmodell
Wir betrachten ein einfaches parametrisches Regressionsmodell
Yi = g(xTi θ) + εi ,
i = 1, . . . , n.
(1)
Dabei:
xi ∈ Rpn Kovariatenvektor
ε1 , . . . , εn iid Zufallsvariablen mit E [εi |xi ] = 0 und V ar (εi |xi ) = σ 2 < ∞
Für den wahren Parameter θ0 gilt θ0 = (θ0 (1)T , θ0 (2)T )T ∈ Rpn mit
θ0 (2) = 0pn −sn
g bekannt
Zu beachten: es ist unbekannt, welche Kovariaten Einfluss auf Y haben, also welche
Parameter nicht 0 sind (Modell unbekannt).
Unter einem Modell M verstehen wir eine Menge M ⊂ {1, . . . , pn } welche angibt,
welche Parameter als ungleich 0 angenommen werden.
Klassisch nimmt man pn = p als fest an.
3/ 74
Mögliche Ziele in Modell (1)
Nur die relevanten Einflussgrößen sollen ermittelt werden (Bsp.: welche Gene
haben Einfluss auf eine Phänotypsausprägung)
Auswahl des Modells selbst ist nicht von Interesse, es soll Modell gewählt und
danach θ1 geschätzt werden
Auswahl des Modells selbst ist nicht von Interesse, es soll Modell gewählt und
danach Vorhersagen gemacht werden
Sowohl Modell als auch Schätzung/Vorhersage ist von Interesse
Zur Erreichung unterschiedlicher Ziele können unterschiedliche Strategien verfolgt
werden.
Klassicher Ansatz: Modellwahl mittels Informationskriterien.
4/ 74
Informationskriterien
Typischer Weise ist Informationskriterium (IC) Ausdruck der Form
IC(M ) = l θb(M ) + P (n) (M ),
(2)
wobei M ein Modell, l(θ) = l(Y, θ) eine „Verlustfunktion“, θb(M ) einen
Parameterschätzer im Modell M und P (n) einen Strafterm (monoton wachsende
Funktion in |M |) bezeichnet.
l ist Maß dafür, wie gut Modell die Daten anpasst, P (n) bestraft Modellkomplexität
(typisch: l fallend in |M |).
Bsp. für IC: AIC (l Log-Likelihoodfunktion*(-1) und P (n) (M ) = |M |), BIC (l
Log-Likelihoodfunktion*(-1) und P (n) (M ) = 1/2 log(n)|M |).
P
Ohne Verteilungsannahme an Fehler benutze z.B. l(θ) = i [Yi − g(xTi θ)]2 .
5/ 74
Modellwahlstrategie
Mittels IC wählt man Modell wie folgt:
1
2
3
Für alle 2pn Modelle M ⊂ {1, . . . , pn } berechne θb(M ) = argminθ∈RM l(θ)
Berechne IC(M ) für alle 2pn Modelle M ⊂ {1, . . . , pn }
c = argmin IC(M )
Wähle Modell M
M
4
Falls nur Modell interessiert ist man jetzt fertig
5
c so, als wäre Modell
Falls Schätzung/Vorhersage interessiert: arbeite in Modell M
a priori bekannt gewesen
Obige Strategie hat gewisse Nachteile, auf die in der Folge eingegangen wird.
6/ 74
Nachteile von Modellwahl mittels IC
1
Immenser Rechenaufwand: es müssen 2pn unter Umständen nicht-triviale
numerische Minimierungen durchgeführt werden. Nachteil besteht egal welches
Ziel verfolgt wird und macht Modellwahl schnell unmöglich.
2
Falls in gewähltem Modell weitere Statistik betrieben werden soll: sämtliche auf
c basierenden Statistiken haben extrem komplizierte
dem zufälligen Modell M
Verteilungen durch nicht-trivialen Einfluss der Unsicherheit der Korrektheit des
gewählten Modells. In der Praxis wird dies in der Regel ignoriert und so
gearbeitet, als sei das Modell von vornherein bekannt gewesen; dadurch sind
p−Werte, Kofidenzintervalle etc. falsch.
3
Modellwahl führt zu instabilen Schätzern: „kleine“ Schwankungen der Daten
können schon zu einer anderen Modellwahl führen und damit sind Schätzer nicht
stetig in Daten.
4
Korrekte Wahl des Modells und „gute“ Eigenschaften der Schätzer in gewähltem
Modell stellen konkurrierende Ziele dar (wird nun näher erläutert).
7/ 74
Konsistenz
Definition
Ein IC heißt konsistent, falls gilt
cIC = {1, . . . , sn } = 1.
lim P M
n→∞
Z.B. BIC ist unter gewissen Voraussetzungen konsistent, aber AIC ist nicht
konsistent.
Falls nur Modellwahl interessiert, ist Konsistenz wichtigste Eigenschaft eines IC.
Theorem
Ein notwendiges Kriterium für Konsistenz eines IC ist P (n) (M ) → ∞ für jedes feste
M.
8/ 74
Effizienz
Sei YbM,i = g(xTi,0 θb(M ) ) eine Vorhersage für Ỹi = g(xTi,0 θ) + ε̃i .
Dabei sind (ε̃i )i=1,...,n und (εi )i=1,...,n iid und der Schätzer θb(M ) basiert auf den
Daten (Yi , xi )i=1,...,n . (xi )i=1,...,n und (xi,0 )i=1,...,n sind ebenfalls unabhängig.
Sei
Lpre (M ) =
n
X
h
i
E (YbM,i − Ỹi )2 |M
i=1
der erwartete Vorhersagefehler. Dieser sollte durch die Modellwahl minimiert werden,
wenn das Ziel eine Vorhersage ist.
Weiter sei
Lest (M ) =
n
X
h
i
E (g(xTi θb(M ) ) − Yi )2 |M
i=1
der erwartete Schätzfehler.
Es gelte
∗
= argminM Lpre (M ),
Mpre
∗
Mest
= argminM Lest (M ).
9/ 74
Effizienz II
Definition
Ein IC heißt asymptotisch effizient zur Vorhersage, falls gilt
cIC ) P
Lpre (M
−→ 1
∗ )
Lpre (Mpre
und asymptotisch effizient zur Schätzung, falls gilt
cIC ) P
Lest (M
−→ 1.
∗
Lest (Mest
)
Unter bestimmten Voraussetzungen ist AIC effizient, BIC jedoch nicht.
Schlimmer noch: es gilt
cBIC ) Lpre (M
cBIC ) P
Lest (M
,
−→ ∞
cAIC ) Lpre (M
cAIC )
Lest (M
10/ 74
Konsistenz und Effizienz passen nicht zusammen
Falls Ziel der Datenanalyse sowohl korrekte Modellwahl als auch
Schätzung/Vorhersage ist, wäre IC sinnvoll, das sowohl konsistent als auch effizient
ist.
GEHT NICHT!
Theorem
Sei IC ein konsistentes Informationskriterium, dann gilt
cIC ) P
cIC ) Lest (M
Lpre (M
,
−→ ∞
∗
∗
Lpre (Mpre ) Lest (Mest
)
11/ 74
Neuer Ansatz
Fazit
Sowohl aus praktischer als auch aus theoretischer Sicht ist Alternative zur
Modellwahl mittels IC wünschenswert.
Der Lösungsansatz hierfür ist die bestrafte Regression, die in der Folge vorgestellt
wird.
Es wird sich zeigen: Problem 1 (großer Rechenaufwand) und Problem 3 (Instabilität)
lassen sich so lösen.
Problem 2 (komplizierte Verteilung von Schätzern nach Modellwahl) wird nur in
einem punktweisen Sinne gelöst, dessen Nutzen fraglich ist.
Problem 4 (keine simultane Konsistenz und Effizienz) ist auch hier nicht lösbar, auch
wenn manche Resultate so aussehen und von manchen Autoren so propagiert werden.
12/ 74
Bestrafte KQ-Schätzer
Wir betrachten im Modell (1) folgende Schätzer:
θb = argminθ (l(θ) + Pλn (θ)) .
(3)
Hier ist l wieder eine „Verlustfunktion“, in der Regel
l(θ) =
n h
i2
X
b ,
Yi − g(xTi θ)
i=1
und Pλ stellt einen Strafterm dar, der in irgendeiner Weise die „Größe“ von θ misst.
λn ist ein Tuning-Parameter, dessen Wahl in der Praxis ein Problem darstellt.
Hat erstmal noch nichts mit Modellwahl zu tun.
13/ 74
Motivation
Risiko eines Schätzers ist gegeben durch
pn
h
i X
h i
T h i
b T (θ − θ)
b =
E (θ − θ)
V ar θbj + E θb − θ
E θb − θ .
j=1
KQ-Schätzung unbiased, also zweiter Term ist null, Varianz unter Umständen „groß“.
Zur Vorhersage ist kleinere Varianz wünschenswert, auch wenn hierbei Bias in Kauf
genommen werden muss.
Zur Minimierung der Varianz suche Schätzer, deren Koordinaten alle nur „kleine“
Beträge haben und somit nicht sehr variabel sind.
Dies führt zu Minimierung des KQ-Kriteriums unter der Nebenbedingung kθk ≤ tn
für einen Parameter tn > 0.
Lagrange-Methode führt zu Schätzer (3) (mit Pλn (θ) = λn kθk), wobei λn aus tn
erhalten wird.
14/ 74
Verbindung zu Modellwahl
Durch Wahl des Strafterms Pλ (θ) bei der Berechnung des Schätzers (3) kann unter
Umständen Folgendes erreicht werden:
lim P (θb =s θ) = 1,
n→∞
(4)
wobei für zwei Vektoren u, v gilt u =s v ⇔ sgn(u) = sgn(v) und
sgn(u) = (sgn(u1 ), . . . , sgn(up )).
Eigenschaft (4) heißt Vorzeichenkonsistenz.
Damit schätzt θb sämtliche Einträge von θ0 (2) mit hoher Wahrscheinlichkeit als 0 und
wählt damit konsistent ein Modell.
Es gibt auch Strafterme die dazu führen, dass gewisse Einträge von θb exakt 0 werden,
Eigenschaft (4) jedoch nicht gilt. Diese wählen dann ebenfalls ein Modell, allerdings
ist die Modellwahl nicht konsistent.
Verfahren mit der Eigenschaft limn→∞ P (θj = 0) > 0 für manche j werden in der
Regel als „Shrinkage-Schätzer“ bezeichnet.
15/ 74
Wünschenswerte Eigenschaften von Pλ
Idealerweise sollte der Strafterm Pλ so gewählt werden, dass die resultierenden
Schätzer folgende Eigenschaften haben:
Schätzer asymptotisch unbiased
Schätzer stetig in Daten
Schätzer vorzeichenkonsistent
b = (θb1 , . . . , θbsn ) „asymptotisch normalverteilt“ (möglichst mit gleicher
θ(1)
Varianz wie KQ-Schätzer der verwendet wird, wenn Modell a priori bekannt; was
dies für sn → ∞ heißt wird später erklärt)
Erfüllt ein Schätzer (3) sämtliche vorgenannten Eigenschaften, so spricht man davon,
dass dieser Schätzer die Orakel-Eigenschaft besitzt. Manchen Autoren reichen hierfür
auch die letzten beiden Eigenschaften.
Für praktische Anwendungen sollte Pλ so gewählt werden, dass das
Minimierungsproblem in (3) entweder eine explizite Lösung hat oder ein schnell
konvergierender Algorithmus zur Berechnung des Schätzers existiert.
16/ 74
Verbreitete Strafterme P
In der Literatur häufig vorkommende und untersuchte Strafterme sind:
Bridge-Regression: Pλ (θ) = λkθkqq mit q > 0 (Name?)
LASSO („least absolute shrinkage and selection operator“): Spezialfall von
Bridge-Regression mit q = 1
Ridge-Regression: Spezialfall von Bridge-Regression mit q = 2
P n
Hard Thresholding: Pλ (θ) = 2 pj=1
(λ2 − (|θj | − λ)2 I{|θj | < λ})
P n
SCAD („smoothly clipped absolute deviation“): Pλ (θ) = n pj=1
Pλ,1 (|θj |) mit
(aλ − θj )+
∂Pλ,1
(θj ) = 2λ I{θj ≤ λ} +
I{θj > λ} ,
∂θj
(a − 1)λ
(a > 2 und θj ≥ 0)
Adaptives LASSO: Pλ (θ) = λ
für θ ist.
Ppn
j=1
|θj |/|θ̃j |γ (γ > 0), wobei θ̃ ein Vorschätzer
Achtung: bei Bridge-Regression ist für q < 1 Minimum möglicherweise nicht
eindeutig. In diesem Fall wählen wir einen beliebigen Repräsentanten aus der Menge
der Minimalpunkte und definieren diesen als argmin.
17/ 74
Zu minimierende Bridge-Funktionen für verschiedene q
100
Bridge_2(theta)
80
60
0
0
20
50
40
Lasso(theta)
150
100
200
120
Abbildung: Bridge-Funktionen
−10
−5
0
5
10
−10
−5
0
10
4.0
2.0
2.5
Bridge_.1(theta)
3.0
3.5
3.5
3.0
2.5
2.0
1.5
1.5
1.0
1.0
Bridge_.5(theta)
5
theta
4.0
theta
−0.5
0.0
0.5
1.0
−0.5
theta
0.0
0.5
theta
18/ 74
1.0
Erste Eigenschaften erhaltener Schätzer
Zum ersten Verständnis der Eigenschaften von Schätzern basierend auf obigen
Straftermen betrachte das Modell
Y = Xθ + ε,
wobei Y = (Y1 , . . . , Yn ), X = (x1 , . . . , xn )T und ε = (ε1 , . . . , εn ). Fordere zusätzlich
orthonormales Design: X T X = Ipn .
Mit der Notation Z = X T Y und Yb = XX T Y erhalten wir
kY − Xθk22 + Pλ (θ) = kY − Yb k22 +
pn
pn
X
X
(Zj − θj )2 +
Pλ,1 (θj ),
j=1
so dass eine Minimierung komponentenweise stattfinden kann.
Untersuche also das Minimierungsproblem
argminθ∈R M (z, θ),
mit M (z, θ) = (z − θ)2 + Pλ,1 (θ).
19/ 74
j=1
Erste Eigenschaften erhaltener Schätzer II
Für LASSO gilt
+
λ
θb = sgn(z) |z| −
,
2
denn:
1.Fall: 0 ≤ z ≤ λ/2. Es gilt M (z, 0) = z 2 . Für θ < 0 gilt
M (z, θ) > (z − θ)2 > z 2
und für θ > 0
M (z, θ) = z 2 + θ(θ + λ − 2z) > z 2 .
2. Fall: z > λ/2. Für θ > 0 gilt
∂M (z, θ)
λ
b < z2 .
= −2z + 2θ + λ ⇒ θb = z − , denn M (z, θ)
∂θ
2
Die Fälle 0 > z ≥ −λ/2 und z < −λ/2 verlaufen analog.
20/ 74
Erste Eigenschaften erhaltener Schätzer III
Für Ridge-Regression erhalten wir
∂M (z, θ)
z
= −2z + 2(1 + λ)θ ⇒ θb =
.
∂θ
1+λ
Ähnlich wie beim LASSO ergibt sich für Hard Thresholding
θb = zI{|z| > λ}
und für SCAD

+

sgn(z)(|z| − λ) ,
θb = [(a − 1)z − sgn(z)aλ]/(a − 2),


z,
21/ 74
falls |z| ≤ 2λ,
falls 2λ < |z| ≤ aλ,
falls |z| > aλ.
Erste Eigenschaften erhaltener Schätzer IV
4
2
0
Ridge(z, 1)
−4
−2
0
−4
−2
Hard(z, 1)
2
4
Abbildung: Obige Schätzer (rot: KQ-Schätzer)
−4
−2
0
2
4
−4
−2
0
2
4
2
4
z
2
0
SCAD(z, 1)
−2
0
−4
−2
−4
LASSO(z, 1)
2
4
4
z
−4
−2
0
2
4
−4
z
−2
0
z
22/ 74
Erste Eigenschaften erhaltener Schätzer V
Man sieht:
Hard-Thresholding schrumpft kleine Parameter auf exakt 0 (wählt also ein
Modell) und hat für große Parameter kein Bias, ist aber nicht stetig in den
Daten.
Ridge-Regression ist stetig in den Daten und schrumpft Parameter um
konstanten Faktor, sie werden aber nicht exakt 0, also keine Modellwahl.
Außerdem immer stärkerer Bias für Daten weit weg von 0.
LASSO ist stetig in Daten und schrumpft kleine Parameter auf exakt 0.
Allerdings konstanter Bias für größere Parameter.
SCAD ist stetig in den Daten, schrumpft kleine Parameter auf exakt 0 und kein
Bias für größere Parameter.
Damit ist der SCAD-Schätzer der einzige der hier untersuchten Schätzer, der die
Orakel-Eigenschaft (im strengeren Sinne) haben könnte.
23/ 74
Lineare Regression und endlich dimensionale Parameter
Wir leiten nun asymptotische Eigenschaften von bestimmten Schätzern der Form (3)
her.
Zunächst betrachten wir nur den Fall von Parametern mit beschränkter Dimension,
das heißt pn = p und sn = s fest.
Wir betrachten nur lineare Regression
Y = Xθ + ε,
mit Y = (Y1 , . . . , Yn )T , X = (x1 , . . . , xn )T ist deterministisch, ε = (ε1 , . . . , εn )T ,
wobei ε1 , . . . , εn iid mit Varianz σ 2 und unabhängig von X. X(1) bezeichne die
ersten s Spalten von X und X(2) die restlichen (p − s).
Basisvoraussetzungen in diesem Fall sind
lim
n→∞
1 T
X X = C > 0,
n
lim
n→∞
1
max xTi xi = 0.
n 1≤i≤n
Außerdem nehmen wir 1/nX T X als invertierbar an.
Die letzten Voraussetzungen sind nicht notwendig, aber wir wollen schöne Beweise
sehen.
24/ 74
Asymptotik von Bridge-Schätzern
Sei θb Bridge-Schätzer, Strafterm ist also gegeben durch Pλn (θ) = λn kθkqq mit q > 0.
Theorem (Knight und Fu (2000))
√
Für q ≥ 1 gelte λn / n → λ0 ≥ 0 und für q < 1 gelte λn /nq/2 → λ0 ≥ 0. Dann gilt
die schwache Konvergenz
√
D
n(θb − θ0 ) −→ argmin(V ),
wobei

Ps
Pp
T
T

−2u W + u Cu + λ0 Pj=1 uj sgn(θ0,j ) + λ0 j=s+1 |uj |,
V (u) = −2uT W + uT Cu + λ0 q sj=1 uj sgn(θ0,j )|θ0,j |q−1 ,

P

−2uT W + uT Cu + λ0 pj=s+1 |uj |q ,
Dabei hat W eine N (0p , σ 2 C)-Verteilung.
25/ 74
falls q = 1,
falls q > 1,
falls q < 1.
Beweis
Beweis: Es gilt
θb = argminθ [X(θ0 − θ) + ε]T [X(θ0 − θ) + ε] + λn kθkqq .
Setze u =
√
n(θ − θ0 ) und addiere in θ konstante Terme, um
√
n(θb − θ0 ) = argminu Vn (u)
mit
T 1
1
1
Vn (u) = ε − √ Xu
ε − √ Xu − εT ε + λn kθ0 + √ ukqq − kθ0 kqq
n
n
n
zu erhalten.
"
#
2
n
X
1 T
D
2
εi − √ xi u − εi −→ −2uT W + uT Cu
n
i=1
(nach ZGWS und Slutsky). Dabei gilt die Lindeberg-Bedingung wegen
limn→∞ n1 max1≤i≤n xTi xi = 0.
26/ 74
Beweis II
Für n hinreichend groß erhält man im Falle q = 1 direkt
(
λn
sgn(θ0,j ) √
u ,
uj n j
λn θ0,j + √ − |θ0,j | = λn
√ |uj |
n
n
für θ0,j 6= 0,
sonst,
und damit
p
s
X
X
1
λn kθ0 + √ uk1 − kθ0 k1 → λ0
uj sgn(θ0,j ) + λ0
|uj |.
n
j=1
j=s+1
Für q > 1 und θ0,j 6= 0 erhält man für hinreichend großes n
q
q−1
uj
ξ uj λn θ0,j + √ − |θ0,j |q = λn √ qsgn(θ0,j ) θ0,j + √ n
n
n
→ λ0 sgn(θ0,j )q|θ0,j |q−1 uj ,
wobei |ξ| ≤ |uj |. Also
s
X
1
λn kθ0 + √ ukqq − kθ0 kqq → λ0 q
uj sgn(θ0,j )|θ0,j |q−1 .
n
j=1
27/ 74
Beweis III
D
Damit hat man für q ≥ 1 die schwache Konvergenz Vn (u) −→ V (u) für jedes u
gezeigt.
Definition
Eine Folge tn heißt approximative minimierende Folge einer Funktionenfolge
gn : Rp → R, falls zwei Folgen ηn & 0 und rn & −∞ existieren, so dass gilt
(
inf gn + ηn , falls inf gn > −∞
gn (tn ) =
rn
sonst.
Lemma (Geyer (1996))
Seien g, g1 , g2 , · · · : Rp → R zufällige konvexe Funktionen, die jeweils auf einer
offenen Menge endlich sind. Mit Wahrscheinlichkeit 1 habe g ein Minimum in genau
einem Punkt t ∈ Rp und es bezeichne tn eine approximative minimierende Folge.
D
Falls gilt gn (u) −→ g(u) für alle u ∈ D, wobei D eine abzählbare, dichte Teilmenge
p
von R bezeichnet, so folgt
D
tn −→ t
und
D
gn (tn ) −→ g(t).
28/ 74
Beweis IV
Für q > 1 ist V zweimal differenzierbar und die Hessematrix ist gegeben durch
C > 0, also ist V strikt konvex.
Für q = 1 sind ersten drei Terme in V zweimal differenzierbar mit Hessematrix C > 0
und der letzte Term ist konvex, also ist V auch in diesem Fall strikt konvex.
Analog erhält man Konvexität von Vn für q ≥ 1. Die Behauptung folgt für q ≥ 1
direkt aus obigem Lemma.
Sei nun q < 1. Wegen λn /nq/2 → λ0 folgt für θ0,j 6= 0
q
uj λn √
λn θ0,j + √ − |θ0,j |q = q/2 q| nθ0,j + ξ|q−1 uj → 0
n
n
und damit
p
X
1
λn kθ0 + √ ukqq − kθ0 kqq → λ0
|uj |q .
n
j=s+1
Also gilt
Vn
V,
im Raum der stetigen Funktionen versehen mit der Topologie induziert durch
gleichmäßige Konvergenz auf kompakten Mengen. Asymptotische Straffheit folgt
dabei so:
29/ 74
Beweis V
Es gilt nach der Definition von Vn
2 1
|Vn (u) − Vn (w)| ≤ √ εT X(w − u) + uT X T Xu − wT X T Xw
n
n
√
√
+ λn kθ0 + u/ nkqq − kθ0 + w/ nkqq = Vn(1) (u, w) + Vn(2) (u, w) + Vn(3) (u, w).
Mit dem ZGWS und dem Satz von der stetigen Abbildung erhalten wir
2 √ T
Vn(1) (u, w) ≤ √
ε XX T εkw − uk2 = OP (1)kw − uk2 .
n
Nach Voraussetzung erhalten wir
Vn(2) (u, w) =
1
|(u − w)T X T X(u − w)| → (u − w)T C(u − w) ≤ λmax (C)kw − uk22 .
n
Wie oben folgt
Vn(3) (u, w)
p
X
q
q → λ0 (|uj | − |wj | ) ≤ λ0 ku − wkqq .
j=s+1
30/ 74
Beweis VI
Damit erhalten wir für > 0 und η > 0
!
lim sup P
n→∞
∗
sup
|Vn (u) − Vn (w)| > < η,
ku−wk2 <δ
falls δ > 0 hinreichend klein gewählt ist.
Dies ist asymptotische Gleichstetigkeit in Wahrscheinlichkeit aus der asymptotische
Straffheit und schwache Konvergenz von Vn als Funktion folgt (vgl. Wellner und van
der Vaart (1996)).
Lemma (Kim und Pollard (1990))
Es seien g1 , g2 , · · · : Rp → R zufällige , lokal beschränkte Funktionen und g : Rp → R
sei eine zufällige stetige Funktion die mit Wahrscheinlichkeit 1 ein Minimum in genau
einem Punkt t hat. tn bezeichne eine approximative minimierende Folge. Falls gilt
tn = OP (1)
und
D
so folgt tn −→ t.
31/ 74
gn
g,
Beweis VII
Also noch zu zeigen u
bn =
√ b
n(θ − θ0 ) = OP (1).
Es gilt per Definition
kb
un kqq
T q
1
1
≤ argminu ε − √ Xu
ε − √ Xu .
n
n
q
Mit dem ZGWS zusammen mit dem Lemma von Geyer erhält man analog zu oben
T 1
1
argminu ε − √ Xu
ε − √ Xu = OP (1).
n
n
Damit folgt die Behauptung des Satzes aus dem Lemma von Kim und Pollard. 2
32/ 74
Konsistente Modellwahl für q < 1
√
Stellt man im vorherigen Satz für q < 1 die Bedingung λn / n → λ0 ≥ 0 und
q/2
λn /n
→ ∞, so erhält man wie oben direkt
(
P
−2uT W + uT Cu + qλ0 sj=1 uj |θ0,j |q−1 , falls uj = 0 ∀j > s,
D
Vn (u) −→ V (u) =
∞,
sonst.
Außerdem gilt wieder
D
argminu Vn (u) −→ argminu V (u),
und damit wählt das Verfahren konsistent ein Modell.
Außerdem gilt mit den Bezeichnungen argminu V (u) = (b
uT1 , 0Tp−s )T ,
W = (W1T , W2T )T und W1 ∼ N (0, σ 2 C11 )
−1
−1
),
u
b1 = C11
(W1 − λ0 q|θ0 (1)|q−1 /2) ∼ N (−λ0 q|θ0 (1)|q−1 /2, σ 2 C11
wobei |θ0 |q−1 koordinatenweise zu verstehen ist.
Dies erhält man direkt aus
∂V (u1 , 0p−s )
= −2W1 + 2C11 u1 + λ0 q|θ0 (1)|q−1 .
∂u1
33/ 74
Konsistente Modellwahl für q < 1 II
Damit hat der Schätzer die gleiche asymptotische Varianz wie der KQ-Schätzer den
man im bekannten Modell verwendet hätte.
Allerdings hat der Schätzer für λ0 6= 0 asymptotisch Bias (der für große Parameter
klein wird) und ist nicht stetig in den Daten. Außerdem muss zur Berechnung eine
nicht-konvexe Funktion minimiert werden.
Für q > 1 erhalten wir
∂V (u)
= −2W + 2Cu + λ0 qsgn(θ0 )|θ0 |q−1
∂u
und damit direkt
argminu V (u) = C −1 (W − λ0 qsgn(θ0 )|θ0 |q−1 /2) ∼ N (−λ0 qsgn(θ0 )|θ0 |q−1 /2, σ 2 C −1 ).
Damit wählt das Verfahren asymptotisch kein Modell, da keine Koeffizienten auf 0
gesetzt werden (vgl. auch erste Eigenschaften von Schätzern). Außerdem hat man für
λ0 6= 0 Bias der für große Parameter sehr groß wird.
Was ist für q = 1 (LASSO)?
34/ 74
Modellwahl mit LASSO
Wir schreiben u = (uT1 , uT2 )T mit u1 ∈ Rs und partitionieren sämtliche Matrizen und
Vektoren passend dazu.
Dies liefert (mit selbsterklärender Notation)
V (u) = −2(uT1 W1 + uT2 W2 ) + uT1 C11 u1 + uT1 C12 u2 + uT2 C21 u1 + uT2 C22 u2
+ λ0
s
X
j=1
uj sgn(θ0,j ) + λ0
p
X
|uj |.
j=s+1
Nach dem VZW-Kriterium hat V ein Minimum genau dann, wenn gilt
−2W1 + 2C11 u1 + 2C12 u2 + λ0 sgn(θ0 (1)) = 0,
−2W2 + 2C21 u1 + 2C22 u2 − λ0 1p−s ≤ 0 ≤ −2W2 + 2C21 u1 + 2C22 u2 + λ0 1p−s ,
wobei die Ungleichungen koordinatenweise zu verstehen sind.
35/ 74
Modellwahl mit LASSO II
Setzen wir oben u2 = 0, so erhalten wir
λ0
−1
u1 = C11
W1 −
sgn(θ0 (1))
2
und V hat ein Minimum in (uT1 , 0Tp−s )T , falls gilt
λ0
λ0
λ0
−1
sgn(θ0 (1)) − W2 ≤
1p−s .
− 1p−s ≤ C21 C11
W1 −
2
2
2
Dieses Ereignis hat für λ0 6= 0 positive Wahrscheinlichkeit und damit schrumpft
LASSO (asymptotisch) Koeffizienten zu exakt 0.
Jedoch zeigt dies auch, dass die Modellwahl inkonsistent ist, denn W ∼ N (0p , σ 2 C)
und damit (in der Regel, außer für spezielle C)
λ0
λ0
−1
sgn(θ0 (1)) − W2 ≤
1p−s < 1.
W1 −
P C21 C11
2
2
36/ 74
Modellwahl mit LASSO III
Gibt es eine Möglichkeit, LASSO konsistent zur Modellwahl zu machen?
√
Versuche große Parameter stärker zu bestrafen, also λn / n → ∞ und λn /n → 0.
Dann gilt:
Theorem (Zou (2006))
Der LASSO-Schätzer θb erfüllt
n b
P
(θ − θ0 ) −→ argminu (Ṽ ),
λn
mit
Ṽ (u) = uT Cu +
s
X
uj sgn(θ0,j ) +
j=1
p
X
|uj |.
j=s+1
Der Beweis verläuft im Wesentlichen analog zu dem von Satz 5.
Also wird die Konvergenzrate schlechter. Doch selbst wenn man dies hinnimmt führt
dieser Ansatz noch nicht zur konsistenten Modellwahl.
37/ 74
Modellwahl mit LASSO IV
Theorem (Zou (2006))
Falls der LASSO-Schätzer θb vorzeichenkonsistent ist, so gilt die weak irrepresentable
condition
−1
|C21 C11
S| ≤ 1
(5)
für ein S ∈ {±1}s .
Die weak irrepresentable condition ist nicht trivial:
Sei z.B. s = 3, p = s + 1, C11 = Is + 1s 1Ts , C12 = 51s , C22 = 20.
Dann ist C > 0 und
−1
C11
= Is −
1
1s 1Ts ,
4
also
−1
C21 C11
=
5
1s
4
und (5) kann nicht gelten.
Eine weitere Beispielklasse ist s ≥ 3, p = s + 1, C11 = (1 − ρ1 )Is + ρ1 1s 1Ts ,
C12 = ρ2 1s , C22 = 1 mit
p −1/(s − 1) < ρ1 < −1/s und
1 + (s − 1)ρ1 < |ρ2 | < (1 + (s − 1)ρ1 )/s.
38/ 74
Beweis
Beweis:
Wir haben bereits oben gesehen, dass die Modellwahl inkonstent ist für
√
λn / n → λ0 . Wir unterscheiden die Fälle
(a)
(b)
(c)
λn
n
λn
n
λn
n
→ ∞,
→ λ0 mit 0 < λ0 < ∞,
→ 0 und
λn
√
n
→ ∞.
Zunächst zeigen wir für λ0 ∈ [0, ∞]
P
θb −→ argminu V (u)
mit
V (u) = (u − θ0 )T C(u − θ0 ) + λ0 kuk1 .
Hierzu reicht Konvergenz der zu minimierenden Funktionenfolge in
Wahrscheinlichkeit gegen V gleichmäßig über Kompakta (folgt aus einschlägigen
Glivenko-Cantelli-Resultaten), sowie θb = OP (1) (folgt wie im Beweis oben).
P
Man erhält direkt, dass im Fall (a) gilt θb −→ 0 und damit Inkonsistenz zur
Modellwahl.
39/ 74
Beweis II
Im Fall (b) erhalten wir
P
θb −→ θ
mit einem nicht-stochastischen Vektor θ.
Ist θb vorzeichenkonsistent, so gilt θj = 0 für j = s + 1, . . . , p.
Sei An = {j|θbj 6= 0} und j ≤ s. Aus der Minimalitätseigenschaft von θb folgt
b
−2 X T (Y − X θ)
+ λn sgn(θbj ) = 0.
j
Damit gilt
 
b X T (Y − X θ)
 λn 
j
.
P (j ∈ An ) ≤ P 
=
2
n
n 
Da weiter gilt
b
X T (Y − X θ)
j
P
−→ (C(θ − θ0 ))j ,
n
impliziert P (j ∈ An ) → 1 die Gleichung 2|(C(θ − θ0 ))j | = λ0 .
40/ 74
Beweis III
Sei nun k ≥ s + 1. Mit dem VZW-Kriterium erhalten wir analog zu gerade, dass
P (k 6∈ An ) → 1 impliziert
|2(C(θ − θ0 ))k | ≤ λ0 .
Wegen der Vorzeichenkonsistenz gilt
C(θ − θ0 ) =
und damit
C11 (θ(1) − θ0 (1)) =
λ0
S,
2
C11 (θ(1) − θ0 (1))
C21 (θ(1) − θ0 (1))
|C21 (θ(1) − θ0 (1))| ≤
λ0
,
2
wobei S = sgn(C11 (θ(1) − θ0 (1))).
Setzt man die letzte Gleichung in die Ungleichung ein, erhält man direkt
−1 C21 C11
S ≤ 1.
Der Fall (c) verläuft weitgehend analog unter Verwendung des Satzes zur Asymptotik
des LASSO-Schätzers unter den Bedingungen von (c).
2
41/ 74
Modellwahl mit LASSO V
Aber immerhin hat man auch ein positives Resultat:
Theorem (Zhao und Yu (2006))
Es gelte λn /n → 0 und λn /n(1+c)/2 → ∞ für 0 ≤ c < 1 sowie die strong
irrepresentable condition
−1
|C21 C11
sgn(θ0 (1))| ≤ 1 − η
für ein η > 0. Dann ist der LASSO-Schätzer θb vorzeichenkonsistent.
(n)
Zum Beweis verwenden wir die Notation Cij = 1/nX(i)T X(j) (i, j = 1, 2) und
√
(n)
Wi = 1/ nεT X(i).
Wir verwenden folgendes Lemma, das auch für s = sn , p = pn → ∞ gültig ist.
42/ 74
(6)
Beweis
Lemma (Zhao und Yu (2006))
Es gelte die strong irrepresentable condition. Dann gilt
P (θb =s θ0 ) ≥ P (An ∩ Bn ),
wobei
√ n
o
(n)
(n) (n)
An = (C11 )−1 W1 < n |θ0 (1)| − λn /(2n)|(C11 )−1 sgn(θ0 (1))|
n
o
√
(n) (n)
(n)
(n) Bn = C21 (C11 )−1 W1 − W2 ≤ λn /(2 n)η .
Beweis des Satzes von Zhao und Fu: Nach obigem Lemma ist zu zeigen
P (An ∩ Bn ) → 1.
Es gilt
1 − P (An ∩ Bn ) ≤ P (Acn ) + P (Bnc ) ≤
s
X
i=1
43/ 74
P (An,i ) +
p−s
X
i=1
P (Bn,i ).
Beweis II
Dabei
An,i = {|zi | ≥
Bn,i
√
n(|θ0,i | − λn /(2n)ai )},
√
= {|z̃i | > λn /(2 n)η},
(n)
(n)
und zi , z̃i bzw. ai bezeichnen jeweils die i−ten Koordinaten von z = (C11 )−1 W1 ,
(n)
(n)
(n)
(n)
(n)
z̃ = C21 (C11 )−1 W1 − W2 bzw. a = (C11 )−1 sgn(θ0 (1)).
Da gilt (s.o.)
T
D
(n)
(n)
(W1 )T , (W2 )T
−→ N (0, σ 2 C)
und
(n)
P
Cij −→ Cij
erhält man direkt
D
−1
z −→ N (0, σ 2 C11
)
D
−1
und z̃ −→ N (0, C22 − C21 C11
C12 ).
√
√
Weiter gilt nach Voraussetzung λn /(2 n)η → ∞ und n(|θ0,i | − λn /(2n)ai ) → ∞
und damit folgt die Behauptung. 2
44/ 74
Adaptives LASSO
Gibt es ein Verfahren, das konsistent Modell wählt, asymptotisch effizient, stetig in
den Daten sowie ein konvexes Optimierungsproblem ist? Ja:
Theorem (Zou (2006))
√
(γ−1)/2
Sei γ >
→ ∞. (an ) sei eine Folge mit
√ 0 und es gelte λn / n → 0 und λn n
γ
an λn / n → ∞ und θ̃ sei ein Schätzer für θ0 mit
an (θ̃ − θ0 ) = OP (1).
Dann wählt der adaptive LASSO-Schätzer θb konsistent ein Modell und erfüllt
√
D
−1
b − θ0 (1)) −→
n(θ(1)
N (0, σ 2 C11
).
Da p fest ist, kann man für θ̃ den KQ-Schätzer verwenden.
Minimierungsproblem ist konvex und Schätzer stetig in Daten.
45/ 74
Beweis
Setze wieder u =
√
n(θ − θ0 ). Dann gilt
√
n(θb − θ0 ) = argminu Vn (u),
wobei
Vn (u) =
p
1 T T
2
λn X √
uj u X Xu − √ εT Xu + √
w
bj n θ0,j + √ − |θ0,j |
n
n
n j=1
n
und
w
bj =
1
.
|θ̃|γ
Wie oben ergibt sich
1
D
√ εT X −→ N (0, σ 2 C).
n
Untersuche noch den letzten Term in Vn .
46/ 74
Beweis II
P
Ist j ≤ s, so gilt θ0,j 6= 0. Nach Voraussetzung gilt w
bj −→ |θ0,j |−γ . Außerdem gilt wie
beim LASSO für j ≤ s
√
uj n θ0,j + √ − |θ0,j | → uj sgn(θ0,j ).
n
√
Damit folgt wegen λn / n → 0
√
λn
uj P
√ w
bj n θ0,j + √ − |θ0,j | −→ 0
n
n
für j ≤ s.
Für j > s gilt
√
und
uj n θ0,j + √ − |θ0,j | = |uj |
n
λn
λn
P
√ w
bj = √ aγn |an θ̃j |−γ −→ ∞.
n
n
47/ 74
Beweis III
Mit Slutsky folgt hieraus für alle u ∈ Rp
D
Vn (u) −→ V (u)
mit
V (u) = V (u1 , u2 ) =
(
uT1 C11 u1 − 2u1 W1 ,
∞
falls uj = 0 ∀j > s,
sonst,
wobei W1 ∼ N (0, σ 2 C11 ).
Da Vn und V konvex sind und V mit Wahrscheinlichkeit 1 ein eindeutiges Minimum
besitzt folgt aus dem Lemma von Geyer (1996)
√
D
−1
n(θb − θ0 ) −→ argminu V (u) = ((C11
W1 )T , 0Tp−s )T .
Hieraus folgt die Behauptung. 2
48/ 74
SCAD
Beachte: Pλn (θ) = n
Pp
j=1
Pλn ,1 (|θj |) und λn → 0 in diesem Fall.
Minimierungsproblem ist nicht konvex und Schätzer unter Umständen nicht
eindeutig.
Theorem (Fan und Li (2001))
√
√
Es gelte λn → 0 und nλn → ∞. Dann gibt es ein n−konsistentes Minimum θb des
SCAD-Kriteriums, dieses Minimum ist konsistent zur Modellwahl und es gilt
√
D
−1
b − θ0 (1)) −→
n(θ(1)
N (0, σ 2 C11
).
Satz wurde bewiesen für l(θ) Log-Likelihoodfunktion und Daten iid mit Dichte
f (y|x, θ) die bestimmte Voraussetzungen erfüllt. In diesem Fall ist C11 durch die
Fisher-Information zu ersetzen, die sich bei θ(2) = 0p−s ergibt.
Schätzer erfüllt also ebenfalls die Orakel-Eigenschaft und Schätzer ist stetig in den
Daten. Allerdings ist nicht klar, ob das Minimum welches man in der Praxis wählt,
das richtige ist!
49/ 74
Divergierende Parameterdimension
Von nun an gelte s = sn , p = pn und sn , pn → ∞. Insbesondere hängt auch θ von n
ab. Wir versuchen analoge Resultate zu oben auch in diesem Fall zu erhalten.
In diesem Fall ist die Bedingung
lim
n→∞
1 T
X X=C>0
n
unsinnig, da die Dimension von X T X = nC (n) mit n wächst. Wir fordern
stattdessen, dass Konstanten c1 , c2 existieren, so dass für alle n gilt
(n)
(n)
0 < c1 ≤ λmin (C11 ) ≤ λmax (C11 ) ≤ c2 < ∞.
(n)
wobei wir die Notation nCij = X(i)T X(j) für i, j = 1, 2 verwenden.
Weiterhin gelte ab jetzt
1
lim √ max xi (1)T xi (1) = 0,
n 1≤i≤n
n→∞
und sowohl die Daten und die Kovariaten seien zentriert und normiert.
Die letzten Bedingungen sind nicht für sämtliche folgenden Resultate notwendig.
50/ 74
Bridge-Regression für pn < n
Wir betrachten zunächst die Asymptotik von Bridge-Schätzern für q < 1. Man erhält
folgenden Satz.
Theorem (Huang, Horowitz und Ma (2008))
Es gelte
pn + λn sn
→ 0,
n
√
sn
λn √ → 0,
n
λn
1−q/2
nq/2 pn
→ ∞.
Weiterhin existieren Konstanten b1 , b2 mit
0 < b1 ≤ min |θ0,j | ≤ max |θ0,j | ≤ b2 < ∞.
j≤sn
j≤sn
b T , θ(2)
b T )T konsistent ein Modell und für
Dann wählt der Bridge-Schätzer θb = (θ(1)
sn
αn ∈ R mit kαn k2 = 1 gilt
√ −1/2 T
D
b − θ0 (1)) −→
nVn
αn (θ(1)
N (0, 1),
(n)
T
wobei Vn = σ 2 αn
(C11 )−1 αn .
Man hat also auch in diesem Fall eine Orakel-Eigenschaft. Allerdings implizieren
obige Bedingungen pn < n.
51/ 74
Bridge-Regression für pn ≥ n
Es sei weiterhin q < 1 aber nun pn ≥ n. In der Regel sind in diesem Fall die
Parameter nicht identifizierbar, man benötigt zusätzliche Bedingungen.
Folgende Bedingung wird in der Literatur als „partial orthogonality“ bezeichnet:
n
1 X
xij xik ≤ c für j ≤ sn , k > sn ,
√
n
i=1
für n hinreichend groß und eine Konstante c.
Weiterhin definieren wir für j = 1, . . . , pn
ξnj =
n
1X
xi (1)T θ0 (1)xij
n i=1
und erinnern daran, dass man sagt, eine Zufallsvariable ε habe Sub-Gauss’sche
Schwänze, falls Konstanten C und K existieren mit
P (|ε| > x) ≤ K exp (−Cx2 ).
52/ 74
Bridge-Regression für pn ≥ n II
Im Fall pn ≥ n und q < 1 erhalten wir folgendes Resultat:
Theorem (Huang, Horowitz und Ma (2008))
Es sei die partial orthogonality Bedingung von den Kovariaten erfüllt und die Fehler
εi haben Sub-Gauss’sche Schwänze. Weiter gebe es Konstanten b1 , b2 , so dass gilt
min |ξnj | ≥ b1 > 0,
j≤sn
max |θ0,j | ≤ b2 < ∞.
j≤sn
Falls gilt
λn
→ 0,
n
λn
→ ∞,
nq/2 s2−q
n
log(pn − sn ) = o((λn n−q/2 )2/(2−q) ),
so wählt der Bridge-Schätzer konsistent ein Modell.
Aus obigen Bedingungen√an die Konvergenzgeschwindigkeiten kann man ableiten,
dass gelten muss sn = o( n) und pn − sn = k exp(o(n)).
Huang, Horowitz und Ma schreiben, der Bridge-Schätzer sei für pn ≥ n nicht mehr
konsistent für die Schätzung von θ0 , ohne dazu einen Beweis oder nähere
Erläuterungen zu geben. Sie schlagen daher Modellwahl mittels Bridge-Schätzern
und Schätzung im gewählten Modell vor.
53/ 74
LASSO
Es gelte die strong irrepresentable condition
|C21 (C11 )−1 sgn(θ0 (1))| ≤ 1 − η
(n)
(n)
für ein η > 0 (komponentenweise) und es existiere γ ∈ (0, 1] mit
kC21 (C11 )−1 kop,∞ ≤ 1 − γ,
(n)
(n)
wobei k · kop,∞ die Operatornorm bezüglich der Norm k · k∞ bezeichnet.
Unter diesen Bedingungen und maxj≤sn |θ0,j | ≤ b2 < ∞ erhält man den folgenden
Satz:
Theorem (Wainwright (2009))
Falls die Fehler εi Sub-Gauss’sche Schwänze haben und falls Konstanten
0 < δ1 , δ2 , δ3 < 1 mit δ1 + δ3 < δ2 existieren, so dass gilt
pn = O(exp(nδ3 )),
sn = O(nδ1 ),
min |θ0,j | > nδ2 −1 ,
j≤sn
λn ∼ n(1+δ4 )/2
mit einem δ4 ∈ (δ3 , δ2 − δ1 ), so ist der LASSO-Schätzer vorzeichenkonsistent und
konsistent bezüglich der Norm k · k∞ .
54/ 74
Zwischenfazit
Damit bleibt festzuhalten:
Bridge-Schätzer wählen für q > 1 kein Modell (vgl. letzter Vortrag)
Bridge-Schätzer haben für q < 1 die Orakel-Eigenschaft für festes pn = p und
pn < n
Bridge-Schätzer wählen für q < 1 unter zusätzlichen Bedingungen auch für
pn > n konsistent ein Modell, sind aber nicht konsistent zur Paramterschätzung
(??)
LASSO ist in der Regel nicht konsistent zur Modellwahl, wählt jedoch ein (in
der Regel zu großes) Modell und schätzt für pn = p fest bei richtiger Skalierung
Parameter effizient
LASSO schätzt unter strong irrepresentable condition und mit anderer
Skalierung konsistent √
Modell für p = pn fest; Parameterschätzung mit
schlechterer Rate als n
LASSO schätzt unter Zusatzbedingungen mit richtiger Skalierung auch für
pn > n konsistent ein Modell und schätzt Parameter noch immer konsistent,
jedoch mit schlechterer Rate als möglich
Adaptives LASSO und SCAD besitzen Orakel-Eigenschaft für pn = p fest
Wie verhalten sich adaptives LASSO und SCAD für pn → ∞?
55/ 74
Adaptives LASSO
Wir betrachten nur den Fall γ = 1, also Pλ (θ) = λ
Ppn
j=1
|θj |/|θ̃j |−1 .
Wir definieren bn = minj≤sn |θ0,j |. Der Schätzer θ̃ erfülle folgende Eigenschaften:
Es existiere eine Konstante c1 , so dass für alle > 0 und n hinreichend groß gilt
P min |θ̃j | ≥ c1 bn > 1 − .
j≤sn
Es gelte
rn max |θ̃j | = Op (1)
j>sn
für eine Folge rn → ∞.
Ein Schätzer mit obigen Eigenschaften heißt null-konsistent mit Rate rn .
Weiter gebe es Konstanten K, C und 1 ≤ d ≤ 2 mit
P (|ε| > x) ≤ K exp (−Cxd ).
56/ 74
Adaptives LASSO II
Unter obigen Bedingungen gilt:
Theorem (Huang, Ma und Chang (2006),(2008))
Es gelte
λn → ∞,
λn sn
√ →0
n
und für d > 1
(log sn )1/d
√
→ 0,
nbn
λn sn
→ 0,
nb2n
√
n(log(pn − sn ))1/d
→ 0,
λn rn
s2n
→ 0.
r n bn
b T , θ(2)
b T )T konsistent ein Modell
Dann wählt der adaptive LASSO-Schätzer θb = (θ(1)
sn
und für αn ∈ R mit kαn k2 = 1 gilt
√ −1/2 T
D
b − θ0 (1)) −→
nVn
αn (θ(1)
N (0, 1),
(n)
T
wobei Vn = σ 2 αn
(C11 )−1 αn .
Satz funktioniert auch für d = 1, dann hat man andere Bedingungen an die
Konvergenzgeschwindigkeiten.
57/ 74
Adaptives LASSO III
Falls gilt rn = n1/2−δ und λn = na für 0 < a < 1/2 und δ > 0 „klein“, so kann pn − sn
von der Ordnung exp(na (2 − δ)) und sn von der Ordnung na/2 sein, falls bn > > 0.
Satz gilt also auch im Fall pn ≥ n.
Damit hat das adaptive LASSO die Orakel-Eigenschaft, und zwar unter
allgemeineren Bedingungen als Bridge-Schätzer für q < 1.
Aber Problem: man benötigt mit Rate rn null-konsistenten Vorschätzer θ̃. Für pn = p
fest konnte man KQ-Schätzer verwenden, was im Fall pn > n nicht mehr möglich ist.
Unter zusätzlichen Bedingungen (im Wesentlichen partial orthogonality und weitere
Bedingungen an Konvergenzgeschwindigkeiten, die jedoch keine zusätzlichen starken
Einschränkungen implizieren), zeigen Huang, Ma und Chang, dass die Schätzer
θ̃j =
n
1X
xij Yi
n i=1
(j = 1, . . . , pn )
null-konsistent mit Rate rn sind.
Damit hat man die Orakel-Eigenschaft für pn > n unter den gleichen Bedingungen,
wie die konsistente Modellwahl der Bridge-Schätzer für q < 1.
58/ 74
Beweisidee
Man kann weitgehend analog zum LASSO zeigen
P (θb =s θ0 ) ≥ P (An ∩ Bn ),
wobei An und Bn Ereignisse der Form {|Mn ε| < c + v(θ̃)} mit verschiedenen Matrizen
Mn und Vektoren v sind (die Ungleichungen sind komponentenweise zu verstehen).
Sei ψd (x) = exp(xd ) − 1 und kXkψd = inf{c > 0 | E [ψd (|X|/c)] ≤ 1} die Orlicz-Norm
der
X. Falls gilt P (|εi | > x) ≤ K exp(−Cxd ) für 1 < d ≤ 2 und
Pn Zufallsvariable
2
i=1 ai beschränkt ist, so gilt
n
X
ai εi ≤ c.
i=1
ψd
Für Zufallsvariablen Wj mit beschränkter Orlicz-Norm gilt
c(log m)1/d
.
P
max |Wj | ≥ wn ≤
1≤j≤m
wn
Wir wenden dies auf Mn ε an und nutzen die Eigenschaften von θ̃ um
P (Acn ), P (Bnc ) → 0 zu zeigen, woraus die Vorzeichenkonsistenz des adaptiven LASSO
Schätzers folgt.
Die asymptotische Normalverteilung folgt durch Bedingen auf das Ereignis {θb =s θ0 }
und Anwendung des Lindeberg-ZGWS.
59/ 74
SCAD
Für SCAD-Schätzer gilt folgendes Resultat. (Wieder aufpassen: anderes λn .)
Theorem (Fan und Peng (2004))
Es gelte
minj≤sn |θ0,j |
→ ∞,
λn
p
λn → 0,
n/pn λn → ∞,
p3n
→ 0.
n
Weiterhin existieren Konstanten b1 , b2 mit
0 < b1 ≤ min |θ0,j | ≤ max |θ0,j | ≤ b2 < ∞.
j≤sn
j≤sn
p
Dann existiert ein n/pn −konsistentes Minimum des SCAD-Kriteriums
b T , θ(2)
b T )T das konsistent ein Modell wählt und für αn ∈ Rsn mit kαn k2 = 1
θb = (θ(1)
gilt
√ −1/2 T
D
b − θ0 (1)) −→
nVn
αn (θ(1)
N (0, 1),
(n)
T
wobei Vn = σ 2 αn
(C11 )−1 αn .
Man hat also auch Orakel-Eigenschaft für SCAD-Schätzer. Allerdings hat man wieder
das Problem der Nicht-Eindeutigkeit und eine starke Bedingung an pn : p3n /n → 0.
60/ 74
SCAD für pn ≥ n
Es sei An (λn ) die Menge der Minimalstellen des SCAD-Kriteriums. θb0 bezeichne den
KQ-Schätzer im wahren Modell. Dann gilt:
Theorem (Kim, Choi, Oh (2008))
Es gelte E ε2k
< ∞ für ein k ∈ N und es gebe Konstanten 0 < δ1 < δ2 ≤ 1 und
i
δ3 > 0 mit
pn
√
sn = O(nδ1 ), δ3 ≤ min |θ0,j |n(1−δ2 )/2 , λn = o(n−(1−(δ1 −δ2 )/2) ),
→ 0.
j≤sn
( nλn )2k
Dann gilt
P (θb0T , 0Tpn −sn )T ∈ An (λn ) → 1.
Dies ist sogar mehr als Orakel-Eigenschaft für SCAD-Schätzer. Nutzen des Resultats
ist jedoch fraglich: in Wirklichkeit bestimmt man eine Minimalstelle des
SCAD-Kriteriums. Ob diese die Orakel-Eigenschaft erfüllt ist nach obigen Sätzen
nicht klar.
61/ 74
Verallgemeinerte lineare Modelle
Ursprünglich waren wir an Modellen der Form
Y = g(Xθ0 ) + ε
(7)
interessiert.
Ist g hinreichend glatt, so gelten die Eigenschaften der BKQS die im linearen Modell
hergeleitet wurden im Wesentlichen auch im Modell (7) (Taylorentwicklung).
Allerdings findet man dazu fast nichts in der Literatur.
Andere Möglichkeit: betrachte nicht bestrafte KQ- sondern bestrafte ML-Schätzer.
Unter gewissen Regularitätsannahmen an die Log-Likelihoodfunktion gelten obige
asymptotische Eigenschaften dann ebenfalls. Asymptotische Varianz ist in diesem
Fall gegeben durch die inverse Fisher-Information.
Nimmt man ein lineares Modell
Y = Xθ0 + Σ(X, θ0 )ε
mit ε1 , . . . , εn unabhängig identisch verteilt mit Erwartungswert 0 und Varianz 1 und
Σ(X, θ0 ) = diag(σ(xi , θ0 )) an, so erhält man leicht ähnliche Resultate wie im
homoskedastischen Fall.
62/ 74
Heteroskedastische Fehler
Für das adaptive LASSO ergibt sich z.B.:
Lemma (Wagener (2010))
Ist pn = p fest und ist zusätzlich zu den Annahmen im homoskedastischen Fall
1
X(1)T Σ(X, θ0 )2 X(1) → B11 > 0
n
erfüllt, so ist der adaptive LASSO-Schätzer konsistent zur Modellwahl und für die
b
ersten p Koordinaten θ(1)
gilt
√
D
−1
−1
b − θ0 (1)) −→
n(θ(1)
N (0, C11
B11 C11
).
Die Modellwahleigenschaft wird also nicht beeinflusst, jedoch erhält man suboptimale
asymptotische Varianz (wünschenswert wäre asymptotische Varianz
−1
C̃11
= limn→∞ (1/nX(1)T Σ(X, θ0 )−2 X(1))−1 ).
Naheliegend um obiges Problem zu lösen: betrachte gewichteten bestraften
KQ-Schätzer, also
#
" n p
X
X Yi − xTi θ 2
θbsca = argminθ
+ λn
|θj ||θ̃j |−1 ,
σ(xi , θ)
i=1
j=1
wobei θ ebenfalls ein Vorschätzer für θ ist.
63/ 74
Heteroskedastische Fehler II
Theorem (Wagener (2010))
Zusätzlich zu den Bedingungen im homoskedastischen Fall gelte
1 T
X Σ(X, θ0 )−2 X → C̃ > 0
n
und es gebe eine Folge an → ∞ mit (θ − θ0 ) = Op (a−1
n ) die erfüllt
an
→ ∞,
n1/4
λn an
√ → ∞.
n
Ist 0 < σ(x, θ) von 0 weg beschränkt und in einer Umgebung von θ0 zweimal
differenzierbar bezüglich θ und sind sämtliche zweiten partiellen Ableitungen bezüglich
der Koordinaten von θ beschränkt in einer Umgebung von θ0 , so ist θbsca konsistent
zur Modellwahl und es gilt
√
D
−1
n(θbsca (1) − θ0 (1)) −→ N (0, C̃11
).
Dies ist die Orakel-Eigenschaft auch im heteroskedastischen Fall. Für pn → ∞ gibt es
noch ungelöste Probleme zum Beweis eines entsprechenden Satzes.
64/ 74
Partiell lineare Modelle und bestrafte Quantilsregression
Manche Autoren betrachten partiell lineare Modelle der Form
Y = Xθ0 + g(T ) + ε,
wobei T weitere Kovariaten sind und g eine unbekannte Funktion darstellt.
Gibt es eine Möglichkeit, g hinreichend gut nichtparametrisch zu schätzen, so lassen
sich die wesentlichen Eigenschaften bestrafter KQ-Schätzer für θ0 aus linearen
Modellen übertragen. Dazu bis jetzt jedoch fast keine Literatur.
Ist man nicht an Mittelwertregression sondern an linearer Quantilsregression
interessiert, so betrachtet man
" n
#
X
θb = argmin
ρu (Yi − xTi θ) + Pλ (θ)
θ
n
i=1
mit ρu (x) = (u − I{x ≤ 0})x.
Belloni und Chernozhukov (2010) zeigen für Pλn (θ) = kθk1 analoge Eigenschaften zur
bestraften KQ-Schätzung unter recht allgemeinen Bedingungen.
65/ 74
Kritik I: Unbeschränktes Risiko
Besonders an der Orakel-Eigenschaft gibt es heftige und berechtigte Kritik. Zwar
sind die Resultate korrekt, aber die Eigenschaften der erhaltenen Schätzer sind völlig
anders, als die Orakel-Eigenschaft suggeriert.
Wir konzentrieren uns in diesem Abschnitt wieder auf das lineare Regressionsmodell
mit iid Fehlern. Es gilt:
Theorem (Leeb, Pötscher (2008))
Sei pn = p fest und zusätzlich zu den Regularitätsannahmen im linearen
Regressionsmodell gelte, dass die Dichte f der Fehler erfüllt
2
Z 0
f (x)
f (x)dx < ∞.
0<
f (x)
Ist θb ein Schätzer von θ0 der konsistent ein Modell wählt, so gilt
lim sup Eθ0 [n(θb − θ0 )T (θb − θ0 )] = ∞.
n→∞ θ ∈Rp
0
Der maximale skalierte MSE ist also unbeschränkt, während für den KQ-Schätzer
θbKQ gilt
Eθ0 [n(θbKQ − θ0 )T (θbKQ − θ0 )] = Sp (n−1 X T X)−1 → Sp(C −1 ) < ∞.
66/ 74
Kritik II: Modellwahl nicht gleichmäßig über Parameterraum
Von nun an sei die Designmatrix orthogonal und die Fehler N (0, 1)-verteilt.
In diesem Fall kann die Minimierung koordinatenweise durchgeführt werden, man hat
explizite Darstellungen der Schätzer und wir untersuchen Schätzer von θ basierend
auf n iid Zufallsvariablen Yi ∼ N (θ, 1).
Um ein vollständigeres Bild der Asymptotik der bestraften kleinsten
Quadrate-Schätzer zu bekommen, untersuchen wir nicht nur das Verhalten für einen
b
festen Parameter θ sondern für θn . Es gilt für den LASSO-Schäzter θ:
Theorem (Pötscher, Leeb (2009))
√
√
Falls gilt λn / n → λ0 ≥ 0 und nθn → v ∈ R, so folgt
Pθn (θb = 0) → Φ(−v + λ0 ) − Φ(−v − λ0 ).
√
Falls gilt λn / n → ∞ und θn n/λn → v ∈ R, so folgt
Pθn (θb = 0) → 1, falls |v| < 1
√
Pθn (θb = 0) → Φ(r), falls |v| = 1 und n(λn /n − θn v) → r ∈ R
b
Pθn (θ = 0) → 0, falls |v| > 1.
67/ 74
Kritik III: Komplizierte Verteilung der Schätzer
Das heißt bei einer Skalierung zur konsistenten Modellwahl ist√der LASSO-Schätzer
„blind“ für Abweichungen der Parameter von der Ordnung 1/ n, solche Parameter
werden asymptotisch 0 gesetzt, auch wenn sie es nicht sind. Die Modellwahl ist also
nicht konsistent gleichmäßig über den Parameterraum.
Ein völlig analoger Satz gilt für SCAD und adaptives LASSO (die durch andere
Skalierungen ebenfalls nicht mehr konsistent zur Modellwahl sind) sowie für Hard
Thresholding.
Andere Autoren sehen diese Eigenschaft konsistenter Modellwahlverfahren als positiv
an, weil so in einem Modell mit hoher Parameterdimension „unwichtige“ Parameter
aussortiert werden und nur wichtige Kovariateneinflüsse übrig bleiben.
Theorem (Pötscher, Leeb (2009))
Die endlich dimensionale Verteilung von
√
n(θb − θ) ist gegeben durch
dFθb(x) = [Φ(−θ + n/λn ) − Φ(−θ − n/λn )] dδ−√nθ (x)
√
√
√
√
+ φ(x − λn / n)I{x + nθ < 0}dx + φ(x + λn / n)I{x + nθ > 0}dx.
Ähnliche Sätze gelten für SCAD, adaptives LASSO und Hard Thresholding.
68/ 74
Kritik IV: Nicht-normale asymptotische Verteilung für nicht-feste
Parameter
Aus dem letzten Satz erhält man folgende Asymptotik:
Theorem (Pötscher, Leeb (2009))
√
√
√
Falls gilt λn / n → λ0 ≥ 0 und nθn → v ∈ R, so konvergiert n(θb − θ) in
Verteilung gegen
[Φ(−v + λ0 ) − Φ(−v − λ0 )] dδ−v (x)+[φ(x + λ0 )I{x > −v} + φ(x − λ0 )I{x < −v}] dx.
Die asymptotische Normalverteilung die man für festes θ erhält ist damit keine
verlässliche Approximation
der Verteilung des Schätzers, insbesondere wenn θ von
√
der Ordnung 1/ n ist.
Dieses Phänomen ist für SCAD, adaptives LASSO oder Hard Thresholding noch
wesentlich ausgeprägter (multimodale Verteilungen werden durch Normalverteilung
approximiert), besonders im Fall der konsistenten Modellwahl, wo man für
bestimmte Folgen θn asymptotisch Punktmassen in ±∞ erhalten kann.
Insgesamt: asymptotische Resultate bei festen Parametern liefern ein unvollständiges
Bild der Asymptotik von bestraften KQ-Schätzern. Der Name „Orakel-Eigenschaft“
ist irreführend, weil sich die Schätzer auch asymptotisch nicht verhalten wie der
Schätzer, der durch ein Modellwahl-Orakel unterstützt wäre.
69/ 74
Kritik V: Es gibt keine gleichmäßig konsistenten Schätzer der Verteilung
von BKQS
Theorem (Pötscher, Leeb (2009))
√
√
Falls gilt λn / n → λ0 ∈ R und falls Fθ die Verteilungsfunktion von n(θb − θ)
bezeichnet, so gilt für jeden konsistenten Schätzer Fbθ (t) von Fθ (t)
sup√ Pθ Fbθ (t) − Fθ (t) > ε → 1
|θ|≤c/
n
für jedes 0 < ε < (Φ(t + λ0 ) − Φ(t − λ0 ))/2 und jedes c > |t|.
Ein vollkommen analoger Satz gilt für SCAD, adaptives LASSO und Hard
Thresholding.
Immerhin erhält man Konsistenz von BKQS gleichmäßig über den Parameterraum:
70/ 74
Gleichmäßige Konsistenz und Propaganda
Theorem (Pötscher, Leeb (2009))
Es gelte λn /n → 0. Dann ist der (adaptive) LASSO-Schätzer θb im orthogonalen
linearen Modell gleichmäßig konsistent: für jedes ε > 0 ex. M ∈ R so dass
sup sup P (an |θb − θ| > M ) < ε,
n∈N θ∈R
√
wobei an = min( n, n/λn ).
Übertragung des Resultats auf allgemeinere Modelle erscheint mir schwierig, da der
Beweis stark von den expliziten Darstellungen der Schätzer abhängt.
Kritik an der Kritik: die kritisierenden Autoren geben keine Alternative zum
Umgang mit hochdimensionalen Daten. Im Fall p > n hat man als Alternative zum
Aussortieren bestimmter Kovariaten nur das Unterlassen einer Datenanalyse.
Irgendwie muss man sich in der Praxis für ein Modell entscheiden. Ein statitsiches
Verfahren, auch mit Schwächen, scheint eher geeignet als eine willkürliche
Entscheidung für ein Modell.
Sämtliche statistischen Methoden haben Nachteile, teils eher auf praktischer Seite
(„Wie wähle ich denn bei meinen Daten nun die Bandbreite und den Kern?“), teils
auf theoretischer. BKQS sind praktisch gut brauchbar, allerdings muss man sich im
Klaren über die Gefahren der punktweisen Asymptotik sein.
71/ 74
Literatur
A. Belloni, V. Chernozhukov: „l1 -penalized quantile regression in high-dimensional
sparse models“, erscheint in The Annals of Statistics (2010)
G. Claeskens, N. Hjort: „Model selection and model averaging“, Cambridge University
Press (2008)
J. Fan, R. Li: „Variable selection via nonconcave penalized likelihood and its oracle
properties“, Journal of the American Statistical Association 96, 1348-1360 (2001)
J. Fan, H. Peng: „Nonconcave penalized likelihood with a diverging number of
parameters“, The Annals of Statistics 32, 928-961 (2004)
C.J. Geyer: „On the asymptotics of convex stochastic optimization“, unveröffentlicht
(1996)
J. Huang, J.L. Horowitz, S. Ma: „Asymptotic properties of bridge estimators in sparse
high dimensional regression models“, The Annals of Statistics 36, 587-613 (2008)
J. Huang, S. Ma, C. Zhang: „Adaptive lasso for sparse high-dimensional regression
models“, Statistica Sinica 18, 1603-1618 (2008)
Y. Kim, H. Choi, H.-S. Oh: „Smoothly Clipped Absolute Deviation on High
Dimensions“, Journal of the American Statistical Association 103, 1665-1673 (2008)
72/ 74
Literatur II
J. Kim, D. Pollard: „Cube root asymptotics“, The Annals of Statistics 18, 191-219
(1990)
K. Knight, W. Fu: „Asymptotics for Lasso-type estimators“, The Annals of Statistics
28, 1356-1378 (2000)
H. Leeb, B. M. Pötscher: „Model selection and inference: facts and fiction“,
Econometric Theory 21, 21-59 (2005)
H. Leeb, B. M. Pötscher: „Sparse estimators and the oracle property, or the return of
Hodges’ estimator“, Journal of Econometrics 142, 201-211 (2008)
B. M. Pötscher, H. Leeb: „On the distribution of penalized maximum likelihood
estimators: The LASSO, SCAD, and thresholding“, Journal of Multivariate Analysis
100, 2065-2082 (2009)
B. M. Pötscher, U. Schneider: „On the distribution of the adaptive LASSO
estimator“, Journal of Statistical Planning and Inference 139, 2775-2790 (2009)
R. Tibshirani: „Regression shrinkage and selection via the Lasso“, J.R.Statist. Soc. B
58, 267-288 (1996)
73/ 74
Literatur III
M.J. Wainwright: „Sharp thresholds for high-dimensional and noisy sparsity recovery
using l1 -constrained quadratic programming (lasso)“, IEEE Transactions on
Information Theory 55 (2009)
J. Wellner, A.v.d.Vaart: „Weak Convergence and Empirical Processes“, Springer
(1996)
P. Zhao, B. Yu „On model selection consistency of Lasso“, Journal of Machine
Learning Research 7, 2541-2563 (2006)
H.Zou: „The adaptive Lasso and its oracle properties“, , Journal of the American
Statistical Association 101, 1418-1429 (2006)
74/ 74
Herunterladen