1 Die Minimum Chiquadrat Methode

Werbung
1
1
DIE MINIMUM CHIQUADRAT METHODE
1
Die Minimum Chiquadrat Methode
Wir betrachten im folgenden diskret-verteilte oder gruppierte Stichproben der Form
Klasse 1 2 . . . K
Anzahl y1 y2 . . . yK
P
Hier bezeichnet yk , k = 1, . . . , K, die beobachtete Häufigkeit in der k-ten Klasse. Sei n = k yk
der Stichprobenumfang und πk die Wahrscheinlichkeit für die Klasse k unter einem hypothetischen Verteilungsmodell. Damit resultiert nπk als erwartete Häufigkeit. Die Güte der Modellanpassung kann nun durch Pearson-Statistik
K
X
(yk − nπk )2
X2 =
(1)
nπk
k=1
beschrieben werden. Durch einfache Umformung erhält man mit den empirischen Wahrscheinlichkeiten (relativen Häufigkeiten) pk = yk /n dafür
X2 =
X y 2 − 2yk nπk + n2 π 2
k
k
nπk
k
=
Xµ
k
Ã
= n
yk
n
¶2
X p2
k
k
πk
X
X
n
−2
yk +n
πk
πk
k
k
!
−1
| {z }
| {z }
=n
=1
.
Oft hängen die hypothetischen Wahrscheinlichkeiten πk selbst von unbekannten Parametern λ
ab. Eine Möglichkeit diese Parameter zu schätzen stellt die Minimum Chisquare Method dar.
Hierbei wird jener Wert von λ als Schätzer verwendet, der (1) für πk = πk (λ) minimiert. Dazu
sucht man die Nullstelle λ̂ von
∂ 2
∂ X p2k
X (λ) = n
∂λ
∂λ k πk (λ)
= −n
X
k
p2k ∂πk (λ)
.
πk2 (λ) ∂λ
(2)
Diese ist oft eine nichtlineare Funktion in λ und λ̂ kann nur numerisch (iterativ) gefunden
werden. Als zweite Ableitung resultiert
Ã
X −2p2
∂2 2
k
X
(λ)
=
−n
3 (λ)
∂λ2
π
k
k
µ
∂πk (λ)
∂λ
¶2
p2 ∂ 2 πk (λ)
+ 2k
πk (λ) ∂λ2
!
.
(3)
Die Iteration lautet somit für den (t + 1)-ten Schritt
¯
λt+1
!−1 ¯¯
¯
¯
¯
¯
λ=λt
Ã
!Ã
µ
¶
X
2p2k
∂πk (λ) 2
∂πk (λ)
∂ 2 ¯¯
= λt −
X (λ)¯
∂λ
λ=λt
Ã
t
= λ + n
X
k
p2k
πk2 (λ)
Ã
∂2 2
X (λ)
∂λ2
∂λ
n
k
πk3 (λ)
∂λ
p2 ∂ 2 πk (λ)
− 2k
πk (λ) ∂λ2
!!−1
(4)
1
DIE MINIMUM CHIQUADRAT METHODE
2
Oft kann auch die Inverse in (4) durch ihren Erwartungswert ersetzt (approximiert) werden. Das
Verfahren wird dann Fisher Iteration genannt.
Für den Fall der Poisson-Verteilung mit Parameter λ ergibt sich für k = 0, 1, . . .
λk −λ
e
µk!
¶
∂
k
πk (λ) =
− 1 πk (λ)
∂λ
λ
"µ
#
¶2
k
∂2
k
πk (λ) =
− 1 − 2 πk (λ) .
∂λ2
λ
λ
πk (λ) =
(5)
Die Iteration wird mit einem Anfangswert λ0 gestartet, welcher häufig durch die MomentenmeP
thode berechnen werden kann. Für die Poisson-Verteilung gilt λ0 = ȳ = k kyk /n.
1.1
Offene Klassen
Speziell für Poisson-verteilte Größen hat man immer eine endliche letzte Klasse, z.B.
Wert k 0 1 . . . K − 1 ≥ K
Anzahl y0 y1 . . . yK−1
yK
Modell π0 π1 . . . πK−1 πK
Hier beschreibt πK die Wahrscheinlichkeit in zumindest Klasse K zu realisieren, also
πK = 1 −
K−1
X
πk .
(6)
k=0
Durch diesen kleinen Unterschied resultieren für k = 0, . . . , K − 1 zwar wiederum die Ergebnisse
aus (5), aber für die letzte Klasse, k = K, gilt jetzt speziell
K−1
X ∂
∂
πK (λ) = −
πk (λ)
∂λ
∂λ
k=0
(7)
K−1
X ∂2
∂2
π
(λ)
=
−
πk (λ)
K
∂λ2
∂λ2
k=0
(8)
mit den πk (λ) Ableitungen, k = 0, . . . , K − 1, so wie in (5) spezifiziert.
1.2
Beispiel
Wir passen der Stichprobe über Häufigkeiten von n = 109 k-silbigen Worten in einem slawischen
Text
k
0 1 2 3 4 ≥ 5 gesamt
Anzahl 44 35 17 6 6 1
109
eine Poisson-Verteilung mit Parameter λ an. Als Initialisierung für die Iteration (4) verwenden
P
wir λ0 = k kyk /109 = 1.06, was einen X 2 -Wert von 11.3 ergibt. Weiteres Iterieren liefert
1
DIE MINIMUM CHIQUADRAT METHODE
it=
it=
it=
it=
it=
it=
0
1
2
3
4
5
lambda=
lambda=
lambda=
lambda=
lambda=
lambda=
1.064220
1.128125
1.136973
1.137104
1.137104
1.137104
X2=
X2=
X2=
X2=
X2=
X2=
3
11.27654
10.44464
10.43276
10.43276
10.43276
10.43276
11.2
11.0
10.4
10.6
10.8
X**2(lambda)
11.4
11.6
Man sieht hierbei, dass sich bereits nach zwei Iterationen der Wert des Schätzers fast nicht mehr
ändert. Die X 2 Werte in Abhängigkeit vom Parameterschätzer sind in der Abbildung dargestellt.
1.05
1.10
1.15
1.20
lambda
Abbildung 1: X 2 Statistiken für verschiedene Werte von λ. Weiters eingezeichnet sind die Ergebnisse für den Initialwert (links) und den Endwert (Mitte) von λ.
Herunterladen