Stochastische Automaten und Quellen

Werbung
KAPITEL 2
Stochastische Automaten und Quellen
Sei A ein System“ allgemeiner Art (z.B. ein physikalisches System oder
”
eine Nachrichtenquelle), das wir zu diskreten Zeitpunkten t = 0, 1, . . . beobachten. Wir nehmen an:
(SA1 ) A befindet sich zu jedem Zeitpunkt t in einem Zustand“ zi einer
”
endlichen Menge von n möglichen Zuständen Z = {z1 , . . . , zn }.
(SA2 ) Ist A zur Zeit t im Zustand zi , dann ist A zum nächsten Zeitpunkt
t + 1 im Zustand zj mit Wahrscheinlichkeit p(zj |zi ).
(SA1 ) und (SA2 ) besagen, dass A ein stochastischer Automat ist mit der
Übergangsmatrix
P = [pij ] ∈ Rn×n
wobei pij = p(zj |zi ).
P ist eine stochastische Matrix. Das heisst, dass jeder Zeilenvektor eine
Wahrscheinlichkeitsverteilung darstellt:
n
n
X
X
pij =
p(zj |zi ) = 1 und pij ≥ 0.
j=1
j=1
(t)
Sei πi die Wahrscheinlichkeit dafür, dass A zum Zeitpunkt t im Zustand
zi ist, dann erhalten wir
n
n
X
X
(t)
(t+1)
(t)
=
p(zj |zi )πi =
pij πi .
πj
i=1
i=1
(t)
(t)
Für die entsprechenden Vektoren π (t) = (π1 , . . . , πn ) gilt somit:
π (t+1) = π (t) P = π (t−1) P 2 = . . .
d.h. π (t) = π (0) P t .
Die stochastische Zustandsbeschreibung von A ist also festgelegt durch
die Anfangsverteilung π (0) und die Übergangsmatrix P . A heisst stationär,
wenn gilt
π (1) = π (0)
d.h.
π (t) = π (0)
für alle t ≥ 0.
Wir nehmen nun zusätzlich noch an, dass eine Funktion X : Z → Σ existiert, die das Symbol α = X(z) eines endlichen Alphabets Σ anzeigt, wenn
sich A im Zustand z befindet. In diesem Fall nennen wir Q = (A, Σ, X)
13
14
2. STOCHASTISCHE AUTOMATEN UND QUELLEN
eine stochastische Quelle. Bezeichnen wir mit Xt das Symbol α ∈ Σ, das
zum Zeitpunkt t produziert wird, dann finden wir
X (t)
P r{Xt = α} =
πi .
X(zi )=α
Die Folge (Xt )t≥0 ist ein stochastischer Prozess.
E X . 2.1 (Markov-Quellen und Irrfahrten). Im Fall Σ = {α1 , . . . , αn } und
X(zi ) = αi ist Q = (A, Σ, X) eine sog. Markov-Quelle und (Xt ) ist ein
Markov-Prozess. Man kann sich vorstellen, dass ein Markov-Prozess eine
Irrfahrt“ auf der Zustandsmenge Z anzeigt, die von den Übergangswahr”
scheinlichkeiten pij regiert wird.
B EMERKUNG. Das Modell stochastischer Quellen kann im Prinzip deutlich verallgemeinert werden. Allerdings kann man dann nicht mehr unbedingt die asymptotischen Konvergenzeigenschaften des nachfolgenden Abschnitts garantieren.
Unser spezielles Modell einer stochastischen Quelle Q = (A, Σ, X) ist in der
englischen Literatur auch als Hidden Markov Model (HMM) bekannt (weil die
Zustände z von A nur indirekt via X observierbar sind). Es wird bei sehr vielen Anwendungsmodellierungen der Datenanalyse eingesetzt (Finanzmathematik,
Spracherkennung usw.)
Unabhängigkeit. Die Quelle Q = (A, Σ, X) heisst unabhängig, wenn die
jeweilige Übergangswahrscheinlichkeit pij = p(zj |zi ) nicht von zi sondern
nur von zj abhängt, wenn also alle Zeilen von P identisch sind:
(pi1 , pi2 , . . . , pin ) = (π1 , π2 , . . . , πn )
(i = 1, . . . , n).
Unabhängige Quellen sind also im wesentlichen stationär:
(π1 , . . . , πn ) = π (1) = π (2) = . . . = π (t) = . . .
Die Überganswahrscheinlichkeiten von A (bzw. der Zustandsmenge von A)
können verallgemeinert werden, wenn wir die bedingte Wahrscheinlichkeit
P r{Xt+1 = β|Xt = α} als einen numerischen Parameter mit der Eigenschaft
P r{Xt = α}P r{Xt+1 = β|Xt = α} = P r{Xt = α, Xt+1 = β}
einführen. Dabei ist die gemeinsame Wahrscheinlichkeit
X
X
(t)
P r{Xt = α, Xt+1 = β} =
πi
{zi :X(zi )=α}
p(zj |zi ) .
{zj :X(zj )=β}
Im Fall P r{Xt = α} =
6 0 ergibt sich daraus
P r{Xt+1 = β|Xt = α} =
P r{Xt = α, Xt+1 = β}
.
P r{Xt = α}
1. KONVERGENZ
15
Wir nennen nun den Prozess (Xt ) unahängig, wenn für alle α, β ∈ Σ und
alle t ≥ 0 gilt:
X
(t+1)
P r{Xt+1 = β|Xt = α} = P r{Xt+1 = β} =
πj
.
{zj :X(zj )=β}
Daraus ergibt sich – im Fall der Unabhängigkeit – die Produktformel
P r{Xt = α, Xt+1 = β} = P r{Xt = α}P r{Xt+1 = β} .
B EMERKUNG. Man kann zeigen (s. Übungen):
• Ist die Quelle Q = (A, Σ, X) unabhängig, dann ist auch der zugeordnete stochastische Prozess (Xt ) unabhängig.
• Es ist möglich, dass (Xt ) unabhängig ist obwohl es Q = (A, Σ, X)
nicht ist.
1. Konvergenz
Wir nehmen Q = (A, Σ, X) als stochastische Quelle an und bezeichnen
die (stochastischen) Zustände des Automaten A zur Zeit t mit π (t) . Dann
ergeben sich die gemittelten (stochastischen) Zustände als
t
(t)
πi
1 X (k)
=
π
t + 1 k=0 i
(i = 1, . . . , n, t = 0, 1, . . .).
Die Durchschnittswahrscheinlichkeiten dafür, dass sich A in einem bestimmten Zustand befindet, konvergieren gegen eine Grenzverteilung:
S ATZ 2.1. Es gibt eine Wahrscheinlichkeitsverteilung π = (π 1 , . . . , π n )
derart, dass
(t)
lim π i = π i (i = 1, . . . , n)
t→∞
Beweis. Wir betrachten den (zu Cn isomorphen) Vektorraum V der von den ndimensionalen Wahrscheinlichkeitsverteilungen π über dem Körper C der komplexen Zahlen. Da πP wieder eine Wahrscheinlichkeitsverteilung ist gilt kπP k k ≤ 1
und somit sicherlich
kvT P k k ≤ kvk
für alle v ∈ V .
Die Übergangsmatrix P von A impliziert also die Voraussetzung von Lemma 2.1.
Deshalb existiert der Limes
t
1 X t
P = lim
P
t→∞ t + 1
k=0
und ergibt
t
π (0) X t
P = π (0) P .
t→∞ t + 1
π = lim π (t) = lim
t→∞
k=0
16
2. STOCHASTISCHE AUTOMATEN UND QUELLEN
KOROLLAR 2.1. Es gibt eine Wahrscheinlichkeitsverteilung p auf dem Alphabet Σ derart, dass
t
X
1 X
P r{Xk = α} =
π i = pα
t→∞ t + 1
k=0
lim
(α ∈ Σ).
X(zi )=α
E X . 2.2 (Unabhängige Quellen). Unabhängige Quellen erfüllen π (t) = π (1)
für t ≥ 1. Deshalb finden wir
t
lim
t→∞
(t)
πi
1 X (k)
= lim
πi = lim πi = πi .
t→∞
t→∞ t
k=1
(π1 , . . . , πn ) ist somit auch die asymptotische Grenzverteilung der Quelle.
Wir beweisen nun die für Satz 2.1 benötigte Hilfsaussage.
L EMMA 2.1. Sei V ein endlich-dimensionaler Vektorraum über dem Körper
C der komplexen Zahlen und F : V → V ein linearer Operator mit der folgenden Stabilitätseigenschaft:
(St) für jedes v ∈ V existiert ein c = c(v) ∈ R derart, dass
kF k vk ≤ c
(k = 0, 1, . . .)
Dann existiert auch der asymptotische Grenzwert der gemittelten Vektoren
t−1
1X k
v = lim
F v
t→∞ t
k=0
für alle v ∈ V .
Beweis. Wir folgern zuerst aus der Voraussetzung, dass für jeden Eigenwert λ von
F gelten muss |λ| ≤ 1. Denn andernfalls hätte man im Fall eines Eigenvektors
w 6= 0:
kF k wk = |λ|k kwk → ∞ (k → ∞).
Wir argumentieren nun über die Anzahl der verschiedenen Eigenwerte des linearen
Operators F und nehmen zunächst an, dass F genau einen Eigenwert λ besitzt.
Nach dem Satz von Caley-Hamilton erfüllt F seine charakteristische Gleichung.
Das bedeutet hier: es gibt ein minimales m ∈ N mit der Eigenschaft
(F − λI)m v = 0
für alle v ∈ V .
1. KONVERGENZ
17
Nach dem Binomialsatz finden wir deshalb
F k v = [(F − λI) + λI]k v
k X
k
=
(F − λI)j λk−j v
j
j=0
=
m−1
X
j=0
k
(F − λI)j λk−j v.
j
Im Fall |λ| < 1 und k → ∞ ergibt sich daraus |λ|k−j → 0 und somit kF k vk → 0.
Daraus folgt sofort
t−1
k
1X k
F vk → 0
t
k=0
t−1
bzw.
1X k
F v = 0.
t→∞ t
lim
k=0
Im Fall |λ| = 1 betrachten wir zuerst die Situation, wo m = 1 und folglich F = λI.
Bei λ = 1 ist die Behauptung trivialerweise klar. Bei λ 6= 1 schliessen wir
t
t−1
1 − λt 1X k
1X k
2
≤
k
F vk = k
λ vk = → 0.
t
t
t(1 − λ)
t|1 − λ|
k=0
k=0
Wir behaupten nun, dass die Situation m ≥ 2 nicht zu untersuchen ist. Sonst gäbe
es ein nämlich ein u ∈ V mit
(F − λI)m u = 0
und (F − λI)m−1 u 6= 0.
Wir setzen v = (F − λI)m−2 u und w = (F − λI)m−1 u = (F − λI)v. Dann
gilt (F − λI)w = 0. Der Binomialsatz liefert somit die Darstellung
F k v = λk v + kλk−1 (F − λI)v = λk v + kλk−1 w.
Aus der Dreiecksungleich folgt nun der Widerspruch zur Annahme (St):
kF k vk ≥ kkwk − kvk → ∞
(k → ∞).
Besitzt schliesslich F mindestens 2 verschiedene Eigenwerte, so lässt sich V bekanntlich als direkte Summe zweier nichttrivialer F -invarianter Unterräume ausdrücken:
V = V1 ⊕ V2
und
F : V i → Vi
(i = 1, 2).
Jedes v ∈ V ist eine Summe v = v1 + v2 mit vi ∈ Vi . Ausserdem verfügt die
Einschränkung von F auf Vi über weniger verschiedene Eigenwerte als F . Wegen
F v = F v1 + F v2 ergibt sich die Behauptung somit aus der Induktionsannahme.
18
2. STOCHASTISCHE AUTOMATEN UND QUELLEN
2. Erwartungswerte und asymptotische Entropie
Sei M = {m1 , . . . , mn } eine endliche Menge und p = (p1 , . . . , pn ) eine
Wahrscheinlichkeitsverteilung auf M . Dann ist
E(X) =
n
X
X(mi )pi =
i=1
X
xP r{X = x}
x∈R
der sog. Erwartungswert der Funktion X : M → R. Ist Y : M → R eine
weitere Funktion, so gilt (bzgl. derselben Verteilung p) für alle a ∈ R:
E(X + aY ) = E(X) + aE(Y ).
E operiert also linear auf der Menge aller reellwertigen Messfunktionen auf
M (bei fester Verteilung p).
Sei nun Q = (A, Σ, X) eine stochastische Quelle mit Zustandsmenge Z
und α ∈ Σ beliebig. Wir definieren die Indikatorfunktion X α : Z → R als
(
1 wenn X(z) = α
X α (z) =
0 sonst.
Damit ist auch Qα = (A, Σ, X α ) eine stochastische Quelle und
t−1
Xα
t
α
X0α + . . . Xt−1
1X α
=
X
=
t
t k=0 k
gibt die relative Häufigkeit des Ereignisses {Xk = α} in den ersten t Beobachtungen wieder. Asymptotisch wäre die relative Häufigkeit des Auftretens
von α:
t−1
1X α
α
lim = X t = lim
Xk .
t→∞
t→∞ t
k=0
Für die Erwartungswerte finden wir
E(Xtα ) = 1 · P r{Xt = α} = P r{Xt = α}
und wegen der Linearität des Erwartungswerts
t−1
E(X α t ) =
1X
P r{Xk = α}.
t k=0
Korollar 2.1 guarantiert deshalb die Konvergenz der erwarteten relativen
Häufigkeiten gegen die Grenzverteilung des stochastischen Prozesses (Xt ):
(7)
lim E(X α t ) = pα
t→∞
(für alle α ∈ Σ)
3. UNABHÄNGIGE QUELLEN
19
Wir können deshalb den Parameter
H(X) = −
X
pα log2 pα
α∈Σ
als die asymptotische Entropie der stochastischen Quelle Q = (A, Σ, X)
verstehen.
3. Unabhängige Quellen
Ist die stochastische Quelle Q = (A, Σ, X) (mit Σ ⊆ R) unabhängig, so
gilt
µ = E(X1 ) = . . . = E(Xt ) = . . .
und folglich
t−1
1X
E(X t ) → µ , wobei X t =
Xk .
t k=0
Die asymptotische Konvergenz der Erwartungswerte der Mittelwerte ist also trivialerweise gegeben. Man kann unter der Unabhängigkeitsannahme
jedoch die Konvergenzaussagen verschärfen.
3.1. Das Gesetz der grossen Zahlen. Wir wollen (für unabhängige
Quellen) zeigen, dass die Mittelwerte X t selber mit hoher Wahrscheinlichkeit den Erwartungswert µ approximieren in dem Sinn, dass für jedes η > 0
gilt:
lim P r{|X t − µ| > η} = 0
(8)
t→∞
Die Aussage (8) ist als (schwaches) Gesetz der grossen Zahlen bekannt.
Zum Beweis benötigen wir ein paar Hilfsaussagen.
L EMMA 2.2 (Tschebyscheffs Ungleichung). Sei Z eine nichtnegative Zufallsvariable. Dann gilt für jedes feste a ≥ 0:
E(Z) ≥ aP r{Z ≥ a}
(9)
Beweis. Aus der Nichtnegativität von Z folgt
X
X
E(Z) =
zP r{Z = z} ≥
aP r{Z = z}
z
z≥a
= a
X
P r{Z = z} = aP r{Z ≥ a}.
z≥a
20
2. STOCHASTISCHE AUTOMATEN UND QUELLEN
L EMMA 2.3. Sind die Zufallsvariablen X und Y reellwertig und unabhängig,
dann gilt
E(XY ) = E(X)E(Y ).
Beweis. Nach der Unabhängigkeitsannahme haben wir
P r{X = x, Y = y} = P r{X = x}P r{Y = y} = p(x)p(y)
und deshalb
E(XY ) =
XX
x
=
X
xyp(x)p(y) =
X
xp(x)
xp(x)E(Y ) = E(Y )
yp(y)
y
x
y
X
X
xp(x) = E(Y )E(X).
x
x
B EWEIS VON (8):
OBdA darf man µ = 0 annehmen. (Sonst ersetzt man einfach X durch X 0 =
X − µ). Wir setzen nun σ02 = E(X0 )2 und σ 2 = E(X12 ) = E(X22 ) . . . . Aus der
Unabhängigkeit folgt
E(X0 + X1 )2 = E(X02 + 2X0 X1 + X12 )
= E(X02 ) + 2E(X0 )E(X1 ) + E(X12 ) = σ02 + σ 2
und allgemein
E(X0 + . . . + Xt−1 )2 = σ02 + (t − 1)σ 2
d.h.
2
E(X t ) → 0.
2
X t ist eine nichtnegative Zufallsvariable. Also liefert die Tschebyscheffsche Ungleichung:
2
P r{|X t | > η} = P r{X t > η 2 } ≤
1
2
E(X t ) → 0 (t → ∞).
η2
E X . 2.3 (Entropie). Sei oBdA p(α) = P r{X = α} > 0 für alle α ∈ Σ und
Z(α) = − log2 p(α). Dann gilt
t−1
1X
Zt = −
log2 p(Xk ) und
t k=0
E(Z) = −
X
p(α) log2 p(α) = H(X).
α∈Σ
Das Gesetz der grossen Zahlen impliziert nun für jedes ε > 0:
t−1
1X
P r{ −
log2 p(Xk ) − H(X) > ε} → 0
t k=0
(t → ∞).
4. KOLMOGOROV-KOMPLEXITÄT
21
3.2. Typische Sequenzen. Wir nennen eine von der unabhängigen Quelle Q = (A, Σ, X) produzierte Sequenz x = x0 x1 . . . xt−1 ε-typisch, falls
aus ihr ε-approximativ die Entropie von X ermittelt1 werden kann:
t−1
1X
−
log2 p(xk ) − H(X) ≤ ε
t k=0
Mit dieser Terminologie folgt aus Ex. 2.3 sofort, dass ε-typische Sequenzen
in der Tat für die Quelle Q typisch“ sind:
”
P ROPOSITION 2.1. Für jedes ε > 0 existiert ein tε derart, dass für jedes
feste t ≥ tε gilt:
• Mit Wahrscheinlichkeit ≥ 1 − ist eine von der unabhängigen
Quelle Q produzierte Sequenz mit t Symbolen ε-typisch.
(t)
(t)
Sei Tε = Tε (Q) die Menge aller ε-typischen Sequenzen der Länge t ≥
tε . Dann findet man:
(1 − ε)2t(H(X)−ε) ≤ |Tε(t) | ≤ 2t(H(X)+ε)
(10)
Denn wir haben einerseits per Definition
X
X
|Tε(t) |2−t(H(X)+ε) =
2−t(H(X)+ε) ≤
p(x) ≤ 1
(t)
x∈Tε
(t)
x∈Tε
und andererseits gemäss Proposition 2.1
X
X
|Tε(t) |2−t(H(X)−ε) =
2−t(H(X)−ε) ≥
p(x) ≥ 1 − ε.
(t)
x∈Tε
(t)
x∈Tε
4. Kolmogorov-Komplexität
Während die Shannonsche Entropie die Komplexität einer Symbolfolge
nach der Wahrscheinlichkeit misst, mit der eine Quelle die einzelnen Symbole produziert, versucht die sog. Kolmogorov-Komplexität die Komplexität
einer Folge danach einzuschätzen, ob einfach zu erzeugen ist.
G RUNDS ÄTZLICHE I DEE : Wenn es ein einfaches Computerprogramm gibt,
das die Folge produziert, dann ist die Folge einfach. Die Kolmogrov-Komplexität misst die notwendige Grösse eines erzeugenden Programms.
Als Beispiel betrachten wir die Folge der Dezimalentwicklung der Zahl π,
die oft als typische Zufallsfolge“ angesehen wird (und somit nach Shannon
”
1
im wahrsten Sinne das Wortes!
22
2. STOCHASTISCHE AUTOMATEN UND QUELLEN
eine hohe Komplexität hätte). Wir können z.B. von S. Plouffes Darstellung
ausgehen:
∞
X
1
4
2
1
1
π=
−
−
−
i
16
8i
+
1
8i
+
4
8i
+
5
8i + 6
i=0
Bricht man die Summation beim Index n ab, so ist die Abweichung von π:
∞
X
4
2
1
1
1
1
−
−
−
≤
Rn =
.
i
16 8i + 1 8i + 4 8i + 5 8i + 6
16n
i=n+1
Das heisst: Man erhält die ersten n Dezimalstellen von π exakt. Die Addition jedes weitern Terms liefert (mindestens) eine weitere exakte Stelle der
Deziamlentwicklung.
Die sukzessive Berechnung der Teilsummen kann durch ein einfaches Computerprogramm angeben. Also kann man die Dezialmalentwicklung (oder
ebenso auch die Binärentwicklung etc.) von π nicht als zufällig“ betrach”
ten.
B EMERKUNG- Es ist KEINE (beweisbar funktionierende) Methode bekannt, mit
der man echte Folgen von Zufallszahlen erzeugen kann. In der Praxis erzeugt man
(z.B. mit Hilfe eines entsprechend programmierten Computers) Pseudozufalls”
zahlen“, die einem (mathematischen oder physikalischen) Bildungsgesetz folgen –
das man aber als Anwender nicht kennt. Zufall“ ist somit immer eine subjektive
”
Angelegenheit.
Obwohl die Kolmogorov-Komplexität eine grundsätzlich anderes Mass zu
sein scheint als die Shannon-Komplexität, hat sich doch viel mit dieser zu
tun. Die Vorlesung geht aber nicht weiter darauf ein.
Herunterladen