KAPITEL 2 Stochastische Automaten und Quellen Sei A ein System“ allgemeiner Art (z.B. ein physikalisches System oder ” eine Nachrichtenquelle), das wir zu diskreten Zeitpunkten t = 0, 1, . . . beobachten. Wir nehmen an: (SA1 ) A befindet sich zu jedem Zeitpunkt t in einem Zustand“ zi einer ” endlichen Menge von n möglichen Zuständen Z = {z1 , . . . , zn }. (SA2 ) Ist A zur Zeit t im Zustand zi , dann ist A zum nächsten Zeitpunkt t + 1 im Zustand zj mit Wahrscheinlichkeit p(zj |zi ). (SA1 ) und (SA2 ) besagen, dass A ein stochastischer Automat ist mit der Übergangsmatrix P = [pij ] ∈ Rn×n wobei pij = p(zj |zi ). P ist eine stochastische Matrix. Das heisst, dass jeder Zeilenvektor eine Wahrscheinlichkeitsverteilung darstellt: n n X X pij = p(zj |zi ) = 1 und pij ≥ 0. j=1 j=1 (t) Sei πi die Wahrscheinlichkeit dafür, dass A zum Zeitpunkt t im Zustand zi ist, dann erhalten wir n n X X (t) (t+1) (t) = p(zj |zi )πi = pij πi . πj i=1 i=1 (t) (t) Für die entsprechenden Vektoren π (t) = (π1 , . . . , πn ) gilt somit: π (t+1) = π (t) P = π (t−1) P 2 = . . . d.h. π (t) = π (0) P t . Die stochastische Zustandsbeschreibung von A ist also festgelegt durch die Anfangsverteilung π (0) und die Übergangsmatrix P . A heisst stationär, wenn gilt π (1) = π (0) d.h. π (t) = π (0) für alle t ≥ 0. Wir nehmen nun zusätzlich noch an, dass eine Funktion X : Z → Σ existiert, die das Symbol α = X(z) eines endlichen Alphabets Σ anzeigt, wenn sich A im Zustand z befindet. In diesem Fall nennen wir Q = (A, Σ, X) 13 14 2. STOCHASTISCHE AUTOMATEN UND QUELLEN eine stochastische Quelle. Bezeichnen wir mit Xt das Symbol α ∈ Σ, das zum Zeitpunkt t produziert wird, dann finden wir X (t) P r{Xt = α} = πi . X(zi )=α Die Folge (Xt )t≥0 ist ein stochastischer Prozess. E X . 2.1 (Markov-Quellen und Irrfahrten). Im Fall Σ = {α1 , . . . , αn } und X(zi ) = αi ist Q = (A, Σ, X) eine sog. Markov-Quelle und (Xt ) ist ein Markov-Prozess. Man kann sich vorstellen, dass ein Markov-Prozess eine Irrfahrt“ auf der Zustandsmenge Z anzeigt, die von den Übergangswahr” scheinlichkeiten pij regiert wird. B EMERKUNG. Das Modell stochastischer Quellen kann im Prinzip deutlich verallgemeinert werden. Allerdings kann man dann nicht mehr unbedingt die asymptotischen Konvergenzeigenschaften des nachfolgenden Abschnitts garantieren. Unser spezielles Modell einer stochastischen Quelle Q = (A, Σ, X) ist in der englischen Literatur auch als Hidden Markov Model (HMM) bekannt (weil die Zustände z von A nur indirekt via X observierbar sind). Es wird bei sehr vielen Anwendungsmodellierungen der Datenanalyse eingesetzt (Finanzmathematik, Spracherkennung usw.) Unabhängigkeit. Die Quelle Q = (A, Σ, X) heisst unabhängig, wenn die jeweilige Übergangswahrscheinlichkeit pij = p(zj |zi ) nicht von zi sondern nur von zj abhängt, wenn also alle Zeilen von P identisch sind: (pi1 , pi2 , . . . , pin ) = (π1 , π2 , . . . , πn ) (i = 1, . . . , n). Unabhängige Quellen sind also im wesentlichen stationär: (π1 , . . . , πn ) = π (1) = π (2) = . . . = π (t) = . . . Die Überganswahrscheinlichkeiten von A (bzw. der Zustandsmenge von A) können verallgemeinert werden, wenn wir die bedingte Wahrscheinlichkeit P r{Xt+1 = β|Xt = α} als einen numerischen Parameter mit der Eigenschaft P r{Xt = α}P r{Xt+1 = β|Xt = α} = P r{Xt = α, Xt+1 = β} einführen. Dabei ist die gemeinsame Wahrscheinlichkeit X X (t) P r{Xt = α, Xt+1 = β} = πi {zi :X(zi )=α} p(zj |zi ) . {zj :X(zj )=β} Im Fall P r{Xt = α} = 6 0 ergibt sich daraus P r{Xt+1 = β|Xt = α} = P r{Xt = α, Xt+1 = β} . P r{Xt = α} 1. KONVERGENZ 15 Wir nennen nun den Prozess (Xt ) unahängig, wenn für alle α, β ∈ Σ und alle t ≥ 0 gilt: X (t+1) P r{Xt+1 = β|Xt = α} = P r{Xt+1 = β} = πj . {zj :X(zj )=β} Daraus ergibt sich – im Fall der Unabhängigkeit – die Produktformel P r{Xt = α, Xt+1 = β} = P r{Xt = α}P r{Xt+1 = β} . B EMERKUNG. Man kann zeigen (s. Übungen): • Ist die Quelle Q = (A, Σ, X) unabhängig, dann ist auch der zugeordnete stochastische Prozess (Xt ) unabhängig. • Es ist möglich, dass (Xt ) unabhängig ist obwohl es Q = (A, Σ, X) nicht ist. 1. Konvergenz Wir nehmen Q = (A, Σ, X) als stochastische Quelle an und bezeichnen die (stochastischen) Zustände des Automaten A zur Zeit t mit π (t) . Dann ergeben sich die gemittelten (stochastischen) Zustände als t (t) πi 1 X (k) = π t + 1 k=0 i (i = 1, . . . , n, t = 0, 1, . . .). Die Durchschnittswahrscheinlichkeiten dafür, dass sich A in einem bestimmten Zustand befindet, konvergieren gegen eine Grenzverteilung: S ATZ 2.1. Es gibt eine Wahrscheinlichkeitsverteilung π = (π 1 , . . . , π n ) derart, dass (t) lim π i = π i (i = 1, . . . , n) t→∞ Beweis. Wir betrachten den (zu Cn isomorphen) Vektorraum V der von den ndimensionalen Wahrscheinlichkeitsverteilungen π über dem Körper C der komplexen Zahlen. Da πP wieder eine Wahrscheinlichkeitsverteilung ist gilt kπP k k ≤ 1 und somit sicherlich kvT P k k ≤ kvk für alle v ∈ V . Die Übergangsmatrix P von A impliziert also die Voraussetzung von Lemma 2.1. Deshalb existiert der Limes t 1 X t P = lim P t→∞ t + 1 k=0 und ergibt t π (0) X t P = π (0) P . t→∞ t + 1 π = lim π (t) = lim t→∞ k=0 16 2. STOCHASTISCHE AUTOMATEN UND QUELLEN KOROLLAR 2.1. Es gibt eine Wahrscheinlichkeitsverteilung p auf dem Alphabet Σ derart, dass t X 1 X P r{Xk = α} = π i = pα t→∞ t + 1 k=0 lim (α ∈ Σ). X(zi )=α E X . 2.2 (Unabhängige Quellen). Unabhängige Quellen erfüllen π (t) = π (1) für t ≥ 1. Deshalb finden wir t lim t→∞ (t) πi 1 X (k) = lim πi = lim πi = πi . t→∞ t→∞ t k=1 (π1 , . . . , πn ) ist somit auch die asymptotische Grenzverteilung der Quelle. Wir beweisen nun die für Satz 2.1 benötigte Hilfsaussage. L EMMA 2.1. Sei V ein endlich-dimensionaler Vektorraum über dem Körper C der komplexen Zahlen und F : V → V ein linearer Operator mit der folgenden Stabilitätseigenschaft: (St) für jedes v ∈ V existiert ein c = c(v) ∈ R derart, dass kF k vk ≤ c (k = 0, 1, . . .) Dann existiert auch der asymptotische Grenzwert der gemittelten Vektoren t−1 1X k v = lim F v t→∞ t k=0 für alle v ∈ V . Beweis. Wir folgern zuerst aus der Voraussetzung, dass für jeden Eigenwert λ von F gelten muss |λ| ≤ 1. Denn andernfalls hätte man im Fall eines Eigenvektors w 6= 0: kF k wk = |λ|k kwk → ∞ (k → ∞). Wir argumentieren nun über die Anzahl der verschiedenen Eigenwerte des linearen Operators F und nehmen zunächst an, dass F genau einen Eigenwert λ besitzt. Nach dem Satz von Caley-Hamilton erfüllt F seine charakteristische Gleichung. Das bedeutet hier: es gibt ein minimales m ∈ N mit der Eigenschaft (F − λI)m v = 0 für alle v ∈ V . 1. KONVERGENZ 17 Nach dem Binomialsatz finden wir deshalb F k v = [(F − λI) + λI]k v k X k = (F − λI)j λk−j v j j=0 = m−1 X j=0 k (F − λI)j λk−j v. j Im Fall |λ| < 1 und k → ∞ ergibt sich daraus |λ|k−j → 0 und somit kF k vk → 0. Daraus folgt sofort t−1 k 1X k F vk → 0 t k=0 t−1 bzw. 1X k F v = 0. t→∞ t lim k=0 Im Fall |λ| = 1 betrachten wir zuerst die Situation, wo m = 1 und folglich F = λI. Bei λ = 1 ist die Behauptung trivialerweise klar. Bei λ 6= 1 schliessen wir t t−1 1 − λt 1X k 1X k 2 ≤ k F vk = k λ vk = → 0. t t t(1 − λ) t|1 − λ| k=0 k=0 Wir behaupten nun, dass die Situation m ≥ 2 nicht zu untersuchen ist. Sonst gäbe es ein nämlich ein u ∈ V mit (F − λI)m u = 0 und (F − λI)m−1 u 6= 0. Wir setzen v = (F − λI)m−2 u und w = (F − λI)m−1 u = (F − λI)v. Dann gilt (F − λI)w = 0. Der Binomialsatz liefert somit die Darstellung F k v = λk v + kλk−1 (F − λI)v = λk v + kλk−1 w. Aus der Dreiecksungleich folgt nun der Widerspruch zur Annahme (St): kF k vk ≥ kkwk − kvk → ∞ (k → ∞). Besitzt schliesslich F mindestens 2 verschiedene Eigenwerte, so lässt sich V bekanntlich als direkte Summe zweier nichttrivialer F -invarianter Unterräume ausdrücken: V = V1 ⊕ V2 und F : V i → Vi (i = 1, 2). Jedes v ∈ V ist eine Summe v = v1 + v2 mit vi ∈ Vi . Ausserdem verfügt die Einschränkung von F auf Vi über weniger verschiedene Eigenwerte als F . Wegen F v = F v1 + F v2 ergibt sich die Behauptung somit aus der Induktionsannahme. 18 2. STOCHASTISCHE AUTOMATEN UND QUELLEN 2. Erwartungswerte und asymptotische Entropie Sei M = {m1 , . . . , mn } eine endliche Menge und p = (p1 , . . . , pn ) eine Wahrscheinlichkeitsverteilung auf M . Dann ist E(X) = n X X(mi )pi = i=1 X xP r{X = x} x∈R der sog. Erwartungswert der Funktion X : M → R. Ist Y : M → R eine weitere Funktion, so gilt (bzgl. derselben Verteilung p) für alle a ∈ R: E(X + aY ) = E(X) + aE(Y ). E operiert also linear auf der Menge aller reellwertigen Messfunktionen auf M (bei fester Verteilung p). Sei nun Q = (A, Σ, X) eine stochastische Quelle mit Zustandsmenge Z und α ∈ Σ beliebig. Wir definieren die Indikatorfunktion X α : Z → R als ( 1 wenn X(z) = α X α (z) = 0 sonst. Damit ist auch Qα = (A, Σ, X α ) eine stochastische Quelle und t−1 Xα t α X0α + . . . Xt−1 1X α = X = t t k=0 k gibt die relative Häufigkeit des Ereignisses {Xk = α} in den ersten t Beobachtungen wieder. Asymptotisch wäre die relative Häufigkeit des Auftretens von α: t−1 1X α α lim = X t = lim Xk . t→∞ t→∞ t k=0 Für die Erwartungswerte finden wir E(Xtα ) = 1 · P r{Xt = α} = P r{Xt = α} und wegen der Linearität des Erwartungswerts t−1 E(X α t ) = 1X P r{Xk = α}. t k=0 Korollar 2.1 guarantiert deshalb die Konvergenz der erwarteten relativen Häufigkeiten gegen die Grenzverteilung des stochastischen Prozesses (Xt ): (7) lim E(X α t ) = pα t→∞ (für alle α ∈ Σ) 3. UNABHÄNGIGE QUELLEN 19 Wir können deshalb den Parameter H(X) = − X pα log2 pα α∈Σ als die asymptotische Entropie der stochastischen Quelle Q = (A, Σ, X) verstehen. 3. Unabhängige Quellen Ist die stochastische Quelle Q = (A, Σ, X) (mit Σ ⊆ R) unabhängig, so gilt µ = E(X1 ) = . . . = E(Xt ) = . . . und folglich t−1 1X E(X t ) → µ , wobei X t = Xk . t k=0 Die asymptotische Konvergenz der Erwartungswerte der Mittelwerte ist also trivialerweise gegeben. Man kann unter der Unabhängigkeitsannahme jedoch die Konvergenzaussagen verschärfen. 3.1. Das Gesetz der grossen Zahlen. Wir wollen (für unabhängige Quellen) zeigen, dass die Mittelwerte X t selber mit hoher Wahrscheinlichkeit den Erwartungswert µ approximieren in dem Sinn, dass für jedes η > 0 gilt: lim P r{|X t − µ| > η} = 0 (8) t→∞ Die Aussage (8) ist als (schwaches) Gesetz der grossen Zahlen bekannt. Zum Beweis benötigen wir ein paar Hilfsaussagen. L EMMA 2.2 (Tschebyscheffs Ungleichung). Sei Z eine nichtnegative Zufallsvariable. Dann gilt für jedes feste a ≥ 0: E(Z) ≥ aP r{Z ≥ a} (9) Beweis. Aus der Nichtnegativität von Z folgt X X E(Z) = zP r{Z = z} ≥ aP r{Z = z} z z≥a = a X P r{Z = z} = aP r{Z ≥ a}. z≥a 20 2. STOCHASTISCHE AUTOMATEN UND QUELLEN L EMMA 2.3. Sind die Zufallsvariablen X und Y reellwertig und unabhängig, dann gilt E(XY ) = E(X)E(Y ). Beweis. Nach der Unabhängigkeitsannahme haben wir P r{X = x, Y = y} = P r{X = x}P r{Y = y} = p(x)p(y) und deshalb E(XY ) = XX x = X xyp(x)p(y) = X xp(x) xp(x)E(Y ) = E(Y ) yp(y) y x y X X xp(x) = E(Y )E(X). x x B EWEIS VON (8): OBdA darf man µ = 0 annehmen. (Sonst ersetzt man einfach X durch X 0 = X − µ). Wir setzen nun σ02 = E(X0 )2 und σ 2 = E(X12 ) = E(X22 ) . . . . Aus der Unabhängigkeit folgt E(X0 + X1 )2 = E(X02 + 2X0 X1 + X12 ) = E(X02 ) + 2E(X0 )E(X1 ) + E(X12 ) = σ02 + σ 2 und allgemein E(X0 + . . . + Xt−1 )2 = σ02 + (t − 1)σ 2 d.h. 2 E(X t ) → 0. 2 X t ist eine nichtnegative Zufallsvariable. Also liefert die Tschebyscheffsche Ungleichung: 2 P r{|X t | > η} = P r{X t > η 2 } ≤ 1 2 E(X t ) → 0 (t → ∞). η2 E X . 2.3 (Entropie). Sei oBdA p(α) = P r{X = α} > 0 für alle α ∈ Σ und Z(α) = − log2 p(α). Dann gilt t−1 1X Zt = − log2 p(Xk ) und t k=0 E(Z) = − X p(α) log2 p(α) = H(X). α∈Σ Das Gesetz der grossen Zahlen impliziert nun für jedes ε > 0: t−1 1X P r{ − log2 p(Xk ) − H(X) > ε} → 0 t k=0 (t → ∞). 4. KOLMOGOROV-KOMPLEXITÄT 21 3.2. Typische Sequenzen. Wir nennen eine von der unabhängigen Quelle Q = (A, Σ, X) produzierte Sequenz x = x0 x1 . . . xt−1 ε-typisch, falls aus ihr ε-approximativ die Entropie von X ermittelt1 werden kann: t−1 1X − log2 p(xk ) − H(X) ≤ ε t k=0 Mit dieser Terminologie folgt aus Ex. 2.3 sofort, dass ε-typische Sequenzen in der Tat für die Quelle Q typisch“ sind: ” P ROPOSITION 2.1. Für jedes ε > 0 existiert ein tε derart, dass für jedes feste t ≥ tε gilt: • Mit Wahrscheinlichkeit ≥ 1 − ist eine von der unabhängigen Quelle Q produzierte Sequenz mit t Symbolen ε-typisch. (t) (t) Sei Tε = Tε (Q) die Menge aller ε-typischen Sequenzen der Länge t ≥ tε . Dann findet man: (1 − ε)2t(H(X)−ε) ≤ |Tε(t) | ≤ 2t(H(X)+ε) (10) Denn wir haben einerseits per Definition X X |Tε(t) |2−t(H(X)+ε) = 2−t(H(X)+ε) ≤ p(x) ≤ 1 (t) x∈Tε (t) x∈Tε und andererseits gemäss Proposition 2.1 X X |Tε(t) |2−t(H(X)−ε) = 2−t(H(X)−ε) ≥ p(x) ≥ 1 − ε. (t) x∈Tε (t) x∈Tε 4. Kolmogorov-Komplexität Während die Shannonsche Entropie die Komplexität einer Symbolfolge nach der Wahrscheinlichkeit misst, mit der eine Quelle die einzelnen Symbole produziert, versucht die sog. Kolmogorov-Komplexität die Komplexität einer Folge danach einzuschätzen, ob einfach zu erzeugen ist. G RUNDS ÄTZLICHE I DEE : Wenn es ein einfaches Computerprogramm gibt, das die Folge produziert, dann ist die Folge einfach. Die Kolmogrov-Komplexität misst die notwendige Grösse eines erzeugenden Programms. Als Beispiel betrachten wir die Folge der Dezimalentwicklung der Zahl π, die oft als typische Zufallsfolge“ angesehen wird (und somit nach Shannon ” 1 im wahrsten Sinne das Wortes! 22 2. STOCHASTISCHE AUTOMATEN UND QUELLEN eine hohe Komplexität hätte). Wir können z.B. von S. Plouffes Darstellung ausgehen: ∞ X 1 4 2 1 1 π= − − − i 16 8i + 1 8i + 4 8i + 5 8i + 6 i=0 Bricht man die Summation beim Index n ab, so ist die Abweichung von π: ∞ X 4 2 1 1 1 1 − − − ≤ Rn = . i 16 8i + 1 8i + 4 8i + 5 8i + 6 16n i=n+1 Das heisst: Man erhält die ersten n Dezimalstellen von π exakt. Die Addition jedes weitern Terms liefert (mindestens) eine weitere exakte Stelle der Deziamlentwicklung. Die sukzessive Berechnung der Teilsummen kann durch ein einfaches Computerprogramm angeben. Also kann man die Dezialmalentwicklung (oder ebenso auch die Binärentwicklung etc.) von π nicht als zufällig“ betrach” ten. B EMERKUNG- Es ist KEINE (beweisbar funktionierende) Methode bekannt, mit der man echte Folgen von Zufallszahlen erzeugen kann. In der Praxis erzeugt man (z.B. mit Hilfe eines entsprechend programmierten Computers) Pseudozufalls” zahlen“, die einem (mathematischen oder physikalischen) Bildungsgesetz folgen – das man aber als Anwender nicht kennt. Zufall“ ist somit immer eine subjektive ” Angelegenheit. Obwohl die Kolmogorov-Komplexität eine grundsätzlich anderes Mass zu sein scheint als die Shannon-Komplexität, hat sich doch viel mit dieser zu tun. Die Vorlesung geht aber nicht weiter darauf ein.