Das Prinzip der maximalen Entropie

c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
1
Das Prinzip der maximalen Entropie
Einleitung
Das Prinzip der maximalen Entropie wurde durch Edwin Jaynes 1957 in
seinem Artikel Information Theory and Statistical Mechanics [1] eingeführt.
In diesem Artikel führt Jaynes das Vorgehen in der statistischen Mechanik
auf ein Prinzip zurück, das er “maximum-entropy principle” nannte. Jaynes
schreibt:
If one considers statistical mechanics as a form of statistical inference rather than a physical theory, it is found that the usual computational rules, starting with the determination of the partition
function, are an immediate consequence of the maximum-entropy
principle. In the resulting “subjective statistical mechanics,” the
usual rules are thus justified independently of any physical argument, and in particular independently of experimental verification; whether or not the results agree with experiment, they still
represent the best estimates that could have been made on the
basis of the information available.
Obwohl also das Prinzip der maximalen Entropie im Zusammenhang mit
der statistischen Mechanik und dem dort geprägten Begriff Entropie eingeführt wurde, soll hier dieser für das Prinzip unwesentliche und wahrscheinlich schädliche Zusammenhang außer Acht gelassen werden.
Prinzip vom unzureichenden Grund
Das einfachste und wahrscheinlich älteste Auswahlprinzip der Wahrscheinlichkeitstheorie ist unter dem Namen Prinzip vom unzureichenden Grund
bekannt. Carnap und Stegmüller formulieren es in [2] folgendermaßen:
Wenn keine Gründe dafür bekannt sind, um eines von verschiedenen möglichen Ereignissen zu begünstigen, dann sind die Ereignisse als gleich wahrscheinlich anzusehen.
Das Prinzip vom unzureichenden Grund basiert auf der Annahme, dass alle möglichen Ereignisse bekannt sind. Daraus folgt insbesondere, dass die
Zahl n der möglichen Ausgänge des betrachteten Prozesses bekannt ist, denn
sonst könnte die postulierte Gleichwahrscheinlichkeitsverteilung nicht angegeben werden. Mit Hilfe des Begriffs der zufälligen Variablen X formuliert,
müssen für die Anwendung des Prinzips vom unzureichenden Grund zwei
Bedingungen erfüllt sein:
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
2
• Der Variabilitätsbereich X der zufälligen Variablen X ist bekannt.
• Es sind keinerlei weitere, begründete Einzelheiten über die Wahrscheinlichkeitsverteilung PX verfügbar.
Falls weitere Einzelheiten über die Wahrscheinlichkeitsverteilung PX bekannt
sind, zum Beispiel die Werte von gewissen Momenten der zufälligen Variablen X, dann kann das Prinzip vom unzureichenden Grund nicht mehr sinnvoll angewendet werden. Aus den gegebene Werten der Momente resultieren
“Gründe”, die das Eintreten einiger Ereignisse begünstigen und das von anderen benachteiligen. Damit ist die Grundvoraussetzung des Prinzips vom
unzureichenden Grund nicht erfüllt und es darf nicht verwendet werden.
Im Folgenden soll erklärt werden, wie das Prinzip vom unzureichenden Grund
arbeitet. In den Ingenieurwissenschaften müssen viele Designfragen geklärt
werden und zwar so, dass die Sicherheit gewährleistet bleibt. Eine der Möglichkeiten, die entsprechenden Fragen zu beantworten, besteht in einer sogenannten Worst-Case Analyse der Situation. Dazu werden die für den betrachteten
Zweck ungünstigsten Anfangswerte und Randwerte bestimmt und anschließend bei der Bewertung der Sicherheit verwendet.
Im vorliegenden Fall geht es um die zufällige Variable X und die zugehörige,
aber unbekannte Wahrscheinlichkeitsverteilung PX , die eine gewisse Unsicherheit erzeugt. Diese Unsicherheit stellt das hier betrachtete Merkmal dar.
Eine Unterschätzung der Unsicherheit kann zu falschen Ergebnissen führen
und dadurch zum Beispiel die Sicherheit gefährden. Eine Möglichkeit, auf der
sicheren Seite zu bleiben, ist die Wahl der Worst-Case Verteilung, d.h. diejenige Wahrscheinlichkeitsverteilung zu wählen, die die größte Unsicherheit
erzeugt. Damit stellt sich das Problem, die Worst-Case Wahrscheinlichkeitsverteilung für eine gegebene zufällige Variable X zu bestimmen.
Ist nichts über X bzw. PX bekannt, dann kann man auch keine Worst-Case
Wahrscheinlichkleitsverteilung bestimmen. Dies ist erst möglich, wenn der
Variabilitätsbereich X der zufälligen Variablen X gegeben ist. Hieraus wird
unter anderem die große Bedeutung des Variabilitätsbereichs einer zufälligen
Variablen deutlich.
Wird bei bekanntem Variabilitätsbereich X die unbekannte Wahrscheinlichleitsverteilung PX gemäß des Prinzips vom unzureichenden Grund durch
Gleichwahrscheinlichkeitsverteilung PU |X ersetzt mit
PU |X ({x}) =
1
|X |
für x ∈ X
(1)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
3
dann wird der für die durch X gegebene Situation schlimmste Fall bezüglich
der Unsicherheit angenommen. Das Prinzip vom unzureichenden Grund entspricht also einer Worst-Case Analyse der Lage bezüglich der Unsicherheit.
Prinzip der maximalen Entropie
Sei X eine zufällige Variable und bekannten m-Tupel µ(m), das folgendermaßen definiert ist:
µ(m) = (µ0 , µ1 , . . . , µm )
(2)
wobei
½
µj =
X
für j = 0
E [X j ] für j = 1, . . . , m
(3)
Die Menge aller Wahrscheinlichkeitsverteilungen über X , deren erste m Momenten die Werte µ1 , . . . , µm haben, sei mit P|µ(m) bezeichnet. Dann lautet
das Prinzip der maximalen Entropie folgendermaßen:
Man wähle aus P|µ(m) diejenige Wahrscheinlichkeitsverteilung
PM EP |µ(m) als Ersatz der unbekannten Verteilung PX , für die die
Entropie H maximal ist, d.h. für die gilt:
³
´
H PM EP |µ(m) = max H (P )
(4)
P ∈P|µ(m)
wobei M EP für “maximum entropy principle” steht.
Die MEP-Verteilungen stellt dabei den jeweiligen Worst-Case bezüglich der
Unsicherheit dar.
Der Fall m = 0
Für m = 0 ist nur der Variabilitätsbereich X von X bekannt und die Werte
aller Momente sind unbekannt. In diesem Fall erhält man als Spezialfall des
Prinzips der maximalen Entropie das schon oben beschriebene Prinzip vom
unzureichenden Grund. Für das nte Moment einer Gleichverteilung mit n =
1, 2, . . . über dem Variabilitätsbereich X gilt:
E [X n ] =
1 X n
x
|X | x∈X
Falls also für gegebenes m-Tupel µ(m) folgende Beziehungen gelten:
1 X i
µi =
x für i = 1, . . . , m
|X | x∈X
(5)
(6)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
4
dann liegt ebenfalls der Spezielfall “Prinzip vom unzureichenden Grund” vor.
Der Fall m = 1
Im Fall m = 1 sind der Variabilitätsbereich X und µ1 der Wert des ersten
Moments E[X] bekannt. Die MEP-Verteilung PM EP |µ(1) ist dann die Wahrscheinlichkeitsverteilung über X mit dem ersten Moment µ1 , die die größte
Entropie (= Unsicherheit) erzeugt. Die betrachtete Situation kann folgendermaßen beschrieben werden:
• Die zufällige Variable X hat den Variabilitätsbereich:
X = {x1 , . . . , xN }
(7)
• Für das 1. Moment von X gilt:
E[X] = µ1
(8)
Um die MEP-Verteilung PM EP |µ(1) zu bestimmen, muss das folgende Optimierungsproblem mit Nebenbedingungen gelöst werden.
Zu bestimmen ist (p∗1 , . . . , p∗N ) mit
PM EP |µ(1) ({xi }) = p∗i
so dass
H(p∗1 , . . . , p∗N )
=
N
X
für i = 1, . . . , N
p∗i log
i=1
1 !
= max
p∗i
(9)
(10)
und zwar unter Beachtung der folgenden Nebenbedingungen:
N
X
i=1
N
X
p∗i = 1
(11)
xi p∗i = µ1
(12)
i=1
Lösung
Die Aufgabe (10) ist äquivalent zum folgenden Problem:
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
³
max
(p1 ,...,pN )
´
!
H(p1 , . . . , pN ) − α · 1 − β · µ1 = max
5
(13)
Mit (11) und (12) erhält man für den zu maximierenden Ausdruck auf der
linken Seite von (13):
N
N
P
P
H(p1 , . . . , pN ) − α pi − β
xi p i
i=1
i=1
³
´
N
P
pi log p1i − α − βxi
=
i=1
´
³
N
P
1 −α−βxi
=
pi log pi e
(14)
i=1
Wegen
½
log x
< x − 1 für x ∈ IR+ \ {1}
= x − 1 für x = 1
(15)
erhält man aus (14):
N
X
H(p1 , . . . , pN ) − α − βµ1 ≤
i=1
N
X
=
µ
pi
¶
1 −α−βxi
e
−1
pi
e−α−βxi − 1
(16)
(17)
i=1
wobei das Gleichheitszeichen in (20) genau dann gilt, wenn
pi = e−α−βxi
Wegen (11) folgt
e−α =
1
N
P
(18)
(19)
e−βxi
i=1
also gilt für die gesuchte M EP -Verteilung PM EP |µ(1) :
p∗i =
e−βxi
N
P
e−βxk
für i = 1, . . . , N
(20)
k=1
wobei β die eindeutige Lösung der folgenden Gleichung ist:
N
P
xj e−βxj
j=1
N
P
k=1
= µ1
e−βxk
(21)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
6
Die M EP -Verteilung (20) ist eine einfache Exponentialveteilungen mit endlichem Variabilitätsbereich. Die Wahrscheinlichkeitsmassefunktion hat ein
Randmaximum und ist entweder (schwach) monoton fallend oder (schwach)
monoton wachsend, je nachdem der einzige Verteilungsparameter β einen
negativen oder positiven Wert annimmt.
Es ist klar, dass die durch (20) gegebenen MEP-Verteilungen PM EP |µ(1) die
MEP-Verteilungen PM EP |µ(0) als Spezialfälle enthalten und zwar falls gilt:
N
1 X
µ1 =
xi
N i=1
(22)
Für die MEP-Verteilungen PM EP |µ(1) liegen die Werte der Varianz und aller
höheren Momente fest und zwar so, dass die Unsicherheit gemessen durch
die Entropie maximal ist.
Bemerkung: Für β < 0 ist die MEP-Verteilungen PM EP |µ(1) identisch mit
der sogenannten Gibbs Verteilung oder kanonischen Verteilung für ein thermodynamisches Gesamtsystem, das aus N gleichartigen Systemen besteht,
die sich bei gegebener Geamtenergie (wert des 1. Moments) in verschiedenen
Energiezuständen befinden.
Beispiel
In einer Volkswirtschaft liege folgende Situation bezüglich des Einkommens
vor:
• Das Gesamteinkommen der natürlichen Personen beträgt 35·1010 Geldeinheiten.
• Die Bevölkerung besteht aus 107 natürlichen Personen.
• Es gibt genau sieben Einkommensklassen:
1. mittleres Klasseneinkommen von 5 · 103 Geldeinheiten
2. mittleres Klasseneinkommen von 10 · 103 Geldeinheiten
3. mittleres Klasseneinkommen von 20 · 103 Geldeinheiten
4. mittleres Klasseneinkommen von 50 · 103 Geldeinheiten
5. mittleres Klasseneinkommen von 100 · 103 Geldeinheiten
6. mittleres Klasseneinkommen von 500 · 103 Geldeinheiten
7. mittleres Klasseneinkommen von 1000 · 103 Geldeinheiten
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
7
Auf der Grundlage dieser Informationen soll die Einkommensverteilung auf
die sieben Einkommensklassen in der Bevölkerung bestimmt werden. Die
Einkommensverteilung ist durch das Tupel (p1 , . . . , p7 ) gegeben, wobei pi der
Anteil der Bevölkerung ist, der zur Einkommensklasse i gehört. Darüber hinaus ist man an den absoluten Besetzungszahlen der Einkommensklassen und
dem Anteil der Einkommensklassen am Gesamteinkommen der Bevölkerung
interessiert.
Um das Prinzip der maximalen Entropie anwenden zu können, muss zunächst
eine zufällige Variable X definiert werden, deren Wahrscheinlichkeitsverteilung PX , mit deren Hilfe die zu bestimmenden Anteilen pi , i = 1, . . . , 7,
berechnet werden können.
In diesem Fall ist die Angabe einer geeigneten zufälligen Variablen sehr einfach. Das mittlere Klasseneinkommen X einer zufällig aus der Bevölkerung
bestimmten Person ist eine zufällige Variable, deren Wahrscheinlichkeitsverteilung identisch mit der Einkommensverteilung (p1 , . . . , p7 ) ist. Aus den vorhandenen Informationen folgt für X:
©
ª
X = 5 · 103 , 10 · 103 , 20 · 103 , 50 · 103 , 100 · 103 , 500 · 103 , 1000 · 103
35 · 1010
E[X] =
= 35 · 103
107
Die unbekannten Wahrscheinlichkeitsverteilung PX soll mit Hilfe des Prinzips
der maximalen Entropie bestimmt werden. Mit Hilfe des Mathematik-Softwareprogramms Mathematica bestimmt man β aus der Gleichung (21) und
berechnet anschließend die Anteile aus (20) und daraus schließlich auch die
gewünschten Besetzungszahlen und den Anteil am Gesamteinkommen. Das
Resultat dieser Berechnungen ist in Tabelle 1 wiedergegeben.
Tabelle 1: Die mit Hilfe des Prinzips der maximalen Entropie bestimmten
Anteile p∗i , Klassenbesetzungen Ni∗ und Einkommensanteile e∗i .
Klasse:
1
2
3
4
5
6
7
p∗i
0.23726
0.229786
0.215537
0.177877
0.129156
0.0099785
0.0004064
Ni∗
2372600
2297860
2155370
1778770
1291560
99785
4064
e∗i
0.0339
0.0657
0.1232
0.2541
0.3690
0.1425
0.0116
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
8
Deutlich ist die große Diskrepanz zwischen Bevölkerungsanteil p∗i und Einkommensanteil e∗i vor allem in den Randklassen zu bemerken.
Der Fall µ(2)
Als nächstes soll das Problem gelöst werden, die MEP-Verteilung PM EP |µ(2)
für eine zufällige Variable X zu bestimmen und zwar bei vorgegebenem Variabilitätsbereich X und gegebenen Werten µ1 und µ2 des 1. und 2. Moments
oder äquivalent der Werte µ1 und σ 2 = µ2 − µ21 , wobei σ 2 der Wert der
Varianz V [X] von X ist.
X = {x1 , . . . , xN }
E[X] = µ1
E[X 2 ] = µ2
(23)
(24)
(25)
Man erhält das folgende Optimierungsproblem mit Nebenbedingungen:
Zu bestimmen ist (p∗1 , . . . , p∗N ) mit
PM EP |µ(2) ({xi }) = p∗i
so dass
H(p∗1 , . . . , p∗N )
=
N
X
für i = 1, . . . , N
!
p∗i log p∗i = max
(26)
(27)
i=1
unter Beachtung der folgenden Nebenbedingungen:
N
X
p∗i = 1
(28)
xi p∗i = µ1
(29)
x2i p∗i = µ2
(30)
i=1
N
X
i=1
N
X
i=1
Lösung
Das Problem (27) wird in analoger Weise wie das Probleme (10) gelöst. Die
gesuchten Wahrscheinlichkeiten sind durch folgende Beziehung gegeben:
2
p∗i
e−βxi −γxi
= N
P −βx −γx2
e k k
k=1
für i = 1, . . . , N
(31)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
9
wobei β und γ Lösungen des folgenden Gleichungssystems sind:
N
P
2
xj e−βxj −γxj
j=1
N
P
= µ1
(32)
= µ2
(33)
−βxk −γx2k
e
k=1
N
P
j=1
2
x2j e−βxj −γxj
N
P
e
−βxk −γx2k
k=1
Warnung vor dem Prinzip der maximalen Entropie
Das Prinzip der maximalen Entropie sollte nur mit großer Vorsicht angewandt werden, da es zu falschen Ergebnissen und damit auch zu falschen
Entscheidungen führen kann. Die Tatsache soll an einem kleinen Beispiel
veranschaulicht werden.
Sei X eine zufällige Variable mit Variabilitätsbereich X und einer unimodalen
Verteilung. Für den Wert µ1 des 1. Moments E[X] sollen die Beziehungen
gelten:
P
x
µ1 < |X1 |
x∈X
P
µ1 ≈ |X1 |
x
(34)
x∈X
σ 2 << µ1 − min X
Aus (34) folgt, dass ein Großteil der Wahrscheinlichkeitsmasse in der Nähe
von µ1 , d.h. in der Mitte des Variabilitätsbereichs konzentriert, während an
den Rändern nur sehr wenig Wahrscheinlichkeitsmasse vorhanden ist.
Angenommen, die zufällige Variable X gibt die zufälligen Energieniveaus in
einem Ensemble wieder, für das die Gesamtenergie und daher auch der Wert
µ1 von E[X] bekannt ist. Weiter soll realistischer Weise davon ausgegangen
werden, dass der Wert σ 2 der Varianz V [X] unbekannt ist.
Wird in dieser Situation der kanonischen Verteilung von Gibbs folgend, die
Wahrscheinlichkeitsverteilung der Energiezustände X mit Hilfe des Prinzips
der maximalen Entropie bestimmt, ergibt sich die vollkommen irreführende
kanonische Verteilung von Gibbs, für die sich die Wahrscheinlichkeitsverteilung bei den kleinsten Energieniveaus konzentriert, obwohl diese Niveaus nur
mit sehr, sehr kleiner Wahrscheinlichkeit realisiert werden.
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
10
Eine Alternative, die nicht diese Fehlermöglichkeit aufweist, ist das im Rahmen der Bernoulli Stochastik entwickelte Prinzip der minimalen Information.
Literatur
[1] E.T. Jaynes: Information Theory and Statistical Mechanics. Physical
Review 106, 620-630, 1957. (http://bayes.wustl.edu/etj/articles/
theory.1.pdf)
[2] R. Carnap und W. Stegmüller: Induktive Logik und Wahrscheinlichkeit.
Springer, Wien, 1958
Version: 1.00