Das Prinzip der maximalen Entropie

Werbung
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
1
Das Prinzip der maximalen Entropie
Einleitung
Das Prinzip der maximalen Entropie wurde durch Edwin Jaynes 1957 in
seinem Artikel Information Theory and Statistical Mechanics [1] eingeführt.
In diesem Artikel führt Jaynes das Vorgehen in der statistischen Mechanik
auf ein Prinzip zurück, das er “maximum-entropy principle” nannte. Jaynes
schreibt:
If one considers statistical mechanics as a form of statistical inference rather than a physical theory, it is found that the usual computational rules, starting with the determination of the partition
function, are an immediate consequence of the maximum-entropy
principle. In the resulting “subjective statistical mechanics,” the
usual rules are thus justified independently of any physical argument, and in particular independently of experimental verification; whether or not the results agree with experiment, they still
represent the best estimates that could have been made on the
basis of the information available.
Obwohl also das Prinzip der maximalen Entropie im Zusammenhang mit
der statistischen Mechanik und dem dort geprägten Begriff Entropie eingeführt wurde, soll hier dieser für das Prinzip unwesentliche und wahrscheinlich schädliche Zusammenhang außer Acht gelassen werden.
Prinzip vom unzureichenden Grund
Das einfachste und wahrscheinlich älteste Auswahlprinzip der Wahrscheinlichkeitstheorie ist unter dem Namen Prinzip vom unzureichenden Grund
bekannt. Carnap und Stegmüller formulieren es in [2] folgendermaßen:
Wenn keine Gründe dafür bekannt sind, um eines von verschiedenen möglichen Ereignissen zu begünstigen, dann sind die Ereignisse als gleich wahrscheinlich anzusehen.
Das Prinzip vom unzureichenden Grund basiert auf der Annahme, dass alle möglichen Ereignisse bekannt sind. Daraus folgt insbesondere, dass die
Zahl n der möglichen Ausgänge des betrachteten Prozesses bekannt ist, denn
sonst könnte die postulierte Gleichwahrscheinlichkeitsverteilung nicht angegeben werden. Mit Hilfe des Begriffs der zufälligen Variablen X formuliert,
müssen für die Anwendung des Prinzips vom unzureichenden Grund zwei
Bedingungen erfüllt sein:
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
2
• Der Variabilitätsbereich X der zufälligen Variablen X ist bekannt.
• Es sind keinerlei weitere, begründete Einzelheiten über die Wahrscheinlichkeitsverteilung PX verfügbar.
Falls weitere Einzelheiten über die Wahrscheinlichkeitsverteilung PX bekannt
sind, zum Beispiel die Werte von gewissen Momenten der zufälligen Variablen X, dann kann das Prinzip vom unzureichenden Grund nicht mehr sinnvoll angewendet werden. Aus den gegebene Werten der Momente resultieren
“Gründe”, die das Eintreten einiger Ereignisse begünstigen und das von anderen benachteiligen. Damit ist die Grundvoraussetzung des Prinzips vom
unzureichenden Grund nicht erfüllt und es darf nicht verwendet werden.
Im Folgenden soll erklärt werden, wie das Prinzip vom unzureichenden Grund
arbeitet. In den Ingenieurwissenschaften müssen viele Designfragen geklärt
werden und zwar so, dass die Sicherheit gewährleistet bleibt. Eine der Möglichkeiten, die entsprechenden Fragen zu beantworten, besteht in einer sogenannten Worst-Case Analyse der Situation. Dazu werden die für den betrachteten
Zweck ungünstigsten Anfangswerte und Randwerte bestimmt und anschließend bei der Bewertung der Sicherheit verwendet.
Im vorliegenden Fall geht es um die zufällige Variable X und die zugehörige,
aber unbekannte Wahrscheinlichkeitsverteilung PX , die eine gewisse Unsicherheit erzeugt. Diese Unsicherheit stellt das hier betrachtete Merkmal dar.
Eine Unterschätzung der Unsicherheit kann zu falschen Ergebnissen führen
und dadurch zum Beispiel die Sicherheit gefährden. Eine Möglichkeit, auf der
sicheren Seite zu bleiben, ist die Wahl der Worst-Case Verteilung, d.h. diejenige Wahrscheinlichkeitsverteilung zu wählen, die die größte Unsicherheit
erzeugt. Damit stellt sich das Problem, die Worst-Case Wahrscheinlichkeitsverteilung für eine gegebene zufällige Variable X zu bestimmen.
Ist nichts über X bzw. PX bekannt, dann kann man auch keine Worst-Case
Wahrscheinlichkleitsverteilung bestimmen. Dies ist erst möglich, wenn der
Variabilitätsbereich X der zufälligen Variablen X gegeben ist. Hieraus wird
unter anderem die große Bedeutung des Variabilitätsbereichs einer zufälligen
Variablen deutlich.
Wird bei bekanntem Variabilitätsbereich X die unbekannte Wahrscheinlichleitsverteilung PX gemäß des Prinzips vom unzureichenden Grund durch
Gleichwahrscheinlichkeitsverteilung PU |X ersetzt mit
PU |X ({x}) =
1
|X |
für x ∈ X
(1)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
3
dann wird der für die durch X gegebene Situation schlimmste Fall bezüglich
der Unsicherheit angenommen. Das Prinzip vom unzureichenden Grund entspricht also einer Worst-Case Analyse der Lage bezüglich der Unsicherheit.
Prinzip der maximalen Entropie
Sei X eine zufällige Variable und bekannten m-Tupel µ(m), das folgendermaßen definiert ist:
µ(m) = (µ0 , µ1 , . . . , µm )
(2)
wobei
½
µj =
X
für j = 0
E [X j ] für j = 1, . . . , m
(3)
Die Menge aller Wahrscheinlichkeitsverteilungen über X , deren erste m Momenten die Werte µ1 , . . . , µm haben, sei mit P|µ(m) bezeichnet. Dann lautet
das Prinzip der maximalen Entropie folgendermaßen:
Man wähle aus P|µ(m) diejenige Wahrscheinlichkeitsverteilung
PM EP |µ(m) als Ersatz der unbekannten Verteilung PX , für die die
Entropie H maximal ist, d.h. für die gilt:
³
´
H PM EP |µ(m) = max H (P )
(4)
P ∈P|µ(m)
wobei M EP für “maximum entropy principle” steht.
Die MEP-Verteilungen stellt dabei den jeweiligen Worst-Case bezüglich der
Unsicherheit dar.
Der Fall m = 0
Für m = 0 ist nur der Variabilitätsbereich X von X bekannt und die Werte
aller Momente sind unbekannt. In diesem Fall erhält man als Spezialfall des
Prinzips der maximalen Entropie das schon oben beschriebene Prinzip vom
unzureichenden Grund. Für das nte Moment einer Gleichverteilung mit n =
1, 2, . . . über dem Variabilitätsbereich X gilt:
E [X n ] =
1 X n
x
|X | x∈X
Falls also für gegebenes m-Tupel µ(m) folgende Beziehungen gelten:
1 X i
µi =
x für i = 1, . . . , m
|X | x∈X
(5)
(6)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
4
dann liegt ebenfalls der Spezielfall “Prinzip vom unzureichenden Grund” vor.
Der Fall m = 1
Im Fall m = 1 sind der Variabilitätsbereich X und µ1 der Wert des ersten
Moments E[X] bekannt. Die MEP-Verteilung PM EP |µ(1) ist dann die Wahrscheinlichkeitsverteilung über X mit dem ersten Moment µ1 , die die größte
Entropie (= Unsicherheit) erzeugt. Die betrachtete Situation kann folgendermaßen beschrieben werden:
• Die zufällige Variable X hat den Variabilitätsbereich:
X = {x1 , . . . , xN }
(7)
• Für das 1. Moment von X gilt:
E[X] = µ1
(8)
Um die MEP-Verteilung PM EP |µ(1) zu bestimmen, muss das folgende Optimierungsproblem mit Nebenbedingungen gelöst werden.
Zu bestimmen ist (p∗1 , . . . , p∗N ) mit
PM EP |µ(1) ({xi }) = p∗i
so dass
H(p∗1 , . . . , p∗N )
=
N
X
für i = 1, . . . , N
p∗i log
i=1
1 !
= max
p∗i
(9)
(10)
und zwar unter Beachtung der folgenden Nebenbedingungen:
N
X
i=1
N
X
p∗i = 1
(11)
xi p∗i = µ1
(12)
i=1
Lösung
Die Aufgabe (10) ist äquivalent zum folgenden Problem:
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
³
max
(p1 ,...,pN )
´
!
H(p1 , . . . , pN ) − α · 1 − β · µ1 = max
5
(13)
Mit (11) und (12) erhält man für den zu maximierenden Ausdruck auf der
linken Seite von (13):
N
N
P
P
H(p1 , . . . , pN ) − α pi − β
xi p i
i=1
i=1
³
´
N
P
pi log p1i − α − βxi
=
i=1
´
³
N
P
1 −α−βxi
=
pi log pi e
(14)
i=1
Wegen
½
log x
< x − 1 für x ∈ IR+ \ {1}
= x − 1 für x = 1
(15)
erhält man aus (14):
N
X
H(p1 , . . . , pN ) − α − βµ1 ≤
i=1
N
X
=
µ
pi
¶
1 −α−βxi
e
−1
pi
e−α−βxi − 1
(16)
(17)
i=1
wobei das Gleichheitszeichen in (20) genau dann gilt, wenn
pi = e−α−βxi
Wegen (11) folgt
e−α =
1
N
P
(18)
(19)
e−βxi
i=1
also gilt für die gesuchte M EP -Verteilung PM EP |µ(1) :
p∗i =
e−βxi
N
P
e−βxk
für i = 1, . . . , N
(20)
k=1
wobei β die eindeutige Lösung der folgenden Gleichung ist:
N
P
xj e−βxj
j=1
N
P
k=1
= µ1
e−βxk
(21)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
6
Die M EP -Verteilung (20) ist eine einfache Exponentialveteilungen mit endlichem Variabilitätsbereich. Die Wahrscheinlichkeitsmassefunktion hat ein
Randmaximum und ist entweder (schwach) monoton fallend oder (schwach)
monoton wachsend, je nachdem der einzige Verteilungsparameter β einen
negativen oder positiven Wert annimmt.
Es ist klar, dass die durch (20) gegebenen MEP-Verteilungen PM EP |µ(1) die
MEP-Verteilungen PM EP |µ(0) als Spezialfälle enthalten und zwar falls gilt:
N
1 X
µ1 =
xi
N i=1
(22)
Für die MEP-Verteilungen PM EP |µ(1) liegen die Werte der Varianz und aller
höheren Momente fest und zwar so, dass die Unsicherheit gemessen durch
die Entropie maximal ist.
Bemerkung: Für β < 0 ist die MEP-Verteilungen PM EP |µ(1) identisch mit
der sogenannten Gibbs Verteilung oder kanonischen Verteilung für ein thermodynamisches Gesamtsystem, das aus N gleichartigen Systemen besteht,
die sich bei gegebener Geamtenergie (wert des 1. Moments) in verschiedenen
Energiezuständen befinden.
Beispiel
In einer Volkswirtschaft liege folgende Situation bezüglich des Einkommens
vor:
• Das Gesamteinkommen der natürlichen Personen beträgt 35·1010 Geldeinheiten.
• Die Bevölkerung besteht aus 107 natürlichen Personen.
• Es gibt genau sieben Einkommensklassen:
1. mittleres Klasseneinkommen von 5 · 103 Geldeinheiten
2. mittleres Klasseneinkommen von 10 · 103 Geldeinheiten
3. mittleres Klasseneinkommen von 20 · 103 Geldeinheiten
4. mittleres Klasseneinkommen von 50 · 103 Geldeinheiten
5. mittleres Klasseneinkommen von 100 · 103 Geldeinheiten
6. mittleres Klasseneinkommen von 500 · 103 Geldeinheiten
7. mittleres Klasseneinkommen von 1000 · 103 Geldeinheiten
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
7
Auf der Grundlage dieser Informationen soll die Einkommensverteilung auf
die sieben Einkommensklassen in der Bevölkerung bestimmt werden. Die
Einkommensverteilung ist durch das Tupel (p1 , . . . , p7 ) gegeben, wobei pi der
Anteil der Bevölkerung ist, der zur Einkommensklasse i gehört. Darüber hinaus ist man an den absoluten Besetzungszahlen der Einkommensklassen und
dem Anteil der Einkommensklassen am Gesamteinkommen der Bevölkerung
interessiert.
Um das Prinzip der maximalen Entropie anwenden zu können, muss zunächst
eine zufällige Variable X definiert werden, deren Wahrscheinlichkeitsverteilung PX , mit deren Hilfe die zu bestimmenden Anteilen pi , i = 1, . . . , 7,
berechnet werden können.
In diesem Fall ist die Angabe einer geeigneten zufälligen Variablen sehr einfach. Das mittlere Klasseneinkommen X einer zufällig aus der Bevölkerung
bestimmten Person ist eine zufällige Variable, deren Wahrscheinlichkeitsverteilung identisch mit der Einkommensverteilung (p1 , . . . , p7 ) ist. Aus den vorhandenen Informationen folgt für X:
©
ª
X = 5 · 103 , 10 · 103 , 20 · 103 , 50 · 103 , 100 · 103 , 500 · 103 , 1000 · 103
35 · 1010
E[X] =
= 35 · 103
107
Die unbekannten Wahrscheinlichkeitsverteilung PX soll mit Hilfe des Prinzips
der maximalen Entropie bestimmt werden. Mit Hilfe des Mathematik-Softwareprogramms Mathematica bestimmt man β aus der Gleichung (21) und
berechnet anschließend die Anteile aus (20) und daraus schließlich auch die
gewünschten Besetzungszahlen und den Anteil am Gesamteinkommen. Das
Resultat dieser Berechnungen ist in Tabelle 1 wiedergegeben.
Tabelle 1: Die mit Hilfe des Prinzips der maximalen Entropie bestimmten
Anteile p∗i , Klassenbesetzungen Ni∗ und Einkommensanteile e∗i .
Klasse:
1
2
3
4
5
6
7
p∗i
0.23726
0.229786
0.215537
0.177877
0.129156
0.0099785
0.0004064
Ni∗
2372600
2297860
2155370
1778770
1291560
99785
4064
e∗i
0.0339
0.0657
0.1232
0.2541
0.3690
0.1425
0.0116
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
8
Deutlich ist die große Diskrepanz zwischen Bevölkerungsanteil p∗i und Einkommensanteil e∗i vor allem in den Randklassen zu bemerken.
Der Fall µ(2)
Als nächstes soll das Problem gelöst werden, die MEP-Verteilung PM EP |µ(2)
für eine zufällige Variable X zu bestimmen und zwar bei vorgegebenem Variabilitätsbereich X und gegebenen Werten µ1 und µ2 des 1. und 2. Moments
oder äquivalent der Werte µ1 und σ 2 = µ2 − µ21 , wobei σ 2 der Wert der
Varianz V [X] von X ist.
X = {x1 , . . . , xN }
E[X] = µ1
E[X 2 ] = µ2
(23)
(24)
(25)
Man erhält das folgende Optimierungsproblem mit Nebenbedingungen:
Zu bestimmen ist (p∗1 , . . . , p∗N ) mit
PM EP |µ(2) ({xi }) = p∗i
so dass
H(p∗1 , . . . , p∗N )
=
N
X
für i = 1, . . . , N
!
p∗i log p∗i = max
(26)
(27)
i=1
unter Beachtung der folgenden Nebenbedingungen:
N
X
p∗i = 1
(28)
xi p∗i = µ1
(29)
x2i p∗i = µ2
(30)
i=1
N
X
i=1
N
X
i=1
Lösung
Das Problem (27) wird in analoger Weise wie das Probleme (10) gelöst. Die
gesuchten Wahrscheinlichkeiten sind durch folgende Beziehung gegeben:
2
p∗i
e−βxi −γxi
= N
P −βx −γx2
e k k
k=1
für i = 1, . . . , N
(31)
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
9
wobei β und γ Lösungen des folgenden Gleichungssystems sind:
N
P
2
xj e−βxj −γxj
j=1
N
P
= µ1
(32)
= µ2
(33)
−βxk −γx2k
e
k=1
N
P
j=1
2
x2j e−βxj −γxj
N
P
e
−βxk −γx2k
k=1
Warnung vor dem Prinzip der maximalen Entropie
Das Prinzip der maximalen Entropie sollte nur mit großer Vorsicht angewandt werden, da es zu falschen Ergebnissen und damit auch zu falschen
Entscheidungen führen kann. Die Tatsache soll an einem kleinen Beispiel
veranschaulicht werden.
Sei X eine zufällige Variable mit Variabilitätsbereich X und einer unimodalen
Verteilung. Für den Wert µ1 des 1. Moments E[X] sollen die Beziehungen
gelten:
P
x
µ1 < |X1 |
x∈X
P
µ1 ≈ |X1 |
x
(34)
x∈X
σ 2 << µ1 − min X
Aus (34) folgt, dass ein Großteil der Wahrscheinlichkeitsmasse in der Nähe
von µ1 , d.h. in der Mitte des Variabilitätsbereichs konzentriert, während an
den Rändern nur sehr wenig Wahrscheinlichkeitsmasse vorhanden ist.
Angenommen, die zufällige Variable X gibt die zufälligen Energieniveaus in
einem Ensemble wieder, für das die Gesamtenergie und daher auch der Wert
µ1 von E[X] bekannt ist. Weiter soll realistischer Weise davon ausgegangen
werden, dass der Wert σ 2 der Varianz V [X] unbekannt ist.
Wird in dieser Situation der kanonischen Verteilung von Gibbs folgend, die
Wahrscheinlichkeitsverteilung der Energiezustände X mit Hilfe des Prinzips
der maximalen Entropie bestimmt, ergibt sich die vollkommen irreführende
kanonische Verteilung von Gibbs, für die sich die Wahrscheinlichkeitsverteilung bei den kleinsten Energieniveaus konzentriert, obwohl diese Niveaus nur
mit sehr, sehr kleiner Wahrscheinlichkeit realisiert werden.
c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com )
Copyright °
10
Eine Alternative, die nicht diese Fehlermöglichkeit aufweist, ist das im Rahmen der Bernoulli Stochastik entwickelte Prinzip der minimalen Information.
Literatur
[1] E.T. Jaynes: Information Theory and Statistical Mechanics. Physical
Review 106, 620-630, 1957. (http://bayes.wustl.edu/etj/articles/
theory.1.pdf)
[2] R. Carnap und W. Stegmüller: Induktive Logik und Wahrscheinlichkeit.
Springer, Wien, 1958
Version: 1.00
Herunterladen