c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 1 Das Prinzip der maximalen Entropie Einleitung Das Prinzip der maximalen Entropie wurde durch Edwin Jaynes 1957 in seinem Artikel Information Theory and Statistical Mechanics [1] eingeführt. In diesem Artikel führt Jaynes das Vorgehen in der statistischen Mechanik auf ein Prinzip zurück, das er “maximum-entropy principle” nannte. Jaynes schreibt: If one considers statistical mechanics as a form of statistical inference rather than a physical theory, it is found that the usual computational rules, starting with the determination of the partition function, are an immediate consequence of the maximum-entropy principle. In the resulting “subjective statistical mechanics,” the usual rules are thus justified independently of any physical argument, and in particular independently of experimental verification; whether or not the results agree with experiment, they still represent the best estimates that could have been made on the basis of the information available. Obwohl also das Prinzip der maximalen Entropie im Zusammenhang mit der statistischen Mechanik und dem dort geprägten Begriff Entropie eingeführt wurde, soll hier dieser für das Prinzip unwesentliche und wahrscheinlich schädliche Zusammenhang außer Acht gelassen werden. Prinzip vom unzureichenden Grund Das einfachste und wahrscheinlich älteste Auswahlprinzip der Wahrscheinlichkeitstheorie ist unter dem Namen Prinzip vom unzureichenden Grund bekannt. Carnap und Stegmüller formulieren es in [2] folgendermaßen: Wenn keine Gründe dafür bekannt sind, um eines von verschiedenen möglichen Ereignissen zu begünstigen, dann sind die Ereignisse als gleich wahrscheinlich anzusehen. Das Prinzip vom unzureichenden Grund basiert auf der Annahme, dass alle möglichen Ereignisse bekannt sind. Daraus folgt insbesondere, dass die Zahl n der möglichen Ausgänge des betrachteten Prozesses bekannt ist, denn sonst könnte die postulierte Gleichwahrscheinlichkeitsverteilung nicht angegeben werden. Mit Hilfe des Begriffs der zufälligen Variablen X formuliert, müssen für die Anwendung des Prinzips vom unzureichenden Grund zwei Bedingungen erfüllt sein: c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 2 • Der Variabilitätsbereich X der zufälligen Variablen X ist bekannt. • Es sind keinerlei weitere, begründete Einzelheiten über die Wahrscheinlichkeitsverteilung PX verfügbar. Falls weitere Einzelheiten über die Wahrscheinlichkeitsverteilung PX bekannt sind, zum Beispiel die Werte von gewissen Momenten der zufälligen Variablen X, dann kann das Prinzip vom unzureichenden Grund nicht mehr sinnvoll angewendet werden. Aus den gegebene Werten der Momente resultieren “Gründe”, die das Eintreten einiger Ereignisse begünstigen und das von anderen benachteiligen. Damit ist die Grundvoraussetzung des Prinzips vom unzureichenden Grund nicht erfüllt und es darf nicht verwendet werden. Im Folgenden soll erklärt werden, wie das Prinzip vom unzureichenden Grund arbeitet. In den Ingenieurwissenschaften müssen viele Designfragen geklärt werden und zwar so, dass die Sicherheit gewährleistet bleibt. Eine der Möglichkeiten, die entsprechenden Fragen zu beantworten, besteht in einer sogenannten Worst-Case Analyse der Situation. Dazu werden die für den betrachteten Zweck ungünstigsten Anfangswerte und Randwerte bestimmt und anschließend bei der Bewertung der Sicherheit verwendet. Im vorliegenden Fall geht es um die zufällige Variable X und die zugehörige, aber unbekannte Wahrscheinlichkeitsverteilung PX , die eine gewisse Unsicherheit erzeugt. Diese Unsicherheit stellt das hier betrachtete Merkmal dar. Eine Unterschätzung der Unsicherheit kann zu falschen Ergebnissen führen und dadurch zum Beispiel die Sicherheit gefährden. Eine Möglichkeit, auf der sicheren Seite zu bleiben, ist die Wahl der Worst-Case Verteilung, d.h. diejenige Wahrscheinlichkeitsverteilung zu wählen, die die größte Unsicherheit erzeugt. Damit stellt sich das Problem, die Worst-Case Wahrscheinlichkeitsverteilung für eine gegebene zufällige Variable X zu bestimmen. Ist nichts über X bzw. PX bekannt, dann kann man auch keine Worst-Case Wahrscheinlichkleitsverteilung bestimmen. Dies ist erst möglich, wenn der Variabilitätsbereich X der zufälligen Variablen X gegeben ist. Hieraus wird unter anderem die große Bedeutung des Variabilitätsbereichs einer zufälligen Variablen deutlich. Wird bei bekanntem Variabilitätsbereich X die unbekannte Wahrscheinlichleitsverteilung PX gemäß des Prinzips vom unzureichenden Grund durch Gleichwahrscheinlichkeitsverteilung PU |X ersetzt mit PU |X ({x}) = 1 |X | für x ∈ X (1) c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 3 dann wird der für die durch X gegebene Situation schlimmste Fall bezüglich der Unsicherheit angenommen. Das Prinzip vom unzureichenden Grund entspricht also einer Worst-Case Analyse der Lage bezüglich der Unsicherheit. Prinzip der maximalen Entropie Sei X eine zufällige Variable und bekannten m-Tupel µ(m), das folgendermaßen definiert ist: µ(m) = (µ0 , µ1 , . . . , µm ) (2) wobei ½ µj = X für j = 0 E [X j ] für j = 1, . . . , m (3) Die Menge aller Wahrscheinlichkeitsverteilungen über X , deren erste m Momenten die Werte µ1 , . . . , µm haben, sei mit P|µ(m) bezeichnet. Dann lautet das Prinzip der maximalen Entropie folgendermaßen: Man wähle aus P|µ(m) diejenige Wahrscheinlichkeitsverteilung PM EP |µ(m) als Ersatz der unbekannten Verteilung PX , für die die Entropie H maximal ist, d.h. für die gilt: ³ ´ H PM EP |µ(m) = max H (P ) (4) P ∈P|µ(m) wobei M EP für “maximum entropy principle” steht. Die MEP-Verteilungen stellt dabei den jeweiligen Worst-Case bezüglich der Unsicherheit dar. Der Fall m = 0 Für m = 0 ist nur der Variabilitätsbereich X von X bekannt und die Werte aller Momente sind unbekannt. In diesem Fall erhält man als Spezialfall des Prinzips der maximalen Entropie das schon oben beschriebene Prinzip vom unzureichenden Grund. Für das nte Moment einer Gleichverteilung mit n = 1, 2, . . . über dem Variabilitätsbereich X gilt: E [X n ] = 1 X n x |X | x∈X Falls also für gegebenes m-Tupel µ(m) folgende Beziehungen gelten: 1 X i µi = x für i = 1, . . . , m |X | x∈X (5) (6) c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 4 dann liegt ebenfalls der Spezielfall “Prinzip vom unzureichenden Grund” vor. Der Fall m = 1 Im Fall m = 1 sind der Variabilitätsbereich X und µ1 der Wert des ersten Moments E[X] bekannt. Die MEP-Verteilung PM EP |µ(1) ist dann die Wahrscheinlichkeitsverteilung über X mit dem ersten Moment µ1 , die die größte Entropie (= Unsicherheit) erzeugt. Die betrachtete Situation kann folgendermaßen beschrieben werden: • Die zufällige Variable X hat den Variabilitätsbereich: X = {x1 , . . . , xN } (7) • Für das 1. Moment von X gilt: E[X] = µ1 (8) Um die MEP-Verteilung PM EP |µ(1) zu bestimmen, muss das folgende Optimierungsproblem mit Nebenbedingungen gelöst werden. Zu bestimmen ist (p∗1 , . . . , p∗N ) mit PM EP |µ(1) ({xi }) = p∗i so dass H(p∗1 , . . . , p∗N ) = N X für i = 1, . . . , N p∗i log i=1 1 ! = max p∗i (9) (10) und zwar unter Beachtung der folgenden Nebenbedingungen: N X i=1 N X p∗i = 1 (11) xi p∗i = µ1 (12) i=1 Lösung Die Aufgabe (10) ist äquivalent zum folgenden Problem: c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° ³ max (p1 ,...,pN ) ´ ! H(p1 , . . . , pN ) − α · 1 − β · µ1 = max 5 (13) Mit (11) und (12) erhält man für den zu maximierenden Ausdruck auf der linken Seite von (13): N N P P H(p1 , . . . , pN ) − α pi − β xi p i i=1 i=1 ³ ´ N P pi log p1i − α − βxi = i=1 ´ ³ N P 1 −α−βxi = pi log pi e (14) i=1 Wegen ½ log x < x − 1 für x ∈ IR+ \ {1} = x − 1 für x = 1 (15) erhält man aus (14): N X H(p1 , . . . , pN ) − α − βµ1 ≤ i=1 N X = µ pi ¶ 1 −α−βxi e −1 pi e−α−βxi − 1 (16) (17) i=1 wobei das Gleichheitszeichen in (20) genau dann gilt, wenn pi = e−α−βxi Wegen (11) folgt e−α = 1 N P (18) (19) e−βxi i=1 also gilt für die gesuchte M EP -Verteilung PM EP |µ(1) : p∗i = e−βxi N P e−βxk für i = 1, . . . , N (20) k=1 wobei β die eindeutige Lösung der folgenden Gleichung ist: N P xj e−βxj j=1 N P k=1 = µ1 e−βxk (21) c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 6 Die M EP -Verteilung (20) ist eine einfache Exponentialveteilungen mit endlichem Variabilitätsbereich. Die Wahrscheinlichkeitsmassefunktion hat ein Randmaximum und ist entweder (schwach) monoton fallend oder (schwach) monoton wachsend, je nachdem der einzige Verteilungsparameter β einen negativen oder positiven Wert annimmt. Es ist klar, dass die durch (20) gegebenen MEP-Verteilungen PM EP |µ(1) die MEP-Verteilungen PM EP |µ(0) als Spezialfälle enthalten und zwar falls gilt: N 1 X µ1 = xi N i=1 (22) Für die MEP-Verteilungen PM EP |µ(1) liegen die Werte der Varianz und aller höheren Momente fest und zwar so, dass die Unsicherheit gemessen durch die Entropie maximal ist. Bemerkung: Für β < 0 ist die MEP-Verteilungen PM EP |µ(1) identisch mit der sogenannten Gibbs Verteilung oder kanonischen Verteilung für ein thermodynamisches Gesamtsystem, das aus N gleichartigen Systemen besteht, die sich bei gegebener Geamtenergie (wert des 1. Moments) in verschiedenen Energiezuständen befinden. Beispiel In einer Volkswirtschaft liege folgende Situation bezüglich des Einkommens vor: • Das Gesamteinkommen der natürlichen Personen beträgt 35·1010 Geldeinheiten. • Die Bevölkerung besteht aus 107 natürlichen Personen. • Es gibt genau sieben Einkommensklassen: 1. mittleres Klasseneinkommen von 5 · 103 Geldeinheiten 2. mittleres Klasseneinkommen von 10 · 103 Geldeinheiten 3. mittleres Klasseneinkommen von 20 · 103 Geldeinheiten 4. mittleres Klasseneinkommen von 50 · 103 Geldeinheiten 5. mittleres Klasseneinkommen von 100 · 103 Geldeinheiten 6. mittleres Klasseneinkommen von 500 · 103 Geldeinheiten 7. mittleres Klasseneinkommen von 1000 · 103 Geldeinheiten c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 7 Auf der Grundlage dieser Informationen soll die Einkommensverteilung auf die sieben Einkommensklassen in der Bevölkerung bestimmt werden. Die Einkommensverteilung ist durch das Tupel (p1 , . . . , p7 ) gegeben, wobei pi der Anteil der Bevölkerung ist, der zur Einkommensklasse i gehört. Darüber hinaus ist man an den absoluten Besetzungszahlen der Einkommensklassen und dem Anteil der Einkommensklassen am Gesamteinkommen der Bevölkerung interessiert. Um das Prinzip der maximalen Entropie anwenden zu können, muss zunächst eine zufällige Variable X definiert werden, deren Wahrscheinlichkeitsverteilung PX , mit deren Hilfe die zu bestimmenden Anteilen pi , i = 1, . . . , 7, berechnet werden können. In diesem Fall ist die Angabe einer geeigneten zufälligen Variablen sehr einfach. Das mittlere Klasseneinkommen X einer zufällig aus der Bevölkerung bestimmten Person ist eine zufällige Variable, deren Wahrscheinlichkeitsverteilung identisch mit der Einkommensverteilung (p1 , . . . , p7 ) ist. Aus den vorhandenen Informationen folgt für X: © ª X = 5 · 103 , 10 · 103 , 20 · 103 , 50 · 103 , 100 · 103 , 500 · 103 , 1000 · 103 35 · 1010 E[X] = = 35 · 103 107 Die unbekannten Wahrscheinlichkeitsverteilung PX soll mit Hilfe des Prinzips der maximalen Entropie bestimmt werden. Mit Hilfe des Mathematik-Softwareprogramms Mathematica bestimmt man β aus der Gleichung (21) und berechnet anschließend die Anteile aus (20) und daraus schließlich auch die gewünschten Besetzungszahlen und den Anteil am Gesamteinkommen. Das Resultat dieser Berechnungen ist in Tabelle 1 wiedergegeben. Tabelle 1: Die mit Hilfe des Prinzips der maximalen Entropie bestimmten Anteile p∗i , Klassenbesetzungen Ni∗ und Einkommensanteile e∗i . Klasse: 1 2 3 4 5 6 7 p∗i 0.23726 0.229786 0.215537 0.177877 0.129156 0.0099785 0.0004064 Ni∗ 2372600 2297860 2155370 1778770 1291560 99785 4064 e∗i 0.0339 0.0657 0.1232 0.2541 0.3690 0.1425 0.0116 c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 8 Deutlich ist die große Diskrepanz zwischen Bevölkerungsanteil p∗i und Einkommensanteil e∗i vor allem in den Randklassen zu bemerken. Der Fall µ(2) Als nächstes soll das Problem gelöst werden, die MEP-Verteilung PM EP |µ(2) für eine zufällige Variable X zu bestimmen und zwar bei vorgegebenem Variabilitätsbereich X und gegebenen Werten µ1 und µ2 des 1. und 2. Moments oder äquivalent der Werte µ1 und σ 2 = µ2 − µ21 , wobei σ 2 der Wert der Varianz V [X] von X ist. X = {x1 , . . . , xN } E[X] = µ1 E[X 2 ] = µ2 (23) (24) (25) Man erhält das folgende Optimierungsproblem mit Nebenbedingungen: Zu bestimmen ist (p∗1 , . . . , p∗N ) mit PM EP |µ(2) ({xi }) = p∗i so dass H(p∗1 , . . . , p∗N ) = N X für i = 1, . . . , N ! p∗i log p∗i = max (26) (27) i=1 unter Beachtung der folgenden Nebenbedingungen: N X p∗i = 1 (28) xi p∗i = µ1 (29) x2i p∗i = µ2 (30) i=1 N X i=1 N X i=1 Lösung Das Problem (27) wird in analoger Weise wie das Probleme (10) gelöst. Die gesuchten Wahrscheinlichkeiten sind durch folgende Beziehung gegeben: 2 p∗i e−βxi −γxi = N P −βx −γx2 e k k k=1 für i = 1, . . . , N (31) c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 9 wobei β und γ Lösungen des folgenden Gleichungssystems sind: N P 2 xj e−βxj −γxj j=1 N P = µ1 (32) = µ2 (33) −βxk −γx2k e k=1 N P j=1 2 x2j e−βxj −γxj N P e −βxk −γx2k k=1 Warnung vor dem Prinzip der maximalen Entropie Das Prinzip der maximalen Entropie sollte nur mit großer Vorsicht angewandt werden, da es zu falschen Ergebnissen und damit auch zu falschen Entscheidungen führen kann. Die Tatsache soll an einem kleinen Beispiel veranschaulicht werden. Sei X eine zufällige Variable mit Variabilitätsbereich X und einer unimodalen Verteilung. Für den Wert µ1 des 1. Moments E[X] sollen die Beziehungen gelten: P x µ1 < |X1 | x∈X P µ1 ≈ |X1 | x (34) x∈X σ 2 << µ1 − min X Aus (34) folgt, dass ein Großteil der Wahrscheinlichkeitsmasse in der Nähe von µ1 , d.h. in der Mitte des Variabilitätsbereichs konzentriert, während an den Rändern nur sehr wenig Wahrscheinlichkeitsmasse vorhanden ist. Angenommen, die zufällige Variable X gibt die zufälligen Energieniveaus in einem Ensemble wieder, für das die Gesamtenergie und daher auch der Wert µ1 von E[X] bekannt ist. Weiter soll realistischer Weise davon ausgegangen werden, dass der Wert σ 2 der Varianz V [X] unbekannt ist. Wird in dieser Situation der kanonischen Verteilung von Gibbs folgend, die Wahrscheinlichkeitsverteilung der Energiezustände X mit Hilfe des Prinzips der maximalen Entropie bestimmt, ergibt sich die vollkommen irreführende kanonische Verteilung von Gibbs, für die sich die Wahrscheinlichkeitsverteilung bei den kleinsten Energieniveaus konzentriert, obwohl diese Niveaus nur mit sehr, sehr kleiner Wahrscheinlichkeit realisiert werden. c by Stochastikon GmbH (http: // encyclopedia. stochastikon. com ) Copyright ° 10 Eine Alternative, die nicht diese Fehlermöglichkeit aufweist, ist das im Rahmen der Bernoulli Stochastik entwickelte Prinzip der minimalen Information. Literatur [1] E.T. Jaynes: Information Theory and Statistical Mechanics. Physical Review 106, 620-630, 1957. (http://bayes.wustl.edu/etj/articles/ theory.1.pdf) [2] R. Carnap und W. Stegmüller: Induktive Logik und Wahrscheinlichkeit. Springer, Wien, 1958 Version: 1.00