1 Darstellung von sin1° durch komplexe Radikale Nach der Galois

Werbung
1
Darstellung von sin1° durch komplexe Radikale
Nach der Galois-Theorie kann sin1° zwar nicht durch reelle aber durch komplexe Radikale ausgedrückt werden. Die Konstruktionsverfahren zum Goldenen Schnitt führen zu einem einfachen
Ausdruck für cos72° :
cos72° =
Daraus ergibt sich
und weiterhin
√5 −1
.
4
1
sin72° = �10 + 2√5
4
1
1
sin36° = � (1 − cos72°) = �10 − 2√5
2
sowie
4
1
1
cos36° = + √5.
4
4
Aus den bekannten Ausdrücken für sin30° und cos30° können Darstellungen für sin6° und dann
schließlich für sin3° erhalten werden. Damit sind die Möglichkeiten Sinuswerte für ganzzahlige
Gradargumente durch reelle Radikale auszudrücken erschöpft.
Wir erhalten
sin6° = sin(36° - 30° ) =
cos6° = cos(36°- 30°) =
sin3° =
1�
8
4
�30−6√5 −√5 −1
8
und
√3+√15+ �10−2√5
,
8
− √3 − √15 − �10 − 2√5
1
cos3° = �8 + √3 + √15 + �10 − 2√5
4
Die komplexe Zahl a= cos3° + i∙ sin3° hat den Absolutwert 1 und liegt in der Nähe von z=1, deshalb kann cos1°+ i∙ sin1° durch den Hauptwert der dritten Wurzel von a berechnet werden. Dieser Hauptwert ist (wie im Reellen ) Grenzwert der Folge (zn), erklärt durch
z0:=1, zn+1:= (a/zn² +2zn)/3 .
Der Imaginärteil dieses Grenzwerts ist dann sin1°. Durch z4 erhält man schon 16 Dezimalen von
sin1° unter Verwendung einer 20-stelligen Arithmetik, also ist
floor(z41016) = floor(exp(i∙π/180) ∙ 1016) und
2
konkret: sin1°= 0,01745 24064 37283 5… und cos1°= 0,99984 76951 563912…
Auch die Konjugierte von a, a*, liegt in der Nähe von z=1 und der Hauptwert der dritten Wurzel
aus a* kann mit demselben Anfangswert z0:=1 und mit zn+1:= (a*/zn² +2zn)/3 als Grenzwert der
Folge erhalten werden. Der Imaginärteil der dritten Wurzel aus a lässt sich durch
(i∙∛a* − i∙∛a)/2 ausdrücken und so erhält man sin1° und cos1° als Differenz von Hauptwerten
komplexer Radikale:
3
3
𝑠𝑖𝑛1° = �𝑖 ∙ �1 �8 + √3 + √15 + �10 − 2√5 − 𝑖 �8 − √3 − √15 − �10 − 2√5 − 𝑖 ∙ �1 �8 + √3 + √15 + �10 − 2√5 + 𝑖 �8 − √3 − √15 − �10 − 2√5 � /2
3
4
4
cos1° = � �1 �8 + √3 + √15 + �10 − 2√5 −
4
𝑖
4
3
4
4
�8 − √3 − √15 − �10 − 2√5 + �1 �8 + √3 + √15 + �10 − 2√5 + 𝑖 �8 − √3 − √15 − �10 − 2√5 � /2 .
4
4
Einzugsgebiete für Newton-Iterationen zur Berechnung komplexer Wurzeln
Wie in dem Lehrbuch von L.Collatz (Funktionalanalysis und numerische Mathematik) soll unter
einem Einzugsgebiet zu einem Iterationsverfahren, das Folgen xn+1:= F(xn) durch eine Funktion F
generiert, eine Menge von Startwerten x0 gehören, die Folgenkonvergenz gegen eine gesuchte
Größe impliziert.
Die reelle positive m-te Wurzel aus einer positiven reellen Zahl a kann sehr schnell durch das
Newton-Verfahren zur Berechnung von Nullstellen differenzierbarer Funktionen erhalten werden, denn x↦ xm – a ist genügend oft differenzierbar und liefert durch
F:x↦((m-1)x + a/xm-1)/m , also mit xn+1:= ((m-1)xn + a/xnm-1)/m ,
ein Verfahren, das von quadratischer Ordnung gegen die Wurzel konvergiert. Als Startwert
kommt jede positive Zahl x0 infrage, in der Software wird x0 als ein bester Startwert ausgewählt.
Für ungerade m sind auch negative Startwerte möglich, aber nicht jede negative Zahl, da Fälle
xN=0 auftreten können. Die von ℝ<0 abzutrennende Menge kann durch {x: x<0∧∃nF(n)(x)=0} zwar
formal einfach beschrieben, aber konkret nicht elementar notiert werden: eine elementare Angabe des vollständigen Einzugsgebiets ist für die m-te Wurzel aus einer positiven Zahl a bei ungeradem m nicht möglich.
Komplizierter ist die Sachlage, wenn m-te komplexe Wurzeln iterativ, ohne Verwendung trigonometrischer Funktionen berechnet werden müssen. Für die Fälle m=2,3,4 und 5 sollen dazu Einzugsgebiete elementar angegeben werden, wobei wir uns auf Hauptwerte beschränken.
Für von null verschiedene a gibt es m verschiedene Wurzeln, darunter soll eine als Hauptwert
ausgezeichnet sein und durch
𝒎
√𝒂
3
bezeichnet werden. In Übereinstimmung dieser Zahl mit a^(1/m) im CAS Maple ist es diejenige
Zahl, die durch
𝛼
𝑚
𝑚
�|𝑎| ∙ exp(𝑖 ∙ )
festgelegt ist, wenn α derjenige Polarwinkel von a ist, der die Relationen –π < α≤ π einhält, ausgenommen m ist ungerade und a reell negativ, dann soll gelten
2𝑘+1
�−|𝑎| ∶= −
Da für die Hauptwerte
𝑚
𝑚
√𝑎 ∙ √𝑎
2𝑘+1
𝑚−1
�|𝑎| .
= 𝑎
gilt, gibt es eine1:1 Zuordnung der Folgen (zn), erklärt durch
𝑧𝑛+1 = �(𝑚 − 1)𝑧𝑛 +
𝑧
𝑛
zu den Folgen (wn), erklärt durch
𝑚
𝑤𝑛+1 =
�(𝑚 − 1)𝑤𝑛 +
𝑚
𝑎
𝑚−1
1
�
𝑤𝑛 𝑚−1
,
� /𝑚,
𝑚
die durch zn = wn∙ √𝑎 hergestellt werden kann. Es konvergiert (zn) gegen √𝑎 genau dann, wenn
(wn) gegen 1 konvergiert. Einzugsgebiete für a können daher durch Einzugsgebiete für 1 hergeleitet werden: a=|a|∙ei∙φ, -π<φ≤π, E1 Einzugsgebiet zu 1, so ist
𝑚
𝑚
Ea := {z∙ √𝑎: z∈ E1}
Einzugsgebiet zu √𝑎 . Damit ist auch der Fall a<0 und m ungerade erfasst, denn für negative Radikanden a und ungerade m sind natürlich Einzugsgebiete Ea einfach zu erhalten durch Einzugsgebiete für die m-te Wurzel aus |a|, nämlich durch {-z: z∈E|a|}.
Der formale Zusammenhang zwischen E1 und Ea führt für nichtreelle a nur in konkreten Fällen zu
elementaren Ausdrücken, die lediglich Real- und Imaginärteile von a enthalten. Solche Ausdrücke
sollen im Folgenden für m=2,3,4 und 5 aus allgemeinen Ausdrücken hergeleitet werden.
Wir beginnen mit den Quadratwurzeln. Die beiden Wurzeln aus a≠0 sind dann −√a und √a.
Da wir die Überlegungen immer mit a=1 beginnen, haben wir Iterierte F(n) zur Funktion
zu untersuchen.
F: z↦(z +1/z)/2 = (z+ z*/(zz*))/2
Es hat F an der Stelle z=0 eine Polstelle erster Ordnung und es bildet F die reinimaginären Zahlen
i∙r (r reell,r≠0) entweder auf 0 oder wieder auf reinimaginäre Zahlen ab. Die Iterierten F(n)(i∙r)
führen dadurch entweder zu einer Zahl N mit F(N)(i∙r)=0 oder zu einer divergenten Folge, i∙r gehö-
4
ren nicht zu Einzugsgebieten. Wenn der Realteil von z positiv bzw. negativ ist, so ist der Realteil von z+ z*/(zz*) ebenso positiv bzw. negativ, also bildet F die rechte Halbebene bzw. die linke
Halbebene in sich ab. Es sind +1 und -1 Fixpunkte und wie bekannt werden ℝ>0 bzw. ℝ<0 1:1 auf
sich abgebildet .
Es soll nachgewiesen werden, dass die Iterierten F(n)(z) für komplexe Zahlen z der rechten Halbebene gegen 1 und für z aus der linken Halbebene gegen -1 konvergieren. Da F(-z)=- F(z) gilt, ist
eine Beschränkung auf die rechte Halbebene ausreichend.
Wird für z die exponentielle Darstellung z = r∙exp(i∙φ) gewählt, so gilt für z aus der rechten offenen Halbebene r>0, | φ| < π/2 :
1
2
F(z) = r∙( +
1
)∙
2𝑟²
1
2
cos φ + i∙ r∙( −
1
)∙
2𝑟²
sin φ .
F bildet also {z: |z|=1, Re(z)>0} auf das halboffene Intervall ]0,1] ab.
Außerhalb des Einheitskreises wird der Realteil des Bildpunktes F(z) kleiner als der Realteil von z
und der Betrag des Imaginärteils kleiner als der Betrag des Imaginärteils von z, für
|z|≥1 ist daher |F(z)|≤|z|.
Da für alle z≠0 F(z)=F(1/z) gilt, erhält man für 0<|z|≤1 die Relation |F(z)|=|F(1/z)|≤1/|z|.
Die Funktionswerte F(z) müssen jedoch für |z|>1 nicht ebenfalls außerhalb des Einheitskreises
liegen. So ist z.B. |F(z)|=0,6548… für z mit r=√3 und φ=2π/5.
Wird andererseits z aus dem Innern des Einheitskreises gewählt, müssen nicht alle Iterierten
ebenfalls innerhalb des Einheitskreises liegen. Das zeigt eine Rechnung für die ersten 10 Iterierten mit z=√0,1∙exp(i∙π∙0,47).
Damit ist nicht unmittelbar klar, dass die Iterierten überhaupt konvergieren. Natürlich liegt Konvergenz vor, wenn der Startwert z0 eine positive reelle Zahl ist und für alle Startwerte z0≠1, die
auf dem Einheitskreis, aber nicht auf der imaginären Achse, liegen, ist die Konvergenz der Iteriertenfolge leicht einzusehen, da dann F(z0) nach der obigen trigonometrischen Darstellung eine
reelle positive Zahl ist und die bekannte Konvergenz quadratischer Ordnung vorliegt.
Für die weiteren Überlegungen soll gelten
Re(z0)>0.
Die Iterierten F(n)(z0) sollen durch zn bezeichnet werden, die Beträge durch rn, die (Hauptwerte
der) Argumente durch φn. Da Re(z0)>0 sein sollte, ist auch Re(zn)>0 und damit
| φn| < π/2.
Aus der obigen trigonometrischen Darstellung für F(z) erhält man eine Relation über die Argumente der Bilder:
Daraus folgt für alle n≥0
tan(arg(F(z))) =
1
𝑟
1
𝑟+
𝑟
𝑟−
| φn+1|≤| φn| ,
tan(arg(z)).
5
da die Tangensfunktion innerhalb [0, π/2[ monoton wachsend ist. Die Folge (|φn|) ist daher monoton fallend.
Um die | zn| eingrenzen zu können, untersuchen wir |F(z)|² für z≠0 und erhalten durch die Verwendung der exponentiellen Darstellung
1
2
1
𝑟
1
2
1
𝑟
1
4
1
𝑟²
1
2
|F(r∙exp(i∙φ))|²= ∙(r∙𝑒 𝑖∙𝜑 + ∙𝑒 −𝑖∙𝜑 )∙ ∙(r∙𝑒 −𝑖∙𝜑 + ∙𝑒 𝑖∙𝜑 )= ∙(r²+ )+ ∙cos(2φ)≥(1+cos(2φ))/2=cos²φ.
Wie vorhin schon erwähnt, gilt |F(z)|≤|z|, falls |z|≥1, und |F(z)|≤1/|z|, falls 0<|z|≤1 ist. Für alle z
der rechten offenen Halbebene ergibt sich somit eine Eingrenzung der Bildpunkte F(z):
cos(arg(z)) ≤ |F(z)| ≤ max{|z|, 1/|z|}.
Für alle n≥1 gilt dann offensichtlich
cos(φ0)≤cos(φn-1)≤rn≤max{r0,1/r0,1/cos(φ0)}.
Durch diese Eingrenzung der rn existiert eine positive Zahl C kleiner als 1, sodass für alle n gilt
|rn²-1|/(rn²+1)≤C. Dadurch gilt für die Argumente tan|φn|≤Cn ∙tan|φ0|, folglich
limn→∞φn =0.
Wie im Reellen lässt sich die Annäherung der Iterierten an den Fixpunkt z=1 durch die erste Ableitung ausdrücken. Dazu beschreiben wir in Polarkoordinaten die Kurve |F ‘(r ∙exp(i∙φ))|=1.
Aus
(r²cos2φ -1)²+ r4sin22φ = 4r4
folgt für die Kurve
−𝑐𝑜𝑠2𝜑+�𝑐𝑜𝑠
𝑟= �
3
2 2𝜑+3
.
Die Funktion φ↦ −cos2φ + √(cos²2φ+3) ist monoton wachsend für φ aus [0,π/2], für φ=0 ist
der Radius r=1/√3 , also kleiner als 1, und für φ=π/2 ist der Radius r=1.
Gibt es eine natürliche Zahl N mit zN ∈ℝ, so liegt ab N der reelle Fall vor, damit auch Konvergenz
gegen den Fixpunkt 1 der anfangs komplexen Iteriertenfolge.
Anderenfalls lässt sich ein Radius 1/√3<R<1 und ein Winkel 0<α<π/6 so bestimmen, dass innerhalb des abgeschlossenen Winkelraums
B:={ρ∙ei∙ψ : R≤ ρ≤ max{r0,1/r0,1/cos(φ0)},| ψ|≤α}
der Betrag von F‘(z) für z aus B kleiner als 1 ist und mit jedem z aus B auch die Strecke von 1 nach
z noch vollständig in B liegt.
Wir wählen ein N so, dass
R≤cos(φN) und |φN|≤ α
ist. Dann liegen für alle n mit n≥N die zn in B und somit auch die Strecken, die zn mit 1 verbinden.
6
In dem abgeschlossenen und beschränkten Bereich B nimmt der Betrag der ersten Ableitung von
F einen maximalen Wert W kleiner als 1 an. Für jede komplexe Zahl z aus dem Bereich B erhält
man die Differenz F(z)-F(1) im Komplexen zwar nicht durch einen Mittelwertsatz der Differentialrechnung als Produkt aus der ersten Ableitung und der Differenz z-1, aber über ein Integral
eine Abschätzung des Betrags:
𝑧
Daraus folgt
|𝐹(𝑧) − 1| = |𝐹(𝑧) − 𝐹(1)| = | � 𝐹 ′ (𝑠)𝑑𝑠| ≤ |𝑧 − 1| ∙ 𝑊 .
1
|zN+n – 1| ≤ |zN – 1 |∙ Wn
und beweist die Konvergenz der Folge (zn) gegen den Fixpunkt 1.
Einzugsgebiete E1 sind daher die Mengen {z: Re(z)>0} und {z: Re(z)<0}. Startwerte z0 aus der
rechten Halbebene führen zum Hauptwert +1, Startwerte z0 aus der linken Halbebene führen
wegen F(-z)=-F(z) zum negativen Hauptwert.
Aus der obigen Relation zwischen E1 und Ea geht hervor, dass für jede positive Zahl a, die rechte
Halbebene auch Einzugsgebiet für √a ist.
Wenn im komplexen Fall von a das Argument arg(a) bekannt ist, kann (aufgrund derselben Relation) das Einzugsgebiet Ea zum Hauptwert √a wie folgt angegeben werden:
Ea = {z: -π/2 < arg(z) - arg(a)/2 < π/2}.
Anders ausgedrückt: nichtverwendbare Startwerte liegen auf der Geraden
{z: z=0 oder |arg(z)−arg(a)/2|= π/2}.
Für negative Radikanden a (arg(a)= π) ist somit Einzugsgebiet für den Hauptwert die obere
Halbebene, also
E-|a| = {z: Im(z)>0 }.
Eine Drehung ist zu berücksichtigen für reinimaginäre Radikanden a (arg(a)=±π/2). Für solche a
aus der oberen Halbebene (arg(a)=π/2) ist Einzugsgebiet zum Hauptwert die Menge
{z: Im(z) > -Re(z)},
für a aus der unteren Halbebene die Menge
{z: Im(z) < Re(z)}.
Ist von a nur Real- und Imaginärteil bekannt, können zumindest Teilgebiete der vollständigen
Einzugsgebiete angegeben werden:
Wenn a im ersten oder zweiten (offenen!) Quadranten liegt, führen alle Startwerte aus dem ersten offenen Quadranten zum Hauptwert; wenn a im dritten oder vierten offenen Quadranten liegt,
führen alle Startwerte aus dem vierten offenen Quadranten zum Hauptwert.
7
Wir wenden uns den Kubikwurzeln zu. Offensichtlich ist
e3:=cos120° + i∙ sin120° = - ½ + i∙ ½∙√3
eine Lösung der Gleichung z³ = 1 (sog. primitive dritte Wurzel der Kreisteilungsgleichung) und
sämtliche Lösungen der Gleichung sind
∛1, e3 ∙ ∛1 , e32 ∙ ∛1.
Für das Newton-Verfahren zur Berechnung von ∛1 im Komplexen sind Iteriertenfolgen (zn) mit
zn:=F(n)(z0) zu untersuchen, dabei ist, wie eingangs erwähnt, die zugrundeliegende Funktion F im
kubischen Fall erklärt durch
F: z↦(2z +1/z²)/3.
Die Funktion F hat nur im Nullpunkt einen Pol, zweiter Ordnung, und die drei Fixpunkte:
∛1, e3 ∙ ∛1 , e32 ∙ ∛1.
Durch F wird ℂ\{0, ∛1, e3 ∙ ∛1 , e32 ∙ ∛1} 3:1 auf ℂ\{1} abgebildet.
Es ist leicht herzuleiten, dass punktierte Geraden {s∙exp(i∙φ): s reell und s≠0} nur dann auf sich
selbst, und auf den Nullpunkt, durch F abgebildet werden, wenn φ=0 oder φ= ±π/3 ist, wobei die
Abbildung nur teilweise 3:1 ist, denn 2s+1/s²= 3t ist für t<1 durch positive s nicht lösbar.
Daraus folgt, dass Einzugsgebiete im kubischen Fall stärker als im quadratischen eingeschränkt
werden müssen. Schon bei Beschränkung auf reelle Zahlen, kommen zwar als Startwerte alle positiven Zahlen infrage, aber nicht mehr sämtliche negativen, z.B. nicht s:= -1/∛2 und alle diejenigen
negativen Zahlen x, zu denen es ein N gibt mit F(N)(x)=s, dann ist zN+1=0; treten jedoch diese Fälle
nicht auf, kommen sehr wohl auch negative Startwerte in Betracht, denn bis auf endlich viele Ausnahmen sind die Iterierten dann positiv. Aus diesem Grunde werden wir Einzugsgebiete eher
einschränken als optimal vergrößern.
Im Unterschied zum Quadratwurzelfall können Startwerte nicht mehr ausnahmslos aus der rechten Halbebene gewählt werden, denn für
z=-1/∛2∙ exp(-i∙2π/3) und für w= -1/∛2∙ exp(i∙2π/3)
gilt arg(z)=π/3 und arg(w)= −π/3 sowie F(z)=F(w)=0.
Einzugsgebiete, die zum Hauptwert führen sollen, sind daher innerhalb des Winkelraums, den die
Halbstrahlen ±60° in der rechten Halbebene bilden, auszuwählen. Lässt man durch ein CAS ungefähr 3000 Lösungen von F(n)(z)=0 für n=1 bis n=7 ermitteln und ihre Lage in der Gaußschen Ebene
anzeigen, sieht man, dass diese Lösungen nicht ausschließlich auf den 60°-Geraden liegen, sondern um den Nullpunkt, um diese Geraden und um die negative Realteilachse kumulieren; elementare Darstellungen für Einzugsgebiete zum Hauptwert erfordern daher einen kleinen Winkelraum um die positive Realteilachse, der dem Nullpunkt nicht zu nahe ist.
8
Wie im Fall der Quadratwurzel, ist |F(z)|≤ |z| für alle |z|≥1. Das ergibt sich unmittelbar aus der
Dreiecksungleichung:
|(2z +1/z²)/3|≤ 2|z|/3 + 1/3/|z²|≤|z|.
Liegt z innerhalb des punktierten offenen Einheitskreises (0<|z|<1), so gilt:
|(2z +1/z²)/3|≤ 2|z|/3 + 1/3/|z²| < 1/|z|².
Bildpunkte F(z) für z auf dem Einheitskreisrand liegen also nicht außerhalb des Einheitskreises
und ein Ausdruck des Betragsquadrats von F(z) macht klar, dass außer den Fixpunkten ∛1, e3 ∙ ∛1
und e32 ∙ ∛1 keine weiteren Punkte des Einheitskreisrandes auf den Kreisrand abgebildet werden:
1 1 −2𝑖𝜑
1
1 1 2
2
� 2𝑒
+ 2𝑟𝑒 𝑖𝜑 � � 2 𝑒 2𝑖𝜑 + 2𝑟𝑒 −𝑖𝜑 � = � 4 + 𝑒 −3𝑖𝜑 + 𝑒 3𝑖𝜑 + 4𝑟 2 �
9 𝑟
𝑟
9 𝑟
𝑟
𝑟
1 1 4
= � 4 + cos(3𝜑) + 4𝑟 2 �
𝑟
9 𝑟
|𝐹(𝑧)|2 =
wird für r=1 zu (5+4cos(3φ))/9 und dadurch gilt |F(z)|=1 für |z|=1 genau dann, wenn 3φ kongruent zu 0 modulo 2π ist.
Daraus folgt, wie im Fall der Quadratwurzeln, dass für außerhalb des Einheitskreises liegende z
zwar |F(z)| kleiner als |z| ist, die Bildpunkte F(z) aber nicht in jedem Fall ebenfalls außerhalb des
Einheitskreises liegen müssen.
Die Funktionen x↦ (4/x ∙cos(3φ) + 4x² +1/x4 )/9 sind für positive x und Winkel |φ| aus [0,π/6]
nach unten beschränkt, konvex, differenzierbar und nehmen in ℝ>0 von |φ| abhängende Minima
an. Diese Minima sind ihrerseits monoton fallende stetige Funktionen bzgl. |φ| , da die Kosinusfunktion in diesem Intervall fallend ist.
Über erste Ableitungen und Lösungen einfacher Gleichungen erhält man z.B. für alle positiven
Zahlen x die Relationen
3
(4/x + 4x² +1/x4 )/9 ≥1 und ( 4x² +1/x4 )/9 ≥ 0,5291… = �4/3 .
Da 0,7² kleiner als ∛4/3 ist, folgt daraus
|F(z)|> 0,7 für alle komplexen Zahlen z≠0 mit |arg(z)| ≤ π/6.
Winkelabnahmen der Iterierten erhalten wir durch die exponentielle Darstellung von F(r∙eiφ).
Es ist
und
𝐹(𝑧) =
1 1 −2𝑖𝜑
1 1
1
1
� 2𝑒
+ 2𝑟𝑒 𝑖𝜑 � = � 2 cos 2𝜑 + 2𝑟 ∙ cos 𝜑� + 𝑖 �− 2 sin 2𝜑 + 2𝑟 ∙ sin 𝜑�
3 𝑟
3 𝑟
3
𝑟
2𝑟 3 ∙ sin 𝜑 − sin 2𝜑
.
tan(arg�𝐹(𝑧)�)) = 3
2𝑟 cos 𝜑 + cos 2𝜑
9
Aus arg(z)=0 folgt arg(F(z))=0. Die Einschränkung auf 0<|φ|≤π/6 führt zu einem positiven Nenner und zu einer Relation mit tan(φ):
𝑟³−cos 𝜑
�.
𝑟³+cos 𝜑−1/(2 cos 𝜑)
tan(arg �𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 ��)) = tan 𝜑 ∙ �
Im Falle eines positiven Zählers des zweiten Faktors ist dieser Faktor selbst positiv und kleiner
als 1, weil cos²φ für | φ |≤π/6 größer als ¼ ist (der Nenner bleibt ja positiv nach Division durch
cos φ).
Der Fall r³= cos φ führt auf eine reelle positive Zahl F(z) und zu den bekannten reellen Iterationen.
Ein negativer Zähler ist nur für r<1 möglich und
cos φ – r³ < r³ + cos φ – 1/(2∙ cos φ),
nur durch eine Begrenzung von r nach unten zu erreichen
1< 4∙r³ ∙ cos(π/6)≤ 4∙r³ ∙ cos φ ,
also wegen cos(π/6)= ½ ∙ √3 durch
𝑟>
6
1
√12
= 0,6609 …
Wir begrenzen daher durch 0,7 und legen einen Bereich B fest:
B:={z: |z|≥ 0,7 und |arg(z)|≤π/6}.
Mit z liegt dadurch auch F(z) in B, denn |arg(z)|≤π/6 impliziert |F(z)|>0,7 und |z|≥ 0,7 und
|arg(z)|≤π/6 impliziert |arg(F(z))|≤|arg(z)|≤ π/6 .
Wenn wie bei den Quadratwurzeln zn, rn, φn erklärt sind durch F(n)(z0),|F(n)(z0)| und arg(zn),
sind daher mit einem Startwert z0 aus B auch die folgenden Iterierten zn aus B und (|φn|) ist monoton fallend.
Die Radien rn lassen sich offensichtlich nach oben beschränken, mit R:= max{r0, 3} erhält man
0,7 < r1 < R
0,7 < r2 < max{ r1, 3} ≤ R und
ein einfacher Induktionsschluss garantiert, dass
für alle n gilt.
Mit
0,7 < rn < R
C1:= 1 – cos(π/6)/R³
10
erhält man für alle r mit 0,7≤r≤R und r³≥cos φ (0≤φ≤ π/6)
daher
r³(1-C1) ≤ R³(1-C1)=cos(π/6) < cos φ + C1(cos φ – 1/(2cos φ)),
0≤ (r³ - cos φ)/( r³+cos φ – 1/(2cos φ) ) < C1< 1.
Die Funktion φ ↦ (cos φ – 0,7³)/(0,7³ + cos φ – 1/(2cos φ)) ist monoton wachsend in [0, π/6 ].
Dann ist
C2:=max{(cosφ–0,7³)/(0,7³+cosφ–1/(2cosφ)): φ ∈[0, π/6 ]}=(√3/2-0,7³)/(0,7³+√3/2-1/√3)=0,827…
und für cos φ≥r³ erreicht man für 0,7≤r≤1
daher
0≤ cos φ -r³ ≤ cos φ – 0,7³ ≤ C2∙(0,7³+cosφ–1/(2cosφ))≤ C2∙(r³+cosφ–1/(2cosφ)),
(cos φ -r³)/(r³+cosφ–1/(2cosφ)) ))≤ C2< 1.
Mit C:= max{C1, C2} ist folglich für alle φ mit |φ|≤π/6 und alle r mit 0,7≤r≤R
weshalb für alle n≥0
|r³ - cos φ|/( r³+cos φ – 1/(2cos φ) ) ≤ C < 1,
gilt. Daher ist (φn) eine Nullfolge.
|tan φn|≤ Cn ∙|tan φ0|
Der Betrag der ersten Ableitung F‘ (z) =(2 −2/z³)/3 wird für alle z mit |z|≥2 offensichtlich kleiner als 1 und für z mit |z|≥1 kleiner als 1 für Argumente arg(z) in der Nähe von 0. Da F‘(1)=0 gilt,
kann |F‘(z)| um z=1 beliebig klein gehalten werden. Es gibt daher einen Radius R2∈]0,7;1[ und
einen Winkel α∈]0,π/6[ derart, dass F den abgeschlossenen Winkelraum
B 2 :={s∙ei∙ψ : R2 ≤ s ≤R, | ψ|≤α}
in sich abbildet, der Betrag von F‘(z) für z aus B2 kleiner als 1 ist und mit jedem z aus B2 auch die
Strecke von 1 nach z noch vollständig in B2 liegt.
Wie im Falle der Quadratwurzel folgt daraus die Konvergenz der Iteriertenfolge (zn) gegen 1 und
B ist ein Einzugsbereich, also E1 =B.
Für positive reelle von 1 verschiedene Zahlen a können, wie oben erwähnt, Einzugsgebiete Ea
durch E1 erhalten werden. Wenn a kleiner als 1 ist, so ist ∛a kleiner als 1, wenn a größer als 1 ist,
wird ∛a kleiner als a. Da der Winkelbereich sich nicht verändert, erhält man einen Einzugsbereich
für a>0 durch
Ea:= {z:
0,7 ∙ max {1,|a|} < |z| und |Im(z)| ≤ Re(z)/√3 }.
11
Für alle komplexen Zahlen z∉ℝ<0 und ihre Konjugierten z* gilt offensichtlich
𝑚
𝑚
√𝑧 ∗ = ( √𝑧)∗ und
für ungerade m gilt diese Relation auch für negative z , also für alle z ∈ ℂ.
Die Hauptwerte ∛z lassen sich auf z aus dem ersten abgeschlossenen Quadranten
{z: Re(z)≥0 und Im(z) ≥0} zurückführen, denn für z aus dem vierten abgeschlossenen Quadranten
gilt
∛z = (∛(z*))*
und z* liegt im ersten Quadranten. Für z aus dem dritten Quadranten gilt mit Ausnahme der negativen reellen Zahlen
∛z = - e3∙∛(-z).
Da die Konjugierten der komplexen Zahlen aus dem zweiten Quadranten im dritten Quadranten
liegen, können sie, ausgenommen die negativen Zahlen, wie folgt aus den Hauptwerten im ersten
Quadranten ermittelt werden:
∛z = (-e3∙∛(-z*))*.
Ein Einzugsgebiet Ea für eine negative reelle Zahlen a erhält man natürlich durch Ea:={-z: z∈ E|a| },
wenn E|a| Einzugsgebiet für die Zahl |a| ist.
Für a∈ℂ\ℝ aus dem ersten offenen Quadranten, also für Re(a)>0 und Im(a)>0, ist theoretisch
Ba:= {z: ∛|a|∙ 0,7 < |z| und |arg(z)−arg(a)/3|≤π/6 }
Einzugsgebiet, von dem aber bei unbekannten Werten für ∛|a| und arg(a) nur Teilgebiete angegeben werden können. In diesen Teilbereichen müssen allerdings nicht mehr sämtliche zn liegen.
Für a mit für Re(a)≥0 und Im(a)>0 erklären wir eine reelle Zahl r durch
1,
𝑓𝑎𝑙𝑙𝑠 𝑅𝑒(𝑎)2 + 𝐼𝑚(𝑎)2 ≤ 1
𝑟≔�
|𝑅𝑒(𝑎)| + |𝐼𝑚(𝑎)| ,
𝑠𝑜𝑛𝑠𝑡
und alternativ einen Teilbereich
𝐸𝑎 ≔ �
{𝑧: 𝑟 ∙ 0,7 < |𝑧| 𝑢𝑛𝑑 0 ≤ 𝐼𝑚(𝑧) ≤ 𝑅𝑒(𝑧)}, 𝑓𝑎𝑙𝑙𝑠 𝐼𝑚(𝑎) ≥ 𝑅𝑒(𝑎) ≥ 0
{𝑧: 𝑟 ∙ 0,7 < |𝑧|; 𝑅𝑒(𝑧) > 0; −0,25 ∙ 𝑅𝑒(𝑧) ≤ Im(z) ≤ 0,57 ∙ 𝑅𝑒(𝑧)}, 𝑓𝑎𝑙𝑙𝑠 0 < 𝐼𝑚(𝑎) < 𝑅𝑒(𝑎)
Es bleibt nachzuweisen, dass aus z ∈ Ea auch z ∈ Ba folgt.
.
12
Für die Argumente von z ∈ Ba muss
arg(z)∈[ φ/3−π/6, φ/3+ π/6]
gelten.
Für a:=|a|∙ ei∙φ mit 0<φ<π/4, folglich 0<Im(a)<Re(a), ist [ –π/12 , π/6 ] Teilintervall von
[ φ/3−π/6, φ/3+ π/6], die Quotienten Im(z)/Re(z) liegen im Intervall[ -0,25; 0,57], also auch in
[-tan(π/12), tan(π/6)] , dadurch gilt arg(z)∈[ –π/12 , π/6 ] ⊆[ φ/3−π/6, φ/3+ π/6].
Für a:=|a|∙ ei∙φ mit π/4≤φ≤π/2, folglich 0≤Re(a)≤Im(a), ist
φ/3− π/6 ≤ 0 und φ/3+ π/6 ≥ π/4,
daher gilt [0, π/4 ] ⊂[ φ/3−π/6, φ/3+ π/6]. 0≤Im(z)≤Re(z) ist gleichwertig mit 0≤arg(z)≤π/4,
folglich ist auch in diesem Fall arg(z) Element von [ φ/3−π/6, φ/3+ π/6] für z aus Ea.
Wenn |a|≤1 ist, gilt für z∈Ea 0,7<|z|, daraus folgt ∛|a| ∙ 0,7 <|z|.
Wenn |a|>1 ist, gilt für z∈Ea 0,7(|Re(a)+|Im(a)|)<|z|, daraus folgt ∛|a| ∙ 0,7 <|z| aufgrund von
∛|a| < √|a| ≤|Re(a)|+|Im(a)|, damit ist zusammenfassend z Element von Ba, wenn z Element aus
Ea ist.
Auf Seite 2 wurde das Newton-Verfahren zur Berechnung des Hauptwerts von ∛a mit
a= cos3°+i∙sin3° und dem Startwert z0=1 erwähnt und bei Beschränkung auf wenige Dezimalen
zeigte sich z4 ≈ cos1° + i∙sin1°. Die Konvergenz der komplexen Folge (zn) ist gesichert, da offensichtlich r=1, -0,25<tan3°< 0,57 , |z0| >0,7 ist und somit z0 im Einzugsgebiet Ea liegt.
Einzugsgebiete für m>3 erfordern außer der Herausnahme von mehr als zwei Geraden der Gaußschen Zahlenebene noch weitere Einschränkungen, die durch schwer konkret beschreibbare Bildungen von F(N)(z)=0 entstehen. Wir untersuchen im Folgenden den allgemeinen Fall und konkretisieren danach die Fälle m=4 und m=5.
Die für a=1 zugrundeliegende Funktion ist
F: z↦ ((m-1)z + 1/zm-1)/m.
F ist meromorph in ℂ und hat im Nullpunkt eine Polstelle der Ordnung m-1. Die Fixpunkte von F
erhält man durch
(m-1)z + 1/zm-1 = m∙z , also durch die Kreisteilungsgleichung (siehe Wikipedia) zm = 1.
Die primitive Wurzel dieser Gleichung mit dem kleinsten positiven Argument ist die Zahl
e m = exp(i∙ 2π/m);
sämtliche m-ten Wurzeln (von 1) sind dann die m-Zahlen
em0 (=1, Hauptwert ), em1, …, emm-1.
13
In der Gaußschen Ebene liegen sie gleichmäßig verteilt auf dem Rand des Einheitskreises |z|=1,
der Kreis wird also durch sie in m gleiche Sektoren aufgeteilt.
Die einzigen Fixpunkte von F sind daher genau die komplexen Zahlen
em0 , em1, …, emm-1.
Außerhalb der Menge M:={0, em0 , em1, …, emm-1} ist F eine m:1 Abbildung, denn F(z)=w führt für
w∉M zum separablen z-Polynom (m-1)zm -w∙ m∙zm-1 +1, das genau m Nullstellen hat.
F ist keine lineare Abbildung, durch die im Komplexen Geraden in Geraden oder Kreise abgebildet
werden. Es gibt jedoch m Geraden gk durch den Nullpunkt, die durch F wieder auf sich abgebildet
werden, es ist also F: gk\{0} → gk surjektiv. Eine solche Gerade ist bestimmt durch
gα:={r∙ei∙α:r∈ℝ} und es folgt aus F(r∙ei∙α)=s∙ei∙α eine Bestimmung für den Winkel α durch ei∙α∙m= ±1.
Für ungerade m sind die Geraden daher durch die m-ten Einheitswurzeln bestimmt:
gk = {r∙emk: r∈ ℝ}, k=0…(m-1).
Für gerade m sind die m-ten Einheitswurzeln nicht ausreichend , da
exp(i∙(k±m/2)∙2π/m)= − exp(i∙k∙2π/m)
gilt und somit k und k±m/2 dieselbe Gerade generieren. Es müssen die Wurzeln von zm+1=0
herangezogen werden. Unter Verwendung der primitiven 2m-ten Einheitswurzel ist eine einfache
Notation möglich:
gk = {r∙e2mk: r∈ ℝ}, k=0…(m-1).
Insgesamt entstehen jedoch dadurch auch lediglich m „Fixgeraden“.
𝑚
Daran ist zu erkennen, dass Einzugsgebiete für √1 mit wachsendem m immer enger werden.
Die Dreiecksungleichung liefert für |z|≥1 die schon für m=2 und m=3 bekannte Beziehung
|F(z)|≤|(1- 1/m)|z| + 1/m/|z|m-1≤ (1-1/m)|z| + |z|/m = |z|.
Für z aus dem punktierten abgeschlossenen Einheitskreis werden die oberen Schranken mit
wachsendem m größer:
für 0<|z|≤1 gilt |F(z)|≤|(1- 1/m)|z| + 1/m/|z|m-1≤ 1/|z|m.
Über die Winkel lässt sich wie in den Fällen m=2 und m=3 die Bildmenge des Einheitskreisrandes
bestimmen:
|F(ei∙φ)|² = ((m-1) ei∙φ + e -i∙φ∙(m-1))( (m-1) e-i∙φ + e i∙φ∙(m-1))/m² = (m²+2(m-1)∙(cos(φ∙m)-1))/m².
Diese Relation zeigt, dass |F(ei∙φ)|=1 genau dann gilt, wenn cos(φ∙m)=1 ist, d.h. für den Winkel φ
muss gelten φ= 2πk/m für k=0…(m-1); nur für die Fixpunkte z=emk gilt also |F(z)|=1. Somit
gibt es eine Teilmenge von {z: |z|>1}, die durch F in den offenen Einheitskreis transformiert wird.
14
Um eine Aussage über den Abstand der Bildpunkte zum Nullpunkt zu erhalten, ist außer dem Argument einer komplexen Zahl z auch ihr Betrag zu berücksichtigen, man erhält
2
1
((𝑚
𝑚2
�𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �� =
− 1)2 𝑟 2 +
2(𝑚−1)
cos(𝜑
𝑟 𝑚−2
∙ 𝑚) +
1
).
𝑟 2𝑚−2
Daraus geht hervor, dass für alle r>0 und alle Winkel |φ|≤π/(2m) die Ungleichungen
|𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �| ≥
1
�(𝑚
𝑚
− 1)2 𝑟 2 +
1
𝑟 2𝑚−2
2𝑚
≥ �(𝑚 − 1)𝑚−1 /√𝑚 =:U
gelten. Dass der rechts stehende Ausdruck U für m>1 kleiner als 1 ist, folgt aus (m-1)m-1< mm .
Damit besteht die Möglichkeit, als Einzugsgebiet zumindest eine Teilmenge des Winkelbereichs
W:={z: |z|≥U, |arg(z)| ≤π/(2m) } verwenden zu können. Zu untersuchen bleibt also, ob mit z aus
diesem Winkelbereich auch F(z) in diesem Bereich liegt. Nun impliziert
𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 � =
1
�(𝑚
𝑚
− 1) ∙ 𝑟 ∙ 𝑒 𝑖∙𝜑 +
1
𝑒 −𝑖∙𝜑∙(𝑚−1) �
𝑟 𝑚−1
=
𝑖
1
1
1
�(𝑚 − 1)𝑟 ∙ cos 𝜑 + 𝑚−1 cos( 𝜑 ∙ (𝑚 − 1))� + �(𝑚 − 1) ∙ 𝑟 ∙ sin 𝜑 − 𝑚−1 sin( 𝜑 ∙ (𝑚 − 1))�
𝑚
𝑚
𝑟
𝑟
für Re(𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �)≠0
tan arg�𝐹(𝑧)� =
(𝑚−1)𝑟 𝑚 ∙sin 𝜑−sin( 𝜑∙(𝑚−1))
.
(𝑚−1)𝑟 𝑚 ∙cos 𝜑+cos( 𝜑∙(𝑚−1))
Gilt |φ|≤π/(2m), ist cos(φ(m-1))>0, also Re(F(reiφ))>0 für alle r>0.
Wenn arg(z)=φ=0 ist, wird offensichtlich arg(F(z))=0 und |F(z)|>U, also ist F(z)∈W .
Wir können uns daher auf φ≠0 beschränken und erhalten für 0<|φ|≤π/(2m) dann mit
sin 𝜑(𝑚 − 1)
sin 𝜑
Φ≔
cos 𝜑(𝑚 − 1)
(𝑚 − 1)𝑟 𝑚 +
cos 𝜑
(𝑚 − 1)𝑟 𝑚 −
tan| arg�𝐹(𝑧)� | = tan| arg(𝑧) | ∙ |Φ | .
Zu untersuchen sind die Fälle Φ ≥ 0 und Φ ≤ 0. Bei Gleichheit ist arg(F(z))=0 und aus
|φ|≤ π/(2m) folgt |F(z)| ≥ U , also gilt F(z)∈W (auch wenn z nicht Element von W ist).
Fall 1: (m-1)rm > sin(φ(m-1))/sin φ. Trivialerweise ist dann
(m-1)rm − sin(φ(m-1))/sin φ < (m-1)rm + cos(φ(m-1))/cos φ ,
daraus folgt ( unter arg(z)≠0)
|arg(F(z))| < |arg(z)|,
15
also F(z)∈W.
Fall 2: (m-1)rm < sin(φ(m-1))/sinφ, folglich r≤1 . Um den Betrag des Arguments von F(z) kleiner
als den Betrag des Arguments von z werden zu lassen, ist zu fordern
sin(φ(m-1))/sinφ - (m-1)rm < cos(φ(m-1))/cosφ +(m-1)rm ,
gleichwertig damit
sin 𝜑(𝑚−2)
sin 2𝜑
< (𝑚 − 1) ∙ 𝑟 𝑚 .
Eine Kurvendiskussion zeigt, dass innerhalb des Intervalls [0, π/(2μ)] die Funktionen
x↦sin(x∙μ)/sin(x) monoton abnehmend für μ>1, monoton zunehmend für 0<μ<1 und konstant
für μ=1 sind. Um |arg(F(z))| < |arg(z)| zu erreichen, ist r=|z| abhängig von m einzuschränken.
Wir setzen
𝑚
𝑚−2
, 𝑓𝑎𝑙𝑙𝑠 𝑚 ≥ 4 .
𝑟2 ∶= �
2(𝑚 − 1)
Für r≥r2 gilt (m-1)rm≥(m-2)/2 > sin(φ(m-2))/sin(2φ), also 0<-Φ<1, damit ist für |z|≥r2
F(z)∈W.
Die Zahlen r2 sind für m≥4 nicht mehr kleiner als die Zahlen U, sondern größer, aber kleiner als
𝑚
1
2
8
� : für m=4 ist r2=1/∜3=0,759.. und U=√27/2 = 0,7549.. ; für m≥5 lässt sich aus
m²- 5,6m+5,6>0 auch (m-2)²> 4(m-1)∙0,4 > 4(m-1)(1-1/m)m folgern, damit ist r2 größer als U.
Nun sind für positive x, ganzzahlige m>3 und Winkel |φ| aus [0,π/(2m)] die Funktionen
𝑓: 𝑥 ↦
2(𝑚 − 1)
1
1
((𝑚 − 1)2 𝑥 2 +
cos(𝜑 ∙ 𝑚) + 2𝑚−2 )
2
𝑚−2
𝑥
𝑥
𝑚
nach unten beschränkt, konvex, differenzierbar und nehmen in ℝ>0 von |φ| abhängende Minima
an. Diese Minima sind ihrerseits monoton fallende stetige Funktionen bzgl. |φ| , da die Kosinusfunktion in diesem Intervall fallend ist. Für φ=0 gilt f(1)=1 und 1 ist auch das Minimum.
Es gibt daher eine positive Zahl
ψm,
𝑚
die nicht größer als π/(2m) ist, sodass |F(z)|≥ �
1
2
wird, falls der Betrag des Arguments von z
𝑚
nicht größer als ψm ist. Übersteigt außerdem der Betrag von z nicht �
Betrag des Arguments von F(z) den Wert ψm nicht.
Der Winkelbereich
1
2
, so übersteigt auch der
16
𝒎
𝟏
𝟐
B:={z: |z|≥ � , |arg(z)|≤ ψm}
wird in allen Fällen durch F in sich abgebildet.
Es wird nachgewiesen, dass B für m>3 als Einzugsbereich gewählt werden, denn, da B durch F in
sich abgebildet wird und für alle z aus B |arg(F(z))| nicht größer als |arg(z)| wird, bleiben Iterierte zn:=F(n)(z0) von z0 aus B ebenfalls in B und die Argumentfolgen (|φn|) sind monoton abnehmend, daher konvergent. Die Nullfolgeneigenschaft ist allerdings nicht offensichtlich und wir machen wie in den Fällen m=2 und m=3 von den oberen und unteren Schranken für die Iteriertenbeträge Gebrauch.
Die Eingrenzung
1
𝑚
√2
≤ 𝑟1 ≤ max � 𝑟0 ,
1 𝑚
, √2 �
𝑟0
des Betrags von z1 lässt sich offensichtlich auf alle höheren Indizes verallgemeinern. Setzen wir
Ru:=
1
𝑚
√2
und Ro:= max � 𝑟0 ,
1 𝑚
, √2 � , so
𝑟0
haben wir für alle n>0 die Ungleichungen
Ru ≤ |zn| ≤ Ro.
Die oben eingeführte Funktion Φ kann durch Hinzunahme des Grenzwertes limφ→0 Φ(φ) an der Stelle 0 zu
einer im abgeschlossenen und beschränkten Bereich Ru ≤r≤ Ro , 0≤ |φ|≤ψm stetigen Funktion Φ erweitert
werden. Innerhalb dieses Bereichs ist |Φ| <1, der Wert 1 wird nicht angenommen. Es gibt daher eine positive Zahl K kleiner als 1, sodass | φn|≤Kn|φ0| für alle n ist. Damit ist (φn) eine Nullfolge.
Wie in den Fällen m=2 und m=3 gilt F‘(1)=0 auch für m>3 und ein Konvergenzbeweis für (zn) kann analog
𝑚
zum Fall m=3 geführt werden: B ist ein Einzugsbereich für m>3 und √1 .
Vierte Wurzeln.
Numerische Rechnungen ergeben ψ4= 0,319… und Ru= 0,840… , wir wählen der Einfachheit halber ψ4= 0,3
und Ru= 0,84 und berücksichtigen, dass die tan ψ4≈0,3 ist.
Befindet sich der Radikand a im dritten offenen oder im vierten abgeschlossenen Quadranten, kann ∜a durch
Konjugationen erhalten werden:
∜a =( ∜a*)*.
Wie im Fall der kubischen Wurzeln sei erklärt
1,
𝑓𝑎𝑙𝑙𝑠 𝑅𝑒(𝑎)2 + 𝐼𝑚(𝑎)2 ≤ 1
.
𝑟≔�
|𝑅𝑒(𝑎)| + |𝐼𝑚(𝑎)| ,
𝑠𝑜𝑛𝑠𝑡
Befindet sich a im abgeschlossenen ersten Quadranten, kann
{z: r∙0,84<|z|, -0,1∙Im(z)≤Re(z)≤ 0,5∙Im(z)},
befindet sich a im abgeschlossenen zweiten Quadranten, kann
{z: r∙0,84<|z|, 0,2∙Im(z)≤Re(z)≤ 0,8∙Im(z)}
17
als Einzugsgebiet gewählt werden.
Konvexe Funktionen
Die in Latein-Wörterbüchern zu findenden Erklärungen „gewölbt, gerundet“ für convex , „Wölbung“ für convexum und „ausgehöhlt, hohl, gekrümmt“ für concavus machen es nicht leicht, zu
verstehen, was eine konvexe oder eine konkave Funktion sein soll.
Wird in einem x,-y-Koordinatensystem die Normalparabel y=x² von oben betrachtet, kann man
sich zumindest darunter die Schnittfläche eines Gewölbes vorstellen. In der älteren mathematischen Literatur wurde deshalb die Quadratfunktion als konvex von oben und als konkav (hohl?)
von unten bezeichnet.
Um die vorige Jahrhundertwende führte der Mathematiker J.L.W.V.Jensen den Begriff „konvexe
Funktion“ ein. In der in den Acta Mathematica 30 im Jahre 1906 erschienenen Publikation „Sur les
fonctions convexes et les inégalités entre les valeurs moyennes“ wird eine stetige Funktion konvex genannt, wenn die arithmetischen Mittel von Funktionswerten niemals kleiner sind als die
Funktionswerte der arithmetischen Mittel. Danach ist z.B. die stetige Quadratfunktion konvex,
denn aus (a-b)²≥0 folgt sofort
(a/2+b/2)² ≤ a²/2 + b²/2.
Jensen wies nach, dass aus der Ungleichung für arithmetische Mittel und der (erforderlichen !)
Stetigkeit eine Ungleichung für gewogene Mittel gefolgert werden kann, es gilt dann
(K1)
f(α∙a+β∙b)≤α∙f(a)+β∙f(b) für „Gewichte“ α,β∈[0;1] mit α+β =1.
Legt man nur diese Ungleichung (K1), also keine zusätzliche Stetigkeit, der Erklärung des Konvexbegriffs zugrunde, kann Stetigkeit und einseitige Differenzierbarkeit bzgl. offener Intervalle
gefolgert werden. Im Einklang mit Wikipedia soll im Folgenden deshalb nur die Definition (K1)
verwendet und Stetigkeit und einseitige Differenzierbarkeit nachgewiesen werden.
Da bekanntlich durch α∙(a,f(a))+β∙(b, f(b)), wobei α+β =1, die Strecke von (a,f(a)) nach
(b, f(b)) beschrieben wird, kann (K1) geometrisch ausgedrückt werden:
Die Sekanten an die Graphen konvexer Funktionen liegen niemals unterhalb der Graphen.
Dazu gibt es eine suggestive Darstellung in der Wikipedia.
Wir betrachten nun drei Zahlen u<v<w aus einem Intervall, in dem f konvex ist, und stellen die
mittlere Zahl v rational aus u und w dar:
𝑣=𝑢∙
𝑣−𝑢
𝑤−𝑣
+𝑤∙
.
𝑤−𝑢
𝑤−𝑢
18
Dann folgt aus (K1) die Ungleichung
Daraus ergibt sich
𝑓(𝑣) ≤ 𝑓(𝑢)
𝑓(𝑣)
Es folgt
𝑓(𝑣)
𝑣−𝑢
𝑤−𝑣
+ 𝑓(𝑤)
.
𝑤−𝑢
𝑤−𝑢
𝑤−𝑣
𝑤−𝑢
≤ 𝑓(𝑢)
+ 𝑓(𝑤) .
𝑣−𝑢
𝑣−𝑢
𝑣−𝑤
𝑤−𝑢
+ 𝑓(𝑢)
≤ 𝑓(𝑤)
𝑣−𝑢
𝑣−𝑢
und daraus
𝑓(𝑣)
sowie
𝑤−𝑣
𝑣−𝑤
+ 𝑓(𝑢)
≤ 𝑓(𝑤) − 𝑓(𝑣)
𝑣−𝑢
𝑣−𝑢
𝑓(𝑤) − 𝑓(𝑣)
𝑓(𝑣) − 𝑓(𝑢)
≤
.
𝑤−𝑣
𝑣−𝑢
Diese Ungleichung besagt geometrisch, dass Anstiege aufeinanderfolgender Sekanten sich niemals
vermindern.
u
v
w
Aus dieser Ungleichung kann natürlich auch die Ungleichung (K1) erhalten werden, da die Umformungen jeweils gleichwertig sind. Anstelle der Variablen u,v,w schreiben wir a,b,c und erklä-
19
ren eine Funktion f als konvex in einem Intervall I, wenn für alle a,b,c aus I für a<b<c die Ungleichung
(K2)
𝑓(𝑐) − 𝑓(𝑏)
𝑓(𝑏) − 𝑓(𝑎)
≤
𝑐−𝑏
𝑏−𝑎
gilt. (K2) und (K1) sind zwar logisch gleichwertig, durch (K2) wird aber sofort ein Bezug zur Differenzierbarkeit hergestellt.
Wenn eine Funktion f in einem offenen Intervall I zweimal differenzierbar ist und dort f‘‘(x)≥0
gilt, ist die erste Ableitung f‘ in I monoton wachsend. Ist in einem solchen Intervall I a<b<c, so gibt
es nach dem Mittelwertsatz der Differentialrechnung dann Zwischenzahlen zab im Intervall ]a,b[
und Zwischenzahlen zbc im Intervall ]b,c[, sodass gilt
(f(b)-f(a))/(b-a) = f‘(zab) und (f(c)-f(b))/(c-b) = f‘(zbc) .
Dadurch ist (K2) aufgrund der Monotonie der ersten Ableitung erfüllt.
Eine zweimal differenzierbare Funktion f, deren zweite Ableitung in einem offenen Intervall I
niemals negativ wird, ist damit in I konvex.
Konvexe Funktionen in ℝ sind z.B. die Exponentialfunktion, die reziproke Exponentialfunktion,
die Quadratfunktion, die hyperbolische Kosinusfunktion cosh und die Potenzfunktionen x↦ x2n für
natürliche Zahlen n>1. Da für konvexe Funktionen die Ungleichung (K1) gilt, erhält man z.B. die
folgende Relation
cosh(α∙x+(1-α) ∙y)≤ α∙cosh(x) + (1-α) ∙cosh(y)
für alle reellen Zahlen x,y und für alle α mit 0≤α≤1.
Sei umgekehrt f in einem offenen Intervall I zweimal differenzierbar, dort konvex und seien a,b
zwei Zahlen aus I mit a<b und f‘(a)≠f‘(b). Da die Sekanten gegen die Tangenten konvergieren,
gibt es eine Zahl za aus dem Intervall ]a,b[, sodass der Anstieg (f(za)-f(a))/(za-a) sich von f‘(a) um
weniger als |f‘(a)-f‘(b)|/10 unterscheidet. Ebenso gibt es eine Zahl zb >b aus dem offenen Intervall
I, sodass sich der Anstieg (f(zb)-f(b))/(zb-b) von f’(b) um weniger als |f‘(a)-f‘(b)|/10 unterscheidet.
Die beiden Anstiege ihrerseits können dann nicht identisch sein, also muss aufgrund von (K2)
(f(za)-f(a))/(za-a)< (f(zb)-f(b))/(zb-b)
gelten. Dann ist f’(a) kleiner als f’(b), die erste Ableitung monoton wachsend und die zweite Ableitung nicht negativ.
Eine weitere Äquivalenz zu (K1) kann erhalten werden, wenn nicht das Wachstum aufeinanderfolgende Anstiege, sondern der Anstiege selbst als Kriterium betrachtet wird. Solche Anstiegsfunktionen S sollen wie folgt in Intervallen I\{z} erklärt sein:
20
S: x⟼(f(x)-f(z))/(x-z).
Damit geben wir die folgende Definition für Konvexität:
(K3) Es sei I ein offenes Intervall und z irgendein Element aus I. Eine Funktion f:I→ ℝ soll konvex
genannt werden, wenn S monoton wachsend in I\{z} ist.
Für a<b<c aus einem Intervall I, wird (K2) mit z=b aus S(a)≤S(c) erhalten, also folgt (K2) aus (K3).
Umkehrung, f genüge der Bedingung (K2) oder (K1).
Für x<z<y folgt S(x) ≤S(y) unmittelbar aus (K2).
Sei x<y<z. Dann ist
und aufgrund von (K1)
gleichwertig damit
𝑦=𝑥
𝑦−𝑥
𝑧−𝑦
+𝑧
𝑧−𝑥
𝑧−𝑥
𝑓(𝑦) ≤ 𝑓(𝑥)
𝑦−𝑥
𝑧−𝑦
+ 𝑓(𝑧)
𝑧−𝑥
𝑧−𝑥
f(y)(z-x)≤f(x)(z-y)+f(z)(y-x)
Durch Addition von f(z)∙z auf beiden Seiten und Umstellungen erhalten wir
f(z)∙z-f(z)∙y+f(x)∙(y-z) = (y-z)∙(f(x)-f(z))≤f(z)∙z-f(z)∙x+f(y)∙(x-z) =(x-z)∙(f(y)-f(z))
und das besagt nach Division auf beiden Seiten durch (x-z)∙(y-z) gerade S(x) ≤S(y).
Sei z<x<y.
Aufgrund von
ist nach (K1)
daraus folgt
und das besagt S(x)≤S(y).
𝑥=𝑥∙
𝑦−𝑧
𝑥−𝑧
𝑥−𝑧
= 𝑧 ∙ �1 −
�+𝑦∙
𝑦−𝑧
𝑦−𝑧
𝑦−𝑧
𝑓(𝑥) ≤ 𝑓(𝑧) ∙ �1 −
𝑥−𝑧
𝑥−𝑧
� + 𝑓(𝑦) ∙
𝑦−𝑧
𝑦−𝑧
𝑓(𝑥) − 𝑓(𝑧) 𝑓(𝑦) − 𝑓(𝑧)
≤
𝑦−𝑧
𝑥−𝑧
Damit ist die paarweise Äquivalenz der Erklärungen (K1),(K2),(K3) nachgewiesen.
21
z
x
y
Aus diesen Definitionen folgern wir elementare Aussagen, die durch (A1),(A2) usw. bezeichnet
werden. Wenn f zwar konvex aber nicht konstant in einem Intervall I ist, kann, wie die Quadratfunktion zeigt, durchaus f(a)=f(b) für a≠b gelten. Liegt aber eine Gleichheit von Funktionswerten
an drei Stellen vor, muss f in einem Intervall konstant sein. Wir beweisen:
(A1) Ist f konvex im Intervall I ,a,b,c∈I, a<b<c und f(a)=f(b)=f(c) , so ist f(x)=f(a) für alle x aus [a,c].
Wenn f in [a,b] nicht konstant ist, gibt es ein u aus ]a,b[ mit f(u)≠f(a). Für dieses u kann nicht
f(u)>f(a) sein, sonst würde (u,f(u)) oberhalb der Sekante durch (a,f(a)) und (b,f(b)) liegen. Wenn
aber f(u)<f(a)=f(b) ist, liegt (b,f(b)) oberhalb der Sekante durch (u,f(u)) und (c,f(c)), das widerspricht der Konvexität von f, also ist f konstant in [a,b]. Wenn f nichtkonstant in [b,c] ist, gibt es ein
v∈]b,c[ mit f(v)<f(b)=f(c). Dann liegt (b,f(b)) oberhalb der Sekante durch (a,f(a)) und (v,f(v)) und
dem widerspricht die Konvexität in [b,c]. Das beweist (A1).
Aus (A1) können unmittelbar Aussagen über lokale Minima und Maxima konvexer Funktionen
erhalten werden.
Wie die Quadratfunktion zeigt, kann eine konvexe Funktion ein lokales Maximum annehmen,
wenn der Definitionsbereich ein abgeschlossenes Intervall ist, denn die Quadratfunktion nimmt,
beschränkt auf das Intervall [0,1], an der Stelle x=1 sogar ein globales Maximum an. Diese Situation ist bei offenen Intervallen nur für konstante Funktionen möglich. Wir beweisen:
22
(A2) Ist f konvex im offenen Intervall I und hat f in a∈I ein lokales Maximum, dann ist f konstant in
I.
Es kann in der Nähe von a weder Zahlen x,y∈I mit x<a, a<y und f(x)≤f(a), f(a)> f(y) noch mit
f(x)<f(a), f(y)≤f(a) geben. In beiden Fällen würde (a,f(a)) oberhalb der Sekante durch (x,f(x)) und
(y,f(y)) liegen. Es muss also nach (A1) für alle Zahlen x<a und a<y f(x)=f(a)=f(y) gelten, damit ist f
konstant.∎
D.h. umformuliert, eine nicht konstante konvexe Funktion kann lokale Maxima nur in den Randpunkten annehmen.
Die nicht eingeschränkte Quadratfunktion ist eine konvexe, nicht konstante Funktion im offenen
Intervall ]-∞,∞[, die ein Minimum annimmt. Werden jedoch zwei lokale Minima von einer konvexen Funktion angenommen, muss die Funktion lokal konstant sein. Wir beweisen:
(A3) Ist f konvex im offenen Intervall I, so ist die Menge
M:={x| x∈I, f nimmt lokales Minimum in x an}
die leere Menge, eine Einermenge oder Teilintervall von I und f dort konstant.
Es sei M weder die leere Mengen noch eine Einermenge, a,b∈M und a<b. Es kann nicht f(a)<f(b)
sein, sonst müsste es in der Nähe von b Zahlen y mit a<y<b geben mit f(y)≥f(b). Die Sekante durch
(a,f(a)) und (b,f(b)) würde dann unterhalb von (y,f(y)) liegen, ein Widerspruch zur Konvexität von
f.
Ähnlich ist die Situation unter f(a)>f(b). In diesen Fällen müsste es in der Nähe von a Zahlen x mit
a<x<b geben mit f(x)≥f(a). Die Sekante durch (a,f(a)) und (b,f(b)) würde dann unterhalb von
(x,f(x)) liegen, ein Widerspruch zur Konvexität von f.
Ist f(a)=f(b) und f nicht konstant in der Nähe von a, muss aufgrund von (A1) für jedes x>a in der
Nähe von a f(x)>f(a) sein. Die horizontale Sekante durch (a,f(a)), (b,f(a)) liegt dann unterhalb
(x,f(x)), ein Widerspruch. Es muss also f(x)=f(a) sein, damit ist nach (A1) f konstant in [a,b]. Gibt
es Zahlen l∈M mit l<a, ist f konstant in [l,a], dadurch konstant in [l,b]. Gibt es Zahlen Zahlen r∈M
mit b<r, ist f konstant in [b,r], dadurch konstant in [l,r]. Also ist M ein Intervall und f dort konstant. ∎
Die konvexe Funktion x↦1/x ist zwar im offenen Intervall ]0,1[ nicht beschränkt, wohl aber in
allen abgeschlossenen und beschränkten Intervallen [a,b] mit 0<a<b<1. Wie die Exponentialfunktion exp in [0,∞[ zeigt, folgt die Beschränktheit einer konvexen Funktion nicht allein aus der Abgeschlossenheit des Definitionsintervalls. Allgemein gilt nur:
(A4) Ist f konvex im abgeschlossenen und beschränkten Intervall [a,b], so ist f beschränkt.
Wir betrachten eine nichtkonstante konvexe Funktion f in einem beschränkten Intervall [a,b].
Angenommen, f ist nicht beschränkt in [a,b] und nimmt beliebig große Werte an.
Dann müsste es eine Zahl z aus dem Intervall [a,b] geben, sodass (z,f(z)) oberhalb der Sekante
durch (a,f(a)) und (b,f(b)) liegt. Das ist ein Widerspruch.
Angenommen f ist unbeschränkt und nimmt beliebig kleine negative Werte an. Dann muss es
eine monoton gegen -∞ fallende Folge (f(xn)) mit monoton konvergenter Folge (xn) geben. Es sei
(xn) von links konvergent gegen eine Zahl z∈]a,b[. Offensichtlich gibt es eine natürliche Zahl N,
sodass für alle n>N der Punkt (x1,f(x1)) oberhalb der Sekante durch (a,f(a)) und (xn,f(xn)) liegt, das
23
widerspricht der Konvexität von f. Konvergiert (xn) von rechts gegen z, so gibt es ein N, sodass für
alle n>N (x1,f(x1)) oberhalb der Sekante durch (xn,f(xn)) und (b,f(b)) liegt, das widerspricht ebenfalls der Konvexität von f. Ähnliche Überlegungen lassen sich für die Randpunkte durchführen. Die
Annahme der Unbeschränktheit führt also zu Widersprüchen, daher muss f beschränkt sein. ∎
Die bekannten konvexen elementaren Funktionen sind stetig in ihren Definitionsintervallen. Sind
die Intervalle abgeschlossen und beschränkt, muss in den Randpunkten nicht notwendig Stetigkeit vorliegen. Eine solche konvexe Funktion ist z.B. f(0):=1, f(1):=1, f(x):=0 für alle x∈]0,1[. Wir
beweisen die Stetigkeit jedoch für offene Intervalle.
(A5) Ist f konvex im offenen Intervall I, so ist f in I stetig.
Es sei z irgendeine Zahl aus dem offenen Intervall I. Wir beweisen die Stetigkeit in z und nehmen
der Einfachheit f(z)=0 an. Wenn f nicht in einem Intervall [z,Z] konstant ist, muss f(x) aufgrund
von (A1) für alle x aus Intervallen ]z,z+1/n], n>N, von null verschieden sein.
Angenommen, in beliebiger Nähe rechts von z gibt es Zahlen x mit f(x)>0. Aufgrund von (K1) kann
es dann nicht in beliebiger Nähe rechts von z auch Zahlen y mit f(y)<0 geben, d.h. in einer Rechtsumgebung von z muss für alle x≠z f(x)>0 gelten. Dann muss f in dieser Umgebung wachsen, denn
aufgrund von (K3) ist für x<y
0< f(x)/(x-z) ≤f(y)/(y-z) , also f(x)≤f(y)(x-z)/(y-z)<f(y).
Ein Grenzwert lim f(xn) >0 für eine monoton fallende Folge (f(xn)) , wobei lim xn = z, ist nicht möglich, da lim f(xn) < f(x1) gilt, und daher für geeignete n die Punkte (xn,f(xn)) oberhalb der Sekante
durch (z,0) und (x1,f(x1)) liegen würden.
Wenn es in beliebiger Umgebung rechts von z Zahlen x mit f(x)>0 gibt, muss also f rechtsseitig
stetig sein.
Wenn es in beliebiger Umgebung rechts von z Zahlen x mit f(x)<0 gibt, folgt daraus allein nicht
die rechtsseitige Stetigkeit.
Wenn f links von z lokal konstant ist und rechts von z lokal positiv, so ist die Stetigkeit bewiesen.
Wenn f links von z lokal konstant ist und rechts von z lokal negativ, so ist lim f(yn)<0 nicht möglich, weil (z,0) oberhalb einer Sekante durch (-yn,0) und (yn,f(yn)) liegen würde.
Es muss also f rechtsseitig stetig sein, damit ist f insgesamt stetig in z, wenn f linksseitig konstant
ist.
Es sei f linksseitig nicht lokal konstant.
Angenommen, in beliebiger Linksumgebung von z ist f außerhalb z positiv. Aufgrund von (K3) ist f
dann monoton fallend und linksseitig stetig, da limx→o- f(x)>0 nicht möglich ist, weil Sekanten
durch (x,f(x)) und (z,0) unterhalb einiger (y,f(y)), x<y, liegen würden. Ist f in beliebiger Rechtsumgebung von z ebenfalls außerhalb z positiv, ist f insgesamt in z stetig. Ist f in beliebiger Rechtsumgebung von z negativ, so führt die Annahme limy→z+ f(y) <0 zu einem Widerspruch zu (K3), weil
limy→z+S(y) = -∞ folgen würde. Also ist auch in diesem Fall f rechtsseitig stetig, damit ist f stetig in
z.
Angenommen, in beliebiger Linksumgebung von z ist f außerhalb z negativ. Dann ist aufgrund von
(K3) f lokal linksseitig wachsend. Wenn der linksseitige Grenzwert negativ ist und f rechtsseitig
lokal positiv, erhält man Sekanten durch (x,f(x)) und (y,f(y)) für an z nahe x und y,x<z,y>z, sodass
(z,0) oberhalb liegt.
Wenn f sowohl rechtsseitig als auch linksseitig von z negativ ist, erhält man trivialerweise einen
Widerspruch vermöge jeder Sekante durch (x,f(x)) und (y,f(y)), x<z,z<y.
24
Also ist f stetig in z, damit stetig im offenen Intervall.∎
Konvexe Funktionen können anfangs monoton fallen und später monoton wachsen. Eine anfangs
monoton wachsende Funktion kann später konstant bleiben, aber nicht mehr streng monoton
fallen.
Wir beweisen:
(A6) Ist f konvex im offenen Intervall I und hat dort keine lokalen Minimumstellen, so ist f entweder streng monoton wachsend oder streng monoton fallend.
Wir wählen zwei Zahlen a,b∈I mit a<b. Es kann nicht f(a)=f(b) gelten. Da f konvex ist, kommen für
die Funktionswerte f(x) bei x aus ]a,b[ nur Werte f(x)≤f(a) infrage. Dadurch gäbe es in [a,b] lokale
Minima, da f stetig ist.
Sei also f(a)<f(b) und a<x<b. Es kann nicht f(x)≤f(a) sein, sonst wären lokale Minima in [a,b] vorhanden. Also bleibt nur f(a)<f(x)<f(b).
Sei x,a∈I und x<a. Wenn f(x)≥f(a) wäre, müsste in [x,b] ein lokales Minimum liegen, also ist
f(x)<f(a).
Sei x,b∈I, x>b und f(x)≤f(b), dann würde (b,f(b)) oberhalb der Sekante durch (a,f(a)) und (x,f(x))
liegen.
Es muss also f streng monoton wachsend sein.
Der Beweis für f(a)>f(b) verläuft analog.∎
(A7) Ist f konvex im offenen Intervall I und die Menge M der lokalen Minimumstellen in I nicht
leer, so ist f in L={x| x∈I,x<a für alle a∈M}, falls L≠∅, streng monoton fallend und in
R={x| x∈I,x>b für alle b∈M}, falls R≠∅, streng monoton wachsend.
Wenn M eine Einermenge, M={a}, ist, sind sowohl L als auch R nicht leer. Da a lokale Minimumstelle ist, kann aufgrund von (A6) f in L nur streng monoton fallen und in R nur streng monoton
wachsen.
Ist M weder nichtleer noch Einermenge, muss M nach (A3) ein Intervall sein. M ist nach unten
beschränkt, wenn L nicht leer ist. In diesem Fall existiert das Infimum a=inf M∈I und wegen der
Stetigkeit von f ist a Element von M. L ist dann offen und es kann (A6) angewendet werden, f ist
streng monoton fallend, sonst wäre a eine lokale Maximumstelle.
M ist nach oben beschränkt, wenn R nicht leer ist. Dann existiert das Supremum b=sup M∈I und
wegen der Stetigkeit ist b Element von M. R ist offen und es kann (A6) angewendet werden. Da b
lokale Maximumstelle wäre, wenn f in R streng monoton fallen würde, muss f in R streng monoton wachsen. ∎
Konvexe Funktionen sind also abschnittsweise monotone Funktionen. Nun beweist I.P.Natanson
in dem Lehrbuch „Theorie der Funktionen einer reellen Variablen“, dass monotone Funktionen
fast überall differenzierbar sind. „Fast überall differenzierbar“ meint, dass es zu jeder Zahl z>0
eine Folge von Intervallen (In) gibt, sodass die Menge der Stellen, an denen f nicht differenzierbar
ist, in der Vereinigung aller dieser Intervalle liegt und die Gesamtlänge Σ |In| kleiner als z ist. Aus
(A7) erhalten wir dadurch
25
(A8) Eine in einem Intervall I (abgeschlossen oder offen) konvexe Funktion ist fast überall differenzierbar.
Die Funktion x↦|x| zeigt, dass selbst elementare konvexe Funktionen nicht überall differenzierbar
sein müssen und an Minimumstellen m f‘(m-)=0 oder f‘(m+)=0 gelten muss. Allerdings kann für
offene Intervalle generell aus der Konvexität auf einseitige Differenzierbarkeit geschlossen werden. Wir beweisen:
(A9) Ist f im offenen Intervall I konvex, so ist f an jeder Stelle z∈I einseitig differenzierbar.
Sei z eine beliebige Stelle aus dem offenen Intervall I. Die oben eingeführte Anstiegsfunktion S ist
nach (K3) wachsend in I\{z} und nach (A5) stetig. Nachzuweisen ist die Existenz der Grenzwerte
limx→z- S(x) und limy→z+ S(y).
Gilt für beliebig nahe rechts von z liegende y f(y)≥f(z), ist nach (A6) und (A7) S wachsend in
I∩]z,∞[ und nicht negativ, damit S nach unten durch 0 beschränkt und somit existiert das Infimum
inf {S(y)| y∈ I∩]z,∞[}. Dieses Infimum ist aufgrund der Stetigkeit und des Wachsens der Anstiegsfunktion S gerade limy→z+ S(y)= f‘(z+).
Analog führen die Überlegungen, wenn für nahe links von z liegende x f(x)≥f(z) angenommen
werden kann, zur Existenz von limx→z- S(x)= f‘(z-).
Am Wachstum von S ändert sich nichts, wenn für nahe an z rechts liegende y f(y)<f(z) angenommen werden kann. Es ist dann aber in einer Rechtsumgebung von z S negativ und 0 nicht mehr
untere Schranke. Eine untere Schranke der Werte von S(y) kann jedoch dann durch links von z
liegende x erfolgen, da S(x)≤S(y) für alle y>z>x gilt; dabei ist natürlich f(x)<f(z) aufgrund der
Konvexität von f nicht möglich. Also existiert das Infimum inf {S(y)|y>z} und aufgrund der Stetigkeit und des Wachstums von S ist dieses Infimum identisch mit f‘(z+).
Liegen in beliebiger Nähe links von z Werte x mit f(x)<f(z), ist S in einer Linksumgebung von z
positiv. Da f konvex ist, kann f in einer Rechtsumgebung von z zwar konstant, aber nicht für in
beliebiger Nähe rechts von z liegende y f(y)<f(z) sein. Dadurch sind obere Schranken für
{S(x)|x<z} durch S(y)≥0 für irgendwelche y rechts nahe z zu erhalten und es existiert das Supremum sup {S(x)|x<z} und das ist wegen der Stetigkeit und des Wachsens von S identisch mit f‘(z-).
∎
Obwohl monotones Verhalten einer Funktion durch die erste Ableitung einfach beschrieben wird,
kann in konkreten Fällen der Nachweis der Ungleichung f‘(x)≥0 aufwändige Untersuchungen erforderlich machen, wenn z.B. f noch von mehreren Parametern abhängig ist.
Einfacher ist zumeist das Verhalten im Unendlichen zu untersuchen. Ist aus anderen Zusammenhängen heraus bekannt, dass f bzgl. x konvex ist, kann die Monotonie aufgrund einer allgemeinen
Aussage erhalten werden. Wir beweisen:
(A10) Ist f konvex in ℝ>0 und limx→∞ f(x)=0, wird f niemals negativ und ist monoton fallend. Entweder gibt es eine Zahl a≥0, sodass für alle y≥a f(y)=0 gilt, oder f hat keine einzige Minimumstelle
und ist streng monoton fallend.
M bezeichne wieder die Menge der lokalen Minimumstellen von f. Wir diskutieren mehrere Fälle
von M. Der einfachste Fall ist offensichtlich M= ℝ>0. Dann ist f identisch 0 in ℝ>0 , also a=0, und
(A10) erfüllt.
26
Es sei M=∅. Nach (A6) muss f streng wachsend oder streng fallend sein. Angenommen, f ist streng
wachsend. Dann fixieren wir irgendeine Zahl z>0. Für alle y>z ist S(y)>0 und andererseits limu→∞
S(u)=0. Aufgrund der Stetigkeit von S und des Wachstums von S erhält man dadurch einen Widerspruch.
Angenommen, f ist streng fallend. Dann kann es offensichtlich keine negativen Funktionswerte
geben, also muss f(x)>0 für alle x>0 gelten, denn f(x)=0 für irgendwelche x würde M≠∅ implizieren. Damit ist die Aussage (A10) bewiesen.
Es sei M={z}. Dann ist nach (A7) f streng wachsend in ]z,∞[ und damit limy→∞ f(y)=0 nicht möglich, wir erhalten einen Widerspruch.
Es sei M ein echtes Teilintervall von ℝ>0 . Es kann M aufgrund von (A7) nicht nach oben beschränkt sein. Als echtes Teilintervall existiert jedoch das Infimum a=inf M und wegen der Stetigkeit von f ist a Element von M, M also abgeschlossen. Nach (A7) ist dadurch f streng fallend in
]0,a[, damit dort positiv und f(y)=0 für alle y≥a. Damit ist (A10) bewiesen. ∎
In ℝ>0 sind alle Potenzfunktionen x↦x-a mit a>0 konvex, aber nicht generell ihre Reziproken, denn
die Quadratwurzelfunktion x↦√x ist z.B. konkav. In den „Inequalities“ von Hardy, Littlewood und
Pólya ist (geringfügig umformuliert) die folgende Aufgabe gestellt, die einen Zusammenhang zwischen Konvexität und Reziprozität herstellt:
(A11)
Wenn f in ℝ>0 konvex ist, so auch F: x↦ f(1/x)∙ x.
Zum Beweis verwenden wir eine vierte Definition für Konvexität. Wir haben oben aus (K1) für
x<y<z hergeleitet:
𝑓(𝑦) ≤ 𝑓(𝑥)
𝑦−𝑥
𝑧−𝑦
+ 𝑓(𝑧)
.
𝑧−𝑥
𝑧−𝑥
Multiplikation mit z-x und Termumstellung führt zur Definition (K4) der Konvexität von f
(K4)
f(x)∙(z−y) + f(y)∙(x−z) + f(z)∙(y−x) ≥ 0.
Wir wollen in ℝ>0 für a<b<c nachweisen
F(a)∙(c−b) + F(b)∙(a−c) + F(c)∙(b−a) ≥ 0.
Ausgehend von (K4) setzen wir a=1/z, b=1/y, c=1/x und haben somit a<b<c. (K4) wird in a,b,c:
f(1/c)∙(1/a−1/b) + f(y)∙(1/c−1/a) + f(1/a)∙(1/b−1/c) ≥ 0.
Multiplikation mit dem Produkt a∙b∙c bringt
f(1/c)∙(b−a)∙c + f(1/b)∙(a−c)∙b + f(1/a)∙(c−b)∙a ≥ 0
und das ist nach Umstellung
F(a)∙(c−b) + F(b)∙(a−c) + F(c)∙(b−a) ≥ 0. ∎
27
Wie erinnerlich wird eine Funktion f als konkav bezeichnet, wenn –f konvex ist. Es ist die Logarithmusfunktion ln konkav in ℝ>0 , also –ln konvex. Nach (A11) ist x↦−x∙ln(1/x) konvex, das ist
x↦x∙ln x und die Konvexität dieser Funktion kann auch leicht durch die Positivität der zweiten
Ableitung bestätigt werden. Die Funktion ist nichts anderes als der Logarithmus der stark wachsenden Funktion x↦xx , die deshalb logarithmisch konvex genannt wird.
Es kann (K1) verallgemeinert werden auf gewogene Mittel endlich vieler reeller Zahlen. Ist eine
Funktion f erklärt im Intervall I, sind x1,…,xn endlich viele Zahlen aus I und sind α1,…,αn Gewichte
aus [0;1] mit α1+…+αn=1, so heißt die Funktion f konvex in I, falls die Ungleichung
(K1n)
f(α1∙x1+…+αn∙xn) ≤ α1∙f(x1)+…+αn∙f(xn)
für alle n>1, alle x1,…,xn aus I und alle α1,…,αn aus [0;1] gilt.
Wir wollen das Verhalten dreier Mittelwertbildungen, die in der beschreibenden Statistik von
Bedeutung sind, untersuchen.
Es sei n eine natürliche Zahl größer als 1 und x1,…,xn irgendeine Sequenz reeller positiver Zahlen.
Das arithmetische Mittel dieser Sequenz ist erklärt durch
𝑛
𝑥 ∶= �
𝑘=1
𝑥𝑘
.
𝑛
Das harmonische Mittel ist erklärt als Reziproke des arithmetischen Mittels aus den reziproken
Eingangszahlen, also
1
.
𝑥𝐻 ∶=
1 𝑛 1
∑𝑘=1
𝑛
𝑥𝑘
Das geometrische Mittel ist erklärt durch das n-te Radikal aus dem Produkt der Eingangszahlen,
also
𝑛
𝑥𝐺 ∶= ��
𝑛
𝑥𝑘 .
𝑘=1
Für die Sequenz 1;4 z.B. wird das arithmetische Mittel 2,5; das geometrische 2 und das harmonische Mittel 2/(1+0,25)=1,6. Wir erhalten die Relation 1,6<2<2,5. Das harmonische Mittel ist damit
kleiner als das geometrische und das geometrische kleiner als das arithmetische. Alle Mittel sind
gleich, wenn die Eingangsdaten gleich sind. Generell gilt für positive reelle Zahlen xk
𝑥𝐻 ≤ 𝑥𝐺 ≤ 𝑥 .
Übersichtlicher als Nachweise dieser Relationen durch vollständige Induktion sind Nachweise auf
der Grundlage des Konvex-Begriffs nach Jensen, wie die folgenden Überlegungen zeigen.
In ℝ>0 ist die Logarithmusfunktion ln konkav (-ln konvex), da ln‘‘(x)= -1/x² <0 gilt. In der Ungleichung (K1n) mit den Gewichten 1/n sind dann nur die Seiten zu vertauschen und so wird erhalten
28
ln 𝑥 ≥
𝑛
𝑛
𝑛
𝑛
1
1
�
ln(𝑥𝑘 ) = ln(� 𝑥𝑘 ) = ln �� 𝑥𝑘 = ln 𝑥𝐺 .
𝑛
𝑛
𝑘=1
𝑘=1
𝑘=1
Durch Delogarithmieren folgt
𝑥𝐺 ≤ 𝑥 .
Für das harmonische Mittel kann ausgenutzt werden, dass –ln konvex ist:
ln 𝑥𝐻 = − ln
𝑛
𝑛
𝑛
1
1
1
1
1
�
≤ �
−ln( ) = ln(� 𝑥𝑘 ) = ln 𝑥𝐺 .
𝑛
𝑛
𝑥𝑘
𝑛
𝑘=1
𝑘=1 𝑥𝑘
𝑘=1
Delogarithmieren bringt
𝑥𝐻 ≤ 𝑥𝐺 .
Von den drei Mittelwerten ist also das harmonische das kleinste und das arithmetische das größte. Das Gleichheitszeichen kann nur gelten, wenn die Eingangszahlen xk identisch sind, weil nur
dann das abgeschlossene „Intervall“ [min{x1,…,xn}, max{x1,…,xn}] aus einer Zahl besteht, denn es
gilt
[min{x1,…,xn}, max{x1,…,xn}] = {∑k=1..n αkxk | αk≥0, ∑k=1..n αk =1}
und –ln ist streng konvex bzw. ln ist streng konkav.
Herunterladen