1 Darstellung von sin1° durch komplexe Radikale Nach der Galois-Theorie kann sin1° zwar nicht durch reelle aber durch komplexe Radikale ausgedrückt werden. Die Konstruktionsverfahren zum Goldenen Schnitt führen zu einem einfachen Ausdruck für cos72° : cos72° = Daraus ergibt sich und weiterhin √5 −1 . 4 1 sin72° = �10 + 2√5 4 1 1 sin36° = � (1 − cos72°) = �10 − 2√5 2 sowie 4 1 1 cos36° = + √5. 4 4 Aus den bekannten Ausdrücken für sin30° und cos30° können Darstellungen für sin6° und dann schließlich für sin3° erhalten werden. Damit sind die Möglichkeiten Sinuswerte für ganzzahlige Gradargumente durch reelle Radikale auszudrücken erschöpft. Wir erhalten sin6° = sin(36° - 30° ) = cos6° = cos(36°- 30°) = sin3° = 1� 8 4 �30−6√5 −√5 −1 8 und √3+√15+ �10−2√5 , 8 − √3 − √15 − �10 − 2√5 1 cos3° = �8 + √3 + √15 + �10 − 2√5 4 Die komplexe Zahl a= cos3° + i∙ sin3° hat den Absolutwert 1 und liegt in der Nähe von z=1, deshalb kann cos1°+ i∙ sin1° durch den Hauptwert der dritten Wurzel von a berechnet werden. Dieser Hauptwert ist (wie im Reellen ) Grenzwert der Folge (zn), erklärt durch z0:=1, zn+1:= (a/zn² +2zn)/3 . Der Imaginärteil dieses Grenzwerts ist dann sin1°. Durch z4 erhält man schon 16 Dezimalen von sin1° unter Verwendung einer 20-stelligen Arithmetik, also ist floor(z41016) = floor(exp(i∙π/180) ∙ 1016) und 2 konkret: sin1°= 0,01745 24064 37283 5… und cos1°= 0,99984 76951 563912… Auch die Konjugierte von a, a*, liegt in der Nähe von z=1 und der Hauptwert der dritten Wurzel aus a* kann mit demselben Anfangswert z0:=1 und mit zn+1:= (a*/zn² +2zn)/3 als Grenzwert der Folge erhalten werden. Der Imaginärteil der dritten Wurzel aus a lässt sich durch (i∙∛a* − i∙∛a)/2 ausdrücken und so erhält man sin1° und cos1° als Differenz von Hauptwerten komplexer Radikale: 3 3 𝑠𝑖𝑛1° = �𝑖 ∙ �1 �8 + √3 + √15 + �10 − 2√5 − 𝑖 �8 − √3 − √15 − �10 − 2√5 − 𝑖 ∙ �1 �8 + √3 + √15 + �10 − 2√5 + 𝑖 �8 − √3 − √15 − �10 − 2√5 � /2 3 4 4 cos1° = � �1 �8 + √3 + √15 + �10 − 2√5 − 4 𝑖 4 3 4 4 �8 − √3 − √15 − �10 − 2√5 + �1 �8 + √3 + √15 + �10 − 2√5 + 𝑖 �8 − √3 − √15 − �10 − 2√5 � /2 . 4 4 Einzugsgebiete für Newton-Iterationen zur Berechnung komplexer Wurzeln Wie in dem Lehrbuch von L.Collatz (Funktionalanalysis und numerische Mathematik) soll unter einem Einzugsgebiet zu einem Iterationsverfahren, das Folgen xn+1:= F(xn) durch eine Funktion F generiert, eine Menge von Startwerten x0 gehören, die Folgenkonvergenz gegen eine gesuchte Größe impliziert. Die reelle positive m-te Wurzel aus einer positiven reellen Zahl a kann sehr schnell durch das Newton-Verfahren zur Berechnung von Nullstellen differenzierbarer Funktionen erhalten werden, denn x↦ xm – a ist genügend oft differenzierbar und liefert durch F:x↦((m-1)x + a/xm-1)/m , also mit xn+1:= ((m-1)xn + a/xnm-1)/m , ein Verfahren, das von quadratischer Ordnung gegen die Wurzel konvergiert. Als Startwert kommt jede positive Zahl x0 infrage, in der Software wird x0 als ein bester Startwert ausgewählt. Für ungerade m sind auch negative Startwerte möglich, aber nicht jede negative Zahl, da Fälle xN=0 auftreten können. Die von ℝ<0 abzutrennende Menge kann durch {x: x<0∧∃nF(n)(x)=0} zwar formal einfach beschrieben, aber konkret nicht elementar notiert werden: eine elementare Angabe des vollständigen Einzugsgebiets ist für die m-te Wurzel aus einer positiven Zahl a bei ungeradem m nicht möglich. Komplizierter ist die Sachlage, wenn m-te komplexe Wurzeln iterativ, ohne Verwendung trigonometrischer Funktionen berechnet werden müssen. Für die Fälle m=2,3,4 und 5 sollen dazu Einzugsgebiete elementar angegeben werden, wobei wir uns auf Hauptwerte beschränken. Für von null verschiedene a gibt es m verschiedene Wurzeln, darunter soll eine als Hauptwert ausgezeichnet sein und durch 𝒎 √𝒂 3 bezeichnet werden. In Übereinstimmung dieser Zahl mit a^(1/m) im CAS Maple ist es diejenige Zahl, die durch 𝛼 𝑚 𝑚 �|𝑎| ∙ exp(𝑖 ∙ ) festgelegt ist, wenn α derjenige Polarwinkel von a ist, der die Relationen –π < α≤ π einhält, ausgenommen m ist ungerade und a reell negativ, dann soll gelten 2𝑘+1 �−|𝑎| ∶= − Da für die Hauptwerte 𝑚 𝑚 √𝑎 ∙ √𝑎 2𝑘+1 𝑚−1 �|𝑎| . = 𝑎 gilt, gibt es eine1:1 Zuordnung der Folgen (zn), erklärt durch 𝑧𝑛+1 = �(𝑚 − 1)𝑧𝑛 + 𝑧 𝑛 zu den Folgen (wn), erklärt durch 𝑚 𝑤𝑛+1 = �(𝑚 − 1)𝑤𝑛 + 𝑚 𝑎 𝑚−1 1 � 𝑤𝑛 𝑚−1 , � /𝑚, 𝑚 die durch zn = wn∙ √𝑎 hergestellt werden kann. Es konvergiert (zn) gegen √𝑎 genau dann, wenn (wn) gegen 1 konvergiert. Einzugsgebiete für a können daher durch Einzugsgebiete für 1 hergeleitet werden: a=|a|∙ei∙φ, -π<φ≤π, E1 Einzugsgebiet zu 1, so ist 𝑚 𝑚 Ea := {z∙ √𝑎: z∈ E1} Einzugsgebiet zu √𝑎 . Damit ist auch der Fall a<0 und m ungerade erfasst, denn für negative Radikanden a und ungerade m sind natürlich Einzugsgebiete Ea einfach zu erhalten durch Einzugsgebiete für die m-te Wurzel aus |a|, nämlich durch {-z: z∈E|a|}. Der formale Zusammenhang zwischen E1 und Ea führt für nichtreelle a nur in konkreten Fällen zu elementaren Ausdrücken, die lediglich Real- und Imaginärteile von a enthalten. Solche Ausdrücke sollen im Folgenden für m=2,3,4 und 5 aus allgemeinen Ausdrücken hergeleitet werden. Wir beginnen mit den Quadratwurzeln. Die beiden Wurzeln aus a≠0 sind dann −√a und √a. Da wir die Überlegungen immer mit a=1 beginnen, haben wir Iterierte F(n) zur Funktion zu untersuchen. F: z↦(z +1/z)/2 = (z+ z*/(zz*))/2 Es hat F an der Stelle z=0 eine Polstelle erster Ordnung und es bildet F die reinimaginären Zahlen i∙r (r reell,r≠0) entweder auf 0 oder wieder auf reinimaginäre Zahlen ab. Die Iterierten F(n)(i∙r) führen dadurch entweder zu einer Zahl N mit F(N)(i∙r)=0 oder zu einer divergenten Folge, i∙r gehö- 4 ren nicht zu Einzugsgebieten. Wenn der Realteil von z positiv bzw. negativ ist, so ist der Realteil von z+ z*/(zz*) ebenso positiv bzw. negativ, also bildet F die rechte Halbebene bzw. die linke Halbebene in sich ab. Es sind +1 und -1 Fixpunkte und wie bekannt werden ℝ>0 bzw. ℝ<0 1:1 auf sich abgebildet . Es soll nachgewiesen werden, dass die Iterierten F(n)(z) für komplexe Zahlen z der rechten Halbebene gegen 1 und für z aus der linken Halbebene gegen -1 konvergieren. Da F(-z)=- F(z) gilt, ist eine Beschränkung auf die rechte Halbebene ausreichend. Wird für z die exponentielle Darstellung z = r∙exp(i∙φ) gewählt, so gilt für z aus der rechten offenen Halbebene r>0, | φ| < π/2 : 1 2 F(z) = r∙( + 1 )∙ 2𝑟² 1 2 cos φ + i∙ r∙( − 1 )∙ 2𝑟² sin φ . F bildet also {z: |z|=1, Re(z)>0} auf das halboffene Intervall ]0,1] ab. Außerhalb des Einheitskreises wird der Realteil des Bildpunktes F(z) kleiner als der Realteil von z und der Betrag des Imaginärteils kleiner als der Betrag des Imaginärteils von z, für |z|≥1 ist daher |F(z)|≤|z|. Da für alle z≠0 F(z)=F(1/z) gilt, erhält man für 0<|z|≤1 die Relation |F(z)|=|F(1/z)|≤1/|z|. Die Funktionswerte F(z) müssen jedoch für |z|>1 nicht ebenfalls außerhalb des Einheitskreises liegen. So ist z.B. |F(z)|=0,6548… für z mit r=√3 und φ=2π/5. Wird andererseits z aus dem Innern des Einheitskreises gewählt, müssen nicht alle Iterierten ebenfalls innerhalb des Einheitskreises liegen. Das zeigt eine Rechnung für die ersten 10 Iterierten mit z=√0,1∙exp(i∙π∙0,47). Damit ist nicht unmittelbar klar, dass die Iterierten überhaupt konvergieren. Natürlich liegt Konvergenz vor, wenn der Startwert z0 eine positive reelle Zahl ist und für alle Startwerte z0≠1, die auf dem Einheitskreis, aber nicht auf der imaginären Achse, liegen, ist die Konvergenz der Iteriertenfolge leicht einzusehen, da dann F(z0) nach der obigen trigonometrischen Darstellung eine reelle positive Zahl ist und die bekannte Konvergenz quadratischer Ordnung vorliegt. Für die weiteren Überlegungen soll gelten Re(z0)>0. Die Iterierten F(n)(z0) sollen durch zn bezeichnet werden, die Beträge durch rn, die (Hauptwerte der) Argumente durch φn. Da Re(z0)>0 sein sollte, ist auch Re(zn)>0 und damit | φn| < π/2. Aus der obigen trigonometrischen Darstellung für F(z) erhält man eine Relation über die Argumente der Bilder: Daraus folgt für alle n≥0 tan(arg(F(z))) = 1 𝑟 1 𝑟+ 𝑟 𝑟− | φn+1|≤| φn| , tan(arg(z)). 5 da die Tangensfunktion innerhalb [0, π/2[ monoton wachsend ist. Die Folge (|φn|) ist daher monoton fallend. Um die | zn| eingrenzen zu können, untersuchen wir |F(z)|² für z≠0 und erhalten durch die Verwendung der exponentiellen Darstellung 1 2 1 𝑟 1 2 1 𝑟 1 4 1 𝑟² 1 2 |F(r∙exp(i∙φ))|²= ∙(r∙𝑒 𝑖∙𝜑 + ∙𝑒 −𝑖∙𝜑 )∙ ∙(r∙𝑒 −𝑖∙𝜑 + ∙𝑒 𝑖∙𝜑 )= ∙(r²+ )+ ∙cos(2φ)≥(1+cos(2φ))/2=cos²φ. Wie vorhin schon erwähnt, gilt |F(z)|≤|z|, falls |z|≥1, und |F(z)|≤1/|z|, falls 0<|z|≤1 ist. Für alle z der rechten offenen Halbebene ergibt sich somit eine Eingrenzung der Bildpunkte F(z): cos(arg(z)) ≤ |F(z)| ≤ max{|z|, 1/|z|}. Für alle n≥1 gilt dann offensichtlich cos(φ0)≤cos(φn-1)≤rn≤max{r0,1/r0,1/cos(φ0)}. Durch diese Eingrenzung der rn existiert eine positive Zahl C kleiner als 1, sodass für alle n gilt |rn²-1|/(rn²+1)≤C. Dadurch gilt für die Argumente tan|φn|≤Cn ∙tan|φ0|, folglich limn→∞φn =0. Wie im Reellen lässt sich die Annäherung der Iterierten an den Fixpunkt z=1 durch die erste Ableitung ausdrücken. Dazu beschreiben wir in Polarkoordinaten die Kurve |F ‘(r ∙exp(i∙φ))|=1. Aus (r²cos2φ -1)²+ r4sin22φ = 4r4 folgt für die Kurve −𝑐𝑜𝑠2𝜑+�𝑐𝑜𝑠 𝑟= � 3 2 2𝜑+3 . Die Funktion φ↦ −cos2φ + √(cos²2φ+3) ist monoton wachsend für φ aus [0,π/2], für φ=0 ist der Radius r=1/√3 , also kleiner als 1, und für φ=π/2 ist der Radius r=1. Gibt es eine natürliche Zahl N mit zN ∈ℝ, so liegt ab N der reelle Fall vor, damit auch Konvergenz gegen den Fixpunkt 1 der anfangs komplexen Iteriertenfolge. Anderenfalls lässt sich ein Radius 1/√3<R<1 und ein Winkel 0<α<π/6 so bestimmen, dass innerhalb des abgeschlossenen Winkelraums B:={ρ∙ei∙ψ : R≤ ρ≤ max{r0,1/r0,1/cos(φ0)},| ψ|≤α} der Betrag von F‘(z) für z aus B kleiner als 1 ist und mit jedem z aus B auch die Strecke von 1 nach z noch vollständig in B liegt. Wir wählen ein N so, dass R≤cos(φN) und |φN|≤ α ist. Dann liegen für alle n mit n≥N die zn in B und somit auch die Strecken, die zn mit 1 verbinden. 6 In dem abgeschlossenen und beschränkten Bereich B nimmt der Betrag der ersten Ableitung von F einen maximalen Wert W kleiner als 1 an. Für jede komplexe Zahl z aus dem Bereich B erhält man die Differenz F(z)-F(1) im Komplexen zwar nicht durch einen Mittelwertsatz der Differentialrechnung als Produkt aus der ersten Ableitung und der Differenz z-1, aber über ein Integral eine Abschätzung des Betrags: 𝑧 Daraus folgt |𝐹(𝑧) − 1| = |𝐹(𝑧) − 𝐹(1)| = | � 𝐹 ′ (𝑠)𝑑𝑠| ≤ |𝑧 − 1| ∙ 𝑊 . 1 |zN+n – 1| ≤ |zN – 1 |∙ Wn und beweist die Konvergenz der Folge (zn) gegen den Fixpunkt 1. Einzugsgebiete E1 sind daher die Mengen {z: Re(z)>0} und {z: Re(z)<0}. Startwerte z0 aus der rechten Halbebene führen zum Hauptwert +1, Startwerte z0 aus der linken Halbebene führen wegen F(-z)=-F(z) zum negativen Hauptwert. Aus der obigen Relation zwischen E1 und Ea geht hervor, dass für jede positive Zahl a, die rechte Halbebene auch Einzugsgebiet für √a ist. Wenn im komplexen Fall von a das Argument arg(a) bekannt ist, kann (aufgrund derselben Relation) das Einzugsgebiet Ea zum Hauptwert √a wie folgt angegeben werden: Ea = {z: -π/2 < arg(z) - arg(a)/2 < π/2}. Anders ausgedrückt: nichtverwendbare Startwerte liegen auf der Geraden {z: z=0 oder |arg(z)−arg(a)/2|= π/2}. Für negative Radikanden a (arg(a)= π) ist somit Einzugsgebiet für den Hauptwert die obere Halbebene, also E-|a| = {z: Im(z)>0 }. Eine Drehung ist zu berücksichtigen für reinimaginäre Radikanden a (arg(a)=±π/2). Für solche a aus der oberen Halbebene (arg(a)=π/2) ist Einzugsgebiet zum Hauptwert die Menge {z: Im(z) > -Re(z)}, für a aus der unteren Halbebene die Menge {z: Im(z) < Re(z)}. Ist von a nur Real- und Imaginärteil bekannt, können zumindest Teilgebiete der vollständigen Einzugsgebiete angegeben werden: Wenn a im ersten oder zweiten (offenen!) Quadranten liegt, führen alle Startwerte aus dem ersten offenen Quadranten zum Hauptwert; wenn a im dritten oder vierten offenen Quadranten liegt, führen alle Startwerte aus dem vierten offenen Quadranten zum Hauptwert. 7 Wir wenden uns den Kubikwurzeln zu. Offensichtlich ist e3:=cos120° + i∙ sin120° = - ½ + i∙ ½∙√3 eine Lösung der Gleichung z³ = 1 (sog. primitive dritte Wurzel der Kreisteilungsgleichung) und sämtliche Lösungen der Gleichung sind ∛1, e3 ∙ ∛1 , e32 ∙ ∛1. Für das Newton-Verfahren zur Berechnung von ∛1 im Komplexen sind Iteriertenfolgen (zn) mit zn:=F(n)(z0) zu untersuchen, dabei ist, wie eingangs erwähnt, die zugrundeliegende Funktion F im kubischen Fall erklärt durch F: z↦(2z +1/z²)/3. Die Funktion F hat nur im Nullpunkt einen Pol, zweiter Ordnung, und die drei Fixpunkte: ∛1, e3 ∙ ∛1 , e32 ∙ ∛1. Durch F wird ℂ\{0, ∛1, e3 ∙ ∛1 , e32 ∙ ∛1} 3:1 auf ℂ\{1} abgebildet. Es ist leicht herzuleiten, dass punktierte Geraden {s∙exp(i∙φ): s reell und s≠0} nur dann auf sich selbst, und auf den Nullpunkt, durch F abgebildet werden, wenn φ=0 oder φ= ±π/3 ist, wobei die Abbildung nur teilweise 3:1 ist, denn 2s+1/s²= 3t ist für t<1 durch positive s nicht lösbar. Daraus folgt, dass Einzugsgebiete im kubischen Fall stärker als im quadratischen eingeschränkt werden müssen. Schon bei Beschränkung auf reelle Zahlen, kommen zwar als Startwerte alle positiven Zahlen infrage, aber nicht mehr sämtliche negativen, z.B. nicht s:= -1/∛2 und alle diejenigen negativen Zahlen x, zu denen es ein N gibt mit F(N)(x)=s, dann ist zN+1=0; treten jedoch diese Fälle nicht auf, kommen sehr wohl auch negative Startwerte in Betracht, denn bis auf endlich viele Ausnahmen sind die Iterierten dann positiv. Aus diesem Grunde werden wir Einzugsgebiete eher einschränken als optimal vergrößern. Im Unterschied zum Quadratwurzelfall können Startwerte nicht mehr ausnahmslos aus der rechten Halbebene gewählt werden, denn für z=-1/∛2∙ exp(-i∙2π/3) und für w= -1/∛2∙ exp(i∙2π/3) gilt arg(z)=π/3 und arg(w)= −π/3 sowie F(z)=F(w)=0. Einzugsgebiete, die zum Hauptwert führen sollen, sind daher innerhalb des Winkelraums, den die Halbstrahlen ±60° in der rechten Halbebene bilden, auszuwählen. Lässt man durch ein CAS ungefähr 3000 Lösungen von F(n)(z)=0 für n=1 bis n=7 ermitteln und ihre Lage in der Gaußschen Ebene anzeigen, sieht man, dass diese Lösungen nicht ausschließlich auf den 60°-Geraden liegen, sondern um den Nullpunkt, um diese Geraden und um die negative Realteilachse kumulieren; elementare Darstellungen für Einzugsgebiete zum Hauptwert erfordern daher einen kleinen Winkelraum um die positive Realteilachse, der dem Nullpunkt nicht zu nahe ist. 8 Wie im Fall der Quadratwurzel, ist |F(z)|≤ |z| für alle |z|≥1. Das ergibt sich unmittelbar aus der Dreiecksungleichung: |(2z +1/z²)/3|≤ 2|z|/3 + 1/3/|z²|≤|z|. Liegt z innerhalb des punktierten offenen Einheitskreises (0<|z|<1), so gilt: |(2z +1/z²)/3|≤ 2|z|/3 + 1/3/|z²| < 1/|z|². Bildpunkte F(z) für z auf dem Einheitskreisrand liegen also nicht außerhalb des Einheitskreises und ein Ausdruck des Betragsquadrats von F(z) macht klar, dass außer den Fixpunkten ∛1, e3 ∙ ∛1 und e32 ∙ ∛1 keine weiteren Punkte des Einheitskreisrandes auf den Kreisrand abgebildet werden: 1 1 −2𝑖𝜑 1 1 1 2 2 � 2𝑒 + 2𝑟𝑒 𝑖𝜑 � � 2 𝑒 2𝑖𝜑 + 2𝑟𝑒 −𝑖𝜑 � = � 4 + 𝑒 −3𝑖𝜑 + 𝑒 3𝑖𝜑 + 4𝑟 2 � 9 𝑟 𝑟 9 𝑟 𝑟 𝑟 1 1 4 = � 4 + cos(3𝜑) + 4𝑟 2 � 𝑟 9 𝑟 |𝐹(𝑧)|2 = wird für r=1 zu (5+4cos(3φ))/9 und dadurch gilt |F(z)|=1 für |z|=1 genau dann, wenn 3φ kongruent zu 0 modulo 2π ist. Daraus folgt, wie im Fall der Quadratwurzeln, dass für außerhalb des Einheitskreises liegende z zwar |F(z)| kleiner als |z| ist, die Bildpunkte F(z) aber nicht in jedem Fall ebenfalls außerhalb des Einheitskreises liegen müssen. Die Funktionen x↦ (4/x ∙cos(3φ) + 4x² +1/x4 )/9 sind für positive x und Winkel |φ| aus [0,π/6] nach unten beschränkt, konvex, differenzierbar und nehmen in ℝ>0 von |φ| abhängende Minima an. Diese Minima sind ihrerseits monoton fallende stetige Funktionen bzgl. |φ| , da die Kosinusfunktion in diesem Intervall fallend ist. Über erste Ableitungen und Lösungen einfacher Gleichungen erhält man z.B. für alle positiven Zahlen x die Relationen 3 (4/x + 4x² +1/x4 )/9 ≥1 und ( 4x² +1/x4 )/9 ≥ 0,5291… = �4/3 . Da 0,7² kleiner als ∛4/3 ist, folgt daraus |F(z)|> 0,7 für alle komplexen Zahlen z≠0 mit |arg(z)| ≤ π/6. Winkelabnahmen der Iterierten erhalten wir durch die exponentielle Darstellung von F(r∙eiφ). Es ist und 𝐹(𝑧) = 1 1 −2𝑖𝜑 1 1 1 1 � 2𝑒 + 2𝑟𝑒 𝑖𝜑 � = � 2 cos 2𝜑 + 2𝑟 ∙ cos 𝜑� + 𝑖 �− 2 sin 2𝜑 + 2𝑟 ∙ sin 𝜑� 3 𝑟 3 𝑟 3 𝑟 2𝑟 3 ∙ sin 𝜑 − sin 2𝜑 . tan(arg�𝐹(𝑧)�)) = 3 2𝑟 cos 𝜑 + cos 2𝜑 9 Aus arg(z)=0 folgt arg(F(z))=0. Die Einschränkung auf 0<|φ|≤π/6 führt zu einem positiven Nenner und zu einer Relation mit tan(φ): 𝑟³−cos 𝜑 �. 𝑟³+cos 𝜑−1/(2 cos 𝜑) tan(arg �𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 ��)) = tan 𝜑 ∙ � Im Falle eines positiven Zählers des zweiten Faktors ist dieser Faktor selbst positiv und kleiner als 1, weil cos²φ für | φ |≤π/6 größer als ¼ ist (der Nenner bleibt ja positiv nach Division durch cos φ). Der Fall r³= cos φ führt auf eine reelle positive Zahl F(z) und zu den bekannten reellen Iterationen. Ein negativer Zähler ist nur für r<1 möglich und cos φ – r³ < r³ + cos φ – 1/(2∙ cos φ), nur durch eine Begrenzung von r nach unten zu erreichen 1< 4∙r³ ∙ cos(π/6)≤ 4∙r³ ∙ cos φ , also wegen cos(π/6)= ½ ∙ √3 durch 𝑟> 6 1 √12 = 0,6609 … Wir begrenzen daher durch 0,7 und legen einen Bereich B fest: B:={z: |z|≥ 0,7 und |arg(z)|≤π/6}. Mit z liegt dadurch auch F(z) in B, denn |arg(z)|≤π/6 impliziert |F(z)|>0,7 und |z|≥ 0,7 und |arg(z)|≤π/6 impliziert |arg(F(z))|≤|arg(z)|≤ π/6 . Wenn wie bei den Quadratwurzeln zn, rn, φn erklärt sind durch F(n)(z0),|F(n)(z0)| und arg(zn), sind daher mit einem Startwert z0 aus B auch die folgenden Iterierten zn aus B und (|φn|) ist monoton fallend. Die Radien rn lassen sich offensichtlich nach oben beschränken, mit R:= max{r0, 3} erhält man 0,7 < r1 < R 0,7 < r2 < max{ r1, 3} ≤ R und ein einfacher Induktionsschluss garantiert, dass für alle n gilt. Mit 0,7 < rn < R C1:= 1 – cos(π/6)/R³ 10 erhält man für alle r mit 0,7≤r≤R und r³≥cos φ (0≤φ≤ π/6) daher r³(1-C1) ≤ R³(1-C1)=cos(π/6) < cos φ + C1(cos φ – 1/(2cos φ)), 0≤ (r³ - cos φ)/( r³+cos φ – 1/(2cos φ) ) < C1< 1. Die Funktion φ ↦ (cos φ – 0,7³)/(0,7³ + cos φ – 1/(2cos φ)) ist monoton wachsend in [0, π/6 ]. Dann ist C2:=max{(cosφ–0,7³)/(0,7³+cosφ–1/(2cosφ)): φ ∈[0, π/6 ]}=(√3/2-0,7³)/(0,7³+√3/2-1/√3)=0,827… und für cos φ≥r³ erreicht man für 0,7≤r≤1 daher 0≤ cos φ -r³ ≤ cos φ – 0,7³ ≤ C2∙(0,7³+cosφ–1/(2cosφ))≤ C2∙(r³+cosφ–1/(2cosφ)), (cos φ -r³)/(r³+cosφ–1/(2cosφ)) ))≤ C2< 1. Mit C:= max{C1, C2} ist folglich für alle φ mit |φ|≤π/6 und alle r mit 0,7≤r≤R weshalb für alle n≥0 |r³ - cos φ|/( r³+cos φ – 1/(2cos φ) ) ≤ C < 1, gilt. Daher ist (φn) eine Nullfolge. |tan φn|≤ Cn ∙|tan φ0| Der Betrag der ersten Ableitung F‘ (z) =(2 −2/z³)/3 wird für alle z mit |z|≥2 offensichtlich kleiner als 1 und für z mit |z|≥1 kleiner als 1 für Argumente arg(z) in der Nähe von 0. Da F‘(1)=0 gilt, kann |F‘(z)| um z=1 beliebig klein gehalten werden. Es gibt daher einen Radius R2∈]0,7;1[ und einen Winkel α∈]0,π/6[ derart, dass F den abgeschlossenen Winkelraum B 2 :={s∙ei∙ψ : R2 ≤ s ≤R, | ψ|≤α} in sich abbildet, der Betrag von F‘(z) für z aus B2 kleiner als 1 ist und mit jedem z aus B2 auch die Strecke von 1 nach z noch vollständig in B2 liegt. Wie im Falle der Quadratwurzel folgt daraus die Konvergenz der Iteriertenfolge (zn) gegen 1 und B ist ein Einzugsbereich, also E1 =B. Für positive reelle von 1 verschiedene Zahlen a können, wie oben erwähnt, Einzugsgebiete Ea durch E1 erhalten werden. Wenn a kleiner als 1 ist, so ist ∛a kleiner als 1, wenn a größer als 1 ist, wird ∛a kleiner als a. Da der Winkelbereich sich nicht verändert, erhält man einen Einzugsbereich für a>0 durch Ea:= {z: 0,7 ∙ max {1,|a|} < |z| und |Im(z)| ≤ Re(z)/√3 }. 11 Für alle komplexen Zahlen z∉ℝ<0 und ihre Konjugierten z* gilt offensichtlich 𝑚 𝑚 √𝑧 ∗ = ( √𝑧)∗ und für ungerade m gilt diese Relation auch für negative z , also für alle z ∈ ℂ. Die Hauptwerte ∛z lassen sich auf z aus dem ersten abgeschlossenen Quadranten {z: Re(z)≥0 und Im(z) ≥0} zurückführen, denn für z aus dem vierten abgeschlossenen Quadranten gilt ∛z = (∛(z*))* und z* liegt im ersten Quadranten. Für z aus dem dritten Quadranten gilt mit Ausnahme der negativen reellen Zahlen ∛z = - e3∙∛(-z). Da die Konjugierten der komplexen Zahlen aus dem zweiten Quadranten im dritten Quadranten liegen, können sie, ausgenommen die negativen Zahlen, wie folgt aus den Hauptwerten im ersten Quadranten ermittelt werden: ∛z = (-e3∙∛(-z*))*. Ein Einzugsgebiet Ea für eine negative reelle Zahlen a erhält man natürlich durch Ea:={-z: z∈ E|a| }, wenn E|a| Einzugsgebiet für die Zahl |a| ist. Für a∈ℂ\ℝ aus dem ersten offenen Quadranten, also für Re(a)>0 und Im(a)>0, ist theoretisch Ba:= {z: ∛|a|∙ 0,7 < |z| und |arg(z)−arg(a)/3|≤π/6 } Einzugsgebiet, von dem aber bei unbekannten Werten für ∛|a| und arg(a) nur Teilgebiete angegeben werden können. In diesen Teilbereichen müssen allerdings nicht mehr sämtliche zn liegen. Für a mit für Re(a)≥0 und Im(a)>0 erklären wir eine reelle Zahl r durch 1, 𝑓𝑎𝑙𝑙𝑠 𝑅𝑒(𝑎)2 + 𝐼𝑚(𝑎)2 ≤ 1 𝑟≔� |𝑅𝑒(𝑎)| + |𝐼𝑚(𝑎)| , 𝑠𝑜𝑛𝑠𝑡 und alternativ einen Teilbereich 𝐸𝑎 ≔ � {𝑧: 𝑟 ∙ 0,7 < |𝑧| 𝑢𝑛𝑑 0 ≤ 𝐼𝑚(𝑧) ≤ 𝑅𝑒(𝑧)}, 𝑓𝑎𝑙𝑙𝑠 𝐼𝑚(𝑎) ≥ 𝑅𝑒(𝑎) ≥ 0 {𝑧: 𝑟 ∙ 0,7 < |𝑧|; 𝑅𝑒(𝑧) > 0; −0,25 ∙ 𝑅𝑒(𝑧) ≤ Im(z) ≤ 0,57 ∙ 𝑅𝑒(𝑧)}, 𝑓𝑎𝑙𝑙𝑠 0 < 𝐼𝑚(𝑎) < 𝑅𝑒(𝑎) Es bleibt nachzuweisen, dass aus z ∈ Ea auch z ∈ Ba folgt. . 12 Für die Argumente von z ∈ Ba muss arg(z)∈[ φ/3−π/6, φ/3+ π/6] gelten. Für a:=|a|∙ ei∙φ mit 0<φ<π/4, folglich 0<Im(a)<Re(a), ist [ –π/12 , π/6 ] Teilintervall von [ φ/3−π/6, φ/3+ π/6], die Quotienten Im(z)/Re(z) liegen im Intervall[ -0,25; 0,57], also auch in [-tan(π/12), tan(π/6)] , dadurch gilt arg(z)∈[ –π/12 , π/6 ] ⊆[ φ/3−π/6, φ/3+ π/6]. Für a:=|a|∙ ei∙φ mit π/4≤φ≤π/2, folglich 0≤Re(a)≤Im(a), ist φ/3− π/6 ≤ 0 und φ/3+ π/6 ≥ π/4, daher gilt [0, π/4 ] ⊂[ φ/3−π/6, φ/3+ π/6]. 0≤Im(z)≤Re(z) ist gleichwertig mit 0≤arg(z)≤π/4, folglich ist auch in diesem Fall arg(z) Element von [ φ/3−π/6, φ/3+ π/6] für z aus Ea. Wenn |a|≤1 ist, gilt für z∈Ea 0,7<|z|, daraus folgt ∛|a| ∙ 0,7 <|z|. Wenn |a|>1 ist, gilt für z∈Ea 0,7(|Re(a)+|Im(a)|)<|z|, daraus folgt ∛|a| ∙ 0,7 <|z| aufgrund von ∛|a| < √|a| ≤|Re(a)|+|Im(a)|, damit ist zusammenfassend z Element von Ba, wenn z Element aus Ea ist. Auf Seite 2 wurde das Newton-Verfahren zur Berechnung des Hauptwerts von ∛a mit a= cos3°+i∙sin3° und dem Startwert z0=1 erwähnt und bei Beschränkung auf wenige Dezimalen zeigte sich z4 ≈ cos1° + i∙sin1°. Die Konvergenz der komplexen Folge (zn) ist gesichert, da offensichtlich r=1, -0,25<tan3°< 0,57 , |z0| >0,7 ist und somit z0 im Einzugsgebiet Ea liegt. Einzugsgebiete für m>3 erfordern außer der Herausnahme von mehr als zwei Geraden der Gaußschen Zahlenebene noch weitere Einschränkungen, die durch schwer konkret beschreibbare Bildungen von F(N)(z)=0 entstehen. Wir untersuchen im Folgenden den allgemeinen Fall und konkretisieren danach die Fälle m=4 und m=5. Die für a=1 zugrundeliegende Funktion ist F: z↦ ((m-1)z + 1/zm-1)/m. F ist meromorph in ℂ und hat im Nullpunkt eine Polstelle der Ordnung m-1. Die Fixpunkte von F erhält man durch (m-1)z + 1/zm-1 = m∙z , also durch die Kreisteilungsgleichung (siehe Wikipedia) zm = 1. Die primitive Wurzel dieser Gleichung mit dem kleinsten positiven Argument ist die Zahl e m = exp(i∙ 2π/m); sämtliche m-ten Wurzeln (von 1) sind dann die m-Zahlen em0 (=1, Hauptwert ), em1, …, emm-1. 13 In der Gaußschen Ebene liegen sie gleichmäßig verteilt auf dem Rand des Einheitskreises |z|=1, der Kreis wird also durch sie in m gleiche Sektoren aufgeteilt. Die einzigen Fixpunkte von F sind daher genau die komplexen Zahlen em0 , em1, …, emm-1. Außerhalb der Menge M:={0, em0 , em1, …, emm-1} ist F eine m:1 Abbildung, denn F(z)=w führt für w∉M zum separablen z-Polynom (m-1)zm -w∙ m∙zm-1 +1, das genau m Nullstellen hat. F ist keine lineare Abbildung, durch die im Komplexen Geraden in Geraden oder Kreise abgebildet werden. Es gibt jedoch m Geraden gk durch den Nullpunkt, die durch F wieder auf sich abgebildet werden, es ist also F: gk\{0} → gk surjektiv. Eine solche Gerade ist bestimmt durch gα:={r∙ei∙α:r∈ℝ} und es folgt aus F(r∙ei∙α)=s∙ei∙α eine Bestimmung für den Winkel α durch ei∙α∙m= ±1. Für ungerade m sind die Geraden daher durch die m-ten Einheitswurzeln bestimmt: gk = {r∙emk: r∈ ℝ}, k=0…(m-1). Für gerade m sind die m-ten Einheitswurzeln nicht ausreichend , da exp(i∙(k±m/2)∙2π/m)= − exp(i∙k∙2π/m) gilt und somit k und k±m/2 dieselbe Gerade generieren. Es müssen die Wurzeln von zm+1=0 herangezogen werden. Unter Verwendung der primitiven 2m-ten Einheitswurzel ist eine einfache Notation möglich: gk = {r∙e2mk: r∈ ℝ}, k=0…(m-1). Insgesamt entstehen jedoch dadurch auch lediglich m „Fixgeraden“. 𝑚 Daran ist zu erkennen, dass Einzugsgebiete für √1 mit wachsendem m immer enger werden. Die Dreiecksungleichung liefert für |z|≥1 die schon für m=2 und m=3 bekannte Beziehung |F(z)|≤|(1- 1/m)|z| + 1/m/|z|m-1≤ (1-1/m)|z| + |z|/m = |z|. Für z aus dem punktierten abgeschlossenen Einheitskreis werden die oberen Schranken mit wachsendem m größer: für 0<|z|≤1 gilt |F(z)|≤|(1- 1/m)|z| + 1/m/|z|m-1≤ 1/|z|m. Über die Winkel lässt sich wie in den Fällen m=2 und m=3 die Bildmenge des Einheitskreisrandes bestimmen: |F(ei∙φ)|² = ((m-1) ei∙φ + e -i∙φ∙(m-1))( (m-1) e-i∙φ + e i∙φ∙(m-1))/m² = (m²+2(m-1)∙(cos(φ∙m)-1))/m². Diese Relation zeigt, dass |F(ei∙φ)|=1 genau dann gilt, wenn cos(φ∙m)=1 ist, d.h. für den Winkel φ muss gelten φ= 2πk/m für k=0…(m-1); nur für die Fixpunkte z=emk gilt also |F(z)|=1. Somit gibt es eine Teilmenge von {z: |z|>1}, die durch F in den offenen Einheitskreis transformiert wird. 14 Um eine Aussage über den Abstand der Bildpunkte zum Nullpunkt zu erhalten, ist außer dem Argument einer komplexen Zahl z auch ihr Betrag zu berücksichtigen, man erhält 2 1 ((𝑚 𝑚2 �𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �� = − 1)2 𝑟 2 + 2(𝑚−1) cos(𝜑 𝑟 𝑚−2 ∙ 𝑚) + 1 ). 𝑟 2𝑚−2 Daraus geht hervor, dass für alle r>0 und alle Winkel |φ|≤π/(2m) die Ungleichungen |𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �| ≥ 1 �(𝑚 𝑚 − 1)2 𝑟 2 + 1 𝑟 2𝑚−2 2𝑚 ≥ �(𝑚 − 1)𝑚−1 /√𝑚 =:U gelten. Dass der rechts stehende Ausdruck U für m>1 kleiner als 1 ist, folgt aus (m-1)m-1< mm . Damit besteht die Möglichkeit, als Einzugsgebiet zumindest eine Teilmenge des Winkelbereichs W:={z: |z|≥U, |arg(z)| ≤π/(2m) } verwenden zu können. Zu untersuchen bleibt also, ob mit z aus diesem Winkelbereich auch F(z) in diesem Bereich liegt. Nun impliziert 𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 � = 1 �(𝑚 𝑚 − 1) ∙ 𝑟 ∙ 𝑒 𝑖∙𝜑 + 1 𝑒 −𝑖∙𝜑∙(𝑚−1) � 𝑟 𝑚−1 = 𝑖 1 1 1 �(𝑚 − 1)𝑟 ∙ cos 𝜑 + 𝑚−1 cos( 𝜑 ∙ (𝑚 − 1))� + �(𝑚 − 1) ∙ 𝑟 ∙ sin 𝜑 − 𝑚−1 sin( 𝜑 ∙ (𝑚 − 1))� 𝑚 𝑚 𝑟 𝑟 für Re(𝐹�𝑟 ∙ 𝑒 𝑖∙𝜑 �)≠0 tan arg�𝐹(𝑧)� = (𝑚−1)𝑟 𝑚 ∙sin 𝜑−sin( 𝜑∙(𝑚−1)) . (𝑚−1)𝑟 𝑚 ∙cos 𝜑+cos( 𝜑∙(𝑚−1)) Gilt |φ|≤π/(2m), ist cos(φ(m-1))>0, also Re(F(reiφ))>0 für alle r>0. Wenn arg(z)=φ=0 ist, wird offensichtlich arg(F(z))=0 und |F(z)|>U, also ist F(z)∈W . Wir können uns daher auf φ≠0 beschränken und erhalten für 0<|φ|≤π/(2m) dann mit sin 𝜑(𝑚 − 1) sin 𝜑 Φ≔ cos 𝜑(𝑚 − 1) (𝑚 − 1)𝑟 𝑚 + cos 𝜑 (𝑚 − 1)𝑟 𝑚 − tan| arg�𝐹(𝑧)� | = tan| arg(𝑧) | ∙ |Φ | . Zu untersuchen sind die Fälle Φ ≥ 0 und Φ ≤ 0. Bei Gleichheit ist arg(F(z))=0 und aus |φ|≤ π/(2m) folgt |F(z)| ≥ U , also gilt F(z)∈W (auch wenn z nicht Element von W ist). Fall 1: (m-1)rm > sin(φ(m-1))/sin φ. Trivialerweise ist dann (m-1)rm − sin(φ(m-1))/sin φ < (m-1)rm + cos(φ(m-1))/cos φ , daraus folgt ( unter arg(z)≠0) |arg(F(z))| < |arg(z)|, 15 also F(z)∈W. Fall 2: (m-1)rm < sin(φ(m-1))/sinφ, folglich r≤1 . Um den Betrag des Arguments von F(z) kleiner als den Betrag des Arguments von z werden zu lassen, ist zu fordern sin(φ(m-1))/sinφ - (m-1)rm < cos(φ(m-1))/cosφ +(m-1)rm , gleichwertig damit sin 𝜑(𝑚−2) sin 2𝜑 < (𝑚 − 1) ∙ 𝑟 𝑚 . Eine Kurvendiskussion zeigt, dass innerhalb des Intervalls [0, π/(2μ)] die Funktionen x↦sin(x∙μ)/sin(x) monoton abnehmend für μ>1, monoton zunehmend für 0<μ<1 und konstant für μ=1 sind. Um |arg(F(z))| < |arg(z)| zu erreichen, ist r=|z| abhängig von m einzuschränken. Wir setzen 𝑚 𝑚−2 , 𝑓𝑎𝑙𝑙𝑠 𝑚 ≥ 4 . 𝑟2 ∶= � 2(𝑚 − 1) Für r≥r2 gilt (m-1)rm≥(m-2)/2 > sin(φ(m-2))/sin(2φ), also 0<-Φ<1, damit ist für |z|≥r2 F(z)∈W. Die Zahlen r2 sind für m≥4 nicht mehr kleiner als die Zahlen U, sondern größer, aber kleiner als 𝑚 1 2 8 � : für m=4 ist r2=1/∜3=0,759.. und U=√27/2 = 0,7549.. ; für m≥5 lässt sich aus m²- 5,6m+5,6>0 auch (m-2)²> 4(m-1)∙0,4 > 4(m-1)(1-1/m)m folgern, damit ist r2 größer als U. Nun sind für positive x, ganzzahlige m>3 und Winkel |φ| aus [0,π/(2m)] die Funktionen 𝑓: 𝑥 ↦ 2(𝑚 − 1) 1 1 ((𝑚 − 1)2 𝑥 2 + cos(𝜑 ∙ 𝑚) + 2𝑚−2 ) 2 𝑚−2 𝑥 𝑥 𝑚 nach unten beschränkt, konvex, differenzierbar und nehmen in ℝ>0 von |φ| abhängende Minima an. Diese Minima sind ihrerseits monoton fallende stetige Funktionen bzgl. |φ| , da die Kosinusfunktion in diesem Intervall fallend ist. Für φ=0 gilt f(1)=1 und 1 ist auch das Minimum. Es gibt daher eine positive Zahl ψm, 𝑚 die nicht größer als π/(2m) ist, sodass |F(z)|≥ � 1 2 wird, falls der Betrag des Arguments von z 𝑚 nicht größer als ψm ist. Übersteigt außerdem der Betrag von z nicht � Betrag des Arguments von F(z) den Wert ψm nicht. Der Winkelbereich 1 2 , so übersteigt auch der 16 𝒎 𝟏 𝟐 B:={z: |z|≥ � , |arg(z)|≤ ψm} wird in allen Fällen durch F in sich abgebildet. Es wird nachgewiesen, dass B für m>3 als Einzugsbereich gewählt werden, denn, da B durch F in sich abgebildet wird und für alle z aus B |arg(F(z))| nicht größer als |arg(z)| wird, bleiben Iterierte zn:=F(n)(z0) von z0 aus B ebenfalls in B und die Argumentfolgen (|φn|) sind monoton abnehmend, daher konvergent. Die Nullfolgeneigenschaft ist allerdings nicht offensichtlich und wir machen wie in den Fällen m=2 und m=3 von den oberen und unteren Schranken für die Iteriertenbeträge Gebrauch. Die Eingrenzung 1 𝑚 √2 ≤ 𝑟1 ≤ max � 𝑟0 , 1 𝑚 , √2 � 𝑟0 des Betrags von z1 lässt sich offensichtlich auf alle höheren Indizes verallgemeinern. Setzen wir Ru:= 1 𝑚 √2 und Ro:= max � 𝑟0 , 1 𝑚 , √2 � , so 𝑟0 haben wir für alle n>0 die Ungleichungen Ru ≤ |zn| ≤ Ro. Die oben eingeführte Funktion Φ kann durch Hinzunahme des Grenzwertes limφ→0 Φ(φ) an der Stelle 0 zu einer im abgeschlossenen und beschränkten Bereich Ru ≤r≤ Ro , 0≤ |φ|≤ψm stetigen Funktion Φ erweitert werden. Innerhalb dieses Bereichs ist |Φ| <1, der Wert 1 wird nicht angenommen. Es gibt daher eine positive Zahl K kleiner als 1, sodass | φn|≤Kn|φ0| für alle n ist. Damit ist (φn) eine Nullfolge. Wie in den Fällen m=2 und m=3 gilt F‘(1)=0 auch für m>3 und ein Konvergenzbeweis für (zn) kann analog 𝑚 zum Fall m=3 geführt werden: B ist ein Einzugsbereich für m>3 und √1 . Vierte Wurzeln. Numerische Rechnungen ergeben ψ4= 0,319… und Ru= 0,840… , wir wählen der Einfachheit halber ψ4= 0,3 und Ru= 0,84 und berücksichtigen, dass die tan ψ4≈0,3 ist. Befindet sich der Radikand a im dritten offenen oder im vierten abgeschlossenen Quadranten, kann ∜a durch Konjugationen erhalten werden: ∜a =( ∜a*)*. Wie im Fall der kubischen Wurzeln sei erklärt 1, 𝑓𝑎𝑙𝑙𝑠 𝑅𝑒(𝑎)2 + 𝐼𝑚(𝑎)2 ≤ 1 . 𝑟≔� |𝑅𝑒(𝑎)| + |𝐼𝑚(𝑎)| , 𝑠𝑜𝑛𝑠𝑡 Befindet sich a im abgeschlossenen ersten Quadranten, kann {z: r∙0,84<|z|, -0,1∙Im(z)≤Re(z)≤ 0,5∙Im(z)}, befindet sich a im abgeschlossenen zweiten Quadranten, kann {z: r∙0,84<|z|, 0,2∙Im(z)≤Re(z)≤ 0,8∙Im(z)} 17 als Einzugsgebiet gewählt werden. Konvexe Funktionen Die in Latein-Wörterbüchern zu findenden Erklärungen „gewölbt, gerundet“ für convex , „Wölbung“ für convexum und „ausgehöhlt, hohl, gekrümmt“ für concavus machen es nicht leicht, zu verstehen, was eine konvexe oder eine konkave Funktion sein soll. Wird in einem x,-y-Koordinatensystem die Normalparabel y=x² von oben betrachtet, kann man sich zumindest darunter die Schnittfläche eines Gewölbes vorstellen. In der älteren mathematischen Literatur wurde deshalb die Quadratfunktion als konvex von oben und als konkav (hohl?) von unten bezeichnet. Um die vorige Jahrhundertwende führte der Mathematiker J.L.W.V.Jensen den Begriff „konvexe Funktion“ ein. In der in den Acta Mathematica 30 im Jahre 1906 erschienenen Publikation „Sur les fonctions convexes et les inégalités entre les valeurs moyennes“ wird eine stetige Funktion konvex genannt, wenn die arithmetischen Mittel von Funktionswerten niemals kleiner sind als die Funktionswerte der arithmetischen Mittel. Danach ist z.B. die stetige Quadratfunktion konvex, denn aus (a-b)²≥0 folgt sofort (a/2+b/2)² ≤ a²/2 + b²/2. Jensen wies nach, dass aus der Ungleichung für arithmetische Mittel und der (erforderlichen !) Stetigkeit eine Ungleichung für gewogene Mittel gefolgert werden kann, es gilt dann (K1) f(α∙a+β∙b)≤α∙f(a)+β∙f(b) für „Gewichte“ α,β∈[0;1] mit α+β =1. Legt man nur diese Ungleichung (K1), also keine zusätzliche Stetigkeit, der Erklärung des Konvexbegriffs zugrunde, kann Stetigkeit und einseitige Differenzierbarkeit bzgl. offener Intervalle gefolgert werden. Im Einklang mit Wikipedia soll im Folgenden deshalb nur die Definition (K1) verwendet und Stetigkeit und einseitige Differenzierbarkeit nachgewiesen werden. Da bekanntlich durch α∙(a,f(a))+β∙(b, f(b)), wobei α+β =1, die Strecke von (a,f(a)) nach (b, f(b)) beschrieben wird, kann (K1) geometrisch ausgedrückt werden: Die Sekanten an die Graphen konvexer Funktionen liegen niemals unterhalb der Graphen. Dazu gibt es eine suggestive Darstellung in der Wikipedia. Wir betrachten nun drei Zahlen u<v<w aus einem Intervall, in dem f konvex ist, und stellen die mittlere Zahl v rational aus u und w dar: 𝑣=𝑢∙ 𝑣−𝑢 𝑤−𝑣 +𝑤∙ . 𝑤−𝑢 𝑤−𝑢 18 Dann folgt aus (K1) die Ungleichung Daraus ergibt sich 𝑓(𝑣) ≤ 𝑓(𝑢) 𝑓(𝑣) Es folgt 𝑓(𝑣) 𝑣−𝑢 𝑤−𝑣 + 𝑓(𝑤) . 𝑤−𝑢 𝑤−𝑢 𝑤−𝑣 𝑤−𝑢 ≤ 𝑓(𝑢) + 𝑓(𝑤) . 𝑣−𝑢 𝑣−𝑢 𝑣−𝑤 𝑤−𝑢 + 𝑓(𝑢) ≤ 𝑓(𝑤) 𝑣−𝑢 𝑣−𝑢 und daraus 𝑓(𝑣) sowie 𝑤−𝑣 𝑣−𝑤 + 𝑓(𝑢) ≤ 𝑓(𝑤) − 𝑓(𝑣) 𝑣−𝑢 𝑣−𝑢 𝑓(𝑤) − 𝑓(𝑣) 𝑓(𝑣) − 𝑓(𝑢) ≤ . 𝑤−𝑣 𝑣−𝑢 Diese Ungleichung besagt geometrisch, dass Anstiege aufeinanderfolgender Sekanten sich niemals vermindern. u v w Aus dieser Ungleichung kann natürlich auch die Ungleichung (K1) erhalten werden, da die Umformungen jeweils gleichwertig sind. Anstelle der Variablen u,v,w schreiben wir a,b,c und erklä- 19 ren eine Funktion f als konvex in einem Intervall I, wenn für alle a,b,c aus I für a<b<c die Ungleichung (K2) 𝑓(𝑐) − 𝑓(𝑏) 𝑓(𝑏) − 𝑓(𝑎) ≤ 𝑐−𝑏 𝑏−𝑎 gilt. (K2) und (K1) sind zwar logisch gleichwertig, durch (K2) wird aber sofort ein Bezug zur Differenzierbarkeit hergestellt. Wenn eine Funktion f in einem offenen Intervall I zweimal differenzierbar ist und dort f‘‘(x)≥0 gilt, ist die erste Ableitung f‘ in I monoton wachsend. Ist in einem solchen Intervall I a<b<c, so gibt es nach dem Mittelwertsatz der Differentialrechnung dann Zwischenzahlen zab im Intervall ]a,b[ und Zwischenzahlen zbc im Intervall ]b,c[, sodass gilt (f(b)-f(a))/(b-a) = f‘(zab) und (f(c)-f(b))/(c-b) = f‘(zbc) . Dadurch ist (K2) aufgrund der Monotonie der ersten Ableitung erfüllt. Eine zweimal differenzierbare Funktion f, deren zweite Ableitung in einem offenen Intervall I niemals negativ wird, ist damit in I konvex. Konvexe Funktionen in ℝ sind z.B. die Exponentialfunktion, die reziproke Exponentialfunktion, die Quadratfunktion, die hyperbolische Kosinusfunktion cosh und die Potenzfunktionen x↦ x2n für natürliche Zahlen n>1. Da für konvexe Funktionen die Ungleichung (K1) gilt, erhält man z.B. die folgende Relation cosh(α∙x+(1-α) ∙y)≤ α∙cosh(x) + (1-α) ∙cosh(y) für alle reellen Zahlen x,y und für alle α mit 0≤α≤1. Sei umgekehrt f in einem offenen Intervall I zweimal differenzierbar, dort konvex und seien a,b zwei Zahlen aus I mit a<b und f‘(a)≠f‘(b). Da die Sekanten gegen die Tangenten konvergieren, gibt es eine Zahl za aus dem Intervall ]a,b[, sodass der Anstieg (f(za)-f(a))/(za-a) sich von f‘(a) um weniger als |f‘(a)-f‘(b)|/10 unterscheidet. Ebenso gibt es eine Zahl zb >b aus dem offenen Intervall I, sodass sich der Anstieg (f(zb)-f(b))/(zb-b) von f’(b) um weniger als |f‘(a)-f‘(b)|/10 unterscheidet. Die beiden Anstiege ihrerseits können dann nicht identisch sein, also muss aufgrund von (K2) (f(za)-f(a))/(za-a)< (f(zb)-f(b))/(zb-b) gelten. Dann ist f’(a) kleiner als f’(b), die erste Ableitung monoton wachsend und die zweite Ableitung nicht negativ. Eine weitere Äquivalenz zu (K1) kann erhalten werden, wenn nicht das Wachstum aufeinanderfolgende Anstiege, sondern der Anstiege selbst als Kriterium betrachtet wird. Solche Anstiegsfunktionen S sollen wie folgt in Intervallen I\{z} erklärt sein: 20 S: x⟼(f(x)-f(z))/(x-z). Damit geben wir die folgende Definition für Konvexität: (K3) Es sei I ein offenes Intervall und z irgendein Element aus I. Eine Funktion f:I→ ℝ soll konvex genannt werden, wenn S monoton wachsend in I\{z} ist. Für a<b<c aus einem Intervall I, wird (K2) mit z=b aus S(a)≤S(c) erhalten, also folgt (K2) aus (K3). Umkehrung, f genüge der Bedingung (K2) oder (K1). Für x<z<y folgt S(x) ≤S(y) unmittelbar aus (K2). Sei x<y<z. Dann ist und aufgrund von (K1) gleichwertig damit 𝑦=𝑥 𝑦−𝑥 𝑧−𝑦 +𝑧 𝑧−𝑥 𝑧−𝑥 𝑓(𝑦) ≤ 𝑓(𝑥) 𝑦−𝑥 𝑧−𝑦 + 𝑓(𝑧) 𝑧−𝑥 𝑧−𝑥 f(y)(z-x)≤f(x)(z-y)+f(z)(y-x) Durch Addition von f(z)∙z auf beiden Seiten und Umstellungen erhalten wir f(z)∙z-f(z)∙y+f(x)∙(y-z) = (y-z)∙(f(x)-f(z))≤f(z)∙z-f(z)∙x+f(y)∙(x-z) =(x-z)∙(f(y)-f(z)) und das besagt nach Division auf beiden Seiten durch (x-z)∙(y-z) gerade S(x) ≤S(y). Sei z<x<y. Aufgrund von ist nach (K1) daraus folgt und das besagt S(x)≤S(y). 𝑥=𝑥∙ 𝑦−𝑧 𝑥−𝑧 𝑥−𝑧 = 𝑧 ∙ �1 − �+𝑦∙ 𝑦−𝑧 𝑦−𝑧 𝑦−𝑧 𝑓(𝑥) ≤ 𝑓(𝑧) ∙ �1 − 𝑥−𝑧 𝑥−𝑧 � + 𝑓(𝑦) ∙ 𝑦−𝑧 𝑦−𝑧 𝑓(𝑥) − 𝑓(𝑧) 𝑓(𝑦) − 𝑓(𝑧) ≤ 𝑦−𝑧 𝑥−𝑧 Damit ist die paarweise Äquivalenz der Erklärungen (K1),(K2),(K3) nachgewiesen. 21 z x y Aus diesen Definitionen folgern wir elementare Aussagen, die durch (A1),(A2) usw. bezeichnet werden. Wenn f zwar konvex aber nicht konstant in einem Intervall I ist, kann, wie die Quadratfunktion zeigt, durchaus f(a)=f(b) für a≠b gelten. Liegt aber eine Gleichheit von Funktionswerten an drei Stellen vor, muss f in einem Intervall konstant sein. Wir beweisen: (A1) Ist f konvex im Intervall I ,a,b,c∈I, a<b<c und f(a)=f(b)=f(c) , so ist f(x)=f(a) für alle x aus [a,c]. Wenn f in [a,b] nicht konstant ist, gibt es ein u aus ]a,b[ mit f(u)≠f(a). Für dieses u kann nicht f(u)>f(a) sein, sonst würde (u,f(u)) oberhalb der Sekante durch (a,f(a)) und (b,f(b)) liegen. Wenn aber f(u)<f(a)=f(b) ist, liegt (b,f(b)) oberhalb der Sekante durch (u,f(u)) und (c,f(c)), das widerspricht der Konvexität von f, also ist f konstant in [a,b]. Wenn f nichtkonstant in [b,c] ist, gibt es ein v∈]b,c[ mit f(v)<f(b)=f(c). Dann liegt (b,f(b)) oberhalb der Sekante durch (a,f(a)) und (v,f(v)) und dem widerspricht die Konvexität in [b,c]. Das beweist (A1). Aus (A1) können unmittelbar Aussagen über lokale Minima und Maxima konvexer Funktionen erhalten werden. Wie die Quadratfunktion zeigt, kann eine konvexe Funktion ein lokales Maximum annehmen, wenn der Definitionsbereich ein abgeschlossenes Intervall ist, denn die Quadratfunktion nimmt, beschränkt auf das Intervall [0,1], an der Stelle x=1 sogar ein globales Maximum an. Diese Situation ist bei offenen Intervallen nur für konstante Funktionen möglich. Wir beweisen: 22 (A2) Ist f konvex im offenen Intervall I und hat f in a∈I ein lokales Maximum, dann ist f konstant in I. Es kann in der Nähe von a weder Zahlen x,y∈I mit x<a, a<y und f(x)≤f(a), f(a)> f(y) noch mit f(x)<f(a), f(y)≤f(a) geben. In beiden Fällen würde (a,f(a)) oberhalb der Sekante durch (x,f(x)) und (y,f(y)) liegen. Es muss also nach (A1) für alle Zahlen x<a und a<y f(x)=f(a)=f(y) gelten, damit ist f konstant.∎ D.h. umformuliert, eine nicht konstante konvexe Funktion kann lokale Maxima nur in den Randpunkten annehmen. Die nicht eingeschränkte Quadratfunktion ist eine konvexe, nicht konstante Funktion im offenen Intervall ]-∞,∞[, die ein Minimum annimmt. Werden jedoch zwei lokale Minima von einer konvexen Funktion angenommen, muss die Funktion lokal konstant sein. Wir beweisen: (A3) Ist f konvex im offenen Intervall I, so ist die Menge M:={x| x∈I, f nimmt lokales Minimum in x an} die leere Menge, eine Einermenge oder Teilintervall von I und f dort konstant. Es sei M weder die leere Mengen noch eine Einermenge, a,b∈M und a<b. Es kann nicht f(a)<f(b) sein, sonst müsste es in der Nähe von b Zahlen y mit a<y<b geben mit f(y)≥f(b). Die Sekante durch (a,f(a)) und (b,f(b)) würde dann unterhalb von (y,f(y)) liegen, ein Widerspruch zur Konvexität von f. Ähnlich ist die Situation unter f(a)>f(b). In diesen Fällen müsste es in der Nähe von a Zahlen x mit a<x<b geben mit f(x)≥f(a). Die Sekante durch (a,f(a)) und (b,f(b)) würde dann unterhalb von (x,f(x)) liegen, ein Widerspruch zur Konvexität von f. Ist f(a)=f(b) und f nicht konstant in der Nähe von a, muss aufgrund von (A1) für jedes x>a in der Nähe von a f(x)>f(a) sein. Die horizontale Sekante durch (a,f(a)), (b,f(a)) liegt dann unterhalb (x,f(x)), ein Widerspruch. Es muss also f(x)=f(a) sein, damit ist nach (A1) f konstant in [a,b]. Gibt es Zahlen l∈M mit l<a, ist f konstant in [l,a], dadurch konstant in [l,b]. Gibt es Zahlen Zahlen r∈M mit b<r, ist f konstant in [b,r], dadurch konstant in [l,r]. Also ist M ein Intervall und f dort konstant. ∎ Die konvexe Funktion x↦1/x ist zwar im offenen Intervall ]0,1[ nicht beschränkt, wohl aber in allen abgeschlossenen und beschränkten Intervallen [a,b] mit 0<a<b<1. Wie die Exponentialfunktion exp in [0,∞[ zeigt, folgt die Beschränktheit einer konvexen Funktion nicht allein aus der Abgeschlossenheit des Definitionsintervalls. Allgemein gilt nur: (A4) Ist f konvex im abgeschlossenen und beschränkten Intervall [a,b], so ist f beschränkt. Wir betrachten eine nichtkonstante konvexe Funktion f in einem beschränkten Intervall [a,b]. Angenommen, f ist nicht beschränkt in [a,b] und nimmt beliebig große Werte an. Dann müsste es eine Zahl z aus dem Intervall [a,b] geben, sodass (z,f(z)) oberhalb der Sekante durch (a,f(a)) und (b,f(b)) liegt. Das ist ein Widerspruch. Angenommen f ist unbeschränkt und nimmt beliebig kleine negative Werte an. Dann muss es eine monoton gegen -∞ fallende Folge (f(xn)) mit monoton konvergenter Folge (xn) geben. Es sei (xn) von links konvergent gegen eine Zahl z∈]a,b[. Offensichtlich gibt es eine natürliche Zahl N, sodass für alle n>N der Punkt (x1,f(x1)) oberhalb der Sekante durch (a,f(a)) und (xn,f(xn)) liegt, das 23 widerspricht der Konvexität von f. Konvergiert (xn) von rechts gegen z, so gibt es ein N, sodass für alle n>N (x1,f(x1)) oberhalb der Sekante durch (xn,f(xn)) und (b,f(b)) liegt, das widerspricht ebenfalls der Konvexität von f. Ähnliche Überlegungen lassen sich für die Randpunkte durchführen. Die Annahme der Unbeschränktheit führt also zu Widersprüchen, daher muss f beschränkt sein. ∎ Die bekannten konvexen elementaren Funktionen sind stetig in ihren Definitionsintervallen. Sind die Intervalle abgeschlossen und beschränkt, muss in den Randpunkten nicht notwendig Stetigkeit vorliegen. Eine solche konvexe Funktion ist z.B. f(0):=1, f(1):=1, f(x):=0 für alle x∈]0,1[. Wir beweisen die Stetigkeit jedoch für offene Intervalle. (A5) Ist f konvex im offenen Intervall I, so ist f in I stetig. Es sei z irgendeine Zahl aus dem offenen Intervall I. Wir beweisen die Stetigkeit in z und nehmen der Einfachheit f(z)=0 an. Wenn f nicht in einem Intervall [z,Z] konstant ist, muss f(x) aufgrund von (A1) für alle x aus Intervallen ]z,z+1/n], n>N, von null verschieden sein. Angenommen, in beliebiger Nähe rechts von z gibt es Zahlen x mit f(x)>0. Aufgrund von (K1) kann es dann nicht in beliebiger Nähe rechts von z auch Zahlen y mit f(y)<0 geben, d.h. in einer Rechtsumgebung von z muss für alle x≠z f(x)>0 gelten. Dann muss f in dieser Umgebung wachsen, denn aufgrund von (K3) ist für x<y 0< f(x)/(x-z) ≤f(y)/(y-z) , also f(x)≤f(y)(x-z)/(y-z)<f(y). Ein Grenzwert lim f(xn) >0 für eine monoton fallende Folge (f(xn)) , wobei lim xn = z, ist nicht möglich, da lim f(xn) < f(x1) gilt, und daher für geeignete n die Punkte (xn,f(xn)) oberhalb der Sekante durch (z,0) und (x1,f(x1)) liegen würden. Wenn es in beliebiger Umgebung rechts von z Zahlen x mit f(x)>0 gibt, muss also f rechtsseitig stetig sein. Wenn es in beliebiger Umgebung rechts von z Zahlen x mit f(x)<0 gibt, folgt daraus allein nicht die rechtsseitige Stetigkeit. Wenn f links von z lokal konstant ist und rechts von z lokal positiv, so ist die Stetigkeit bewiesen. Wenn f links von z lokal konstant ist und rechts von z lokal negativ, so ist lim f(yn)<0 nicht möglich, weil (z,0) oberhalb einer Sekante durch (-yn,0) und (yn,f(yn)) liegen würde. Es muss also f rechtsseitig stetig sein, damit ist f insgesamt stetig in z, wenn f linksseitig konstant ist. Es sei f linksseitig nicht lokal konstant. Angenommen, in beliebiger Linksumgebung von z ist f außerhalb z positiv. Aufgrund von (K3) ist f dann monoton fallend und linksseitig stetig, da limx→o- f(x)>0 nicht möglich ist, weil Sekanten durch (x,f(x)) und (z,0) unterhalb einiger (y,f(y)), x<y, liegen würden. Ist f in beliebiger Rechtsumgebung von z ebenfalls außerhalb z positiv, ist f insgesamt in z stetig. Ist f in beliebiger Rechtsumgebung von z negativ, so führt die Annahme limy→z+ f(y) <0 zu einem Widerspruch zu (K3), weil limy→z+S(y) = -∞ folgen würde. Also ist auch in diesem Fall f rechtsseitig stetig, damit ist f stetig in z. Angenommen, in beliebiger Linksumgebung von z ist f außerhalb z negativ. Dann ist aufgrund von (K3) f lokal linksseitig wachsend. Wenn der linksseitige Grenzwert negativ ist und f rechtsseitig lokal positiv, erhält man Sekanten durch (x,f(x)) und (y,f(y)) für an z nahe x und y,x<z,y>z, sodass (z,0) oberhalb liegt. Wenn f sowohl rechtsseitig als auch linksseitig von z negativ ist, erhält man trivialerweise einen Widerspruch vermöge jeder Sekante durch (x,f(x)) und (y,f(y)), x<z,z<y. 24 Also ist f stetig in z, damit stetig im offenen Intervall.∎ Konvexe Funktionen können anfangs monoton fallen und später monoton wachsen. Eine anfangs monoton wachsende Funktion kann später konstant bleiben, aber nicht mehr streng monoton fallen. Wir beweisen: (A6) Ist f konvex im offenen Intervall I und hat dort keine lokalen Minimumstellen, so ist f entweder streng monoton wachsend oder streng monoton fallend. Wir wählen zwei Zahlen a,b∈I mit a<b. Es kann nicht f(a)=f(b) gelten. Da f konvex ist, kommen für die Funktionswerte f(x) bei x aus ]a,b[ nur Werte f(x)≤f(a) infrage. Dadurch gäbe es in [a,b] lokale Minima, da f stetig ist. Sei also f(a)<f(b) und a<x<b. Es kann nicht f(x)≤f(a) sein, sonst wären lokale Minima in [a,b] vorhanden. Also bleibt nur f(a)<f(x)<f(b). Sei x,a∈I und x<a. Wenn f(x)≥f(a) wäre, müsste in [x,b] ein lokales Minimum liegen, also ist f(x)<f(a). Sei x,b∈I, x>b und f(x)≤f(b), dann würde (b,f(b)) oberhalb der Sekante durch (a,f(a)) und (x,f(x)) liegen. Es muss also f streng monoton wachsend sein. Der Beweis für f(a)>f(b) verläuft analog.∎ (A7) Ist f konvex im offenen Intervall I und die Menge M der lokalen Minimumstellen in I nicht leer, so ist f in L={x| x∈I,x<a für alle a∈M}, falls L≠∅, streng monoton fallend und in R={x| x∈I,x>b für alle b∈M}, falls R≠∅, streng monoton wachsend. Wenn M eine Einermenge, M={a}, ist, sind sowohl L als auch R nicht leer. Da a lokale Minimumstelle ist, kann aufgrund von (A6) f in L nur streng monoton fallen und in R nur streng monoton wachsen. Ist M weder nichtleer noch Einermenge, muss M nach (A3) ein Intervall sein. M ist nach unten beschränkt, wenn L nicht leer ist. In diesem Fall existiert das Infimum a=inf M∈I und wegen der Stetigkeit von f ist a Element von M. L ist dann offen und es kann (A6) angewendet werden, f ist streng monoton fallend, sonst wäre a eine lokale Maximumstelle. M ist nach oben beschränkt, wenn R nicht leer ist. Dann existiert das Supremum b=sup M∈I und wegen der Stetigkeit ist b Element von M. R ist offen und es kann (A6) angewendet werden. Da b lokale Maximumstelle wäre, wenn f in R streng monoton fallen würde, muss f in R streng monoton wachsen. ∎ Konvexe Funktionen sind also abschnittsweise monotone Funktionen. Nun beweist I.P.Natanson in dem Lehrbuch „Theorie der Funktionen einer reellen Variablen“, dass monotone Funktionen fast überall differenzierbar sind. „Fast überall differenzierbar“ meint, dass es zu jeder Zahl z>0 eine Folge von Intervallen (In) gibt, sodass die Menge der Stellen, an denen f nicht differenzierbar ist, in der Vereinigung aller dieser Intervalle liegt und die Gesamtlänge Σ |In| kleiner als z ist. Aus (A7) erhalten wir dadurch 25 (A8) Eine in einem Intervall I (abgeschlossen oder offen) konvexe Funktion ist fast überall differenzierbar. Die Funktion x↦|x| zeigt, dass selbst elementare konvexe Funktionen nicht überall differenzierbar sein müssen und an Minimumstellen m f‘(m-)=0 oder f‘(m+)=0 gelten muss. Allerdings kann für offene Intervalle generell aus der Konvexität auf einseitige Differenzierbarkeit geschlossen werden. Wir beweisen: (A9) Ist f im offenen Intervall I konvex, so ist f an jeder Stelle z∈I einseitig differenzierbar. Sei z eine beliebige Stelle aus dem offenen Intervall I. Die oben eingeführte Anstiegsfunktion S ist nach (K3) wachsend in I\{z} und nach (A5) stetig. Nachzuweisen ist die Existenz der Grenzwerte limx→z- S(x) und limy→z+ S(y). Gilt für beliebig nahe rechts von z liegende y f(y)≥f(z), ist nach (A6) und (A7) S wachsend in I∩]z,∞[ und nicht negativ, damit S nach unten durch 0 beschränkt und somit existiert das Infimum inf {S(y)| y∈ I∩]z,∞[}. Dieses Infimum ist aufgrund der Stetigkeit und des Wachsens der Anstiegsfunktion S gerade limy→z+ S(y)= f‘(z+). Analog führen die Überlegungen, wenn für nahe links von z liegende x f(x)≥f(z) angenommen werden kann, zur Existenz von limx→z- S(x)= f‘(z-). Am Wachstum von S ändert sich nichts, wenn für nahe an z rechts liegende y f(y)<f(z) angenommen werden kann. Es ist dann aber in einer Rechtsumgebung von z S negativ und 0 nicht mehr untere Schranke. Eine untere Schranke der Werte von S(y) kann jedoch dann durch links von z liegende x erfolgen, da S(x)≤S(y) für alle y>z>x gilt; dabei ist natürlich f(x)<f(z) aufgrund der Konvexität von f nicht möglich. Also existiert das Infimum inf {S(y)|y>z} und aufgrund der Stetigkeit und des Wachstums von S ist dieses Infimum identisch mit f‘(z+). Liegen in beliebiger Nähe links von z Werte x mit f(x)<f(z), ist S in einer Linksumgebung von z positiv. Da f konvex ist, kann f in einer Rechtsumgebung von z zwar konstant, aber nicht für in beliebiger Nähe rechts von z liegende y f(y)<f(z) sein. Dadurch sind obere Schranken für {S(x)|x<z} durch S(y)≥0 für irgendwelche y rechts nahe z zu erhalten und es existiert das Supremum sup {S(x)|x<z} und das ist wegen der Stetigkeit und des Wachsens von S identisch mit f‘(z-). ∎ Obwohl monotones Verhalten einer Funktion durch die erste Ableitung einfach beschrieben wird, kann in konkreten Fällen der Nachweis der Ungleichung f‘(x)≥0 aufwändige Untersuchungen erforderlich machen, wenn z.B. f noch von mehreren Parametern abhängig ist. Einfacher ist zumeist das Verhalten im Unendlichen zu untersuchen. Ist aus anderen Zusammenhängen heraus bekannt, dass f bzgl. x konvex ist, kann die Monotonie aufgrund einer allgemeinen Aussage erhalten werden. Wir beweisen: (A10) Ist f konvex in ℝ>0 und limx→∞ f(x)=0, wird f niemals negativ und ist monoton fallend. Entweder gibt es eine Zahl a≥0, sodass für alle y≥a f(y)=0 gilt, oder f hat keine einzige Minimumstelle und ist streng monoton fallend. M bezeichne wieder die Menge der lokalen Minimumstellen von f. Wir diskutieren mehrere Fälle von M. Der einfachste Fall ist offensichtlich M= ℝ>0. Dann ist f identisch 0 in ℝ>0 , also a=0, und (A10) erfüllt. 26 Es sei M=∅. Nach (A6) muss f streng wachsend oder streng fallend sein. Angenommen, f ist streng wachsend. Dann fixieren wir irgendeine Zahl z>0. Für alle y>z ist S(y)>0 und andererseits limu→∞ S(u)=0. Aufgrund der Stetigkeit von S und des Wachstums von S erhält man dadurch einen Widerspruch. Angenommen, f ist streng fallend. Dann kann es offensichtlich keine negativen Funktionswerte geben, also muss f(x)>0 für alle x>0 gelten, denn f(x)=0 für irgendwelche x würde M≠∅ implizieren. Damit ist die Aussage (A10) bewiesen. Es sei M={z}. Dann ist nach (A7) f streng wachsend in ]z,∞[ und damit limy→∞ f(y)=0 nicht möglich, wir erhalten einen Widerspruch. Es sei M ein echtes Teilintervall von ℝ>0 . Es kann M aufgrund von (A7) nicht nach oben beschränkt sein. Als echtes Teilintervall existiert jedoch das Infimum a=inf M und wegen der Stetigkeit von f ist a Element von M, M also abgeschlossen. Nach (A7) ist dadurch f streng fallend in ]0,a[, damit dort positiv und f(y)=0 für alle y≥a. Damit ist (A10) bewiesen. ∎ In ℝ>0 sind alle Potenzfunktionen x↦x-a mit a>0 konvex, aber nicht generell ihre Reziproken, denn die Quadratwurzelfunktion x↦√x ist z.B. konkav. In den „Inequalities“ von Hardy, Littlewood und Pólya ist (geringfügig umformuliert) die folgende Aufgabe gestellt, die einen Zusammenhang zwischen Konvexität und Reziprozität herstellt: (A11) Wenn f in ℝ>0 konvex ist, so auch F: x↦ f(1/x)∙ x. Zum Beweis verwenden wir eine vierte Definition für Konvexität. Wir haben oben aus (K1) für x<y<z hergeleitet: 𝑓(𝑦) ≤ 𝑓(𝑥) 𝑦−𝑥 𝑧−𝑦 + 𝑓(𝑧) . 𝑧−𝑥 𝑧−𝑥 Multiplikation mit z-x und Termumstellung führt zur Definition (K4) der Konvexität von f (K4) f(x)∙(z−y) + f(y)∙(x−z) + f(z)∙(y−x) ≥ 0. Wir wollen in ℝ>0 für a<b<c nachweisen F(a)∙(c−b) + F(b)∙(a−c) + F(c)∙(b−a) ≥ 0. Ausgehend von (K4) setzen wir a=1/z, b=1/y, c=1/x und haben somit a<b<c. (K4) wird in a,b,c: f(1/c)∙(1/a−1/b) + f(y)∙(1/c−1/a) + f(1/a)∙(1/b−1/c) ≥ 0. Multiplikation mit dem Produkt a∙b∙c bringt f(1/c)∙(b−a)∙c + f(1/b)∙(a−c)∙b + f(1/a)∙(c−b)∙a ≥ 0 und das ist nach Umstellung F(a)∙(c−b) + F(b)∙(a−c) + F(c)∙(b−a) ≥ 0. ∎ 27 Wie erinnerlich wird eine Funktion f als konkav bezeichnet, wenn –f konvex ist. Es ist die Logarithmusfunktion ln konkav in ℝ>0 , also –ln konvex. Nach (A11) ist x↦−x∙ln(1/x) konvex, das ist x↦x∙ln x und die Konvexität dieser Funktion kann auch leicht durch die Positivität der zweiten Ableitung bestätigt werden. Die Funktion ist nichts anderes als der Logarithmus der stark wachsenden Funktion x↦xx , die deshalb logarithmisch konvex genannt wird. Es kann (K1) verallgemeinert werden auf gewogene Mittel endlich vieler reeller Zahlen. Ist eine Funktion f erklärt im Intervall I, sind x1,…,xn endlich viele Zahlen aus I und sind α1,…,αn Gewichte aus [0;1] mit α1+…+αn=1, so heißt die Funktion f konvex in I, falls die Ungleichung (K1n) f(α1∙x1+…+αn∙xn) ≤ α1∙f(x1)+…+αn∙f(xn) für alle n>1, alle x1,…,xn aus I und alle α1,…,αn aus [0;1] gilt. Wir wollen das Verhalten dreier Mittelwertbildungen, die in der beschreibenden Statistik von Bedeutung sind, untersuchen. Es sei n eine natürliche Zahl größer als 1 und x1,…,xn irgendeine Sequenz reeller positiver Zahlen. Das arithmetische Mittel dieser Sequenz ist erklärt durch 𝑛 𝑥 ∶= � 𝑘=1 𝑥𝑘 . 𝑛 Das harmonische Mittel ist erklärt als Reziproke des arithmetischen Mittels aus den reziproken Eingangszahlen, also 1 . 𝑥𝐻 ∶= 1 𝑛 1 ∑𝑘=1 𝑛 𝑥𝑘 Das geometrische Mittel ist erklärt durch das n-te Radikal aus dem Produkt der Eingangszahlen, also 𝑛 𝑥𝐺 ∶= �� 𝑛 𝑥𝑘 . 𝑘=1 Für die Sequenz 1;4 z.B. wird das arithmetische Mittel 2,5; das geometrische 2 und das harmonische Mittel 2/(1+0,25)=1,6. Wir erhalten die Relation 1,6<2<2,5. Das harmonische Mittel ist damit kleiner als das geometrische und das geometrische kleiner als das arithmetische. Alle Mittel sind gleich, wenn die Eingangsdaten gleich sind. Generell gilt für positive reelle Zahlen xk 𝑥𝐻 ≤ 𝑥𝐺 ≤ 𝑥 . Übersichtlicher als Nachweise dieser Relationen durch vollständige Induktion sind Nachweise auf der Grundlage des Konvex-Begriffs nach Jensen, wie die folgenden Überlegungen zeigen. In ℝ>0 ist die Logarithmusfunktion ln konkav (-ln konvex), da ln‘‘(x)= -1/x² <0 gilt. In der Ungleichung (K1n) mit den Gewichten 1/n sind dann nur die Seiten zu vertauschen und so wird erhalten 28 ln 𝑥 ≥ 𝑛 𝑛 𝑛 𝑛 1 1 � ln(𝑥𝑘 ) = ln(� 𝑥𝑘 ) = ln �� 𝑥𝑘 = ln 𝑥𝐺 . 𝑛 𝑛 𝑘=1 𝑘=1 𝑘=1 Durch Delogarithmieren folgt 𝑥𝐺 ≤ 𝑥 . Für das harmonische Mittel kann ausgenutzt werden, dass –ln konvex ist: ln 𝑥𝐻 = − ln 𝑛 𝑛 𝑛 1 1 1 1 1 � ≤ � −ln( ) = ln(� 𝑥𝑘 ) = ln 𝑥𝐺 . 𝑛 𝑛 𝑥𝑘 𝑛 𝑘=1 𝑘=1 𝑥𝑘 𝑘=1 Delogarithmieren bringt 𝑥𝐻 ≤ 𝑥𝐺 . Von den drei Mittelwerten ist also das harmonische das kleinste und das arithmetische das größte. Das Gleichheitszeichen kann nur gelten, wenn die Eingangszahlen xk identisch sind, weil nur dann das abgeschlossene „Intervall“ [min{x1,…,xn}, max{x1,…,xn}] aus einer Zahl besteht, denn es gilt [min{x1,…,xn}, max{x1,…,xn}] = {∑k=1..n αkxk | αk≥0, ∑k=1..n αk =1} und –ln ist streng konvex bzw. ln ist streng konkav.