Über natürliche Zahlen und Endlichkeitsdefinitionen Auf die Frage

Werbung
1
Wolfgang Fensch,
Email: [email protected]
Über natürliche Zahlen und Endlichkeitsdefinitionen
Auf die Frage nach den natürlichen Zahlen wird man die Antwort in Form exemplarischen
Aufzählens eins, zwei, drei … erhalten. Um die Korrektheit allgemeiner Aussagen über natürliche Zahlen beurteilen zu können, sind allerdings konkrete Benennungen oder Zifferndarstellungen nicht ausreichend, es müssen ziffernunabhängige, abstrakte Begriffe verwendet
werden. Mehrere Erklärungen sind dazu gegeben worden. Der britische Philosoph und Logiker B.Russell erklärte z.B. natürliche Zahlen als Äquivalenzklassen (siehe Wikipedia) endlicher Mengen, wobei zwei endliche Mengen äquivalent sind, wenn sie sich 1:1 aufeinander
abbilden lassen. Null ist offensichtlich Äquivalenzklasse der leeren Menge, somit eine natürliche Zahl. Eins ist die Äquivalenzklasse zur Menge {}. Die Menge der natürlichen Zahlen
wird nach der Bezeichnungs-DIN 5473 mit N oder bezeichnet und 0 ist Element von N,
also eine natürliche Zahl. Diese DIN-Empfehlung wird jedoch nicht von allen Mathematikern
akzeptiert. Die Zahlen Null und Eins stellen eine Besonderheit dar, und sind nicht nur Anfangselemente von Zahlenaufreihungen. Es ist Null die Neutrale der Addition und Eins die
Neutrale der Multiplikation. In einem einzigen Erklärungssystem können daher nicht beide
Besonderheiten gleichrangig behandelt werden. Die Bezeichnung N geht auf R.Dedekind zurück. R.Dedekind äußerte sich 1887 (1. Auflage) zum Zahlbegriff in der berühmten Abhandlung „Was sind und was sollen die Zahlen?“ wie folgt (Zitat):
„Die Zahlen sind freie Schöpfungen des menschlichen Geistes, sie dienen als ein Mittel, um
die Verschiedenheit der Dinge leichter und schärfer aufzufassen.
Ein System N heißt einfach unendlich, wenn es eine solche ähnliche Abbildung von N in
sich gibt, dass N als Kette eines Elementes erscheint, welches nicht in enthalten ist. Wir
nennen dies Element, das wir im Folgenden durch das Symbol 1 bezeichnen wollen, das
Grundelement von N und sagen zugleich, das einfach unendliche System N sei durch diese
Abbildung geordnet.
Wenn man bei der Betrachtung eines einfach unendlichen, durch eine Abbildung geordneten Systems N von der besonderen Beschaffenheit der Elemente gänzlich absieht, lediglich
ihre Unterscheidbarkeit festhält und nur die Beziehungen auffaßt, in die sie durch die ordnende Abbildung zu einander gesetzt sind, so heißen diese Elemente natürliche Zahlen
oder Ordinalzahlen oder auch schlechthin Zahlen, und das Grundelement 1 heißt die
Grundzahl der Zahlenreihe N.“
Mit dem letzten Satz drückt Dedekind implizit aus, dass die natürlichen Zahlen Äquivalenzklassen sind. Das wird jedoch nicht ausdrücklich so formuliert und man erhält den Eindruck,
dass N keine Gesamtheit von Klassen, sondern Zusammenfassung von Repräsentanten der
Klassen ist.
Zu den Begriffen von Dedekind aus heutiger Sicht:
Ein System ist eine Menge. Eine ähnliche Abbildung ist eine 1:1-Abbildung, eine Kette in
N bzgl. ist eine nicht leere Teilmenge von N, die in sich selbst abgebildet wird. Eine Kette
eines Elements e ist der Durchschnitt aller Ketten, die e als Element enthalten, also die „kürzeste“ Kette. Einfach unendliche Mengen wurden von G.Cantor abzählbar unendlich genannt
und das ist auch noch die heutige Benennung.
2
Die in der Abhandlung aufgeführten Bedingungen zur Festlegung eines einfach unendlichen Systems N lauten in heutiger Notation, unter Verwendung von 1 und :
N.
N ist Durchschnitt aller Mengen K, die {1} und (K) zu Teilmengen haben.
1 ist nicht Element von .
ist eine 1:1-Abbildung.
Obwohl die Arbeit von Dedekind immer wieder zum Lesen empfohlen wird, ist seine Erklärung der natürlichen Zahlen nicht zum allgemeinen Standard für Lehrkonzepte geworden.
Unmittelbar nach dem Erscheinen der Arbeit ist sein Existenzbeweis für eine unendliche
Menge kritisiert und nach den zahlreichen Beispielen für widersprüchliche Begriffsbildungen
im Zusammenhang mit dem Mengenbegriff (z.B. ist „Menge aller Mengen“ nicht widerspruchsfrei) nicht mehr zu halten gewesen. Es wird z.Z. allgemein anerkannt, dass ein Unendlichkeitsbegriff nur axiomatisch eingeführt werden kann, also weder beweisbar noch widerlegbar ist. Zitiert wird häufig eine Formulierung von E.Zermelo:
Wenn eine Menge M die leere Menge enthält und mit jeder Menge m auch die Vereinigung
aus m und {m}, so soll sie unendlich genannt werden.
Es soll also zulässig sein, von einer Menge auszugehen, die mindestens aus den Elementen ,
{}, {,{}},{,{},{,{}}} usw. besteht.
John von Neumann legte daraufhin (siehe auch Wikipedia zum Begriff natürliche Zahl) fest:
0:= , 1:={}, 2:= {,{}}, 3:= {,{},{,{}}}. Die vorliegende Aufzählung verliert ihre
Anschaulichkeit, wenn man davon die Potenzmenge der Potenzmenge bildet. Auch solche
Bildungen sollen nach Zermelo noch zulässig sein, anschaulich sind sie weniger.
Zurück zu Dedekind. Er zeigt, dass einfach unendliche Mengen nur bis auf ihre 1:1-Bilder
festgelegt sind. Die für N erforderliche Grundzahl 1 ist jedoch nicht einfach ein Symbol, das
man auch durch ein beliebig anderes ersetzen könnte, denn bei der Einführung der Multiplikation macht Dedekind von der Neutralität Gebrauch. Die Multiplikation muss anders erklärt
werden, wenn 0 die Grundzahl ist. Die Grundzahl ist bei Dedekind neutrales Element der
Multiplikation, die Grundzahl bei Peano neutrales Element der Addition.
Es sollen einige Sätze aus der Abhandlung von Dedekind, erweitert durch Einbeziehung der
leeren Menge, die von Dedekind nirgends erwähnt wird, ohne Beweise angeführt werden.
Die im Folgenden aufgeführten Nummerierungen der Sätze stimmen mit den Originalnummerierungen bei Dedekind überein.
33. Sind R und S 1:1 aufeinander abbildbar und ist R 1:1 auf Q abbildbar, so auch Q 1:1 auf
S.
34. Man kann alle Systeme in Klassen einteilen, indem man in eine bestimmte Klasse alle und
nur die Systeme Q,R,S…. aufnimmt, welche auf ein System R, den Repräsentanten der
Klasse, 1:1 abbildbar sind.
3
35. Sind R,S ähnliche Systeme, so ist jeder Teil von S auch einem Teil von R, jeder echte
Teil von S auch einem echten Teil von R ähnlich.
64. Ein System heißt unendlich, wenn es eine 1:1-Abbildung auf einen echten Teil gibt; ein
System heißt endlich, wenn es nicht unendlich ist.
67. Sind R und S 1:1 aufeinander abbildbare Systeme, so ist S endlich, wenn R endlich ist,
und S unendlich, wenn R unendlich ist.
68. Jeder Teil eines endlichen Systems ist endlich.
70. Ist das um ein Element reduzierte nicht leere System endlich, so auch das Ausgangssystem.
72. In jedem unendlichen System ist ein einfach unendliches System als Teil enthalten.
79. N ist die einzige Kette, die 1 enthält.
80. Satz von der vollständigen Induktion (Schluss von n auf (n)): Um zu beweisen, dass
ein Satz für alle Zahlen einer Kette des Elements m gilt, genügt es zu beweisen, dass der Satz
für n=m gilt, und, wenn er für n gilt, dann auch für (n).
81. Für alle n aus N ist n verschieden von (n).
84. Ist eine Kette aus N des Elements m identisch mit einer Kette aus N des Elements n, so ist
m=n.
87. Zu jeder Kette K aus N gibt es genau ein Element k aus N, sodass K identisch ist mit der
Kette des Elements k.
88. Wenn m von n verschiedene Zahlen sind, so ist entweder die Kette des Elements n ein
Teil der Kette des Elements (m) oder die Kette des Elements m ein Teil der Kette des Elements (n).
89. Für zwei Zahlen m und n ist m<n erklärt, falls die Kette des Elements n ein Teil der Kette des Elements (m) ist.
90. Für m,n aus N ist entweder m=n oder m<n oder n<m.
95. Für Zahlen aus N folgt a c aus a b und b c.
96. Jede nicht leere Teilmenge T aus N hat eine kleinste Zahl k (meint: für alle x aus T ist
k<x oder x=k).
97. Die kleinste Zahl einer Kette des Elements n ist n und die Grundzahl 1 ist die kleinste
aller Zahlen.
98. Zahlabschnitt Zn soll die Menge aller Zahlen aus N sein, die nicht größer sind als n.
103. N ist die Vereinigung von Zn mit der Kette des Elements (n).
106. Gilt für Zahlen m<n, so ist Zm echter Teil von Zn.
108. Z(n) = Zn { (n) }.
116. Es gibt keine Zahl, die zwischen n und (n) liegt.
117. Es sei T eine nicht leere Teilmenge von N. Ist t eine Zahl in T, aber nicht die kleinste, so
gibt es in T eine und nur eine nächst kleinere Zahl. Wenn t nicht die größte Zahl in T ist, so
gibt es eine und nur eine nächst größere.
119. Alle Zn sind endlich.
123. Eine nicht leere Teilmenge T von N ist endlich oder unendlich je nachdem es in T eine
größte Zahl gibt oder nicht.
132. Alle einfach unendlichen Systeme (mit als Grundelement und Nachfolgerfunktion
) sind 1:1-Bilder von N, wenn 1 auf ist.
136. Einführung der Addition: m+1:= (m) , m+ (n) := (m+n).
4
140. m+n = n+m für alle Zahlen m,n aus N.
141.(a+b)+c= a+(b+c) für alle Zahlen a,b,c aus N.
142. Für alle Zahlen gilt m+n>m.
145. Aus m+n=a+n folgt m=a.
146. Wenn b>a, existiert genau ein m aus N mit b=m+a.
147. Einführung der Multiplikation: m!1:=m, m! (n):= m! n+m.
150…153. Beweis von Kommutativität,Assoziativität der Multiplikation und Distributivgesetz.
155. Einführung der Potenzierung: a1:=a, a":= a!an.
156…158: Potenzgesetze.
!-Abbildung eines echten Teilsystems
"#$%"
&n !"#'
""*$
/
*
160. Ein nicht leeres %
*
$;
"
!- Bild auf ein
Zn gibt oder nicht.
161 nicht leer und endlich und Zn ein 1:1-Bild davon, so heißt n die Anzahl der Ele
162. Alle 1:1-Bilder endlicher nicht leerer Systeme haben dieselbe Anzahl von Elementen.
165. Ist T echter nicht leerer Teil eines endlichen nicht leeren Systems S, so ist die Anzahl der
Elemente von T kleiner als diejenige der Elemente von S.
168. Besteht A# aus m und B# aus n Elementen und sind A und B disjunkt, so besteht die
Vereinigung aus A und B aus m+n Elementen.
Dieser mathematisch-logische Zahlenaufbau wird z.Z. in den Anfängervorlesungen nicht
mehr gewählt. Die grundlegenden Zahlengesetze werden axiomatisch vorangestellt; einige
Mathematiker gehen sofort von einem Axiomensystem für die reellen Zahlen aus, die Menge
der natürlichen Zahlen sind dann Ketten der Elemente 0 oder 1 bzgl. der Nachfolgerfunktion
ist x$x+1.
Obwohl die grundlegenden arithmetischen Gesetze nicht mehr im Einzelnen aus den Axiomen
bewiesen werden, wird anhand zahlreicher Beispiele auf die Bedeutung des Induktionsgesetzes hingewiesen, das seine Bewährung schon vor der Abhandlung von Dedekind bestanden
hat. Dabei kommt ein anderes Axiomensystem für die natürlichen Zahlen zur Geltung, das
G.Peano 1889 – von vornherein mit dem Ziel größerer Anwendbarkeit als bei Dedekind geplant - aufgestellt hat.
Die deutsche Übersetzung (1899) seiner Originalarbeit wurde wie folgt wiedergegeben:
(P1) „0 ist eine Zahl.“
(P2) „Es sei a eine Zahl; die darauf folgende ist auch eine bestimmte Zahl.“
(P3) „Wenn auf zwei Zahlen a und b dieselbe Zahl folgt, so sind sie gleich.“
(P4) „Die Zahl, welche auf eine beliebige Zahl folgt, ist niemals 0.“
(P5) „s sei eine Klasse; wir wollen annehmen, 0 gehöre dieser Klasse an, und jedesmal wenn
ein Individuum dieser Klasse angehört, gehöre auch das ihm folgende an; alsdann
gehören alle Zahlen dieser Klasse an.“
5
Auch bei Peano ist 0 nicht einfach ein beliebiges Symbol, sondern neutrales Element der Addition. Die so charakterisierte Zahlenmenge bezeichnet Peano mit N0, erwähnt aber, dass
sinngemäß mit N1 diejenige Zahlenmenge gemeint ist, die mit 1 beginnt, und weist darauf hin,
dass nach der Schule des Pythagoras die erste Zahl weder 0 noch 1, sondern 2 war. Peano legt
sich also auf die Grundzahl nicht so stark fest wie Dedekind. Addition und Multiplikation
erfordern zur Erklärung andere Festlegungen als bei Dedekind für die Anfänge:
x+0:=x , x+(y+):= (x+y)+ und x! 0:=0, x! (y+):= x! y + x,
dabei bezeichnet G.Peano mit x+ den eindeutig bestimmten Nachfolger von x. Also ist 1:=
0+, 2:=1+, 3:=2+ usw.
Bei Verwendung mathematischer Softwareprogramme, ist es ratsam, nur den Begriff „ganze
Zahl“ zu verwenden und durch die Eigenschaften „positiv, negativ“ den gewünschten Typ
eindeutig festzulegen: natürliche Zahlen können ganze positive Zahlen (Dedekind) oder ganze
nicht negative Zahlen (Peano) sein.
Es erfülle die Menge P mit der Zahl 0 und der Nachfolgerfunktion x$ x+ die Peano-Axiome.
Dann erfüllt N:=P\{0} mit 1:=0+ und der Einschränkung der Nachfolgerfunktion auf N die
Bedingungen )…).
Es ist ) erfüllt, weil 0 nach (P4) keinen Vorgänger hat.
Es ist %) erfüllt, weil 0+ in N liegt und die Ketteneigenschaft durch (P5) bewiesen werden
kann.
Es ist &) erfüllt, weil 0+ = a+ wegen (P3) a=0 bedeutet, damit liegt a nicht in N.
Es ist ) erfüllt, weil schon für P aus a+=b+ wegen (P3) a=b folgt.
Es erfülle N mit und 1 die Bedingungen )…).
Unter den Elementen von N kommt die Neutrale der Addition nicht vor, denn in N gilt m+n
ist größer als m für alle Zahlen n aufgrund von Satz 142 und aufgrund von Satz 90 kann m+n
nicht sowohl gleich m als auch größer als m sein.
Wir können also N durch Hinzunahme der Neutralen bzgl. der Addition, also 0, erweitern und
ebenso um die Zuweisung 01.
Wir definieren dann x+:= "'(-)'*+
Es sind "(/ "(0223434erfüllt.
"(5267 aufgrund von eine 1:1-Abbildung ist.
(P4) ist erfüllt wegen &).
(P5) geht aus den Bedingungen )…) nicht unmittelbar hervor, ist aber erfüllt wegen Satz
80 in Verbindung mit Satz 79 und m=1.
Wenn also N die Axiome von Dedekind erfüllt, so erfüllt N89} die Axiome von Peano.
Wenn P die Axiome von Peano erfüllt, so erfüllt P\{0} die Axiome von Dedekind.
In diesem Sinne sind beide Axiomensysteme logisch, aber nicht arithmetisch, gleichwertig.
6
Zu beiden Systemen gehören unterschiedliche Erklärungen des Endlichkeitsbegriffs. Eine
Menge soll D-endlich genannt werden, wenn sie die Bedingung 64 von Dedekind erfüllt, und
P-endlich, wenn sie 1:1-Bild eines Abschnitts [a,b):={x: ax, x<b} ist.
Nach beiden Erklärungen ist die leere Menge endlich ( = [a,a)).
M sei nicht leer und P-endlich. Danach gibt es einen Abschnitt [a,b) mit a<b auf den M 1:1
abbildbar ist. Dieser Abschnitt hat n:=b-a Elemente und ist daher 1:1 auf einen Zahlabschnitt
Zn abbildbar (vollständige Induktion über b und 116, 108). Damit ist er D-endlich nach 160,
162.
M sei nicht leer und D-endlich. Dann gibt es einen D-Zahlabschnitt Zn , der 1:1-Bild eines PZahlabschnitts [0,n) ist. Damit ist M auch P-endlich.
Will man sich den Umweg über die Einführung einer Ordnungsrelation ersparen, kann man
auch direkt von geordneten Mengen ausgehen. Eine Menge Z soll Zählmenge heißen, wenn
folgende Bedingungen erfüllt sind:
(Z1) Z ist total geordnet.
(Z2) Z hat ein kleinstes Element; dieses Element soll 1 (Multiplikationsneutrale) sein.
(Z3) Z hat kein größtes Element.
(Z4) Zwischen zwei Elementen von Z liegen, falls überhaupt, nur endlich viele Elemente.
So wie mehrere Axiomensysteme für natürliche Zahlen entstanden sind, so auch mehrere
Endlichkeitsdefinitionen. Um (Z4) nicht schon von vornherein mit Dedekind oder Peano in
Beziehung zu bringen, wollen wir einen Endlichkeitsbegriff des Logikers A.Tarski heranziehen:
Eine Menge M heißt T-endlich, wenn M nicht T-unendlich ist.
Eine Menge M heißt T-unendlich, wenn eine nichtleere Menge ; von Teilmengen von M existiert, sodass es zu jeder Teilmenge B<; eine nichtleere Teilmenge A<; mit A> gibt.
Wir wollen beweisen, dass eine Menge N, die die Dedekind-Bedingungen erfüllt, eine Zählmenge ist.
Die Ordnungsbedingungen „aa, aus a b und b a folgt a=b, aus a b und b c folgt
a c“ erhält man sofort aus den Sätzen 90 und 95. Wie man an den hohen Satznummern
sieht, ist der Beweis aus den Bedingungen nicht unmittelbar ersichtlich. Die Linearität
wird durch Satz 90 ausgedrückt. N ist also bzgl. der durch ermöglichten Ordnung total
geordnet, d.h. es gilt (Z1).
N hat ein kleinstes Element bzgl. dieser Ordnung, nämlich 1, das sagt Satz 97. Also gilt (Z2).
Aufgrund von Satz 123 hat N kein größtes Element. Damit ist (Z3) erfüllt.
(Z4) ist erfüllt, wenn die D-Endlichkeit verwendet wird. Zwischen m und (m) liegt keine
Zahl, Satz 116. Ist m<n und n größer als (m), so ist nach Satz 106 Zm echter Teil von Zn,
7
damit ist {x:m<x<n-} endlich nach Satz 68, wenn n- den nach Satz 117 eindeutig bestimmten
Vorgänger von n bezeichnet.
Wir zeigen, dass aus der D-Endlichkeit die T-Endlichkeit folgt.
Durch vollständige Induktion über n zeigen wir, dass die Dedekind-Abschnitte Zn T-endlich
sind. Das ist für n=1 trivial, da es in N zu Z1 keine echte Teilmenge gibt. Es ist auch leicht
einzusehen, dass mit einer T-endlichen Menge M die um ein Element vergrößerte Menge
T-endlich ist. Da Zn+1= Zn{n+1} nach Satz 108 gilt, vererbt sich daher die T-Endlichkeit von
Zn auf Zn+1.
Damit ist eine N-Menge auch eine Z-Menge.
Umgekehrt soll bewiesen werden, dass eine Zählmenge Z, mit dem Endlichkeitsbegriff von
Tarski, die Axiome erfüllt.
Zunächst beweisen wir, dass eine nicht leere T-endliche Teilmenge M von Z ein größtes und
ein kleinstes Element besitzt.
Es sei m ein Element von M und weder kleinstes noch größtes Element von M. Wir bilden die
Menge ;:={{y: yx}: x<m}. Da m nicht kleinstes Element von M ist, ist ; nicht leer. Da
M T-endlich ist, muss es ein Element von ; geben, das keine echte Teilmenge hat. Das bedeutet, es gibt ein x und dazu kein kleineres y. Bilden wir die Menge ;:={{y: x?}: m<x},
so schließen wir analog. Das beweist zusammengefasst, dass eine nicht leere T-endliche
Teilmenge von Z ein größtes und ein kleinstes Element hat.
Wir beweisen weiterhin die Gültigkeit des Prinzips des kleinsten Elements:
Jede nicht leere Teilmenge von Z hat ein kleinstes Element.
Es sei T eine nicht leere Teilmenge von Z und t ein Element daraus. Der Abschnitt {x:x@
eine T-34 C 2 "FH7 I* / 2 "F0
darin enthalten.
Der Durchschnitt dieses Abschnitts mit T ist eine Teilmenge des Abschnitts. Aus der Erklärung der T-Endlichkeit geht offensichtlich hervor, dass die leere Menge endlich ist und eine
Teilmenge einer endlichen Menge ebenfalls. Zum nichtleeren Durchschnitt gehört ein kleinstes Element, das aufgrund der totalen Ordnung auch kleinstes Element von T ist.
Durch dieses Prinzip erhalten wir eine Abbildung von Z in sich, wenn wir jedem Element z
das kleinste Element von {x: z<x} zuweisen. Durch wird Z in sich abgebildet, also ist )
erfüllt.
Wir beweisen, dass jede nicht leere Kette in Z ein Abschnitt {x: ax} ist (a Element von Z).
Eine nichtleere Kette K ist eine nicht leere Teilmenge und hat damit ein kleinstes Element k;
mit k ist auch das kleinste Element des Abschnitts {x:k<x} in K enthalten. Angenommen, die
Menge T:={x: k<x, xJ K} ist nicht leer. Dann gibt es in T ein kleinstes Element t und der
8
Abschnitt {x: kx<t} gehört zu K. Nach (Z4) ist diese Menge T-endlich und damit liegt ein
größtes Element g darin, also in K. Dann muss aber das kleinste Element aus {x:g<x} ebenfalls in K liegen, zwischen g und t kann aber kein weiteres Element liegen, sonst wäre g kein
größtes oder t kein kleinstes Element.
Nichtleere Ketten sind also Abschnitte der Form {x:ax}. Eine nicht leere Kette, die 1 enthält, muss daher Z sein. Damit ist %) bewiesen.
Wegen der Transitivität der Ordnung, kann 1 nur in der trivialen Kette Z vorkommen, das
beweist &).
Um nachzuweisen, betrachten wir zwei Elemente a,b und nehmen a<b an. Es sei s kleinstes Element von {x:a<x} und t kleinstes Element von {x:b<x}. Offensichtlich könnte s=b
sein, sicherlich aber ist s b und trivialerweise b<t. Dadurch ist s=t ausgeschlossen und nachgewiesen, dass eine 1:1-Abbildung von Z in sich ist.
Damit ist Z eine einfach unendliche Menge in der Sprache von Dedekind.
Wir gehen noch einmal an den Anfang zurück und nehmen Bezug auf die Erklärung der natürlichen Zahlen als Äquivalenzklassen von B.Russell, finden solche Klassen aber schon bei
Dedekind unter 34-35, nur nicht unter dem Namen natürliche Zahlen, obwohl in der Abhandlung von Dedekind dieser Aspekt ausführlich dargelegt ist. Die Grundzahl ist dann allerdings
0. Weil die Null direkt in den Peano-Axiomen erwähnt wird, zeigen wir im Folgenden, dass
die Menge der Russellschen Äquivalenzklassen die Peano-Axiome erfüllt.
Wie bei der Zählmenge soll auch bei Russell keiner der bisher verwendeten Endlichkeitsbegriffe benutzt werden. Wir verwenden einen Endlichkeitsbegriff von B.Russell, der induktives
Definieren erlaubt:
Eine Menge M soll R-endlich genannt werden, wenn M Element jeder Menge ; ist, für die
gilt ist Element von ; und mit M ist auch M{x} Element von ;.
Die leere Menge ist R-endlich, und {} ist ebenfalls R-endlich. Wir beweisen:
Eine R-endliche Menge M ist auch D-endlich.
Das gilt offensichtlich für die leere Menge. Wir nehmen, wie üblich, an, dass M R-endlich
und D-endlich ist und haben zu beweisen, dass dann M{x} ebenfalls D-endlich ist. Das gilt
offensichtlich für x<M. Es sei also x J M und eine 1:1-Abbildung von M{x} auf M.
Dann müsste sich die Einschränkung von auf M 1:1 auf eine Teilmenge von M abbilden
lassen. Das widerspricht der D-Endlichkeit von M.
D-endliche Mengen sind auch R-endlich.
Das gilt wieder für die leere Menge. Von den D-endlichen nichtleeren Mengen wissen wir,
dass sie sich 1:1 auf die Zahlabschnitte Zn abbilden lassen. Es genügt also nachzuweisen, dass
die Zahlabschnitte Zn R-endlich sind. Das gilt sicherlich für n=1, denn {1} ist 1:1-Bild von
9
{}. Wir schließen weiter durch Induktion über n. Es ist Zn+1= Zn{n+1} und damit liegt
auch Zn+1 in jeder Menge ;, in der die leere Menge und mit einer Menge auch die um 1
Element erweiterte Menge liegt.
Wir betrachten nun die Menge R aller Äquivalenzklassen (siehe Wikipedia) endlicher Mengen und wollen zeigen, dass R die Bedingungen (P1)…(P5) erfüllt.
Dass überhaupt durch die 1:1-Abbildungen eine Äquivalenzrelation entsteht, ist gerade die
Aussage von Satz 33 bei Dedekind.
(P1) ist erfüllt, da 0 Äquivalenzklasse der leeren Menge bzgl. der 1:1-Abbildungen ist.
Der Nachfolger von 0 ist die Äquivalenzklasse zum Repräsentanten Z1. Wenn für k#0 Zn
Repräsentant von k ist, so soll der unmittelbare Nachfolger k+ von k diejenige Äquivalenzklasse sein, die den Repräsentanten Zn+1 hat. Nach den oben aufgeführten Sätzen von Dedekind ist k+ eindeutig bestimmt. Damit ist (P2) bewiesen.
Die Repräsentanten von Nachfolgern sind offensichtlich immer nur die Zahlabschnitte Zn.
Dadurch ist 0 keine Nachfolgerklasse. Das beweist (P4).
Wenn zwei Äquivalenzklassen a und b denselben Nachfolger haben, so ist aufgrund der vorigen Überlegung ein Repräsentant des Nachfolgers ein bestimmter Zahlabschnitt Zn. Für n=1
kommt dann für die Repräsentanten von a und b nur die leere Menge infrage, sonst nur Zn-1.
Das beweist (P3).
Um (P5) zu zeigen, sei s eine Menge (Klasse bei Peano genannt, um Probleme mit widersprüchlichen selbstbezüglichen Mengenbildungen zu vermeiden), in der 0 enthalten ist und
mit jeder Äquivalenzklasse auch ihr Nachfolger.
Wir konzentrieren uns auf die Repräsentanten endlicher Mengen, das sind und die Zahlabschnitte Zn. Da {@in s liegen soll, liegt auch die Äquivalenzklasse mit dem Repräsentanten
Z1 in s. Wenn k von 0 verschieden und die Äquivalenzklasse von k Zn ist, so soll auch k+ in s
liegen, d.h. Zn+1 ist ein infrage kommender Repräsentant. Nach dem Satz 80 von Dedekind
sind damit die leere Menge und alle Zahlabschnitte Zn als Repräsentanten zu beachten, daher
liegen alle Äquivalenzklassen in s und das beweist (P5).
Damit sind bei Vermeidung widersprüchlicher Mengenbildungen natürliche Zahlen Äquivalenzklassen endlicher Mengen bzgl. ihrer 1:1-Abbildungen.
Null ist Äquivalenzklasse der leeren Menge und das neutrale Element bzgl. der Addition, Eins ist Äquivalenzklasse zum Repräsentanten {
} und das neutrale Element der
Multiplikation.
10
Eine spezielle Umkehrmöglichkeit für differenzierbare Abbildungen
Durch das Nichtverschwinden der ersten Ableitung gibt es für reelle reellwertige differenzierbare Funktionen eine einfache hinreichende Bedingung für ihre Umkehrung. So ist die Quadratfunktion in K>0 eindeutig umkehrbar, die Umkehrfunktion ist die Quadratwurzelfunktion.
Die Sinusfunktion ist im offenen Hauptintervall ]-L/2,L/2[ eindeutig umkehrbar, nicht aber
über ]0,L[. Soll eine Funktion bzgl. eines offenen Intervalls umkehrbar sein, muss sie wegen
der linear geordneten reellen Zahlen entweder monoton wachsen oder monoton abnehmen.
Aus der Positivität der ersten Ableitung folgt monotones Wachsen, aus der Negativität folgt
monotones Abnehmen. Dadurch entsteht eine einfache Bedingung für die Umkehrbarkeit.
Für differenzierbare Abbildungen in n-dimensionalen Räumen sind die Zusammenhänge
komplizierter und in den einführenden Vorlesungen werden sie zumeist nicht aufgeführt.
Es gibt jedoch einen simplen Spezialfall, der die Situation im eindimensionalen Fall verallgemeinert. Diese Verallgemeinerung beginnt mit der Verallgemeinerung des Mittelwertsatzes,
der für differenzierbare Funktionen aussagt, dass es zu jeder Sekante mindestens eine dazu
parallele Tangente gibt. Eine Verallgemeinerung dieser Aussage kann für differenzierbare
Abbildungen wie folgt gegeben werden:
Wenn P eine geschlossene differenzierbare Kurve im Kn ist, so gibt es zu jeder Richtung n
einen Tangentenvektor an P , der auf n senkrecht steht.
Die Kurve werde beschrieben durch P = {f(t): tQ[0,1]}. Sei jetzt n eine beliebige Richtung
und eine differenzierbare Funktion g im abgeschlossenen Einheitsintervall [0,1] erklärt durch
g:t$f(t)!nRf(0)!n. Da die Kurve P geschlossen ist, gilt g(0)=g(1)=0 und nach dem Satz von
Rolle gibt es eine Zahl z aus dem offenen Intervall ]0,1[ mit g´(z)=0, daraus folgt aber
f´(z)! n=0 und das heißt, n steht senkrecht auf der Tangente an die Kurve im Punkt f(z).
Offene reelle Zahlenintervalle sind spezielle konvexe Mengen. Der Begriff wird verallgemeinert im n-dimensionalen reellen Raum dadurch, dass mit zwei Punkten a und b auch die Verbindungsstrecke ganz dazugehören soll.
Die Positivität kann verallgemeinert werden durch die positive Definitheit der Jacobi-Matrix
J, der Matrix aus den partiellen Ableitungen einer Abbildung, das bedeutet, dass für jeden
vom Nullvektor verschiedenen Vektor n der Ausdruck nT!J!n (n in Spaltenform) positiv ist.
Dann lässt sich beweisen:
11
G sei eine konvexe offene zusammenhänge Menge im Kn und F sei eine stetig differenzierbare
Abbildung von G in den Kn, dann ist F umkehrbar, wenn die Jacobi-Matrix von F positiv definit ist.
Angenommen, es wäre a,bQG, a#b und F(a)=F(b). Dann betrachten wir die Kurve
P={F(a+t(b-a)): tY[0,1]}. Die Tangenten an diese Kurve werden erhalten durch den Spaltenvektor (b-a)T ! J|a+t(b-a) . Da bR
Ra vom Nullvektor verschieden ist, kann er als Richtung angesehen werden und damit müsste es eine Zahl z aus dem offenen Einheitsintervall geben, sodass
(b-a)T ! J|a+z(b-a)! (b-a) = 0 gilt, das ist jedoch ein Widerspruch zur positiven Definitheit und
beweist die Aussage.
Die Voraussetzung der Konvexität ist allgemein nicht entbehrlich. Dazu betrachten wir im
zweidimensionalen Raum eine Abbildung, die durch zwei stetig differenzierbare Funktionen u
und v wie folgt gegeben ist:
u:(x,y) $ x³/3 + xy² R x ,v: (x,y) $ y .
Daraus ergibt sich die Jacobi-Matrix
J= UV² + X² R 1
9
0VXY.
1
J ist positiv definit für x²+y²>1, also außerhalb des Einheitskreises, weil die Hauptunterdeterminanten dort positiv sind.
Die Punkte P1, P2 mit den Koordinaten x1=-[3, y1=0 und x2=-x1, y2=0 liegen außerhalb
des Einheitskreises, es ist aber u(x1,y1)=v(x1,y1)=0 und auch u(x2,y2)=v(x2,y2)=0, P1 und
P2 werden also auf den Nullpunkt abgebildet, damit ist die Abbildung nicht umkehrbar, das
Äußere des Einheitskreises ist zwar offen und zusammenhängend, aber nicht konvex.
Durch Übergang von u zu –u erhalten wir natürlich eine stetig differenzierbare Abbildung des
offenen Einheitskreises mit positiv definiter Jacobi-Determinante für x²+y²<1 und, da der
Einheitskreis konvex ist, auch eine Umkehrabbildung:
u:= -x³/3Rxy² + x
v:= y .
Die zugehörige Jacobi-Matrix ist
\
J= U1 R V R X² R0VXY.
9
1
Der Nullpunkt ist Fixpunkt und das Bildgebiet des Einheitskreises liegt im Einheitskreis, ist
zusammenhängend und offen, aber nicht mehr konvex. Die Umkehrabbildung liefern Computeralgebrasysteme:
12
\"{ w |}
x
w
x = ]R5^_ + H`H"j \ R 1p + 81_² /2 R
x
]|p~€ w`"{ w |}x €‚}²
, y=v.
Die Bildgebiete müssen andererseits nicht notwendig nicht konvex sein.
In der x,y-Ebene betrachten wir z.B. die stetig differenzierbaren Funktionen
u:=excos(y)
v:= exsin(y)
mit der Jacobi-Matrix
J =ƒ
_
j
Rj
„
_
Die Determinante von J wird nirgends 0, und die einzige echte Hauptunterdeterminante u
wird positiv für alle y aus dem Intervall ]-L…2, L/2[ und alle x, dadurch ist dort J positiv definit. Der Streifen {(x,y): x<K, y<]-L…2, L/2[ } in der x-y-Ebene ist eine offene zusammenhängende konvexe Punktmenge und die Abbildung (u,v) ist eindeutig umkehrbar:
x= ln(u²+v²)/2
y= arcsin(v/`_² + j².
Das sind gerade Real- und Imaginärteil vom komplexen Logarithmus ln(u+iv) und das Bildgebiet der Abbildung (u,v) ist die rechte Halbebene, d.h. u>0, v beliebig, also ebenfalls konvex.
Drei Mittelwerte einer Verteilung einfacher Wartezeiten
Umfangreiche Untersuchungen von Dipl.-Inform. F.Gönner der Wiederholdauern diskreter
Prozesse führten auf das Problem, wenigstens bei einfachen Prozessen elementare Ausdrücke
für Mittelwerte zu erhalten. Es ist schwierig, solche Ausdrücke aufgrund numerischer Ergebnisse mit Zufallsgeneratoren zu erhalten, weil bekanntlich die Zufallsgeneratoren nur PseudoZufallszahlen liefern und z.T. sehr schlecht designed sind.
Wie lange muss man z.B. durchschnittlich warten, bis sich eine Nummer bei Roulette-Würfen
erstmalig wiederholt?
Über den Median solcher Prozesse ist ein approximativer, aber kein direkter Ausdruck in dem
Standardwerk „An Introduction to Probability Theory and Its Applications “ von W.Feller zu
finden.
Unter der Kapitelüberschrift „Wartezeiten“ geht W.Feller von folgendem Experiment aus: Es
liegen N beliebig große Zellen vor und eine beliebig große Anzahl von Bällen. Am Anfang
seien alle Zellen leer. Zu diskreten Zeitpunkten wird zufällig eine Zelle ausgewählt und ein
Ball in diese Zelle gelegt. Die Zeitdauer bis zur erstmaligen Doppelbelegung einer Zelle ist
zufällig und ["†!H34‡+ˆder approximative Wert des Medians.
13
Im Folgenden sollen exakte und approximative Ausdrücke für den Modalwert, den Median
und den Erwartungswert zu dieser Verteilung entwickelt werden. Alle drei Mittelwerte führen erstaunlicherweise approximativ zu Termen der Form C![N .
Offensichtlich ist die Wartezeit bis zur erstmaligen Wiederholung eines Zufallexperiments
mit gleichverteilten N Grundereignissen identisch mit der Wartezeit auf die wiederholte Zellenauswahl irgendwelcher N Zellen. Die Wartezeit soll mit L, der Zufallsprozess mit X bezeichnet werden. Die Wahrscheinlichkeit für P(X=1) ist selbstverständlich 0, denn die Zellen
sind zu Beginn ja leer. Die Wahrscheinlichkeit für P(X=N+2) ist ebenso selbstverständlich 0,
denn nach N+1 Auswahlen muss mindestens einmal eine Auswahlwiederholung eingetreten
sein. Die Wartezeit ist X=N+1, wenn alle Zellen vor Eintritt der Auswahl genau einmal besetzt sind. Da es N! verschiedene Besetzungen gibt, folgt P(X=N) = N!/NN. Allgemein ist
nach W.Feller für L=1…N+1 anzusetzen
P(X=L)= N!(N-1)!…!(N-(L-2))!(L-1)/NL.
Daraus folgt P(X=1)=P(X=N+2)=0 und P(X+1)=N!/NN. Unter Verwendung des Fakultätzeichens gilt also für L=1..N+1
P(X=L) = (N!/(N-L+1)!)!(L-1)/NL.
Elementar lassen sich danach die Summenwahrscheinlichkeiten P(XM), 2C†73hnen. Wir erhalten
Š!!"Œ|}
}
! =N!!
"Š|Œ€}! Š 
Š!
"Š|Ž!!Š •
‰Ž
Œ\
1-
‰Š|\
ŒŠ|Ž
Š|Œ|}
"Œ€}!!Š‘’
=
Š “”
Š!
! ‰Š|\
ŒŠ|Ž""Œ€}! R
Š‘
Mit P(X=N+1)=N!/NN folgt dann P(XN+1)= 1-
Š!
–!!Š‘
+
Š!
Š‘
Š
Œ!
Š!
Š ‘’”
= Š‘!("Š|}! -
Š ‘’•
)
"Š|Ž!
=
= 1, was die Korrektheit des
Modells beweist.
Wir wenden uns dem Modalwert zu.
Die Wahrscheinlichkeiten P(X=L) sollen im Folgenden durch pL bezeichnet werden. Der Modalwert ist erklärt als ein Wert L, für den die Wahrscheinlichkeit pL maximal wird. Werden
die Punkte (L, pL) in ein x-y-System eingetragen und miteinander durch einen Streckenzug
verbunden, entsteht für die hier zu untersuchende Verteilung der Wartezeiten ein eingipfliger
oder zweigipfliger Streckenzug; um diese Gipfel zu ermitteln, bilden wir die Quotienten
qL =
—
—’”
=
Š!!"Œ|}…"Š  !"Š|Œ€}!
Š!!"Œ|\…"Š ’” !"Š|Œ€\!
=
"Š|Œ€\!"Œ|}
"Œ|\!Š
}
}
}
= (L–1)(Œ|\ R Š = 1 + Œ|\ R
Œ|}
Š
.
Dabei ist L größer als 2 vorauszusetzen, p1 ist 0. Wenn L als kontinuierliche Variable angesehen wird, zeigt die erste Ableitung nach L, dass die Ausdrücke qL für L>2 strikt monoton fallend sind.
14
Wir nehmen für die weiteren Überlegungen an, dass N größer als 2 ist.
Dann ist 1/N=p2< p3= 2N(N-1)/N³ und q3= 2- 2/N ist größer als 1 und kleiner als 2. Weil für
L=N+1 der Quotient 1/(N-1) wird, ist er kleiner als 1. Es gibt daher genau eine natürliche
Zahl K>2, sodass qL<1 für alle L>K und qL œ1 für alle L œ3 K gilt. Das bedeutet,
dass die pL für Lœ3, damit auch für Lœ/7K monoton wachsend und für L>K monoton fallend sind. Der vorhin angesprochene Streckenzug kann wegen der strikten Monotonie
nur eingipflig oder zweigipflig sein. Im zweigipfligen Fall ist K aus pK = pK-1 leicht durch
qK = 1 zu ermitteln: 1/(K-2)= (K-1)/N führt zu N= (K-1)!(K-2) und somit zur ganzen Zahl
p
}
K= \ + ]ž +  .
Der Fall qK = 1 tritt offensichtlich genau dann ein, wenn N das Produkt zweier benachbarter
natürlicher Zahlen ist, also für N>2 bei N=6,12,20,30… Für N= 5!6 ergeben sich z.B. die beiden Modalwerte K-1= 6 und K=7= (3+[H ! 59 + 1 )/2.
Im eingipfligen Fall ist jedoch qK > 1 und die Zahl
p
\
}
+ ]ž +  nicht mehr ganzzahlig; wir
führen mit den Ganzzahlfunktionen floor ( floor(x)= max {z: z<Ÿ zx})und ceil
( ceil(x)= min {z: z<Ÿ '¡}) zwei natürliche Zahlen K1 und K2 ein:
p
}
p
}
K1:= floor(\ + ]ž +  ) , K2:= ceil(\ + ]ž +  ).
Wir erhalten damit im eingipfligen Fall die Relationen
p
}
K2 – K1 = 1 und K1 < \ + ]ž +  < K2.
Aufgrund der positiven Nullstelle des separablen Polynoms x²R 3x + 2RN muss gelten
(K1-1)(K1-2)-N < 0 und (K2-1)(K2-2)-N > 0 .
Wenn aber (K1-1)(K1-2)<N gilt, ist qK1 =1 +
}
¢}|\
R
¢}|}
Š
> 1 und analog ist qK2 < 1. Damit
ist in diesen Fällen der Modalwert bestimmt durch :
p
}
K= floor(\ + ]ž +  ) .
Im zweigipfligen Fall kann dieser Ausdruck als eindeutiger Modalwert £mod angesehen werden, er ist dann von beiden Werten der größere.
Die Modalwerte verhalten sich somit für große Werte N wie [ž, in mathematischer Notation:
£mod ¤ [ž.
15
Wir wenden uns dem Median zu.
Durch den Median, den wir mit £med bezeichnen wollen, werden die möglichen Wartezeiten
L=1…L=N+1 in zwei „gleichwahrscheinliche“ Abschnitte aufgeteilt. Für N>2 kann man folgende Festlegung nach W.Feller wählen
P(X< £med) < 0,5 und P(X £med) œ 0,5 .
Die Summenwahrscheinlichkeiten P(XCwaren durch den Ausdruck 1-N!/(N-M)!/NM bestimmt. Nur für N=2 ist ganzzahlig lösbar (durch M=2) N!/(N –M)!/NM = 0,5 , denn für
Nœ5¥** £med = N+1 nicht infrage, weil dann P(X<N+1) = 1 – N!/NN > 0,5 gilt, und
2!N!(N-1)!…!(N+1-M) = NM widerspricht der Teilerfremdheit von N–1 und N. Der Median ist
für N>2 also bestimmt durch
P(X< £med) < 0,5 und P(X> £med) < 0,5 .
Median und Modalwert stimmen für N=3…9 überein. Das zeigen die beiden ersten Dezimalen hinter dem Komma:
N
£mod
P(X<£mod)
P(X£mod)
3
3
0,33
0,77
4
3
0,25
0,62
5
3
0,20
0,52
6
4
0,44
0,72
7
4
0,38
0,65
8
4
0,34
0,58
9
4
0,30
0,53
Der Modalwert £mod ist jedoch immer kleiner als der Median £med für N>72: ab N=73 gilt
3/2 + [(N+1/2) < ["†!HC26†¦53"["†!H
1+ 3"["†!H+§se )42¡¨347*ˆ
+
ˆ6F4'œ5"¨/ 0!'©¦V [ª«¬ !"' –[V­®H ©
26F4'œH"¨00!'©¯V}€[ª«¬ !"' –1 –[V­®H ©+
°±¡"¨/
0 > [V­®H ! '³"' – [V­®H ©– '©
und nach der Stirlingschen Formel ( _`~€‚_‚ƒ_ – _‚‡ˆ€_$ z>0, 0<´<1)
äquivalent dazu
}
}
ln 2>[V­®H ! '³"'³\ – [V­®H ! "'–[V­®H –'³[V­®H+s1…"'–[V­®H –"'³\! '³'
– s0…'7
16
26'œ5
/…/07H¯1 ¯/…/0/…/071 < s0 ¯/…/0+
Zusammenfassung der Logarithmen bringt
}
ln 2 > "'³\ – [V­®H ! "/ – `­®H…V +[V­®H +s1…"' – [V­®H – s0…'
und es genügt zu zeigen,
}
ln 2 > "'³\ – [V­®H ! "/ – `­®H…V +[V­®H ³/…/0…"' – [V­®H –/…/07/…'.
§34'I264¡¶`­®H…V ( dann ist 0<z< 0,7) führt zu
·¸
·²
z²/2 > (1+\«¬ – z )!ln(1 –z) + z +
}\"«¬²"}|·
·¸
– }\,}"«¬² .
Es kann ln(1–z) durch –z –z²/2 –z³/3/(1–‰_Š‹%_"Œ
‰$
*
_*$€
und 0,35, ersetzt werden und es genügt nachzuweisen:
z²/2>-z-z²/2-z³/3/(1-0,25z)³-z³/2/ln4-¹  /4/ln4-¹ º /6/ln4/(1-0,25z)³+z²+z³/2+
¹  /3/(1-0,25z)³+z+¹  /12/(ln4)²/(1-z)- ¹  /12,1/(ln4)².
Äquivalent dazu ist (nach Division durch z³)
1/3/(1-0,25z)³+1/2/ln4+z/4/ln4+z²/6/ln4/(1-0,25z)³+ z/12,1/(ln4)²-0,5-z/3/(1-0,25z)³z/12/(ln4)²/(1-z) > 0.
Multiplikation auf beiden Seiten mit (1–0,25z)³(1–z) generiert auf der linken Seite ein Polynom fünften Grades, dessen reelle Nullstellen (ermittelt von Maple) außerhalb des Intervalls
[0;0,7] liegen. Da 1/3+1/2/ln4 –0,25 größer als 0 ist, bleibt die linke Seite positiv für alle
0<z<0,7, das beweist (U1).
Analog verlaufen die Überlegungen zum Nachweis von (U2).
Äquivalent zu (U2) ist
}
ln 2 < (1+ [V­®H )! ln x +(x – \ – [V­®H ! ­n (x–1– [V­®H ) – (x–1–[V­®H )+
s1/(x–1 – [V­®H ) – (x+
}
\
) ln x + x – s2/x = (x –
+1+[V­®H + s1/(x–1 – [V­®H ) – s2/x,
"
#Ž*‘"
**
’%*
}
\
–[V­®H ! ­n (1–1/x– `­®H…V )
17
1/12,7 < s1< 1/12 .
Division durch x und z= `­®H…V (dann ist 0<z< 0,588…) erfordert
·²
·²
·²
z²/2 <(1– \ »¼  – z)!ln(1– (»¼  + z)) + »¼  + z +
½ ·¸
½”
ª w "}|
¾w
¿À ¸
|·
– "»¼w w .
Es genügt der Nachweis mit s1=1/12,7 und s2=ˆ€”*!~_‚_•ˆ‘
_$/"
‘
für u maximal 0,839… erreicht werden und für 0<u<0,84 ist ln(1-u) größer als
-u-u²/2-u³/3/(1- 0,39u)³ , es genügt also der Nachweis von
(U21) 0<(1-z²/2/ln 4 – z)(-u -u²/2-u³/3/(1-0,39u)³)+u+z4/12,7/(ln4)²/(1-u)-z4/12/(ln4)² - z²/2.
Multiplikation mit (1-u)(1-0,39u)³ (positiver Ausdruck für 0<u<0,84) und Division durch z³
führt zu einem Polynom 11-ten Grades in z (verkürzte Ziffernangaben):
0,0148z11+0,164z10+0,583z9+0,260z8-3,16z7-7,84z6 -4,55z5+8,75z4+10,3z³-8,06z²-6,43z+5,18.
Die reellen Nullstellen sind (verkürzte Ziffernangaben) -4,1;-3,2; -1,18; 0,76; 2,35.
Das Polynom ist im Intervall ]0; 0,6] also positiv, damit gilt (U21) , also auch (U2).
So wie NK(N-K)! für natürliche Zahlen KN monoton wachsend ist, so auch
Nx(N-x)! = NxÁ(N+1Rx)
für alle reellen Zahlen x aus dem Intervall [1,N], denn die erste Ableitung nach x enthält neben anderen positiven Faktoren den Faktor
ln N R "†³/R'7
die Digammafunktion ist für positive reelle Argumente monoton wachsend, und für alle
natürlichen Zahlen N>1 gilt
ln N > "†¶R&³/³³/…"†-/7
weil 1+ ½+ … + 1/(N-–—%%%
˜
*
™%"
~$šš›Œ
Dadurch ist
F: x$ 1- N!/( Nxœ—‚-x))
eine monoton wachsende differenzierbare Funktion mit F(1)=0 und F(N-1)= 1- N!/NN-1. Da
F(N-#Ž*—‘*ž
*"ƒ$
*Ÿ
" med #Ž*—€/
*"—
¡ngleichungen (U1),(U2) haben
F([ž ln H )< ½ und F(1+[ž ln H )> ½
_*™%
¢
_$%"
*Ÿ
" med zwischen [ž ln H und 1+[ž ln H liegen muss. Da
die Transzendenz der Zahl e die Irrationalität von ln4 impliziert, muss zwischen [ž ln H und
18
1+[ž ln H
genau eine natürliche Zahl z liegen. Eine solche Zahl ist offensichtlich
z=ceil([ž ln H ). "$›
"#
$#Ž*—‘’_~ƒ
/"$
*"
›*
die Alternative:
£med = ceil([ž ln H ),
falls F(ceil([ž ln H )) >½
£med = 1+ceil([ž ln H ), falls F(ceil([ž ln H )) <½.
Der Median verhält sich somit für große Werte N wie [ž­®H, in mathematischer Notation:
£med ¤ [ ž­®H .
Wir wenden uns dem Erwartungswert £=EX zu. Zu vereinfachen ist die Summe aus
L!P(X=L), die von L=1 bis L=N+1 zu summieren ist, also
Š!!"Œ|} }
Œ"Œ€}
Š!
Š€}
Š
‰Œ}
à "Š|Œ€}! Š =N!! ‰Š
Œ– "Š|Œ!Ċ “” = Š ‘ ! ‰Œ–
Š!
‰Š
Œ–
Š‘
"Š|\Œ€
w

€}| Š 
‘
‘
Œ!
"Š|Œ"Š|Œ€}Š 
Œ!Š
=
Š!
= Š‘!(NeN(N)R2NeN-1(N)+(NeN-2(N)+ eN-1(N)) +eN(N)R eN-1(N)) ,
dabei bezeichnet en(x) die n-te Partialsumme der Exponentialreihe 1+x+x²/2!+…, die bei Abramowitz-Stegun (Handbook of Mathematical Functions) abgeschnittene Exponentialfunktion
genannt wird. Von
NeN(N)R 2NeN-1(N)+NeN-2(N)
bleibt nur übrig
N(NN/N! + NN-1/(N-1)!) – 2N! NN-1/(N-1)! = NN/(N-1)!+ NN/(N-1)! – 2NN/(N-1)! =0,
und somit gilt für den Erwartungswert
£=EX = eN(N)!N!/NN .
Nach der Stirlingschen Formel verhält sich der Faktor N!/NN näherungsweise wie e-N [0Ş
und eN(N)!e-N ist die Wahrscheinlichkeit, dass für eine Poisson-verteilte Zufallsgröße, mit
Erwartungswert und Varianz N, das „seltene“ Ereignis höchstens N-mal eintritt. Nach dem
Grenzwertsatz von Moivre-Laplace kann diese Wahrscheinlichkeit durch den Term
Æ(0,5/[ž ) – Æ(-[ž )
angenähert werden (Æbezeichne die Normalverteilungsfunktion). Der Grenzwert des Terms
ist daher ½ und somit gilt für den Erwartungswert £näherungsweise
£=EX ¤ ` žÅ…0 .
Für große Zahlen N ist der Erwartungswert der größte „Mittelwert“ , denn ln4 ist kleiner als
Ņ0, und alle drei Mittelwerte verhalten sich ungefähr wie die Quadratwurzel aus N.
In den 60er Jahren hat die Spielbank Baden-Baden sog. Permanenztabellen veröffentlicht. Das
sind Roulette-Ergebnisse bzgl. eines ausgewählten Tisches, beobachtet über mehrere Jahre.
Der 13.2.1962 ergab 427 Spiele und dadurch erhält man die folgende Statistik aufeinander
19
folgender Wiederholungen bis zum erstmaligen Eintreffen eines schon erfolgten Wurfes, also
die von W.Feller benannte Wartezeit:
9,4,3,3,6,14,7,8,2,4,6,11,9,7,14,7,7,9,9,3,14,8,5,9,8,3,5,8,13,4,1,14,9,7,9,11,5,2,3,16,12,4,2.
Das sind 43 Daten und daraus errechnet sich ein arithmetischer Mittelwert von 7,3…. Der
theoretisch exakte Wert weicht erst in der dritten Dezimalen davon ab, der approximative
Wert ` 5ÇŅ0 führt mit 7,6… immerhin noch zur selben Vorkommaziffer.
Der empirische Median liegt zwischen 7 und 8, der theoretische Wert ceil(7,161…)=8 ergibt
den Median 8. Die Situation bzgl. des empirischen Modalwerts zeigt, dass empirische Zufallswerte nicht generell im Rahmen vorher berechneter theoretischer Werte liegen müssen.
Der empirische Modalwert 9 ist sogar größer als der arithmetischen Mittelwert 7,3… und natürlich auch daher vom theoretischen Wert floor(7,6…)=7 weit entfernt.
Der Zentrale Grenzwertsatz am Beispiel kontinuierlich gleichverteilter Merkmale
Der Zentrale Grenzwertsatz in der Form von Lindeberg/Levy besagt, dass statistische Mittelwerte approximativ normalverteilt sind, wenn sie aus Proben eines Merkmals bestehen, von
dem man akzeptieren kann, dass es einen theoretischen Erwartungswert und eine theoretische
Varianz hat. Generiert man z.B. 1000-mal mit einem Zufallsgenerator 100 „gleichverteilte
Pseudozufallszahlen“ aus dem Intervall [- [ 5, [ 5 ] und bildet davon die arithmetischen Mittelwerte, so sollten die Anzahlen innerhalb der durch die theoretische Standardabweichung
1/10 bestimmten Intervalle liegen, also z.B. innerhalb [-1/40, 1/40] ungefähr 197, denn die
theoretische Intervallwahrscheinlichkeit kann durch die Normalverteilungsfunktion Æausgedrückt werden: Æ"/…H- Æ"-/…H¶0!Æ"/…H-/¶97/ÈÇH und floor(1000 ! 0,1974) = 197.
Die empirischen Zahlen sollten nicht exakt mit diesen theoretischen übereinstimmen, aber
auch nicht allzu weit davon entfernt sein. In der folgenden Tabelle soll mit k das Vielfache
von 1/40 bezeichnet sein, ±k soll für [-k/40, k/40] stehen, die theoretisch zu erwartenden Zahlen werden durch floor(1000 !( 0! Æ"¥…H-/ angegeben:
±k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
995
999
999
999
1000
Theoret.
197
382
546
682
788
866
919
954
975
987
994
997
998
1.Versuch
190
377
550
696
789
862
916
956
978
987
991
997
1000
2.Versuch
195
361
527
690
801
875
924
957
975
985
990
993
995
998
3.Versuch
201
399
547
671
775
868
919
959
977
989
992
996
997
1000
Im Folgenden soll dieser Zusammenhang theoretisch untersucht werden. Eine Zufallsgröße X,
die „theoretisch“ über [- [ 5, [ 5 ] gleichverteilte Zufallszahlen beschreiben soll, wird modelliert durch die Rechteckfunktion f: x$ (H(x+[5R H(xR[5…[12 und die Verteilungsfunk
tion F: u$Ê|Í Ë"VÌV "ÎÎ-ˆ¥ÏÎ"'¶926'¯97/+
20
F(u) wird als Wahrscheinlichkeit, kleinere Werte als u anzunehmen, interpretiert. Betrachtet
werden Folgen (Xm) solcher Zufallsgrößen, die voneinander unabhängig sein sollen. Unter
dieser Annahme ist die Varianz des sog. zufälligen Stichprobenmittels Ь := (X1+…+Xn)/n
die Summe aus den Varianzen der Summanden Xk/n , also n/n² = 1/n, denn die Xk selbst haben die Varianz 1. Das standardisierte zufällige Stichprobenmittel [ ® !Ь schreibt sich
X1/[ ® +…+Xn/[ ® , die Summanden haben dieselbe Dichtefunktion
d: x$ (H(x+`5…® R H(xR`5…® ! `®…/0
und unter der Annahme der Unabhängigkeit der Zufallsgrößen erhält man die Dichtefunktion
des standardisierten Stichprobenmittels durch n-malige Faltung dieser Rechteckfunktion:
fn ¶ÑÑ+
Da bei jeder Faltung mit der Rechteckfunktion d sich der rechte Randpunkt des Trägerintervalls um `5…® nach außen bewegt, ist [- [ 5®, [5® ] Trägerintervall von fn, also fn(x)=0
für |x|>[5® . Nach Babovsky/Beth/Neunzert/Schulz-Reese (Mathematische Methoden in der
Systemtheorie: Fourieranalysis) lässt sich fn innerhalb des Trägerintervalls durch B-Splines
darstellen:
fn(x) =
¬
]}\ ‰Óҏ– ®
Ò
Ô
w
Ô
”w
" ||ª|!] |ÒԒ”
! "R1 !
"¬|Ò!Ò!
¬
¬
mit b= floor" \ R |V| ! ]}\ +
Offensichtlich verschwindet fn in den Randpunkten. Für n=2N und x=0 erhält man folgenden
merkwürdigen Grenzwert:
Ò w‘’”
p
Š€Ò
limŠÖÍ ž p…\!‰Š
!"Š|Ò!"Š€Ò! = ]×
ҏ}"R1
Es ist nicht sofort erkennbar, dass fn(x) gegen exp(-x²/2)/[0Å gleichmäßig konvergiert. Nach
dem Zentralen Grenzwertsatz muss aber die zugehörige Verteilungsfunktion Fn gegen die
Normalverteilungsfunktion Æ konvergieren. Wie der Wikipedia zu entnehmen ist, gibt es
zahlreiche Beweise für den Zentralen Grenzwertsatz und Wikipedia führt auch den sehr übersichtlichen neueren Beweis von U.Krengel an, der ohne umfangreiches mathematisches Literaturstudium verständlich dargestellt ist. Im vorliegenden Fall der zugrundeliegenden Rechteckverteilung braucht nicht einmal diskretisiert zu werden, da das frühzeitige Einbringen des
Erwartungswertes hier, im kontinuierlichen Fall, ebenso elegant wie im diskreten Fall gelingt.
Die Abbruchzahl N, um |Fn(x)-Æ(x)| kleiner als Ø für alle n>N und alle x zu erhalten, wird
allerdings sehr hoch, es sei denn, man steigt doch wieder in die mathematische Spezialliteratur ein.
Im Folgenden soll für Rechteckverteilungen eine Abbruchzahl N unter Verwendung elementarer Kenntnisse über Fouriertransformationen ermittelt werden, die zu kleineren Abbruchzahlen führt, die Abbruchzahl von Berry-Esséen jedoch nicht verbessert.
Die sowohl bei den Verteilungsfunktionen als auch bei den Fouriertransformationen auftretenden uneigentlichen Integrale sind bei den Untersuchungen unproblematisch, da für große
Argumente leicht Abschätzungen gewonnen werden können.
21
Die erste Abschätzung erfolgt durch die universelle Tschebyscheffsche Ungleichung, die für
kontinuierliche Zufallsgrößen Z mit Erwartungswert 0 und Varianz 1 besagt, dass die Wahrscheinlichkeit, Zahlen außerhalb eines Intervalls [-c,c], c>0, zu finden, höchstens 1/c² beträgt,
in mathematischer Notation: P(|Z|œc)1/c². Diese Relation ist eine einfache Folgerung aus
Í
Erwartungswert 0 und Varianz 1, weil 1 = Ê|Í ¹² f(z)dz für positive c sofort 1œ3ÙÊ|zڜ32"¡¡
impliziert, und das heißt 1œ c²!P(|z|œc). Wenn die Dichtefunktion f gerade ist
(also f(-z)=f(z)), gilt für alle z F(-z)= 1- F(z) , es wird
P(|Z|œc) = P(Z-c) + P(Zœc) = F(-c) + 1-F(c) = 2(1-F(c)) und somit 1œF(z)œ1- 1/(2z²) für
alle positiven z.
Daraus folgt, dass für zwei Verteilungsfunktionen V1 und V2 , die zu Zufallsgrößen mit Erwartungswert 0 und Varianz 1 und geraden Dichten gehören, die Abstände |V1(x)-V2(x)|
nicht größer sind als 1/(2x²) für alle von null verschiedenen x. Es gilt daher für alle n und alle
von null verschiedenen x |Fn(x)-Æ(x)| 1/(2x²) und für x=0 natürlich
Fn(0)= Æ(0)= ½ .
Ist 0<Ø<1/8 gegeben und ist b:=1/["0Ø, so gilt also
|Fn(x)-Æ"'ÚØ
für alle n und alle |x|œb+¨*)Û¡34ˆ¥34*Ü
[-$£*ž
*"¤›
*
_"
, reicht es aus, die Abstände zwischen den Dichtefunktionen fn ¥¥!$ exp(-•ˆ€ˆ€ ) innerhalb [0,b] *ž
*"¤ˆ›
*
_
lassen, denn wegen der Symmetrie der Dichten ist Fn(-x)-¦-x)= Fn(x)-¦#Ž*§%sitive x
gilt
ª
Fn(x)-¦~ʖ "ˬ "_ R Ý"_)) du.
Die Funktionsbilder der Differenzen ¥- fn lassen vermuten, dass die maximalen Werte durch
¥(0) - fn(0) erhalten werden können. Sowohl der exakte Nachweis als auch die exakte Berechnung von N ist allerdings nicht kurz darzustellen und wir ermitteln deshalb N über die
Fouriertransformationen. Wenn eine Funktion g Fourier-transformierbar ist, soll ihre Transformierte durch gF gekennzeichnet sein. Wie in der Nachrichtentechnik üblich, aber nicht in
der mathematischen Literatur, wird die folgende Definition verwendet:
Í
gF() := Ê|Í 'Þ"Rà ! á ! â ã"áÌá .
Den Formelsammlungen entnimmt man die Relation
æw
Í
F() := Ê|Í 'Þ"Rà ! á ! â 'Þ åR \ ç …["0ÅÌá = exp(-²/2).
Um die Fouriertransformierte fnF zu erhalten, wenden wir den Faltungssatz an und berechnen
lediglich die Transformierte zu der oben eingeführten Dichtefunktion d. Wir erhalten für #0
`p…¬
`p…¬
dF()=Ê|`p…¬ 'Þ"Ràáâ`®…/0dt = ʖ
¬
}
p
p
`®…5 ! cos(t!)dt=]p ! è !"]¬ ¶"]¬+
Für ¶934¥ˆ"¶/und die Spaltfunktion si ist, anders als der Sinusterm,
auch für das Argument 0 erklärt; in Übereinstimmung mit Wikipedia wurde hier die Zuwei-
22
sung si(x):=sin(x)/x für x#0 und si(0):=1 verwendet. Unter Anwendung des Faltungssatzes
für Fouriertransformationen ergibt sich dadurch unmittelbar
fnF() = sin(["5…+
Die Dichtefunktion fn kann über die Rücktransformation erhalten werden:
}
Í
fn"¶\× Ê|Í 'Þ"àáâ sin(["5…+
Wie aus den Formelsammlungen hervorgeht, gilt für die Dichtefunktion der Standardnormalvereilung
Í
}
"¶'Þ"-م0…[0Å = \× Ê|Í 'Þ"àáâ 'Þ"-م0+
Um einen einfachen approximativen Ausdruck für die Spaltfunktion si mit Argumenten innerhalb des Einheitsintervalls anwenden zu können, nehmen wir für die Integrale eine Variablentransformation vor und erhalten mit w=[(3/n) und unter Berücksichtigung von Symmetrien die Darstellungen
}
¬
Í
¬
fn"¶× ! ]p ʖ cos"á ! é] p sin( und
}
Í
¬
¬
"¶'Þ"-م0…[0Å = × ! ]p ʖ cos êá ! é] pë ! 'Þ"-!م^+
Die abzuschätzende Differenz (t)Rfn(t) schreiben wir als Summe A+B+C mit
}
¬
}
}
¬
Í
¬
A= × ! ]p ʖ cos êáé]pë !"'Þ"-!م^- sin(
¬
Í
}
B= × ! ]p Ê} cos êáé]p ë ! 'Þ"-!م^ = × ! Ê["¼…p cos"áâ ! 'Þ"-م0
C= R
}
×
¬
Í
¬
! ]p Ê} cos"áé]p sin(+
Für den Absolutbetrag von C erhalten wir offensichtlich eine obere Schranke für alle t und
n>1 durch
}
¬
! ]p .
×"¬|}
Um |B| abzuschätzen, verwenden wir die obere Schranke (x)/x für 1-Æ(x), die sich dadurch
ergibt, dass die erste Ableitung von (x)/x +Æ(x) für alle positiven x beständig negativ ist.
Aus der Integraldarstellung für B bzgl. der Variablen ergibt sich dadurch
}
p
|B| × ! ]¬ ! 'Þ"R…^.
23
Für n>6 ist dieser Wert offensichtlich kleiner als der für |C| erhaltene und dieser wiederum
kleiner als 2/(L["3n)). Um zu erreichen, dass die Summe |A|+|B|+|C| kleiner als Ø/b ist, bestimmen wir daher ein N aus 2/(L["3N))< Ø/(3b)=[2! Ø1.5/3 , z.B. N=ceil(6/(L²Ø³))>312 für ¤,
die kleiner als 1/8 sind.
Etwas aufwändiger ist die Ermittlung von N aus |A|< Ø/(3b). Eine Untersuchung der Funktion
h:x$(-x²/6 – ln si(x))/x4 ergibt im Intervall [0;1] monotones Wachstum und der Wertebereich
liegt im Intervall [0,005 ; 0,006]. Daher kann mit einem in diesem Intervall liegenden Wert z
ln si(x)= -x²/6 – x4!z, somit sin(x) = exp(-n!x2/6-n!x4!z), geschrieben werden und die Differenz
exp(-n!²/6) – sin(w) wird exp(-n!²/6)!(1–exp(-n!w4!z)), also für jedes positive w aus dem
Einheitsintervall kleiner als exp(-n!²/6)!(1 – exp(-n!w4!0,006)).
Bei fixem n erhält man durch Differentiation nach w zunächst w=0 als Nullstelle der ersten
Ableitung und die einzige weitere aus der Relation 1+0,072w²= exp(n!0,006!w4), denn
n!0,006!w4 dürfte nicht größer als 0,07 sein, anzusetzen wäre nach Taylor
exp(n0,006w4)= 1+ n0,006w4ì mit einem ì aus dem Intervall von 1 bis 1,04 , und daraus
erhält man dann tatsächlich die einzige weitere Nullstelle wm =´[(12/n) mit einer Zahl ´zwischen 0,98 und 1. Der Maximalwert der Differenz ist damit exp(-2! ´²)!0,8646!´4!/n!ì, also
kleiner als 0,2/n. Es ist daher |A| kleiner als 0,2/L/[3/[n und wir erhalten eine Abbruchzahl
durch ceil(0,06/L²/س). Diese Zahl ist jedoch kleiner als diejenige, die für |B| und |C| erhalten
wurde. Also können wir für alle Summanden die Zahl
N=ceil(6/(L²Ø³))
verwenden und für alle t und alle n, die nicht kleiner als N sind, gilt |fn(t)R(t)| < Ø/b, damit
für alle nœN und alle x auch |Fn(x) –Æ(x)|Ø.
Das beendet den Beweis des Zentralen Grenzwertsatzes für gleichverteilte Zufallsgrößen.
Herunterladen