Mathematik 3 für ET (Teil 1, WS 06)

Werbung
Mathematik 3 für ET (Teil 1, WS 06)
Wolfgang Herfort
Institut für Analysis und Scientific Computing
Technische Universität Wien
c
2006/2007
W.Herfort
2
Vorwort
Das vorliegende Skriptum stellt mathematische Begriffe und Themen für das Studium Bakkalaureat Elektrotechnik an der Technischen Universität Wien zusammen.
Das Wort “Mathematik” beinhaltet m.W. das Wort Kenntnis (im geistes- und naturwissenschaftlihen Sinn). Die Mathematik ist in diesem Sinne eine Sprache, welche (Er)kenntnisse
festhält, reproduzierbar und vergleichbar macht. Wie in natürlichen Sprachen ist ihr Gebrauch an eine Grammatik gebunden, die sie nicht nur Laien gelegentlich schwer zugänglich
erscheinen läßt. Dennoch ist sie eine lebende Sprache, ein Hilfsmittel, (Er)kenntnisse der
Anschauung und des Geistes auszudrücken.
Meine Hoffnung ist es, Ihnen verwertbares mathematisches Wissen näherbringen zu können.
Danksagung an
H.J.Dirschmid, daß er mit mir seine reiche Erfahrung als akademischer Lehrer teilte, Peter
Szmolyan für hilfreiche Grundsatzgespräche. Wolfram Hojka für Korrekturlesen des vorliegenden Manuskripts, wertvolle Vorschläge, sowie Feinarbeit zur optischen Gestaltung. W. Auzinger,
G. Bergauer, W. Hojka, A. Slateff und J. Wiesenbauer für wertvolle Diskussionen. Aufmerksamen Lesern der Internetversion für ihre Hinweise.
Recht herzlich möchte ich A. Prechtl für orientierungsweisende Gespräche hinsichtlich Stoffauswahl und Präsentation, sowie Durchsicht des Manuskripts danken.
Besonderer Dank gebührt Dir, liebe Anna!
Wien, im Dezember 2006
Wolfgang Herfort
3
Dies ist die Fortsetzung des M3 ET Skripts vom WS 06. Als Abrundung wurde ein Schlußkapitel über die eingespannte Seite eingefügt, welches so wenig als nötig Physik benützt,
jedoch Hilbertraumtechniken (wie sie zur Lösung von Rand- und Randanfangswertproblemen benützt werden) demonstrieren läßt. Lediglich Sobolevräume auf Intervallen werden
eingeführt. Ich bedanke mich für hilfreiche Gespräche bei W.Auzinger und A.Slateff – vorallem über Fragen der Funktionalanalysis und Numerik.
Meinen besonderen Dank für Wohlwollen und Vorschläge zum Inhalt sowie Korrekturen
möchte A. Prechtl aussprechen.
W. Herfort
Wien, im Juni 2007
4
Inhaltsverzeichnis
1 Grundlagen
1.1 Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Prädikatenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 “Naive” Mengentheorie, Mengen, Elemente, Teilmengen . . . . . . . .
1.2.2 Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge, Produktmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt . . .
1.2.5 Funktionen und Abbildungen . . . . . . . . . . . . . . . . . . . . . . .
9
9
9
14
16
17
2 Algebra
2.1 Formale Sprachen – Rudimente . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Termersetzungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Chomsky Grammatik . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Halbgruppen, Gruppen und Wirkungen . . . . . . . . . . . . . . . . . . . . .
2.2.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und
Wirkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler . . . . . . .
2.2.4 Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe von
Quotienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Definitionen und Allgemeines . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Abstrakte Polynomdefinition als Terme . . . . . . . . . . . . . . . . .
2.3.3 Ringe von Quotienten in einem Integritätsbereich. . . . . . . . . . . .
2.3.4 Kongruenzen in kommutativen Ringen mit Einselement, Ideale . . . .
2.3.5 Kommutativer Polynomring, Algebraische Körpererweiterung . . . . .
2.3.6 Endliche Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
43
47
50
50
5
25
27
31
35
56
62
66
67
67
71
73
74
76
79
6
Inhaltsverzeichnis
3 Wahrscheinlichkeitstheorie
3.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . .
3.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . .
3.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . .
3.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . .
3.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . .
3.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Histogramm und Verteilung einer Zufallsvariablen . . . . . . . . . . .
3.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und
Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . .
3.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
3.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . .
3.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . .
3.3.1 Ungleichung von Tschebischeff und das Bernoulliexperiment . . . . . .
3.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz . . . . . . . . . . .
85
85
85
94
96
98
99
99
101
4 Statistik
4.1 Grundlagen und Kurzbeschreibung
4.1.1 Aufgaben der Statistik . . .
4.1.2 Hauptsatz der Statistik . .
4.2 Schätz- und Testverfahren . . . . .
4.2.1 Parameterschätzung . . . .
4.2.2 Intervallschätzung . . . . .
4.2.3 Statistische Testverfahren .
4.3 Kovarianz und lineare Regression .
111
117
118
119
127
127
133
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
137
137
139
140
140
145
153
159
5 Metrische Räume
5.1 Metrische Räume . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Grundlegende Definitionen . . . . . . . . . . . . . . . . .
5.1.2 Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Fixpunktsatz von Banach und Anwendungen . . . . . . .
5.1.4 Offene, abgeschlossene, dichte und kompakte Teilmengen
5.1.5 Approximationssatz von Stone-Weierstraß . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
165
165
165
166
171
179
183
.
.
.
.
.
.
.
185
185
185
188
192
199
203
214
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Lineare Funktionalanalysis
6.1 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Grundlagen, Axiome . . . . . . . . . . . . . . . . .
6.1.2 Teil-, Quotienten- und Komplementärraum . . . .
6.1.3 Lineare Hülle, Unabhängigkeit, Basen, Dimension
6.1.4 Lineare Abbildung, Kern, Bild und Rang . . . . .
6.1.5 Dualraum, Dualität . . . . . . . . . . . . . . . . .
6.2 Normierte lineare Räume, Banachräume . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Inhaltsverzeichnis
7
.
.
.
.
.
.
.
.
.
.
.
.
214
217
218
220
223
223
227
230
232
232
241
244
7 Saite - etwas mathematische Physik
7.1 Mathematisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1 Die involvierten physikalischen Begriffe . . . . . . . . . . . . . . . . .
7.1.2 Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.3 Variationsformulierung – distributionelle Lösung . . . . . . . . . . . .
7.1.4 Hilbertraumformulierung – Soboleffnormen . . . . . . . . . . . . . . .
7.1.5 Lösungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Formulierung des Randwertproblems . . . . . . . . . . . . . . . . . . .
7.2.2 Hilbertraumformulierung - Existenz und Eindeutigkeit . . . . . . . . .
7.2.3 Globale Minimumeigenschaft des Wirkungsintegrals J . . . . . . . . .
7.2.4 Konstruktion der Rieszabbildung – Konsequenzen . . . . . . . . . . .
7.3 Eingespannte Saite im Potentialfeld unter Krafteinwirkung . . . . . . . . . .
7.3.1 Physikalische Fragestellung . . . . . . . . . . . . . . . . . . . . . . . .
7.3.2 Hilbertraumformulierung . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.3 Bemerkungen zur Lösbarkeit – Fredholmalternative . . . . . . . . . .
253
253
253
A ANHÄNGE
A.1 Grundlagen . . . . . . . . . . . . . . . . . .
A.1.1 Modelltheorie . . . . . . . . . . . . .
A.1.2 Formale Logik . . . . . . . . . . . .
A.1.3 Axiomatische Mengentheorie . . . .
A.1.4 Kardinalität endlicher Mengen . . .
A.1.5 Kardinalität und unendliche Mengen
A.1.6 Relationsschemata . . . . . . . . . .
A.2 Algebra . . . . . . . . . . . . . . . . . . . .
A.2.1 Reguläre Grammatik und Automat .
A.2.2 Kellerautomat und Turingmaschine .
A.2.3 Heterogene Algebren . . . . . . . . .
263
263
263
263
265
267
270
272
273
273
274
276
6.3
6.4
6.2.1 Norm, Vollständigkeit . . . . . . . . . . .
6.2.2 Abgeschlossene Teilräume, Dimension . .
6.2.3 Lp und lp Normen . . . . . . . . . . . . .
6.2.4 Soboleffnormen . . . . . . . . . . . . . . .
Stetige lineare Operatoren . . . . . . . . . . . . .
6.3.1 Stetigkeit=Beschränktheit, Operatornorm
6.3.2 (Topologischer) Dualraum . . . . . . . . .
6.3.3 Kompakte Operatoren . . . . . . . . . . .
Hilberträume . . . . . . . . . . . . . . . . . . . .
6.4.1 Inneres Produkt, Prähilbertraum . . . . .
6.4.2 Vollständigkeit . . . . . . . . . . . . . . .
6.4.3 Orthonormalsysteme . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
255
255
256
256
257
257
258
258
259
260
260
260
261
8
Inhaltsverzeichnis
A.3
A.4
A.5
A.6
A.2.4 Gesetze in heterogenen Algebren . . . . . . . . . . . . . . . . . . . . . 280
A.2.5 Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper . . . . . . . . . . . . . . . . . . 281
A.2.6 Eindeutige Faktorzerlegung . . . . . . . . . . . . . . . . . . . . . . . . 285
Ein wenig Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
A.3.1 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
A.4.1 Konstruktion der Vervollständigung für einen metrischen Raum (X, d) 290
A.4.2 Beweis des Banachschen Fixpunktsatzes Anmerkung 158 . . . . . . . 292
A.4.3 Beweise der Aussagen über offene, abgeschlossene, kompakte, etc. Mengen in Anmerkung 163 . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Banachräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
A.5.1 Beweis für Anmerkung 207 – Vollständigkeit des Dualraums . . . . . 294
A.5.2 Satz von Hahn-Banach* . . . . . . . . . . . . . . . . . . . . . . . . . . 295
A.5.3 Nachweise der Aussagen in Anmerkung 212 über kompakte Operatoren 298
A.5.4 Distributionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
Logfile: Korrekturen im Skriptum . . . . . . . . . . . . . . . . . . . . . . . . . 309
Kapitel 1
Grundlagen
1.1
1.1.1
Logik
Aussagenlogik
In der Aussagenlogik geht es um das Zusammensetzen (mathematischer) Aussagen aus einfacheren (mathematischen) Aussagen, etwa “A und B”, “A oder B”, “aus A folgt B”, “nicht
A”, wobei A und B nicht näher ins Auge gefaßte Aussagen sind, sowie um die Berechnung
des Wahrheitswertes der komplexen Aussage aus jenen von A und B. Diese Wahrheitswerte
sind wahr oder falsch (W, F). Wenn in dieser Weise zwei aus diesen Bestandteilen zusammengesetzte Aussageformen vorliegen, so nennt man sie logisch äquivalent, wenn sie bei jeder
Wahl der Wahrheitswerte der in ihnen vorkommenden Variablen den gleichen Wahrheitswert
haben. Es ist üblich, die Berechunung des Wahrheitswertes der elementaren logischen Operationen aus jenen der vorkommenden Variablen mittels Wahrheitstafel zu beschreiben, wie
dies in der umseitigen Tabelle gezeigt wird.
Kurz zu dem Umstand, daß in der nachfolgenden Tabelle “A ⇒ B” den Wahrheitswert W
hat, falls A F und B W ist: Ein Beispiel mit Aussagen aus der Theorie der ganzen Zahlen:
Wenn X die Menge {0, 1} und A die Aussage “0 = 1” ist, so kann man hieraus “1 = 0”,
und daher durch Einsetzen die wahre Aussge B, die da lautet“0 = 0” bekommen. Somit hat
man aus der falschen Aussage A die wahre Aussage B hergeleitet. Dieses Folgern “⇒” wird
sehr wohl als W bewertet. Das Folgern an sich ist nicht falsch, man hat mit A ja nichts
Unkorrektes getätigt.
Nun die schon angekündigten Wahrheitstabellen:
9
A, B
A, B
A, B
A, B
Disjunktion
∨
Implikation
⇒
Äquivalenz
⇔
A
A oder B
A∨B
A⇔B
A⇒B
A und B
A∧B
A
A
A
A
B
(logisch) äquivalent zu B
ist gleichbedeutend zu B
gilt genau dann, wenn B gilt
ist hinreichend und notwendig für
aus A folgt B
wenn A gilt, so auch B
A ist hinreichend für B
B ist notwendig für A
A impliziert B
A ist stärker als B
B ist schwächer als A
nicht A
Lesart(en)
¬A
Aus(logische)
sage(n) Verknüpfung
Konjunktion
∧
Negation
¬
Bezeichnung
w(A)
W
W
F
F
w(A)
W
W
F
F
w(A)
W
F
w(A)
W
W
F
F
w(A)
W
W
F
F
w(B)
W
F
W
F
w(B)
W
F
W
F
w(A ⇔ B)
W
F
F
W
w(A ⇒ B)
W
F
W
W
w(¬A)
F
W
w(B) w(A ∧ B)
W
W
F
F
W
F
F
F
w(B) w(A ∨ B)
W
W
F
W
W
W
F
F
Wahrheitstafel
10
Grundlagen
Beispiel 1 Beispiele zum Umgang mit logischen Aussagen:
1. Wie kann man die Aussage “ > 0, k > 0 und T ∈ [α, β]” mittels der obigen Symbolik
anschreiben?
Antwort: ( > 0) ∧ (k > 0) ∧ (T ∈ [α, β]).
2. Analog: “x ist entweder Null oder muß die folgenden Bedingungen erfüllen: x < 0, x ist
ganzzahlig und x ist durch 7 teilbar”.
1.1. Logik
11
Antwort: (x = 0) ∨ ((x < 0) ∧ (x ist ganzzahlig) ∧ (x ist durch 7 teilbar))
3. Analog: “Wenn n > 7 ist, so ist n < 0”.
Antwort: (n > 7) ⇒ (n < 0).
4. Man formuliere die nachstehende Aussage als ausgeschriebenen Satz ohne Benützung
der Symbole der Aussagenlogik:
((x > 0) ∧ (y < 0)) ∨ ((x < 0) ∧ (y > 0)).
Antwort: “x positiv und y negativ, oder es ist x negativ und y positiv.”
Zusatzfrage: Ist “xy < 0” logisch äquivalent dazu?
Antwort: Die Frage ist nicht korrekt gestellt, sie kann im Rahmen der Logik nicht
beantwortet werden, sondern lediglich innerhalb der Theorie der reellen Zahlen.
5. Wie müssen die Wahrheitswerte von Aussagen A, B und C beschaffen sein, daß (A ⇒
B) ⇒ C nicht den gleichen Wahrheitswert wie A ⇒ (B ⇒ C) hat?
Antwort: Eine gerne gepflegte Methode besteht in der Diskussion aller 8 Fälle und
Eintragen in eine erweiterte Wahrheitstafel. Die in dieser Form gefundenen Lösungen:
w(A)
F
F
w(B)
W
F
w(C)
F
F
w(A ⇒ B)
W
W
w(B ⇒ C)
F
W
w((A ⇒ B) ⇒ C)
F
F
w(A ⇒ (B ⇒ C))
W
W
6. Man zeige die logische Äquivalenz der Aussagen (A ⇒ B) und (¬A ∨ B), also die
Gültigkeit von (A ⇒ B) ⇔ (¬A ∨ B).
Antwort: Auch hier ist
die Diskussion der 4
Fälle mittels erweiterter
Wahrheitstafel möglich:
w(A)
W
W
F
F
w(B)
W
F
W
F
w(A ⇒ B)
W
F
W
W
w(¬A)
F
F
W
W
w(¬A ∨ B)
W
F
W
W
Die erweiterten Wahrheitstafeln (siehe z.B. Beispiel 1, 5. und folgende) aufzustellen ist für
komplizierter aufgebaute Aussagen mühsam. Daher interessiert man sich für Rechenregeln,
die das Rechnen mit Aussagen ermöglichen. Vorweg noch die folgende Definition:
Definition 2 Eine stets wahre Aussage heißt Tautologie, eine stets falsche Kontradiktion
bzw. Widerspruch.
Da definitionsgemäß zwei Aussagen A und B als logisch äquivalent gelten, wenn w(A) =
w(B) gilt, können die nachstehenden Identitäten, die ∨, ∧, ¬ involvieren, teils mittels Wahrheitstafeln, teils durch formales Herleiten aus bereits Bewiesenem gezeigt werden:
12
Grundlagen
Anmerkung 3 (Logische
knüpfungen)
A∨B
A∧B
(A ∨ B) ∨ C
(A ∧ B) ∧ C
(A ∨ B) ∧ C
(A ∧ B) ∨ C
A⇒B
¬(¬A)
¬(A ∨ B)
¬(A ∧ B)
(A ∧ B) ∨ A
(A ∨ B) ∧ A
A∨T
A∧T
A∨W
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
⇔
A∧W
⇔ W
Äquivalenz
B∨A
B∧A
A ∨ (B ∨ C)
A ∧ (B ∧ C)
(A ∧ C) ∨ (B ∧ C)
(A ∨ C) ∧ (B ∨ C)
(¬A) ∨ B
A
¬A ∧ ¬B
¬A ∨ ¬B
A
A
T
A
A
und
Rechengesetze
logischer
Ver-
Kommutativgesetz
Kommutativgesetz für ∧
Assoziativität von ∨
Assoziativität von ∧
Distributivität von ∧ bezüglich ∨
Distributivität von ∨ bezüglich ∧
wegen Beispiel 1 6.
Doppelnegation
Dualität
Dualität
Verschmelzungsgesetz
Verschmelzungsgesetz
für jede Tautologie T (Definition 2)
für jede Tautologie T
für jeden Widerspruch W (Definition 2)
für jeden Widerspruch W
Beispiel 4 Beispiele sollen den Vorteil des “Rechnens mit Aussagen” gegenüber erweiterten
Wahrheitstafeln illustrieren.
1. Zunächst leite man aus einer Wahrheitstafel die Aussage (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) her.
Diese logische Äquivalenz und Doppelnegation der ersten mit Dualität bezeichneten
Formel verwende man, um die zweite Formel dieser Art herzuleiten.
Antwort: Ersetzt man in der ersten Formel linke und rechte Seite durch die negierten
Formen und danach A durch ¬A sowie B durch ¬B, so egibt sich:
¬(¬(¬A ∨ ¬B)) ⇔ ¬(A ∧ B).
Jetzt verwendet man (X ⇔ Y ) ⇔ (¬X ⇔ ¬Y ) mit X und Y linke und rechte Seite der
obigen Äquivalenz.
2. Man beweise oder widerlege die logische Äquivalenz von (A ⇒ B) ⇒ C und A ⇒ (B ⇒
C). Im Falle, daß die Aussagen nicht äquivalent sind, gebe man ein einfaches Beispiel
von Aussagen (über natürliche Zahlen) an.
Antwort: Zunächst können beide Terme mittels der Regeln umgeformt werden:
(A ∧ ¬B) ∨ C,
¬A ∨ (¬B ∨ C).
1.1. Logik
13
Jetzt sieht man, daß es genügt, w(C) = w(A) = F zu wählen, dann kann B beliebigen Wahrheitswert annehmen und man hat ein Gegenbeispiel, weil ja der erste Term
den Wahrheitswert F, der zweite W bekommt (vgl. auch Beispiel 1 5). Um ein handfestes Beispiel mit Aussagen über natürliche Zahlen zu bekommen, nimmt man z.B.
A :=“1 = 0”, B :=“1 = 1” und C :=“1 = 0”.
3. Man zeige die Gültigkeit der Kontraposition: “A ⇒ B” ist logisch äquivalent zu “¬B ⇒
¬A”.
Antwort : Es ist w(A ⇒ B) = w(¬A ∨ B) und w(¬B ⇒ ¬A) = w(¬(¬B) ∨ ¬A) =
w(B ∨ ¬A) = w(¬A ∨ B).
4. Hier ein Programmausschnitt zur Definition der logischen (“Bool’schen”) Variablen
‘cond’:
var cond
: boolean;
x,loops
: integer;
userinput : string;
cond:=( (x=10) and ( (userinput=‘abbruch’) or (loops > 100))
and ( (userinput=‘abbruch’) or (x <> 10) ) );
Unter welchen Bedingungen ist der userinput relevant für das Zutreffen von cond? Wie
stellt sich die Bedingung in aussagenlogischer Form dar? Kann sie vereinfacht werden?
Wie sähe eine vereinfachte Programmzeile aus?
Antwort: Der Programmierer versucht, die Variable(n) zu analysieren, indem er sich
überlegt, was passiert wenn/wenn nicht die Eingabe ‘abbruch’ erfolgt. Er erkennt, daß
diese Eingabe nur für x = 10 relevant ist. Hingegen ist die Schleifenkontrolle mittels
loops überflüssig.
Im Folgenden soll das auf aussagenlogischem Weg gezeigt werden:
Nach Einführen der Bezeichnungen A :=“x=10”, B :=“userinput=‘abbruch”’ und
C :=“loops > 100” für die Aussagen findet man als Formulierung von cond:
cond ⇔ A ∧ (B ∨ C) ∧ (B ∨ ¬A).
14
Grundlagen
Nun sollen die Rechengesetze in Anmerkung 3 zur Vereinfachung herangezogen werden:
A ∧ (B ∨ C) ∧ (B ∨ ¬A)
⇔ (A ∧ (B ∨ ¬A)) ∧ (B ∨ C)
⇔
⇔
⇔
⇔
⇔
Ausgangssituation
Kommutativität und Assoziativität von ∧
((A ∧ B) ∨ (A ∧ ¬A)) ∧ (B ∨ C) Distributivität von ∧ bezüglich ∨
(A ∧ B) ∧ (B ∨ C)
Der Widerspruch A∧¬A kann
fortgelassen werden
A ∧ (B ∧ (B ∨ C))
Assoziativität von ∧
(A ∧ (B ∨ (B ∧ C)))
Verschmelzungsgesetz
A∧B
Die Bedingung C ist redundant und als vereinfachte Programmzeile ergibt sich
cond:=(x=10) and (userinput=‘abbruch’);
1.1.2
Prädikatenlogik
Es werden Elemente betrachtet, d.s. Objekte, etwa A und B, denen man in Form einer Aussage
ein Prädikat1 , (eine “Eigenschaft”) zukommen lassen möchte. In abstrakter Form P (A, B).
Z.B. können die natürliche Zahlen A := 3 und B := 5 Objekte und das Prädikat die Aussage
“3 ist kleiner als 5” sein, das man unter Verwendung des Symbols R := ‘ <0 etwas überformal
aufgeschrieben als < (3, 5) wiedergeben könnte, bzw. in üblicher Notation 3 < 5. Auch
Aussageformen mit mehr Argumenten sind vorstellbar, z.B. P (A, B, C) :=“(A ⇒ B) ⇒ C”.
Eine Sprache, wie sie zur Beschreibung einer (mathematischen) Theorie benützt werden
soll, muß im Sinne der Prädikatenlogik nach folgenden Grundprinzipien aufgebaut sein:
Definition 5 (Sprache der Prädikatenlogik) Zunächst besteht das Alphabet einer prädikatenlogischen Sprache aus Symbolen folgender Art:
1. Logische Symbole
¬
nicht
⇒
folgt
⇔
gleichbedeutend
∃
es existiert
∀
für alle
=
gleich
Die Symbole ∃ und ∀ heißen Quantoren, genauer Existenz- beziehungsweise Allquantor.
2. Variablensymbole.
3. Konstantensymbole.
4. Symbole für Prädikate.
5. Funktionssymbole, die spezifisch für die zu beschreibende Sprache (etwa jener der Sätze
über natürliche Zahlen) sind.
1
In der (deutschen) Grammatik steht P. für das Verb. In der Logik (und bei Datenbanken) für eine Eigenschaft.
1.1. Logik
15
Als nächstes wird festgelegt, wie man Terme bildet. Das geschieht rekursiv:
1. Jedes Variablen- und jedes Konstantensymbol ist ein Term.
2. Ist f ein n-stelliges Funktionssymbol und t1 , . . . tn Terme, so ist f (t1 , . . . , tn ) auch ein
Term.
Ein konstanter Term ist ein Term ohne Variablensymbole.
Nun werden Primformeln nach folgenden Regeln gebildet:
1. Gleichungen t1 = t2 , wobei t1 , t2 Terme sind.
2. Ist R ein n-stelliges Prädikat und t1 , . . . , tn Terme, so ist R(t1 , . . . , tn ) eine Primformel.
Nun wird (wieder rekursiv) festgelegt, wie man zu Formeln kommt:
1. Jede Primformel ist eine Formel.
2. Sind F und G Formeln und x ein Variablensymbol, so sind es auch die Ausdrücke ¬F ,
F ⇒ G, F ⇔ G, (∃x)F und (∀x)F .
Die Variable x in (∃x)F bzw. (∀x)F heißt gebunden, wenn vor der Variablen x kein Quantor
steht ist, ist sie frei. Weiters wird statt (∀x)((∀y)F ) die klammerfreie Version (∀x)(∀y)F
geschrieben und ähnlich für mehrere Quantoren. Es ist (∀x)F (bzw. (∃x)F ) genau W, wenn
F für alle (bzw. für ein x) W ist.
Beispiel 6 Beispiele hiezu:
1. Man überlege sich die logische Äquivalenz von ¬(∃x)F und (∀x)¬F . Analog auch die
logische Äquivalenz von ¬(∀x)F und (∃x)¬F .
Antwort: Wenn es kein x gibt, welches F erfüllt, so muß ¬F für jedes x gelten. Also
gilt ‘ ⇒0 . Ist umgekehrt für alle x die Aussage ¬F richtig, so kann es kein x geben, auf
das F zutrifft. Somit hat man ‘ ⇐0 .
Die andere Aussage geht ähnlich.
2. Man gebe (in der Theorie der natürlichen Zahlen) äquivalente Formulierungen für ¬(x <
3) ∧ (x < 7), (∃x)x2 = 4, ¬(∃l) l < 1. Welche der Variablen sind gebunden, welche frei.
Was kann über den Wahrheitswert der Aussagen gesagt werden?
Antworten:
(x = 3) ∨ (x = 4) ∨ (x = 5) ∨ (x = 6) und x ist frei, weil kein Quantor vorkommt.
x = 2 und x ist gebunden. Die neue Formel ist quantorenfrei, man spricht von Quantorenelimination aus (∃x)x2 = 4,
(∀l)l ≥ 1 und l ist eine gebundene Variable.
16
Grundlagen
3. (Negation des -δ Stetigkeitskriteriums) In der Sprache der reellen Analysis (reelle
Zahlen, Funktionen, Stetigkeit, etc.) zeige man durch Anwenden logischer Operationen2 ,
daß
¬ ( (∀ > 0) (∃δ > 0) (∀x) ( (|x| < δ) ⇒ (|f (x) − f (0)| < )) )
{z
}
|
|
{z
}
{z
}
|
logisch äquivalent zu
(∃ > 0)(∀δ > 0)(∃x)
ist.
((|x| < δ) ∧ (|f (x) − f (0)| ≥ ))
Antwort: Es ist hier durchaus angebracht, “Wort und Satzanalyse” zu betreiben. Wir
setzen F für den Term (|x| < δ) und G für (|f (x) − f (0)| < ) und setzen Klammern.
Dann liest sich die Aussage2 als
¬ ( (∀ > 0) ( (∃δ > 0) ((∀x) (F ⇒ G)))) .
{z
}
|
|
{z
}
|
{z
}
Nun benützt man die Regeln bezüglich Negation von Quantoren im untersten Teil des
Kastens in Definition 5 und findet, das “¬” sukkzessive von links nach rechts schiebend
(wir haben auch F ⇒ G in ¬F ∨ G umgeschrieben, vergleiche Anmerkung 3) und auch
das 1.te Beispiel:
⇔
⇔
⇔
⇔
1.2
¬( (∀ > 0)
(∃ > 0)
(∃ > 0)
(∃ > 0)
(∃ > 0)
( (∃δ > 0)
(¬(((∃δ > 0)
( (∀δ > 0)
( (∀δ > 0)
( (∀δ > 0)
((∀x)
( (∀x)
(¬((∀x)
((∃x)
( (∃x)
(¬F ∨ G)) ) )
(¬F ∨ G)) ) )
(¬F ∨ G)) ) )
¬((¬F ∨ G)) ) )
(F ∧ ¬G))).
Mengen
Gegenstand der Mengenlehre sind Mengen. Wir wollen der historischen Entwicklung insofern
folgen, als wir alle in Mathematik 1 und 2 betriebene Mathematik akzeptieren (analog wie
dies im 19.Jhdt. während der Entwicklung der Mengenlehre durch Georg Cantor durchaus
der Fall war), überlassen es dem Interessierten den Abriss über axiomatische Mengenlehre
(und die fundamentalen Probleme mit deren Nutzung) im Anhang (Unterabschnitt A.1.3)
nachzusehen, und (wie dies bisher zu einem guten Teil auch schon geschehen ist) alle mathematischen Begriffe, etwa Funktionen, Gruppen, Ringe, Körper, Vektorräume, Stetigkeit,
durch mengentheoretische Konstruktionen erklären.
2
Die Unterklammerung dient lediglich als Lesehilfe.
1.2. Mengen
1.2.1
17
“Naive” Mengentheorie, Mengen, Elemente, Teilmengen
Mengen und Elemente, Aufzählung, Eigenschaft
Mengen sind Zusammenfassungen wohlunterschiedener Objekte, die man ihre Elemente nennt,
d.h., je zwei Elemente einer Menge M sind verschieden und zwei Mengen M und N sind genau
dann gleich, wenn sie die gleichen Elemente enthalten.
Ist die Menge M endlich, so schreibt man M := {x1 , . . . , xn } und spricht von einer “Auflistung
ihrer Elemente”.
Ist A(x) eine Eigenschaft oder Prädikat, die einem Element x zukommt, so versteht man
unter N = {x | A(x)} die Menge jener Elemente x, auf die A(x) zutrifft. Man spricht von
einer Beschreibung: “N wird durch die Eigenschaft A(x) ihrer Elemente x bestimmt.”.
Man schreibt x ∈ M , falls x ein Element von M ist und x 6∈ M für die Aussage ¬(x ∈ M )
(also wenn x kein Element von M ist).
Statt (x ∈ M ) ∧ (y ∈ M ) ∧ (z ∈ M ) schreiben wir des öfteren (x, y, z ∈ M ) etc.
Teilmenge, Obermenge
Wenn alle Elemente einer Menge N auch Elemente einer Menge M sind, so nennt man N
Teilmenge von M und schreibt N ⊆ M .
Es gilt demnach definitionsgemäß
(N ⊆ M ) ⇔ (∀x)(x ∈ N ⇒ x ∈ M ).
Statt N ⊆ M schreibt man auch M ⊇ N und nennt dann M eine Obermenge von N .
Aufgrund der Festlegung, wann zwei Mengen M und N gleich sind, ergibt sich,
(M = N ) ⇔ (M ⊆ N ) ∧ (N ⊆ M ).
Man schreibt N ⊂ M , bzw. M ⊃ N und sagt, N ist echte Teilmenge von M (bzw. M ist
echte Obermenge von N ), wenn N Teilmenge von M ist, jedoch M mindestens ein Element
enthält, das nicht zu N gehört. Als Formel
(N ⊂ M ) ⇔ ((N ⊆ M ) ∧ (∃x)(x ∈ M ∧ x 6∈ N )).
Leere Menge
Die Menge, welche keine Elemente enthält, heißt leere Menge, im Zeichen ∅. Sie kann z.B.
durch
∅ = {x | x 6= x}
definiert werden.
Beispiel 7 Es sollen im Folgenden, wie üblich, N, Q, Z, R und C Symbole für die natürlichen, die ganzen, die reellen, bzw. die komplexen Zahlen sein.
18
Grundlagen
1. Man beweise oder widerlege M = N für folgende Mengen. Welche der Aussagen M ⊆ N ,
N ⊆ M , M ⊂ N , N ⊂ M trifft zu und welche dieser Aussagen ist die stärkste von denen,
die zutreffen:
N
M
{3, 5, 7}
{x | x ∈ N ∧ x2 ≤ 50}
∅
{∅}
∅
{x | x ∈ R∧x < 0∧(x2 −4x+
2.4444137 = 0)}
(0, 1]
{x ∈ R | x > x2 ∨ x3 = 1}
2
2
{(p, q) ∈ R | p − 4q = 0} {(p, q) ∈ R2 | (∃x)((x2 + px +
q = 0) ∧ (2x + p = 0))}
Antworten:
{3, 5, 7} =
6 {x | x ∈ N ∧ x2 ≤ 50}.
Um dies zu zeigen, genügt es, ein Element von N anzugeben, das nicht in M liegt. Es ist
x = 1 in N , weil x = 1 die beschreibende Eigenschaft von N erfüllt (es ist 12 ≤ 50), aber
es fehlt in der als Liste gegebenen Menge M . Es ist M ⊆ N , weil für jede der Zahlen
3, 5, 7 die beschreibende Eigenschaft von N zutrifft und es gilt die stärkere Aussage
M ⊂ N , weil 1 ∈ N , aber 1 6∈ M ist.
—————
∅=
6 {∅}, weil die leere Menge keine, jedoch die Menge {∅} immerhin als einziges Element
die leere Menge enthält. Es ist M ⊆ N , weil die leere Menge Teilmenge jeder Menge,
also auch von N ist. Die Aussage M ⊂ N ist stärker als M ⊆ N , und sie gilt, weil das
Element ∅ wohl zu N aber nicht zu M gehört.
—————
∅ = {x | x ∈ R ∧ x < 0 ∧ (x2 − 4x + 2.444317 = 0)}.
Dazu genügt es, sich klarzumachen, daß es kein negatives reelles x gibt, das die beschreibende Eigenschaft von N erfüllt. Das folgt, weil der Ausdruck wie folgt nach
unten abgeschätzt werden kann: |{z}
x2 + (−4x) +2.444137 > 2.444137, also für beliebiges
| {z }
>0
>0
negatives x positiv sein muß.
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
—————
(0, 1] = {x ∈ R | x > x2 ∨ x3 = 1}.
Wir zeigen zunächst M ⊆ N . Sei x beliebig im links offenen und rechts abgeschlossenen
Intervall (0, 1] gewählt. Dann erfüllt es definitionsgemäß die Ungleichungen 0 < x ≤ 1.
Für positives x darf man diese Ungleichung mit x multiplizieren, also bekommt man
0 < x2 ≤ x, somit gilt die erste der Bedingungen in N , falls x < 1 und die zweite,
falls x = 1 ist. Nun ist noch N ⊆ M zu zeigen. Sei zunächst x2 < x, so ist x positiv,
und man kann die Ungleichung mit x1 multiplizieren, um 0 < x < 1, also x ∈ (0, 1) zu
1.2. Mengen
19
bekommen. Trifft auf ein reelles x die zweite Eigenschaft zu, so ist x = 1, und man hat
x ∈ (0, 1]. Insgesamt hat man N ⊆ M .
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
—————
Es ist M = N . Zunächst zeigen wir M ⊆ N . Ist (p, q) ∈ M , so gilt p2 − 4q = 0. Dann
zeigt die Umformung x2 + px + q = (x + p2 )2 , daß x = − p2 Lösung von sowohl x2 + px + q
als auch 2x + p = 0 ist. Somit ist M ⊆ N .
Um N ⊆ M zu zeigen, nehmen wir (p, q) ∈ N an. Dann gibt es x, welches Lösung der
Gleichungen x2 + px + q = 2x + p = 0 ist. Einsetzen von x = − p2 in der quadratischen
Gleichung zeigt, daß p2 − 4q = 0 gelten muß. Also ist (p, q) ∈ M . Hier eine mögliche
Interpretation3 .
Es gelten die Aussagen M ⊆ N und N ⊆ M , jedoch keine der Aussagen M ⊂ N bzw.
N ⊂ M.
Durchschnitt, Vereinigung, Komplement, Mengendifferenz
Es sollen hier die im Titel genannten Mengenoperationen erläutert werden.
Definition 8 (Mengenoperationen) Es seien A und B Mengen.
Vereinigung: Als Vereinigung von A und B bezeichnet man die Menge jener Elemente, die
zu A oder zu B gehören:
A ∪ B := {x | x ∈ A ∨ x ∈ B},
bzw.
(x ∈ A ∪ B) ⇔ (x ∈ A ∨ x ∈ B)
Durchschnitt: Als Durchschnitt von A und B bezeichnet man die Menge jener Elemente,
die sowohl zu A als auch zu B gehören:
A
B
A ∩ B := {x | x ∈ A ∧ x ∈ B},
bzw.
(x ∈ A ∩ B) ⇔ (x ∈ A ∧ x ∈ B)
3
Man stelle sich vor, daß (p, q) “Parameter” eines “Systems” sind, welches eine “Zustandsvariable” x hat.
Die rellen Wurzeln x der Gleichung x2 +px+q = 0 definieren 0,1,bzw. 2 mögliche Zustände. Ist ∆ := p2 −4q > 0,
so gibt es 2, ist ∆ = 0, einen (weil eine Doppelwurzel auftritt), und ist ∆ < 0 keinen Zustand.
20
Grundlagen
Man sagt, A und B sind disjunkt, falls A ∩ B = ∅, also A und B keine Elemente
gemeinsam haben.
Differenz: Als (Mengen)Differenz von A und B bezeichnet man die Menge jener Elemente,
die zwar zu A, nicht jedoch zu B gehören.
A
B
A \ B := {x | x ∈ A ∧ x 6∈ B},
bzw.
(x ∈ A \ B) ⇔ (x ∈ A ∧ x 6∈ B).
Ist B ⊆ A, so wird A \ B auch als Komplement von B in A bezeichnet. Man schreibt
dann CA (B) := A \ B.
Wird eine feste Menge M als Grundmenge ausgezeichnet, d.h., man betrachtet in einem
bestimmten Kontext lediglich Teilmengen von M , so werden wir statt CM (A) auch A0
schreiben.
Beispiel 9 Wie man die vorangegangenen Begriffe zur “modellhaften Beschreibung” verwenden kann, soll das folgende Beispiel zeigen.
1. Zwei nebeneinander postierte Scheinwerfer projizieren nächtens kreisrunde Scheiben auf
eine weiße Wand, und zwar einer in gelb (G) und einer in blau (B). Eine Plane (P) deckt
einen Teil des Strahlenganges ab.
Wie kann man die Lage der Scheiben und jener Teile, die in Mischfarben erscheinen,
mittels Mengen beschreiben? Wie die beleuchtete Fläche – einmal ohne daß die Plane
abdeckt, einmal wenn sie es tut?
Antwort: Die weiße Wand mag für unsere Zwecke als Menge R2 beschrieben werden.
Jeder von einem Scheinwerfer projizierte Scheibe ist dann eine Kreisscheibe, also eine
Punktmenge der Form
{(x, y) | (x − x0 )2 + (y − y0 )2 ≤ r2 }.
Somit hat man zwei solche Kreisscheiben G und B.
Sichtlich ist G∪B die beleuchtete Fläche und G∩B der Bereich, in dem eine Mischfarbe
erscheint.
Die Lage der Scheiben kann unterschiedlich sein. Es kann eine der beiden Scheiben in
der anderen enthalten sein, z.B. G ⊆ B. Keine der Scheiben ist in der anderen zur
Gänze enthalten genau dann, wenn G \ B und B \ G beide nicht leer sind! Schließlich
können die Scheiben disjunkt sein, also B ∩ G = ∅.
1.2. Mengen
21
Wenn die Plane im Strahlengang ist, so ergibt sich als beleuchtete Fläche
(G ∪ B) \ P,
was zugleich (G \ P ) ∪ (B \ P ) ist. Weiters ist (G ∩ B) \ P jener Flächenanteil, der in
Mischfarbe erscheint.
2. Zeichenprogramme (etwa für Innenarchitekten) erlauben dem Benützer Objekte festzulegen, (etwa beim Grundriss eines Raumes die Position und Form von Möbeln). Es seien
Objekte R (der Raum), sowie T (Tisch), K (Kasten) und S (Sessel) gegeben. Welche
mengentheoretischen Bedingungen kann man für diese vier Objekte angeben, damit sie
(als Punktmengen in der Ebene – Draufsichten) eine Einrichtungsskizze ergeben, wenn
man davon ausgeht, daß die Möbel alle am Fußboden stehen. Wie übersetzt man die
Bedingungen in Umgangssprache)?
Antwort: T ∩S = T ∩K = S ∩K = ∅ und K ∪T ∪S ⊆ R. (Umgangssprache: Die Skizzen
der Möbel dürfen einander nicht überlappen und müssen alle im Raum R drinnen sein.
3. Einige der Axiome der Ebene lauten:
a) Ein Punkt ist etwas, das keine Teile hat.
b) Jede Gerade besteht aus Punkten.
c) Auf jeder Geraden liegen mindestens 2 Punkte.
d) Durch 2 voneinander verschiedene Punkte kann man genau eine Gerade legen.
e) Zwei voneinander verschiedene Geraden schneiden einander in höchstens einem
Punkt.
Wie können diese Aussagen mengentheoretisch formuliert werden?
Antwort:
a) Mengentheoretisch steht man heute auf dem Standpunkt, daß die (Euklidische) Ebene
aus Punkten besteht, somit diese Elemente der Ebene, als Menge aufgefaßt sind –
danach konstruiert man (motiviert durch die elementare Anschauung) eine Sprache im
Sinne von Definition 229, um die Geometrie der (Euklidischen) Ebene zu beschreiben.
Somit soll im weiteren E die Menge aller Punkte, sein.
b) Ist G die Menge der Geraden, so gilt
(∀g ∈ G) g ⊆ E.
c)
(∀g ∈ G) (∃p ∈ E) (∃q ∈ E)
(p 6= q) ∧ ({p, q} ⊆ g).
d)
(∀p ∈ E) (∀q ∈ E) (∃g ∈ G) (∀h ∈ G)
( (p 6= q) ⇒
(
({p, q} ⊆ g)
∧
22
Grundlagen
( ({p, q} ⊆ h) ⇒ (h = g) )
)
).
e)
(∀g ∈ G) (∀h ∈ G) (∀p ∈ E) (∀q ∈ E)
(
( ({p, q} ⊆ g ∩ h) ∧ (g 6= h) ) ⇒ (p = q)
).
4. In der (x, y)-Ebene werden die Koordinatenachsen A(bszisse) und O(rdinate) gezeichnet. Welche Gleichungen muß ein Zahlenpaar (x, y) erfüllen, damit der Punkt P mit
den Koordinaten x und y folgende Relation erfüllt:
P ∈ A, P ∈ O, P ∈ A ∩ O, bzw. P ∈ A ∪ O.
Antwort y = 0, x = 0, x = y = 0, xy = 0.
5. Läßt sich die ebene Punktmenge im R2
M := {(x, y) | xy(x2 + y 2 − 1) = 0}
als Vereinigung von Geraden und Kreisen beschreiben?
Antwort: Da xy(x2 + y 2 − 1) = 0 ⇔ (x = 0) ∨ (y = 0) ∨ (x2 + y 2 − 1 = 0), ist
M
= {(x, y) | (x = 0)} ∪ {(x, y) | (y = 0)} ∪ {(x, y) | (x2 + y 2 − 1 = 0)}
= A ∪ O ∪ K((0, 0); 1),
wobei K((0, 0); 1) die Kreislinie mit Mittelpunkt Null und Radius 1 ist.
Die im Unterabschnitt 1.2.1 gegebenen Definitionen der Mengenoperationen erlauben die
Übertragung der Rechengesetze aus Anmerkung 3:
Anmerkung 10 (Rechengesetze für Mengenoperationen)
A∪B
A∩B
(A ∪ B) ∪ C
(A ∩ B) ∩ C
(A ∪ B) ∩ C
(A ∩ B) ∪ C
=
=
=
=
=
=
B∪A
B∩A
A ∪ (B ∪ C)
A ∩ (B ∩ C)
(A ∩ C) ∪ (B ∩ C)
(A ∪ C) ∩ (B ∪ C)
(A0 )0
(A ∪ B)0
(A ∩ B)0
= A
= A0 ∩ B 0
= A0 ∪ B 0
Kommutativgesetz für ∪
Kommutativgesetz für ∩
Assoziativität von ∪
Assoziativität von ∩
Distributivität von ∩ bezüglich ∪
Distributivität von ∪ bezüglich ∩
A ist das Komplement von A0
Dualität, De’Morgan
Dualität, De’Morgan
1.2. Mengen
23
Viele dieser Identitäten können mit einfachen Zeichnungen “eingesehen” werden. Um jedoch
Fehler zu vermeiden, sind formale Beweise nötig. Wie das gehen kann, soll jetzt gezeigt
werden:
1. Man beweise die Identität A ∪ B = B ∪ A.
Beispiel 11
Antwort: Es genügt, die folgende logische Äquivalenz nachzuweisen:
(∀x)(x ∈ A ∪ B ⇔ x ∈ B ∪ A).
Sei x ein beliebiges Element in der Menge A ∪ B. Dann gelten die folgenden logischen
Äquivalenzen
x∈A∪B
⇔ (x ∈ A) ∨ (x ∈ B) Definition von ∪
⇔ (x ∈ B) ∨ (x ∈ A) Kommutativgesetz für ∨
⇔ x ∈ (B ∪ A)
Definition von ∪
Beginn und Ende dieser Kette stellen die behauptete logische Äquivalenz dar.
2. Man zeige A \ B = A ∩ B 0 , wobei sich die Komplementbildung auf eine beliebige, A ∩ B
umfassende Menge bezieht.
Antwort: Wir zeigen, daß die in Frage kommenden Mengen die gleichen Elemente enthalten und es sei M eine Menge, die A ∪ B umfaßt:
x∈A\B
⇔ (x ∈ A) ∧ (x 6∈ B)
⇔ (x ∈ A) ∧ (x ∈ B 0 )
⇔ x ∈ A ∩ B0
Ausgangssituation
Definition von \
Definition des Komplements
Definition des Durchschnitts
3. Man zeige (A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B für beliebige Mengen A, B und C. Man
skizziere die Situation und formuliere die Aussage in aussagenlogischer Form.
Antwort: Das nachstehende Diagramm bedarf kundiger Betrachtung:
_ _ _ _ _ _ _ _ _ _ _ _ A\B B\A
A∩B
_ _ _ _ _ _ _ _ _ _ _ _
A strichlierte Umrandung
B voll ausgezogene Umrandung
Aussagenlogische Form der Behauptung:
(∀A)(∀B)(A \ B) ∪ (B \ A) ∪ (A ∩ B) = A ∪ B.
24
Grundlagen
Man könnte es wie unter 2. machen, wir wollen aber zeigen, wie man (in Hinblick auf
die gleiche Aufgabe für kompliziertere Identitäten) die in Anmerkung 10 formulierten
Rechengesetze benützen kann. Es sei M := A ∪ B, dann kann man wie folgt vorgehen:
(A \ B) ∪ (B \ A) ∪ (A ∩ B)
= (A ∩ B 0 ) ∪ (B ∩ A0 ) ∪ (A ∩ B)
Ausgangsituation
Mengendifferenz durch
ment ausgedrückt
= ((A ∪ B) ∩ (B 0 ∪ B) ∩ (A ∪ A0 ) ∩(B 0 ∪ A0 )) ∪ (A ∩ B)
| {z } | {z }
=M
Komple-
=M
Distributivgesetz für ∪
= ((A ∪ B) ∩
∪
∪ (A ∩ B) es ist M = A0 ∪ A = B 0 ∪ B und
M ∩ T = T für jede Teilmenge T
von M
0
= ((A ∪ B) ∩ (A ∩ B) ) ∪ (A ∩ B) De’Morgan
= ((A ∪ B) ∪ (A ∩ B)) ∩ ((A ∩ B)0 ∪ (A ∩ B))
{z
}
|
(B 0
A0 ))
=M
Distributivgesetz für ∪
weil Komplemente einander auf M
ergänzen
weil A ∪ B ⊆ M .
= (A ∪ B) ∩ M
= A∪B
4. Ist die Aussage (∀A)(∀B)(∀C)(A \ B) ∩ (A \ C) = A \ (B ∩ C). korrekt?
Antwort:
Zeichnet man die Mengen etwa wie auf dem Bild auf, sieht man rasch ein, daß die
Aussage falsch sein sollte (Die Mengen A, B und C sind jeweils durch strichlierte,
ausgezogene, bzw. punktierte Linien umrandet) – gut für die Intuition, leider ist es
noch kein Beweis.
_ _ _ _ _ _ _ A
B
_ _ _ _ _ _ _
C
Um zu einem Beweis zu gelangen, muß man die Negation der obigen Aussage zeigen,
also genügt es,
(∃A)(∃B)(∃C)(A \ B) ∩ (A \ C) 6= A \ (B ∩ C).
durch ein Beispiel zu belegen, etwa A := {1, 2}, B := {2} und C := A. Dann ist nämlich
(A \ B) ∩ (A \ C) = ∅ und A \ (B ∩ C) = {1}, also gilt Ungleichheit, wie behauptet.
(Wir haben die Allgemeingültigkeit der obigen Aussage durch Angabe eines Gegenbeispiels widerlegt).
1.2. Mengen
1.2.2
25
Allgemeine Vereinigung und Durchschnitt, Partition, Potenzmenge,
Produktmengen
Definition 12 Es sei M eine Menge von Mengen.
Allgemeine Vereinigung: Man definiert
[
M
M ∈M
als die Gesamtheit aller Elemente x, die zu irgendeiner der Mengen M in M gehören.
[
M := {x | (∃M ∈ M) x ∈ M }.
M ∈M
S
Partition : Ist X = M ∈M M und sind je zwei verschiedene Mengen M und M 0 disjunkt,
d.h. gilt M ∩ M 0 = ∅, so nennt man M eine Partition oder disjunkte Zerlegung von X.
Allgemeiner Durchschnitt: Es ist
\
M
M ∈M
die Gesamtheit aller Elemente x, die zu allen Mengen M in M gehören.
\
M := {x | (∀M ∈ M) x ∈ M }.
M ∈M
Beispiel 13
1. Ist G die Menge aller Geraden in der Ebene, so ist diese gleich
also Vereinigung aller in ihr liegenden Geraden.
S
g∈G g,
2. Es sei K eine in der (x, y)-Ebene des R3 liegende Kreislinie und X die Menge aller
zur
S z-Achse parallelen Geraden, welche den Kreis in einem Punkt schneiden, dann ist
x∈X x ein unendlicher vertikaler Hohlzylinder. Es liegt eine Partition des Hohlzylinders
in vertikale Geraden (“Erzeugende”) vor.
3. Ein Stapel Bierdeckel veranschaulicht eine Partition des Stapels in die disjunkten Teilmengen. M ist die Menge der Bierdeckel, X das räumliche Gebilde, welches die Bierdeckel “belegen”.
4. Es sei H eine Menge von Teilmengen h einer Region, sodaßSes in jedemTh einen Sender
gibt, der in ganz h empfangen werden kann. Wie lassen sich h∈H h und h∈H h deuten?
S
T
Antwort: Es ist h∈H h jener Bereich, in dem mindestens einer der Sender, und h∈H h
jener, wo alle Sender empfangen werden können.
26
Grundlagen
5. Es sei ein Geradenstück in der Ebene gegeben, welches den Ursprung (0, 0) mit dem
Punkt (1, 0) verbindet. Weiters soll Y die Menge aller Kreisscheiben vom
S Radius 1
sein,
deren
Mittelpunkte
auf
dem
Geradenstück
liegen.
Wie
kann
man
y∈Y y und
T
y
durch
endlich
viele
Bedingungen
an
die
Koordinaten
der
enthaltenen
Punkte
y∈Y
beschreiben?
Antwort:
S
'$
'$
'$
'$
'$
'$
'$
'$
'$
'$
'$
Als Vereinigung 4 y∈Y y = A ∪ B ∪ C mit A :=
r
r
{(x, y) | x2 + y 2 ≤ 1}, B := {(x, y) | (0 ≤ x ≤
2
1) ∧ (−1 ≤ y ≤ 1)} und
T C = {(x, y) | (x − 1) +
&%
&%
&%
&%
&%
&%
&%
&%
&%
&%
&%
y 2 ≤ 1}. Weiters ist y∈Y y = A ∩ C.
Mehr zu Partitionen siehe Definition 26 und Beispiel 27.
Definition 14 (Potenzmenge) Ist M eine Menge, so bilden alle ihre Teilmengen eine Menge, nämlich die Potenzmenge, abgekürzt durch P(M ):
P(M ) := {T | T ⊆ M }.
Beispiel 15 Ein Beispiel, das zur abzählenden Kombinatorik gehört, vgl. Anmerkung 233.
1. Es sei M eine endliche Menge mit m Elementen. Man soll zeigen, daß P(M ) 2m Elemente hat.
Antwort: Der Beweis gelingt durch vollständige Induktion. Ist die Anzahl m = 0, so
liegt die leere Menge vor, und sie hat nur eine einzige Teilmenge, nämlich ∅, somit hat
P(∅) 20 = 1 Elemente.
Nun sei die Behauptung für jede endliche Menge mit m Elementen bewiesen. Sei X
eine beliebige Menge mit m + 1 Elementen und x ∈ X ein beliebiges Element. Dann
gibt es zwei Arten von Teilmengen von X: solche, die Teilmengen von X \ {x} sind,
und solche, die von der Form T ∪ {x} mit T ⊆ X \ {x} sind. Von beiden Sorten gibt
es 2m Teilmengen, weil ja X \ {x} lediglich m Elemente hat. Somit gibt es insgesamt
2m + 2m = 2 × 2m = 2m+1 Teilmengen in X, w.z.b.w.
2. Auf wieviele Arten kann man aus einer Urne mit k Kugeln einen Teil der Kugeln
herausnehmen?
Antwort: Jeder solche “Teil” ist eine Teilmenge der k Kugeln. Deshalb gibt es 2k solche
Auswahlen.
4
Es ist dies ein Beispiel eines Voronoidiagramms: Dabei möchte man aus einem vorgegebenen Stück Blech
nach Schablone Figuren herausfräsen. Es gibt jedoch entlang des Randes Verluste, sodaß die Figuren verbreitert
gezeichnet werden müssen.
1.2. Mengen
27
Definition 16 (geordnetes Paar) Sind A und B Mengen und a ∈ A, b ∈ B, so heißt die
Menge (a, b) := {{a}, {a, b}} geordnetes Paar und die Menge aller geordneten Paare
A × B := {(a, b) | a ∈ A ∧ b ∈ B}
das (kartesische) Produkt der Mengen A und B.
Anmerkung 17 Die Definition des geordneten Paars durch eine Menge entspricht axiomatischem Vorgehen. Die wichtigste Eigenschaft eines geordneten Paars ist
(a, b) = (a0 , b0 ) ⇔ (a = a0 ) ∧ (b = b0 ),
die man als naive Definition kennt, und aus der mengentheoretischen Definition sofort
folgt.
Hat A genau m Elemente und B genau n Elemente, so hat A × B genau mn Elemente.
Beispiel 18 Hiezu Beispiele:
1. Es seien X := {A, B, C} Aussagen und W := {W, F}. Welche Deutung kann X × W
gegeben werden?
Antwort: In der nebenstehenden Tabelle kann jedes
Kästchen im rechten unteren Teil durch Angabe der
“Koordinaten” A, B oder C und dem Wahrheitswert
W, F beschrieben werden.
A
B
C
W
F
2. Welche Deutungen kann man E ×E geben, wenn E die Ebene (bestehend aus Punkten)
ist?
Antwort: Es handelt sich um Punktepaare. Ist (P, Q) ein Punktepaar, kann es zur Definition von Endpunkten einer gerichteten Strecke verwendet werden.
1.2.3
Relationen
Relationen beschreiben die Beziehung von Elementen einer Menge A zu denen in einer Menge
B. Es sei A := {QUICKFUNK, SMALLTALK, NOISY, REDEFROH} eine Liste Mobilfunkbetreiber, und B := {Anton, Ida, Max, Moritz} Namen von Personen, so könnte man sich
für die Beziehung “Person b ∈ B ist Teilnehmer von Mobilfunkbetreiber a ∈ A.” interessieren. In der nachstehende Tabelle wird das durch ein ‘x’ ausgedrückt und die nebenstehende
Zeichnung kann auch als Definition interpretiert werden:
28
Grundlagen
QUICKFUNK
Anton
QUICKFUNK
SMALLTALK
NOISY
REDEFROH
Ida
x
x
Max
x
x
Moritz
x
x
Anton
OOO
OOO
OOO
OOO
SMALLTALK
Ida ??
??

??


??

??  ?

?

NOISY
Max
 ?? o
 ooo?o?o?

??
 ooo
?
 ooo
Moritz
REDEFROH
Definition 19 (binäre Relation) Sind A und B Mengen, so versteht man unter einer
(binären) Relation von Elementen in A zu solchen in B eine Teilmenge R des kartesischen
Produkts5 A×B. Ist A(x, y) eine Aussage in 2 Variablen, so ist R := {(x, y) ∈ A×B | A(x, y)}
eine Relation. Statt (x, y) ∈ R schreibt man oft xRy.
Amalog spricht man von einer k-stelligen Relation, falls R Teilmenge von A1 ×A2 ×· · ·×Ak
ist.
Beispiel 20 Beispiele zu Relationen:
1. Welche Elemente liegen in R für das obige Einführungsbeispiel? Wie übersetzt man die
Skizze in die Beschreibung von R, wie ergibt sich die Skizze bei gegebenem R? Wie
könnte A(x, y) aussehen?
Antwort: R = {(QUICKFUNK, Ida), (SMALLTALK, Ida), (SMALLTALK, Moritz),
(REDEFROH, Ida), (REDEFROH, Max), (REDEFROH, Moritz)}. Für jede Linie von
links nach rechts ergibt sich ein Element in R und umgekehrt.
Die Beschreibung durch A(x, y) gestaltet sich wie folgt:
(∃a)(∃b)((a, b) ∈ R)),
wobei R die obige Liste ist.
Um die Zusammensetzung oder Komposition von Relationen zu verstehen, sei z.B. C :={TU,
Cafe Museum, Floridsdorf, Döbling} und eine Relation S durch die Liste von Paaren {(Anton,
TU), (Anton, Floridsdorf), (Ida, TU), (Ida, Döbling), (Ida, Cafe Museum), (Moritz, Cafe Museum), (Moritz, TU), (Max, Döbling)} gegeben. Interpretation: Orte, wo sich diese Personen
oft aufhalten. Nun kann gefragt werden, welche dieser Orte die Mobilfunkbetreiber erreichen
können sollten.
5
Definition 16
1.2. Mengen
29
Anton Cafe Museum
3 N
OOO
p N
OOO
3
Np p OOO
N
3 p
N
OOO
p
p 3
N
3
_
_
_
_
_
_ TU
SMALLTALK
Ida
N 3 >>
N
>>
N 3N
>>
3 N
>>
N
33
>>
>
_
_
_
_
_
>>
Max NOISY
3 Döbling
>>ppp
3
p>
3
ppp >>>
p
p
3
> ppp
_ _ _ _ Floridsdorf
REDEFROH
Moritz QUICKFUNK
Nun kann eine neue Relation RS durch die Paare RS := {(QUICKFUNK, Cafe Museum),
(QUICKFUNK, TU), (QUICKFUNK, Döbling), (SMALLTALK, Cafe Museum), (SMALLTALK, TU), (SMALLTALK, Döbling), (SMALLTALK, Floridsdorf), (REDEFROH, Cafe
Museum), (REDEFROH, TU), (REDEFROH, Döbling), (REDEFROH, Floridsdorf)} festlegen, welche als Zusammensetzung von R mit S bezeichnet wird und z.B. die Interpretation
“Betreiber a steht mit dem Ort c in Relation RS, genau dann, wenn sich in c eine Person b ∈ B öfters aufhält und a dort benützen könnte.” zuläßt. Ganz allgemein lautet die
Definition:
Definition 21 (Zusammensetzung von Relationen) Sind R ⊆ A × B und S ⊆ B × C
Relationen, so versteht man unter Zusammensetzung RS ⊆ A × C die Relation
(a, c) ∈ RS ⇔ ((∃b ∈ B)(a, b) ∈ R ∧ (b, c) ∈ S).
In Worten, wenn es ein b in B mit aRb und bSc gibt.
Anmerkung 22 (inverse Relation)
1. Zu jeder Relation R ⊆ A × B gibt es die Relation R◦ ⊆ B × A mit den Paaren
(b, a), für die (a, b) ∈ R ist.
2. Die Komposition ist assoziativ in dem Sinne daß R(ST ) = (RS)T gilt.
Hier der Beweis für die Assoziativität.
⇔
⇔
⇔
⇔
⇔
aR(ST )d
(∃b ∈ B)aRb ∧ bST d
(∃b ∈ B) aRb ∧ (∃c ∈ C)bSc ∧ cT d
(∃b ∈ B)(∃c ∈ C) aRb ∧ bSc ∧ cT d
(∃c ∈ C) aRSc ∧ cT d
a(RS)T d
30
Grundlagen
Ein wichtiger Spezialfall tritt ein, wenn A = B gilt. Z.B. kann A eine Liste von Orten und R
die Relation sein, die angibt, ob es eine Zugsverbindung von Ort a ∈ A nach Ort a0 ∈ A gibt.
Die folgenden Eigenschaften einer solchen Art von Relation haben besonderen Namen:
Definition 23 (Wesentliche Eigenschaften, die eine binäre Relation haben kann)
Man sagt, R ist eine Relation auf der Menge A, falls R ⊆ A × A ist. Die Relation R auf A
erfüllt die Eigenschaft der
Reflexivität:
Symmetrie:
Antisymmetrie:
Transitivität:
(∀a ∈ A)
(∀a, a0 ∈ A)
(∀a, a0 ∈ A)
(∀a, a0 , a00 ∈ A)
aRa
(aRa0 ) ⇒ (a0 Ra)
(aRa0 ) ∧ (a0 Ra) ⇒ a = a0
(aRa0 ) ∧ (a0 Ra00 ) ⇒ aRa00 .
a’
a
a"
a
a’
Reflexivität
a
Symmetrie
Transitivität
Eine Relation R auf einer Menge A kann durch einen gerichteten Graphen, die Elemente
von A als dessen Knoten und die Elemente von R als dessen gerichtete Kanten beschrieben
werden. Ist (a, b) ∈ R, m.a.W. eine Kante, so ist a die Quelle und b das Ziel.
Beispiel 24 Relationen auf einer Menge:
1.
Wie kann die durch die nebenstehende Tabelle gegebene Relation zwischen Städten durch
einen gerichteten Graphen beschrieben werden?
Warum ist die Relation weder reflexiv, noch
symmetrisch, noch transitiv? Warum ist sie antisymmetrisch? Wie erkennt man dies aus der
Tabelle, bzw. anhand des Graphen?
ab
Wien
Wien
Wien
Budapest
an
Rom
München
Budapest
Szeged
Antwort: Die Skizze, ein Graph mit Knoten die Orte und Kanten die Verbindungen lt.
Liste.
München
jTTTT
TTTT
T
Wien
/ Budapest
OOOO
'
Szeged
Rom
Die Relation ist nicht reflexiv, weil (Wien, Wien)6∈ R. Sie ist nicht symmetrisch, weil
zwar (Wien, Budapest)∈ R, nicht jedoch (Budapest, Wien)∈ R gilt. Sie ist nicht transitiv, weil zwar (Wien, Budapest)∈ R, und (Budapest, Szeged)∈ R sind, nicht jedoch
1.2. Mengen
31
(Wien, Szeged)∈ R ist. Sie ist antisymmetrisch, weil für kein Paar (a, a0 ) ∈ R gleichzeitig auch (a0 , a) ∈ R ist, wie man durch Diskussion der 4 Fälle (die Pfeile) sofort sieht.
Geometrisch sieht man das, weil es keine inversen Pfeile gibt.
1.2.4
Äquivalenzrelation und Halbordnung, Quotientenmenge, Schnitt
Die in Definition 23 genannten Eigenschaften werden zur Beschreibung von Äquivalenzrelation und Halbordung herangezogen. Ein sehr einfaches Beispiel einer Äquivalenzrelation auf
einer Menge A entsteht, wenn man eine gewisse Anzahl von “Farbtiegeln” hat, und jedes
Element einmal in genau einen Tiegel tunkt. Dann definiert man aRa0 , wenn a und a0 die
gleiche Farbe haben. Ein sehr einfaches Beispiel einer Halbordung auf den natürlichen Zahlen
besteht in der Definition nRm, falls n ein Teiler von m ist.
Definition 25 (Äquivalenzrelation und Halbordnung) Eine Relation auf einer Menge
A, welche reflexiv, symmetrisch und transitiv ist, heißt Äquivalenzrelation6 . Ist a ∈ A, so heißt
die Menge aller a0 mit aRa0 die Äquivalenzklasse von a.
Eine Relation auf einer Menge A, welche reflexiv, antisymmetrisch und transitiv ist, heißt
Halbordnung.
Vorsicht: Im Zusammenhang mit Datenbanken wird der Terminus Relation gelegentlich für
“Relationsschema”, siehe Beispiel 239, gebraucht.
Mit den beiden soeben definierten Begriffen hängen einige Konzepte zusammen, die jetzt
aufgelistet werden und danach in Beispielen erläutert werden sollen.
Definition 26 ad Äquivalenzrelation: Es sei R eine Äquivalenzrelation auf A. Die Menge der Äquivalenzklassen heißt Quotientenmenge7 von R, und wird mit A/R bezeichnet.
Die Menge von Mengen A/R bildet eine Partition von A (Definition 12). Jedes Element
einer Äquivalenzklasse heißt ein Repräsentant dieser Klasse. Eine Funktion s : A/R → A
heißt Schnitt, falls für jedes ā ∈ A/R das Element s(ā) in der Klasse von a liegt. Die
Menge s(A/R) heißt Repräsentantensystem der Äquivalenzrelation R.
Umgekehrt, liegt eine Partition von A vor, so läßt sich auf A eine Äquivalenzrelation
definieren, indem man aRa0 definiert, wenn a und a0 zur gleichen Teilmenge gehören.
Die zu dieser Partition wie oben gebildete Äquivalenzrelation ist dann R.
ad Halbordnung: Ist R eine Halbordnung, so wird oft das Symbol ≤
gewählt. Man nennt Elemente a, a0
∈
A vergleichbar, wenn entweder
a ≤ a0 oder a0 ≤ a gilt, andernfalls heißen sie unvergleichbar. Ist
a ∈ A und B eine Teilmenge von A so gibt es folgende Bezeichnungen:
Notation
Bedingung, Kommentar
a ∈ A ist
Maximum von A max A, min A
falls alle Elemente in x ∈ A mit a ver(bzw. Minimum),
gleichbar sind und x ≤ a (bzw. a ≤ x)
auch
größtes
erfüllen.
(bzw. kleinstes)
Element genannt
32
Grundlagen
maximales (bzw.
minimales) Element
obere
(untere)
Schranke von B
Supremum (Infimum) von B
wenn a ≤ x (bzw. x ≤ a) stets a = x nach
sich zieht.
für alle b ∈ B ist b ≤ a (a ≤ b)
sup B, inf B
falls a das Minimum (Maximum) der Menge der oberen (unteren) Schranken von B
ist
Spezielle Eigenschaften einer Halbordnung in Tabellenform:
Bedingung, Kommentar
Bezeichnung
linear(e Ordnung), Total- falls je zwei Elemente vergleichbar sind.
ordnung oder Kette,
noethersch oder fundiert
wenn jede echt absteigende Kette endlich ist
Wohlordnung
wenn jede nicht leere Teilmenge ein Minimum besitzt
Eine partielle Ordnung ist eine Relation, die lediglich transitiv und antisymmetrisch
ist. Eine partielle Ordnung ist strikt, wenn kein Element zu sich selbst in Relation
steht. Dies wird meist durch das Symbol ‘<’ bezeichnet.
Die folgenden Skizzen veranschaulichen die Begriffe:
Maximum
obere Schranke zu B
B
2 minimale Elemente,
kein Minimum
sup B
B
noethersch
etc
Unendlicher binärer Baum
nicht noethersch
7
Man stellt sich vor, jede Äquivalenzklasse schrumpft zu einem Punkt.
1.2. Mengen
33
Beispiel 27
1. Prozentverteilungen verschiedener Bestandteile einer Substanz werden gelegentlich durch eine Kreisscheibe mit verschieden gefärbten, nicht überlappenden Sektoren, deren Winkel Prozentzahlen proportional sind, versinnbildlicht.
Die Sektoren bilden eine Partition. Diese ist zugleich der Quotientenmenge der nachstehenden Relation: 2 Punkte der Kreisscheibe sind äquivalent, wenn sie die gleiche Farbe
haben.
2. Ist die Relation R ⊆ A × A, definiert durch R := {(a, a) | a ∈ A} eine Äquivalenzrelation? Wie kann man die Äquivalenzklassen beschreiben?
Antwort. Es handelt sich um die Gleichheitsrelation. Es ist nämlich aRb genau dann
der Fall, wenn a = b gilt (andere Elemente sind in R nicht enthalten, vgl. Definition
19). Nun ergibt sich sofort, daß die Axiome der Äquivalenzrelation erfüllt sind.
Die Äquivalenzklassen bestehen aus den einelementigen Teilmengen von A.
3. (Isothermen als Äquivalenzklassen) “Isothermen” sind gedachte Linien gleicher
Temperatur, etwa an der Erdoberfläche. Wie kann dieser Begriff im Sinne einer Äquivalenzrelation gedeutet werden? Welche anderen ähnlichen Begriffe und Deutungen sind
Ihnen bekannt?
Antwort: Man definiert für Punkte x, y der Erdoberfläche eine Relation xRy, wenn an
x und y die gleiche Temperatur herrscht. Es entsteht eine Äquivalenzrelation. Die auf
einer Karte erscheinenden Isothermen sind Äquivalenzklassen bezüglich dieser Äquivalenzrelation.
Andere Begriffe: Isobaren, Isoklinen. Auch Äquipotentiallinien, bzw. -flächen sind Äquivalenzklassen, welche so zustande kommen. Siehe auch Anmerkung 30.
4. (Stromlinien als Äquivalenzklassen) Wirbelfreie und inkompressible Flüssigkeit,
die stationär in einem Gebiet des Raumes fließt, besitzt Stromlinien, d.s. Linien, welchen
ein in die Flüssigkeit geworfenes Partikel im Zuge der Strömung folgt. Welche Beziehung
zu Äquivalenrelationen kann man herstellen? Welche andere Situationen dieser Art sind
Ihnen bekannt?
Antwort: Aus physikalischen Annahmen folgt, daß Stromlinien den Raum ganz ausfüllen
und je zwei Stromlinien keine Punkte gemeinsam haben, also eine Partition des Raumes
beschreiben. Somit ist jede Stromlinie eine Äquivalenzklasse.
Magnetisches und Elektrostatisches Feld – Feldlinien.
5. In der Ebene (aufgefaßt als Menge von Punkten), werde xRy für Punkte x und y definiert, falls es eine Gerade g mit x ∈ g und y ∈ g gibt. Liegt eine Äquivalenzrelation,
bzw. eine Halbordung vor? Gelingt der Nachweis durch ledigliches Anwenden der Axiome der Ebene aus Beispiel 9 3 unter der Annahme daß die Ebene mindestens 2 Punkte
enthält?
Antwort. Die Reflexivität beweist man so: Sei x ∈ E beliebig. Dann gibt es noch einen
Punkt z 6= x. Somit gibt es eine Gerade g, auf der x liegt. Dann ist für y = x die
Aussage x ∈ g erfüllt, also xRx.
34
Grundlagen
Symmetrie: Wenn xRy, so gibt es g mit (x ∈ g)∧(y ∈ g), also gilt auch (y ∈ g)∧(x ∈ g),
somit yRx.
Transitivität: Seien xRy und yRz. Wenn x 6= z ist, kann man durch x und z wegen d)
in Beispiel 9 auf xRz schließen. Wenn hingegen x = z ist, hat man wegen der schon
bewiesenen Reflexivität auch xRz.
Alle Punkte sind zueinander äquivalent, daher gibt es nur eine Äquivalenzklasse, nämlich
E.
6. (Logische Äquivalenz als Äquivalenzrelation) Es sei L eine gemäß den in Definition 5 angegebenen Forderungen gebildete aussagenlogische Sprache. Ist dann die
logische Äquivalenz ⇔ eine Äquivalenzrelation auf L?
Antwort. Seien A, B und C beliebige Aussagen einer in L formulierten Theorie. Definiert
war A ⇔ B durch das Erfülltsein von w(A) = w(B). Da w(A) = w(A), hat man somit
A ⇔ A, also die Reflexivität. Ist A ⇔ B, so gilt w(A) = w(B), also wegen 1. auch
w(B) = w(A) und deshalb B ⇔ A, also die Symmetrie. Ist A ⇔ B und B ⇔ C erfüllt,
so gilt w(A) = w(B) = w(C), also wegen 1. auch w(A) = w(C), somit A ⇔ C, also die
Transitivität.
Beispiel 28 Beispiele zu Halbordungen:
1. Es sei A die Menge aller Brüche der Form n1 mit n ∈ N, n ≥ 1 und ≤ die übliche
Ordnung (es soll vorausgesetzt werden, daß wir schon bewiesen haben, daß es sich um
eine Halbordnung handelt). Gibt es ein Maximum, bzw. Minimum? Ist die Halbordnung
linear? Liegt eine noethersche Halbordnung vor?
Antwort: Es ist 1 ein Maximum.
Es gibt kein Minimum, weil es zu jedem a ∈ A ein noch kleineres gibt.
Je zwei Elemente sind vergleichbar, also ist die Halbordnung linear.
Es liegt keine noethersche Halbordnung vor, weil A eine unendliche absteigende Kette
ist. Die Halbordnung ist linear.
2. (Teilbarkeit als Halbordnung) Für die Menge aller natürlichen Zahlen ≤ 11 sei eine
Halbordnung m ≤ n definiert, wenn m ein Teiler von n ist. Wie kann man die Relation
durch einen Graphen beschreiben? Wie lauten die maximalen Elemente?
Antwort: Gebräuchlich ist es, als Knoten die Zahlen {1, 2, . . . , 11} zu nehmen und 2
Zahlen nur dann zu verbinden, wenn eine die andere teilt, jedoch kein Teiler “dazwischen
liegt”. Man spricht von einem Hassediagramm für die Halbordnung.
1.2. Mengen
35
Die maximalen Elemente sind 6, 7, 8, 9, 10 und
11. Die Halbordnung ist
nicht linear, jedoch z.B.
ihre
Einschränkung
auf {1, 2, 4, 8}. Die
Teilbarkeitsordung ist
noethersch,
jedoch
keine Wohlordnung.
8
9>
>>
>>
>>
6>
>>
>>
>>
4
10 @
@@
@@
@@
@
2
3 NNN
o5
jj 7 ggg 11
NNN
ooojjjjjgjgjggggggg
o
o
NNN
o jj gg
NNN
ooo jjjggggg
NN oojgojgojgojgjgjgjggg
1 jg
~
~~
~~
~
~~
3. (Hassediagramm) Falls eine Halbordnung ≤ auf einer Menge M lokalfinit, d.h. jede
von einem Element x zu einem Element y bestehende Kette endlich ist, so kann die Halbordnung durch ein Hassediagramm beschrieben werden, indem ein Graph mit Knoten
die Elemente von M und Kanten x → y gezeichnet werden, falls y < x gilt (d.h. y ≤ x
und x 6= y). Dabei wird gerne von “unten nach oben” gezeichnet, d.h. kleinere Elemente
sind weiter unten. Hier Beispiele, wie man die Menge {1, 2, 3} ordnen könnte (die Liste
ist nicht vollständig):
3
2
1
3
3
2
1
(b)
(c)
}}
}}
}
}
}}
3
2
1
}}
}}
}
}
}}
1
(a)
1.2.5
(d)
2
(a) ist eine Kette, in (b) und (c)
sind 1 und 2, in (c) auch 2 und 3
unvergleichbar. In (a) und (b) ist 3
ein Maximum (und daher ein maximales Element), in (c) und (d) ein
maximales Element, aber kein Maximum.
In Definition 40 findet man Hassediagramme zur Beschreibung von
Termersetzungssystemen.
Funktionen und Abbildungen
Beim Funktionsbegriff, meist durch y = f (x) notiert, denkt man sich jedem x mittels einer
“Vorschrift”, dem f , ein y zugeordnet. Zu jedem x soll es dabei ein zugeordnetes y geben
und keinem x werden zwei verschiedene y zugeordnet. Dieser Vorstellung folgt man beim
mengentheoretischen Funktionsbegriff:
Definition 29 (Funktionsbegriff) Unter einer Funktion oder Abbildung f mit Definitionsbereich A und Wertebereich B (kurz Funktion f : A → B) versteht8 man eine Relation
R ⊆ A × B mit den folgenden Eigenschaften:
1. Zu jedem a ∈ A gibt es ein b ∈ B mit (a, b) ∈ R
2. Wenn für b, b0 ∈ B ein a ∈ A mit (a, b) ∈ R ∧ (a, b0 ) ∈ R, dann soll b = b0 sein.
Man schreibt dann statt (a, b) ∈ R auch b = f (a) oder auch a 7→ b.
Die Menge R = {(a, f (a)) | a ∈ A} heißt Funktionsgraph.
Man nennt b das Bild von a unter f und a ein Urbild von b. Weiters versteht man für
A0 ⊆ A und B 0 ⊆ B unter f (A0 ) := {f (a) | a ∈ A} das Bild von A0 unter f und unter
36
Grundlagen
f −1 (B 0 ) := {a ∈ A | f (a) ∈ B 0 } das Urbild von B 0 unter f . Recht gebräuchlich ist B A als
Bezeichnung für alle Funktionen mit Definitionsbereich A und Wertebereich B.
Es heißt f injektiv oder auch Injektion, falls stets aus f (a) = f (a0 ) die Gleichung a = a0
folgt. Ist f (A) = B, also jedes b ∈ B in der Form f (a) darstellbar, so nennt man f surjektiv
oder auch Surjektion. Schließlich ist f bijektiv oder auch Bijektion, wenn es sowohl injektiv,
wie auch surjektiv ist. Ist f : A → B eine Bijektion, so heißt die durch g(b) := a, falls f (a) = b
ist, definierte Funktion zu f invers. Sie wird üblicherweise mit f −1 bezeichnet.
Eine partielle Funktion9 f : A → B ist eine Funktion f : C → B mit C ⊆ A.
Anmerkung 30 Jede Funktion f : A → B gibt Anlaß zur Äquivalenzrelation aRa0
genau dann, wenn f (a) = f (a0 ). Es ist dann f (A) zugleich der Quotientenmenge (vgl.
Definition 26 und Beispiel 27 2.). Die Äquivalenzklassen von R sind die Urbilder der
Punkte in B und sie bilden eine Partition.
Umgekehrt gibt es für jede Äquivalenzrelation auf einer Menge M eine Funktion, die
jedem Element seine Äquivalenzklasse zuordnet.
Beispiel 31 Beispiele zum Funktionsbegriff:
1. Es sei R die in der Beschreibung vor Definition 19 gegeben Relation mit den Mobilfunkbetreibern A und Personen B. Warum legt R keine Funktion von A nach B fest?
Antwort: Es ist Bedingung 1. für a =‘NOISY’ und Bedingung 2. für a ∈ {SMALLTALK,
REDEFROH} verletzt.
2. Es sei eine Relation in R3 × R2 definiert, nämlich (x, y, z)R(x0 , y 0 ) falls x = x0 und
y = y 0 ist. Wie zeigt man, daß die Bedingungen dafür, daß R eine Funktion f : R3 → R2
definiert, erfüllt sind? Wie kann man f mit einfachen Worten beschreiben? Es seien die
Punkte A(0, 1, 2), B(5, 3, 7) und C(2, 7, −10) Eckpunkte eines Dreiecks ∆. Wie kann
man f (∆) beschreiben? Wie f −1 {(0, 0), (0, 1)}? Ist f surjektiv? Ist f injektiv?
Antwort(en): Um 1. zu prüfen, wählt man (x, y, z) ∈ R3 beliebig. Danach ist ((x, y, z), (x, y)) ∈
R. Angenommen, für (x, y) und (x0 , y 0 ) gibt es (a, b, c) mit ((a, b, c), (x, y)) ∈ R und
((a, b, c), (x0 , y 0 )) ∈ R. Laut Definition von R hat man x = a, y = b und ähnlich x0 = a,
sowie y 0 = b, sodaß (x, y) = (x0 , y 0 ) folgt. Also ist 2. erfüllt.
Es handelt sich um Parallelprojektion zur z-Achse und offenbar ist f (x, y, z) = (x, y).
Als Bild f (∆) findet man das Dreieck mit den Eckpunkten A0 (0, 1), B 0 (5, 3) und C 0 (2, 7).
Es ist f −1 {(0, 0), (0, 1)} = {(0, 0, z) | z ∈ R} ∪ {(0, 1, z) | z ∈ R} die z-Achse zusammen
mit einer um eine Einheit nach rechts verschobenen.
8
9
Man liest das: f ist eine Funktion, bzw. Abbildung, von A nach B
Diese Notation ist z.B. in der Theorie der Datenbanken, aber auch Automatentheorie bequem.
1.2. Mengen
37
f ist surjektiv. Um dies zu zeigen, wählt man (x, y) ∈ R2 beliebig. Danach ist f (x, y, 0) =
(x, y), also ist (x, y) im Bild von f .
f ist nicht injektiv. Dazu genügt es, zwei Punkte im Raum mit gleichem Bild anzugeben,
z.B. P (0, 0, 0) und Q(0, 0, 1).
3. In der nachstehenden Tabelle wird der Kaffeverbrauch (Tassen) von Mitarbeitern im
ersten Dritteljahr protokolliert (um später abrechnen zu können), wobei 30 Kaffees pro
Monat frei sind.
Wie kann die nebenstehende Tabelle als
1
2
3
4
Funktion f gedeutet werden? Wie würde man
Max 27 25 17 19
ihren Definitions- bzw. Wertebereich wählen?
Edda 15 18 22 24
Wie kann der Funktionsgraph gesehen werSue
20 23 18 21
den? Ist f injektiv?
Antwort(en): Offenbar wird jedem Paar (i, Person) ein Wert zwischen Null und 30
zugeordnet. Somit erscheint es natürlich, A := {1, 2, 3, 4} × {Max, Edda, Sue}, weiters
B := {0, 1, 2, . . . , 30} zu wählen, sowie f (i,Person) den Eintrag der in der Zeile der
Person und in der Spalte i ist, zu definieren.
Der Graph mag als “Klötzchendiagramm” verstanden werden. Jedes Klötzchen so hoch,
als die Kaffeetassenzahl zeigt.
Da keine zwei Tabellenwerte übereinstimmen, ist f injektiv. Da jedoch nur 12 Tabellenwerte existieren und B 30 Elemente hat, kann f nicht surjektiv sein.
In unmittelbarem Zusammenhang mit dem Funktionsbegriff steht die Bildung allgemeinerer
kartesischer Produkte wie folgt:
Definition 32 (Mengenfamilie, Allgemeines kartesisches Produkt) Es seien I und
M Mengen, sowie P(M ) die Potenzmenge von M . Eine Funktion T : I → P(M ) heißt
Mengenfamilie von Teilmengen von M . Es ist üblich Ti statt T (i) zu schreiben und (Ti )i∈I
oder (Ti | i ∈ I) statt T : I → P(M ).
Bei gegebener Mengenfamilie (Ti )i∈I heißt jedes f : I → M mit f (i) ∈ Ti Auswahlfunktion10 . Es ist üblich fi statt f (i) zu schreiben, sowie (fi )i∈I
Q statt f : I → M und I als
Indexmenge zu bezeichnen. Unter dem kartesischen Produkt i∈I Ti versteht man die Menge
aller dieser Auswahlfunktionen. Falls alle Ti = T alle gleich sind, ist die Notation T I üblich,
welches, wie man sofort sieht, genau die
Q Menge aller Funktionen von I nach T ist.
Ist I = {1, . . . , n}, so schreibt man ni=1 Ai oder A1 × . . . × An und ein Element darin als
(a1 , . . . , an ) = (ai | i = 1, . . . , n) (genannt n-Tupel). Ist Ai = A so schreibt man statt A{1,...,n}
einfach An (n-faches kartesisches Produkt der Menge A).
Sehr viele (mathematische) Begriffe können als Funktionen erklärt werden. Die nachstehende Tabelle bietet einige Beispiele dafür.
10
Die Existenz einer solchen Funktion für nicht abzählbares I benötigt das Auswahlaxiom, siehe die Tabelle
vor Beispiel 232
38
Grundlagen
Bezeichnung
{an }∞
∈
n=1
AN ,
Folge
mit Werten
in A
(a1 , . . . , an ) ∈
An
bzw.
(ai )ni=1 ,
n-Tupel
(aij )(i,j)∈I×J
doppelt
indizierte
Menge
x + y Addition (von Vektoren)
~a × ~b äußeres
Produkt
P
n
i=1 ai
Summe
limn→∞ an
f0
Ableitungsfunktion
Rb
f (x) dx
R-Integral
a
Definitionsbereich
N
Wertebereich
A Menge
Beschreibung
{1, . . . , n}
A Menge
i 7→ ai ∈ A
z.B. Zeilenvektoren
A Menge
(i, j) 7→ aij ∈ A
z.B. Matrizen
V × V , V Vektorraum
V
(x, y) 7→ x + y
R3 × R3
R3
(~a, ~b) 7→ (ijk aj bk )3i=1
An , A ein Vektorraum
alle
konvergenten Folgen
N
{an }∞
n=1 ∈ R
alle f : A → R,
mit A ⊆ R und
f differenzierbar
in A
alle f : [a, b] →
R, die R-integrierbar sind
A
(ai )ni=1 7→
R
{an }∞
n=1 7→ limn→∞ an
AR
f 7→ f 0
R
f 7→
I × J
menge
Index-
Besonderheiten
n 7→ an ∈ A
Rb
a
Pn
i=1
ai
f (x) dx
In Zusammenhang mit dem allgemeinen kartesischen Produkt stehen auch die in der Theorie der Datenbanken verwendeten Relationsschemen, siehe hiezu Unterabschnitt A.1.6.
Anmerkung 33 (Zusammensetzung, Erweiterung und Einschränkung von
Funktionen versus Relationen)
Zusammensetzung von Funktionen : Geht man von der Zusammensetzung RS zweier Relationen11 f : A → B, sowie S der Funktionsgraph von g : B → C ist, so
hat man aRSc, falls es ein b ∈ B gibt mit aRb und bSc. Wegen der Deutung als
Funktionsgraphen heißt das b = f (a) und c = g(b). Dann zeigt man ganz leicht,
daß RS ebenfalls ein Funktionsgraph ist und man bezeichnet die zu RS gehörige Funktion mit gf und nennt sie Hintereinanderausführung, Komposition oder
Zusammensetzung12 , von f und g. Es ist dann gf (a) = g(f (a)) für alle a ∈ A.
1.2. Mengen
39
f
g
)
A
)2
B
C
gf
Sind f, g, h Funktionen, sodaß man gf und hg bilden kann, so kann man auch h(gf )
und (hg)f bilden und es ist h(gf ) = (hg)f , m.a.W., es gilt das Assoziativgesetz.
Hingegen ist gf im allgemeinen nicht dasselbe wie f g.
Einschränkung und Erweiterung (=Fortsetzung): Ist f : A → B eine Funktion,
und C Teilmenge von A, so nennt man die Funktion g : C → B, definiert durch
g(c) := f (c) für alle c ∈ C, die Einschränkung von f auf C, im Symbol f ||C . Ist U
eine A umfassende Menge und h : U → B eine Funktion, deren Einschränkung auf
A mit f übereinstimmt (d.h. (∀a ∈ A)(f (a) = h(a))), so heißt h eine Erweiterung
oder Fortsetzung von f auf U ⊇ A.
Sind R ⊆ A × B, S ⊆ B × C und demnach auch RS Funktionsgraphen13 von f , g und
gf , so sind zwar die Schreibweisen RS und gf für jeweiliges Hintereinanderausführen als
Relationen bzw. Funktionen nicht kohärent, allerdings können aRb, bRc und somit aRSc in
der Sprechweise für Funktionen durch b = f (a), c = g(b) und somit c = gf (a) ausgedrückt
werden.
Beispiel 34 (Schreibweisen)
Es ist gelegentlich wichtig14 ,
aus der Schreibweise zu erkennen, wie Funktionen zusammengesetzt sind, (siehe auch
Beispiel 44 6.).
Ausdruck gf
cos(x3 )
cos3 (x)
cos(x + y)
Idee, Hilfestellung
x 7→ x3 = y, y 7→ cos y
x 7→ cos x = y 7→ y 3
(x, y) 7→ x + y = z 7→ cos z
g
cos
f
∧3
cos
·+·
cos
∧3
Wir schließen diesen Abschnitt mit dem nützlichen Konzept der Verträglichkeit einer Abbildung:
Definition 35 (Verträglichkeit von Funktion mit Relationen) Es sei f : A → B eine
Abbildung und R ⊆ AK sowie S ⊆ B k jeweils k-stellige Relationen. Man sagt, f ist mit den
Relationen verträglich, wenn
(a1 , . . . , ak ) ∈ R ⇒ (f (a1 ), . . . , f (ak )) ∈ S
gilt.
11
Gelegentlich werden wir g ◦ f schreiben.
Definition 21
13
Definition 29
14
etwa beim Gebrauch der Kettenregel
12
40
Grundlagen
Beispiel 36 Hier sei auf m.E. nicht uninteressante Anwendungen hingewiesen:
1. (Mengentheoretisches Modell einer Menge von Aussagen) Es sei M eine feste
Menge und A eine Menge von Aussageformen α(x) mit x einer einzigen Variablen. Nun
definieren wir f : A → P, indem für jedes α ∈ A
f (α) := {m ∈ M | α(m)}
setzen, also alle jene m ∈ M , für die α(m) wahr ist, in eine Menge mit der Bezeichnung
f (α) tun. Die Beziehung f (α(x) ∧ β(x)) = f (α(x)) ∩ f (β(x)) ist eine Umformulierung
der Definition des Durchschnittes aus Definition 8.
Daß aus dem “∧” ein “∩” wird, läßt sich durch die Verträglichkeit von Abbildungen
formulieren:
Ein wenig umständlich definieren wir eine Relation R ⊆ A × A × A, indem
(α(x), β(x), γ(x)) ∈ R ⇔ γ(x) = α(x) ∧ β(x)
gesetzt wird, m.a.W., wenn das Tripel im Funktionsgraphen der Funktion ∧ : A×A → A
liegt. Nicht minder umständlich definieren wir S ⊆ P × P × P durch
(X, Y, Z) ∈ S ⇔ Z = X ∩ Y,
d.h., wenn (X, Y, Z) zum Funktionsgraphen von ∩ : P × P× → P liegt. Es ist f
mit den Relationen R und S verträglich, weil (α(x), β(x), γ(x)) ∈ R g.d.w. γ(x) =
α(x) ∧ β(x), sodaßf (γ(x)) = {m ∈ M | α(m) ∧ β(m)} = {m ∈ M | α(m)} ∩ {m ∈
M | β(m)} = f (α(x)) ∩ f (β(x)) g.d.w. (f (α(x)), f (β(x)), f (γ(x))) ∈ S. Somit wird
die Verträglichkeit von f mit R und S ausgedrückt. In Beispiel 53 8. wird sich f als
Halbgruppenhomomorphismus erweisen.
Eine Deutung von f ist die Folgende: Die vorliegende Menge A von Aussageformen
wird mittels einer “Referenzmenge” M in Äquivalenzklassen unterteilt. Zwei Aussageformen sind äquivalent, (wir wollen das durch α ∼ β ausdrücken) wenn sie die gleiche
Teilmenge von M bestimmen, d.h. α(x) ∼ β(x) g.d.w. f (α(x)) = f (β(x)) gilt. Es ist
ohneweiters denkbar, daß die Äquivalenzklasse jener α mit f (α(x))∅ nicht leer oder
sogar ganz A ist. Wenn es gelingt, eine Menge M zu finden, sodaß jede logische Äquivalenzklasse von Aussagen genau eine Teilmenge von M bestimmt, so nennt man f (A)
ein mengentheoretisches Modell von A.
Schlußendlich erweisen sich in unserem Fall R und S als die Funktionsgraphen der
Funktionen ∧ : A × A → A bzw. ∩ : P(A) × P(A) → P(A).
2. Es seien A, M und f wie in 1. Jetzt soll jedoch R ⊆ A × A und S ⊆ P(A) × P(A),
und S := {(X, Y ) | X ⊆ Y } sein. Die Verträglichkeitsbedingung besagt, daß α(x)Rβ(x)
stets
f (α(x)) = {m ∈ M | α(m)} ⊆ {m ∈ M | β(m)} = f (β(x))
nach sich zieht.
1.2. Mengen
41
Wie kann man R verstehen?
Antwort: Es ist α(x)Rβ(x) genau dann, wenn es Teilmengen A ⊆ B ⊆ M mit A =
{m ∈ M | α(m)} und B = {m ∈ M | β(m)} gibt.
Zuletzt darf hingewiesen werden, daß die Verträglichkeitsdefinition allgemeiner so gefaßt werden kann:
Anmerkung 37 (Verträglichkeit von Familie von Funktionen mit Relationenfamilie) Es seien (Ai | i ∈ I) Q
und (Bi | i ∈ I)QMengenfamilien und fi : Ai → Bi
Funktionen. Weiters seien R ⊆ i∈I Ai und S ⊆ i∈I Bi Relationen. Die Funktionenfamilie (fi | i ∈ I) ist dann mit R und S verträglich, wenn (ai | i ∈ I) ∈ R stets
(fi (ai ) | i ∈ I) ∈ S nach sich zieht.
Dieses Konzept wird etwa in der Theorie der Datenbanken benützt. Es soll in dieser Vorlesung
im Folgenden keine Rolle spielen.
42
Grundlagen
Kapitel 2
Algebra
2.1
Formale Sprachen – Rudimente
In der Algebra geht es im weitesten Sinn um Rechenregeln, wie z.B. Kommutativgesetz,
Assoziativgesetz, Distributivgesetz, Verschmelzungsregel (Anmerkung 3), bei der “⇔” die
Rolle des Gleichheitszeichens übernommen hat. Ein kurzer Abschnitt über formale Sprache
möge hilfreich sein.
2.1.1
Termersetzungssysteme
Zunächst will man formulieren, was überhaupt Terme sind, etwa Zeichenketten wie (ab)c +
1, a ∧ (b ∨ (¬c)) bzw. ‘cond:=(x>0) or (y=10);’. Dazu benützt man ein “Alphabet” aus
dem “Zeichenketten” (mit Buchstaben aus einem Alphabet, dessen Zeichen keine einzelnen
Buchstaben im herkömmlichen Sinn sein müssen) gebildet werden und dies führt zu folgenden
Begriffen:
Definition 38 (freies Monoid) Es sei A eine Menge und es bezeichne n̄ := {1, . . . , n}. Jede
Funktion f : n̄ → X heißt Wort, gebildet aus Buchstaben des Alphabets A. Es werde in der
Form f (1)f (2) · · · f (n) geschrieben, und n heißt Länge von f . Wenn f und g Wörter mit den
Längen m und n sind, so soll die Zusammensetzung1 f g das Wort mit f g(i) = f (i) für i ≤ m
und f g(i) := g(i − m) falls i > m ist. Man schreibt f (1) . . . f (m)g(1) . . . g(n) (Juxtaposition
bzw. engl. concatenation). Schließlich soll es das leere Wort mit der Bezeichnung geben,
(etwa die Funktion f : ∅ → A), welche f (1) . . . f (n) = f (1) . . . f (n) = f (1) . . . f (n) genügen
soll. Die entstandene Struktur bezeichnet man mit A∗ und nennt sie freies Monoid über dem
Alphabet A.
Es bezeichnet A+ := A∗ \ {}, d.i. die Menge aller nicht trivialen Wörter. Jede Teilmenge
von A∗ heißt (abstrakte) Sprache.
Für Teilmengen X, Y ⊆ A∗ sei XY := {xy | x ∈ X, y ∈ Y }.
1
Dies ist nicht das Zusammensetzen von Funktionen im Sinne von Anmerkung 33
43
44
Algebra
Beispiel 39 Es ist (ab)c + 1 ∈ {a, b, c, (, ), +, 1}∗ , a ∧ (b ∨ (¬c)) ∈ {a, b, c, ∧, ∨, (, )}∗ , und
‘cond:=(x>0) or (y=10);’ ∈ {x,y,=,;,0,10,:=,(,),cond, >}∗ , wobei im letzeren Fall ‘cond’∈
{c, d, n, o}∗ liegt. Da jedoch ‘cond’ ein quasi-englisches Wort ist, erwartet man kaum französiche Wörter wie ‘donc’, macht also das Alphabet nicht “unnötig groß”.
Nun kann man zwar Wörter bilden, muß aber beschreiben, welche davon Terme beschreiben. Dazu bedarf es Regeln, wie z.B. jener, daß mit jedem gültiges Wort X auch (X) eines
ist, wobei man für X selbst noch z.B. a, b, c einsetzen darf, oder, im 1. Fall, a + b. Die Regeln
hängen davon ab, welcher (mathematischen) Sprache die Terme angehören sollen.
Einprägsam ist die Beschreibung des freien Monoids durch einen Graphen2 , dessen Knoten
aus den Wörtern in A∗ und Kanten jeweils vom Knoten w zum Knoten wa für a ∈ A führen:
Für A = {a, b, c} ergibt sich bis zur Tiefe 2 ( steht vereinbarungsgemäß in Tiefe 0) der
Graph:
U
iiii UUUU
UUUU
iiii
UUUcU
iiii
i
UUUU
i
b
i
i
a
i
UUUU
i
i
UU*
iiii
t
i
aA
c
b @@
}
} AAA
|
A
@
}
}
|
A
@
}} b @@c
}} b AAcA
|| b AAcA
@@
}}a
AA
}} a
|| a
AA
}
}
|
~}
~|
~}
aa
ac
ca
cc
ab
ba
bb
bc
cb
Das Formulieren von Regeln geschieht üblicherweise in Form eines Termersetzungssystems
(TES):
Definition 40 (TES=Termersetzungssystem) Ein Termersetzungssystem (TES) mit Alphabet A oder Semi-Thuesystem ist eine Relation (Definition 19 und Definition 23) R auf
A∗ . Üblicherweise schreibt man u → u0 statt uRu0 . Sind v, n ∈ A∗ , so sagt man w0 := vu0 n
ist vermittels der Regel u → u0 aus w := vun herleitbar. Gibt es ein k > 0 und Regeln in R
sodaß w → w1 , etc., wk−1 → wk =: w0 , so schreibt man w →∗R w0 , bzw. w →∗ wk und sagt, w0
ist vermittels des TES R aus w herleitbar3 . Stellt man die Relation im Sinne von Definition
23 als Graphen dar, dessen Knoten die Elemente in A∗ sind, und wo eine Kante von u nach
u0 führt, falls u → u0 , so bekommt man den Ableitungsgraphen. Er ist ein Hassediagramm im
Sinne von Beispiel 28 2.,3.
Wir vereinbaren noch, statt u → v1 , u → v2 , . . . , u → vk in kürzerer Form u → v1 |v2 | . . . |vk
zu schreiben und analog u1 → v, u2 → v, . . . , uk → v durch u1 |u2 | · · · |uk → v abzukürzen.
Das TES heißt konfluent, falls es zu
allen u, v, w ∈ A∗ mit w →∗ u und
w →∗ v ein z ∈ A∗ mit u →∗ z und
v →∗ z gibt.
}}
}}
}
}
}~ }
uA
AA
AA∗
AA
A
∗
wA
AA
AA∗
AA
}}
}}
}
}~ }
v
∗
z
Es darf angemerkt werden, daß für eine Ordnungsrelation diese Eigenschaft auch als “nach
unten gerichtet” bezeichnet wird.
2
Definition 23
2.1. Formale Sprachen – Rudimente
45
Anmerkung 41 (TES, Konfluenz, noethersch und Normalform) Es habe ein TES
auf A∗ die folgenden Eigenschaften:
• Das TES ist konfluent.
• Die Relation ‘→∗ ’ ist antisymmetrisch.
• Die Relation, definiert als x ≤ y, genau dann, wenn y →∗ x, ist noethersch4 .
• R ist jene Relation auf A∗ , welche durch
xRy ⇔ (x = y) ∨ (∃u ∈ A∗ )x →∗ u ∧ y →∗ u
definiert ist.
Dann ist R eine Äquivalenzrelation (Definition 26) und die minimalen Elemente der
Ordnung sind Repräsentanten von R. Es ist üblich, diese Repräsentanten als Normalform
zu bezeichnen.
Nutzen: Wenn sich eine gegebene Relation R als durch ein TES mit den genannten
Eigenschaften erklärbar erweist, hat man ein algorithmisches Hilfsmittel, Äquivalenzklassen durch Elemente in A∗ eindeutig zu identifizieren und weiters, zu jedem Element in
A∗ seinen eindeutigen Repräsentanten in A∗ zu ermitteln.
Kurz zum Beweis: Reflexivität und
Symmetrie von R sind einsichtig.
Die Transitivität läßt sich aus dem
rechts abgebildeten Diagramm und
Anwenden der Definitionen erkennen:
x?
??
~
??∗
∗ ~~~
??
~
? ~~~~
uA
AA
AA∗
AA
A
y@
@
@@ ∗
@@
@@
}}
}}
}
}~ }




 
z
∗
v
∗
w
Als Liste von Anwendungen eines solchen TES innerhalb dieses Skriptums mögen die Beschreibung von Symmetriegruppen in Unterabschnitt 2.2.2, von Monoidhomomorphismen
(freies kommutatives Monoid) in Beispiel 53, dem üblichen “Kongruenzenrechnen” oder auch
“modulo einer Zahl m Rechnen” in Zm , bzw. im Polynomring “modulo einem Polynom f
Rechnen” in Beispiel 78, Beschreiben von algebraischen Erweiterungen eines Körpers (Anmerkung 81), insbesondere das Rechnen in endlichen Körpern (Beispiel 84, wo IF8 der Körper
mit 8 Elementen behandelt wird), genannt.
Beispiel 42 Beispiele zu TES:
1. Es sei A := {t, a, b, c, d, . . . , x, y, z} ∪ {ä,ö,ü,ä,ö, ü}. Nun sei
R := {ä → ä, ö → ö, ü → ü}.
Welche Wörter sind aus “hören und erklären” vermittels R herleitbar?
3
→∗ wird auch transitive Hülle von → genannt.
46
Algebra
Antwort: Es sind dies die Wörter “hören und erklären”, “hören und erklären” und schließlich “hören und erklären”.
Angemerkt sei, daß “hören und erklären” ein Wort in A∗ ist. Das TES erfüllt
die in der Anmerkung gemachten Voraussetzungen. Die Relation R besteht darin, daß
die Wörter zwar unterschiedlich geschrieben (einmal wie üblich, einmal HTML-mäßig),
jedoch “die selben Wörter sind”. Das TES ermittelt einen Repräsentanten in HTMLForm.
2. Es sei A := {0, 1, +, T, Z, } und es sei R durch
T → Z|T + T, Z → 0|1|0Z|1Z
festgelegt. Welche Wörter der Länge 3 sind aus T herleitbar?
Antwort: Teilgraphen des Ableitungsgraphen können hilfreich sein, wir zeichnen zunächst
einen Teil, der bei Z, und einen, der bei T “beginnt”:
o Z CC
CC
oo~o~~
o
o
CC
oo ~~~
o
CC
o
o
~
o
!
~
~
o
o
w




 
T FF
FF
FF
FF
F#
T +T
0
1
0Z
1Z
Z
Nun erkennt man: wo immer Z oder T im rechten Baum steht, kann der linke bzw.
rechte Graph an entsprechender Stelle einfügt werden. Man bekommt auf diese oder
unmittelbare Weise:
{000, 001, 011, 100, 101, 111, 0 + 0, 0 + 1, 1 + 0, 1 + 1, 00Z, 01Z, 10Z, 11Z, 0 + Z, 1 + Z, Z +
0, Z + 1, 0 + T, 1 + T, T + 0, T + 1, Z + Z, T + Z, Z + T, T + T }. Dieses TES erfüllt die
Voraussetzungen der Anmerkung nicht. Seine Daseinsberechtigung wird in Beispiel 44
2. besprochen werden.
3. (Ein TES checkt Assoziativität) Es sei A := {T, x, y, (, ), ∗}, und R bestehe aus den
Regeln: x|y → T, (T ∗T ) → T . Läßt sich aus dem Wort ((x∗y)∗((x∗x)∗((x∗y)∗(y∗x))))
bzw. (x ∗ x ∗ y) das Wort T herleiten?
Antwort: Zunächst findet man eine Kette ((x ∗ y) ∗ ((x ∗ x) ∗ ((x ∗ y) ∗ (y ∗ x)))) →
((T ∗ T ) ∗ ((T ∗ T ) ∗ ((T ∗ T ) ∗ (T ∗ T )))) → (T ∗ (T ∗ (T ∗ T ))) → (T ∗ (T ∗ T )) → (T ∗ T ) →
T . Beim zweiten Wort kann man lediglich x → T und y → T anwenden und erhält
T ∗ T ∗ T , und da gibt es keine Regel, die greift. Deutung: Wenn die “Multiplikation”
’∗’ nicht assoziativ ist (z.B. beim Vektorprodukt), ist das Setzen von Klammern von
Bedeutung. Die vorgelegten Regeln helfen, einen vorgelegten Ausdruck dahingehend
zu checken (“Parsing”). Dieses TES erfüllt die Voraussetzungen der Anmerkung. Das
Formulieren von uRv im Sinne der Anmerkung darf als Kopfnuss überlassen werden,
spielt im weiteren jedoch keine Rolle.
4. (Rechnen modulo 7) Es sei A := Z ∪ {+, T } und für alle i ∈ Z die (unendlich vielen)
Regeln i → i (mod 7), i + j → “Wert von i + j”. Was ergibt Anwendung der Regeln
auf 29 + 37 + 41? Welche Deutung hat man?
Antwort: 29 + 37 + 41 → 1 + 2 + 6 → 3 + 6 → 9 → 2. Das TES erfüllt die Bedingungen
2.1. Formale Sprachen – Rudimente
47
der Anmerkung. Es ist xRy genau dann, wenn x − y durch 7 teilbar ist. Das TES produziert zu jeder Zahl z ∈ Z den kleinten nichtnegativen Rest mod 7 als Repräsentanten
von z. In Beispiel 78 1. wird R als Kongruenzrelation besprochen werden.
5. Es sei A := {hSatzi,hArtikeli, hSubjekti,hPrädikati, hAdjektivi, t, ist, war, rot, grün,
blau, gelb, der, die, das, Kugel, Ball, Ziegel} und Regeln
hSatzi
→ hArtikeli t hSubjekti t hPrädikati t hAdjektivi,
hArtikeli
→ der|die|das,
hSubjekti → Kugel|Ball|Ziegel,
Ist “der Kugel ist
hPrädikati → ist|war,
hAdjektivi → rot|grün|blau|gelb,
gelb” aus hSatzi herleitbar?
Antwort: Sichtlich. Obwohl es im Sinne der deutschen Grammatik falsch ist. Zur Bedeutung von “Prädikat” siehe auch die Fußnote zu Beginn des Abschnittes 1.1.2.
Die in im nächsten Unterabschnitt in Definition 40 erklärte Chomskygrammatik ist ein spezielles TES. Die Sprache der formalen Logik, jene von Programmspezifikationen (Backus-Naur
Form) u.v.m. können damit beschrieben werden.
2.1.2
Chomsky Grammatik
Definition 43 Eine (Chomsky-)Grammatik ist ein TES (Definition 40), bei dem das Alphabet A eine disjunkte Vereinigung A = N ∪ T ∪ {S} ist. Dabei sind N ∪ {S} die nichtterminalen oder (syntaktischen) Variablen, T die Terminalzeichen und S das Startsymbol. Ein
Wort, gebildet aus Terminalzeichen ist ein Satz oder Terminalwort. Ein Wort, welches auch
syntaktische Variable enthält, heißt echte Satzform.
Die Regeln des TES werden mit P bezeichnet, heißen Produktionen und ihre linken Seiten
dürfen keine Terminalzeichen enthalten. Die Bestandteile der Grammatik werden durch ein
Quadrupel G := (N, T, P, S) notiert. Die Teilmenge L(G) ⊆ T ∗ der aus S vermittels der
Regeln P ableitbaren Wörter ist die Sprache mit Grammatik G.
Die Grammatik heißt kontextfrei, falls die linken Seiten der Regeln aus einer einzelnen
syntaktischen Variablen bestehen und regulär oder rechtslinear, wenn jede Produktion die
Form S → X oder X → |a|aZ mit a ∈ T und X, Z ∈ N hat.
Beispiel 44 In Beispiel 42 kommen vorallem 2. und 5. als Grammatiken in Frage:
1. Kann man 5. in geeigneter Weise zu einer Grammatik machen, sodaß der abgeleitete
Satz in deren Sprache liegt? Ist diese Grammatik regulär?
Antwort: Man wählt S :=<Satz>, T:={ist, grün, gelb, blau, rot, der, die, das, Kugel,
Ball, Ziegel, t} und die restlichen Symbole, jene in spitzen Klammern, sind syntaktische
Variable, bilden also N . Die Grammatik ist kontextfrei, aber nicht regulär.
2. (Additionskolonnen von Binärzahlen)In 2. wähle man als Terminalzeichen T :=
{0, 1, +, } und N := {Z, T } als Variable. Welche Sprachen kann man formulieren,
wenn S → Z, bzw. welche, wenn S → T als “Startregel” herangezogen wird? Inwieweit
entstehen kontextfreie, bzw. reguläre Grammatiken?
48
Algebra
Antwort: Für S → Z ergibt sich {0, 1}∗ , also alle endlichen 01-Folgen. Ist S → T
hinzugefügt worden, so erhält man alle möglichen Ausdrücke
a1 + a2 + . . . + an
wobei jedes ai eine 01-Folge ist. Die Grammatik, bei der S → Z als Start gewählt wird,
und lediglich die Regel Z → 0|1|0Z|1Z zuläßt, ist regulär, die andere kontextfrei, aber
nicht regulär.
3. (Additionskolonnen binärer Zahlen als reguläre Sprache) Es seien N :=
{Z, U, S}, S sei das Startsymbol, T := {0, 1, , ; } und S → Z, Z → 0U |1U, U →
|0U |1U | + Z|; ω Regeln. Wie kann man L beschreiben? Ist die Grammatik regulär?
Antwort. Es sind alle Ausdrücke der Form “a1 + a2 +
· · · + an ;” mit ai 01-Folgen. Der Graph, dessen Knoten
S, Z und U sind, und für den jede Regel X → aY
eine mit a beschriftete Kante von X nach Y führt,
veranschaulicht die Situation:
S
/Zi
0|1
+
)
UX
;
/ω
0|1
Man erkennt, daß jedes Wort der Sprache so entsteht, daß man von S ausgeht, den
Kanten “nachfährt”, sich der Reihe nach die an den Kanten stehenden Zeichen notiert,
und schließlich zu ω pilgert. Die Grammatik ist regulär. Der Automat ist ein Akzeptor.
Lediglich korrekte Ausdrücke der oben angedeuteten Form bringen den Automaten vom
Start S zum Endzustand ω.
4. Gibt es eine reguläre Grammatik, welche alle Wörter des freien Monoids {a, b, c} (siehe
Beispiel 39) erzeugt?
Antwort: Es sei N := {X}, T := {a, b, c}, S ein Startsymbol, und R := {S → X, X →
aX|bX|cX|ω}, dann werden alle Wörter des freien Monoids erzeugt. Die Grammatik
ist regulär, weil alle Regeln die in Definition 43 geforderte Form haben. Auch hier kann
man einen Akzeptor angeben: S / X / ω
X
a|b|c
5. Umgekehrte Polnische Notation oder auch POSTFIX-Notation: soll hier kurz
an einem Beispiel erläutert und in das Thema “TES” eingeordnet werden. Unter POSTSCRIPT findet man z.B. Funktionssymbole cos, add und mul und kann mit ihrer Hilfe
(2xy + 6 cos(3z)) als Befehlszeile eingeben. Dabei wird UPN verwendet: Zunächst die
Argumente, danach, was man damit tut, nach dem Motto
“Nescafe Frappé:=Nescafe Zucker Wasser wenig nehmen in ein Glas geben Quirlen
Wasser Eiswürfel zugeben Milch bei Bedarf zugeben ”.
Gecheckt wird, ob Datentypen passen, bzw. Stelligkeiten der Funktionen stimmen. Es
ist üblich, den komplizierten Ausdruck mit einem Ableitungsbaum zu analysieren, um
ihn danach in UPN umzuschreiben:
2.1. Formale Sprachen – Rudimente
49
+
·





y
·>
>>
>>
>>
>
2
~~
~~
~
~
~~
~
2 x·y·6 3 z·cos · + alias
2xy + 6 cos(3z)
· CC
CC
CC
CC
C!
cos
6
x
3
·
|
|
||
||
|
}||
z
Nun umfährt man den Baum von der Wurzel ’+’ ausgehend, notiert für jeden (Teil)baum
die Blätter, danach die jeweilige Wurzel, bis man alles umrundet hat und ’+’ vorfindet,
das man ebenfalls anschreibt. Man findet den Ausdruck (in UPN) rechts neben der
Skizze des Ableitungsbaumes, der nach Transkription in die angegebene Notation für
Addition, Multiplikation und Winkelfunktion die UPN der Funktion ergibt.
Kann man eine Grammatik formulieren, welche die UPN erzeugt?
Antwort: Man nehme etwa N := {X, Y, Z}, T := {2, 3, 6, x, y, z, cos, +, ·}, ein Startsymbol S und Regeln5 R := {S → X, X → X|Y |Z|XY + |XY · |X cos, Y |Z → X, X|Y |Z →
2|3|6|x|y|z}, so hat man, zeilenweise gelesen:
S→
→
→
→
→
→
X
XY · Z+
2Y · y · Z+
2x · y · XY · +
2x · y · 6X cos ·+
2x · y · 63z · cos ·+
→
→
→
→
→
XY +
Xy · Z+
2x · y · Z+
2x · y · 6Y · +
2x · y · 6XY · cos ·+
→
→
→
→
→
XZ+
XY · y · Z+
2x · y · X+
2x · y · 6X · +
2x · y · 63Y · cos ·+
Die Regeln beschreiben eine Grammatik in kontextfreier Weise.
Anmerkung 45 (reguläre Sprache und Mealyautomat als Akzeptor)
Reguläre Sprache → Automat: Es wird zunächst ein Graph gezeichnet, dessen Knoten mit den syntaktischen Variablen beschrieben werden. Jede gerichtete Kante entspricht einer Regel X → Y a mit X, Y syntaktische Variable und a ein terminales
Symbol,
Automat → reguläre Sprache: Die Knoten des Graphen werden als syntaktische Vaa /
riable und die gerichteten Kanten X
Y als Regel X → aY interpretiert.
Weiters muß ein Knoten als Startknoten S beschriftet sein.
5
Die Unterstreichungen sollen lediglich der besseren Lesbarkeit dienen.
50
Algebra
Die Rolle des Automaten ist es, ein Akzeptor zu sein, d.h. man gibt ein Wort vor, und
arbeitet von links her kommend den Automaten ab. Wenn der Automat erst zum halten
kommt, sobald das gesamte Wort abgearbeitet ist, gehört es zur durch den Automaten bestimmten regulären Sprache. Beispiel 44 3. und 4. sind einfache Beispiele. Sehr oft, wie in
diesen Beispielen, wird zusätzlich gefordert, daß der Automat zum Endzustand ω geführt
werden muß können, i.A, jedoch genügt es, als Sprache jene Ausdrücke anzuerkennen,
welche keine syntaktischen Variablen mehr enthalten.
Es lassen sich reguläre Sprachen wie eben beschrieben stets mittels (Mealy)automat, kontextfreie mittels Kellerautomat, und Chomskysprachen mittels Turingmaschine “erkennen”:
es läßt sich zu jeder solchen Sprache eine entsprechende Maschine bauen, die nur Wörter
dieser entsprechenden Sprache “akzeptiert”, also schrittweise zum Ende vorrückt, wenn der
eingegebene Satz (das Programm), der Sprache angehört, m.a.W., syntaktisch korrekt ist. Ein
wenig hiezu findet sich in Unterabschnitt A.2.2.
2.2
Halbgruppen, Gruppen und Wirkungen
Hat man in einer Menge eine assoziative Verknüpfung von Elementen, so liegt eine Halbgruppe
vor. Z.B. sind die natürlichen Zahlen hinsichtlich der Addition eine Halbgruppe. Halbgruppen lernt man meist als Halbgruppen von Transformationen einer Menge in sich kennen (z.B.
alle alle 3 × 3-Matrizen, die auf dem R3 wirken und Matrizenmultiplikation), wobei die Verknüpfung von Transformationen deren Hintereinanderausführung ist. Dynamische Systeme
sind spezielle Beispiele einer solchen Situation. Gruppen sind Halbgruppen mit 1-Element
und Inversem zu jedem Element. Sie begegnen einem meist als Symmetriegruppen (etwa von
Rosetten).
·
·
•111
11
11
11
•
•
·
'!&·"%1#$ '!&·"%1#$
11 11
'!&·"%1#$ '!&·"%1#$ '!&·"%#$
11 11 '!&"%#$ '!&"%#$
·
%
5
6
4
kk 3 SS 2
1
·
DD
7
1
8
9
zz
Sowohl die algebraische Struktur von (Halb)gruppen als auch ihr Wirken als Menge von
Transformationen sind Gegenstand dieses Unterabschnitts.
2.2.1
Definitionen und Allgemeines
Ist M eine beliebige Menge, so können die Abbildungen von M → M gemäß Definition 29
hintereinander ausgeführt werden, wie z.B. die Symmetrien obiger Rosetten. Da wäre M
die Rosette und f typischerweise eine Drehung um passenden Winkel oder Spiegelung. Sind
f und g solche Abbildungen, dann ist gf die Abbildung, die jedem m ∈ M das Element
g(f (m)) zuordnet. Diese Operation ist assoziativ und es gibt ein Einselement, die identische
Abbildung 1M auf M . Wenn nun eine Teilmenge aller Funktionen auf M unter Zusammenset-
2.2. Halbgruppen, Gruppen und Wirkungen
51
zung “abgeschlossen” ist, hat man ein erstes Beispiel für eine Halbgruppe laut nachstehender
Definition.
N1
1 1
1 1
1
1 1 1
1 1
1
1
1 1
1 1 1 1
1 1 1 1 1 1 1 1
1 1
1 1
1 1
1
1
1 1
1 1 1 1
1 1 1 1
1 1
1 1
1 1
11
1 1
11
1
1
1
1
1
1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
NN
N N
NNNN
N
N
NN NN
N N N N
NNNNNNNN
N
N
NN
NN
N N
N N
NNNN
NNNN
N
N
N
N
NN NN NN NN
N N N N N N N N
NNNNNNNNNNNNNNNN
N
N
NN
NN
N N
N N
NNNN
NNNN
N
N
N
N
NN NN
NN NN
N N N N
N N N N
NNNNNNNN
NNNNNNNN
N
N
N
N
NN
NN
NN
NN
N N
N N
N N
N N
NNNN
NNNN
NNNN
NNNN
N
N
N
N
N
N
N
N
NN NN NN NN NN NN NN NN
N N N N N N N N N N N N N N N N
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
Die Selbstähnlichkeiten des Sierpinskidreiecks bilden ein Monoid. Das Schrumpfen um ein Drittel
(etwa auf das rechte untere Teildreieck) hat kein
Inverses.
Definition 46 ((Halb)gruppe und Monoid) Eine (2-stellige) Operation auf einer Menge
G ist eine Funktion f : G × G → G. Eine Menge G mit einer Operation f : G × G → G heißt
Halbgruppe, falls das Assoziativgesetz gilt, d.h. f (x, f (y, z)) = f (f (x, y), z) für alle x, y, z ∈ G.
Sie heißt Monoid, falls es ein Einselement gibt, also ein Element e mit f (x, e) = f (e, x) = x
für alle x ∈ G. Gibt es zusätzlich zu jedem x ∈ G genau ein Element x̄ ∈ G mit f (x, x̄) =
f (x̄, x) = e, so nennt man G eine Gruppe. Ist G endlich, so nennt man die Anzahl der
Elemente in G die Ordnung von G.
Halbgruppe
(lediglich assoziative binäre Operation)
Monoid
(Einselement kommt dazu)
Gruppe
(Jedes Element hat Inverses)
Meist benützt man multiplikative Notation, z.B. f (x, y) = xy, und schreibt 1 für e, x−1 für x̄,
xn für x
. . x}, und x−n statt (xn )−1 , bzw. (vorallem im kommutiven Fall) additive Notation.
| .{z
n mal
Die nachstehende Tabelle stellt die multiplikative der additiven Schreibweise gegenüber:
assoziativ
Einselement
Inverses
Kommutativgesetz
Potenz
Negative Potenz
x(yz)=(xy)z
x1=1x=x
xx−1 =x−1 x=1
xy=yx
xn
x−n
x+(y+z)=(x+y)+z
x+0=0+x=x
x+(-x)=-x+x=0
x+y=y+x
nx
-nx
52
Algebra
Somit ist das Eingangsbeispiel sogar ein Monoid bezüglich des Hintereinanderausführens
von Funktionen (Symmetrieoperationen) auf M . Das Beispiel vor Augen, legt den Gedanken
nahe, die Elemente von G (sozusagen die Funktionssymbole) mit jenen in M (Objekte) als
“verknüpft” zu sehen. Das führt zu folgendem Begriff:
Definition 47 ((Halb)gruppen- und Monoidwirkung) Man sagt, das Paar (G, M ) ist
eine Halbgruppenwirkung, bzw. G operiert auf M , falls G eine Halbgruppe, M eine Menge und
w : G×M → M eine Funktion ist, derart daß w(gh, m) = w(g, w(h, m)) für alle g, h ∈ G, und
alle m ∈ M gilt. Es ist üblich, statt w(g, m) einfach gm zu schreiben, sodaß sich das Gesetz
wie ein Assoziativgesetz (gh)m = g(hm) liest. Ist G ein Monoid, so spricht man von einer
Monoidwirkung, wenn zusätzlich w(1, m) = m für alle m ∈ M gilt, also, in Kurznotation,
1.m = m gilt. Ist (G, M ) eine Monoidwirkung und G eine Gruppe, so nennt man (G, M ) eine
Gruppenwirkung.
Definition 48 (Kommutative=abelsche, zyklische (Halb)gruppen, Ordnung eines
Elements) Eine Halbgruppe G kommutativ oder abelsch, wenn in ihr das Kommutativgesetz
gilt. Sie heißt zyklisch, falls es ein x ∈ G gibt, derart, daß jedes Element eine Potenz xk mit
k ∈ N ist. Ein Monoid G ist zyklisch, falls es ein x ∈ G gibt, sodaß jedes Element eine Potenz
xk mit k ∈ N ∪ {0} ist. Ist G eine Gruppe, so heißt sie zyklisch, wenn es ein Element x ∈ G
gibt, sodaß jedes Element in der Form xk für ein k ∈ Z ist. Ist die Gruppe G = hxi endlich,
so nennt man die Ordnung von G auch Ordnung des Gruppenelements x.
Beispiel 49 Wie unterschiedlich (Halb)gruppenwirkungen aussehen können, mögen die folgenden Beispiele belegen:
1. Wie oben angedeutet, ist für G := M M das Paar (G, M ) eine Monoidwirkung auf M .
Es ist w(f, m) = f (m).
2. Es sei M := [−1, 1] × [−1, 1] ein Quadrat mit der Seitenlänge 2 und Mittelpunkt (0, 0).
Eine Ähnlichkeitsabbildung ist eine Funktion f : M → M , welche von der Form
a b
x
p
f (x, y) = λ
+
c d
y
q
a b
für eine orthogonale 2 mal 2 Matrix
mit Determinante 1 und λ ∈ (0, 1) ist.
c d
Bilden diese Abbildungen bezüglich Hintereinanderausführung ein Monoid, bzw. eine
Gruppe?
Antwort: Wäre M = R2 , so käme man auf eine Gruppe. Es gelten jedoch die Zusatzbedingung −1 ≤ ax + by + p ≤ 1 und −1 ≤ cx + dy + q ≤ 1 für alle x, y mit |x| ≤ 1
und |y| ≤ 1. Die Anschauung läßt vermuten, daß es sich um ein Monoid handelt. Der
Nachweis möge als Übung für Interessierte verbleiben.
2.2. Halbgruppen, Gruppen und Wirkungen
53
3. Es ist [0, ∞) ein Monoid, wenn man als Operation die Addition zuläßt.
Weiters sei M = [−1, 1]×[−1, 1] wie vorhin und F : [0, ∞)×M → M durch F (t, x, y) :=
(e−t x, e−2t y) gegeben. Wegen der Exponentialfunktion gilt mit dieser Bezeichnung:
F (t + t0 , (x, y)) =
=
=
=
0
0
(e−t−t x, e−2t−2t y)
0
0
(e−t e−t x, e−2t e−2t y)
0
0
F (t, (e−t x, e−2t y))
F (t, F (t0 , (x, y))).
Weiters ist F (0, (x, y)) = (x, y). Deshalb ist für G := [0, ∞) das Paar (G, M ) eine
Monoidwirkung6 .
4. Ist die Menge N ein zyklisches Monoid bezüglich der Addition?
Antwort: Ja. In Definition 48 spielt 1 die Rolle von x. Nun muß man noch auf die
additive Schreibweise (Definition 46) achten.
————
Nun sei f (x) := x2 − 1. Ein Newtonschritt besteht darin, einer Zahl x0 ∈ R den Wert
x20 −1
x0 − 2x
zuzuordnen. Es zeigt sich, daß hiedurch eine Funktion F : R+ → R+ definiert
0
2
1
. Es sei M := [1, ∞). Wir definieren jetzt f :
wird, nämlich F (x) := x − x 2x−1 = x2 + 2x
N × M → M wie folgt: f (0, x) := x und wenn f (n, x) definiert ist, so soll f (n + 1, x) :=
F (f (n, x)) sein. Läßt sich hiedurch eine Halbgruppenwirkung auf M definieren?
Antwort: Für x ≥ 1 sieht man F (x) ≥ 1 ein, weil
F (x) =
x
1
+
≥1
2 2x
für alle x ≥ 1 ist. Hieraus folgt durch Induktion nach n, daß aus f (n, x) ∈ M auch
f (n + 1, x) = F (f (n, x)) ∈ M folgt. Der formale Beweis für f (k + l, x) = f (k, f (l, x))
stützt sich auf Induktion nach k: Ist k = 0, so ist f (l, x) = f (0, f (l, x)) = f (l, x), ist o.k..
Wenn nun f (k+l, x) = f (k, f (l, x)) als richtig angenommen wird, so ist f ((k+1)+l, x) =
F (f (k + l, x)) = F (f (k, f (l, x))) = f (k + 1, f (l, x)).
5. (Dynamisches System) Jede Halbgruppenwirkung (R+ , M ), bzw. (R, M ) heißt 2
kontinuierliches dynamisches System auf M . Jede Halbgruppenwirkung (N, M ) bzw.
(Z, M ) heißt diskretes dynamisches System auf M .
einfache Beispiele:
(a) Gelegentlich wird die zeitliche Veränderung einer zu t0 := 0 vorgegebenen Temperaturverteilung auf einem (ab)strahlenden Körper K durch ein exponentielles
Abkühlungsgesetz beschrieben: Ist z.B. K das Intervall 0 ≤ x ≤ 1, so wäre das
eine Formel der Bauart T (t, x) := e−ct φ(x) die Temperatur, die am Punkt x zur
Zeit t herrscht, wenn zur Zeit t = 0 dort die Temperatur T (0, x) = φ(x) geherrscht
6
Ein Beispiel eines dynamischen Systems, siehe 5.
54
Algebra
hat (Lösungen der Wärmeleitungsgleichung). Die als positiv gedachte (Material)konstante c entspricht einem Temperaturleitkoeffizienten. Es sei (der Einfachheit halber) φ(x) stetig differenzierbar und positiv für alle x ∈ K. Dann soll M
die Fläche sein, welche von der Abszisse, dem Funktionsgraphen und den in den
Endpunkten von K errichteten Ordinaten begrenzt wird. Ist nun (x, y) ∈ M ,
so offenbar auch (x, e−ct y), sodaß w(t, (x, y)) := (x, e−ct y) eine Monoidwirkung
([0, ∞), M ) festlegt.
(b) Verzinsung geschieht üblicherweise nach der KiP-Regel, d.h., läßt man das Kapital
K bei einer Verzinsung eine Zeiteinheit bei p% liegen, ergibt sich danach K 0 =
p
K(1 + 100
) als verzinstes Kapital. Liegt das Kapital zu gleichen Bedingungen i
p i
) als verzinstes Kapital.
Zeitabschnitte, so ergibt sich naturgemäß Ki = K(1 + 100
Dies gibt Anlaß, das folgende diskrete dynamische System zu formulieren: G :=
N mit der Addition (ein Monoid mit Null als Einselement), M := [0, ∞) und
p i
w(i, K) := K(1 + 100
).
6. (Universelle Eigenschaft des freien Monoids) Das freie Monoid über einem Alphabet aus Definition 38 ist ein Monoid. Ist G = (N, T, R, S) eine reguläre Grammatik
(siehe Definition 43) und, als Sonderfall, zu jedem X ∈ N und jedem t ∈ T eine
Regel der Form X → tY vorhanden, dann ist (T ∗ , N ) eine Monoidwirkung. Geometrisch bedeutet es für den Automaten (Anmerkung 241), daß für jedes Terminalsymbol
festgelegt sein muß, in welchen Zustand der Automat übergeht.
7. Das freie Monoid A∗ erfüllt die folgende universelle Eigenschaft: Ist f : A → G eine beliebige Funktion mit Werten in einem Monoid G, so gibt es eine eindeutige Fortsetzung
von f zu einem Monoidhomomorphismus von A∗ → G. (Analog, wie man eine lineare
Abbildung von einer Basis eines Vektorraums in einen Vektorraum stets eindeutig zu einer linearen Abbildung fortsetzen kann), nämlich f (a1 a2 . . . ak ) := f (a1 )f (a2 ) . . . f (ak ).
Von der gleichen Art ist die universelle Eigenschaft von Polyomringen, siehe Anmerkung
73.
8. Diskreter Logarithmus und PGP. Ist G = hgi eine zyklische Gruppe der Ordnung
n, so heißt die Abbildung e : Zn → G, die durch e(z) := g z definiert ist, diskrete
Exponentialfunktion. Die Umkehrfunktion heißt diskreter Logarithmus auf G zur Basis
g.
Es sei p := 13, so betrachten wir alle Potenzen von 2
x
2x
(mod 13):
0 1 2 3 4 5 6 7 8 9 10 11
1 2 4 8 3 6 12 11 9 5 10 7
Hieraus ergibt sich für die zyklische Gruppe der Ordnung 13 eine diskrete Logarithmentafel:
x 1 2 3 4 5 6 7 8 9 10 11 12
log2 (x) 0 1 4 2 9 5 11 3 8 10 7 6
2.2. Halbgruppen, Gruppen und Wirkungen
55
Interessant ist lediglich, daß es für ausreichend große Primzahlen kaum möglich ist, in
angemessener Zeit die obige Logarithmentafel zu erstellen7 . Dies benützt man z.B. beim
Diffie-Hellman Verfahren (Verwendung bei PGP) welches folgendes Problem behandelt:
A und B wollen zwecks Verschlüsselung eine Schlüsselzahl K gemeinsam benützen (etwa
um danach Nachrichten damit zu verschlüsseln, zu senden bzw. zu empfangen und
entschlüsseln, die nur zwischen A und B ausgetauscht werden sollen). Das Problem
besteht nun in “unsicherer” Datenleitung, sodaß solches K “abgehört” werden kann.
Beim Diffie-Hellman Verfahren wird ein solches K nach folgender Methode erzeugt,
bzw. zwischen A und B ausgetauscht:
(a) Wie in Anmerkung 83 gezeigt werden wird, ist die multiplikative Gruppe von
Zp , nämlich alle Zahlen {1, . . . , p − 1} bei Multiplikation modulo p eine zyklische
Gruppe. Sie sei unser G.
Rechner A und B einigen sich auf ein Primzahl p, um G := {1, . . . , p − 1} zu
benützen, und ein Element g ∈ G, sodaß G = hgi. z.B. in unserem Fall p = 13 und
g := 2.
(b) A und B tauschen p, g aus.
(c) A und B erzeugen Zufallszahlen a, b ∈ {2, . . . , p − 2}, A sendet g a an B und B
sendet g b an A. Wenn z.B. a := 3 und b := 7 ist, sendet A 23 = 8 an B und jener
27 = 11 an A.
(d) Es wird von A das Element (g b )a und von B das Element (g a )b berechnet. Nun
haben sowohl A als auch B das gleiche Elment K = g ab errechnet, welches zu
weiteren Methoden des Verschlüsselns benützt werden kann, etwa zur Benützung
des El-Gamal Verfahrens, bei dem noch 2 ≤ K ≤ p − 2 sicherzustellen ist. Das
Element K selbst ist nicht auszutauschen, jedoch darf g K publik gemacht werden,
weil man ja annimmt, daß der g-Logarithmus von g K , nämlich K, nicht leicht
berechenbar ist.
In unserem Fall ist K = (23 )7 = 221 = 2 · 1024 · 1024 = 2 · 10 · 10 = 5 (alle
Rechnungen modulo 13) und 2K = 6.
Anmerkung 50 (Allgemeine Produkt- und Summennotation) Ist G kommutatives Monoid und I eine Menge, sowie f : I → G eine Funktion mit Werten in G, so heißt
tr(f ) := {i ∈ I | f (i) 6= 1} (bzw. in additiver Notation {i ∈ I | f (i)
Q 6= 0} Träger von
f . Für eine Funktion f ; I → G mitendlichem Träger
wird rekursiv i∈∅ f (i) := 1 (bzw.
P
Q
Q
i∈∅ f (i) := 0) und
i∈I f (i) :=
i∈I\{i0 } f (i) f (i0 ), wobei i0 ∈ I beliebig wählbar
P
ist (bzw.
i∈I\{i0 } f (i) + f (i0 )) definiert.
7
Allerdings hat Briggs ca 1616 nicht ganz 7 Jahre zur Berechnung von 14-stelligen Logarithmen von ca
30000 Zahlen benötigt, – heute braucht man eher länger für das Drucken als für das Rechnen.
56
Algebra
Als Konsequenz des Assoziativ- bzw. Kommutativgesetzes gilt für jede Partition {Il |
l ∈ L} von I


Y
Y Y

f (i) =
f (i) ,
i∈I
l∈L
X
X
i∈Il
bzw. in additiver Notation:

i∈I
f (i) =

X

l∈L
f (i) .
i∈Il
Weiters ergeben sich für f : I × J → G die folgenden Formeln:


!
Y
Y Y
Y Y

f (i, j) =
f (i, j) =
f (i, j) =
(i,j)∈I×J
i∈I
j∈J
j∈J
i∈I
Y
f (i, j),
(j,i)∈J×I
bzw., in additiver Notation:

X
f (i, j) =
X

i∈I
(i,j)∈I×J

X
j∈J
f (i, j) =
!
X X
j∈J
f (i, j)
X
=
i∈I
f (i, j).
(j,i)∈J×I
Anmerkung eines Buchhalters: In der Summenschreibweise bedeutet das Partitionieren der
Indexmenge I, daß man die zu addierende Posten f (i) in Gruppen zusammenfaßt (Gruppe
im buchhalterischen Sinn) und danach die Werte der Gruppensummen addiert. Das Produkt
I × J bedeutet, daß die Werte f (i, j) in einem Tableaux (Mathematiker sprechen wohl eher
von Matrix vgl. 3.tes Beispiel in der Tabelle vor Anmerkung 33) angeordnet sind, danach
Zeilensummen ermittelt und schließlich die Zeilensummen addiert werden. Wenn man in
analoger Weise Spaltensummen addiert, kommt man zum gleichen Ergebnis.
2.2.2
Kongruenzen und Homomorphismen von Halbgruppen, Gruppen und
Wirkungen
Es soll mit einem Beispiel begonnen werden, bei dem eine Gruppe als Beschreibungshilfe für
Symmetrien benützt wird. Es sei ein Quadrat (links)
•
•









•
•
I¯
D̄
K̄
L̄
I¯
I¯
D̄
K̄
L̄
D̄
D̄
I¯
L̄
K̄
K̄
K̄
L̄
I¯
D̄
L̄
L̄
K̄
D̄
I¯
mit eingezeichneter Diagonale gegeben. Durch Hinsehen erkennt man folgende Symmetrien:
2.2. Halbgruppen, Gruppen und Wirkungen
57
Wirkung
Drehung um 180o
Kippen um die eingezeichnete Diagonale
Kippen um die nicht eingezeichnete Diagonale
Nichtstun
Bezeichnung
D
K
L
I
Jede Buchstabenfolge im freien Monoid {I, D, K, L}∗ beschreibt eine Abfolge von Transformationen des Quadrats, allerdings ist z.B. die Wirkung von I, DD, DDDD jeweils die
gleiche.
Es verhilft zur Übersicht, welche Elemente in {I, D, K, L}∗ gleich wirken, wenn
man {I, D, K, L} als Eingabealphabet eines Automaten (wie in Beispiel 44, Genaueres siehe Unterabschnitt A.2.2) ansieht. dessen Zustände die 4 Positionierungen des Quadrats sind. Jede Positionierung des Quadrats werde in der
Form b2 als Zustand “kodiert” und die
b2
1a .
b1
2a
...
D ..
..
a1
..K
L 2b === ..
== ..
= .
K
L == .
D
a2
1b
1a
Überführungen sollen durch einfache Linien angedeutet werden, weil jede Symmetrie 2 mal angewendet, die Identität ist.
Zwei Wörter w, w0 im freien Monoid {I, D, K, L}∗ sollen kongruent genannt werden, wenn sie
beide das Gleiche mit dem Quadrat tun und das soll mit w ≡ w0 ausgedrückt werden. Man bemerkt, daß ≡ eine Äquivalenzrelation8 ist. Es leuchtet auch ein, daß die Kongruenzeigenschaft
gilt:
u ≡ u0 ∧ v ≡ v 0 ⇒ uv ≡ u0 v 0 .
Die Äquivalenzklassen dieser Relation sollten als Symbole zur Beschreibung aller Symmetrien
ausreichen, weil ja das Monoid vieldeutige Bezeichnungen zuläßt, jedoch inkongruente Wörter
offenbar auch verschiedentlich wirken! Es soll jetzt für jedes Wort w mit w̄ die Äquivalenzklasse von w bezeichnet werden. Die obige Kongruenzeigenschaft erlaubt es, eine Multiplikation
für die Äquivalenzklassen durch
ūv̄ := uv
festzulegen. Das geht, weil u0 ≡ u und v 0 ≡ v geradewegs u0 v 0 ≡ uv, also u0 v 0 ∈ uv nach sich
zieht, und somit die Wohlbestimmtheit dieses Ausdrucks. Zu den Annehmlichkeiten zählt
auch, daß {I, D, K, L}∗ / ≡ mit der Multiplikation von Klassen automatisch assoziativ wird,
und ein 1-Element besitzt, also ein Monoid ist.
¯ D̄, K̄, L̄} die Äquivalenzklassen der Ausgangssymmetrien sein. Jetzt beEs sollen jetzt {I,
sinnt man sich auf das obige Diagramm des Automaten und liest sehr schnell u.a. folgende
Kongruenzen ab:
I ≡ DD ≡ KK ≡ LL, L ≡ KD ≡ DK.
8
Definition 26
58
Algebra
Für die Äquivalenzklassen heißt das
I¯ = D̄D̄ = K̄ K̄ = L̄L̄, L̄ = K̄ D̄ = D̄K̄.
Dies führt zur Multiplikationstabelle neben der Skizze des Quadrats. Man erkennt daraus,
daß jedes Element ein inverses (sich selbst) besitzt, also eine Gruppe vorliegt. Somit kodiert
¯ D̄, K̄, L̄} mit obiger Multiplikationstafel die Symmetrien des Quadrats in
die Gruppe {I,
eindeutiger Weise.
Jetzt ist man allerdings noch immer nicht zufrieden, wegen der vielen Querstricherln. “Weglassen” ist eine Möglichkeit, eine “algebraisch kompetentere” ist es, nachzusehen, ob die Kongruenzrelation aus einem konfluenten, antisymmetrischen und noetherschen TES9 herleitbar
ist und es bietet sich
DD|KK|LL|II → I, DK → L, KD → DK, ID|DI → D, IL|LI → L, IK|KI → K, DL → K
an. Tatsächlich wird jedes Wort in {I, K, D, L}∗ zu genau einem Buchstaben in {I, K, D, L}
in endlich vielen Schritten “reduziert”.
Der eine Teil dieser Beobachtung ist der Begriff der Kongruenzrelation:
Definition 51 (Kongruenzen in einer (Halb)gruppe) Eine Kongruenzrelation auf einer
Halbgruppe G ist eine Äquivalenzrelation ≡, derart, daß u ≡ u0 und v ≡ v 0 stets uv ≡ u0 v 0
nach sich zieht.
Ein Halbgruppenhomomorphismus f : G → G0 erfüllt für alle g, h ∈ G die Bedingung
f (gh) = f (g)f (h). Ein Monoidhomomorphismus erfüllt zusätzlich f (1G ) = 1G0 . Sind G und
G0 Gruppen, so ist f ein Gruppenhomomorphismus, wenn f Monoidhomomorphismus ist.
Ein Homomorphismus, der eine Bijektion ist, heißt Isomorphismus.
Anmerkung 52 (Kongruenz und (Halb)gruppenhomomorphismus) Es ist
üblich, schlicht von Homomorphismus zu sprechen, wenn keine Verwechslung zu befürchten ist.
Die Begriffe Kongruenz und Homomorphismus sind in folgendem Sinne äquivalent: Ist
≡ eine Kongruenzrelation auf G, so kann eine Multiplikation auf G/ ≡ durch ḡḡ 0 := gg 0
definiert werden, und f : G → G/ ≡, definiert durch f (g) := ḡ (die Äquivalenzklasse von
g) erweist sich als Homomorphismus. Es wird G/ ≡ mit dieser neuen Multiplikation als
Quotienten- oder Faktor(halb)gruppe bezeichnet.
Ist umgekehrt f : G → G0 ein Homomorphismus, so ist die Relation g ≡ g 0 falls
f (g) = f (g 0 ) ist, eine Kongruenzrelation auf G.
Beispiel 53
1. (Freies kommutatives Monoid und Kongruenz) Es sei X ∗ das freie
Monoid über dem Alphabet X (siehe Definition 38). Wir definieren eine Kongruenz
9
Definition 40
2.2. Halbgruppen, Gruppen und Wirkungen
59
durch xy ≡ yx für alle x, y ∈ X. Als Quotient bekommt man jetzt ein kommutatives
Monoid. Wählt man eine lineare Ordnung auf X, so kann jedes Element eindeutig
mk
1 m2
durch ein Potenzprodukt xm
1 x2 . . . xk mit x1 < x2 < . . . < xk anschreiben. Das TES
yx → xy für alle x < y erweist sich als konfluent, antisymmetrisch und noethersch10 . Die
vom TES erzeugte Kongruenzrelation auf X ∗ besteht genau darin, Wörter in Relation
zu setzen, wenn sie durch Vertauschen ihrer Faktoren in X auseinander hervorgehen.
Nun bekommt man Repräsentanten in X ∗ : Ist etwa x < y < z so ergibt sich
zyxxxyz → zxyxxyz → xzyxxyz → · · · → x3 y 2 z 2 .
Das so entstandene Monoid heißt freies kommutatives Monoid über dem Alphabet X.
2. Es sei G ein beliebiges Monoid, {e} das triviale Monoid (d.h. ee = e) und f : G → {e}
durch f (g) := e für alle g ∈ G gegeben. Dann ist f ein Monoidhomomorphismus, den
man trivial nennt.
3. (Restklassenaddition in Z modulo m) Es sei (Z, +) die Gruppe der ganzen Zahlen
mit der Addition. Sei m > 0 in Z. Es sei x ≡ y, falls es ein k ∈ Z mit y = x + km gibt.
Dies ist die übliche Kongruenzrelation mod m. Die Menge der Äquivalenzklassen ist
{0̄, . . . , m − 1}. Die Addition in Z/ ≡ ist definiert als x̄+ȳ := x + y. Es sei f : Z → Z/ ≡
die Abbildung, die jedem z ∈ Z das Element z̄ zuordnet.
Wie kann man die Addition in Zm ausdrücken?
Jede Zahl z ∈ Z ist eindeutig in der Form z = km + r mit k ∈ Z und 0 ≤ r ≤ m − 1
darstellbar. Es sei r(z) die Bezeichnung für den Rest bei vorgegebenem z. Nun definieren
wir als TES:
(∀z ∈ Z)z → r(z)
Dieses TES erweist sich als noethersch, antisymmetrisch und konfluent und impliziert
die Kongruenzrelation im Sinne von Anmerkung 41.
Auf Zm = {0, 1, . . . , m − 1} wird durch
x+y
x ⊕ y :=
x+y−m
falls x + y < m
sonst
eine Addition definiert, sodaß (Zm , ⊕) eine kommutative Gruppe ist (bitte checken!).
Dann ist r : Z → Zm ein Gruppenhomomorphismus, weil laut Definition r(x + y) =
r(x) ⊕ r(y) gilt.
4. (Charakterisierung der zyklischen Gruppen) Wie kann man die zyklischen Gruppen charakterisieren. Welche Rechengesetze sind möglich?
Antwortfindung: Es ist G = {xl | l ∈ Z}. Wenn G 6= {1}, sind 2 Fälle denkbar.
Fall 1 ist, wenn es ganze Zahlen k 6= l mit xk = xl gibt. Dann ist xk−l = 1. Somit ist die
Menge {n ∈ N | n > 0 ∧ xn = 1} nicht leer und besitzt ein kleinstes Element, nennen
10
Definition 40
60
Algebra
wir es m. Sei H := {1, x, . . . , xm−1 }. Wir behaupten, daß H eine Untergruppe11 von
G ist. Sind nämlich xk , xl ∈ H, so auch xk+l , sofern k + l < m, bzw. xk+l−m , sofern
k + l ≥ m ist. Es ist auch x−k = x−k xm = xm−k ∈ H, sofern k ≥ 1 ist. Somit ist H
Untergruppe. Ist nun g = xk ∈ G beliebig (also nicht notwendig 0 ≤ k ≤ m − 1), so
kann ähnlich wie in 3. ein s ∈ {0, . . . , m−1} und l ∈ Z mit k = s+ml gefunden werden,
sodaß xk = xk xml = xs ∈ H gilt. Schließlich überlegt man sich noch, daß xk = xl mit
k, l ∈ {0, 1, . . . , m − 1} stets k = l nach sich zieht: anderfalls, wenn k > l wäre, hätte
man xk−l = 1, und weil 0 < k − l < m ist, hätte man einen Widerspruch.
Fall 2 ist, wenn keine 2 Potenzen xk , xl übereinstimmen, sofern k 6= l ist. Dann ist G
eine multiplikative Version von Z.
Antwort: Wir haben gezeigt, daß jede zyklische Gruppe isomorph zu entweder Zm für
ein positives natürliches m (wobei Z1 = Z) oder zur trivialen Gruppe, nämlich {0} ist.
5. (Restklassenaddition in R mod 2π) Es sei G := R mit der Addition. Es sei r ≡ s,
falls es ein k ∈ Z mit s = r + 2kπ. Liegt eine Äquivalenzrelation vor? Wenn ja, wie
kann die Quotientengruppe R/2πZ := R/ ≡ beschrieben werden?
Antwort: Zunächst muß gezeigt werden, daß eine Äquivalenzrelation vorliegt. r ≡ r,
weil r = r + 2 × 0 × π gilt, also k = 0 genommen werden kann. Somit ist ≡ reflexiv. Ist
r ≡ s, so ist s = r + 2kπ, also r = s + 2 × (−k) × π, also s ≡ r. Somit ist ≡ symmetrisch.
Ist r ≡ s und s ≡ t, so existieren k, l ∈ Z mit s = r + 2kπ und t = s + 2lπ. Demnach
ist t = r + 2kπ + 2lπ = r + 2(k + l)π, somit r ≡ t. Also ist ≡ auch transitiv.
Noch zu zeigen, daß die Kongruenzbedingung gilt: Ist r ≡ s und r0 ≡ s0 , so gibt es
k, k 0 ∈ Z mit s = r + 2kπ und s0 = r0 + 2k 0 π. Dann ist s + s0 = r + r0 + 2(k + k 0 )π, also
r + r0 ≡ s + s0 .
Nun ist {x̄ | x ∈ [0, 2π)} = {x̄ | x ∈ [−π, π)} = R/2πZ. Ähnlich wie im vorigen Beispiel
kann nun eine neue Addition ⊕ auf z.B. [0, 2π) durch
x+y
falls x + y < 2π
x ⊕ y :=
x + y − 2π sonst
erklärt werden. Danach ist f : R → [0, 2π) ein Gruppenhomomorphismus, der geometrisch gesehen, die Addition von Winkeln modulo 2π beschreibt.
6. (Exponential- und Logarithmusfunktion als Homomorphismen) Es sei G := R
und H := R+ die Menge der positiven reellen Zahlen. Weiters sei f : R → R+ durch
f (x) := ex definiert. Nun läßt sich die bekannte Formel ex+y = ex ey als Gruppenhomomorphismus von (R, +) nach (R+ , .) interpretieren.
Es läßt sich der natürliche Logarithmus ln : R+ → R als Gruppenhomomorphismus
interpretieren, weil die für alle positiven x, y erfüllte Gleichung ln(xy) = ln x + ln y
geradewegs die Bedingung dafür ist, daß ln ein Homomorphismus ist. Da ln und exp
zueinander inverse Funktionen sind, sind sie Isomorphismen.
11
Definition 57
2.2. Halbgruppen, Gruppen und Wirkungen
61
7. (Determinantenfunktion als Homomorphismus) Ist G die Menge der reellen n×nMatrizen mit der Multiplikation, so erfüllt det : G → R bekanntlich den Determinantenmultiplikationssatz, d.h.
det(AB) = det(A) det(B).
Das ist gleichbedeutend damit, zu sagen, daß det : G → R ein Monoidhomomorphismus
ist, wenn R als Monoid mit der Multiplikation aufgefaßt wird.
8. Es sei alles wie in Beispiel 36, 1., insbesondere sei, wie eben dort, A eine Menge von
Aussageformen von der Form α(x) mit x einer Variablen und M eine Menge. Wegen
Anmerkung 3 ist (A, ∧) und wegen Anmerkung 10 ist (P(M ), ∩) eine kommutative
Halbgruppe. Demnach erweist sich das im zitierten Beispiel definierte f mit f (α) :=
{m ∈ M | α(m)} als Halbgruppenhomomorphismus.
Definition 54 (Kongruenz und Homomorphismus von Wirkungen) Ist (G, M ) eine
Wirkung, so nennen wir ein Paar (≡G , ≡M ) eine Kongruenzrelation auf einer Wirkung, falls
≡G eine Kongruenzrelation auf G, weiters ≡M eine Äquivalenzrelation auf M ist, und g ≡G g 0 ,
sowie m ≡M m0 stets gm ≡M g 0 m0 nach sich zieht.
Ein Homomorphismus f von Wirkungen (G, M ) und (G0 , M 0 ) ist ein Paar f := (fG , fM )
von Funktionen fG : G → G0 und fM : M → M 0 , sodaß fG ein Halbgruppenhomomorphismus
ist und für alle g ∈ G und m ∈ M stets fM (gm) = fG (g)fM (m) gilt.
Anmerkung 55 Es ist, soweit keine Gefahr von Verwechslung befürchtet wird (um dies
zu vermeiden benützt man z.B. typisierte Variable im Sinne heterogener Algebren12 ),
üblich, lediglich ≡, bzw. f als Symbol zu verwenden.
Ähnlich wie in Anmerkung 52 ergibt sich für jede Kongruenz von Wirkungen durch
Übergang zu Quotientenhalbgruppe und Quotientenraum ein Homomorphismus von Wirkungen.
Umgekehrt ergibt jeder Homomorphismus von Wirkungen eine Kongruenzrelation der
Wirkung (G, M ).
Beispiel 56 Beispiele hiezu:
1. Es sei (G, M ) := (R, R2 ), wobei R mit der Addition als Gruppe aufgefaßt wird, und
r(x, y) := (x + r, y) Verschiebung bedeutet. Auf R gelte die Kongruenz aus Beispiel 53
3., nämlich r ≡ r0 , falls r0 = r + 2kπ für ein k ∈ Z. In der Ebene R2 soll (x, y) ≡ (x0 , y 0 )
gelten, wenn x0 = x + 2lπ für ein l ∈ Z und gleichzeitig y = y 0 ist. Man zeige, daß
≡ eine Kongruenz von Wirkungen auf (G, M ) ist. Wie kann die Quotientenwirkung
beschrieben werden?
12
Definition 245
62
Algebra
Antwort: Der Nachweis, daß ≡ auf R2 eine Äquivalenzrelation ist, verläuft recht ähnlich
wie im zitierten Beispiel. Nun soll noch gezeigt werden, daß aus r ≡ r0 und (x, y) ≡
(x0 , y 0 ) stets r(x, y) ≡ r0 (x0 , y 0 ) folgt. Lt. Voraussetzung ist dann y = y 0 und es gibt
k, l ∈ Z mit r0 = r + 2kπ und x0 = x + 2lπ. Dann ist r0 (x0 , y 0 ) = (r0 + x0 , y) =
(r + 2kπ + x + 2lπ, y) = (r + x + 2(k + l)π, y) ≡ (r + x, y) = r(x, y), w.z.b.w.
Als Quotientenwirkung bekommt man (R/2πZ, R/2πZ × R), geometrisch ist dies einfacher zu beschreiben: M̄ = R/2πZ × R ist ein Zylinder (es wird entlang der x-Achse
mod 2π “aufgerollt”, und danach erweist sich die Verschiebung als Drehung um die
Winkelvariable in R/2πZ.
2.2.3
Unter(halb)gruppen, Nebenklassenzerlegung, Normalteiler
Definition 57 (Unter(halb)gruppe, Teilmonoid) Eine Teilmenge H einer Halbgruppe
G heißt Unterhalbgruppe, falls aus x, y ∈ H stets xy ∈ H folgt. Ist G ein Monoid, so ist H
Teilmonoid, falls H Unterhalbgruppe und 1 ∈ H ist. Ist G Gruppe, so heißt H Untergruppe,
falls H Teilmonoid und mit jedem x ∈ H auch x−1 ∈ H ist.
Anmerkung 58 (Komplexprodukt,
von
Teilmenge
erzeugte
Unter(halb)gruppe) Das Komplexprodukt AB zweier Teilmengen A und B einer
Halbgruppe G ist durch
AB := {ab | a ∈ A ∧ b ∈ B}
definiert (in additiver Notation A + B = {a + b | a ∈ A ∧ b ∈ B}). Weiters wird rekursiv
A1 := A und An+1 := An A definiert und für Monoide A0 := {1}.
Ist A Teilmenge einer Halbgruppe (eines Monoids, einer Gruppe mit a ∈ A ⇒ a−1 ∈ A),
so versteht man unter der/dem S
von A erzeugten S
Unterhalbgruppe (Untermonoid, bzw.
∞
n (hAi :=
n
Untergruppe) die Menge hAi := ∞
A
n=1
n=0 A für Monoid und Gruppe, um
auch das Einselement einzuschließen).
Man darf An als {a1 a2 . . . an | (∀i)1 ≤ i ≤ n ∧ ai ∈ A} ansehen, also sich ähnlich wie die
Wörter von der Länge n im freien Monoid vorstellen.
Es mag eine gute Übung sein, die Begriffe in additiver Notation zu formulieren.
Beispiel 59 Einige Beispiele:
1. (Z, +) ist Untergruppe von (R, +).
2. (N, ·) ist Teilmonoid13 . von (Z, ·).
3. (N ∪ {0}, +) ist Teilmonoid von (Z, +).
4. Die Menge der geraden Zahlen in N ist bezüglich der Multiplikation Unterhalbgruppe
von Z, jedoch kein Teilmonoid (es fehlt das 1-Element!).
13
Es ist wie in [21] die Menge der natürlichen Zahlen gleich N = {1, 2, 3, . . .}
2.2. Halbgruppen, Gruppen und Wirkungen
63
5. Ist jede Untergruppe einer zyklischen Gruppe zyklisch? Ist jede Unterhalbgruppe einer
Halbgruppe zyklisch?
Antwort: Für Halbgruppen ist das nicht immer der Fall: Die Teilmenge {2k + 3l |
k, l ∈ N} ist eine nicht zyklische Unterhalbgruppe des Monoids (N, +), nämlich die von
A := {2, 3} erzeugte Unterhalbgruppe. Man findet A = N \ {1} = {2, 3, 4, . . .}
Weil G zyklische Gruppe ist, ist jedes Element in G Potenz eines Elements x ∈ G. Ist
{1} =
6 H eine Untergruppe, so gibt es ein h ∈ H, mit kleinstmöglichem k, sodaß h = xk
ist. Ist y ∈ H beliebig, so ist y = xn . Nun benützt man Division mit Rest, um n in der
Form n = kl + r mit 0 ≤ r ≤ k − 1 anzuschreiben. Dann ist
xn = xkl+r = (xk )l xr
also
xr = xn (xk )−l ∈ H
wegen der Abgeschlossenheit unter der Gruppenmultiplikation. Weil aber 0 ≤ r < k ist,
muß r = 0 und somit ist y eine Potenz von xk , d.h. H ist zyklisch.
Definition 60 (Nebenklassen(zerlegung)) Ist G eine Gruppe, H eine Untergruppe, und
x ∈ G so heißt xH := {xh | h ∈ H} Linksnebenklasse von H. Die zugehörige Äquivalenzrelation xRy, definiert durch xH = yH ergibt eine Partition von G, die man Zerlegung von G in
Linksnebenklassen nennt und als G \ H bezeichnet14 . Es ist (G, G \ H) eine Gruppenwirkung,
wenn man g(xH) := (gx)H definiert. Jeder Schnitt (siehe Definition 26) s : G \ H → G heißt
Nebenklassenrepräsentantensystem.
Wie Nebenklassenzerlegung nach einer Untergruppe entsteht, kann in folgendem Beispiel
ermessen werden:
Beispiel 61 Es sei (G, M ) eine Gruppenwirkung (Definition 47) und m0 ∈ M . Die Menge
der g ∈ G mit gm0 = m0 bilden eine Untergruppe15 , sie heiße H (ist nämlich gm0 = m0
und hm0 = m0 , so ist (gh)m0 = g(hm0 ) = gm0 = m0 und es ist g −1 m0 = g −1 (gm0 ) =
(gg −1 )m0 = m0 ). Nun fragen wir, wann zwei Elemente x, y ∈ G unser m0 “an die gleiche
Stelle befördern”, also wann xm0 = ym0 gilt. Das ist sichtlich eine Äquivalenzrelation R und
kann auch so ausgedrückt werden:
xRy ⇔ y −1 x ∈ H.
Wie kann die Äquivalenzklasse von x ∈ G mittels H beschrieben werden?
Es ist xRy gleichbedeutend zur Existenz von h ∈ H mit x = yh, also zu x ∈ yH, wobei
yH := {yh | h ∈ H} bedeuten soll. Somit ist die Äquivalenzklasse von x die Menge xH. Man
sieht ein, daß
xRy ⇔ xH = yH
gilt.
Ist H nun irgendeine Untergruppe von G, so ist {xH | x ∈ G} eine Partition16 von G:
14
Leider das gleiche Symbol wie bei der Mengendifferenz.
Häufig als Standgruppe oder Stabilisator bezeichnet
16
Definition 12
15
64
Algebra
Zunächst ist jedes Element g ∈ G z.B. in gH. Weiters, wenn xH ∩ yH 6= ∅, dann gibt es
h, h0 ∈ H mit yh = xh0 , also y −1 x = hh0 −1 ∈ H, daher ist yH = xH.
Ist G endlich, so ergibt sich sofort der Satz von Lagrange:
Anmerkung 62 (Satz von Lagrange) Die Ordnung17 jeder Untergruppe einer endlichen Gruppe G ist ein Teiler der Gruppenordnung. Insbesondere ist die Ordnung jedes
Elements der Gruppe ein Teiler der Gruppenordnung. Weiters, wenn xm = 1 ist dann ist
die Ordnung von x ein Teiler von m.
Beweis: Es muß nur gezeigt werden, daß für alle x ∈ G die Nebenklasse xH gleich viele
Elemente wie H enthält. Ist x ∈ H, so ist das klar. Andernfalls definieren wir eine Abbildung
f : H → xH, indem f (h) := xh gesetzt wird. Es ist f injektiv, weil aus f (h) = f (h0 ) sofort
xh = xh0 also h = h0 folgt. Da f surjektiv ist, ist f bijektiv.
Die nächste Behauptung besagt für ein beliebiges Element g ∈ G, daß seine Ordnung18 ,
d.i. die Ordnung von H := hgi die Gruppenordnung teilt, somit folgt dies aus dem Satz von
Lagrange. Schließlich sei xm = 1 und k die Ordnung von x. Dann kann mittels Division mit
Rest ein 0 ≤ r < k und q ∈ Z mit m = kq + r gefunden werden. Somit ist 1 = xm = xkq+r =
(xk )q xr = 1k xr = xr , also xr = 1. Weil aber k die Ordnung von x ist, und 0 ≤ r < k gilt,
muß r = 0 sein, und k Teiler von m. W.z.b.w.
Um den Begriff des Normalteilers einer Gruppe zu verstehen, vorweg ein Beispiel:
Beispiel 63 (Motivation des Normalteilers) Ist G eine Gruppe und ≡ eine Kongruenzrelation, so bilden die Elemente N := {n ∈ G | n ≡ 1} eine Untergruppe: Die Reflexivität
besagt 1 ≡ 1, also 1 ∈ N . Sind m, n ∈ N , dann ist m ≡ 1 und n ≡ 1, somit, wegen der
Kongruenzeigenschaft, mn ≡ 1, also mn ∈ N . Schließlich folgt aus n ≡ 1 wegen der Kongruenzeigenschaft auch n−1 n ≡ n−1 , also n−1 ≡ 1, somit n−1 ∈ N .
Unser N hat noch eine Eigenschaft: Aus n ≡ 1 und x ∈ G folgt x−1 n ≡ x−1 und durch
Multiplizieren von rechts mit x sofort x−1 nx ≡ 1, also ist mit n ∈ N stets xnx−1 ∈ N , also
xN x−1 ⊆ N . Andrerseits, wenn man x durch x−1 ersetzt, erkennt man x−1 N x ⊆ N , bzw.
durch Multiplikation von links mit x und von rechts mit x−1 bekommt man N ⊆ xN x−1 .
Insgesamt hat man also xN x−1 = N .
Ist umgekehrt N eine Untergruppe mit xN x−1 = N für alle x ∈ G, so ist die durch x ≡N y,
falls xy −1 ∈ N definierte Relation eine Kongruenzrelation auf G.
Definition 64 (Normalteiler, Quotientengruppe) Eine Untergruppe N einer Gruppe G
heißt Normalteiler von G, im Zeichen N /G, falls eine der folgenden äquivalenten Bedingungen
gilt:
• Für alle g ∈ G ist gN g −1 = N .
17
18
Definition 46
Definition 48
2.2. Halbgruppen, Gruppen und Wirkungen
65
• Für alle g ∈ G ist gN = N g := {ng | n ∈ N }.
• Die in Definition 60 beschriebene Äquivalenzelation auf G, nämlich x ≡ y genau dann,
wenn xN = yN gilt, ist eine Kongruenzrelation.
• Es gibt eine Kongruenzrelation ≡ auf G mit N = {x ∈ G | x ≡ 1}.
• Es gibt einen Gruppenhomomorphismus f : G → G0 mit N = {x ∈ G | f (x) = 1}. (In
diesem Fall nennt man N = f −1 (1) den Kern von f ).
Die Menge der Äquivalenzklassen19 bezüglich der von N bestimmten Kongruenz sind die Nebenklassen mod N und die Quotientenmenge wird mit G/N bezeichnet und Quotientengruppe
oder auch Faktorgruppe genannt. Auf ihr ist klassenweise Multiplikation definiert im Sinne
von Anmerkung 52.
Beispiel 65 Beispiele hiezu:
1. Ist G kommutativ, so ist jede Untergruppe Normalteiler, jedoch nicht umgekehrt.
z.B.: Die Quaternionengruppe G = {±1, ±i, ±j, ±k} kann durch eine Kongruenzrelation, die durch das konfluente, antisymmetrische und noethersche TES
ji → −ij, ki → −ik, kj → −jk, ii → −1, jj → −1, kk → −1
im Sinne von Definition 40 festgelegt wird, definiert werden. Sie ist nicht kommutativ,
jedoch ist jede Untergruppe Normalteiler.
2. Es sei ein gleichseitiges Dreieck mit Eckpunkten A, B, C in der Ebene gegeben. Die
Symmetrien, welche dieses Dreieck in sich überführen, können durch Permutationen
dieser Eckpunkte beschrieben werden und wir geben zunächst die Identität, Spiegelung
an der Seitensymmetralen durch die Seite AB und Drehung um 120 Grad an:
C C B A B
A B
A C
I :=
, s :=
, d :=
C
C
A B
B A
BC A
C
A
C
s
B
B
A
d
B
19
Definition 26
C
A
66
Algebra
Nun bekommt man entweder ähnlich wie zu Beginn von Unterabschnitt 2.2.2 oder
durch Rechnen mit den Permutationen, daß
G = {I, d, d2 , s, sd, sd2 }
und es gilt s2 = (sd)2 = d3 = I. Ein noethersches, antisymmetrisches und konfluentes
TES20 , welches die Kongruenz im Sinne von Anmerkung 41 ergibt, ist
s2 → I, d3 → I, ds → sd2 .
Nun sei H := {I, s}, dann ist H eine Untergruppe. Um zu zeigen, daß H kein Normalteiler ist, bemerken wir Hd = {d, sd}, jedoch dH = {d, ds} = {d, sd2 }, also dH 6= Hd
ist.
Die Menge N := {I, d, d2 } ist eine Untergruppe, wie man leicht einsieht. Wir wollen
zeigen, daß N /G ist. Es ist sN = {s, sd, sd2 } und N s = {s, ds, dds}, und weil ds → sd2 ,
bzw. dds → dsd2 → sdddd → sd gilt, hat man sN = N s. Da G sechs Elemente hat,
kann N nur zwei Nebenklassen, nämlich N und sN haben. Somit ist N / G gezeigt.
¯
Nun hat G/N genau 2 Elemente, I¯ und s̄ und es gilt s̄s̄ → I.
2.2.4
Halbgruppen mit Kürzungseigenschaft und Erweiterung zu Gruppe
von Quotienten
Die Konstruktion der ganzen Zahlen aus den natürlichen und der Brüche aus den ganzen
Zahlen (ungleich Null) haben eine Gemeinsamkeit, nämlich im ersten Fall N mit der Addition,
im zweiten Z \ {0} als Halbruppe mit Kürzungseigenschaft zu einer Gruppe zu erweitern:
Definition 66 (Kürzungseigenschaft in Halbgruppe) In einer Halbgruppe G gilt die
Links- bzw. Rechtskürzungseigenschaft, wenn aus ab = ac (bzw. ba = ca) stets b = c gefolgert
werden darf.
Beispiel 67 Als wichtigstes Beispiel nehme man das freie (kommutative) Monoid über einem
Alphabet X. Es hat sowohl die Links- als auch Rechtskürzungseigenschaft. Insbesondere hat
N bezüglich der Addition (als freies Monoid über dem Alphabet {1}) diese Eigenschaft.
Natürlich hat jede Gruppe die Rechts- und Linkskürungseigenschaft.
Weiters hat N bezüglich der Multiplikation die (Links)kürzungseigenschaft.
Anmerkung 68 (Erweitern von ’+’ zu ’-’ bzw ’×’ zu ’/’ in kürzbarer Halbgruppe) Es sei (G, ·) eine kommutative Halbgruppe mit Kürzungseigenschaft. Dann gibt
es eine Gruppe G̃ und einen injektiven Halbgruppenhomomorphismus φ : G → G̃. Ist G
ein Monoid, so kann G̃ als Menge aller “Brüche” der Form (g, h) mit g, h ∈ G angesehen
werden, wobei (g, h) ≡ (g 0 , h0 ) gesetzt wird, falls gh0 = g 0 h ist21 .
In additiver Schreibweise hätte man (g, h) ≡ (g 0 , h0 ) genau dann, wenn g + h0 = g 0 + h.
20
Definition 40
2.3. Ringe und Körper
67
Beweis: Zunächst kann man “künstlich” ein Einselement “hinzufügen”. Es sei e 6∈ G ein Element (z.B. die Menge {G}), so erweitert man die Operation in G, indem man eg = ge = g
für alle g ∈ G und ee = e definiert. Danach hat G ∪ {e} immer noch die entsprechenden
Kürzungseigenschaften. Ab nun nehmen wir an, daß G bereits ein kommutatives Monoid mit
Kürzungseigenschaft ist. Nun bildet man G × G und definiert (g, h)(g 0 , h0 ) := (gg 0 , hh0 ). Es
ist nicht schwierig einzusehen, daß G × G eine kommutative Halbgruppe mit Kürzungseigenschaft ist. Wir sagen (g, h) ≡ (g 0 , h0 ), falls gh0 = g 0 h gilt. Es liegt eine Kongruenzrelation vor:
aus (g, h) ≡ (g 0 , h0 ) und (u, v) ≡ (u0 , v 0 ) schließt man wegen gh0 = g 0 h und uv 0 = u0 v auf
(gu)(h0 v 0 ) = (g 0 u0 )(hv), also (gu, hv) ≡ (g 0 u0 , h0 v 0 ). Somit läßt sich die Quotientenhalbgruppe22 G̃ := G/ ≡ bilden. In G̃ gibt es ein Einselement, nämlich die Äquivalenzklasse von (e, e).
Ist (g, h) Repräsentant einer Klasse in G̃, so ist offenkundig (g, h)(h, g) = (gh, gh) ≡ (e, e),
also ist jedes Element in G̃ invertierbar, somit G̃ eine kommutative Gruppe. Wir definieren φ : G → G̃ durch φ(g) := (g, e) (man denke an Brüche g1 ). Die Homomorphieeigenschaft ist unmittelbar einzusehen. Wir wollen zeigen, daß φ injektiv ist und nehmen an, daß
φ(g) = (g, e) = (g 0 , e) = φ(g 0 ) gelte. Dann ist ge = g 0 e, also g = g 0 , also φ tatsächlich injektiv.
w.z.b.w.
Die nachstehende einfache Beobachtung spielt eine Rolle bei der Konstruktion endlicher
Körper (Anmerkung 83 und nicht nur dort):
Anmerkung 69 Eine endliche Halbgruppe mit Kürzungseigenschaft ist eine Gruppe.
Beweis: Sei G eine solche Halbgruppe. Zunächst zeigen wir, daß G ein Einselement hat. Sei
a ∈ G beliebig und k, r ∈ N minimal mit ak = ak+r . Dann ist offenbar ar ein Kandidat für
ein Einselement. Um dies nachzuweisen bilden wir ak b = ak ar b, und benützen die Kürzungseigenschaft, um b = ar b abzuleiten. Nun sei f : G → G durch f (x) := ax definiert. Es ist f
injektiv, weil f (x) = f (y) g.d.w. ax = ay, also x = y gilt. Da G endlich ist, ergibt sich aus
der Injektivität f (G) = G, also gibt es ein b ∈ G mit f (b) = 1, d.h. ab = 1.
w.z.b.w.
2.3
2.3.1
Ringe und Körper
Definitionen und Allgemeines
Ringen begegnet man zunächst in der Analysis: Ist z.B. I := [0, 1] das Intervall der Länge
1, und betrachtet man die stetigen Funktionen, so weiß man, daß man mit f, g stetig, die
0
Intuition: man denke an hg = hg 0 , was genau dann der Fall ist, wenn obige Bedingung gilt. In multiplikativer Notation verwendet man diese Konstruktion beim Übergang von den ganzen Zahlen zu den rationalen
Brüchen, m.a.W. Erweitern von Z \ {0}, um “Dividieren” zu können. Die Relation (g, h) ≡ (g 0 , h0 ) läuft genau
darauf hinaus, zu sagen, daß “g und h im gleichen Verhältnis wie g 0 und h0 stehen, also kommensurabel im
hellenistischen Sinn” sind. Siehe auch Unterabschnitt A.2.5.
In additiver Notation hat man den Übergang von N zu Z, um die Subtraktion einführen zu können, d.i.
(g, h) ≡ (g 0 , h0 ) bedeutet (nach vollbrachter Konstruktion) g − g 0 = h − h0 , also “Gleichheit der Differenz”.
22
Unglückliches Zusammentreffen verschiedener Bedeutungen des Wortes Quotient.
21
68
Algebra
Funktion f ± g, bzw. f g bilden kann (als (f ± g)(x) := f (x) ± g(x)), bzw.23 f g(x) := f (x)g(x)
und diese Funktionen auch wieder stetig sind. Allerdings kann man f /g nicht in der gleichen
Weise bilden (z.B. dann nicht, wenn g in I eine Nullstelle hat). Die stetigen Funktionen auf I,
die ganzen Zahlen Z, die Menge der n × n-Matrizen erlauben ein ‘+’ und ein ‘·’ und Regeln,
die dem Konzept des Ringes entsprechen:
Definition 70 Die Ringaxiome : Ein Ring (R, +, ·) ist eine Menge R zusammen mit zweistelligen Operationen + : R × R → R und · : R × R → R, derart daß die folgenden
Eigenschaften gelten:
• (R, +) ist eine kommutative Gruppe, die additive Gruppe
• (R, ·) ist eine Halbgruppe.
• Es gelten die Distributivgesetze:
(∀a, b, c ∈ R) a(b + c) = ab + ac ∧ (a + b)c = ac + bc.
Spezielle Elemente eines Ringes: Für weitere Eigenschaften, die Elemente im Ring
womöglich erfüllen, gibt es gesonderte Bezeichnungen:
Bedingung an a, b, c ∈ R
c = ab
0 = ab und a 6= 0 und b 6= 0
1 = ab
Benennung von a, b
a ist linker, b rechter Faktor oder Teiler von
c
a ist linker, b rechter Nullteiler.
a ist Links-, b Rechtseinheit
Im kommutativen Fall spricht man von Einheiten statt Linkseinheiten.
Ringe mit speziellen Eigenschaften:
Bedingung
(R, ·) ist Monoid
∀a, b ∈ R ab = 0 ⇒ a = 0 ∨ b = 0
R \{0} ist nullteilerfrei und kommutativ
R \ {0} ist bezüglich Multiplikation
eine Gruppe
R \ {0} ist bezüglich Multiplikation
eine kommutative Gruppe
Bezeichnung für R
R hat ein Einselement
R ist nullteilerfrei
R heißt Integritätsbereich oder -ring
R ist ein Schiefkörper
R ist ein Körper
Nullteilerfreie Ringe mit 1: Für weitere Eigenschaften, die ein solcher Ring oder seine
Elemente womöglich erfüllen, gibt es gesonderte Bezeichnungen:
23
Wie in Definition 29 angemerkt, würde man für die Komposition von f mit g, sofern sie definiert ist,
entsprechend g ◦ f schreiben.
2.3. Ringe und Körper
69
Bedingung an a, b, c, p ∈ R bzw. R
c = ab ⇒ a oder b ist Einheit
R kommutativ, p Teiler von ab impliziert stets p Teiler von a oder b
Jede Struktur auf
tieferem Niveau
“erbt” die Eigenschaften einer
höheren, mit ihr
durch eine Linie
verbundenen.
Bezeichnung
c ist irreduzibel oder unzerlegbar
p ist Primelement
lll
lll
l
l
lll
lll
hat 1 Element
R ist Ring
RRR
RRR
RRR
RRR
R
nullteilerfrei
lll
lll
l
l
ll
lll
kommutativ
lll
lll
l
l
ll
lll
Integritätsbereich
Schiefkörper X
XXXXX
QQQ
XXXXX
Q
XXXXX
QQQ
XXXXX
XXXXX QQQQQ
XXXXX Q
XX
Körper
Beispiel 71 Es gibt vielfältige Beispiele zu Ringen:
1. Es ist Z mit der üblichen Addition und Multiplikation ein Integritätsbereich mit Einselement. Die geraden Zahlen bilden einen Integritätsbereich ohne Einselement.
2. Q, R und C sind Körper.
3. Es sei
R := {
a b
c d
| a, b, c, d ∈ R}.
R mit der koordinatenweisen Addition von Matrizen und dem üblichen Matrizenmultiplizieren ist ein (nicht kommutativer) Ring mit Einselement. Die Matrizen
1 0
0 0
A :=
, B :=
0 0
1 0
ergeben als Produkt die Nullmatrix, also hat der Ring Nullteiler. Wir vermerken noch,
daß BA nicht die Nullmatrix ist.
Analoges gilt in Matrizenringen von n × n-Matrizen über einem beliebigen Körper,
sofern n > 1 ist.
4. Es sei, wie in der Einleitung, I = [0, 1] das Einheitsintervall und R die Menge der auf I
stetigen Funktionen mit Werten in R. Definiert, man wie üblich, (f + g)(x) := f (x) +
g(x) und f g(x) := f (x)g(x), so kann die übliche Aussage, daß “Punktweise Addition
(Subtraktion) sowie Multiplikation von auf I stetigen Funktionen eine stetige Funktion
ergibt” so ausgesprochen werden, daß R ein kommutativer Ring mit Einselement ist.
Hat R Nullteiler?
70
Algebra
Antwort: Es sei f (x) := 21 − x für 0 ≤ x ≤ 12 und f (x) := 0 für 12 ≤ x ≤ 1. (Skizze!).
Danach sei g(x) := f (1 − x). Es sind f und g beide stetig auf I. Da f g(x) = 0 für alle
x ∈ I ist, sind f und g Nullteiler.
5. (Quaternionenschiefkörper) R. Hamilton gelang es, die Konstruktion der komplexen
Zahlen als Paare reeller Zahlen zu verallgemeinern. Dabei ließ er das Kommutativgesetz
fallen und fand Rechenregeln für Paare von komplexen Zahlen (Überstreichen bedeutet
im folgenden Konjugation, also x + iy := x − iy):
∀a, b, a0 , b0 ∈ C : (a, b) + (a0 , b0 ) := (a + a0 , b + b0 )
(a, b)(a0 , b0 )
:= (aa0 − bb̄0 , ab0 + ā0 b).
Es stellt sich heraus, daß C×C mit dieser Addition und Multiplikation ein Schiefkörper
ist, allerdings – ohne mehr Theorie zu betreiben, ist der Nachweis eher “längere Rechnerei”. Der Schiefkörper ist als Hamiltonquaternionen bekannt.
Eine reelle Beschreibung des Quaternionenschiefkörpers bekommt man, indem man im
Polynomring R[i, j, k] ein Ideal mittels des sich als konfluent und noethersch erweisenden TES (jenes aus Beispiel 65 1.)
i2 → 1, j 2 → 1, k 2 → 1, k → ij, ki → −ik, kj → −jk, ji → −ij
definiert.
Ein Ergebnis der klassischen Algebra besagt, daß jeder endliche Schiefkörper ein Körper
ist.
6. Es sei (Zm , +) der Restklassenring (mod m). Addition und Multiplikation werden
wie in Z, jedoch danach durch Subtraktion von Vielfachen von m auf ein Ergebnis in
[0, m − 1] ausgeführt. Wie kann man der Zahl m anmerken, ob Zm Nullteiler hat?
Antwortfindung: Ist m = m1 m2 eine Faktorzerlegung, so gilt (mod m) die Gleichung
m̄1 m̄2 = 0̄. Hat umgekehrt m keine solche Zerlegung, so ist m eine Primzahl. Wäre
x̄ȳ = 0̄, so müßte definitionsgemäß ein k ∈ Z mit xy = km existieren. Da m prim ist,
müßte entweder x oder y von m geteilt werden, was bedeutet, daß x̄ oder ȳ Null ist.
Antwort: Zm ist genau dann ein Integritätsbereich, wenn m prim ist.
Ist für primes p der Ring Zp ein Körper?
Antwortfindung: Es ist Zp ein Integritätsbereich, wie soeben festgestellt worden ist.
Wenn man zeigen will, daß ein Körper vorliegt, ist es nötig zu beliebigem x ∈ Zp mit
x 6= 0 die Existenz eines Elements y ∈ Zp mit xy = 1 nachzuweisen. Dies folgt aber aus
Anmerkung 69, weil Zp \ {0} eine endliche Halbgruppe mit Kürzungseigenschaft, und
somit eine Gruppe ist.
Antwort: (Zp , +, ·) ist ein Körper. Er heißt Primkörper zur Charakteristik p.
Wie läßt sich der endliche Körper mit minimaler Anzahl von Elementen beschreiben?
Antwort: Es muß ein Nullelement, 0 und ein Einselement 1 geben. Daß es tatsächlich
einen Körper mit 2 Elementen gibt, zeigt Z2 mit der Addition und Multiplikation:
2.3. Ringe und Körper
71
0 · 0 = 0 · 1 = 0 und 1 · 1 = 1, sowie Addition modulo 2. Der so gebildete Körper IF2 hat
Charakteristik 2.
7. Gilt der binomische Lehrsatz in jedem kommutativen Ring?
Antwortfindung: Wenn ab = ba ist, so hat man (a + b)2 = (a + b)(a + b) = a2 + ab +
ba + b2 = a2 + 2ab + b2 . Danach vollständige Induktion, so wie man es für R oder Q
gewöhnt ist.
Die Beobachtung kann interessant sein: Wenn z.B. die quadratischen Matrizen (oder
allgemeiner – Operatoren) A und B kommutieren, so ist z.B. (A + B)3 = A3 + 3A2 B +
3AB 2 + B 3 .
Ist etwa ∆ eine k × k obere Dreiecksmatrix mit Hauptdiagonale Nullen und k ≤ n, so
ist
n
X
n j n−j
n
(λI + ∆) =
λ ∆ .
j
j=n−k
2.3.2
Abstrakte Polynomdefinition als Terme
Polynome sind grundsätzlich “Terme” in der Sprache der Ringe.
Wenn man den Ausdruck 5x2 y +
7z hinschreibt, so sind x, y, z syntaktische Variablen24 , 2, 7, + Terminalzeichen, und man hat den
rechts skizzierten Ableitungsbaum.
Fügt man an das Polynom noch
einen weiteren Term an, sodaß etwa
5x2 y + 7z + 3xyx entsteht, so ist der
Baum von der ganz rechts abgebildeten Gestalt. Hierin sind T1 , T2 und
T3 Terme in der Sprache des freien
Monoids {3, 5, 7, x, y, z}∗ .
+
@@
@@
~~
~
@@
~~
@@
~
~
~
· CC
· ??
??
 CC

CC
??


C
??

CC

z
·
7
5
B
|| BBB
|
BB
||
BB
||
B
||
x
·?
|
| ???
|
??
|
??
||
||
x
+
AA
AA
AA
AA
+
CC
CC
CC
CC
5T1
3T3
7T2
y
In diesem Sinne ist jedes Polynom eine mit Koeffizienten behaftete Summe von “Potenzprodukten”, wie es die übliche Schreibweise zum Ausdruck bringt. Diese Auffassung führt zu
folgenden zunächst sehr abstrakt klingenden Definitionen:
Definition 72 (Formale Potenzreihen und Polynome in nicht kommutierenden Variablen) Ist R ein Ring und X eine Menge, sowie X ∗ das freie Monoid25 , so heißt jede Funktion f : X ∗ → R (formale) Potenzreihe in den Variablen X. Der Träger von f ist die Menge
T (f ) := {m ∈ X ∗ | f (m) 6= 0}. Ist der Träger endlich, so heißt f Polynom.
24
Definition 43
72
Algebra
Ähnlich wie im Beispiel der Einleitung definiert man (f + g)(m) := f (m) + g(m). Die
Multiplikation wird jedoch in Anlehung an das Cauchyprodukt durch
X
f g(m) :=
f (k)g(l)
{k,l∈X ∗ |kl=m}
festgelegt. Man beachte, daß es nur endlich viele Möglichkeiten geben kann, ein festes Wort
im freien Monoid als Produkt von zwei Wörtern anzuschreiben. Daher ist die Menge {k, l ∈
X ∗ | kl = m} endlich.
∗
Mit diesen Definitionen wird RX zum Potenzreihenring (in den nichtkommutierenden
Variablen X). Die Potenzreihen mit endlichem Träger bilden den Ring der Polynome (in den
∗
Variablen X) – er wird mit RhXi bezeichnet. Es ist üblich, die Notation RhhXii := RX zu
verwenden, und jedes f formal als
X
fm m
m∈X ∗
anzuschreiben.
Addition und Multiplikation nehmen hiedurch die vertraute Form
X
X
X
fm m +
gm m =
(fm + gm )m
m∈X ∗
m∈X ∗
m∈X ∗
und

(
X
k∈X ∗
fk k)(
X
l∈X ∗
gl l) =
X

X

m∈X ∗
fk gl  m
{k,l∈X ∗ |kl=m}
an. Schließlich, wenn man die gleichen Konstruktionen mit dem freien kommutativen Monoid über X ausführt (jetzt dürfen alle Variablen kommutieren, vgl. die Konstruktion in
Beispiel 53 1.), so spricht man vom Ring der formalen Potenzreihen bzw. Polynomen in den
kommutierenden Variablen X und schreibt R[[X]] bzw. R[X].
Anmerkung 73 (Universelle Eigenschaft des Potenzreihenrings bzw. Polynomrings) Es gibt analog zur Diskussion in Beispiel 49,7 eine universelle Eigenschaft
von RhXi bzw. R[X]: Jede Abbildung f : X → S, wobei S ein Ring (bzw. ein kommutativer Ring) ist, hat eine eindeutige Erweiterung zu einem Homomorphismus f ; RhXi → S
(bzw. f : R[X] → S).
Das gilt, weil Polynome Terme sind, in die man “universell” einsetzen kann.
Beispiel 74 Hier einige Beispiele:
1. Bekanntlich läßt sich eine in einem Bereich analytische Funktion in eine Potenzreihe
P
(−1)i x2i+1
entwickeln, z.B. ist sin x = ∞
i=0 (2i+1)! . Die übliche Schreibweise wäre (in allgemei25
Definition 38
2.3. Ringe und Körper
73
P
i
ner Form) f (x) = ∞
i=0 ai x . In der obigen Auffassung wird das so ausgedrückt, daß
a : {x}∗ → R eine Funktion ist. Also wäre z.B. beim Sinus a(x3 ) = − 61 .
2. Es ist 2X + 3Y ∈ ZhX, Y i. Da X und Y nicht kommutieren, findet man (2X + 3Y )2 =
4X 2 + 6Y X + 6XY + 9Y 2 .
3. Erlaubt man im vorigen Beispiel XY = Y X, so rechnet man in Z[X, Y ] und es ergibt
sich 4X 2 + 12XY + 9Y 2 .
4. Jede an einem Punkt unendlich oft differenzierbare Funktion gibt Anlaß zur Definition
einer formalen Potenzreihe, nämlich, wenn f an 0 unendlich oft differenzierbar ist, so
ergibt sich eine formale Potenzreihe, in der x die Rolle einer Variablen spielt:
T (f ) :=
∞
X
f (i) (0)
i=0
i!
xi .
Man kann zwar hier keine Werte einsetzen (um z.B. f zu approximieren), das Rechnen
in formalen Potenzreihen kann jedoch nützliche Dienste beim Berechnen von Ableitungen höherer Ordnung leisten, sogar für in einer Umgebung von Null analytische
Funktionen:
Es seien f =
1
1−x
und g = cos x. Man berechne die 5.te Ableitung (f · g)(5) (0).
Antwortfindung: Cauchymultiplikation formaler Potenzreihen ergibt:
T (f g) = (1 + x + x2 + x3 + x4 + x5 + · · ·)(1 −
4
2
= · · · + x x24 − x3 x2 + x5 + · · ·
1
= · · · + 24
− 12 + 1 x5 + · · ·
x2
2
+
x4
24
+ · · ·)
Teile der Rechnung, die für den Term mit x5 unerheblich sind, wurden durch ‘· · ·’ angedeutet. Jetzt besinnt man sich auf die Taylorformel, der man entnimmt, daß der
Koeffizient von x5 im Taylorpolynom vom Grad 5 für eine beliebige 5 mal an 0 diffe(5)
(5)
renzierbare Funktion h von der Form h 5!(0) ist, und findet (f ·g)5! (0) = 13
24 .
Antwort: (f · g)(5) (0) =
2.3.3
13×5!
24
= 65.
Ringe von Quotienten in einem Integritätsbereich.
Der Übergang von den ganzen Zahlen zu den rationalen, aber auch von den Polynomen zu
den rationalen Funktionen gehorcht einem allgemeinen Schema, das jetzt erläutert werden
soll.
Ist R ein Integritätsbereich, so hat R \ {0} die Kürzungseigenschaft (Definition 66) und
man kann die Konstruktion aus Anmerkung 68 dazu benützen, um eine Gruppe S̃ und eine
Injektion φ : R \ {0} → S̃ zu definieren. Erklärt man noch (0, 1) ≡ (0, r) für alle r 6= 0, so
läßt sich eine Addition durch
(r, s) ⊕ (r0 , s0 ) := (rs0 + r0 s, ss0 )
74
Algebra
definieren, sodaß R̃ := S̃ ∪ {(0, 1)} zu einem Ring wird.
Als Beispiel, daß das alles funktioniert, zeigen wir, daß ⊕ wohldefiniert ist: Ist nämlich
(r, s) ≡ (r1 , s1 ) und (r0 , s0 ) ≡ (r10 , s01 ), so hat man die Beziehungen rs1 = r1 s und r0 s01 =
r10 s0 , sodaß man (rs0 + r0 s, ss0 ) ≡ (r1 s01 + r10 s1 , s1 s01 ) nachweisen muß, also die Gleichung
(rs0 +r0 s)s1 s01 = (r1 s01 +r10 s1 )ss0 aus den genannten Beziehungen zu folgern sind, eine harmlose
Rechenübung. Ähnlich weist man die Gültigkeit der Rechengesetze im Ring26 R̃ nach.
Da, wie in Anmerkung 68 gezeigt worden ist, φ eine Injektion von R in R̃ veranlaßt, und
S̃ = R̃ \ {(0, 1)} eine Gruppe ist, wird R̃ zu einem Körper. Er heißt Quotientenkörper27 des
Integritätsbereichs R.
Es ist üblich, statt (r, s) die Bruchschreibweise rs zu benützen, wobei r Zähler und s Nenner des Bruches rs ist. In dieser Schreibweise gelten die aus dem Schulunterricht geläufigen
Rechenregeln für Brüche (= Quotienten):
a a0
+ 0
b
b
a a0
b b0
=
=
ab0 + a0 b
bb0
aa
bb0
Beispiel 75 (Quotientenkörper)
1. Geht man von R := Z aus, so ergibt sich der Körper der rationalen Zahlen Q.
2. Geht man von R := k[x] (dem Polynomring in einer Variablen mit Koeffizienten im
Körper k) aus, so bekommt man den Körper k(x) der rationalen Funktionen28 über k.
3. Geht man von R := k[X] (dem Polynomring in den kommutierenden Variablen X mit
Koeffizienten im Körper k) aus, so bekommt man den Körper k(X) der über k rationalen
Funktionen.
2.3.4
Kongruenzen in kommutativen Ringen mit Einselement, Ideale
Der elementare Begriff der Kongruenz von ganzen Zahlen, nämlich a ≡ b (mod m), falls
a − b durch m teilbar ist, erfüllt die erste der nachstehenden Eigenschaften:
Definition 76 Es sei R ein kommutativer Ring mit Einselement.
Kongruenzrelation ≡ auf R: ist eine Äquivalenzrelation, die zusätzlich
(∀r, r0 , s, s0 )(r ≡ r0 ) ∧ (s ≡ s0 ) ⇒ (r + s ≡ r0 + s0 ) ∧ (rs ≡ r0 s0 )
erfüllt.
26
Definition 70
Der Quotientenkörper ist kein Quotientenring im Sinne von Anmerkung 77, sondern ein Körper, dessen
Elemente formale Quotienten aus Ringelementen sind!
28
Es sind dies leider keine Funktionen, sonder eher Terme, auch wenn man sie per Gepflogenheit so nennt.
27
2.3. Ringe und Körper
75
Ideal: Ein Ideal J in R ist eine Teilring von R, für den mit r ∈ R und j ∈ J stetst rj und
jr beide in J liegen.
Ringhomomorphismus: f : R → S ist ein Ringhomomorphismus, wenn für alle a, b ∈
R stets f (a + b) = f (a) + f (b), f (ab) = f (a)f (b), und, im Falle der Existenz eines
Einselements in R auch S ein Einselement, nämlich f (1R ) hat.
Anmerkung 77 (Kongruenz – Homomorphismus – Ideal) Die Begriffe Ringkongruenz, Ideal und Homomorphismus sind in folgendem Sinne äquivalent:
1. Ist ≡ eine Ringkongruenz, so ist J := {r ∈ R | r ≡ 0} ein Ideal. Z.B., bei der
Kongruenzrelation “modulo m” in Z ist J die Menge aller Vielfachen von Z. Ähnlich
wie bei den Normalteilern kann man durch x̄ + ȳ := x + y und x̄ȳ := xy eine neue
Addition und Multiplikation auf der Menge der Äquivalenzklassen R/ ≡ definieren,
und es erweist sich R/ ≡ als ein Ring, den man üblicherweise mit R/J bezeichnet
und Quotientenring29 nennt. Im Beispiel erhält man Zm .
Die Abbildung, die jedem r ∈ R seine Äquivalenzklasse (genannt Kongruenzklasse)
zuordnet, ist ein Ringhomomorphismus.
2. Ist J ein Ideal, so soll r ≡J r0 gelten, wenn x−y ∈ J ist. Nun überlegt man sich ähnlich wie bei den Normalteilern (vgl. Definition 64), daß ≡J eine Kongruenzrelation
auf R ist, deren Ideal geradewegs J ist.
3. Nun sei f : R → S ein Ringhomomorphismus. Dann ist f −1 (0) = {r ∈ R | f (r) = 0}
ein Ideal, der Kern von f .
Ist f eine Bijektion, so spricht man von einem Ringisomorphismus, bzw. Körperisomorphismus, wenn R ein Körper ist.
Schließlich erweist sich der Durchschnitt beliebig vieler Ideale als Ideal, sodaß es insbesondere ein kleinstes Ideal im Ring gibt, welches eine vorgegebene Teilmenge A des
Ringes enthält. Dieses Ideal nennt man das von A erzeugte Ideal und bezeichnet es mit
hAiR , bzw. mit hAi, falls klar ist, welcher Ring R gemeint ist.
Besteht A = {a} aus einem einzigen Element, so heißt hai ein Hauptideal. In der
Literatur, wie etwa in [1] oder [23], werden Hauptideale eher mit (a) bezeichnet.
Beispiel 78 Beispiele hiezu:
1. Wie lassen sich die Kongruenzrelationen auf Z beschreiben?
Antwortfindung: Man muß nach den Idealen J von Z Ausschau halten. Ist J 6= {0} ein
solches Ideal, so gibt es eine kleinste positive Zahl m in J. Ist k ∈ J positiv, so kann
29
Nicht mit Quotientenkörper – Abschnitt 2.3.3 – verwechseln.
76
Algebra
man durch Division mit Rest k in der Form k = ml + r mit 0 ≤ r < m darstellen. Weil
aber k und m in J liegen, ist das für r auch der Fall. Wegen der Minimalität von m ∈ J
muß r = 0 sein.
Antwort: Jedes Ideal in Z besteht aus Vielfachen einer festen Zahl.
2. Wie lassen sich die Kongruenzrelationen auf k[x], mit k ein Körper, beschreiben?
Antwortfindung: Man muß nach Idealen in k[x] Ausschau halten. Ist J 6= {0} ein solches
Ideal, so gibt es ein Polynom m in J von kleinstem Grad. Ist nun p ∈ J, so kann mittels
Division mit Rest für Polynome eine Darstellung p = ml + r gefunden werden, wobei
r entweder Null ist, oder kleineren Grad als m hat. Da p ∈ J und m ∈ J, ist auch
p − ml ∈ J, also r ∈ J. Allerdings hat r kleineren Grad, falls es nicht Null wäre.
Dementsprechend kann nur r = 0 gelten.
Antwort: Zu jedem Ideal in k[x] gibt es ein Polynom m, sodaß alle Polynome im Ideal
von der Form km für ein k ∈ k[x] sind.
Gibt es ein konfluentes, antisymmetrisches und noethersches TES, welches die durch J
bestimmte Kongruenzrelation nach sich zieht?
Antwort: Ist m = xk + m0 mit m0 = 0 oder kleinerem Grad als k ein Polynom kleinsten
Grades in J, so definiert man xk → −m0 . (das läuft auf Polynomdivision durch m mit
Rest hinaus).
3. Wie lassen sich Ideale in einem euklidischen Ring beschreiben?
Antwortfindung: Sei {0} =
6 J ein Ideal und a ∈ J ein Element mit minimalem Wert für
θ(a). Dann gibt es für beliebiges j ∈ J Elemente q, r ∈ R mit j = aq + r. Es ist wegen
der Idealeigenschaft auch r ∈ J und wäre r 6= 0, so könnte man θ(r) < θ(a) erreichen,
ein Widerspruch. Somit ist r = 0 und j = qa.
Antwort: Jedes Ideal ist ein Hauptideal.
Definition 79 (Hauptidealring) Ein Integritätsbereich R, in dem jedes Ideal Hauptideal
ist, heißt Hauptidealring.
Anmerkung 80 Wegen Beispiel 78 3. ist jeder euklidische Ring ein Hauptidealring.
Der Ring {2k | k ∈ Z} ist Hauptidealring, jedoch nicht euklidisch, weil er kein 1-Element
besitzt.
2.3.5
Kommutativer Polynomring, Algebraische Körpererweiterung
Wir wollen (sehr kurz) auf Polynomfaktorisierung in k[x] eingehen, sowie auf die Konstruktion
von algebraischen Erweiterungskörpern von k.
2.3. Ringe und Körper
77
Anmerkung 81 Ist k ein Körper und f ∈ k[x] irreduzibel, so ist K := k[x]/hf i ein
Körper, eine sogenannte algebraische Körpererweiterung. Die Zuordnung c 7→ cx0 ergibt
eine Injektion von k in K. Weiters ist K ein endlichdimensionaler k-Vektorraum mit einer
Basis
{1, x̄, . . . , x̄n−1 }
wobei n der Grad von f ist.
Ist f = xn + r mit r = 0 oder r vom Grad n − 1, so läßt sich durch xn → −r ein
konfluentes, noethersches, antisymmetrisches TES im Sinne von Anmerkung 41 festlegen, welches die Menge der Polynome vom Grad höchstens n − 1 zusammen mit dem
Nullpolynom zu einem Repräsentantensystem von k[x]/hf i macht.
Beweis: Zunächst behaupten wir, daß K ein Integritätsbereich ist. Angenommen āb̄ = 0̄.
Dann gibt es Polynome a, b, c mit ab = cf . Wegen Anmerkung 260 ist f ein Teiler von a oder
b, also o.B.d.A. kann man die Existenz von d ∈ k[x] mit a = f d annehmen. Dann ist ā = 0̄,
somit K nullteilerfrei.
Es genügt, für jedes ā 6= 0̄ ein Inverses in K zu finden, m.a.W. die diophantische Gleichung
ax + bf = 1 in k[x] als lösbar nachzuweisen. Da f irreduzibel und a 6∈ hf i ist, sind a
und f relativ prim, sodaß (etwa mittels erweitertem euklidischem Kettenalgorithmus, siehe
Unterabschnitt A.2.5) entsprechendes x und y gefunden werden können.
Schließlich ordnen wir jedem c ∈ k das konstante Polynom c und diesem seine Kongruenzklasse zu. Man sieht leicht ein, daß kein c in hf i liegen kann, somit k ∩ hf i = {0} gilt. Deshalb
kann k als Teilkörper von K aufgefaßt werden.
Angenommen, die angegebenen Elemente sind k-linear abhängig. Dann gibt es eine Relation
0=
n−1
X
ci x̄i .
i=0
Pn−1
xi
Dann gilt für das Polynom g := i=0 ci die Beziehung ḡ = 0̄, also g ∈ hf i. Somit ist g
zerlegbar als g = f a, und weil f irreduzibel ist, muß es ein Teiler von g sein. Das geht jedoch
nicht, weil g kleineren Grad hat. Ein Widerspruch. w.z.b.w.
Beispiel 82 (Beispiele zu algebraischen Körpererweiterungen u.A.) :
1. Es sei R[x] der Polynomring mit reellen Koeffizienten und J jenes Ideal, das von x2 + 1
erzeugt wird. Ist R[x]/J ein Körper?
Antwortfindung: Das TES ergibt x2 → −1. Somit kann jedes Element in R[x]/J durch
ein lineares Polynom in x beschrieben werden. Das Polynom x2 + 1 ist reell irreduzibel,
sodaß R[x]/hx2 + 1i ein Körper ist.
Die Multiplikation verläuft so:
(a + bx)(a0 + b0 x) = aa0 + (ab0 + a0 b)x + bb0 x2 → aa0 − bb0 + (ab0 + a0 b)x
√
d.i. man hat aus den reellen Zahlen C durch Adjunktion von −1 = x̄ konstruiert.
Antwort: R[x]/hx2 + 1i ist ein zu C isomorpher Körper.
78
Algebra
2. Kann ein Erweiterungskörper von Z7 mittels eines irreduziblen quadratischen Polynoms
gefunden werden? Ist der Erweiterungskörper auch endlich?
Antwort(findung): Auf gut Glück versuchen wir es mit f := x2 + 1. Es genügt, festzustellen, daß (±1)2 = 1, (±2)2 = 4 und (±3)2 ≡ 2 (mod 7) gilt, also f irreduzibel
über Z7 ist. Somit ist Z7 [x]/hx2 + 1i ein solcher Erweiterungskörper. Als Basis hat man
{1, x̄}, also hat der Körper 49 Elemente.
P
3. (Formales Differenzieren) Ist f ∈ R[x] so läßt sich f = j fj xj formal differenzieren
P
(siehe hiezu auch Anmerkung 262), indem man f 0 := j≥1 jfj xj−1 setzt.
Wie kann man
n−1
n(1 + x)
n
X
n k
x=
k
x
k
k=1
herleiten?
Pn
n k
Antwort: Man startet mit dem binomischen Lehrsatz:
(1 + x)n =
k=0 k x und
differenziert links und rechts, um n(1 + x)n−1 = k nk xk−1 zu finden. Links und rechts
mit x multiplizieren ergibt das Resultat.
Analog erhält man
2
n−2
n(n − 1)x (1 + x)
n−1
+ nx(x + 1)
=
n
X
k=1
n k
k
x
k
2
4. (Identitäten für die hypergeometrische Verteilung). Man beweise, daß für alle
M ,s und a in N
X 1 s a − s s
k a
=m
k
m
−
k
a
s
k
und
X
k
1 s
a−s
m (m − 1)(s − 1)
k a
=s
+1
k
m−k
a
a−1
s
2
gilt.
Antwortfindung. Beide Identitäten ergeben sich ähnlich wie im vorigen Beispiel aus
einer geschickten Interpretation der Cauchymultiplikation (siehe Definition
72). Wir
m
führen das hier nur für die erste Identität vor.P
Setzt man ak := kPk und bl := a−s
l ,
so würde P
die Cauchymultiplikation von f := k ak xk mit g := l bl xl ein Polynom
h = f g = t ct xt ergeben und
X
ct =
ak bt−k .
k
xm
Deshalb ist der Koeffizient von
geradewegs die gesuchte Summe. Aus dem vorigen
Beispiel erkennt man sofort f = s(1 + x)s−1 x und g = (1 + x)a−s , sodaß h = m(1 +
x)s+a−1 x ist. Somit ist cm = m s+a−1
der gesuchte Koeffizient. Division durch ka
m−1
ergibt die Behauptung.
2.3. Ringe und Körper
79
Für die zweite Identität findet man ähnlich f = s(s − 1)x2 (1 + x)s−2 + sx(1 + x)s−1 , g
ist das gleiche geblieben,
und h = f g = s(s − 1)x2 (1 + x)a−2 + sx(1 + x)a−1 . Demnach
a−2
a−1
+ s m−1
.
ergibt sich cm = 1a s(s − 1) m−2
(s)
2.3.6
Endliche Körper
Endliche Körpern spielen eine Rolle in der Kodierungstheorie. Dort möchte man wissen, wie
man in einem solchen Körper “rechnen” kann.
Anmerkung 83 (Fakten über endliche Körper) Folgendes kann über einen endlichen Körper F gesagt werden:
1. Jeder endliche Integritätsbereich (sieh Definition 70) ist ein Körper und es gibt
genau eine Primzahl p mit einem zu Zp isomorphen Teilkörper.
Für dieses p gilt px = x
| +x+
{z· · · + x} = 0 für alle x ∈ F . Weiters gilt
p
mal
(x + y)p = xp + y p .
2. Die Abbildung φ : F → F , definiert durch x 7→ xp ist ein Isomorphismus (genannt
Frobeniusautomorphismus).
n
3. Es gibt ein positives natürliches n, sodaß xp − x = 0 für alle x ∈ F gilt.
4. Ist n kleinstmöglich gewählt, so erweist sich die Menge der invertierbaren Elemente,
F \ {0} als zyklische Gruppe von der Ordnung30 pn − 1.
n
5. Es gibt ein in Zp [X] unzerlegbares Polynom g, ein Teiler von X p −1 −X, derart, daß
F als Ring isomorph zu Zp [X]/hgi ist. Ist g = xm + r, wobei r = 0 oder nur Terme
mit Grad ≤ m−1 enthält, so ist durch xm → −r ein konfluentes, antisymmetrisches
und noethersches TES im Sinne von Anmerkung 41 gegeben (weil algebraische
Erweiterung vorliegt, ganz genau so wie in Anmerkung 81), welches die Menge der
Polynome vom Grad kleiner als jener von g zusammen mit dem Nullpolynom zu
einem Repräsentantensystem von F = Zp [X]/hgi in Zp [X] macht, wobei es bequem
ist, statt ‘X’ den Buchstaben ‘x’ zu verwenden.
Insbesondere gibt es bis auf Isomorphie nur einen Körper mit q := pn Elementen, der
gewöhnlich als IFq oder auch als GF(q) (für Galoisfeld) bezeichnet wird. Die Primzahl p
heißt Charakteristik von IFq , im Zeichen p = charIFq .
Zu vermerken ist auch, daß IFp = Zp , sodaß die multiplikative Gruppe {1, . . . , p − 1}
zyklisch ist.
30
Definition 46
80
Algebra
Beweis:
1. Der Nachweis geht genauso wie im 2.ten Teil von Beispiel 71 6. Der Teilkörper besteht
aus allen Elementen der Form k · 1F := 1F + 1F + · · · + 1F mit k = 0, 1, . . . , p − 1
|
{z
}
k
mal
und 1F das Einselement in F . Wenn nun x ∈ F ist, so hat man px = x
· · + x} =
| + ·{z
p
mal
x (1 + · · · + 1) = x · 0 = 0, wie behauptet.
{z
}
|
p
mal
Um (x + y)p = xp + y p zu zeigen, bemerken wir zunächst, daß k! für 0 ≤ k ≤ p − 1
in Zp kein Nullteiler
(keiner der Faktoren ist es) ist. Deshalb ist x := k!1F ∈ F \
{0} und somit kp x = p!1F = 0 für 1 ≤ k ≤ p − 1. Danach ergibt der binomische
Lehrsatz31 Behauptung. Ist F ein endlicher Integritätsbereich, so ist F \{0} eine endliche
Halbgruppe mit Kürzungseigenschaft. Deshalb ist sie wegen Anmerkung 68 eine Gruppe
und somit F ein Körper.
2. Die Abbildung φ : F → F , die durch φ(x) := xp definiert ist, ist wegen 1. ein Homomorphismus. Ihr Kern ist trivial, weil xp = 0 natürlich x = 0 zur Folge hat, also ist sie
eine Bijektion.
3. Da F endlich ist, ist die von φ erzeugte zyklische Halbgruppe endlich. Es gilt die
Kürzungseigenschaft, weil φ ein Isomorphismus ist. Demnach ist wegen Anmerkung
68 hφi eine endliche Gruppe. Sei n die Ordnung von φ. Umformuliert heißt das, daß
n
(∀x ∈ F ) xp = x
gilt.
4. Es ist F ein IFp -Vektorraum. Deshalb besitzt er eine endliche Basis und hat daher die
Ordnung q := pk für ein passendes k ≥ 1. Somit ist die Ordnung der multiplikativen
Gruppe von F , d.i. |F \ {0}| genau q − 1, also genügen alle Elemente von F \ {0} der
Gleichung xq−1 = 1 wegen Anmerkung 62. Deshalb genügen alle x ∈ F der Gleichung
xq − x = 0. Dies ist gleichbedeutend mit φk (x) = x, und da die Ordnung von φ gleich
n ist, gilt k ≥ n. Wegen Anmerkung 68 und (xq − x)0 = −1 hat die Gleichung keine
mehrfachen Wurzeln, also genau die q Elemente von F als Nullstellen.
Andrerseits hat der Frobeniusautomorphismus die Ordnung n, was darauf hinausläuft,
n
daß jedes Element von F auch der Gleichung xp − x = 0 genügt. Da diese Gleichung
nicht mehr als pn Wurzeln haben kann, hat F höchstens pn Elemente, somit hat man
pn ≤ pk , also n ≤ k und daher ist n = k.
Nun wählen wir in F \ {0} ein Element f mit größtmöglicher Ordnung s und wir wollen
zeigen, daß s = q − 1 gilt. Es ist f q−1 = 1, also s ein Teiler von q − 1. Angenommen es
ist s < q − 1. Da das Polynom xs − 1 = 0 in F nicht mehr als s Wurzeln haben kann,
gibt es dann ein Element a ∈ F mit as − 1 6= 0. Dieses a hätte größere Ordnung im
Widerspruch zur Annahme über f . Somit ist F \ {0} zyklisch.
31
Vgl.Beispiel 71 7.
2.3. Ringe und Körper
81
Mit diesem Wissen ausgestattet, kann man grundsätzlich alle endlichen Körper konstruieren.
Beispiel 84 (Konstruktion eines Körpers mit 8 Elementen) Als Beispiel nehmen wir
p = 2 und n = 3, also genügen alle Elemente von F der Gleichung x8 − x = 0. Andrerseits
wissen wir, daß IF8 genau 8 Elemente hat. Deshalb muß IF8 von der Form IF8 = IF2 [x]/hx3 +
ax2 +bx+ci sein, wobei x3 +ax2 +bx+c keine Nullstellen in IF2 haben kann. Jetzt zerlegen wir
x8 − x = x(x7 − 1) = x(x − 1)(x6 + x5 + x4 + x3 + x2 + x + 1) = x(x − 1)(x3 + x2 + 1)(x3 + x + 1)
in über IF2 unzerlegbare Polynomfaktoren und erkennen Kandidaten für x3 +ax2 +bx+c. Nun
gehen wir genauso vor wie bei Beispiel 78 2., nämlich, wir bilden IF2 [x] und erzeugen eine
Kongruenz durch Vorgabe von x3 ≡ x + 1 (die andere Wahl, nämlich x3 ≡ x2 + 1 geht auch),
indem wir sie durch ein noethersches, antisymmetrisches und konfluentes TES, nämlich
x3 → x + 1
festlegen32 .
Wie multipliziert man z.B. (x2 + x + 1)(x + 1)?
Antwort: x3 + x2 + x + x2 + x + 1 = x3 + 1 → x + 1 + 1 = x.
Wie kann man
x+1
x2 +1
in der Form a + bx + cx2 anschreiben?
Antwortfindung: Wir wissen x+1 = (x2 +1)(a+bx+cx2 ) = ax2 +bx3 +cx4 +a+bx+cx2 →
(a + c)x2 + b(x + 1) + c(x2 + 1) + a = ax2 + cx + a + b. Koeffizientenvergleich ergibt a = 0,
b = c = 1. Eine andere Methode wäre mittels erweitertem euklidischem Algorithmus (siehe
Unterabschnitt A.2.5). Es ist üblich die Elemente von IF8 als Wörter der Länge 3 mit Buchstaben 0, 1 anzuschreiben, also z.B. 1 = 001, x = 010, x2 = 100. Dann ist z.B. x2 + 1 = 101
und x + 1 = 011, die Summe ist x2 + x = 110.
Man bestimme alle Potenzen von x
Antwort: Man findet ohne Mühe
x0
x1
x2
x3
x4
x5
x6
=
=
=
= x3 →
=
= x3 + x2 →
= x3 + x2 + x → x + 1 + x2 + x =
1
x
x2
x+1
x2 + x
x2 + x + 1
x2 + 1
Wie kann dies für Personen A und B zur Kommikation ohne Einsichtnahme dritter verwendet
werden?
Antwort: Die Personen A und B einigen sich auf den Körper IF8 . Nun nimmt A seine
Bitfolge, etwa 011, die er senden will. Sie entspricht 1 + x. Sein Kodiergerät multipliziert sie
mit x, bekommt x2 + x = 110 heraus und dieses Wort wird an B geschickt. Nun bekommt B
32
Anmerkung 41
82
Algebra
das Signal 110, welches x2 +x ist. Sein Gerät multipliziert es mit x2 +1, d.h. (x2 +x)(x2 +1) =
x4 + x3 + x2 + 1 = (x + 1)x3 + x2 + x → (x + 1)2 + x2 + x = x2 + 1 + x2 + x = 1 + x.
Einwand?
Ja, aber man kennt ja die Länge der Wörter! Ist ja nicht schwer, IF8 zu “erraten”. Dies
umgeht man, indem man Körper beliebiger Charakteristik p nimmt, deren Arithmetik implementiert, sodaß die Länge der Bitfolgen nicht unmittelbar etwas mit der Arithmetik des
Körpers zu tun hat.
Beispiel 85 (Zyklische Codes) Endliche Körper spielen eine wichtige Rolle in der Kodierungstheorie. Wir wollen dies für den Körper IF8 unter Zuhilfenahme der obigen Rechnungen
zeigen.
1. Zunächst haben wir (auch in Beispiel 263) die Zerlegung
x7 − 1 = (x3 + x + 1)(x3 + x2 + 1)(x + 1)
gefunden, wobei “−1 = 1” in IF2 schon berücksichtigt ist. Es sei g := (x3 +x2 +1)(x+1)
und h := (x3 + x + 1), sodaß insbesondere x7 − 1 = gh eine Faktorzerlegung ist.
2. Nun will Sender A eine Nachricht als Folge von 01-Folgen fester Länge n an Empfänger
B senden, allerdings muß er noch Extrainformation senden, sodaß B zumindest erkennen kann, ob er (bei gestörtem Empfang) einen typischen Nachrichtenblock von A
bekommt, oder eben doch etwas “Gestörtes”.
Sein Sendegerät interpretiert jede feste 01-Folge p als Polynom vom Grad höchstens
n − 1 mit Koeffizienten in IF2 (allgemeiner in IF2k ). Nun multipliziert sein Sendegerät
das Polynom p mit obigem g und reduziert es modulo x7 − 1, d.h. Benützung des TES
x7 → 1. In diesem Sinne wird z.B. das Wort 0111 als p := x2 + x + 1 interpretiert, ergibt
nach Multiplikation pg = (x2 + x + 1)(x3 + x2 + 1)(x + 1) = x6 + x5 + x2 + 1 und dieses
Polynom ist schon reduziert. Somit wird von A das Wort 1100101 an B gesendet.
3. Das Empfangsgerät von B bekommt nun im fehlerfreien Fall das Wort w = 1100101.
Die weitere Vorgangsweise ist grundsätzlich die, w wieder als Polynom x6 +x5 +x2 +1 zu
interpretieren und den Vorgang von As Gerät rückgängig zu machen, im vorliegenden
Fall also durch h zu dividieren. Man vermutet richtig, daß das immer dann geht, wenn
man sich auf höchstens quadratische Polynome beschränkt, also n = 3 wählt.
4. Um dies zu klären, gehen wir auf die nachstehenden Fragen ein:
Falls A beliebig lange 01-Folgen sendet, also der Grad n von p beliebig sein kann, welche
Art von Wörtern kommen bei B an?
Antwort: Im Quotientenring R := IF2 [x]/(x7 − 1) bedeutet Multiplizieren eines Polynoms q mit x und danach Reduzieren lediglich “Rotieren nach links” des Wortes,
z.B.:
Ist q = 1100100, also q = x6 + x5 + x2 so wäre xq = x7 + x6 + x3 → x6 + x3 + 1,
entspräche also 1001001.
2.3. Ringe und Körper
83
Somit ist mit jedem Wort q, das B empfangen kann, auch jedes “zyklisch permutierte”
Wort möglich. Deshalb der Name “Zyklischer Code” für die Menge aller dieser von B
empfangbaren Wörter. Man kann dies in der Tabelle auf der nächsten Seite sehen.
Wie kann B feststellen, ob die Nachricht q von der Form q = pg
(mod x7 − 1) ist?
Antwortfindung: Ist q = pg +r(x7 −1), so ergibt Multiplikation mit h wegen x7 −1 = gh
sofort qh = (p + r)(x7 − 1), also läßt es sich qh →∗ 0 reduzieren. Ist umgekehrt qh →∗ 0,
so gibt es ein Polynom s mit qh = s(x7 −1), also ist qh = sgh und wegen der eindeutigen
Faktorzerlegung in IF2 [x] bekommt man q = sh.
Antwort: Genau dann ist q von der Form q = ph
Polynom h heißt Kontrollpolynom.
(mod x7 − 1), wenn qh →∗ 0 ist. Das
Kann es vorkommen, daß pg = p0 g für verschiedene Wörter p 6= p0 , die A senden
möchte? Wenn ja, wie kann man eine Übersicht darüber bekommen?
Antwortfindung: Leider ja, z.B. wird das Wort g nach Multiplikation mit h zu gh =
x7 − 1 →∗ 0. Ist umgekehrt ph →∗ 0, so gibt es ein Polynom r mit ph = r(x7 − 1), und
demnach ist ph = rgh, also p = rg.
Antwort: Genau die Polynome im Hauptideal (g), d.i. von der Form gr mit einem
Polynom r werden als Nullpolynom gesendet. Genau die Polynome p0 = p + gr mit
einem Polynom r werden nach dem Senden als das Wort ph (mod x7 − 1) gesendet.
Unter welchen Umständen kann der von As Gerät getätigte Prozess von Bs Gerät
rückgängig gemacht werden?
Antwort: Offenbar genügt es, daß A sich auf Polynome vom Grad ≤ 2 beschränkt, dann
wird nach Multiplikation mit h höchstens ein Polynom vom Grad 6 daraus, das nach
Division durch h auf Bs Gerät das von A seinem Gerät zur Sendung übergebene Wort
ergibt. Das Beispiel q = x2 + x + 1 unter 2. zeigt das ganz deutlich.
Zusammenfassung: A sendet Wörter der Länge n = 3 (interpretierbar als Polynome vom
Grad ≤ 2), nachdem er sie mit h multipliziert hat. Danach checkt B das empfangene Wort
durch Multiplikation mit g und Reduzieren mod x7 − 1 und wenn das geht, dividiert er das
empfangene Wort durch g, um As Wort zu bekommen.
Der Vorteil der endlichen Körper IFq in gerader Charakteristik ist die schnelle Implementierbarkeit der Arithmetik. Das trifft auch auf die (zyklische) Polynomarithmetik zu.
Anmerkung zur Fehlererkennung (mehr dazu ist im Abschnitt über normierte lineare
Räume geplant, wo das thematisch besser hinpaßt):
Wenn man davon ausgehen darf, daß höchstens eine Stelle in einem gesendeten Wort falsch
ist, kann B das stets erkennen? Auch wenn 2 Fehler gemacht werden?
Antwortfindung: Betrachten wir die nachstehende Tabelle, in der zunächst das Polynom
von A, dann seine Deutung als Binärwort, danach das mit g multiplizierte Polynom, und
84
Algebra
schließlich das an B gesendete Binärwort steht.
0
1
x
x2
1+x
1 + x2
x + x2
1 + x + x2
000
001
010
100
010
011
110
111
0
x4 + x2 + x + 1
x5 + x3 + x2 + x
x6 + x4 + x3 + x2
x5 + x4 + x3 + 1
x6 + x3 + x + 1
x6 + x5 + x4 + x
x6 + x5 + x2 + 1
0000000
0010111
0101110
1011100
0111001
1101110
1110010
1100101
Die Minimalzahl an Stellen, an denen in der linken Spalte Binärwörter sich unterscheiden,
ist eins. Würde man solche Wörter senden, reicht ein falsches Bit, um es nicht von einem
anderen möglichen korrekten Wort zu unterscheiden.
Im rechten Teil hat sich die Minimalzahl der Stellen, an denen sich 2 Binärwörter unterscheiden vergrößert: Wörter, die sich vorher nur um eine Stelle unterscheiden, müssen sich
nach Multiplikation mit g = x4 + x2 + x + 1 an zumindest drei Stellen unterscheiden. In der
Tabelle ist das klar zu erkennen, je zwei Wörter in der rechten Spalte unterscheiden sich an
mindestens 3 Stellen.
Antwort: Deshalb können Wörter mit einem, sogar mit zwei Fehlern von B erkannt werden
(und notfalls nachgefragt werden).
Kapitel 3
Wahrscheinlichkeitstheorie
3.1
3.1.1
Empirische und mathematische Wahrscheinlichkeit – WMaße
Relative Häufigkeit und Wahrscheinlichkeit
Zunächst beschreiben wir in Definition 87 relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 86 werden jene
Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 89) und Laplace-Wahrscheinlichkeitsraum (Definition 90) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes
Wahrscheinlichkeitsraum in Definition 94.
Beispiel 86 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines
Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen:
Augenzahl
Prozentsatz
1
16.8%
2
17.3%
3
16.4%
4
16.7%
5
16.2%
6
16.6%
Fragen:
1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen
gerundet oder abgeschnitten wurde?
2. Kann die Tabelle stimmen?
3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen?
4. . . . eine ungerade Augenzahl geworfen?
5. . . . eine ungerade Augenzahl oder 4 geworfen?
6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen?
85
86
Wahrscheinlichkeitstheorie
7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞
geht, machen. Darf man erwarten, daß sie alle gegen 100
6 % streben?
Auch wenn im Beispiel ziemlich klar ist, was “Häufigkeit in Prozenten” bedeutet, bedarf
es einer formalen Definition.
Definition 87 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und
(ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient
hn (A) :=
Anzahl der i mit ωi in A
n
als relative Häufigkeit bezeichnet.
Die relativen Häufigkeiten in Beispiel 86 sind demnach
A
hn (A)
{1}
0.168
{2}
0.173
{3}
0.164
{4}
0.167
{5}
0.162
{6}
0.166
weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als
einelementige Menge angeschrieben ist und daß wir n nicht kennen1 !
Geht man davon aus, daß weder Würfel noch Unterlage “manipuliert” sind, so kann man
beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfes machen. Ein
weiterer Aspekt, der in den Fragen 3. 4. und 5. im Beispiel 86 auftritt, ist der, daß man sich
dafür interessiert, ob nach dem Wurf die Augenzahl x in einer Teilmenge A von Ω liegt.
Anmerkung 88 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als
Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des
Experiments nicht grundsätzlich vorherbestimmen zu können.
Jede Teilmenge A von Ω nennt man zufälliges Ereignis.
In Beispiel 86 ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment
und das Ereignis “die Augenzahl ist ungerade” drückt sich durch “das zufällige Experiment
zur Ermittlung von x ∈ Ω hat x ∈ A = {1, 3, 5} ergeben” aus. In Beispiel 86 ist es klar, daß die
relative Häufigkeit dafür, daß x sich in A befindet, die Summe der relativen Häufigkeiten der
einelementigen Teilmengen ist, weil man ja einfach “Prozente addiert”. Z.B. ist hn ({1, 3, 5}) =
16.8+16.4+16.2
= 0.168 + 0.164 + 0.162 = 0.494. Auf diese Art ist Frage 2 beantwortet und man
100
kann es mit Fragen 4–6 genauso machen – werden jedoch in Beispiel 92 etwas mehr Geschick
walten lassen.
1
Siehe jedoch Beispiel 264 und dort die Antwort auf Frage 1
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
87
Definition 89 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen
Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die die
Gesamtsumme fürPalle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A von
Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben.
In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein
endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A.
Definition 90 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) =
Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum.
Wir vermerken, daß dann stets P (A) = |A|
|Ω| .
1
|Ω|
für jedes
Beispiel 91 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 86. Danach legt man für jedes Elementarereignis “Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i”
mit P ({i}) := 16 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A|
|6| gegeben.
Die Antwort auf Frage 7 wird durch den in Anmerkung 134, dem Satz von GliwenkoCantelli gegeben werden. Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung
dafür, in welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende
Bernoulliexperiment (Beispiel 131) und der zentrale Grenzwertsatz (Anmerkung 133) bilden die Grundlage hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten
Satz statistische Testverfahren in Beispiel 145 1, die bestenfalls einen “Sicherheitsfaktor”
für das tatsächliche Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur
Einführung eines neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in Wtheoretischem Sinn untermauert bzw. widerlegt werden. Wenn es wissenschaftliche Methoden
ermöglichen, sollten statistische Ergebnisse (“eine signifikant große Zahl Patienten, die das
Mittel A eingenommen haben, melden gewisse Nebenwirkungen”) entsprechende fachspezifische (analytische) Untersuchungen (Medizin, Chemie, etc) nach ziehen.
In diesem Sinne sind die Ausführungen in Beispiel 91 eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 86. Würde z.B. die relative Häufigkeit für
das “Werfen einer 3” stark von 16 abweichen, so könnte man das als Hinweis auf “manipulierte
Würfel oder Unterlage” auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich
mittels statistischer Testverfahren (Unterabschnitt 4.1.1) entschieden wird.
Bei der Beantwortung der Fragen 3–6 aus Beispiel 86 zeigt es sich, daß man vorteilhaft
mittels Mengenoperationen, wie Durchschnitt, Vereiningung und Komplement “Rechnen”
kann:
Beispiel 92 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man
mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben.
88
Wahrscheinlichkeitstheorie
3. Es sind die geraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 89 hn ({1, 3, 5}) = 0.494 gefunden, also ergibt sich hn ({2, 4, 6} =
1 − 0.494 = 0.506. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition
89) gültige Formel P (A0 ) = 1 − P (A) benützt.
5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) +
16.7
66.1
P ({4}) = 49.4
100 + 100 = 100 .
Hiebei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) =
P (A) + P (B), falls A ∩ B = ∅.
6. Man kann das de Morgansche Mengengesetz A0 ∩ B 0 = (A ∪ B)0 für die Mengen A := {3}
und B := {4} und {5} ∪ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∪ ({3}0 ∩ {4}0 ) = {3, 4}0 , sodaß
sich P ({5} ∪ ({3}0 ∩ {4}0 )) = 1 − P ({3, 4}) = 1 − 0.164 − 0.167 = 0.669 ergibt. Zugegeben,
kaum ein Rechenvorteil!
Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch
unendliche W-Räume zu formulieren.
Beispiel 93 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip
und bleibt danach “zufällig” darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns
als vernachlässigbar angesehen werden, es somit als “Punkt” angesehen werden. Wir stellen
folgende Fragen, deren Präzisierung und Antwort in Beispiel 97 erfolgen soll.
1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des
Chips liegt?
2. . . . in einer der vier Ecken liegt?
3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt?
4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken
Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor
1
4 ) errichtet, usw.
Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die
Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt
X(x, y) aus Ω gewählt wird.
Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger
Ausführung des Experiments das Korn in A zu liegen kommt.
Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 87
sich zu
A(n)
hn ({X(x, y) ∈ A}) =
n
ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 91 die empirische W. approximativ gleich der mathematischen erhofft).
2
genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
89
Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A
durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche
von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses
“X(x, y) kommt zufällig in A zu liegen”.
Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt
man 14 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der
Bezeichnung Q(a) für ein Quadrat der Seitenlänge a
P (A) =
∞
X
i=1
X
∞
1
1
1
P Q
=
= .
2i
4i
3
i=1
Um die “Zufälligkeit” von Ereignissen mathematisch zu behandeln, konstruiert man (ein
mengentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse
Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei
oftmaliger Wiederholung ein und des selben Experiments erwartet man eine Annäherung
der relativen Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei der Diskussion des Bernoulliexperiments in Beispiel 131 deutlich zu machen
beabsichtigen. Hier die Forderungen an so ein Tripel (Ω, Σ, P ):
Definition 94 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden
Daten:
1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein
“zufälliger Versuch” besteht in der Auswahl eines Elementes x ∈ Ω.
2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse. Jede
Menge A ∈ Σ steht für das Ereignis “in zufälliger Weise wird ein x ∈ Ω bestimmt, und
dieses x liegt dann in A”. Die Menge Σ sei eine Σ-Algebra, d.h.:
(a) Ω gehört zu Σ.
(b) Wenn die Teilmenge A zu Σ gehört, so auch das Komplement A0 := Ω \ A (A0
heißt das zu A komplementäre Ereignis).
(c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung
∞
[
Ak = {x | ∃k mit x ∈ Ak }.
k=1
3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt:
(a) Es ist P (Ω) = 1.
(b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A).
90
Wahrscheinlichkeitstheorie
(c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiters je zwei Mengen
Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt:
P(
∞
[
k=1
Ak ) =
∞
X
P (Ak ).
k=1
Man sagt, P ist sigmaadditiv.
Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität,
d.h. P (A ∪ B) = P (A) + P (B).
Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie “Probability”
bzw. “Probabilität”) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintreten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne
von Definition 14) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt
das Maß diskret.
S
Die Mengenoperationen ∪, ∞
k=1 , ∩ und Komplementbildung werden im Sinne von logischen
Operationen mit den Ereignissen beschreibenden Klausen interpretiert:
Anmerkung 95
1. das Ereignis A als “x wird zufällig in Ω gezogen und befindet sich
in A”. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A
zu interpretieren.
2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis “A tritt nicht ein”.
3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt sowohl
A als auch B ein”.
Ist A ∩ B = ∅, so sagt man “Die Ereignisse A und B schließen einander aus.” oder
auch daß sie “unvereinbar” sind.
4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis “Es tritt
wenigstens A oder B ein”.
S
5. ∞
k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als “Wenigstens eines der Ereignisse Ak tritt ein”.
Es kann folgendes gezeigt werden:
Anmerkung 96 In einem diskreten W-Raum mit der abzählbarenSTeilmenge A, welche
P (A) = 1 erfüllt, muß offenbar P (A0 ) P
= 0 sein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen,
daß jeder Punkt a ∈ A positives Maß hat.
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
91
Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 89, und Σ die
Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von
Definition 94.
Beispiel 97 Es sollen Antworten zu den in Beispiel 93 gestellten Fragen gegeben werden.
Als Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ R×R | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus “berechenbaren Flächen”
bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun
wird im Rahmen der Maßtheorie (siehe z.B. [16]) gezeigt, daß diese Rechtecke durch iteriertes
Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf
eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des
Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der
Aufgabe wiederzufinden.
Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der
für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat:
1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null.
2. Geradenstücke haben Maß Null.
3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb
Q, so bleibt der Flächeninhalt erhalten.
4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) =
1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine
solche Menge heißt Jordanmeßbar), so gehört A zu Σ.
Mit diesem Wissen ausgestattet, ist P ({( 21 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte,
z.B. P ({(0, 0)}) = 0. Nun zur Vereinigung der aufeinandergestellten Quadrate. Zunächst sollte
man prüfen, ob die gesamte Figur in Q Platz hat. Dazu darf die Summe aller Seitenlängen
1 1
1 1
+ + ... =
2 4
21−
1
2
=1
nicht größer als 1 sein, was offenkundig der Fall ist.
Nun kommt noch eine Spitzfindigkeit: Die Quadrate haben keinen paarweise leeren Schnitt,
sondern scheiden einander in einem Geradenstück. Dieses hat Maß Null. Entfernen wir alle
solchen Schnitte (bestehend aus abzählbar vielen Geradenstücken, also insgesamt einer Menge
vom Maß Null), so bekommen wir eine Vereinigung “randloser” Quadrate, deren paarweise
1 1
Schnitte leer sind, und deren Inhalte eine geometrische Folge { 41 , 16
, 64 , . . .} bilden, sodaß die
Sigmaadditivität und die geometrische Summenformel auf P (A) = 14 1−1 1 = 13 führen.
4
92
Wahrscheinlichkeitstheorie
Laplaceraum
Kodieren Ω1 := {A, B}, Ω2 := {0, 1},
1 für OKAY
Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann
man Paare (A± , B ± ) versuchen, wobei
‘−’ kaputte Sicherung bedeute.
Zunächst hat man für Urne U1
den W-Raum Ω1
:=
{A
⊂
{w1 , w2 , s1 , s2 , s3 } | |A| = 2}
und für U2 hat man Ω2 := {A ⊂
{w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}.
Danach bildet man die disjunkte
Vereinigung Ω := Ω1 ∪ Ω2 , wobei
die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen,
1
× “15” bzw. für U2 12 × “16” sein
2
Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal
Zahl erscheint.
Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den
Rest. Wahrscheinlichkeit für Ausschuß
der Gesamtproduktion?
Sicherungen A und B fallen mit 3 bzw.
1 Prozent aus. Wahrscheinlichkeit für
Stromausfall?
Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln.
Wahrscheinlichkeit dafür, bei zufälliger
Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in
Händen zu haben.
2
—
Würfeln mit 2 Würfeln. Augensumme=9
2
Laplaceraum
Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl
muß.
Anmerkung
Text
P(Ω)
{1, 2, 3, 4, 5, 6} ×
{1, 2, 3, 4, 5, 6}
{K, Z}×{K, Z}×
{K, Z}
{(A+ , B − ),
(A− , B + ),
(A− , B − )}
{{wi , sj } | i =
1, 2 ∧ j = 1, 2, 3} ∪
{{w, bj } | j =
1, 2, 3, 4, 5}
P(Ω)
P(Ω)
P(Ω)
{(A+ , B + ),
(A+ , B − ),
(A− , B + ),
(A− , B − )}
siehe links
{(3, 6),(4, 5),
(5, 4), (6, 3)}
{Z} × {K, Z} ×
{K, Z} ∪ {K} ×
{Z} × {K, Z} ∪
{K} × {K} × {Z}
{(A, 0), (B, 0)}
A
{2, 3, 5}
Ω1 × Ω2
P(Ω)
Σ
P(Ω)
Ω
{1, 2, 3, 4, 5, 6}
+
2
8
=
+
1
9
1
8
=
7
8
1
6
1
5
2 × (5) + 2 × (6) =
2
2
· · · = 19
≈
0.317
60
97
P (A) = 1 − 100
×
99
=
·
·
·
=
100
0.0397, d.h. 3.97%
0.7 × 0.03 + 0.3 ×
0.01 = 0.024
4
8
4
36
1
2
P (A)
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
93
94
3.1.2
Wahrscheinlichkeitstheorie
Bedingte Wahrscheinlichkeit und Ereignisgraphen
Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum
(Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit
welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten
ist. Z.B. kann A das Ereignis “ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße
Ohren” und B das Ereignis “ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat
rote Augen”. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an,
unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen
im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen:
rote Augen
keine r. A.
weiße Ohren
10
30
40
keine w.O.
5
55
60
15
85
100
Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit
10
P (B|A) = 40
, weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen
15
60
Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100
, P (A) = 100
1
und es wäre P (B|A) mit der gleichen Motivation der Wert 4 entstanden. So kommt man zur
üblichen Definition der bedingten Wahrscheinlichkeit:
Definition 98 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 94) und A, B
meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl
P (B|A) :=
P (A ∩ B)
P (A)
heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme,
daß A tatsächlich eingetreten ist.
Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt:
Anmerkung 99 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B)
ein Wahrscheinlichkeitsmaß
(A)
definiert.
Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis
A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B
die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer
Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil,
dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen.
Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit
des Medikaments plausibel erscheinen läßt.
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
P (s|A)= 61
P (A)= 12hhh4A
hh
hhhh
h
h
A 123
h
¿ VV
1
B 202 VVVPVV(B)=
VVVV2
V*
0
95
1
12
P (w, A) = 16
P (r, A) = 14
s 023 P (s, A) =
P (w|A)= 62
```````````0 w 113
123 `````````
P (r|A)= 36
0 r 122
1
1
P (s|B)= 2
0 s 120 P (s, B) = 4
aaaaaaaaaaaaaaaa
a
a
a
a
B 220
P (r|B)= 21
1
/ r 210 P (r, B) = 4
Abbildung 3.1: Ereignisgraph zu Beispiel 100
Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und
andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete
graphische Darstellung wird gelegentlich als “Ereignisgraph” bezeichnet und verdeutlicht die
Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten
Wahrscheinlichkeit.
Beispiel 100 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze),
2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es
soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen
werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist?
Naiv betrachtet, könnte jemand sagen, “Alles in allem, das Verhältnis von s zu allen wähl3
baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10
= 0.3 sein.” Das ist nicht
einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel
zu erwischen lediglich 61 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 12 16 + 12 12 = 13 ≈ 0.33
zu nehmen.
Um das besser zu verstehen, verwenden wir die Zeichnung Fig. 3.1. Dort sieht man zunächst
die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte
enthält, richtig gelesen, eine Kodierung von Ω, nämlich
Ω = ({A, B} × {s, w, r}) \ {(B, r)}.
Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst
rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und “abzuzählen”. Insbesondere ist die in Definition 98 gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen,
wenn man die Wahrscheinlichkeiten jeweils hintereinanderliegender Pfeile multipliziert.
96
Wahrscheinlichkeitstheorie
3.1.3
Totale Wahrscheinlichkeit, Formel von Bayes
Anmerkung 101 Es sollen {Ai | i ∈ I} und B Ereignisse in eiem W-Raum sein, derart
daß die Ereignisse
Ai ∩ B einander ausschließen3 , d.h. daß Ai ∩ Aj ∩ B = ∅ für i 6= j gilt,
S
und B = i∈I Ai ∩B ist, also {Ai ∩B | i ∈ I} eine Partition von B im Sinn von Definition
12. Weiters soll P (Ai ) > 0 für alle i ∈ I sein. Dann gelten die folgenden Aussagen:
Satz von der totalen Wahrscheinlichkeit:
X
X
P (B) =
P (Ai ∩ B) =
P (B|Ai )P (Ai ),
i∈I
i∈I
wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition
94) und Benützen von Definition 98 dient.
Reziprozität: Ist P (B) > 0, so ist wegen Definition 98 stets
P (Ai |B)P (B) = P (B|Ai )P (Ai ).
Formel von Bayes: Es ist
P (Ai |B) =
P (Ai )P (B|Ai )
P (Ai )P (B|Ai )
,
=P
P (B)
i∈I P (B|Ai )P (Ai )
wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und
danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient.
Beispiel 102
• Wer mag, kann die Formeln anhand von Beispiel 100 nachvollziehen.
Sind z.B. A :=“Es wird eine Kugel in A gezogen”, B :=“Es wird eine Kugel in B
gezogen” und s :=“Es wird eine schwarze Kugel gezogen”, so findet man P (A) = 21 =
1
P (B) und P (s) = 12
+ 14 = 31 . Nun findet man, den Ereignisgraphen verwendend,
1
11 11
= P (s) = P (s|A)P (A) + P (s|B)P (B) =
+
.
3
62 22
Wie groß ist P (A|s) lt. Definition 98, danach gemäß Bayesscher Formel, und wie interpretiert man das?
1/12
1
Antwort: Es ergibt sich P (A|s) = P P(A∩s)
(s) = 1/12+1/4 = 4 . Interpretation: “Man geht
davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür,
daß sie aus Urne A stammt.” Die Bayessche Formel ergibt im Einklang:
P (A|s) =
3
P (s|A)P (A)
=
P (s|A)P (A) + P (s|B)P (B)
11
62
11
62
+
11
22
1
= .
4
In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j.
3.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
97
• Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit
unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion.
Wie groß ist die Wahrscheinlichkeit für
das Eintreten des jeweils aufgelisteten Ereignisses:
X Y Z
1. Ein Teil wird zufällig entnommen
% Anteil Gesamt- 30 50 20
und wurde von X produziert?
produktion
2. Ein Teil wird zufällig entnommen
%
Ausschuß
2
4
1
und das Teil ist fehlerhaft?
der
jeweiligen
3. Ein Teil aus den fehlerhaften wird
Produktion
zufällig entnommen und wurde von
X produziert?
Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen
produziert worden ist. F soll heißen “fehlerhaft”.
1. Aus der Tabelle entnimmt man P (X) =
30
100
= 0.3.
2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partititon von F , also ist P (F ) =
P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die
zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar,
2
= 0.02. Etwas formaler: P (F |X) = 0.02.
z.B. P(“Teil ist F und stammt von X”)= 100
Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt
man der Tabelle die anderen Werte und es ergibt sich
P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028,
also “nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.”
3. Hier wird nach P (X|F ) gefragt, weil man “von Haus aus” annimmmt, ein fehlerhaftes
Bauteil herauszugreifen und Schuldige sucht. Beim Anwenden von Definition 98 hätte
)
man P (X|F ) = P (X∩F
P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden
der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort
P (X|F ) =
P (F |X)P (X)
0.3 × 0.02
3
=
=
≈ 0.214.
P (F )
0.28
14
Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die
Bayessche Formel:
P (X|F ) =
=
P (F |X)P (X)
P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z)
0.3 × 0.02
0.006
=
≈ 0.214.
0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01
0.028
98
Wahrscheinlichkeitstheorie
3.1.4
Unabhängigkeit von Ereignissen
Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet
es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleichwahrscheinlich ist,
wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 99 herausstellt,
daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen
unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die
Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0
sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 98
sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch
einen Sinn. Deshalb ist folgende Definition üblich:
Definition 103 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt.
T
Eine
endliche
Folge
(A
|
i
∈
I)
von
Ereignissen
heißt
unabhängig,
falls
P
(
i
i∈J Ai ) =
Q
i∈J P (Ai ) für jede Teilmenge J von I gilt.
Anmerkung 104 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind
folgende Aussagen gleichwertig:
• A und B sind unabhängig,
• P (A|B) = P (A).
• P (B|A) = P (B)
• P (A ∩ B) = P (A)P (B).
• A0 und B sind unabhängig.
• A0 und B 0 sind unabhängig.
Insbesondere ist die Relation “A und B sind unabhängig” symmetrisch.
Anmerkung 105
• Im Beispiel mit den Hasen war A “weißohrig” und B “rotäugig”.
Die Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden,
40
15
40×15
3
war P (B|A) = 14 , P (A) = 100
, P (B) = 100
. Somit ist P (A)×P (B) = 100×100
= 20
< 14 .
A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß
“weißohrige Hasen eher zu Rotäugigkeit neigen”.
Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird
es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen,
medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen.
• Ein offenkundiges Beispiel für Unabhängigkeit von Ereignissen A und B beim Werfen
von Würfeln W1 und W2, sind A =“W1 zeigt eine 6” bzw. B = “W2 zeigt 1,3 oder
3.2. Zufallsvariable und Verteilungen
99
5”. Dann ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6}, B =
{1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis (i, j)
ist gleichwahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 90 vor.
Hieraus ergibt sich durch Abzählen von A, B und A ∩ B und anschließender Division
3
1
= 12
. Die in
durch |Ω| = 36, daß P (A) = 16 , P (B) = 36 = 12 und P (A ∩ B) = 36
Definition 98 geforderte Gleichung P (A∩B) = P (A)P (B) besteht. Die “Intuition”, daß
die beiden Würfelergebnisse “unabhängig” im Sinne von “einander nicht beeinflussen”
sind, spiegelt sich in der Erfülltheit dieser Gleichung wieder.
• Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis
A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B
darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6},
A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} ×
{1, 2, 3, 4, 5, 6}. Weiters ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten
9
5
1
11
3
3
1
= 27
ergibt sich sofort P (A) = 36 + 36
36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6
11
1
11
Die famose Gleichung besteht nicht, weil P (A)P (B) = 27
36 36 = 48 > 6 = P (A ∩ B) ist,
also sind die Ereignisse A und B nicht unabhängig.
3.2
3.2.1
Zufallsvariable und Verteilungen
Zufallsvariable
Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel:
Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts
auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition:
Definition 106 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → Rn eine
zufällige Variable oder auch stochastische Variable mit Werten im Rn .
Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann.
Ist f : Rn → Rm , so ist f X eine stochastische Funktionder Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt
meßbar, wenn jede Menge der Form
X −1 (B) = {ω ∈ Ω | X(ω) ∈ B}
für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X
meßbar.)
Beispiel 107 Einige konkrete Beispiele mögen der Anschauung dienen:
X /
Rn
CC
CC
f
f X CC! Ω CC
Rm
100
Wahrscheinlichkeitstheorie
1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen
mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S
ein Euro an B geht, und bei einem Wurf von 6 5 Euro von B an S gehen.
Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert
werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment
des Würfelns festgelegt. Die Zufallsvariable ist diskret.
2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ R2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb
von Ω und P der übliche “Flächeninhalt”. Man denke an das Werfen mit Darts (ohne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart
werden, daß Gewinn nach der Formel
p
x2 + y 2 < 10
10 falls
X(x, y) :=
−1.5 sonst
ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50
Cent kostet.
Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das
durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß
man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret.
3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es
gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an,
es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen
wird die tatsächliche Kantenlänge, sodaß man Ω = R und P das übliche Längenmaß
wählt.
Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt,
sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die
Zufallsvariable ist nicht diskret.
Sie kann als stochastische Funktion der Zufallsvarablen X(ω) = ω ∈ Ω := R angesehen
werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 .
4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante
unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt
annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10]×R.
Nun interessiert ihn die Zufallsvariable X : [0, 10] × R → R, nämlich
X(t, s) :=
2s
,
t2
weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf
man von zufälligen Ergebnissen ausgehen. X ist nicht diskret.
Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × R = Ω angesehen
werden, wobei f (s, t) = 2s
ist.
t2
3.2. Zufallsvariable und Verteilungen
101
5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gereade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an,
Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein
Intervall [a, b] (auch wenn die physikalische Deutung “Zeit” ist) zu verwenden.
Danach könnte man U : [0, T ] → R als Zufallsvariable ansehen, wenn man kleine
Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret.
Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U
R als
U (t)
stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht
x
mit einer Zufallsvariablen U (t).
man die Zusammensetzung der Funktion f (x) := R
6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ Rn ist, denn
dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen
werden. Diese Art Zufallsvariablen findet man in Fülle:
• Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → R ist die
geworfene Augenzahl.
• Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ R, wobei m und M ein vorgegebener
Minimal- bzw. Maximalwert sind. X : Ω → R ist die gemessene Wandstärke.
• Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → R2 .
Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 94
ist.
7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die
Funktion
1 falls ω ∈ A
X(ω) :=
0
sonst
betrachtet werden.
Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in R annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist
diskret.
3.2.2
Histogramm und Verteilung einer Zufallsvariablen
Histogramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe von 100 Personen ergibt
sich folgende Tabelle:
Größe
Zahl d Personen
36
2
37
3
38
5
39
10
40
25
41
30
42
20
43
4
44
1
102
Wahrscheinlichkeitstheorie
Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Histogramm
36 37 38 39 40 41 42 43 44
Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen
eine diskrete reelle Zufallsvariable X : Ω → R zu definieren, die lediglich der Werte der
gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, “wie
häufig” die Variable X einen vorgegebenen Wert annimmmt. Genauer gesprochen werden auf
der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser
Wert angenommen wird. Hier ist die entsprechende Definition:
Anmerkung 108 Für eine im Sinne von Definition 106 diskrete Zufallsvariable X : Ω →
Rn ist das Histogramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}.
Beispiel 109 Es sollen weitere Beispiele folgen:
1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen einer Würfels beschreibt, und
X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 90 vor. Das Histogramm
1 · · · · · ·
6
von X ist typisch für einen Laplaceraum.
2.
In 1. von Beispiel 107 wurde für 1
Euro gewürfelt und im Falle einer 6
ein Euro ausbezahlt. Somit nimmt
X genau die Werte −1 und 5 mit
den Wahrscheinlichkeiten 56 und 16
an. De facto kann man das Histogramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 65 und
P 0 (5) = 61 auffassen.
1
2
3
4
5
6
5
6
1
6
·
·
X = −1
X=5
/
3. Im 2.ten Beispiel mit den Darts in Beispiel 107 ist es ähnlich. Es ist Ω0 = {−1.5, 10}
2
10 2
und P 0 ({−1.5}) = 1 − 50
und P 0 ({10}) = 10
50 , das Histogramm sieht dem vorigen
sehr ähnlich.
3.2. Zufallsvariable und Verteilungen
103
4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die
Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → R, definiert durch X(ω1 , ω2 ) :=
ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns
das 10fache dieser Summe in Euro ist.
Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt?
Statt eines Histogramms mit 36 Werten für die Häufigkeiten der Elementarereignisse
reicht jetzt das nachstehende Histogramm, in welchem die Wahrscheinlichkeiten (in
Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden:
•
6/36
•
•
5/36
•
•
4/36
•
•
3/36
•
•
2/36
•
1/36 •
2
3
4
5
6
7
8
9
10
11
12
·
·
·
·
·
·
·
·
·
·
·
Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 :=
{1, 2, . . . , 12} mit dem W-Maß P 0 laut Histogramm ausreichend aufschlußreich (es ist
z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = P ({1, 6}) +
6
· · · + P ({(6, 1)} = 36
= 1 ). Damit kann man die obige Frage durch Addition der WahrP12 60
1
7
= 6×7
scheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1
36
2 36 = 12 ≈ 0.583 beantworten.
5. In 4. von Beispiel 107 will jemand die Gravitationskonstante unter der Annahme von
√
s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit,
√
nämlich 1, hat. Deshalb reicht es, das Histogramm als Punktmuster in der ( s, t)-Ebene
zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Histogramm
ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 148).
6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das “Treffermuster”, etwa wie in der Skizze zu Beginn von Abschnitt 4.3 über Kovarianz. Wiederum darf dieses Muster als Histogramm gedeutet
werden. Ähnlich wie im vorigen Beispiel gibt das Histogramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr “zieht”, bzw., wenn das Gewehr
eingeschossen ist, über die gezeigte Treffsicherheit des Schützen.
Statt eines Histogramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert
man folgende Tabelle aus der bereits gehabten
Größe
Zahl d Personen
<36
0
<37
2
<38
5
<39
10
<40
20
<41
45
<42
75
<43
95
< 44
99
< 45
100
104
Wahrscheinlichkeitstheorie
Diese Tabelle enthält genau die selbe Information wie das Histogramm, weil man ja alle
(relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X <
43}) = 0.95 − 0.75 = .20. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß
eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die
Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von
X ablesbar ist, deren Graph hier skizziert ist:
◦ •◦
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
•◦ •
36 37 38 39 40 41 42 43 44 45
Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch
FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person
zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert
von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Histogramm rekonstruieren kann.
Histogramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht
diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim
Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für
nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen
abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen
als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab
messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen
(wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen
eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine
gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der
3.2. Zufallsvariable und Verteilungen
105
Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, linksabgeschlossene, rechts offene
Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es
könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so
müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hiebei ist die
Verteilungsfunktion hilfreich:
Definition 110 1-dimensionale Verteilung(sfunktion) Ist X : Ω → R eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → R
meßbar in dem Sinne daß für alle Zahlen a, b ∈ R mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b}
zu Σ gehört, so ist Ihre Verteilung FX : R → [0, 1] durch
FX (x) := P ({ω | X(ω) < x})
festgelegt.
Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene
Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt,
wenn Ω eine Teilmenge des Rn und X stetig ist.
Die im “Schuhgrößenbeispiel” vorgestellte Verteilung(sfunktion) entspricht genau dieser
Definition.
Anmerkung 111 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX “einzusehen”.
1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0.
2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y).
3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h).
4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (R, B, Q), durch Q((a, b)) :=
F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B
konstruiert werden, daß F : R → [0, 1] als Zufallsvariable aufgefaßt werden kann
und F zudem die Verteilung dieser Zufallsvariablen ist.
Rb
Ist überdies F stetig differenzierbar mit F 0 = f , so ist4 P (a ≤ X < b) = a f (x) dx =
F (b) − F (a).
1
◦
•
◦
•
0
106
Wahrscheinlichkeitstheorie
Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur
kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim
bißchen Augenzukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln,
von der man erhofft, daß sie “Grenzwert” bei ständigem Verfeinern ist (etwa so ähnlich wie
beim Riemannintegral). Eine Präzisierung dieser Idee ist der Hauptsatz der Statistik von
Gliwenko-Cantelli (Anmerkung 134).
Auch die weiteren, öfter noch benötigten Eigenschaften 1-dimensionaler Verteilungsfunktionen sind am “Schuhgrößenbeispiel” nachvollziehbar.
Anmerkung 112 Ist F an den Intervallenden a, b stetig, so ergibt sich wegen [a, b) =
(−∞, b) \ (∞, a) die Rechnung: PX ([a, b)) = PX ((a, b)) = PX ((a, b]) = P ([a, b]) = F (b) −
F (a), also
P (a ≤ X < b) = F (b) − F (a).
Ist F an der Stelle b unstetig, so ergibt sich PX ([b, b]) = PX ({b}) = F (b+ ) − F (b),
insbesondere ist die Wahrscheinlichkeit, daß X den Wert b annimmt, positiv. Dann ergibt
sich wegen [a, b] = (−∞, b) \ (−∞, a) ∪ {b} die Rechnung PX ([a, b]) = PX ((−∞, b)) −
PX ((−∞, a)) + PX ({b}) = F (b) − F (a) + F (b+ ) − F (b) = P ({b}) + F (b) − F (a), also
P (a ≤ X ≤ b) = P ({b}) + F (b) − F (a).
Es wird sich in Anmerkung 119 herausstellen, daß zur Berechnung von Erwartungswert,
Varianz, Schiefe einer Zufallsvariablen X lediglich Kenntnis von deren Verteilung im
Rn erforderlich ist. Schließlich
P sollte nicht verschwiegen werden, daß für diskretes P die
Funktion F durch F (x) = {ω|X({ω})<x} P ({ω}) und für stetig differenzierbares F mit
Rx
Ableitung (Verteilungsdichte) f durch F (x) = −∞ f (t) dt darstellbar ist.
Ist insbesondere F
stetig, so läßt sich für alle Intervalle (a, b]
durch P ((a, b])
:=
F (b) − F (a) ein W-Maß auf R bestimmen.
1
γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
·
·
·_ _ _ _ _ _ _ _ _·
·
·
0
b = γ − Quantil
b
Ist F stetig und streng monoton, so ist die Gleichung α = F (z) für jedes γ ∈ (0, 1)
eindeutig lösbar. Die eindeutig bestimmte Lösung heißt γ-Quantil und wird üblicherweise
mit zγ bezeichnet. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., “die Wahrscheinlichkeit, daß X einen Wert < zγ annimmt, ist dann γ”. Ist γ = 21 = 0.5, so wird z0.5 als
4
als unmittelbare Folgerung des HS der Differential- u. Integralrechnung
3.2. Zufallsvariable und Verteilungen
107
Median, ist γ = 14 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe Unterabschnitt 4.2.2) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1
liegende Quantile zγ eine Rolle.
Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen.
Beispiel 113 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 129s folgen später:
1. In 1. von Beispiel 109, wo X : {1, 2, 3, 4, 5, 6} → R durch X(i) := i definiert war, ergibt
sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 61 , für
die ω < x ist, somit:
/
◦
1
◦ •
5/6
◦ •
4/6
◦ •
3/6

◦ •
2/6
0 falls x ≤ 0


 j
◦
•
1/6
j ∈ {1, 2, 3, 4, 5, 6}
6 falls
F (x) =
·o •· · · · · ·

∧ 0≤j−1<x≤j ≤6


1 2 3 4 5 6
1 sonst.
Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige “Sprunghöhe” ist 61 .
Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Histogramm abgelesen
werden.
2. Auch in 2. von Beispiel 109, wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest
man die Verteilungsfunktion direkt aus dem Histogramm ab:
◦
1
5
◦
•
6
F (x) =

 0
5
6

1
x ≤ −1
−1 < x ≤ 5
5<x
•
−1
·
5
3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen
0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω
zu wählen. Danach ist P ([α, β]) = β−α
b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies
vor Augen, erkennt man
108
Wahrscheinlichkeitstheorie
•
•
·
1
F (x) = P ({ω | ω < x}) =

 0
x−a
b−a

1
x<a
a≤x<b
b≤x
·
a
b
Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) =
zu “erraten”, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist.
Die vorliegende Verteilung heißt
Gleichverteilung auf [a, b], bzw.
Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein
Rechteck beschreibt:
1
b−a
◦
•
•
a
·
b
1
b−a
·
4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines
ebenen
Bereichs K in R2 (d.h. einer Teilmenge K des R2 ) mit Gesamtmasse M =
R
K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle
jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit
Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar
an Verfärbung der Oberfläche, sodaß ρ proportional zum “Grad” der Verfärbung sein
Rkann). Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) :=
B ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der
Sigmaalgebra aller in K enthaltenen Borelmengen.
Interpretation im W-theoretischen Sinn?
Antwort: Das Ereignis “in der Borelmenge B befindet sich ein Punkt des Trägers von ρ”
hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit
dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → R2 , definiert
durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ.
Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht
der “zufällige” Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen
will, wie sich z.B. die Kultur ausbreitet.
5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 129),
aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik
oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende
“akademischen Übungsbeispiel”:
Eine Zufallsvariable X : Ω → R habe die Verteilungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|,
falls |x| < 1 ist. Man berechne die Verteilungsfunktion FX (x), sowie den Median z0.5 und das
0.99-Quantil z0.99 .
? 1)
·?(0,
 ???

??

?

·
(−1, 0)
·
(1, 0)
·
3.2. Zufallsvariable und Verteilungen
109
Rx
Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist
Rx
Rx
FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 −
Rx
|t|) dt = −1 (1 + t) dt = 12 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1
Rx
R0
Rx
ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt =
R
x
1
1
2
2 + 0 (1 − t) dt = 2 (1 + 2x − x ).
Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich
in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische
Dichte, z.B. auch für N (0, σ), Beispiel 129). Um z0.99 zu bestimmen, muß man die
quadratische Gleichung 0.99 = 12 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage
kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung
ergibt z0.99 ≈ 0.8.
Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ)
interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 4.2.2) bei
gegebener “Irrtumswahrscheinlichkeit” α für ein symmetrisches Intervall (−, ) mit
P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches .
Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 12 (1−)2 ) = 2−2 .
√
Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese
√
Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt.
Welche W-theoretische Aussage läßt sich nun machen?
Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable
(definiert auf welchem Ω auch immer, jedoch Werten in R) einen Wert im Intervall
(−0.68, 0.68) annimmt, ist zumindest 0.9.
Im Falle nicht diskreter Zufallsvariabler X : Ω → Rn (etwa, wenn, wie in Beispiel 107
3., wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel
93, n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man
grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit
P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In })
ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so
wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler
Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader:
Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form
[a, b) = (−∞, b) \ (−∞, a)
geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende)
[a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)).
(Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum).
110
Wahrscheinlichkeitstheorie
Es ist [a, b) × [c, d) das mit ausgezogenen Linien umrandete Rechteck. Das strichlierte Rechteck ist
(−∞, a) × (−∞, d), das punktierte
(−∞, b) × (−∞, d), und der Durchschnitt der beiden Rechtecke ist
(−∞, a) × (−∞, c).
d_
c
_ _ _ _ _ _ _ _ _ _·
·
·a
·
·
·b
Definition 114 Ist X : Ω → Rn eine Rn -wertige Zufallsvariable, und für jedes n-Tupel
a = (a1 , . . . , an ) ∈ Rn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt
X ist Σ − B-meßbar), so nennt man
F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an })
= P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an })
= P (X −1 ((−∞, a1 ) × · · · × (−∞, an )))
die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist).
Es ist durchaus üblich, “in salopper Manier” P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben
und als “(Aufenthalts)wahrscheinlichkeit von X in B” zu interpretieren.
Ist (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable,
und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das
nebenstehende kommutative Diagramm.
B
X −1
/Σ
PX
! P
[0, 1]
Es erweist sich (R, B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 94 nachzuvollziehen
PX (R) =
S hat. Z.B. ist
S
−1
−1
P (X
S R) = P (Ω) = 1, bzw. sind Bi ∩ Bj = ∅ so ist PX ( i Bi ) = P (X ( i Bi )) =
P ( i X −1 (Bi )), und da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich weiters
X
X
=
P (X −1 (Bi )) =
PX (Bi ),
i
i
also ist PX sigmaadditiv.
Im Nachfolgenden sollen die wichtigsten Eigenschaften von Verteilungen (der Fall n = 1
ist hier miteingeschlossen) zusammengestellt werden:
Anmerkung 115 Es gelten folgende Fakten:
1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten
festgehalten werden.
2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden.
3.2. Zufallsvariable und Verteilungen
111
3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw.
+∞ geht.
4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) ×
· · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz
B ein W-Raum (Rn , B, Q) konstruiert werden, derart, daß F die Verteilung der
Zufallsvariablen F wird.
Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := Rn , Σ0 := B, die
Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf Rn induziertes Maß
zu bezeichnen (in Beispiel 109 ist PX = P 0 jedesmal!).
3.2.3
Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V
und Schiefe
Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden.
Im 1. von Beispiel 109 wurde X : {1, 2, 3, 4, 5, 6} → R mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5}
und X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend
oft spielt, so wird er “im mit Wahrscheinlichkeiten gewichteten Mittel”
X
5
1
X(ω)P ({ω}) = (−1) × + 5 × = 0
6
6
ω
Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die
“Luft ausgehen”). Diese Größe ist ein erstes Beispiel eines Erwartungswertes.
Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus
Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als “im Mittel gefundene” Ladung.
In Beispiel 107 5., dem Beispiel mit der Spannung würde der über den Zeitraum [0, T ]
RT
gemittelte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung zu halten, vorallem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist.
Im Falle Beispiel 113 3., wo mit gleicher Wahrscheinlichkeit eine Zufallsvariable die Werte
0 < a ≤ X(ω) = ω ≤ b annimmt, stellt
Z b
1
a+b
x dx = · · · =
b−a a
2
einen Mittelwert aller möglichen Werte von X(ω) dar.
Noch deutlicher ist in Beispiel 113 4., für die Schale mit den Mikroben
Z b
ω1
ρ(t) dt
ω2
a
als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden.
112
Wahrscheinlichkeitstheorie
Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation
des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der
klassischen Mechanik. Dieses Bild von “Massenverteilung” kann hilfreich sein, vorallem in
Abschnitt 4.3, wo es um die Kovarianz geht.
Beispiel 116 Es sei M eine Teilmenge im R3 . Zunächst soll diese Menge abzählbar sein und
aus Vektoren bestehen, d.h., M = {~xi | i ∈ N}. Angenommen, jedes ~xi ist die Position eines
Massenpunkts mit der Masse mi , derart daß
X
mi = 1
i
ist (Gesamtmasse = 1). Dann lernt man, daß
X
~ :=
S
mi ~xi
i
der Massenmittelpunkt des Systems ist.
In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein
Teilchen (=Massenpunkt) ω ∈ Ω := R3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi
aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß
X
P =
mi δ~xi
i
vor, und dann ist
~
~ = E(X),
S
~
wobei X(ω)
= ω die Identität auf R3 ist.
Nun sei M nicht notwendig
abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender
R
Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale
Z
~
~
S = E(X) =
~xρ(x, y, z) d(x, y, z).
M
Beispiel 117 (Verteilungsfunktion für Münzwurf)
Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1},
wobei P ({i}) := 21 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2),
bzw. F (1) − F (0) gedeutet werden?
Antwort: Man definiert eine Zufallsvariable X : Ω → R durch X({i}) := i. Nun ist
F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}|
= |{i∈Ω|i<a}|
. Dann ergibt sich folgende Skizze
2
2
und Rechnung:
3.2. Zufallsvariable und Verteilungen
113
O
−∞ o
/
◦
1
1
2
◦
0
•
•
/ +∞
0
1
F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist “man ein bißchen rechts von 1,
also sind alle Werte von i im Intervall”), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil
F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤
i < 1) = P ({0}) = 21 .
Im Eingangsbeispiel wurde
schon angedeutet, daß für eine Zufallsvariable X im endlichen
P
Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens
der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem
Wiederholen des Zufallsexperiments zu “erwarten” ist. E(X) läßt sich durch F ausdrücken,
nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) −
F (s)
X
E(X) =
s(F (s+ ) − F (s))
s∈S
und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß!
Definition 118 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω →
R eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren
Menge S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiters sei
Z ∞
X
|x|f (x) dx +
|s|P ({s}) < ∞,
−∞
s∈S
so heißt
Z
∞
µX = E(X) :=
xf (x) dx +
−∞
X
sP ({s})
s∈S
Erwartungswert von X. Es heißt f Verteilungsdichte.
Es heißt
V (X) := E((X − µX )2 )) = E((X − E(X)2 ) = E(X 2 ) − E(X)2
Varianz von X und
σX :=
p
V (X) =
p
E((X − E(X)2 )
114
Wahrscheinlichkeitstheorie
die Streuung oder Standardabweichung.
Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung.
Anschaulich ist der Erwartungswert ein “Mittelwert”, die Varianz besagt etwas, wie weit
die Werte der Zufallsvariablen vom Mittelwert weg “variieren”, und die Schiefe ist ein grobes
Maß, inwieweit die Verteilung nicht “symmetrisch” um µ gelegen ist.
Anmerkung 119 P 1. Im diskreten Fall ergibt sich die zu Beginn schon benützte Formel E(X) = x xP (X = x);
R∞
2. Wenn F stetig differenzierbar ist, ergibt sich E(X) = −∞ xf (x) dx.
3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ R, und existieren E(X) und E(Y ), so
auch E(aX + bY ) und es ist
E(aX + bY ) = aE(X) + bE(Y ). (“E ist ein lineares Funktional”)
4. E(X) ist charakterisiert als jene Zahl µ für die E(X − µ) = 0 gilt.
X
5. Hat man Ω
"
g
A
"
2 R , wobei A ⊆ R ist, so ist gX Zufallsvariable auf Ω und
gX
für diskretes X
E(gX) =
X
g(x)P (X = x) = EX (g).
x∈X
6. (Transformation für 1-dimensionales g)
Es sollen Zufallsvariable X, Y : Ω → R mit stückweise
stetigen Dichten fX , fY und g : R → R stetig differenzierbar und streng monoton sein, welche die Rolle
einer Transformation spielt, d.h. Y = gX. Weiters soll
w : R → R eine integrierbare Funktion bezüglich der
Dichte fX sein. Die Situation ist jene im Diagramm.
Als Konsequenz der Substitutionsregel für Integrale
ergeben sich folgende Beziehungen:
Für die Dichten gilt:
ΩA
AA
}}
}
AAY
}
}
AA
}
}~
g
/R
RA
}
AA
}}
AA
}}wg−1
w AA
}
~}
fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y))
X
R
1
g 0 (g −1 (y))
Für die Verteilungsfunktionen gilt:
FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y))
Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt:
EY (wg −1 ) = EX (w).
.
3.2. Zufallsvariable und Verteilungen
115
7. Ist X : Ω → Rk eine Zufallsvariable und g : Rk → R stetig differenzierbar, und ist
fX Dichte der Verteilung von X, so kann die Verteilung von gX durch
Z
FgX (z) =
fX (x) d(x)
{x|g(x)<z}
bestimmt werden.5
Beispiel 120 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7.
“Skalierungen” von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl.
Beispiel 129). Der Gebrauch von 7. wird ebenso dort für die Berechnung der Verteilung von
g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 140
und Beispiel 141) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem
Skriptum nicht vorgeführt werden soll.
1. Die Zufallsvariable X : Ω → R sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion
FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ).
Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit
ist FX (x) = 0, 12 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist
R∞
R1
3 1
EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 12 dx = 12 x3 = 13 .
−1
Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die
Verteilungsfunktion ergibt die Transformationformel für y = ax + b
fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a,
und weil y = g(x) = ax + b sofort g −1 (y) = y−b
a ergibt, bekommt man fY (y) =
y−b
1
1
a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a
ist. Ansonst ist fY (y) = 0.
Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) =
FX (g −1 (y)) = FX ( y−b
a ) zu bekommen. Die Fallunterscheidung in der Definition von FX
überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte
−a + b und a + b übergehen.
Deshalb ist FY (y) = 0, 12 ( y−b
a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b,
bzw. a + b ≤ y ist.
Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden.
Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen
Intervall [−1, 1] liefert keinen Beitrag):
Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie
(−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x).
5
g
−1
116
Wahrscheinlichkeitstheorie
EY (Y ) = EY (gg −1 Y ) = EX (gX) =
R1
−1 (ax
+ b) 12 dx =
1
2
R1
−1 b dx
= b.
Wer es nicht glaubt oder gerne “rechnet”, berechnet EY (y) auf direktem Weg:
R a+b 1
1 1 2 a+b
1
2
2
dy = 2a
EY (Y ) = −a+b y 2a
2 y −a+b = 4a ((a + b) − (a − b) ) = b.
2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 113 3. Welche
Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat
sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist?
Antwort(findung):
Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x.
Der Rest von R darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so
fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt
√
sich für die Dichten wegen g −1 (y) = y:
√
fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y,
also fY (y) =
1
√
2 y,
sofern y ∈ (0, 1] und Null sonst.
Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) =
√
FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche
y
Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy =
R y du
√
√
y.)
0 2 u =
Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der
Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge
√ √
{x ∈ R | x2 < z} = (− z, z). Nun ist fX = 1 genau auf [−1, 2] und man muß nur
mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall
√
leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!):
Z min{2,√z}
Z
√
√
fX (x) dx =
1 dx = min{2, z} − max{−1, − z},
FgX (z) =
√ √
√
(− z, z)
max{−1,− z}
was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in
geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung
die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 140) führt.
3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei
X : Ω → R definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 .
P
Antwortfindung: In Anmerkung 119 4., sei g(x) := x. Dann ist E(X) = x∈R xP (X =
x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p.
P
2
Analog, wenn g(x) = (x − p)2 , findet man E(gX) =
x∈R (x − p) P (X = x) =
(0 − p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist.
Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 125 nützlich sein.
3.2. Zufallsvariable und Verteilungen
3.2.4
117
Unabhängigkeit von Zufallsvariablen
Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte “voneinander unbeeinflußt” in zufälliger Weise annehmen. So etwa wird beim 5
maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen
Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, “hinterhältige”
Situation in Anmerkung 105. Um zu präzisen Begriffen zu gelangen, erinnern wir an die
Unabhängigkeit von Ereignissen A und B (Definition 103), nämlich P (A ∩ B) = P (A)P (B).
Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈
A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man
diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis “X < x”
und B das Ereignis “Y < y”, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß
F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und
B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus
F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben:
Definition 121 Die zufälligen Variablen X, Y : Ω → R heißen (stochastisch) unabhängig,
falls die Zufallsvariable (X, Y ) : Ω → R × R die Verteilungsfunktion F(X,Y ) (a, b) =
FX (a)FY (b) besitzt.
Die Folge Xi : Ω → R mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge
stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈
I) von der Form
Y
F(Xi |i∈I) (ai | i ∈ I) =
FXi (ai )
i∈I
sein.
Anmerkung 122 Sind A und B Ereignisse in Ω, so sind sie genau dann unabhängig,
wenn die Indikatorfunktionen stochastisch unabhängig sind.
Haben insbesondere FX und FY Dichten fX und fY , so ist zur Unabhängigkeit hinreichend und notwendig, daß F(X,Y ) als Dichte das Produkt f(X,Y ) (x, y) = fX (x)fY (y)
hat.
Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau
dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → RI
eine Dichte hat, und diese die Gleichung
Y
f(Xi |i∈I) ((xi | i ∈ I)) =
fXi (xi )
i∈I
erfüllt.
118
Wahrscheinlichkeitstheorie
Im Falle der Unabhängigkeit von X und Y ergibt sich
µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY
und hieraus nach ein wenig Rechnung
V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X).
Beispiel 123 Einige Beispiele hiezu
1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und
X, Y : Ω → R die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw.
Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 16 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 113 1. (jene für die Augenzahl mit
einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man,
1
indem man zunächst P ({(i, j) | (i, j) = (i
ergibt sich
P0 , j0 )})
P = 36 ermittelt. Danach
P
P
1
F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36
=
P
P
P
P
1
1
i<i0 6
j<j0 6 =
i<i0 P ({i}
j<j0 P ({j}) = FX (i0 )FY (j0 ).
2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) =
(5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 16 , sowie
1
1
P ({(i, j) | i+j = 2}) = 36
, also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216
6= 0
zu vermerken.
3. Beim Fehlergesetz (im Anschluß an Anmerkung 133) werden Annahmen über die Unabhängigkeit von Fehlern gemacht.
3.2.5
Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
Es sei (X, Y ) : Ω → R2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von
Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend
Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die
Verteilung von FX durch
X
P(X,Y ) ({(x, y)})
FX (x) =
y∈Y
im diskreten Fall und falls f(X,Y ) eine Dichte ist, ergibt sich
Z ∞
fX (x) =
f (x, y) dy = EY (f ).
−∞
Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ).
Man bezeichnet im diskreten Fall den Bruch
P(X,Y ) (x, y)
PX (Y | x) := P
x P(X,Y ) (x, y)
3.2. Zufallsvariable und Verteilungen
119
als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den
Wert x angenommen hat.
Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten
fY |x (x, y) :=
f(X,Y ) (x, y)
fX (x)
bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt.
Im diskreten Fall heißt
X
E(g(X, Y ) | x) :=
g(x, y)PX (Y | x)
x
und im Falle von Dichten
Z
∞
E(g(X, Y ) | x) :=
g(x, y)fY |x (x, y) dy
−∞
bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat.
Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen.
Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So
z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → R3 aus der gemeinsamen Verteilung
von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet
werden und entsprechend bedingte Erwartungswerte und -dichten.
Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an
stochastische Prozesse (vgl. Unterabschnitt A.3.1), etwa in der Signalverarbeitung.
3.2.6
Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen
In den nachstehenden Tabellen finden sich die Daten der entsprechenden Verteilungen. Hier
sollen einige Aufgaben das Auftreten von Zufallsvariablen mit den entsprechenden Verteilungen repräsentieren.
Beispiel 124 (Dirac- oder Punktverteilung) Es sei Ω ⊆ Rn und ~x0 ∈ Ω, sowie Σ :=
P(Ω), sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von
X(~
ω ) := ω
~ ist gegeben durch
0 ∃i xi < x0i
F (x1 , . . . , xn ) =
1 ∀i xi ≥ x0i
Ist gX mit g : A ⊆ Rn → R und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und
V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben.
Allgemeiner kann jedes diskrete Punktmaß im Rn in der Form
X
P =
ai δ~xi
i
120
Wahrscheinlichkeitstheorie
P
beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß.
Ist n = 1, so sind
X
µ=
xi ai
i
und
σ2 =
X
ai x2i − µ2 .
i
Beispiel 125 (Bernoulliverteilung6 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈ Σ
ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit q
bezeichnet werde. Wie in Beispiel 120 3. ausgeführt, ist die Verteilungsfunktion FX der
Zufallsvariablen X : Ω → R mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das
Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf R, d.h. 0 für
x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei
q := 1 − p ist.
Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem
solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ R mit FXi = FX
(gleiche Verteilung wie X). Hiedurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → Rn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede
Wahl der xi ∈ {0, 1}
P(
n
\
{ω | Xi (ω) = xi }) =
i=1
n
Y
P ({ω | Xi (ω) = xi }) = pk q n−k
i=1
wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft,
die Anzahl jener Indizes i, für die das Ereignis APim i.ten Versuch eintritt.
Nun sei S : Ω → R die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ N
genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist.
Dementsprechend ist
n k n−k
P ({ω | S(ω) = k}) =
p q
,
k
weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der
Indizes {1, . . . , n} zu wählen.
In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf R,
nämlich
n X
n k n−k
PS =
p q
δk .
k
k=0
Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes
X
X n pk q n−k = (p + q)n = (p + 1 − p)n = 1.
PS ({k}) =
k
k
6
Auch Binomialverteilung
k
3.2. Zufallsvariable und Verteilungen
121
Für den Erwartungswert von S findet man gemäß Anmerkung 119
P
E (S) = Px∈R S(x)P ({ω | S(ω) = x})
= Pnk=0 kP
= k})
({ω | S(ω)
n k
n−k
=
k
p
(1
−
p)
k
k
p k
P
n
n
= q
k
k≥1
q
k
und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter
Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden),
daß
µ = E (S) = np.
Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der
Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich
P
V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2
= nE(X 2 ) + n(n − 1)p2 − n2 p2
= np − np2 = npq.
Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n; p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und
Varianz pq
n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß
bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit
immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 131) und schließlich beim zentralen Grenzwertsatz
(Anmerkung 133) eingegangen werden (Grundlagen der Statistik)!.
Am Ende dieses Beispiels möge eine konkrete Situation stehen:
• Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5%
fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5
Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon
kaputt ist?
Man kennt die Wahrscheinlichkeit des Ereignisses A, “Sicherung kaputt”, sie ist p =
5
100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob
sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer
kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der
Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5
Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen
nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar.
5
Somit ist die Verteilung B(5; 100
) und somit ergibt sich als Wahrscheinlichkeit
5 0 5
1 − PS (0) = 1 −
p q = 1 − (1 − 0.05)5 ≈ 0.226,
0
was gar nicht so klein ist!
122
Wahrscheinlichkeitstheorie
Beispiel 126 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein (etwa für
das Auftreten eines Produktionsfehlers) und n groß ist (etwa die Anzahl der entnommenen
Stichproben), so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von
λ := np folgende Approximationen einer B(n; p)-verteilten Zufallsvariablen X gebräuchlich:
n k n−k
E(X) = λ, V (X) = λq, PX ({k}) =
p q
≈ λk e−λ .
k
Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene
für PX ({k}) etwas Erklärung. Es ist
PX ({k}) =
≈
≈
≈
Es erweist sich PX ({k}) :=
λk −λ
k! e
PX (R) =
als W-Maß auf R, weil jeder dieser Werte positiv und
X
k
n−j+1 k
λ n−k
j=1
jn λ 1 − n
−k
Qk 1 k
λ n
1 − nλ
j=1 j λ 1 − n
λk
λ n
k! 1 − n
λk −λ
.
k! e
Qk
PX ({k}) =
X λk
k
k!
ke−λ = eλ e−λ = 1
ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter
λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. “seltene Ereignisse”).Inwieweit die
Näherungen für B(n : p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [24]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung
durch die Poissonverteilung brauchbar zu approximieren.
Hier ein Beispiel aus [24]:
Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2
unbrauchbare vorzufinden?
1
dafür,
Antwort: Wie in Beispiel 125 kennt man die Fehlerwahrscheinlichkeit p = 1000
ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften
Werkstücke zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt
X die Anzahl der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden.
1
Dieses X ist B(500, 1000
) verteilt und somit ist
500
500
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 −
0.999499 ≈ 0.090128.
1
Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204.
3.2. Zufallsvariable und Verteilungen
123
Beispiel 127 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → R heißt
hypergeometrisch mit den Parametern m, N, n ∈ N mit m ≤ N und s ≤ N verteilt, im
Zeichen, H(m, N, s) wenn sie auf R das diskrete W-Maß
1 m N −n
PX ({k}) = N k
m−k
s
besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit,
aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit
bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩
M | = k zu finden.
Weiters sind Erwartungswert und Streuung:
X
s s N −m
s
1−
.
E(X) =
kPX ({k}) = M , V (X) = m
N
N
N
N −1
k
Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich
vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht.
Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die
W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M
gehören, also auch das besagte Merkmal haben.
Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem
jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die
Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition
90 zu machen (jedes Elementarereignis ist gleichwahrscheinlich), somit ist Σ die Menge aller
Teilmengen von Ω und
1
P ({S}) := |N | .
s
Wie lautet die Verteilung von X?
Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den
vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung
S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe
einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von
M 0 eindeutig festlegen, nämlich S = T ∪ U .
N
|
Für ein festes k-elementiges T gibt es |M
,
danach
für
k
0|
|M | = m
M
M0
die Wahl des Komplementanteils U |M
s−k Möglichkeiten ein k-elementiges S “zusammenzustellen”:
1
|M | |N | − |M |
.
PX ({k}) = |N |
k
s−k
s
|T | = k
|U | = s − k S
T =S∩M
U = S ∩ M0
124
Wahrscheinlichkeitstheorie
Konkretes Anwendungsbeispiel:
Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die
Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält?
Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der
500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge
der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe
S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren:
1
10 490
490 · 489 · · · · 441
≈ 0.34516.
= ··· =
PX ({0}) = 500
500
·
499
·
·
·
451
0
50
50
Anderes Beispiel:
Wie groß ist die Wahrscheinlichkeit, bei “6 aus 45” wenigstens eine Zahl richtig zu erraten?
Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen
(nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S
durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl
der “Richtigen” an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man
39 · · · 33
11951
1 6 39
=
=
.
PX ({0}) = 45
6
45 · · · 39
35260
0
6
Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit.
Beispiel 128 (Exponentialverteilung) Eine Variable X : Ω → R ist λ-exponentialverteilt,
wenn ihre Dichte für positive x durch fX (x) = λe−λx , mit λ > 0 und durch fX (x) = 0 für
x ≤ 0 gegeben ist. Man findet FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x.
Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 .
Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung (“exponentieller Zerfall”).
Beispiel 129 (Gaußverteilung) Eine Variable X : Ω → R ist normal- bzw. Gaußverteilt,
falls es µ ∈ R und ein positives σ gibt, sodaß PX eine W-dichte der Form
2
1 (x−µ)
1
fµ,σ (x) = √ e− 2 σ2
σ 2π
Rx
hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man
sagt auch, X ist N (µ, σ)-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt,
C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit
dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 133)
klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ
normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 125).
Es gelten folgende Aussagen:
3.2. Zufallsvariable und Verteilungen
125
1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) :=
R x − t2
√1
e 2 dt, die sowohl tabelliert vorliegt (z.B. in [2]), als auch numerisch in Stan2π −∞
dardpaketen zugänglich ist (etwa in den Statistikpaketen R7 oder S8 ). Der Nachweis
für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten
x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π))
Z ∞
2 Z
Z ∞ Z 2π
2 ∞
2
2
− 12 (x2 +y 2 )
− r2 − r2
− t2
dt =
e
d(x, y) =
r dφ dr = −2π e
e
e
= 2π,
R2
−∞
0
0
0
woraus Φ(∞) = 1 folgt.
2. Für eine N (µ, σ)-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 .
3. Ist X gemäß N (µ, σ)-verteilt, so ist die standardnormierte Zufallsvariable Z :=
gemäß N (0, 1)-verteilt, genauer,
x−µ
.
Φµ,σ (x) = Φ
σ
X−µ
σ
All dies folgt unmittelbar aus Anmerkung 119 6.
4. Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist aX gemäß N (aµ, aσ)-verteilt.
5. Sind die unabhängigen Zufallsvariablen
√ X, Y jeweils N (µ, σ) und N (ν, τ )-verteilt, so
ist X + Y verteilt gemäß N (µ + ν, σ 2 + τ 2 )9 . Allgemeiner ergibt sich hieraus (durch
Induktion) das Additionstheorem unabhängiger
N (µi , σi )-verteilter Zufallsvariabler
Pn
Pn Xi :
Ω → R, demzufolge
die
Dichte
von
X
gemäß
N
(µ,
σ)-verteilt
mit
µ
=
i=1 i
i=1 µi
Pn
2
2
und σ = i=1 σi ist.
6. Sind X, Y : Ω → R unabhängige Zufallsvariable mit N (µX , σX ) und N (µY , σY )1 −Q(x,y)
Normalverteilung, so ist die Zufallsvariable gemäß einer Dichte f(X,Y ) (x, y) := 2π
e
1
1
2
2
mit Q(x, y) = σ2 (x − µX ) + σ2 (y − µY ) verteilt. Diese Dichte hat die bekannte
X
Y
Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µX , µY ) und Halbachsen im Verhältnis der Streuungen. Dreht man das Koordinatensystem, so erscheinen
7
Free Software
Komerzielles Produkt
9
Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation
bekannt ist. Um die Faltung zu sehen, benützen wir Anmerkung 119 7. Demgemäß
R
hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden
der Substitution
t − x, dy = dt, “neue
Grenzen=−∞,
z”, Vertauschen
R ∞ Integrationsreihenfolge zu
R∞
Rz
R z der
R ∞ y R=z−x
FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. Diese
R∞
Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was
identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise
gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten
der Dichten.
8
126
Wahrscheinlichkeitstheorie
in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten
herrührt, siehe hiezu 4.3.
7. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1.
Für den letzten Punkt soll kurz der Nachweis erbracht werden (der ganz allgemein für
beliebige Verteilungen F mit bezüglich des Nullpunktes symmetrischer Verteilungsdichte f
geht), wobei an geeigneter Stelle die Substitution u = −t, dt = −du und neue Integralgrenzen
∞ bzw. a, und schließlich die Symmetrie f (u) = f (−u) = f (t) benützt wird: Es ist P (|X| <
a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < Ra} \ {ω | −a < X}) =R P ({ω | X <
a
∞
a}) − P ({ω | −a < X}) = F (a) − F (−a) = F (a) − −∞ f (t) dt = F (a) − a f (u) du =
F (a) − (1 − F (a)) = 2F (a) − 1.
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Normalverteilung N(0,1)
3.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
127
1
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Verteilungsfunktion N(0,0.5)
3.3
3.3.1
Approximation mathematischer durch empirische Wahrscheinlichkeit
Ungleichung von Tschebischeff und das Bernoulliexperiment
Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment
ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine Wtheoretisch formulierte Antwort auf die in Beispiel 86 aufgeworfene Frage, inwieweit man denn
erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich
mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist
eine solche Frage, wenn p durch statistische Erhebung “geschätzt” werden soll, also von
vorneherein unbekannt ist. Mehr darüber in den Beispielen 135 und 138.
Wir werden die Ungleichung von Tschebischeff dabei benützen:
128
Wahrscheinlichkeitstheorie
q
◦
◦
•
0
•
0
1
1=p+q
Abbildung 3.2: “Theoretische” Verteilungsfunktion beim Bernoulliexperiment
Anmerkung 130 (Ungleichung von Tschebischeff) Es sei X : Ω → R eine Zufallsvariable und > 0, so gelten folgende Aussagen:
• P (|X| ≥ ) ≤
E(|X|)
.
• P (|X − E(X)| ≥ ) ≤
V (X)
.
2
Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach
definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y
auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung
E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ),
und hieraus durch Umformen die erste Behauptung.
Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also
P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := V (Y ) = |Y − E(Y )|2 , so ergibt sich
P (|Y − E(Y )|2 ≥ 2 ) ≤
V (Y )
,
2
und weil links definitionsgemäß das Maß der Menge
{ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ }
ermittelt wird, ist alles gezeigt.
w.z.b.w.
Beispiel 131 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand
geht, “theoriegestützt” von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω →
{1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das
sei z.B. durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische)
Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. 3.2 angegegebenen
Form.
Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde
man sich gerne auf (H), d.h. p = 1 − p = 21 aufgrund mathematischer Betrachtungen stützen
können.
Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art:
3.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
129
a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt,
b) oder n mal (unabhängig voneinander) hintereinander ausgeführt.
Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest für
i = 1, . . . , n. In dieser Weise, wie in Beispiel 125 (Bernoulliverteilung) genauer ausgeführt
worden ist, ergibt sich für die Zufallsvariable Sn : Ω → R, definiert durch
Sn (ω) :=
n
X
Xi (ω) = |{i | Xi (ω) = 1}|,
(3.1)
i=1
welche abzählt, in wievielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung
mit E(Sn ) = np und V (Sn ) = npq.
Schließlich kommt die Ungleichung von Tschebischeff (Anmerkung 130) zum Zug, indem
wir dort X := n1 Sn einsetzen und V n1 Sn = n12 V (Sn ) beachten:
1
pq
P Sn − p ≥ ≤ 2 .
(3.2)
n
n
Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils),
welchen Näherungswert würde man nach n Versuchen für p benützen?
Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend,
k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte)
Wahrscheinlichkeit p ist.
Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die “Irrtumswahrscheinlichkeit”.
Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist?
Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 41 annimmt, ist
pq
1
≤
,
2
n
4n2
1
1
sodaß es hinreichend ist, 4n
2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also
10% Genauigkeit bei der Approximation), so ist n = 250.
Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als
250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k :=
300
300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000
≈ p als Approximation der
Fehlerwahrscheinlichkeit ist.
Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist
α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage:
“Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.”
Antwortfindung: Zunächst läßt sich Glg.(3.2) in äquivalenter Form als
1
pq
P (| Sn − p| ≤ ) ≥ 1 − 2
n
n
130
Wahrscheinlichkeitstheorie
schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck
1
| Sn − p| ≤ n
pq
ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n
2 ≥ 1 − α
pq
1
ergeben – in äquivalenter Form – aus α ≥ n2 . Da letzteres aus α ≥ 4n2 folgt, kann man
1
:= √4αn
setzen und so ergibt sich (für dieses ):
1
1
P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α.
n
n
Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) :=
1
n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie
zu n events annehmen. Diese Schranken passen sich also dem n an!
300
= 3 × 10−3 als Näherung
Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000
1
für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn
= √4×101−1 ×105 =
5 × 10−3 und bekommt
k
k
P (p ∈ [ − , + ]) ≥ 1 − α,
n
n
und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für
das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ].
(Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa
1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p
können Ausgangspunkt für die Berechung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.)
Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen?
Antwort: wird am Ende von Beispiel 138 1. gegeben werden.
a) = 1
Punkt- oder
Dirac-V. δa
an a
= k) =
= k) =
Hypergeometrische-,
M , N , n aus
N
−M
(Mk )(Nn−k
)
N
(n)
λk −λ
k! e
xk)
=
n k n−k
p
q
k
BernoulliBinomialBn (p),
sei
0 < p < 1
und
q := 1 − p
Poisson-, sei
λ>0
xi ) =
Gleichmäßige
1
n
P (X =
Name d. V.
λk
k!
x≤0
0<x
x ≤ x1
xk−1 < x ≤ xk ,
2≤k≤n
xn ≤ x
0
P
e−λ k<x
1
k.A.
k−1
n
0
FX (x) =
0 x≤a
1 x>a
nM
N
λ
i=1
Pn
np
1
n
a
E(X)
xi
nM
N 1−
λ
npq
M
N
N −1
N −n
E(X 2 ) − E(X)2
0
V (X
Ziehen von Stichproben ohne Zurücklegen, Beispiel
127
Poissonprozess,
Beispiel 126
n-maliges
Durchführen
eines Experiments,
Beispiel 125
Laplace W-Raum
X = a ist ein sicheres Ereignis
Anwendungsbereich
3.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
131
Student-, tn ∈ N, n >
0
χ2 - n ∈ N,
n>0
Gauß,
N (µ, σ 2 ),
µ, σ > 0
Exponentialλ>0
Rechteck,
Intervall
a<b
Name d. V.
1
0
Rx
Γ( n+1
2
√1
)
nπ Γ( n
2
n
2 2 Γ( n
)
2
h
n
− 12
u−µ 2
σ
du
” n+1
−∞ “
2
u2
1+ n
R∞
e− 2 u− 2 −1 du
u
−∞ exp
Rx
i
du
1
x−µ 2
2σ
i
1
“
” n+1
2
x2
1+ n
x≤0
x
n
e− 2 x− 2 −1 x > 0
h
exp − 21
n
2 2 Γ( n
)
2
n+1
Γ( 2
√1
)
nπ Γ( n
2
0
√1
σ 2π
0
x≤0
λe−λx x ≤ 0 < x
0
x≤0
1 − e−λx 0 < x
√1
σ 2π
FX0 (x) = f (x)
0
x<a
1
b−a a < x ≤ b,
0
b≤x
FX (x)
0
x<a
x−a
a
< x ≤ b,
b−a
1
b≤x
0 (f n ≥
2)
n
µ
1
λ
3)
n
n−2
2n
σ2
1
λ2
(f n ≥
− a)2
1
12 (b
1
2 (a
+ b)
V (X)
E(X)
standardisierte
normalverteilte Daten nicht
normalverteilt
bei unbekannter
Varianz Beispiel
140
Beispiel 140
Beispiel 129
Lebensdauer,
Zerfallsdauer,
Beispiel 128
Beispiel 113 3.
Anwendungsbereich
132
Wahrscheinlichkeitstheorie
3.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
133
3.3.2
Gesetz der großen Zahlen, Zentraler Grenzwertsatz
Beim Bernoulliexperiment (Beispiel 131) kommt man zur Aussage, daß sich bei wachsenden
Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei
A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben,
zumindest in folgendem Sinn: Aus der Ungleichung Glg.(3.2) ergibt sich
1
lim P (| Sn − p| ≥ ) = 0
n→∞
n
für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk “gut” sein sollte
im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also “nahezu sicher” sein
darf, daß hn (A) = nk ≈ p.
Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 134,
der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene
Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die
gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von
Kolmogorov Anmerkung 132.
Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind10 , vorgestellt werden.
Anmerkung 132 (Kolmogorov) Ist Xn : Ω → Rk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und
∞
X
V (Xn )
n2
n=1
erfüllen, so ist
<∞
n
1 X
P ({ω | lim (
Xj (ω) − E(Xn )) = 0}) = 1.
n→∞ n
j=1
Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und
es ergibt sich aus dem vorigen
n
1X
P ({ω | lim
Xj (ω) = E(X)}) = 1.
n→∞ n
j=1
Die Konvergenzaussage wird auch als “Xn gehorcht dem starken Gesetz der großen Zahlen”
ausgedrückt, während die schwächere, aus ihr folgende:
n
1 X
lim P ({ω | Xj (ω) − E(Xn ) > }) = 0
n→∞
n
j=1
10
etwa [16]
134
Wahrscheinlichkeitstheorie
für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn = n1 Sn
wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall,
nämlich, daß die Folge ( n1 Sn | n ∈ N) dem schwachen Gesetz der großen Zahlen genügt.
Der zentrale GWS wird auch in allgemeinerer Form und unter technischen Bedingungen
(von Lindeberg, siehe S. 111 in [16] ff.) formuliert. Eine vereinfachte (oft zitierte und benützte) Version ist die folgende:
Anmerkung 133 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable)
Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und
V (X) = σ, so ist die standardisierte Zufallsvariable
Pn
X̄(ω) − µ √
j=1 (Xj (ω) − µ)
√
n,
Z(ω) :=
=
σ
σ n
P
mit X̄ := n1 ni=1 approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b)−Fn (a)
Rx
2
gegen Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 129, Φ(x) := √12π −∞ e−x dx ist.
In diesem Sinne ist das Fehlermittel
n
1X
(Xj (ω) − µ)
X̄(ω) − µ =
n
j=1
auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, √σn )-verteilt11 .
Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 21 und Laplace
1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel 131) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung
B(n, p), welcher die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) = nk , wenn in k
von n unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz
k − np
P a≤ √
< b → Φ(b) − Φ(a)
npq
für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis
gelegentlich benützten Faustregeln np > 4 und nq > 4 ([12], Seite 160), bzw. in [24]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen.
Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar herlei√
ten, weil jedes Xi (wie in Beispiel 131) Erwartungswert µ und Streuung σ = pq (vgl.
√
Beispiel 120 3.) hat. Danach wird das Z zu Z = S√n −µ
n, was nach wenig Rechnung
pq
zur Behauptung führt.
11
Vgl.Beispiel 129 4.
3.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
135
Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal
gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige
Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im
Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das
l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach Messungsserie und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W.,
die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste
signifikante Stelle 1 ist.
Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := R überzugehen. Die Erfahrung lehrte:
1. kleine Fehler sind häufiger als große,
2. positive und negative Fehler heben einander nahezu auf,
3. Fehler, nahe bei Null, sind am häufigsten.
Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach
sich gezogen (siehe die ausführliche Diskussion in [11]). Gauß schließlich postulierte
das nach ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ
normalverteilt angenommen werden darf.
Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS
wie folgt:
Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h.
F =
n
X
Xi
j=1
und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß
er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat,
√
so ist F nach dem zentralen GWS approximativ N (0, σ n)-verteilt. Da n zwar groß,
aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler
F approximativ N (0, σF )-verteilt, wobei σF2 ≈ V (F ) gelten muß.
Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein
und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert
wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die
Länge l genommen. Das n-fache Messen soll nun approximativ die VerteilungpF von
X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X)
interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In 3. von Beispiel
135 wird der Physikpraktikumsübliche Näherungswert σ̂ beschrieben.
136
Wahrscheinlichkeitstheorie
Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler (nämlich tatsächliche unbekannte Länge l minus Wert der j.ten Messung). Das in Anmerkung 133 genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, approximativ
N (0, √σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das
Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In
Unterabschnitt 4.2.1 wird µ, bzw. σ die Rolle eines “Parameters” spielen, der anhand
gemessenen Datenmaterials geschätzt werden soll.
Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die “mathematische” betrachtet. Das
kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. 3.2 angesehen werden. Beim Satz von GliwenkoCantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 134.
Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache
Folgerung aus dem zentralen GWS ist (z.B. in [10]).
Kapitel 4
Statistik
4.1
Grundlagen und Kurzbeschreibung
4.1.1
Aufgaben der Statistik
Details, die hier möglicherweise beim ersten Durchlesen schwer verständlich sind, werden in
den nachstehenden Kapiteln behandelt. Einfach weiter lesen und später diese grobe Übersicht
durchsehen.
Beschreibende Statistik. Sie befaßt sich mit der übersichtlichen Aufbereitung von (großen)
Datenmengen, die durch Messungen im weitesten Sinne zustandekommen. Dazu gehören
etwa Histogramme, die manchmal in Prozenten, manchmal in Absolutzahlen – oft auch
in Klassen zusammengefaßt – Datenmaterial veranschaulichen.
Schließende Statistik. Es geht darum, für eine nicht näher oder nur zum Teil bekannte
~ : Ω → Rk (z.B. ist k = 2 beim
Verteilung F einer (vektorwertigen) Zufallsvariablen X
Dartschießen, nämlich x- und y-Koordinate) durch folgende Methode eine Näherung zu
gewinnen:
Man gibt eine natürlich Zahl n vor, “mißt” n-mal und faßt jede Messung als Festle~ verteilten zufälligen Variablen X
~ i : Ω → Rk auf. Die
gen eines Wertes einer wie X
Messung ist so auszuführen, daß keine die andere beeinflußt, und das bedingt, daß die
~ i unabhängig sind. Das Meßergebnis ~xi (der Variablen X
~ i ) heißt dann deren
Variablen X
Realisation.
Einfache Beispiele des Messens: n-malige Wiederholung eines Zufallsexperiments im
Bernoulliexperiment, n-maliges Abmessen einer Strecke (z.B. in der Geodäsie). Aus
einer Population, d.i. Gesamtheit, n-mal hintereinander “in zufälliger Weise” Elemente
herausgreifen, die Größe (oder nur das Vorhandensein eines Merkmals, d.i. Wert der
Zufallsvariablen nur Null oder Eins) messen, das Element “zurücklegen”.
Die n Messungen stellen ein zufälliges Experiment dar, bei dem die vektorwertige Zu~ 1, . . . , X
~ n ) : Ω → (Rk )n als Wert (“Realisierung”) den Vektor
fallsvariable X := (X
x := (~x1 , . . . , ~xn ) ∈ (Rk )n annimmt. Nun geht es in der schließenden Statistik darum,
137
138
Statistik
die experimentell ermittelte Verteilungsfunktion Fn : Rk → [0, 1], nämlich
Fn (~x) :=
|{i | ~xi < ~x}|
,
n
wobei das “<” koordinatenweise zu lesen ist, als Näherungsfunktion von F (~x) anzusehen. Insofern wird hier das Bernoulliexperiment (Beispiel 131) verallgemeinert, als
dort die Verteilungsfunktion eine recht einfache Treppenfunktion (Fig. 3.2) darstellt.
Als theoretische Grundlage dafür wird der in Anmerkung 134 noch zu besprechende
Satz von Gliwenko-Cantelli angesehen.
In vielen Situationen kennt man die Verteilung F zum Teil, sei es, daß sie von einer
bestimmten Form ist, oder daß z.B. plausible Annahmen über die Größe ihrer Varianz
gemacht werden können. Oft will man auch nur Kenngrößen von F schätzen, wie z.B.
den Erwartungswert der nach F verteilten Zufallsvariablen X. Entsprechend gibt es
folgende Teildisziplinen der schließenden Statistik:
• Parameterschätzung1 . Man hat genügend Gründe dafür, anzunehmen, daß die
Verteilung F eine spezifische Form F (x, θ) hat, bei der θ ∈ Θ ein Parameter in
einem Parameterbereich Θ ⊆ Rd ist. Typisches Beispiel ist die Verteilungsfunktion der Normalverteilung N (µ, σ), bei der θ := (µ, σ) ∈ Θ := R2 die Rolle des
Parameters spielt. Nun wird eine “plausible” Näherung θ̂ des unbekannten Parameters θ mittels der Meßreiheergebnisse x ∈ (Rk )n bestimmt. Zu diesem Zweck
konstruiert man eine Schätzfunktion2 Z : (Rk )n → Rd , und berechnet θ̂ := Z(x).
Die häufigsten Methoden zur Auffindung einer geeigneten Schätzfunktion Z sind
die Momentenmethode3 und die der Maximum Likelihood Schätzung.
• Intervallschätzung für einen skalaren Parameters θ mit Konfidenzniveau4 α. Jetzt ist d = 1 und es geht genau wie vorher um die Schätzung eines
nunmehr skalaren
Parameters θ, (etwa θ = µ = E(X), der Erwartungswert, oder
p
θ = σ = V (X), die Standardabweichung). Allerdings wird jetzt α (meist ist
α ∈ {0.05, 0.02, 0.01}) vorgegeben. Danach konstruiert man skalarwertige Schätzfunktionen θ, und θ von (Rk )n → R derart, daß der zu schätzende Parameter
θ
θ(x) < θ < θ(x)
mit (1−α)×100%iger Wahrscheinlichkeit erfüllt. Die Größe 1−α ist das Konfidenzniveau, die Intervallgrenzen θ(x) und θ(x) sind die Vertrauensgrenzen. Wird dabei
die Anzahl der Messungen erhöht, darf man hoffen, daß diese Vertrauensgrenzen
enger zusammenrücken.
• Prüfen von Hypothesen. Es wird, nicht unähnlich zu vorher, diesmal als Signifikanzniveau bezeichnetes α (meist in {0.05, 0.02, 0.01}) gewählt. Als Hypothese
1
Anderer Name: Punktschätzung.
Stichprobenfunktion, Punktschätzer
3
soll hier nicht vorgeführt werden, siehe z.B. [12]
4
Auch Konfidenzschätzung genannt.
2
4.1. Grundlagen und Kurzbeschreibung
139
bezeichnet man eine Aussage, daß für eine vorgegebene Schätzfunktion Z die Zufallsvariable ZX in einem vorgegebenen Bereich liegt (z.B. Null ist, oder in einem
Intervall ist). Dem Neyman-Pearson Paradigma folgend, wird die Hypothese H0 als
Nullhypothese und eine weitere, sie ausschließende, als Alternativhypothese bezeichnet, und man möchte durch eine Stichprobe festlegen, ob man die Nullhypothese
verwerfen kann.
Nun wird eine neue Schätzfunktion T konstruiert, die Testfunktion und man ermittelt einen Ablehnbereich A durch die Bedingung
P (T ∈ A) ≤ α,
was insbesondere dann geht, wenn die Verteilung von T X bekannt ist. Wegen der
Annahme von H0 kann man P (T ∈ A) “ausrechnen” und deshalb den Ablehnungsbereich im vorhinein festlegen. Nun wird, wie schon angedeutet, eine Einzelmessung t für T X ermittelt. Fällt dieses t in den Ablehnungsbereich A, so wird die
Hypothese abgelehnt, andernfalls wird sie nicht abgelehnt. Je kleiner α ist, desto
geringer wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie
richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, A entsprechend gewählt. Gebräuchliche Testverfahren sind tTest, Wilcoxontest, χ2 -Anpassungstest und Kolmogorow-Smirnow-Anpassungstest,
auf die noch einzugehen ist.
• Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall
geht es um eine R2 wertige Zufallsvariable (X, Y ), von der eine Meßreihe (xi , yi ) als
Realisierung vorliegt. Dann liegt eine “Punktwolke” von Daten vor. Nun versucht
man, insbesondere wenn man Normalverteilung annimmt, eine Dichtefunktion zu
erraten, deren Graph konzentrische Ellipsen als Schichtlinien auffweist. Darüber
gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. Meßreihen helfen, die für diese Fragen relevanten Korrelationsund Regressionsgrößen zu schätzen.
4.1.2
Hauptsatz der Statistik
~ : Ω → Rk eine Zufallsvariable, deren Verteilungsfunktion F : Rk → [0, 1] nicht
Es sei X
näher bekannt ist (beim Dartschießen ist k = 2, die x- und die y-Koordinate). Nun wird
ein natürliches n vorgegeben und n einander nicht beeinflussende Messungen ausgeführt, die
~ verteilter Zufallsvariabler X
~ i : Ω → Rk
man als Realisierungen n unabhängiger genau wie X
k
auffaßt. Dann wird, wie in der Einleitung angesprochen, für jedes ~x ∈ R die Zufallsvariable
Fn (~x, ·) : Ω → [0, 1] durch
~ i (ω) < ~x}|
|{i | X
Fn (~x, ω) :=
n
definiert, wobei das “<” koordinatenweise zu lesen ist. Diese Zufallsvariable beschreibt die
~ i unterhalb des Wertes ~x (koorHäufigkeit der Experimente, in denen die jeweilige Variable X
dinatenweise von 1 bis k) liegt und wird durch Zufallsexperiment (dem Meßvorgang) ermittelt.
140
Statistik
Nämlich, das n-fache Messen ergibt eine empirische Häufigkeitsverteilung Fn : Rk → [0, 1],
die durch
|{i | xi < x}|
Fn (x) :=
n
gegeben ist, und die man als Realisierung der Zufallsvariablen Fn (x, ·) : Ω → [0, 1] auffaßt.
Erfahrungsgestützt erwartet man, daß Fn (x) eine gute Approximation von F (x) ist und im
Falle eines die Verteilungsfunktion die Stufenform wie in Fig. 3.2 hat, wissen wir das eben
durch das Bernoulliexperiment (Beispiel 131). Im allgemeineren Fall kann man sich auf den
“Hauptsatz der Statistik” stützen:
Anmerkung 134 (Gliwenko-Cantelli, 1933) Es sei
Dn (ω) := sup |Fn (x, ω) − F (x)|
x∈R
so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1.
In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine
gute Approximation von F ist, geht mit wachsendem n gegen Eins.
Je mehr Messungen macht, “desto unwahrscheinlicher” sind “größere” Differenzen zwischen
Fn und F auf R zu erwarten. Also, genau wie beim Bernoulliexperiment ergibt sich beim
Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die aus der
Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für F (x) ist.
Wohlgemerkt, keine Gewißheit, lediglich “sich erhöhende Wahrscheinlichkeit”.
4.2
4.2.1
Schätz- und Testverfahren
Parameterschätzung
Von einer zufälligen Variablen X : Ω → Rk hat man Grund zur Annahme, daß sie einer
Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ Rd ein Parameter ist (z.B. das p im Falle eines Laplace-W-Raumes, (a, b) ∈ R2 im Falle der Rechtecksverteilung, (n, p) ∈ R2 für die
Bernoulliverteilung, oder (µ, σ) ∈ R2 im Falle der Gaußschen Normalverteilung).
Nun wird eine Stichprobe x := (x1 , . . . , xn ) ∈ (Rk )n ermittelt, d.h., es werden n Messungen
der Variablen X durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z :
(Rk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Bei der Konstruktion von
Z spielen folgende Argumente eine Rolle, bei der man den Vergleich mit der Zufallsvariablen
ZX(ω) = Z(X1 (ω), . . . , Xn (ω)) heranzieht:
1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias
oder Verzerrung. Man wünscht sich einen erwartungstreuen Schätzer.
4.2. Schätz- und Testverfahren
141
2. Z ist konsistent5 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n),
und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0
ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist.
3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 ,
falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente
Schätzer.
Beispiel 135 Konkrete Beispiele sollen folgen.
1. (Schätzung von p). Es soll das Bernoulliexperiment, wo genau das auch getan wurde
(Beispiel 131) in einer Anwendung gezeigt werden: Um laufend die Produktionsgüte
eines Betriebes zu testen, werden üblicherweise regelmäßig 5 Stück aus jeder Lieferung
genommen und getestet. Im einfachsten Fall soll lediglich die Tauglichkeit geprüft werden und sieht sich veranlaßt, einfachheitshalber anzunehmen, daß p% fehlerhafte Stücke
produziert werden. Deshalb werden pro Woche (oder Monat) die Anzahl der fehlerhaften Stücke gezählt. Es entsteht eine Zahlentabelle, bei der übungshalber 30 Lieferungen,
also 150=100%, betrachtet werden sollen.
Eine Strichliste oder Urliste entsteht, und schließlich die
rechts abgebildete Häufigkeitstabelle, deren Spalten angeben, wie viele Fünferauswahlen jeweils 0–5 fehlerhafte
Stücke enthalten.
0
5
1
3
2
5
3
2
4
1
5
0
Als Ereignisraum Ω nehmen wir die Menge aller erzeugten Stücke innerhalb eines festen
Zeitraumes. Die Zufallsvariable X : Ω → R soll durch X(ω) := 1, falls ωP
defekt, und
1
Null sonst sein. Würde man alle Elemente in Ω testen, so hätte man p = |Ω|
ω∈Ω X(ω).
Da wir lediglich die Stichprobe von 150 Stück testen, ist uns bestenfalls ein Näherungswert p̂ zugänglich. Wie zu erwarten, wird man dies durch die Häufigkeit eines Fehlers
in unseren Proben tun. Dabei wird durchaus geschwindelt: Die 150 Stück werden im
Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben
keine Beeinflussung von p annimmt.
In diesem Sinne ist Z(x1 , . . . , xn ) := |{i|xni =1}| eine auf dem Rn definierte Funktion,
die als Schätzer benützt werden soll, die bis auf das n mit dem Ausdruck in Glg.(3.1)
übereinstimmt. In unserem Fall ist n = 150 und als Schätzung für θ := p bekommt man
mittels der obigen Häufigkeitstabelle
p̂ := Z(x1 , . . . , x150 ) =
5+3+5+2+1+0
7
=
≈ 0.093.
150
75
2. (Messwerte). In Fortsetzung der Anwendung des zentralen GWSes (nach Anmerkung
133) beim “physikalischen Praktikum” behandeln wir die Messung einer skalaren Größe,
etwa einer Länge l.
Angenommen, es werden 10 Messungen gemacht und systematische Fehler ausgeschlossen:
5
andere Bezeichnung: asymptotisch erwartungstreu.
142
Statistik
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Welche W-theoretische Deutung ist möglich? Welche Stichprobenfunktion bildet man?
Nun faßt man die Länge als Zufallsvariable auf, definiert auf Ω := R. Wäre die exakte
Länge bekannt, so wäre die Verteilung F von X durch F (x) = 0 für x < l und F (x) = 1
für l ≤ x. Um Messfehler berücksichtigen zu können, fasst man die zehn Messungen als
Realisationen von 10 wie X verteilten Zufallsvariablen auf.
1 P10
Antwort: Danach bildet man die Stichprobenfunktion Z(x1 , . . . , x10 ) := 10
i=1 xi , eine
Funktion von R10 → R.
Ist dieses Z erwartungstreu?
Die Zufallsvariable
10
1 X
Z(X1 , . . . , X10 ) :=
Xi
10
i=1
erweist sich als erwartungstreu, weil
10
10
i=1
i=1
1 X
1 X
E(Xi ) =
E(X) = E(X) = l,
E(Z(X1 , . . . , X10 )) =
10
10
diePvon uns gesuchte Länge ist. Das Gleiche gilt für beliebiges n, also für Z(X1 , . . . , Xn ) =
n
1
i=1 Xi .
n
P
Ist Z(X1 , . . . , Xn ) = n1 ni=1 Xi konsistent?
P
Zunächst gilt wegen E(Xi ) = E(X) = µ die Gleichung E(Z(X1 , . . . , Xn )) = n1 ni=1 E(Xi ) =
E(X) = µ. Nun ergibt die Ungleichung von Tschebischeff (Anmerkung 130), indem man
dort statt X unser Z einsetzt:
P (|Z − E(Z)| ≥ ) ≤
V (Z)
.
2
Wenn für wachsendes n der Ausdruck auf der rechten Seite gegen P
Null geht, ist die
Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (Z) = V ( n1 ni=1 Xi ) berechnet werden, wobei wegen der Annahme der Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 122 gilt, sodaßE(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2
berücksichtigt werden kann:
P
V (Z) = E(Z 2P
) − E(Z)2 = P
E(( n1 ni=1 Xi )2 ) − µ2
= n12 E( ni=1 Xi2 + 2 1≤i<j≤n
Xi Xj ) − µ2
n
= n12 nE(X 2 ) + 2 2 µ2 − µ2
= V (X)
n .
Somit enthält die rechte Seite in der Tschebischeffschen Ungleichung den Faktor n1 , der
die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt.
Welche Schätzung ergibt sich für l unter Anwendung des vorgestellten W-theoretischen
Konzepts?
4.2. Schätz- und Testverfahren
143
Antwort: Man setzt die zehn Meßwerte (n = 10) in den Schätzer ein. Eine numerisch
sinnvolle Methode besteht in folgender Rechnung
10
x̄ :=
1 X
1
1
xi = 13+ (0.1−0.1+0.0−0.1+0.2+0.1−0.1+0.1−0.2+0.1) = 13+
= 13.01
10
10
100
i=1
Anmerkung: Auf die Physikpraktikumsübliche Angabe eines Meßfehlers soll in 3. eingegangen werden.
3. (Schätzung von µ bzw. σ für eine Verteilung). Die Tabelle aus dem vorigen Beispiel
soll jetzt folgende Deutung haben: Aus einer Population soll durch die zehnelementige Stichprobe auf den Mittelwert und die Varianz geschlossen werden. Mit ähnlichen
Rechnungen wie vorher zeigt man:
P
(a) Die Schätzfunktion Stichprobenmittel Z(x1 , . . . , xn ) := n1 ni=1 xi (bei uns ist n =
10) ist konsistent und erwartungstreu. Ist die unbekannte Verteilung eine N (µ, 1)Normalverteilung, so ist sie auch eine effizienteste. Die Abkürzung x̄ ist für das
Stichprobenmittel, und X̄ := ZX.
1 Pn
2
(b) Die Schätzfunktion Stichprobenvarianz Z(x1 , . . . , xn ) := n−1
i=1 (xi − x̄) ist
konsistent und erwartungstreu.
Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her?
1 Pn
2
Antwort: Man betrachtet die Zufallsvariable ZX = n−1
i=1 (Xi − X̄) , in der X̄ :=
P
P
P
n
n
n
1
1
2
2
2
i=1 Xi ist. Es ist E( n−1
i=1 (Xi − X̄) ) =
i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) =
n
2
2
nE(X 2 ) +nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X
ähnlich wie im vorigen Beispiel
Pn ) − E(2X̄ ). Die
1
2
laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und
Einsetzen ergeben
!
n
1 X
(Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X).
E
n−1
i=1
Das (n − 1) braucht man für die Erwartungstreue!
Welcher Schätzwert σ̂ ergibt sich für die Standardabweichung aus der Tabelle?
Antwort: Es ist n − 1 = 9 und somit kann man unter Benützung von x̄ = 13.01 aus
dem vorigen Beispiel
10
1X
1
σ̂ =
(xi −13.1)2 = (0.092 +0.112 +0.012 +0.112 +0.192 +0.092 +0.112 +0.092 +0.932 +0.092 ) ≈ 0.0166,
9
9
2
i=1
also ist σ̂ ≈ 0.13.
Wie lautet daher die Physikpraktikumsgerechte Antwort auf die Frage, wie lang das l
ist?
Antwort: Es ist l ≈ µ̂ ± σ̂ ≈ 13.0 ± 0.1. Dabei ist µ̂ das Stichprobenmittel und σ̂ 2 die
Stichprobenvarianz, wie oben erklärt.
144
Statistik
Anmerkung 136 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im
Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ Rn
hat, kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂.
Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen
unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden
kann.
Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die
Gestalt
n
Y
L(x, θ) :=
f (xi , θ).
i=1
Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als
“wahrscheinlichste Beobachtung” zu interpretieren, m.a.W., θ̂ so zu wählen, daß das
Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn )
auswertet.
Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion
Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung
L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ}
gefunden wird.
Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl
der xi eindeutig ist, kann man die einfachere Gleichung
∂
L(x1 , . . . , xn , θ) = 0
∂θ
nach den θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt,
falls θ ∈ Rd ist).
Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent
ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten.
Beispiel 137 Beispiele hiezu:
1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses.
Es sei möglich, das Bernoulliexperiment (Beispiel 131) auszuführen, d.h. man setzt
X : Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus,
daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses
feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht
ist ein MLS für p.
Pn
Wie in Beispiel 131 ausgeführt, ist S :=
i=1 xi verteilt gemäß L(x1 , . . . , xn , p) =
pS (1 − p)n−S . Differenzieren nach p und Nullsetzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 −
S)pS (1 − p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das schon
4.2. Schätz- und Testverfahren
145
in Beispiel 131, bzw. Beispiel 135 2. gefundene Stichprobenmittel
S(x) = Z(x1 , . . . , xn ) =
1
(x1 + · · · + xn )
n
kommt.
2. Es sei X : Ω → R eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 113 3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe
(x1 , . . . , xn ) ∈ Rn hat.
1
Die Verteilungsdichte ist b−a
, falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich
1
L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist
bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximimum dort an, wo b − a
unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi |
i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n}
und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu.
3. Es sei X : Ω → R eine auf R+ bezüglich einer Exponentialverteilungsdichte (Beispiel
128) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch
unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ.
Pn
Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0
verschwindet. Durch Differenzieren P
nach dem Parameter λ ergibt sich zunächst 0 =
nλn−1 e−λS − λn Se−λS , wobei S := ni=1 xi . Elementare Rechnung ergibt den MLS
n
Z(x1 , . . . , xn ) := Pn
i=1 xi
4.2.2
.
Intervallschätzung
Es sei X : Ω → Rk eine Zufallsvariable, deren Dichte die Gestalt f (x, θ) mit x ∈ Rk und θ ∈
Θ ⊆ R ist. Die Gestalt dieser Verteilungsfunktion ergibt sich aus einer Annahme, die in der
konkreten Situation gemacht werden kann. Allerdings ist θ nicht bekannt, und man versucht
eine Näherung θ̂ aus einer Stichprobe zu finden. Im vorigen Abschnitt wurden Punktschätzer
hiezu verwendet.
Ist der Stichprobenumfang (das n) im Verhältnis zur Gesamtheit klein, so kann die Konsistenz eines Schätzers, nämlich, daß mit Wahrscheinlichkeit Eins die Schätzwerte bei n → ∞
gegen den korrekten Parameter konvergieren, nicht in quantitativer Form in Anspruch genommen werden – man weiß nicht wirklich “wie nahe θ̂ am gesuchten θ dran ist.” Deshalb
verzichtet man bei der Methode der Intervallschätzung auf die Berechnung eines solchen
Näherungswertes, sondern macht eine wahrscheinlichkeitstheoretische Aussage über die Lage
von θ indem man folgende Prozedur anwendet:
1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann
bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben.
146
Statistik
2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : (Rk )n → R, derart, daß
θ(x1 , . . . , xn ) ≤ θ(x1 , . . . , xn ) für alle i und xi ∈ Rk gilt.
3. Die beiden Funktionen geben Anlaß, Zufallsvariable θX und θX ins Spiel zu bringen,
für die bei konkreter Stichprobe x = (x1 , . . . , xn ) ∈ (Rk )n Realisierungen θ(x) und θ(x)
vorliegen.
Für diese beiden Zufallsvariablen wünscht man sich die Garantie
P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α.
4. Hat man diese “theoretische Vorarbeit”, nämlich 1.–3. geleistet, ermittelt man mittels
der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie:
“Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x]
liegt, ist zumindest 1 − α. ”
Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken
an, mit hoher Wahrscheinlichkeit werden sie dabei “enger”.
5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd
normalverteilt angenommen werden darf:
(a) Die Binomialverteilung B(n, p) (siehe Beispiel 125) ist es (in der Praxis), wenn
9
(vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 133).
n > p(1−p)
(b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl.
Anmerkung 133 und dort das Beispiel zum Physikpraktikum.
Beispiel 138 Im Nachfolgenden die häufigsten Situationen von Intervallschätzungen.
1. (Schätzen einer unbekannten Wahrscheinlichkeit p)
Jemand hat n = 10000 mal (in unabhängiger Weise) Proben einer Produktion gezogen,
dabei 300 Fehler gefunden und p̂ := 3 × 10−3 als Näherung für die Wahrscheinlichkeit p
des Auftretens von Fehlern angenommen. Nun soll zu α := 0.1 als Irrtumswahrscheinlichkeit ein p̂− ≤ p̂+ gefunden werden, sodaß P (p− < p < p+ ) ≥ 1 − α, m.a.W., daß mit
90%-iger Wahrscheinlichkeit, die gesuchte Wahrscheinlichkeit p im Intervall (p− , p+ )
liegt.
9
Antwortfindung: Die oben zitierte Faustregel besagt 10000 > p(1−p)
, und für p̂ =
−3
3 × 10
ist das sichtlich der Fall. Allerdings, das ist der Näherungswert, das p ist
unbekannt. Gegen Ende von Beispiel 131 wurde die gleiche Fragestellung mittels der
Ungleichung von Tschebischeff behandelt und
P (0 ≤ p ≤ 8 × 10−3 ) > 0.90
(4.1)
gefunden, also, daß mit 90%-iger Wahrscheinlichkeit p im angegebenen Intervall liegt.
9
Leider ist für p so nahe an Null die Arbeitshypothese n > pq
nicht erfüllt.
4.2. Schätz- und Testverfahren
147
Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit
√
nicht näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt
(wir wissen das aus Beispiel 120 3.) verteilt. Nun besagt der zentrale GWS unter
√
√
√
√
n = X̄−p
n approximativ N (0, 1)-verteilt
Zuhilfenahme von Beispiel 129 4., daß X̄−µ
pq
pq
ist.
√
√
Um die Methode gut zu verstehen, brauchen wir in Kürze die Ungleichung |X̄−p|
n<z
pq
in etwas anderer Form beschrieben, nämlich
6
p ∈ (p̂− (ω), p̂+ (ω)),
wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung
z2
z2
2
− 2X̄(ω) +
p + X̄ 2 (ω) = 0
p 1+
n
n
sind.
Anwendung des zentralen GWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung
√
n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. Lösen der
133) ergibt wegen Beispiel 129 6. P (| X̄−p
σ
α
letzten dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 .
Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige
quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von
z2
z2
2
− 2p̂ +
p + p̂2 = 0.
p 1+
(4.2)
n
n
Und gibt es jetzt endlich eine Antwort auf die letzte Frage in Beispiel 131, nämlich,
ob die Glg.(4.1) angegebene Schätzung durch Approximation von B(n, p) durch eine entsprechende Normalverteilung verbessert werden kann? Sind die im Satz von De
Moivre-Laplace (gleich nach Anmerkung 133) genannten Approximationsbedingungen
np > 4 und nq > 4 erfüllt?
300
Ja. Es ist p̂ = nk = 10000
= 3 · 10−3 und einer Φ-Tabelle (z.B. in [10]) entnimmt man
z1− 0.1 = z0.95 ≈ 1.645 für die Normalverteilung N (0, 1). Die quadratische Gleichung
2
wird zu
p2 (1 + 2.7 · 10−3 ) − (2 · 3 · 10−3 + 2.7 · 10−5 )p + 9 · 10−10 = 0,
deren Lösungen (etwa mittels MAPLE) auffindbar sind:
> fsolve({p^2*(1+2.7*10^(-3))-(2*3*10^(-3)+2.7*10^(-3))*p+9*10^(-6)=0},{p});
{p = 0.002767527675}, {p = 0.003243243243}
6
2
z
n
Die völlig elementare Herleitung geht so:
p−
2
z
n
p2 ⇔ obige Bedingung.
|X̄−p| √
√
n
pq
< z ⇔ (X̄ − p)2 <
z2
(p(1
n
− p) ⇔ p2 − 2pX̄ + X̄ 2 <
148
Statistik
(Lang ersehnte) Antwort: Mit 90%-iger Sicherheit darf gesagt werden, daß die gesuchte
Wahrscheinlichkeit p im Intervall [2.7 · 10−3 , 3.3 · 10−3 ] liegt. Diese Aussage ist präziser
als jene in Glg.(4.1). Es ist n = 104 , p > 2.7 · 10−3 und q = 1 − p > 0.5, also sind die
genannten Approximationsbedingungen erfüllt.
Wie lauten die in der Einleitung zu diesem Unterabschnitt 4.2.2 genannten Stichprobenfunktionen θ und θ des Intervallschätzers? Welchen Wert hat k?
Antwort: Es ist k = 1, weil die gesuchte Variable p ein Skalar ist. Die oben gebildeten
Zufallsvariablen p− , p+ : Ω → R sind die gesuchten Schätzfunktionen θ, θ. Man findet
sie als Lösungen der quadratischen Glg.(4.2) für p, explizit hat man mit dem aus der
Gleichung 2Φ(z) − 1 = 1 − α gefundenen z := z1− α2 die reellen Funktionen
q
z2
2
x̄+ 2n
z2
z
+ x̄−x̄
θ(x) :=
2 +
2
n
4n2
(1+ zn )
(1+ zn )
(4.3)
q
z2
x̄+ 2n
z2
x̄−x̄2
z
θ(x) :=
+
.
−
z2
z2
n
n3
(1+
n
)
(1+
n
)
In der Praxis geht man gelegentlich davon aus, daß p ≈qx̄ ist, also mit 100×(1−α)%-iger
Wahrscheinlichkeit p ∈ (x̄−, x̄+) liegt, wobei :=
z
2
x̄(1−x̄)
n
ist. An Glg.(4.3) erkennt
z2
man, daß das geht, wenn man n gegenüber x̄ vernachlässigen kann. Will man mit der
Theorie im Einklang leben, empfiehlt sich die etwas kompliziertere Form Glg.(4.3) des
Schätzers, in der für die im allgemeinen mäßig großen z die “numerische Stabilität”
ganz gut berücksichtigt worden ist.
Wie würde man Glg.(4.3) verwenden, um ein Intervall (p− , p+ ) zu finden?
Antwort: Es ist x̄ = nk = 3 · 10−3 die relative Häufigkeit (jene die gemessen worden ist).
Das z = z1− 0.1 wurde schon oben zu 1.645 bestimmt. Danach setzt man in Glg.(4.3)
2
ein und findet das in der Antwort zur vorigen Frage angegebene Intervall.
2. (Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ)-verteilte
Zufallsvariable X : Ω → R.)
Von einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R kennt man einen groben
Richtwert der Streuung σ (etwa als Erfahrungswert). Weiters liegt eine Realisierung von
(X1 , . . . , Xn ) : Ω → Rn vor, konkret gesagt, man hat eine Tabelle (x1 , . . . , xn ) ∈ Rn
von Messungen. Wie kann bei Vorgabe einer Irrtumswahrscheinlichkeit α ein Intervallschätzer θ, θ für µ konstruiert werden?
P
Antwort(findung): Die Stichprobenfunktion X̄ := n1 ni=1 Xi : Ω → R ist wegen Beispiel
2
129 N (µ, σn )-verteilt. Deshalb ist
X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1.
σ
Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in
äquivalenter Form als
zσ
zσ
X̄ − √ ≤ µ ≤ X̄ + √
n
n
4.2. Schätz- und Testverfahren
149
zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2
der Gleichung 2Φ(z) − 1 = 1 − α.
Antwort:
Es ist unter Verwendung der Funktion x̄ : Rn → R, definiert durch x̄(x1 , . . . , xn ) :=
1 Pn
i=1 xi das Paar
n
zσ
θ(x) = x̄(x) − √ ,
n
zσ
θ(x) = x̄(x) + √
n
ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also
die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ
zσ
, x̄(x) + √
) liegt, wobei x die Tabelle der (durch
tie, daß µ im Intervall (x̄(x) − √
n
n
Zufallsexperiment) ermittelten Werte von X ist.
Es sei die Tabelle aus Beispiel 135 2. gegeben. Weiters sei bekannt, daß die Streuung
der Längenmessung (z.B. wegen der verwendeten Methode) bei 0.1 Einheit liegen kann
und man mache die Annahme, daß der Fehler normalverteilt ist (etwa aufgrund des
Fehlergesetzes). Man gebe für eine Irrtumswahrscheinlichkeit von α := 0.01 und α = 0.1
jeweils ein Konfidenzintervall für die zu messende Länge l an.
Antwort: Zunächst findet man für x̄(x) (das meist “schlampig” mit x̄ abgekürzt wird)
den Wert 13.01 (wurde in Beispiel 135 2 schon ausgerechnet). Es ist n = 10, und
z = z1− 0.01 = z0.995 = 2.576 aus einer Tabelle für Φ ([10], S 61 ff). Die simple Rechnung
2
liefert 99%-ige Sicherheit für l ∈ (13.01 − 0.081, 13, 01 + 0.081), also l ∈ (12.9, 13.1).
Für α = 0.1 findet man z = z0.95 = 1.645. Die analoge Rechnung liefert, daß l mit
90%-iger Sicherheit im Intervall (13.01 − 0.052, 13.01 + 0.052) = (12.96, 13.062) liegt.
Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung
der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n “flach” verläuft.
Im Weiteren benötigen wir noch zwei Verteilungen, die beide mittels der Gammafunktion
definiert werden.
Anmerkung 139 Die Gammafunktion ist für positive x durch
Z ∞
Γ(x) :=
e−t tx−1 dt
0
definiert.
Beispiel 140 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist
durch
(
0
x≤0
f (x) :=
1
−x/2 xn/2−1 x > 0
e
2n/2 Γ(n/2)
R∞
definiert. Dabei ist Γ(x) die für x > 0 definierte Gammafunktion Γ(x) := 0 e−t tx−1 dt. Man
kann E(X) = n und V (X) = 2n zeigen (etwa in [12]). Der “Freiheitsgrad” n kommt daher,
150
Statistik
daß man für n unahbhängige
N (0, 1)-verteilte Zufallsvariable Xi : Ω → R zeigen kann, daß
P
die Zufallsvariable ni=1 Xi2 : Ω → R eine χ2 -Verteilung in n Freiheitsgraden hat. Die Ideee
der Herleitung ist ähnlich, wie im Falle der Gleichverteilung in Beispiel 120 2.
Beispiel 141 (tn -Verteilung oder Studentverteilung7 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → R ist durch
−(n+1)/2
1 Γ((n + 1)/2)
x2
fX (x) := √
1+
Γ(n/2)
n
nπ
n
gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2
. Im
weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine
χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat.
Y /n
Anmerkung 142 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten für eine beliebige, reellwertige N (µ, σ)-verteilte Zufallsvariable X:
• Das Stichprobenmittel
n
X̄ =
1X
Xi
n
i=1
ist für unabhängig durchgeführte Experimente N (µ, √σn )- verteilt (siehe Beispiel
129).
• Die normierte Stichprobenvarianz
Y :=
n
1 X
(Xi − X̄)2
σ2
i=1
erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz
n
S 2 :=
1 X
(Xi − X̄)2
n−1
i=1
in der Gleichung
Y =
(n − 1)S 2
σ2
vorkommt.
• Die Stichprobenfunktion
X̄ − µ √
√
n,
S2
7
Sie wurde von W.S. Gosset auf empirischem Weg gefunden und er hat sie unter dem Pseudonym “Student”
1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen.
4.2. Schätz- und Testverfahren
151
(welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen
√
n ist – das Z ist wie im zentralen GWS Anmerkung 133), ist tn−1 Z = X̄−µ
σ
verteilt.
• Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert
(z.B. in [2]), bzw. in Statistiksoftware, wie z.B. R, zugänglich.
Beispiel 143 Nun zu Schätzungen von σ bzw. µ, bei denen man χ2n−1 und tn−1 benützt.
1. (Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ)-verteilte Zufallsvariable)
Es sind für vorgegebene Irrtumswahrscheinlichkeit α Stichprobenfunktionen θ : Rn →
R und θ : Rn → R für µ (vgl. den Beginn, Unterabschnitt 4.2.2) gesucht, wobei über σ
nichts bekannt ist, derart daß durch nach n-maligem unabhängigen Zufallsexperiment
vorliegendem Datenmaterial x = (x1 , . . . , xn ) ∈ Rn mit Konfidenzniveau (1 − α) die
Aussage
P (µ ∈ (θ(x), θ(x)) ≥ 1 − α
getroffen werden kann.
√
Antwort(findung): Wie in Anmerkung 142 ausgeführt, genügt X̄−µ
n einer tn−1 S
Verteilung. Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert
vorliegt), so hat man in Analogie zu Beispiel 138, 2.
P (|
X̄ − µ √
n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α,
S
wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hiezu die
an Beispiel 129 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der
tn−1 -Verteilung ([10]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 .
Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 138 2.
ergibt
zS
zS
P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α.
n
n
P
1 Pn
2
Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1
i=1 (xi − x̄) ,
α
und z die Lösung von Tn−1 (z) = 1 − 2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung).
Wie in Beispiel 138 2., soll das unbekannte µ aus der Meßtabelle von Beispiel 135 2.
analog wie dort für Irrtumswahrscheinlichkeiten α ∈ {0.01, 0.1} geschätzt werden, wo
es um die Länge l einer als normalverteilten Zufallsvariablen (weil mit Fehler behaftet
– vgl. den Abschnitt nach Anmerkung 133) ging.
Antwort(findung): Der Bequemlichkeit halber sei die Meßtabelle nochmals angeführt.
Aus ihr ging hervor, daß n = 10 und x̄ = 13.01 war.
152
Statistik
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Es ist s̄2 = 19 (4×0.092 +3×0.112 +0.192 +0.212 +0.012 ) ≈ 1.65×10−2 . also s̄ = 1.3×10−1 .
Nun wird das 1 − α2 Quantil der t9 -Verteilung bestimmt, es ergibt sich aus einer Tabelle
(z.B. in [10] S 61 ff)
z9;1− 0.01 = z9;0.995 ≈ 3.250 z9;1− 0.1 = z9;0.95 ≈ 1.833.
2
2
Dementsprechend ergibt sich der Term
−2
zs̄
√
n
zu
−2
3.250×3.96×10
√
10
≈ 4.07 × 10−2 ≈ 0.041
√
für α = 0.01 und zu 1.833×3.96×10
≈ 0.023 für α = 0.1. Entsprechend ergeben sich als
10
zs̄
zs̄
√
√
Intervalle (s̄ − n , s̄ + n ) im 1.ten Fall (12.93, 13.08) und im 2.ten Fall (12.94, 13.14).
Antwort: Unter der Annahme einer N (µ, σ)-Verteilung ist die Länge l mit 99%-iger Sicherheit im Intervall (12.93, 13.08), bzw. mit 90%-iger Sicherheit im Intervall (12.94, 13.14).
Die Normalverteilungsannahme ergibt somit ein klein wenig mehr Genauigkeit als Beispiel 138 2.
2. (Intervallschätzung für σ einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R
bei nicht bekanntem µ. ) Diese Schätzung ist vorallem dann interessant, wenn man
nur wissen will, ob die Meßwerte stark streuen.
Man bestimme Stichprobenfunktionen θ, θ : Rn → R, sodaß bei gegebener Irrtumswahrscheinlichkeit α und entsprechender Tabelle von n unabhängigen Meßdaten mit
Konfidenzniveau 1 − α die Varianz σ 2 im Intervall (θ(x), θ(x)) liegt.
Antwortfindung: Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß
die Ungleichung
|σ 2 − σ̂ 2 | < z
mit P
Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 =
n
1
2
i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten
n−1
mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt.
P
Wegen Anmerkung 142 ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist
P (a ≤ Y ≤ b) = F (b) − F (a),
wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen
2
1 Pn
2
(zur Erinnerung, S 2 = n−1
Y = (n−1)S
i=1 (Xi − X̄) ) in äquivalenter Form als
σ2
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
b
a
angeschrieben werden kann, ergibt sich
P(
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
) = F (b) − F (a) = 1 − α,
b
a
sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2
4.2. Schätz- und Testverfahren
153
und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt
aber F (b) − F (a) = 1 − α.
Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die
1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die
(n−1)s2
1 Pn
1 Pn
Funktionen s2 = n−1
i=1 (xi − x̄) (wobei x̄ := n
i=1 xi ) und findet θ(x) =
b
2
. Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so
und θ(x) = (n−1)s
a
wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit
≥ 1 − α in diesem Intervall liegt.
Es soll für die im vorigen Beispiel angegebene Meßreihe ein Konfidenzintervall mit
Irrtumswahrscheinlichkeit α = 0.1 bestimmt werden.
Antwortfindung: Wie eben gesagt, brauchen wir das α2 = 0.05 Quantil a, bzw. 1 − α =
0.95 Quantil b für die χ9 -Verteilung (weil es 10 Meßpunkte sind). Man findet a = 3.325
und b = 16.92 aus einer entsprechenden Tabelle ([10], S 61ff). Das s2 = 1.66 × 10−2
wurde schon im vorangehenden Beispiel bestimmt.
Die Intervallgrenzen ergeben sich zu
9×1.66×10−2
≈ 0.0448.
3.325
(n−1)s2
b
=
9×1.66×10−2
16.92
≈ 0.0088 und
(n−1)s2
a
=
Antwort: Die Varianz σ 2 liegt mit 90%-iger Sicherheit im Intervall (0.009, 0.045).
Es soll zum Abschluß eine mit 90%-iger Sicherheit geltende obere Grenze für σ 2 angegeben werden. (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser
Wert ist.)
Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es
ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das
−2
≈ 0.036.
rechte Intervallende zu 9×1.66×10
4.168
Antwort: Mit 90%-iger Wahrscheinlichkeit ist die Varianz σ 2 < 0.036 ist.
4.2.3
Statistische Testverfahren
Hier soll nur ein Einblick für 1-dimensionale Zufallsvariable bzw. Parametertests für 1parametrige Verteilungen behandelt werden.
1. Es sei eine Zufallsvariable X : Ω → R gegeben, über deren Verteilung eine Aussage,
die sogenannte Nullhypothese H0 vorliegt. (z.B. “X hat einen Erwartungswert ≥ 50”,
konkreter “Die Partei XY wird demnächst mindestens 50% der Parlamentssitze bekommen”) oder “Die Strahlungskonzentration um die Unglücksstelle ist mit der Entfernung
exponentialverteilt mit Exponent λ > 50”.
Ein Testverfahren zur Widerlegung einer Nullhypothese im ersten Fall heißt Parametertest (hier wäre der Parameter θ := µ = E(X)), im anderen Fall spricht man vom Anpassungstest (nämlich ob die Meßdaten einer Exponentialverteilung “angepaßt” sind).
Beim Parametertest besteht die Nullhypothese in der Aussage “θ ∈ Θ0 ” (im obigen
154
Statistik
Fall ist Θ0 = [50, ∞)) und die Alternativhypothese in “θ ∈ Θ1 ” für Parameterbereiche Θ0 , Θ1 ⊆ R, von der man die Unvereinbarkeit mit H0 fordert (also z.B. H0 :
“θ ∈ Θ0 := [45, 55]” und H1 :“θ ∈ Θ1 := [0, 30]”).
In abstrakter Fassung: Man weiß, FX ∈ F, einer Menge von Verteilungen. H0 bedeutet
die Aussage “FX ∈ F0 ” für eine gewisse Teilmenge F0 ⊂ F und H1 , daß FX ∈ F \ F0
ist.
Parametrische Form: F = {Fθ | θ ∈ Θ} und F0 = {Fθ | θ ∈ Θ0 }
2. Grundsätzlich sollte H0 widerlegt werden (auch wenn das nicht immer der Fall ist)
und man gibt zunächst ein Signifikanzniveau α (meist in {0.1, 0.01, 0.001}, manchmal
auch kleiner) vor, nämlich dafür, daß man H0 im Zuge des Verfahrens ungerechtfertigt
verwirft (sogenannter Fehler 1.Art).
Nun konstruiert man eine Testfunktion T : Rn → R, deren Verteilung F unter der Annahme von H0 bekannt ist. Weiters wird ein Ablehnungsbereich oder kritischer Bereich
Kα ⊆ R konstruiert (meist ein Intervall), und zwar durch die Bedingung
P (T X ∈ Kα ) ≤ α,
wobei die bekannte Verteilung F zur Berechnung herangezogen
R ∞wird. Etwa, wenn f eine
Dichte der Verteilung F von T X ist, durch P (T X ∈ Kα ) = −∞ T (x)f (x) dx.
Abstrakt: Man konstruiert T : Rn → R, sodaß T X eine Verteilung F besitzt, die sich
für jedes F0 ∈ F0 mittels T berechnen läßt.
Im parametrischen Fall ist F = Fθ als Funktion von θ ∈ Θ0 ausdrückbar. Insbesondere
ist P = Pθ von diesem θ abhängig.
3. Es werden n unabhängige Messungen der Variablen X gemacht. Beschrieben wird das
durch einen Zufallsvektor X : Ω → X mit Realisierung x ∈ Rn (die gemessene Tabelle).
Danach wird mittels der konreten Stichprobe x ∈ Rn getestet: ist T (x) ∈ Kα (d.h., wenn
der Wert der Testfunktion im kritischen Bereich liegt), so lehnt man H0 ab, andernfalls
gilt sie als aufgrund des statistischen Befundes nicht abzulehnen.
4. Wird H0 aufgrund der Daten nicht verworfen, obwohl H0 falsch ist, begeht man einen
Fehler 2.Art.
Als Gütefunktion bezeichnet man g : F → [0, 1] definiert durch
8
g(F ) := PF (T X ∈ Kα )
Für F ∈ F0 ist g(F ) die Wahrscheinlichkeit dafür, einen Fehler 1.Art, für F ∈ F \F0 die
Wahrscheinlichkeit dafür, daß der Test das erkennt, m.a.W., daß auf F die Alternative
Hypothese H1 zutrifft und die Nullhypothese H0 zurecht verworfen wurde.
Die Einschränkung von g auf F0 heißt Irrtumswahrscheinlichkeit 1.Art, und 1 − g das
Konsumentenrisiko.
8
Es ist PF ((−∞, x)) = F (x), somit PF das von der Verteilungsfunktion bestimmte Maß.
4.2. Schätz- und Testverfahren
155
Die Einschränkung von g auf F \ F0 heißt Trennschärfe (auch Macht, Power) des
Testverfahrens und 1 − g Irrtumswahrscheinlichkeit 2.Art.
Auf die Gütefunktion soll hier nicht eingegangen werden. Siehe hiezu z.B. [12].
Beispiel 144 (Parametertests) Die einfache Nullhypothese lautet H0 : θ = θ0 . Dabei kann
θ eine Wahrscheinlichkeit, eine Streuung, etc. sein. Getestet wird üblicherweise gegen eine
der folgenden Alternativen H1 :
• θ 6= θ0 : wenn z.B. das Werkstück das Ausmaß θ0 und weder zu lang oder kurz sein darf;
• θ < θ0 : wenn z.B. θ0 die vom Werk behauptete Funktionsdauer eines technischen Geräts
ist;
• θ > θ0 : wenn z.B. θ0 die von der Firma behauptete Maximalzahl der Produktionsfehler
einer Lieferung ist;
1. Jemand möchte zeigen, daß eine Münze nicht regelmäßig ist, und möchte sie n mal
(unabhängig) werfen, um die Häufigkeit von K (Kopf), bzw. Z (Zahl) zu ermitteln
(ein Bernoulliexperiment, vgl. Beispiel 131). Dazu werde eine Irrtumswahrscheinlichkeit
α = 0.05 angegeben und, unter der Annahme daß man P ({K}) ∈ (0.4, 0.6) geschätzt
wird, soll die Wahrscheinlichkeit β einen Fehler 2.Art zu begehen, höchstens gleich 0.05
sein. Nach welcher Regel entscheidet man?
Antwortfindung:
Liegt ein parametrischer Test vor? Wie lauten Θ und θ, falls ja?
Antwort: Es liegt ein parametrischer Test mit θ = p ∈ Θ = [0, 1] als Parameter.
Wie formuliert man H0 und H1 ? Wie lauten Θ0 und Θ1 ?
Antwort: Man will die Nullhypothese H0 “P ({K}) = 12 ” durch Experiment widerlegen.
Θ0 = { 21 }.
Als Alternativhypothese H1 wurde “|p − 12 | ≥ 0.1” formuliert. Demnach ist Θ1 =
[0, 0.4] ∪ [0.6, 1].
Wie können T und der Ablehnungsbereich konstruiert werden?
Antwort(findung): Wie bei allen Bernoulliexperimenten ist lediglich das Eintreten eines
Ereignisses (hier K) von Interesse und somit beobachtet man die Zufallsvariable X :
Ω = {K, Z} mt Wert 1 oder 0, je nachdem, ob K oder Z kommt. Entsprechendes nfaches unabhängiges Werfen
wird durch den Zufallsvektor X : Ω → {0, 1}n beschrieben
1 Pn
und danach ist X̄ := n i=1 Xi : Ω → R jene Zufallsvariable, die nach Auswerten
der Meßergebnisse
die relative Häufigkeit kn0 annimmt. Sie gibt Anlaß, die Funktion
1 Pn
T (x) := n i=1 xi : Rn → R als Testfunktion heranzuziehen.
Den Ablehnungsbereich Kα besorgen wir uns ähnlich, wie man ein Konfidenzintervall
konstruiert: Es genügt z ≥ 0 mit P (|X̄ − 21 | ≥ z) = α = 0.05 anzugeben. Weil |X̄ − 21 | ≥
z ⇔ −z ≤ X̄ − 12 ≤ z ist, ergibt sich
1
1
P (|X̄ − | > x) = 1 − P ((|X̄ − | ≤ x) = 1 − (FX̄− 1 (x) − FX̄− 1 (−x)).
2
2
2
2
156
Statistik
Unter der Annahme von H0 kann die Verteilung von T X = X̄ mittels des zentralen
X̄− 1 √
GWS (Anmerkung 133) approximativ bestimmt werden, weil ja Z = 1/22 n approximativ N (0, 1)-verteilt ist. Das ergibt
√
√
√
1 − α = FX̄− 1 (x) − FX̄− 1 (−x) = Φ(2x n) − Φ(−2x n) = 2Φ(2x n) − 1,
2
2
√
also die Gleichung Φ(2x n) = 1 − α2 , die nach Ermittlung des entsprechenden Quantils
z1− α2 = z0.975 = 1.960 auf
√
2x n = 1.960
führt, sodaß sich in Abhängigkeit von n als Ablehnungsbereich
1 0.98 1 0.98
K0.05 = [0, 1] \ ( − √ , + √ )
2
n 2
n
eignet.
Wie formuliert man die Bedingung, daß die Wahrscheinlichkeit, einen Fehler 2.ter Art
zu begehen, höchstens β ist?
Antwort: Dazu benützt man die Gütefunktion g für Werte von Parametern, auf die H1
zutrifft. Die Gütefunktion ist für p ∈ Θ1 = [0, 0.4] ∪ [0.6, 1] definiert durch g(Fp ) =
√ ).
Pp (|T X − 21 | ≥ 0.98
n
2. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable mit bekanntem σ. Weiters sei
H0 die Nullhypothese “µ = µ0 ”. Gegeben sei ein Signifikanzniveau α. Man beschreibe
ein Testverfahren für H0 gegen die Alternativhypothese “µ 6= µ0 ”.
Antwortfindung: Es liegt nahe, Θ0 = {µ0 } und Θ1 := R \ {µ0 } zu wählen. Nun kan man
das Problem mittels eines Intervallschätzers behandeln: Die Forderung an Kα , nämlich
Pµ0 (X ∈ Kα ) ≤ α
und die Symmetrie der Gaußverteilung um µ legen es nahe, Kα als Komplement eines
Konfidenzintervalls für die Irrtumswahrscheinlichkeit α zu bestimmen.
3. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable und H0 die Hypothese “σ = σ0 ”,
sowie H1 die Alternativhypothese “σ 6= σ0 ”. Wie kann für gegebenes Signifikanzniveau
α ein Testverfahren konstruiert werden?
Antwort: Auch hier genügt es, Kα als Komplement eines Konfidenzintervalls zur Vertrauensgrenze 1 − α anzunehmen.
4. Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese “µX = µY ” und H1
die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung
von H0 zu entwickeln.
Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y
als normalverteilt (vgl.Beispiel 129). Nun betrachtet man das neue Problem Z = 0 versus Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau
1 − α festlegt.
4.2. Schätz- und Testverfahren
157
Als Ergebnis dieser Vorgangsweise findet man den t-Test:
s
X̄ − Ȳ
nX nY (nX + nY − 2)
T (X, Y ) := q
.
nX + nY
(n − 1)S 2 + (n − 1)S 2
X
Y
X
Y
Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen.
Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt.
Beispiel 145 (Anpassungstest)
1. (χ2 -Test) Es sei X : Ω → R eine Zufallsvariable mit Verteilung FX , F0 eine Verteilung
(z.B. Normalverteilung oder Gleichverteilung, alle Parameter darin sollen als bekannt
festliegen!) und die Nullhypothese H0 durch “FX = F0 ” gegeben.
Ein Grenzwertsatz der folgenden Art wird benützt:
Es werden mittels einer Tabelle (xk | k = 1, . . . , n) von unabhängig ermittelten Meßwerten von X zunächst Klassen gebildet, d.h. eine Unterteilung von R in paarweise
disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann
hk :=
|{i | xi ∈ [ak , bk )}|
n
die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie
approximativ gleich pk ist. Die Theorie zeigt nun, daß für hinreichend großes n die
Pearsonsche Stichprobenfunktion
χ2 := n
X (hk − pk )2
k
pk
=
X (|{i | xi ∈ [ak , bk )}| − npk )2
npk
k
approximativ χ2m−1 -verteilt ist.
Die Hypothese “FX = F0 ” wird demgemäß verworfen, wenn bei gegebenem Signifikanzniveau α der Wert der Pearsonschen Stichprobenfunktion für dieses Datenmaterial das
α-Quantil χ2α;m−1 überschreitet.
Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk >
einzuhalten (wegen der “versteckten” Benützung des zentralen GWS).
9
pk qk
Ein Würfel wird 1000 mal geworfen und es ergibt sich die Meßreihe
Augenzahl
1
2
3
4
5
6
Häufigkeit 168 173 164 167 162 166
Für das Signifikanzlevel α = 0.005 soll gecheckt werden, ob es sich um Gleichverteilung
handelt (vgl. Beispiel 86 und Definition 90).
Antwort(findung): Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede
erfüllt nk > 160 ≥ 95 = 64.8.
36
158
Statistik
Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000
6 zu berücksichtigen ist:
χ2 =
1000 2
2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2
(173 − 1000
6 )
6 )
6
6
6
6
+
+
+
+
+
1000
1000
1000
1000
1000
1000
6
6
6
6
6
6
(168 −
Es ergibt sich als Wert
107
250
= 0.428.
Nun berechnet man das 1 − 0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 =
16.75 ergibt. Dieser Würfel genügt hohen Standards9 .
2. (Kolmogorow-Smirnow Test) Es besitze die Zufallsvariable X : Ω → R eine stetige
Verteilung FX und es sei F0 eine stetige Verteilungsfunktion. Nun sei H0 die Nullhypothese “FX = F0 ”. Man überprüft dies mittels empirischer Verteilungsfunktion Fn , die
sich aus n unabhängiger Messungen (xk | k = 1, . . . , n) von X ergibt.
Der Test beruht auf dem Satz von Gliwenko-Cantelli (Anmerkung 134) in asymptotischer Form:
∞
X
λ
2
P (Dn < √ ) ≈ Q(λ) := 1 + 2
(−1)j e−2(jλ) .
n
j=0
wobei Dn = maxk |Fn (xk ) − F0 (xk )| als Approximation der Kolmogorowdistanz von FX
und Fn fungiert. Die Funktion auf der rechten Seite kann für viele Zwecke ab λ ≥ 4
2
durch die einfachere Q(λ) ≈ 1 − 2e−λ ersetzt werden, für die meisten praxisnahen
α ∈ {0.1, 0.05, 0.01, 0.005, 0.001} liegt sie in tabellierter Form vor.
Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α gefunden und
√
man verwirft H0 “FX = F0 ”, wenn Dn n > λ1−α ist.
Wie testet man das vorige Beispiel mit dem KS-Verfahren?
Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel
113 1 ausgeführt worden ist.
Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5
Messungen folgende Meßreihen
Gerät A 15.1 17.2 19.3 20.4 21.3
Gerät B 15.2 17.1 19.4 20.5 21.2
Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide
Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist.
Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre
Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit
9
Gut möglich, daß die Messungen “frei erfunden” sind.
4.3. Kovarianz und lineare Regression
159
gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall
[15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt
D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1
√
und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet
für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563
kann die Nullhypothese “Gerät A und Gerät B messen die gleiche Verteilung” nicht
abgelehnt werden.
Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange
Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 –
23?
Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [24]).
4.3
a)
Kovarianz und lineare Regression
b)
c)
Im folgenden soll (X, Y ) : Ω → R2 eine vektorwertige Zufallsvariable sein. In der obigen
Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien
erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y )
und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 113 4.) begreifen. Auch
Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und
Deviationsmomenten, worauf hier nicht eingegangen werden soll.
In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung
der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit “hoher Wahrscheinlichkeit”
schließen wollen. Praktische Probleme dieser Art wären z.B. “In welchem Maße beeinflußt
die Zugabe des Wirkstoffes X das Ertragsaußmaß Y” (hier vermutet man, kennt jedoch den
direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig
gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist,
bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird.
160
Statistik
Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden
2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind:
Beispiel 146 Es sei (X, Y ) : Ω → R2 eine Zufallsvariable mit Erwartungswert (µX , µY ) und
die skalaren Zufallsvariablen haben (natürlich Erwartungswerte µX , bzw. µY ) und Varianzen
V (X), V (Y ). Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b),
d.h., die Verteilung entlang eines “Durchmessers”. Sichtlich ist E(Za,b ) = aE(X) + bE(Y )
weil E linear ist (vgl. Anmerkung 119). Für die Varianz bekommt man nach etwas Rechnung
V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ).
Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) −
E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird
V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y )
eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist:
1. Ohne Einschränkung wählen wir ein Koordinatensystem in R2 mit (µX , µY ) = (0, 0).
2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt
p
aX + bY = X 2 + Y 2 cos((X, Y ), (a, b))
die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b).
p
3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b)
streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet
für den Winkel
p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert
von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse,
in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse
ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über
etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man
in der obigen Skizze in b) recht deutlich.
4. Analyse der Ellipsen: Als quadratische Form hat
2
2
V (aX+bY ) = a V (X)+2abcov (X , Y )+b V (Y ) = (a, b)
V (X)
cov (X , Y )
cov (X , Y )
V (Y )
unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der
Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 )
und Differenzieren auf
V (X) − λ cov (X , Y )
a
0
=
,
cov (X , Y ) V (Y ) − λ
b
0
und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des
EWP ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit
kann man in b) der obigen Skizze die Ellipse einzeichnen.
a
b
4.3. Kovarianz und lineare Regression
161
5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare
Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX 0, bzw.
0 = a0 (X − µX ) + b0 (Y − µY )
angeben, wobei für V (X) 6= 0 man
(a0 , b0 ) = (−cov (X , Y ), V (X ))
bekommt.
6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede
2-dimensionale Gaußverteilung von der Form
f (x, y) =
mit
Q(x, y) =
1
2(1 − ρ2 )
1
p
e−Q(x,y)
2πσX σY 1 − ρ2
(x − µX )(y − µY ) (y − µY )2
(x − µX )2
− 2ρ
+
2
σX σY
σX
σY2
)
ist. Dann erweist sich ρ = covσX(Xσ,Y
. Damit folgt für Normalverteilungen aus der UnY
korreliertheit auch die Unabhängigkeit.
Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des
Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn.
Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr
als 2 Variablen.
Definition 147 (Ausgleichsgerade) Es sei (X, Y ) : Ω → R eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ R2 der Aufgabe
E((Y − aX − b)2 ) ⇒ Minimum
gebildete Gerade mit der Gleichung
y = a0 x + b0
die Ausgleichs- oder Regressionsgerade10 von Y bezüglich X zur gemeinsamen Verteilung von
(X, Y ). Man findet (a0 , b0 ), indem man die Kovarianz
cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY
berechnet als
a0 =
cov (X , Y )
, b0 = µY − a0 µX
V (X)
in Übereinstimmung mit jenen von Beispiel 146 5. Der Vorteil dort wäre die Verfügbarkeit
etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig).
162
Statistik
Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend,
schreiben wir
f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 +
lineare Glieder in x − µX und y − µY
+a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 .
Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion
g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ).
Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl naach a bzw. b verschwinden, wodurch das Gleichungssystem
0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY
entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist.
Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist
genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle
Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt11 :
V (X) + µ2X µX
u
2
2
2
h(u, v) = (V (X) + µX )u + 2µX uv + v = (u, v)
.
µX
1
v
Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische
Form in (u, v) positiv definit, also gilt die Behauptung.
Anmerkung 148 Es gelten die folgenden Aussagen:
Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten
Maßes verteilt, so kann man wegen Anmerkung 96
P das Maß durch Punkte (xi , yi )
angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi =
P ({xi })).
Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche
Gewicht n1 , sodaß unter Verwendung der Gaußnotation:
nE(X) =
X
i
xi =: [x], nE(XY ) =
X
i
xi yi =: [xy], nE(X 2 ) =
X
x2i =: [xx]
i
10
“Regression”, d.i. “Rückschritt”, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und
Pearson zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal
bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem
geringeren Ausmaß. Der Zusammenhang des “Rückschritts” wurde linear angenommen. (Aus [24], S 136).
11
Taylorformel z.B.
4.3. Kovarianz und lineare Regression
163
aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 12 die
Normalgleichungen durch Spezialisierung aus Definition 147 folgen:
a0 =
n[xy] − [x][y]
[y][xx] − [xy][x]
, b0 =
.
2
n[xx] − [x]
n[xx] − [x]2
Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt
werden, um “manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade
wichtiger zu nehmen”.
Regressionskoeffizient: Es heißt
a0 =
cov (X , Y )
,
V (X)
d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X.
Korrelationskoeffizient: Die dimensionslose Größe
ρ :=
cov (X , Y )
σX σY
heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht zeigen
−1 ≤ ρ ≤ 1,
indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die CauchySchwarzsche Ungleichung anwendet.
Man kann zeigen, daß |ρ| = 1 genau dann gilt, wenn Y = aX + b für mit Wahrscheinlichkeit eins gilt. a hat dann das gleiche Vorzeichen wie ρ.
Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß
Z ein N (0, σ)-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen
Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung
[y]
der arithmetischen Mittel x̄ := [x]
n und ȳ := n bekommt man eine empirische
Ausgleichsgerade in der Form
y − ȳ = a(x − x̄).
Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für
V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß
X den Wert x annimmt),
n
1 X
s =
(yi − a − bxi )2 .
n−2
2
i=1
164
Statistik
Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y
nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und
X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 .
Andrerseits sind die Variablen sichtlich nicht unabhängig.
Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [12] nachgelesen werden.
Beispiel 149 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ R2 → R eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvariable mit X, Y unabhängig, so werden
Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt:
1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine
lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f
∂x etc. geschrieben werde
f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ),
wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer
Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches
Problem – gute Kenntnis von f gefordert) und daß weiters die Verteilung von (X, Y )
sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen
kann.
Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ).
2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist
f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 146, sodaß
V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ),
und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz
V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ).
12
In diesem Zusammenhang ist die obige Methode als “Methode der kleinsten Quadrate”, so genannt von
Legendre, der sie zuerst publiziert hat, bekannt ist.
Kapitel 5
Metrische Räume
5.1
5.1.1
Metrische Räume
Grundlegende Definitionen
Definition 150 Ein metrischer Raum besteht aus:
Raum : Einer Menge X, dem Raum, und Elementen, den Punkten.
Abstand/Metrik : Einer Abbildung d : X × X → R, der Metrik oder Abstandsfunktion
mit folgenden Eigenschaften:
1. d(x, y) ≥ 0 für alle x, y ∈ X (Abstand ist
niemals negativ).
2. d(x, y) = 0 genau dann, wenn x = y ist.
3. Für alle x, y ∈ X ist d(x, y) = d(y, x)
(Symmetrie).
4. Für alle x, y, z ∈ X gilt d(x, z) ≤ d(x, y) +
d(y, z) (Dreiecksungleichung – Skizze)
x
z?
 ???

??d(y, z)

??
d(x, z) 
?

jj y
j

j
j

j
 jjjjj
jjjjjj d(x, y)

jj
Beispiel 151 Vorweg einfache Beispiele:
1. (Euklidische Metrik)
(y1 , y2 )
Für die Punkte x = (x1 , x2 ) und y = (y1 , y2 ) der Ebene
2
X
p := R ist der “vertraute” euklidische Abstand d(x, y) :=
(x1 − y1 )2 + (x2 − y2 )2 eine Metrik.
ww
ww
w
ww
ww
(x1 , x2 )www
w
ww
2. Ist X := R und d(x, y) := |x − y| für x, y ∈ R (Absolutbetrag der Differenz), so gelten
die Axiome eines metrischen Raumes.
165
166
Metrische Räume
3. Es sei X die Menge aller n-stelligen 01-Folgen, die wir als Elemente in {0, 1}∗ auffassen,
d.h. in der Form 0001101 · · · 01 (Wörter der Länge n) angeschrieben denken. Nun definiert man d(x, y) als Anzahl der Stellen, an denen sich Wörter x und y unterscheiden.
Es sind die Axiome erfüllt. (Hammingdistanz).
4. Es sei X eine beliebige Menge und d(x, y) = 1 genau dann wenn x 6= y, bzw. d(x, x) = 0.
Die Axiome kann man sehr leicht nachvollziehen. Es ist dies die diskrete Metrik.
5. (Metrik auf dem Kreis)
Auf dem Kreis vom Radius 1 soll eine Distanz d(x, y) zwischen Punkten x, y als
die kürzere der beiden Bogenlängen der
Bögen von x nach y bzw. y nach x (im
Uhrzeigersinn gemessen) definiert. Man
überlegt sich, daß eine formale Definition des Kreises durch Beschreiben als Intervall [0, 2π) und eine Distanzfunktion
durch d(x, y) := min{|x − y|, 2π − |x − y|}
gegeben ist. Durch Fallunterscheidungen
prüft man, daß ([0, 2π), d) die Axiome eines metrischen Raumes erfüllt.
5.1.2
ifda_ ]ZXUSPMJ
GC
qnk
t
• @x;
zw
84
~
1.
,)
'$
"
!
#
%(
*
03
6:
• y
=A
}
EI
x
LOR
ru
TWY[^`cegjlo
|
0
•
x
•
y
Konvergenz
Definition 152 Die folgenden Begriffe sind in jedem metrischen Raum (X, d) für eine Folge
{xn }∞
n=1 formulierbar:
Konvergente Folge: Die Folge {xn }∞
n=1 ist konvergent mit Grenzwert x, im Zeichen x =
limn→∞ xn , falls limn→∞ d(xn , x) = 0 gilt.
Cauchyfolge: Die Folge {xn }∞
n=1 ist Cauchyfolge, wenn zu jedem noch so kleinen positiven
ein N ∈ N mit d(xn , xm ) < für alle m, n ≥ N gibt.
Beispiel 153 Einfache Übungsaufgaben.
p
2 und d(~
1. Es sei X
:=
R
x
,
~
y
)
:=
(x1 − y1 )2 + (x2 − y2 )2 . Ist die Folge ~xn =
1
π
(n sin n , cos( n )) konvergent? Wenn ja, welchen Grenzwert hat sie?
Antwort: Als Grenzwerte der Koordinaten ergibt sich beide male 1. Um die DN genau
nachzuvollziehen, muß jetzt
lim
n→∞
gezeigt werden.
1
2
1
π
2
2
(n sin
− 1) + (cos( ) − 1)
=0
n
n
◦
2π
5.1. Metrische Räume
167
Aus der Konvergenz von |n sin n1 − 1| und | cos( πn ) − 1| gegen Null bei n → ∞ folgt
aus den üblichen Rechenregeln für konvergente Folgen im R1 , daß der obige Grenzwert
gleich (1, 1) ist.
2. Ist auf X := R+ durch d(x, y) := x1 − y1 eine Metrik gegeben? Ist die Folge {an }∞
n=1
∞
mit an := n+1
n } bezüglich dieser Metrik konvergent? Ist die Folge {bn }n=1 mit bn := n
∞
∞
konvergent? Ist die Folge {an }n=1 eine Cauchyfolge? Ist die Folge {bn }n=1 eine Cauchyfolge?
Antwort: Wie die Metrik zustandekommt,
zeigt die nebenstehende Abbildung. Es
mag hilfreich sein, selbst Skizzen anzufertigen, welche die Konvergenzaussagen verdeutlichen.
O
d(x, y) Graph von y =
1
x
•
•
y
x
Nachweis der Axiome
d(x, y) ≥ 0 ist sicher stets richtig. Symmetrie ist auch
der Metrik.
1 1
klar. Aus d(x, y) = x − y = 0 schließt man x = y. Die Dreiecksungleichung ergibt sich
aus der für den Absolutbetrag:
1 1 1 1 1 1 1 1 1 1
d(x, z) = − = − + − ≤ − + − = d(x, y) + d(y, z).
x z
x y y z
x y
y z
Jetzt zu den Konvergenzuntersuchungen: Im Fall der Folge {an }∞
n=1 erhofft man als
Grenzwert 1 und betrachtet
1
1 1
.
d(an , 1) = n+1 − =
n
1 n + 1
1
= 0 (im üblichen Sinn), also gilt im Sinne der
Es ist limn→∞ d(an , 1) = limn→∞ n+1
Definition unserer Metrik limn→∞ an = 1.
Auch die Definition der Cauchyfolge läßt sich bei {an }∞
n=1 nachvollziehen:
1
1 |m − n|
d(an , am ) = n+1 − m+1 = · · · =
.
n
(m
+
1)(n + 1)
m
Ist dann > 0 vorgegeben, dann kann z.B. N ∈ N so gewählt werden, daß N > 2 gilt.
Sind dann m und n beide ≥ N , so kann der Ausdruck ganz rechts weiter abgeschätzt
werden, nämlich
1
1
2
|m − n|
≤
+ ≤
< .
(m + 1)(n + 1)
m n
N
Somit liegt eine CF vor.
Die Folge {bn }∞
n=1 mit bn = n erweist sich ebenfalls als CF. Wählt man > 0 beliebig
und N > 2 , so findet man für alle m, n ≥ N die Abschätzung
1
1
1
1
2
d(bm , bn ) = − ≤
+ ≤
< .
m n
m n
N
168
Metrische Räume
Die Folge konvergiert nicht: Angenommen x ∈ R+ wäre ein Grenzwert. Dann ist
1
1
1
0 = lim d(bn , x) = lim − = · · · = ,
n→∞
n→∞ n
x
x
wobei “. . .” entsprechendes Anwenden der Grenzwertregeln im üblichen Sinn konvergenter Folgen bedeutet. Jedenfalls hat 0 = x1 keine Lösung x in R+ – die Folge konvergiert
nicht.
3. Es sei auf den Wörtern der Länge n wie in Beispiel 151 3. die Hammingdistanz gegeben.
Wie kann limn→∞ xn = x ausgedrückt werden?
Antwort: Die Konvergenz ist genau dann gegeben, wenn ab einem Index N stets x = xn
für n ≥ N gilt. Die gleiche Antwort bekommt man in Beispiel 151 4. für die diskrete
Metrik.
4. Wie kann man in 5. von Beispiel 151 nachweisen, daß limn→∞ (2π − n1 ) = 0.
Antwort: d(0, xn ) = min{|xn |, |2π−xn |} = min{2π− n1 , n1 } = n1 . Hieraus folgt limn→∞ d(0, xn ) =
0, was zu zeigen war.
Definition 154 (Vollständigkeit) Der Raum X heißt bezüglich der Metrik d vollständig,
falls jede Cauchyfolge konvergent ist. Man sagt dann auch, daß (X, d) vollständig ist.
Anmerkung 155 Es gelten folgende Fakten in einem metrischen Raum (X, d):
1. Jede konvergente Folge {xn }∞
n=1 ist auch Cauchyfolge.
2. Nicht jede Cauchyfolge muß notwendigerweise konvergieren (vgl. Beispiel 153,
2.). Ist (X, d) jedoch vollständig, so konvergiert (auf Grund der Definition der
Vollständigkeit) jede Cauchyfolge {xn }∞
n=1 gegen ein x ∈ X.
Es soll der Nachweis für 1. erbracht werden: Angenommen, die Folge {xn }∞
n=1 konvergiert. Nun sei > 0 vorgegeben. Um die CF-Eigenschaft zu beweisen, muß ein N ∈ N mit
d(xm , xn ) < für alle m, n ≥ N gefunden werden. Weil limn→∞ d(xn , x) = 0 gibt es N ∈ N
mit d(xn , x) < 2 für alle n ≥ N . Dann ist für alle m, n ≥ N sowohl d(xn , x) < 2 als auch
d(xm , x) < 2 , sodaß die Dreiecksungleichung für all diese m, n die geforderte Ungleichung
d(xm , xn ) ≤ d(xm , x) + d(x, xn ) <
ergibt. Somit ist {xn }∞
n=1 eine Cauchyfolge.
+ =
2 2
5.1. Metrische Räume
169
˜
Anmerkung 156 (Vervollständigung) Zu (X, d) kann eine Vervollständigung (X̃, d)
konstruiert werden mit folgenden Eigenschaften:
1. X kann als Teilmenge von X̃ betrachtet werden.
˜ y) = d(x, y) (X ist isometrisch in X̃ eingebettet).
2. Wenn x, y ∈ X, so ist d(x,
3. Jede Cauchyfolge in X̃ (und somit jede in X) konvergiert in X̃ bezüglich der Metrik
˜ M.a.W. der Raum (X̃, d)
˜ ist vollständig.
d.
4. Zu jedem x̃ ∈ X̃ gibt es eine Cauchyfolge {xn }∞
n=1 mit Werten in X, die im Sinne
der Metrik d˜ gegen x̃ konvergiert. (Man sagt auch, die Einbettung von X liegt dicht
in X̃).
Eine gängige, mengentheoretisch fundierte Konstruktion der Vervollständigung findet man
∞
in Unterabschnitt A.4.1. Sie beruht im Prinzip darauf, Cauchyfolgen {xn }∞
n=1 und {yn }n=1
als äquivalent zu erachten, wenn d(xn , yn ) nach Null konvergiert (was ja auf die Folgen zutrifft, falls sie gegen den gleichen Grenzwert in X konvergieren). Diese Äquivalenzklassen von
Cauchyfolgen sind in ihrer Gesamtheit zwar schwer vorstellbar, am besten, man denkt sich
jede Klasse durch eine “Lieblingsfolge”, die zum “ideellen Grenzwert” strebt, repräsentiert.
Beispiel 157 Die nächsten Beispiele sollen Intuition wecken.
1. (Vervollständigung eines metrischen Raumes durch
Zugabe
eines Punktes) In Beispiel
1 1
+
153 2. war X = R und die Metrik d(x, y) := x − y gegeben. Inspektion des Beispiels
läßt erkennen, daß alle Cauchyfolgen in dieser Metrik entweder Cauchyfolge im üblichen
Sinn und Grenzwert (auch im üblichen Sinn) ungleich Null, oder (im üblichen Sinn)
gegen Unendlich strebende Folgen sind. Es erscheint naheliegend, formal einen Punkt
x̃ zu R+ “am rechten Ende” hinzuzufügen (womöglich mit der Bezeichnung “∞”) und
die Metrik d wie folgt zu einer Metrik d˜ auszudehnen, indem für x, y ∈ R+ als Metrik
˜ y) := d(x, y) genommen wird und
d(x,
˜ ∞) := 1 , d(∞,
˜
d(x,
∞) := 0
x
˜ ganz leicht nach.
festgelegt wird. Man prüft die Metrikaxiome für (R+ ∪ {∞}, d)
√
2. ( 2 als Äquivalenzklasse von Cauchyfolgen – Babylonische Methode) Beim Übergang
von den rationalen Zahlen Q zu R ist es die Cantorsche Methode, welche in verallgemeinerter Form die Konstruktion in Unterabschnitt A.4.1 ist.
√
√
Wenn z.B. jemand das Symbol 2 hinschreibt und danach etwa 2 = 1.414213562,
denkt man eher an eine Folge von rationalen Zahlen
(1.0, 1.4, 1.41, 1.4142, 1.41421, 1.414213, 1.4142135, 1.41421356, 1.414213562, . . .),
170
Metrische Räume
die bei erschöpftem Bedarf an Genauigkeit abgebrochen wird.
Jemand kann aber auch, die Babylonische Methode benützend, eine Folge rationaler
1
für n ∈ N festlegen, die bekanntermaßen
Zahlen durch x0 := 1, xn := 21 xn−1 + xn−1
√
gegen 2 konvergiert, man findet als neue Folge
17
3
577
≈ 1.4166667,
≈ 1.1414215686, . . .),
( = 1.5,
2
12
408
√
eine wesentlich rascher zum gleichen “ideellen” Grenzwert 2 konvergente Folge.
√
√
Es ist diese Idee, die Zahl 2 als√Gesamtheit aller nach 2 konvergenten Folgen rationaler Zahlen anzusehen, welche 2 zum Körper der rationalen Zahlen “hinzufügt”.
3. (Raum stetiger Funktionen nicht vollständig in der L1 -Metrik) Auf X :=
C[−1, 1], dem
R 1 auf dem Intervall [−1, 1] stetigen Funktionen, soll eine Metrik durch
d(f, g) := −1 |f (x) − g(x)| dx definiert werden. Wir werden in Beispiel 197 4. zeigen,
daß tatsächlich eine Metrik auf X vorliegt. Geometrisch ist klar, was die Metrik “mißt”:
die “absolute” Fläche, die vom Graphen von f , jenem von g und den in −1 und 1
errichteten Ordinaten liegt.
Nun soll der Graph der Funktion fn durch den Streckenzug, der die Punkte (−1, −1),
(− n1 , −1), ( n1 , 1) und (1, 1) verbindet, gegeben sein (der ausgezogene Streckenzug). Die
Deutung der Metrik im Auge behaltend ergibt sich für m, n ∈ N der Wert von d(fn , fm )
als zweimal der Flächeninhalt des schmalen Dreiecks in der oberen Halbebene das von
2 strichlierten und einer ausgezogenen Linie berandet
wird.
Dessen Höhe ist 1 und die
1
1
Basis hat Länge n1 − m
. Somit ist d(fn , fm ) = n1 − m
und man erkennt, daß die
∞
Folge {fn }n=1 bezüglich dieser Metrik eine Cauchyfolge ist.
1
_ _ _
1
− n1 − m
1
1
m
n
_
_ _
−1
Daß die Folge in X = C[−1, 1] nicht konvergiert, erahnt man aus der Skizze, weil die
Flanken des mittleren Teiles immer steiler werden, und die Grenzfunktion dadurch kaum
stetig werden kann (am Nullpunkt “auseinandergerissen”). Wir wollen den Nachweis
führen, er ist typisch im Umgang mit Metriken auf Funktionenräumen.
5.1. Metrische Räume
171
Angenommen, es gibt eine stetige Funktion f ∈ C[−1, 1], gegen welche die Folge konvergiert. Es sei 1 > a > 0. Ist dann n > a1 , so ist fn (x) = 1. Deshalb muß
Z
1
Z
1
|1 − f (x)| dx ≤
a
|1 − f (x)| dx = d(fn , f )
−1
für alle diese
R 1n gelten. Weil nun für n → ∞ der Wert rechts gegen Null konvergiert,
ergibt sich a |1 − f (x)| dx = 0, und weil f als stetig angenommen wird, ergibt sich
hieraus f (x) = 1 für alle a ≤ x ≤ 1. Dies gilt bei beliebigem positiven a, sodaß f (x) = 1
für alle x > 0 folgt.
Analog zeigt man f (x) = −1 für alle x < 0. Solches f kann an 0 nicht stetig sein. Also
konvergiert die Cauchyfolge {fn }∞
n=1 nicht, sodaß X := C[−1, 1] nicht vollständig ist.
Probleme beim Vervollständigen dieses Raumes:
(a) Für die eine vorliegende CF könnte man einige neue Funktionen “hinzufügen”,
indem man an Null den Funktionswert beliebig festlegt. Dann hätte man einen
Funktionenraum, bei dem man an z.B. endlich vielen Stellen Werte abändern darf.
Dann muß man aber Funktionen als äquivalent ansehen, wenn sie bis auf endlich
viele Stellen gleich sind.
(b) Hat man eine passende Klasse gefunden, so müßte danach der Integralbegriff neu
formuliert werden (dies wird durch das Lebesgueintegral geleistet), weil man ja die
Metrik definiert wissen will.
Es erscheint zweckmäßig, jedes Element der Vervollständigung durch eine Folge von Approximationen als bestimmt zu sehen – dies ist auch der Gesichtswinkel der abstrakten
Konstruktion in Unterabschnitt A.4.1. Es ist auch der Gesichtswinkel, der bei numerischen Methoden vorliegt. Eine Beschreibung der zu approximierenden Elemente gelingt
etwa dann, wenn der zu vervollständigende metrische Raum in isometrischer Weise als
Teilmenge eines vollständigen Raumes aufgefaßt werden kann. In Anmerkung 209 wird
z.B. ein nicht vollständiger Funktionenraum in den Dualraum eines (durchaus nicht
vollständigen) Funktionenraumes isometrisch eingebettet – und weil man, wie dort gezeigt wird, weiß, daß der Dualraum stets vollständig ist, ist der Abschluß des eingebetteten Raumes auch gleich die Vervollständigung.
5.1.3
Fixpunktsatz von Banach und Anwendungen
Anmerkung 158 Es sei (X, d) ein vollständiger metrischer Raum und f : X → X eine
kontrahierende Abbildung, d.h., es existiert ein λ < 1 mit d(f (x), f (y)) ≤ λd(x, y) für
alle x, y ∈ X (hieraus folgt, daß λ ≥ 0 ist). Dann gilt:
1. f ist stetig.
2. Es existiert genau ein p ∈ X mit p = f (p), ein Fixpunkt von f .
172
Metrische Räume
3. Ist x0 ∈ X beliebig, so wird durch die Rekursion xn := f (xn−1 ), wobei n ∈ N läuft,
eine gegen p konvergente Folge definiert.
4. Der Fehler der Approximation kann wie folgt abgeschätzt werden:
d(p, xn ) ≤
d(x0 , x1 )λn
.
1−λ
Der Nachweis folgt in Beispiel 267.
Beispiel 159 Einige Beispiele.
1. (Lineare Funktion im R1 ) Das einfachste Beispiel ist von der Bauart f (x) = ax + b
und die Fixpunktaufgabe x = ax + b.
Welche Lösungen hat die Fixpunktaufgabe?
b
für a 6= 1 eindeutig bestimmte Lösung der Aufgabe,
Antwort: Offenkundig ist x = 1−a
während für a = 1 nur für b = 0 Lösungen (alle x ∈ R) existieren, weil ja f dann die
Identität ist.
Man berechne 3 Werte der Iteration für f (x) = 14 x − 15
2 und Startwert x0 := 20, bzw.
für f (x) := 3x + 60 und Startwert x0 := −25? Konvergiert die Folge der Werte gegen
den Fixpunkt x∗ ?
Antwort(findung): In der Skizze sieht man links die Situation (a, b) = ( 41 , − 15
2 ) und
rechts (a, b) = (3, 60). Jeweils vom Startwert x0 ausgehend findet für den Fixpunkt x∗
(in der Skizze mit einem Stern auf der Abszisse symbolisiert) und die ersten paar Werte
der “Näherungen”:
x0
x1
x2
x3
x4
x∗
−10
20 −2.5 −8.125 −9.53125 −9.8828125
−30 −24 −15
15
105
375
y=x
O






O



x0 x1
x2

•
∗ • •






 


 
y = 3x + 60
y=x
O



(x , x1 )
0
gggg•
g
g
g
g
ggggg

ggggg

g
g
g
g
 ggg
y = x − 15
ggggg (x1 , x2 )
∗•

•
4
2
/
/
5.1. Metrische Räume
173
(Iterationsschritt) Die Skizze veranschaulicht die Iteration. Man geht von einem Wert
x der Abszisse aus, schneidet die dort errichtete (punktiert gezeichnete) Ordinate mit
dem Graphen von f , um den Schnittpunkt (x, f (x)) zu erhalten, legt durch diesen
Schnittpunkt eine achsenparallele Gerade, die man mit der Mediane y = x schneidet,
um den Punkt (f (x), f (x)) zu erhalten, den man auf die Abszisse projiziert, um somit
den Iterationsschritt geometrisch nachvollzogen zu haben.
Für welche Werte (a, b) liegt eine Kontraktion vor? Welches der beiden Beispiele ist
Kontraktion?
Antwort: Es ist f (x) − f (x0 ) = a(x − x0 ), sodaß genau dann eine Kontraktion vorliegt,
wenn |a| < 1 ist.
Wie kann der FPS in den Beispielen angewendet werden?
Antwort: Für a =
1
4
kann X := R and λ :=
1
4
gewählt werden.
1
4,
wie die Iteration zum Fixpunkt konvergiert
Man erkennt im linken Bild für a =
(Treppenzug von links nach rechts verfolgen und die fetten Punkte als gegen den Stern
konvergente Folge erkennen).
Für a := 3 kann der Fixpunktsatz nicht verwendet werden, weil f nicht kontrahiert.
Man sieht das auch: im rechten Bild “läuft die Iteration davon”. (Ein guter Trick ist
es, die Rolle von x und y zu vertauschen.)
Wie lauten im linearen Fall die Formeln für xn ? Wie kann man aus ihnen direkt die
Konvergenz der Iteration bei beliebigem Startwert x0 entscheiden?
Antwort:
xn = an x0 + (1 + a + · · · + an−1 )b,
und wenn a 6= 1 ist, gilt
xn = an x0 +
1 − an
b.
1−a
woraus die Kontraktionsbedingung sich als zur Konvergenz der Folge {xn }∞
n=1 äquivalente Bedingung erweist, außer wenn b = 0 und a = 1 ist.
2. (Fixpunktsatz und babylonische Methode des Wurzelziehens) Welche Konvergenzaussage kann mittels des Fixpunktsatzes
√ für die in Beispiel 157 2. zitierte babylonische Methode,Approximationen
von
2 durch Vorgabe eines Startwertes x0 und
1
2
Iteration xn := 2 xn−1 + xn−1 zu gewinnen, getroffen werden?
Antwortfindung: Es ist nicht schwer, auf f (x) = 12 x + x2 zu kommen. Für den zu
definierenden Raum X ⊆ R
√ müssen die entsprechenden Bedingungen erfüllt sein. Im
vorliegenden Fall kann nur 2 Fixpunkt sein, falls die Folge {xn }∞
n=1 konvergiert. Des+
halb erscheint es sinnvoll X als Teilmenge von R zu wählen, sodaß f auf ganz X
definiert ist. Um λ zu erahnen, kann man
f (x) − f (y)
x−y
174
Metrische Räume
betrachten, was geometrisch der Steigung einer Sehne des Graphen von f bedeutet. Ihr
Anstieg läßt sich durch |f 0 (x)| für x ∈ X abschätzen. Nimmt man nun an, daß in ganz
X die Abschätzung |f 0 (x)| ≤ λ gilt, so folgt aus dem MWS der DR
f (x) − f (y) = f 0 (ξ)(x − y)
mit einem ξ ∈ (x, y), somit
|f (x) − f (y)| ≤ λ|x − y|,
d.i. eine Abschätzung, wie sie im FPS bezüglich der Abstandsmetrik benötigt wird.
Dies vor Augen bestimmt man
f 0 (x) = · · · =
1
1
− 2.
2 x
Man möchte nun ein λ < 1 garantieren, daß für alle x im (noch nicht bestimmten) X
die Abschätzung
1
1
−λ ≤ − 2 ≤ λ
2 x
gilt. Versuchen wir λ := 21 , dann ist der rechte Teil der Ungl. schon erfüllt und es
verbleibt, in äquivalenter Form x2 ≥ 1, also x ≥ 1. Das “Gefühl stimmt noch”, weil ja
√
2 diese Ungleichung erfüllt. Die zweite Forderung steckt “heimlich” in f : X → X,
d.h. aus x ∈ X muß auch f (x) ∈ X ableitbar sein, sodaß sich die folgende Frage ergibt:
Folgt aus x ≥ 1 stets f (x) = 12 x + x2 ≥ 1?
Die Antwort hierauf sind (im vorliegenden Fall) Äquivalenzumformungen:
f (x) ≥ 1 ⇔ x2 − 2x + 2 ≥ 0 ⇔ (x − 1)2 + 1 ≥ 0,
somit erfüllt das Intervall X := [1, ∞) die Voraussetzungen des Fixpunktsatzes für
λ := 21 .
√
2
Antwort: Für jedes x0 ∈ [1, ∞) konvergiert die Folge xn := 21 xn−1 + xn−1
gegen 2.
Wendet man von x0 := 1 ausgehend, 3 Schritte an, d.h. ermittelt man x3 , welche
Genauigkeit gibt der FPS an und welche Genauigkeit wurde in Beispiel 157 2. gefunden?
√
Antwort: Es ist | 2 − x3 | ≤
3
|1− 32 |( 21 )
1− 21
=
1
8
= .125, also (so die Aussage des FPS), darf
man nicht einmal der ersten Nachkommastelle trauen (es könnte sogar die führende 1
falsch sein), die Genauigkeit im angegebenen Beispiel sind jedoch jedenfalls 6 gesicherte
Stellen.
Kommentar: Die gelegentliche “Genauigkeitsunterschätzung” des FPS ist bekannt, besser ist jene, die man mittels Newtonalgorithmus bekommt, vgl. Beispiel 160 und dort
den entsprechenden kurzen Abschnitt hiezu.
5.1. Metrische Räume
175
Beispiel 160 Hier ist eine Auswahl “prominenter” Anwendungen des Fixpunktsatzes von
Banach (Anmerkung 158), wobei der vorgesetzte Stern ‘*’ andeutet, daß benötigte Begriffe
später kommen.
Formulierung des FPS für stetig differenzierbares f im Rn : Ist D ⊆ Rn konvex und
abgeschlossen, sowie f : D → D auf einer D umfassenden offenen Teilmenge U von Rn
stetig differenzierbar und gilt λ := supx∈D kf 0 (x)k < 1, so erfüllt f die Voraussetzungen
des Fixpunktsatzes für X := D und das angegebene λ.
* Hierin ist kf 0 (x)k eine (Operator)norm der Funktionalmatrix (für eine Matrix A ist
kAk := max{~x|k~xk=1} kA~xk, siehe Anmerkung 203), die sich für n = 1 als Betrag der zu
einer Zahl degenerierten Matrix A entpuppt.
Im Beispiel f (x) = 12 (x + x2 ) wurde der Fixpunktsatz mittels x = f (x) zur Nullstellenbestimmung von x2 − 2 = 0 in Beispiel 159 2. herangezogen. Für D := [1, ∞) haben
wir λ := supx∈D |f 0 (x)| = supx∈D | 12 − x12 | = 21 . Die stetige Differenzierbarkeit ist auf
U := R+ erfüllt und U ⊃ D. Es verbleibt der Nachweis f (D) ⊆ D, der in Fixpunktanwendungen meist Geschick erfordert, und für den auf Beispiel 159 2. zurückverwiesen
werde.
Nullstellenverfahren, Relaxationsmethoden: Um Nullstellen von g : X → X mit X ⊆
Rn zu bestimmen, wird die Aufgabe g(x) = 0 sehr oft mittels Relaxation in x = x +
H(g(x)) umformuliert. Nun erhofft man, daß f (x) := x + H(g(x)) die Voraussetzungen
des Fixpunktsatzes erfüllt.
Schnell erklärt ist das am Beispiel der Fixpunktsuche von x = 3x + 60 aus Beispiel 159
1. Offenbar kann die Aufgabe als Nullstellensuche von g(x) := 2x + 60 = 0 angesehen
werden. Danach auch als Fixpunktaufgabe x = x − 31 (2x + 60). Somit ist H(x) = 31 x
und f (x) = 13 x − 20. Mit D := R1 und wegen λ := supx∈R |f 0 (x)| = 13 < 1 ist der FPS
von Banach jetzt anwendbar.
Bezug zum Newtonverfahren: Hiebei ist f : U → U ⊆ Rn , eine (meist) zweimal stetig
partiell differenzierbare Funktion und von einem Punkt x0 ∈ U ausgehend, möchte man,
die Taylorentwicklung
0 ≈ f (xn ) ≈ f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ),
benützend, die rechte Seite zur Gleichung umformulieren, sodaß
xn = xn−1 − f 0 (xn−1 )−1 f (xn−1 )
entsteht. Für n = 1 entsteht die gewohnte Formel
xn = xn−1 −
f (xn−1 )
.
f 0 (xn−1 )
Es liegt daher nahe, die Abbildung F (x) := x − f 0 (x)−1 f (x) ins Auge zu fassen und
von ihr (nebst der Invertierbarkeit von f 0 (x) jene Bedingungen aufzuerlegen, daß der
FPS anwendbar wird.
176
Metrische Räume
Die übliche rasche Konvergenz des Verfahrens kann z.B. durch folgende Bedingungen,
die ich hier lediglich für n = 1 (siehe jedoch z.B. Seite 104 in [31]) formuliere:
Es sei I ein offenes Intervall im R1 , und f , dessen Nullstelle x∗ , d.i. Lösung von
f (x∗ ) = 0 gesucht werde, erfülle für alle x ∈ I folgende Bedingungen:
• |f 00 (x)| ≤ γ.
• Es existiert β > 0 mit |f 0 (x)| ≥ β1 .
0) 1
• Es sei α := ff0(x
(x0 ) und q := αβγ < 2 .
• [x0 − 2α, x0 + 2α] ⊆ I.
Dann hat f in I genau eine Nullstelle x∗ , die durch das Newtonverfahren approximiert
wird. Die Fehlerrate kann durch
|xn − x∗ | ≤ 2αq 2
n −1
abgeschätzt werden (quadratische Konvergenz).
Im Beweis spielt eine “tüftelige” Anwendung des Fixpunktsatzes die wesentliche Rolle.
√
Als Beispiel diene f (x) = x2 − 2 mit Nullstelle x∗ = 2, und es soll mit Beispiel 159
2. verglichen werden. Die Newtoniteration ergibt sich zu
2
f (xn−1 )
1
xn−1 +
xn = xn−1 − 0
=
,
f (xn−1 )
2
xn−1
d.i. genau die Formel aus dem zitierten Beispiel.
Dort war x0 = 1. Demnach bekommt man α = 21 . Danach ergibt sich f 0 (x) = 2x ≥ 1,
also β = 1. Schließlich, weil f 00 (x) = 2 ist, hat man γ = 2. Dann ist 1 = q > 12 und
deshalb keine weitere Aussage möglich.
Wählt man hingegen x0 = 32 (d.h. wir führen den 1.ten Schritt aus), so ergibt sich
5
10 3
2
1
0 2
α = 12
und somit, weil [ 32 − 12
, 2 − 10
12 ] ⊆ ( 3 , ∞) gilt, und f ( 3 ) = 3, also β = 3
5 1
5
genommen werden kann, hat man q = 12
3 · 2 = 18 .
Um mit die Fehlerabschätzung mit jener vom zitierten Beispiel zu vergleichen, nehmen
wir hier x2 = 1.41421568 (welches mit dem x3 aus dem zitierten Beispiel übereinstimmt)
und man hat
22 −1
√
5
5
|x2 − 2| ≤ 2
≈ 0.008930612711,
12 18
m.a.W. zumindest die ersten 2 Nachkommastellen sind gesichert. Tatsächlich sind es
die unterstrichenen, jedenfalls ist die hier abgegebene Schätzung realistischer als jene
im zitierten Beispiel.
Hauptsatz der impliziten Funktionen: Hier wird der FPS als Beweisdetail benützt.
Ist F : U (x0 , y0 ) ⊆ Rn × Rm → Rm mit U (x0 , y0 ) offen und F stetig differenzierbar,
sowie F (x0 , y0 ) = 0 und Fy (x0 , y0 ) invertierbar, so gibt es eine Umgebung von W (x0 )
5.1. Metrische Räume
177
und eine eindeutige Lösungsfunktion h : W (x0 ) → Rm von F (x, y) = 0, d.h. es ist
F (x, h(x)) = 0 für alle x ∈ W (x0 ).
Das entscheidende Beweisdetail benützt die Formulierung
y = y − Fy (x, y)−1 F (x, y),
um geeignet die Funktion f mit f (h)(x) := h(x) − Fy (x, h(x))−1 F (x, h(x)) auf einem
geeigneten metrischen Raum von Kandidaten h zu definieren. Danach wird mittels
f gezeigt, daß Iteration auf die Lösungsfunktion h führt und somit deren Existenz
gesichert. Siehe z.B. in [35] Seite 150.
* Operatorgleichung x + Ax = y : Es sei (V, k · k) ein Banachraum und A : V → V ein
linearer Operator mit kAk := sup{v∈V |kvk=1} kAvk < 1 (vgl. Anmerkung 203), so kann
(I + A)x = y
durch die sogenannte Neumannreihe (im wesentlichen geometrische Reihe)
∞
X
x=(
Aj )y
j=0
eindeutig gelöst werden. Der Fixpunktsatz liefert einen Beweis für Existenz und Eindeutigkeit der Lösung und auch für die Konvergenz der Neumannreihe, indem man sie
als Ergebnis der folgenden Iteration formuliert:
xn = Axn−1 + y
Die gleiche Art der Rechnung wie in Beispiel 159 1. ergibt
xn = An x0 + (I + A + · · · + An−1 )y,
und ist kAk < 1, so ist für f (x) := Ax + y die Abschätzung
kf (x) − f (x0 )k = kAx − Ax0 k ≤ kAkkx − x0 k
gültig, sodaß für X := V und λ := kAk der FPS anwendbar ist.
Gewisse Erneuerungs- und Volterra-Integralgleichungen können solcherart behandelt
werden. Sie treten z.B. bei Markovprozessen auf.
Nachiteration linearer Gleichungssysteme: Der Bezug zum FPS möge am oft verwendeten Gauß-Seidelverfahren angedeutet werden. (Das Jacobiverfahren ist ähnlich gebaut).
Um das lineare Gleichungssystem y = Ax für A eine n×n (reelle oder komplexe) Matrix
nach x aufzulösen, geht man (schematisch) wie folgt vor:
• Die Matrix A wird in der Form A = AL + D + AR zerlegt, wobei D der Diagonalanteil und AL , bzw. AR untere bzw. obere Dreiecksmatrix sind.
178
Metrische Räume
• Die Gleichung wird in äquivalenter Form als
x = −(D + AL )−1 AR x + (D + AL )−1 y
angeschrieben, wobei man lediglich die Invertierbarkeit von D voraussetzen muß.
• Als Rekursion findet man bei vorliegendem Startwert x0 für n ∈ N
(D + AL )xn = −AR xn−1 + y,
ein System, welches leicht zu lösen ist, weil links eine untere Dreiecksmatrix steht.
Z.B. für das System

   
2 −1
0
x
x̃
 −1
2 −1   y  =  ỹ  ,
0 −1
2
z
z̃
das bei Diskretisierung der 2.ten Ableitung einer Funktion in einer Variablen entsteht, findet man solcherart
  

 


x̃
xn−1
0 1 0
xn
2
0 0
 −1
2 0   yn  =  0 0 1   yn−1  +  ỹ  ,
z̃
zn−1
0 0 0
zn
0 −1 2
und man sieht, daß solche Systeme durch “Vorwärtseinsetzen” schnell lösbar sind.
Unter sehr technischen Bedingungen (etwa den Sassenbergbedingungen, die im
Bspl. erfüllt sind) kann man zeigen, daß der FPS im anwendbar wird.
Nachiteration wird gelegentlich in der Form
xn = xn−1 + ωD−1 (y − Axn−1 )
ausgehend von einem auf anderem Wege gefundenen, “nahe” der gesuchten Lösung
liegenden Startwert x0 angewendet, wobei der Relaxationsparameter ω geeignet zu
wählen ist. Genaueres siehe z.B. in [31], ab Seite 60.
* Picard-Lindelöf: Existenz und Eindeutigkeit von Anfangswertproblemen (AWP):
Ist [0, a] mit a > 0 ein Intervall, und U offene Teilmenge von Rn , sowie f : I × U → U
stetig mit kf (s, x) − f (s, y)k ≤ C|x − y| für alle s ∈ I und x, y ∈ U , so führt das
Anfangswertproblem
ẋ = f (t, x), x(0) = x0
auf die Integraldarstellung
Z
x(t) = x0 +
t
f (s, x(s)) ds.
0
Die Grundidee der Picarditeration besteht, von der Kurve x0 (t) = x0 , die im Raum
C(I, U ) der stetigen Funktionen von I nach U liegt, ausgehend, die Iteration
Z t
xn (t) := x0 +
f (s, xn−1 (s)) ds
0
5.1. Metrische Räume
179
zu untersuchen. Dies führt dazu, den Banachraum X := (C(I, U ), k · k) mit kxk :=
supt∈I |x(t)|, wobei der Betrag für die euklidische Länge von x(t) steht, einzuführen
und dort F : X → X als
Z t
F (x)(t) := x0 +
f (s, x(s)) ds
0
zu definieren. Danch ergibt sich im Rn die Abschätzung
Z t
Z t
|F (x)(t)−F (y)(t)| = | (f (s, x(s)−f (s, y(s))) ds| ≤ |
C|x(s)−y(s)| ds| ≤ aCkx−yk,
0
0
sodaß für λ := aC < 1 der FPS die Konvergenz zu einem eindeutigen Fixpunkt, der
somit eindeutig bestimmten Lösung des AWPs ergibt.
Die Punkte des Raumes X sind Funktionen, die auf I definiert, stetig sind und Werte
Rint U annehmen, und das f aus dem FPS die Integraltransformation x 7→ (t 7→ x0 +
0 f (s, xn−1 (s)) ds) von X in sich selbst.
5.1.4
Offene, abgeschlossene, dichte und kompakte Teilmengen
Definition 161 Eine Teilmenge A eines metrischen Raumes (X, d) ist
Offene Kugel K(x0 , r): falls sie von der Gestalt A = K(x0 , r) := {x ∈ X | d(x, x0 ) < r}
ist. Es ist r der Radius und x0 der Mittelpunkt. Insbesondere (für r ≤ 0) erweist sich
die leere Menge als offene Kugel.
offen: Wenn A leer ist, oder wenn zu jedem Punkt a ∈ A ein r > 0 existiert, sodaß die
offene Kugel K(a, r) ganz in A liegt.
beschränkt: wenn es eine offene Kugel K(x0 , r) mit A ⊆ K(x0 , r) gibt, d.h., wenn es r ∈ R
und x0 ∈ X gibt, sodaß für alle a ∈ A stets d(x0 , a) < r gilt.
abgeschlossen (in X): Wenn für jede gegen einen Punkt x ∈ X konvergente Folge
{an }∞
n=1 , deren sämtliche Folgenglieder an in A liegen, ihr Grenzwert x = limn→∞ an
zu A gehört.
folgenkompakt: wenn A abgeschlossen ist und jede Folge {an }∞
n=1 von Punkten an ∈ A
eine konvergente Teilfolge besitzt.
dicht: Wenn für jedes x ∈ X jedes positive r die offene Kugel K(x, r) mindestens einen
Punkt von A enthält.
Beispiel 162 Einfache Beispiele:
1. In R mit d(x, y) := |x − y| ist jede “offene Kugel” ein Intervall der Form (x0 − r, x0 + r).
Jedes Intervall der Form [a, b] ist abgeschlossen.
180
Metrische Räume
p
In R2 mit d((x, y), (u, v)) := (x − u)2 + (y − v)2 ergeben sich “randlose Kreisscheiben” mit Radius r um den Mittelpunkt (x0 , y0 ) als “offene Kugeln”. Ab n ≥ 3 ergeben
sich in der entsprechenden Metrik (Hyper)kugeln.
2. Ist die Metrik diskret, d.h. d(x, y) = 1, genau dann, wenn x 6= y und d(x, x) := 0, so ist
K(x0 , r) = {x0 }, wenn r < 1 und X sonst.
3. Die rationalen Zahlen sind dicht in R, weil in jedem noch so kleinen Intervall K(x, r) =
(x − r, x + r) um eine beliebige reelle Zahl x auch rationale Zahlen liegen.
4. Wichtig ist die dichte Einbettung eines metrischen Raumes in seine Vervollständigung
(siehe Anmerkung 156).
Anmerkung 163 Die folgenden Aussagen sind Konsequenzen der Definitionen:
1. Jede offene Kugel ist offen.
2. Eine Menge ist genau dann offen, wenn sie Vereinigung offener Kugeln ist.
3. Die Vereinigung beliebig vieler und der Durchschnitt endlich vieler offener Mengen
ist offen.
4. Der Durchschnitt beliebig vieler und die Vereinigung endlich vieler abgeschlossener
Mengen ist abgeschlossen.
5. Das Komplement einer offenen (abgeschlossenen) Menge ist abgeschlossen (offen).
6. Jede kompakte Menge ist beschränkt und abgeschlossen (aber im allgemeinen nicht
umgekehrt).
Schließlich sei noch der Satz von Heine-Borel vermerkt (M2 ET): Eine Teilmenge von
(Rn , d) bzw. (Cn , d) mit d die euklidische Metrik ist genau dann kompakt, wenn sie
beschränkt und abgeschlossen ist.
Nachweise dieser Aussagen findet man in Beispiel 268.
Definition 164 (Stetigkeit) Eine Abbildung f : (X, d) → (Y, δ) ist (folgen)stetig an x0 ∈
X, falls für jede gegen x0 konvergente Folge {xn }∞
n=1 die Gleichung
f (x0 ) = f ( lim xn ) = lim f (xn )
n→∞
n→∞
gilt.
Anmerkung 165 Die folgenden Aussagen für eine Abbildung f : (X, d) → (Y, δ) sind
Konsequenzen der Definitionen:
5.1. Metrische Räume
181
1. f ist genau dann stetig, wenn das Urbild jeder offenen (abgeschlossenen) Menge
offen (abgeschlossen) ist.
2. Ist f stetig, so ist der Graph {(x, f (x)) | x ∈ X} eine abgeschlossene Teilmenge von
X × Y ist, wobei als Metrik in X × Y die Funktion
d((x, y), (x0 , y 0 )) := d(x, x0 ) + d(y, y 0 )
dient.
3. Ist f stetig, so ist das Bild einer kompakten Menge stets kompakt.
4. (Weierstraß) Ist X kompakt und f : (X, d) → (R, | · |) stetig, so gibt es ein x∗ ∈
X mit supx∈X |f (x)| = f (x∗ ). Ist insbesondere {xn }∞
n=1 eine gegen ein x0 ∈ X
konvergente Folge in X mit
lim f (xn ) = sup |f (x)|,
n→∞
x∈X
so ist supx∈X |f (x)| = f (x0 ).
5. (Stetige Fortsetzung einer auf dichter Teilmenge gleichmäßig stetigen Funktion). Ist
Y vollständig, D dicht in X, so läßt sich jede auf D gleichmäßig stetige Funktion
zu einer auf ganz X gleichmäßig stetigen Funktion erweitern.
Beispiel 166 Einige einfache Beispiele sollen konkreten Nutzen andeuten:
1. Warum ist {(x, y) ∈ R2 | x2 + y 2 = 1} abgeschlossen?
Antwort: Die Abbildung f : R2 → R, gegeben durch f (x, y) := x2 + y 2 − 1, ist stetig
(sogar differenzierbar). Da {0} eine abgeschlossene Teilmenge von R ist, ergibt das
Stetigkeitskriterium die Abgeschlossenheit von
f −1 ({0}) = {(x, y) | f (x, y) = 0} = {(x, y) | x2 + y 2 = 1}.
Warum ist die Menge {(x, y) | 1 < x2 + y 2 < 4} offen?
Antwort: Die Abbildung f : R2 → R, gegeben durch f (x, y) = x2 + y 2 , ist stetig.
Weiters ist die Menge (1, 4) ein offenes Intervall in R und somit
f −1 ((1, 4)) = {(x, y) | f (x, y) ∈ (1, 4)} = {(x, y) | 1 < f (x, y) < 4} = {(x, y) | 1 < x2 +y 2 < 4}
offen.
2. Man zeige, daß es (x∗ , y ∗ ) mit sup{(x,y)|x2 +y2 =1} xy = x∗ y ∗ und (x∗ )2 + (y ∗ )2 = 1 gibt.
Wie kann (x∗ , y ∗ ) gefunden werden?
182
Metrische Räume
Antwort. Der Kreis S := {(x, y) | x2 + y 2 = 1} ist kompakt, weil abgeschlossen und
beschränkt. Die Funktion f , definiert durch f (x, y) := xy nimmt wegen des Satzes
von Weierstraß auf S ihr Supremum an und daher gibt es (x∗ , y ∗ ) mit den geforderten
Eigenschaften.
Um (x∗ , y ∗ ) zu finden, eignet sich die Methode der Lagrangeschen Multiplikatoren, d.h.
man bildet Φ(x, y, λ) := xy + λ(x2 + y 2 − 1), differenziert nach x, y, setzt Null und
findet y + 2λx = x + 2λy = x2 + y 2 − 1 = 0, also (nach elementarer Rechnung) x = ±y.
Als Supremum findet man schließlich den Wert 12 , der an der Stelle (x∗ , y ∗ ) = ( √12 , √12 )
angenommen wird.
3. (Bestapproximation) Es sei K eine kompakte Teilmenge von (X, d) und x ∈ X, gibt
es ein k ∈ K, welches von x minimalen Abstand hat? Ist die Aufgabe eindeutig lösbar?
Antwort: Es sei f : K → R durch f (k) := d(k, x) definiert. Da f stetig auf der
kompakten Menge ist, nimmt sie dort wegen des Satzes von Weierstraß ihr Minimum
an.
Die Lösung muß nicht eindeutig sein, es genügt hiezu für K := {(x, y) | x2 + y 2 = 1},
d.i. die Einheitskreislinie in der Ebene (beschränkt+abgeschlossen, also kompakt) und
den Mittelpunkt, sowie die euklidische Metrik zu nehmen.
Beispiel 167 Nachweis der Behauptungen in Anmerkung 165. Zunächst die Charakterisierungen der Stetigkeit:
1. Es sei f folgenstetig und V offen in Y . Es soll gezeigt werden, daß f −1 (V ) offen ist.
Sei x ∈ f −1 (V ) und y := f (x). Nun sei Un := K(x, n1 ). Die Idee des BW besteht darin,
ein N zu finden, für das UN in f −1 (V ) enthalten ist. Wir zeigen das indirekt: falls jede
Kugel Un ein Element xn mit f (xn ) 6∈ V enthält, so ergibt sich aus d(x, xn ) < n1 , daß
limn→∞ xn = x ist. Dann ist limn→∞ f (xn ) = f (x) ∈ V 0 , da ja das Komplement V 0 von
V abgeschlossen ist, ein Widerspruch, weil ja f (x) ∈ V ist.
Es sei nun das Urbild f −1 (V ) jeder offenen Menge offen in X. Nun sei B beliebige
abgeschlossene Teilmenge von Y . Dann ist f −1 (B 0 ) offen in X und weil f −1 (B 0 ) =
(f −1 (B))0 (wie man aus den Definitionen der entsprechenden Komplementbildungen in
Y bzw. X sofort entnimmt), ist f −1 (B) somit abgeschlossen.
Schließlich sei das Urbild f −1 (B) jeder abgeschlossenen Teilmenge von Y abgeschlossen
in X. Nun sei {xn }∞
n=1 eine gegen x ∈ X konvergente Folge. Wir wollen limn→∞ f (xn ) =
f (x) zeigen. Es sei B := {f (xn ) | n ∈ N} der Abschluß der Bildmenge der Folge {xn }∞
n=1 .
Das Urbild von B ist abgeschlossen, und die Folge {xn }∞
ist
in
diesem
Urbild
enthaln=1
ten. Daher liegt x in diesem Urbild. Deshalb muß es eine Teilfolge der Folge {xn }∞
n=1
geben, deren Bilder gegen f (x) konvergiert. Da unsere gegen x konvergente Folge beliebig gewählt war, und sie stets eine eine Teilfolge enthält, deren Bilder gegen f (x)
konvergieren, ist limn→∞ f (xn ) = f (x).
2. Es sei f stetig. Nun sei {(xn , yn )}∞
n=1 eine konvergente Folge von Punkten im Graphen
G(f ), d.h. yn = f (xn ). Wegen der Stetigkeit hat man
lim d(xn , x) = lim d(f (xn ), f (x)) = 0,
n→∞
n→∞
5.1. Metrische Räume
183
sodaß in der Produktmetrik
lim (d(xn , x) + d(f (xn ), f (x))) = 0
n→∞
folgt. Deshalb ist limn→∞ (xn , yn ) = (x, f (x)) ∈ G(f ), sodaß der Graph von f eine
abgeschlossene Teilmenge von X × Y ist.
3. Es sei K kompakte Teilmenge von X und f stetig. Dann ist zu zeigen, daß jede Folge
{f (kn )}∞
n=1 mit kn ∈ K eine konvergente Teilfolge besitzt, und weiters, daß jede konvergente Folge von Elementen in f (K) gegen ein Element in f (K) konvergiert. Da K
kompakt ist, gibt es eine konvergente Teilfolge und wegen der Stetigkeit von f konvergiert die Folge der Bilder. Sei nun {f (kn )}∞
n=1 eine gegen y ∈ Y konvergente Folge.
Wir wollen zeigen y ∈ f (K). Da K kompakt ist, gibt es eine gegen ein k ∈ K konvergente Teilfolge der Folge {kn }∞
n=1 , deren Bildfolge wegen der Stetigkeit von f gegen
f (k) ∈ f (K) konvergiert. Diese Bildfolge konvergiert als Teilfolge von {f (kn )}∞
n=1 gegen
y, sodaß y = f (k) ∈ f (K) liegt. konvergiert.
4. Man verwendet die vorherige Situation mit Y := R. Dann ist f (X) eine kompakte
Teilmenge von R, welche beschränkt und abgeschlossen ist. Sie besitzt deshalb ein
Maximum, d.i. es gibt ein x∗ mit f (x∗ ) = max f (X).
5. Zunächst zeigt man die Konvergenz der Folge {f (dn )}∞
n=1 für jede gegen ein x ∈ X
∞
konvergente Folge {dn }n=1 . Ist x ∈ D, so ergibt sich dies aus der Stetigkeit von f .
Nun sei x 6∈ D. Da f auf D gleichmäßig stetig ist, ist die Folge der {f (dn )}∞
n=1 eine
Cauchyfolge und somit gegen ein y ∈ Y konvergent, weil Y vollständig ist. Danach
definiert man als Erweiterung f˜(x) := limn→∞ fn (dn ).
5.1.5
Approximationssatz von Stone-Weierstraß
Anmerkung 168 Es handelt sich um folgende Begriffe und Aussagen:
Ausgangssituation : ist ein kompakter topologischer Raum X und eine Teilmenge S
von reell- bzw. komplexwertigen auf X stetigen Funktionen.
S ist punktetrennend, wenn es zu je zwei Punkten x 6= x0 in X eine Funktion f in S
mit f (x) 6= f (x0 ) gibt.
Approximationssatz I: Ist S ein reeller Vektorraum punktetrennender Funktionen,
der mit je 2 Funktionen f und g die Funktion max{f, g} enthält, und dem die
konstante Funktion 1 angehört, so kann jede auf X stetige Funktion gleichmäßig
durch Funktionen in S approximiert werden.
Approximationssatz II : Ist S eine Familie punktetrennender Funktionen, welche die
konstante Funktion 1 enthält, so kann jede stetige Funktion auf X gleichmäßig
durch Polynomausdrücke in S approximiert werden.
184
Metrische Räume
Approximationssatz komplexe Version: Ist S eine Familie punktetrennender
Funktionen, welche die konstante Funktion 1 enthält und mit jedem s auch die
konjugierte, so kann jede stetige Funktion auf X gleichmäßig durch Polynomausdrücke in S approximiert werden.
Der Beweis kann z.B. in [29] gefunden werden.
Beispiel 169 Die prominentesten Situationen sind die folgenden:
Polynomapproximation auf kompaktem Intervall I: Jede auf dem kompakten Intervall I stetige Funktion kann gleichmäßig durch Polynome approximiert werden.
Hier besteht S aus allen Polynomen. Es ist 1 ein Polynom und jeder Polynomausdruck
in Polynomen ein Polynom, also kann II herangezogen werden.
Trigonometrische Polynome: Man betrachtet alle Ausdrücke
N
X
1
a0 +
An cos nx + Bn sin nx,
2
n=1
die wegen der trigonometrischen Identitäten bei Multiplikation wieder so eine Summe
ergeben. Somit besagt II, daß jede auf [0, 2π] stetige Funktion gleichmäßig durch solche
trigonometrischen Summen approximiert werden kann.
Exponentialsummen: Man betrachtet auf [0, 2π] als Familie S alle Funktionen
N
X
cn einx
n=−N
mit komplexen Koeffizienten cn , welche die Voraussetzungen der komplexen Version
erfüllen. Demnach kann jede auf [0, 2π] stetige Funktion gleichmäßig durch solche Polynome approximiert werden.
Hutfunktionen: Es sei (beispielhalber) I = [0, 1] und man betrachtet alle Hutfunktionen
mit Teilungspunkten an Vielfachen von Potenzen von 21 (“dyadischen Punkten”). Diese Familie erfüllt zusammen mit der konstanten Funktion 1 die Voraussetzungen von
I, sodaß jede stetige Funktion gleichmäßig durch Hutfunktionen approximiert werden
kann. In effizienter Weise wird dies bei FEM-Methoden benützt.
Kapitel 6
Lineare Funktionalanalysis
6.1
Vektorräume
6.1.1
Grundlagen, Axiome
Definition 170 (K-Vektorraum) Ein K-Vektorraum oder linearer Raum über dem Skalarkörper K besteht aus folgenden Bestandteilen:
1. Dem Körper K.
2. Einer abelschen Gruppe (V, +).
3. Einer Abbildung · : K ×V → V , die als Multiplikation von Elementen in V mit Skalaren
bezeichnet wird, sodaß für alle k, l ∈ K und alle u, v ∈ V , sowie die 1 in K die folgenden
Gleichungen gelten:
1·v
= v
(k + l) · v = k · v + l · v
k · (u + v) = k · u + k · v.
Wir werden das ‘·’ oft weglassen.
Beispiel 171 Grundlegende Beispiele:
1. (Koordinatenraum) Es ist K n der Koordinatenraum, aufgefaßt als Zeilen bzw. Spalten (etwa n = 3)


v1
~v := (v1 , v2 , v3 ), eher jedoch ~v = (v1 , v2 , v3 )T =  v2  ,
v3
wobei ‘T ’ Transponieren bedeutet, d.h. Übergang von jeweils Zeilend-/Spalten- zu
Spalten-/Zeilendarstellung. Addiert, bzw. Multipliziert mit Skalaren wird komponentenweise. Grundsätzlich ist es egal, ob man den Koordinatenraum als Menge von Zeilen185
186
Lineare Funktionalanalysis
oder Spaltenvektoren auffaßt, jedoch legt es Matrizenrechnung nahe, Vektoren als Spalten (und später die linearen Funktionale oder auch Kovektoren als Zeilen) aufzufassen.
Der Koordinatenraum K n kann als Funktionenraum von auf einer n-elementigen Menge
definierten Funktionen mit Werten in K angesehen werden, wie das nächste Beispiel
zeigt.
2. (Funktionenräume K X ) Ist X eine beliebige Menge, so wird die Menge aller Kwertigen Funktionen zu einem K-Vektorraum, wenn man für f, g ∈ K X und k ∈ K die
Funktionen f + g bzw. k · f durch (f + g)(x) := f (x) + g(x) und (k · f )(x) := k · f (x)
festlegt1 .
Es ist üblich, statt K {1,...,n} einfach K n zu schreiben, da jedes f ∈ K {1,...,n} durch
das n-Tupel (f (1), . . . , f (n)) ∈ K n eindeutig festgelegt ist. Umgekehrt läßt sich jedes
n-Tupel (k1 , . . . , kn ) als Funktion f : {1, . . . , n} → K auffassen, indem man f (i) := ki
definiert.
Im Fall K = R und n = 2 zeigt die folgende Skizze, wie man das Element (3, 4) ∈ R2
links als Element im Koordinatenvektorraum interpretiert und rechts als Funktion auf
der zweielementigen Menge {1, 2}. Der Leser möge für sich selbst die Situation n = 3
skizzieren.
·4
·
(3,C 4)
·3
·
•
(0, 0)
·
1
·
2
(3, 4) ∈ R2
Graph der Funktion f mit f (1) := 3, f (2) := 4
Gibt es die beiden Sichtweisen auch für unendliches X, etwa für X := N?
Antwort: Wenn X = N ist, so ist K N der Vektorraum der unendlichen Folgen {kn }∞
n=1 ,
wobei für f ∈ K N das Tupel durch kn := f (n) festgelegt ist. Man bräuchte offenbar
unendlich viele “Achsen”, sodaß die übliche im R3 gebräuchliche Sichtweise von “Vektoren” zeichnerisch schwer realisierbar ist. Hingegen kann die Folge als Graph skizziert
werden, in der nachstehenden Skizze sieht man die ersten 8 Glieder der reellen Folge
xn := n1 angedeutet.
1
Links sind ‘+’ bzw. ‘·’ die neu definierten Operationen auf K X , und rechts Operationen in K.
6.1. Vektorräume
187
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
Wie kann man die Operationen ‘+’ und ‘·’ geometrisch interpretieren?
Antwort: Die geometrische Interpretation im Rn erlaubt die Sichtweise der aus der
Physik gewohnten “Vektoraddition”, jene als Graph von Funktionen jene der “linearen
Überlagerung” von Funktionen. Für die Addition der Elemente ~c = ~a + ~b von Vektoren im R2 wird die obige Interpretation als Funktionsgraph rechts wiedergegeben. Die
punktierte Linie soll lediglich die “Koordinaten” der Vektoren erkennbar machen.
· ~c
a1
a1 + b1
~a =
~c = ~a + ~b =
a2
a2 + b2
;
D·
ww·
w
ww
ww
w
ww
ww
w
ww
wwww
w
www
w
w
ww
w
w
/·
~b =
b1
b2
· ~a
· ~b
·
·
1
·
2
Beispiel 172 (Raum der Testfunktionen) Es sei C ∞ (R) die Menge der auf ganz R definierten, beliebig oft in jedem x ∈ R differenzierbaren Funktionen (wie z.B. sin(x)).
Ist C ∞ (R) ein reeller Vektorraum?
Antwort: Man hat sich zu überlegen, daß mit f, g beliebig oft differenzierbar, auch kf + lg
beliebig oft differenzierbar ist. Für die erste Ableitung verwendet man
(kf + lg)(x + h) − (kf + lg)(x)
f (x + h) − f (x)
g(x + h) − g(x)
=k
+l
h
h
h
woraus beim Grenzübergang h → 0 die Existenz des Grenzwertes auf der linken Seite folgt
und zudem die bekannte Regel (kf + lg)0 = kf 0 + lg 0 bestätigt wird. Nun verwendet man
vollständige Induktion.
Ist die Teilmenge D(R), die Menge der Testfunktionen, welche definitionsgemäß aus allen
Funktionen in C ∞ (R) besteht, die außerhalb eines beschränkten Intervalls Null sind, ein
linearer Teilraum von C ∞ (R)?
188
Lineare Funktionalanalysis
Antwort: Ja. Verschwindet nämlich f außerhalb des beschränkten Intervalls I und g außerhalb des beschränkten Intervalls J, so verschwindet kf + lg außerhalb der Menge I ∪ J. Nun
sei a := min{x | x ∈ I ∪ J} und b := max{x | x ∈ I ∪ J}, so verschwindet f + g außerhalb
des Intervalls [a, b] und dieses Intervall ist beschränkt.
Gibt es überhaupt Testfunktionen außer der trivialen Funktion, die identisch Null ist?
Antwort: Ja, es gibt eine Funktion ψ, die auf dem Intervall (0, 1) positiv und sonst Null
ist, eine sogenannte Beulenfunktion.
1
Hier ist die übliche Konstruktion. Zunächst definiert man φ(x) := e− x , falls x > 0 ist,
und φ(x) = 0 sonst. Die Funktion ist an Null stetig, weil limh→0+ x1 = +∞, und somit das
Minus dazu führt, daß die Exponentialfunktion gegen Null strebt. Für x 6= 0 ist die Funktion
sichtlich beliebig oft differenzierbar (links von Null ergibt sich stets Null, rechts “horrende”
Ausdrücke der Gestalt (n ∈ N)
Polynom(x)e−1/x
.
xn
(∗)
−1
Für x = 0 muß die Grenzwertdefinition der Ableitung herangezogen werden: φ(h)−φ(0)
= e hh
h
und die Regel von De L’Hospital zeigt, daß der Grenzwert Null wird. Die gleiche Art der
Überlegung zeigt, daß die Funktion in (∗) ebenfalls die Ableitung Null an Null hat. Es mag
noch hilfreich sein, zu vermerken, daß die Funktion φ, wie bemerkt, “unendlich” flach an 0
ist, danach monoton ansteigt und sich der Asympote y = 1 von unten her nähert.
Nun kann ein ψ mit den behaupteten Eigenschaften durch ψ(x) := φ(x)φ(1 − x) festgelegt
werden. Es hat die Gestalt einer Beule, daher der Name.
6.1.2
Teil-, Quotienten- und Komplementärraum
Definition 173 (Teil- Quotienten- und Komplementärraum)
(Linearer) Teilraum: Eine Teilmenge U eines K-Vektorraums V heißt (linearer) Teilraum
von V , falls U eine der folgenden äquivalenten Bedingungen erfüllt:
• U ist eine Untergruppe von V und K · U := {k · u | k ∈ K, u ∈ U } ⊆ U .
• Für alle u, v ∈ U und alle k, l ∈ K gehört k · u + l · v zu U .
• Für alle u, v ∈ U und alle k ∈ K gehören u + v und k · u zu U .
Quotientenraum: Ist U ein Teilraum von V so kann die Quotientengruppe V /U , nämlich
die Menge aller Mengen der Form v + U = {v + u | u ∈ U } (genau wie in Definition
64) als K-Vektorraum auffassen, indem man
(v + U ) + (w + U ) := (u + w) + U, k(v + U ) := kv + U
definierta .
Komplementärraum: Ein Teilraum W von V heißt Komplemetärraum zu U (oder oft
kurz Komplementb ), falls eine der folgenden äquivalenten Bedingungen erfüllt ist:
6.1. Vektorräume
189
• Jede Nebenklasse von U hat genau einen Schnittpunkt mit W , d.h. für alle v ∈ V
besteht (v + U ) ∩ W aus genau einem Element.
• Jedes Element v in V hat eine eindeutige Darstellung
v =u+w
mit u ∈ U und v ∈ V .
• U ∩ W = {0} und U + W := {u + w | u ∈ U, w ∈ W } = V . Man drückt dies auch
durch V = U ⊕ W aus, und bezeichnet V als direkte Summe der Teilräume U und
V.
a
b
Auf jeweils der linken Seite ist das nicht eingeklammerte ‘+’ (bzw. nicht explizit angeschriebene ‘·’) als zu definieren zu verstehen, rechts ist das ‘+’ (bzw. ‘·’) jenes in V .
Man muß sich Wohldefiniertheit überlegen. Für ‘+’ besteht das darin, v 0 ∈ v + U und
w0 ∈ w + U beliebig vorzugeben, und zu vermerken, da v 0 + w0 ∈ (v + w) + U ist, somit
(v 0 + U ) + (w0 + U ) = (v + U ) + (w + U ) gilt. Analog für k(v + U ).
Nicht mit dem mengentheoretischen Komplement A \ B = {a ∈ A | a 6∈ B} zu verwechseln.
Beispiel 174 Einführende Übungen hiezu.
1. Ist die Gerade U := {(x, x) | x ∈ R} ein linearer Teilraum von R2 ?
Antwort(findung): Das ist der Fall, der Nachweis soll mittels der dritten Formulierung
erbracht werden: Sind u := (x, x) und v := (y, y) Elemente in U , so ist u + v =
(x + y, x + y) ∈ U . Weiters ist für reelles r stets r · u = r · (x, x) = (rx, rx) ∈ U .
Wie kann der Quotienraum V /U beschrieben werden? Welche geometrische Deutung
kann gegeben werden?







U 


1


+U


0




















Antwort: Der Quotientenraum besteht aus
der Menge aller zu U parallelen Geraden.
“Schrumpft” man jede dieser Geraden auf einen
Punkt der x-Achse (angedeutet durch die punktierte Linie), so erweist sich V /U als zu R isomorpher Vektorraum.
Wie sehen Komplementärräume zu U aus?
Antwort: Jede Gerade durch den Ursprung, mit Ausnahme von U erweist sich als Komplementärraum. Mit der ersten Form der DN sieht man das am einfachsten ein.
2. Ist die Menge U der ungeraden, auf dem reellen Intervall [−1, 1] definierten reellwertigen
Funktionen Teilraum von R[−1,1] ?
Antwort: Ja. Wir wollen die DN in der zweiten Form benützen. Sind u, v ungerade
Funktionen, so erfüllen sie für alle x ∈ [−1, 1] die Gleichung u(x) = −u(−x), bzw.
190
Lineare Funktionalanalysis
v(x) = −v(−x). Deshalb gilt für alle r, s ∈ R und alle x ∈ [−1, 1]
(ru+sv)(x) = ru(x)+sv(x) = r(−u(x)+s(−v(x)) = −(ru(x)+sv(x)) = −(ru+sv)(x),
sodaß ru + sv ∈ U ist.
Wie kann die Tatsache, daß jede Funktion eine eineutige Zerlegung in einen geraden
und einen ungeraden Anteil hat, im Sinne von Komplementärräumen gesehen werden?
Antwort: Ist G die Menge der geraden Funktionen, so ist K X = U ⊕ G, m.a.W. G ist
Komplementärraum zu U und U einer zu G.
3. Für eine Funktion f ∈ K X ist {x ∈ X | f (x) 6= 0} der Träger von f .
Ist die Menge W aller Funktionen in K X mit endlichem Träger ein linearer Teilraum?
Antwort: Ja. Wir verwenden die DN in der dritten Form. Sind u, v ∈ K X solche Funktionen und A ⊆ X, B ⊆ X die Träger von u und v, so verschwinden beide Funktionen
u und v außerhalb der Menge A ∪ B, sodaß der Träger von u + v sichtlich in A ∪ B
enthalten ist. Deshalb ist der Träger von u + v endlich und somit gehört u + v zu W .
Schließlich überlegt man sich daß der Träger von ku gleich jenem von u ist, sobald k 6= 0
ist.
Wenn X unendlich ist, ist dann die Teilmenge jener f von K X , welche unendlichen
Träger haben, ein linearer Teilraum?
Antwort: Nein. Sei z.B. f jene Abbildung, die jedem x ∈ X den Wert f (x) := 1
zuordnet. Der Träger von f ist dann ganz X, ist also unendlichen. Auch die Funktion
g := −f hat X als Träger. Der Träger der Summe von f + g = 0 ist leer, also endlich.
Die Funktionen mit unendlichem Träger bilden somit keine abelsche Gruppe und daher
keinen Teilraum (1.te Charakterisierung) von K X .
4. Wie beweist man die Äquivalenz der Kennzeichnung eines Komplementärraumes W zu
U?
Antwort: Es gelte die erste Kennzeichnung. Sei nun v ∈ V beliebig. Dann ist v + U
die eindeutig bestimmmte Nebenklasse, zu der v gehört. Es sei w(v) das eindeutig
bestimmte Element in (v + U ) ∩ W . Da w(v) ∈ v + U ist, gibt es ein u ∈ U mit
w(v) = v + u. Deshalb ist v = u + (−w(v)) eine Summe aus einem Element in U
und einem in W . Angenommen, v = u0 + w0 ist eine beliebige Summendarstellung mit
u0 ∈ U 0 und w0 ∈ W . Dann ist w0 = v + (−u0 ) ∈ v + U und w0 ∈ W , sodaß w = w0 sein
muß. Dann ist auch u = u0 und die 2.te Kennzeichnung gilt.
Es gelte die zweite Kennzeichnung für W . Angenommen x ∈ U ∩W . Dann sind 0 = x+0
und 0 = 0 + x Zerlegungen des Nullvektors in einen Anteil in U und einen in W und
wegen der Eindeutigkeit kann dann nur x = 0 gelten. Da jedes Element v ∈ V (sogar
eindeutig) als ein v = u + w mit u ∈ U und w ∈ W darstellbar ist, ist V = U + W . Die
3.te Kennzeichnung ist erfüllt.
Es gelte die 3.te Kennzeichnung für W . Für eine beliebige Nebenklasse v +U betrachten
wir (v + U ) ∩ W und wollen zeigen, daß diese Menge genau ein Element enthält. Seien
6.1. Vektorräume
191
w, w0 ∈ (v + U ) ∩ W . Dann gibt es u, u0 ∈ U mit
v = u + w = u0 + w 0 ,
sodaß Subtraktion auf u − u0 = w0 − w ∈ U ∩ W = {0} führt. Deshalb ist u = u0 und
insbesondere w = w0 , sodaß die 1.te Kennzeichnung bewiesen ist.
Anmerkung 175 Ist {Ui | i ∈ I} eine Familie von Teilräumen von V , so ist
Teilraum von V .
T
i∈I
Ui ein
Beweis: Die dritte
T Charakterisierung eines Teilraumes benützend,Tsoll lediglich der Nachweis für
u
+
v
∈
i∈I Ui erbracht werden, falls beide, u und v in
i∈I Ui liegen (jener für
T
ku ∈ i∈I Ui geht ähnlich): Es ist
T
T
(u ∈ i∈I Ui ) ∧ (v ∈ i∈I Ui )) ⇔ (∀i ∈ I) ((u ∈ Ui ) ∧ (v ∈ Ui ))
⇔ (∀i ∈ I) Tu + v ∈ Ui
⇔ u + v ∈ i∈I Ui
Beispiel 176 Beispiele zu hauptsächlich Teilräumen von Funktionenräumen.
1. Es sei V die Menge der aur [0, 2π] definierten reellen Funktionen, d.h. V = R[0,2π] .
Ist die Menge C[0, 2π] der auf [0, 2π] stetigen Funktionen ein linearer Teilraum von V ?
Antwort: Zum Nachweis der ersten Teilbehauptung werde Definition 173, dritte Charakterisierung herangezogen (wir werden lediglich “u + v stetig” vorzeigen, ku geht
genauso). Eine Funktion f ist an x0 bekanntlich stetig, genau dann, wenn für jede ganz
in [0, 2π] befindliche Folge {xn } mit limn→∞ xn = x0 auch limn→∞ f (xn ) = f (x0 ) gilt.
Sind nun u, v stetig an x0 und {xn } eine gegen x0 konvergente Folge, so gilt wegen der
Grenzwertregeln
lim (u+v)(xn ) = lim (u(xn )+v(xn )) = lim u(xn )+ lim v(xn ) = u(x0 )+v(x0 ) = (u+v)(x0 ).
n→∞
n→∞
n→∞
n→∞
Somit hat man gezeigt, daß für jedes feste x0 ∈ [0, 2π] die an diesem Punkt stetigen
Funktionen einen linearen Teilraum Ux0 von V bilden. Weil
\
C[0, 2π] =
Ux0
x0 ∈[0,2π]
genau die Menge der auf [0, 2π] stetigen Funktionen ist, ist wegen Anmerkung 175 die
Menge C[0, 2π] linearer Teilraum von V .
Ist U := {f ∈ V | f (0) = f (2π)} ein linearer Teilraum von V ? Ist Wx0 := {f ∈ V |
f (x0 ) = 0} ein linearer Teilraum von V ? Ist M := {f ∈ V | f (0) = f (2π) = 0} linearer
Teilraum? Ist C0 [0, 2π] := {f ∈ U | f (0) = f (2π) = 0} linearer Teilraum?
192
Lineare Funktionalanalysis
Antwort: Um die erste Frage mit ‘Ja’ beantworten zu können, soll Definition 173,
dritte Charakterisierung herangezogen werden: Es seien k, l ∈ R und u, v ∈ U . Dann
ist u(0) = u(2π) und v(0) = v(2π). Deshalb ist
(ku + lv)(0) = ku(0) + lv(0) = ku(2π) + lv(2π) = (ku + lv)(2π).
Somit ist U linearer Teilraum.
Es werde die zweite Charakterisierung zum Nachweis dafür, daß Wx0 linearer Teilraum
ist, herangezogen. Sind k, l ∈ R und u, v ∈ Wx0 so ist
(ku + lv)(x0 ) = ku(x0 ) + lv(x0 ) = 0,
also ku + lv ∈ Wx0 .
Weil M = W0 ∩ W2π , folgt aus der vorigen Teilbehauptung und weil wegen Anmerkung
175 der Durchschnitt linearer Teilräume linearer Teilraum ist, daß M linearer Teilraum
ist.
In analoger Weise ergibt sich C0 [0, 2π] = C[0, 2π]∩M , sodaß C0 [0, 2π] linearer Teilraum
ist.
6.1.3
Lineare Hülle, Unabhängigkeit, Basen, Dimension
Definition 177 (Lineare (Un)abhängigkeit, Basis)
Linearkombination: Ist V ein K-Vektorraum und ist W ⊆ V eine endliche, nicht leere
Teilmenge, so heißt jeder Ausdruck
X
v=
kw w
w∈W
mit kw ∈ K eine Linearkombination der Elemente von W . Ist W die leere Menge, so
wird
X
kw w := ~0
w∈∅
definiert. Es heißt kw Koeffizient von w. Man sagt auch, daß v aus den Elementen in
W linear kombinierbar ista .
Lineare Hülle: Die Menge aller Linearkombinationen von Elementen einer einer nicht leeren Teilmenge X ist ein linearer Teilraum, der mit L(X) bezeichnet werden soll und
heißt der von X aufgespannte oder erzeugte lineare Teilraum von V , und wird auch
lineare Hülle von X genannt. Falls X leer ist, definiert man L(X) := {0}. Die Menge
X nennt man auch Erzeugendensystem von U := L(X).
Elementaroperationen mit Erzeugendensystemen:
• Weglassen des Nullvektors: Ist U = L(X), so ist U = L(X \ {0}).
6.1. Vektorräume
193
• Addieren von skalaren Vielfachen eines festen Vektors in X zu allen anderen: Es
sei U = L(X). Ist x0 ∈ X und λ : X \ {x0 } → K, sowie Y := {x0 } ∪ {x + λ(x)x0 |
x ∈ X, x 6= x0 }, so ist U = L(Y ).
Lineare (Un)abhängigkeit: Eine Teilmenge X ⊆ V heißt linear abhängig, falls es eine
endliche Teilmenge W ⊆ X und Elemente kx ∈ K gibt, die nicht alle Null sind, sodaß
X
kw w = 0
w∈W
giltb .
Falls X nicht linear abhängig ist, so heißt X linear unabhängig. Die leere Menge ist
stets linear abhängig. Man beachte, daß jede Menge X mit 0 ∈ X linear abhängig ist.
Basis : Jede der folgenden Eigenschaften kennzeichnet eine nicht leere Teilmenge X von V
als Basis von V :
• X ist linear unabhängig, jedoch X ∪ {v} linear abhängig für jedes v ∈ V \ X.
• Jedes v ∈ V ist mit eindeutig bestimmten Koeffizienten kx als Linearkombination
X
v=
kx x
x∈X
darstellbar (dabei sind gemäß DN der Linearkombination alle bis auf endlich viele
kx Null).
a
b
Man stellt sich am besten vor, daß jedes w mit einem Koeffizienten “skaliert” wird, und
danach die skalierten Vektoren (bzw. Funktionen) addiert werden.
Andere Redensart: 0 kann in nicht trivialer Weise durch Elemente in X linear kombiniert
werden.
Beispiel 178 Einfache Beispiele zu den Begriffen:
  
0
1
1. Es sei K := R und V := R3 . Weiters sei W := { 2  ,  0 }. Welcher der Vektoren
3
1
     
1
1
0
in { 1  ,  0  ,  2 } ist eine Linearkombination von Elementen in W ?
0
2
1


v1
Antwortfindung: Jede Linearkombination v :=  v2  von Elementen in W hat die
v3

194
Lineare Funktionalanalysis
Gestalt

 
  

1
v1
0
k1
 v2  = k1  2  + k2  0  = 
.
2k1
v3
3
3k1 + k2
1

Somit fällt die Antwort genau dann mit “Ja” aus, wenn man die drei Gleichungen
v1 = k1 , v2 = 2k1 , v3 = 3k1 + k2
(6.1)
simultan lösen kann. Man kann nun 
jedender 3 Vektoren
  der Angabe
  hernehmen und zu
0
1
0
lösen versuchen. Man erkennt, daß  0  = 0 ·  2  + 0 ·  0  (also Koeffizienten
0
3
1
 
 
 
1
1
0
k1 = k2 = 0), bzw.  2  = 1 ·  2  + (−1) ·  0  (Koeffizienten k1 = 1, k2 = −1)
2
3
1
gilt.
Welcher der 3 Vektoren liegt im von W aufgespannten linearen Teilraum?
Antwort: Genau jene, welche Linearkombinationen von Vektoren in W sind! Somit der
Nullvektor und (1, 2, 2)T .
Kann man den Koordinaten v1 , v2 , v3 irgendwie ansehen, ob (v1 , v2 , v3 )T im von W
aufgespannten Teilraum liegt?
Antwort: Das ist genau dann der Fall, wenn v2 = 2v1 , wie sich aus den Gleichungen in
(6.1) ergibt.
Sind die Vektoren in W linear unabhängig?
Antwort: Man muß herausfinden, ob (0, 0, 0)T = k1 (1, 2, 3)T + k2 (0, 0.1)T lediglich die
triviale Lösung k1 = k2 = 0 hat, und das ist der Fall, wie man aus den Gleichungen
0 = k1 , 0 = 2k1 , 0 = 3k1 + k2 abliest.
    
  
0
1
1
−1







2
, 4 , 0 } und U =
(Elementaroperationen). Es sei X := { 1 ,
1
3
0
1
L(X). Kann man ein Erzeugendensystem mit 1 oder 2 Elementen von U angeben?
Antwort: Wir benützen die Elementaroperationen. Zunächst kann der Nullvektor weggelassen werden. Danach sei λ((−1, 2, 1)T ) := 1 und λ((1, 4, 3)T := −1 (wir wollen die
erste Koordinate der beiden Vektoren zu Null machen). Es ergibt sich
     
0
0
1
U = L(Y ) wobei Y = { 1  ,  3  ,  3 }.
1
2
2
Jetzt empfiehlt sich x0 := (0, 3, 0)T , sowie λ((1, 1, 1)T ) := 0 und λ((0, 3, 2)T ) := −1 zu
wählen (wir wollen den letzten Vektor zu Null machen und dann mit der ersten Regel
6.1. Vektorräume
195
entfernen), man findet:

  
1
0
U = L(Z) wobei Z = { 1  ,  3 }.
1
2
Es ist somit Z ein Erzeugendensystem mit 2 Elementen. Daß es kein Erzeugendensystem
P = {(a, b, c)T } geben kann, sieht man (ohne Benützung von weiterer Theorie) so ein:
Wäre U = L({(a, b, c)T ), so müßte es Zahlen p, q ∈ R mit
 
   
 
1
a
0
a
 1  = p b ,  3  = q b 
1
c
2
c
geben, somit die Gleichungen 1 = ap = bp = cq (insbesondere a 6= 0) und 0 = aq,
3 = bq, 2 = cq gelten, woraus wegen a 6= 0 sofort q = 0 folgt, im Widerspruch zu z.B.
3 = bq.
Ist W eine Basis des von W aufgespannten linearen Teilraums?
Antwort: Die Menge W ist linear unabhängig, wie eben gezeigt worden ist. Ist nun v in
der linearen Hülle, also v T = k1 · (1, 2, 3)T + k2 · (0, 0.1) = (k1 , 2k2 , 3k1 + k2 )T , so ergäbe
die lineare Abhängigkeit von (1, 2, 3)T , (0, 0.1)T und v T , daß W Basis ist. Das läßt sich
jedoch aus
k1 · (1, 2, 3)T + k2 · (0, 0.1)T + (−1) · v T = (0, 0, 0)T
ablesen, weil der letzte Koeffizient, nämlich (−1) 6= 0 ist.
2. (Lineare (Un)abhängigkeit in einem Beispiel für einen Funktionenraum) Es
sei V := R[0,2π] (d.i. die Menge aller Abbildungen f : [0, 2π] → R). Man beantworte
der Reihe nach folgende Fragen:
Ist T := {1} ∪ {cos(nx) | n ∈ N} ∪ {sin(nx) | n ∈ N} eine linear unabhängige Teilmenge
von V , wenn man diese Funktionen lediglich auf [0, 2π] betrachtet? Ist T eine Basis von
V ? Liegt cos3 (x) in der linearen Hülle von T ?
Antwort: Offensichtlich ist T eine Teilmenge. Um die lineare Unabhängigkeit zu zeigen,
muß man eine eine typische Linearkombination
N
0=
a0 X
+
(an cos(nx) + bn sin(nx))
2
n=1
ansehen und beweisen, daß alle Koeffizienten Null sind2 .
Nun integriert man den Ausdruck von 0 bis 2π und findet solcherart a0 = 0. Die
Orthogonalitätsrelationen
2
Zuvor ist es angebracht, die aus der Theorie der Fourierreihen gebräuchliche Schreibweise der Linearkombination mit der “abstrakten” zu vergleichen: z.B.: k1 = a20 , kcos(nx) = an , ksin(nx) = bn ,
196
Lineare Funktionalanalysis
Z
2π
Z
cos(nx) sin(mx) dx = 0,
0
2π
Z
cos(nx) cos(mx) =
0
2π
sin(nx) sin(mx) = 2πδmn ,
0
wobei δmn = 1 für m = n und 0 für m 6= n, wurden vom Leser möglicherweise schon
erwartet, sie ergeben der Reihe nach an = bn = 0 für alle n ∈ N, also ist die Menge T
linear unabhängig.
Die Funktion f (x) := x ist nicht in der linearen Hülle von T , weil jede Funktion g in T
die Bedingung g(0) = g(2π) erfüllt, wie man sich leicht überlegt, und f (0) = 0, jedoch
f (2π) = 2π 6= 0. Insbesondere kann f nicht als Linearkombination von Elementen in T
dargestellt werden, somit ist T keine Basis von V .
3
Wir zeigen, daß cos3 (x) in der linearen Hülle von T liegt. Es ist cos3 (x) = 21 (eix + e−ix ) =
1 3ix
+ e−3ix + 3eix + 3e−ix ), wie sich aus der Formel von De Moivre und dem bi8 (e
nomischen Lehrsatz ergibt. Nochmalige Anwendung von De Moivre ergibt cos3 (x) =
1
4 (cos(3x) + 3 cos(x)). Dieser Ausdruck läßt sich als Linearkombination der Elemente
in {cos(x), cos(3x)} auffassen, und weil diese Menge Teilmenge von T ist, ist cos3 (x) in
der linearen Hülle von T .
Anmerkung 179 Elementaroperationen mit Basen: Ist X eine Basis V und wendet man eine Elementaroperation im Sinn von Definition 177 an, so entsteht wieder
eine Basis von V .
Basis in K n : Im K n bilden die Elemente ei := (0, . . . , 0, |{z}
1 , 0, . . . , 0)T (wobei T transi
ponieren, also Spaltenvektorschreibweise bedeuten soll) eine Basis. Alle Basen X
von K n haben die gleiche Anzahl, nämlich n.
Basis in beliebigem V : Besteht V lediglich aus dem Nullvektor, so wird X = ∅ als
Basis gewählt. Danach läßt sich mit Mitteln der Mengenlehre (Lemma von Zorn)
die Existenz einer Basis X für jeden beliebigen Vektorraum zeigen. Auch hier gilt,
daß jede Basis die gleiche Kardinalität hat. Sie heißt Dimension von V .
P
Ist X = {e1 , . . . , en } endlich,
Pnso wird aus der “abstrakten Schreibweise” x∈X kx x
die gewohnte Schreibweise i=1 ki ei .
Es hat K n die Dimension n.
Beliebiges V aufgefaßt als Funktionenraum: Unter 3. in Beispiel 174 wurde für eine beliebige Menge X der Teilraum von K X von Funktionen mit endlichem Träger
beschrieben. Der Basisbegriff erlaubt es, jeden Vektorraum als Raum von Funktionen mit endlichen Trägern zu interpretieren: Ist nämlich X eine festgewählte Basis
von V , so hat läßt sich jeder Vektor v ∈ V in eindeutiger Weise linearkombinieren,
d.h.
X
v=
kx x
x∈X
6.1. Vektorräume
197
wobei höchstens endlich viele kx 6= 0 sind. Nun betrachtet man in K X den Teilraum
U aller Funktionen f , für welche der Träger {x ∈ X | f (x) 6= 0} endlich ist. Offenbar
entsprechen (nach der Festlegung der Basis X) die Elemente in V eineindeutig jenen
von U .
Ist X endlich, so hat natürlich jedes f ∈ K X endlichen Träger.
Basiserweiterung: Jede Basis X eines Teilraumes U von V kann zu einer solchen von
V erweitert werden.
Die nachstehenden Beispiele streichen typische Anwendungssituationen heraus, bzw. beeinhalten Beweisdetails.
Beispiel 180 (Nachweis für die Basiserweiterung)
Wie zeigt man, daß jede Basis X eines linearen Teilraumes U von V zu einer Basis von V
erweitert werden kann?
Antwort: Zunächst hat V /U eine Basis Z̄. Nun wählt man in jeder Nebenklasse z̄, die ja
lt. DN von der Form v + U ist, ein Element z. Die solcherart entstandene Menge heiße Z.
Es wird behauptet, daß X ∪ Z eine Basis von V ist, die X erweitert
P (d.h. umfaßt). Es muß
gezeigt werden,
daß
jedes
v
∈
V
eine
eindeutige
Darstellung
v
=
w∈X∪Z kw w besitzt. Es
P
P
ist vP+ U =
z̄∈
PZ̄ kz z̄. Daher ist v − z∈Z kz z ∈ U als Linearkombination in der Form
v − z∈Z kz z = x∈X
P kx x anschreibbar. Setzt man kw := kx falls w ∈ X und kw = kz , wenn
z ∈ Z ist, so ist v = w∈X∪Z kw w.
P
Die lineare Unabhängigkeit der MengePX∪Z sieht man
P wie folgt ein: Wenn 0 = w∈X∪Z kw w
so folgt wegen X ⊂ U zunächst 0 = z∈Z kz z̄ = z̄∈Z̄ kz z̄, also
P wegen der linearen Unabhängigkeit von Z̄, daß alle kz = 0 sind. Deshalb verbleibt 0 = x∈X kx x, und da X eine
Basis (und somit linear unabhängig) ist, sind alle kx = 0. Wie schon bemerkt, ist die eindeutige Linearkombinierbarkeit von Vektoren durch Vektoren in X ∪ Z gleichbedeutend dazu,
daß X ∪ Z linear unabhängig ist.
Beispiel 181 (Treppenfunktionen) Es sei I = [a, b] ein abgeschlossenes Intervall und
a = x0 < x1 · · · < xn = b eine Intervallteilung. Eine Funktion, die auf jedem Teilintervall
Ii := (xi−1 , xi ) mit i ∈ {1, . . . , n} konstant ist, heißt Treppenfunktion zur gegebenen Teilung.
Ist die Menge der Treppenfunktionen zu gegebener Teilung ein Vektorraum?
Antwort: Ja. Sind nämlich f und g auf jedem Intervall der angegebenen Art konstant, so
offenkundig auch kf + lg.
Ist dieser Vektorraum endlichdimensional? Wenn ja, wäre eine Basis interessant!
198
Lineare Funktionalanalysis
Antwort: Es sei φi die Funktion, welche an der
Stell xi den Wert 1 und sonst Null annimmt.
Weiters sei ψi die Funktion, die auf dem offenen
Intervall (xi−1 , xi ) den Wert 1 und sonst Null
annimmt (nebenstehende Skizze). Man überlegt
sich nun, daß {ψi | i = 1, . . . , n} ∪ {φi | i =
0, . . . n} eine Basis bildet. Die Dimension ist, wie
man unschwer sieht, 2n + 1.
·
a
◦
◦
•
xi−1
•
xi
1
·
b
Beispiel 182 (Hutfunktionen 1) In Kapitel 7 wird ein simples mathematisches Modell
der eingespannten Saite unter Belastung entwickelt werden. Als Approximation der “Durchbiegung” verwendet ma eine stetige, stückweise lineare Funktion, deren Werte an den Enden
Null ist (eingespannt – Randbedingung) und durch Werte ui an n − 1 Stützstellen xi definiert
ist.
o·?
In der nebenstehenden Skizze ist die Länge der Seite mit 1
·OOOOO
?
OOoOo o


?
OOO

Einheit, n = 3, x1 = .25 und x2 = .75 und man sieht zwei
o

?
OO
_ _ o o

_
·
·
·
·
stetige, stückweise lineare Funktionen, die an den Stützstellen jeweils entweder den Wert Null oder Eins annehmen.
0
.25
.75
1
Wie kann eine stetige stückweise lineare Funktion u bei vorgegebenem Funktionswert ui an
der Stelle xi beschrieben werden?
Antwort: Auf dem Intervall [xi−1 , xi ] wird f
durch eine Gerade durch die Punkte (xi−1 , ui−1 )
(xi , u· i )
und (xi , ui ) beschrieben, wobei u0 = un = 0
t
tt t
gelte. Die nebenstehende Skizze ergibt die Gleit
(x, u)•t t
u −u
tt
chung
i
i−1
tt
tan(αi ) =
u − ui−1
ui − ui−1
=
x − xi−1
xi − xi−1
(xi−1 , ui−1 )
t
tt
t
tt
t
t α
·_t _ _i _ _ _ _ _ _·
xi − xi−1
aus der für i = 1, . . . , n − 1 die stückweise Beschreibung
u(x) = ui−1 +
ui − ui−1
(x−xi−1 ) für xi−1 ≤ x < xi
xi − xi−1
·
·
xi−1
xi
folgt.
Bilden die stetigen stückweise linearen Funktionen mit vorgegebenen Stützstellen einen linearen Vektorraum?
Antwort: Ja, der Beweis folgt.
Es sei I das Intervall, auf dem die Funktionen definiert sind. Wie schon gezeigt worden
ist, ist die Menge C0 (I) der stetigen Funktionen mit Randwerten Null ein linearer Teilraum
von RI . Eine Funktion heißt bekanntlich stückweise linear auf I, wenn es eine Teilung des
Intervalls I gibt, sodaß die Funktion auf jedem Teilintervall linear ist. Das reelle Vielfache
einer stückweise linearen Funktion ist es offenbar auch (mit den gleichen Teilungspunkten).
Sind f und g stückweise linear mit Teilungen des Intervalls I, so ist f + g stückweise linear
6.1. Vektorräume
199
auf jedem Intervall, welches als Durchschnitt von Teilungsintervallen von f und g entsteht.
Somit bilden die stückweise linearen Funktionen einen linearen Teilraum von RI . Wird noch
vereinbart, daß die Stützstellen für alle Funktionen die gleichen sind, so gilt das auch. Die
Menge der stetigen stückweise linearen Funktionen zu fester Teilung bildet nun als Durchschnitt linearer Teilräume selbst einen linearen Teilraum von RI .
Es sei für i = 1, . . . , n − 1 die i.te Hutfunktion Hi jene stetige stückweise lineare Funktion, die
an der Stützstelle xi den Wert 1 und an allen anderen Stützstellen den Wert Null annimmt
(Siehe die erste der beiden zum Beispiel gehörigen Skizzen, wo für n = 3 beide Hutfunktionen
H1 und H2 skizziert worden sind.). Bildet die Menge der Hutfunktionen {Hi | i = 1, . . . , n −
1} eine Basis des Raumes der stetigen stückweise linearen Funktionen mit vorgegebenen
Stützstellen xi ?
Antwort: Ja. Zunächst ist bei Vorgabe der Stützstellen (xi , ui ) mit u0 = un = 0 die hiedurch
eindeutig festgelegte stetige stückweise lineare Funktion f von der Form
f=
n−1
X
u i Hi .
i=1
Dies sieht man ohne Rechnung ein: Die Funktion auf der rechten Seite ist stetig und stückweise linear. Sie nimmt an den Stützstellen genau dieselben Werte wie f an, ist daher mit f
identisch. Um die lineare Unabhängigkeit zu prüfen, nehme man
0=
n−1
X
ci Hi
i=1
für gewisse ci ∈ R an. Einsetzen von x = xj für j ∈ {1, . . . , n − 1} ergibt
0=
n−1
X
ci Hi (xj ) = cj ,
i=1
woraus die lineare Unabhängigkeit folgt.
6.1.4
Lineare Abbildung, Kern, Bild und Rang
Definition 183 Sind U, V beides K-Vektorräume, so heißt eine Abbildung f : U → V linear
(genauer K-linear) wenn sie für alle k, l ∈ K und alle u, v ∈ U eine der nachstehenden
äquivalenten Bedingungen erfüllt:
• f ist ein Homomorphismus abelscher Gruppen und f (ku) = kf (u).
• f (ku + lv) = kf (u) + lf (v) (“Man kann die Operationen ‘+’ und ‘·’ durch das f
durchziehen”);
• f (ku) = kf (u) und f (u + v) = f (u) + f (v), also homogen vom Grad 1 und additiv ist.
200
Lineare Funktionalanalysis
Die Menge ker(f ) := {u ∈ U | f (u) = 0} ist der Kern von f und f (U ) := {f (u) | u ∈ U } ist
das Bild von U unter f , auch als R(f ) (wie “range”) bezeichnet.
Ist U Teilraum von H, so ist f eine partielle Funktion im Sinne von Definition 29 und wird
linearer Operator von H nach V geannt mit Definitionsbereich D(f ) := U und Wertebereich
(engl. Range) R(f ).
Beispiel 184 Sehr elementare Übungsaufgaben.
1. Welche der nachstehenden Abbildungen von R3 nach R2 sind linear? f ((x, y, z)T ) =
(x, z)T . Die Abbildung g ist wie folgt definiert: Gegeben ist ein Vektor ~a im R3 und
danach soll g(~x) := f (~a ×~x) sein (Vektorprodukt). Weiters soll h((x, y, z)T ) := (|x|, |x+
y|)T .
Antwort: Die Linearität von f würde formal so bewiesen werden:






kx1 + ly1
y1
x1
kx1 + ly1






y2 ) = f ( kx2 + ly2 ) =
x2
=
+l
f (k
kx3 + ly3
kx3 + ly3
y3
x3




y1
x1
x1
y1
k
+l
= kf ( x2 ) + lf ( y2 ).
x3
y3
y3
x3
Das Vektorprodukt ~a × ~b erfüllt bekanntlich die Regeln
~a × (~x + ~y ) = ~a × ~x + ~a × ~y , ~a × k~x = k ~a × ~x,
die wir uns zunutze machen:
g(~x + ~y ) = f (~a × (~x + ~y )) = f (~a × ~x + ~a × ~y ) = f (~a × ~x) + f (~a × ~y ) = g(~x) + g(~y ).
Analog zeigt man g(k~x) = kg(~x) für alle k ∈ R und ~x ∈ R3 .
Um zu zeigen, daß h nicht linear ist, genügt es nachzuweisen, daß h(k~x) 6= kh(~x)
passieren kann. Man wähle z.B. k := −1 und ~x := (1, 0, 0)T .
2. Welche der nachstehenden Abbildungen vom Raum C 1 [0, 1] der auf (0, 1) stetig differenzierbaren, auf [0, 1] stetigen und mit Ableitungen stetig fortsetzbar auf die Randpunkte nachRC[0, 1] bzw. nach R sind linear? a) F (f ) := f 0 , b) G(f ) := f (0) − f (1),
1
c) H(f ) := 0 f (x)φ(x) dx, wobei φ eine fest vorgegebene auf [0, 1] stetige Funktion
R1
ist, d) K(f )(x) := 0 k(x, y)f (y) dy, wobei k : [0, 1] × [0, 1] → R stetig sein soll, e)
R1p
L(f ) := 0 1 + f 0 (x)2 dx.
Antwort: Der Nachweis, daß a),c),d) alle linear sind, besteht im Rekapitulieren von
Rechenregeln der Differential- und Integralrechnung. In a) hat man für k, l ∈ R und
f, g ∈ C 1 [0, 1]
F (kf +lg)(x) = (kf +lg)0 (x) = kf 0 (x)+lg 0 (x) = kF (f )(x)+lF (g)(x) = (kF (f )+lF (g))(x),
6.1. Vektorräume
201
und weil die Rechnung für alle x ∈ [0, 1] gilt, ergibt sich F (kf + lg) = kF (f ) + lF (g),
d.h. die Linearität in a).
Analog geht man in c),d) vor. Bei b) ergibt G(kf + lg) = (kf + lg)(0) − (kf + lg)(1) =
k(f (0) − f (1)) + l(g(0) − g(1)) = kG(f ) + lG(g) die Linearität von G.
Um die Linearität von L zu widerlegen, wählen wir f (x) := 0 und k := 0. Wäre L
linear, so hätte man
Z 1p
Z 1p
1 + 02 dx = 0L(0) = L(0 · 0) =
1 + 02 dx = 1,
0=0
0
0
ein Widerspruch.
3. (Riemannintegral und Quotientenräume) Bekanntlich ändert sich der Wert des
Rb
R-Integrals a f (x) dx für eine R-integrierbare Funktion nicht, wenn man die Funktion
an endlich vielen Stellen abändert. Dies führt auf folgende Fragen in der Terminologie
der linearen Vektorräume
Bilden die Menge R[a, b] der auf einem gegebenen Intervall [a, b] R-integrierbaren Funktionen einen Vektorraum? Es sei U die Menge aller Funktionen auf [a, b], deren Träger
endlich ist (d.h. die nur an endlich vielen Punkten einen Wert nicht Null annehmen).
Ist U ein linearer Teilraum von R[a, b]? Wie läßt sich die Aussage über das Abändern
von Werten auf einer endlichen Teilmenge in der Terminologie der Vektorräume interpretieren?
Antwort: Der übliche Nachweis der Linearität des R-Integrals zeigt auch,
daß R[a, b] ein R-Vektorraum ist. Die Funktionen mit endlichem Träger
bilden einen Vektorraum, wie unter 3. ausgeführt worden ist. Sie sind
alle R-integrierbar und der Wert des Integrals gleich Null. Deshalb läßt
sich das R-Integral als lineare Funktion auf R[a, b]/U auffassen, hier mit
Rb
Iab bezeichnet, jedoch in der Praxis auch mit a ), siehe nebenstehendes
Diagramm.
Rb
/
v; R
v
vv
vv
vv I b
v
a
v
R[a, b]
a
R[a, b]/U
Anmerkung 185 Die folgenden Fakten werden oft benützt:
Kern: Der Kern einer linearen Abbildung f : U → V ist ein linearer Teilraum von U
und das Bild einer von V .
BW: Mit u, v ∈ ker f hat man f (ku + lv) = kf (u) + lf (v) = 0, also ku + lv ∈ ker f
für alle k, l ∈ K. Ähnlich geht der Nachweis für das Bild.
Die Dimension des Kerns von f ist der Defekt von f , jene des Bildes R(f ) der Rang
von f .
Matrixdarstellung: Ist f : U → V eine K-lineare Abbildung und sind X und Y
Basen von U bzw. V , so läßt sich f (x) für jedes x ∈ X aus den Elementen in Y
linearkombinieren:
X
f (x) =
fxy y.
y∈Y
202
Lineare Funktionalanalysis
Sind insbesondere U und V endlichdimensional und ist |X| = n und |Y | = m,
und numeriert man die Basiselemente X = {e1 , . . . , en }, sowie Y = {f1 , . . . , fn }, so
können die fxy in Form einer m × n-Matrix A angeordnet werden:


a11 · · · a1n

..
.. 
A =  ...
.
. 
am1 · · · amn
wobei aij := fei fj ist. Somit ist für i = 1, . . . , n
f (ei ) =
m
X
aij fj .
j=1
Dies wird zur Auffindung einer Matrixdarstellung von f wie folgt verwendet: Man
drückt den i.ten Basisvektor von U als Linearkombination der Basiselemente von
V aus und ordnet die Koeffizienten als Spalte, die man als i.te Spalte der Matrix
anschreibt.
Beispiel 186 Elementare Übungsaufgaben.
1. Es sei f : R3 → R3 dadurch gegeben, daß jeder Vektor ~x um 30 Grad gedreht werde.
Der Drehwinkel sei 30 Grad, die Drehachse identisch mit der z-Achse und wenn man
von oben auf die z-Achse blickt, soll entgegen dem Uhrzeigersinn gedreht werden. Ist f
linear? Wie sieht die Matrix bezüglich der kanonischen Basis aus?
Antwort: Die Linearität muß aus der Abbildungsvorschrift erkennbar gemacht werden.
Wenn ~a und ~b entsprechend gedreht werden, dann auch k~a und ~a + ~b. Insofern leuchtet
T wird
die Linearität ein. Nun soll die Matrix aufgestellt werden. Der Vektor (1, 0, 0)√
1
T
offenbar (Skizze bitte selbst machen) in den Vektor (cos 30, sin 30, 0) = 2 (1, 3, 0)T
√
übergeführt. Entsprechend wird (0, 1, 0)T in (− sin 30, cos 30, 0)T = 21 (− 3, 1, 0)T übergeführt. Schließlich wird (0, 0, 1)T als Drechachse in sich selbst übergeführt. In Übereinstimmung mit der Theorie ergeben sich die Spalten der Matrix als die soeben bestimmten Bilder der Einheitsvektoren ausgedrückt durch eben jene:
√


1 − 3 0
1 √
A=
3
1 0 .
2
0
0 1
2. Es sei U der Raum aller Polynome u vom Grad ≤ 3 mit u(0) = u(1) = 0 (Randbedingung der eingespannten Saite) und X := {x(1 − x), x2 (1 − x)}. Ist X eine Basis
von U ? Weiters sei V der Raum aller Polynome vom Grad höchstens 2 mit der Basis
Y := {1, x, x2 }. Es sei A(u)(x) := (1 + x)u00 (x). Ist A : U → V eine lineare Abbildung?
Wenn ja, gebe man eine Matrizendarstellung von A bezüglich der Basen X und Y an.
6.1. Vektorräume
203
Antwort: X ist eine Basis. Jedes Polynom, das an 0 und 1 verschwindet, hat den Teiler
x(1 − x), somit ist jedes beliebige Polynom u ∈ U von der Bauart u(x) = x(1 −
x)(ax + b) = bx(1 − x) + ax(1 − x)x, also Linearkombination der Elemente in X.
Die lineare Unabhängigkeit von X prüft man in üblicher Weise: angenommen 0 =
ax(1 − x) + bx(1 − x)x, so kann man entweder Koeffizientenvergleich machen, oder z.B.
x = 2 einsetzen, um 0 = −2a − 4b, und x = −1, um 0 = −2a + 2b und somit a = b = 0
herauszubekommen, also die lineare Unabhängikeit von X.
Überprüfen der Linearität von A: A(ku+lv)(x) = (1+x)(ku+lv)00 (x) = k(1+x)u00 (x)+
l(1 + x)v 00 (x) = (kA(u) + lA(v))(x), und weil das für alle x ∈ [0, 1] gilt, hat man
A(ku + lv) = kA(u) + lA(v), die Linearität von A.
Das Auffinden einer Matrix geschieht durch Anwenden von A auf die Elemente in X
und Ausdrücken der Ergebnisse als Linearkombination der Elemente in Y , und die
entstehenden Koeffizienten als Spalten der Matrix zu nehmen:
A(x(1 − x)) = x(x − x2 )00 = −2x = 0 · 1 + (−2) · x + 0 · x2 ,
A(x(1 − x)x) = x(x2 − x3 )00 = 2x − 6x2 = 0 · 1 + 2 · x + (−6) · x2 ,
woraus man, wenn A nun zugleich auch die Matrix bezeichnet,


0
0
2 
A =  −2
0 −6
gewinnt.
Welchen Vorteil kann die Matrizendarstellung bringen?
Antwort: Jemand möchte A(u) = v mit vorgegebenem v ∈ V lösen. Statt die Differentialgleichung zu lösen, löst er (etwa für v(x) = 1 − x + 3x2 ) die Matrizengleichung




0
0 1
a
 −2
2 
=  −1  ,
b
0 −6
3
und stellt sofort fest, daß das gar nicht geht.
3. Es sei I := (0, 1), das offene Einheitsintervall und H := C(I), der Raum der stetigen Funktionen. Ist f : H → RI , definiert durch f (u) := u0 (Ableitung) ein linearer
Operator? Man beschreibe D(f ).
Antwort: Die Linearität der Ableitung und die Tatsache, daß Summe und skalares Vielfaches von auf I differenzierbaren Funktionen selbst differenzierbar sind, bedeutet, daß
auf D(f ), der Menge aller differenzierbaren Funktionen, ein linearer Operator vorliegt.
6.1.5
Dualraum, Dualität
204
Lineare Funktionalanalysis
Definition 187 Es seien U, V ein K-Vektorräume.
lineare Funktionale, Linearformen, Dualraum: Jede K-lineare Abbildung von U →
K heißt lineares Funktional, bzw. (üblicherweise eher für endlich dimensionales U ) Linearform auf U . Die Menge aller linearen Funktionale auf U ist der (algebraische)
Dualraum, der mit U ∗ bezeichnet werden soll. Es ist U ∗ ein linearer Teilraum von K U
(unter der punktweisen Addition bzw. Multiplikation mit Skalaren von Funktionen vgl.
auch Beispiel 171 2.).
Duales System von Funktionalen: Ist X eine Basis von U , so werden Funktionale δx
durch δx (y) := 1 falls x = y und δx (y) = 0, falls y 6= x ist definiert. Die Menge
X ∗ := {δx | x ∈ X} ist genau dann eine Basis von U ∗ , wenn U endliche Dimension hat
und heißt dann die zu X duale Basis (oder auch Kobasis) von U ∗ .
Duale Abbildung: Es sei f : U → V eine K-lineare Abbildung.
Es wird jedem v ∗ ∈ V ∗ unter Beachtung des nebenstehenden kommutativen Diagramms durch f ∗ (v ∗ )(u) := v ∗ f (u) = v ∗ (f (u)) das
lineare Funktional f ∗ (v ∗ ) zugeordnet. Die Abbildung f ∗ erweist sich
als K-lineare Abbildung von V ∗ nach U ∗ (bitte selbst nachprüfen).
UA
A
f
/V
AA
AA v∗
A f ∗ (v ∗ )
K
Beispiel 188 Einfache Übungsaufgaben hiezu:
  
 
1
−1
1
1. Man bestimme alle linearen Funktionale auf R3 . Zur Basis  2  ,  1  ,  1 
1
1
3
gebe man die duale Basis an.


x1
Antwort: Der R3 ist der Koordinatenraum aller  x2  mit x1 , x2 , x3 ∈ R. Jedes
x3
lineare Funktional ist von der Form




x1
x1
f ( x2 ) = a1 x1 + a2 x2 + a3 x3 = (a1 , a2 , a3 )  x2  .
x3
x3

Insbesondere kann (R3 )∗ als zeilenweise geschriebener Koordinatenraum angesehen werden, wenn man die Konventionen der Matrizenrechnung in Betracht zieht.
Um die duale Basis zu finden, genügt
zengleichung

1 −1

1
A 2
3
1
es offenbar, die Zeilen der Lösung A der Matri 

1 0 0
1
1  =  0 1 0 ,
1
0 0 1
6.1. Vektorräume
205


1 −1 1
1 1  zu bestimmen. Die Inverse ergibt sich zu
mithin der Inversen von  2
3
1 1

0 −1
1
1 − 21  ,
=  − 21
1
2 − 23
2

A−1
sodaß sich als duale Basis die Zeilen dieser Matrix ergeben.
Es sei f : R3 → R2 die Projektion auf (x1 , x2 )-Ebene. Im R2 sei die kanonische Basis
vorgegeben und das Funktional v ∗ (x, y) := 3x − 5y. Wie lautet f ∗ (v ∗ )?
Antwort: Verwendet man auch im R3 die kanonische Basis, so hat f die Matrizendarstellung
1 0 0
Af =
.
0 1 0
(Wie üblich wendet man f der Reihe nach auf die Basis (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T
an, um dadurch die Spalten der Matrix Af zu erhalten, indem man das jeweilige Ergebnis durch die kanonische Basis in R2 ausdrückt, bzw. hier einfach abliest.)
Insbesondere ist f ∗ (v ∗ ) = v ∗ f (Zusammensetzung von Abbildungen), also







x1
x1
x1
x1
1 0 0 
x2  = (3, −5, 0)  x2  ,
f ∗ (v ∗ )( x2 ) = v ∗ (f ( x2 )) = (3, −5)
0 1 0
x3
x3
x3
|
{z
} x3

ausmultiplizieren
somit ist f ∗ (v ∗ ) = (3, −5, 0).
2. (Duale Basis und Auswerten von Integralen) Es sei U die Menge der höchstens
quadratischen Polynome mit Koeffizienten in R. Es ist U ein 3-dimensionaler reeller
Vektorraum. Als Basis werde X := {1, x, x2 } gewählt.
R∞
Ist durch J(u) := 0 e−x u(x) dx ein lineares Funktional J auf U gegeben? Wenn ja,
wie läßt es sich durch die duale Basis ausdrücken?
Antwort: Ja. Sichtlich ist J(u) ∈ R und Konvergenz sowie Linearität der Integration
ergeben die Linearität von J. Um den zweiten Teil der Aufgabe zu lösen, reicht es, J der
Reihe nach auf 1, x und x2 anzuwenden, weil hiedurch die Werte von 1∗ (1), x∗ (x) und
(x2 )∗ (x2 ) bestimmt werden. Partielle Integration liefert J(1) = J(x) = 1 und J(x2 ) = 2.
somit ergibt sich als Antwort zum 2.ten Teil
J = 1∗ + x∗ + 2(x2 )∗ .
Gibt es eine Situation, wo diese Beschreibung von J hilfreich ist?
206
Lineare Funktionalanalysis
Antwort: Angenommen, jemand muß für die Polynome u ∈ {1 − x + x2 , 3 + 5x + 7x2 }
(und noch ein paar mehr) das Integral J(u) bestimmen. Es ergibt sich


 
1
3
2
2



J(1 − x + x ) = (1, 1, 2) −1
= 2, J(3 + 5x + 7x ) = (1, 1, 2) 5  = 22,
1
7
und wer es nicht glaubt, integriert schön brav.
Es sei V die Menge aller linearen Polynome und K das soeben beschriebene Funktional,
eingeschränkt auf V . Weiters sei f : U → V die lineare Abbildung, welche jedem u das
differenzierte Polynom u0 ∈ V zuordnet. Wie lautet f ∗ (K)?
R∞
Antwort: Genau wie vorher muß man f ∗ (K)(u) = K(f (u)) = K(u0 ) = 0 u0 (x)e−x dx
bestimmen. Man findet (partielle Integration) als Ergebnis K(u0 ) = J(u), also f ∗ (K) =
J.
Beispiel 189 (Erste
Variation bzw. Richtungsableitung als lineare Funktionale)
R1
Es sei J(y) := 0 L(x, y, y 0 ) dx, wobei L hinreichend oft stetig differenzierbar sei. Somit ist
J unter entsprechenden Annahmen über die vorkommenden Funktionen ein (nicht lineares)
Funktional.
Als klassische Variationsaufgabe gilt die Maximierung/Minimierung von J(y), wobei y :
[0, 1] → R in einer vorgegebenen Klasse von Funktionen liegt. Als einfachstes Beispiel
sei bei vorgegebenen
Funktionswerten y(0) := y0 und y(1) := y1 die Länge des Graphen
R1p
0
2
J(y) := 0 1 + (y ) dx möglichst kurz, wobei als Klasse der Funktionen z.B. alle stetig
differenzierbaren Funktionen genommen werden können. Im 18.Jhdt wurde von L. Euler
die Variationsrechnung begründet, die (in moderner Fassung) zunächst die Vorgabe einer
C ∞ -Formfunktion φ mit φ(0) = φ(1) = 0 erfüllt vorsieht, somit in D([0, 1]) liegt. Nun wird
die Funktion F () := J(y + φ)
y+εφ
y
φ
x
a
b
betrachtet, die im Falle y eine Lösung ist, an der Stelle = 0 ein lokales Extremum besitzt.
Das gilt für jedes solche φ. Der Ausdruck
d
δJ(φ) :=
J(u + φ)
d
=0
6.1. Vektorräume
207
wird als erste Variation oder Richtungsableitung des Funktionals J in Richtung φ bezeichnet.
Sichtlich ist δJ, sofern definiert, ein Element des Dualraumes von D([0, 1]).
Es soll das Bilden der 1.ten Variation anhand einiger weniger Beispiele geübt werden.
Es sei L(x, y, z) := 12 p(x)z 2 − f (x)y. Wie kann für J(y) :=
berechnet werden?
Antwort: Es muß nur eingesetzt werden.
Rb
a
L(x, y, y 0 ) dx die erste Variation
Rb
J(y + φ) = a ( 12 p(x)((y(x) + φ(x))0 )2 − f (x)(y(x) + φ(x))) dx
Rb 1
= a (2 p(x)(y 0 (x))2 − f (x)(y(x))) dx
Rb
+ a (p(x)y 0 (x)φ0 (x) − f (x)φ(x)), dx
+2 ( 12 p(x)(φ0 (x))2 ) dx
Rb 0 0
Rb
= J(y) + a (py φ − f φ) dx + 2 a 12 p(φ0 )2 dx
Hieraus ergibt sich in ganz elementarer Weise (Differenzieren nach und danach Null setzen,
d.i. den “Koeffizienten” von nehmen:
Z b
δJ(φ) =
(py 0 φ0 − f φ) dx
a
als 1.te Variation.
Angenommen, p ist stetig differenzierbar und man sucht nur Lösungen, die mindestens 2-mal
stetig differenzierbar sind. Kann δJ zur Herleitung einer DGL für y herangezogen werden?
Antwort: Ja, es gilt (im offenen Intervall) −(py 0 )0 − f = 0 (Randbedingungen waren y(a) =
y0 , y(b) = y1 ), also ein Randwertproblem.
BW: Zunächst folgt mittels partiellen Integrierens (wir integrieren nach φ0 ):
Rb
Rb
py 0 φ0 dx − a f φ dx
b R b
Rb
py 0 φa − a (py 0 )0 φ dx − a f φ dx
| {z }
R b=0
= a (−(py 0 )0 − f )φ dx.
δJ(φ) =
=
a
Jetzt erweist sich unter den gemachten Voraussetzungen ψ := −(py 0 )0 − f auf dem offenen
Intervall (a, b) als stetig. Wir behaupten, daß ψ = 0 gilt. Wenn nicht, gibt es ein x0 ∈ (a, b)
mit ψ(x0 ) 6= 0 und wir nehmen einfachheitshalber ψ(x0 ) > 0 an. Dann gibt es wegen der
Stetigkeit von ψ ein Teilintervall (x0 −η, x0 +η) von (a, b) auf dem ψ > 0 ist. Mittels der Testfunktion aus Beispiel 172 konstruiert man durch Skalieren eine Testfunktion φ, die auf genau
dem gleichen Intervall positiv ist. Danach ergibt sich δJ(φ) > 0 für dieses φ, ein Widerspruch.
Rb
Es sei jetzt J(y) := a L(x, y, y 0 ) dx, wobei L stetig differenzierbar sei. Wie lautet die entsprechende Formel für die 1.te Variation?
Rb
Antwort: Es ist δJ(φ) = a (Ly (x, y, y 0 )φ + Ly0 (x, y, y 0 )φ0 ) dx.
208
Lineare Funktionalanalysis
BW: Zunächst berechnen wir die Ableitung nach . Es ist
Rb
d
d
0
0
d J(y + φ) = Rd a L(x, y + φ, y + φ ) dx
b ∂
= a ∂
(L(x, y + φ, y 0 + φ0 )) dx
Rb
= a Ly (x, y + φ, y 0 + φ0 )φ + Ly0 (x, y + φ, y 0 + φ0 )φ0 dx
Nun setzt man = 0 und bekommt den obigen Ausdruck.
Unter der Annahme, daß L stetig differenzierbar (als Funktion in 3 Variablen) und 2-mal
d
stetige Lösungen gesucht werden, soll die Eulergleichung Ly − dx
Ly0 = 0 hergeleitet werden.
Rb
BW: Es geht ganz analog wie vorhin. Lediglich der Term a Ly0 (x, y, y 0 )φ0 dx wird nach φ0
b R b d
partiell integriert und ergibt Ly0 (x, y, y 0 )φa − a dx
Ly0 (x, y, y 0 ) φ dx. Hierin verschwindet
der erste Term, weil φ(a) = φ(b) = 0 gilt, und somit ergibt sich insgesamt
Z b
d
0
0
Ly (x, y, y ) −
Ly0 (x, y, y ) φ(x) dx = 0
dx
a
woraus genauso wie oben auf das Verschwinden des Differentialausdrucks in (a, b) geschlossen
wird.
Wenn man 2-mal stetig differenzierbare Funktionsgraphen y(x) zuläßt, bekommt man mit dieser Methode tatsächlich
R 1 p genau die Gerade y = x als kürzeste Verbindung von (0, 0) und (1, 1)
im Falle J(y) = 0 1 + (y 0 )2 dx (Länge des Funktionsgraphen von y) und Randbedingungen
y(0) = 0, bzw. y(1) = 1, wie es die Anschauung erwarten läßt?
Antwort: Man bekommt zunächst, daß unter den 2-mal stetig differenzierbaren Kurven
bestenfalls die Gerade y = x Lösung sein kann.
0
BW: Es ist Ly = 0 und Ly0 = √ y 0 2 . Die Eulergleichung ergibt sich zu
1+(y )
y0
p
1 + (y 0 )2
!0
= 0,
p
sodaß es eine Konstante c mit y 0 = c 1 + (y 0 )2 geben muß. Als Konsequenz ergibt sich
(y 0 )2 = c2 (1 + (y 0 )2 ), also y 0 konstant, d.h. es kommen lediglich Geraden als Lösung in Frage.
Die einzige Gerade, welche die Randbedingungen erfüllt, ist von der Form y = x.
Angemerkt soll werden, daß die Methode keinen Beweis dafür liefert, ob J tatsächlich ein
Minimum besitzt, so naheliegend dies auch erscheinen mag.
Anmerkung 190 Die wesentlichen Aussagen über Dualität und duale Abbildungen werden durch Dualitätstheorie für K-Vektorräume beschrieben:
Annullator: Für eine Teilmenge X von V wird die Menge aller Funktionale v ∗ , für die
X im Kern von v ∗ liegt, als Annullator X 0 von X bezeichnet. Er ist ein linearer
Teilraum von V ∗ .
6.1. Vektorräume
209
Für eine Teilmenge Y von V ∗ soll der Annullator Y0 die Menge aller Elemente v ∈ V
sein, für die u∗ (v) = 0 für alle u∗ ∈ Ũ gilt, kürzer
Y0 =
\
ker(u∗ ).
u∗ ∈Ũ
Man beachte, daß L(X)0 = X 0 und L(Y )0 = Y0 gilt.
Dualität von Teilräumen von V und V ∗ : Jeder Teilraum von V (bzw. V ∗ ) ist eindeutig durch seinen Annullator in V ∗ (bzw. in V ) bestimmt, etwas formaler:
Startet man von einem Teilraum U von V (bzw. Ũ von V ∗ ), und bildet den Annullator U 0 (bzw. Ũ0 ), so ist U = (U 0 )0 bzw. (Ũ0 )0 = Ũ .
Ist U 0 Teilraum von U , so ist U 0 Teilraum von (U 0 )0 .
“Annullator des Annullators eines Teilraumes ist eben dieser Teilraum.” Der Nachweis kommt in Beispiel 193.
Dualität und lineare Abbildungen: Ist f : U → V eine K-lineare Abbildung und
f ∗ : V ∗ → U ∗ die duale Abbildung so ist
f (U ) = X0 ,
wobei L(X) = ker(f ∗ ). Mit anderen Worten, die Gleichung v = f (u) hat eine
Lösung u ∈ U genau dann, wenn man eine Basis X des Kerns von f ∗ angeben
kann, derart, daß für alle x∗ ∈ X stets x∗ (v) = 0 gilt.
Nachweis: Weil ker(f ∗ ) = {v ∗ ∈ V ∗ | ∀u ∈ U f ∗ (v ∗ )(u) = v ∗ (f (u)) = 0} = f (U )0 ,
ergibt die Dualität von Teilräumen f (U ) = (f (U )0 )0 = ker(f ∗ )0 = {v ∈ V | ∀u∗ ∈
ker f ∗ ist u∗ (v) = 0}.
Bilinearform und Dualität: Es ist auch üblich, die Bilinearform (v ∗ , v) 7→ v ∗ (v) als
Funktion von V ∗ × V → K in recht verbreiteter Notation (etwa in der Theorie
der Distributionen) als Funktion h·, ·i : V ∗ × V → K durch hv ∗ , vi := v ∗ (v) zu
definieren. Diese Funktion heißt bilinear, weil sie in jedem der beiden Argumente
linear ist, wenn das andere Argument festgehalten wird.
Die zu f duale Abbildung f ∗ erfüllt hf ∗ (v ∗ ), ui = hv ∗ , f (u)i für alle v ∗ ∈ V ∗ und
alle u ∈ U .
Gelegentlich wird der Annullator U 0 = {v ∗ ∈ V | hv ∗ , U i = 0} von U als Orthogonalraum von U in V ∗ bezüglich dieser Bilinearform angesehen (und auch mit U ⊥
bezeichnet), bzw. Ũ0 = {v ∈ V | hŨ , vi = 0} (und mit Ũ ⊥ bezeichnet).
Beispiel 191 (Geometrische Deutung der Dualität im R3 ). Im K n lassen sich die
Ideen ähnlich verstehen. Es sei U ein 1-dimensionaler Teilraum, also eine Gerade durch den
210
Lineare Funktionalanalysis
Ursprung. Sie ist der Durchschnitt aller jener Ebenen, die durch diese Gerade gehen. Jede
dieser Ebenen hat einen Normalvektor, und alle diese Normalvektoren liegen in einer Normalebene auf die Gerade durch den Ursprung. Diese Normalebene ist das U 0 . Vektoren (a, b, c)
in U 0 (als Zeilen gedeutet) sind ja geradewegs durch die Bedingung ax + by + cz = 0 für
alle (x, y, z)T auf der Geraden festgelegt. Geht man nun von U 0 aus, so ist (U 0 )0 als Menge
jener Vektoren, die in all jenen Ebenen liegen, welche Kern von einem u∗ ∈ U 0 sind, offenbar
geradewegs die Ausgangsgerade. Die Dualität besagt eben lediglich, daß die Normalebene auf
U
U
U
Ker(u^*)
U^0
u^*
Ebenen, die U enthalten
Normalvektoren, die U^0 aufspannen
U^0
die Gerade diese festlegt, und umgekehrt, die Normalebene durch die Gerade festliegt.
Die Deutung von h·, 
·i ist 
in V := R3 wie folgt: Die Elemente von V ∗ sind Zeilen (a, b, c)
x
und jene in V Spalten  y . Danach ist
z
 
x
h(a, b, c),  y i = ax + by + cz.
z
Im endlichdimensionalen Fall ist der Dualraum im wesentlichen der Gleiche wie der Ausgangsraum (genauer, sie sind algebraisch isomorph). Im nächsten Beispiel zeigen wir, daß
das für unendlich dimensionale Vektorräume nicht einmal für einen endlichen Skalarkörper
richtig sein kann.
Beispiel 192 Es sei K = IF2 und wir betrachten die Menge V aller f ∈ K N mit endlichem
Träger. Man kann sich diese Menge als alle Polynome mit Koeffizienten in IF2 vorstellen.
Dann ist {xj | j ∈ N} ∪ {1} eine Basis von V (es ist zwar x0 = 1, jedoch 0 6∈ N wie in Math.1
6.1. Vektorräume
211
ET). Es leuchtet ein, daß V abzählbar ist. Es ist jedoch V ∗ nicht abzählbar: Sei nämlich eine
beliebige Folge {an }∞
n=0 von Zahlen an ∈ IF2 gegeben. Davon gibt es sicher mehr als abzählbar
viele. Jede solche Folge legt aber auch ein Funktional fest, indem jedem Basiselement xn der
Wert an zugewiesen wird.
Beispiel 193 (Nachweis für die Dualitätsaussage) Der Nachweis für die Dualität von
Teilräumen und Annullatoren ist wie folgt: Es sei U Teilraum von V und X eine Basis von U 0 .
Dann ist x∗ (u) = 0 für alle x∗ ∈ X und alle u ∈ U . Deshalb ist U in X0 = (L(X))0 = (U 0 )0
enthalten. Angenommen es gibt ein u ∈ U \ (U 0 )0 . Dann gibt es eine Basis B von U , die
man zu einer Basis B ∪ {u} von L(U ∪ {u}) erweitern kann, welche schließlich zu einer Basis
B ∪{u}∪C von ganz V erweiterbar ist. Definiert man nun die Abbildung φ : B ∪{u}∪C → K,
indem man φ(b) = φ(c) = 0 für alle b ∈ B und alle c ∈ C und φ(u) = 1 setzt, so ist φ zu
einem linearen Funktional erweiterbar (Basiseigenschaft!). Sichtlich liegt U im Kern von φ
(weil die Basis B von U annulliert wird). Deshalb ist φ ∈ U 0 . Dann sollte aber φ(u) = 0 sein,
weil ja u ∈ (U 0 )0 gewählt worden ist, ein Widerspruch.
Der Nachweis für (Ũ0 )0 = Ũ verläuft ähnlich.
Beispiel 194 (Dualität und Gleichungen)
Es sei f : R3 → R2 die durch die bezüglich der kanonischen Basis festgelegte Matrix
1
1 −1
A=
−1 −1 1
definierte lineare Abbildung. Für welche Vektoren ~b =
b1
b2
kann die Gleichung
A~x = ~b
gelöst werden? Man überlege die Aufgabe elementar und erkläre die Aussage über Dualität
und lineare Abbildungen in Anmerkung 190.
1
Antw.: Offenbar ist A~x =
(x1 + x2 − x3 ), wie man sofort mittels Matrizenrechnung
−1
1
einsieht. Deshalb kommen als Vektoren ~b lediglich Vektoren in der linearen Hülle L(
)
−1
in Frage. Das ist gleichbedeutend damit, daß b1 + b2 = 0 gilt.
Nun zur Erklärung der Dualitätsaussage: Man betrachtet lineare Funktionale y (als Zeilenvektoren) mit yA = 0 und findet somit eine Basis von Lösungen
1
1 −1
(y1 , y2 )
= (0, 0).
−1 −1 1
Elementare Rechnung ergibt
{(1, 1)}
als solch eine Basis. Deshalb kann für einen vorgegebenen Vektor ~b die Lösbarkeit von A~x = ~b
getestet werden, indem man
(1, 1)~b = b1 + b2 = 0
212
Lineare Funktionalanalysis
überprüft. Genau dann, wenn diese Gleichung gilt, ist die Lösbarkeit gegeben.
Beispiel 195 (Linearer Code) Es soll K := IF2 , der Körper mit 2 Elementen sein. Weiters
soll f : IF23 → IF24 durch f ((x1 , x2 , x3 )T ) := (x1 , x2 , x3 , x1 + x2 + x3 )T . definiert sein.
Wie lautet eine Basis von ker(f ∗ )?
Antwort: Bezüglich der kanonischen Basen in U

1 0
 0 1
A=
 0 0
1 1
:= IF23 und V := IF24 ergibt sich als Matrix

0
0 

1 
1
(das übliche Rezept: Die Abbildung f der Reihe nach auf (1, 0, 0)T , (0, 1, 0)T und (0, 0, 1)T
anwenden und die entstehenden Spaltenvektoren als Spalten von A auffassen.)
Wird V ∗ als Raum von Zeilenvektoren aufgefaßt, so findet man eine Basis von ker(f ∗ ) am
einfachsten, indem man die Matrix A zunächst transponiert, somit eine Basis des Lösungsraumes
AT ~y = 0
bestimmt (das sind gewisse Vektoren im R3 ) und danach diese Basisvektoren (“rück”)transponiert,
konkretermaßen:


 
 y1

0
1 0 0 1 

y2   
0
=
AT ~y =  0 1 0 1  
 y3 
0
0 0 1 1
y4
Es ist nicht schwer, als Basis des Kerns von AT die einelementige Menge
{(1, 1, 1, 1)}
auszumachen.
Nun kommt die eigentliche Deutung im Kontext mit der Kodierungstheorie: Jemand will
3-stellige Bitcodes, genauer, Wörter der Länge 3 im freien Monoid über dem Alphabet {0, 1}∗
senden und versieht sie mit einem Extrabit (Paritycheck), sendet also Wörter der Länge 4
nach folgendem Prinzip:
3
• Die 3-stelligen
 Wörter werden als Elemente in IF2 aufgefaßt. So entspricht z.B. 101 dem
1
Vektor  0 .
1
• Jedem Wort 100, 010 bzw. 001 wird (in unserem Beispiel) das ungerade Bit, nämlich 1
angehängt. Danach deutet man diesen Vorgang als Festlegen einer linearen Abbildung
f : IF23 → IF24 , nämlich genau jene von oben.
Die lineare Abbildung f ergibt somit eine Vorschrift, welches Bit an ein Wort, etwa 110,
angehängt wird, nämlich die letzte Koordinate des Bildes f ((1, 1, 0)T ) = (1, 1, 0, 0)T ,
6.1. Vektorräume
213
d.h. ‘0’, also hat man danach das Wort 1100. Die Menge aller dieser Wörter wird
(linearer) Code genannt. Lediglich Wörter in C werden gesendet (und sollten empfangen
werden).
Nun wird das Wort 1100 gesendet (Extrainformation das Extrabit am Ende des Wortes).
• Angenommen, beim Empfänger kommt ein möglicherweise verändertes Wort (z.B. ein
Bit wird falsch übertragen) an, etwa 1110. Wie kann er feststellen, ob das Wort überhaupt zum Code gehört (wenn nicht, so ist mit Sicherheit ein Übertragungsfehler vorgefallen).
Zum Code gehört das empfangene Wort, wenn es, als Vektor in IF24 gedeutet im Bild
von f liegt. Dies läßt sich aber sofort testen, indem man die Elemente der Basis des
Kerns von f ∗ als Zeilenvektoren deutet (in unserem Fall lediglich das (1, 1, 1, 1), es ist
nur ein Basiselement vorhanden) und auf das vorgegebene Wort “anwendet”. Für das
Wort 1110 ergibt Matrizenmultiplikation
 
1
 1 

(1, 1, 1, 1) 
 1  = 1 6= 0,
0
sodaß das Wort 1110 als fehlerhaft erkannt wurde.
Die Terminologie ist in der Literatur
(z.B. in http://www.inf.fh-flensburg.de/lang/algorithmen/code/linear.htm)
wie folgt: Das Bild von f heißt (linearer) Code und wird üblicherweise als Zeilen geschrieben. Die Matrix AT heißt in diesem Kontext Generatormatrix und der Code entsteht durch Linksmultiplikation mit Zeilen, z.B. ist


1 0 0 1
(1, 1, 0)  0 1 0 1  = (1, 1, 0, 0)
0 0 0 1
das Codewort 1100. Die Basis des Kerns von f ∗ (unser (1, 1, 1, 1)) wird nunmehr als
Spalte geschrieben und die Matrizenrechnung eben “andersherum” ausgeführt, nämlich
als
 
1
 1 

(1, 1, 0, 1) 
 1  = 1 6= 0,
1
somit ist 1101 nicht im Code. Die Matrix H := (1, 1, 1, 1) wird als Kontrollmatrix
bezeichnet.
214
Lineare Funktionalanalysis
6.2
Normierte lineare Räume, Banachräume
6.2.1
Norm, Vollständigkeit
Definition 196 Es sei V ein Vektorraum mit Skalarkörper K einer der Körper R oder C
und für k ∈ K sei |k| der Betrag von k.
Normierter Vektorraum: Unter einer Norm auf V versteht man eine Funktion k · k :
V → R mit folgenden für alle u, v ∈ V und k ∈ K geltenden Eigenschaften:
• kuk ≥ 0 und kuk = 0 genau dann, wenn u = 0
ist. (Definitheit)
• kkuk = |k|kuk. (Homogeneität)
• ku + vk ≤ kuk + kvk. (Dreiecksungleichung)
u E= + v
{
v E {{{{
{
{oo7
{o{o{ou
{
o
{o
Dreiecksungleichung
Die durch d(u, v) := ku − vk definierte Funktion ist eine Metrik und heißt durch die
Norm k · k induziert. Das Paar (V, k · k) heißt normierter Vektorraum.
Banachraum: Ist der normierte lineare Raum in der induzierten Metrik vollständig, so
heißt er Banachraum. Man kann zeigen, daß dann K entweder R oder C sein muß. Jeder
abgeschlossene Teilraum eines Banachraumes ist selbst vollständig in der induzierten
Norm.
Beispiel 197 Einfache Beispiele:
1. Es sei K := R und V := R. Weiters sei kvk := |v|, also der übliche Betrag einer reellen
Zahl (ihr Absolutbetrag). Man verifiziert
• |kv| = |k||v| und |u + v| ≤ |u| + |v| für alle rellen Zahlen k, u, v, also die Gültigkeit
der Gesetze einer Norm.
• Die induzierte Metrik d(u, v) = |u − v| ist die übliche Abstandsmetrik (Abstand
zweier Zahlen auf der Zahlengeraden).
• R ist somit ein reller Banachraum.
Ähnlich überlegt man sich das für C. Es ist C sowohl als reeller, als auch komplexer
Banachraum auffaßbar, wobe C als reeller Banachraum die Dimension 2 hat.
2. Es sei V = R2 , aufgefaßt als Vektorraum mit Skalarkörper K = R. Nun sei die Funktion
k · k : V → R durch k(x, y)k := max{|x|, |y|} definiert.
Liegt eine Norm vor?
Antwort: (Definitheit) Die Funktion ist nichtnegativ und Null genau dann, wenn der
Vektor (x, y) = (0, 0).
6.2. Normierte lineare Räume, Banachräume
215
(Homogeneität) Für alle k 6= 0 ist |x| ≤ |y| genau dann, wenn |k||x| = |kx| ≤ |ky| =
|k||y|, sodaß im Falle k(x, y)k = |y| die geforderte Gleichung kkuk = |k|kuk gilt. Ist
|y| ≥ |x| so geht man analog vor, um diese Gleichung nachzuweisen.
(Dreiecksungleichung) Es seien u := (u1 , u2 ) und v = (v1 , v2 ). Die Dreiecksungleichung
für die Betragsfunktion von Zahlen ergibt für i ∈ {1, 2}
|ui + vi | ≤ |ui | + |vi | ≤ max{|u1 |, |u2 |} + max{|v1 |, |v2 |} = kuk + kvk.
Hieraus ergibt sich insbesondere
ku + vk = max{|u1 + v1 |, |u2 + v2 |} ≤ kuk + kvk.
Ist (V, k · k) ein Banachraum?
Antwort: Es sei {un }∞
n=1 , mit un := (xn , yn ) eine Cauchyfolge. Dann ist
|xn − xm | ≤ kun − um k, |yn − ym | ≤ kun − um k,
∞
sodaß sowohl {xn }∞
n=1 als auch {yn }n=1 CF in R sind. Da R vollständig ist, gibt es
Limiten sodaß man den Vektor u := (x, y) mit x := limn→∞ xn und y := limn→∞ yn
definieren kann. Wir zeigen die Konvergenz der Folge {un }∞
n=1 gegen u im Sinne der
gegebenen Norm: sei > 0, so gibt es ein N ∈ N mit |xn − x| < und |yn − y| < für
n ≥ N . Dann ist
kun − uk = max{|xn − x|, |yn − y|} < für diese n, somit ist die CF konvergent, somit R2 bezüglich der Norm Banachraum.
Man skizziere die Einheits“kugel”, d.i. die Menge K(0, 1) := {u | kuk ≤ 1}.
Man überlegt sich sofort, daß (x, y) ∈ K(0, 1) genau dann liegt, wenn
sowohl |x| ≤ 1, also auch |y| ≤ 1 gilt. Es ist somit K(0, 1) = {(x, y) |
|x| ≤ 1 ∧ |y| ≤ 1}, ein Quadrat mit der Seitenlänge 2.
(-1,1)
(1,1)
(-1,-1)
(1,-1)
Anmerkungen zum Beispiel:
Rn mit der Würfelmetrik : Analog erweist sich für (x1 , . . . , xn ) ∈ Rn die Funktion
k(x1 , . . . , xn )k := max{|xi | | i = 1, . . . , n} als Norm und Rn ist ein Banachraum.
Eine Folge konvergiert bezüglich der Norm, wenn sie “koordinatenweise” konvergiert. Als Einheitskugel entsteht im R3 ein Würfel, und ein “Hyperwürfel” in
höheren Dimensionen.
Reellwertig, beschränkten Funktionen mit Supremumsnorm: Schließlich ist es
mit der gleichen Art von Überlegungen möglich, für eine beliebige Menge X nachzuweisen, daß die Menge B(X, R) der beschränkten, reellwertigen Funktionen,
d.i. die Menge aller f ∈ RX , für welche kf k∞ := supx∈X |f (x)| existiert, daß
(B(X, R), k · k∞ ) ein Banachraum ist. Für X := {1, 2} kehrt man zum Ausgangsbeispiel des R2 zurück.
216
Lineare Funktionalanalysis
3. Es sei I = [0, 1] das Einheitsintervall und V := C(I, R) die Menge aller stetigen,
reellwertigen, auf I definierten Funktionen. Es werde kf k := supx∈I |f (x)| definiert.
Ist hiedurch eine Norm definiert und C(I) ein normierter Vektorraum?
Antwort: Ja. Wir gehen die einzelnen Punkte durch.
(Wohldefiniertheit) Zunächst ist zu zeigen, daß für auf I stetiges f supx∈I |f (x)| nicht
womöglich +∞ ist. Es ist I ein kompaktes Intervall und nach dem Satz von Weierstraß
(Anmerkung 165 4.) ist f deshalb beschränkt.
(Definitheit) Sichtlich ist die Funktion k · k nicht negativ. Angenommen kf k = 0 und
es sei x ∈ I. Dann ist |f (x)| ≤ supx∈I |f (x)| = kf k = 0, also f die Nullabbildung.
(Homogeneität) Es sei k ∈ R. Dann ist |kf (x)| = |k||f (x)| für alle x ∈ I. Hieraus
entnimmt man für alle x ∈ I sowohl
|k||f (x)| = |kf (x)| ≤ sup |kf (x)| = kkf k,
x∈I
als auch
|kf (x)| = |k||f (x)| ≤ |k| sup |f (x)| = |k|kf k,
x∈I
und geht man jeweils links zum Supremum über, ergeben sich die Ungleichungen |k|kf k ≤
kkf k und kkf k ≤ |k|kf k, aus denen die Gleichheit |k|kf k = kkf k folgt.
(Dreiecksungleichung) Es seien f, g ∈ C(I). Dann gilt für alle x ∈ I
|f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ sup |f (t)| + sup |g(t)| = kf k + kgk,
t∈I
t∈I
sodaß man auch links zum Supremum übergehen kann.
Es ist die Supremumsnorm eine Norm und deshalb C(I) ein normierter linearer Raum.
Ist C(I) mit dieser Norm ein Banachraum, m.a.W., ist er vollständig?
Antwort: Ja. Hier der Beweis. Es sei {fn }∞
n=1 eine Cauchyfolge. Dann ist für jedes x ∈ I
∞
auch die Folge der Werte {fn (x)}n=1 eine CF. Wegen der Vollständigkeit von R gibt es
somit einen Grenzwert f (x) für jedes x ∈ I.
Um die Stetigkeit von f an der Stelle x ∈ I zu zeigen, muß zu beliebigem > 0 ein
δ > 0 mit
|h| < δ ⇒ |f (x + h) − f (x)| < garantiert werden (Stetigkeitsdefinition). Weil {fn }∞
n=1 eine CF ist, gibt es N ∈ N mit
kfn − fm k < 3 für alle m, n > N . Dann ist auch für alle x ∈ I und diese m, n stets
|fn (x) − fm (x)| < 3 , woraus für m → ∞ die Ungleichung |fn (x) − f (x)| < 3 folgt. Sei
n ≥ N fest gewählt. Da fn an x stetig ist, gibt es ein δ mit |fn (x + h) − fn (x)| < 3 für
alle h mit |h| < δ. Damit ergibt sich
|f (x+h)−f (x)| ≤ ||f (x+h)−fn (x+h)|+|fn (x+h)−fn (x)|+||fn (x)−f (x)| < + + = 3 3 3
für alle solchen h, also die Stetigkeit von f an x.
6.2. Normierte lineare Räume, Banachräume
217
Anmerkung zum Beispiel: Die Anmerkung vom vorigen Beispiel einbeziehend, erweist sich B(I, R) mit der Supremumsnorm als Banachraum. Nimmt man das als gegeben an, verbleibt lediglich der Nachweis, daß jeder Grenzwert von stetigen Funktionen
auf I wieder stetig ist.
4. (Stetige Funktionen Rund Integralnorm) Auf dem Raum C(I, R) werde die Funktion
1
k · k1 durch kf k1 := 0 |f (x)| dx erklärt.
Ist k · k1 eine Norm?
Antwort: Ja. Hier der Nachweis der einzelnen Punkte.
(Wohldefiniert) Da jede stetige Funktion f R-integrierbar ist, ist es auch |f |, sodaß kf k1
wohldefiniert ist.
(Definitheit) Da |f (x)| ≥ 0 für alle x ∈ I gilt, kann das Integral nie negativ sein.
Angenommen kf k1 = 0. Angenommen es existiert x0 ∈ I mit f (x0 ) 6= 0. Dann gibt es
wegen der Stetigkeit von f ein δ mit |f (x)| ≥ 12 |f (x0 )| für |x − x0 | < δ. Deshalb ist
Z
0 = kf k1 =
1
Z
min{x0 +δ,1}
|f (x)| dx ≥
0
|f (x)| dx ≥ δ
max{x0 −δ,0}
|f (x0 )|
> 0,
2
ein Widerspruch. Somit ist f die Nullabbildung.
(Dreiecksungleichung) Sie folgt aus Sätzen der Integralrechnung:
Z 1
Z 1
Z 1
kf + gk1 =
|f (x) + g(x)| dx ≤
|f (x)| dx +
|g(x)| dx = kf k1 + kgk1 .
0
0
0
Ist (C(I, R), k · k1 ) ein Banachraum?
Antwort: Nein, der Nachweis wurde in Beispiel 157 3. geführt.
Anmerkungen zum Beispiel: Die Vervollständigung dieses Raumes bezüglich der
k · k1 Norm heißt L1 (I, R). In der Maßtheorie werden die Elemente von L1 (I, R) als
Funktionen beschrieben, die bis auf eine Nullmenge definiert sind, und die im Sinne
des Lebesgueintegrals absolut integrierbar sind. Für die weiteren Entwicklungen (und
Praxis numerischer Methoden) genügt es vorerst, die Elemente von L1 (I, R) sich durch
geeignete stetige Funktionen hinreichend genau approximiert zu denken.
6.2.2
Abgeschlossene Teilräume, Dimension
Anmerkung 198 Folgende Fakten für abgeschlossene Teilräume, d.s. Teilräume, die im
normierten Vektorraum V zugleich abgeschlossen sind, gelten:
Normen im Rn : Im Rn sind alle Normen äquivalent zur Maximumsnorm, d.h. es gibt
positive Konstanten c, C mit
c max{|xi | | i = 1, . . . , n} ≤ k~xk ≤ C max{|xi | | i = 1, . . . , n}.
218
Lineare Funktionalanalysis
Endlich-dimensionale Teilräume: sind stets abgeschlossen, auch dann, wenn V nicht
vollständig ist.
Folgenkompaktheit im Teilraum: Ein Teilraum L eines normierten linearen Raumes V ist genau dann folgenkompakt bezüglich beschränkter Teilmengen, d.h., jede
beschränkte Folge enthält eine konvergente Teilfolge, wenn er endliche Dimension
hat.
Beispiel 199 Hier die Beweise:
Äquivalenz der Normen im Rn : Zunächst ergibt sich aus
X
k~x − ~y kV = k
(xi − yi )~ei kV ≤ max{|xi − yi | | i = 1, . . . , n}C
i
für C := max{k~ei kV | i = 1, . . . , n} sowohl die Behauptung für die Schranke nach
oben (für ~y = ~0) als auch die Stetigkeit der Funktion φ(~x) := k~xkV . Deshalb ist im
Rn die Menge K := {~x | k~xkV = 1} beschränkt und abgeschlossen, also kompakt.
Demnach besitzt die Funktion φ wegen des Satzes von Weierstraß (Anmerkung 165 4.)
ein Minimum c auf K, welches nicht Null sein kann. Deshalb ist k~xkV ≥ c. Nun ersetzt
1
~y und erhält die behauptete Äquivalenz von Normen im Rn .
man ~x := max{yi |i=1,...,n}
Abgeschlossenheit von endlich-dim. Teilräumen: Es sei L endlichdimensionaler Teilraum des normierten Raumes (V, k·kV ) und B eine beliebige Basis von L. Dann
P induziert
die Norm k · kV eine Norm auf L, welche nach dem vorigen zur für ~x = b xb b ∈ L
durch
k~xkL := max{|xb | | b ∈ B}
gegebenen äquivalent ist. Deshalb ist jede bezüglich der V -Norm konvergente Folge
auch bezüglich der L-Norm konvergent, also insbesondere der GW in L und somit L
abgeschlossen.
Folgenkompaktheit für beschränkte Teilmengen im Teilraum ⇒ endlichdimensional:
Es sei L zunächst ein beliebiger endlich-dimensionaler Teilraum von V , der nach vorigem abgeschlossen ist. Falls L 6= V , so ergibt sich aus Anmerkung 270, daß stets ein
y 6∈ L mit kykV = 1 und kl − ykV ≥ 21 für alle l ∈ L gefunden werden kann. Angenommen, der Raum hat unendliche Dimension. Dann kann damit induktiv eine Folge von
Elementen yn der Länge 1 und Teilräume Ln = L(y1 , . . . , yn ) mit kyn − yj kV ≥ 12 für
alle j < n gewonnen werden. Hieraus ergibt sich sofort daß für alle i, j stets kyi − yj k≥ 12
ist. Eine solche Folge ist somit zwar beschränkt, kann aber keine konvergente Teilfolge
enthalten, ein Widerspruch.
6.2.3
Lp und lp Normen
Im Abschnitt über Hilberträume wird das im Folgenden zu findende p = q = 12 sein. Die hier
vorgestellten Räume sind klassische Standardbeispiele der Funktionalanalysis.
6.2. Normierte lineare Räume, Banachräume
219
Anmerkung 200 Die folgenden Ungleichungen spielen eine wichtige Rolle:
Young : Es sei f : [0, ∞) → [0, ∞) streng monoton und stetig, weiters f (0) = 0 und
limx→∞ f (x) = ∞, sowie g die Umkehrfunktion zu f . Dann ist für alle u, v ≥ 0
stets
Z u
Z v
uv ≤
f (x) dx +
g(y) dy .
0
0
{z
} | {z }
|
1
2
Hölder, Integralform: Sind f, g beide auf dem Intervall [a, b] stückweise stetige, reellwertige Funktionen, und p > 1 sowie q durch die Gleichung p1 + 1q = 1 festgelegt,
so ist
Z b
p1 Z b
1q
Z b
|f (x)g(x)| dx ≤
|f (x)|p dx
|g(x)|q dx
.
a
a
a
Falls p = q = 2, erhält man die Cauchy-Schwarsche Ungleichung in Integralform.
Minkowski, Integralform: Auf dem Raum der auf [a, b] stetigen Funktionen ist durch
Z
kf kp :=
b
|f (x)|p dx
p1
a
eine Norm definiert. Man nennt sie die Lp -Norm.
Minkowski, Summenform: Ist I eine endliche Menge, so wird auf RI durch
!1
p
kakp :=
X
|ai |p
i∈I
eine Norm festgelegt, welche lp -Norm genannt wird.
Lp und lp : Die Vervollständigung des Raumes der stetigen Funktionen bezüglich der Lp Norm heißt Lp (-Raum) und des Raumes der Folgen {xn }∞
n=1 mit fast allen Glieder
gleich Null, heißt lp (-Raum).
Beispiel 201 Hier sind Beweisskizzen der Ungleichungen.
Young: Geometrisch ist der Sachverhalt einleuchtend:
220
Lineare Funktionalanalysis
O
x = g(y)
y = f (x)
y
Die Fläche des Rechtecks mit den Seiten u, v ist
nicht größer als die Fläche unterhalb des Graphen von f (bis u) plus die Fläche links vom
Graphen von g (bis v).
v _ _ _ _ __ _ _ _
2 2
1
0
u
/x
Hölder: Zunächst wählt man in der Youngschen Ungleichung als Funktion f (x) := xp und
findet durch elementares Integrieren
uv ≤
up v q
+ .
p
q
Rb
1
Setzt man jetzt Jp (f ) := a (|f (x)|p dx) p , um die Schreibarbeit zu reduzieren, und
(x)|
g(x)
u := |f
Jp (f ) , v := Jq (g) und integriert von a bis b, so ergibt sich
Rb
a
|f (x)g(x)| dx
≤ 1,
Jp (f )Jq (g)
woraus die Ungleichung folgt.
Minkowski, Integralform: Die Ungl. von Minkowski ist die Dreiecksungleichung, die nun
zu beweisen ist. Man geht von |f (x)+g(x)|p = |f (x)+g(x)||f (x)+g(x)|p−1 ≤ |f (x)||f (x)+
g(x)|p−1 + |g(x)||f (x) + g(x)|p−1 aus und wendet auf der rechten Seite für jeden Summanden auf die beiden Faktoren die Höldersche Ungleichung an. Man findet (mit etwas
Akribie) kf + gkpp ≤ kf kp k|f + g|p−1 kq + kgkp k|f + g|p−1 kq . Der Ausdruck k|f + g|p−1 kq
p
entpuppt sich bei entsprechendem Einsetzen als kf + gkpq wobei auch q(p − 1) = p (als
Konsequenz von p1 + 1q = 1) benützt wird. Danach zieht man links und rechts die p.te
Wurzel.
Minkowski, Summenform: Es genügt, I := {1, 2, . . . , n} und somit Folgen (a1 , a2 , . . . , an )
zu betrachten. Auf dem Intervall [0, n] werde nun f (x) := ai definiert, falls i − 1 ≤ x < i
gilt. Nun ergibt sich die Lp -Norm geradewegs als lp -Norm und die Minkowskiungleichung
für Folgen ergibt sich als Konsequenz.
6.2.4
Soboleffnormen
Da im Sinne von Lp -Normen konvergente Funktionenfolgen im allgemeinen bestenfalls bis auf
Lebesguenullmengen definiert sind, benötigt man zur Formulierung von Randwertproblemen
Banachräume, die durch entsprechende Integralnormen kalkülmäßig leichter zu beherrschen
sind (etwa wegen geeigneter Integrationsroutinen) als Räume mit gleichmäßiger Konvergenz,
deren Konvergenzbegriff zu restringiert ist (schlechte Konvergenz – schwierige Approximationsprobleme). Deshalb wurden Räume definiert, welche Integralnormen auch von Ableitungen
berücksichtigen. Hier soll das einfachste Beispiel (nämlich p = 1) präsentiert werden, welches
6.2. Normierte lineare Räume, Banachräume
221
bereits aufzeigt, daß man die Elemente des Raumes als stetige Funktionen interpretieren
kann.
Beispiel 202
1. (Der Soboleffraum W11 (I)), ein Banachraum stetiger Funktionen mit
einer Integralnorm). Es sei C 1 (I, R) mit I = [0, 1] der Raum der stetigen, auf (0, 1)
stetig differenzierbaren (d.h. Ableitungsfunktion dort stetig) und mit in die Endpunkte
0 und 1 stetig fortsetzbarer Ableitung.
Es sei kf k :=
R1
0
|f (x)| dx +
R1
0
|f 0 (x)| dx. Liegt eine Norm vor?
Antwort: Ja, der Nachweis verläuft recht ähnlich wie in Beispiel 197 4.
Ist C 1 ([−1, 1], R) mit der Norm kf k :=
liegt ein Banachraum vor?
R1
−1 |f (x)| dx
+
R1
−1 |f
0 (x)| dx
vollständig, d.h.
Antwort: Nein. Es sei fn := x2n−1 und wir betrachten die Folge {fn }∞
n=1 . Es ergibt sich
nach etwas elementarem Integrale ausrechnen
1
1 1
1 −
+
−
kfn − fm k = 2 2n − 1 2m − 1 n − 1 m − 1 und mit Mitteln der Analysis überlegt man sich, daß dieser Ausdruck für m, n beide
hinreichend groß, selbst beliebig klein wird, m.a.W., daß eine Cauchyfolge vorliegt.
Ähnlich wie in Beispiel 197 4. ergibt sich, daß die einzig mögliche Grenzfunktion links
von 0 den Wert −1 und rechts davon 1 annehmen muß. Dann ist, genau wie im zitierten
Beispiel, die Grenzfunktion nicht stetig. Somit ist der Raum nicht vollständig.
Anmerkung: In analoger Weise kann gezeigt werden, daß C 1 (I, R) mit der obigen Norm
nicht vollständig ist.
Auf C 1 (I, R) werde die Funktion φ(f ) :=
einer Norm erfüllt φ?
R1
0
|f 0 (x)| dx betrachtet. Welche Eigenschaften
Antwort: (Wohldefiniert) Es ist f 0 stetig, somit kann das Integral gebildet werden.
0
(Definitheit
R 1 – Nein) Es ist |f (x)| ≥ 0, also φ(f ) ≥ 0 stets. Jedoch für f (x) := 1 ist
φ(f ) = 0 |0| dx = 0 obwohl f nicht die Nullfunktion ist.
(Dreiecksungleichung) Ihr Nachweis folgt aus den Regeln der Integralrechnung analog
wie in Beispiel 197 4.
Es sei nun C01 (I, R) der Teilraum von C 1 (I, R) mit u(0) = u(1) = 0 (homogene Randbedingungen). Ist φ eine Norm auf diesem Teilraum?
Antwort: Ja. Wegen des vorigen Punktes ist lediglich zu zeigen,R daß φ(f ) = 0 stets
1
f = 0 nach sich zieht. Das ist jedoch der Fall, weil 0 = φ(f ) = 0 |f 0 (x)| dx zunächst
f 0 = 0, also f = c, mit einer Konstanten c nach sich zieht, und weil wegen der Randbedingungen dann f = 0 folgt.
222
Lineare Funktionalanalysis
(Poincarésche Ungleichung) Es werde die Norm φ(f ) ab jetzt mit k · k11 bezeichnet.
Man zeige die Poincarésche Ungleichung
kf k∞ ≤ kf k11 .
Aus ihr folgere man, falls {fn }∞
n=1 bezüglich der Norm φ Cauchyfolge ist, so auch
bezüglich der Supremumsnorm.
Rx
Antwort: Ist f ∈ C01 (I, R), so gilt wegen f (x) = 0 f 0 (t) dt die Integralabschätzung
Z
x
|f (x)| ≤
|f 0 (t)| dt ≤
0
Z
1
|f 0 (t)| dt = kf k11
0
für alle x ∈ I gültig. Hieraus ergibt sich die Poincarésche Ungleichung
kf k∞ ≤ kf k11 .
1
Ist nun {fn }∞
n=1 bezüglich der Norm k · k0 eine CF, so ergibt die Abschätzung kfn −
1
fm k∞ ≤ kfn − fm k0 , daß sie auch CF bezüglich der Supremumsnorm ist.
(Vervollständigung von C01 (I, R) in C0 (I, R)) Kann die Vervollständigung von
C01 (I, R) als Teilraum von C0 (I, R) aufgefaßt werden?
Antwort: Ja. Gemäß des Vervollständigungsprozesses wird jeder Klasse von Cauchyfolgen in C01 (I, R) ein Grenzelement in der (abstrakten) Vervollständigung zugewiesen.
Da jedoch jede Klasse von solchen CF auch eine solche in C0 (I, R) ist, und dort genau
ein Grenzwert vorhanden ist, darf man die Vervollständigung als Teilraum ansehen.
Anmerkung: Die Norm kgk10 ist durch Grenzwertbildung zugänglich (was man in der
Praxis kaum zu tun braucht).
2. (Soboleffraum H k (I) = Wk2 (I))
Analog wie vorher sei I := [0, 1] und V := C k (I) der Raum im Inneren von I mindestens
k-mal stetig differenzierbaren und stetiger Fortsetzung der j.ten Ableitungen an den
Rand für j ≤ k − 1. Man zeige, daß
s
Z 1
kf k :=
(|f (x)|2 + |f 0 (x)|2 + · · · + |f (k) (x)|2 ) dx
0
die Eigenschaften einer Norm erfüllt.
Antwort: Ja, die Beweisführung ist völlig analog zur entsprechenden für W11 (I).
Die Vervollständigung dieses Raumes entsprechend oft differenzierbarer Funktionen ist
der Soboleffraum H k (I). Ähnlich wie bei W11 (I) erweisen sich seine Elemente als im
klassischen Sinn k − 1 mal stetig differenzierbar.
6.3. Stetige lineare Operatoren
223
3. (Der Raum H01 (I) – eingespannte Saite)
qR
1 0
2
Es sei ψ(f ) :=
0 |f (x)| dx. Welche Eigenschaften einer Norm sind erfüllt? Für
welche Funktionen in C 1 (I) ist ψ(f ) = 0?
Antwort: Die positive Definitheit ist nicht erfüllt, weil z.B. jede konstante Funktion f
den Wert ψ(f ) = 0 ergibt. Ist umgekehrt ψ(f ) = 0, so folgt aus der Stetigkeit der
Ableitung, daß f 0 = 0, also f konstant sein muß.
Es sei C01 (I) die Menge der stetig differenzierbaren Funktionen, die an den Intervallenden Null ist (“eingespannte Saite”). Man zeige eine Poincarésche Ungleichung
kf k∞ ≤ ψ(f ).
Aus ihr soll abgeleitet werden, daß ψ eine Norm ist.
Rx
Antwort: Es ist f (x) = 0 f (t).1 dt und Anwenden der Cauchy-Schwarzschen Ungleichung (vgl Anmerkung 200 die Höldersche Ungleichung für p = q = 2 oder, beim 2.ten
Mal durchlesen Anmerkung 218) ergibt sich
p
|f (x)| ≤ ψ(f ).
Somit darf aus ψ(f ) = 0 auf f = 0 für f ∈ C0 (I) geschlossen werden.
Kann die Vervollständigung von C01 (I) als Teilraum von C0 (I) angesehen werden?
Antwort: Ja, die Begründung ist analog wie im vorigen Item des Beispiels.
Numerische Verfahren (etwa die Ritzmethode) konstruieren Approximationen im Sinne
der k · k10 -Norm. Diese Näherungsfunktionen sind dann automatisch Näherungen im Sinne der
Supremumsnorm der stetigen Lösungsfunktion. Insbesondere läßt sich hiedurch das maßtheoretische Problem einer womöglich nur bis auf Lebesguenullmenge definierten Lösungsfunktion
f vermeiden. Ein Vorteil des letztgenannten
Soboleffraumes liegt in der Existenz eines inneR1 0 0
ren Produkts (nämlich hf, gi = 0 f g dx), welches bei FEM auf quadratische Formen führt,
wie wir in Kapitel 7 ausführen wollen.
6.3
6.3.1
Stetige lineare Operatoren
Stetigkeit=Beschränktheit, Operatornorm
Anmerkung 203 Die folgenden Eigenschaften eines linearen Operators A : U → V sind
für normierte K-Vektorräume (U, k · kU ) und (V, k · kV ) gleichwertig:
1. Stetigkeit: Für jede gegen ein u ∈ U konvergente Folge {un }∞
n=1 konvergiert die
∞
Folge {Aun }n=1 gegen Au.
2. Folgenstetigkeit in einem Punkt: Es gibt eine gegen ein u ∈ U konvergente Folge
∞
{un }∞
n=1 , für die {Aun }n=1 gegen Au konvergiert.
224
Lineare Funktionalanalysis
3. Gleichmäßige Stetigkeit auf U : A ist auf U gleichmäßig stetig.
4. Lipschitzstetigkeit: Es gibt ein λ mit kAu1 − Au2 kV ≤ λku1 − u2 kU .
5. Beschränktheit I: Das Bild jeder in U beschränkten Menge ist beschränkt.
6. Beschränktheit II: Das Bild der Einheitskugel in U ist beschränkt, d.h. es existiert
C mit kAukV ≤ CkukU .
Sind die Räume U, V zusätzlich vollständig (also Banachräume), so ist noch äquivalent
dazu, daß:
7. Abgeschlossener Graph: Der Graph G(A) := {(u, Au) | u ∈ U } ist eine abgeschlossene Teilmenge von U × V bezüglich der Norm k(u, v)kU ×V := kukU + kvkV .
Operatornorm: Die Zahlen supkukU ≤1 kAukV und supkukU =1 kAukV stimmen überein
und werden als Operatornorm bezeichnet, kurz kAkVU oder auch kAk, wenn über die auf
U bzw. V gewählten Normen kein Zweifel besteht. Der Operator heißt dann stetig oder
beschränkt und es gilt für alle u ∈ U stets
kAukV ≤ kAkVU kukU .
Beispiel 204 Bevor wir Nachweise geben, einfache Beispiele:
1. Erfüllt die lineare Abbildung A : R → R, gegeben durch A(x) = 3x die 7 Kriterien.
Antwort: Zunächst ist R ein reeller Banachraum, also ist es sinnvoll, alle 7 Kriterien
zu checken. Es sind 1. und 2. leicht einzusehen. 4. ist für λ := 3 erfüllt, und weil aus
Lipschitzstetig stets die gleichmäßige Stetigkeit folgt, ist auch 3. erfüllt. Ist |x| ≤ C für
eine Konstante C, so ist kAxk = |3x| ≤ 3C, also das Bild jeder beschränkten Menge,
und insbesondere, der “Einheitskugel”, d.i. A([−1, 1]) = [−3, 3] beschränkt, also gelten
5. und 6. Schließlich besteht der Graph von A aus allen Punkten (x, Ax) = (x, 3x) mit
x ∈ R, und wenn (xn , 3xn ) eine konvergente Folge ist, so ist der GW von der Form
(x, 3x), gehört also wieder zum Graphen, es gilt somit auch 7.
Welchen Wert hat kAk?
Antwort: kAk = sup|x|≤1 3|x| = 3.
2. Es sei A : Cn → Cm gegeben. Welche der Bedingungen 1.-7. erfüllt A?
Antwort: Weil Cn und Cm beides Banachräume sind, ist es sinnvoll, auch 7. mit einzubeziehen. Wiederum sind 1. und 2. sofort einsichtig – lineare Abbildungen im Koordinatenraum sind stetig, das weiß man! Wir wollen 6. nachweisen. Dazu vermerkt man, daß jede
abgeschlossene Kugel in Cn kompakt ist, sodaß ihr Bild wegen Anmerkung 165 3. ebenfalls kompakt, und somit beschränkt ist. Hieraus folgt 5., weil ja jede beschränkte Menge in Cn in einer Kugel enthalten ist. Insbesondere ist kAk wohldefiniert und man hat
6.3. Stetige lineare Operatoren
225
−u2
k ≤ kAk,
kAxk ≤ kAk für alle x mit kxk ≤ 1. Ist u1 6= u2 , so ist deshalb kA kuu11−u
2k
woraus wegen der Linearität von A sofort kA(u1 − u2 )k ≤ kAkku1 − u2 k folgt, also
für λ := kAk die Lipschitzstetigkeit, d.i. 4. Da aus “Lipschitzstetig” stets “gleichmäßig
stetig” folgt, gilt auch 3. Die Abgeschlossenheit des Graphen sieht man ähnlich wie in
1. ein.
3. Es sei A : R2 → R2 ein linearer Operator, der bezüglich kanonischer Basen durch die
Matrix
2 1
A :=
,
0 1
gegeben ist. Wie kann seine Norm bestimmt werden?
p
x
Antwort: Die “Einheitskugel” wird hier durch die Ungleichung k
k = x2 + y 2 ≤
y
1 bestimmt, ist somit eine Kreisscheibe. Ihr Bild unter A ist die Menge
2x + y
{
| x2 + y 2 ≤ 1}.
y
p
Weil die Kreisscheibe kompakt ist, ergibt sich kAk = maxx2 +y2 =1 (2x + y)2 + y 2 und
somit erscheint es sinnvoll, die Aufgabe als Extremwertaufgabe zu formulieren: Gesucht
ist das Maximimum von
x
f (x, y) := kA
k2 = (2x + y)2 + y 2
y
unter der Nebenbedingung
g(x, y) = 1 − (x2 + y 2 ) = 0.
Die Multiplikatormethode von Lagrange führt dazu
Φ(x, y, λ) := (2x + y)2 + y 2 + λ(1 − (x2 + y 2 ))
nach x und y zu differenzieren, Null zu setzen und die Nebenbedingung verwendend,
die Lösungen von
0 = 4x + 2y − λx
0 = 2x + 2y − λy
0 = x2 + y 2 − 1
zu ermitteln. Man hat somit ein Eigenwertproblem
x
x
4 2
=λ
2 2
y
y
vor sich und findet aus
Gleichung (die λ2 − 6λ + 4 = 0 lautet)
√ der charakteristischen
√
die Werte λ ∈ {3 + 5, 3 − 5}. Multipliziert man die 1. der Gleichungen mit x, die
2. mit y, addiert, und setzt die 3.te ein, so ergibt sich λ = x(4x + 2y) + y(2x + 2y) =
226
Lineare Funktionalanalysis
2
2
2
4x2 + 4xy +
√2y = (2x + y) + y = f (x, y), sodaß die gesuchte Lösung für die Norm
kAk = 3 + 5 ist.
Anmerkungen: Warum bezüglich der hier gewählten euklidischen Norm ein Eigenwertproblem entsteht, läßt sich kurz so umreißen: Die Matrix AT A ist positiv semidefinit
und somit kann sie durch eine orthogonale Matrix auf Diagonalgestalt gebracht werden
mit nicht negativen Elementen in der Diagonale. Ordnet man diese der Größe nach, so
wird schnell klar, daß der größte von ihnen das Quadrat der Norm sein muß.
Bezüglich der Würfelmetrik auf R2 ist die gleiche Aufgabe ungleich schwieriger. Es
soll noch vermerkt werden, daß die Quadratwurzeln der Eigenwerte die Längen der
Halbachsen der Ellipse des Bildes des Einheitskreises und die Eigenvektoren die Achsenrichtungen sind.
√
x
2
kp := p xp + y p . Wie
4. Es soll für p > 1 auf R die lp -Norm gewählt werden, also k
y
∗
kann für ein beliebiges Funktional f ∈ R2 nicht Null, gegeben als f (x, y) := ax + by
die Norm kf k berechnet werden, wobei in R die Betragsnorm gewählt wird?
Antwort: Die Vorgangsweise kann ähnlich wie im vorigen Beispiel gewählt werden. Es
soll f (x, y) := ax + by unter der Nebenbedingung g(x, y) = 1 − xp − y p = 0 maximal
gemacht werden, wobei der Einfachheit halber a ≥ 0 und b ≥ 0 und dementsprechend
insbesondere x ≥ 0 und y ≥ 0 gefordert werden kann. Die Kompaktheit der “Einheitssphäre” {(x, y) | xp + y p = 1} ergibt die Existenz des Maximums, sodaß die Methode
von Lagrange, d.h. Ansatz Φ(x, y, λ) := ax + by + λ(1 − xp − y p ), nützlich erscheint.
Differenzieren und Nullsetzen ergibt a − λxp−1 = b − λy p−1 y = 1 − xp − y p = 0, woraus
1
1
a p−1
b p−1
x = λp
, y = λp
, woraus man (bitte selbst die elementaren Zwischenschritte der Rechnung durchführen) mit der Bezeichnung q :=
1
1
p + q = 1)
1
− p−1
1 = xp + y p = (λp)
p
p−1
(das ist gleichwertig zu
k(a, b)kqq
bekommt, aus der man den Wert von f an der Extrumsstelle
1
− p−1
kf k = f (x, y) = ax + by = (λp)
(aq + bq ) = · · · =
√
q
x
y
ermitteln kann:
aq + bq = k(a, b)kq .
Anmerkungen: Zunächst folgt aus der Bedeutung der Norm von f die Ungleichung
√
√
|ax + by| ≤ p xp + y p q xq + y q .
Dies ist jedoch (für n = 2) eine diskrete Version der Hölderschen Ungleichung aus
Anmerkung 200, aus der man die Minkowskiungleichung (in der Summenform) leicht
herleiten kann.
Für p = 2 ist auch q = 2, sodaß in diesem Fall die Norm im Dualraum die “gleiche” wie
im Ausgangsraum ist, eine Beobachtung, die für Hilbertraummethoden ?? eine Rolle
spielt.
6.3. Stetige lineare Operatoren
227
Angemerkt
darf auch kf k = |a| + |b| werden, falls man in R2 die Würfelnorm, also
x
k
k: = max{|x|, |y|} wählt.
y
Definition 205 Ein Operator A : U → V heißt Isometrie, falls für alle u ∈ U stets kuk =
kAuk gilt. Man beachte, daß jede Isometrie Kern Null hat.
6.3.2
(Topologischer) Dualraum
In Definition 187 wurde der algebraische Dualraum V ∗ eines linearen Vektorraumes V als
Menge der linearen Abbildungen von V mit Werten im Skalarkörper vorgestellt, die linearen
Funktionale. Bei der Verwendung normierter linearer (Funktionen)räumen betrachtet man
sehr oft die stetigen linearen Funktionale.
Definition 206 (topologischer Dualraum V 0 ) Ist (V, k·kV ) ein normierter linearer Raum
mit Skalarkörper K (= R oder C), so ist der aus allen stetigen linearen Funktionalen bestehende Teilraum von V ∗ der (topologische) Dualraum von V . Er soll mit V 0 bezeichnet
werden.
Anmerkung 207 (topologischer Dualraum V 0 ) Zusammenstellung von Fakten:
Norm für stetige Funktionale: Wird im Einklang mit Anmerkung 203 die Operatornorm kv 0 kV 0 := supkvkV ≤1 |v 0 (v)| (Absolutbetrag ist die Norm im 1dimensionalen normierten linearen k-Vektorraum k, dem Wertebereich von v 0 ) verwendet, so ist (V 0 , k · kV 0 ) ein Banachraum (Beweis dafür in Abschnitt ??).
(Topologisch) duale Abbildung: Ist A : U → V stetige lineare Abbildung, und v 0
stetiges lineares Funktional auf V , so wird durch A0 (v 0 )(u) := v 0 (A(u)) die (topologisch) duale Abbildung
A0 : V 0 → U 0
festgelegt (vgl. die Skizze in Definition 187, in der A die Rolle von f und v 0 die von
v ∗ zu übernehmen hat). Sie ist beschränkt, es gilt sogar kA0 k = kAk.
Den Beweis findet man in Unterabschnitt A.5.1.
Beispiel 208 (Stetige und unstetige lineare Funktionale)
1. Es sei I := [0, 1] und C(I) der Raum der stetigen Funktionen Rmit der Supremumsnorm.
1
Welche der nachstehenden Funktionale sind stetig? J1 (f ) := 0 f (x) dx, δ(f ) := f (0)
Antwort: Da J stetig mit J beschränkt für lineare Operatoren gleichwertig ist, genügt
es, die Existenz von C ∈ R mit |J(f )| ≤ Ckf k nachzuweisen.
228
Lineare Funktionalanalysis
Da |J1 (f )| ≤
R1
0
|f (x)| dx ≤ kf k ist, kann C = 1 gewählt werden und somit ist J1 stetig.
Da |δ(f )| = |f (0)| ≤ kf k, gilt, kann C = 1 gewählt werden, und somit ist δ (die
“Deltafunktion”
als lineares Funktional interpretiert, man schreibt ja das gerne als
R∞
f (0) = −∞ δ(x) dx, ein reiner Formalakt!) ist stetig.
Welche Norm haben J1 bzw. δ?
Antwort: Wir wissen schon |J(f )| ≤ 1 für alle f mit kf k = 1 und J = J1 bzw. J = δ.
Deshalb ist kJk ≤ 1. Wählt
R 1 man für f die konstante Funktion 1, so ergibt sich kf k = 1.
Weil auch 1 = |J1 (f )| = 0 1 dx = |δ(1)| ist, ergibt sich 1 ≤ kJk ≤ 1, also kJk = 1 für
J = J1 bzw. J = δ.
R1
Es werde jetzt C[0, 1] mit der Integralnorm kf k1 := 0 |f (x)| dx (vgl. Item 4 in Beispiel
197) betrachtet. Man untersuche die Stetigkeit von J1 und δ und bestimme gegebenenfalls die Norm.
Antwort: Für J1 ergibt sich
Z 1
|J1 (f )| ≤
|f (x)| dx = kf k1 ,
0
woraus man kJk ≤ 1 schließt, ähnlich wie vorhin. Wählt man f konstant gleich 1, so
ergibt sich analog wie vorhin kJ1 k = 1.
Die “δ-Funktion” (vgl. Anmerkung
273) ist nicht stetig in unserer Norm! Es sei fn (x) :=
R1
n
n
(1−x) . Dann ist kfn k1 = 0 (1−x) dx = n1 . Wäre nun δ stetig, so müßte limn→∞ δ(fn ) =
0 gelten. Es ist jedoch δ(fn ) = fn (0) = 1, also der Grenzwert gleich 1.
qR
1 0
2
Es werde C0 (I) mit der Soboleffnorm kf k10 :=
0 |f (x)| dx wie in Beispiel 202.2
1
versehen. Ist das durch δ 1 (f ) := f ( 2 ) definierte Funktional δ 1 linear und stetig?
2
2
Antwort: Die Linearität istRrecht einfach zu beweisen. (In der Diracschreibweise würde
∞
man das Funktional durch −∞ f (x)δ(x − 12 ) dx ausdrücken, rein formal!). Um die Stetigkeit nachzuweisen, beachtet man
Z 1
Z 1
2
1
0
|δ 1 (f )| = |f ( )| = |
f (x) dx| ≤
|f 0 (x)| · 1 dx,
2
2
0
0
und nun kann man mittels Cauchy-Schwarscher Ungleichung (in Integralform, vgl. etwa Anmerkung 200) der Term rechts durch kf k10 abgeschätzt werden. Also ist das
Funktional stetig!
Anmerkung 209 (Vervollständigung durch isometrische Einbettung in einem
Dualraum) Ist (V, k · kV ) ein zu vervollständigender normierter (Funktionen)raum, und
läßt er sich als Teilraum des Dualraumes eines normierten Vektorraums (W, k · kW auffassen, derart daß für alle v ∈ V stets kvkV = kvkW 0 (Norm im Dualraum) gilt, so ist die
Vervollständigung von V bezüglich k · kV gleich der Menge aller Häufungspunkte in W 0
bezüglich k · kW 0 .
6.3. Stetige lineare Operatoren
229
Beispiel 210 Als klassische Anwendung zeigen wir:
1. Beschreibung von Lq für q > 1 als Dualraum von Lp ). Es sei V = C([0, 1]) der
R
1
p
1
Raum der stetigen Funktionen und auf ihm für p > 1 die Norm kf kp := 0 |f (x)|p dx
gegeben. (Dies ist die Lp -Norm, siehe Anmerkung 200). Man zeige, daß für q, definiert
durch p1 + 1q = 1 und stetiges g das lineare Funktional J, definiert durch J(f ) :=
R1
0
0 g(x)f (x) dx stetig ist und die Norm von J sich als kJkV = kgkq ergibt.
Antwort(findung): Zunächst liest man aus der Integralform der Hölderungleichung (bei
vertauschten Rollen von f und g)
1
Z
|J(f )| = |
1
Z
g(x)f (x) dx| ≤
0
|g(x)f (x)| dx ≤ kgkq kf kp
0
ab. Somit ist J beschränkt und kJkV 0 ≤ kgkq .
Die umgekehrte Ungleichung ist für g = 0 klar und für g 6= 0 gewinnt man sie mit
p
der
einem Kunstgriff: Wir betrachten f := |g|q−1 sign g. Zunächst ist wegen q = p−1
p
q
Exponent> 0 und weiters ist |f | = |g| . Dies setzen wir in die grundlegende Ungleichung für die Norm, nämlich |J(f )| ≤ kf kp kJkV 0 ein und bekommen
Z
0
1
q−1
g(x)|g|
Z
sign g dx ≤
1
q−1
||g|
p
sign g|
p1
kJkV 0 .
0
Die linke Seite erweist sich als kgkqq , und die rechte Seite nach etwas Rechnung als
kgk1−p
p kJkV 0 . Danach wird aus der Ungleichung
kgkqq ≤ kgk1−p
p kJkV 0 ,
woraus Division die umgekehrte Ungleichung kgkq ≤ kJkV 0 ergibt.
Wie kann man Lq nun als Raum linearer Funktionale verstehen?
Antwort: Es wurde gezeigt,
R 1 daß jedes g ∈ C[0, 1] als lineares Funktional auf C[0, 1] durch
die Bedingung Jg (f ) := 0 g(x)f (x) dx aufgefaßt werden kann. Dies kann als Abbildung
J : C(I) → C(I)0 verstanden werden, nämlich J(g) = Jg . Im Vorangegangenen wurde
kJ(g)k = kgkq gezeigt. Deshalb ist J eine Isometrie. Der Abschluß des Bildes von J
(also die Menge aller Häufungspunkte) in C(I)0 ist somit als Banachraum isomorph zu
Lq , der Vervollständigung von C(I) unter der Lq -Norm.
230
Lineare Funktionalanalysis
2. (Variationsaufgabe eingespannte Saite und isometrische Einbettung) Es sei
I = [0, 1] und p stückweise stetig
nach unten durch eine positive Konstante
R 1 auf I und
0
beschränkt. Nun soll J(y) := 0 L(x, y, y ) dx für L(x, y, y 0 ) := 21 (y 0 )2 − f (x)y minimiert
werden (Vgl. das Variationsproblem in Beispiel 189), wobei noch y(0) = y(1) = 1 als
Randbedingungen gestellt werden (mit Kraftdichte l belastete, an den Enden eingeSaite). Wie dort gezeigt, interessiert man sich für die 1.te Variation δJ(φ) :=
Rspannte
1
0 φ0 + f φ) dx, die man Null setzt. Dabei verlangt man von φ stetig differenzierbar
(py
0
zu sein und die Randbedingungen
zu erfüllen. Auf C0 (I) werde wie in Beispiel 202 die
qR
1 0
1
2
Soboleffnorm kφk0 :=
0 |φ (x)| dx definiert. Es sei f stückweise stetig. Man zeige,
1
daß für beliebiges y ∈ C0 (I) das Funktional δJ(y) stetig ist.
R1
Antwort: Die Stetigkeit von J(φ) := 0 py 0 φ0 dx läßt sich wie folgt nachweisen:
Z 1
Z 1
|J(φ)| ≤
p(x)|y 0 ||φ0 | dx ≤ kpk∞
|y 0 ||φ0 | dx ≤ kyk10 kφk10 ,
0
0
wobei kpk∞ := supx∈I |p(x)| die Supremumsnorm3 ist, und beim letzten Term die
Cauchy-Schwarzsche Ungleichung (vgl. Anmerkung 200) in Integralform bzw. die Definition der Norm benützt wurden.
R1
Die Stetigkeit des zweiten Anteils des Funktionals δJ(y) ist 0 f (x)φ(x) dx. Man findet
Z 1
Z 1
|
l(x)φ(x) dx| ≤ kf k∞
|φ(x)| dx,
0
0
und da |φ(x)| ≤ kφk10 wegen der Poincaréungleichung, ergibt sich schließlich insgesamt
die Stetigkeit von δJ(y).
(Schwache Lösung) Welchen Wert hat die bisherige “Turnübung”?
Antwort: Es erscheint sinnvoll, alle bezüglich der Norm k · k10 stetigen linearen Funktionale v 0 auf C01 (I) zu suchen, für die
Z 1
0
v (φ) +
lφ dx = 0
0
für alle φ ∈ C01 (I) gilt. Jedes solche v 0 heißt schwache Lösung des Variationsproblems.
In Kapitel 7 wird gezeigt werden, wie man mittels des Darstellungssatzes von Riesz
grundsätzlich v 0 beschreiben kann. Hierauf fußen wohl auch FEM-Methoden. Andrerseits ist jedes solche v 0 als stetige Funktion auffaßbar, ein entscheidendes Faktum
für die physikalische Interpretation. Deshalb wird jede numerische Methode (FEMRitzverfahren) darauf abzielen, Abschätzungen der k · k∞ für die Güte der Näherung
anzugeben. Es ist dieser Punkt, bei dem die Rolle der Hutfunktionen zu tragen kommt.
6.3.3
3
Kompakte Operatoren
siehe die Anmerkung zu Beispiel 197.2.
6.3. Stetige lineare Operatoren
231
Definition 211 Ein linearer Operator A : U → V ist kompakt, wenn für jede in U beschränk∞
te Folge {un }∞
n=1 die Folge {Aun }n=1 eine in V konvergente Teilfolge besitzt.
Anmerkung 212 Wesentliche Fakten für einen kompakten Operator K : U → V sind:
Stetigkeit: K stetig. (Nicht jeder stetige Operator ist kompakt).
Endliche Dimension von Kernen von I − σK: Der Lösungsraum von
(I − σK)u = 0
ist für beliebiges σ ∈ C endlich-dimensional.
Diese Aussage impliziert die endliche Dimension jedes Eigenraumes E(λ) = {u |
(K − λI)u = 0} für λ 6= 0.
Konvergenz: Bezüglich der Supremumsnorm bilden die kompakten Operatoren einen
abgeschlossenen Teilraum des Raumes der beschränkten Operatoren, d.h. wenn
Kn → K im Sinne von kKn − Kk → 0, so ist K kompakt, sofern es die Kn sind.
Dualer Operator K 0 , Fredholmeigenschaft von K: Der duale Operator K 0 ist
kompakt. Es ist das Bild R(I − K) gleich dem Annulator des Kerns von I − K 0 und
somit ein abgeschlossener Teilraum von V . Es gibt Teilräume M von U und N von
V , sodaß
I − K : ker(I − K) ⊕ M → R(I − K) ⊕ N,
wobei M abgeschlossen und N endlichdimensional sind und I − K eine stetige
Bijektion von M auf R(I − K) ist.
Die Nachweise finden sich in Beispiel 271.
Beispiel 213 Paradebeispiele kompakter Operatoren sind von der Form
Z
(Ku)(x) := K(x, t)u(t) dt,
I
wobei an u, an den Integralkern K(x, t) und an den Wertebereich V geeignete Voraussetzungen
gestellt werden. Auch hier wird uns der Abschnitt über die Saite Kapitel 7 die 1-dimensionale
Version typischer Anwendungen liefern.
Hier ist ein elementares Schulbeispiel, welche durchaus Standardüberlegungen widerspiegelt:
Es sei U = V = C(I) mit I = [0, 1] und auf U . V die Supremumsnorm gegeben. Weiters sei
K : I × I → R stetig. Ist der wie oben definierte Operator kompakt?
Hinweis: Zunächst zeige man dies für K(x, t) = xk f (t) und verwende danach den Satz von
Stone-Weierstraß.
232
Lineare Funktionalanalysis
R1
Antwort(findung): Es ist Ku(x) = xk 0 f (t)u(t) dt. Insbesondere liegt Ku im eindimensionalen Teilraum von C(I), der von xk erzeugt wird. Ist danach {un }∞
n=1 beschränkt, so ist die
R1
Menge der Werte der Integrale { 0 f (t)un (t) dt | n ∈ N} beschränkt, somit kann eine konvergente Teilfolge dieser Wertemenge gefunden werden. Somit konvergiert die entsprechende
Teilfolge der Kun gegen ein xk r mit r ∈ R. Somit ist solches K kompakt.
Hieraus ergibt sich die Kompaktheit von K für jeden Kern ein Polynom in den 2 Variablen
x und t, weil ja jede Linearkombination kompakter Operatoren kompakt ist.
Schlußendlich verwendet man den Satz von Stone-Weierstraß, um zu beliebigem, stetigem
K(x, t) ein Polynom P (x, t) zu finden, welches im Sinne der Supremumsnorm hinreichend
nahe ist. Für diese Näherung P (x, t) ergibt sich die Abschätzung
R1
|Ku − P u|(x) = | 0 (K(x, t) − P (x, t))u(t) dt
R1
≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I} 0 |u|(t) dt
≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk.
Deshalb kann man links zur Supremumsnorm übergehen, bekommt
kKu − P uk ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}kuk,
sodaß wegen der Definition der Operatornorm
kK − P k ≤ sup{|K(x, t) − P (x, t)| | x, t ∈ I}
gilt. Weil hierin der Ausdruck rechts durch geeignete Wahl von P (x, t) beliebig klein gemacht
werden kann, wird K durch kompakte Operatoren der Bauart P im Sinne der Operatornorm
approximiert, ist also nach obigem kompakter Operator.
6.4
6.4.1
Hilberträume
Inneres Produkt, Prähilbertraum
Definition 214 (Inneres Produkt) Es sei K der Körper der reellen oder der komplexen
Zahlen und “¯ ” Konjugation. Weiters sei H ein K-Vektorraum. Ein inneres Produkt auf
H ist eine Funktion h·, ·i : H × H → K, die für alle u, v ∈ H und alle k, l ∈ K folgende
Eigenschaften hat:
Definitheit: hu, ui ≥ 0 und hu, ui = 0 genau dann, wenn u = 0 ist.
Symmetrie bis auf Konjugiertheit: hu, vi = hv, ui.
Linearität in der zweiten Variablen: hu, kv + lwi = khu, vi + lhu, wi.
Das Paar (H, h·, ·i) wird Prähilbertraum, auch euklidischer Vektorraum bzw. Raum mit innerem Produkt genannt.
Beispiel 215 Einfache Beispiele.
6.4. Hilberträume
233
1. Es sei eine Funktion in 2 komplexen Variablen
ha, bi := āb
definiert. Ist (C, h·, ·i) ein Prähilbertraum?
Antwort: Ja, wir gehen die Punkte durch.
(Definitheit) Es ist ha, ai = āa = |a|2 ≥ 0, und weiters ist ha, ai sicher nur dann Null,
wenn a = 0 gilt.
(Symmetrie bis auf Konjugiertheit) Es ist
ha, bi := āb = ab̄ = b̄a = hb, ai.
(Linearität in der 2.ten Variablen)
ha, kb + lci = ā(kb + lc) = kāb + lāc = kha, bi + lha, ci.
Wenn man a und b in der komplexen Zahlenebene deutet, wie läßt sich ha, bi geometrisch
deuten?
Antwort: Stellt man a und b in der Form a = |a|eiα und b = |b|eiβ dar, so ist
ha, bi = |a||b|ei(β−α) = |a||b|(cos(β − α) + i sin(β − α)).
Haben somit a und b die Länge 1, so hat das innere Produkt als Real- bzw. Imaginärteil
Kosinus, bzw. Sinus des Winkels zwischen a und b, entgegen dem Uhrzeigersinn gemessen.
2. Es sei I = [0, 1] das abgeschlossene Einheitsintervall und H := C(I,
R 1 C) die Menge
aller stetigen Abbildungen von I nach C. Für f, g ∈ H sei hf, gi := 0 f¯(t)g(t) dt. Ist
(H, h·, ·i) ein Prähilbertraum.
Antwort: Ja, die Punkte sollen kurz durchgegangen werden.
R1
R1
(Definitheit) Es ist hf, f i = 0 f (t)f (t) dt = 0 |f (t)|2 dt, und weil mit die reellwertige
Funktion t 7→ |f (t)|2 nicht negativ ist, ist gilt hf, f i ≥ 0. Ist hf, f i = 0, so folgt aus der
Stetigkeit von f jene der reellen Funktion t 7→ |f (t)|2 , sodaß aus dem Verschwinden des
Integrals für alle t ∈ I stets f (t) = 0 gefolgert werden kann.
(Symmetrie bis auf Konjugiertheit)
Z 1
Z
hf, gi =
f (t)g(t) dt =
0
1
g(t)f (t) dt = hg, f i,
0
wobei Rechenregeln für Integrale benützt worden sind.
(Linearität in der 2.ten Variablen) Man muß
Z 1
Z 1
Z
f (t)(kg(t) + lh(t)) dt = k
f (t)g(t) dt + l
0
0
1
f (t)h(t) dt
0
nachweisen, und das geht mittels der Regeln zur Berechnung von Integralen.
234
Lineare Funktionalanalysis
Beispiel 216 (Inneres Produkt im Cn bzw. Rn Zusammenfassung)
1. Es sei h·, ·i ein beliebiges inneres Produkt auf Cn . Man zeige, daß es eine n × n-Matrix
A mit folgenden Eigenschaften gibt
(a) Aij = h~ei , ~ej i und h~x, ~y i = ~x∗ A~y .
(b) A∗ := AT erfüllt A∗ = A (A ist hermitisch).
(c) A ist positiv definit, d.h. ~x∗ A~x > 0 für alle ~x 6= ~0.
Umgekehrt, wenn A die drei Eigenschaften erfüllt, wird durch h~x, ~y i = ~x∗ A~y ein inneres
Produkt auf Cn definiert.
P
P
Antwort(findung): Es ist für ~x = i xi~ei und ~y = j yj ~ej wegen der Sesquilinearität
des inneren Produkts
XX
X
X
h~x, ~y i =
hxi~ei , yj ~ej i =
x̄i yj h~ei , ~ej i =
x̄i yj Aij = ~x∗ A~y .
i
j
i,j
i,j
Also gilt (a). Um (b) zu zeigen, genügt es
(A∗ )ij = Āji = h~ej , ~ei i = h~ei , ~ej i = Aij
zu vermerken. Schließlich ist (c) gleichbedeutend mit der positiven Definitheit des inneren Produkts, weil wegen (a) die Gleichung k~xk2 = ~x∗ A~x gilt.
2. (Choleskyzerlegung) Jede positiv definite Hermitische Matrix erlaubt eine Zerlegung
der Form A = LL∗ , mit L untere Dreiecksmatrix.
Antwort: Hier ist ein Beweis gefragt, und üblicherweise wird er mittels Induktion nach
n geführt: Ist n = 1, so ist nichts zu zeigen. Andernfalls erlaubt die Matrix die Blockzerlegung
α ~a∗
A=
~a B
und man bestätigt durch Rechnung
!
√
~0∗
α ~0
1
A=
√1 ~
~0 B − 1 ~a∗~a
a I
α
α
√
α
~0
√1 ~
a∗
α
!
I
Hiemit ist ein 1. Schritt des Choleskyverfahrens getätigt. Faßt man ihn als Koordinatentransformation auf, so erweist sich die mittlere Matrix wieder als positiv definit,
insbesondere die n − 1 × n − 1 Matrix B − α1 ~a∗~a, die laut Induktionsvoraussetzung eine
Zerlegung der Form U U ∗ mit U untere Dreiecksmatrix besitzt. Hieraus ergibt sich
!
!
√
√
α ~0
α ~0
1 ~0∗
L=
=
,
√1 ~
√1 ~
~0 U
a I
a U
α
α
welche sichtlich untere Dreiecksmatrix mit A = LL∗ ist.
6.4. Hilberträume
235
3. Es sei A hermitisch. Dann hat A eine Eigenbasis orthogonaler Vektoren. Ordnet man
sie in eine Matrix S, so ist diese unitär, d.h. erfüllt S ∗ S = I und es gilt AS = SΛ,
wobei Λ eine Diagonalmatrix aus Eigenwerten von A ist. Es ist die i.te Spalte von S
Eigenvektor zum i.ten Eigenwert (als Diagonalelement in Λ). Die Matrix Λ ist reell und
hat genau dann positive Diagonalelemente, wenn A positiv definit ist.
Antwort: Auch hier sind Beweise gefragt. Ist λ ein Eigenwert, so gibt es ein ~v 6= 0 mit
A~v = λ~v . Dann ist ~v ∗ A~v = λ~v ∗~v , also
~v ∗ A~v = λk~v k2 .
Da das Element auf der linken Seite reell ist. ist es auch λ. Somit kann A nur reelle
Eigenwerte haben.
Um die Existenz der Eigenbasis zu zeigen, benützen wir Induktion. Für eine n × nMatrix ist nichts zu zeigen. Sei nun λ ein Eigenwert und ~v ein zugehöriger Eigenvektor
(der Länge 1). Ist dann ~u ∈ ~v ⊥ , so auch A~u, weil
~v ∗ A~u = ~u∗ A∗~v = ~u∗ A~v = λ~u∗~v = 0,
also ist A~u auch im Orthogonalraum zu ~v . Ergänzt man ~v mit einer ONB des Orthogonalraumes, so gewinnt A bezüglich der neuen ONB von Cn eine Blockstruktur
α ~0∗
A= ~
0 B
mit B hermitisch. Danach ergibt die Induktionsannahme die Existenz von S mit den
geforderten Eigenschaften.
Welche Bedeutung für innere Produkte hat die unitäre Diagonalisierbarkeit?
Antwort:
Charakterisierung innerer Produkte im Cn : Ist ein beliebiges inneres Produkt
gegeben, so gibt es stets eine ONB in Cn und positive Zahlen λi mit
h~x, ~y i =
X
λi x̄i yi .
i
Energiemethode, Hermitesche Formen: Man bestimme die Extrema von ~x∗ A~x
unter der Nebenbedingung ~x∗ B~x = 1 für hermitisches A und positiv definites
hermitisches B. Es wird uns beim Problem der Eigenfunktionen der gespannten
Saite in Kapitel 7 begegnen und ist auch zur Bestimmung der Norm einer Matrix
L bezüglich der euklidischen Metrik wichtig, weil
kLk= sup{kL~xk | ~x∗ ~x = 1}
ist, also hiebei B = I gilt.
236
Lineare Funktionalanalysis
Die Aussage besteht darin, daß man eine reguläre Matrix X und eine Diagonalmatrix Λ mit
AX = BXΛ
finden kann. Die Spalten von X sind, wie man durch Matrizenrechnung sofort
bestätigt, verallgemeinerte Eigenvektoren
A~vi = λi B~vi .
Der Nachweis ist wie folgt: Zunächst existiert eine unitäre Matrix U sodaß für
~x = U ~y in neuen Koordinaten für ~y ∗ U ∗ AU ~y unter der Nebenbedingung ~y ∗ D2 ~y = 1
gesucht sind. Setzt man ~y = D~z mit D Diagonalmatrix mit positiven Einträgen,
so hat man nunmehr ~z∗ DU ∗ AU D~z unter der Bedingung ~z∗~z = 1 auf Extrema
zu untersuchen. Schlußendlich findet sich eine unitäre Eigenbasis T der hermitischen Matrix D−1 U ∗ AU D−1 mit T ∗ D−1 U ∗ AU D−1 T = Λ diagonal und reell. Die
schlußendliche Koordinatentransformation ~z = T w
~ führt dazu, w
~ ∗ Λw
~ unter der
∗
Nebenbedingung w
~ w
~ = 1 auf Extrema zu untersuchen.
Als Nebenprodukt erweist sich X := U D−1 T als gemeinsame Eigenbasis, nämlich
AX = BXΛ
Singulärwertzerlegung: Es sei A eine beliebige (komplexe) n×n-Matrix.
2 Dann
gibt
D 0
mit D
es Orthonormalbasen U und V und eine Diagonalmatrix Λ =
0 0
eine r × r Diagonalmatrix mit lauter positiven Einträgen, sodaß die Wirkung von
A durch die Formel
r
X
A~x =
di h~x, ~ui i~vi
i=1
beschrieben werden kann. Dies wiederum verhilft bei singulärem A zu einer Lösung
von
A~x = ~b
durch
~x =
r
X
1 ~
hb, ~vi i~ui
di
i=1
sofern ~b im Orthogonalraum von ker A∗ liegt. Der Wert der Zerlegung liegt darin,
auch über die “Kleinheit” von di entscheiden zu können, ob es “wie eine Null”
behandelt werden soll.
Die Matrizen U und V werden wie folgt gefunden: Zunächst ist U eine Eigenbasis
des offenkundig hermitischen Operators A∗ A, derart, daß die ersten r Spalten
2 Ur zu
D 0
∗
den nichtverschwindenden Eigenwerten gehören. Da dann A AU = U
0 0
ist mit D eine r × r Matrix mit positiven Einträgen, kann V durch Angabe von r
Spaltenvektoren mit der Eigenschaft Vr = AUr D−1 und die verbleibenden Spalten
eine ONB des Kerns von A∗ .
6.4. Hilberträume
237
Beispiel 217 (Zerlegung eines Vektors ~b in einen Anteil in Richtung ~a und einen
senkrecht dazu.) Es seien zwei Vektoren ~a, ~b in einem Prähilbertraum (V, h·, ·i) vorgegeben
(Skizze in V = R2 ). Die Vektoren ~t und ~n sollen jeweils ~t = k~a (also in Richtung ~a) und ~n
soll senkrecht auf die Richtung von ~a sein.
Man gebe einfache Formeln zur Berechnung von ~t und ~n für ~a, ~b in R2 an.
J
Antwort:
Elementargeometrisch
~b würde man z.B. so vorgehen: Die
~
Länge von ~t ist kbk cos(α) und
jene von ~t ist k~bk sin(α). Somit
1
~
~
sollte t = kbk cos(α) k~ak ~a. Nun
~a
;
w
w
weiß man (vergleiche Anmerkung
ww
[7
·www; w
218 und dort die Skizze mit dem
7
~
ww
7
Kosinussatz) cos(α) = h~a,bi~ und
ww
h~a,~bi
w
k~akkbk
~n = P~a⊥ (~b)7= ~b − k~
~
a
w
a k2 ww
7
somit ergibt sich nach ein wenig
ww
w
7
h~a,~bi
w
h~a,~bi
ww ~t = P~a (~b) = k~ak2 ~a
7
Rechnung sofort ~t = k~
~
a
und
w
2
w
ak
7
h~a,~bi
danach ~n = ~b − ~t = ~b − k~
~a, genau
a k2
jene Formeln, die in der Skizze
eingetragen sind.
7
ww
α wwww
7 ww
7;w ww
0
Sei jetzt (V, h·, ·i) ein beliebiger Prähilbertraum. Gegeben seien ~a und ~b, beide nicht Null.
Gesucht ist wiederum eine Zerlegung von ~b in einen Anteil ~t = k~a und einen Anteil ~n mit
h~t, ~ni = ~0 und ~b = ~t + ~n.
Antwort: Bildet man das innere Produkt auf beiden Seiten der letzten Gleichung, und setzt
dann ~t = k~a ein, so erhält man
h~a, ~bi = h~a, ~ti + h~a, ~ni = kh~a, ~ai + 0 = kk~ak2 ,
also ergibt sich
h~a, ~bi
k~ak2
und Einsetzen ergibt als Lösung genau die gleichen Formeln, wie jene, die in der Skizze
eingetragen sind.
k=
Anmerkung 218 Nach den Einführungsbeispielen
eine Sammlung wichtiger Fakten zum
p
inneren Produkt, wobei kuk := hu, ui gesetzt wird. Zunächst die Cauchy-Schwarzsche
Ungleichung (und ihr Bezug zur Längen-, Winkel-, und Flächenmessung), aus der man
schließen kann, daß die so definierte Funktion die Axiome einer Norm erfüllt:
Cauchy-Bunjakovskiĭ-Schwarzsche Ungleichung: Ist (H, h·, ·i) ein Prähilbertraum und sind k, l ∈ K sowie u, v ∈ H beliebig, so gilt
|hu, vi| ≤ kukkvk
238
Lineare Funktionalanalysis
und Gleichheit genau dann, wenn u und v linear abhängig sind. Beweis in Beispiel
219.
Ist H ein reeller Prähilbertraum, so wird die kleinere der beiden Zahlen γ, π − γ als
Winkel zwischen u und v bezeichnet, wobei
cos(γ) :=
Deutung der Ungleichung mittels
Flächeninhalt
eines
Parallelogramms. Es p
ist durchaus üblich, die
Größe A := kuk2 kvk2 − hu, vi2 als
Fläche des von den Vektoren u, v
aufgespannten
Parallelogramms
zu definieren. Dies verallgemeinert die im R3 bekannte Formel
A = ||u × v||.
hu, vi
.
kukkvk
v lll5
lll
l
l
ll
h
lll
lll γ
u
lll
lll
l
l
ll
lll
l/ ll
h = ||v|| sin(γ), A = ||u||h = ||u||||v|| sin(γ)
0 ≤ A2 = kuk2 kvk2 (1 − cos2 (γ)) = kuk2 kvk2 − hu, vi2
Sesquilinearität: Für alle k, l ∈ K und alle u, v, w ∈ H gilt
hku + lv, wi = k̄hu, wi + ¯lhv, wi.
Orthogonalität: Die Vektoren u und v nennt man orthogonal bezüglich h·, ·i, falls
hu, vi = 0 gilt. Zwei Teilmengen A und B nennt man orthogonal (zueinander), falls
jedes a ∈ A zu jedem b ∈ B orthogonal ist. Die Menge A⊥ := {v ∈ V | (∀a ∈ A)v ⊥
a = 0} ist ein linearer Teilraum, der Orthogonalraum zu A genannt wird.
Vom inneren Produkt induzierte Norm: Es ist (H, k · k) ein normierter KVektorraum. Die Norm k · k ist von h·, ·i auf H induziert.
Der BW findet sich in Beispiel 219.
Polarform für reelles H: (“=Kosinussatz”, wobei γ der von u und v eingeschlossene
Winkel ist):
Für alle u, v ∈ H gilt stets
1
hu, vi = (||u + v||2 − ||u||2 − ||v||2 )
2
?44
 44

4
u π − γ 444 v
44

4


ddddd2

d
d
d
d

d
d
ddddddud+ v
||u + v||2 = ||u||2 + ||v||2 − 2 cos(π − γ)||u|| · ||v||
hu, vi = ||u|| · ||v|| cos(γ)
bzw.
1
hu, vi = (||u + v||2 − ||u − v||2 ).
4
6.4. Hilberträume
239
Polarform für komplexes H: Für alle u, v ∈ H gilt stets
1
hu, vi = (||u + v||2 − ||u − v||2 + i(||u + iv||2 − ||u − iv||2 ).
4
Parallelogrammregel: Für alle u, v ∈ H gilt stets
||u + v||2 + ||u − v||2 = 2(||u||2 + ||v||2 ).
Normierter Raum ein Prähilbertraum? Ist (H, || · ||) ein normierter
Vektorraum,
p
so gibt es genau dann ein inneres Produkt h·, ·i mit kuk = hu, ui, wenn für alle
u, v ∈ H die Parallelogrammregel erfüllt ist. Ist die Parallelogrammregel erfüllt, so
kann das innere Produkt mittels der Polarform definiert werden.
Beispiel 219 Hier sollen fehlende Beweise nachgetragen werden.
Cauchy-Bunjakovskiĭ-Schwarzsche Ungleichung: Ausgehend von 0 ≤ hkx − ly, kx −
lyi = |k|2 kxk2 − k̄lhx, yi−k¯lhy, xi+|l|2 kyk2 wählt man k := kyk2 und l := hy, xi = hx, yi
und findet nach kurzer Rechnung
0 ≤ kyk2 (kxk2 kyk2 − |hx, yi|2 ),
woraus die Ungleichung unmittelbar folgt.
Sesquilinearität: Es ist
hku + lv, wi =
=
=
=
hw, ku + lvi
khw, ui + lhv, wi
k̄hw, ui + ¯lhv, wi
k̄hu, wi + ¯lhv, wi.
(H, k · k) ist Prähilbertraum: Zunächst folgt aus der Definitheit des inneren Produkts
jene der Norm. Um die Dreiecksungleichung ku + vk ≤ kuk + kvk nachzuweisen, genügt
es ku + vk2 ≤ (kuk + kvk)2 nachzuweisen, also (nach ein wenig Rechnung)
<(hu, vi) + <(hv, ui) ≤ 2kukkvk.
Weil <hu, vi ≤ |hu, vi| und <hv, ui ≤ |hu, vi| folgt der Nachweis nun aus der CauchySchwarzschen
ergibt Benützung der Sesquilinearität kkuk =
pUngleichung. Schließlich
p
p
hku, kui = k̄khu, ui = |k| hu, ui = |k|kuk, also die Homogeneität.
Polarformen: Verifizieren ergibt sich durch Benützen der Definition der Norm kwk2 =
hw, wi durch das innere Produkt, danach Benützen der (Sequi)linearität und Wegkürzen
der Terme, es sei an der reellen Polarform demonstriert:
1
2 (||u
+ v||2 − ||u||2 − ||v||2 ) = 12 (hu + v, u + vi − hu, ui − hv, vi)
= 21 (hu, ui + 2hu, vi + hv, vi − hu, ui − hv, vi)
= hu, vi.
240
Lineare Funktionalanalysis
Parallelogrammregel: Der Beweis der Parallelogrammregel geht genauso wie jener der
Polarformen, bitte selbst ausführen.
Die elementargeometrische Deutung der Namensgebung sei an einem wie in der Schule
mit Seiten a, b, c, d und Diagonalen e, f beschrifteten Parallelogramm erläutert. Dann
ist
a2 + b2 + c2 + d2 = e2 + f 2
und wenn man ||u|| = a = c, ||v|| = b = d, e = ||u+v|| sowie f = ||u−v|| einsetzt, erhält
man die Parallelogrammregel auf elementarem Weg. Um nun eben diese elementare
Beziehung von Seiten und Diagonalen in einem beliebigen Parallelogramm zu verstehen,
benützen wir den Kosinussatz auf 2 Arten:
2
a
b2
2
f
ef
+
− 2 cos(γ)
=
2
2
22
e 2 f 2
ef
+
=
− 2 cos(π − γ)
2
2
22
e 2
o
ooo f
o
o
o
γ
ooo
ooo
a
o
ooo
o
o
o
ooo b
ooo
e
Addition der Gleichungen und Beachten von cos(γ) = − cos(π − γ) und a = c, sowie
b = d ergeben die elementare Form der Parallelogrammregel.
Der algebraische Nachweis, d.i. das Nachrechnen der Parallelogrammregel und geometrischen Deutung der Vektoren als Parallelogramm in der euklidischen Ebene erlauben es,
die Parallelogrammregel als Aussage über Elementargeometrie der euklidischen Ebene
aufzufassen.
* Parallelogrammregel ⇒ Prähilbertraum: Es soll hier nur der Fall K = R gezeigt
werden. Dann ist notwendigerweise (weil ja im Falle der Richtigkeit der Aussage die
Polarform gilt)
1
hu, vi := (ku + vk2 − ku − vk2 ).
4
(Definitheit) Es ergibt sich für u = v hu, ui = kuk2 und somit folgt die Definitheit
aus der Definitheit der vorgegebenen Norm. Die Symmetrie ist aus der Formel sofort
ersichtlich.
Der Nachweis der Linearität in u gelingt in einigen Schritten.
• Zunächst wird lediglich T (u, v, w) := hu + v, wi − hu, wi − hv, wi = 0 gezeigt:
Einsetzen der Definition von h·, ·i ergibt
1
T (u, v, w) = (ku + v + wk2 − ku + vk2 − ku + wk2 − kv + wk2 + kuk2 + kvk2 + kwk2 .
2
6.4. Hilberträume
241
Ein Kunstgriff ist nötig, um den Term ku+v+wk2 durch die Normen von Vektoren
mit lediglich 2 oder 1 der Vektoren u, v, w auszudrücken, und das geht z.B. so, daß
man die Parallelogrammregel verwendet:
ku + v + wk2 + ku − (v + w)k2
= 2(kuk2 + kv + wk2
2
2
−k(u − v) + wk − ku − (v + w)k = −2(ku − vk2 − kwk2
k(u + w) − vk2 + ku + w + v)k2
= 2(ku + wk2 + kvk2
Nach Addition der drei Gleichungen und Kürzen durch “2” verbleibt
ku + v + wk2 = −ku − vk2 − kwk2 + kuk2 + kv + wk2 + ku + wk2 + kvk2 .
Setzt man dies in das T (u, v, w) ein, so verbleibt ein Ausdruck, der kein w enthält
und der durch Anwendung der Parallelogrammregel für u und v sich als Null
erweist. Also hat man
hu + v, wi = hu, wi + hv, wi
gezeigt.
• Es fehlt noch, hku, vi = khu, vi für alle k ∈ R zu zeigen. Aus dem vorigen Punkt
und vollständiger Induktion ergibt sich für alle n ∈ N
hnu, vi = nhu, vi
Aus der DN von h·, ·i ergibt sich unmittelbar h−u, vi = −hu, vi. Somit hat man
insgesamt hku, vi = khu, vi für alle k ∈ Z. Nun sei k = pq eine beliebige rationale
Zahl, wobei q ∈ N ist. Dann ist
p
p
phu, vi = hpu, vi = hq
u , vi = qh u, vi
q
q
also pq hu, vi = h pq u, vi. Somit gilt hku, vi = khu, vi für alle rationalen Zahlen.
Schlußendlich benützt man ein Stetigkeitsargument. Die Funktion k 7→ kkuk ist
stetig, sodaß die Funktion k 7→ hku, vi − khu, vi ebenfalls stetig auf R ist. Da Q
dicht liegt, und die Funktion auf Q verschwindet, ist sie Null.
6.4.2
Vollständigkeit
Anmerkung 220 (Hilbertraum) Ein in der induzierten Norm vollständiger Prähilbertraum ist ein Hilbertraum.
Beispiel 221 Einige Beispiele:
Raum der quadratisch konvergenten
l2 : Es sei l2 die Menge aller reellen (bzw.
P Folgen
∞
2
komplexen) Folgen {an }n=1 mit n |an | konvergent (man sagt “quadratisch konvergent”).
242
Lineare Funktionalanalysis
P
∞
∞
∞
Es sei für 2 Folgen {an }∞
n=1 und {bn }n=1 in l2 h{an }n=1 , {bn }n=1 i durch
n ān bn definiert. Man zeige, daß diese Reihe absolut konvergiert, und ein inneres Produkt vorliegt.
Antwort: Aus der Cauchy-Schwarzschen Ungleichung für endliche Folgen bekommt man
für festes N ∈ N
v
v
v
v
uN
uN
u∞
u∞
N
uX
uX
X
uX
uX
t
t
|an |2
|bn |2 ≤ t
|an |2 t
|bn |2 .
|ān bn | ≤
n=1
n=1
n=1
n=1
n=1
Nun erweist sich die rechte Seite
für die in N monotone Folge
P als Schranke
P∞auf der
∞ , sodaß das innere Produkt
linken Seite. Also konvergiert { N
ā
b
}
n
n
n=1
n=1 ān bn
N =1
von l2 -Folgen wohldefiniert ist. Die Symmetrie- und (Sesqui)-Linearitätseigenschaft sind
leicht erkennbar.
Wie sieht die induzierte Norm in l2 explizit angeschrieben aus?
Antwort: Es handelt sich um
v
u∞
uX
∞
k{an }n=1 k = t
|an |2 ,
n=1
ein Ausdruck, der vorhin schon aufgetreten ist.
Wie sieht die Cauchy-Bunjakowskiĭ-Schwartzsche Ungleichung in ausgeschriebener
Form aus?
pP∞
pP∞
P
2
2
Antwort: | ∞
ā
b
|
≤
|a
|
n
n
n
n=1
n=1
n=1 |bn | .
Wie zeigt man die Vollständigkeit von l2 ?
Antwort: Man kann das ganz direkt machen, wir wollen jedoch einen zu Anmerkung
209 ähnlichen Weg nehmen und die Vervollständigung der Menge aller endlichen Folgen
bezüglich der l2 -Norm im Dualraum des gleichen Raumes isometrisch einbetten.
Ist v 0 ein beliebiges stetiges lineares Funktional, so weist es jeder Folge φl , die an der
Stelle l eine 1 und sonst lauter Nullen hat, eine Zahl ξl = v 0 (φl ) zu. Wie berechnet sich
∞
die Norm von v 0 ? Dazu muß für beliebige endliche Folgen {an }∞
n=1 mit k{an }n=1 k = 1
das Supremum der Werte |v 0 ({an }∞
n=1 )| gefunden werden.
Nun sei ψl0 jenes lineare Funktional, welches jeder endlichen Folge {an }∞
n=1 den Koeffizienten al als Wert zuordnet. Sichtlich ist jedes solche ψl0 stetig, weil
s
X
0
∞
|an |2 = k{an }∞
|ψl ({an }n=1 )| = |al | ≤
n=1 k
n
ist. Andrerseits ist {an }∞
n=1 =
P
n al φl
und somit
X
v 0 ({an }∞
ξl al .
n=1 ) =
l
6.4. Hilberträume
243
Wählt man für al := ξ¯l für l ≤ N , mit N ∈ N beliebig, aber fest, und Null sonst, so
bekommt man zunächst
kv
0
kk{an }∞
n=1 k
≥ |v
0
({an }∞
n=1 )|
=
N
X
|ξl |2 ,
l=1
und weil k{an }∞
n=1 k =
qP
N
2
l=1 |ξl |
ist, ergibt Division
v
uN
uX
0
|ξl |2 .
kv k ≥ t
l=1
Weil hierin die linke Seite kein N enthält, schließt man
kv 0 k ≥ k{ξl }∞
l=1 k,
sodaß die dem Funktional v 0 entsprechende Folge {ξl }∞
l=1 tatsächlich in l2 ist.
Um die isometrische Einbettung zu zeigen, m.a.W., daß die Norm des Funktionals gleich
der l2 -Norm der Folge {ξl }∞
l=1 ist, benötigen wir lediglich noch die Ungleichung
kv 0 k ≤ k{ξl }∞
l=1 k.
Ist {an }∞
n=1 eine beliebige endliche Folge, welche ab dem N + 1.ten Glied Null ist, so ist
|v 0 ({an }∞
n=1 )| ≤
N
X
∞
|ξn an | ≤ k{ξn }∞
n=1 kk{an }n=1 k,
n=1
woraus wegen N beliebig die behauptete Ungleichung mittels der Definition der Norm
des Funktionals folgt.
Quadratisch integrierbareRFunktionen auf I = [0, 2π]: Es werde C(I, C) mit dem in2π
neren Produkt hf, gi := 0 f¯g versehen. Die Vervollständigung dieses Raumes bezüglich
der L2 -Norm
s
Z 2π
kf k =
|f (x)|2 dx
0
ist der Raum der quadratisch integrierbaren Funktionen. Das übliche Riemannintegral
erweist sich als bezüglich der L2 -Norm stetiges lineares Funktional auf C([0, 2π], C), ist
somit gleichmäßig stetig und kann deshalb wegen Anmerkung 165 auf ganz L2 (I, C)
stetig fortgesetzt werden. Der Standardweg, die Elemente des L2 (I, C) als Funktionen
zu interpretieren ist wie folgt: Man sucht im Raum der Funktionen von [0, 2π] nach C all
jene heraus, für welche es eine L2 -Cauchyfolge stetiger Funktionen gibt, und für welche
bis auf eine Lebesguenullmenge (das ist eine Menge, die man bei vorgegebenem
P∞ > 0
durch eine höchstens abzählbare Vereinigung offener Intervalle {In }∞
mit
n=1
n=1 |In | ≤
überdecken kann) punktweise Limiten besitzt. Nun kann jeder solchen Funktion ein
Element in L2 zugeordnet werden, jedoch gehören Funktionen, die sich nur auf einer
Nullmenge unterscheiden, zum gleichen Element in L2 [0, 2π].
244
Lineare Funktionalanalysis
Raum der auf R quadratisch integrierbaren Funktioen L2 (R, C): Man betrachtet zunächst die Menge aller auf R stetigen, außerhalb eines kompakten Intervall verschwindenden Funktionen, der in der Literatur meist mit C0 (R, C) bezeichnet wird. Nun
versieht man ihn mit dem inneren Produkt
Z ∞
hf, gi :=
f¯(x)g(x) dx
−∞
und betrachtet seine Vervollständigung. In analoger Weise wie vorhin können gewissen Funktionen solche Elemente im L2 zugeordnet werden. Beispiele hiefür sind die
Funktionen e−|a|+it für a 6= 0. Hingegen sind die Funktionen eiat bzw. cos(at) für kein
reelles a als Elemente im L2 interpretierbar, weil bekanntlich jede stetige Funktion mit
absolutkonvergentem Integral im Unendlichen abklingen muß.
6.4.3
Orthonormalsysteme
Definition 222 (Orthogonal- und Orthonormalsystem) Ist S eine Teilmenge linear
unabhängiger Vektoren eines Prähilbertraumes H und hs, s0 i = 0 für alle s, s0 ∈ S mit s 6= s0 ,
so ist S ein Orthogonalsystem. Haben alle Vektoren in S Länge 1, so spricht man von einem
Orthonormalsystem (kurz ONS), bzw. Orthonormalbasis (ONB) von L(S).
Lassen Sie mich an das Gram-Schmidt Orthogonalisierungsverfahren erinnern:
Anmerkung 223 (Gram-Schmidt Orthogonalisierung)
Input: Eine Teilmenge B eines Prähilbertraumes H.
Output: Eine Orthogonalbasis U des von B aufgespannten linearen Teilraumes L(B)
von H.
Initialisierung: Wähle b ∈ B. Falls b 6= 0 ist, setze U := {b}. Ersetze B durch B \ {b}.
Iterationsschritt: Es sei B nicht leer. Wähle b ∈ B beliebig und ersetze B durch
B \ {b}.
Bilde für jedes u ∈ U die Orthogonalprojektion
Pu (b) :=
hu, bi
u
kuk2
und definiere
X
PU (b) :=
Pu (b).
u∈U
(Dieser Vektor ist die Orthogonalprojektion von b in den von U aufgespannten
Teilraum).
Falls b − PU (b) 6= 0, füge ihn zu U hinzu.
6.4. Hilberträume
245
Abbruchbedingung: Falls B leer ist, was bei endlichdimensionalem V nach endlich
vielen Iterationen zutrifft.
Normierung : Für alle u ∈ U bilde man
ONB von L(B).
1
kuk u.
Die so normierten Vektoren bilden eine
Beispiel 224 Als z.T. Wiederholung aus der M2 ET Beispiele:
1. (Orthogonalpolynome auf I = [−1.1].) Auf dem Intervall I = [−1, 1] sei eine stückweise stetige Gewichtsfunktion p ≥ 0 gegeben, die auf einem Teilintervall strikt positiv
ist, und für das
Z
Z
1
1
p(x)|f (x)|2 dx,
−1
p(x)|f (x)| dx
−1
R1
beide als (uneigentliche) Riemannintegrale existieren. Durch hf, gi := −1 f (x)g(x) dx
läßt sich unter diesen “technischen Voraussetzungen” garantieren, daß ein inneres Produkt auf C(I), dem Raum der auf I stetigen, reellwertigen Funktionen, vorliegt. Zeigen
Sie, daß Gram-Schmidtorthogonalisierung, ausgehend von B := {1, x, x2 , . . .} auf eine
2-stufige Rekursion
kpn k2
hx, 1i
hpn , xpn i
p
(x)
+
pn−1 (x), p0 (x) = 1, p1 (x) = x −
pn+1 (x) = x −
n
2
2
kpn k
kpn−1 k
k1k
führt. Für p(x) = 1 bekommt man die Legendrepolynome. Man berechne p0 , p1 , p2 und
p3 .
Antwort(findung): Um zu erahnen, daß die 2-stufige Rekursion vorliegt, kann man p0 bis
p3 berechnen. Danach hat man ein wenig Gefühl, warum die Rekursion stimmen kann.
Zum Beweis verwendet man Induktion. Für n = 2 ergibt sich die Richtigkeit durch
Orthogonalisierung von B = {1, x, x2 }. Angenommen, pn = (x − an−1 )pn−1 + bn−1 pn−1
gilt für ein n ≥ 2, wobei die Koeffizienten an−1 , bn−1 wie oben durch Quotienten aus
inneren Produkten gegeben sind. Dann ist
xpn−1 = pn + an−1 pn−1 − bn−1 pn−1 ,
eine Relation, die wir gleich verwenden werden. Der mit noch Unbekannten an , bn ∈ R
versehene unbestimmte Ansatz
pn+1 = (x − an )pn + bn pn−1
führt, die obige Relation in der zweiten Gleichung verwendend, auf die Bedingungen
0 = hpn+1 , pn i = hxpn , pn i − an kpn k2
0 = hpn+1 , pn−1 i = hxpn , pn−1 i + bn hxpn , pn−1 i
= kpn k2 + bn kpn−1 k2
246
Lineare Funktionalanalysis
aus der die gesuchten Koeffizienten sich sofort ergeben. Weiters ergibt sich sofort, daß
pn+1 im Orthogonalraum {p0 , p1 , . . . , pn }⊥ liegt.
Man findet, die Rekursion benützend und schließlich Normieren die Polynome 1, x, 12 (3x2 −
1), 21 (5x3 − 3x), . . .
Auf mögliche Deutungen der Orthogonalpolynome siehe Kapitel 7 über die Saite.
Anmerkung 225 (Charakterisierungen eines vollständigen ONS, ONB, Rieszabbildung) Ist (H, h·, ·i) ein Hilbertraum, so sind folgende Bedingungen an ein ONS S
gleichwertig:
1. L(S) ist dicht in H.
2. S ⊥ = {0}.
3. S ist ein vollständiges ONS in folgendem Sinne: Für jedes h ∈ H ist für hs := hs, hi
X
h=
hs s.
s∈S
Dabei ist für höchstens eine abzählbare Teilmenge von S das hs 6= 0.
Diese Reihe heißt (verallgemeinerte) Fourierreihe und der verallgemeinerte Fourierkoeffizient hs = hs, hi ist eindeutig bestimmt.
4. Für jedes h ∈ H gilt die Parsevalsche Gleichung
X
khk2 =
|hs |2 .
s∈S
Auch hier sind höchstens abzählbar viele hs 6= 0.
Es gelten die folgenden Fakten für ein ONS S, ein Element h ∈ H und den von ihm
aufgespannten abgeschlossenen Teilraum L(S) (der definitionsgemäß aus den Grenzwerten
aller aus Gliedern in L(S) gebildeten, konvergenten Folgen besteht):
Existenz einer ONB in H: Jeder Hilbertraum besitzt eine ONB. Sie muß allerdings
nicht abzählbar sein (so hat z.B. der L2 (R) zwar eine ONB, aber sie ist nicht
abzählbar). Hat H eine abzählbare ONB, so nennt man H separabel.
Isometrie zu l2 (S): Es sei l2 (S) der Raum aller komplexwertigen Funktionen a auf S
(als Menge aufgefaßt), für die
X
|as |2 < ∞
s∈S
ist. Es ist
ha, bi :=
X
s∈S
ās bs
6.4. Hilberträume
247
wohldefiniert und l2 (S) ein Hilbertraum. Die Abbildung χ : H → l2 (S) ist eine
Isometrie. D.h.
hh, ki = ha, bi,
wobei as := hs und bs := ks die entsprechenden Fourierkoeffizienten bezüglich S
sind.
Falls S abzählbar ist, besteht Isometrie zu l2 .
Satz von Riesz, Rieszabbildung R: Zu jedem stetigen linearen Funktional φ : H →
C gibt es genau ein R(φ) ∈ H mit
φ(h) = hR(φ), hi.
Es ist R(φ) =
P
s∈S
φ(s)s. Die Rieszabbildung R : H0 → H ist eine Isometrie.
Orthogonalprojektion:
PS (h) :=
X
hh, sis
s∈S
ist die Orthogonalprojektion von h in L(S) und
h − PS (h) ∈ S ⊥ .
Bestapproximation: PS (h) ist die eindeutig bestimmte Lösung des Minimierungsproblems
min{kh − bk | b ∈ L(S)}.
P
Dabei hat das Minimum den Wert khk2 − kPS (h)k2 = khk2 − s∈S |hs |2 .
In Beispiel 227 findet man Beweise, im folgenden sollen die vorgestellten Begriffe durch
eine Auswahl wesentlicher Beispiele beleuchtet werden.
Beispiel 226
1. (Klassische Fourierreihen
R 2πmit komplexen Koeffizienten – L2 ([0, 2π], C))
Bezüglich des inneren Produkts hu, vi := 0 ū(x)v(x) dx erweisen sich die Funktionen
{φn (x) := √12π einx als orthonormales System. Die Orthogonalität ist leicht einzusehen:
Z
2π
−inx imx
e
0
e
Z
dx =
2π
(
−i(m−n)x
e
dx =
2π
1
−i(n−m) e
−i(n−m)
0
0
=0
m 6= n
1
m=n
Die Vollständigkeit zu zeigen bedeutet, zu jedem f ∈ L2 ([0, 2π], C) und jedem > 0
eine Linearkombination s in S anzugeben mit
||f − s|| < .
248
Lineare Funktionalanalysis
Das wird üblicherweise mittels Dirichletkernen gezeigt. Unter Benützung des Satzes von
Stone-Weierstraß (Anmerkung 168) läßt sich ein sehr kurzer Nachweis wie folgt führen:
Wählt man f stetig mit f (0) = f (2π), so gibt es wegen des Satzes eine Linearkombination s0 ∈ S, für welche die Supremumsnorm die Eigenschaft
1
||f − s0 ||∞ < √ 4 2π
erfüllt (der Vorfaktor ist “Kosmetik”). Hieraus ergibt sich für solches f und alle x ∈
[0, 2π]
1
|f (x) − s0 (x)|2 <
.
8π
Integration über das gesamte Intervall ergibt
1
||f − s0 || < .
2
P
Die Orthogonalprojektion PS (f ) = n∈Z cn einx erfüllt als Element des L2 die Extremumseigenschaft, sodaß
||f − PS (f )|| ≤ ||f − s0 ||
gelten muß. Insbesondere gibt es dann eine endliche Linearkombination s ∈ S welche
||f − s|| < erfüllt. Um schließlich für beliebiges f die Dichteeigenschaft zu bekommen,
vermerkt man, daß der L2 Vervollständigung des Raumes der stetigen Funktionen h
mit h(0) = h(2π) bezüglich der L2 -Norm ist, es also stets ein solches h nahe genug an
f bezüglich der L2 -Norm gibt, und somit auch ein s ∈ S.
P
Die “abstrakten” Fourierreihe f = s∈S hs s, mit hs = hs, f i wird üblicherweise als
klassische Fourierreihe in der Form
X
f (x) ∼
cn einx
n∈Z
mit cn =
√1
2π
R 2π
0
e−inx f (x) dx angeschrieben.
Bestapproximation bedeutet für jeden abgeschlossenen (z.B. endlichdimensionalen) Teilraum mit ONB S, daß die Orthogonalprojektion von f ∈ L2
X
X 1 Z 2π
√
s̄(x)f (x) dx s
hs, f is =
2π
0
s∈S
s∈S
(mit Integralen im Sinne von Grenzwerten über f im Sinne der L2 -Norm approximierenden stetige Funktionen) jenes Element im Teilraum ist, welches den kürzesten
L2 -Abstand zu f besitzt.
Dieser L2 -Abstand drückt sich im konkreten Fall durch
Z 2π
X
X
1
2
kf −
hf, sisk =
|f (x)|2 dx −
|hf, si|2
2π
0
s
s
6.4. Hilberträume
249
aus.
Die Parsevalsche Gleichung wird im klassischen Kontext (etwa für stetiges f ) zu:
1
2π
Z
2π
|f (x)|2 dx =
0
X
|cn |2 .
n
2. (Orthogonalpolynome) Auf I := [0, 1] sei eine stückweise stetige Funktion p ≥ 0
gegeben und wir erlauben durchaus, daß sie unbeschränkt ist. Allerdings sei gefordert,
daß die beiden Integrale
Z 1
Z 1
p(x)|f (x)| dx,
p(x)|f (x)|2 dx
0
0
für jede auf I stetige Funktion als uneigentliche Integrale konvergent sind. Dann ist
Z 1
hf, gi :=
p(x)f (x)g(x) dx
0
ein inneres Produkt auf C(I, R), dem Raum der auf I reellwertigen, stetigen Funktionen. Es sei H seine Vervollständigung. Ähnlich wie vorhin kann der Satz von StoneWeierstraß benützt werden, um von der Familie von Potenzen S0 := {xk | k ∈ N}
ausgehend, eine vollständige ONB von H, bestehend aus Orthogonalpolynomen. zu konstruieren.
Hier ist eine Tabelle einiger recht bekannter, auf solche Art entstehender Orthogonalpolynome
p
1
(1 − x2 )−1/2
(1 − x2 )1/2
(1 − x)a (1 + x)b
Name
Legendre-Polynome
Tschebischeff-Polynome 1.Art Tn
Tschebischeff-Polynome 2.Art Un
Jacobi-Polynome, wobei a, b > −1
Nicht explizit listen möchte ich Orthogonalpolynome über unendlichen Intervallen, wie
etwa die Hermite- und Laguerrepolynome. Die Idee ist die Gleiche, allerdings bedarf
es vor der Anwendung des Satzes von Stone-Weierstraß noch eines Kunstgriffs (sog. 1bzw. 2-Punktkompaktifizierung), worauf hier nicht eingegangen werden soll.
Beispiel 227 Hier sollen die Beweise vorgeführt werden.
“1 ⇒2”: Es sei h ∈ S ⊥ beliebig. Da L(S) dicht
Pliegt, gibt es zu jedem
P > 0 eine endliche
Teilmenge S0 von S und ein Linearkombination s∈S0 cs s mit kh − s∈S0 cs sk < .
Da bekanntlich (Mathematik 2 ET)
X
h0 :=
hs, his
s∈S0
250
Lineare Funktionalanalysis
jenes Element in L(S) mit minimalem Abstand zu h ist, und hs, hi = 0 ergibt sich
X
khk = kh −
hh, sisk < .
s∈S0
Da beliebig positiv war, folgt h = 0, wie behauptet.
“2 ⇒3”:
Es sei S0 eine beliebige endliche Teilmenge von S. Aus der Ungleichung
X
0 ≤ kh −
hh, sisk2
s∈S0
und Umformung der rechten Seite ergibt ein wenig Rechnung
X
|hs |2 ≤ khk2 .
s∈S0
Hieraus ergibt sich insbesondere, daß die unendliche Reihe
X
|hs |2 ≤ khk2
s∈S
P
P
erfüllt, somit hs s ein in H wohldefiniertes Element ist. Danach ist h− s∈S hs s orthogonal
auf alle Elemente s ∈ S und muß laut Voraussetzung gleich Null sein. Die Abzählbarkeit ist
eine Konsequenz der Fußnote4 .
“3 ⇒4”: Es sei h ∈ H beliebig. Da S vollständig ist, hat man
X
h=
hs s
s∈S
mit hs = hs, hi. Diese Gleichung bedeutet für beliebiges positives die Existenz einer endlichen Teilmenge S0 von S mit
X
kh −
hs sk < .
s∈S0
Quadrieren und etwas Umformen führt auf
khk2 −
X
|hs |2 + ,
s∈S0
aus der insbesondere
khk2 ≤
X
|hs |2
s∈S
4
P Es sei I eine Menge und {ai | i ∈ I} eine Menge positiver Zahlen, für die das Supremum über alle Summen
i∈J ai mit endlicher Teilmenge J von I endlich ist. Es wird behauptet, daß I höchstens abzählbar ist. Ist
nämlich n ∈ N beliebig, so kann die Menge In := {i ∈ I | ai ≥ n1 } höchstensS
endlich sein, weil ja sonst endliche
∞
Teilsummen
beliebiger
Größe
fabriziert
werden
könnten.
Danach
ist
I
⊆
n=1 In abzählbar. Dies im Auge
P
kann i∈I ai als das genannte Supremum definiert werden, und die Reihe konvergiert genau dann, wenn die
Menge der i mit ai 6= 0 höchstens abzählbar ist, und demnach die Reihe im üblichen Sinn konvergiert.
6.4. Hilberträume
251
folgt. Umgekehrt ergibt sich aus 0 ≤ kh −
X
P
s∈S0
hs sk2 durch ähnliche Rechnung sofort
|hs |2 ≤ khk2 ,
s∈S
also insgesamt die Parsevalsche Gleichung. Zur Abzählbarkeit siehe die schon erwähnte Fußnote.
“4 ⇒1”: Angenommen L(S) ist nicht dicht in H. Dann gibt es ein h 6= 0 und ein > 0
sodaß für alle b ∈ L(S) stets
kb − hk ≥ ist. Die Gültigkeit der Parsevalschen
Gleichung zieht die Existenz
einer endlichen Teilmenge
P
P
S0 von S nach sich mit khk2 − s∈S0 |hs |2 + . Es ist b := s∈S0 hs s in L(S) und
kh − bk2 = kh −
X
hs sk2 = khk2 −
s∈S0
X
|hs |2 < ,
s∈S0
ein Widerspruch.
Existenz einer ONB: Hat der Hilbertraum eine abzählbare dichte Teilmenge (wie z.B.
L2 (I) für kompaktes Intervall I), so genügt es, das Orthogonalisierungsverfahren heranzuziehen. Im allgemeinen Fall benötigt man transfinite Induktion. Der Raum L2 (R, C)
ist nicht separabel. Eine ONB kann mit konstruktiven Mitteln nicht angegeben werden.
Isometrie zu l2 (S): Die Parsevalsche Gleichung zeigt, daß jedem h ∈ H ein Element in
l2 (S) zuordenbar ist. Offenkundig hat
Pes die gleiche Norm. Sie zeigt auch, daß umgekehrt
jede Funktion a in l2 (S) durch h = s∈S as s ein Element in H festlegt deren Bild a ist.
Satz von Riesz: Es ist bequem, die Existenz einer ONB S vorauszusetzen. Danach sei
φ ∈ H0 . Ist S0 endliche Teilmenge von S, so ergibt sich für h ∈ L(S0 )
X
φ(h) =
hs φ(s),
s∈S0
und wegen der Beschränktheit von φ
|φ(h)| ≤ kφkkhk,
sodaß für h :=
P
s∈S0
φ(s)s sich
X
2
|φ(s)| ≤ kφk
s∈S0
und nach Kürzen
sX
|φ(s)|2
s∈S0
sX
s∈S0
|φ(s)|2 ≤ kφk
252
Lineare Funktionalanalysis
ergibt. Dies zeigt, daß der Vektor
R(φ) :=
X
φ(s)s
s∈S
ein wohldefiniertes Element in H ist, und sichtlich gilt φ(h) = hR(φ), hi für beliebiges
h ∈ H.
Beispiel 228 (Konstruktion der Rieszabbildung im H01 (I))
Es sei H01 (I) der Hilbertraum der stetigen Funktionen mit Randwerten Null. Man zeige, daß
R(δa ) für Testfunktionen φ von der Form
(1 − a)x
0≤x≤a
R(δa )(x) =
(1 − x)a
a≤x≤1
sind.
Antwort: Die Vorgangsweise ist analog wie vorhin. Zunächst ist
Z 1
δa (u) = hR(δa ), ui =
R(δa )0 (x)u0 (x) dx,
0
woraus sofort die Distributionengleichung
R(δa )00 + δa = 0
folgt. Ihre Lösung durch 2-maliges Integrieren ist
R(δa ) = −(x − a)χ[a,1] + α + βx,
eine Funktion, deren Randbedingungen Null sind (wir sind in H01 (I)). Es ist α = 0 und
β = 1 − a, woraus die obige Form der Lösung resultiert. Automatisch wurde hier auch
gezeigt, daß δa ∈ H01 (I)0 liegt, d.h. stetiges lineares Funktional ist.
Es ist kein Zufall, daß genau der Kern K(a, x) herausgekommen ist, weil ja in Anmerkung
273 die Rolle der Faltung aufgezeigt worden ist.
Ein weiteres Beispiel zur Konstruktion einer Rieszabbildung findet sich in Unterabschnitt
7.2.4
Kapitel 7
Saite - etwas mathematische Physik
7.1
Mathematisches Modell
Hier in diesem kurzen Abschnitt soll Grundsätzliches zur mathematischen Modellbildung und
(numerischen) Lösung gesagt werden. Um nämlich zu effizienter mathematischer Simulation
zu kommen, bedarf es der korrekten Gestelltheit des Problems:
Existenz: Es sollte eine Lösung geben.
Eindeutigkeit: Die Lösung sollte eindeutig sein.
(Numerische) Stabilität: Kleine Änderungen (Fehler der Messung, numerische Fehler)
sollten auch das Resultat nur geringfügig ändern.
7.1.1
Die involvierten physikalischen Begriffe
1
0
u
Auslenkung u, Randwerte: Eine als auf I := [0, 1] definierte stetige Funktion u gebe die
Auslenkung einer Saite von der Nullage an. Die Werte u(0), u(1) (bzw. ihrer Ableitungen
u0 (0), u0 (1), u00 (0), u00 (1) etc.) am Rand heißen Randwerte. Es wird von sehr kleinen
Auslenkungen die Rede sein, sodaß mancherlei Approximationen ins Spiel kommen.
253
254
Saite - etwas mathematische Physik
1
2
Von der Zugspannung geleistete Arbeit
R1
0
(u0 )2 dx:
∆x
∆u
∆ x2 + ∆ u2
Es wird vom Hookeschen Gesetz ausgegangen,
welches besagt, daß die Saite sich im
√
Stück ∆x von der Länge ∆x in die Länge ∆x2 + ∆u2 verlängert hat, somit die Zugspannung Arbeit proportional zu
s

2
p
p
∆u
∆x2 + ∆u2 − ∆x =  1 +
− 1 ∆x ≈ ( 1 + u0 (x)2 − 1)∆x
∆x
leistet. Unter der weiteren Annahme, daß u0 (x) “sehr klein” ist, ergibt die Entwicklung
√
1 + a = 1 + 12 a + o(a) als ausreichende Approximation dieser Arbeit
1 0 2
u (x) ∆x.
2
Insgesamt ergibt sich unter Beachtung einer vom Ort abhängigen Materialfunktion p
als Verformungsenergie
Z 1
1
Ev (u) :=
p(x)(u0 )2 (x) dx.
2
0
Die den Elastizitätsmodul einbeziehende Funktion p wird im allgemeinen positiv und
hinreichend oft differenzierbar sein, manchmal nur stückweise, wenn die Saite aus verschiedenen Materialien an einer Stelle zusammengefügt worden ist. Gelegentlich wird
sie (in unseren Modellen) am Rand Null sein dürfen. Es wird davon ausgegangen, daß
horizontale Verschiebungen nicht stattfinden, sodaß die in u-Richtung wirkende Komponente alleine der Verformung der Saite entgegenwirkt.
R1
Gewichtsfunktion, Potential Ep (u) := 0 12 q(x)u(x)2 dx. im äußeren Feld: Gelegentlich
wird sich die Saite in einem Kraftfeld befinden, welches linear in u ist (etwa, wenn die
Saite um die Nulllage rotiert). Die Arbeit, welche diese Kraft verrichtet ist unter Einbeziehen der Gewichtsfunktion, d.i. der Massendichte q(x) von der Gestalt
Z
Ep (u) :=
0
1
1
q(x)u(x)2 dx.
2
Die Materialfunktion q erfüllt ähnliche Annahmen wie p und bezieht die Massendichte
entlang der Saite ein.
7.1. Mathematisches Modell
255
Arbeit einer in u-Richtung wirkenden Kraftdichte entlang der Saite: Gelegentlich
leistet externe Kraft mit der Kraftdichte f entlang der Saite in u-Richtung ebenfalls
Arbeit, nämlich
Z
1
Ef (u) :=
f (x)u(x) dx.
0
Es wird f recht allgemein sein dürfen, z.B. die Deltafunktion, oft jedoch auch stetig
differenzierbar, z.B. konstant (Gravitition).
7.1.2
Mathematische Physik – Prinzip der kleinsten Wirkung - Variationsproblem
Es ist
Z
1
J(u) := Ev (u) − Ep (u) − Ef (u) =
0
1
pu02 − qu2 − uf
2
dx
die Energiebilanz
R 1 für eine unter diesen Kräften befindlichen Saite. Dabei ist, üblicher Konvention folgend, 0 uf dx im Sinne von hf, ui, also Anwendung der distributionellen Kraftdichte
auf die Funktion u zu verstehen (Anmerkung 273). Als Kandidaten für u im stationären
Zustand, d.h., wo die Saite nicht in “Bewegung gerät”, also im Gleichgewicht ist (bezüglich
eines mit der Saite mitrotierenden Koordinatensystems in “Ruhe befindet”) erweisen sich die
stationären Lösungen u des Variationsproblems
δJ(u)(h) = 0
für alle (z.B.) 2 mal stetig differenzierbaren h. Das interpretiert man oft so, daß “in Summe”
so wenig als möglich Energieumwandlung von einer Art der Energie in eine andere stattfindet
– insbesondere dann, wenn das Gleichgewicht stabil ist, ansonst eher wie einen Flachpunkt
bzw. Sattelpunkt in der Theorie der Extremwertaufgaben.
7.1.3
Variationsformulierung – distributionelle Lösung
Es ergibt sich
Z
δJ(u)(h) =
1
(pu0 h0 − quh − f h) dx
(7.1)
0
wie Anmerkung 273 ausgeführt, und in Beispiel 189 in einem Spezialfall vorgerechnet worden
ist. Hierin ist h ∈ D(I) beliebig, also eine C ∞ -Funktion mit Träger ein echtes Teilintervall
von I. Hieraus findet man durch partielle Integration zunächst die Variationsformulierung
− (pu0 )0 − qu − f = 0
(7.2)
und es sind noch Vorgaben an Randwerte zu setzen, weil die Gleichung, analog wie in der
Theorie der DGL nicht eindeutig lösbar ist.
Man faßt u und f als Distributionen auf, solange man für h lediglich Testfunktion (mit
Träger die Punkte 0 und 1 nicht enthaltend). Danach weiß man, daß jede Distributionenlösung
u eine Funktion auf I sein muß. Allerdings hat sie Ableitungen vorerst nur im distributionellen
Sinn (=verallgemeinerte Ableitungen).
256
Saite - etwas mathematische Physik
Ob, und inwieweit distributionelle Lösungen durch Randwerte bestimmt werden können, ist
nicht grundsätzlich einfach, vorallem dann, wenn p bzw. q nicht konstant sind. Hier erweist
sich die Hilbertraumformulierung (Soboleffnormen) im allgemeinen als zweckmäßiger.
7.1.4
Hilbertraumformulierung – Soboleffnormen
Auch inwieweit eine etwaige distributionelle Lösung klassische Ableitungen hat, hängt im
weiteren von p, q und f , bzw. den Ableitungsordnungen der Randwerte ab. Diese Ableitungsordnungen rufen die Soboleffnormen auf den Plan. Wie nämlich in Beispiel 202 2. vorgeführt
wurde, sind die Elemente im Hilbertraum H 1 (I), der Vervollständigung der auf I stetig differenzierbaren Funktionen bezüglich der Norm
s
Z 1
kuk =
(u2 + u02 ) dx
0
als stetige Funktioenen auffaßbar. Deshalb ist H 1 (I) ein guter Kandidat für Randwertprobleme, die lediglich u(0) und u(1) involvieren. Für höhere Ableitungen sind es wohl eher
k
Teilräume
R 1 von0 H0 (I) mit k ≥ 1. Eine wesentliche Beobachtung ist jedoch die bilineare Struktur von 0 (pu v − quv) dx bezüglich u und v.
R1
Besonders interessant ist dabei der erste Ausdruck 0 pu0 v 0 dx, weil er die höchsten Ableitungsordnungen involviert und der Norm auf H01 (I), dem Raum mit Randdaten u(0) =
u(1) = 0, sehr ähnlich ist. Tatsächlich sind unter der Annahme,
qR daß p(x) durch eine positive
1
1
0 2
Konstante nach unten beschränkt ist, die Normen kukE :=
0 p|u | dx und die H0 -Norm
äquivalent, wie man leicht einsieht.
Jedenfalls versucht man, einen Hilbertraum H zu finden, der a) in H 1 (I) liegt, und b)
Interpretation der Randdaten erlaubt.
Hat man H gefunden (hängt von den Randbedingungen an u ab), so können ιp (u)(v) :=
R1 0 0
R1
0
0 pu v dx und ιq (u)(v) := 0 quv dx als Abbildungen ιp bzw ιq von H in den Dualraum H
aufgefaßt werden. In abstrakter Form findet man für alle v ∈ H,
h(Rιp (u) − Rιq (u) − Rf ), viH = 0
wobei u die Randbedingen zu erfüllen hat. Es ist dabei R die Rieszabbildung. Die Menge der
u ∈ H, welche die (stets homogenen linearen) Randbedingungen erfüllt, ist ein abgeschlossener Teilraum U von H.
7.1.5
Lösungstechniken
Aus dem Zusammenspiel der beiden Formulierungen ergeben sich folgende Lösungstechniken:
Distributionen: Wenn p, q und f hinreich einfache Form haben, können oft Distributionenlösungen kalkülmäßig rasch gefunden werden. Ist z.B. u eine Lösung von −(pu0 )0 −
qu = δa , so ist bekanntlich u ∗ f eine Distributionenlösung von −(pu0 )0 − qu = f (Anmerkung 273).
7.2. Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0.
257
Rieszabbildung: Eine
R 1 explizite Beschreibung der Rieszabbildung gelingt sehr oft in der
Form hRu, f i = 0 G(x, t)f (t) dt, wobei G ein explizit bestimmbarer Integralkern, d.h.
Funktion in 2 Variablen ist, eine sogenannte Greenfunktion.
FEM – Finite Elementmethode: Die Grundidee besteht darin, einen endlichdimensionalen Raum V durch eine ausgezeichnete Basis von z.B. Hutfunktionen vorzugeben,
die bereits, jede einzeln, die Randbedingungen erfüllen. Danach wird das Variationsproblem auf V × V eingeschränkt.
Konkret, wenn X eine Basis von V ist, so ist jedes
P
u von der Form u = x ux x mit ux ∈ R, sodaß sich für alle y ∈ X
X Z 1
ux
(pu0x vy0 dx − qux vy − f vy ) dx = 0
x
0
ergibt, ein lineares Gleichungssystem, das mit Standardmethoden der numerischen
linearen Algebra gelöst wird. Die Genauigkeitsschranken, welche V mitbestimmen,
können im voraus eingestellt werden.
In den nächsten Unterabschnitten sollen konkrete Randwertprobleme angesprochen werden.
7.2
7.2.1
Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f ,
u(0) = u(1) = 0 und q = 0.
Formulierung des Randwertproblems
Wie findet man die in der Überschrift genannte distributionelle Formulierung?
Antwort(findung): Die Saite befinde sich lediglich unter Krafteinwirkung f , somit ist der
Energieterm mit der Massendichte q nicht vorhanden, was darauf hinausläuft q = 0 anzunehmen. Sie wird am Rand festgehalten, also muß offenbar u(0) = u(1) = 0 gelten. Deshalb (und
nicht nur deshalb, sondern auch aus physikalischen Gründen) erweist sich die Stetigkeitsannahme an u als sinnvoll. Damit ergibt sich als distributionelle Formulierung der Formelanteil
der Unterabschnittüberschrift.
Welchen Hilbertraum wählen?
Antwortfindung: Zumindest stetig sollten die Funktionen sein. In Beispiel 202 2. wurde
der Hilbertraum stetiger Funktionen H 1 (I), d.i. die Vervollständigung des Raumes der stetig
differenzierbaren Funktionen unter der Integralnorm
s
Z 2
(u2 + u02 ) dx
kuk1 :=
0
beschrieben. Er sollte für die meisten physikalischen Probleme dieser Art ausreichen. Es hat
sich in Beispiel 202 2. herausgestellt, daß der Raum H01 (I) = {u ∈ H 1 (I) | u(0) = u(1)} mit
R1
dem H01 -inneren Produkt hu, vi := 0 u0 v 0 dx ein Hilbertraum ist (dessen Norm wir einfachheitshalber nur mit k · k bezeichnen wollen). Das ist interessant, weil die Bilinearform recht
ähnlich aussieht (z.B. für p = 1 wäre B(u, v) = −hu, vi).
258
7.2.2
Saite - etwas mathematische Physik
Hilbertraumformulierung - Existenz und Eindeutigkeit
Wie lautet die Hilbertraumformulierung, wenn man p(x) > c > 0 für alle x ∈ I annimmt? Kann man hiemit Existenz und Eindeutigkeit der Lösung beweisen?
Antwortfindung: Es erscheint sinnvoll H = H01 (I) zu wählen, dann erfüllt
qRjedes u ∈ H
1
02
die Randbedingungen automatisch. Danach ist die Energienorm kukE :=
0 pu dx zur
H01 -Norm äquivalent, weil wir p > c > 0 für eine Konstante c annehmen. Falls man weiß,
daß f stetiges lineares Funktional ist, ergibt die Rieszabbildung genau ein Rf ∈ H mit
hRf, viE = f (v) für alle v ∈ H. Danach ergibt sich die Hilbertraumformulierung
hu, viE = hRf, viE ,
für alle v ∈ H, also
u = Rf
als eindeutige H01 (I)-Lösung.
R1
Es sei f ∈ L2 (I) bzw. f = δa , wobei a ∈ (0, 1) ist. Ist f bzw. u 7→ 0 δ(a − x)u(x) dx :=
f (a) als stetiges Funktional auf H01 (I) interpretierbar?
Antwortfindung: Es hilft die Poincaréungleichung, nämlich kφk∞ ≤ kφk, die für alle φ ∈ H01
gilt, weiter (vgl. Beispiel 202 2.). Ist nun f eine L2 -Funktion, so ergibt zunächst die CauchySchwarzsche Ungleichung in L2 und danach die Poincaréungleichung
|hf, φiL2 | ≤ kf kL2 kφkL2 ≤ Ckφk,
wobei man C := kf kL2 wählen kann. Mithin ist das Funktional f stetig bezüglich der H01 Norm.
(Ein kleiner Schwindel: Das Integral muß man sich als GW von Integralen mit stetigen
Integranden zustandegekommen denken - oder eben doch als Lebesgueintegral interpretieren.)
Auch für f eine Deltafunktion, also hf, φi = hδa , φi = φ(a) kann die Stetigkeit bezüglich
der H01 -Norm gezeigt werden:
s
Z a
Z 1
Z 1
0
0
(φ0 (x))2 dx = kuk.
|hδa , φi| = |φ(a)| = φ (x) dx ≤
|φ (x)| · 1 dx ≤
0
7.2.3
0
0
Globale Minimumeigenschaft des Wirkungsintegrals J
R1
Nimmt das Wirkungsintegral J(u) = 0 12 pu02 − uf dx an der Stelle u0 := Rf ein
globales Minimum an?
Antwortfindung: Das Energiefunktionl nimmt die abstrakte Gestalt
1
1
1
J(u) = kuk2E − hR(f ), uiE = ku − R(f )k2E − kR(f )k2E
2
2
4
an, sodaß für
u = R(f )
7.2. Eingespannte Saite unter Belastung in Ruhe, −(pu0 )0 = f , u(0) = u(1) = 0
und q = 0.
259
tatsächlich ein globales Minimum vorliegt.
7.2.4
Konstruktion der Rieszabbildung – Konsequenzen
Man zeige, daß die Rieszabbildung für stetiges f durch
Z 1
R(f )(x) =
K(t, x)f (t) dt
0
mit K(t, x) = t(1 − x) für 0 ≤ t ≤ x ≤ 1 und K(t, x) = x(1 − t) für 0 ≤ t ≤ x ≤ 1
beschrieben werden kann
Antwort(findung): Es sollte R(f ) eine quadratisch integrierbare Ableitung haben (was zum
Beispielende
R 1 noch zu verifizieren
R 1 ist) 0und 0die Randbedingungen erfüllen. Deshalb geht geht
man von 0 u(x)f (x) dx = 0 (R(f )) (x)u (x) dx aus, wobei R(f )(0) = R(f )(1) = 0 gelten
müssen. Partielle Integration auf der rechten Seite ergibt
Z 1
Z 1
1
u(x)f (x) dx = (R(f ))0 (x)0 −
u(x)R(f )00 (x)u(x) dx.
{z
}
|
0
0
=0
Weil dies für alle stetig differenzierbaren u in H01 (I) gilt, schließt man auf
R(f )00 + f = 0.
Zweimalige Integration und Einsetzen der Randbedingungen führt auf
Z 1 Z s
Z x Z s
R(f )(x) =
ds
f (t) dt +
ds
f (t) dt x.
0
0
0
0
Die zweimalige Integration kann noch umgeformt werden zu
Z x Z s
Z x
Z x
Z x
ds
f (t) dt =
f (t) dt
ds =
(x − t)f (t) dt,
0
0
0
t
0
und Einsetzen ergibt die Behauptung. Die stetige Differenzierbarkeit von R(f ) ergibt sich
aus den üblichen Fakten über Parameterintegrale.
Wie lautet die Rieszabbildung für das lineare Funktional δa ?
Die Antwort findet sich in Beispiel 228.
Welchen Gewinn zieht man aus der Integraldarstellung?
Antwort: Die Integration ist numerischen Methoden unter geeigneten Voraussetzungen an
die Gewichtsfunktion p (die hier der Einfachheit halber gleich 1 war) Bei Benützung von
FEM approximiert man f und p durch Hütchenfunktionen und verwendet Standardintegrationsroutinen.
260
Saite - etwas mathematische Physik
7.3
Eingespannte Saite im Potentialfeld unter Krafteinwirkung
7.3.1
Physikalische Fragestellung
Es soll im Gegensatz zur vorigen Situation ein Kraftfeld auf die Saite wirken, welches proportional zur Auslenkung u der Saite ist. Dann ergibt sich für das Wirkungsintegral
Z 1
1 0 2
(u (x) − ω 2 u(x)2 ) − f (x)u(x)) dx,
J(u) =
2
0
und da die Saite eingespannt wird, haben wir u(0) = u(1) = 0. Der Soboleffraum H01 (I) ist
der natürliche Hilbertraumkandidat, in welchem Lösungen u von
δJ(u)(φ) = 0
für alle Testfunktionen φ gesucht werden. Der Faktor ω kann als Winkelgeschwindigkeit einer
um die Ruhelage der Saite als Achse rotierenden Flüssigkeit gedacht werden, welche die
Saite “mitnimmt”. Wie früher angedeutet, betrachten wir das Problem als stationär, wenn
der Beobachter “mitrotiert” und sich die Saite für ihn dann nicht bewegt. Solche Lösungen
werden durch das obige Variationsproblem gesucht! Ist die Rotationsgeschwindigkeit ω = 0,
so nimmt die Saite eine eindeutig bestimmte Lage in H01 (I) an, wie im vorigen Abschnitt
gezeigt wurde. Das sollte man auch für kleines ω erwarten dürfen. Wenn man ω steigert, ist
eine endlich-parametrige Schar von Gleichgewichtslösungen denkbar. Selbst wenn die Kraft
f = 0 ist, darf man Verformungen mit immer mehr Knoten erwarten.
7.3.2
Hilbertraumformulierung
Es sei p durch eine positive Konstante nach unten beschränkt. Man zeige, daß die
Hilbertraumformulierung
Rιp u − Rιq u − Rf = 0
lautet. Zeigen Sie daß Rιp invertierbar ist. Weiters, daß Rιq kompakt ist.
Antwortfindung: Die Hilbertraumformulierung ergibt sich aus Unterabschnitt 7.1.4:
hRιp u − Rιq u − Rf, viE = 0
für alle v ∈ H = H01 (I), sodaß die erste Teilbehauptung klar ist. Die Invertierbarkeit von
Rιp folgt aus der Äquivalenz der Norm k · kE mit der H01 -Norm: die Injektivität ergibt sich
aus Rιp u = 0 gleichbedeutend zu hu, vi0 = hRιp u, vi = 0 für alle v ∈ H01 (I), also u = 0. In
analoger Weise prüft man die Existenz zusammengesetzten Abbildung
H01 (I)
ι
/ H 1 (I)0
S
0
qR
/ H 1 (I)
0
1
02
wobei H01 (I) mit der üblichen Norm (kuk :=
0 u dx) ausgestattet ist und S durch die
Vorschrift hSu, vi = hu, viE festgelegt ist. Es ist nicht schwierig, zu sehen, daß Sι Inverse zu
Rιp ist.
7.3. Eingespannte Saite im Potentialfeld unter Krafteinwirkung
261
Um die Kompaktheit von Rιq zu erkennen, setzen wir y = Rιq u und finden
Z 1
Z 1
0 0
py v dx =
quv dx
0
0
für alle y, v ∈ H01 (I). Beschränkt man sich zunächst auf y, v ∈ D, also Testfunktionen, so
kann die Gleichung distributionell gelesen werden:
−(py 0 )0 = qu
Zweimalige Integration ergibt zunächst
Z s
Z x
ds
q(t)u(t) dt + αx,
y(x) = −
0 p(s) 0
woraus Vertauschung der Integrationsreihenfolge die Darstellung
Z x
Z x
ds
+ αx
y(x) = −
q(t)u(t)dt
0
t p(s)
ergibt. Es ist α so zu wählen, daß y(1) = 0 gilt. Insgesamt bekommt man
Z 1
y(x) = Rιq (u)(x) =
G(x, t)u(t) dt
0
mit
(
G(x, t) =
q(t)(x
R1
ds
t p(s)
−
Rx
q(t)x
ds
)
t≤x
0 p(s)
x≤t
Rt 1p(s)
ds
Ähnlich, wie in Beispiel 213 zeigt man, daß sich durch diese Integraldarstellung Rιq als
kompakter Operator erweist.
7.3.3
Bemerkungen zur Lösbarkeit – Fredholmalternative
Die Hilbertraumformulierung ist äquivalent zu
(I − K)u = (Rιp )−1 Rf
mit K = ω 2 (Rιp )−1 Rq kompakt. Der Kern von I − K kann nur endlich-dimensional
sein. Wie hängt die Bestimmung des Kerns mit Eigenwertproblemen zusammen?
Antwortfindung: Es ist K = ω 2 (Rιp )−1 Rq die Zusammensetzung eines kompakten mit einem stetigen Operator, also kompakt. Wegen Anmerkung 212 ist sein Kern endlich-dimensional.
Die distributionelle Formulierung zeigt, wie der Kern bestimmt wird:
−(pu0 )0 − ω 2 qu = 0, u(0) = u(1) = 0.
M.a.W., man löst ein spezielles Sturm-Liouville Eigenwertproblem.
Welche Aussage läßt sich über die Lösbarkeit des Problems machen?
262
Saite - etwas mathematische Physik
Antwortfindung: Ist zunächst ω 2 klein, so verrät uns der Fixpunktsatz von Banach (vgl.
Beispiel 160), bzw. eine geometrische Reihe, nämlich
−1
(I − K)
=
∞
X
Kj,
j=0
konvergent für kKk < 1, daß I − K invertierbar ist. Somit ist in solch einem Fall die Lösung
sogar eindeutig.
Ansonst kann die Gleichung (I −K)u = Rf wohl nur dann lösbar sein, wenn Rf im Bild des
Operators auf der linken Seite ist. Das ist genau dann der Fall, wenn Rf von allen Elementen
des Kerns des dualen Operators annulliert wird, also, wenn
(I − K)0 (u0 ) = 0
stets u0 (Rf ) = 0 nach sich zieht. Es ist (I − K)0 ebenfalls kompakter Operator (vgl. Anmerkung 212), hat also ebenfalls endlich dimensionalen Eigenraum. Deshalb findet man ein
endliches System von Funktionalen u0 , welche die Lösbarkeit entscheiden. Gibt es eine Lösung,
dann auch unendlich viele, wenn der Eigenraum nicht trivial ist.
Anhang A
ANHÄNGE
A.1
Grundlagen
A.1.1
Modelltheorie
Es sei L eine gegebeme prädikatenlogische Sprache1 und A eine Teilmenge von L. Es seien
weiters M eine Menge, und es mögen jedem Konstantensymbol ein Element in M , jedem nstelligen Prädikatsymbol eine n-stellige Relation auf M n , jedem n-stelligen Funktionssymbol
eine Funktion von M n nach M zugeordnet sein. Nun kann jedem Term durch Zerlegung
in seine Bestandteile (Induktion nach der Struktur) eine Interpretation zugeordnet werden,
deren Wahrheitswert in der durch M bestimmten Struktur festgestellt werden kann. Sind nun
in der Interpretation alle Elemente von A W, so nennt man die Interpretation von L auf M
ein Modell und A ein in der Sprache L formuliertes Axiomensystem. Jede Formel in L, die in
jedem Modell W ist, heißt Folgerung aus dem Axiomensystem A.
Eine mathematische Theorie besteht in der Wahl einer Sprache L, der Wahl der Axiome
A, und den Folgerungen aus den Axiomen, welche die Theorie bilden.
Der wesentliche Sinn der axiomatischen Methode besteht darin, Folgerungen unabhängig
von speziellen Modellen zu ziehen. Hiezu wird als meist verwendete Technik der mathematische Beweis benützt.
A.1.2
Formale Logik
In der Praxis der Mathematiker wird ein Beweis zu einem solchen durch “Akzeptanz”. In
der formalen Logik strengt man eine Formalisierung des Beweisbegriffs an. Dadurch erreicht
man, niemals falsche Aussagen aus wahren Aussagen zu folgern.
Definition 229 Es sei L eine Sprache und A ein Axiomensystem (also Teilmenge von A).
Man verlangt:
1
Man kann solche Sprachen im Sinne einer Chomskygrammatik Definition 43 formal erklären, das soll hier
nicht geschehen.
263
264
ANHÄNGE
Aussagenlogische Tautologien: Für Formeln F, G, H der Sprache L sind die Formeln
F ⇒ (G ⇒ F )
(F ⇒ (G ⇒ H)) ⇒ ((F ⇒ G) ⇒ (F ⇒ H))
F ⇒ (¬F ⇒ G)
(F ⇒ G) ⇒ ((¬F ⇒ G) ⇒ G)
Tautologien, d.h. für jede Wahl der Wahrheitswerte von F , G, H stets W.
Quantorenlogische Axiome: Falls x im Term t nicht vorkommt, gilt (∀x)F (x) ⇒ F (t),
und falls x in F nicht vorkommt, hat man (∀x)(F ⇒ G) ⇒ (F ⇒ (∀x)G).
Gleichheitsaxiome: ((x = x) ∧ (x = y)) ⇒ ((x = z) ⇒ (y = z)).
Für ein n-stelliges Prädikat R, bzw. Funktion f hat man
(x1 = y1 ) ∧ · · · ∧ (xn = yn ) ⇒ (R(x1 , . . . , xn ) ⇒ R(y1 , . . . , yn ))
und
(x1 = y1 ) ∧ · · · (xn = yn ) ⇒ (f (x1 , . . . , xn ) = f (y1 , . . . , yn )).
Ableitungsregeln: Sind F und G Formeln, so kann man aus F und F ⇒ G auch die
Formel G ableiten (Modus Ponens).
Ist F eine Formel, und x eine Variable, die bezüglich F nicht gebunden ist, so kann
man aus F die Formel (∀x)F herleiten (Modus universalis).
Ableitbare Formeln: Man sagt, eine Formel F in L ist aus dem Axiomensystem A (formal) ableitbar, falls F ∈ A, F ein logisches Axiom, bzw. falls es aus A herleitbare
Formeln F1 , . . . , Fn gibt, und F aus den Fi mittels Ableitungsregeln entstanden ist.
Die wohl bekannteste Grenze wird der formalen Logik durch die Unvollständigkeitssätze
von K.Gödel gesetzt:
1. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die
Arithmetik der natürlichen Zahlen enthält, so gibt es in der gewählten Sprache eine
Aussage A, für die weder A noch ¬A formal ableitbar ist.
2. Unvollständigkeitssatz: Ist A ein rekursiv angebbares Axiomensystem, welches die
Arithmetik der natürlichen Zahlen enthält, so kann im Rahmen der aus A herleitbaren
Theorie ihre Widerspruchsfreiheit nicht gezeigt werden, (d.h. man kann nicht zeigen,
ob mit einer Aussage A nicht auch ¬A ableitbar ist).
Eine anderes Problem beschreibt der Satz von Löwenheim-Skolem, demzufolge jede mathematische Theorie mit einem unendlichen Modell stets Modelle verschiedener Mächtigkeit besitzt,
so z.B. auch das Axiomensystem der Arithmetik.
A.1. Grundlagen
A.1.3
265
Axiomatische Mengentheorie
Die Idee der Menge als “Zusammenfassung wohlunterschiedener Objekte” (Georg Cantor
ca. 1870) ist vermutlich recht alt, sie kommt in der Formulierung der euklidischen Axiome
vor, bei der die Ebene aus den “unteilbaren Atomen im Sinne Demokrits”, den Punkten
besteht. Es wurde Ende des 19. Jahrhundert erkannt, daß man nicht jede Zusammenfassung
wohlunterschiedener Objekte als Menge bezeichnen sollte. Etwa 1901 hat nämlich B.Russel
die folgende Antinomie formuliert:
Anmerkung 230 (Russel’sche Antinomie) Es sei X die Menge aller jener Mengen,
die sich selbst nicht enthalten, also X = {x | x 6∈ x}. Ist dann X ∈ X, so folgt X 6∈ X,
weil ja X gerade durch diese Eigenschaft definiert ist. Wenn aber X 6∈ X, so gehört X
zu X, weil ja X gerade alle solchen Mengen enthält2 .
Somit beschreibt X = {x | x 6∈ x} eine “Menge” mit nicht wohlunterschiedenen Elementen.
Um diese Problematik zu umgehen, stützt man sich auf das Zermelo Fraenkelsche Axiomensystem, kurz ZFC, wobei C für das noch zu nennende Auswahlaxiom3 steht:
Definition 231 (Zermelo-Fraenkel Axiome)
Extensionalität: Zwei Mengen M und N sind gleich, wenn sie dieselben Elemente enthalten.
D.h. für 2 beliebige Mengen M und N gilt:
(∀x)
((x ∈ M ⇔ x ∈ N ) ⇒ M = N ))
Teilmengenaxiom: Ist A(x) eine Formel mit ungebundener Variabler x, so existiert zu
jeder beliebigen Menge M eine Teilmenge N von M , deren Elemente x durch die Eigenschaft
(∀x) ((x ∈ N ) ⇔ ((x ∈ M ) ∧ A(x))
bestimmt sind. Üblicherweise schreibt man N = {x ∈ M | A(x)}.
Vereinigung: Enthält eine Menge M selbst Mengen, so bilden alle Elemente dieser Mengen
zusammen selbst eine Menge, die Vereingigungsmenge dieser Mengen:
(∃V )(∀x) ((x ∈ V ) ⇔ (∃C)(x ∈ C ∧ C ∈ M )
Als gängige Notation findet man
[
V =
C = {x | (∃C ∈ M ) ∧ (x ∈ C)}
C∈M
2
Die folgende humorvolle Einkleidung des Sachverhalts ist bekannt: Ein Kompaniekommandant gibt dem
Barbier den Auftrag, alle jene zu rasieren, die sich nicht selbst rasieren. Demensprechend macht der Barbier
eine Liste der Selbstrasierer, um den Arbeitsaufwand zu schätzen. Dabei ist es für ihn nicht klar, ob er sich
auf die Liste schreibt oder nicht.
3
C steht für die gebräuchliche Bezeichnung “Continuumhypothese.”
266
ANHÄNGE
Potenzmenge: Alle Teilmengen T einer Menge M bilden eine Menge, die Potenzmenge:
(∃P )(∀T ) ((T ∈ P ) ⇔ (∀C)(C ∈ T ⇒ C ∈ M
Es ist üblich, diese Menge mit P(M ) := {T | T ⊆ M } zu bezeichnen.
Ersetzungsaxiom: Es sei A(x, y) eine funktionale Aussenformel, d.h.
(∀x)(∀y)(∀y 0 ) (A(x, y) ∧ A(x, y 0 ) ⇒ y = y 0 ),
dann bilden für jede Menge M die y, die für ein x ∈ M die Aussage A(x, y) erfüllen, eine
Menge, d.h.
(∃N )(∀y) ((y ∈ N ) ⇔ ((∃x)(x ∈ M ) ∧ A(x, y)))
Es ist üblich, dafür
N := {y | (∃x ∈ X)A(x, y)}
zu schreiben, und sie als Bildmenge bezüglich der funktionalen Aussagenformel zu bezeichnen.
Unendlichkeitsaxiom: Es gibt eine Menge, welche die leere Menge enthält, und mit jedem
Element x auch das Element x ∪ {x}.
(∃M ) ((∃y ∈ x)(∀z) (z 6= y) ∧ (∀y ∈ x)(∀w)(w ∈ z) ⇔ (w ∈ y) ∨ (w = y))
Dies berechtigt zur rekursive Definition der natürlichen Zahlen N, nämlich durch
0 := ∅, 1 := {∅}, 2 := {∅, {∅}}, etc.
allgemeiner nachfolger(n) := n ∪ {n}.
Auswahlaxiom: Zu jeder Menge M von disjunkten Mengen gibt es eine Menge, die jedes
Element von M in genau einem Element schneidet:
(
(∀S)((S ∈ M) ⇒ (∃s ∈ S))
)
∧
(
(∀S)(∀S 0 )
(
(S ∈ M) ∧ (S 0 ∈ M)
∧
( (∃s) (s ∈ S) ∧ (s ∈ S 0 ) )
=⇒ (S = S 0 )
)
)
Beispiel 232 Es soll an Beispielen gezeigt werden, wie diese Axiome verwendet werden, um
A.1. Grundlagen
267
Mengenkonstruktionen zu rechtfertigen.
1. Warum ist der Durchschnitt von zwei Mengen M und N eine Menge?
Antwort: Es sei A(x) der durch (x ∈ M ) ∧ (x ∈ N ) definierte aussagenlogische Term.
Er enthält die ungebundene Variable x, sodaß wegen des Teilmengenaxioms alle x mit
x ∈ M und A(x) eine Menge, eben den Durchschnitt M ∩ N , bilden.
2. Es seien M und N Mengen. Warum ist {M, N } eine Menge?
Antwort: Man braucht das Ersetzungsaxiom. Demnach betrachten wir die Formel A(x, y)
gegeben durch
((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )).
Wir zeigen, daß A(x, y) funktional ist: Angenommen fü alle x gelte A(x, y) ∧ A(x, y 0 ).
Dann heißt das, daß sowohl ((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N )), wie auch
((x = ∅) ∧ (y 0 = M )) ∨ ((x = {∅}) ∧ (y 0 = N )) gelten. Ist dann x = ∅, so ist y = M = y 0 ,
und ähnlich schließt man für x = {∅} auf y = y 0 .
Nun betrachten wir alle Elemente y, die (∃x)A(x, y) erfüllen, also
(∃x)((x = ∅) ∧ (y = M )) ∨ ((x = {∅}) ∧ (y = N ))
erfüllen, als solche y kommen aber geradewegs nur M und N in Frage, also bilden sie
eine Menge – in üblicher Notation – {M, N }.
A.1.4
Kardinalität endlicher Mengen
Unter Kardinalität einer endlichen Menge versteht man die Anzahl iherer Elemente. In diesem Abschnitt, auch als Vorbereitung auf die Wahrscheinlichkeitstheorie sollen für endliche
Mengen Fragen wie “Wieviele Elemente hat die Menge” gestellt werden, falls wir wissen, wie
sie aus einfacheren Mengen, deren Elementanzahlen wir kennen, aufgebaut ist. Die Beantwortung solcher Fragen fällt in den Bereich der abzählenden Kombinatorik. Es soll |A| die
Anzahl der in A enthaltenen Elemente bedeuten, wenn A endliche Menge ist.
Anmerkung 233 (Abzählende Kombinatorik) Es sei Ω eine endliche Menge mit
n = |Ω| Elementen.
Partition : Ist {Ωi | i ∈ I} eine Partition von Ω (siehe Definition 12), so hat man
X
|Ω| =
|Ωi |.
i∈I
Als Spezialfall ergibt sich für zwei disjunkte endliche Mengen A und B die Formel
|A ∪ B| = |A| + |B|.
Z.B.: Enthält eine Urne 3 schwarze, 2 rote, 4 blaue und 5 gelbe Kugeln, so hat I 4
Elemente und Ω 14 Elemente.
268
ANHÄNGE
Kartesisches Produkt: Ist Ω =
Q
i∈I
Ωi und I endlich, so hat man
|Ω| =
Y
|Ωi |.
i∈I
Als Spezialfall ergibt sich für zwei endliche Mengen A und B die Formel |A × B| =
|A||B|.
Z.B.: Wenn das Mittagsmenü 3 Vorspeisen, 2 Hauptspeisen, 4 Nachspeisen und 5
Getränkearten anbietet, und in jedem Gang gewählt werden darf, so hat I 4 Elemente und Ω hat 3×2×4×5 Elemente und stellt die Anzahl an zusammenstellbaren
Menüs dar.
Funktionen von I nach Ω: Ist I eine endliche Menge, so gibt es |Ω||I| Funktionen
f : I → Ω.
Z.B.: Es sei Ω eine Menge von Farben, mit denen man Kugeln in I markieren will.
Dann läuft das Markieren darauf hinaus, jeder Kugel i ∈ I ihren Farbwert ω ∈ Ω
zuzuordnen. Somit entsteht eine Funktion von I nach Ω.
Variation von n Elementen zur Klasse k ohne Wiederholung: ist eine injektive
Abbildung von einer k-elementigen Menge I in eine n-elementige Ω.
Für die Anzahl solcher V. findet man Vnk = n(n − 1) . . . (n − k + 1) = n!
k! , weil man
sich für I := {1, . . . , k} nehmen darf und danach für f (1) n, für f (2) n − 1, etc.
Möglichkeiten hat.
Z.B. Man will aus n Personen eine gereihte Liste von k Leuten zusammenstellen.
Anderes Beispiel: Zugfolge bei Kugel-nach-Kugel Entnehmen von k Kugeln aus der
Urne Ω mit n Kugeln.
Permutation von n Elementen ist eine andere Bezeichnung für bijektive Funktion
f : Ω → Ω. Die Anzahl der P. ist n! := n · (n − 1) . . . 2 · 1 = Vnn .
Z.B. Eine Permutation kann als Reihung (d.i. lineare Ordnung4 für n Personen
angesehen werden. Anderes Beispiel: Zugfolge beim sukkzessiven Entnehmen jeweils
einer Kugel aus einer n Kugeln enthaltenden Urne Ω, bis sie leer ist.
Kombination von n Elementen zur Klasse k ohne Wiederholung ist die Auswahl einer k-elementigen Teilmenge einer n-elementigen Menge.
Z.B. Herausgreifen von k Kugeln aus einer Urne mit n Kugeln ohne Beachten der
Reihenfolge. Um die Anzahl solcher Auswahlen festzustellen, denkt man sich in
geordnete Listen von k Elementen herausgegriffen. Da es auf die Reihenfolge in der
Liste nicht ankommt, hat man somit
n(n − 1) . . . (n − k + 1)
n!
n
k
.
Cn =
=
=:
k!
k!(n − k)!
k
A.1. Grundlagen
269
Kombination von n Elementen zur Klasse k mit Wiederholung: ist eine monotone Funktion f : Ω → {1, . . . , k}. Jede solche Abbildung kann als Folge 1 ≤ f (1) ≤
f (2) ≤ · · · ≤ f (n) ≤ k interpretiert werden.
Die Anzahl solcher Abbildungen ist n+k−1
. Man sieht das wie folgt ein: Zunächst
k
zeichnet man den Funktionsgraphen einer monotonen Funktion, hier für k = 3 und
n = 5 für die Folge (1, 2, 2, 3, 3):
• •
3
2
• •
1 •
1 2 3 4 5
Solch eine Funktion kann durch eine Liste der Argumente und entsprechend ↑ “kodiert” werden, nämlich, so viele Pfeile, als Einheiten hoch gegangen wird. Dann
wählt man aus der n + k − 1-elementigen Menge, die aus Ω zusammen mit den k − 1
↑s gebildet wird, eine k-elementige Menge aus, und kann damit eindeutig die Folge
kodieren. Bei uns wäre das 1 ↑ 23 ↑ 45. Die Anzahl solcher Auswahlen ist somit
Vnkw = n+k−1
.
k
Beispiel 234 Etwas Geschick im Umgang mit kombinatorischem Abzählen benötigt man
z.B. in der Wahrscheinlichkeitstheorie. Hier einige Beispiele.
1. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung
von 1., 2., und 3.tem Preis gezogen. Wieviele Möglichkeiten gibt es?
Antwort: Offenbar ist jede Zugfolge eine injektive Abbildung von {1, 2, 3} nach {1, . . . , 100}.
Somit ergibt sich 100 × 99 × 98 als Anzahl der Möglichkeiten.
2. In einer Urne sind Lose mit den Nummern 1 – 100 und es werden 3 Lose zur Ermittlung
eines Dreierteams gezogen. Wieviele Möglichkeiten gibt es?
Antwort: Offenbar soll eine
Menge aus einer 100-elementigen gewählt wer 3-elementige
100×99×98
=
100
× 33 × 49.
den. Die Anzahl ist 100
=
3
1×2×3
3. Auf wieviele Arten kann man 100 Teilnehmer in drei disjunkte Gruppen zu mindestens
33 Teilnehmern zusammenfassen?
Antwort: Jede solche Auswahl besteht aus der Angabe einer 34-elementigen Menge und
einer 33-elementigen Teilmenge der danach verbleibenden Menge. Der “Rest” ist in der
3.ten Gruppe. Sei Ω := {1, . . . , 100}. Die abzuzählende Menge A an Gruppeneinteilungen besteht aus Paaren (X, Y ) bei denen |X| = 34, |Y | = 33 und X ∩ Y = ∅ gilt, etwas
15
4
Definition 12
Definition 26
270
ANHÄNGE
(über)formal:
A = {(X, Y ) ∈ P(Ω) × P(Ω) | X ∩ Y = ∅ ∧ |X| = 34 ∧ |Y | = 33}.
66
Für X hat man 100
34 Teilmengen und danach für Y noch 33 , also ergibt sich
100
66
×
.
|A| =
34
33
4. Es sei {0, 1, 2}∗ das freie Monoid (Definition 38) über dem Alphabet A := {0, 1, 2}.
Wieviele Wörter der Länge mindestens 3 und höchstens 5 gibt es.
Antwort: Es handelt sich um die Wörter der Form abc, abcd und abcde mit a, b, c, d, e ∈
{0, 1, 2}. Aufgrund der Definition sind es Elemente in A3 , A4 und A5 . Somit ergibt sich
für die gefragte Anzahl:
33 + 34 + 35 = 33 (1 + 3 + 9) = 27.13 = 351.
A.1.5
Kardinalität und unendliche Mengen
Das folgende Beispiel stammt von Bolzano, auch wenn es unter dem Namen “Hilberts Hotel”
bekannt ist:
Beispiel 235 (Hilberts Hotel) Ein Hotel mit den Zimmernummern 1, 2, . . . ist völlig ausgebucht. Nun kommt eine unendliche Folge {Gi }∞
i=1 von Gästen am Abend an.
Unterbringung? Die Bewohner der Zimmer multiplizieren ihre Zimmernummer mit 2 und
übersiedeln. Nun ist Platz für die Neuankömmlinge.
Definition 236 (unendlich, abzählbar, und abzählbar unendlich) Eine Menge X heißt
unendlich, falls es eine injektive Abbildung von N nach X gibt. Sie heißt abzählbar, falls es eine
Surjektion von N nach X gibt. Ist sie unendlich und abzählbar, so nennt man sie abzählbar
unendlich. Ist sie abzählbar und nicht unendlich, so heißt sie endlich.
Satz 237 Jede Teilmenge einer abzählbaren Menge ist abzählbar. Ist die Teilmenge außerdem
unendlich, so gibt es eine Bijektion auf die natürlichen Zahlen. Jede unendliche Menge besitzt
eine unendliche Teilmenge mit unendlichem Komplement.
BW: Zunächst zeigen wir, daß jede Teilmenge A von N abzählbar ist. Es muß die Existenz
einer Surjektion f : N → A nachgewiesen werden. Hiezu benützen wir, daß jede nicht leere
Menge natürlicher Zahlen ein Minimum besitzt und drücken dies durch “aus P5”5 . Ist A = ∅,
so ist A abzählbar und es ist nichts zu zeigen. Ansonst definieren wir mittels P5 f (1) :=
min A und setzen A1 ; = A \ {f (1)}. Angenommen, Werte f (1), . . . , f (n) sind definiert und
An = A \ {f (1), . . . , f (n)}. Ist An = ∅, so definieren wir f (k) := f (1) für alle k > n und
sind fertig. Ist hingegen An 6= ∅, so setzt man f (n + 1) := min An . Wir vermerken, daß aus
5
P wie Peanoaxiom 5
A.1. Grundlagen
271
a ∈ f (N), a0 ∈ A und a0 < a stets a0 ∈ f (N) folgt. Ist A endlich, so bricht der Algorithmus
ab, und f ist surjektiv. Ist A unendlich, und wäre f nicht surjektiv, so sei b := min(A\f (N)).
Laut Konstruktion ist f (b) ≥ b und da jedes a ∈ A mit a < f (b) konstruktionsgemäß zu f (N)
gehört, hätte man b ∈ f (N), ein Widerspruch. Laut Konstruktion ist f bijektiv, im Falle daß
A unendlich ist.
Ist A Teilmenge einer beliebigen abzählbaren Menge M , so gibt es eine Surjektion f : N →
M . Dann ist f −1 (A) eine Teilmenge von N, also abzählbar. Somit gibt es eine Surjektion
g : N → f −1 (A). Schließlich ist f g : N → A surjektiv, also A abzählbar. Ist A unendlich,
so auch f −1 (A). Nun sei xa := min f −1 (a) und B := {xa | a ∈ A}. Offenkundig ist die
Einschränkung von f auf B eine Bijektion von B nach A. Nun nimmt man als g : N → B
die Bijektion wie im Falle, wo A ⊆ N war. Danach erweist sich f g als bijektiv.
Die letzte Behauptung des Satzes sieht man für N ein, man nehme z.B. die geraden Zahlen
G, dann bleiben die unendlich vielen ungeraden Zahlen U = N \ G “übrig”. Es sei A eine
beliebige unendliche Menge. Dann gibt es eine Injektion f : N → A. Nun sei N = G ∪ U
die Zerlegung von N in zwei disjunkte unendliche Teilmengen. Dann ist f (G) ∪ (A \ f (G))
Zerlegung von A in disjunkte unendliche Teilmengen.
···
1>
4
5
6
2 TTTT 3
Die Schritte n = 1 und n =
2 in der Induktionskonstruktion, wobei A = {2, 5, . . .} ist.
1
>>
>>
>>
2
TTTT
TTTT
TTTT
TTTT
T)
3
4
5
6
···
Beispiel 238
1. Z ist abzählbar unendlich. Unendlich, weil f : N → Z, definiert durch
f (n) := n injektiv ist, und abzählbar, weil
n
: n ≡ 0 (mod 2)
2
f (n) :=
− n+1
: n ≡ 1 (mod 2)
2
ein Beispiel für eine Surjektion von N auf Z ist.
2. Ist M eine abzählbare Menge abzählbarer Mengen, so ist
S
M ∈M M
abzählbar.
BW: Ist M leer, so ist die Vereinigung leer, und es ist nichts zu zeigen. Weiters darf
angenommen werden, daß kein M leer ist (kein Beitrag!).
Da M abzählbar ist, gibt es wegen Satz 237 eine Surjektion f : N → M. Induktiv
definieren wir Teilmengen An , Bn von N mit An ∩Bn = ∅, sowie An , Bn beide unendlich,
sowie eine Bijektion fn : An → f (n) wie folgt. Für n := 0 wählen wir gemäß Satz 237
eine Zerlegung z.B. A0 := G, B0 := U . Nun gibt es eine Bijektion h0 : A0 → N und da
f (0) abzählbar ist, gibt es eine Surjektion k0 : N → f (0), sodaß f0 := k0 h0 : A0 → f (0)
eine Surjektion ist.
Nun kommt die Induktionsannahme: Es sei eine Surjektion fn : An → f (n) bereits konstruiert und An+1 ⊆ Bn . Ist g({0, . . . , n}) =
S M, so hat man alle Mengen ausgeschöpft.
Man definiert eine Abbildung h : N → M ∈M M , indem man für ein k ∈ Al mit
l ≤ n den Wert mit h(k) := fl (k) setzt. Alle anderen natürlichen Zahlen
S werden auf
ein beliebiges Element in z.B. f (1) abgebildet. Danach ist h : N → M ∈M M eine
Surjektion.
272
ANHÄNGE
Andernfalls ist M noch nicht ausgeschöpft. Dann zerlegt man Bn := An+1 ∪ Bn+1
in disjunkte Teilmengen unter Rekurs auf Satz 237. Danach konstruiert man fn+1 :
An+1 → f (n + 1) analog, wie man es für f0 getan hat. Nun
S bricht das Verfahren zwar
nicht ab, ergibt jedoch insgesamt eine Surjektion h : N → M ∈M M .
Zur Definition der Kardinalität unendlicher Mengen benützt man einen Satz von Schröder
und Bernstein, der besagt, daß für 2 Mengen A und B die Existenz von Injektionen von
f : A → B und g : B → A die Existenz einer Bijektion h : A → B nach sich zieht. Danach
haben 2 Mengen gleiche Kardinalität, falls es eine Bijektion gibt.
A.1.6
Relationsschemata
Im Zusammenhang mit dem kartesischen Produkt (Definition 32) steht der Begriff des Relationsschemas, wie er als Datenbankkonzept gebräuchlich ist. Hier soll er lediglich als Beispiel
dienen.
Beispiel 239 Ein Relationsschema besteht aus
1. Einer Menge A, genannt (Menge der) Attributbezeichnungen.
2. Einer Menge von Mengen D, genannt Datentypen oder Wertebereiche.
3. Einer Funktion S : A → D, die jedem Datentyp D ∈ D Attribute zukommen läßt (jene
in S −1 (D)). Sie wird meist Schema genannt.
4. Eine Menge T von Funktionen t, die jedem a ∈ A ein Element t(a) ∈ S(a) zuordnet.
Sie heißt Tupel.
Als Beispiel dafür, wie konkret diese hochwissenschaftliche Vorstellung gesehen werden kann,
betrachten wir als Beispiel ein (rudimentäres) Addressverzeichnis:
Nachname
Rot
Blau
Grün
Vorname
Anton
Emma
Hans
Tel.Nr
123456
654321
123654
PLZ
1100
4200
1001
Ort
Wien
Linz
Wien
1. Die Menge der Attributbezeichnungen besteht aus der Kopfzeile: A = {Nachname,
Vorname, Tel.Nr., PZL, Ort}.
2. Als D eignet sich z.B.
D={
Strings d Länge ≤ 30 in ASCII,
Strings d Länge ≤ 15 in ASCII,
Zahlen < 107 ,
Zahlen der Länge 4,
Strings d Länge ≤ 50},
wobei jede dieser 5 Zeichenketten zugleich auch Mengen sind (deren beschreibende
Eigenschaft an der jeweiligen Zeichenkette abgelesen werden kann).
A.2. Algebra
273
3. S ordnet der Reihe nach den Elementen der Kopfzeile die (in unserem Fall) schon
in geordneter Reihenfolge angeschriebenen Datentypen zu, die zugleich auch Teilmengen von entweder {A-Z, a-z}∗ , oder von {0, . . . , 9}∗ sind. Es ist z.B. S(PLZ) = Zahlen der Länge 4 = {0000, 0001, 0002, . . . , 9999}.
4. Schließlich hat T drei Tupel, welche die drei “Datensätze” beschreiben, und das sind
die drei Nichtkopfzeilen der Tabelle.
A.2
Algebra
A.2.1
Reguläre Grammatik und Automat
Soll hier nur anhand von Beispielen vorgeführt werden.
Beispiel 240
1. Reguläre Ausdrücke: Ist A∗ das freie Monoid6 über dem Alphabet
A, so werden für Teilmengen U, V von A∗ die Operationen U ∪ V (geschrieben als U |V ),
U V := {uv | u ∈ U ∧ v ∈ V } und U ∗ , das von den Wörtern in U erzeugte Monoid (d.i.
beliebige Wiederholung und Aneinanderreihung von Wörtern in U einschließlich ).
Nun wird rekursiv festgelegt, wie man eine Menge regulärer Teilmengen herstellt. Dazu
geht man zunächst von den einelementigen Mengen {a} mit a ∈ A, sowie {} und der
leeren Menge ∅ aus. Danach, wenn U und V reguläre Mengen sind, sollen auch U ∪ V ,
U ∗ und U V reguläre Mengen sein. Es erweist sich jede Sprache L, die sich als reguläre
Menge beschreiben läßt, als regulär im Sinn von Definition 43.
Reguläre Sprachen können mittels Automat, kontextfreie mittels Kellerautomat und Chomskysprachen mittels Turingmaschine beschrieben werden. Ein wenig darüber findet sich im
Anhang A.2.2.
Anmerkung 241 (Reguläre Sprache und Automat) Ist G = (N, T, P, S) eine reguläre Sprache, so konstruiert man einen Graphen, dessen Knoten die syntaktischen Variablen einschließlich S und sind und zieht eine Kante von X ∈ N nach Y ∈ N genau
dann, wenn X → aY eine Produktion ist. Der so entstandene Graph heißt Automat, seine
Knoten Zustände, die partielle Funktion (siehe Definition 29) (X, a) 7→ Y Überführungsfunktion7
Umgekehrt erlaubt jeder zusammenhängende Graph mit beschrifteten Kanten die Definition einer regulären Grammatik, indem die Knoten als N, die Beschriftungen der Kanten
als T und schließlich ein Knoten als Start S und einer als gewählt wird. Jedes Wort der
durch den Automaten definierten Sprache entsteht, indem man einen Pfad von S nach
betrachtet und die dabei entstehende Folge an Beschriftungen notiert. Der Automat
wird gerne auch als Akzeptor oder Parser bezeichnet, weil er nur durch “Buchstabe für
Buchstabe Abarbeiten” eines Wortes der regulären Sprache zum Endzustand kommt.
HIJK
ONML
X
6
Definition 38
a
ONML
/ HIJK
Y
X → aY
274
ANHÄNGE
Beispiel 242 Beispiele zu Automaten:
1. Man überzeuge sich, daß in Beispiel 44 3. ein Automat definiert wird. Wie lautet seine
Überführungsfunktion?
Antwort: Es ist üblich, diese Funktion für endliche Automaten in Form
einer Tabelle auszuweisen:
0
1
+
S
Z
Z
U
U
U
Z
Z
V
V
ende
Z
2. Ein Parkautomat, in den man nur 50c und 1 Euro Münzen einwerfen kann, stellt für 1
Euro ein Parkticket aus. Bei 1 Euro Einwurf (bzw. 2× 50c) kommt das Ticket (T) und
der Vorgang ist abgeschlossen. Wirft man 50c ein, fragt er nach mehr (M), und wenn
dann nochmals 1 Euro eingeworfen wird, gibt er die 1 Euro Münze zurück (R). Um 8
Uhr geht der Automat in Betrieb, intern werden die Vorgänge in Form von Folgen der
Art RM M RRRT M M aufgezeichnet, und um 18 Uhr schaltet der Automat ab. Welche
Sprache definiert der Automat? Welche Buchstabenfolgen sind möglich?
Antwort: Man wählt als N:={S, Bereit , Warten , ende }. Nun braucht man ein Eingabealphabet I := {c, E, }, wobei c für Cent- und E für Euromünze steht, und ein
Ausgabealphabet O := {T, M, R}. Die Produktionen sind S → Bereit , Bereit →
M
T
T
R
c Warten |E Bereit , Warten → c Bereit |E Warten . Je nachdem, in welchem
Zustand abgeschaltet wird, ergibt sich entweder Bereit → ende oder Warten →
ende als weitere Regel.
Die Produktionen ergeben genau solche Wörter, in denen T beliebig oft, und Teilwörter
der Form MR· · ·RM beliebig oft vorkommen, falls im Zustand Bereit abgeschaltet
wird. Andernfalls gibt es eine ungerade Anzahl Ms, wobei am Ende eventuell noch
einige Rs und dann zwischen dem letzten M und diesem R kein T vorkommt.
50c — M
1 Euro — R
1 Euro — T
#
Warten
Bereit
c
50c — T
A.2.2
7
Kellerautomat und Turingmaschine
In der Literatur meist δ
A.2. Algebra
275
Anmerkung 243 (Kellerautomat und kontextfreie Sprache) Ist G = (N, T, P, S)
eine kontextfreie Sprache, so läßt sich ein Graph, genannt Kellerautomat, induktiv wie
folgt konstruieren:
1. Man markiert einen Knoten, der durch das Paar (S, ) beschriftet ist.
2. Ist nun (X, Aw) bereits ein Knoten, wird ein Knoten (X, w) hinzugefügt, und eine
mit A beschriftete Kante.
Gibt es außerdem eine Regel A → au, so definiert (X, wu) einen weiteren Knoten,
der mit beschriftet wird.
Für jedes A wird ein Knoten (X, w) hinzugefügt, und eine mit A beschriftete Kante.
z0
S
/
z0
Xw
X
/
z0
uw
X→u
Umgekehrt, sei ein Alphabet A gegeben, eine Menge Q und ein beschrifteter Graph mit
den folgenden Eigenschaften:
1. Die Knoten sind mit Paaren (q, w) mit q ∈ Q und w ∈ A∗ beschriftet. Sie heißen
Konfigurationen.
2. Es gibt einen Startknoten (q, S) mit S ∈ A.
3. Es gibt mit Elementen aus (N ∪ T )+ beschriftete Kanten von der Form (q, aw) →X
(q 0 , uw)
Dann kann durch a → u für alle a ∈ N eine Produktion definiert werden, alle solchen a
werden zu syntaktischen Variablen erklärt und der Rest zu Terminalzeichen.
Anmerkung 244 (Turingmaschine und Chomskysprache) Es liege ein Alphabet
A, sowie Mengen K und {l, r, s} und ein beschrifteter Graph der folgenden Art vor.
1. Die Elemente in K sind von der Form u a v mit u, v ∈ A∗ und a ∈ A. Jedes
k ∈ K heißt Konfiguration. (Man interpretiert uav als auf ein Band geschriebene
Zeichenkette und a als Position des Kursors).
2. Es gibt eine Startposition t w.
3. Jede Kante ist von der Form u a cv →l uab c v, u a cv →r u a bcv oder u a cv →s
ua b cv, wobei a, b, c ∈ A sind. (Man interpretiert l,r,s als “nach links”, “nach
rechts” bzw. “Verbleiben” des Kursors. Entsprechend bedeutet etwa die erste Kantenform “zwischen ’a’ und ’v’ das Element ’b’∈ A einzufügen, und den Kursor rechts
vom Eingefügten zu positionieren”.)
276
ANHÄNGE
Jedem Pfad von einem Zustand zu einem anderen entspricht ein Wort, welches durch
sukkzessive Operationen (Einfügen, Cursorbewegung) entstanden ist. Wird ein Endzustand festgelegt, so wird die Menge der Wörter, die durch einen Pfad vom Anfang zum
Endzustand entstehen, als von der Maschine akzeptierte Sprache bezeichnet.
Ist umgekehrt G := (N, T, P, S) eine Chomsky-Grammatik, so läßt sich eine Turingmaschine wie folgt konstruieren.
1. Ein Knoten t wird definiert.
2. Ist XW → xw eine Produktion (man beachte W ∈ N + und w ∈ (N ∪ T )∗ ), so wird,
falls u X W v bereits ein markierter Knoten ist, ein weiterer Knoten u x W v und
Kante →x,r angefügt. Ist die linke Seite länger als die rechte, so geht man vor, als
man von u X Y W vor sich hätte und XW → t eine Produktion wäre: Ein Zustand
u Y W wird geschaffen und eine Kante u X Y W →t u Y W . Ist schließlich die
rechte Seite der Regel länger als die linke, hat man eine Situation der Form u t v
und man geht im weiteren vor, als ob x → xyw eine Produktion wäre: Man fügt
einen Knoten ux y v und eine Kante ux t v →x,n an.
Man kann zeigen, daß die Sprache dieses Automaten mit L(G) übereinstimmt.
A.2.3
Heterogene Algebren
Die Grundidee des im Titel genannten Begriffes liegt in der Beschreibung ganz allgemeiner
Kompositionen von Größen. Beim inneren Produkt werden Vektoren “multipliziert” und es
kommt eine Zahl heraus. Beim Ausdruck (~a × ~b) × ~c werden drei Vektoren des R3 “verknüpft” und das Ergebnis ist ein Vektor im R3 . In Programmen wiederum benützt man
Datentypen und danach Variable des entsprechenden Datentyps und Funktionstypen, die
als Namensträger von Funktionen dienen, welche unterschiedliche Datentypen miteinander
“verknüpfen” können. Z.B. in
proc potenz(x:real;n:nat):real;
var y:real;
m:nat;
beginproc y:=x;m:=1; while (m<n) do y:=y*x; end do; return y; endproc
erscheinen die Datentypen real , nat , und offenbar ist ‘potenz’ vom Funktionstyp real ×
nat → real . Im obigen Beispiel kann man ähnliches Verständnis formulieren: Man könnte
einen Datentyp 3real vec schaffen und die Funktion als vom Typ
3real vec × 3real vec × 3real vec −→ 3real vec
ansehen. Vielleicht will jemand noch andere Funktionen wie z.B. die 3×3-Determinante als
Funktion der Spaltenvektoren, die er dann vom Typ:
3real vec × 3real vec × 3real vec −→ real
A.2. Algebra
277
auffassen wird.
In diesem Sinne werden H.A. eher als Hilfsmittel zur formalen Spezifikation von Computersprachen angesehen, schaffen jedoch auch einheitliche Sicht vieler algebraischer Strukturen.
Definition 245 (Heterogene Algebra) Eine Signatur besteht aus einer Mengen S, den
Sorten oder (Daten)typen und einer Menge Ω von Operationsnamen. Zu jedem Operationsnamen ω ∈ Ω gibt es w = w1 . . . wn ∈ S ∗ und s ∈ S, den Operationstyp, und es heißt n
die Stelligkeit von (w, s). Ist w = , so nennt man ω einen Konstantennamen. Es ist üblich,
w → s zu schreiben.
Eine (heterogene) Algebra der Signatur (S, Ω) wird gebildet, indem man zu jedem s ∈ S
eine Menge As vorgibt, sowie für jeden Operationsnamen ω vom Operationstyp s1 · · · sn → s
eine Funktion fω : As1 × · · · × Asn → As , genannt n-stellige Operation mit Werten in As ,
falls n ≥ 1 ist, und Konstante in As falls w = . Es erweist sich als sinnvoll, A als disjunkte
Vereinigung aller As mit s ∈ S anzusehen.
Anmerkung 246 (Ableitungsbaum einer heterogenene Algebra) Die folgende
geometrische Sicht sollte von großem Nutzen sein: Jedes Funktionssymbol ω vom Operationstyp s1 . . . sn → s mag als Graph8 der folgenden Art gesehen werden:
s1
HIJK
ONML
ω, s R
GGRRR
nn{n{{
GG RRR
n
n
n
GG RRRR
{
nn {{
n
GG
RRR
n
{
n
n
G
{
RRR
{
nnn
...
s
s2
n−1
sn
Beispiel 247 Hier einige (sehr unterschiedliche) Beispiele.
1. Wie kann man Mengen M mit einer Funktion f : M × M → M im Sinne einer H.A.
auffassen?
Antwort: S = X, Ω := {F }, F hat den Operationstyp (XX, X) (der in der Literatur,
z.B. [7] häufig als X × X → X geschrieben wird). Nun ist M = A zusammen mit der
Funktion f eine (X, {F })-Algebra.
2. Wie kann man das die Vektoren betreffende Beispiel der Einleitung im Sinne einer H.A.
auffassen?
Antwort: S := { 3real vec , real }, Ω := {L, Det}, Operationstyp von L ist
3real vec × 3real vec → 3real vec ,
Operationstyp von Det ist
3real vec × 3real vec → real .
8
Beispiel 44 6. (Polnisch inverse Notation): Dort hat der Baum Operationstypen ‘+’ und ‘·’ der Stelligkeit
n = 2, cos der Stelligkeit n = 1, sowie reelle Variable als Datentypen.
278
ANHÄNGE
Nun ist R3 als Menge vom Typ 3real vec , noch genauer A 3real vec = R3 und L(~a, ~b, ~c) :=
(~a × ~b) × ~c die Operation mit Namen L vom angegebenen Operationstyp, und analoges
gilt für Det(~a, ~b, ~c).
Hier wäre A = R3 .
3. Wie kann die Prozedur der Einleitung (A.2.3) im Sinne einer H.A. aufgefaßt werden?
Antwort: Man wählt S := { Natvar, Realvar } und Ω := {pot, n, r}, wobei ‘pot’ vom
Operationstyp Realvar Natvar→Realvar, n Konstantensymbol vom Typ Natvar und r
Konstantensymbol vom Typ Realvar ist.
Danach ergibt ANat := N, AReal := R und pot(r, n) :=“Programmzeilen” Somit ist A
als disjunkte Vereinigung {0} × N ∪ {1} × R auffaßbar.
Definition 248 (Teilalgebra, Homomorphismus und Kongruenz in het. Alg.) Sind
A und B heterogene Algebren der Signatur (S, Ω), so heißt A Teilalgebra von B, falls As
Teilmenge von Bs für jedes s ∈ S ist und für alle Funktionssymbole ω vom Operationstyp
s1 . . . sn → s aus (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets ω(as1 , . . . , asn ) ∈ As folgt.
Ein Homomorphismus F : A → B besteht aus Abbildungen Fs : As → Bs , derart, daß für
jedes ω vom Operationstyp s1 . . . sn → s für alle (as1 , . . . , asn ) ∈ As1 × . . . × Asn stets
ω(F (as1 ), . . . , F (asn )) = Fs (ω(as1 , . . . , asn ))
gilt9 .
Eine Kongruenz auf A ist eine Äquivalenzrelation R auf A, derart, daß aus asi Ra0si stets
ω(as1 , . . . , asn ) R ω(a0s1 , . . . , a0sn ))
für jede Operation ω vom Typ s1 . . . sn → s. Die Notation a ≡ b statt aRb ist gebräuchlich.
Beispiel 249 Einfache Beispiele:
1. Es sei (S, Ω) durch S := {s} mit s := h integer mod pos nati und Ω := {+} mit dem
Typ ss → s gegeben. Nun definieren wir As := Z, die ganzen Zahlen und ω die übliche
Addition ganzer Zahlen. Dann ist Z = As eine (S, Ω)-Algebra. Nimmt man Bs := 2Z,
die Menge der geraden Zahlen, so ist B eine (S, Ω)-Teilalgebra von A.
Als nächstes sei B := Bs := {0, 1} mit + die “Binäraddition”, d.i. 0 + 0 = 1 + 1 =
0, 1 + 0 = 0 + 1 = 1. Wenn man jetzt F : A → B durch F (z) := 0 falls z gerade, und
F (z) := 1, falls es ungerade ist, festlegt, so ist F ein Homomorphismus.
Definiert man auf A = As eine Relation durch z ≡ z 0 falls z − z 0 gerade ist, so ist dies
eine Kongruenzrelation im obigen Sinne.
9
“Man kann F durch alle Operationssymbole durchziehen”
A.2. Algebra
279
2. In Definition 51 wird die Definition für einen Homomorphismus f : (G, M ) → (G0 , M 0 )
zweier Halbgruppenwirkungen gegeben. Wie kann diese Definition als eine im Sinne
heterogener Algebren verstanden werden?
Antwort: Zunächst muß man Halbgruppenwirkungen als heterogene Algebra mit Gleichungen fomrulieren: Die Signatur hat die Typen halb gruppe und menge, sowie Operationsbezeichnungen
· : halb gruppe halb gruppe → halb gruppe
und
w : halb gruppe menge → menge.
Sind X, Y, Z syntaktische Variable vom Typ halb gruppe und P eine syntaktische
Variable vom Typ menge, so gelten die Gesetze (XY )Z = X(Y Z), (XY )P = X(Y P )
(wobei wir die Funktionssymbole weggelassen haben, die Typisierung der syntaktischen
Variablen schließt Irrtümer aus). Nun sollen G, G0 vom Typ halb gruppe, M, M 0 vom
Typ menge sein und entspechende Operationen der beiden Typen vorliegen.
Der Homomorphismus f : (G, M ) → (G0 , M 0 ) wird nun aufgefaßt als Halbgruppenwirkung im Sinne von Definition 47.
Wir kommen jetzt zur Definition, was Terme sind.
Definition 250 (Termalgebra) Ist (S, Ω) eine Signatur, und X eine disjunkte Vereinigung
von Mengen Xs mit s ∈ S. Als Termalgebra bezeichnet man die Sprache mit folgender
Grammatik, bei der σ das Startsymbol ist:
• σ → xs für alle xs ∈ Xs ergibt Terme vom Typ s.
• xs → (ω(xs1 , . . . , xsn )), falls xsi ∈ Xsi und ω Operation vom Typ s1 . . . sn → s ist,
ergibt ebenfalls einen Term vom Typ s.
Anmerkung 251 (Ableitungbaum der Termalgebra) Die geometrische Beschreibung aus Anmerkung 246 benützend, lassen sich die Regeln der Grammatik bildlich so
beschreiben:
Graphen der linksstehenden Form werden
σ
gebildet.
ONML
HIJK
ω, s SS
Für jedes Funktionsm
mmm z
GG SSS
G
GG SSSSS
mmm zz
symbol gibt es Graphen
GG
SSS
xs
mmm zzzz
m
SSS
GG
m
z
mm
der Form, wie ganz
SSS
m
z
m
m
...
Xsn−1
X s1
X s2
Ssn
rechts abgebildet.
Nun “iteriert” man. Enthält ein Graph keine Variablen mehr, ist er ein Satz, andernfalls eine Satzform im Sinne von Definition 43. Der jeweils entstandene Graph heißt
Ableitungsbaum des entsprechenden Terms.
280
ANHÄNGE
Wir vermerken, daß der Ableitungsbaum in Beispiel 44 6. (Polnisch inverse Notation) ein Ableitungsbaum in genau diesem Sinne ist. Nun kann man im Sinne einer Grammatik (Definition
43) Rechengesetze formulieren, wie es im Abschnitt A.2.4 beschrieben wird.
A.2.4
Gesetze in heterogenen Algebren
Der Begriff des Terms erlaubt es jetzt, eine formaler Definition für Rechengesetze zu geben:
Definition 252 Ist A eine H.A. der Signatur (S, Ω), X eine Menge (syntaktischer) Variabler
und t1 , t2 Terme in den Variablen X vom Typ s sind, so sagt man, in A gilt die Identität
t1 (X) = t2 (X), wenn für alle typengerechten Belegungen der Variablen X → a mit Elementen
in A t1 (a) = t2 (a), also Gleichheit herrscht.
Weiters sagt man, die Gleichung t1 (X) = t2 (X) gilt in (S, Ω), falls für heterogene Algebra
A der Signatur (S, Ω) jedes typengerechte Ersetzen der Variablen in X durch Elemente in A
zum gleichen Ergebnis führt.
Beispiel 253
• Es sei (S, Ω) = ({s}, {f }). f sei vom Typ ss → s. Seien x, y, z (syntaktische) Variable und t1 (x, y, z) = f (x, f (y, z)), t2 (x, y, z) := f (f (x, y), z). Die Identität
t1 (x, y, z) = t2 (x, y, z)
besagt die Gültigkeit des Assoziativgesetzes. In der Sprache der Ableitungsbäume hat
man
x
f<
<
<<
<<
<<
>>
>>
>>
=
z
f>
>
x
y
f<
<
<<
<<
<<
f=
=
y
==
==
==
z
• Es sei (S, Ω) := {{s, s0 }, {f }} und f vom Typ ss → s0 . Wie kann die Identität
f (x, y) = f (y, x) formuliert werden? Wie läßt sich das als Gleichung von Ableitungsbäumen erkennen? Gibt es Beispiele von Strukturen dieser Art, auch für s 6= s0 ?
Antwort: Man braucht lediglich anzumerken, daß x, y syntaktische Variable vom Typ s
sein müssen.
x
f=
=
==
==
=
=
y
y
f=
=
==
==
==
x
0
Z.B. sei S := {s, s0 } mit s := hreeller koordinaten vektorraum der Dim=ni,
Pns := h reali
0
und Ω := {f } mit f vom Typ ss → s und definiert durch f (u, v) := i=1 ui vi . Das
übliche Kommutativgesetz ist eine Identität in dieser H.A., die Buchstaben u und v
spielen die Rolle syntaktischer Variabler.
A.2. Algebra
281
Anmerkung 254 Bei gegebener Signatur (S, Ω) und System von Gleichungen erfüllen
alle Algebren dieser Signatur diese Gleichungen (bei beliebigem Ersetzen der entsprechenden syntaktischen Variablen). Gibt man keine Gleichungen vor, so können im Sinne von
Definition 250 Terme “ineinander verschachtelt” werden, die dann eine H.A. der Signatur
(S, Ω) bilden, eine Termalgebra.
A.2.5
Erweiterter euklidischer Algorithmus im Euklidischen Ring und Partialbruchzerlegung im Quotientenkörper
Wenn R etwa Z oder k[x], ein Polynomring in einer Variablen mit Koeffizienten in einem
Körper k ist, so basiert die übliche Division mit Rest
dividend = quotient × divisor + rest
auf folgender Eigenschaft:
Definition 255 (Euklidischer Ring, Division mit Rest) Ein Integritätsbereich R mit 1Element heißt euklidisch, falls es eine Funktion θ : R \ {0} → N gibt, derart, daß θ(ab) ≥ θ(a)
für alle a, b mit ab 6= 0 gilt, und es zu jedem a ∈ R und 0 6= b ∈ R ein q und ein r in R
gefunden werden können mit
a = qb + r, r = 0 ∨ θ(r) < θ(b).
Es ist q der Quotient und r ein kleinster Rest.
Beispiel 256 Die beiden Eingangsbeispiele:
1. Ist R := Z, so sei θ(z) := |z| für z 6= 0. Es ist θ(ab) = |ab| = |a||b| ≥ |a| = θ(a).
Die übliche Division mit Rest erfüllt die nötigen Eigenschaften. Von Interesse: q und r
müssen nicht eindeutig bestimmt sein. So ist etwa für a := 7 und b := 5:
7 = 5 · 1 + 2 = 5 · 2 + (−3),
und die Paare (q, r) ∈ {(1, 2), (2, −3)} sind beide o.k. Deshalb auch “ein kleinster Rest”
und nicht “der kleinste Rest” in der obigen Formulierung.
Eine geometrische Deutung aus der Antike: Es gab keine negativen Zahlen und es wurde
die (im allgemeinen kleinere) Strecke b sooft “abgeschlagen”, bis ein Streckenrest r von
kleinerer Länge als a verblieb. Die Zahl q gibt dann an, wie oft man abgeschlagen hat.
In der antiken Auffassung war der kleinste Rest eindeutig bestimmt, weil nicht negativ.
2. Ist R := k[x], so wählt man d(p) den Grad des Polynoms p ∈ R, sofern p 6= 0 ist. Die
aus Mittelschulzeiten bekannte Polynomdivision mit Rest gehört hieher.
282
ANHÄNGE
Will man lediglich den Rest wissen, so empfiehlt sich ein TES wie in Anmerkung 41,
nämlich, wenn a = 7x4 − 3x2 + 4x − 1 und b = x2 − x + 1, so “adoptiert” man die Regel
x2 → x − 1 und findet:
a → 7(x − 1)2 − 3(x − 1) + 4x − 1 = 7x2 − 13x + 9 → 7(x − 1) − 13x + 9 = −6x + 2.
Was hat man davon?
Antwort: Angenommen,
man muß die Wurzel der quadratischen Gleichung, nämlich
√
1
x = 2 (1 + i 3), in a = 7x4 − 3x2 + 4x − 1 einsetzen. Dann ist es sicher einfacher, das
in r = −6x + 2 zu tun! Das Resultat ist dasselbe!
Anmerkung 257 Ist R ein euklidischer Ring, so können folgende Begriffe und Techniken
erklärt werden, wobei a|b geschrieben wird, wenn a Teiler von b ist.
Größter gemeinsamer Teiler von Zahlen, ggT: Sind a, b ∈ R, so heißt d ∈ R ein
größter gemeinsamer Teiler von a und b, im Zeichen d = ggT (a, b), wenn d ein Teiler
von a und b ist, und wenn jeder weitere Teiler von a und b ein Teiler von d ist.
Man sagt a und b sind teilerfremd, im Zeichen ggT (a, b) = 1 (meist (a, b) = 1
geschrieben), falls jeder gemeinsame Teiler von a und b eine Einheit in R, d.i. ein
Teiler des Einselementes von R, ist.
Induktiv definiert man ggT (a1 , . . . , an ) := ggT (a1 , ggT (a2 , . . . , an )).
Existenz und Berechnung des ggT: Sind Elemente a1 , . . . , an gegeben, so findet
man den ggT durch folgende Prozedur:
1. Wenn alle Elemente gleich Null sind, so ist der ggT gleich Null.
2. Streiche alle Elemente, die gleich Null sind. Ordne die ai nach wachsendem
θ(ai ).
3. Ersetze alle ai durch den Rest bei Division durch a1 und streiche alle Elemente,
die gleich Null sind.
4. Führe Schritt 2 und 3 solange aus, bis ein einzelnes Element verbleibt. Dieses
ist dann der ggT.
Beispiel: ggT(12,18,21,0)=ggT(12,18,21)=ggT(6,-3)=ggT(0,-3)=ggT(3)=3.
Trickreicher: ggT(12,18,21,0) = 3ggT(4,6,7,0) = 3ggT(4,2,3) = 3ggT(2,3,4)=3ggT (2,1) =
3ggT(1,2) = 3ggT(1) = 3, d.h. man “hebt einen gemeinsamen Teiler heraus”.
Erweiterter Kettenalgorithmus: gibt eine Methode an, um für a, b ∈ R \ {0} Elemente x, y ∈ R mit d := ggT (a, b) = ax + by und θ(x) < θ(b), sowie θ(y) < θ(a)
bzw. x = 0 oder y = 0 zu finden. Ist a = bd, so gilt offenbar d = a × 0 + b × 1, also
x = 0 und y = 1. Ist a = bq + r, und kann man den ggT von b und r in der Form
d = bξ + rη schreiben, so ergibt sich sofort d = bξ + (a − bq)η = aη + b(ξ − qη).
A.2. Algebra
283
Man erkennt auch recht schnell, daß die Forderungen an x und y erfüllbar sind,
wenn ξ und η (im Induktionsschritt) die entsprechenden Forderungen erfüllen. In
Matrizenform gewinnt man eine übersichtliche Form:
x
y
=
0 1
1 −q
ξ
η
.
Zunächst eine händische Methode10 , die hier lediglich an einem Beispiel demonstriert werde: Wir wollen den ggT von 127 und 24, d.i. 1 in der Form 1 = 127·x+24·y
schreiben und schreiben zunächst die Schritte der Division mit Rest fortlaufend an:
a =
b × q + r
127 = 24 × 5 + 7
24 =
7 × 3 + 3
7 =
3 × 2 + 1
2 =
1 × 2 + 0
Man notiert von der vorletzten Zeile an von unten nach oben lesend die Werte für
q als q = 2, q = 3 und q = 5 und schreibt von rechts nach links:
0 1
0 1
0
x
0 1
=
1 −3
1 −2
1
y
1 −5
x
7
, also
und elementare Matrizenrechnung ergibt
=
y
−37
d = 1 = ax + by = 127 × 7 + 24 × (−37).
Hier eine rekursive Form der Implementation in einem “Pseudocode” für Elemente
in R:
function ext euclid(a : R, b : R) : (R, R, R)
local: d, x, y, q : R
begin
if (b = 0) return (a, 1, 0)
else begin
(q, r) := a divrest b # a = b ∗ q + r, r = 0 oder θ(r) < θ(b)
if r = 0 return (b, 0, 1)
else begin
(d, x, y) :=ext euclid(a, b)
return (d, y, x − yq)
end
end
end
284
ANHÄNGE
z
Partialbruchzerlegung im Quotientenkörper : Ist f = ab
und sind a und b teilerfremd, so ergibt sich aus dem erweiterten Kettenalgorithmus eine Darstellung
1 = ax + by, sodaß
zx zy
z
=
+
ab
b
a
folgt.
Beispiel 258 Beispiele hiezu:
1. Kann man 1 in der Form 1 = (x2 + 1)2 p + (x − 1)3 q derart anschreiben, daß der Grad
von p kleiner als 3 und jener von q nicht größer als 5 ist, wobei die Koeffizienten der
Polynome in Q liegen? Wenn ja, wie lauten p und q?
Antwort: Die Frage wird über Polynome in Q(x) gestellt. Dieser Ring ist euklidisch,
wenn man als θ den Grad nimmt. Die Polynome a := (x2 + 1)2 und b := (x − 1)3 sind
relativ prim, d.h. es gibt kein Polynom d mit θ(d) ≥ 1 als gemeinsamen Teiler. Deshalb
ist 1 ein ggT und es sollten sich geforderte Polynome p und q finden lassen. Wir wenden
die obigen Prozedur an (Nebenrechnungen, etwa die langweilige Polynomdivision mit
Rest werden hier nicht vorgeführt) und finden:
a
(x2 + 1)2
(x − 1)3
(8x2 − 8x + 4)
( x8 − 14 )
=
=
=
=
=
b
× q
(x − 1)3
× (x + 3)
(x2 − 8x + 4) × ( x8 − 14 )
x
× 16(x − 1)
2
x
1
4
× 32
− 16
+
+
+
+
+
r
8x2 − 8x + 4
x
2
4
0
Nun notiert man für q der Reihe nach (x + 3),( x8 − 41 ) und 16(x − 1), bildet die entsprechenden Matrizen und multipliziert aus:
0
1
0
1
0
1
0
2x2 − 6x + 5
=
.
1 ( x8 − 14 )
1 (x + 3)
1 16(x − 1)
1
−2x3 − 3x + 1
Diese Polynome erfüllen 4 = a(2x2 − 6x + 5) + b(−2x3 − 3x + 1), sodaß die gesuchten
Polynome wie folgt lauten:
!
1
2 − 6x + 5)
(2x
p
4
=
.
1
3
q
4 (−2x − 3x + 1)
2. (Partialbruchzerlegung) Kann man den Bruch f :=
a
(x2 +1)2
10
+
b
(x−1)3
2x−1
(x2 +1)2 (x−1)3
in der Form f =
schreiben? Wenn ja, wie kann man a und b bestimmen?
Die Methode wird gelegentlich Bézout zugeschrieben.
A.2. Algebra
285
Antwort: In der Analysis lernt man die Methode der Partialbruchzerlegung, die genau
diese Aufgabe löst. Der Beweis für die Möglichkeit der Partialbruchzerlegung beruht
jedoch auf dem erweiterten euklidischen Algorithmus. In unserem Fall ist wegen 1.
f=
(2x − 1)p (2x − 1)q
(2x − 1)(p(x2 + 1)2 + q(x − 1)3 )
=
+ 2
.
2
2
3
(x + 1) (x − 1) )
(x − 1)3
(x + 1)2
3. (Partialbruchzerlegung von Quotienten von Laurentpolynomen) 11 Im Körper
der rationalen Funktionen C(z) bilden die Brüche der Gestalt zpk mit p ∈ C[z] und k ∈ Z
einen Teilring R, den Ring der Laurentpolynome, oft auch als C[z, z −1 ] bezeichnet. Wenn
0 6= p ∈ C[z] nicht durch z teilbar ist, so soll θ(p) der Grad von p als Polynom sein.
Es soll θ( zpk ) = θ(p) sein für alle k ∈ Z. Liegt ein euklidischer Ring vor? Wie kann
Partialbruchzerlegung für
2z −1 − 1
f :=
(1 + z −2 )2 (1 − z −1 )3
gewonnen werden?
Antwort: Sind p, q Polynome in C[z], so muß man θ( zpk zql ) ≥ θ( zpk ) überprüfen. Das darf
dem interessierten Leser überlassen sein. Um die Partialbruchzerlegung zu gewinnen, ist
es (nicht nur in diesem Beispiel) hilfreich, statt z −1 wieder x zu setzen und (in diesem
Beispiel) das Beispiel 2. heranzuziehen.
A.2.6
Eindeutige Faktorzerlegung
Die für den Hauptidealring Z gewohnte eindeutige Primfaktorzerlegung wird für beliebige
kommutative Ringe wie folgt formuliert:
Definition 259 (Faktorieller Ring) Ein kommutativer Ring R mit Einselement heißt faktoriell, falls jedes Element sich als Produkt von irreduziblen Elementen anschreiben läßt, und,
falls r 6= 0 zwei Zerlegungen
r = a1 . . . ak = b1 . . . bl
in irreduzible Elemente gestattet, es eine Einheit s des Ringes gibt, derart daß a1 s mit einem
der bj übereinstimmt.
Anmerkung 260 (Eindeutigkeit der Faktorzerlegung)
1. Die Anzahl irreduzibler Faktoren, die keine Einheiten sind, ist in jeder Zerlegung die
gleiche. Die Faktoren zweier Zerlegungen entsprechen einander bis auf Reihenfolge
und Multiplikation mit Einheiten. (z.B. 2 × 3 = (−3) × (−2)).
2. Jeder Hauptidealring ist faktoriell.
3. Jedes irreduzible Element (Definition 70) ist prim.
286
ANHÄNGE
Beweis zu 2.: Sei r ∈ R keine Einheit. Wir wollen zeigen, daß r in endlich viele irreduzible
Faktoren zerlegt werden kann. Angenommen, das geht nicht. Dann kann man, ausgehend von
r0 := r für alle j ≥ 1 induktiv Elemente fj , rj mit fj irreduzibel und keine Einheit sodaß
rj−1 = fj rj ist, definieren. Da hrj−1 i ⊆ hrj i ist, entsteht hiedurch eine aufsteigende Kette
hr0 i ⊆ hr1 i ⊆ hr2 i ⊆ · · ·
von Hauptidealen, deren Vereinigung, als Hauptideal, von der Form hai für ein Element a
ist. Dieses Element a liegt in der Vereingigung, also gibt es ein j0 mit a ∈ hrj0 i. Somit
ist hai = hrj0 i = hrj0 +1 i. Deshalb gibt es ein b ∈ R, sodaßsowohl rj0 +1 = brj0 als auch
(konstruktionsgemäß) rj0 = fj0 +1 rj0 +1 gilt. Hieraus entimmt man
rj0 +1 = bfj0 +1 rj0 +1 ,
also 1 = bfj0 +1 , sodaß insbesondere, entgegen der Annahme, fj0 +1 eine Einheit ist.
Die Eindeutigkeit folgt durch Induktion aus 3.
Beweis zu 3.: Es sei f irreduzibel und keine Einheit und ein Teiler von ab. Das Ideal ha, f i ist
ein Hauptideal, also gibt es p, q, d mit a = pd und f = qd. Da f irreduzibel ist, muß entweder
q oder d eine Einheit sein. Wäre q eine Einheit, so wäre a bis auf eine Einheit mit f identisch
und der Beweis fertig. Somit können wir annehmen, daß d Einheit ist. Dann ist ha, f i = R
und daher gibt es dann x, y mit ax + f y = 1. Multiplikation mit b zeigt abx + f by = b und
somit ist f ein Teiler von b.
Beispiel 261 Als Konsequenz des Vorangegangenen erweisen sich alle euklidischen Ringe,
insbesondere Z, k[x] und der Ring der Laurentpolynome als faktoriell.
Wir vermerken noch die folgende Beobachtung über mehrfache Faktoren.
Anmerkung 262 (Mehrfache Faktoren, Vielfachheit, Test durch Differenzieren im Polynomring) Ist R faktoriell und p = f k q eine Zerlegung von p ∈ R derart,
daß f irreduzibel und keine Einheit ist, und ggT(f,q)=1 ist, so nennt man k die Vielfacheit
des Faktors f . Ist insbesondere R = k[x], so gelten folgende Aussagen:
P
i
1. Ist c ∈ k und h
:
k[x]
→
k
die
Abbildung,
die
jedem
Polynom
f
:=
c
i fi x den
P
i
Wert hc (f ) := i fi c zuordnet (“Einsetzen von c statt der Polynomvariablen x”),
ein Ringhomomorphismus. Es ist hc (f ) = 0 g.d.w. f den Linearfaktor (x−c) besitzt.
P
P
2. Für jedes f = i fi xi kann eine formale Ableitung f 0 := i ifi+1 xi definiert werden. Sie ist linear und erfüllt die Produktregel.
3. f hat genau dann keine mehrfachen irreduziblen Faktoren, wenn ggT (f, f 0 ) = 1
gilt. (Insbesondere kann f keine mehrfachen Nullstellen haben).
4. Ist die Charakteristik des Körpers Null, so sind die Nullstellen von f genau jene
von ggTf(f,f 0 ) .
A.2. Algebra
287
Beweis:
1. Um die Ringhomomorphismuseigenschaft zu beweisen, muß man hc (f g) = hc (f )hc (g)
nachweisen:
X X
hc (f g) = hc ( (
fi gj )xm )
m
i+j=m
X X
=
(
fi gj )cm
m
i+j=m
X
X
= (
fi ci )(
gj cj )
i
j
= hc (f )hc (g).
P Pi
P
P
P
P
P
j ci−j ,
x
Ist i fi ci = 0, so ist i fi xi = i fi xi − i fi ci = i≥1 fi (xi −ci ) = (x−c) i≥1
j=0
also f durch x−c teilbar. Andrerseits, falls f = (x−c)g, so ist hc (f ) = hc (c−x)hc (g) = 0.
2. Die Linearität sieht man leicht ein. Deswegen genügt es, die Produktregel für f = xi ,
g := xj nachzuweisen:
(xi xj )0 = (xi+j )0 = (i + j)xi+j−1 = ixi−1 xj + xi jxj−1 = (xi )0 xj + xi (xj )0 .
3. Es sei p = f k g, dann ist p0 = kf k−1 g +f k g 0 = f k−1 ((k −1)g +f g 0 ), somit, falls k ≥ 2 ist,
f ein gemeinsamer Faktor von p und p0 . Ist umgekehrt f ein gemeinsamer irreduzibler
Faktor von p und p0 , so gilt p = f g und somit p0 = f 0 g + f g 0 , sodaß f ein Teiler von
f 0 bzw. g sein muß. Da f irreduzibel ist, und f 0 kleineren Grad hat, kann f kein Teiler
von f 0 sein. Somit ist f Teiler von g und hat zumindest Vielfacheit 2.
4. Folgt direkt aus dem vorigen.
Beispiel 263 Vorbereitung auf das Rechnen im endlichen Körper IF8 in Beispiel 84:
Wie lautet die Zerlegung in irreduzible Faktoren für das Polynom x8 − x aufgefaßt mit Koeffizienten in IF2 (dem Körper mit 2 Elementen)?
Antwortfindung: Sichtlich ist x ein Faktor. Danach steht da x7 − 1 = (x − 1)(x6 + x5 +
4
x + x3 + x2 + x + 1). Wir behaupten, daß es keine mehrfachen Faktoren geben kann. Dazu
benützen wir das Ausgangspolynom x8 − x, das differenziert 8x − 1 = 1 ergibt (Körper mit
2 Elementen!). Somit sind alle irreduziblen Faktoren einfach. Nun ist es gerechtfertigt, einen
Ansatz
x6 + x5 + x4 + x3 + x2 + x + 1 = pq
mit p vom Grad 2 oder 3 zu machen. Ein wenig vorauswissend, soll 3 genommen werden.
Dann kann man p = x3 + ax2 + bx + 1, q := x3 + cx2 + dx + 1 annehmen (weil das Produkt der
höchsten bzw. niedrigsten Koeffizienten 1 ist). Nun erkennt man, daß nach Multiplikation der
Term 5.Ordnung die Gleichung a + c = 1 ergibt. O.B.d.A. nehmen wir a = 1 und c = 0 an
(sonst vertauschen p und q ihre Rollen). Das lineare Glied ergibt b + d = 1 und nun versucht
288
ANHÄNGE
man einfach p = x3 + x2 + 1 und q = x3 + x + 1. Ausmultiplizieren ergibt die Korrektheit der
Zerlegung. Schließlich erweisen sich p und q als unzerlegbar, weil ein Linearfaktor auftauchen
müßte, der zu einer Nullstelle in IF2 führt – letztere existiert nicht!
Antwort: x8 − 1 = x(x − 1)(x3 + x2 + 1)(x3 + x + 1) ist eine Zerlegung in über IF2 irreduzible
Faktoren.
Schließlich noch ein recht einfaches Beispiel, das hier paßt:
Beispiel 264
(Faktorzerlegung und Prozentzahlen) Es sei die Zahlenfolge {hi | i = 1, 2, 3, 4, 5, 6} =
{16.8, 17.3, 16.4, 16.7, 16.2, 16.6} gegeben. Es soll sich dabei um “relative Häufigkeiten” in
i
Prozenten handeln, also hi := 100H
N . Dabei ist jede absolute Häufigkeit Hi ∈ N und H1 +
· · · + H6 = N . Es ist gefragt, wie groß das kleinste N ist, sodaß die angegebene Zahlenfolge
entsprechende Prozentzahlen ausdrückt.
Antwortfindung: Multipliziert man jede der Zahlen mit 10, so ergibt sich offenkundig 1000 =
168 + . . . + 166, sodaß das gesuchte N bestenfalls ≤ 1000 sein kann. Die kleinste natürliche
Zahl k, derart, daß alle zi := hi ∗ k ∈ N liegen, ist offenkundig auch k = 10. Danach ergibt
für i = 1, . . . , 6 die Beziehung
zi N = 1000Hi .
Nun muß jeder Primteiler von zi ein Teiler von entweder 1000 oder von Hi sein. Sieht man
sich jetzt die Zahlenfolge der zi , nämlich {168, 173, 164, 162, 166} an, so bemerkt man die
Primzahl 173, die kein Teiler von 1000 ist. Somit ist H2 ein Vielfaches von 173. Wegen der
Minimalität von N ist deshalb H2 = 173 und N = 1000.
A.3
Ein wenig Stochastik
Das Wort “Stochastik” kommt vom griechischen “Raten”.
A.3.1
Stochastische Prozesse
Definition 265 Ein stochastischer Prozess wird durch folgende Daten beschrieben:
Wahrscheinlichkeitraum: (Ω, Σ, P ) sei ein W-Raum.
(meist, aber nicht immer) Zeit/Zeitschritte: T sei eine Teilmenge von R, die entweder diskret, meist Teilmenge von N, oder “kontinuierlich” ist.
Zielraum: Z ⊆ Rn zusammen mit einer Sigmaalgebra B von Borelmengen.
Prozessvariable: Zu jedem t ∈ T gibt es eine Zufallsvariable Xt : Ω → Z.
Der Prozeß ist zeitdiskret (und heißt dann Zeitreihe, wenn T höchstens abzählbar ist, anderfalls ist er zeitstetig. Ist Z höchstens abzählbar, so liegt ein Punktprozeß vor.
A.3. Ein wenig Stochastik
289
Beispiel 266 Beispiele zeitdiskreter Prozesse.
Bernoulliexperiment: Wie in Beispiel 131 beschrieben, wird als Vergleich zwischen empirischer und mathematischer Wahrscheinlichkeit p (etwa eines Münzwurfes mit p = 12
für Kopf) ein Experiment eine gewisse Anzahl n mal wiederholt. Wenn dann T :=
{1, 2, . . . , n} gesetzt wird, so entspricht jedem der n unabhängigen Experimente eine Zufallsvariable Xk , die den Wert 1 bzw. 0 annimmt, je nachdem, ob das Ereignis
(Kopf) eingetreten ist, oder nicht. Sie ist die Prozessvariable und, da die Werte in der
Menge {0, 1} liegen, liegt ein Punktprozess vor.
Es erweist sich als praktisch, die Sichtweise eines stochastischen Automaten einzunehmen. Wie die Skizze
S>
>> q
andeutet, gibt es ein Startsymbol S und Übergangsp
>>
>>
wahrscheinlichkeiten in die Zustände 1 bzw. 0. Danach
q

+
p
kann der Automat mit entsprechender Wahrscheink
0e q
91
p
lichkeit vom Zustand 0 bzw. 1 in eben diesen Zustand
oder den anderen übergehen.
Beschriftet man die Knoten mit syntaktischen Symbolen K und Z, die Kanten mit
dem Ergebnis des Experiments (Null oder Eins), so definieren die Regeln S → K1|Z0,
K → K1|Z0, Z → Z0|K1 eine reguläre Grammatik. Die Wörter der Länge n kodieren
die möglichen Ausgänge von n-stufigen Versuchsreihen.
Das B.E. ist ein spezieller Markovprozess.
Stationärer Markov Prozess: Solche Prozesse können durch einen gerichteten Graphen
beschrieben werden, dessen Knoten Zustände und Kanten als Übergänge mit Übergangswahrscheinlichkeit bezeichnet werden. Die Wahrscheinlichkeiten aller von einem Knoten
weglaufende Kanten (Loop zählt da auch dazu) addieren sich zu 1.
Einfache Beispiele hiefür sind die Ereignisgraphen, wie etwa in Beispiel 100, bzw. Fig.
3.1, wo mit Übergangswahrscheinlichkeit Null beschriftete Kanten hinzugefügt werden
können, um die hier beschriebene Situation zu erreichen.
Nun zum Prozess: Die Zustände des Automaten Z bilden den Zielraum. Die Prozessvariablen Xt nehmen somit als Werte Zustände des Automaten an. Befindet sich der
Automat im Zustand z, so wird angenommen, daß er mit Wahrscheinlichkeit p(z, a)
das Symbol a zu lesen bekommt und danach in den Zustand z → δ(z, a) übergeht. Diese Übergangswahrscheinlichkeit ist somit völlig unabhängig davon, auf welcher Route
der Automat in den Zustand z gekommen ist (“Gedächtnislosigkeit”) und es ist auch
egal, zu welchem Zeitpunkt z erreicht wird (“Stationarität”).
Beim Warteschlangenproblem werden die Zustände eines Automaten durch die
möglichen Längen einer Warteschlange beschrieben. Nun wird angenommen, daß die
Differenz aus Zuwachs und Abgang von Klienten während einer Zeiteinheit weder
vom Zeitpunkt (stationär) noch von den vor dem zu diesem Zeitpunkt durchlaufenen
Zuständen abhängt (Gedächtnislosigkeit, Markoveigenschaft). Danach ergibt sich eine
Übergangswahrscheinlichkeit p(m, n) dafür, daß bei m wartenden Klienten im nächsten
290
ANHÄNGE
Zeitschritt soviele abgefertigt, bzw. neu dazu gekommen sind, daß danach n Klienten
anstehen.
In diese Klasse von Problemen gehören nicht nur einfache mathematische Modelle für
Geburts- und Todesprozesse, sondern auch Fragen der diskreten Spieltheorie, der Poissonprozesse, bei denen die obige Übergangswahrscheinlichkeit durch eine Poissonverteilung beschreibbar ist, und vorallem gehören Signalprozesse hieher.
Zu den zeitstetigen Beispielen zählen Gaußsche und Wienerprozesse, voran die Brownsche Bewegung. Das damit verbundene Gebiet der stochastischen Differentialgleichungen
übersteigt den Rahmen dieser Vorlesung. Möglicherweise ist das Buch von Karlin [15] als
Einführung in die Theorie der stochastischen Prozesse hilfreich.
A.4
Topologie
A.4.1
Konstruktion der Vervollständigung für einen metrischen Raum (X, d)
Das Konstruktionsprinzip erinnert ein wenig an Numerik:
• Man geht vom Raum aller Folgen X N aus und betrachtet hierin die Teilmenge aller
Cauchyfolgen, die mit CF (X) bezeichnet werde. Jede solche Folge darf man sich als
“numerisches Verfahren” vorstellen, von dem man eigentlich annehmen will, daß es
konvergiert, weil es ja Cauchysch ist, aber der Grenzwert in X nicht zu existieren
braucht.
∞
• Zwei Cauchyfolgen {xn }∞
n=1 und {yn }n=1 will man nun als gleichwertig erachten, wenn
sie “zum gleichen Grenzwert konvergieren”. Der muß aber X nicht existieren. Falls
doch, würde auch
∞
D({xn }∞
n=1 , {yn }n=1 ) := lim d(xn , yn ) = 0
n→∞
(A.1)
zu gelten haben. Nun kommt der Trick: die linke Seite, das D, läßt sich für je zwei
∞
Cauchyfolgen {xn }∞
n=1 , {yn }n=1 definieren, sogar dann, wenn ihr Grenzwert in X nicht
existiert.
• Die Funktion D : CF (X) × CF (X) → R+ ∪ {0} erfüllt gewisse der Axiome einer Metrik. Sie ist symmetrisch, nicht negativ, und die Dreicksungleichung kann nachgewiesen
∞
werden. Allerdings folgt aus D({xn }∞
n=1 , {yn }n=1 ) = 0 nicht notwendig die Gleichheit
∞
der Folgen. Die angekündigte Gleichwertigkeit der Cauchyfolgen {xn }∞
n=1 und {yn }n=1
wird formal als Äquivalenzrelation definiert, indem man sie als äquivalent ansieht, wenn
Glg.(A.1) gilt.
˜ ty) zu
• (Definition von X̃) Nun wird X̃ als Menge der Äquivalenzklassen erklärt. Um d(x̃,
∞
definieren, wählt man Cauchyfolgen (d.i. Repräsentanten) {xn }∞
n=1 ∈ x̃ und {yn }n=1 ∈ ỹ
∞
∞
˜
und definiert d(x̃, ỹ) := D({xn }n=1 , {yn }n=1 ). Diese Definition erweist sich als von den
gewählten Folgen in x̃, ỹ unabhängig.
A.4. Topologie
291
0 ∞
∞
0 ∞
Wir wollen das kurz vorführen: Es seien {xn }∞
n=1 , {xn }n=1 ∈ x̃ und {yn }n=1 , {yn }n=1 ∈
∞
0 ∞
0 ∞
ỹ. Man muß dann D({xn }∞
n=1 , {yn }n=1 ) = D({xn }n=1 , {yn }n=1 ) zeigen.
Zunächst liefert die Dreiecksungleichung für alle n ∈ N
d(x0n , yn0 ) ≤ d(x0n , xn ) + d(xn , yn ) + d(yn , yn0 ),
und geht man mit n → ∞, so ergibt sich wegen der Definition von D und der Äquivalenzklassen x̃, ỹ sofort
0 ∞
∞
∞
D({x0n }∞
n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ).
Die gleiche Prozedur mit vertauschten Rollen der gestrichenen und ungestrichenen Folgen ergibt
∞
0 ∞
0 ∞
D({xn }∞
n=1 , {yn }n=1 ) ≤ D({xn }n=1 , {yn }n=1 ),
woraus die Behauptung unmittelbar folgt.
• (isometrische Einbettung von X) Jedem Element x ∈ X wird die konstante Folge
{xn }∞
n=1 mit xn = x zugeordnet. Dann ist d(xm , xn ) = d(x, x) = 0, also diese Folge
∞
∞
{xn }∞
n=1 eine Cauchyfolge. Einsichtig ist auch, daß konstante Folgen {xn }n=1 , {yn }n=1
∞
mit xn = x, yn = y zunächst D({xn }∞
n=1 , {yn }n=1 ) = d(x, y) ergeben. Hieraus ergibt
˜
sich d(x̃, ỹ) = d(x, y), sobald x̃ und ỹ konstante Folgen mit Werten x, y enthalten.
• (Nachweis, daß X in X̃ dicht liegt) Daß jedes x̃ ∈ X̃ Grenzwert von Elementen in X
ist, ergibt sich wie folgt: Zunächst wählt man einen Repräsentanten {xn }∞
n=1 ∈ x̃. Nun
betrachtet man zu jedem k ∈ N die konstante Folge xk := {xkn }∞
defniert
durch
n=1
xkn := xk . Wir wollen zeigen, daß bei k → ∞ diese Folge limk→∞ D(xk , {xn }∞
n=1 )
∞
erfüllt. Es ist D(xk , {xn }∞
)
=
lim
d(x
,
x
).
Weil
jedoch
{x
}
konvergent,
n→∞
n n=1
k n
n=1
und somit CF ist, gibt es zu vorgegebenem > 0 ein N sodaß für alle n, k der Ausdruck
d(xk , xn ) < und somit D(xk , {xn }∞
n=1 ) ≤ wird. Also gilt die Konvergenzbehauptung.
˜
• (Nachweis der Vollständigkeitkeit von X̃). Es sei {x̃k }∞
k=1 eine Cauchyfolge in (X̃, d).
˜
Dann ist zu zeigen, daß es eine Element x̃ ∈ X̃ mit limk→∞ d(x̃k , x̃) = 0 gibt. Weil X
dicht liegt, gibt es zu jedem Folgenglied x̃k ein Element xk ∈ X, welches, als konstante
Folge aufgefaßt (d.h. als Folge xk ∈ CF (X) definiert als xkn := xk ), die Abschätzung
˜ k , xk ) < 1k erfüllt. Hieraus ergibt geeignetes Anwenden der Dreiecksungleichung
d(x̃
2
˜ k , x̃l ) + 1 .
˜ k , xl ) ≤ d(x
˜ k , x̃k ) + d(x̃
˜ k , x̃l ) + d(x̃
˜ l , xl ) ≤ 1 + d(x̃
d(xk , xl ) = d(x
k
2
2l
Weil nun {x̃k }∞
k=1 die Cauchyeigenschaft hat, gibt es zu jedem > 0 ein N ∈ N mit
˜ l , xl ) < für alle k, l ≥ N , und für alle k, l, die zusätzlich 1k + 1l < erfüllen, ist
d(x̃
2
2
dann auch
˜ k , xl ) ≤ 2.
d(x
Deshalb ist {xk }∞
k=1 eine Cauchyfolge von Elementen in X, welche definitionsgemäß ein
Element x̃ ∈ X repräsentiert.
292
ANHÄNGE
Die Konvergenz der Folge {x̃k }∞
k=1 gegen x̃ ergibt sich nun wie folgt. Zunächst benützt
man die Dreiecksungleichung und erhält:
˜ k }∞ , x̃) ≤ d({x̃
˜ k , x̃).
˜ k }∞ , xk ) + d(x
˜ k , x̃) ≤ 1 + d(x
d({x̃
k=1
k=1
2k
Ist nun > 0 beliebig vorgegeben, so gibt es ein N ∈ N, sodaß sowohl 21k < 2 als auch
˜ k , x̃) < für alle k ≥ N
(wegen der Konvergenz von xk gegen x̃) die Ungleichung d(x
2
gelten. Demnach gilt die behauptete Konvergenz.
A.4.2
Beweis des Banachschen Fixpunktsatzes Anmerkung 158
Beispiel 267 Hier ist der Beweis der einzelnen Punkte.
1. Es sei {xn }∞
n=1 konvergent gegen x. Dann gibt es zu jedem > 0 ein N mit d(xn , x) < für alle n ≥ N . Wegen der Kontraktionseigenschaft hat man für die gleichen n auch
d(f (xn ), f (x)) ≤ λd(xn , x) < d(xn , x) < , also die Stetigkeit von f .
2. Zunächst soll die Eindeutigkeit von p gezeigt werden. Angenommen, es ist p 6= q, sowie
p = f (p) und q = f (q). Dann ist d(p, q) = d(f (p), f (q)) ≤ λd(p, q) < d(p, q), ein
Widerspruch.
Nützlich ist zunächst die folgende Abschätzung:
d(xn−1 , xn ) ≤ λn−1 d(x0 , x1 ),
(A.2)
die sich sehr leicht mittels vollständiger Induktion für alle n ∈ N zeigen läßt. Hieraus
bekommt man
d(x0 , xn ) ≤ d(x0 , x1 ) + d(x1 , x2 ) + · · · + d(xn−1 , xn )
≤ (1 + λ + . . . + λn−1 )d(x0 , x1 )
0 ,x1 )
≤ d(x1−λ
Die Existenz von p ist gezeigt, wenn {xn }∞
n=1 sich als Cauchyfolge erweist. Es sei n > m,
dann ist unter Verwendung der vorigen Abschätzung (in der n durch n − m zu ersetzen
ist) und Glg.(A.2):
d(xm , xn ) ≤ λd(xm−1 , xn−1 ) ≤ · · · ≤ λm d(x0 , xn−m ) ≤
λm d(x0 , x1 )
.
1−λ
Nun sei > 0 vorgegeben. Danach wählt man N so groß, daß
λN d(x0 , x1 )
<
1−λ
ist. Sind dann m, n ≥ N und etwa m > n, so gilt
d(xm , xn ) ≤
λm d(x0 , x1 )
λN d(x0 , x1 )
≤
< ,
1−λ
1−λ
A.4. Topologie
293
sodaß {xn }∞
n=1 sich als Cauchyfolge, und somit, wegen der Vollständigkeit, als konvergent erweist.
Es verbleibt zu zeigen, daß die Folge {xn }∞
n=1 , die zwar gegen ein x ∈ X konvergiert,
gegen den Fixpunkt p konvergiert, m.a.W., daß x = p sein muß. Die Folge {yn }∞
n=1 ,
∞
definiert durch yn := xn+1 konvergiert gegen x. Da f stetig ist, konvergiert {yn }n=1 =
{f (xn )}∞
n=1 gegen f (x). Also gilt x = f (x) und es ist x ein Fixpunkt von f . Wegen der
eingangs gezeigten Eindeutigkeit hat man x = p.
3. Wurde bereits unter 2. mitbewiesen.
4. Ausgehend von der unter 2. gewonnen Abschätzung
d(xm , xn ) ≤
λm d(x0 , x1 )
,
1−λ
die für alle m, n ∈ N gilt, findet man
d(x, xm ) ≤ d(x, xn ) + d(xm , xn ) ≤ d(x, xn ) +
λm d(x0 , x1 )
,
1−λ
und weil für n → ∞ der Term d(x, xn ) gegen Null geht, ergibt sich die Behauptung.
A.4.3
Beweise der Aussagen über offene, abgeschlossene, kompakte, etc.
Mengen in Anmerkung 163
Beispiel 268 Es sollen Beweise angedeutet werden:
1. Es sei K(x0 , r) offene Kugel und y ∈ K(x0 , r). Setzt man ρ := r − d(y, x0 ), ist ρ >
0 (weil ja d(x0 , y) < r gilt) und so ergibt sich für beliebiges z ∈ K(y, ρ) zunächst
d(z, y) < r − d(y, x0 ), also wegen der Dreiecksungleichung d(x0 , z) ≤ d(x0 , y) + d(y, z) <
d(x0 , y) + (r − d(y, x0 )) = d(x0 , y). Deshalb ist z ∈ K(xo , y), also K(y, ρ) ⊆ K(x0 , r)
und somit K(x0 , r) offen.
2. Zu jedem Punkt x einer offenen Menge O gibt es eine offene Kugel K(x, rx ), die ganz
in O liegt. Deshalb ist O Vereinigung von offenen Kugeln.
3. Ist x aus der Vereinigung beliebig vieler offener Mengen, so gibt es eine offene Menge,
zu der er gehört, und eine offene Kugel, die in dieser offenen Menge und somit in der
Vereinigung liegt. Also ist die Vereinigung offen.
Sind O1 und O2 offen und x ∈ O1 ∩ O2 , so gibt es Kugeln K(x, ri ) die ganz zu Oi
gehören. Deshalb ist für r := min{r1 , r2 } die Kugel K(x, r) ganz in O1 ∩ O2 und somit
O1 ∩ O2 offen.
4. Läßt sich aus 5. und 3. mittels der De Morganschen Gesetze folgern.
5. Es sei {xn }∞
n=1 eine gegen x konvergente Folge von Punkten xn im Komplement der
offenen Menge O. Zu zeigen ist, daß dann x auch nicht in O liegt. Angenommen x ∈ O.
Dann gibt es r > 0 mit K(x, r) ⊆ O. Da jedoch die Folge {xn }∞
n=1 gegen x konvergiert,
294
ANHÄNGE
gibt es ein N > 0 mit d(x, xn ) < r für alle n ≥ N . Solches xn gehört dann sowohl zu O
als auch (aufgrund unserer Wahl) zum Komplement, ein Widerspruch.
Ähnlich argumentiert man, um zu zeigen, daß das Komplement einer abgeschlossenen
Menge offen ist.
6. Es genügt, die Beschränktheit zu zeigen. Angenommen, C ist kompakt und unbeschränkt. Dann gibt es eine Folge {cn }∞
n=1 und ein c ∈ C mit d(c, cn ) ≥ n. Weil C (folgen)kompakt ist, kann durch Übergang zu einer Teilfolge die Konvergenz von {cn }∞
n=1
gegen ein x ∈ C angenommen werden. Deshalb existiert ein N sodaß d(x, xn ) < 1 für
alle n ≥ N gilt. Dann ergibt sich für alle n ≥ N aus der Dreiecksungleichung
n ≤ d(c, xn ) ≤ d(c, x) + d(x, xn ) ≤ d(c, x) + 1,
ein Widerspruch, weil ja n beliebig groß werden kann.
Für den Nachweis des Satzes von Heine Borel sei auf [29], Seite 33 verwiesen.
A.5
A.5.1
Banachräume
Beweis für Anmerkung 207 – Vollständigkeit des Dualraums
Beweis: Es seie {x0n }∞
n=1 eine Cauchyfolge von Funktionalen. Dann ist wegen
|(x0n − x0m )(x)| ≤ kx0n − x0m kkxk
die Folge {x0n (x)} eine Cauchyfolge in R (bzw. C) und man kann ein Funktional x0 durch
seine Werte x0 (x) := limn→∞ x0n (x) definieren. Um zu wissen, daß x0 zu V 0 gehört, beachten
wir zunächst für beliebiges n
|x0 (x)| ≤ |x0 (x) − x0n (x)| + |x0n (x)|.
Nun wählen wir > 0 beliebig und N so groß, daß kx0n − x0m k < für alle m, n ≥ N gilt. Für
solche m, n ergeben die Ungleichungen zuächst
|x0n (x)| − |x0m (x)| ≤ |(x0n − x0m )(x)| ≤ kx0n − x0m kkxk ≤ kxk,
also
|x0n (x)| ≤ kxk + |x0m (x)| ≤ ( + kx0m k)kxk.
Nun konvergiert die linke Seite gegen |x0 (x)| sodaß die Beschränktheit von x0 folgt, also x0
im Dualraum liegt.
Aus der ersten der Ungleichungen ergibt sich für alle x mit Norm 1
x0n (x) − x0m (x) < .
Läßt man entweder n oder m nach Unendlich gehen, ergeben sich die Ungleichunge
x0 (x) − x0m (x) ≤ ,
x0n (x) − x0 (x) ≤ .
A.5. Banachräume
295
Aus ihnen ergibt sich für n ≥ N
|(x0 − x0n )(x)| = |x0 (x) − x0n (x)| ≤ ,
und weil die rechte Seite nicht von x abhängt kann man links zum Supremum übergehen,
bekommt somit
kx0 − x0n k ≤ ,
somit die Konvergenz.
Nachweis für die Eigenschaften von A0 . Zunächst ist A0 auf dem gesamten Dualraum V ∗
wohldefiniert, wie in Definition 187 vermerkt worden ist. Ist v 0 ∈ V 0 und u ∈ U , so hat man
|A0 (v 0 )(u)| = |v 0 (A(u))| ≤ kv 0 kV 0 kAukV ≤ kv 0 kV 0 kAkkukU .
Hieraus ergibt sich sofort kA0 (v 0 )kU 0 ≤ kv 0 kV 0 kAk, also ist A0 beschränkt und obendrein ist
kA0 k ≤ kAk.
Um kA0 k ≥ kAk zu zeigen, wählen wir zunächst > 0. Nun wird u ∈ U mit kukU = 1
und kAukV ≥ kAk − gewählt. Als nächstes verwenden wir den Satz von Hahn-Banach
(Anmerkung 269) um auf dem zunächst auf dem 1-dimensionalen Teilraum (Au) von V
das lineare Funktional v00 (Au) := Au zu definieren, zu beachten, daß es Norm 1 hat, und
zu einem Funktional v 0 auf ganz V mit Norm 1 fortzusetzen. Interessant ist die Tatsache
|v 0 (Au)| = kAukV , diese benützend ergibt sich die Abschätzung
kAk − ≤ kAukV = |v 0 Au| = |(A0 v 0 )(u)| ≤ kA0 v 0 kU 0 ≤ kA0 k,
aus der die gefragte Ungleichung folgt.
A.5.2
W.z.z.w.
Satz von Hahn-Banach*
Ein im Aufbau der Operatortheorie unverzichtbares Werkzeug ist der Satz von Hahn-Banach.
Z.B. kann mit seiner Hilfe gezeigt werden, daß für einen beschränkten Operator A der duale
Operator A0 ebenfalls beschränkt ist (Anmerkung 207). Eine andere simple Anwendung ist
der Nachweis der Existenz eines abgeschlossenen Teilraumes im Banachraum V , der zu einem
gegebenen endlichdimensionalen Teilraum ein Komplement bildet.
Im Rn besagt er in stark vereinfachter Form, daß ein lineares Funktional von einem linearen
Teilraum U so auf den ganzen Raum fortsetzbar ist, daß die Norm sich nicht vergrößert. Ist
das Funktional das Nullfunktional, so setzt man nämlich durch Null fort. Andernfalls ist der
Teilraum direkte Summe eines 1-dimensionalen Teilraumes und des Kerns des Funktionals,
einer Hyperebene. Man wählt eine Basis des Rn mit einem Basisvektor im 1-dimensionalen
Teilraum mit kv 0 kU = v 0 (b), sowie den Rest der Basis im Kern und eventuell noch genügend
viele Basiselemente, um den gesamten Rn aufspannen zu können. Danach setzt man das
Funktional auf allen Basisvektoren ungleich b zu Null an. Man kann sich leicht vorstellen, daß
die Werte des neuen Funktional letzlich nur die Werte sind, die auf U angenommen werden.
Insbesondere steigt die Norm nicht an. Diese geometrische Idee für unendlichdimensionale
Räume zum Beweis werden zu lassen, wird transfinite Induktion oder auch das Zornsche
Lemma verwendet. Ein Beweis findet sich z.B. in [26] und hier ist eine einfache Version des
Satzes von Hahn-Banach:
296
ANHÄNGE
Anmerkung 269 (Satz von Hahn-Banach) Es sei ein Banachraum (V, k · kV ), eine
Halbnorm p, d.h. eine Funktion p : V → [0, ∞) mit p(rv) = rpv für r ≥ 0, p(v1 + v2 ) ≤
p(v1 ) + p(v2 ), ein linearer Teilraum U und schließlich ein stetiges lineares Funktional
u0 : U → R mit u0 (u) ≤ p(u) für alle u ∈ U gegeben.
Dann kann u0 zu einem stetigen linearen Funktional v 0 mit
v 0 (v) ≤ p(v)
für alle v ∈ V fortgesetzt werden.
Speziell ist p(v) := kvkV als solch eine Funktion wählbar, sodaß der Satz in diesem
Fall die Ausdehnung eines auf einem Teilraum gegebenen stetigen linearen Funktionals
auf ganz V mit der gleichen Norm garantiert.
Anmerkung 270 Die folgenden Fakten sind unmittelbare Konsequenzen aus dem Satz:
Stützebene für Einheitskugel: Zu jedem x auf der Einheitskugel gibt es ein stetiges
Funktional v 0 mit Norm 1 sodaß v 0 (x) = 1 und kv 0 kV 0 = 1 ist.
v’(x)=−1
v’(x)=1
x
(Im R2 besagt dies lediglich, daß man eine Linearform v 0 (x1 , x2 ) findet, deren Niveaulinien für x dem Wert 1 entsprechen, und daß bei x das Linearform ihr Maximum auf der Vollkugel annimmt.)
A.5. Banachräume
297
Weiters haben die Elemente des Kerns von v 0 zu x mindestens den Abstand 1.
Distanz Kugeloberfläche zu echtem Teilraum: Ist H echter abgeschlossener Teilraum des Banachraumes (V, k · kV ), so gibt es zu jedem positiven einen Punkt s
auf der Oberfläche der Einheitskugel S := {v ∈ V | kvkV = 1} mit d(x, h) ≥ 1 − x
1−ε
H
Abschluß eines linearen Teilraumes: Ist H linearer Teilraum des Banachraumes V ,
so ist
\
H=
ker(v 0 ).
{v 0 ∈V 0 |H≤ker(v 0 )}
Hier die Beweise dazu:
Stützebene an eine Kugeloberfläche Zum Beweis für die Existenz der Stützebene definiert man ein Funktional v00 durch v00 (rx) = r, für r ∈ R. Dieses Funktional hat Norm 1
und man benützt den Satz von Hahn-Banach, um es zu einem normgleichen Funktional
v 0 auf ganz V auszudehnen. Dann ist die erste Aussage erfüllt.
Distanz Kugeloberfläche – linearer Teilraum: Weil H echter Teilraum ist, gibt es z ∈
V mit z 6∈ H. Nun definiert man ein Funktional v00 auf L(H, z) = H ⊕ ‡ durch v00 (h +
λz) := λ, also mit H komplett im Kern. Dieses Funktional besitzt nach dem Satz von
Hahn-Banach eine Erweiterung v 0 auf ganz V mit gleicher Norm. Deshalb gibt es ein
x ∈ S mit kvk0 V 0 ≥ v 0 (x)(1 − ) (das folgt aus der Supremumseigenschaft der Norm).
Sei nun h ∈ H beliebig. Dann gilt
(1 − )kv 0 kV 0 ≤ v 0 (x) = v 0 (x − h) ≤ kx − hkV kv 0 kV 0 ,
sodaß die Enden der Ungleichungskette nach Kürzen der Norm von v 0 auf
kx − hkV ≥ (1 − )
führt, was zu zeigen war.
Abgeschlossener Teilraum als Schnitt der Kerne: Da die rechte Seite als Durchschnitt
abgeschlossener Mengen (jeder ker(v 0 ) ist abgeschlossen) selbst abgeschlossen ist und
H enthält, ist die linke Seite in der rechten enthalten.
298
ANHÄNGE
Nun sei v in der rechten Seite enthalten, jedoch nicht in H̄. Dann definiert man ein
Funktional v00 auf L(H̄, v) durch v00 (h̄ + ry) = r und sieht v00 (y) = 1 sofort ein. Dieses
Funktional erlaubt eine normgleiche Erweiterung v 0 auf ganz V , für die v 0 (y) = 1
ist. Andrerseits ist H̄ im Kern des Funktionals, also sollte auch v 0 (y) = 0 sein, ein
Widerspruch.
A.5.3
Nachweise der Aussagen in Anmerkung 212 über kompakte Operatoren
Beispiel 271 Hier nun die Beweise zu Anmerkung 212.
Stetigkeit: Es genügt, die Beschränktheit von K auf der Einheitskugel {u | kuk ≤ 1} zu
zeigen. Wäre diese nicht gegeben, so fände sich eine Folge {un }∞
n=1 mit kKun k ↑ ∞ bei
n ↑ ∞. Da jedoch diese Folge durch den Wert 1 beschränkt ist, müßte es eine konvergente
∞
Teilfolge {Kunk }∞
k=1 geben, ein Widerspruch zur Divergenz der Folge {kKunk k}k=1
nach ∞. Hat V keine endliche Dimension, so kann die Identität I : V → V , die zwar
stetig ist, nicht kompakt sein. Sonst könnte man im Gegensatz zu Anmerkung 198 in
{x ∈ V | kxkV = 1} eine konvergente Teilfolge konstruieren können.
Endliche Dimension etc.: Da mit K auch σK kompakt ist, genügt es, den Nachweis für
σ = 1, also für I − K zu führen. Angenommen, der Kern hat unendliche Dimension.
1
Dann produziert man im Kern eine Folge {un }∞
n=1 mit kun kV = 1 und kui − uj kV ≥ 2
für alle i 6= j wie im Beweis der endlichen Dimension eines für beschränkte Teilmengen
folgenkompakten linearen Teilraumes (siehe Beispiel 199). Diese Eigenschaft gilt auch
für jede Teilfolge, auch für eine solche, für die {K(un )}∞
n=1 schon konvergent, also auch
Cauchyfolge ist. Weil
I(ui − uj ) = K(ui − uj )
ist, ergibt die Cauchyeigenschaft ein N mit kK(ui − uj )kV < 12 falls i, j ≥ N ist,
während die linke Seite die Ungleichung kui − uj kV ≥ 21 ergibt, ein Widerspruch. Der
besagte Kern ist endlichdimensional.
Konvergenz kompakter Operatoren in der Norm: Es sei {un }∞
n=1 eine o.B.d.A. durch
1 beschränkte Folge in V . Angenommen K ist nicht kompakt. Dann existiert ein a > 0
und man kann die Folge so anlegen, daß
kK(ui − uj )kV ≥ a
für alle Indizes i 6= j gilt. Es gibt ein n mit
kK − Kn k <
a
,
2
wegen der Konvergenz der Folge {Kn }∞
n=1 gegen K im Sinne der Norm. Der Ausdruck
k(K − Kn )(ui − uj )kV kann nach unten durch kK(ui − uj )kV −kKn ui − Kn uj kV und
{z
}
|
≥a
nach oben durch a2 kui − uj kU abgeschätzt werden, woraus sich die Ungleichung
a ≤ kui − uj kU + kKn ui − Kn uj kV
A.5. Banachräume
299
ergibt. Da Kn kompakter Operator ist, kann durch Übergang zu einer Teilfolge kKn ui −
Kn uj kV < a2 erreicht werden, ein Widerspruch. Deshalb ist K kompakt.
Dualer Operator K 0 kompakt: Angenommen nein. Dann gibt es eine Folge {vn0 }∞
n=1 von
Elementen mit Norm 1, sodaß die Folge der Werte Kvn0 keine Cauchyfolge enthält, somit
ein a > 0 mit
0
kK 0 vn0 − K 0 vm
k≥a
gilt. Dann gibt es insbesondere Elemente umn ∈ U mit Norm 1 und sodaß
0
0
(vn0 − vm
)Kumn = (K 0 vn0 − K 0 vm
)umn ≥
a
2
ist. Zunächst betrachtet man die doppelt indizierte Folge Kumn und kann durch Übergang zu einer Teilfolge erreichen, daß sie gegen ein Ku konvergiert. Dadurch erreicht
man für unendlich viele Indizes etwa
a
0
(vm
− vn0 )Ku ≥
3
Geschick ist nötig (ein Diagonalverfahren – in z.B. [26] wird der Satz von ArzelaAscoli verwendet), um die Indizes m und n durch die gleiche Indexmenge laufen zu
0 Ku eine beschränkte
lassen – darauf gehe ich hier nicht ein. Nun ist die Folge der vm
Zahlenfolge und enthält eine konvergente Teilfolge. Dann wäre sie auch Cauchyfolge,
ein Widerspruch.
Fredholmeigenschaft etc: Zunächst ist der Kern von I − K endlichdimensional. Daß er
ein abgeschlossenes Komplement M in U besitzt kann wie folgt eingesehen werden:
Man wählt im Kern eine Basis und dazu eine Kobasis in ker(I − K)∗ . Diese Kobasis
besteht somit aus linearen Funktionalen mit Norm 1 und können mittels des Satzes von
Hahn-Banach (Anmerkung 269) zu normgleichen Funktionalen auf ganz U erweitert
werden. Ist nun B = {bi } die Basis und B 0 = {bj } die
erweiterte Kobasis,
Pbereits
0
0
so definieren wir P : U → ker(I − K) durch P (x) :=
b b (x)b, wobei bi (bj ) = δij
laut Konstruktion gilt. Nun ist Q := I − P ein stetiger Operator, dessen Kern M das
gewünschte abgeschlossene Komplement zu ker(I − K) ist.
Um die Abgeschlossenheit von R(I − K) und Existenz von N nachzuweisen, genügt
es nun, I − K auf M einzuschränken, m.a.W., “von Haus aus” I − K als injektiv
anzunehmen. Die Abgeschlossenheit von R(I − K) ist gezeigt, wenn für eine Folge
{un }∞
n=1 mit (I − K)un → v sich ein u mit v = (I − K)u finden läßt. Wegen der
Kompaktheit von K kann man zu einer Teilfolge übergehen, derart daß die Folge
1
K(un ) → v0
kun k
konvergiert. Wir behaupten daß die Folge {un }∞
n=1 beschränkt sein muß. Andernfalls
würde nämlich einerseits
un
un
un
=
−K
(I − K)
kun k
kun k
kun k
300
ANHÄNGE
nach Null konvergieren (linke Seite, weil die Zähler gegen v, die Nenner gegen ∞ konvergieren), andrerseits deshalb der Term auf der rechten Seite konvergieren, also
un
→ v0
kun k
gelten. Es ergibt
sich sofort v0 = Kv0 , also (I − K)v0 = 0, d.h. v0 = 0. Das kann nicht
sein, weil alle kuunnk Norm 1 hatten. Also ist die Folge {un }∞
n=1 beschränkt.
Nun darf (notfalls nach Übergang zu einer Teilfolge) die Konvergenz von Kun gegen
ein w ∈ V angenommen werden. Das ergibt
(I − K)un = un − Kun
und durch Grenzwertbetrachtung die Konvergenz der Folge {un }∞
n=1 selbst – gegen
einen GW u. Es erweist sich (I − K)u = v, was zu zeigen war. Somit ist R(I − K)
abgeschlossen.
Der noch fehlende Nachweis, daß der Annihilator von R(I − K) genau mit dem Kern
von I −K 0 übereinstimmt verläuft analog zum algebraischen Gegenstück in Anmerkung
190.
A.5.4
Distributionen
Definition 272 Es sei I = [0, 1] oder R.
(Schwartz)-Testfunktionen: Jede unendlich oft differenzierbare Funktion mit kompaktem Träger heißt Testfunktion. Ist I = R, so ist eine Schwartztestfunktion eine unendlich oft differenzierbare Funktion φ, für welche
|xm φ(n) |
für beliebe Potenz xm und Ableitung der Ordnung n von φ beschränkt ist. Die Testfunktionen bilden einen Vektorraum D, die Schwartzfunktionen einen Vektorraum S.
Konvergenz in D und S: Auf D wird ein Konvergenzbegriff durch
φk → φ
falls alle φk außerhalb einer kompakten Menge K verschwinden und auf K gleichmäßige
(n)
(n)
Konvergenz der φk gegen φk für alle Ableitungsordnungen n = 0, 1, 2, . . . gilt.
Auf S wird ein Konvergenzbegriff
φk → φ
durch gleichmäßige Konvergenz aller Ableitungen eingeführt.
A.5. Banachräume
301
(Temperierte) Distributionen: Jedes folgenstetige Element des Dualraumes von D (von
S) heißt Distribution oder verallgemeinerte Funktion (temperierte D. bzw. temperierte v.F.). Die Notation hd, φi statt d(φ) für d (temperierte) Distribution und φ
(Schwartz)testfunktion ist geläufig.
Distributionenraum: Die Menge der (temperierten) Distributionen unter der punktweisen
Addition (d.i. hd1 + d2 , φi := hd1 , φi + hd2 , φi) und Multiplikation mit Skalaren (d.i.
hrd, φi := rhd, φi) bilden einen Vektorraum, den topologischen Dualraum D0 (bzw. S 0 )
des topologischen Vektorraumes der (Schwartz)testfunktionen.
Konvergenz im Distributionenraum: Man sagt
dn → d
im Distributionenraum, falls
hdn , φi → hd, φi
für alle (temperierten) Testfunktionen gilt.
Anmerkung 273 Die wichtigsten Fakten sind:
Gewöhnliche Funktionen als D.: Ist f Riemannintegrierbar
(bzw., allgemeiner LeR
besgueintegrierbar), so wird durch φ → I f (x)φ(x) dx eine (temperierte) Distribution definiert, die üblicherweise als hf, φi geschrieben wird. Ist d eine (temperierte) Distribution, so gibt es höchstens ein stetiges f mit hd, φi = hf, φi für alle φ
(Dubois-Reymond).
Träger einer Distribution: Für jede stetige Funktion ist ihr Träger der Abschluß der
Menge {x | f (x) 6= 0}. Für eine Distribution d gehört ein Punkt x genau dann
nicht zum Träger, wenn er eine offene Umgebung besitzt, sodaß hd, φi = 0 für jede
Testfunktion mit Träger in dieser offenen Umgebung gilt.
Dirac δ-Funktion und Folgen vom Typ δ: Die Abbildung δx mit hδx , φi := φ(x)
heißt Dirac δ Funktion (und ist keine Funktion im klassischen Sinn). Eine Folge
vom Typ δ ist eine Folge {fn }∞
n=1 von (stetigen) Funktionen, die im Sinne der
Distributionenkonvergenz gegen δx konvergiert. So etwa ist fn (x) = n2 auf [− n1 , n1 ]
und Null sonst eine gegen δ = δ0 konvergente Folge. Die Folge
√
1
1
2
e− 2 (x/σn )
2πσn
ist eine Folge vom Typ δ im Raum S 0 , falls nur σn → 0 konvergiert. Der Träger der
Diracfunktion δx ist der Punkt x.
302
ANHÄNGE
Faltung und Glättungsoperatoren: Unter
Z ∞
f ∗ g(x) :=
f (t)g(x − t) dx
−∞
wird für stetiges f und g eine Testfunktion die Faltung definiert. Unter Benützung
von Ta (f )(x) := f (x − a) und fˇ(x) := f (−x) läßt sich das sehr kurz als f ∗ g(x) =
hf, Tx (fˇ)i hinschreiben. Mittels dieser Schreibweise läßt sich allgemeiner für eine
Distribution
(d ∗ φ)(x) := hd, Tx (φ̌)i
definieren. Dies erweist sich stets als unendlich oft differenzierbare Funktion. Wählt
man für φ insbesondere eine Testfunktion, die außerhalb des Einheitsintervalls verschwindet, positiv ist und Fläche 1 besitzt, so zeigt sich, daßfür φ (x) := 1 φ(x)
man
d ∗ φ → T
erreicht. Es ist d ∗ φ eine Glättung von d. Als wesentliche Konsequenz hat man, daß
die unendlich of differenzierbaren Funktionen eine dichte Teilmenge von D0 (bzw.
S 0 ) bilden und somit folgenstetige Operatoren auf C ∞ (I) eine eindeutige stetige
Fortsetzung in den Distributionenraum besitzen.
Verallgemeinerte Ableitung(en): Zunächst hat man
Z ∞
Z ∞
∞
0
0
hf, φ i =
f (x)φ (x) dx = φ(x)f (x)|−∞ −
f 0 (x)φ(x) dx = −hf 0 , φi
{z
}
|
−∞
∞
=0
für beliebiges im klassischen Sinn differenzierbares f . Differenzieren erweist sich als
folgenstetig. Somit ist
hd0 , φi := −hd, φ0 i
eine stetige Fortsetzung des Differenzierens auf den Distributionenraum.
Insbesondere ist für eine monotone beschränkte Funktion F die verallgemeinerte
Ableitung durch
X
F0 = f +
(F (s+ ) − F (s− ))δs
s
gegeben, wobei s alle Sprungstellen durchläuft und f die klassische Ableitung von
F auf allen offenen Intervallen zwischen den Sprungstellen.
0
0
Konvergenz und
folgt
PDifferenzieren:P Ist0 dn →0 d, so gilt dn → d . Insbesondere
π
für Reihen n dn → S stets n dn → S . Klassisches Beispiel ist f (t) = 4 |t| auf
[−π, π]. Diese Funktion besitzt eine punktweise konvergente Fourierentwicklung
∞
f (t) =
π 2 X cos(2n + 1)t
−
.
8
(2n + 1)2
n=0
A.5. Banachräume
303
Diese Reihe ist auch konvergent als Summe von Distributionen und erlaubt daher
distributionelles gliedweises differenzieren, d.h.
f0 =
∞
X
sin(2n + 1)t
2n + 1
n=0
und sogar noch klassische Ableitung in allen nicht ganzzahligen Vielfachen von π.
Nochmaliges distributionelles Differenzieren führt auf
f 00 =
∞
X
cos(2n + 1)t.
n=0
Aus einer Skizze entnimmt man die Sprungstellen der Höhe
mit k ∈ Z, somit ergibt sich
π
2
in allen Punkten kπ
∞
X
πX
(−1)k δ(t − kπ) =
cos(2n + 1)t,
2
n=0
k∈Z
eine Reihenentwicklung, die im klassischen Sinn nicht gültig sein kann.
Multiplizieren einer C ∞ Funktion mit Distribution: Es läßt sich durch
hf d, φi := hd, aφi
das Produkt einer C ∞ -Funktion f mit einer Distribution d erklären.
Rieszscher Darstellungssatz: Eine Distribution d ist positiv, falls jede nicht negative
Testfunktion φ einen nicht negativen Wert hd, φi erhält. Jede solche Distribution
läßt sich als Radonmaß beschreiben, d.h. es gibt ein f , welches absolut
R ∞ integrierbar
bezüglich des Lebesgueintegralbegriffes ist, und sodaß hd, φi = −∞ f (x)φ(x) dx
gilt.
Als Konsequenz zeigt man, daß eine Distribution d in D0 im beschränkten Intervall
J als Ableitung d = f (n) endlicher Ordnung einer in J stetigen Funktion aufgefaßt werden kann. (Es war dies auch der Ausgangspunkt der russischen Schule –
Distributionen als verallgemeinerte Ableitungen stetiger Funktionen zu definieren).
Schwache Formulierungen (Variationsproblem, Galerkinmethode): Ist ein Variationsproblem
δJ(u) = 0
R1
mit J(u) := 0 L(x, u, u0 ) dx vorgegeben, so ergibt sich zunächst
Z
0 = δJ(u)(h) =
0
1
(Lu h + Lu0 h0 ) dx,
304
ANHÄNGE
wobei noch Randbedingungen zu berücksichtigen sind. Für gewisse Klassen von
Problemen ergibt sich eine distributionelle Auffassung von δJ(u), etwa im Beispiel
Z 1
1 0 2 1 2
(u ) − u − f u du,
J(u) :=
2
2
0
wo sich
Z
0 = δJ(u)(h) =
1
(u0 h0 − uh − f h) dx
0
ergibt. Sind die Randbedingungen gleich Null, so folgert man
0 = hu0 , φ0 i − hu, φi − hf, φi
also eine Differentialgleichung
−u00 − u − f = 0
für die Distribution u und die Distribution f . Hier hat man insofern Glück, als
man die Eulergleichung distributionell auffassen kann. Diese distributionelle Differentialgleichung heißt schwache Formulierung, falls f selbst noch lokal integrierbare
Funktion ist.
Auch für DGL, die nicht als Eulergleichungen eines Variationsproblems auffaßbar
sind, lassen sich schwache Formulierungen aufstellen. Diese Idee liegt bei Galerkinverfahren zugrunde.
DGL in einer Variablen - lineare Systeme: Der Wert der D-Theorie liegt in der
Aussage, daß jedes lineare System
~x˙ = A(t)~x(t) + f~(t)
mit A unendlich oft differenzierbar, für f~ lediglich die klassischen Lösungen zu
(aufgefaßt als Distributionen). Für beliebige Distribution f~ gibt es eine Distributionenlösung ~x.
DGL mit konstanten Koeffizienten - Grundlösung -Greenfunktion: Zu jeder
DGL mit konstanten Koeffizienten, etwa
−u00 − u = f
gibt es stets eine Grundlösung g (Satz von Malgrange-Ehrenpreis), d.i. eine Lösung
von
−u00 − u = δ
Aus ihr kann durch u = g ∗ f eine partikuläre Lösung der DGL gewonnen werden.
Es ist g die Greenfunktion des Problems. Erweist sich u als stetige Funktion, so
kann die Lösbarkeit von Randwertaufgaben entschieden werden. Die DGL wird im
A.5. Banachräume
305
distributionellen Sinn gelöst, die Randwerte durch Interpretation der Distribution
als stetige Funktion.
Es erweist sich Kf (x) := g ∗ f (x) als kompakter Operator, sofern man f ∈ L2 (I)
annimmt.
306
ANHÄNGE
Literaturverzeichnis
[1] M. Artin, Algebra (aus dem Englischen übersetzt von A. A’Campo), Birkhäuser 1993.
[2] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe
http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen
Ausgaben und Buchbesprechung.
[3] P.M. Cohn, Further Algebra and Applications, Springer, 2003.
[4] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001.
[5] H.J. Dirschmid, Skriptum aus Mathematik 3 f. ET, Wien, 2002.
[6] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien
2004.
[7] H. Ehrig und B. Mahr, Fundamentals of Algebraic Specification 1, Springer 1985.
[8] G. Eigenthaler Begleitmaterial zu einer Vorlesung ALGEBRA, Institut für Algebra und
Computermathematik, WS 2003/2004
[9] W.D. Geyer, Vorlesungsskriptum Analysis 1, Erlangen 1999.
[10] K. Grill, Skriptum zur Vorlesung “Mathematical
http://www.ci.tuwien.ac.at/~grill
Statistics”,
TU-Wien
2000,
[11] E. Hardtwig, Fehler und Ausgleichsrechung, BI-Taschenbuch 262/262a*, 1968.
[12] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964.
[13] Institut für Theoretische Informatik d. Univ. Heidelberg, Ambos-Spies, Skriptensammlung http://www.math.uni-heidelberg.de/logic/skripten.html
[14] D. Hofbauer, Grundlagen der Ersetzungssysteme, Fachbereich Mathematik/Informatik
Gesamthochschule Kassel, 2000.
[15] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975.
[16] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963.
307
308
Literaturverzeichnis
[17] J.D. Lipson, Elements of Algebra and Algebraic Computing, Benjamin/Cummings Publishing Company, 1981.
[18] R. Mlitz, Algebraische Methoden in den Compterwissenschaften, Skriptum zur Vorlesung,
TU Wien, 2003.
[19] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000.
[20] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999.
[21] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005.
[22] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005.
[23] B.L. van der Waerden, Algebra I,II, Springer 1966,1967.
[24] H. Weber, Einführung in die Wahrscheinlichkeitsrechung und Statistik für Ingenieure,
Teubner Studienskripten, Stuttgart 1983.
[25] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite
[26] B. Bollobás, Linear Analysis, an introductory course, Cambridge Mathematical Textbooks 1990
[27] L.E. Elsgolc, Variationsrechnung, BI 431 1970
[28] G. Fairweather, finite element galerkin methods for differential equations, lecture notes
in pure and applied mathematics 34, Marcel Dekker 1978
[29] W. D. Geyer, Analysis II, Internetskriptum, SS 2000,
(Kopie unter http://www.math.tuwien.ac.at/∼herfort/MLITZ UE/QUELLEN/analysis2.ps)
[30] E. Hewitt and K. Stromberg, Real and abstract analysis, Springer 1965
[31] R. Kress, Numerical Analysis, Graduate Texts in Mathematics, Springer 1998
[32] L. Ljusternik und V. Sobolev, Elements of functional analysis (ins Englische übersetzt
von A.E. Labarre,Jr, H. Izbicki und H.W. Crowley), Frederick Ungar Publishing Company 1964
[33] R. Plato, Numerische Mathematik kompakt, Vieweg 2000
[34] W. Walter, Einführung in die Theorie der Distributionen, 3.Auflage, B.I. Wissenschaftsverlag 1994
[35] E. Zeidler, Nonlinear Functional Analysis and its Applications I Fixed-Point Theorems,
Springer 1992
A.6. Logfile: Korrekturen im Skriptum
A.6
309
Logfile: Korrekturen im Skriptum
Die Korrekturen beziehen sich auf das Gesamtskriptum (M3 WS06+SS07). Etwaige Fragezeichen in Referenzen deuten darauf hin, daß die Korrektur für die vorliegende Version (lediglich
Teilskriptum) nicht von Bedeutung ist.
29.5.07 In der Internetversion wurde der 2.te Teil integriert.
3.1.06 In Definition 48 DN des zyklischen Monoids. Hrn Faustner sei für den Hinweis gedankt.
8.3.07 Nach Anmerkung 88 wurde Beispiel 86 behandelt, jedoch ursprünglich die geraden
und ungeraden Zahlen vertauscht. Das dazugehörige Beispiel 92 wurde ebenso korrigiert.
In der Tabelle mit den Beispielen (3.1.1) wurde in der letzten Spalte, 4.te Zeile die
Prozentzahl auf 0.024 korrigiert.
Im Ereignisgraphen Fig. 3.1 zu Beispiel 100 wurden Eintragungen in den Kästchen
korrigiert.
26.3.07 In Beispiel ?? ist der Probetest “irrelevant”, weil die bedingte Wahrscheinlichkeit
(jede des Bestehens des Tests als Probetestabsolvent) nicht höher als des Bestehens
selbst ist, nämlich 0.75.
In Beispiel 102, dem Beispiel mit den Maschinen X, Y , und Z, ist das Ergebnis 0.028.
Daher 3 v. T.
In Anmerkung 115 vorletzte Zeile das “F ” durch “X” ersetzt.
31.3.07 Beispiel 92 nochmals überarbeitet. Numerierung korrigiert.
28.4.07 In Beispiel 100 den Raum Ω korrigiert.
In Beispiel 102 Kommasetzung in der Zwischenrechnung.
Im ersten Punkt von Anmerkung 105 die Interpretation der Situation korrigiert.
In der Formel nach Anmerkung 132 wurden fehlende Betragsstriche eingefügt. (Schwaches Gesetz der großen Zahlen)
4.5.07 In Beispiel 126 wurde die Formel für PX ({k}) korrigiert (ein k war zuviel)
7.6.07 Für die folgenden Korrekturen ist Hrn Khdair zu danken.
Auf Seite 121 (M3) bzw. Seite 257 (M2) in der Tabelle die Gaußverteilung.
In Beispiel 135 3. am Ende Korrektur der Formel und Berechnung des Wertes von σ̂.
In Beispiel 137 3. ein “λ” im Exponenten eingefügt.
In Beispiel 138 1. wurde die Rechnung (jene mit MAPLE) und die Ausdrücke davor
korriegiert. Ebenso Glg.(4.3).
In Beispiel 141 fehlte eine Klammer.
310
Literaturverzeichnis
In Anmerkung 142 wurde das “n − 1” aus dem Zähler entfernt.
In Beispiel 143 1. ist die Berechnung von s̄2 inkorrekt, auch wenn die Ergebnisse nur
wenig differieren. In 2. wurde Y korrigiert, indem im Zähler das “n − 1” durch 1 ersetzt wurde. Die Berechnungen der beiden letzten Fragen zu diesem Beispielteil wurden
ebenfalls korrigiert.
8.6.07 In Beispiel 144 1. wurde in der ersten Formelzeile ein Ungleichheitszeichen umgedreht.
13.6.07 In Anmerkung 163 die Definition von “abgeschlossen” korrigiert.
20.6.07 In Beispiel 153 1. Korrektur in der Herleitung. In 2. wurde 2 mal der Nenner von
mn auf (m + 1)(n + 1) ausgebessert.
In Definition 170 3. sollte das Produkt aus einem Skalar und einem Vektor natürlich
einen Vektor liefern, daher wurde aus K ein V .
28.6.07 In Beispiel 219 beim Beweis der Dreiecksungleichung wurde 2 mal auf den Realteil
vergessen (im Beweis, daß ein normierter linearer Raum vorliegt).
9.7.07 In Definition 177 Elementaroperationen hat im zweiten Unterpunkt eine Null als
Index gefehlt.
In Beispiel 202 3. sollte der Ausdruck, welcher ψ definiert, unter einer Quadratwurzel
stehen.
In Beispiel 219 (dem Nachweis daß ein Prähilbertraum vorliegt, hat das < 2 mal gefehlt.
3.8.07 In Beispiel 6 2. wurde “x = 3” hinzugefügt.
In Definition 26 wurde “sie linear ist und” getilgt. Das folgt nämlich automatisch.
In Beispiel 28 2. wurde die Terminologie korrigiert.
In Beispiel 34 waren Teile der Tabelle falsch.
In Beispiel 59 3. wurde N∪{0} eingefügt, um das neutrale Element “0” dabei zu haben.
In Beispiel 159 1. ist in der linken Skizze a = 41 . Modifikationen wurden vorgenommen.
Beispiel 178 1. enthielt numerische Fehler.
Beispiel 194: es wurde der Vorzeichenfehler in der Antwort korrigiert.
31.10.07 In Unterabschnitt 3.1.4 wurde im Einleitungsabsatz knapp vor der Definition die
Formel für die Unabhängigkeit von Ereignissen korrigiert (das zweite X ist ein Y geworden).
In Anmerkung 122 wurde die Formel für V (XY ) korrigiert.
In Beispiel 129 wurde die DN von Φ korrigiert, sowie die Berechnung des Doppelintegrals.
19.4.08 Die bis 19.4.08 angefallenen Korrekturen aus dem Skriptum des WS 07/ SS 08
wurden übertragen, siehe dortiges Logfile.
A.6. Logfile: Korrekturen im Skriptum
5.6.08 Korrektur der Definition der Norm im Dualraum in Anmerkung ??
311
Herunterladen